NLP自定义数据集
收藏
请问自定义数据集的行与行之间应该怎样分隔?用'\n'吗?
0
收藏
请登录后评论
怎么定义就怎么读取。没有限制。
一般用numpy进行S/L
https://github.com/PaddlePaddle/PaddleHub/blob/release/v1.5/docs/tutorial/how_to_load_data.md
是打算使用这个BaseNLPDataset,里面只提到列与列之间应该用tab制表符分隔,不知道行之间是否有要求?
试试下载数据集解压,打印成二进制看看都用的什么间隔数据
print(msg.encode(encoding = "utf-8").decode(encoding = "utf-8"))#unicode编码转换为utf-8编码,再转化为unicode编码
\n是通用 换行符
谢谢
也可以自己定义 我就喜欢\t
其实制表符 是我大部分情况下使用的