NLP自定义数据集
收藏
快速回复
AI Studio平台使用 问答数据集 1076 8
NLP自定义数据集
收藏
快速回复
AI Studio平台使用 问答数据集 1076 8

请问自定义数据集的行与行之间应该怎样分隔?用'\n'吗?

0
收藏
回复
全部评论(8)
时间顺序
AIStudio810258
#2 回复于2020-03

怎么定义就怎么读取。没有限制。

0
回复
AIStudio810258
#3 回复于2020-03

一般用numpy进行S/L

0
回复
C
ColinDowney
#4 回复于2020-03
怎么定义就怎么读取。没有限制。

https://github.com/PaddlePaddle/PaddleHub/blob/release/v1.5/docs/tutorial/how_to_load_data.md

是打算使用这个BaseNLPDataset,里面只提到列与列之间应该用tab制表符分隔,不知道行之间是否有要求?

0
回复
AIStudio810258
#5 回复于2020-03

试试下载数据集解压,打印成二进制看看都用的什么间隔数据

print(msg.encode(encoding = "utf-8").decode(encoding = "utf-8"))#unicode编码转换为utf-8编码,再转化为unicode编码

0
回复
水水水的老师
#6 回复于2020-03

\n是通用   换行符

0
回复
C
ColinDowney
#7 回复于2020-03
\n是通用   换行符

谢谢

0
回复
水水水的老师
#8 回复于2020-03
谢谢

也可以自己定义  我就喜欢\t

0
回复
水水水的老师
#9 回复于2020-03

其实制表符   是我大部分情况下使用的

0
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户