千言数据集-文本相似度计算
收藏
BQ Corpus数据集提供的训练数据是100,000,但是我在读取的过程中,只读到了86200 rows ,请问有大神知道怎么回事吗
0
收藏
请登录后评论
读取方式问题。
def read_tsv(input_file,columns):
with open(input_file,"r",encoding="utf-8") as file:
lines = []
count = 1
for line in file:
if len(line.strip().split("\t")) != 1:
lines.append([count]+line.strip().split("\t"))
count += 1
df = pd.DataFrame(lines)
df.columns = columns
return df
多谢多谢
另外两个数据集怎么加载