千言数据集-文本相似度计算

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

婉儿守护者发布于2020-09

BQ Corpus数据集提供的训练数据是100,000，但是我在读取的过程中，只读到了86200 rows ，请问有大神知道怎么回事吗

全部评论(3)

Mr无敌小磊哥

#2 回复于2020-09

读取方式问题。

def read_tsv(input_file,columns):
with open(input_file,"r",encoding="utf-8") as file:
lines = []
count = 1
for line in file:
if len(line.strip().split("\t")) != 1:
lines.append([count]+line.strip().split("\t"))
count += 1
df = pd.DataFrame(lines)
df.columns = columns
return df

婉儿守护者

#3 回复于2020-09

多谢多谢

import pandas as pd
def read_tsv(input_file,columns):
    with open(input_file,"r",encoding="utf-8") as file:
        lines = []
        count = 1
        for line in file:
            if len(line.strip().split("\t")) != 1:
                lines.append([count]+line.strip().split("\t"))
                count += 1
        df = pd.DataFrame(lines)
        df.columns = columns
    return df
train = read_tsv('data/data52261/train.tsv',['index','sentences1','sentence2','label'])

BX01

#4 回复于2021-06

另外两个数据集怎么加载