千言数据集-文本相似度计算
收藏
快速回复
【千言数据集】 问答其他 2025 3
千言数据集-文本相似度计算
收藏
快速回复
【千言数据集】 问答其他 2025 3

BQ Corpus数据集提供的训练数据是100,000,但是我在读取的过程中,只读到了86200 rows ,请问有大神知道怎么回事吗

0
收藏
回复
全部评论(3)
时间顺序
M
Mr无敌小磊哥
#2 回复于2020-09

读取方式问题。

def read_tsv(input_file,columns):
with open(input_file,"r",encoding="utf-8") as file:
lines = []
count = 1
for line in file:
if len(line.strip().split("\t")) != 1:
lines.append([count]+line.strip().split("\t"))
count += 1
df = pd.DataFrame(lines)
df.columns = columns
return df

1
回复
婉儿守护者
#3 回复于2020-09

多谢多谢

import pandas as pd
def read_tsv(input_file,columns):
    with open(input_file,"r",encoding="utf-8") as file:
        lines = []
        count = 1
        for line in file:
            if len(line.strip().split("\t")) != 1:
                lines.append([count]+line.strip().split("\t"))
                count += 1
        df = pd.DataFrame(lines)
        df.columns = columns
    return df
train = read_tsv('data/data52261/train.tsv',['index','sentences1','sentence2','label'])
0
回复
BX01
#4 回复于2021-06

另外两个数据集怎么加载

0
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户