Seq2Seq 模型库案例里的reader

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

A AIStudio784238 发布于2020-10

Seq2Seq 模型库案例里的reader 有几个看不懂的地方求助。

def read_all_line(filenam):

data = []

with io.open(filename, "r", encoding='utf-8') as f:

for line in f.readlines():

data.append(line.strip())

filename 好像写错了。

且在 para file to id 中：

def _para_file_to_ids(src_file, tar_file, src_vocab, tar_vocab):

src_data = []

with io.open(src_file, "r", encoding='utf-8') as f_src:

for line in f_src.readlines():

arra = line.strip().split()

ids = [src_vocab[w] if w in src_vocab else UNK_ID for w in arra]

ids = ids

src_data.append(ids)

tar_data = []

with io.open(tar_file, "r", encoding='utf-8') as f_tar:

for line in f_tar.readlines():

arra = line.strip().split()

ids = [tar_vocab[w] if w in tar_vocab else UNK_ID for w in arra]

ids = [1] + ids + [2]

tar_data.append(ids)

return src_data, tar_data

tar_data的ids=[1]+ ids+[2]

这里的1和2是什么意思啊，1 和2 不是已经在_build_vocab里分给了两个词了吗

github连接：https://github.com/PaddlePaddle/models/blob/release/1.8/dygraph/seq2seq/reader.py

全部评论(4)

AIStudio784238

#2 回复于2020-10

求助，哪里可以求助啊

thinc

#3 回复于2020-10

这个。。。排版可以再好点的，最上面有插入/编辑代码示例

AIStudio810258

#4 回复于2020-10

用代码格式吧，没有缩进了

AIStudio784238

#5 回复于2020-10

Seq2Seq 模型库案例里的reader 有几个看不懂的地方求助。

def read_all_line(filenam):

  data = []

  with io.open(filename, "r", encoding='utf-8') as f:

  for line in f.readlines():

  data.append(line.strip())

filename 好像写错了。

且在 para file to id 中：

def _para_file_to_ids(src_file, tar_file, src_vocab, tar_vocab):

 

 src_data = []

 with io.open(src_file, "r", encoding='utf-8') as f_src:

   for line in f_src.readlines():

   arra = line.strip().split()

   ids = [src_vocab[w] if w in src_vocab else UNK_ID for w in arra]

   ids = ids

 

   src_data.append(ids)

 

 tar_data = []

 with io.open(tar_file, "r", encoding='utf-8') as f_tar:

   for line in f_tar.readlines():

   arra = line.strip().split()

   ids = [tar_vocab[w] if w in tar_vocab else UNK_ID for w in arra]

 

   ids = [1] + ids + [2]

 

   tar_data.append(ids)

 

 return src_data, tar_data

tar_data的ids=[1]+ ids+[2]

这里的1和2是什么意思啊，1 和2 不是已经在_build_vocab里分给了两个词了吗

github连接：https://github.com/PaddlePaddle/models/blob/release/1.8/dygraph/seq2seq/reader.py

提issue

需求/bug反馈？一键提issue告诉我们

提pr

发现bug？如果您知道修复办法，欢迎提pr直接参与建设飞桨~