首页 PaddleNLP 帖子详情
如何针对tokenized的文本利用预训练模型?
收藏
快速回复
PaddleNLP 问答NLP 648 4
如何针对tokenized的文本利用预训练模型?
收藏
快速回复
PaddleNLP 问答NLP 648 4

我要做一个序列分类任务,但是给出的原始文本是经过加密转换的,即:每一个字(标点除外)都映射成了一个唯一的整数。

请问在这种情况下该如何使用预训练模型来进行tokenize和fit?

0
收藏
回复
全部评论(4)
时间顺序
应十五
#2 回复于2021-08

这里可能不太适用预训练模型。存在的问题是:加密映射后的整数,我们无法找到对应的原始word_embedding,如果要使用的话,需要自己建立一个映射后的整数词表,然后通过随机初始化word_embedding的形式进行训练,并更新word_embedding参数,这对数据集的大小要求比较高。

0
回复
还有家用电器
#3 回复于2021-08
这里可能不太适用预训练模型。存在的问题是:加密映射后的整数,我们无法找到对应的原始word_embedding,如果要使用的话,需要自己建立一个映射后的整数词表,然后通过随机初始化word_embedding的形式进行训练,并更新word_embedding参数,这对数据集的大小要求比较高。
展开

感谢关注!

我后来了解了一些相关知识后发现,确实没办法直接使用预训练模型。这其实是datafountain上的一个赛题:https://www.datafountain.cn/competitions/512

赛题确实提供了约70G的数据,难道是想要我们根据这70G的数据将预训练的模型训练出来?感觉不应该提出这样的需求才对。

0
回复
深渊上的坑
#4 回复于2021-09
感谢关注! 我后来了解了一些相关知识后发现,确实没办法直接使用预训练模型。这其实是datafountain上的一个赛题:https://www.datafountain.cn/competitions/512 赛题确实提供了约70G的数据,难道是想要我们根据这70G的数据将预训练的模型训练出来?感觉不应该提出这样的需求才对。
展开

是不是可以考虑分组开展

0
回复
深渊上的坑
#5 回复于2021-09

感觉只能重新建词表了

0
回复
需求/bug反馈?一键提issue告诉我们
发现bug?如果您知道修复办法,欢迎提pr直接参与建设飞桨~
在@后输入用户全名并按空格结束,可艾特全站任一用户