如何针对tokenized的文本利用预训练模型？

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

还有家用电器发布于2021-08

我要做一个序列分类任务，但是给出的原始文本是经过加密转换的，即：每一个字（标点除外）都映射成了一个唯一的整数。

请问在这种情况下该如何使用预训练模型来进行tokenize和fit？

全部评论(4)

应

应十五

#2 回复于2021-08

这里可能不太适用预训练模型。存在的问题是：加密映射后的整数，我们无法找到对应的原始word_embedding，如果要使用的话，需要自己建立一个映射后的整数词表，然后通过随机初始化word_embedding的形式进行训练，并更新word_embedding参数，这对数据集的大小要求比较高。

还有家用电器

#3 回复于2021-08

应十五 #2

展开

感谢关注！

我后来了解了一些相关知识后发现，确实没办法直接使用预训练模型。这其实是datafountain上的一个赛题：https://www.datafountain.cn/competitions/512

赛题确实提供了约70G的数据，难道是想要我们根据这70G的数据将预训练的模型训练出来？感觉不应该提出这样的需求才对。

深渊上的坑

#4 回复于2021-09

还有家用电器 #3

感谢关注！我后来了解了一些相关知识后发现，确实没办法直接使用预训练模型。这其实是datafountain上的一个赛题：https://www.datafountain.cn/competitions/512 赛题确实提供了约70G的数据，难道是想要我们根据这70G的数据将预训练的模型训练出来？感觉不应该提出这样的需求才对。

展开

是不是可以考虑分组开展

深渊上的坑

#5 回复于2021-09

感觉只能重新建词表了

提issue

需求/bug反馈？一键提issue告诉我们

提pr

发现bug？如果您知道修复办法，欢迎提pr直接参与建设飞桨~