如何针对tokenized的文本利用预训练模型?
收藏
我要做一个序列分类任务,但是给出的原始文本是经过加密转换的,即:每一个字(标点除外)都映射成了一个唯一的整数。
请问在这种情况下该如何使用预训练模型来进行tokenize和fit?
0
收藏
请登录后评论
这里可能不太适用预训练模型。存在的问题是:加密映射后的整数,我们无法找到对应的原始word_embedding,如果要使用的话,需要自己建立一个映射后的整数词表,然后通过随机初始化word_embedding的形式进行训练,并更新word_embedding参数,这对数据集的大小要求比较高。
感谢关注!
我后来了解了一些相关知识后发现,确实没办法直接使用预训练模型。这其实是datafountain上的一个赛题:https://www.datafountain.cn/competitions/512
赛题确实提供了约70G的数据,难道是想要我们根据这70G的数据将预训练的模型训练出来?感觉不应该提出这样的需求才对。
是不是可以考虑分组开展
感觉只能重新建词表了