首页 PaddleNLP 帖子详情
文本聚类 文本特征映射 预训练词表压缩任务
收藏
快速回复
PaddleNLP 文章NLP学习资料 559 1
文本聚类 文本特征映射 预训练词表压缩任务
收藏
快速回复
PaddleNLP 文章NLP学习资料 559 1

这是我想到的一个绝妙的idea。我想分享给大家我的思路。我要尽快把实验搞出来。

我们知道预训练语言模型我们有很多的文本转id的策略。这也影响着我们的下游任务的实现。

例如bert的bpe wordpiece

ernie tiny的sub word

但是有一种更好的事情一直没有发生

一种是textrank 另外一种是word2vec kmeans 做预训练语言模型的文本特征范围定义的

textrank我们可以通过全局textrank的平均去决定我们所需要的词表范围。

word2vec kmeans 我们可以通过定量聚类 来把几十万的词表映射到一个几万的id集合之中

我想这是有意义的,值得尝试的。

 

一些题外话 我是一个本科生毕业很多年 我希望我可以有一些真正的学术成就 是因为这个时代本来应该是公平的 那些没有继续进修的本科生依旧有着自己所热爱的研究方向 这样我们才能带来时代根本性的改变 我称这个时代为学术大航海时代 。2022的第一天让我们共同致敬那些仍然为了世界进步中国进步的人群们。

1
收藏
回复
全部评论(1)
时间顺序
p
pjc980513
#2 回复于2023-10

请问一下想法有实现吗?我也有类似的想法,我们可以一起做

0
回复
需求/bug反馈?一键提issue告诉我们
发现bug?如果您知道修复办法,欢迎提pr直接参与建设飞桨~
在@后输入用户全名并按空格结束,可艾特全站任一用户