文本聚类 文本特征映射 预训练词表压缩任务
收藏
这是我想到的一个绝妙的idea。我想分享给大家我的思路。我要尽快把实验搞出来。
我们知道预训练语言模型我们有很多的文本转id的策略。这也影响着我们的下游任务的实现。
例如bert的bpe wordpiece
ernie tiny的sub word
但是有一种更好的事情一直没有发生
一种是textrank 另外一种是word2vec kmeans 做预训练语言模型的文本特征范围定义的
textrank我们可以通过全局textrank的平均去决定我们所需要的词表范围。
word2vec kmeans 我们可以通过定量聚类 来把几十万的词表映射到一个几万的id集合之中
我想这是有意义的,值得尝试的。
一些题外话 我是一个本科生毕业很多年 我希望我可以有一些真正的学术成就 是因为这个时代本来应该是公平的 那些没有继续进修的本科生依旧有着自己所热爱的研究方向 这样我们才能带来时代根本性的改变 我称这个时代为学术大航海时代 。2022的第一天让我们共同致敬那些仍然为了世界进步中国进步的人群们。
1
收藏
请登录后评论
请问一下想法有实现吗?我也有类似的想法,我们可以一起做