月初了又该想想这个月搞什么精品项目出来了
收藏
得思考思考,大众期望的内容了。
0
收藏
请登录后评论
大众就是喜欢喜闻乐见的东西。
文本相似度的深度学习解决方案 simnet如何
那就对了
我想出来了,我要搞一个ernie tiny simnet 这一定是一个很棒的idea。
基于word2vec kmeans聚类 做词表映射达到预训练词表压缩任务。
我们知道预训练语言模型我们有很多的文本转id的策略。这也影响着我们的下游任务的实现。
例如bert的bpe wordpiece
ernie tiny的sub word
但是有一种更好的事情一直没有发生
一种是textrank 另外一种是word2vec kmeans 做预训练语言模型的文本特征范围定义的
textrank我们可以通过全局textrank的平均去决定我们所需要的词表范围。
word2vec kmeans 我们可以通过定量聚类 来把几十万的词表映射到一个几万的id集合之中
我想这是有意义的,值得尝试的。
一些题外话 我是一个本科生毕业很多年 我希望我可以有一些真正的学术成就 是因为这个时代本来应该是公平的 那些没有继续进修的本科生依旧有着自己所热爱的研究方向 这样我们才能带来时代根本性的改变 我称这个时代为学术大航海时代 。2022的第一天让我们共同致敬那些仍然为了世界进步中国进步的人群们。
三维重建的似乎比较少,值得研究
强~ヾ(◍°∇°◍)ノ゙
我只会nlp呢。cv的目前我还很弱。
NLP我不行,一起加油
有时间写项目真幸福……来自被绊住几个月的我2333
还是卡在了标注上,谁来标注数据集,真是个大问题
冲冲冲
我一般找个数据集就开始编。看起来和逻辑就行。