首页 炼丹房 帖子详情
月初了又该想想这个月搞什么精品项目出来了
收藏
快速回复
炼丹房 问答头脑风暴 1661 14
月初了又该想想这个月搞什么精品项目出来了
收藏
快速回复
炼丹房 问答头脑风暴 1661 14

得思考思考,大众期望的内容了。

0
收藏
回复
全部评论(14)
时间顺序
skywalk163
#2 回复于2021-12

大众就是喜欢喜闻乐见的东西。

0
回复
ygq
#3 回复于2022-01

文本相似度的深度学习解决方案 simnet如何

0
回复
JavaRoom
#4 回复于2022-01

那就对了

0
回复
ygq
#5 回复于2022-01

我想出来了,我要搞一个ernie tiny simnet 这一定是一个很棒的idea。

 

0
回复
ygq
#6 回复于2022-01

基于word2vec kmeans聚类 做词表映射达到预训练词表压缩任务。

0
回复
ygq
#7 回复于2022-01

我们知道预训练语言模型我们有很多的文本转id的策略。这也影响着我们的下游任务的实现。


例如bert的bpe wordpiece


ernie tiny的sub word


但是有一种更好的事情一直没有发生


一种是textrank 另外一种是word2vec kmeans 做预训练语言模型的文本特征范围定义的


textrank我们可以通过全局textrank的平均去决定我们所需要的词表范围。


word2vec kmeans 我们可以通过定量聚类 来把几十万的词表映射到一个几万的id集合之中


我想这是有意义的,值得尝试的。

 

 

一些题外话 我是一个本科生毕业很多年 我希望我可以有一些真正的学术成就 是因为这个时代本来应该是公平的 那些没有继续进修的本科生依旧有着自己所热爱的研究方向 这样我们才能带来时代根本性的改变 我称这个时代为学术大航海时代 。2022的第一天让我们共同致敬那些仍然为了世界进步中国进步的人群们。

0
回复
广商突破手
#8 回复于2022-01

三维重建的似乎比较少,值得研究

0
回复
玥亮
#9 回复于2022-01

强~ヾ(◍°∇°◍)ノ゙

0
回复
ygq
#10 回复于2022-01
三维重建的似乎比较少,值得研究

我只会nlp呢。cv的目前我还很弱。

0
回复
广商突破手
#11 回复于2022-01
ygq #10
我只会nlp呢。cv的目前我还很弱。

NLP我不行,一起加油

0
回复
深渊上的坑
#12 回复于2022-01

有时间写项目真幸福……来自被绊住几个月的我2333

0
回复
深渊上的坑
#13 回复于2022-01

还是卡在了标注上,谁来标注数据集,真是个大问题

0
回复
李长安
#14 回复于2022-01

冲冲冲

0
回复
ygq
#15 回复于2022-01
有时间写项目真幸福……来自被绊住几个月的我2333

我一般找个数据集就开始编。看起来和逻辑就行。

0
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户