文本相似度计算,训练样本需要做数据标注吗
收藏
文本相似度计算,训练样本需要做数据标注吗?一定需要正负样本标注吗?标注有啥策略,求大佬指点
0
收藏
请登录后评论
如果需要全部标注的话工作量太大了,如果只是个人耍耍的话就只能望而却步了。应该有不需要标注的算法,但是需要标注测试集。你可以多看看blog
需要做部分标注
哪部分要标注。
不是用word2vector嵌入词向量,然后就可以做文本相似度计算?
或者直接用ernie、bert这样的预训练模型也能做文本相似度比较
有标注数据比word2vector这样的无监督学习效果更好么?