NLP常见问题汇总
1.Q:怎么标注训练数据?
A:
您需要把您要训练的数据分为正向和负向的,标注的标准可以按照实际业务场景来判断。
我们以手机领域的用户评论数据为例:
a. 正向语料:对所描述事物表达肯定、满意、喜欢等态度。如:这个手机的功能强大,国产机的春天到了!
b. 负向语料:对所描述事物表达否定、不满、不喜欢等态度。如:超级不耐用,系统也烂,怎么说呢,反正我是不会再买了!
注:如果您没有数据标注的人力精力,您可以在『百度数据众包平台』上申请,会有专业团队根据您的需求来标注数据
(『百度数据众包平台』链接:http://zhongbao.baidu.com/mark/home/index)
2.Q:模型训练需要上传多少数据?
A:
需自定义的语料分为正向语料(Positive)和负向语料(Negative),分别上传即可。每行一条数据,每种语料的数量需大于100 条,才可开始训练。为保证定制化效果,每种训练语料最好大于1000 条。当然,语料越多,模型的精度会越高。
注:建议您上传的正负语料的数量比例尽量均衡(1:1)。
3.Q:为什么不需要上传中性语料?
A:
只上传正负语料可以让模型把分类边界更加明确 。目前来说,中性的标准很难界定,且目前二分类和三分类效果持平,为了不增加用户标注负担,暂时不支持三分类定制。我们也在持续迭代更新后端算法,如果三分类有明显的增益会另外再开放中性语料训练,给予用户更多场景选择。
4.Q:模型是怎么进行训练和自动评估的?
A:
情感倾向分析的定制化在技术上的步骤包括4 个阶段:1). 数据预处理;2). 数据切分; 3). 特征提取及格式转换; 4).训练、验证及测试等阶段。
其中:
1) 数据预处理:包括对配文件进行检查、对用户上传正负向语料打上标签、并完成切词和词性标注。
2) 数据切分: 先从训练语料中按模取十分之一的数据作为测试集。测试集用于评估定制化前后的效果;接着对剩下的数据进行打乱,按9:1 的比例切分成训练集和验证集;其中,训练集用于模型的训练,验证集用于从已经训练好的模型中帮您筛选效果最好的模型。
3) 特征提取和格式转换:生成训练词典,将训练集、验证集、测试集转换成相应的格式,供训练使用。
4) 训练、验证及测试:使用训练工具进行训练,从训练的模型中挑选效果最好的模型,并在测试集上评估定制化前后的准确率。
自动评估:在第2 步的时候自动从训练数据里选取十分之一的数据,并在模型训练完成后自动对模型进行评估,分别评估出模型训练前后的准确率。
评估结果会包含四列:
l 第1列是用户原始训练数据,就是定制化训练数据切分的时候,按模取1/10 的数据。
l 第2列原始训练数据的label,用户上传的正向语料和负向语料,我们处理的时候会打上label,2表示正向,0 表示负向。
l 第3列是定制化前的通用模型得到的结果:2 表示正向,1 代表中性,0 表示负向。
l 第4列是定制化后的模型得到的结果:2 表示正向,1 代表中性,0 表示负向。
5.Q:模型训练失败的常见原因有哪些?
A:
a. 编码错误
b. 数据行为空
c. 网络错误
a、b请您检查语料,c请您稍候重试。排除后的其他情况可以联系我们进行解决。
先马住,新人报道前来学习NLP
win10 + pycharm + anaconda 3.5 一直显示编码错误
有人能帮忙看一下环境如何设置吗?
所有自然语言都以二分类思想吗?
挺好~
情感倾向分析可以分析情感强度哈
收藏了,这帮了我大忙了
请问可以分析情感强度吗