情感倾向分析定制版的常见问题QA
问题1:
怎么标注训练数据
回答:
您需要把您要训练的数据分为正向和负向的,标注的标准可以按照实际业务场景来判断。
我们以手机领域的用户评论数据为例:
a. 正向语料:对所描述事物表达肯定、满意、喜欢等态度。如:这个手机的功能强大,国产机的春天到了!
b. 负向语料:对所描述事物表达否定、不满、不喜欢等态度。如:超级不耐用,系统也烂,怎么说呢,反正我是不会再买了!
注:如果您没有数据标注的人力精力,您可以在『百度数据众包平台』上申请,会有专业团队根据您的需求来标注数据(『百度数据众包平台』链接:
http://zhongbao.baidu.com/mark/home/index)
问题2:
模型训练需要上传多少数据?
回答:
需自定义的语料分为正向语料(Positive)和负向语料(Negative),分别上传即可。每行一条数据,每种语料的数量需大于100 条,才可开始训练。为保证定制化效果,每种训练语料最好大于1000 条。当然,语料越多,模型的精度会越高。
注:建议您上传的正负语料的数量比例尽量均衡(1:1)。
问题3:
为什么不需要上传中性语料?
回答:
只上传正负语料可以让模型把分类边界更加明确 。目前来说,中性的标准很难界定,且目前二分类和三分类效果持平,为了不增加用户标注负担,暂时不支持三分类定制。我们也在持续迭代更新后端算法,如果三分类有明显的增益会另外再开放中性语料训练,给予用户更多场景选择。
问题4:
模型是怎么进行训练和自动评估的?
回答:
情感倾向分析的定制化在技术上的步骤包括4 个阶段:1). 数据预处理;2). 数据切分; 3). 特征提取及格式转换; 4).训练、验证及测试等阶段。
其中:
1) 数据预处理:包括对配文件进行检查、对用户上传正负向语料打上标签、并完成切词和词性标注。
2) 数据切分: 先从训练语料中按模取十分之一的数据作为测试集。测试集用于评估定制化前后的效果;接着对剩下的数据进行打乱,按9:1 的比例切分成训练集和验证集;其中,训练集用于模型的训练,验证集用于从已经训练好的模型中帮您筛选效果最好的模型。
3) 特征提取和格式转换:生成训练词典,将训练集、验证集、测试集转换成相应的格式,供训练使用。
4) 训练、验证及测试:使用训练工具进行训练,从训练的模型中挑选效果最好的模型,并在测试集上评估定制化前后的准确率。
自动评估:在第2 步的时候自动从训练数据里选取十分之一的数据,并在模型训练完成后自动对模型进行评估,分别评估出模型训练前后的准确率。
评估结果会包含四列:
第1列是用户原始训练数据,就是定制化训练数据切分的时候,按模取1/10 的数据。
第2列原始训练数据的label,用户上传的正向语料和负向语料,我们处理的时候会打上label,2表示正向,0 表示负向。
第3列是定制化前的通用模型得到的结果:2 表示正向,1 代表中性,0 表示负向。
第4列是定制化后的模型得到的结果:2 表示正向,1 代表中性,0 表示负向。
问题5:
模型训练失败的常见原因有哪些?
回答:
a. 编码错误
b. 数据行为空
c. 网络错误
a、b请您检查语料,c请您稍候重试。排除后的其他情况可以联系我们进行解决。
怎么把生效的模型停用,然后启用新模型?
这个分析背后用的模型是senta吗,还是其他模型?
模型训练需要多久?
支持英文吗
为什么按照文档调用了数据以后没法输出结果?
亲亲 请问模型生效了 如何进行情感分析呀?找不到入口。。。
为什么我放在正向语料里的评论,情感分析的结果还是显示负向????
请仔细确认是否与文档中的步骤一致,若仍存在问题请提交工单帮您解决问题。
定制版结果输出取决于您提供的训练数据
可以支持情感强度分析
为什么我建的模型训练了一夜都还没好?
数据大概多久处理完呀?
可以分析情感强度吗?
上传语料是乱码,格式为utf8,怎么解决
正负向预料加上标签是否影响训练效果
控制台建立应用,然后可以调用
这玩意儿凭什么叫定制化,我定制的内容正负最终还是平台通用模型的结果,根本达不到定制的效果
如何调用训练好的模型?