NLP常见问题汇总

首页版块访问AI主站注册发帖

NLP常见问题汇总

置顶

官

用户已被禁言发布于2019-03 浏览:14503 回复:8

NLP常见问题汇总

快速回复

NLP常见问题汇总

1.Q：怎么标注训练数据？

A：

您需要把您要训练的数据分为正向和负向的，标注的标准可以按照实际业务场景来判断。

我们以手机领域的用户评论数据为例：

a. 正向语料：对所描述事物表达肯定、满意、喜欢等态度。如：这个手机的功能强大，国产机的春天到了！

b. 负向语料：对所描述事物表达否定、不满、不喜欢等态度。如：超级不耐用，系统也烂，怎么说呢，反正我是不会再买了！

注：如果您没有数据标注的人力精力，您可以在『百度数据众包平台』上申请，会有专业团队根据您的需求来标注数据

（『百度数据众包平台』链接：http://zhongbao.baidu.com/mark/home/index）

2.Q：模型训练需要上传多少数据？

A：

需自定义的语料分为正向语料（Positive）和负向语料（Negative），分别上传即可。每行一条数据，每种语料的数量需大于100 条，才可开始训练。为保证定制化效果，每种训练语料最好大于1000 条。当然，语料越多，模型的精度会越高。

注：建议您上传的正负语料的数量比例尽量均衡（1：1）。

3.Q：为什么不需要上传中性语料？

A：

只上传正负语料可以让模型把分类边界更加明确。目前来说，中性的标准很难界定，且目前二分类和三分类效果持平，为了不增加用户标注负担，暂时不支持三分类定制。我们也在持续迭代更新后端算法，如果三分类有明显的增益会另外再开放中性语料训练，给予用户更多场景选择。

4.Q：模型是怎么进行训练和自动评估的？

A：

情感倾向分析的定制化在技术上的步骤包括4 个阶段：1). 数据预处理；2). 数据切分； 3). 特征提取及格式转换; 4).训练、验证及测试等阶段。

其中：

1) 数据预处理：包括对配文件进行检查、对用户上传正负向语料打上标签、并完成切词和词性标注。

2) 数据切分：先从训练语料中按模取十分之一的数据作为测试集。测试集用于评估定制化前后的效果；接着对剩下的数据进行打乱，按9:1 的比例切分成训练集和验证集；其中，训练集用于模型的训练，验证集用于从已经训练好的模型中帮您筛选效果最好的模型。

3) 特征提取和格式转换：生成训练词典，将训练集、验证集、测试集转换成相应的格式，供训练使用。

4) 训练、验证及测试：使用训练工具进行训练，从训练的模型中挑选效果最好的模型，并在测试集上评估定制化前后的准确率。

自动评估：在第2 步的时候自动从训练数据里选取十分之一的数据，并在模型训练完成后自动对模型进行评估，分别评估出模型训练前后的准确率。

评估结果会包含四列：

l 第1列是用户原始训练数据，就是定制化训练数据切分的时候，按模取1/10 的数据。

l 第2列原始训练数据的label，用户上传的正向语料和负向语料，我们处理的时候会打上label，2表示正向，0 表示负向。

l 第3列是定制化前的通用模型得到的结果：2 表示正向，1 代表中性，0 表示负向。

l 第4列是定制化后的模型得到的结果：2 表示正向，1 代表中性，0 表示负向。

5.Q：模型训练失败的常见原因有哪些？

A：

a. 编码错误

b. 数据行为空

c. 网络错误

a、b请您检查语料，c请您稍候重试。排除后的其他情况可以联系我们进行解决。

技术问答

个赞

共8条回复最后由192******42回复于2023-10

#9192******42回复于2023-10

#818500862512qq回复于2021-06

先马住，新人报道前来学习NLP

#7wza5520回复于2020-08

win10 + pycharm + anaconda 3.5 一直显示编码错误

有人能帮忙看一下环境如何设置吗？

#6Randcase回复于2020-08

所有自然语言都以二分类思想吗？

#5134******14回复于2020-07

挺好~

#4饭小团回复于2020-04

对#2 铁人俊俊的粉丝回复

请问可以分析情感强度吗

情感倾向分析可以分析情感强度哈

#3杨凯kd回复于2020-03

收藏了，这帮了我大忙了

#2铁人俊俊的粉丝回复于2019-12

请问可以分析情感强度吗

快速回复

小编推荐

【强化学习算法】原理介绍

猪腰子3 12回复

【强化学习算法】PARL介绍、常见问题和解决方法

猪腰子3 12回复

【强化学习算法】常见应用

猪腰子3 7回复

NLP常见问题汇总

用户已被禁言 8回复

第三期【百度大脑新品体验】手写诗一首，AI来读

wangwei8638 66回复

TOP

操作指南

常见问答

平台公告

经验交流

技术专区

文字识别

人脸识别

语音技术

PaddlePaddle

EasyDL

BML

EasyData

AI Studio

UNIT

人体分析

图像搜索

图像识别

内容审核

自然语言处理

机器人视觉

视频技术

增强现实

知识图谱

智能创作

智能呼叫中心

文心

EdgeBoard

DuerOS

EasyEdge

度目硬件

百度AI市场

Doris

AI赛事

百度之星大赛

AI Studio人工智能竞赛

语言与智能技术竞赛

千言数据集

集思广益

共享工具

头脑风暴

成果展示

智能客服