情感分类开源项目Senta:基于语义和大数据的百
都叫我阿蛋 发布于2018-09 浏览:10636 回复:4
1
收藏
最后编辑于2022-04

近年来,随着AI技术的不断发展,NLP领域的一项重要应用技术——文本情感分析也被越来越多的商业场景运用,在消费决策、舆情分析、个性化推荐等领域均有出众表现!

百度在情感分析领域开展了深入的技术研发和应用实践。此前,在百度AI开放平台对外开放了评论观点抽取 和 情感倾向分析服务。近期,还通过Github开放了情感分类开源项目Senta。Senta项目包含了基于语义的情感分类模型,还包含了基于大数据训练好的模型。

                                                       图1 情感分类示例

想做文本情感分析?想分析用户的评论与观点?想抽取用户的观点标签?想判断广告投放环境是否安全?......那么,这篇关于Senta系统的技术干货你一定不能错过!

什么是文本情感分析?
文本情感分析(简称情感分析)旨在识别和提取文本中的倾向、立场、评价、观点等主观信息。具体的说,情感分析主要包括两类任务:情感倾向分类(简称情感分类)和观点抽取。情感分析是人工智能的重要研究方向,具有很高的学术价值。同时,情感分析在消费决策、舆情分析、个性化推荐等领域均有重要的应用,具有很高的商业价值。其中,情感分类是用于识别主观文本中的情感倾向的技术。本文的情感倾向包括积极、中性、消极三类。情感分类是情感分析的核心问题,一直以来是研究的重点,同时它在用户消费习惯分析、危机舆情监控等均有重要应用。

 

Senta系统是怎么做到精准的文本情感分析的?
Senta系统的出众表现来源于两大法宝:

NO.1 基于深度学习的语义模型

传统的情感分类主要基于词典或者特征工程的方式进行分类,这种方法需要繁琐的人工特征设计和先验知识,理解停留于浅层而且扩展能力差。为了避免传统方法的局限,我们采用了近年来飞速发展的深度学习技术。基于深度学习的情感分类不依赖于人工特征,它能够端到端的对输入文本进行语义理解,并基于语义表示进行情感倾向的判断。

                                             图2 基于bi-LSTM的情感分类模型

上图展示了基于bi-LSTM的情感分类。总体来说,这个模型包括三层:单词语义层,句子语义层,输出层。1.单词语义层,主要是将输入文本中的每个单词转化为连续的语义向量表示,也就是单词的embedding。2.句子语义层,通过bi-LSTM网络结构,将单词语义的序列转化为整个句子的语义表示。3.输出层,基于句子语义计算情感倾向的概率。

对于句子语义层,我们内部实验了各种各样的模型,包括bi-LSTM,CNN,hierarchical LSTM,self-attention等多种模型。我们发现在大规模语料上,单层bi-LSTM能够实现较好的效果。因此,在开源代码中,我们默认提供了bi-LSTM模型,同时我们还提供CNN,BOW等模型。

 

NO.2 基于标记传播的大规模情感数据挖掘
互联网上天然有大量的弱标记评论数据,比如用户会对某个商品给予评论,同时给予评分。根据评分的高低我们就能确定评论的正负倾向。然而,这种数据是包含大量噪声的,需要一定的算法才能获取高质量数据。

                                       图3 基于标记传播的情感标记数据挖掘

上图展示了我们的主要思路。

我们首先从网络上获取大规模的评论数据,根据特定规则获取高质量种子标注数据;
然后我们通过计算评论间的语义相似度,将数据连接成图结构;
最后我们就可以通过标记传播算法,将原来未标记数据转化为标注数据。
我们实验发现,这种方法获取的数据质量很高,基于此数据训练得到的情感分类模型,在各种垂类准确率高,整体效果业界领先。

 

Senta系统有哪些应用? 
情感分类既可以单独应用,提供舆情倾向分析;也可以与观点抽取结合,形成观点概述。情感分类在百度搜索、百度资讯流、百度糯米均有落地应用,显著提升了用户体验。也正是在这些应用落地的过程中,我们的情感分类和观点抽取得到不断的打磨和提升,达到了工业应用的要求。未来,我们将继续研发情感分析技术,并将最新最前沿的技术开源共享出来。

下图就是产品中的实际应用示例:

                                                     图4 情感分析在百度产品中的应用示例

看了这么多,是不是想迫不及待的开始使用了?接下来 划重点!

 

如果想用开放代码做项目和产品,可以点击Senta系统,在github上了解更多详情并可直接下载使用~别忘了为Senta系统点亮你的小星星哦!

如果想直接接入成熟接口,可以在百度AI开放平台选择评论观点抽取和情感倾向分析,即可立即申请开通服务!

文中涉及链接:

1.senta系统:https://github.com/baidu/Senta

2.情感倾向分析:http://ai.baidu.com/tech/nlp/sentiment_classify

3.评论观点抽取:http://ai.baidu.com/tech/nlp/comment_tag

收藏
点赞
1
个赞
共4条回复 最后由用户已被禁言回复于2022-04
#5用户已被禁言回复于2021-05

上海
http://xasgkfp.diytrade.com/
https://xasgkfp.diytrade.com/
http://cdfapiao.simplesite.com/
http://xakfp.simplesite.com/

0
#4纸_笺回复于2021-05

请问使用了Senta模型后,在文献中如何引用?(不是SEKP算法)

0
#3文库1992abc回复于2021-01

如果想进行三分类怎么做?

0
#2xianlu199回复于2018-10

学习了,赞

0
TOP
切换版块