ACL2018: 百度阅读理解技术让机器读懂文本
笔墨哥 发布于2018-05 浏览:7151 回复:29
1
收藏
最后编辑于2022-04

在搜索引擎中输入一个问题,通常会获得多个候选答案,此时人们会通过对比判断,选择或归纳出最优答案。如果是机器来做这件事,会是怎样的呢?


近日,百度的研究者从两种不同角度出发,探索了多文档校验方案对多文档阅读理解的作用,分别提出了多文档校验模型 V-NET 以及一种强化学习训练机制,进而让机器能够预测出更好的答案,提高准确率。目前,这两项研究工作的论文均已被 ACL 2018大会录用:

·《Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Verification》

·《Joint Training of Candidate Extraction and Answer Selection in Reading Comprehension》


国际计算语言学学会(Annual Meeting of the Association for Computational Linguistics,简称 ACL)是自然语言处理与计算语言学领域最高级别的学术会议。ACL 会议涵盖语言分析、信息抽取、自动问答、对话系统、机器翻译等各个领域,每年发表的论文都反映了自然语言处理领域的最新研究进展和学术动向,受到学术界和工业界的广泛重视。据报道,本届会议共计有1551篇论文进入审查阶段(1021 长篇,530 篇短篇),录用率约为20%。一个研究机构在 ACL 上发表的论文数量和质量也在一定程度上代表了该团队在本领域的研究实力和领先程度。

机器阅读理解(Machine Reading Comprehension)是指让机器阅读文本,然后回答和阅读内容相关的问题。其技术可以使计算机具备从文本数据中获取知识并回答问题的能力,是构建通用人工智能的关键技术之一。简单来说,就是根据给定材料和问题,让机器给出正确答案。阅读理解是自然语言处理和人工智能领域的重要前沿课题,对于提升机器智能水平、使机器具有持续知识获取能力具有重要价值,近年来受到学术界和工业界的广泛关注。

随着机器阅读理解技术的发展,阅读理解任务也在不断升级,从早期的“完形填空形式”,发展到基于维基百科的“单文档阅读理解”,如以斯坦福 SQuAD 为数据集的任务。并进一步升级至基于 web(网页)数据的“多文档阅读理解”,这一形式的典型代表是以微软 MS-MARCO、百度 DuReader 为数据集的任务。

目前,针对不同的阅读理解任务,研究人员已经设计出多种模型,并取得初步成效。然而在多文档阅读理解任务中,由于与问题相关的文档很多,带来的歧义也更多,由此可能最终导致阅读理解模型定位错误的答案。面对这些问题,人类的思考模式通常为:先找到多个候选答案,通过对比多个候选答案的内容,选出最终答案,由此来找到准确率最高的答案。沿着这种思路,百度从不同角度探索了多文档校验方案对多文档阅读理解的作用,进而让机器能够更好地理解内容,给出正确答案。

在论文《Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Verification》中,百度提出了一种新的多文档校验的深度神经网络建模方法 V-NET,通过注意力机制使不同文档产生的答案之间能够产生交换信息互相印证,从而预测出更好的答案。V-NET 是一个端到端的神经网络模型,如下图所示,该模型同时使用三个不同的模块分别从三个方面来预测答案:答案的边界预测模块、答案内容预测模块和多文档的答案验证模块。在 MARCO 和 DuReader 数据集上,V-NET 模型效果显著优于其他系统。

V-NET 模型的整体架构

 

在论文《Joint Training of Candidate Extraction and Answer Selection in Reading Comprehension》中,百度利用强化学习的方法对串行的多文档阅读理解模块进行联合训练。在传统的问答系统中,“抽取候选答案->综合选出答案”串行的模式非常常见,但通常将这两个步骤看成独立的模块分开处理。其实,这两个模块之间的联系非常密切,同时也由于数据集没有提供各文档的可能的候选答案,因此百度将各文档中的候选答案视为隐变量,用神经网络分别建模对应的两种行为(action),并在多文档校验模块中引入相关性矩阵建模候选答案之间的关联关系。在此基础上采用强化学习的方法联合训练,以提升最终答案与真实答案的匹配程度,也就是直接根据评价指标同步训练两阶段的模型。


此外,针对多文档阅读理解任务,百度自然语言处理团队此前已经发布了面向真实搜索应用的最大中文开放领域阅读理解数据集 DuReader,包含30万问题、150万文档和72万答案。并基于此数据集举办了2018中文阅读理解技术评测(http://mrc2018.cipsc.org.cn/),评测共有1062个队伍报名,累计提交结果1489次。该评测推动了机器阅读理解技术,尤其是中文阅读理解技术的发展。DuReader 数据集以及评测方法的论文也均被 ACL2018阅读理解研讨会(Workshop on Machine Reading for Question Answering)所录用:


·《DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications》

·《Adaptations of ROUGE and BLEU to Better Evaluate Machine Reading Comprehension Task》


百度在自然语言处理(NLP)领域已经过十余年积累与沉淀,具备了最前沿、最全面、最领先的技术布局,不仅专注于前瞻技术探索,更致力通过技术应用解决实际问题。据悉,上述两项技术均已直接应用于百度搜索引擎产品中,提升机器阅读理解的效果,它直接在搜索结果中精准定位用户输入的问题,并在显著位置呈现,为用户节约大量的宝贵时间。同时,作为百度 AI 技术的重要组成部分,这些技术还将赋能百度技术体系及智能产品中,提升用户问答需求的相应能力,最终或将通过百度技术开放渠道开放,赋能广大开发者与合作伙伴。

 

内容来源:百度AI

收藏
点赞
1
个赞
共29条回复 最后由用户已被禁言回复于2022-04
#30风搅火回复于2018-07
#29 笔墨哥回复
好像现在可以伪原创吧

好像只有简单的通知这类的文章可以

0
#29笔墨哥回复于2018-07
#28 风搅火回复
很快ai就能代替人写文章了

好像现在可以伪原创吧

0
#28风搅火回复于2018-07

很快ai就能代替人写文章了

0
#27秘密花园jay回复于2018-06
#26 人间月天回复
因为婆婆没办法自己一个人带娃,所以我没没办法工作,只好另谋出路。

我相信你没问题 加油

0
#26人间月天回复于2018-06
#24 秘密花园jay回复
月亮姐姐要自己创业了

因为婆婆没办法自己一个人带娃,所以我没没办法工作,只好另谋出路。

0
#25人间月天回复于2018-06
#23 笔墨哥回复
商标有啥用...你要开自己的品牌吗...

有这么个打算哎,还在计划中。

0
#24秘密花园jay回复于2018-06
#23 笔墨哥回复
商标有啥用...你要开自己的品牌吗...

月亮姐姐要自己创业了

0
#23笔墨哥回复于2018-06
#21 人间月天回复
不开公司,注册个商标用。

商标有啥用...你要开自己的品牌吗...

0
#22笔墨哥回复于2018-06
#20 人间月天回复
嗯,回头试试。没有广告确实爽歪歪。、

只是没有算法的干预,依旧要擦亮眼睛

0
#21人间月天回复于2018-06
#18 秘密花园jay回复
你要开公司吗,注册商标干啥

不开公司,注册个商标用。

0
#20人间月天回复于2018-06
#19 笔墨哥回复
所以啊,简单搜索用起来试试咯?

嗯,回头试试。没有广告确实爽歪歪。、

0
#19笔墨哥回复于2018-06
#17 人间月天回复
眼花缭乱,没看清楚就点进去了。

所以啊,简单搜索用起来试试咯?

0
#18秘密花园jay回复于2018-06
#17 人间月天回复
眼花缭乱,没看清楚就点进去了。

你要开公司吗,注册商标干啥

0
#17人间月天回复于2018-06
#16 笔墨哥回复
广告不都是有标记的么... 这个关键词显然具有商业价值...触发了意图识别吧?...
展开

眼花缭乱,没看清楚就点进去了。

0
#16笔墨哥回复于2018-06
#15 人间月天回复
有一些广告做的跟官网似的,我上次想注册商标,然后估计头脑发热,点了一个广告 以为是官网,用手机号注册了 然后接了好几个电话。。
展开

广告不都是有标记的么...

这个关键词显然具有商业价值...触发了意图识别吧?...

0
#15人间月天回复于2018-06
#12 笔墨哥回复
对啊,就是没广告的那个。现在的搜索结果,毕竟有一些广告....

有一些广告做的跟官网似的,我上次想注册商标,然后估计头脑发热,点了一个广告

以为是官网,用手机号注册了

然后接了好几个电话。。

0
#14笔墨哥回复于2018-06
#11 人间月天回复
入门难吧,学啥东西都是入门难。

教宝宝语言是不是蛮辛苦的....

0
#13笔墨哥回复于2018-06
#9 人间月天回复
额,现在的这个搜索,广告眼花缭乱。

不过移动搜索很多流量投放在了熊掌号,搜索蛮前排的,也比较方便

0
#12笔墨哥回复于2018-06
#8 人间月天回复
简单搜索,是不是说木有广告的那种?

对啊,就是没广告的那个。现在的搜索结果,毕竟有一些广告....

0
#11人间月天回复于2018-06
#10 笔墨哥回复
学语言真的蛮难的,刚开始真的很难走入

入门难吧,学啥东西都是入门难。

0
TOP
切换版块