NLP前沿研究成果大开源,百度PaddleNLP-研究版发布
为了更好服务NLP研究者,百度PaddleNLP于近日完成了针对其研究能力的升级,即 PaddleNLP-研究版。
PaddleNLP-研究版旨在基于飞桨(PaddlePaddle)和百度NLP深厚的技术积累,为广大研究者提供NLP领域前沿方向的研究成果、代码与数据,让广大研究者们可以快速复现已发表学术论文的实验效果,并据此开展新的研究。
目前,PaddleNLP已经开放了包括ACL2019、NAACL2019、IJCAI2019、MRQA2019等顶级NLP会议5篇最新论文的代码,并支持了3个竞赛的代码复现,同时配合开放了2个相关论文的数据集,覆盖信息抽取、对话系统、阅读理解等热门研究方向。
PaddleNLP还将持续升级,并在近期开源更多百度大脑在NLP领域的研究成果,例如发表于ACL2019的KT-NET、SEEDS、STACL等模型与框架,覆盖阅读理解、对话系统、同声传译等研究方向。
未来,PaddleNLP作为一个同时覆盖工业应用和学术研究的全方位工具与数据集,将持续依托飞桨(PaddlePaddle)和百度NLP强大的技术保障,为开发者提供更多可低门槛获取的前沿NLP技术,欢迎持续关注。
百度 PaddleNLP-研究版近期开源项目概览
摘要:远监督通过知识库自动获取标注语料,是关系抽取的关键算法。但是远监督通常会引入大量噪声数据,即句子并未表达自动标注的关系。进一步说,基于远监督学习的模型效果不佳、解释性差,无法解释关系的指示词。
为此,我们提出基于注意力正则化的ARNOR框架(Attention Regularization based NOise Reduction)。此方法通过注意力机制,要求模型能够关注关系的指示词,进而识别噪声数据,并通过bootstrap方法逐步选择出高质量的标注数据,改善模型效果。此方法在关系分类及降噪上均显著优于此前最好的增强学习算法。
应用价值:在文本信息抽取有广泛的应用价值。此方法能够显著降低对标注数据的依赖,实现低成本的基于知识库的自动关系学习,未来可落地在医疗、金融等行业信息抽取中。
GitHub 地址:
https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/Research/ACL2019-ARNOR
摘要:目前的人机对话还处于初级水平,机器大多是被动对话,无法像人类一样进行充分交互。我们提出了基于知识图谱的主动对话任务,让机器像人类一样主动和用户进行对话。对话过程中,机器根据知识图谱主动引领对话进程完成提前设定的话题(实体)转移目标,并保持对话的自然和流畅性。为此,我们在电影和娱乐任务领域人工标注3万组共27万个句子的主动对话语料,并实现了生成和检索的两个主动对话基线模型。
应用价值:可应用于智能音箱中的对话技能,也可以基于此开发闲聊技能,让机器主动发起基于知识图谱的聊天。
GitHub 地址:
https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/Research/ACL2019-DuConv
摘要:在人类对话中,对于一个对话上文,往往存在多个合适的回复(One-to-Many)。已有的对话模型主要通过引入多个隐式机制来建模对话的一对多关系,从而选择不同的隐式机制生成不同的回复。虽然这些模型在多回复生成上已经表现出不错的效果和潜力,但由于训练阶段缺乏目标回复与隐式机制的准确对应,隐式机制的效果仍受限于不准确的优化过程。
在这项工作中,我们一方面提出多映射机制(Multi-Mapping)来建模对话一对多关系,通过不同的映射模块作为隐式机制来实现对话上文和不同回复之间的语义映射。另一方面,为了解决已有模型中隐式机制优化不准确的问题,我们提出后验映射选择机制(Posterior Mapping Selection),在训练阶段通过利用目标回复的语义信息(后验信息)更准确地选择目标回复所对应的映射模块进行优化,从而提高不同映射模块的优化效果。同时,我们也引入一个基于语义匹配的辅助优化目标(Matching Loss)以促进后验映射选择的优化。实验结果表明所提出的模型能够生成更多有信息量并且多样的回复。
应用价值:此模型能够实现多样且合适的回复生成,在对话系统中具有广泛的应用价值。
GitHub 地址:
https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/Research/IJCAI2019-MMPMS
摘要:评论建议挖掘对提升企业服务具有极高价值。百度团队构建了以大规模无监督数据为基础的跨领域、多句式深度语义分类模型,以解决任务标注数据过于稀疏的问题。采用融合浅层学习和深度学习的Ensemble学习模型,以解决样本不平衡问题。面对网络文本形式多样、表达不规范的现状,团队采用精细化粒度特征和注意力迁移机制进行处理。最终,百度团队以F值78.12%的成绩战胜了来自全球的210余支队伍,夺得冠军。
应用价值:可以帮助企业及时获取消费者的评价以改进服务,可以促进政府和媒体从海量文本中提取意见以成为决策参考与新闻素材。
GitHub 地址:
https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/Research/NAACL2019-MPM
摘要:机器阅读理解(Machine Reading Comprehension) 是指让机器阅读文本,然后回答和阅读内容相关的问题。该技术可以使机器具备从文本数据中获取知识并回答问题的能力,是构建通用人工智能的关键技术之一,长期以来受到学术界和工业界的广泛关注。
近两年,预训练语言表示模型在机器阅读理解任务上取得了突破性进展。通过在海量无标注文本数据上预训练足够深的网络结构,使当前最先进的语言表示模型能够捕捉复杂的语言现象,更好地理解语言、回答问题。
然而,正如大家所熟知的,真正意义上的阅读理解不仅要求机器具备语言理解的能力,还要求机器具备知识以支撑复杂的推理。为此,在论文《Enhancing Pre-trained Language Representations with Rich Knowledge for Machine Reading Comprehension》中,百度开创性地提出了语言表示与知识表示的深度融合模型KT-NET,希望同时借助语言和知识的力量进一步提升机器阅读理解的效果。
关于KT-NET的模型架构。首先,针对给定的阅读内容和结构化知识图谱,分别利用语言表示模型和知识表示模型对两者进行编码,得到相应的文本表示和知识表示。接下来,利用注意力机制从知识图谱中自动筛选并整合与阅读内容高度相关的知识。最后,通过双层自注意力匹配,实现文本表示和知识表示的深度融合,提升答案边界预测的准确性。截止到发稿日,KT-NET仍然是常识推理阅读理解数据集ReCoRD榜单上排名第一的模型,并在此前很长一段时期内都是SQuAD 1.1榜单上效果最好的单模型。
应用价值:该项技术可应用于百度搜索问答、智能音箱等产品中,直接精准定位用户输入问题的答案,并在搜索结果首条显著位置呈现或通过语音播报呈现给用户,为用户节约大量的宝贵时间。
GitHub 地址:coming soon
摘要:现有的基于监督学习的对话系统,缺乏对多轮回复方向的控制和规划,导致对话中发生重复、发散等问题,使得用户的交互体验较差。在本文中,我们对多轮对话进行了复合评估(compound assessment),并基于该评估利用强化学习优化两个自对话(self-play) 的机器人,促进生成过程中较好地控制多轮对话的方向。
考虑到对话的一个主要动机是进行有效的信息交换,针对PersonaChat问题(两个人相互对话聊兴趣爱好),我们设计了一个较为完善的评估系统,包括对话的信息量和连贯度两个主要方面。我们利用复合评估作为反馈目标(reward),基于策略梯度算法(policy gradient),指导优化两个同构的对话生成机器人之间的对话策略(dialogue strategy)。该对话策略通过控制知识的选择来主导对话的流向。在公开数据集上进行了全面的实验,结果验证了此方法生成的多轮对话质量,显著超过其他方法。
应用价值:可以对聊天机器人设置人设信息,与用户进行更有信息量的智能个性化对话,也可以为智能客服添加背景信息,与用户进行深入的知识聊天。
GitHub 地址:coming soon
论文地址:https://arxiv.org/abs/1906.00549
摘要:同声翻译是人工智能领域公认的最难问题之一,已经困扰学术界和工业界几十年了。我们提出了历史上第一个超前预测和可控延迟的同声翻译算法,去年10月发布以来,被各大技术外媒广泛报道,包括MIT技术评论、IEEE Spectrum、财富杂志等。量子位总结报道:“这是2016年百度Deep Speech 2发布以来,又一项让技术外媒们如此激动的新进展。”
应用价值:2018年11月的百度世界大会采用了这项同传技术,全程同传翻译了李彦宏所有演讲,延迟仅为3秒左右,而之前的整句翻译技术延迟为一整句(可达10秒以上)。同时,翻译质量也没有明显的下降。
GitHub 地址:coming soon
论文地址:https://arxiv.org/abs/1810.08398
摘要:该文章旨在提高翻译的鲁棒性,特别是对同音词噪音的鲁棒性。我们在翻译的输入端,通过联合嵌入的方式,加入输入单词对应的发音信息。实验结果表明,该方法不仅大大提高了翻译系统在噪声情况下的鲁棒性,也大幅提高了翻译系统在非噪声情况下的性能。
应用价值:可用于翻译,特别是语音到语音的同声传译系统。语音翻译的一个主要难题是语音识别的错误太多,而这些错误大多是同音词或发音相似的单词,此技术可以很大程度上降低这些来自于语音识别的噪音。
GitHub 地址:coming soon
论文地址:https://arxiv.org/abs/1810.06729
摘要:问答阅读理解是指让机器阅读给定的文本并回答相关的问题。该任务是自然语言处理中的一项重要课题。最近,一些机器阅读理解系统在一些阅读理解的相关数据集上取得了较好的结果,但是这些结果主要是在领域内测试集上进行评估得到的,并不能体现模型的泛化能力。为此,2019 MRQA问答阅读理解评测关注于测试现有系统在领域外数据集上的泛化能力。
我们基于飞桨(PaddlePaddle)深度学习框架,为MRQA任务提供了一个基线系统。该基线具有以下优点:
①预训练语言模型:ERNIE (Enhanced Representation through kNowledge IntEgration) 是百度提出知识增强的语义理解框架。基于该框架的ERNIE预训练模型基线比MRQA官方的BERT基线在域外验证集上的结果高出6.1个百分点(Marco-F1)。
②多卡微调和预测:该基线支持使用多GPU进行微调和预测,方便研究人员和开发者加快实验效率。
③一键复现:提供了一个简单易用的系统,方便研发人员和开发者快速复现实验结果,并在此基础上开发新的模型。
GitHub 地址:
https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/Research/MRQA2019-BASELINE
想要了解更多百度 PaddleNLP-研究版,请点击查看以下链接:
百度PaddleNLP-研究版主页地址:
https://nlp.baidu.com/paddlenlp?type=research&fr=source2
百度PaddleNLP-研究版GitHub地址:
https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/Research?fr=source2
传送门:https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/Research