革新丨揭秘百度文心ERNIE最新开源预训练模型

首页版块访问AI主站注册发帖

精

官

用户已被禁言发布于2021-05 浏览:7332 回复:5

革新丨揭秘百度文心ERNIE最新开源预训练模型

快速回复

在5月20日结束的2021深度学习开发者峰会 WAVE SUMMIT 上，百度文心 ERNIE 开源了四大预训练模型。本文对这四大开源预训练模型进行了详细的技术解读。
2019年以来，NLP 预训练模型在技术创新和工业应用上不断取得突破，但当前预训练模型仍有一些痛点困扰着开发者：

仅考虑单一粒度语义建模，缺乏多粒度知识引入，语义理解能力受限；
受限于 Transformer 结构的建模长度瓶颈，无法处理超长文本；
聚焦语言等单一模态，缺乏工业真实应用场景针对多个模态如语言、视觉、听觉信息的联合建模能力。

5月20日举办的2021深度学习开发者峰会 WAVE SUMMIT 上，依托飞桨核心框架，百度文心 ERNIE 最新开源四大预训练模型：多粒度语言知识增强模型 ERNIE-Gram、长文本理解模型 ERNIE-Doc、融合场景图知识的跨模态理解模型 ERNIE-ViL、语言与视觉一体的模型 ERNIE-UNIMO。

针对当前预训练模型现存的难点痛点，此次文心 ERNIE 开源的四大预训练模型不仅在文本语义理解、长文本建模和跨模态理解三大领域取得突破，还拥有广泛的应用场景和前景，进一步助力产业智能化升级。

文心 ERNIE 开源版地址：
https://github.com/PaddlePaddle/ERNIE

文心 ERNIE 官网地址：
https://wenxin.baidu.com/
一、多粒度语言知识增强模型 ERNIE-Gram

从 ERNIE 模型诞生起，百度研究者们就在预训练模型中引入知识，通过知识增强的方法提升语义模型的能力。本次发布的 ERNIE-Gram 模型正是通过显式引入语言粒度知识，从而提升模型的效果。具体来说，ERNIE-Gram 提出显式 n-gram 掩码语言模型，学习 n-gram 粒度语言信息，相对连续的 n-gram 掩码语言模型大幅缩小了语义学习空间，（V^n→V_(n-gram)，其中 V 为词表大小，n 为建模的 gram 长度），显著提升预训练模型收敛速度。

▲ 图1-1 连续 n-gram 掩码语言模型 vs 显式 n-gram 掩码语言模型

此外，在显式 n-gram 语义粒度建模基础上，ERNIE-Gram 提出多层次 n-gram 语言粒度学习，利用 two-stream 双流机制，实现同时学习 n-gram 语言单元内细粒度（fine-grained）语义知识和n-gram语言单元间粗粒度（coarse-grained）语义知识，实现多层次的语言粒度知识学习。

▲ 图1-2 n-gram 多层次语言粒度掩码学习

ERNIE-Gram 在不增加任何计算复杂度的前提下，在自然语言推断任务、短文本相似度任务、阅读理解任务等多个典型中文任务上，效果显著超越了业界主流开源预训练模型。此外，ERNIE-Gram 英文预训练模型也在通用语言理解任务、阅读理解任务上效果超越主流模型。

ERNIE-Gram 的方法被 NAACL 2021主会长文录用，论文地址：
https://arxiv.org/abs/2010.12148

二、长文本理解模型 ERNIE-Doc

Transformer 是 ERNIE 预训练模型所依赖的基础网络结构，但由于其计算量和空间消耗随建模长度呈平方级增加，导致模型难以建模篇章、书籍等长文本内容。受到人类先粗读后精读的阅读方式启发，ERNIE-Doc 首创回顾式建模技术，突破了 Transformer 在文本长度上的建模瓶颈，实现了任意长文本的双向建模。

通过将长文本重复输入模型两次，ERNIE-Doc 在粗读阶段学习并存储全篇章语义信息，在精读阶段针对每一个文本片段显式地融合全篇章语义信息，从而实现双向建模，避免了上下文碎片化的问题。

此外，传统长文本模型（Transformer-XL 等）中 Recurrence Memory 结构的循环方式限制了模型的有效建模长度。ERNIE-Doc 将其改进为同层循环，使模型保留了更上层的语义信息，具备了超长文本的建模能力。

▲ 图2-1 ERNIE-Doc 中的回顾式建模与增强记忆机制

通过让模型学习篇章级文本段落间的顺序关系，ERNIE-Doc 可以更好地建模篇章整体信息。

▲ 图2-2 篇章重排序学习

ERNIE-Doc 显著提升了长文本的建模能力，可以解决很多传统模型无法处理的应用难题。例如在搜索引擎中，ERNIE-Doc 可以对网页整体理解，返回用户更加系统的结果。在智能创作中，ERNIE-Doc 可以用来生成更加长篇、语义丰富的文章。

超长文本理解模型 ERNIE-Doc 在包括阅读理解、信息抽取、篇章分类、语言模型等不同类型的13个典型中英文长文本任务上取得最优的效果。

ERNIE-Doc 的方法被 ACL 2021 主会长文录用，论文链接：
https://arxiv.org/abs/2012.15688
三、融合场景图知识的跨模态理解模型 ERNIE-ViL

跨模态的信息处理能力需要人工智能模型深入理解并综合语言、视觉、听觉等模态的信息。当前，基于预训练的跨模态语义理解技术，通过对齐语料学习跨模态的联合表示，将语义对齐信号融合到联合表示中，从而提升跨模态语义理解能力。ERNIE-ViL 提出了知识增强的视觉-语言预训练模型，将包含细粒度语义信息的场景图（Scene Graph）知识融入预训练过程，构建了物体预测、属性预测、关系预测三个预训练任务，使得模型在预训练过程中更加关注细粒度语义知识，学习到能够刻画更好跨模态语义对齐信息，得到更好的跨模态语义表示。

▲ 图3-1知识增强的跨模态预训练 ERNIE-ViL 框架

ERNIE-ViL 首次将场景图知识融入跨模态模型的预训练过程，为跨模态语义理解领域研究提供了新的思路。该模型在视觉问答、视觉常识推理、引用表达式理解、跨模态文本&图像检索等5个典型跨模态任务上取得了领先的效果。ERNIE-ViL 模型也逐步在视频搜索等真实工业应用场景中落地。

ERNIE-ViL 的方法被 AAAI-2021 主会长文录用，论文地址:
https://arxiv.org/abs/2006.16934

四、语言与视觉一体的模型 ERNIE-UNIMO

大数据是深度学习取得成功的关键基础之一。当前的预训练方法，通常分别在各种不同模态数据上分别进行，难以同时支持各类语言和图像的任务。基于深度学习的 AI 系统是否也能像人一样同时学习各种单模、多模等异构模态数据呢？如果能够实现，无疑将进一步打开深度学习对大规模数据利用的边界，从而进一步提升 AI 系统的感知与认知的通用能力。

为此，语言与视觉一体的模型 ERNIE-UNIMO 提出统一模态学习方法，同时使用单模文本、单模图像和多模图文对数据进行训练，学习文本和图像的统一语义表示，从而具备同时处理多种单模态和跨模态下游任务的能力。此方法的核心模块是一个 Transformer 网络，在具体训练过程中，文本、图像和图文对三种模态数据随机混合在一起，其中图像被转换为目标（object）序列，文本被转换为词（token）序列，图文对被转换为目标序列和词序列的拼接。统一模态学习对三种类型数据进行统一处理，在目标序列或者词序列上基于掩码预测进行自监督学习，并且基于图文对数据进行跨模态对比学习，从而实现图像与文本的统一表示学习。进一步的，这种联合学习方法也让文本知识和视觉知识互相增强，从而有效提升文本语义表示和视觉语义表示的能力。

此方法在语言理解与生成、多模理解与生成，4类场景、共13个任务上超越主流的文本预训练模型和多模预训练模型，同时登顶权威视觉问答榜单 VQA、文本推理榜单 aNLI。首次验证了通过非平行的文本与图像单模数据，能够让语言知识与视觉知识相互增强。

此工作被 ACL2021 主会长文录用,论文地址:
https://arxiv.org/abs/2012.15409

五、破解 NLP 技术难题，助力产业智能化

文心 ERNIE 全新开源发布4大预训练模型，不断推动 NLP 模型技术研究层面的创新与应用。

语言与知识技术被看作是人工智能认知能力的核心。2019年以来，百度凭借在自然语言处理领域的深厚积累取得了系列世界突破，发布了文心 ERNIE 语义理解平台，该平台广泛用于金融、通信、教育、互联网等行业，助力产业智能化升级。

作为“人工智能皇冠上的明珠”，NLP 领域向来是人工智能技术研发与落地实践的前沿。百度文心平台基于领先的语义理解技术，帮助企业在 NLP 赛道上跨过技术、工具、算力、人才等门槛，对开发者和企业进行开放，全面加速 NLP 技术助力全产业智能化升级，为 AI 工业大生产插上智能的“翅膀”。
百度自然语言处理（Natural Language Processing，NLP）以『理解语言，拥有智能，改变世界』为使命，研发自然语言处理核心技术，打造领先的技术平台和创新产品，服务全球用户，让复杂的世界更简单。

平台资讯

个赞

共5条回复最后由用户已被禁言回复于2022-04

#6用户已被禁言回复于2021-06

对#3 深渊上的坑回复

PaddleNLP会更新这些模型吗？

ERNIE模型将会在文心ERNIE的开发套件中陆续接入使用，敬请关注

#5深渊上的坑回复于2021-06

建议这些项目可以弄个在线版

#4深渊上的坑回复于2021-06

ERNIE在码云上的镜像更新远远落后于github啊……

#3深渊上的坑回复于2021-06

PaddleNLP会更新这些模型吗？

#25153381回复于2021-06

加油，加油！

快速回复

小编推荐

【开奖啦】投稿赢大奖-奇思妙想+AI技术=？

用户已被禁言 55回复

百度AI社区开发者联盟集结！！

用户已被禁言 9回复

社区积分商城上线啦～

用户已被禁言 25回复

TOP

操作指南

常见问答

平台公告

经验交流

技术专区

文字识别

人脸识别

语音技术

PaddlePaddle

EasyDL

BML

EasyData

AI Studio

UNIT

人体分析

图像搜索

图像识别

内容审核

自然语言处理

机器人视觉

视频技术

增强现实

知识图谱

智能创作

智能呼叫中心

文心

EdgeBoard

DuerOS

EasyEdge

度目硬件

百度AI市场

Doris

AI赛事

百度之星大赛

AI Studio人工智能竞赛

语言与智能技术竞赛

千言数据集

集思广益

共享工具

头脑风暴

成果展示

智能客服