bert模型能做什么

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

时间女神发布于2022-08

BERT 模型

BERT的网络架构是基于Attention is all you need(2017)中描述的原始实现的multi-layer bidirectional Transformer编码器。BERT使用双向的Transformer，在所有层中同时学习上下文语境特征信息。

1、自监督训练
bert是一种双向语言模型，bert模型使用自监督进行训练，即标注数据来源于初始数据简单的变换，这一过程不需要人为进行标注。具体的自监督任务有以下几种：（1）给定一句话，随机遮盖其中15%的字，然后预测这15%的字。举个例子：我想 * 汽水，模型应该预测出喝而不是吃或者你。如果模型这个准确率高，那么模型就必须理解整句话的意思，从而实现自然语言理解。

（2）下一句预测，给定一句话，预测其下一句话是什么。一般是分类，比如输入：我想喝汽水，答案有三个：请问哪里有超市？正方形打野。二十万赢到三千五百万。那么模型应该返回第一个作为答案。那么这个正确率越高，也就说明模型对语言的理解能力越强。

2、微调
bert模型只是预训练之后可以很好的捕捉到语言的语义信息，具体的任务则需要进行微调。这和resnet网络预训练，在迁移到其他任务进行微调一样，其中卷积只是学到了图像的特征表示，让下游任务不用在从头开始训练。bert的优点有两个，第一、Transformer，捕捉长距离文本依赖，又不损失速度(注意力机制可并行运算)；第二、自监督预训练，我们可以轻松获取海量的文本对其进行训练，如上两个任务的标签构造并不需要耗费人力。

3、能做什么
自然语言处理相关的都可以做，比如字词填空，阅读理解，文章摘要，聊天对话等等。我们只需记住对于具体的任务，只需要自己构造标签，然后加载预训练的bert的权重，然后对其微调(在自己的数据集上训练几轮)即可。

0

收藏

回复