首页 百问百答 帖子详情
bert模型能做什么
收藏
快速回复
百问百答 问答学习资料 248 0
bert模型能做什么
收藏
快速回复
百问百答 问答学习资料 248 0

BERT 模型

BERT的网络架构是基于Attention is all you need(2017)中描述的原始实现的multi-layer bidirectional Transformer编码器。BERT使用双向的Transformer,在所有层中同时学习上下文语境特征信息。

1、自监督训练
bert是一种双向语言模型,bert模型使用自监督进行训练,即标注数据来源于初始数据简单的变换,这一过程不需要人为进行标注。具体的自监督任务有以下几种: (1)给定一句话,随机遮盖其中15%的字,然后预测这15%的字。举个例子:我想 * 汽水,模型应该预测出喝而不是吃或者你。如果模型这个准确率高,那么模型就必须理解整句话的意思,从而实现自然语言理解。

(2)下一句预测,给定一句话,预测其下一句话是什么。一般是分类,比如输入:我想喝汽水,答案有三个:请问哪里有超市?正方形打野。二十万赢到三千五百万。那么模型应该返回第一个作为答案。那么这个正确率越高,也就说明模型对语言的理解能力越强。

2、微调
bert模型只是预训练之后可以很好的捕捉到语言的语义信息,具体的任务则需要进行微调。这和resnet网络预训练,在迁移到其他任务进行微调一样,其中卷积只是学到了图像的特征表示,让下游任务不用在从头开始训练。bert的优点有两个,第一、Transformer,捕捉长距离文本依赖,又不损失速度(注意力机制可并行运算);第二、自监督预训练,我们可以轻松获取海量的文本对其进行训练,如上两个任务的标签构造并不需要耗费人力。

3、能做什么
自然语言处理相关的都可以做,比如字词填空,阅读理解,文章摘要,聊天对话等等。我们只需记住对于具体的任务,只需要自己构造标签,然后加载预训练的bert的权重,然后对其微调(在自己的数据集上训练几轮)即可。

0
收藏
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户