首页 百问百答 帖子详情
bert模型详解
收藏
快速回复
百问百答 问答学习资料 704 0
bert模型详解
收藏
快速回复
百问百答 问答学习资料 704 0

BERT全称为Bidirectional Encoder Representations from Transformers

1、BERT架构
BERT架构如下图所示,只取了Transformer中的编码器模块,而舍弃了其中的解码器模块。我们就是使用这个编码器来进行训练的,从大量的不用人工标注的文本进行学习。

2、BERT训练
(1)预测被掩盖的字词 将输入的词句中随机遮盖一些字,然后让模型预测出这些字具体是什么。越准确,那么说明模型对语言的理解能力越强。因为只有模型理解了胡桃是个人名,往生堂是一个组织才可能预测正确。比如下图中,mask对应输出应该为‘堂主’。

(2)下一句预测 将输入一个上下文共两句话,第二句与第一句话进行配对,当本来就是连贯的一句话时,模型预测整个长句为1,当不连贯时,模型预测为0。如下:醒醒吧,胡桃不是你老婆!这句模型就应该输出1。而:醒醒吧,电脑屏幕吃下去!模型就应该输出0。醒醒吧,这个感觉后面有点百搭,总之,这个例子大家自行体会就好!

3、BERT应用
(1)分类,如情感分析,文档分类。

(2)对语句中每个词语都分类,如语句结构划分等
仅仅给出一个示例,很长时间不搞语法分析了,有错请见谅。

(3)自然语言推断
例如下面两句,逻辑上就是合理的。

当然BERT应用远不止这些,但是不管应用到哪个领域,模型最开始的预训练是很重要的,让bert模型从一开始就可以掌握一些基本词于词之间的关系,以及词语的浅层含义。让后续任务,只需人为构造少数标签就能够训练起来。

 

0
收藏
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户