首页 PaddleNLP 帖子详情
总结一下2021年自然语言处理常见的基础概念
收藏
快速回复
PaddleNLP 文章NLP 1068 9
总结一下2021年自然语言处理常见的基础概念
收藏
快速回复
PaddleNLP 文章NLP 1068 9

希望这张脑图能帮助到你们。

0
收藏
回复
全部评论(9)
时间顺序
小姐姐都是我的
#2 回复于2021-09

给力,不过为啥是红色的啊,这是bug吗(捂脸

0
回复
ygq
#3 回复于2021-09
给力,不过为啥是红色的啊,这是bug吗(捂脸

这个是bug,图片太大了。我换成word吧。

0
回复
ygq
#4 回复于2021-09

自然语言处理

 

· 预训练语言模型自然语言处理

o transform

§ Encoder-Decoder的结构

o attention

§ Multi Head self Attention

· Scaled Dot Product Attention

o 公式

· Multi Head Attention

o Multi Head Attention是使用多组Attention得到相应的结果并拼接

o head

§ Positional Head

· 这个Head在90%的情况下都会把最大的权值分配给左边或者右边的一个词。

· 计算的权值通常指向临近的词

§ Syntactic Head

· 将词语之间的关系联系起来

· case

o 名词和动词的指向关系

§ Rare Head

· 大的权值分配给稀有词

§ Convolution Attention

§ Cross Attention

· Query和Support Set里面的每一张图像都经过一个网络提取特征,得到相应的    的特征,然后互相Attend得到重组的特征,再计算相似度进行Meta Train

· Cross Attention 示意图

§ Global vs. Local Attention

· Global Attention

o 全局的Attention

o global attention模型示意图

· Local Attention

o 介于Soft和Hard Attention的一种机制

o local attention 示意图

§ Compositional Attention

· Pairwise Affinity

o Pairwise Affinity公式

· Distance Dissimilarity

o Distance Dissimilarity 公式

· 最终attention计算

o Compositional Attention 合并E和N的权重

§ 总结

· Attention的本质就是加权,权值可以反应模型关注的点

o bert

§ pretrain mission

· mlm(Masked Language Modeling)

o input sequence中的每个token有15% 的概率masked,并且用最后一层hidden states映射到词表上进行预测。由于fine-tune阶段并没有mask符号,在预训练阶段,被masked的token只有80%的情况被替换为[mask]符号,10%的情况下呗替换为词表中其他任意符号,10%的情况下不做替换。

· wwm

o 连续token

· nsp (Next Sentence Prediction)

o 句子级别二分类任务

o 补充建模句子之间的关系。input sequence包括两个句子,50%的概率两个句子有前后顺序关系,50%的概率是随机挑选的两个句子。用句首对应的hidden states映射到而分类任务上进行预测。

o 训练的前几轮表现就会非常的好

§ 输入embedding

· bpe token embedding

o 分词

o 特征转到id

· position embedding

· segment embedding

§ pretake token

· BPE

§ 构造 [CLS] Sentence_A [SEP] Sentence_B [SEP] 的形式,然后截断到512token长度,使用BPE分词,每个token有15% 的概率进行mask操作。

§ Fine-tune mission

· sentence pair cls

· single sentence cls

· question answer task

· single sentence tagging task

o bert家族

§ bert wwm

§ xlnet

§ albert

· 2019

§ electra

§ roberta

§ word bert

· wordbert

· ernie tiny

o sub word

§ 词元词根

· t5

§ ngram bert

o gpt

§ gpt

· 用Transformer的Decoder来做单向语言模型的预训练。​

· fine-tune

o task-specific input adaptations

§ gpt2

· 预训练阶段

o BPE: 直接在byte序列上进行bpe,减小base vocab。为了避免陷入局部最优解,除空格之外,禁止将不同类别的字节进行合并。

o Layer Normalization: 将layer normalization放到每个sub-block之前,并在最后一个Self-attention后再增加一个layer normalization。

§ gpt3

§ Generative Pre-Training

· 对比学习

o 基础概念

§ 对比学习在做特征表示相似性计算时,要先对表示向量做L2正则,之后再做点积计算,或者直接采用Cosine相似性

o 计算机视觉

§ 基于负例的对比学习

· Moco V1

· SimCLR

o 子主题

· 自然语言处理的应用

o 法律

o 医疗

o 教育

o 金融

· 轻量化预训练语言模型

o 方法

§ 模型蒸馏

· 常见方案teacher-student模型

§ 模型剪枝

§ 模型量化

o 模型

§ ernie tiny

· 特征

o 更浅(12层->3层transformer block)

o 更短(字粒度->subword粒度缩短输入长度)

o 加大宽度(768->1024 hidden size)

· 优势

o 4倍提速的同时模型效果只有少量下降

· openvino基于cpu部署轻量化语言模型及下游任务

· 统计自然语言处理

o 分词

§ 最大长度分词

§ 双向最大长度分词

§ 细粒度分词

· 搜索引擎分词

· 输出一句话中所有的词

§ 嵌套分词

o 数据结构

§ 字符匹配树

· trie

§ ac自动机

o 特征

§ 字

§ 词

§ 短语

§ ngram

§ skip gram

§ worf piece

o 统计翻译模型

§ nmt

o 词性识别

o 命名实体识别

§ 模型

· hmm

· crf

o crf+

§ 标注模式

· BIO

· BIOS

· BIOES

§ 任务形式

· 单粒度命名实体识别

· 嵌套实体识别nest ner

o 关键词抽取

§ tfidf

§ textrank

o 文本摘要

o 文本分类

§ 朴素贝叶斯文本分类

§ 支持向量机文本分类

· 深度学习自然语言处理

o 深度学习模型

§ cnn

· textcnn 文本分类

· cnn crf attention 轻量级文本深度学习命名实体识别模型

§ lstm

· 字词混合编码语言模型 elmo

· seq2seq常用encode方案

· 命名实体识别 bilstm crf

· 文本匹配模型dssm

§ gru

· 更新门和重置门

o 深度学习中文本编码

§ tfidf

· tf

o 词频

· idf

o 逆文档词频

§ bow

· 词袋模型

§ nnlm

· Nerual Network Language Model

· 通过一个神经网络结构对n元条件概率进行评估

§ onehot

· 缺点

· 矩阵特别的大

§ fast text

§ word2vec

· 2013年

· 模式

o skip gram

§ 衍生任务

· graph embedding

o deepwalk

o node2vec

o cbow

· 变种

o glove

§ 共现概率矩阵

§ elmo

· 字词混合lstm编码

o 深度学习中自然语言处理任务

§ 文本分类

· 类别

o 多分类

o 多标签分类

o 层次分类

§ 命名实体识别

· 类别

· 模型

o cnn crf

o bilstm crf

o bigru crf

§ 阅读理解

· 是否类型阅读理解

o 数据集

§ squad

§ dureader

· 答案在原文连续序列形阅读理解

o 抽取式阅读理解

§ webqa

§ sougouqa

o 多文档阅读理解

§ 数据集

· dureader

· squad

· 答案在原文多段式阅读理解

o 基于滑动窗口预测一对多问答关系能力

· 生成式阅读理解

o 司法考试

§ 文本翻译

· 有监督文本翻译

· 无监督文本翻译

· 小语种翻译

o 地区语言迁移学习

§ 文本纠错

· seq2seq

· skip gram

o 错误信息的概率

§ 文本转编程语言

· mission

o text2cypher

o text2sql

· 实现方案

o 宽表

o 预测文本那一列

· model

o IGSQL

o RAT-SQL

§ 问答

· 对话状态跟踪

o dm

o 基于关键词的对话跟踪模型

o 基于任务的对话跟踪模型

· 生成式问答能力

· 词槽式问答能力

o ner

o 特征skip gram

· 知识图谱问答

o 文本分类

o nl2cypher


local attention 示意图


Distance Dissimilarity 公式


Compositional Attention 合并E和N的权重


global attention模型示意图


公式


Cross Attention 示意图


Pairwise Affinity公式


Multi Head Attention是使用多组Attention得到相应的结果并拼接

 

0
回复
深渊上的坑
#5 回复于2021-09

很棒的总结(绝大部分看不懂2333)

0
回复
深渊上的坑
#6 回复于2021-09

不过这图片有点坑,背景变成红色的了,图片要下载下来放大就很清楚了

0
回复
aistudio_5
#7 回复于2021-09

图片有问题吧

0
回复
小姐姐都是我的
#8 回复于2021-09
ygq #3
这个是bug,图片太大了。我换成word吧。

这个我们确认过了,不是我们论坛的bug,是微信的坑。建议改用百度如流(手动滑稽)

0
回复
ygq
#9 回复于2021-09
这个我们确认过了,不是我们论坛的bug,是微信的坑。建议改用百度如流(手动滑稽)

图片是从wps导出来滴。

0
回复
浮生梦
#11 回复于2021-10

大佬!

0
回复
需求/bug反馈?一键提issue告诉我们
发现bug?如果您知道修复办法,欢迎提pr直接参与建设飞桨~
在@后输入用户全名并按空格结束,可艾特全站任一用户