总结一下2021年自然语言处理常见的基础概念
收藏
希望这张脑图能帮助到你们。
0
收藏
请登录后评论
给力,不过为啥是红色的啊,这是bug吗(捂脸
这个是bug,图片太大了。我换成word吧。
自然语言处理
· 预训练语言模型自然语言处理
o transform
§ Encoder-Decoder的结构
o attention
§ Multi Head self Attention
· Scaled Dot Product Attention
o 公式
· Multi Head Attention
o Multi Head Attention是使用多组Attention得到相应的结果并拼接
o head
§ Positional Head
· 这个Head在90%的情况下都会把最大的权值分配给左边或者右边的一个词。
· 计算的权值通常指向临近的词
§ Syntactic Head
· 将词语之间的关系联系起来
· case
o 名词和动词的指向关系
§ Rare Head
· 大的权值分配给稀有词
§ Convolution Attention
§ Cross Attention
· Query和Support Set里面的每一张图像都经过一个网络提取特征,得到相应的 的特征,然后互相Attend得到重组的特征,再计算相似度进行Meta Train
· Cross Attention 示意图
§ Global vs. Local Attention
· Global Attention
o 全局的Attention
o global attention模型示意图
· Local Attention
o 介于Soft和Hard Attention的一种机制
o local attention 示意图
§ Compositional Attention
· Pairwise Affinity
o Pairwise Affinity公式
· Distance Dissimilarity
o Distance Dissimilarity 公式
· 最终attention计算
o Compositional Attention 合并E和N的权重
§ 总结
· Attention的本质就是加权,权值可以反应模型关注的点
o bert
§ pretrain mission
· mlm(Masked Language Modeling)
o input sequence中的每个token有15% 的概率masked,并且用最后一层hidden states映射到词表上进行预测。由于fine-tune阶段并没有mask符号,在预训练阶段,被masked的token只有80%的情况被替换为[mask]符号,10%的情况下呗替换为词表中其他任意符号,10%的情况下不做替换。
· wwm
o 连续token
· nsp (Next Sentence Prediction)
o 句子级别二分类任务
o 补充建模句子之间的关系。input sequence包括两个句子,50%的概率两个句子有前后顺序关系,50%的概率是随机挑选的两个句子。用句首对应的hidden states映射到而分类任务上进行预测。
o 训练的前几轮表现就会非常的好
§ 输入embedding
· bpe token embedding
o 分词
o 特征转到id
· position embedding
· segment embedding
§ pretake token
· BPE
§ 构造 [CLS] Sentence_A [SEP] Sentence_B [SEP] 的形式,然后截断到512token长度,使用BPE分词,每个token有15% 的概率进行mask操作。
§ Fine-tune mission
· sentence pair cls
· single sentence cls
· question answer task
· single sentence tagging task
o bert家族
§ bert wwm
§ xlnet
§ albert
· 2019
§ electra
§ roberta
§ word bert
· wordbert
· ernie tiny
o sub word
§ 词元词根
· t5
§ ngram bert
o gpt
§ gpt
· 用Transformer的Decoder来做单向语言模型的预训练。
· fine-tune
o task-specific input adaptations
§ gpt2
· 预训练阶段
o BPE: 直接在byte序列上进行bpe,减小base vocab。为了避免陷入局部最优解,除空格之外,禁止将不同类别的字节进行合并。
o Layer Normalization: 将layer normalization放到每个sub-block之前,并在最后一个Self-attention后再增加一个layer normalization。
§ gpt3
§ Generative Pre-Training
· 对比学习
o 基础概念
§ 对比学习在做特征表示相似性计算时,要先对表示向量做L2正则,之后再做点积计算,或者直接采用Cosine相似性
o 计算机视觉
§ 基于负例的对比学习
· Moco V1
· SimCLR
o 子主题
· 自然语言处理的应用
o 法律
o 医疗
o 教育
o 金融
· 轻量化预训练语言模型
o 方法
§ 模型蒸馏
· 常见方案teacher-student模型
§ 模型剪枝
§ 模型量化
o 模型
§ ernie tiny
· 特征
o 更浅(12层->3层transformer block)
o 更短(字粒度->subword粒度缩短输入长度)
o 加大宽度(768->1024 hidden size)
· 优势
o 4倍提速的同时模型效果只有少量下降
· openvino基于cpu部署轻量化语言模型及下游任务
· 统计自然语言处理
o 分词
§ 最大长度分词
§ 双向最大长度分词
§ 细粒度分词
· 搜索引擎分词
· 输出一句话中所有的词
§ 嵌套分词
o 数据结构
§ 字符匹配树
· trie
§ ac自动机
o 特征
§ 字
§ 词
§ 短语
§ ngram
§ skip gram
§ worf piece
o 统计翻译模型
§ nmt
o 词性识别
o 命名实体识别
§ 模型
· hmm
· crf
o crf+
§ 标注模式
· BIO
· BIOS
· BIOES
§ 任务形式
· 单粒度命名实体识别
· 嵌套实体识别nest ner
o 关键词抽取
§ tfidf
§ textrank
o 文本摘要
o 文本分类
§ 朴素贝叶斯文本分类
§ 支持向量机文本分类
· 深度学习自然语言处理
o 深度学习模型
§ cnn
· textcnn 文本分类
· cnn crf attention 轻量级文本深度学习命名实体识别模型
§ lstm
· 字词混合编码语言模型 elmo
· seq2seq常用encode方案
· 命名实体识别 bilstm crf
· 文本匹配模型dssm
§ gru
· 更新门和重置门
o 深度学习中文本编码
§ tfidf
· tf
o 词频
· idf
o 逆文档词频
§ bow
· 词袋模型
§ nnlm
· Nerual Network Language Model
· 通过一个神经网络结构对n元条件概率进行评估
§ onehot
· 缺点
· 矩阵特别的大
§ fast text
§ word2vec
· 2013年
· 模式
o skip gram
§ 衍生任务
· graph embedding
o deepwalk
o node2vec
o cbow
· 变种
o glove
§ 共现概率矩阵
§ elmo
· 字词混合lstm编码
o 深度学习中自然语言处理任务
§ 文本分类
· 类别
o 多分类
o 多标签分类
o 层次分类
§ 命名实体识别
· 类别
· 模型
o cnn crf
o bilstm crf
o bigru crf
§ 阅读理解
· 是否类型阅读理解
o 数据集
§ squad
§ dureader
· 答案在原文连续序列形阅读理解
o 抽取式阅读理解
§ webqa
§ sougouqa
o 多文档阅读理解
§ 数据集
· dureader
· squad
· 答案在原文多段式阅读理解
o 基于滑动窗口预测一对多问答关系能力
· 生成式阅读理解
o 司法考试
§ 文本翻译
· 有监督文本翻译
· 无监督文本翻译
· 小语种翻译
o 地区语言迁移学习
§ 文本纠错
· seq2seq
· skip gram
o 错误信息的概率
§ 文本转编程语言
· mission
o text2cypher
o text2sql
· 实现方案
o 宽表
o 预测文本那一列
· model
o IGSQL
o RAT-SQL
§ 问答
· 对话状态跟踪
o dm
o 基于关键词的对话跟踪模型
o 基于任务的对话跟踪模型
· 生成式问答能力
· 词槽式问答能力
o ner
o 特征skip gram
· 知识图谱问答
o 文本分类
o nl2cypher
local attention 示意图
Distance Dissimilarity 公式
Compositional Attention 合并E和N的权重
global attention模型示意图
公式
Cross Attention 示意图
Pairwise Affinity公式
Multi Head Attention是使用多组Attention得到相应的结果并拼接
很棒的总结(绝大部分看不懂2333)
不过这图片有点坑,背景变成红色的了,图片要下载下来放大就很清楚了
图片有问题吧
这个我们确认过了,不是我们论坛的bug,是微信的坑。建议改用百度如流(手动滑稽)
图片是从wps导出来滴。
大佬!