【DASOU视频记录】Transformer从零详细解读

news/2024/7/19 9:37:51 标签: transformer, 深度学习, DASOU

文章目录

    • 来源
    • transformer的全局理解
    • 位置编码
    • 多头注意力机制
    • 残差
    • Batch Normal
    • Layer Normal
    • Decoder

来源

b站链接

transformer_4">transformer的全局理解

输入中文,输出英文
在这里插入图片描述细化容易理解的结构,就是先编码,再解码
在这里插入图片描述进一步细化的结构,就是多个编码器和多个解码器,每个器件的结构一样,但是具体的参数可以不同,参数是独立训练的
在这里插入图片描述transformer的具体结构和上面类似
在这里插入图片描述

位置编码

分为两部分:

  1. embedding
  2. 位置嵌入

多个字,每个字对应一个512维的向量
在这里插入图片描述

RNN是共享一套W、U、V参数的,所以只能等处理完“我”,才能接下来处理“爱”/“你”,时序的。
transformer并行处理,则需要位置编码告诉网络,“我爱你”三个字之间的位置关系
在这里插入图片描述原文的位置编码公式
在这里插入图片描述将embedding词向量和位置编码相加
在这里插入图片描述有用的原因
在这里插入图片描述

多头注意力机制

在这里插入图片描述原文的公式
在这里插入图片描述可视化例子如图所示,要关注的内容是query,也就是本文中的婴儿,接着,字是k。q和k点乘可以得到相似度。通过qk相乘得到每个部分,最后乘v,权重,得到最终的关注程度
在这里插入图片描述

如何获取QKV,获得了单词向量之后,将其于qkv大小一个矩阵相乘
在这里插入图片描述

除以 d k \sqrt{d_k} dk ,可以控制方差为一,除以这个是为了防止softmax之后的值太小导致梯度消失

在这里插入图片描述
实际使用矩阵

在这里插入图片描述

多头指的是用多套qkv,也就是会让网络关注到不同子空间的信息

在这里插入图片描述
在这里插入图片描述

残差

在这里插入图片描述残差的意义:传播后的梯度往往因为连乘而消失,加入残差就加入了1,所以可以缓解梯度消失的问题。
在这里插入图片描述

Batch Normal

首先了解一下BN和LN的区别:

  • BN 对不同输入样本在同一个神经元上的值进行归一化
  • LN 对单个输入样本在同一层的所有神经元的值进行归一化

在NLP中,BN的效果差,所以不用,一般使用LN
在CV中,BN是对一行计算,都是身高特征、都是体重特征等,对一类的特征做归一化是合理的。
在这里插入图片描述
BN优点

  1. 解决内部协变量偏移
  2. 缓解了梯度饱和问题(如果使用sigmoid激活函数的话),加快收敛。

BN缺点

  1. batch_size较小的时候,效果差。
    因为BN是用batch_size个样本的均值和方差来模拟所有样本的均值和方差。
  2. BN在RNN中效果比较差。
    因为RNN是动态输入的,对于20长度的词,后面空白部分的batch_size就变成1了。
    在这里插入图片描述

Layer Normal

LayerNorm单独对一个样本的所有单词做缩放可以起到效果。

如下图,LN是认为“我爱中国共产党”,这句话具有同样的语义信息;但是BN认为 “我-今”、“爱-天”这样一对对的具有同样的语义信息,这显然是不合理的
在这里插入图片描述
之后就是归一化的向量通过一个前馈神经网络。
在这里插入图片描述整体重新过一遍就是,首先输入,然后输入映射到高纬的embedding,接着加入位置编码,然后加入多头注意力机制,位置编码和多头注意力结果融合,输入归一化,接着进行前馈神经网络,再次归一化。
在这里插入图片描述

在这里插入图片描述

Decoder

解码主要分为两步,第一步是mask的多头注意力机制,第二步是进行交互。
在这里插入图片描述第一步中,需要对当前单词和之后的单词做mask
在这里插入图片描述也就是在下图中,因为测试中是不知道后面的词的,所以也要在训练的时候把后面的词隐藏掉。
在这里插入图片描述交互方面
每个encoder的结果要和每个decoder的结果做交互
在这里插入图片描述具体来说,就是encoder的k、v矩阵和decoder的q矩阵做交互

在这里插入图片描述

通过DASOU的视频,对transformer整体概念和各个知识点都又了一个直观上的概念,接着有助于继续看其他视频,进行更加深度的学习。(本来一开始看霹雳吧的视频,就是没看懂,一上来直接qkv,直接给我干懵了,哈哈哈哈


http://www.niftyadmin.cn/n/1692280.html

相关文章

最少交换次数python_该程序计算在Python中将所有1组合在一起所需的交换次数

假设我们有一个二进制字符串,并且我们可以交换任意两位。我们必须找到将所有1组合在一起所需的最小交换次数。因此,如果输入类似于s “ 0111001”,则输出将为1,因为我们可以执行以下交换:0111001-> 1111000。范例(P…

无捆绑绿色安装金山打字通教程

一、下载软件 下载链接:金山打字通安装包.exe - 蓝奏云 二、安装软件 1.打开下载下来的安装包,如图所示 2.选择下一步 3.选择我接受 4.取消勾选,然后点击下一步 5.选择安装目录(不建议安装在C盘),然后点…

JavaScript学习笔记 03、流程控制语句

文章目录前言一、if语句二、switch语句三、三元运算符四、for循环五、where循环六、do...while()循环break与continue前言 本篇博客是关于javascript的流程控制语句,若文章中出现相关问题,请指出! 所有博客文件目录索引:博客目录…

3分钟学会钉钉线上教学【学生端】教程

钉钉下载链接:dingtalk_downloader.exe - 蓝奏云 1.打开老师发送的微信链接 2.选择我是学生,填写学生真实姓名,然后填写家长联系方式,然后点击下一步! 3.滑动滑块,接受验证码,然后填写验证码&a…

JavaScript学习笔记 04、数组

文章目录前言一、一维数组的定义与基本使用1.1、定义数组1.2、访问数组1.3、数组遍历1.4、数组类型的检测二、数组相关方法2.1、push()、pop()、unshift()、shift()(头尾操作方法插入、弹出)2.2、splice()与slice()(删除新增与选择范围&#…

JavaScript学习笔记 05、函数

文章目录前言一、函数相关知识点1.1、两种定义方式及调用顺序1.2、函数优先提升案例(2个)1.3、函数的参数定义(普通传参与arguments参数)定义以及使用查看底层结构1.4、函数的返回值二、全局变量与局部变量2.1、全局与局部示例2.2、遮蔽效益(局部变量能够遮蔽全局变量)2.3、局部…

模拟atm的mysql_java模拟ATM功能(控制台连接Mysql数据库)

本文实例为大家分享了java模拟atm功能的具体代码,供大家参考,具体内容如下有三个类:test.java、customer.java、customerdao.java、atmsystem.javaatmsystem.java实现模拟atm的功能customer.java创建一个用户对象customerdao.java实现连接数据…

java实践项目_软件工程实践项目-WC(Java实现)

软件工程实践项目-WC(Java实现)要求基本要求[x] -c 统计文件字符数 (实现)[x] -w 统计文件词数 (实现)[x] -l 统计文件行数(实现)扩展功能[ ] -s 递归处理目录下符合条件得文件(实现)[ ] -a 返回文件代码行 / 空行 / 注释行(实现)[x] 支持各种文件的通配符(*,?)(实现)高级功能…