Transformer实战-系列教程1：Transformer算法解读

现在最火的AI内容，chatGPT、视觉大模型、研究课题、项目应用现在都是Transformer大趋势了

RNN_2">1、传统的RNN

在这里插入图片描述
Transformer是基于RNN改进提出的，RNN不同于CNN、MLP是一个需要逐个计算的结构来进行分类回归的任务，它的每一个循环单元不仅仅要接受当前的输入还要接受上一个循环单元的输出，因此它被提出是为了提取带有先后关系、时序信息的特征的。

因此在很长的一段时间，RNN以及RNN的变体LSTM、GRU都被经常用来时间序列分析、文本分析的任务。

如图所示 $x_0$ 经过一个循环单元的计算，得到了 $h_0$ ，而 $h_1$ 是 $h_0$ 和 $x_1$ 经过一个循环单元的计算得到的结果，当然 $h_0$ 的计算不仅有 $x_0$ 还有一个初始化的h。因此这种计算方式使得 $h_1$ 包含了 $x_0$ 、 $x_1$ 的特征， $h_2$ 包含了 $x_0$ 、 $x_1$ 、 $x_2$ 的特征， $h_t$ 包含了前面所有的特征

RNN_11">2、RNN的局限性

RNN的每一个循环单元的计算，都需要前面的所有循环单元计算结束后才可以进行，比如 $h_1$ 的计算需要等 $h_0$ 计算完成后才可以进行，后面同理。当输入序列比较长的时候，对于前面的信息容易遗忘，比如 $h_t$ 可能已经对 $h_0$ 和 $h_1$ 的信息已经包含的较少了（当序列比较长的时候）。还有RNN没有对每一个输入的重要性进行筛选，可能我们最后需要的结果在0到t个输入中，有些比较重要，有些重要性比较低，而有些则根本不重要。

因此可以总结出RNN的三大缺陷：

不能并行计算，只能串行计算，效率低
容易遗忘早期信息
不能计算各个输入信息的重要性

3、Attention与self-Attention

注意力机制就是用来计算各个输入信息的重要性的一种方法，出现过大量的CNN、RNN结合注意力机制去做CV、NLP任务，2017年一篇论文《Attention is all you need》把注意力机制带到了高潮，因为它是一种纯注意力机制的架构，这个架构被命名为Transformer，后面的故事大家都已经很熟悉了。

在这里插入图片描述

所谓的Attention就是让机器学习注意点那些更有价值的信息

比如这两句句话：
The animal didn’t cross the street because it was too tired.
The animal didn’t cross the street because it was too narrow.

如果是这来那个句话对比，很显然，每个词对一句话表达的含义的重要性很显然不同，而且每一个词与每一个词之间的相关性也显然不同，比如第一句话animal和tired的相关性大，第二句话street 和narrow相关性大，因为它们修饰的词都不一样，很显然tired是修饰animal的，narrow是修饰street的。

每个词之间的相关性各不相同，使用Attention将这种相关性计算出来，就被称为Attention机制

每个词之间都存在相关性，那一个词自己与自己之间也是有相关性的，而且这个相关性最大的，考虑了自己与自己之间的关系的Attention被称为self-Attention，自注意力机制。
在这里插入图片描述

假设这个句话有N个词
第一个词都与所有的词计算相关性，可以得到N个相关系数
N个相关系数经过softmax可以得到N个权重
N个权重再与所有的词的特征进行重构，得到N个特征
用这N个特征代替原本第一个词的特征
第二个词也用同样的方式进行计算
将原本所有的特征都进行重构

这个权重是怎么计算的呢？肯定是通过学习得到的

4、self-Attention如何计算

在这里插入图片描述
如图所示，计算Thinking与Machines之间的相关性

Thinking和Machines各自embbeding成一个向量（可以是预训练的词嵌入）， $x_1$ 和 $x_2$
$x_1$ 经过 $W^Q$ 、 $W^K$ 、 $W^V$ 3组可学习参数，生成3个特征 $q_1$ 、 $k_1$ 、 $v_1$
同理， $X_2$ 生成 $q_2$ 、 $k_2$ 、 $v_2$
$q_1$ 和 $q_2$ 和拼接得到Q，K、V同理，这就是Q（Query）K（Key）V（Value）的来源
$q_1$ 和 $k_1$ 内积得到一个值 $S_1$ ， $q_1$ 和 $k_2$ 内积也得到一个值 $S_2$ ，这个S表示的是Score分数的意思
$S_1$ 和 $S_2$ 都要除以一个数 $\sqrt{d_k}$ 再经过softmax，得到两个权重，这两个权重分别乘以 $v_1$ 、 $v_2$ 后再相加，得到 $z_1$
同理 $q_2$ 和 $k_1$ 、 $k_2$ 也经过这样的计算得到 $z_2$ ， $X_1$ 和 $X_2$ 就这样重构成了 $z_1$ 和 $z_2$

这就是两个特征之间进行一次self-Attention计算的结果，实际任务中不可能只有两个特征相互计算，可能是10个100个等，那么同样也是这样的计算方式，比如 $q_1$ 就要和 $k_1$ 、 $k_2$ 、…、 $k_{100}$ 计算内积得到100个分数，再除以对应的 $\sqrt{d_k}$ 后经过softmax得到100个权重，100个权重再分别和 $v_1$ 、 $v_2$ 、…、 $v_{100}$ 相乘后再相加就得到了 $z_1$

其中 $d_k$ 表示的是 $q_1$ 、 $k_1$ 这些向量的长度，所有的q、k、v的维度都是一样的

为什么要除以 $\sqrt{d_k}$ 呢，因为不能让分值随着向量维度的增大而增加

因为 $z_1$ 、 $z_2$ 、…、 $z_{n}$ 的计算都是可以同时进行的，所以这种并行的计算方式相比RNN，极大的提高了运行速度，此外也不会产生遗忘早期信息的问题，而经过多次计算损失的训练， $W^Q$ 、 $W^K$ 、 $W^V$ 与经过softmax计算的权重都会使得所有的z能够更好的关注在原始输入中（ $x_1$ 、 $x_2$ 、…、 $x_{n}$ ）与自己相关性比较大的的输入。这完美的解决了RNN存在的3个问题

5、Multi-head机制

在4中我们的输入是X（ $x_1$ 、 $x_2$ 、…、 $x_{n}$ ）经过一次self-Attention计算后得到Z（ $z_1$ 、 $z_2$ 、…、 $z_{n}$ ），这可以当成是单头注意力机制。

而多头注意力机制，假如是8头，输入X，同时生成8个Z，即有 $Z_0$ 、 $Z_1$ 、…、 $Z_7$ ，而每一个Z的计算都是同时计算和生成的，每一个Z对应的 $W^Q$ 、 $W^K$ 、 $W^V$ 可学习参数与生成Q、K、V还有经过softmax计算相关性的权重都是不一样的，而这8个Z拼接在一起再经过一层全连接生成新的Z，这个新的Z的维度和原来的Z的维度可以相同也可以不相同