注意力机制及Transformer-3GPT版

news/2024/7/19 8:40:55 标签: transformer, 深度学习, 人工智能

#pic_center

R 1 R_1 R1

R 2 R^2 R2

目录

  • 知识框架
  • No.1 自注意力机制(self-attention)
    • 一、输入的种类以及表示
      • 1、输入是a vector
      • 2、输入是a set of vectors(一段文字)
      • 3、输入是a set of vectors(一段音频)
      • 4、输入是a set of vectors(一段图谱)
      • 5、输入是a set of vectors(一个分子)
    • 二、输出的种类以及表示
      • 1、第一种可能的输出
      • 2、第二种可能的输出
      • 3、第三种可能的输出
    • 三、self-attention
      • 1、Sequence Labeling
      • 2、自注意力机制架构
      • 3、self-attention的输入输出
      • 4、self-attention的内部相关性
      • 5、self-attention如何计算α
      • 6、self-attention计算α关联性
      • 7、self-attention得到α‘
      • 8、self-attention得到新向量b1
      • 9、self-attention整体得到b1
      • 10、self-attention整体得到b2
      • 11、从矩阵乘法讲述self-attention如何运作:三个重要矩阵:Wq,Wk,Wv
      • 12、从矩阵乘法讲述self-attention计算α
      • 13、从矩阵乘法讲述self-attention并行计算各种α
      • 14、从矩阵乘法讲述self-attention得到b1
      • 15、从矩阵乘法讲述self-attention整体
    • 四、Multi-head Self-attention
      • 1、多头注意力机制的变形:关注不同的相关性
    • 五、引入位置信息资讯
      • 1、引入位置信息资讯
      • 2、Positional Encoding技术
    • 六、self-attention其它应用
      • 1、其它应用
      • 2、Self-attention for Speech
      • 3、Self-attention for lmage
      • 4、Self-attention for lmage例子
      • 5、Self-attention v.s.CNN
      • 6、Self-attention v.s.CNN
      • 7、Self-attention v.s.CNN
      • 8、Self-attention v.s.RNN
      • 9、Self-attention for Graph
      • 10、To learn More...
  • No.2 Transformer

知识框架

No.1 自注意力机制(self-attention)

  • 接下来我们将探讨另一个常见的网络架构——自注意力(self-attention)。自注意力的提出旨在解决什么问题呢?让我们深入了解。

一、输入的种类以及表示

1、输入是a vector

  • 解决的问题是到目前为止,我们的network input都是一个向量。无论是在预测YouTube观看人数的问题上,还是在影像处理领域,我们的输入都是一个向量。然后,我们的输出可能是一个数值,属于回归问题,或者是一个类别,涉及到分类问题。
  • 然而,假设我们面对更加复杂的情境呢?假设我们的输入是一排向量呢?,而且这些向量的数量是会变化的呢?在先前讨论影像处理时,我们强调过假设输入的影像大小都是相同的。但是,那现在假设我们的输入会不一样呢?每次我们的模型输入的sequence数目和sequence长度都可能不同,我们应该如何处理呢?有没有一些例子,其中输入是一个序列,而且序列的长度会发生变化的呢?

在这里插入图片描述

2、输入是a set of vectors(一段文字)

  • 第一个例子涉及到文字处理。假设我们今天要处理网络输入,输入是一个句子。每个句子的长度都不相同,每个句子中的词汇数量也不同。如果我们将句子中的每个词汇都描述为一个向量,用向量表示的话,那我们模型的输入就会是一个Vector set,而且这个Vector set的大小每次都不一样,因为句子长度不同,导致Vector set的大小也不同。
  • 那么如何将一个词汇表示成一个向量呢?简单来说,最简单的做法是使用单热编码(one-hot encoding)。你可以想象开一个很长的向量,这个向量的长度与世界上存在的词汇数目一样多。假设英文有10万个词汇,那就开一个10万维的向量,每一个维度对应一个词汇,例如“apple”就是100、"bag"就是010、"cat"就是001,以此类推。
  • 然而,这样的表示方法有一个非常严重的问题,即假设所有的词汇彼此之间都是没有关系的。从这个向量里面,你看不到词汇之间的关联,比如"cat"和"dog"都是动物,它们应该更接近;"cat"和"apple"一个是动物,一个是植物,它们应该更不相像。这个向量里面没有任何关于语义关系的信息。
  • 另外一个方法是词嵌入(word embeddings),我们会给每一个词汇一个向量,而这个向量是包含了语义信息的。如果你将词嵌入可视化,你会发现所有的动物可能聚集成一团,所有的植物可能聚集成一团,所有的动词可能聚集成一团,等等。至于词嵌入是如何得到的,如果你感兴趣,可以查阅相关资料。总之,在网络上你可以找到一种叫做词嵌入的方法,它会为每一个词汇创建一个向量,而一个句子就是一排长度不一的向量。

在这里插入图片描述

3、输入是a set of vectors(一段音频)

  • 还有哪些例子需要将一个向量的sequence作为输入呢?举例来说,中的一个任务是处理一段声音信号,实际上就是一系列向量的序列。具体来说,我们会将一段声音信号取一个范围,这个范围被称为一个窗口(window)。窗口中的信息会被描述成一个向量,这个向量被称为一个帧(frame)。在语音领域,我们通常将一个向量称为一个帧。刚好,这个窗口的长度是25毫秒。
  • 那么,如何将这样一个小段的声音信号转换成一个帧,变成一个向量呢?这里有各种各样的方法,具体的细节这里就不展开讨论了,因为有许多不同的方法可以用一个向量来描述25毫秒内的语音信号。接着,为了描述整段声音信号,我们会将这个窗口向右移动一些距离,通常是10毫秒。有人可能会问为什么窗口长度是25,移动的距离是10,这个问题其实很难回答。这是由古圣先贤调试得到的最佳结果,调整这些参数自己很难得到好的效果。
  • 总之,一段声音信号就是用一串向量来表示的。由于每个窗口向右移动10毫秒,所以一秒钟的声音信号有多少个向量呢?有100个。因此,一分钟的声音信号就有6000个向量。语音信号实际上是一个复杂的一小段声音信号,其中包含的信息量非常可观。所以,声音信号就是一系列向量的集合。那还有哪些其他东西也是一系列向量的集合呢?

在这里插入图片描述

4、输入是a set of vectors(一段图谱)

  • 一个图,也就是一个graph,实际上是一组节点之间相互关联的集合。在计算机科学中,我们常常遇到社交网络这样的图。在社交网络中,每个节点代表一个个体,通常是一个人,而节点之间的边则表示它们之间的关系,比如是否是朋友等。每个节点可以被看作是一个向量,这个向量可以包含个体的各种信息,比如性别、年龄、职业、言论等。通过使用向量来表示这些信息,我们可以将整个社交网络看作是一组向量的集合。
  • 那么,还有哪些例子与图相关呢?在计算机科学中,图是一种通用的数据结构,因此与图有关的例子非常丰富。例如,推荐系统中的用户-物品关系图,网络拓扑结构中的节点和连接关系,或者是任务调度中的依赖关系图等都可以被看作是图的应用。在这些例子中,图的概念被广泛用于建模和解决各种计算机科学问题。

在这里插入图片描述

5、输入是a set of vectors(一个分子)

  • 首先,我们谈谈分子的概念,它在计算机科学中也可以被视为一种图。现在,像药物发现这样的应用在Covid-19疫情期间变得非常重要。许多人期待着,通过机器学习,我们能在药物发现领域取得突破。在这个时候,你需要将一个分子作为你模型的输入。一个分子可以被视为一个图,其中分子上的每个球代表一个原子,就像图中的节点一样。
  • 那么,一个原子如何用向量表示呢?你可以使用二进制向量表示,例如,用one-hot vector表示。比如说,氢可以用1000表示,碳可以用0100表示,氧可以用0010表示。这样,每个原子都可以用一个向量来表示。一个分子就是一组这样的向量的集合,构成了一个图。这个图可以被用于机器学习模型的输入,特别是在药物发现等领域。

在这里插入图片描述

二、输出的种类以及表示

1、第一种可能的输出

  • 那么,输出是什么呢?刚才提到,输入可以是一组向量,可以是文字、语音或图。在这种情况下,我们可能有三种输出的可能性。第一种可能性是,每个向量都有一个对应的标签,也就是说,当模型看到输入是四个向量时,它需要输出4个标签。每个标签可能是一个数值,这就是回归问题;如果每个标签是一个类别,那就是分类问题。在第一种可能性中,输入和输出的长度是相同的,模型无需担心输出多少的标签,与输入向量的数量保持一致。例如,在文字处理领域,如果要进行词性标注(POS tagging),这就是一个应用第一种输出类型的任务。
  • 举例来说,对于POS tagging,我们想要让机器自动确定每个词汇的词性,比如名词、动词、形容词等。这个任务并不容易,因为一个词汇可能在不同上下文中有不同的词性。例如,句子"I saw a saw"中的第二个"saw"在名词用法时表示句子,而不是sentence。机器需要理解每个输入词汇的具体词性,第一个saw是动词,第二个是名词,这就是一种输入和输出长度相同的任务。
  • 对于语音任务,我们也是面对着第一种可能性的输出。在语音任务中,我们可能需要决定每个音频向量对应的音素(phoning),这相当于音标的简化版本。如果是社交网络领域,我们给定一个图,模型需要决定每个节点的特性,比如他们是否可能购买某个商品,以便做出个性化的推荐。
  • 综上所述,这就是一些应用第一种可能性输出的例子,其中输入和输出的数量保持一致。

在这里插入图片描述

2、第二种可能的输出

  • 第二种可能的输出是什么呢?第二种可能的输出是我们在整个sequence中只需要输出一个标签。举例来说,如果是文字领域,我们可以考虑情感分析(sentiment analysis)。情感分析是什么呢?它是一种让机器阅读一段文本,然后确定这段文本是正面的还是负面的任务。这种应用非常有用,比如当你公司推出了一款新产品,上线后你想知道网友对它的评价,但你不可能逐条分析每个网友的留言。使用情感分析技术,机器可以自动判断一篇帖文中对某个产品的评价是正面还是负面,从而了解产品在用户心中的声誉。这就是情感分析,它在整个句子中只需要一个标签,如"positive"或"negative"。
  • 或者,如果涉及到图的情况,你可能想要给定一个分子,然后预测这个分子是否有毒性,或者它的亲水性如何。这就是在给定一个图的情况下输出一个标签的例子,也是第二类输出的一种。
  • 这里讨论了第二种可能性的输出,即在整个序列中只需要一个标签。

在这里插入图片描述

3、第三种可能的输出

  • 第三个可能的输出。第三个可能的输出是,我们不确定应该输出多少个标签,机器需要自己决定输出多少个标签。可能你的输入是n个向量,输出可能是n个标签。为什么是n,机器会自己决定。这种任务又被称为序列到序列(sequence to sequence)的任务。
  • 涉及到序列到序列的,后续会有更深入的讨论。可以想象,翻译是sequence to sequence任务的一个例子,因为输入和输出是不同的语言,它们的词汇数量本来就可能不一样多。或者,语音辨识也是真正的序列到序列任务,输入是一句话,输出是一段文字。在今天的讨论中,我们仅仅涉及了第一种类型和第二种类型。有关第三种类型的内容,我们将在以后的课程中详细讨论。如果你对第二种类型的问题感兴趣,你可以查看作业室,看看它是如何处理的。由于上课时间有限,今天我们先只讲解了第一个类型,也就是输入和输出数量相同的情况。这种情况被称为序列标注(sequence labeling)。

在这里插入图片描述

三、self-attention

1、Sequence Labeling

  • 每一个向量都分配一个标签。解决Sequence标注问题的方法是使用全连接网络。尽管输入是一个Sequence,我们可以采取分而治之的策略,将每个向量分别输入到全连接网络中。全连接网络将输出给我们,我们需要考虑是回归还是分类任务。然而,这种方法显然存在很大的问题。
  • 问题的关键在于,在处理词性标记的任务时,例如给定句子 “I saw a saw”,对于全连接网络而言,第一个 “saw” 与第二个 “saw” 完全相同,它们是相同的词汇。由于全连接网络将相同的输入映射为相同的输出,它无法区分这两个 “saw”。然而,我们期望第一个 “saw” 输出动词,而第二个 “saw” 输出名词。这给全连接网络造成了困扰,因为它无法处理这种情况,使得如何正确输出成为难题。
  • 为了解决这个问题,可以让全连接网络考虑更多的上下文信息,例如使用self attention。通过将中的每个向量及其前后几个向量串联起来,并一起输入到全连接网络中,可以在考虑上下文的情况下完成任务。这种方法在作业2中已经被助教采用,通过观察向量前后5个向量的信息,以总共11个向量的信息来确定它所属的音标。因此,给全连接网络提供整个窗口的信息,使其能够考虑相邻向量的上下文信息,但这种方法仍然有一些局限性。
  • 对于作业2而言,使用这种方法已经足够好,因为只需考虑前后5个向量就能得到不错的结果。因此,要过强基线,重点不在于考虑整个序列,不必再朝这个方向努力。未来在使用给定数据时,可以轻松地过强基线。
  • 然而,真正的问题在于,如果今天有一个任务不是通过考虑一个窗口就可以解决,而是需要考虑整个序列才能解决,那该如何处理呢?有人可能认为开一个大窗口覆盖整个序列是一种容易的方法。但是,不要忘记,序列的长度是各异的。如果我们要确保窗口足够大,以覆盖整个序列,那么可能需要统计训练数据,查看最长的序列有多长,然后开一个比最长序列更长的窗口才能确保覆盖。然而,开这么大的窗口意味着全连接网络需要大量的参数,可能会导致计算量巨大,甚至容易出现过拟合的问题。因此,有没有更好的方法来考虑整个输入序列的信息呢?这就是我们接下来要介绍的self attention的用途。

image-20231127144810039

2、自注意力机制架构

  • 那么,self attention是如何运作的呢?self attention的运作方式是吃入整个序列,然后为每个输入的Vector产生一个相应的输出Vector。例如,输入一个深蓝色的Vector,它会输出一个浅蓝色的Vector;输入4个Vector,它就输出4个Vector。这四个Vector的特殊之处在于它们都是在考虑整个序列的情况下生成的。
  • 具体而言,每个项量都被赋予一个黑色的框框,表示它不是普通项量,而是在考虑整个句子后得到的信息。然后,将这个考虑了整个句子的项量传递给全连接网络,以确定它应该是什么样的类别或包含什么样的数字。通过这种方法,全连接网络不再只考虑一个小范围或窗口,而是考虑整个序列的信息,从而决定输出的结果。
  • self attention并不仅限于使用一次,可以堆叠多次。通过交替使用self attention和全连接网络,可以处理整个序列的信息。在这个过程中,self attention专注于处理整个序列的信息,而全连接网络专注于处理某个位置的信息。这种交替使用的方式使得模型更加灵活。
  • 关于self attention,最知名的相关论文之一是《Attention is All You Need》。在这篇论文中,Google提出了Transformer这一网络架构,其中一个最关键的组件就是self attention。Transformer是一个强大的网络,被形象地比喻为变形金刚。self attention被认为是Transformer的核心,而这个模型在自然语言处理等领域取得了巨大成功。
  • 需要注意的是,像self attention这样的架构并不是只有在《Attention is All You Need》这篇论文中提出的,还有许多更早的论文提出了类似的思想,只是名称可能不同,例如self mention等。然而,《Attention is All You Need》的出现确实推动了self attention等模型的研究与应用。

在这里插入图片描述

3、self-attention的输入输出

  • Attention是如何运作的呢?在attention的输入中,它是一串的Vector。这个Meta(元信息)可能是整个网络的输入,也可能是某个隐藏层的输出。因此,我们这里不使用x来表示它,而是用a来表示它,表示它有可能是前面已经经过一些处理的,是某个隐藏层的输出。当一排a这个项链形成后,
  • self attention要关注另外一排b这个项链。在这个项链中,每一个b都是在考虑了所有的a之后才生成的。因此,这里特意画了非常多的箭头,告诉你b1考虑了a1到a4产生的,b2考虑了a1到a4产生的,b3和b4同理,都是考虑了整个输入序列才产生的。

image-20231127145043827

4、self-attention的内部相关性

  • 接下来,我们要说明如何生成b1这个项量。一旦你理解了如何生成b1,你就知道如何生成剩下的b项,即b2、b3和b4。那么,如何生成b1呢?
  • 首先,我们根据a1,在整个序列中找出与a1相关的其他项链。我们知道,在进行self attention时,我们的目的是为了考虑整个序列,但又不希望将整个序列的所有信息都包含在一个窗口中。因此,我们有一个特殊的机制,根据a1这个项量,找出整个较长序列中哪些部分是重要的,哪些部分与判断a1的类别相关,哪些部分是我们在决定a1的类别或回归数值时所需的信息。
  • 每一个向量与a1的关联程度,我们用一个数值α(阿法)来表示。然后,self attention模块如何自动决定两个项量之间的关联性呢?当给定两个项量,比如a1和a4时,它是如何决定a1和a4之间的相关性,并为其分配一个数值α呢?

image-20231127145124799

5、self-attention如何计算α

  • 若要计算attention,你需要一个用于计算attention的模块。这个模块以两个项量作为输入,然后直接输出(α)这个数值,这个数值可以表示两个项量之间的关联程度。那么,如何计算这个阿法的数值呢?有许多不同的方法,其中比较常见的一种叫做乘加法。在这种方法中,将输入的两个项量分别与两个不同的矩阵相乘,左边的项量乘以矩阵WQ,右边的项量乘以矩阵WK。接着得到q和k这两个项量,将它们进行点乘,再将结果相加,最终得到一个标量,这个标量就是(α)。
  • 实际上,还有其他计算(α)的方式,比如右边提到的datap方法。这种方法同样是将两个项量通过WQ和WK得到q和k,然后将它们串联在一起,经过一个激活函数,再通过一个变换,最终得到(α)。总之,有很多不同的方法可以用来计算attention,计算这个阿法的数值,计算关联程度。在接下来的讨论中,我们将使用左边提到的方法,这也是当前最常用的方法,也是在Transformer中使用的方法。
  • 接下来,我们将讲解如何计算这个(α),一旦讲完这一部分,我们就可以结束这次课程,或者看看大家是否有任何问题。总之,通过这两个向量,我们可以计算出(α)。

在这里插入图片描述

6、self-attention计算α关联性

  • 在应用于self attention中,你需要将a one与a two、A3以及A4分别计算它们之间的关联性,也就是计算它们之间的阿法。那么具体怎么做呢?你将a one乘以w q,得到q one。这个q有个名字,我们称之为query。它就像是你在搜索引擎中搜寻相关文章时使用的关键字,所以这里叫做query。接下来,a two、A3和A4你都要分别乘以w k,得到k这个向量。而k这个向量有一个名字,叫做key。然后,你将这个query(q one)与key(k two)做内积运算,就得到了阿法。我们用阿法一二来表示,表示query一提供,key二提供时,它们之间的关联性。这个关联性又被称为attention score,即注意力分数。
  • 好了,q one与k two(即a one与a two)计算出它们的attention score后,接下来也需要与A3和A4来计算。具体操作是将A3乘以w k,得到K3,得到另外一个key;A4乘以w k,得到K4,也得到另外一个key。然后,将K3这个key与q one这个query做内积运算,得到1与3之间的关联度,得到1与3之间的attention。同样,将K4与q one做内积运算,得到阿法14,得到1与4之间的关联度。这样,a one就计算出了它与a two、A3和A4之间的关联性,而这个关联性用attention score Alpha来表示。

在这里插入图片描述

7、self-attention得到α‘

  • 在深入讨论中,当我们处于第10章时,q one(也就是自身)也需要与自己计算关联性。因此,你同样需要将a one乘以w k,得到k one,再将q one与k one计算它们之间的关联性。这个自身与自身计算关联性的过程可能会显得有些特殊,但实际上它的重要性不可忽视。你可以在做作业时尝试一下,看看这个步骤对结果的影响有多大。
  • 接下来,我们将计算a one与每一个向量的关联性。然后,进行Softmax操作。这里的Softmax与分类时使用的Softmax是一样的。我们将所有的阿法值乘以指数,然后将这些指数值相加并进行标准化,得到Softmax的输出。因此,Softmax的输出是一系列阿法块。或许你会问,为什么这里要使用Softmax?刚才提到分类时使用Softmax有一些道理,只是还没详细解释。而在这里,使用Softmax并没有特别的理论基础,你也可以选择其他的激活函数,例如有人尝试使用一个叫做reader的激活函数,发现在某些情况下比Softmax效果更好。所以,你并非必须使用Softmax,你可以尝试其他激活函数,最终结果取决于实验效果。

image-20231127145347198

8、self-attention得到新向量b1

  • 到了Alpha plan这一步,我们要根据这个Alpha plan抽取出sequence中的重要信息。通过这个Alpha plan,我们已经知道哪些项量与a one有最强的关系。接下来的任务就是基于这种关联性,根据attention的分数来抽取重要的信息。
  • 具体而言,我们将对a one到a four中的每个项量乘以WV,得到新的项量,用v one、v two、v three、v four来表示。然后,将这些新的项量乘以attention的分数,即Alpha plan。将它们加起来,用公式表示,即将每个v乘以Alpha plan得到b one。
  • 你可以想象,如果某个项量得分越高,比如a one与a two的关联性很强,那么对应的Alpha plan值就很大。在进行权重上的计算时,得到的b one的值就可能更接近b two。因此,具有最大值的那个项量,其attention分数最高,该项量对最终抽取的结果影响较大。

在这里插入图片描述

9、self-attention整体得到b1

  • 好,关于self-attention,我们上周已经演示了如何根据输入序列得到相应的输出。self-attention的任务是接收一系列输入向量并生成一系列输出向量。我们上周介绍了如何根据输入向量序列得到 b one 的过程。我们停在那里,如果你错过了上周的内容,那正好,我们现在将再次讨论如何从这一系列向量中得到 b two。其实,从这一系列向量得到 b one 和 b two 的操作是一样的。
  • 所以,我们再次强调一点:b one 到 b four,并不需要按顺序生成。你不必先计算 b one,然后计算 b two,再计算 b three,最后计算 b four。实际上,它们是同时计算出来的。

image-20231127145559083

10、self-attention整体得到b2

  • 好,现在我们来讨论如何计算 b two。我们的主角是 a two,a two 会通过一个变换(transform)乘上一个矩阵,得到 Q2。接下来,我们将使用 Q2 对 a one 到 a four 这四个位置进行 attention score 的计算。计算 attention score 的方法是将 Q2 分别与 k one、k two、k three、k four 做点积,得到四个分数。然后,可能会进行一些归一化操作,比如使用 Softmax,得到最终的 attention score,我们用 Alpha 21 来表示。
  • 得到 attention score 之后,我们将这些分数分别与 v one、v two、v three、v four 相乘,得到 Alpha 21 乘以 v one 得到 b one,Alpha 22 乘以 v two 得到 b two,以此类推,最后将它们全部相加得到 b two。
  • 具体而言,我们可以表示为:b two = Alpha 21 * v one + Alpha 22 * v two + Alpha 23 * v three + Alpha 24 * v four。
  • 这样,我们就得到了 b two 的计算方式。同理,你可以使用相似的步骤计算出 b three 和 b four,从而了解如何从 a one 到 a four 计算出 b one 到 b four。

在这里插入图片描述

11、从矩阵乘法讲述self-attention如何运作:三个重要矩阵:Wq,Wk,Wv

  • 好,我们重新从矩阵乘法的角度来理解一下刚才讲的 self attention 运作的过程。我们已经知道对于每个 a(a one 到 a four),它们分别产生了 QKV(q one k one v one 到 q four k four v four)。我们可以用矩阵运算的方式表示这个操作。
  • 首先,我们将每个 a 与矩阵 Q 进行乘法,其中 Q 由 WQ 表示,得到 QI(q one 到 q four)。这里的 I 表示一个矩阵,其中的颜色代表了 a one 到 a four。同样,我们将每个 a 与矩阵 K(由 WK 表示)相乘,得到 KI(k one 到 k four)。然后,将每个 a 与矩阵 V(由 WV 表示)相乘,得到 VI(v one 到 v four)。将这些矩阵拼接起来,我们得到了大矩阵 I(大 i),其中包含了输入的所有信息。
  • 接下来,我们将大矩阵 I 分别乘上三个矩阵,分别是 WQ、WK、WV,得到了大矩阵 Q、K、V。这里的 Q、K、V 分别包含了 q one 到 q four、k one 到 k four、v one 到 v four。
  • 总结一下,对于输入的每个 a,我们通过乘上不同的矩阵得到了对应的 QKV,其中 Q 是通过乘上 WQ,K 是通过乘上 WK,V 是通过乘上 WV 得到的。这样,我们从 a 得到了 QKV 的过程就是将输入的向量序列乘上三个不同的矩阵,得到了 q、k、v。

在这里插入图片描述

12、从矩阵乘法讲述self-attention计算α

  • 下一步我们要做的是计算 attention 分数。从矩阵操作的角度来看,这是如何进行的呢?对于每个 q,它都会与每个 k 做内积操作,得到相应的 attention 分数。从矩阵的角度来看,这实际上是将 q one 与 k one 做内积,得到阿法 one one。将 k one 的背后项量表示成一个较宽的箭头,表示它是全局的。同理,阿法 one two 是 q one 与 k two 做内积得到的,阿法 one three 是 q one 与 K3 做内积得到的,阿法 one four 是 q one 与 K4 做内积得到的。这四个步骤的操作可以看作是将 k one 到 k four 拼接起来,看作是一个矩阵的四个列向量。将这个矩阵乘上 q one,得到另一个项量。这个项量的值即为 attention 分数阿法 one one 到阿法 one four。
  • 总结一下,将 q one 乘上由 k 所组成的矩阵,就得到了阿法 one one 到阿法 one four,这表示了 q one 与输入的每个 k 的关联性。

在这里插入图片描述

13、从矩阵乘法讲述self-attention并行计算各种α

  • 我们之前提到,不仅 q one 需要计算与 k one 到 k four 的 attention 分数,而且 q two 也需要计算与 k one 到 k four 的 attention。为了计算 q two 对 k one 到 k four 的 attention,我们将 q two 乘上 k one 到 k four,得到阿法 two one 到阿法 two four。同样,对于 Q3 和 q four,操作也是类似的。这些 attention 分数的计算可以视为两个矩阵的相乘,其中一个矩阵的列向量是 k one 到 k four,另一个矩阵的列向量是 q one 到 q four。将这两个矩阵相乘,得到的矩阵通过 transpose 操作,最后进行 Softmax 得到归一化的 attention 分数。
  • 在这里,我们将 k 的 transpose 乘上 q 得到一个矩阵 a,a 中的值表示了 q 和 k 之间的 attention 分数。我们通常对这些 attention 分数进行 normalization 操作,一种常见的方式是使用 Softmax,对每个 color 进行 Softmax 操作,确保每个 color 中的值相加为一。虽然我们提到了 Softmax,但也要注意,Softmax 并不是唯一的选择,你也可以尝试其他操作,比如 Redo。
  • 在这里,我们用 API 表示通过 Softmax 操作后的结果,得到了 normalized 的 attention 分数。接下来,我们已经计算出了这些 attention 分数,下一步是什么呢?

在这里插入图片描述

14、从矩阵乘法讲述self-attention得到b1

  • 接下来,我们要讨论下一个步骤。在我这个投影片上,发现了一个小小的错误,应该是 “prime” 而不是 “head”。我最早写成了 “head”,但之后改成了 “prime”,这个地方却没有更新过来。
  • 好的,现在我们要将 v(v one 到 v four)乘上这边的 Alpha(阿法),然后得到 b。得到了 b 之后,这个 b 是如何计算的呢?我们将 v one 到 v four 拼接在一起,将其看作是一个大的矩阵 V,包含了四个颜色。然后,将 V 乘上 API(经过 Softmax 操作后的 attention 分数)的第一个颜色,得到的结果就是 b one。如果你熟悉线性代数,你会知道将 API 乘上 v,相当于将 API 的第一个颜色乘上 v 矩阵,得到了输出矩阵的第一个颜色。将 a 的第一个颜色乘上 v 矩阵,其实就是将 v 矩阵的每个颜色根据 a 的每个元素进行加权,然后得到 b one。这个操作就是将 b one 乘上权重,将 v two 乘上权重,将 B3 乘上权重,将 B4 乘上权重,全部加起来,就得到了 b one。从矩阵操作的角度看,就是将 API 的第一个颜色乘上 b,得到 b one。
  • 然后,接下来就是类似的操作,依此类推。将 API 的第二个颜色乘上 b 得到 b two,将 API 的第三个颜色乘上 b 得到 B3,将 API 的最后一个颜色乘上 b 得到 b four。所以,我们就是将 F 矩阵乘上 b 矩阵,得到 O 矩阵。O 矩阵的每个颜色就是 self attention 的输出,也就是 b one 到 b four。

在这里插入图片描述

15、从矩阵乘法讲述self-attention整体

  • 在我们讲解操作的过程中,一开始的时候,我们提到了先产生 QKV。接着,根据这个 Q,我们找出相关的位置,并对应到 B 座的位置上。实际上,这一系列操作只是一连串的矩阵乘法而已。让我们再复习一下刚才看到的矩阵乘法:
  • 首先,i 是什么?i 是我们的输入,是 self attention 的输入。self attention 的输入是一串 Vector,排列成矩阵的颜色,也就是 i。所以 i 是 self attention 的输入。然后,将这个输入分别乘上三个矩阵 WQ、WK 和 WV,得到大 Q、大 K 和大 V 这三个矩阵。
  • 接下来,将大 Q 乘上 K 的转置,得到 A 这个矩阵。A 的矩阵可能会经过一些处理,得到 A’。有时候我们会称 A’ 为 attention 的矩阵。
  • 然后,将 A’ 乘上 B,就得到 O。O 就是 self attention 这个层的输出。所以,self attention 的输入是 i,输出是 o。
  • 你会发现,在 self attention 层里,虽然进行了复杂的操作,但实际上需要学习的参数只有 WQ、WK 和 WV。只有这三个参数是未知的,需要通过我们的训练数据找到的。其他的操作都是人为设定好的,不需要通过训练数据找到。所以,WQ、WK 和 WV 是需要通过训练数据找到的,而整个操作从 i 到 o 就是进行了 self attention。

在这里插入图片描述

四、Multi-head Self-attention

1、多头注意力机制的变形:关注不同的相关性

  • 在 Self Attention 中,有一个更进一步的版本,称为 Multi-Head Self Attention。这个 Multi-Head Self Attention 在当今的应用中非常广泛。在实际的应用场景中,例如助教办公室里的代码,原始的模型是有 Multi-Head 的,其中 Head 的数量被设定为 2。刚才助教给出了一个提示,建议将 Head 的数量减少一些,改成 1,这实际上可以过一些基本的测试,但并不代表所有任务都适合使用较少的 Head。对于一些任务,比如翻译和语音辨识,使用较多的 Head 可能会获得更好的结果。至于使用多少个 Head,这是另一个超参数,需要进行调整。
  • 为什么我们需要较多的 Head 呢?可以想象一下,相关性有很多不同的形式,有很多不同的定义。因此,我们可能不能只有一个 Q,而是应该有多个 Q,每个 Q 负责不同种类的相关性。所以,假设你要做 Multi-Head Self Attention,你可能会这样操作:首先,将输入 A 乘上一个矩阵得到 Q,接下来将 Q 乘上另外两个矩阵,分别得到 Q1 和 Q2。这里的 1 和 2 代表这个位置的几个 Q。因此,这里有 QI1 和 QI2,代表我们有两个 Head。对于同样的位置,再做同样的操作,得到 QJ1 和 QJ2。因此,我们认为在这个问题中有两种不同的相关性,因此我们需要生成两种不同的 Head 来找到两种不同的相关性。
  • 既然 Q 有两个,那么 K 和 V 也就需要有两个。接下来,就是如何从 Q 得到 Q1 和 Q2,从 K 得到 K1 和 K2,从 V 得到 V1 和 V2。实际上,就是将 Q、K 和 V 分别乘上两个矩阵,得到不同的 Head。
  • 然后,就是在做 Self Attention 的时候,我们按照每一类的 Head 一起做,即 1 这一类的一起做,2 这一类的一起做。例如,QI1 在计算 Attention Score 的时候,就只关注 KI1,不关注 KI2。同样,VI1 在计算加权和的时候,也只关注 VJ1,不关注 VJ2。最终,将得到的结果 BI1 和 BI2 合并,通过一个变换(即再乘上三个矩阵),得到 BI,然后送到下一层。
  • 因此,整个操作就是 Multi-Head Attention,是 Self Attention 的一种变形。

在这里插入图片描述

五、引入位置信息资讯

1、引入位置信息资讯

  • 到目前为止,我们可以发现 Self Attention 这个层缺少一个可能很重要的信息。这个信息是什么呢?这个信息是未知的信息。想象一下对于一个 Self Attention 层来说,每个输入是出现在序列的最前面还是最后面,它是完全不知情的。你可能会说,刚才不是说有位置 1、2、3、4 吗?但是,这些位置 1、2、3、4 只是我们在投影片上为了帮助大家理解而标记的编号。对于 Self Attention 来说,位置 1 和位置 2、位置 3 和位置 4 之间没有任何差别,这四个位置的操作是一模一样的。对于 Self Attention 来说,位置之间的距离都是相同的,没有任何一个位置距离比较远或者比较近,也没有哪个位置在整个序列的最前面或者最后面。
  • 然而,这样的设计可能存在一些问题,因为有时候未知的信息可能很重要。例如,在进行 POS tagging(词性标记)时,你可能知道动词比较不容易出现在句首,所以如果我们知道某一个词汇是在句首的,那么它是动词的可能性可能就比较低。未知的信息往往也是有用的。但是在我们目前为止讲的 Self Attention 操作中,它根本没有未知的信息。那么,我们在做 Self Attention 时,如果认为未知的信息很重要,可以通过使用一种叫做 Positional Encoding 的技术来将未知的信息引入。
  • Positional Encoding 的实现方法是为每一个位置设定一个 Vector,称为 Positional Vector。这里用 E 表示,上标 i 代表位置。每个不同的位置都有一个不同的 Vector,比如 E1、E2、E3 等。然后,将这个 E 加到输入 A 上,就完成了。这样,我们就告诉了 Self Attention 每个位置的信息。如果它看到输入 A 似乎被加上了 E,那么它就知道现在出现的位置是在 i 这个位置。
  • 那么,Positional Vector(位置编码)长什么样呢?最早的 Transformer 论文中,它的 Positional Vector 是这样的:每个位置对应一个不同的 Vector,第一个位置是 E1,第二个位置是 E2,以此类推。这样,它就将这个 Vector 放在第一个位置,将这个 Vector 加到第二个位置上,将这个 Vector 加到第三个位置上,以此类推。每个位置都有一个专属的 Vector。
  • 需要注意的是,这样的 Positional Vector 是手动设定的,是人工设计的。人工设计的因素存在一些问题,例如如果我现在定这个因素的时候只定到 1 到 128,而现在长度 c 是 129,怎么办呢?这可能会导致一些问题。当然,在最早的 Transformer 论文中,这个 Vector 是通过一些规则产生的,通过一种神奇的方式,通过一些心理学上的方式产生的。但是,当然你可能会有新的问题,为什么要使用 sin 和 cosine 呢?为什么不是其他的东西?为什么一定要这样手动设计 Positional Vector 呢?实际上,你不一定要这样产生 Positional Encoding,Positional Encoding 仍然是一个正在研究的问题。你可以创造自己的方法,甚至 Positional Encoding 是可以根据数据学出来的。

在这里插入图片描述

2、Positional Encoding技术

  • 在处理 Positional Encoding 方面,你可以再参考一下相关文献,因为这是一个当前正在研究的问题。举例来说,我引用了一篇去年发布在 ARCHIVE 上的论文,这显示这些都是较新的研究。在文献中,对于 Positional Encoding 进行了比较,并提出了一些新的方法。最早的 Positional Encoding 使用了一种神奇的单一方式生成,而如果你将 Positional Encoding 中的数值视为网络参数的一部分并直接进行训练,效果可能如图所示。
  • 这张图是横着看的,每一行代表一个位置。最初的 Positional Encoding 使用的是一种赛方程生成的方法,而另一种是通过神经网络(RNN)生成的。另外,有一篇论文提出了一种名为 “floater” 的方法,通过一种神奇的叙述方式产生 Positional Encoding。总之,有许多不同的方法来生成 Positional Encoding,包括神经网络生成、赛方程等。目前我们尚不清楚哪种方法最为优越,这是当前研究中的一个问题。因此,你无需过于纠结为什么选择 sin 和 cosine,而是应该鼓励提出新的方法。

在这里插入图片描述

六、self-attention其它应用

1、其它应用

  • 这个 self-attention 在计算机领域中得到了广泛的应用,特别是在 Transformer 模型中。我们之前已经多次提到了 Transformer 模型,这个模型在自然语言处理(NLP)领域非常有名。在 NLP 中,Transformer 被广泛应用于各种任务,如语言翻译、文本生成等,而其中的 self-attention 是这一模型的核心组成部分。
  • 然而,需要注意的是,self-attention 并不仅限于在 NLP 相关的应用中使用,它还可以在许多其他问题上发挥作用。在计算机科学和人工智能的其他领域,人们也发现了 self-attention 的潜力,并将其应用于图像处理、语音识别等不同类型的任务。这说明了 self-attention 不仅仅是 NLP 的专属工具,它具有更广泛的适用性,可以为各种领域的问题提供有效的解决方案。

在这里插入图片描述

2、Self-attention for Speech

  • 在语音处理中,也可以使用 self-attention。然而,在语音处理中使用 self-attention 时,可能需要对其进行一些微小的修改。举例来说,因为语音信号通常表示为一系列向量,每个向量仅代表10毫秒的长度,因此一段语音信号可能包含数千个向量。这使得描述语音信号的向量序列长度非常可观。
  • 对于处理具有可观长度的序列,尤其是在计算 self-attention 矩阵时,其复杂度与序列长度的平方成正比。计算 attention matrix a pi 需要进行 l 乘以 l 次的运算,如果 l 很大,计算量将变得非常庞大。此外,较大的序列长度还需要更大的内存来存储这个矩阵,这可能使训练变得困难。
  • 为了应对这个问题,引入了一种叫做 self-attention 的技术。在使用 self-attention 时,不需要考虑整个句子,而是只需关注一个较小的范围。具体范围的选择是人为设定的,通常取决于对问题的理解。在语音辨识中,可能只需关注一个小范围内的信息,即使不考虑整个句子,也足以判断特定位置的上下文信息。这样的做法可以加快运算速度,降低计算复杂度。

在这里插入图片描述

3、Self-attention for lmage

  • 影像处理中同样可以应用 self-attention 技术。在探讨如何将 self-attention 应用在影像上时,我们需要重新审视 self-attention 的适用范围。在之前的讨论中,我们强调了 self-attention 在输入为一系列项量或是一个向量集时的适用性。
  • 回顾我们之前在讨论卷积神经网络(CNN)时提到的观点,影像可以被看作是一个很长的向量。然而,我们也可以采取另一种观点,将一张图片视为一个向量的集合。这样做的方法是将一张图片表示为一个张量,其大小为 5x10x3,代表 RGB 三个通道。在这个张量中,每个位置的像素可以被看作是一个三维的项量。因此,整张图片实际上是由 5x10 个三维项量构成的。
  • 从这个角度来看,影像本质上也是一个向量的集合。既然它也是一个向量的集合,那么我们完全可以使用 self-attention 来处理一张图片。那么,是否有人已经尝试使用 self-attention 处理图片呢?

在这里插入图片描述

4、Self-attention for lmage例子

  • 是有的;那这边就举了两个例子来给大家参考;那先把silver Tension用在影像处理上;也不算是一个呃非常石破天惊的事情;好那我们可以

在这里插入图片描述

5、Self-attention v.s.CNN

  • 来比较一下 self-attention 和 CNN 之间存在的差异或关联。如果我们今天使用 self-attention 处理一张图片,这意味着你要考虑每个像素点,其中每个像素点会生成一个查询(query),其他像素点会生成一个键(key)。在进行这种交互的时候,你在思考的不再是一小部分信息,而是整张影像的信息。
  • 然而,回顾我们上周讨论的 CNN,CNN 可以被视为 self-attention 的一种简化版本。在进行 CNN 时,我们只考虑 receptive field(感受野)内的信息。相比之下,在进行 self-attention 时,我们考虑整张图片的信息。因此,CNN 可以被看作是 self-attention 的简化版本,或者你可以反过来说,self-attention 是一个对 CNN 进行了复杂化的方法。
  • 在 CNN 中,我们需要确定 receptive field 的大小,每个神经元只考虑 receptive field 内的信息。而 receptive field 的大小是由人工决定的。我们上周也花了些时间讨论 receptive field 有哪些可能的设计。
  • 而对于 self-attention,我们使用 attention 机制来找出相关的像素点,就好像 receptive field 是自动学出来的一样。模型会自行决定 receptive field 的形状以及以哪个像素为中心,哪些像素是需要考虑的,哪些是相关的。因此,receptive field 的范围不再由人工划定,而是由机器自动学习得出。这里讨论了 self-attention 与 CNN 之间的关系。

在这里插入图片描述

6、Self-attention v.s.CNN

  • 在这篇论文中,会使用数学的方式严谨地告诉你,其实这个 CNN 就是 self-attention 的特例。只要设定合适的参数,self-attention 就可以完成与 CNN 一模一样的任务。因此,CNN 的函数集合(function set)长这个样子,而 self-attention 的函数集合长这个样子。所以,self-attention 是一个更加灵活(flexible)的 CNN,而 CNN 则可以看作是有一定限制的 self-attention。只要通过一些设计和限制,self-attention 就会变成 CNN。
  • 这不是很久以前的论文,它在网络上发布的时间是 2019 年 11 月。因此,我们今天上课讲的内容都是相当新颖的信息。既然 CNN 是 self-attention 的一个子集,而 self-attention 更为灵活,那么在讲到过拟合时,我们提到了比较灵活的模型需要更多的数据。如果数据不足,就有可能发生过拟合。相反,小型的模型,或者说具有一定限制的模型,在数据较少时可能不容易过拟合。如果这些限制设置得当,也可以获得不错的结果。

在这里插入图片描述

7、Self-attention v.s.CNN

  • 今天我们通过使用不同量级的数据来训练 CNN 和 self-attention,确实可以观察到我之前提到的现象。这个实验结果来自于 Google 的一篇名为 “An Image is Worth 1616 Words" 的论文。在该论文中,它将 self-attention 应用于图像,将一张影像拆分成 16x16 个小块,将每个小块想象成一个 word。因为通常 self-attention 更常用于自然语言处理,所以将图像的每个小块视为一个 word,并取了一个有趣的标题,叫做 "An Image is Worth 1616 Words”。
  • 横轴表示训练的影像数量,纵轴为实验结果。从实验结果中可以发现,对于 Google 来说,当使用的数据量较小时,即 1000 万张图的情况下,self-attention 的表现较差,而 CNN 的表现较好。而在数据量较大的情况下,即 3 亿张图片的情况下,self-attention 的表现逐渐超过 CNN,表现更好。这说明随着数据量的增加,self-attention 的性能逐渐提升。然而,当数据量较小时,CNN 的性能优于 self-attention。
  • 为什么会出现这样的现象呢?我们可以从 CNN 和 self-attention 的灵活性来解释。Self-attention 具有较大的灵活性,因此需要更多的训练数据,否则容易发生过拟合。而 CNN 的灵活性较小,在训练数据较少时,可以获得较好的结果。但是在训练数据较多时,它无法从更大量的训练数据中受益,因此性能相对较差。这就是 self-attention 和 CNN 的比较结果。你可能会问,在 self-attention 和 CNN 中,哪个更好呢?实际上,你可以根据具体情况选择使用。在作业4中,如果你需要一个强基线,我给你一个提示,可以使用 Conformer 模型,该模型既包含了 self-attention,也使用了 CNN。

在这里插入图片描述

8、Self-attention v.s.RNN

  • 好,我们现在将 self-attention 与 RNN 进行比较。RNN,即循环神经网络,其实在这门课里我们不会详细讲解,因为循环神经网络的很大一部分功能可以用 self-attention 来替代。在这门课里,我们不会特别拿出 RNN 来讲解,但是如果你对 RNN 感兴趣的话,我可以简要介绍一下。
  • RNN 和 self-attention 都是用于处理输入是序列的情况。在 RNN 中,你的输入序列是一系列的向量,然后你有一个 RNN 的 block,在这个 block 里,它会读入一个 memory 的向量和第一个输入向量,然后输出一个结果。根据这个输出,通常我们称之为隐藏层,然后通过一个全连接网络进行进一步的预测。RNN 这个模块接下来,当第二个序列中的第二个向量作为输入进入时,会将这个向量和前一个时间点产生的输出一起送入 RNN,再生成新的向量,然后传递给全连接网络,进行我们想要的预测。当第三个向量进入时,将第三个向量和前一个时间点产生的输出一起送入 RNN,再生成新的输出,以此类推。
  • self-attention 模块与此非常相似,因为它也处理输入是一个向量序列的情况。self-attention 有一组向量,这组向量中的每一个都考虑了整个输入序列,然后将它们送入全连接网络进行处理。同样,self-attention 输出一组向量,然后通过全连接网络进行进一步的处理。如果我们比较 RNN 和 self-attention 的话,它们的输入都是一个向量序列,都经过一些处理后得到新的输出。然而,有一个明显的区别,self-attention 中的每个向量都考虑了整个输入序列,而 RNN 中每个向量只考虑了已输入的向量,没有考虑右边的向量。虽然 RNN 可以是双向的,但它仍然需要将最左边的输入存在 memory 中,然后一路传递到最右边才能被考虑。而 self-attention 没有这个问题,它只需要输出一个查询和一个键,只要它们匹配起来,就可以从整个序列中轻松地提取信息。
  • 还有一个重要的不同点是,在处理输入序列和输出序列时,RNN 是不能够进行并行处理的,它必须一个一个地生成。而 self-attention 具有并行处理的优势,可以同时生成输出序列中的所有向量。这使得 self-attention 在计算速度上更为高效。因此,很多应用逐渐将 RNN 的架构改成 self-attention 的架构。
  • 如果你想深入了解 RNN 和 self-attention 的关系,你可以查阅 “Transformers are RNNs” 这篇文章,它会告诉你,加上一些东西后,self-attention 其实变成了 RNN。这篇文章是去年 6 月放在 arXiv 上的,所以我们今天讲的都是一些非常新的研究成果。至于 RNN 的部分,我们这门课不会涉及,但如果你对 RNN 有兴趣,可以在这门课之前的录音中找到相关内容。

在这里插入图片描述

9、Self-attention for Graph

  • 最后呢,self attention也可以被用在图(Graph)上面。回忆一下,在这门课一开始的时候,我们提到过图也可以看作是一堆向量。如果是一堆向量,就可以使用self attention来处理。然而,当我们把self attention应用在图上时,有一些特殊之处。
  • 在图上,我们不仅仅有每一个节点(Node),每一个节点可以被表示成一个向量,还有边的信息。我们知道哪些节点之间是有连接的,即哪些节点是有关联的。我们知道哪些向量之间是有关联的。在之前使用self attention时,关联性是由模型自动找出的。但是现在,有了图的信息和边的信息,关联性也许就不需要通过机器自动找出来了。这个图上的"h"已经暗示了节点之间的关联性。因此,当你把self attention应用在图上时,你可以选择在进行attention匹配计算时,只计算与"h"相连的节点。在这个图中,例如,节点1和节点8是相连的,那么我们只需要计算节点1和节点8之间的注意力分数。节点6相连,所以只有节点6需要计算attention的分数。节点1和节点5相连,所以只有节点1和节点5需要计算attention的分数,以此类推。
  • 如果两个节点之间没有相连,那么很有可能意味着这两个节点之间没有关系。既然没有关系,我们就不需要再去计算它们的attention score,直接将它设为0就好了。因为这个图通常是人为根据某些领域知识构建的,而领域知识已经告诉我们这两个向量彼此之间没有关联。我们就没有必要再用机器去学习这个事情。
  • 实际上,当我们把self attention按照我们讲的这种限制应用在图上时,其实就是一种图神经网络(Graph Neural Network),也就是一种GNN。我知道GNN现在也是一个很炫酷的主题。不过,我不能说self attention涵盖了所有GNN的各种变体,但把self attention用在图上是GNN中的一种类型。
  • 在这里,我们无法深入讨论GNN,这个领域的知识也是相当深奥的。你可以参考助教之前上课的链接,他花了近3个小时来讲解图神经网络,但实际上还没有讲完。图神经网络的知识也是相当深刻的,我们今天的课程无法涵盖这个范围。

在这里插入图片描述

10、To learn More…

  • 那实际上,这个self attention,它有非常非常多的变体。你可以查阅一篇论文,叫做"Long Range Arena",里面详细比较了各种不同的self attention的变体。因为self attention最大的问题在于,它的运算量非常庞大。所以,如何减少self attention的运算量是一个未来的研究重点。
  • 你可以看到,这里有各种各样的self attention的变体。self attention最早是应用在Transformer模型上,因此很多时候,当人们提到Transformer时,实际上指的就是self attention。有人认为广义的Transformer就是指self attention。后来,各种各样的self attention的变体都以“former”结尾,比如informer、performer、Reformer等等。所以,现在各种self attention的变体通常被称为叉叉former。
  • 你可以看到图上往右表示运算的速度。因此,有很多新的叉叉former,它们的速度可能比原来的Transformer更快。但是,速度提升通常伴随着性能下降。这个图上的纵轴表示性能,所以这些新的叉叉former往往在性能上稍逊于原来的Transformer,但速度更快。
  • 那到底什么样的self attention才能够既快又好,这仍然是一个尚待研究的问题。如果你对self attention有进一步的研究兴趣,可以查看一下"Efficient Transformer"这篇论文,里面会直接介绍各种self attention的变体。当然,这个内容可能超出了我们当前课程的范围,我们就在这里停一下。

在这里插入图片描述

No.2 Transformer

等有空再继续看李宏毅老师的B站课程!


http://www.niftyadmin.cn/n/5233050.html

相关文章

JS 排序学习记录

排序 1、快速排序 快速排序(Quick Sort)是一种常用的排序算法,其原理基于分治策略。快速排序的基本思想是通过选择一个基准元素(pivot),将待排序序列分割成两部分,一部分所有元素小于等于基准…

SQL中limit与分页的结合

select * from test limit 2,10; 这条语句的含义:从第3条语句开始查询,共显示10条语句。 select * from test limit a,b; a0,第一条记录。 a1,第二条记录。 a2,第三条记录。 这条语句的含义:从第a1条语句开始查询,共显示b条…

循环神经网络训练情感分析

文章目录 1 循环神经网络训练情感分析2 完整代码3 代码详解 1 循环神经网络训练情感分析 下面介绍如何使用长短记忆模型(LSTM)处理情感分类LSTM模型是循环神经网络的一种,按照时间顺序,把信息进行有效的整合,有的信息…

6.8 Windows驱动开发:内核枚举Registry注册表回调

在笔者上一篇文章《内核枚举LoadImage映像回调》中LyShark教大家实现了枚举系统回调中的LoadImage通知消息,本章将实现对Registry注册表通知消息的枚举,与LoadImage消息不同Registry消息不需要解密只要找到CallbackListHead消息回调链表头并解析为_CM_NO…

Zabbix HA高可用集群搭建

Zabbix HA高可用集群搭建 Zabbix HA高可用集群搭建一、Zabbix 高可用集群(Zabbix HA)二、部署Zabbix高可用集群1、两个服务端配置1.1主节点 Zabbix Server 配置1.2 备节点 Zabbix Server 配置1.3 主备节点添加监控主机1.4 查看高可用集群状态 2、两个客户…

群晖Video Station 添加海报墙-新方法

海报墙 一般我们找到的都是mp4、mkv等格式的视频资源,而没有像上图这样的海报资源,那要怎样实现海报墙呢? 按照以前的方法,是可以通过The Movie Database的API Key来搜刮电影海报信息,但是现在这个方法不行了 现在介绍…

【redis】[windows]redis安装以及配置等相关

前言:下载安装配置密码、远程访问等等 目录 一、下载 二、配置文件说明 1、bind 1.1 这个参数默认值是127.0.0.1,也就是只允许redis所在机器访问redis。 1.2 如果我们的应用服务和redis服务不在一个机器我们就需要修改这个参数为0.0.0.0&#xff0c…

【is NULL和= NULL,is not NULL和!= NULL有什么区别?】

is NULL和 NULL的区别 在 SQL 中,is NULL 用来判断一个值是否为 NULL,它是一个布尔表达式,当判断对象为 NULL 时,返回 TRUE;否则返回 FALSE。例如: SELECT * FROM mytable WHERE mycolumn IS NULL; 这条语…