multiheadattention类原理及源码理解

网络找的一段代码如下：

class MultiHeadedAttention(nn.Module):
    def __init__(self, h, d_model, dropout=0.1):
        "Take in model size and number of heads."
        super(MultiHeadedAttention, self).__init__()
        assert d_model % h == 0
        # We assume d_v always equals d_k
        self.d_k = d_model // h
        self.h = h
        self.linears = clones(nn.Linear(d_model, d_model), 4)
        self.attn = None
        self.dropout = nn.Dropout(p=dropout)
        
    def forward(self, query, key, value, mask=None):
        "Implements Figure 2"
        if mask is not None:
            # Same mask applied to all h heads.
            mask = mask.unsqueeze(1)
        nbatches = query.size(0)
        
        # 1) Do all the linear projections in batch from d_model => h x d_k 
        query, key, value = \
            [l(x).view(nbatches, -1, self.h, self.d_k).transpose(1, 2)
             for l, x in zip(self.linears, (query, key, value))]
        #这段代码首先使用zip函数，将self.linears和(query, key, value)这两个列表打包成一个元组列表，其中每个元组包含一个线性层对象和一个输入张量
        #对遍历的每一个Linear层，对query key value分别计算，结果放在query key value中输出
        
        # 2) Apply attention on all the projected vectors in batch. 
        x, self.attn = attention(query, key, value, mask=mask, 
                                 dropout=self.dropout)
        
        # 3) "Concat" using a view and apply a final linear. 
        x = x.transpose(1, 2).contiguous() \
             .view(nbatches, -1, self.h * self.d_k)
        return self.linears[-1](x)

python、pytorch、人工智能相关知识现阶段都是简单的了解，没有相关的实践。因此在学习的时候不要习惯性的扣代码细节。能把论文原理和代码逻辑对应即可、能总结代码块重点内容即可。

transformer中self-attention就是对一个输入序列计算每个位置的注意力，每个位置在论文原文中用d_model(512)维表示，多头就是每个位置用h（原文中8个）个头计算，这样每个头计算一个位置中的64维特征。

自注意力机制有什么好处呢？

自注意力机制的目的是让模型能够同时关注输入序列中的不同位置和信息，从而捕捉序列中的复杂模式和关系。通过计算每个位置的向量与其他位置的向量之间的相似度或相关性，模型可以学习到序列中每个元素对于输出结果的重要性，从而给予不同的权重。

为什么要使用多头呢？下面是我找到的解释：

多头计算可以让模型同时关注输入序列中的不同方面和细节，从而增强模型的表达能力和学习能力。每个注意力头可以捕捉输入序列中的不同模式和关系，而最终的线性变换可以将这些信息融合在一起。
多头计算可以降低模型的复杂度和计算成本。对于较大的 d_model 来说，如果只使用单头计算，那么 QK^T 的结果会非常大，导致 softmax 函数的梯度非常小，不利于网络的训练。而使用多头计算，可以将 d_model 分割成 h 个较小的子空间，从而减少计算量和内存消耗34。
多头计算还可以提高模型的可解释性和泛化能力。我们可以从模型中检查不同注意力头的分布，观察模型是如何关注不同位置和信息的。各个注意力头可以学会执行不同的任务，例如语法分析、实体识别等

MultiHeadedAttention类还做了什么事情？
1、通过4个线性层（通常是4）计算得到Q K V矩阵
在transformer中，Q、K、V是通过四个线性层得到的，分别是：
Q = XW^Q ，其中X是embedding输入矩阵，W^Q 是一个可训练的参数矩阵，大小为（d_model* d_model），用于将X映射到Q空间。
K = XW^K ，其中X是embedding输入矩阵，W^K 是一个可训练的参数矩阵，大小为（d_model* d_model），用于将X映射到K空间。
V = XW^V ，其中Xembedding是输入矩阵，W^V 是一个可训练的参数矩阵，大小为（d_model* d_model）用于将X映射到V空间。