[RoFormer]论文实现:ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING

news/2024/7/19 11:16:54 标签: transformer, embedding, 深度学习

文章目录

    • 一、完整代码
    • 二、论文解读
      • 2.1 注意力机制
      • 2.2 绝对位置编码
      • 2.3 相对位置编码
      • 2.4 旋转位置编码
        • Long-term decay
        • Adaption for linear attention
      • 2.5 模型效果
    • 三、过程实现
    • 四、整体总结

论文:ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING
作者:Jianlin Su, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen, Yunfeng Liu
时间:2021
地址:https://huggingface.co/docs/transformers/model_doc/roformer

一、完整代码

由于Transformer是老生常谈了,这里我们只简要实现RoPE

# 完整代码在这里
class RotaryEmbedding(tf.keras.layers.Layer):
    def __init__(
        self,
        max_wavelength=10000,
        scaling_factor=1.0,
        sequence_axis=1,
        feature_axis=-1,
        **kwargs
    ):
        super().__init__(**kwargs)
        self.max_wavelength = max_wavelength
        self.sequence_axis = sequence_axis
        self.feature_axis = feature_axis
        self.scaling_factor = scaling_factor
        self.built = True

    def call(self, inputs, start_index=0):
        rotary_dim = tf.shape(inputs)[-1]
        cos_emb, sin_emb = self._compute_cos_sin_embedding(
            inputs, rotary_dim, start_index
        )
        return self._apply_rotary_pos_emb(inputs, cos_emb, sin_emb)

    def _apply_rotary_pos_emb(self, tensor, cos_emb, sin_emb):
        x1, x2 = tf.split(tensor, 2, axis=self.feature_axis)
        half_rot_tensor = tf.concat((-x2, x1), axis=self.feature_axis)
        return (tf.matmul(tensor,cos_emb)) + (tf.matmul(half_rot_tensor, sin_emb))

    def _compute_cos_sin_embedding(self, x, rotary_dim, start_index):
        freq_range = tf.range(0, rotary_dim, 2, dtype="float32")
        freq_range = tf.cast(freq_range, self.compute_dtype)
        freq_range = freq_range / tf.cast(
            self.scaling_factor, self.compute_dtype
        )
        inverse_freq = 1.0 / (
            self.max_wavelength
            ** (freq_range / tf.cast(rotary_dim, self.compute_dtype))
        )
        seq_len = tf.shape(x)[self.sequence_axis]
        tensor = tf.range(seq_len, dtype="float32") + start_index
        tensor = tf.cast(tensor, dtype=inverse_freq.dtype)
        freq = tf.einsum("i, j -> ij", tensor, inverse_freq)
        embedding = tf.concat((freq, freq), axis=self.feature_axis)

        def get_axis(axis):
            return axis if axis > 0 else len(x.shape) + axis

        feature_axis = get_axis(self.feature_axis)
        sequence_axis = get_axis(self.sequence_axis)

        for axis in range(len(x.shape)):
            if axis != sequence_axis and axis != feature_axis:
                embedding = tf.expand_dims(embedding, axis)
        return tf.cos(embedding), tf.sin(embedding)

二、论文解读

RoPE通过其特性优先于现有的位置编码方法,包括序列长度的灵活性、随着相对距离的增加而减少的标记间依赖性,以及用相对位置编码装备线性自注意的能力。在各种长文本分类基准数据集上的实验结果表明,具有RoPE嵌入的Transformer,即RoFormer,具有更好的性能;

RoPE的关键思想是通过将上下文表示与一个旋转矩阵相乘来获取元素的相对位置;

2.1 注意力机制

下面是注意力机制的公式,老生常谈了,给个图就行;

2.2 绝对位置编码

这个是最普通的Transformer采取的编码方式,非常的经典;

2.3 相对位置编码

下图是Transformer-XL采取的编码方式,其目的是为了避免在循环机制中出现位置混淆;

下面两个是Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer采取的编码方式;

可以看到,这里直接把位置编码转化为一个要学习的参数 b i , j b_{i,j} bi,j进行嵌入,自由度非常大;

这里和上图的不同是这里另外添加了绝对位置编码的信息;

DeBERTa: Decoding-enhanced BERT with Disentangled Attention这篇论文中认为常规注意力机制中的 p m T ⋅ W q T ⋅ W k ⋅ p n p_m^T·W_q^T·W_k·p_n pmTWqTWkpn并没有表达相对信息,只是做一个bias的作用,而bias q , k , v q,k,v q,k,v时就已经体现,不需要bias,采取删除的方法,然后把绝对位置信息转化为相对位置信息;

论文说Radford and Narasimhan(这两货是GPT模型的提出者)在2018年的时候对这四种变体进行了比较,发现第四个相对位置编码即删除了bias的相对位置编码最为合理;但让我纳闷的是这不是2020年的论文吗?

2.4 旋转位置编码

旋转位置编码RoPE的关键思想是通过将上下文表示与一个旋转矩阵相乘来编码相对位置;

所以RoPE本质上也是一种相对位置编码,那么其目标肯定 q m T k n q_m^Tk_n qmTkn 只与 x m x_m xm x n x_n xn 以及其相对位置 m − n m-n mn 有关;公式如下:

但凡提到旋转Rotary,肯定是离不开三角函数的,这种方法是把一串序列绕成一个圆,如图所示:

这是我随便从网上下载的图片,简单了解方式即可;第一个位置从3点钟方向开始,把所有的序列逆时针打满一圈,这就是旋转位置编码,论文中有一张图很形象,如图所示:

下面便是上图的公式化表达;

论文中得出这一公式有一个推导,有意思但同时有点长,我把他贴在下面;

不得不感慨,还是咱们中国人把文章写得明白和透彻;

这样做有什么优势呢?

Long-term decay

这里的推理其实很简单,最后一个公式是由图像说明的,

∑ i = 1 d / 2 ∣ S i ∣ \sum_{i=1}^{d/2}|S_i| i=1d/2Si n − m n-m nm上虽然不是单调递减,但是其总体趋势是递减的

Adaption for linear attention

其相对位置不需要学习,不需要训练参数,只需要乘以一个旋转矩阵,类似于绝对编码,但是其实质有相对性;

2.5 模型效果

从下图中可以看到RoPE的效果要比Sinusoidal positional encoding要好;

三、过程实现

class RotaryEmbedding(tf.keras.layers.Layer):
    def __init__(
        self,
        max_wavelength=10000,
        scaling_factor=1.0,
        sequence_axis=1,
        feature_axis=-1,
        **kwargs
    ):
        super().__init__(**kwargs)
        self.max_wavelength = max_wavelength
        self.sequence_axis = sequence_axis
        self.feature_axis = feature_axis
        self.scaling_factor = scaling_factor
        self.built = True

    def call(self, inputs, start_index=0):
        rotary_dim = tf.shape(inputs)[-1]
        cos_emb, sin_emb = self._compute_cos_sin_embedding(
            inputs, rotary_dim, start_index
        )
        return self._apply_rotary_pos_emb(inputs, cos_emb, sin_emb)

    def _apply_rotary_pos_emb(self, tensor, cos_emb, sin_emb):
        x1, x2 = tf.split(tensor, 2, axis=self.feature_axis)
        half_rot_tensor = tf.concat((-x2, x1), axis=self.feature_axis)
        return (tf.matmul(tensor,cos_emb)) + (tf.matmul(half_rot_tensor, sin_emb))

    def _compute_cos_sin_embedding(self, x, rotary_dim, start_index):
        freq_range = tf.range(0, rotary_dim, 2, dtype="float32")
        freq_range = tf.cast(freq_range, self.compute_dtype)
        freq_range = freq_range / tf.cast(
            self.scaling_factor, self.compute_dtype
        )
        inverse_freq = 1.0 / (
            self.max_wavelength
            ** (freq_range / tf.cast(rotary_dim, self.compute_dtype))
        )
        seq_len = tf.shape(x)[self.sequence_axis]
        tensor = tf.range(seq_len, dtype="float32") + start_index
        tensor = tf.cast(tensor, dtype=inverse_freq.dtype)
        freq = tf.einsum("i, j -> ij", tensor, inverse_freq)
        embedding = tf.concat((freq, freq), axis=self.feature_axis)

        def get_axis(axis):
            return axis if axis > 0 else len(x.shape) + axis

        feature_axis = get_axis(self.feature_axis)
        sequence_axis = get_axis(self.sequence_axis)

        for axis in range(len(x.shape)):
            if axis != sequence_axis and axis != feature_axis:
                embedding = tf.expand_dims(embedding, axis)
        return tf.cos(embedding), tf.sin(embedding)

四、整体总结

中国人牛逼!


http://www.niftyadmin.cn/n/5236328.html

相关文章

win11 与 kali 的双系统重装

2023.12.1 (血与泪的教训 (┳Д┳) ) 演示环境: 惠普暗影精灵9笔记本 重装前的必要的准备工作 安装顺序: 随便 关闭磁盘的 bitlocker (如果加密了的话可能会遇到需要恢复秘钥的情况) 1、点击管…

day4 链表(2)

Day4 2023.12.3(昨天有事没写,按训练营时间,周天休息,我把第三天的补上) 代码随想录 1. 24两两交换链表中的节点 对于交换节点,不仅仅是值得交换,不然就很简单了,我们要交换的是节点…

数据库之 redis

前言: 就学习爬虫而言,对于三种常见的数据库做个基本了解足以,所以笔记都是浅尝辄止,不会涉及太深入的东西。 redis简介 Redis(Remote Dictionary Server ,远程字典服务) 是一个使用ANSI C编写…

Nginx配置反向代理与负载均衡

Nginx配置反向代理与负载均衡 一、代理服务1.正向代理2.反向代理 二、实战场景-反向代理1.修改nginx配置 -> nginx.conf文件2.修改前端路径 三、实战场景-负载均衡1.热备2.轮询3.加权轮询4.ip_hash ​ Nginx (“engine x”) 是一个高性能的HTTP和反向代理服务器,…

NAND Flash和NOR Flash的异同

NAND Flash和NOR Flash是两种常见的闪存类型。 NOR Flash是Intel于1988年首先开发出来的存储技术,改变了原先由EPROM和EEPROM一统天下的局面。 NAND Flash是东芝公司于1989年发布的存储结构,强调降低每比特的成本,更高的性能,并…

006、简单页面-列表页面

之——Grid&List 杂谈 数据列表的使用。 在我们常用的手机应用中,经常会见到一些数据列表,如设置页面、通讯录、商品列表等。 ​ 正文 1.列表组件 列表中都包含一系列相同宽度的列表项,连续、多行呈现同类数据,例如图片和文本…

react(2) - react-redux的基本使用

react-redux的基本使用 基本使用 1、下载react-redux和redux yarn add react-redux redux 2、创建Store 按照上一篇文章中redux的基本使用创建redux有关的四个文件。 3、引入Store 在index.js中,从react-redux中引入Provider组件,包裹根组件&#xff…

Ubuntu中安装IDEA,并配置桌面快捷方式

1、首先自己下载linux版本的idea 这一步省略不说了 2、在/usr/local/路径下新建安装目录IDEA: mkdir -p /usr/local/IDEA3、执行如下命令,解压下载的压缩包到指定目录: tar -zxvf ideaIU-2022.3.3.tar.gz -C /usr/local/IDEA 注意&#x…