LayerNormalization 和 RMSNormalization的计算方法和区别

news/2024/7/19 12:00:55 标签: transformer, 算法

目录

问题来源

Layer Normalization 与 RMSNormalization 的详细计算方法

Layer Normalization(层归一化)

RMSNormalization(均方根归一化)

Layer Normalization与RMSNormalization的异同

Layer Normalization

RMSNormalization

异同点


问题来源

在ChatGLM中,把 layer-normalization 改为 RMSNormalization,想详细了解两种归一化有什么异同?

Layer Normalization 与 RMSNormalization 的详细计算方法

Layer Normalization(层归一化)
  1. 定义
    Layer Normalization 是一种归一化技术,主要用于神经网络中,它按照每个样本的所有特征进行归一化,不同于批归一化(Batch Normalization)是按照每个特征在不同样本上进行归一化。

  2. 计算步骤

    • 计算均值
      (\mu = \frac{1}{H} \sum_{i=1}^{H} x_i)

    • 计算方差
      (\sigma^2 = \frac{1}{H} \sum_{i=1}^{H} (x_i - \mu)^2)

    • 归一化
      对于每个特征 (x_i),计算归一化值
      (\hat{x}_i = \frac{x_i - \mu}{\sqrt{\sigma^2 + \epsilon}})
      其中 (\epsilon) 是一个很小的数,以防止除以零。

    • 缩放和偏移
      最后,引入可学习的参数 (\gamma) 和 (\beta)(与特征维度相同),进行缩放和偏移
      (y_i = \gamma \hat{x}_i + \beta)
      (y_i) 是最终的输出特征向量。

  3. 给定一个样本的特征向量 (x = [x_1, x_2, ..., x_H]),其中 (H) 是特征的数量,Layer Normalization 的计算步骤如下:

RMSNormalization(均方根归一化)

  1. 定义
    RMSNormalization 是一种类似于 Layer Normalization 的归一化方法,它使用均方根(Root Mean Square, RMS)代替标准差来进行归一化。

  2. 计算步骤
    给定一个样本的特征向量 (x = [x_1, x_2, ..., x_H]),RMSNormalization 的计算步骤如下:

    • 计算均方根
      (RMS = \sqrt{\frac{1}{H} \sum_{i=1}^{H} x_i^2 + \epsilon})

    • 归一化
      对于每个特征 (x_i),计算归一化值
      (\hat{x}_i = \frac{x_i}{RMS})
      同样,(\epsilon) 是一个很小的数,用于数值稳定性。

    • 缩放和偏移(可选)
      与 Layer Normalization 类似,可以引入可学习的参数 (\gamma) 和 (\beta) 进行缩放和偏移(这一步不是RMSNormalization必须的,但在某些实现中可能包含)
      (y_i = \gamma \hat{x}_i + \beta)
      (y_i) 是最终的输出特征向量。

请注意,Layer Normalization 和 RMSNormalization 的主要区别在于归一化步骤中使用的是方差(Layer Normalization)还是均方根(RMSNormalization)。其他步骤大致相同,都包含了计算均值(或均方根)、归一化以及可选的缩放和偏移。

Layer Normalization与RMSNormalization的异同

Layer Normalization(层归一化)和RMSNormalization(均方根归一化)都是神经网络中用于稳定训练过程的归一化技术。它们都旨在对神经网络中的激活进行规范化处理,以减少训练过程中的内部协变量偏移(Internal Covariate Shift)问题。尽管它们的目标相似,但在实现和应用上存在一些差异。

Layer Normalization
  1. 原理: Layer Normalization通过计算一个层内所有激活的均值和标准差,并用这些统计量对激活进行归一化,使得输出的均值为0,方差为1。

  2. 应用: Layer Normalization不依赖于批量的大小,因此它特别适用于批量大小不一或者需要减少批量相关性的场景,如循环神经网络(RNNs)和Transformer模型。

  3. 优点: Layer Normalization可以在每个时间步独立地应用于RNNs,有助于稳定隐藏状态的动态范围。

  4. 局限性: Layer Normalization在归一化时考虑了整个特征层,可能会忽略不同特征之间的差异性。

RMSNormalization
  1. 原理: RMSNormalization是一种归一化方法,它使用均方根(Root Mean Square, RMS)值对激活进行缩放。RMS值是激活的平方的均值的平方根。

  2. 应用: RMSNormalization可以用于类似Layer Normalization的场景,但它强调使用均方根而不是标准差作为规范化的尺度。

  3. 优点: RMSNormalization可能在某些情况下提供更稳定的训练过程,因为它使用均方根值,这可能对激活值的极端波动更加鲁棒。

  4. 局限性: RMSNormalization的研究和应用相对较少,因此在实际应用中可能缺乏Layer Normalization的广泛经验支持。

异同点
  • 相同点: 两者都是归一化技术,用于规范化神经网络中的激活,以减少训练过程中的内部协变量偏移问题。

  • 不同点:

    • Layer Normalization使用均值和标准差进行归一化,而RMSNormalization使用均方根值。
    • Layer Normalization在整个特征层上归一化,可能不区分不同特征间的差异;RMSNormalization则侧重于激活值的均方根,可能对极端值更加鲁棒。
    • Layer Normalization适用于不同类型的网络架构,并且在实践中被广泛采用;RMSNormalization在实际应用中可能不如Layer Normalization常见。

在ChatGLM或其他神经网络模型中替换归一化技术时,需要仔细考虑模型的特定需求和归一化技术的特性,以及可能对训练动态和最终性能产生的影响。实验和实践经验会对选择最合适的归一化策略起到关键作用。


http://www.niftyadmin.cn/n/5446602.html

相关文章

5G智能网关助力工业铸造设备监测升级

随着物联网技术的迅猛发展和工业4.0浪潮的推进,传统工业正面临着严峻的转型升级压力。在这一背景下,铸造行业——这一典型的传统重工业领域,也必须积极探索借助5G、物联网、边缘计算等技术提升生产经营效率的新路径。 本文就基于佰马合作伙伴…

Go使用Terraform 库

可以使用Terraform的Go库来在Go代码中运行Terraform。用户需要使用go get命令来获取Terraform的Go库。在Go代码中需要导入terraform包。下面是一个简单的示例代码,它使用Terraform的Go库来创建和销毁一个AWS EC2实例: package mainimport ("contex…

写作兔怎么用 #微信#其他#知识分享

写作兔是一款非常实用的论文写作工具,不仅具有查重和降重的功能,而且操作简单方便,使用起来非常便捷。那么,接下来就让我们一起来了解一下“写作兔怎么用”。 首先,要使用写作兔,你只需要在浏览器中输入写作…

JavaScript中改进的数组功能

ES6标准为数组添加了很多新功能,例如,创建数组的新方法,创建定型数组(Typed Array)的能力等。 1、创建数组 在ES6以前,创建数组的方式主要有两种,一种是调用Array构造函数,另一种是用数组字面…

PSO-CNN-SVM,基于PSO粒子群优化算法优化卷积神经网络CNN结合支持向量机SVM数据分类(多特征输入多分类)-附代码

PSO-CNN-SVM,基于PSO粒子群优化算法优化卷积神经网络CNN结合支持向量机SVM数据分类 下面是一个大致的步骤: 数据准备: 准备训练集和测试集数据。对数据进行预处理,包括归一化、标准化等。 设计CNN模型: 设计合适的CNN…

【C语言入门】自定义类型:结构体

✨✨欢迎大家来到Celia的博客✨✨ 🎉🎉创作不易,请点赞关注,多多支持哦🎉🎉 所属专栏:C语言 个人主页:Celias blog~ 目录 ​编辑 前言 一、结构体的意义 二、结构体的声明 2.1 …

【C++】每日一题 452 用最少数量的箭引爆气球

有一些球形气球贴在一堵用 XY 平面表示的墙面上。墙面上的气球记录在整数数组 points ,其中points[i] [xstart, xend] 表示水平直径在 xstart 和 xend之间的气球。你不知道气球的确切 y 坐标。 一支弓箭可以沿着 x 轴从不同点 完全垂直 地射出。在坐标 x 处射出一…

Android 封装的工具类

文章目录 日志封装类-MyLog线程封装类-LocalThreadPools自定义进度条-LoadProgressbar解压缩类-ZipUtils本地数据库类-MySQLiteHelper访问webservice封装-HttpUtilsToolbar封装类-MaterialToolbar网络请求框架-OkGo网络请求框架-OkHttp 日志封装类-MyLog 是对android log的封装…