Transformer - Skip connection-解读

news/2024/7/19 9:11:47 标签: transformer, 深度学习, 人工智能

Transformer - Skip connection理解

skip connection是一种广泛应用于提高深度神经网络性能和收敛性的技术,它通过神经网络层传播的线性分量,缓解了非线性变化难以收敛的情况。在Transformer中,patch如果较小,就会出现spurious gradient爆炸或消失【虚假梯度爆炸-很多假的梯度】。
现有研究Skip connection的有效性和scale factors,发现可以通过normalization来解决,特别是layer normalization,进一步得出通过递归skip connection和layer normalization来自适应地调整输入scale,这大大提高了性能,并且在包括机器翻译和图像分类数据集在内的各种任务中具有很好的泛化效果。但是,从另一个角度来看,它也是可以看作是输入和输出之间的调制机制,输入按预定义值1进行缩放。

Transformer中,skip connection现有两种存在方式:
1.Transformer内部的skip connection -层内连接 归一化,类似ResNet的残差连接
内部skip connection
2.Transformer外部的skip connection -Encoder和Decoder之间的跨层连接-跨网络连接
GLPDepth 外部skip connection

【讨论正误】
skip connection保留浅层局部的低级特征【保护局部特征】,来增强深层的高级特征,进而避免虚假梯度爆炸和梯度消失问题。【浅层-低级-局部特征 || 深层-高级-全局特征】

英:Rethinking Skip Connection with Layer Normalization in Transformers and ResNets
中:Rethinking Skip Connection with Layer Normalization in Transformers and ResNets
极品Trick | 在ResNet与Transformer均适用的Skip Connection解读-技术圈 (proginn.com)


http://www.niftyadmin.cn/n/634313.html

相关文章

LFCS 系列第四讲:对存储设备分区、格式化文件系统和配置交换分区

LFCS 系列第四讲:对存储设备分区、格式化文件系统和配置交换分区 去年八月份,Linux 基金会发起了 LFCS(Linux 基金会认证系统管理员Linux Foundation Certified Sysadmin)认证,给所有系统管理员一个展现自己的机会。通…

弄懂Transformer Layer 和Transformer Block的关系后,豁然开朗

一篇论文引发的讨论: Q:Transformer Layer 和Transformer Block是什么意思? A: Transformer Layer表示Transformer层,Transformer Block表示Transformer块。 Q:我不是来学英语的,Transformer La…

关于LBP算法的skimage.feature.local_binary_pattern()函数解析

LBP算法参考文章: https://blog.csdn.net/heli200482128/article/details/79204008 示例代码: from __future__ import divisionimport skimage.io import skimage.feature import skimage.color import skimage.transform import skimage.util import…

DeepViT:Towards Deeper Vision Transform

论文笔记【1】-- DeepViT: Towards Deeper Vision Transformer CVPR 2021 DeepViT: Towards Deeper Vision Transformer DeepViT论文 DeepViT Code DeepViT:Can we further improve performance of ViTs by making it deeper, just like CNNs?——Re-attentio…

Android进阶——Android常见项目模块之倒计时、定时和延时的应用

引言 突然发现自己在博客中分了好多模块,每一个模块都还没能完整的总结完毕,ORZ,只能慢慢来,后面逐步完善吧。其实严格来说无论是定时、倒计时还是延时都是一类功能,只需我们灵活改变下逻辑即可。 一、Android倒计时…

一个存在三年的内核 bug 引发大量的容器系统出现网络故障

一个存在三年的内核 bug 引发大量的容器系统出现网络故障 最近发现的一个 Linux 内核 bug,会造成使用 veth 设备进行路由的容器(例如 Docker on IPv6、Kubernetes、Google Container Engine 和 Mesos)不检查 TCP 校验码checksum,这…

从BP算法的4个公式分析梯度消失问题

(1)为网络中每个神经元的错误量的计算公式,上标l代表第几层 ,下标j代表该层的第几个神经元,z代表神经元的加权输入,这个公式可以这样理解:某个神经元的错误量为损失函数对它的加权输入的偏导数&…

【Python3】mkdir(path,mode)、makedirs(path, mode=0o777, exist_ok = False)

1.os.mkdir(path,mode) path :要创建的目录的路径(绝对路径或者相对路径)mode:linux目录权限数字表示 权限包括:读、写、可执行身份包括:owners,groups,others用3个数字表示3个身份的权限&…