弄懂Transformer Layer 和Transformer Block的关系后,豁然开朗

news/2024/7/19 9:30:17 标签: transformer

一篇论文引发的讨论:
Q:Transformer Layer 和Transformer Block是什么意思?
A: Transformer Layer表示Transformer层,Transformer Block表示Transformer块。
Q:我不是来学英语的,Transformer Layer 和Transformer Block是什么,有什么区别,这张网络图里的哪个部分是Transformer Layer 和Transformer Block?
A: 每个Encoder Block就是一个Transformer block,4个Encoder block 组成一个Transformer Layer。(按照block和layer一样的说法,这里没毛病吧,一百个人一百个哈姆雷特?)
GLPDepth
Q:你确定吗?嗯?
A: 没问题啊。
Q:再给你一次机会,Transformer Layer 和Transformer Block是什么,有什么区别?
A: 静默-我搜一下。
Q:别搜了,你看群里我发的图,再解释一下,到底什么是Transformer Layer ,什么是Transformer Block,有什么区别?
A:Transformer block就是由自注意力、LN、多层感知器、LN组成;Transformer Layer就是这些block的组合?
Q:你确定?
A:Transformer block和Transformer Layer本来就一个概念。
Q:是吧,Transformer block和Transformer Layer没有区别。我看你对Transformer的理解都一团糊浆了。
A:(静默-我???)那我不管说Transformer block还是Transformer Layer都没有问题啊?
Q:你根本就没有理解Transformer。
A:(静默-我???那我不说了)那您觉得Transformer block和Transformer Layer的区别在哪里?
Q:Transformer block和Transformer Layer是一个概念,只不过在内部操作的时候,我们会把这个叫做Transformer block,在外部操作时,我们称之为Transformer Layer,因为外部来看是多层感知器,以层称呼。
OS:这是约定俗成,还是官方文件?我不理解,直接说出来不好吗?我怎么会知道这么细呢?我不理解,看来我还菜…?
请添加图片描述
请添加图片描述
请添加图片描述


http://www.niftyadmin.cn/n/634311.html

相关文章

关于LBP算法的skimage.feature.local_binary_pattern()函数解析

LBP算法参考文章: https://blog.csdn.net/heli200482128/article/details/79204008 示例代码: from __future__ import divisionimport skimage.io import skimage.feature import skimage.color import skimage.transform import skimage.util import…

DeepViT:Towards Deeper Vision Transform

论文笔记【1】-- DeepViT: Towards Deeper Vision Transformer CVPR 2021 DeepViT: Towards Deeper Vision Transformer DeepViT论文 DeepViT Code DeepViT:Can we further improve performance of ViTs by making it deeper, just like CNNs?——Re-attentio…

Android进阶——Android常见项目模块之倒计时、定时和延时的应用

引言 突然发现自己在博客中分了好多模块,每一个模块都还没能完整的总结完毕,ORZ,只能慢慢来,后面逐步完善吧。其实严格来说无论是定时、倒计时还是延时都是一类功能,只需我们灵活改变下逻辑即可。 一、Android倒计时…

一个存在三年的内核 bug 引发大量的容器系统出现网络故障

一个存在三年的内核 bug 引发大量的容器系统出现网络故障 最近发现的一个 Linux 内核 bug,会造成使用 veth 设备进行路由的容器(例如 Docker on IPv6、Kubernetes、Google Container Engine 和 Mesos)不检查 TCP 校验码checksum,这…

从BP算法的4个公式分析梯度消失问题

(1)为网络中每个神经元的错误量的计算公式,上标l代表第几层 ,下标j代表该层的第几个神经元,z代表神经元的加权输入,这个公式可以这样理解:某个神经元的错误量为损失函数对它的加权输入的偏导数&…

【Python3】mkdir(path,mode)、makedirs(path, mode=0o777, exist_ok = False)

1.os.mkdir(path,mode) path :要创建的目录的路径(绝对路径或者相对路径)mode:linux目录权限数字表示 权限包括:读、写、可执行身份包括:owners,groups,others用3个数字表示3个身份的权限&…

《Haskell并行与并发编程》——第1章,第1.3节示例代码

本节书摘来自异步社区《Haskell并行与并发编程》一书中的第1章,第1.3节示例代码,作者【英】Simon Marlow,更多章节内容可以访问云栖社区“异步社区”公众号查看 1.3 示例代码Haskell并行与并发编程示例代码被收集整理为parconc-examples软件…

Android入门——数据存储之IO文件流操作小结

引言 Android数据存储基本可以分为四种:数据库(SQLite、其他远程网络服务器)、轻量级的本地存储SharedPreference、内容提供器ContentProvider数据共享、文件File IO流。前期的文章总结了前面三种的基本语法,这一篇迟来的文件IO流…