Lite transformer

news/2024/7/19 11:09:15 标签: transformer, easyui, 深度学习

图片以及思想来源请参考论文 Lite Transformer with Long-Short Range Attention


瓶颈结构(bottleneck)是否真的有效

注意力机制被广泛应用在诸多领域,包括自然语言处理,图像处理和视频处理。它通过计算所有输入元素的点积来建模长短期关系。尽管非常有效,但是它庞大的计算量一直为人所诟病。

为了降低计算量,常用的方法是先通过一个线性投影层减少通道数 d d d,然后运用注意力机制,最后再增加通道数,也就是瓶颈结构。这种方法在减少计算量的同时,也降低了注意力层的信息提取能力,这在自然语言处理中更为糟糕,因为NLP中注意力层是主要的特征提取模块(在图像和视频处理中是卷积层)

将<a class=transformer的瓶颈展平可以增加注意力层相对前馈层的比例,有利于后续的优化" />

transformer的瓶颈展平可以增加注意力层相对前馈层的比例,有利于后续的优化

典型的 Transformer 模块包含注意力层,后面加前馈层。注意力层的计算复杂度 O ( 4 N d 2 + N 2 d ) \mathcal{O}\left(4 N d^2+N^2 d\right) O(4Nd2+N2d),而前馈层计算复杂度 O ( 2 × 4 N d 2 ) \mathcal{O}\left(2 \times 4 N d^2\right) O(2×4Nd2),于是对于一个较短的序列 N N N,前馈层会消耗大量计算资源,然而前馈层并没有特征提取功能,因此瓶颈结构失效,它不仅达不到减少计算量的效果,反而还损害了特征提取能力。

长短期注意力(Long-Short Range Attention)

With a larger weight w i j w_{i j} wij (darker color), the i i i-th word in the source sentence pays more attention to the j j j-th word in the target sentence. And the attention maps typically have strong patterns: sparse and diagonal. They represent the relationships between some particular words: the sparse for the long-term information, and the diagonal for the correlation in small neighborhoods. We denote the former as “global” relationships and the latter as “local”.

在这里插入图片描述

LT架构以及注意力权重可视化

LSRA 模块有两个分支,左分支提取全局特征,右分支提取局部特征。将输入在特征维上分解后(Embedding),分别送到两个分支,经过处理,再合成,这样可以将计算量减半。左分支是常规的注意力机制模块,特征通道维减半;右分支用卷积模块提取局部特征,并且使用线性层和深度可分离卷积进一步减少计算量。

论文中给的源代码相当臃肿,又兼本人学识有限,无法给出示例代码。


http://www.niftyadmin.cn/n/5000314.html

相关文章

数据结构(一)Trie字符串统计

目录 代码 &#xff08;一&#xff09;输入cat son[p][u],p表示儿子&#xff0c;u表示第几个儿子 0的根的节点编号为idx -------------------------------------------------------- 根是0的有个儿子c&#xff0c;编号为1的节点有个子节点为a&#xff0c;a的编号是2&#xf…

C语言结构体的初始化方式

逐个初始化字段&#xff1a;这是最直接的方式&#xff0c;你可以逐个为结构体的每个字段进行初始化。 struct Student { char name[50]; int age; float marks; }; struct Student student1 {"Alice", 20, 89.5}; 2.使用结构体字面值初始化&#xff1a;这种方…

pdf文件过大如何缩小上传?pdf压缩跟我学

在我们日常工作和生活中&#xff0c;经常会遇到PDF文件过大的问题&#xff0c;给文件传输和存储带来了很大的不便。那么&#xff0c;如何缩小PDF文件大小以便上传呢&#xff1f;下面就给大家分享几个压缩方法&#xff0c;一起来了解下PDF文件压缩方法吧~ 方法一&#xff1a;嗨格…

【Docker】 08-Dockerfile

什么是Dockerfile Dockerfile可以认为是Docker镜像的描述文件&#xff0c;是由一系列命令和参数构成的教程&#xff0c;主要作用是用来构建docker镜像的构建文件。 Dockerfile解析过程 Dockerfile的保留命令 保留字作用FROM当前镜像是基于哪个镜像的 第一个指令必须是FROMMA…

【GPT引领前沿】GPT4技术与AI绘图

推荐阅读&#xff1a; 1、遥感云大数据在灾害、水体与湿地领域典型案例实践及GPT模型应用 2、GPT模型支持下的Python-GEE遥感云大数据分析、管理与可视化技术 GPT对于每个科研人员已经成为不可或缺的辅助工具&#xff0c;不同的研究领域和项目具有不同的需求。例如在科研编程…

【Unity3D赛车游戏优化篇】新【八】汽车实现镜头的流畅跟随,以及不同角度的切换

&#x1f468;‍&#x1f4bb;个人主页&#xff1a;元宇宙-秩沅 &#x1f468;‍&#x1f4bb; hallo 欢迎 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! &#x1f468;‍&#x1f4bb; 本文由 秩沅 原创 &#x1f468;‍&#x1f4bb; 收录于专栏&#xff1a;Uni…

Arduino驱动LX1972传感器(光照传感器篇)

LX1972环境光(可见光)传感器,对可见光照度的反应特性与人眼的特性类似,可以模拟人对环境光线的强度的判断,从而方便做出与人友好互动的应用,可应用于照明控制、屏幕背光控制等。 1、传感器特性 传感器技术指标如下: 工作温度: -40~80C照度范围: 1 – 800Lux输出信号:…

护航数字政府建设,美创科技成为“数字政府建设赋能计划”成员单位

近日&#xff0c;“2023软博会-软件驱动数字政府创新发展论坛”顺利召开&#xff0c;本次论坛由中国信息通信研究院、中国通信标准化协会承办&#xff0c;中国通信标准化协会云计算标准和开源推进委员会、数字政府建设赋能计划支持。 天津市工业和信息化局总经济师杨冬梅、中国…