【CV论文阅读】【计算机视觉中的Transformer应用综述】(1)

news/2024/7/19 9:49:04 标签: transformer, 人工智能, 深度学习

在这里插入图片描述

0.论文摘要

摘要——自然语言任务的Transformer model模型的惊人结果引起了视觉社区的兴趣,以研究它们在计算机视觉问题中的应用。在它们的显著优点中,与递归网络例如长短期记忆(LSTM)相比,Transformer能够模拟输入序列元素之间的长依赖性,并支持序列的并行处理。与卷积网络不同,Transformer的设计需要最小的偏差,自然适合作为集函数。此外,Transformer的简单设计允许使用类似的处理块处理多种形式(例如,图像、视频、文本和语音),并表现出对超大容量网络和巨大数据集的出色可扩展性。这些优势已经导致使用Transformer model网络的许多视觉任务取得了令人兴奋的进展。本调查旨在提供计算机视觉学科中Transformer model模型的全面概述。我们首先介绍Transformer成功背后的基本概念,即自我关注、大规模预训练和双向特征编码。然后,我们将介绍Transformer在视觉中的广泛应用,包括流行的识别任务(例如,图像分类、对象检测、动作识别和分割)、生成建模、多模态任务(例如,视觉问题回答、视觉推理和视觉基础)、视频处理(例如,活动识别、视频预测)、低级视觉(例如,图像超分辨率、图像增强和彩色化)和3D分析(例如,点云分类和分割)。我们从建筑设计和实验价值两个方面比较了流行技术各自的优势和局限性。最后,我们对开放的研究方向和未来可能的工作进行了分析。我们希望这一努力将进一步激发社区的兴趣,以解决当前在计算机视觉中应用Transformer model模型的挑战。

1.研究背景

Transformer模型[1]最近在广泛的语言任务中表现出典型的性能,例如文本分类、机器翻译[2]和问题回答。在这些模型中,最受欢迎的包括BERT(来自Transformer的双向编码器表示)[3],GPT(生成式预训练Transformer model)v1-3[4]-[6],RoBERTa(鲁棒优化的BERT预训练)[7]和T5(文本到文本传输Transformer model)[8]。Transformer model模型的深远影响已经变得更加明显,因为它们可以扩展到非常大容量的模型[9],[10]。例如,拥有3.4亿个参数的BERT-large[3]模型明显优于拥有1750亿个参数的GPT-3[6]模型,而最新的专家混合开关Transformer model[10]可扩展到高达1.6万亿个参数!Transformer model网络在自然语言处理(NLP)领域的突破引发了计算机视觉社区对将这些模型用于视觉和多模态学习任务的极大兴趣(图1)。

然而,视觉数据遵循典型的结构(例如,空间和时间一致性),因此需要新颖的网络设计和训练方案。因此,Transformer model模型及其变体已成功用于图像识别[11]、[12]、对象检测[13]、[14]、分割[15]、图像超分辨率[16]、视频理解[17]、[18]、图像生成[19]、文本——图像合成[20]和视觉问题回答[21]、[22],以及其他几个用例[23]-[26]。本调查旨在涵盖计算机视觉领域最近令人兴奋的努力,为感兴趣的读者提供全面的参考。

Transformer model架构基于自我注意机制,该机制学习序列元素之间的关系。与递归处理序列元素且只能关注短期上下文的递归网络相反,Transformer可以关注完整的序列,从而学习长期关系。尽管注意力模型已广泛用于前馈和递归网络[27],[28],但Transformer仅基于注意力机制,并具有针对并行化优化的独特实现(即多头注意力)。这些模型的一个重要特征是它们对高复杂性模型和大规模数据集的可扩展性,例如,与其他一些替代方案相比,如硬注意力[29],硬注意力本质上是随机的,需要蒙特卡罗采样来采样注意力位置。由于与卷积和递归对应物[30]-[32]相比,Transformer假设关于问题结构的先验知识最少,因此它们通常使用大规模(未标记)数据集上的借口任务进行预训练[1]、[3]。这种预训练避免了昂贵的人工注释,从而编码了高度表达的对给定数据集中存在的实体之间的丰富关系进行建模的概括表示。然后,学习到的表征以监督的方式在下游任务上进行微调,以获得有利的结果。

本文提供了为计算机视觉应用开发的Transformer model模型的整体概述。我们开发了网络设计空间的分类法,并强调了现有方法的主要优点和缺点。其他文献综述主要集中在NLP领域[33],[34]或涵盖一般的基于注意力的方法[27],[33]。通过关注视觉Transformer这一新兴领域,我们根据自我注意的内在特征和所研究的任务全面组织了最近的方法。我们首先介绍了Transformer model网络背后的突出概念,然后详细阐述了最近视觉转换器的细节。在可能的情况下,我们将NLP领域[1]中使用的转换器与为视觉问题开发的转换器进行比较,以展示主要的新奇事物和有趣的特定领域见解。最近的方法表明,卷积运算可以完全被基于注意力的Transformer model模块所取代,并且还在单个设计中联合使用,以鼓励两组互补运算之间的共生。本调查最后详细列出了开放的研究问题,并对未来可能的工作进行了展望。

在这里插入图片描述

图1:过去几年BERT、自注意力、Transformer等关键词出现在Peer reviewed和arXiv论文标题中的次数统计(在计算机视觉和机器学习中)。这些图在最近的文献中显示出持续的增长。本综述涵盖了计算机视觉领域中Transformer的最新进展。


http://www.niftyadmin.cn/n/5422096.html

相关文章

ListBox显示图片的一些问题

相关:http://t.csdnimg.cn/xTnu8 显示图片的方案就是:自定义一个Photo类,里面有属性Source;View再绑定ViewModel中的Photo集合,再到View中给ListView设置数据模板 关键点:这样做很容易忘记写数据模板 数据…

HubSpot和NETFARMER是什么关系?

HubSpot和NETFARMER之间的关系是合作伙伴关系,特别是在亚太地区。NETFARMER作为HubSpot的合作伙伴,专注于帮助企业在海外市场获得更多客户,实现业务增长和成功。 NETFARMER具备丰富的经验和专业的营销团队,他们深入了解亚太地区各…

大模型时代下的自动驾驶研发测试工具链-SimCycle

前言: 最近OpenAI公司的新产品Sora的发布,正式掀起了AI在视频创作相关行业的革新浪潮,AI不再仅限于文本、语音和图像,而直接可以完成视频的生成,这是AI发展历程中的又一座重要的里程碑。AI正在不断席卷着过去与我们息…

弹性盒子布局 Flexbox Layout

可以嵌套下去 1.display 属性 默认行排列 <style>.flex-item{ height: 20px;width: 10px;background-color: #f1f1f1;margin: 10px;}</style> </head> <body> <div class"flex-container"><div class"flex-item">1&l…

嵌入式面经-ARM体系架构-ARM体系结构理论基础

ARM指令集概述 指令 能够指示处理器执行某种运算的命令称为指令 指令在内存中以机器码&#xff08;二进制&#xff09;的方式存在 每一条指令都对应一条汇编 程序是指令的有序集合 指令集 处理器能识别的指令的集合称为指令集 不同架构的处理器指令集不同&#xff08;比如…

嵌入式面经-ARM体系架构-计算机基础

嵌入式系统分层 操作系统的作用&#xff1a;向下管理硬件&#xff0c;向上提供接口&#xff08;API&#xff09; 应用开发&#xff1a;使用操作系统提供的接口&#xff08;API&#xff09;&#xff0c;做上层的应用程序开发&#xff0c;基本不用去关内核操作硬件是怎么实现的 …

windows下安装python virtualenv 虚拟环境

1、首先验证 python 是否安装成功 python -V Python 3.8.2如果出现版本号&#xff0c;表示安装成功了 2、通过 pip 安装 virtualenv pip install virtualenv3、创建虚拟环境 C:\Users\capitek-fengxl> mkvirtualenv blog # 激活虚拟环境 C:\Users\capitek-fengxl> …

openCV制作九宫格图片

我想将任意九张图片按照九宫格排列方式合并成一张大图&#xff0c;使用openCV实现。 如果用画图工具来实现的话&#xff0c;需要事先准备一个600 X 600像素的画布。用openCV实现也是同理&#xff0c;准备一张600 X 600的图片。然后将图片划分成9份&#xff0c;每一份替换成小图…