Transformer在CV上的应用-论文总结

news/2024/7/19 9:49:04 标签: transformer, 深度学习, 计算机视觉
年份会议/期刊标题内容领域架构图
2017NIPSAttention is all you need(Transformer)贡献:提出了一种新的简单的网络架构Transformer,它完全基于注意力机制,完全不需要递归和卷积。
做法:Encoder and Decoder Stacks,self-attention,Masked Multi-Head Attention,
nlp
2020ECCVEnd-to-End Object Detection with Transformers
(DETR)
贡献:a set-based global loss that forces unique predictions via bipartite matching, and a transformer encoder-decoder architecture。
做法:Object detection set prediction loss(最优二分匹配匈牙利算法),CNN+transformer架构
目标检测
2021ICLRAN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(Vit)贡献:直接将transformer应用于视觉,不做过多的修改
做法:
1. split an image into patches,每个patch是16x16,因此224x224的图片变成14x14的序列
2. 将每一个patch通过一个fc layer,获得一个linear embedding (将patch看成序列中的单词)
3. 有监督的训练方式
分类
2021ICCVSwin Transformer: Hierarchical Vision Transformer using Shifted Windows贡献:提出了一种基于VIT的计算机视觉的通用主干框架
做法:
1.通过分层结构来处理图片
2.window self-attention
3.采取移动窗口的方式,允许跨窗口连接。
cv backbone
2021MICCAICoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image Segmentation1.我们第一个来探索Transformer 的3D医学图像分割,特别是在计算和空间上的效率方法。【transformer优化技巧:可变形注意力】
2.我们引入了可变形自注意力机制来减少Transformer的复杂性,因此使得我们的CoTr可以使用多尺度特征来建模长程依赖。
3 我们的CoTr在3D多器官分割任务上优于基于CNN的、基于Transformer、以及混合模型。
3D医学图像分割
2022WACVUNETR: Transformers for 3D Medical Image Segmentation利用纯Transformers作为编码器来学习输入量的序列表示并有效地捕获全局多尺度信息。同时也遵循了编码器和解码器的成功的“U型”网络设计,Transformers编码器通过不同分辨率的跳跃连接直接连接到解码器,以计算最终的语义分段输出3D医学图像分割


http://www.niftyadmin.cn/n/173356.html

相关文章

使用IDEA把项目上传到gitee仓库

使用IDEA把项目上传到gitee仓库在gitee上建立一个仓库第一步(新建仓库)第二步(点击创建)第三步(复制仓库地址)创建工程第一步(选择工程所在文件夹)第二步(文件加入git&am…

鸟哥的Linux私房菜 正则表示法与文件格式化处理

第十一章、正则表示法与文件格式化处理 https://linux.vbird.org/linux_basic/centos7/0330regularex.php 11.2.2 grep的一些高级选项 例题一、搜索特定字符串 例题二、利用中括号 [] 来搜寻集合字符 例题四、任意一个字符 . 与重复字符 * . (小数点&#xff09…

QT学习(二)——按钮相关接口,对象树概念

2.1 按钮相关接口 QPushButton 继承于 QAbstractButton 继承于 QWidget 继承于 QObject &#xff08;1&#xff09;创建按钮&#xff1a;QPushButton 记得要添加头文件&#xff1a;#include <QPushButton> // 包含按钮头文件 &#xff08;2&#xff09;设置按钮大小…

MQTT.fx软件连接阿里云

阿里云注册及认证、MQTT下载阿里云&#xff1a;物联网平台 (aliyun.com)mqtt.fx下载&#xff1a;MQTT.fx 1.7 Download - MQTT.fx.exe (informer.com)简单&#xff01;&#xff01;&#xff01;&#xff01;2、新建产品登录阿里云&#xff0c;直接搜索物联网平台&#xff0c;进…

计算机网络(三)网络协议栈与epoll的底层原理

layout: post title: 计算机网络&#xff08;三&#xff09;网络协议栈与epoll的底层原理 description: 计算机网络&#xff08;三&#xff09;网络协议栈与epoll的底层原理 tag: 计算机网络 文章目录POSIX API与网络协议栈epoll的底层实现epoll使用的数据结构协议栈与epoll通信…

Linux系统下gdb调试

Linux系统下gdb调试 开发环境 linux centOS yum -y install gdbgdb用法介绍 &#xff08;1&#xff09;生成带有调试信息的可运行程序&#xff0c;命令如下&#xff1a; g -g main.cpp -o main //生成带有调试信息的可运行程序main&#xff0c;编译参数-g 测试程序hello.c…

2023跨境市场洞察:金矿在哪儿?

就全球市场而言&#xff0c;跨境电商的高速增长时代已成过去时&#xff0c;但就意味电商金矿被挖空了吗&#xff1f; 通过大量数据分析&#xff0c;纵观具体的区域市场&#xff0c;我们依然可以看到其蓬勃增长的光景&#xff0c;对此我们认为&#xff0c;跨境电商的前景仍在、金…

我的工作日记:2023年3月

git教程 需要掌握git clone/add/commit/push/pull/status命令 git clone命令详解 git基本操作 git add和commit区别 git 本地仓库、缓存区、远程仓库、工作区 编译代码 cd /opt/Qt5.14.0/Tools/QtCreator/bin/运行qtcreator ./qtcreator &Visual Studio 中的 CMake 项目…