OneFormer:规则通用图像分割的一个Transformer

news/2024/7/19 12:25:07 标签: transformer, 计算机视觉, 深度学习

文章目录

  • OneFormer: One Transformer to Rule Universal Image Segmentation
    • 摘要
    • 本文方法
    • 实验结果

OneFormer: One Transformer to Rule Universal Image Segmentation

摘要

通用图像分割并不是一个新概念。过去统一图像分割的尝试包括场景解析、全景分割,以及最近的新全景架构。然而,这种全景架构并不能真正统一图像分割,因为它们需要在语义、实例或全景分割上单独训练,以获得最佳性能。理想情况下,一个真正通用的框架应该只训练一次,并在所有三个图像分割任务中实现SOTA性能。
本文方法

  1. 提出了OneFormer,这是一种通用的图像分割框架,将分割与多任务一次训练设计相结合。
  2. 首先提出了一种任务条件联合训练策略,该策略能够在单个多任务训练过程中对每个领域的标签(语义、实例和全景分割)进行训练。
  3. 其次,引入了一个他task token来将我们的模型以手头的任务为条件,使我们的模型任务是动态的,以支持多任务训练和推理。
  4. 第三,我们建议在训练过程中使用查询文本对比损失来建立更好的任务间和类间区分。
    代码地址
    在这里插入图片描述

本文方法

在这里插入图片描述
OneFormer框架架构:
(a) 我们使用主干网络提取输入图像的多尺度特征,然后使用像素解码器。
(b) 我们在任务令牌(Qtask)的指导下,在变换器内部建立了一组统一的N−1任务条件对象查询和平坦的1/4尺度特征
接下来,我们将Qtask和来自transformer的N-1个查询连接起来。
我们在训练期间对任务进行统一(p=1/3)采样,并使用文本映射器生成相应的文本查询(Qtext)。
我们计算一个查询文本对比损失来学习任务间的区别。我们可以在推理过程中丢弃文本映射器,从而使我们的模型参数高效。
(c) 我们使用多级L层transformer解码器来获得任务动态类和掩码预测
在这里插入图片描述
输入文本格式
(a) 我们在训练中统一对任务进行抽样
(b) 我们从对应的GT标签中提取每个类的不同二进制掩码的数量
(c) 我们使用模板“带有{CLS}的照片”为每个掩码形成一个包含文本描述的列表,其中CLS表示对象掩码的相应类名
(d) 最后,我们使用表示无对象检测的“a/an{task}photo”条目将文本列表填充为恒定长度的Ntext;其中task∈{panoptic, instance, semantic}。

在这里插入图片描述
Text Mapper:我们使用6层transformer文本编码器对输入文本列表(Tpad)进行 tokenize化,然后对其进行编码,以获得一组Ntext嵌入。我们将一组Nctx可学习嵌入连接到编码的表示,以获得最终的N个文本查询(Qtext)。N个文本查询代表图像中存在的对象的基于文本的表示。
详情可以看原论文

实验结果

在这里插入图片描述
在这里插入图片描述


http://www.niftyadmin.cn/n/421522.html

相关文章

软件测试什么样的技术才能拿20K薪资?

年少不懂面试经,读懂已是测试人。 大家好,我叫木江,一名历经沧桑,看透互联网行业百态的测试从业者,经过数年的勤学苦练,精钻深研究,终于从初出茅庐的职场新手成长为现在的测试老鸟,早…

网络安全入门学习第十七课——PHP数组

文章目录 一、索引数组二、关联数组三、数组定义1、多维数组2、赋值方式3、短数组定义法([ ] PHP 5.4起增加的) 四、访问数组五、遍历数组1、使用 for 循环2、foreach语句遍历 六、合并两个数组1、“”联合运算符2、array_combine 函数 七、数组排序函数八、数组增删…

软件测试正在面试银行的可以看下这些面试题

前言 最近呢有很多的小伙伴问我有没有什么软件测试的面试题,由于笔者之前一直在忙工作上的事情,没有时间整理面试题,刚好最近休息了一下,顺便整理了一些面试题,现在就把整理的面试题分享给大家,废话就不多说…

高燃盛会全程回顾|鸿雁加速推进数字转型之路

6月10日,以“双翅齐振雁南飞”为主题的鸿雁电器数字化营销启动大会暨中山古镇鸿雁全屋智能体验中心开业庆典,在中山古镇华艺广场圆满落幕。 古镇镇长阮志力、华艺集团董事长区锦标、华艺广场总经理丁瑜、古镇灯饰传媒董事长曹利晖以及杭州鸿雁电器有限公…

微服务框架

流量入口Nginx 在上图中可以看到,Nginx作为整个架构的流量入口,可以理解为一个外部的网关,它承担着请求的路由转发、负载均衡、动静分离等功能。作为一个核心入口点,Nginx肯定要采用多节点部署,同时通过keepalived来实…

k8s-Pod

Pod 简述 在k8s中,其最小的调度单元便是Pod了,一个Pod里面可以包含一个或多个容器(Docker 容器等)。或者说,Pod其实是由一组应用容器构成,并包含了容器的共有环境和资源约束。 Pod的配置管理 应用部署的一个最佳实践&#xff…

过滤器和拦截器实现

说明:当用户未经登录,直接访问后台网址时,为了避免可以直接访问后台内容,就需要使用过滤器或拦截器将此类请求在服务器响应数据之前做核对,如果未登录,则驳回请求,返回登录页面,如果…

聊一聊mysql的MVC

技术主题 在mysql世纪使用中,经常涉及到MVCC的概念(Multi-Vsersion Concurrency Control),即多版本并发控制,一种并发控制方法,根本目的是主为了提升数据库的并发性能。 mvcc为什么产生 数据库最原生的锁…