Congested Crowd Instance Localization with Dilated Convolutional Swin Transformer阅读笔记

news/2024/7/19 12:08:43 标签: transformer, 深度学习, pytorch

Abstract

研究如何在高密度人群场景中实现精准的实例定位,以及如何缓解传统模型由于目标遮挡、图像模糊等而降低特征提取能力的问题。为此,我们提出了一 Dilated Convolutional Swin Transformer(DCST)对于拥挤的人群场景

Specifically, a window-based vision transformer is introduced into the crowd localization task, which effectively improves the capacity of representation learning. 然后,将设计良好的扩张卷积模块插入transformer的不同阶段,以增强大范围上下文信息。

1 Introduction

2 Related Works

3 Approach

在这里插入图片描述

Dilated Convolutional Shift Window Vit (DCST)

A. Vision Transformer (ViT)

1) Patch embeddings:

Specifically, the operation of patch embeddings is formulated as follows:

z 0 = [ i c l a s s ; i p 1 E ; i p 2 E ; . . . ; i p N E ] + E p o s z_0 = [i_{class};i^1_p\textbf{E}; i^2_p\textbf{E};...;i^N_p\textbf{E}] + \textbf{E}_{pos} z0=[iclass;ip1E;ip2E;...;ipNE]+Epos

where i c l a s s i_{class} iclass is the embedded patches z 0 0 z^0_0 z00, and E \textbf{E} E denotes the process of the learnable embeddings ( E ∈ R ( P 2 × C ) × D , E ∈ R ( N + 1 ) × D \textbf{E}\in R^{(P^2\times C)\times D}, \textbf{E}\in R^{(N+1)\times D} ER(P2×C)×D,ER(N+1)×D).

2) Transformer Encoder:

Given a L L L layers of Transformer Encoder, MSA and MLP are formulated as:

z l ′ = M S A ( L N ( z l − 1 ) ) + z l − 1 , l = 1 , . . . , L , z'_l = MSA(LN(z_{l-1}))+z_{l-1}, l=1,...,L, zl=MSA(LN(zl1))+zl1,l=1,...,L,

z l = M L P ( L N ( z l ′ ) ) + z l ′ , l = 1 , . . . , L , z_l = MLP(LN(z'_l))+z'_l, l=1,...,L, zl=MLP(LN(zl))+zl,l=1,...,L,

其中 L N LN LN表示层规范化

B. Swin Transformer

Swin Transformer在非重叠窗口中计算自注意力。为了编码上下文信息,连续层中的窗口分区是不同的。因此,大范围的信息在整个网络中通过局部自注意力模块进行转换。

与ViT中的MSA不同,Swin Transformer Blocks使用shifted-window MSA来计算局部self-attention。

C. Dilated Convolutional Swin Transformer

虽然Swin Transformer在分层结构中设计了顺序层的移位方案,但是大范围的空间上下文信息仍然编码不好。为了缓解这个问题,,我们提出了一种Dilated Convolutional Swin Transformer (DCST),用以放大空间图像的各个感受野。To be specific, the Dilated Convolutional Block is designed and inserted into betwwen different stages of Swin Transformer.

Dilated Convolution 增大感受野

Dilated Convolutional Block (DCB)

the number of H 4 × W 4 \frac H 4 \times \frac W 4 4H×4W C C C-dimension tokens is reshaped as a feature map with the size of H 4 × W 4 × C \frac H 4 \times \frac W 4 \times C 4H×4W×C. After this, two dilated convolutional with Batch Normalization and ReLU are applied to extract large-range spatial features.

D. Network Configurations

在此篇文章中,编码器使用提出的DCST,解码器基于FPN。

Encoder: DCST 在DCST, Swin Transformer 是 Swin-B,有4个stages,分别有2, 2, 18, 2个Swin Transformer Blocks。在Stage3和4之后添加有Dilated Convolutional Block(DCB)。DCB中两个扩张卷积的扩张率为2和3。

Decoder: FPN

针对DCST的四个极端,设计了四头的FPN。最后对获得的高质量输出,应用一个卷积层和两个反卷积层来产生和原始输入大小相同的1通道特征图。并采用sigmoid 激活来使结果规范化为 ( − 1 , 1 ) (-1,1) (1,1)区间,并命名为score map。

E. Loss Function

采用标准均方误差损失函数来训练模型。

F. Implementation Details

4 Experimental Results

5 Discussions

6 Conclusion


http://www.niftyadmin.cn/n/1647554.html

相关文章

Survey of Low-Resource Machine Translation阅读笔记

文章目录1 Introduction2 Data Sources2.1 Searching Existing Data Sources2.2 Web-crawling for Parallel Data2.3 Low-resource Languages and Web-crawling2.4 Other Data Sources3 Use of monolingual data3.1 Integration of external language models3.2 Synthesising P…

MASK-ALIGN: Self-Supervised Neural Word Alignment阅读笔记

MASK-ALIGN Abstract 词对齐是一种旨在对齐源句和目标句之间的翻译等价词的方法 目前的无监督神经对齐方法主要集中于从神经机器翻译模型中诱导对齐,而没有利用目标序列中的完整上下文。 提出了MASK-ALIGN,一种利用目标侧全上下文的自监督单词对齐模…

Netty 学习(四):ChannelHandler 的事件传播和生命周期

Netty 学习(四):ChannelHandler 的事件传播和生命周期 作者: Grey 原文地址: 博客园:Netty 学习(四):ChannelHandler 的事件传播和生命周期 CSDN:Netty 学…

Data Augmentation by Concatenation for Low-Resource Translation: A Mystery and a Solution阅读笔记

Abstract 在本文中,我们研究了连接的驱动因素,连接是一种简单但有效的数据增强方法,用于低资源的神经机器翻译。相反,我们证明了改进来自于其他三个与话语无关的因素:语境多样性、长度多样性和(在较小程度上)位置转移。 1 Intro…

mixSeq: A Simple Data Augmentation Method for Neural Machine Translation阅读笔记

Abstract 数据增强是指通过操纵输入(如添加随机噪声、屏蔽特定部分)来扩大数据集。大多数数据增强技术都是在单一的输入上操作的,这限制了训练语料库的多样性。在本文中,我们提出了一种简单而有效的神经机器翻译数据增强技术,mixSeq&#xf…

Sentence Concatenation Approach to Data Augmentation for Neural Machine Translation阅读笔记

Abstract NMT中的长句翻译表现较差,这是低资源语言的一个主要问题。我们假设这个问题是由于训练数据中长句数量不足造成的。因此,本研究提出一种简单的数据扩充方法来处理长句。在该方法中,我们只使用给定的平行语料库作为训练数据&#xff…

Ping- Ip- Linux必学的60个命令

1.作用 ping检测主机网络接口状态,使用权限是所有用户。 2.格式 ping [-dfnqrRv][-c][-i][-I][-l][-p][-s][-t] IP地址 3.主要参数 -d:使用Socket的SO_DEBUG功能。 -c:设置完成要求回应的次数。 -f:极限检测。 -i:指定…

hadoop HA + HBase HA搭建:

hadoop HA搭建参考:https://www.cnblogs.com/NGames/p/11083640.html (本节:用不到YARN 所以可以不用考虑部署YARN部分) Hadoop 使用分 布式文件系统,用于存储大数据,并使用 MapReduce 来处理。Hadoop 擅长…