基于transformer的多帧自监督深度估计 Multi-Frame Self-Supervised Depth with Transformers

Multi-Frame Self-Supervised Depth with Transformers

transformer_1"> 基于transformer的多帧自监督深度估计

在这里插入图片描述

0 Abstract

多帧深度估计除了学习基于外观的特征外，也通过特征匹配利用图像之间的几何关系来改善单帧估计。我们采用深度离散的核极抽样来选择匹配像素，并通过一系列的自我和交叉注意力来细化预测，这构成了一种新的基于transformer的成本量。这种方式可以改善歧义和局部极小值的标准相似度。方法在KITTI和DDAD上进行测试，效果良好。

1 Introduction

特征匹配是SFM的一个基本组成部分，其被广泛的用于深度估计、自我运动估计、光流和场景流等等。这些方法依靠特征匹配建立起图像之间的跨帧的对应关系，从而建立起一个视图到另一个视图的扭曲重投影损失，从而构建了自监督约束方式。虽然从训练的角度来说，自监督方式更具有挑战性，但是自监督方法可以利用大量未标记的数据，具有更广阔的使用范围。而目前的自监督方法已经超过了一些监督方法。
单帧深度估计和多帧深度估计虽然在训练的时候都采用多帧输入，但是单帧自监督方法在测试的时候仅需要单帧输入，而多帧自监督在训练的时候需要多帧输入，这使得多帧方法在测试时多采用了时序信息和相邻帧之间的几何关系，在指标上多帧方法也普遍高于单帧方法。但是多帧方法很依赖特征匹配来构建帧间的对应关系，而缺乏纹理、重复、光度变化和动态对象会导致模糊和局部极小值。
本文提出了一种改进自监督特征匹配的新框架，在目标和背景图像之间建立了一个成本量，采用可微的深度离散化核极采样，并提出了一种新的基于注意力机制来细化像素间的匹配概率，所得到的多帧成本量直接通过高响应窗口滤波直接转化为深度估计值。本文的贡献如下：

提出了一种新的基于transformer框架，通过交叉和自我注意力结合深度离散化核极采样来改进多视图特征匹配。
我们的特征匹配细化模块可以在数据集之间传输，具有良好的鲁棒性。
指标较好，超过了部分监督单帧深度估计。（这个现在已经到0.95了哦）

2 Related work

相关工作主要从自监督深度估计、多帧深度估计和深度估计中的注意力机制三个方面来讲。自监督深度估计最早由momo提出，采用视图合成方式建立了自监督深度估计的基本框架，并添加了一个位姿网络来预测相机的自我运动，自监督单目深度估计通过一些方法已经超过了一些监督算法。
单幅图像的深度估计本质上是一个不适定问题，因为单幅2D图像可以对应无数3D图像，单帧网络在一些对抗中会失败（这里主要讲的是19年的一篇文章，这篇文章多mono进行了评判，目的在于探究深度估计网络是怎么进行深度信息获取的。方式是采用一些数据增强方式例如骑车位姿和尺度的缩放，相机的角度和汽车的边缘和底部，以此来看深度估计网络的效果，结论是深度估计网络更看重图像中物体的垂直位置，并以此来进行深度估计，How do neural networks
see depth in single images?很有意思的一篇论文），但多帧网络通过在测试时使用多幅图像来突破这一限制。

3 Method

在这里插入图片描述
首先描述了单目深度估计的投影和重投影过程，接着讲交叉注意力成本量的构建，主要分为极线采样和交叉注意力匹配。第一个公式是采用空间离散化分配的一个深度信息，第二个公式是从目标帧到相邻帧的一个投影过程。
在这里插入图片描述

随后采用交叉注意力机制来细化成本量，下图也可以看到采用了交叉注意力后，网络估计出的深度在预测值附近相对集中。

本文与其他的不同点在于，其他多帧网络在计算成本量后会直接送入解码器进行深度解码，但本文提出了一个高响应的深度解码方式，通过一个自适应的窗口来将分配的深度转化为真实的深度。但是这样的深度缺乏上下文联系（交叉注意力成本量是在极线上进行回归的），所以采用了上下文调整层来细化深度值。本文采用了额外的单帧网络以用来补全成本量体积失败的地方，这个单帧网络采用共同的姿态预测网络，在评估的时候被丢弃。
在这里插入图片描述