用于无监督视频异常检测的合成伪异常：一种简单有效的基于掩码自动编码器的框架论文阅读

SYNTHETIC PSEUDO ANOMALIES FOR UNSUPERVISED VIDEO ANOMALY DETECTION: A SIMPLE YET EFFICIENT FRAMEWORK BASED ON MASKED AUTOENCODER

ABSTRACT
1. INTRODUCTION
2. METHODS
3. EXPERIMENTS AND RESULTS
4. CONCLUSION
阅读总结：

论文标题：SYNTHETIC PSEUDO ANOMALIES FOR UNSUPERVISED VIDEO ANOMALY DETECTION: A SIMPLE YET EFFICIENT FRAMEWORK BASED ON MASKED AUTOENCODER
文章信息：
在这里插入图片描述
发表于：ICASSP 2023（CCF B）
原文链接：https://arxiv.org/abs/2303.05112
源码：无

ABSTRACT

由于用于训练的异常样本的可用性有限，视频异常检测通常被视为一类分类问题。许多流行的方法研究自动编码器（AE）在假设AE重建正常数据良好而重建异常较差的情况下产生的重建差异。然而，即使只有正常的数据训练，AE通常也能很好地重建异常，这会耗尽其异常检测性能。为了缓解这个问题，我们提出了一个简单而有效的视频异常检测框架。
引入了伪异常样本，该样本通过嵌入随机掩码而仅从正常数据合成，而无需额外的数据处理。
我们还提出了一种正态一致性训练策略，鼓励AE更好地从正态和相应的伪异常数据中学习规则知识。
通过这种方式，AE可以学习正常数据和异常数据之间更明显的重建边界，从而获得卓越的异常判别能力。实验结果证明了该方法的有效性。

1. INTRODUCTION

视频异常检测（VAD）是指识别监控视频中不符合预期行为[1]的事件。由于异常样本的可用性有限，这项任务极具挑战性：异常事件在现实世界中很少发生，而且异常事件的形式是出乎意料的。因此，收集足够的异常示例来训练完全监督的二元分类模型是不可行的。因此，VAD通常被视为一类分类（OCC）问题，其中仅使用正常示例来训练新颖性检测模型[2，3，4，5，6，7]。然后，偏离规则学习表示的事件被视为异常。

流行的VAD方法遵循重建范式。具体来说，他们训练AE，通过最小化重建误差来提取正常数据的特征表示。然后，训练后的模型有望在测试时重建具有较大重建误差的异常数据，使异常数据可以从正常数据中检测出来。然而，几位研究人员[5，6，8]观察到AE有时能很好地重建异常，这表明正常和异常数据之间的重建差异可能不足以检测异常。

一些方法可以通过使用仅从正常数据合成的伪异常样本来缓解上述限制[9，10，11]。例如，Astrid等人[11]通过图像分类任务中的各种数据增强技术生成伪异常。通过模拟非正态数据分布，这种方法有助于AE在OCC设置下学习生动的重建边界。然而，这些方法需要额外的阶段来训练伪异常合成器，或者依赖于大量精心设计的数据处理，这导致VAD性能不稳定和训练时间过长。

在伪异常检测方法的背景下，本论文提出了一种基于遮罩自编码器的简单而高效的框架。与之前相关的工作相比，我们尝试利用随机遮罩补丁来生成伪异常样本。受到热门的遮罩图像建模[12, 13]的启发，我们通过嵌入随机遮罩标记来模拟异常，构建了一个用于VAD的通用遮罩自编码器架构。这是一种简单而高效的合成方法，避免了在原始正常数据中进行额外的数据处理。
此外，先前的工作模拟了真实场景中异常事件很少发生的情况，并在训练阶段以很小的概率输入伪异常样本。这样，伪异常样本未被充分利用，对自编码器的影响微不足道。因此，我们引入了一种用于充分利用伪异常样本的正常性一致性训练策略。具体而言，我们最小化正常样本的编码特征与相应的伪异常样本之间的双向KL散度。通过学习一致的正常性知识，我们的框架可以在正常和异常数据之间建立更明显的重构边界。通过在VAD基准测试中的实验证明，所提出的框架表现出卓越的性能。

2. METHODS

给定一个原始视频帧 $X^O$ ，我们首先利用随机遮罩生成相应的伪异常视频帧 $X^P$ 。一个编码器分别提取特征表示 $f^O$ 和 $f^P$ 。然后，提取的潜在特征 $f^O$ 和 $f^P$ 被用于通过一个单层线性解码器分别预测下一帧 $Y^O$ 和 $Y^P$ 。为了使 $Y^O$ 和 $Y^P$ 接近它们的地面真实 $Y$ ，我们最小化它们在像素和梯度方面的距离。此外，为了鼓励模型从正常样本和相应的伪异常样本中挖掘一致的正常性表示，我们最小化 $f^O$ 和 $f^P$ 之间的KL散度。最后，预测帧与其地面真实之间的预测误差决定它是正常帧还是异常帧。我们提出的框架的概览如图1所示。在接下来的小节中，我们将详细介绍我们框架的所有组件。
在这里插入图片描述

用于视频异常检测的帧预测。未来帧预测范式通常用于视频异常检测。现有的工作[2，6，14]经常使用设计的自动编码器（AE）来解决这个问题：编码器只从正常的训练视频帧中学习提取特征，解码器通过使用提取的特征来生成预测的目标帧。对于输入帧 $X$ ，上述过程可以定义为：
在这里插入图片描述
其中 $\epsilon$ 和 $D$ 分别是编码器和解码器。并且训练目标是使预测帧 $\widehat{Y}$ 接近其真实值 $Y$ ，而异常将产生更大的预测误差以在测试时被发现。

基于随机蒙版的伪异常策略。由于在训练过程中缺少异常样本，基于自动编码器（AE）的方法通常在测试时无法区分异常和正常数据。受到[10, 11]的启发，我们在训练过程中引入伪异常样本。在单类别分类问题设置中，我们不使用真实的异常样本，而是通过改变正常数据生成伪异常样本。与先前的伪异常方法不同，我们提出使用基于补丁对齐的随机蒙版方法生成伪异常样本。图像补丁是视觉Transformer的基本处理单元，使用基于补丁级别的蒙版方法非常方便。因此，在AE的架构设计中，我们参考[13]，使用ViT-B编码器和一层线性解码器。与先前的基于伪异常的方法相比，我们的方法还可以生成各种像素信息与正常样本不同的伪异常样本。此外，我们的方法简单而高效，无需复杂的数据增强方法。

训练根据基于未来帧预测范式[2]的现有工作，我们使用像素和梯度损失来训练原始正常视频帧 $X^O$ 。我们最小化像素和梯度差，以使法线预测 $Y^O$ 接近其基本事实 $Y$ 。具体而言，强度定义为最小化 $l_2$ 预测帧 $Y^O$ 与其地面实况 $Y$ 之间的距离如下：
在这里插入图片描述
梯度损失定义如下：

其中i、j表示视频帧的空间索引。
因此，正常视频帧的损失函数定义如下：

对于生成的伪异常视频帧 $X^P$ ，我们鼓励该模型仅预测正常行为，而不管异常输入如何。因此，即使输入数据包含异常区域，模型也能很好地预测正常区域。它有助于模型学习正常和异常数据之间生动的重建边界。此外，对于异常区域，模型可能倾向于预测正态表示，这将导致更大的预测误差。因此，我们还最小化像素和梯度差，以使伪异常预测 $Y^P$ 接近真实值 $Y$ 。伪异常视频帧的损失可以类似地定义为：
在这里插入图片描述

然后，我们提出了一种不同于以往基于伪异常的训练策略。我们不是以小概率输入伪异常示例，而是同时输入正态样本和相应的伪异常样本，并挖掘它们之间的一致正态表示。具体来说，我们最小化它们的编码特征 $f^O$ 和 $f^P$ 之间的双向KL差异。一致性损失定义如下：

在这里插入图片描述
注：

最后，总损失的形式如下：

其中 $λ_N$ 、 $λ_P$ 和 $λ_{cst}$ 是平衡超参数。

测试数据的异常分数。
在测试时，遵循VAD[2，6，10]的现有方法，我们预测帧级异常分数，并通过使用峰值信噪比（PSNR）计算这些分数。预测帧的PSNR和其真实值 $Y$ 用于计算异常分数，如下所示：
在这里插入图片描述
其中， $N$ 是在 $\widehat{Y}$ 中的像素总数。然后，我们通过最小-最大归一化将PSNR值归一化到[0,1]的范围，并计算规则得分：

其中t是帧索引。

3. EXPERIMENTS AND RESULTS

在这里插入图片描述
与重构的方法相比效果可以，与混合的方法相比简单。

4. CONCLUSION

在本文中，我们提出了一种简单而高效的基于掩码自动编码器的无监督视频异常检测框架。我们首先介绍了训练过程中的伪异常样本，这些样本是通过嵌入随机掩码仅从正常数据合成的。然后，我们提出了一种正态一致性训练策略，以规则化来自正态和相应伪异常数据的表示，这有助于模型充分学习正态表示，尽管帧中存在异常区域。所提出的方法可以帮助在正常和异常数据之间建立更明显的重建边界。在三个具有挑战性的视频异常检测数据集上进行的大量实验证明了我们提出的框架的有效性。