ICCV 2023 发挥offline方法的潜力武大快手提出解耦合的视频实例分割框架DVIS_自动化定制

首页

自动化定制

ICCV 2023 发挥offline方法的潜力武大快手提出解耦合的视频实例分割框架DVIS

时间: 2024-06-17 21:56:48 | 作者: 自动化定制

机型介绍

视频分割任务 (Video Segmentation) 由图像分割任务扩展而来，旨在同时分割、检测、追踪视频中的所有目标，是一项比图像分割更具挑战的基础任务。

相比于逐帧处理视频帧的图像分割算法，视频分割算法能够给大家提供时序稳定、准确的分割结果，并追踪每一个单独的目标，实现视频中实例级别的理解与编辑功能。视频分割在视频编辑、短视频基础工具、无人驾驶、监控安防等下游任务有着重要作用。

近年来，Transformer [1] 在 CV 中所有的领域被大范围的应用。DETR [2] 作为基于 Transformer 的经典工作之一，在图像目标检测、图像实例分割领域展现出了强大的潜力。相比于基于 ROI 的实例表征方式，DETR 所采用的基于 Query 的实例表征方式展现出了更强劲的表征能力及灵活性。受到图像目标检验测试领域进展的启发，VisTR [9] 首次将 Transformer 应用于 VIS 领域，展现出了巨大的性能提升。随后基于 Transformer 的方法在 VIS 领域成为了主流。

目前视频分割领域的办法能够分为在线 (online) 与离线 (offline) 方法。在线方法在预测当前帧结果时以当前帧及历史帧作为输入，主要使用在于需要实时处理的需求场景，如无人驾驶中的实时感知。离线方法在预测当前帧结果时可通过视频中任意帧作为输入，主要使用在于离线处理的需求场景，如视频编辑等。

现有的 SOTA 的 online 方法 (MinVIS [3]、IDOL [4] 等) 遵循着先执行图像分割后逐帧关联实例的技术路线。这种技术路线并未根据其他帧的信息来优化当前帧的分割结果，因此缺乏对于视频信息的有效利用。

现有的 SOTA 的 offline 方法 (SeqFormer [5]、Mask2Former-VIS [6]、VITA [7]、IFC [8] 等) 采用一个紧耦合网络来端到端地处理视频分割任务。虽然这种技术路线理论上能更加有效地利用视频信息，但是在长视频以及复杂场景中，性能却不尽人意。如以下视频抽帧所示，当视频中出现很多个同类目标发生相互遮挡换位等情况时，Mask2Former-VIS 的目标跟踪结果出现错乱，分割精度也受到影响。

offline 方法相比于 online 办法能够利用更多的信息，因此理论上应该有着更好的表现。然而事实并非如此，在复杂场景下现有的 offline 方法的性能明显低于 online 方法。我们大家都认为这是由于现有的 offline 方法对实例表征的设定所导致的。现有的 offline 方法采用单一的可学习的 query 来表征视频中的一个实例，这种可学习的 query 可以被看作位置和大小先验。然而在实际场景中，某个实例的表观和空间位置都有几率发生大幅变化，因此仅靠位置与大小先验很难从所有帧中都探测到该实例的正确特征。正如上面视频 demo 所示，3 号 query（红色掩码覆盖）学习到的先验位置信息处在视频的右侧，然而视频前段所标记的大象在视频结束时已运动至视频左侧。

那么如何充分的利用视频信息以使得 offline 方法发挥出理论上应有的潜力？来自武汉大学与快手 Y-tech 的研究者共同研发了一种新的视频实例分割算法——DVIS，回答了该问题。研究论文已被 ICCV2023 接收。

DVIS 能轻松实现视频通用分割，能处理视频实例分割 (VIS)、视频语义分割 (VSS) 以及视频全景分割 (VPS) 三大任务。

解耦的设计使得 DVIS 训练所需要的计算资源较少，相比于 segmenter 仅带来了不足 5% 的额外计算代价，DVIS-R50 可以在 2080Ti 上一天内完成训练。

在本文之前，VIS 领域的 SOTA 方法 MinVIS 在复杂视频上的表现较差，大多数表现在目标跟踪 ID 易发生错乱、分割掩码破碎等现象。本文提出的 DVIS 则可以在复杂长视频中追踪并稳定分割目标。MinVIS 和 DVIS 的对比如下视频所示。

既然直接建模实例在整个视频上的表征是困难的，那么是不是能够首先在单帧中建模实例，然后逐帧关联实例来获取同一实例在所有帧的表征，最后再对实例的时序信息加以利用。毫无疑问，逐帧关联的难度要比直接关联所有视频帧上的同一实例小得多。在给出时间上良好对齐的实例特征的情况下，有效地对这些特征加以利用也是轻而易举的。

我们将 VIS 任务分解为图像分割、物体关联、时序精化三个子步骤，相应的我们分别设计 segmenter、tracker 和 refiner 三个网络模块来处理这三个子步骤。其中图像分割即为在单帧中分割出目标并获取目标的表征。物体关联即为关联相邻帧的目标表征，为 refiner 提供一个良好对齐的初值。时序精化即为基于对齐好的物体时序信息来优化物体的分割结果以及追踪结果。

当 DVIS 的架构确定好后，我们应该针对图像分割、物体关联、时序精化三个子步骤分别设计合理的 segmenter、tracker 以及 refiner 网络。图像分割子步骤中，我们采用了 SOTA 的图像通用分割网络 Mask2Former 作为 segmenter 来提取物体的表征；物体关联子步骤中，我们将追踪建模为参考去噪 / 重建任务，并设计了 Referring Tracker 来进行稳健的目标关联；在时序精化子步骤中，我们基于 1D 卷积以及 Self Attention 实现了 Temporal Refiner 来有效地利用物体的时序信息。

值得一提的是 DVIS 的设计很灵活，Referring Tracker 可以叠加于任何 query-based 的图像分割器来实现在线的视频分割，Temporal Refiner 一样能叠加于任何在线的视频分割器来获取更强大的分割性能。

我们在 OVIS 数据集上对于 Referring Tracker 和 Temporal Refiner 的作用进行了消融实验。Tracker 的最大的作用是实现更鲁棒的目标关联，尤其是对于中度遮挡和重度遮挡的物体有较大改善（如下表所示，为中度遮挡以及重度遮挡的目标分别带来了 5.2 AP 和 4.3 AP 的性能提升）。Refiner 的最大的作用是充分的利用时序信息，结果显示由于时序信息的有效利用，Temporal Refiner 对于被轻度、中度、重度遮挡物体的性能都有显著提升（如下表所示，为轻度、中度以及重度遮挡的目标分别带来了 2.4 AP 和 1.8 AP 和 5.1 AP 的性能提升）。

在本文中，我们提出了 DVIS，一种将 VIS 任务解耦的框架，将 VIS 任务分为三个子任务：分割，跟踪和细化。我们的贡献有三个方面：1）我们将解耦策略引入了 VIS 任务并提出了 DVIS 框架，2）我们提出了 Referring Tracker，通过将帧间关联建模为引用去噪来增强跟踪的鲁棒性，3）我们提出了 Temporal Refiner，利用整个视频的信息来精化分割结果，弥补了之前工作在这方面的缺失。根据结果得出，DVIS 在所有 VIS 数据集上实现了 SOTA 性能。

虽然 DVIS 的设计来源于对 VIS 领域内既有方法不足的反思，但是 DVIS 的设计并不局限于视频实例分割领域，其可以无任何改动的在 VIS,VPS 和 VSS 上都取得 SOTA 性能，这证明了 DVIS 的通用性与强大潜力。我们大家都希望，DVIS 将成为一个强大且基础的基准，并且我们的解耦洞见将激发在线和离线 VIS 领域的未来研究。

从未来技术发展的角度上，我们将会继续探索面向图像、视频以及更多模态的基础视觉感知技术，从模型通用性、开放类别等角度进一步拓展基础视觉感知技术的边界。

原标题：《ICCV 2023 发挥offline方法的潜力，武大&快手提出解耦合的视频实例分割框架DVIS》

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。