2024年2月27日,实验室7篇论文被CVPR 2024接收。CVPR会议的全称是IEEE Conference on Computer Vision and Pattern Recognition,是计算机视觉和模式识别领域的顶级会议。会议将于2024年6月17日至21日在美国西雅图召开。
论文简介如下:
1. HPNet: Dynamic Trajectory Forecasting with Historical Prediction Attention (Xiaolong Tang, Meina Kan, Shiguang Shan, Zhilong Ji, Jinfeng Bai, Xilin Chen)
预测道路参与者的轨迹对自动驾驶系统至关重要。最近的主流方法遵循静态范式,使用固定数量的历史帧来预测未来的轨迹。然而,即使在相邻的时间戳上,这些方法的预测结果也是独立的,可能导致潜在的不稳定性和时间不一致性。由于连续的时间戳的预测具有大量重叠的历史帧,因此它们的预测应该具有内在的相关性,例如预测轨迹的重叠部分应该是一致的,或者根据道路情况有所不同但保持相同的运动目标。基于此,本文提出了一种新的动态轨迹预测方法HPNet。为了稳定和准确的轨迹预测,我们的方法不仅利用了历史帧(包括地图和智能体状态信息),还利用了历史预测。具体来说,我们设计了一个历史预测注意(Historical Prediction Attention)模块来自动编码连续预测之间的动态关系。此外,受益于历史预测,它还将注意力范围扩展到了当前可见窗口之外。我们将提出的Historical Prediction Attention与Agent Attention和Mode Attention进一步组成三维分解注意(Triple Factorized Attention)模块,这也是HPNet的核心设计。在Argoverse运动预测基准上的实验表明,HPNet达到了最先进的性能,并生成了准确而稳定的未来轨迹。
2. Pre-trained Model Guided Fine-Tuning for Zero-Shot Adversarial Robustness (Sibo Wang, Jie Zhang, Zheng Yuan, Shiguang Shan)
近年来,像CLIP这样的大规模预训练的视觉语言模型在各种任务中表现出了优越的性能,以及显著的零样本泛化能力,同时它们也容易受到难以察觉的对抗样本的影响。由于越来越多的大模型被部署在与安全相关的下游任务中,因此必须增强此类模型的鲁棒性。当前研究主要集中在提高精度上,相比之下,对它们的鲁棒性问题的研究则较少关注,现有的工作通常采用对抗训练(微调)作为对抗样本的防御方法。然而,直接应用于CLIP模型可能会导致过拟合,损害模型的泛化能力。我们的工作受原始预训练模型的良好泛化性启发,提出了预训练模型引导的对抗微调(PMG-AFT)方法,该方法通过设计辅助分支利用来自原始预训练模型的监督,以增强模型的零样本对抗鲁棒性。具体来说,PMG-AFT最小化了目标模型中对抗样本的特征与预训练模型中的特征之间的距离,旨在保留预训练模型已经捕获的泛化特征。我们在15个零样本数据集上进行的大量实验表明,PMG-AFT显著优于最先进的方法,将top-1鲁棒精度平均提高了4.99%。此外,我们的方法同时将干净样本准确率平均提高了8.72%。
3. ES³: Evolving Self-Supervised Learning of Robust Audio-Visual Speech Representations (Yuanhang Zhang, Shuang Yang, Shiguang Shan, Xilin Chen)
近年来,音-视语音表示学习(audio-visual speech representation learning)任务因其在唇语识别、多模态语音识别、语音增强等方面的应用备受学界关注。当下的方法(如AV-HuBERT等)大多依赖于音频模态的单一引导,重点学习音视共性信息。本文考虑到两模态间固有的不对称性,提出一种全新的鲁棒音-视语音表示自监督学习策略ES³,从学习模态间共性(shared)信息、各模态的特异性(unique)信息和协同增益(synergistic)信息的角度重新审视这一任务,渐进地构建出鲁棒的音/视单模态表示和音-视联合表示。具体而言,我们首先从较容易学习的音频的特异性信息和音视两模态间的共性信息开始学习;在此基础上,继续学习视觉模态(即唇语)的特异性信息,并形成初步的音-视联合表示;最后,最大化包括协同增益信息在内的总的音-视语音信息。我们用一个简单的孪生网络对该策略加以实现,并在两个英文数据集(LRS2-BBC、LRS3-TED)和我们新收集的大规模中文句子级数据集CAS-VSR-S101上通过实验验证了其有效性;特别是在LRS2-BBC数据集上,我们采用规模最小的模型,以1/2的参数量和1/8的无标注数据量(223小时)便取得了与SoTA自监督方法可比的性能。
4. Video Harmonization with Triplet Spatio-Temporal Variation Patterns (Zonghui Guo, Xinyu Han, Jie Zhang, Shiguang Shan, Haiyong Zheng)
视频和谐化是一项重要且极具挑战性的视觉任务,它旨在通过自动调整合成视频前景的外观以使其与背景一致,从而获得视觉上逼真的合成视频。受手动和谐化操作中对短期和长期视频帧渐进调整过程的启发,我们提出一种视频三元Transformer框架来建模视频中的三种时空变化模式,即短期帧空间、长期帧全局和长期帧动态,用于类似视频和谐化等视频到视频的转换任务。具体而言,对于短期帧和谐化,我们利用相邻帧间的细微变化来调整前景外观,以使其在空间维度上与背景一致; 对于长期帧和谐化,我们不仅探索全局外观变化以增强视频的时序一致性,还在避免运动偏移影响下动态地对齐相似上下文的外观。大量实验证明了我们方法的有效性,在视频和谐化、视频增强和视频去摩尔纹任务中取得最先进的性能。我们还提出一种时序一致性度量指标来更好地评估和谐化视频。
5. Lookahead Exploration with Neural Radiance Representation for Continuous Vision-Language Navigation (Zihan Wang, Xiangyang Li, Jiahao Yang, Yeqi Liu, Junjie Hu, Ming Jiang, Shuqiang Jiang)
视觉语言导航(VLN)要求智能体能够在三维环境中基于给定的自然语言指令导航到目标位置。以往的视觉语言导航方法仅做单步动作预测,缺乏长远动作规划能力。为了实现更准确的导航路径规划,本文提出了基于神经辐射场的前瞻探索策略,旨在渲染未来的环境来实现更准确的动作预测。不同于之前工作预测未知环境的RGB图像从而带来图像预测失真和高昂计算开销的问题,本文所提出的方法基于大规模预训练的层次化神经辐射表征模型,利用三维特征空间编码预测未来环境的视觉表征,相较于预测像素级图像方法更高效和更鲁棒。更进一步地,使用所预测出的未来环境表征,所提出的前瞻导航模型能够构建出可导航的未来路径树,并通过并行评估各分支的行动价值选择最优的导航路径。我们在连续环境下视觉语言导航的多个数据集上验证了所提方法的有效性。
6. A Category Agnostic Model for Visual Rearrangement (Yuyi Liu, Xinhang Song, Weijie Li, Xiaohan Wang, Shuqiang Jiang)
本文针对归纳还原任务提出一种类别无关的模型,该模型可以帮助具身智能体在不依赖任何类别概念的情况下,将场景由打乱状态转变为目标状态。现有方法通常遵循类似的框架,即通过根据目标环境和打乱环境的语义场景图之间的匹配来完成归纳还原任务。然而,构建场景图需要推断类别标签,这不仅导致整个任务的准确率下降,而且限制了在现实世界场景中的应用。因此本文深入探讨了归纳还原的本质,并专注于两个最基本的问题:场景变化检测和场景变化匹配。我们利用点云的移动和突出来准确地识别场景变化,并根据与类别无关的外观特征的相似性来匹配这些变化。此外,为了帮助智能体更有效和全面地探索环境,我们提出了一种更紧密对齐的探索策略,旨在更近的距离观察场景的更多细节。我们在基于RoomR数据集的AI2THOR归纳还原竞赛以及我们自行收集的新型多房间多实例数据集MrMiR上进行了实验。实验结果充分证明了我们提出方法的有效性。
7. Imagine Before Go: Self-Supervised Generative Map for Object Goal Navigation (Sixian Zhang, Xinyao Yu, Xinhang Song, Xiaohan Wang, Shuqiang Jiang)
物体目标导航任务要求代理在未见过的环境中导航到指定的目标物体。由于环境布局未知,代理需要从部分观测中推断未知的上下文物体,从而推断出目标物体的可能位置。以往的端到端强化学习方法通过隐式表示学习这些上下文关系,但它们缺乏几何关系而限制其泛化性。另一方面,模块化方法为观察到的导航环境构建局部语义地图,语义地图包含了观测到的几何关系,然而,模块化的方法因为缺乏对上下文关系的推理,而限制了探索效率。在这项工作中,我们提出了自监督生成地图(Self-Supervised Generative Map, SGM),一种通过自监督学习显示地学习上下文物体关系的模块化方法。SGM被训练以利用情节观察和一般知识重构裁剪的全局地图的遮蔽像素。在导航过程中,代理维护一个不完整的局部语义地图,同时,局部地图的未知区域由预训练的SGM生成。基于扩大的局部地图,代理设置目标物体的预测位置为目标并朝向它移动。基于Gibson、MP3D和HM3D上的实验验证了我们方法的有效性。