2023年7月14日,实验室4篇论文被ICCV 2023接收。ICCV会议的全称是IEEE/CVF International Conference on Computer Vision,是计算机视觉领域的顶级会议。会议将于2023年10月2日至6日在法国巴黎召开。
被录用论文的简要介绍如下:
1. DandelionNet: Domain Composition with Instance Adaptive Classification for Domain Generalization(Lanqing Hu, Meina Kan, Shiguang Shan, Xilin Chen)
域泛化方法通常希望利用丰富的源域知识来提升对未知目标域的泛化性能。已有的方法要么强调域不变(domain invariant)特征的学习,要么会额外学习域特有(domain specific)特征来补充更多信息。而这些方法可能导致各个不同域过度压缩到一起,或是保留了过多的无关特征,而理想状态下,我们希望得到各个不同域按照一定的内部结构组合在一起的结果,能为未知域提供更多的合理的映射空间。为了实现这样的目标,本文提出一种名为蒲公英网络的方法,意在学习样本自适应的分类器,这些分类器以类别中心为中心,并在其附近散开,维护各自不同的参数,同时保证同类不同域特征的内聚性与多样性,以此提升模型对未知目标域的泛化性。在多个经典的域泛化与无源域数据自适应的基准上,本文方法取得了比之前方法更好的性能,验证了其优越性与通用性。
2. Building Bridge Across the Time: Disruption and Restoration of Murals In the Wild(Huiyang Shao, Qianqian Xu, Peisong Wen, Gao Peifeng, Zhiyong Yang, Qingming Huang)
作为记录古代文明文化的艺术形式,壁画描述了人们的生活场景和社会景观,具有重要的科学、历史和艺术意义。然而,由于长期暴露在恶劣的环境中,古代壁画不可避免地受到光线、风、细菌和人类活动的破坏。然而,目前很少有关于壁画修复的数据集和相关算法,该领域仍然缺少一个标准的基线。因此,本文提出一个标准的壁画修复任务,旨在自动检测壁画中的损坏区域并进行重新涂绘。与传统的图像修复任务(如内部/外部/盲目绘画和图像翻新)不同,受损的壁画遭受更为复杂的退化。然而,现有的壁画修复方法和数据集仍然专注于简单的退化,如遮盖。这样的巨大差距阻止了壁画修复在实际场景中的应用。为填补这一空白,本文提出了一个系统性框架,模拟了受损壁画的物理过程,并提供了一个新的壁画修复基准数据集。受数据合成过程的简化限制,先前的壁画修复方法在我们提出的数据集中表现不佳。为解决这个问题,我们为这一挑战性任务提出了注意力扩散框架。在该框架内,提出了一个损伤关注图模块来估计损伤程度。面对多样的损伤类型,我们提出了一系列损失函数,以实现自适应的修复策略选择。最后,实验结果表明所提出框架在壁画合成和修复方面的有效性。
3. GridMM: Grid Memory Map for Vision-and-Language Navigation (Zihan Wang, Xiangyang Li, Jiahao Yang, Yeqi Liu, Shuqiang Jiang)
视觉语言导航(VLN)要求智能体能够在三维环境中按照自然语言指令导航到远程位置,完成指定任务。为了表征先前观察过的环境,大多数VLN方法使用循环状态、拓扑地图或者俯视角的语义分割地图来实现环境记忆与表征。与这些方法不同,我们构建了一个以自我中心的,且能够动态增长的俯视角网格记忆地图来表征历史环境。在全局层面上,历史观测的视觉特征从俯视角映射到一个统一的网格图中,可以更好地表征环境的空间关系。在局部层面,我们进一步提出了一种指令关联聚合方法,以捕捉每个网格区域中的细粒度视觉线索。在离散环境中的REVERIE、R2R、SOON数据集和连续环境中的R2R-CE数据集上的大量实验,验证了我们所提方法的优越性。
4.Text-Driven Generative Domain Adaptation with Spectral Consistency Regularization (Zhenhuan Liu, Liang Li, Jiayu Xiao, Zhengjun Zha, Qingming Huang
结合预训练模型的生成先验和文本的灵活性,文本驱动的生成领域自适应可以生成来自广泛目标领域的图像。然而,当前的方法仍然存在过拟合和模式崩溃问题。本文从几何角度分析了模式崩溃的原因,并揭示了它与生成器的Hessian矩阵的关系。为了缓解这个问题,我们提出了谱一致性正则化来保留源域的多样性,而不限制语义适应到目标域。我们还设计了粒度自适应正则化,以灵活地控制目标模型的多样性和风格化之间的平衡。我们进行了与最先进方法的广泛目标领域的实验和大量消融研究。实验表明,我们的方法能够有效地保留源域的多样性,并生成高保真度的目标图像。