2024年9月26日,实验室8篇论文被NeurIPS 2024接收。NeurIPS会议的全称是 Annual Conference on Neural Information Processing Systems,是人工智能领域的顶级会议。会议将于2024年12月9日至12月15日在加拿大温哥华召开。中稿论文简介如下:
1. Rethinking the Evaluation of Out-of-Distribution Detection: A Sorites Paradox (Xingming Long, Jie Zhang, Shiguang Shan, Xilin Chen)
现有的大多数对于分布外检测模型的测评方法中都会将与训练数据标签不同的类别视为分布外类别。然而在这些测评方法所使用的数据中,一些被视为分布外类别的样本实际上与训练数据中的样本具有相似的语义内容,这使得界定这些样本是否为分布外样本变成了一个“沙堆悖论(Sorites Paradox)”。在本工作中,我们将测试样本根据其相对于训练数据集的语义偏移程度和协变量偏移程度划分为不同的子集,构建了一个“渐进偏移的分布外检测模型测评方法(IS-OOD)”来解决前述问题。为了实现IS-OOD中的数据划分,我们提出了一种“基于语言对齐的图像特征分解方法(LAID)”来衡量每个测试样本的语义和协变量偏移程度。此外,为了丰富IS-OOD中的数据多样性,我们还构建了一个包含高质量生成图像的“合成渐进偏移数据集(Syn-IS)”作为我们测评方法的补充。我们在IS-OOD上评估了多个现有的分布外检测模型,并得到了几个重要的发现:(1)随着语义偏移的增加,大多数分布外检测模型的性能有显著的提高;(2)像GradNorm这样的分布外检测模型可能具有与其他模型不同的检测原理,我们发现它们在决策时较少依赖测试样本的语义偏移;(3)存在过大协变量偏移的图像也会被一些分布外检测模型视为分布外样本。
2. UMFC: Unsupervised Multi-Domain Feature Calibration for Vision-Language Models (Jiachen Liang, Ruibing Hou, Minyang Hu, Hong Chang, Shiguang Shan, Xilin Chen)
预训练的视觉-语言模型(如CLIP)展现了强大的零样本迁移能力。然而,它们在应对领域偏移时仍然存在困难,通常需要标注数据来适应下游任务,而这可能产生高昂的代价。在本工作中,我们旨在利用自然跨越多个领域的未标注数据来增强视觉-语言模型的迁移能力。尽管如此,我们发现CLIP模型中存在固有的偏差,尤其是在视觉和文本编码器中。具体来说,我们观察到CLIP的视觉编码器倾向于优先编码领域信息,而不是区分性的类别信息;同时,其文本编码器表现出对与领域相关的类别的偏好。为了解决这种模型偏差问题,我们提出了一种无需训练和标签的特征校准方法——无监督多领域特征校准(UMFC)。具体而言,UMFC通过领域特定的特征估计图像级别的偏差,并通过领域转换方向估计文本级别的偏差。这些偏差随后分别从原始图像和文本特征中减去,使它们变得领域不变。我们在包括传导学习和测试时自适应在内的多个设置中评估了该方法。大量实验表明,我们的方法优于CLIP,并且能够达到与需要额外注释或优化的最新方法相媲美的效果。
3. M3GPT: An Advanced Multimodal, Multitask Framework for Motion Comprehension and Generation (Mingshuang Luo,