您当前的位置:

实验室关于多标签分布外检测等的论文被AAAI 2025接收

发布时间:2025-01-05

20241210日,实验室4篇论文被AAAI 2025接收。AAAI全称是AAAI Conference on Artificial Intelligence,是人工智能领域的顶级国际会议。会议将于2025225日至34日在美国费城召开。中稿论文简介如下:

1. Bidirectional Logits Tree: Pursuing Granularity Reconcilement in Fine-Grained Classification (Zhiguang Lu, Qianqian Xu, Shilong Bao, Zhiyong Yang, Qingming Huang)

模型在对多粒度层次标签标记的图像分类过程中,现有方法通常基于从通用的特征提取器中提取的共享特征来开发独立的层次感知模型。然而,由于粗粒度特征本质上比细粒度特征更容易学习,特征提取器往往会优先关注粗粒度特征,进而忽略了细粒度特征的学习,导致模型对细粒度特征的学习效果不佳。本文提出了一种基于双向逻辑树(BiLT)和自适应的类内差异的学习方法,利用从粗粒度到细粒度的反向传播流,结合不同级别之间的Logit损失,保证了细粒度学习可以受益于其粗粒度的祖先,同时通过类间关系的学习和标签平滑技术来动态调整预设的类别间距离。实验验证本文方法在缓解了粒度竞争问题的同时,还提升了细粒度分类的性能。

2. SSE-SAM: Balancing Head and Tail Classes Gradually through Stage-Wise SAM (Xingyu Lyu, Qianqian Xu, Zhiyong Yang, Shaojie Lyu, Qingming Huang)

现实世界中的数据集通常呈现长尾分布,其中绝大多数类别(称为尾部类别)只有少量样本。传统方法往往会在这些尾部类别上出现过拟合。最近,一种名为不平衡SAMImbalanced SAM, ImbSAM)的方法被提出,它利用锐度感知最小化(Sharpness-Aware Minimization, SAM)的泛化优势来应对长尾分布,其主要策略是仅增强尾部类别损失函数的平滑性。然而,在长尾场景中提升泛化能力需要在头部和尾部类别之间进行精心的平衡。理论分析表明,SAMImbSAM本身都无法完全实现这种平衡。对于SAM,虽然它通过逃离整体损失景观中的鞍点增强了模型的泛化能力,但在尾部类别损失上并未有效解决此问题。相反,虽然ImbSAM在避免尾部类别鞍点方面更加有效,但头部类别训练不足,导致性能显著下降。基于这些发现,本文提出阶段式鞍点逃逸SAMStage-wise Saddle Escaping SAM, 简称SSE-SAM),通过分阶段的方法结合了ImbSAMSAM的互补优势。在初始阶段,SSE-SAM关注多数样本,避免头部类别损失的鞍点;在后期阶段,它转而关注尾部类别,帮助其逃离鞍点。实验表明,SSE-SAM在头部和尾部类别的鞍点逃逸能力上表现更佳,并在性能上取得了显著提升。

3. EDGE: Unknown-aware Multi-label Learning by Energy Distribution Gap Expansion (Yuchen Sun, Qianqian Xu, Zitai Wang, Zhiyong Yang, Junwei He)

多标签分布外检测任务旨在区分未知样本和多标签分布内样本。与单标签分类相比,多标签分类对类之间的联合信息进行建模至关重要。迄今为止,JointEnergy是多标签分布外检测中的代表性工作。然而,JointEnergy在面向对象检测中会产生不平衡问题,特别是在模型缺乏足够的判别能力时。由于能量决策边界模糊,仅与少数类别相关的样本往往被归类为分布外样本。此外,由于现有封闭域内不平衡多标签学习方法无法有效拟合整体特征空间分布,将导致严重的负迁移效果,普遍不适用分布外检测场景。本文采用辅助异常值暴露方法,首次提出了一种未知感知的多标签分布外检测框架(Energy Distribution Gap Expansion,简称EDGE),以重塑整体能量空间布局。在该框架中,分别针对尾部分布内样本和分布外样本优化能量分数,以扩大二者之间的能量分布距离。此外,本文还设计了一种简单而有效的方法来选择利于训练的辅助分布外样本数据集。在多个多标签数据集和分布外数据集上的综合实验结果表明,EDGE可以更加有效地提升模型在分布外检测上的性能。

4. Divide-and-Conquer: Tree-structured Strategy with Answer Distribution Estimator for Goal-Oriented Visual Dialogue (Shuo Cai, Xinzhe Han, Shuhui Wang)

目标导向视觉对话涉及人工智能代理之间的多轮交互,由于其广泛的应用前景而备受关注。在给定视觉场景下,该任务要求提问者(Questioner)提出行动导向的问题,而回答者(Answerer)以让提问者明确正确行动的意图作出回答。问题的质量影响目标搜索过程的准确性和效率。然而现有方法缺乏清晰的策略来指导问题生成,导致搜索过程中的随机性和不收敛的结果。我们提出了一种基于答案分布估计器的树结构策略(Tree-Structured Strategy with Answer Distribution Estimator, TSADE),通过在每轮对话中排除当前候选对象的一半来指导问题生成。上述过程通过最大化一个基于“分治”范式的二分奖励来实现。我们进一步设计了一种候选对象最小化奖励以鼓励模型在对话结束时缩小候选对象的范围。实验结果表明与传统的遍历式问题生成方法相比,我们的方法能够让代理以更少的重复问题和对话轮次达到任务导向的高准确率。定性分析结果进一步表明我们的方法有助于生成更高质量的问题。



附件下载:

上一篇:

T-PAMI接收">实验室关于物理世界人脸身份保护的工作T-PAMI接收