近日,实验室关于排序指标优化的工作“Algorithm-Dependent Generalization of AUPRC Optimization: Theory and Algorithm” (作者: Peisong Wen, Qianqian Xu, Zhiyong Yang, Yuan He, Qingming Huang) 被TPAMI接收。IEEE TPAMI全称为IEEE Transactions on Pattern Analysis and Machine Intelligence, 是模式识别、计算机视觉及机器学习领域的国际主流期刊, 2023年公布的影响因子为23.6。
精度-召回率曲线下面积(Area Under the Precision-Recall Curve, AUPRC)广泛应用于长尾分类、排序等机器学习任务中。尽管AUPRC优化算法已被应用于图像检索、目标检测等任务中,其算法相关泛化性仍有待研究。首先,由于AUPRC指标由多个互相关联的逐列表损失组成,不符合基本的损失项独立性假设,传统基于算法稳定性的泛化分析不适用。其次,AUPRC优化算法涉及复合优化问题,引入了多变量的迭代更新,导致稳定性定量计算更为复杂。为克服传统稳定性的适用性问题,本文提出逐列表稳定性作为新泛化分析工具,从而将稳定性分析从传统逐样本损失扩展至AUPRC等逐列表损失。为简化稳定性定量分析,本文考虑模型与辅助变量的稳定性分量传输矩阵,通过其谱分析推导算法稳定性上界,以此为桥梁诱导AUPRC优化算法泛化误差上界。在此基础上,结合一致性误差分析和优化误差分析,本文实现了AUPRC优化算法的超额误差分解和联合误差分析,指示预测得分方差、批次容量和样本多样性对误差的平衡作用,由此提出半方差正则、金字塔掩模聚合等泛化性增强方法。最后,在多个图像检索、长尾图像分类基准数据集上的实验表明,所提出泛化性增强技术可有效提升数据极端不平衡情况下的AUPRC指标,且定性实验与理论分析结果一致。