2023年1月21日,实验室1篇论文被ICLR 2023接收。ICLR会议的全称是International Conference on Learning Representations,是机器学习领域新兴的旗舰国际会议。会议将于2023年5月1日至5日在卢旺达首都基加利召开。
被录用论文的简要介绍如下:
Function-Consistent Feature Distillation (Dongyang Liu, Meina Kan, Shiguang Shan, Xilin Chen)
简介:知识蒸馏(Knowledge Distillation,KD)是模型压缩领域的一种常用技术,其通过在小体量模型的训练过程中引入来自大体量模型的监督,达到提升小体量模型精度的目的。特征蒸馏作为知识蒸馏的一种,通过对齐学生模型和教师模型的中间表示实现知识传递。现有的特征蒸馏方法通常使用L2、Smooth L1等距离函数度量学生和教师模型中间表征的相似性。在本文中,我们提出这类距离函数存在重要缺陷:其以各向同性的方式度量特征之间的距离,而神经网络对于中间特征的运用却是各项异性的。换言之,将中间特征朝不同方向改变相同的L2距离,网络最终输出结果的对应差异可能具有完全不同的量级。为了克服上述问题,本文提出功能一致的特征蒸馏,其强调学生模型的特征应当在功能意义下与教师模型的中间特征对齐,即两个特征进入同一个网络的后半部分后,网络的最终输出应该是相似的。通过这种方式,学生模型可以更关注教师特征中那些重要而敏感的方向,并因此更倾向于理解而非简单地记忆教师特征。在图像分类和目标检测任务上的大量实验表明,相较于现有工作,我们的方法显著提升了小体量模型的精度。