近日,实验室关于食品图像识别的工作“Large Scale Visual Food Recognition”(作者: Weiqing Min, Zhiling Wang, Yuxin Liu, Mengjiang Luo, Liping Kang, Xiaoming Wei, Xiaolin Wei, Shuqiang Jiang*)被TPAMI接收。IEEE TPAMI全称为IEEE Transactions on Pattern Analysis and Machine Intelligence, 是模式识别、计算机视觉及机器学习领域的国际主流期刊, 2022年公布的影响因子为24.314。
Weiqing Min, Zhiling Wang, Yuxin Liu, Mengjiang Luo, Liping Kang, Xiaoming Wei, Xiaolin Wei, Shuqiang Jiang*. Large Scale Visual Food Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023. (Accepted on Jan. 14, 2023).
由于食品在人们生活中的基础性地位,来自物联网、社交网、互联网等各种网络产生的海量食品多媒体数据在食品工业、膳食营养和健康管理等诸多领域蕴含着广阔应用前景和社会价值,催生了“食品计算”这一新兴方向。食品图像识别作为食品计算的一项基本任务,在膳食选择和营养摄入中起着重要作用。考虑到大规模数据集已成为推动图像分类和理解研究的重要因素,为此本文提出了Food2K数据集,包括2000个菜品类别和超过100万的菜品图像,是目前国际上规模最大的食品图像识别数据集。在此基础上,进一步提出了一个面向食品图像识别的深度渐进式区域增强网络PRENet。PRENet主要由渐进式局部特征学习模块和区域特征增强模块组成。前者通过改进的渐进式训练方法学习多样化且互补的局部细粒度判别区域(如食材相关区域),后者利用自注意力机制将多尺度的丰富上下文信息融入到局部特征中捕获食材之间的关系,进一步增强特征表示。在Food2K上进行的大量实验证明了所提出方法的有效性。在未来,我们期待 Food2K及在Food2K上的训练模型可以支撑更多食品计算新任务的探索。数据集、代码和模型可以从如下网站下载:http://123.57.42.89/FoodProject.html