您当前的位置:

实验室关于视觉与知识组合推理问答的论文被TPAMI接收

发布时间:2022-09-28

近日,实验室关于视觉与知识组合推理问答的工作“CRIC: A VQA Dataset for Compositional Reasoning on Vision and Commonsense” (作者: Difei Gao, Ruiping Wang, Shiguang Shan and Xilin Chen)被TPAMI接收。TPAMI的全称为IEEE Transactions on Pattern Analysis and Machine Intelligence,是计算机视觉领域的国际顶级期刊之一,2022年SCI影响因子为24.314。

为了评测视觉问答系统面向现实生活场景的深度理解能力,要求其不仅要理解图像中物体与物体之间的视觉关系,以及关于单一物体的非视觉知识,还需要进一步推断物体之间的非视觉关系并执行多跳推理。例如,要回答如下图中Q4的问题,“what color is the utensil that can be used for moving the object on the plate?”,模型不仅需要(1)识别鸡蛋盘子叉子,(2)基于“所见”推断盘子上摆放的是鸡蛋,更重要的是(3)根据“所知”的关于世界的常识知识,推断物体之间的隐式常识非视觉关系,叉子可以移动鸡蛋,并且(4)通过涉及以上三个子任务的多跳推理来回答整个问题。现有的主流视觉问答数据库主要关注(1)(2)的能力考察,难以评价更复杂且实用的(3)(4)能力。因此,该工作提出视觉与知识组合式推理的新型视觉问答任务,称之为CRIC(Compositional Reasoning on vIsion and Commonsense),构建了相应的大规模数据库,并针对当前多种代表性的视觉问答模型进行了系统性分析与诊断。

总体而言,该工作的主要贡献包括:1)设计了一种新的视觉与知识组合式问答任务,并提出了一种半自动化的数据库构建方法,利用图像的场景图与知识图生成大量组合式问题。2)针对多个代表性视觉问答模型进行了改进,使之能够基于图像中的视觉事实与超越图像的外部知识进行联合推理。3)通过对当前代表性的问答框架进行系统性的实验评测与诊断,深入分析了现有模型在视觉与知识联合推理方面的局限性,并指出了未来有潜力的发展方向。

论文信息:Difei Gao, Ruiping Wang, Shiguang Shan and Xilin Chen. “CRIC: A VQA Dataset for Compositional Reasoning on Vision and Commonsense,” IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022. (Accepted on Sep 13th, 2022).

数据库网址:https://cricvqa.github.io/


附件下载: