中科院计算所视觉信息处理与学习组
中科院计算所视觉信息处理与学习组


您所在的位置 / 新闻动态

新闻动态

实验室关于视觉问答任务的论文被IEEE JSTSP接收

发表日期:2020-05-18      点击击数: 276

近日,实验室关于视觉问答任务的论文被IEEE JSTSP接收。IEEE JSTSP的全称是IEEE Journal of Selected Topics in Signal Processing,2020 年影响因子为6.688。论文信息如下:

Learning to Recognize Visual Concepts for Visual Question Answering with Structural Label Space (Difei Gao, Ruiping Wang, Shiguang Shan, and Xilin Chen)

近年来,视觉与语言交叉的认知任务受到越来越广泛的关注,其中的代表性任务之一就是视觉问答。相比于视觉感知任务(如物体分类),视觉问答要求模型识别更加丰富多样的视觉概念,包括物体类别、属性、动作等,以应对各式各样的问题。这些视觉概念通常蕴含了丰富的语义信息,某些概念是高度相关的(比如红色、蓝色都属于颜色),某些概念则关联性较低(比如红色、站立分别属于颜色与动作类别)。在学习这些繁杂的概念时,人类会自然地利用其语义信息,相关的概念共同学习,排除不相关概念的干扰,进而提升学习效率。然而,现有的问答模型通常忽视对标签语义的建模,仅仅使用扁平化的标签空间将所有概念视为孤立的符号。为了克服这一不足,本文提出了新的结构化标签空间,将标签进行聚类划分,使得从不同角度描述物体的概念分配到不同分组中,来刻画概念间的语义关系。进一步,在问答模型中添加了新的视觉概念识别模块,该模块根据概念的语义信息将概念识别任务分解,并交给多个子识别器完成,让每个子识别器专注于区分一个分组中的概念,进而提升概念识别和问答的准确率。模型总体框架及核心视觉概念识别模块如下图所示。



总体而言,该工作的主要贡献包括:1)提出新的结构化标签空间来表示视觉概念之间的语义关系;2)提出新的视觉问答框架,利用标签空间所蕴含的语义,对视觉概念识别进行解耦,从而更好地完成问答任务;3)在多个视觉问答数据集上对所提出的方法进行了实验和分析,验证了其在概念识别和问答任务上的有效性。


视觉信息处理和学习组
  • 单位地址:北京海淀区中关村科学院南路6号
  • 邮编:100190
  • 联系电话:010-62600514
  • Email:yi.cheng@vipl.ict.ac.cn
  • Valse

  • 深度学习大讲堂

版权所有 @ 中科院计算所视觉信息处理与学习组 京ICP备05002829号 京公网安备1101080060