您当前的位置:

实验室关于视觉问答任务的论文被IEEE JSTSP接收

发布时间:2020-05-18
近日,实验室关于视觉问答任务的论文被IEEE JSTSP接收。IEEE JSTSP的全称是IEEE Journal of Selected Topics in Signal Processing,2020 年影响因子为6.688。论文信息如下:

Learning to Recognize Visual Concepts for Visual Question Answering with Structural Label Space (Difei Gao, Ruiping Wang, Shiguang Shan, and Xilin Chen)

近年来,视觉与语言交叉的认知任务受到越来越广泛的关注,其中的代表性任务之一就是视觉问答。相比于视觉感知任务(如物体分类),视觉问答要求模型识别更加丰富多样的视觉概念,包括物体类别、属性、动作等,以应对各式各样的问题。这些视觉概念通常蕴含了丰富的语义信息,某些概念是高度相关的(比如红色、蓝色都属于颜色),某些概念则关联性较低(比如红色、站立分别属于颜色与动作类别)。在学习这些繁杂的概念时,人类会自然地利用其语义信息,相关的概念共同学习,排除不相关概念的干扰,进而提升学习效率。然而,现有的问答模型通常忽视对标签语义的建模,仅仅使用扁平化的标签空间将所有概念视为孤立的符号。为了克服这一不足,本文提出了新的结构化标签空间,将标签进行聚类划分,使得从不同角度描述物体的概念分配到不同分组中,来刻画概念间的语义关系。进一步,在问答模型中添加了新的视觉概念识别模块,该模块根据概念的语义信息将概念识别任务分解,并交给多个子识别器完成,让每个子识别器专注于区分一个分组中的概念,进而提升概念识别和问答的准确率。模型总体框架及核心视觉概念识别模块如下图所示。



总体而言,该工作的主要贡献包括:1)提出新的结构化标签空间来表示视觉概念之间的语义关系;2)提出新的视觉问答框架,利用标签空间所蕴含的语义,对视觉概念识别进行解耦,从而更好地完成问答任务;3)在多个视觉问答数据集上对所提出的方法进行了实验和分析,验证了其在概念识别和问答任务上的有效性。


附件下载: