2021年6月19日, CVPR 2021 ActivityNet挑战赛时空动作定位赛道的AVA Challenge (AVA Kinetics & Active Speaker Challenge,如图1所示)发布榜单,实验室与好未来的联合团队获说话人检测(Active Speaker)任务的第一名。
ActivityNet挑战赛是视频动作识别领域的重要竞赛,涵盖视频动作分类、时序与时空动作定位、视频事件理解等多个方向,自2016年起每年在国际会议CVPR上举办。该挑战赛中的说话人检测(Active Speaker)任务是其时空动作定位赛道下AVA Challenge中的任务,自2019年起由谷歌AVA团队组织举办。该任务的目标是判断出视频中是否有人说话并分别标记出说话片段的时空位置。该任务对应的视频数据均源于YouTube电影片段,具有覆盖语言种类广、人脸角度变化范围大、分辨率不一等挑战,部分示例如图2所示。实验室(硕士研究生张远航、本科实习生梁苏叁、杨双副研究员、山世光研究员)与好未来组成的联合团队参与了该竞赛,通过对视频中潜在说话人之间的关系进行隐式建模,从空间上下文、时域上下文以及关系上下文三个层面入手进行综合判别,最终达到了93.44%的mAP,并取得了该任务第一名的成绩。该任务的结果榜单如图3所示,详情可参见http://research.google.com/ava/challenge.html。
图1. AVA Challenge 简介
图2. 数据示例,其中红色框表示对应人物未说话,绿色框表示对应人物在说话。
图3. AVA Challenge
2021中Active Speaker任务榜单
附件下载: