中科院计算所视觉信息处理与学习组
中科院计算所视觉信息处理与学习组


您所在的位置 / 科学研究

科学研究
视听语言感知与理解组

组  长:杨双 博士;山世光 研究员

Email:shuang dot yang [at] ict dot ac dot cn; sgshan [at] ict dot ac dot cn

* 视听语言感知与理解研究组成立于2017年,目前主要以唇语识别为核心任务,以相关的语音情感分析、视觉语音活性检测、关键说话内容检索等问题为辅助任务展开研究。相关技术可用于辅助语音识别,实现更加智能、鲁棒的人机交互,也可独立应用于辅助教学、安全验证、军事公安等领域。


* News:

2020.3:研究组4篇论文被IEEE FG 2020接收,其中一篇录为Oral。同时目前已刷新同等条件下LRW与LRW-1000上的最优性能。相关论文链接请参阅本页面下方。

2019.8:研究组研发的唇语识别系统,获评中国人工智能 · 多媒体信息识别技术竞赛人工智能创新之星

2019.6:ActivityNet 2019挑战赛中AVA Challenge的Active Speaker任务,获第二名!ActivityNet Challenge被称为视频行为理解领域的ImageNet竞赛,在CVPR2019上公布了结果。

2019.4ACM ICMI 2019 - MAVSR竞赛启动!该竞赛由来自中国科学院计算技术研究所、英国帝国理工大学、英国牛津大学、三星美国研究院的研究人员联合申办,详情请点击 竞赛主页

2019.4:论文《LRW-1000: A Naturally-Distributed Large-Scale Benchmark for Lip Reading in the Wild》被IEEE FG 2019接收,并被录为Oral!

2018.10:研究组发布唇语识别数据集LRW-1000。该数据库既是唇读领域内公开的最大规模的词级唇语识别数据集,也同时是目前唯一公开的大规模词级中文唇语识别数据集。详情请点击 数据主页(内含论文和代码)

2018.4~2018.10:研究组受邀参加CCTV-1《机智过人》第二季节目录制,向全国观众展示唇语识别技术。详情请点击 这里


欢迎有计算机视觉、深度学习基础的同学前来客座实习!简历请发送至 lipreading@vipl.ict.ac.cn

研究内容


1.   唇语识别| Visual Speech Recognition (VSR) | Lip Reading (LR)

     该项主题着重研究如何利用或只利用视觉信息进行说话内容的识别。可用于辅助语音识别的相关应用。

DEMO片段演示


2.   说话人脸转换或生成| Talking face Generation

     该项主题着重研究在给定语音和目标人脸的条件下,生成目标人物说给定语音的视频。



3.   视觉语音活性检测| Visual Voice Activity Detection (VVAD)

    该项主题着重研究利用视觉信息进行语音活性检测,该项技术可在噪音或无声环境下,辅助判断说话人的位置及说话起止时间,并可进一步用于说话人识别等相关场景。


 


4.音视觉结合的说话内容识别/检索、说话状态检测| Multi-modal VSR/ KWS/ VVAD


* 相关应用:

※ 唇语密码、活体检测、指令语句识别、发音口型打分

部分论文

刊物论文

会议论文

1.    Jingyun Xiao, Shuang Yang, Yuanhang Zhang, Shiguang Shan, Xilin Chen, "Deformation Flow Based Two-Stream Network for Lip Reading," IEEE International Conference on Automatic Face and Gesture Recognition (FG 2020), pp. 836-842, 2020. 【pdf】

2.    Mingshuang Luo, Shuang Yang, Shiguang Shan, Xilin Chen, "Pseudo-Convolutional Policy Gradient for Sequence-to-Sequence Lip-Reading," IEEE International Conference on Automatic Face and Gesture Recognition (FG 2020), pp. 69-76, 2020. 【pdf】

3.    Xing Zhao, Shuang Yang, Shiguang Shan, Xilin Chen, "Mutual Information Maximization for Effective Lip Reading," IEEE International Conference on Automatic Face and Gesture Recognition (FG 2020) , pp. 843-850, 2020. 【pdf】

4.    Yuanhang Zhang, Shuang Yang, Jingyun Xiao, Shiguang Shan, Xilin Chen, "Can We Read Speech Beyond the Lips? Rethinking RoI Selection for Deep Visual Speech Recognition," IEEE International Conference on Automatic Face and Gesture Recognition (FG 2020), pp. 851-858, 2020. 【pdf】

5.    Shuang Yang, Yuanhang Zhang, Dalu Feng, Mingmin Yang, Chenhao Wang, Jingyun Xiao, Keyu Long, Shiguang Shan, Xilin Chen, "LRW-1000: A Naturally-Distributed Large-Scale Benchmark for Lip Reading in the Wild," 14th IEEE International Conference on Automatic Face and Gesture Recognition (FG 2019), pp. 1-8, Lille, France, May 14-18, 2019. (Oral) 【pdf】


视觉信息处理和学习组
  • 单位地址:北京海淀区中关村科学院南路6号
  • 邮编:100190
  • 联系电话:010-62600514
  • Email:yi.cheng@vipl.ict.ac.cn
  • Valse

  • 深度学习大讲堂

版权所有 @ 中科院计算所视觉信息处理与学习组 京ICP备05002829号 京公网安备1101080060