中科院计算所视觉信息处理与学习组
中科院计算所视觉信息处理与学习组


您所在的位置 / 科学研究

科学研究
视听语言感知与理解组

组  长:杨双 博士;山世光 研究员

Email:shuang dot yang [at] ict dot ac dot cn; sgshan [at] ict dot ac dot cn

* 视听语言感知与理解研究组成立于2017年,目前主要以唇语识别为核心任务,以相关的语音情感分析、视觉语音活性检测、关键说话内容检索等问题为辅助任务展开研究。相关技术可用于辅助语音识别,实现更加智能、鲁邦的人机交互,也可独立应用于辅助教学、安全验证、军事公安等领域。


* News:

2019.8:研究组研发的唇语识别系统,获评中国人工智能 · 多媒体信息识别技术竞赛人工智能创新之星

2019.6:ActivityNet 2019挑战赛中AVA Challenge的Active Speaker任务,获第二名!ActivityNet Challenge被称为视频行为理解领域的ImageNet竞赛,在CVPR2019上公布了结果。

2019.4ACM ICMI 2019 - MAVSR竞赛启动!该竞赛由来自中国科学院计算技术研究所、英国帝国理工大学、英国牛津大学、三星美国研究院的研究人员联合申办,详情请点击 竞赛主页

2019.4:论文《LRW-1000: A Naturally-Distributed Large-Scale Benchmark for Lip Reading in the Wild》被IEEE FG 2019接收,并被录为Oral!

2018.10:研究组发布唇语识别数据集LRW-1000。该数据库既是唇读领域内公开的最大规模的词级唇语识别数据集,也同时是目前唯一公开的大规模词级中文唇语识别数据集。详情请点击 数据主页(内含论文和代码)

2018.4~2018.10:研究组受邀参加CCTV-1《机智过人》第二季节目录制,向全国观众展示唇语识别技术。详情请点击 这里


欢迎有计算机视觉、深度学习基础的同学前来客座实习!简历请发送至 lipreading@vipl.ict.ac.cn

研究内容


1.   唇语识别| Visual Speech Recognition (VSR) | Lip Reading (LR)

     该项主题着重研究如何利用或只利用视觉信息进行说话内容的识别。可用于辅助语音识别的相关应用。

DEMO片段演示


2.   说话人脸转换或生成| Talking face Generation

     该项主题着重研究在给定语音和目标人脸的条件下,生成目标人物说给定语音的视频。



3.   视觉语音活性检测| Visual Voice Activity Detection (VVAD)

    该项主题着重研究利用视觉信息进行语音活性检测,该项技术可在噪音或无声环境下,辅助判断说话人的位置及说话起止时间,并可进一步用于说话人识别等相关场景。


 


4.音视觉结合的说话内容识别/检索、说话状态检测| Multi-modal VSR/ KWS/ VVAD


* 相关应用:

※ 唇语密码、活体检测、指令语句识别、发音口型打分

部分论文

刊物论文

会议论文


视觉信息处理和学习组
  • 单位地址:北京海淀区中关村科学院南路6号
  • 邮编:100190
  • 联系电话:010-62600514
  • Email:yi.cheng@vipl.ict.ac.cn
  • Valse

  • 深度学习大讲堂

版权所有 @ 中科院计算所视觉信息处理与学习组 京ICP备05002829号 京公网安备1101080060