视听语言感知与理解研究组成立于2017年,目前主要以唇语识别为核心任务,以相关的语音情感分析、视觉语音活性检测、关键说话内容检索等问题为辅助任务展开研究。相关技术可用于辅助语音识别,实现更加智能、鲁棒的人机交互,也可独立应用于辅助教学、安全验证、军事公安等领域。
小组相关论文与代码等请参见:https://github.com/yshnny/Collections-of-The-Lip-Reading-Work-of-VIPL-LR
* News:
2021.7:研究组1篇论文被顶级国际会议ACM MM 2021接收,并被录为Oral。
2021.6:研究组与好未来联合团队获CVPR 2021 ActivityNet国际挑战赛-说话人检测任务冠军,详情请点击链接。
2021.4:研究组的唇语识别成果被引入华为智慧座舱系统,并在2021上海国际车展亮相。
2020.11:研究组基于唇语识别的研究成果与其它团队联合参赛,获省部级创新大赛一等奖。
2020.9:研究组1篇唇语识别论文被国际会议BMVC 2020接收。
2020.3:研究组4篇论文被IEEE FG 2020接收,其中一篇录为Oral。同时目前已刷新同等条件下LRW与LRW-1000上的最优性能。相关论文链接请参阅本页面下方。
2019.8:研究组研发的唇语识别系统,获评中国人工智能 · 多媒体信息识别技术竞赛“人工智能创新之星”。
2019.6:ActivityNet 2019挑战赛中AVA Challenge的Active Speaker任务,获第二名!ActivityNet Challenge被称为视频行为理解领域的ImageNet竞赛,在CVPR2019上公布了结果。
2019.4:ACM ICMI 2019 - MAVSR竞赛启动!该竞赛由来自中国科学院计算技术研究所、英国帝国理工大学、英国牛津大学、三星美国研究院的研究人员联合申办,详情请点击 竞赛主页。
2019.4:论文《LRW-1000: A Naturally-Distributed Large-Scale Benchmark for Lip Reading in the Wild》被IEEE FG 2019接收,并被录为Oral!
2018.10:研究组发布唇语识别数据集LRW-1000。该数据库既是唇读领域内公开的最大规模的词级唇语识别数据集,也同时是目前唯一公开的大规模词级中文唇语识别数据集。详情请点击数据主页(内含论文和代码)。
2018.4~2018.10:研究组受邀参加CCTV-1《机智过人》第二季节目录制,向全国观众展示唇语识别技术。详情请点击 这里。
欢迎有计算机视觉、深度学习基础的同学前来客座实习!简历请发送至 lipreading@vipl.ict.ac.cn。
1. 唇语识别| Visual Speech Recognition (VSR) | Lip Reading
(LR)
该项主题着重研究如何利用或只利用视觉信息进行说话内容的识别。可用于辅助语音识别的相关应用。
DEMO片段演示
2. 说话人脸转换或生成| Talking face Generation
该项主题着重研究在给定语音和目标人脸的条件下,生成目标人物说给定语音的视频。
3. 视觉语音活性检测| Visual Voice Activity Detection (VVAD)
该项主题着重研究利用视觉信息进行语音活性检测,该项技术可在噪音或无声环境下,辅助判断说话人的位置及说话起止时间,并可进一步用于说话人识别等相关场景。
4.音视觉结合的说话内容识别/检索、说话状态检测| Multi-modal VSR/ KWS/ VVAD
* 相关应用:
※ 唇语密码、活体检测、指令语句识别、发音口型打分