您当前的位置:

实验室关于大规模视频人脸检索的论文被IEEE TIP接收

发布时间:2019-09-01

近日,实验室关于大规模视频人脸检索的工作IEEE TIP接收。TIP的全称为Transactions on Image Processing,是计算机视觉和图像处理领域的国际顶级期刊之一,2019SCI影响因子为6.79论文信息:


Shishi Qiao, Ruiping Wang, Shiguang Shan and Xilin Chen. “Deep Heterogeneous Hashing for Face Video Retrieval,” IEEE Transactions on Image Processing (TIP), 2019. (Accepted on August 26th, 2019).


对于视频人脸检索任务,存储和计算高效的特征表示是提升方法可扩展性的关键。作为一种典型的大规模最近邻检索方法,哈希算法通过哈希函数将样本变换为紧致的二值编码,从而实现精简的存储和高效的相似性计算。在视频人脸检索任务中,通过输入含有目标人脸的静态图像,检索人脸视频数据库。通常来说,静态人脸图像被表示为特征向量,其分布于欧氏空间,而人脸视频数据由于其视频帧间的复杂变化,通常用二阶或高阶的特征描述子进行刻画,其分布于特定的流形上(比如本工作采用的协方差矩阵分布于SPD黎曼流形上)。由此,导致查询和数据库的样本表示存在于两个异质空间中,现有的端到端深度哈希学习方法均无法解决这种异质二值编码问题。本工作基于深度卷积网络,同时优化异质空间的视频和图像的二值编码学习,通过引入黎曼核映射将视频投影到流形切空间中(一种欧氏空间),从而跨越黎曼流形和欧氏空间的空间差异,最后借助于度量学习和本工作所推导的黎曼矩阵反传算法实现了整个哈希框架的端到端学习。方法的总体框架图如下:


总体而言,本工作的主要贡献包括:1)基于深度卷积网络,提出跨欧氏和黎曼流形的端到端深度哈希学习(Deep Heterogeneous Hashing, DHH)框架同时编码图像和视频的二值表示;2)详细推导了当样本数明显低于特征维度情况下的黎曼核映射的矩阵反传梯度,使得整个框架得以端到端优化;3)在多个主流的视频人脸检索评测数据集上对所提出的方法进行了充分的分析和验证,并获得了state-of-the-art的检索精度。该工作的代码已在网站开源。


附件下载: