中科院计算所视觉信息处理与学习组

您所在的位置 / 资源

资源

1. Jianyu Wang. Sequential Monte Carlo Filtering Based Visual Tracking. (基于序列蒙特卡洛滤波算法的视觉目标跟踪). 2006.

指导老师:高文教授

【Abstract】 【Pdf】

    基于图像序列的目标跟踪作为计算机视觉领域的一个核心问题,得到了广泛而深入的研究。视觉跟踪研究的主要目的是模仿生理视觉系统的运动感知功能,赋予机器辨识图像序列中物体运动及其相互关系的能力,为图像序列理解提供重要途径。视觉跟踪技术具有广阔的应用前景,如视频监控、视频分析、视频检索、基于视频的运动分析和合成、基于运动信息的身份识别等。经过四十多年尤其是近十年的不懈研究,视觉跟踪技术取得了长足的进步,但实践表明一般意义上的视觉跟踪技术还远未成熟,要开发出真正鲁棒、实用的视觉跟踪应用系统还需要更为鲁棒的核心算法并需要解决大量的算法实现问题。
    本文在序列蒙特卡洛滤波算法的框架下,以人脸和人体跟踪为研究对象,针对其中涉及的关键问题进行了探讨,研究了开发鲁棒实用的视觉跟踪系统所需要的核心技术和关键问题解决方案,重点探讨了目标表观建模,复杂运动的建模和推断,融合低端模型和高端模型的运动描述方法等几个关键问题。
具体的研究内容如下:1) 提出了可区分性目标表观模型的自适应建模和更新算法。表观建模是视觉跟踪算法性能的决定性因素之一。实践表明:图像特征选择和基于图像特征的目标表观描述模型从根本上决定了算法的鲁棒性和计算复杂性。虽然这一问题得到了领域内学者的极大重视和不懈努力,其仍是阻碍视觉跟踪技术进入实际应用的最困难问题之一。本论文中提出了一种自适应目标表观建模和更新算法。该算法在动态建模过程中不仅考虑目标表观信息,同时对目标所处环境中的背景信息进行考察,从而可对目标/背景的差异信息进行有效建模,在根本上保证了模型具有从变化的背景中区分前景的能力。实验结果表明,相比于目前最具代表性的跟踪算法之一Mean Shift,提出的算法在公开的测试序列上取得了更好的跟踪结果。2) 提出了集成多运动模型的复杂运动建模和推断算法。由于计算复杂性的限制,视觉跟踪算法通常基于局部搜索的策略确定目标的运动状态。所以,根据目标运动规律确定其以较高概率出现的局部区域成为算法效率的关键因素之一。如何针对复杂运动描述目标运动规律,是很多现实跟踪问题的效率瓶颈所在。本论文提出了采用多运动模型对目标复杂运动进行建模和估计的基本框架。在此基础上,针对具有多种运动模式和具有高维运动状态的两类常见的复杂运动模式,将多模型的估计框架融入序列蒙特卡洛滤波算法中,从而针对两类复杂运动问题提出了标准序列蒙特卡洛滤波算法的两个改进:基于多模型切换和基于多模型协同的序列蒙特卡洛滤波算法。在人脸跟踪和面部表情估计问题上分别验证了改进的算法。实验结果表明,相对比于标准序列蒙特卡洛滤波算法,在计算复杂度降低的同时,改进的算法得到了更高的跟踪精度。3) 提出了融合光流和特定模型的面部特征点跟踪算法。面部特征点跟踪是基于特征点的运动感知研究的典型应用,也是基于特征点运动感知任务中的困难问题。现有的面部特征点跟踪方法主要可以分为基于特定描述模型(以下简称模型)和基于光流的方法。本论文在序列蒙特卡洛滤波算法的框架下融合了基于光流和基于特定模型的方法来解决面部特征点跟踪问题,以克服单独采用一类方法的不足,从而达到鲁棒跟踪面部特征点的目的。在基于尺度空间理论改进KLT 光流算法的基础上,以光流估计结果约束基于模型的形变特征点估计的起始搜索位置,大大加速了序列蒙特卡洛滤波算法的搜索过程。对于估计结果中存在的跟踪误差,进一步采用特征点运动轨迹的子空间约束来迭代求精跟踪结果。相比于广泛使用的KLT 特征点跟踪算法,实验结果证实了提出算法的有效性。本论文的三个主要创新点,分别对应视觉跟踪中的两个关键问题:目标表观的建模和目标运动的描述。其中创新点一提出了动态建模前景/背景差异的理念,使其不同于已有的大部分视觉跟踪算法。创新点二和三则分别从显式地采用特定模型描述目标运动和隐式地采用离散特征点描述目标运动方面进行了创新尝试。三种方法互为补充,并适合不同的应用情境。

2. Baochang Zhang. Studies on facial feature extraction and nonlinear discriminant analysis method for

指导老师:高文教授

【Abstract】 【Pdf】

人脸识别研究的核心问题是使计算机具有身份辨别的能力。该研究具有重大的理论意义和实际应用价值。人脸识别技术的系统研究能够推动人工智能和计算机视觉等相关领域的发展。作为生物特征识别关键技术之一的人脸识别技术则在身份认证、视觉监控、人机交互、公共安全、信息安全、金融等领域具有潜在的应用前景。经过几十年的发展,人脸识别技术取得了长足的进步,在理想情况下好的人脸识别系统已经能够取得可以接受的识别性能。但非理想条件下的人脸识别技术还远远未能满足人们的需要。本文重点探讨实现鲁棒人脸识别系统的一些核心技术和关键问题,对面部特征精确配准、特征提取和表示、非线性判别分析等方面进行专门研究。本文的主要研究内容总结如下:
1、研究面部特征精确配准问题,提出基于约束形状模型的面部特征提取方法
面部特征精确配准是实现鲁棒的人脸识别系统的基本前提。本文首先对面部特征点进行分类,对不同类型的特征点采取不同的建模和搜索方法,从而提出一种约束形状模型(Constrait Shape Model, CSM)。该模型的要点包括:(1)面部特征点分成边缘点,控制点两部分。(2)对于边缘点采取改进的主动形状模型进行建模的策略,即考虑边缘强度信息对边缘点建模的贡献。(3)对于控制点采用Gabor特征进行建模,以及基于启发式的搜索策略。实验表明,CSM能够更精确定位面部关键特征。
2、提出基于Gabor 象限特征的人脸识别方法
目前,Gabor特征在人脸识别领域获得了广泛应用,然而大多数人脸识别系统是基于幅值特征的。本文提出一种基于Gabor象限特征的鲁棒人脸识别方法(Histogram of Gabor Phase Pattern,HGPP)。该方法具有如下特点:(1)大多数传统人脸识别方法都是基于Gabor幅值特征,而HGPP方法完全基于Gabor相位特征。(2)提出一种新的局部异或算子(Local XOR Pattern, LXP)用来提取局部象限变化。(3)HGPP方法无需训练,直接提取直方图特征,因而避免了统计学习领域的泛化分析问题。
3.对局部异或算子进行一般性扩展
本文提出的局部异或算子(LXP)成功的应用到Gabor 象限特征上,并且取得了非常好的性能。但是我们发现该算子仅仅适用于二值运算,针对这一问题,本文提出一种对其进行一般性扩展的方法,即该算子可以适用于灰度图像。基于此,进一步融合Gabor 的幅值和相位信息,本文又提出基于Gabor 特征的局部异或直方图(Histogram of Gabor-based Local XOR Pattern,HGLXP)方法。该方法具有如下特点:(1)根据不同的梯度方向对人脸图像进行二值化。(2)LXP 算子被用来反映相邻点之间梯度方向的一致性。(3)LXP算子成功和Gabor 幅值和相位特征进行结合,最后提取空间直方图特征作为判别特征。(4)HGLXP 方法无需训练,直接提取直方图特征,因而避免统计学习领域的泛化分析问题。4.证明核费舍尔和支持向量机之间的内在联系,提出了基于支持向量的非线性判别分析方法核费舍尔和支持向量机是核技巧的两种成功的应用,它们之间具有内在联系。本文证明了二者的内在联系,即支持向量机的法向量具有零空间特性。基于该特性,本文提出了基于支持向量的判别分析方法,实验表明该方法是非常有效的。5.提出基于直方图特征的集成核费舍尔判别方法直方图特征被成功的应用到人脸识别领域,并且无需训练,从而避免了泛化分析问题,然而训练数据集合中包含大量先验知识没有得到应用,所以本文提出一种应用先验知识的基于核费舍尔的统计学习方法,来进一步提高人脸识别系统的性能。本论文的上述内容探讨了实现鲁棒的人脸识别系统的一些关键问题,尤其在面部特征精确配准、特征提取和表示、非线性判别分析方面进行了深入研究,具有一定参考价值和借鉴意义。

3. Shuqiang Jiang. (视觉媒体语义自动提取关键技术研究). 2005.

指导老师:高文教授

【Abstract】 【Pdf】

4. Jun Miao. (基于规则和学习的人脸目标及其特征检测与分析技术的研究). 2005.

指导老师:高文教授

【Abstract】 【Pdf】

5. Laiyun Qing. Study on the Illumination Variations in Face Recognition. (人脸识别中的光照问题研究). 2005.

指导老师:高文教授

【Abstract】 【Pdf】

由于人脸识别研究有着重要的理论价值和应用价值,经过近四十年的发展,人脸识别技术已经取得了长足进步。当今的人脸识别系统虽然在用户配合的理想情况下取得了令人满意的结果,但如在更大规模人脸数据库、摄像环境不可控、用户不配合的情况下使用,其识别性能急剧下降。因此,现有的人脸识别系统还尚未成熟,尤其需要解决非理想摄像条件(光照变化、摄像设备差异)和用户不配合(视角变化、表情变化、饰物乃至化妆)等问题。
本文主要考虑人脸识别中的光照变化问题,同时兼顾姿态变化。本文从人脸图像的成像模型出发,在估计输入人脸图像的成像参数后,得到与光照无关的特征用于人脸识别,以提高人脸识别系统在光照变化下的性能。简而言之,本文的主要研究成果包括以下几个部分:
(1) 任意光照下人脸图像的光照估计。基于球面谐波理论,朗伯反射对光照而言是一个低通滤波器。因此本文在频域中对成像模型进行分析,对输入人脸图像进行光照估计,即估计光照的低频分量的系数。将人脸表面近似为朗伯反射,融合人脸类的先验知识,本文可对任意输入人脸图像进行光照估计。这种光照表示可表示任何类型的光照环境,包括室外光照环境。同时,由于表示光照的参数很少,本文的光照估计对输入人脸图像的分辨率及配准精度不敏感。
(2) 基于绘制的人脸图像光照补偿。基于绘制的光照补偿是在光照估计的基础上,用光照商图像技术将其绘制到预先定义的标准光照,从而使所有的人脸图像在相同的光照条件下进行比较。本文讨论了两种标准光照:虚拟均匀光照及环境光+正面点光源。其中均匀光照下的图像中只包含人脸的纹理信息而不包含形状信息;环境光+点光源下的图像中既包含人脸的纹理信息,又包含了形状信息。基于绘制的光照补偿依赖于输入人脸的形状,即依赖于特征点的定位,因此对配准比较敏感。在精确配准的情况下,基于绘制的光照补偿对光照变化下的人脸识别能带来很大提高。
(3) 基于差图像的人脸图像光照补偿。差图像为原图像与平均人脸在输入光照下的图像的差。由于二者光照相同,这样差图像中光照变化的影响得到了减弱,同时又保留了用于识别的输入人脸与平均人脸的差别。基于差图像的光照补偿不需要输入人脸的形状,因此其对配准精度不敏感,更适合于实用系统。
(4) 基于图像绘制的方法用于扩充人脸检测中的训练样本。基于统计学习的人脸检测方法的性能依赖于训练样本的分布。通常我们很难收集到足够多的符合要求的训练样本,而基于绘制的方法可以合成任意光照下的虚拟样本。通过合理地配置目标光照,基于扩充后的训练集的人脸检测器的性能得到了较大提高。
(5) 基于特征谐波图像模型的光照和姿态不变的人脸识别。特征谐波图像模型利用人脸类的谐波基图像的先验知识,从一幅人脸图像重构其球面谐波基图像。谐波基图像包含了人脸的本质特征:形状和反射率,因此我们可以用人脸的谐波基图像用来表示人脸的不变特征,用于不同光照和姿态下的人脸识别。假设人脸的谐波基图像的分布为高斯分布,本部分工作对所有人脸的谐波基图像的分布空间用PCA 模型表示。结合该先验限制,在光照估计的基础上,可从一幅图像恢复该人脸的谐波基图像。同时由于PCA系数的数目相对图像像素数目很少,根据姿态变化的人脸图像中可见部分仍可恢复出该人脸的谐波基图像的PCA 系数,因此该模型可兼顾姿态变化。

6. Shiguang Shan. Study on Some Key Issues in Face Recognition. (人脸识别中若干关键问题研究). 2004.

指导老师:高文教授

【Abstract】 【Pdf】

自动人脸识别(AFR)研究试图赋予计算机根据面孔辨别人物身份的能力。该研究 具有重要的科学意义和巨大的应用价值。从学科建设与发展的角度看,AFR 作为一个 科学问题,是一个典型的图像模式分析、理解与分类计算问题,涉及模式识别,计算机 视觉,智能人机交互,图形学,认知科学等多个学科。同时,作为生物特征识别关键技 术之一的 AFR 技术则在公共安全、信息安全、金融等领域具有潜在的应用前景。 经过三十多年的发展,AFR 技术取得了长足的进步,目前最好的 AFR 系统在理想 情况下已经能够取得可以接受的识别性能。但测试和实践经验表明:非理想条件下的人 脸识别技术还远未成熟!要开发出真正鲁棒、实用的 AFR 应用系统还需要解决大量的 关键问题,尤其需要研究:(1)作为识别必要前提条件的面部关键特征精确定位问题; (2)高效的人脸描述特征及其相应的高精度核心识别算法;(3)如何提高 AFR 系统对 不可避免的配准错误的鲁棒性问题。另外,对开发鲁棒实用的 AFR 系统而言,研究应 用系统设计层面的诸多工程技术问题同样至关重要。以设计开发鲁棒、实用的 AFR 系 统为目标,本文重点探讨了人脸识别中的上述关键问题。本论文的主要贡献总结如下: 1. 全面综述了人脸识别研究的历史和现状 人脸识别研究国内外综述文章最晚也是 2000 年发表的,实际综述内容大多是 1999 年前的文献情况。本文给出的 AFR 综述首先探讨了 AFR 的一般计算模型,并按照 AFR 发展特点,将 AFR 研究划分为三个历史阶段,对每个阶段研究的特点以及代表性方法 进行了较为详尽的总结,并从面部特征自动定位、人脸表示模型、分类和识别算法三个 角度对人脸识别领域的主要方法进行了分类整理。在此基础上,结合近年来主要的人脸 识别评测,对人脸识别研究的现状进行了阐述。此外,还总结了现有的主要商业人脸识 别系统以及主要的公共人脸图像库的情况。最后讨论了人脸识别领域目前仍然面临的主 要开放问题并简单分析了 AFR 领域的主要技术趋势。 2. 研究了特征精确配准问题,提出了局部纹理约束的主动表观模型 LTC-AAM 面部特征精确配准是鲁棒实用的人脸识别系统的基本前提。主动形状模型(ASM) 和主动表观模型(AAM)是目前解决该问题的主流方法。在对它们的优缺点进行综合 分析的基础上,本文对二者进行集成,提出了一种局部纹理约束的主动表观模型 LTC-AAM。该模型的要点包括:(1)继承了 ASM 的局部纹理匹配模型,并针对面部 轮廓点采用了边缘增强的局部纹理匹配模型;(2)在 ASM 形状调整时引入了 AAM 中 度量当前纹理与模型纹理匹配度的目标函数,从而将 ASM 形状参数调整规范到了与 AAM 统一的参数优化框架中;(3)保留了 AAM 利用当前纹理预测表观模型参数变化 的启发式参数优化过程。这些特点使得 LTC-AAM 融合了 ASM 局部搜索模型、AAM 纹 理约束以及启发式的参数优化过程,从而在较大程度上继承了二者的优势。实验表明, LTC-AAM 能够更精确的定位面部关键特征,为后续的人脸识别打下了良好的配准基础。 3. 研究了 Gabor 特征人脸描述方法,提出了一种 AdaGaDA 人脸识别新方法 良好的人脸表示是鲁棒高效的人脸识别算法的关键因素。Gabor 小波因具有优良的 空间局部性和方向选择性,能够提取图像局部区域内多个方向的空间频率和局部结构特 征,是一种良好的人脸描述方法。弹性图匹配方法(EGM)和 Gabor 特征 Fisher 判别分 人脸识别中若干关键问题的研究——摘要 II 类方法(GFC)是应用 Gabor 特征的典型代表。实用系统中 EGM 需要解决关键特征点 的定位问题,其速度和精度难以提高;而 GFC 对高维 Gabor 特征直接简单下采样的策 略尽管避免了特征定位难题,但却遗漏了大量判别特征。针对这一问题,本文考虑了如 何对 Gabor 特征进行有效降维的问题,将 Boosting 策略创新性的应用于 Gabor 特征的优 化选择以产生维数较低的 AdaGabor 特征,并最终通过对 AdaGabor 特征的判别分析实 现人脸识别——即所谓的 AdaGaDA 人脸识别新方法。在 CAS-PEAL 和 FERET 两个大 型人脸图像库上的对比实验表明:AdaGaDA 方法不但可以有效降低 Gabor 特征维数, 而且识别精度也比传统方法有了较大提高。 4. 首次提出并系统研究了 AFR 中的“误配准灾难”问题,给出了 AFR 算法误配准鲁 棒性能的量化评价方法,提出了一种对误配准进行强化训练的 E-Fisherface 方法,同时 还分析了 AdaGaDA 等基于 Gabor 特征的 AFR 方法的误配准鲁棒性 本文首次系统研究了面部特征配准精度对人脸识别算法性能的影响问题,发现 Fisherface 的识别率会随着误配准的增大而急剧下降——本文称这一现象为“误配准灾 难”(COMA)问题。在分析产生原因的基础上,探讨了 COMA 问题的四类解决方案: 精确再配准方法、不变特征方法、误配准学习方法和误配准不变距离度量方法。为了量 化比较不同识别算法对误配准的鲁棒性,本文提出了一套识别算法误配准鲁棒性能量化 评估方法。针对 Fisherface 的“误配准灾难”问题,提出了一种对误配准进行强化训练 的 E-Fisherface 方法。还进一步考察了所提出的 AdaGaDA 等基于 Gabor 特征的 AFR 方 法对误配准的鲁棒性。这些方法在 FERET 和 CAS-PEAL 人脸图像数据库上的对比实验 表明:Gabor 特征比单纯的灰度特征具有更强的鲁棒性;对误配准进行强化训练的 E-Fisherface 方法可以大大提高识别系统的鲁棒性。 5. 初步探讨了 AFR 应用系统设计中的共性关键问题,实现了三种应用原型系统 核心识别算法的性能当然是实用人脸识别应用系统最终识别性能的决定性因素,但 系统设计是否合适同样在很大程度上影响着应用系统的成败,尤其在人脸识别技术尚未 完全成熟的今天,良好的系统设计可能起到事半功倍的效果,而拙劣的系统设计可能会 葬送最好的核心识别算法的前途。鉴于此,本文初步探讨了人脸识别应用系统设计中需 要考虑的一些共性关键问题,如现场环境设计、摄像设备选择与安装、注册原型图像的 挑选、核心算法选择标准、学习集选择、模型在线更新等。最后,基于本文提出的核心 技术和关键问题解决方案,给出了人脸照片比对系统、模拟的 XP 用户自动登录系统和 机场登机旅客身份验证系统三个典型 AFR 应用原型系统的设计方案。 本论文的上述研究内容不但在人脸识别理论层面具有一定的参考价值,更关键的是 本文的研究结果对于设计开发鲁棒、实用的 AFR 系统具有一定的借鉴意义,所提出的 若干关键技术已经获得了实际应用。 

视觉信息处理和学习组
  • 单位地址:北京海淀区中关村科学院南路6号
  • 邮编:100190
  • 联系电话:010-62600514
  • Email:yi.cheng@vipl.ict.ac.cn
  • Valse公众号

  • 深度学习大讲堂

版权所有 @ 中科院计算所视觉信息处理与学习组 京ICP备05002829号 京公网安备1101080060