Shikang Yu, Hu Han, Shiguang Shan, and Xilin Chen. CMOS-GAN: Semi-supervised Generative Adversarial Model for Cross-Modality Face Image Synthesis, IEEE Transactions on Image Processing, 2022.(accepted) [Code]
跨模态人脸图像合成(如从草图生成照片、从近红外生成可见光和从可见光生成深度等)在人脸识别、面部动画和影视娱乐等领域有着广泛的应用。现有的跨模态人脸图像合成方法往往依赖于配对图像进行全监督学习,然而实际应用中,配对的多模态图像规模通常有限,而非配对的单模态人脸图像大量存在。为此,我们提出了一种半监督跨模态人脸图像合成方法(CMOS-GAN),利用配对多模态图像和非配对单模态图像,实现更准确鲁棒的跨模态人脸图像合成。如图1所示,CMOS-GAN基于传统的编码器-解码器的生成器架构,设计了像素级损失、对抗性损失、分类损失和人脸特征损失;通过两步训练法实现对配对多模态图像和非配对单模态图像中有用信息的挖掘和利用。针对跨模态人脸图像合成的一种常见应用—实现跨模态人脸识别,我们还提出了改进的三元组损失,使得合成人脸图像能更好的保持原图像中的身份信息。我们在3种跨模态人脸合成任务(从草图生成照片、从近红外生成可见光和从可见光生成深度)的5个公开数据集(VIPL-MumoFace-3K, RealSenseII RGBD, BUAA Lock3DFace, CUFS和CUFSF)上对方法的有效性进行了验证,并与目前的主流(监督和半监督)跨模态合成方法进行了对比。
此外,我们还构建了一个大规模的多模态人脸数据集(VIPL-MumoFace-3K),它包含来自于3000余人的140多万组三模态(RGB-D-NIR)人脸图像对。该数据集的规模远超过目前领域最大的公开数据集,可以用于跨模态人脸合成与识别方法的研究。
图 1 本文所提出的半监督跨模态人脸合成方法(CMOS-GAN)框架图