T2V-DDPM使用去噪扩散概率模型的热红外到可见人脸转换

Xsens动作捕捉 2023-04-17 5166

T2V-DDPM使用去噪扩散概率模型的热红外到可见人脸转换  第1张

Accepted at The IEEE conference series on Automatic Face and Gesture Recognition 2023,扩散模型大火,看看扩散模型的人脸的转换效果怎么样

论文题目:

T2V-DDPM: Thermal to Visible Face Translation using Denoising Diffusion Probabilistic Models

论文地址:

https://arxiv.org/abs/2209.08814

摘要

现代监控系统使用基于深度学习的人脸验证网络进行人员识别,大多数最先进的面部识别系统都是使用可见光谱图像进行训练的,但是,在低光和夜间条件下获取可见光谱中的图像是不切实际的,图像通常是在其他域(如热红外域)中捕获的,热图像中的人脸验证通常是在检索相应的可见域图像后进行的,这是一个公认的问题,通常被称为热可见(T2V)图像转换,在本文中,我们提出了一种基于降噪扩散概率模型(DDPM)的T2V翻译解决方案,特别是针对面部图像,在训练过程中,模型通过扩散过程学习给定相应热图像的可见面部图像的条件分布,推理过程中,从高斯噪声出发,反复去噪,得到可见域图像,现有的ddpm推理过程具有随机性和耗时性,因此,我们提出了一种新的推理策略来加快ddpm的推理时间,特别是针对T2V图像翻译问题,我们在多个数据集上获得了最先进的结果。

1 介绍

许多监控系统包括传感器,以捕捉多个波长的图像,以适应昼夜设置,在弱光设置下,可见光谱相机捕获的图像由于捕获图像上添加的泊松噪声的增加而无法捕获场景中的视觉细节,因此,使用红外摄像机捕捉额外的热图像是相当突出的,这些监控系统捕获的图像通过面部识别算法进一步用于人员识别,这属于广泛的研究领域,称为异质人脸识别(HFR)。基于深度卷积神经网络(CNN)的算法已经在多个基准中产生了最先进的面部识别结果,几乎完美的精度。

虽然现有的人脸验证算法在白天工作得非常好,但在弱光设置下,这些算法的性能会急剧下降,这是由于热图像和可见图像之间存在很大的域差异,一种解决方案是仅使用热图像重新训练面部识别网络,但这是不切实际的,因为正常的基于cnn的面部识别网络通常需要大量的人脸图像才能获得。网络具有良好的性能,目前还没有大量公开可用的大尺度热图像来训练这种网络,因此,HFR问题是非常相关的,并具有多种实际意义。

最近兴起的条件生成模型提供了一种通过两步过程解决这个问题的替代方法,首先,将该问题简化为从热域到可见域的图像到图像的转换问题,在获得相应的可见图像后,可以直接对其应用人脸识别算法。多个作品利用GANs来解决这个问题,条件GANs尝试通过最小-最大方法学习从热域到可见域的转换,虽然经过足够的训练,基于gan的T2V翻译网络可以产生良好的效果,但GANs的训练是一个繁琐的过程,可能会导致模式崩溃等现象,此外,由于数据有限,无法保证GANs对准确T2V翻译的收敛性。

最近,去噪扩散概率模型(DDPMs)由于其生成高质量图像的能力而获得了极大的关注,像变分自动编码器一样,ddpm尝试学习数据分布的对数似然的变分下界,ddpm在图像生成任务上已经击败了GANs,针对图像超分辨率、彩色化、去模糊和去噪等低级视觉任务,提出了多种ddpm方法,这些方法在基于真实性度量(如Fréchet Inception Distance (FID))和结构相似性度量(如结构相似性指数(SSIM))所产生的输出质量方面表现得更好。此外,还有将DDPM学习条件分布的能力与最有效变换的最优输运理论联系起来的工作,尽管它在条件分布建模方面具有巨大的潜力,但目前还没有针对T2V人脸图像翻译问题发表的工作,在本文中,我们提出了一种利用ddpm进行T2V人脸翻译的解决方案,由于模型试图学习转换,因此训练模型需要很少的图像对来获得良好的结果,我们在图4中展示了这一点,其中我们可以清楚地看到基于ddpm的模型的性能,只需几个训练图像对。

T2V-DDPM使用去噪扩散概率模型的热红外到可见人脸转换  第2张

与传统cnn相比,ddpm的一个缺点是推理过程相当缓慢,因为底层的马尔可夫链需要通过单个神经网络进行多次向前传递,但是通过我们的实验,我们观察到DDPM推理过程的初始步骤旨在恢复高级图像细节,如结构和颜色,这些信息可以很容易地从相应的热图像中捕获;因此,我们不是从各向同性高斯噪声开始,而是从带噪声的热图像开始,因此跳过了一些步骤,加快了推断过程。

红外摄像机根据应用的不同,可以捕获红外光谱内不同波长的图像,两种常见的模式是近红外(NIR)和长波红外(LWIR),近红外和长波红外之间的选择取决于它是近程监视应用还是远程监视应用,近红外图像由接近可见光谱的图像组成;因此,这些图像的分辨率自然是高的,可以捕捉到面部图像中更精细的细节。LWIR图像通常用于远程监视应用,但这些图像通常以低分辨率拍摄,无法捕捉基本的面部细节,当我们比较HFR算法应用于这些图像时,可以清楚地看到这一点。近红外人脸数据集的准确率接近99%,而LWIR数据集的准确率明显较低,在本文中,我们主要关注LWIR数据集的HFR。

简而言之,本文做出了以下贡献

?我们提出了一个基于ddpm的HFR问题解决方案,我们主要研究了LWIR热图像到相应可见光图像的图像转换问题。

?我们介绍了一种新的ddpm推理策略,主要适用于T2V人脸翻译问题,通过这种方法,我们实现了高达(2倍)的推理速度,而没有任何性能下降。

?我们在真实世界的数据集上定性和定量地评估了我们的方法,并表明它在T2V人脸翻译问题上比现有方法表现得更好。

2提出的方法

A.去噪扩散概率模型

去噪扩散概率模型属于一类生成模型,其中模型通过马尔可夫过程学习数据的分布,ddpm由正向过程和反向过程组成,数据的联合分布用反向过程表示,正向过程是一个马尔可夫过程,其中下一个状态是通过从高斯分布中采样获得的

T2V-DDPM使用去噪扩散概率模型的热红外到可见人脸转换  第3张

其均值取决于系统的当前状态、预定义的方差表以及时间t,正向步骤的采样操作由

T2V-DDPM使用去噪扩散概率模型的热红外到可见人脸转换  第4张

其中{βt}是预定义的方差表,在实际场景中,t的取值通常在10?4 ~ 10?2之间,这也可以被认为是一种噪声操作,通过添加一个小的带有方差表{βt}的高斯噪声,从当前状态获得下一个状态,时间步t的状态也可以从初始状态x0计算出来,在给定x0的特定时间步t上的状态分布是

T2V-DDPM使用去噪扩散概率模型的热红外到可见人脸转换  第5张

由式2可以看出,对于较大的t,ˉαt变成零,因此它得到了一个标准的各向同性高斯分布,相反的过程表示生成步骤,其中我们从标准高斯开始,并通过t个时间步迭代地执行去噪,以生成与训练分布对应的图像,当时间步数较大,{βi}的增量较小时,反向分布也可以近似为高斯分布,反向过程中的每一步都是通过从一个分布中采样来完成的,该分布的参数是使用带参数θ的神经网络建模的,每一步的反向步骤定义为:

T2V-DDPM使用去噪扩散概率模型的热红外到可见人脸转换  第6张

参数θ通过最小化定义的数据分布的负对数似然的变分下界来获得

T2V-DDPM使用去噪扩散概率模型的热红外到可见人脸转换  第7张

进一步简化,

T2V-DDPM使用去噪扩散概率模型的热红外到可见人脸转换  第8张

最近的工作表明,反向步骤的方差表可以保持与正向过程相同,只需要使用神经网络学习均值,进一步利用当前时间步长的输入,可以对反向步长的均值进行重参数化

T2V-DDPM使用去噪扩散概率模型的热红外到可见人脸转换  第9张

使分布的均值相等,训练目标可以进一步简化为:

T2V-DDPM使用去噪扩散概率模型的热红外到可见人脸转换  第10张

一旦了解了数据分布,就可以从数据分布中推导出新的样本,从高斯随机样本开始,并遵循马尔可夫过程。

B. T2V生成的条件扩散模型

Saharia 等提出了一种使用DDPM的条件生成方法,其中图像是基于约束生成的,并且模型在给定条件y的情况下学习条件分布,学习条件分布而不是无条件分布使DDPM能够用于低级视觉问题,如图像恢复,为了使模型学习条件分布,我们在所有时间步长t用热图像y来约束神经网络,这里有效的训练目标定义为:

T2V-DDPM使用去噪扩散概率模型的热红外到可见人脸转换  第11张

一旦掌握了条件分布,该模型就可以用于推理,即,给定一幅热图像,我们可以从纯高斯噪声开始,从T步的马尔可夫链中采样,对相应的可见图像进行采样,转换pθ(xt?1|xt, y)的条件分布的对应均值为

T2V-DDPM使用去噪扩散概率模型的热红外到可见人脸转换  第12张

方差表与训练时相同。

C.加速条件扩散模型

从我们的实验中,我们得出了一个关键的观察结果,这构成了本节的基础

T2V-DDPM使用去噪扩散概率模型的热红外到可见人脸转换  第13张

从图3可以看出,生成的图像是如何随时间变化的,图像的低级语义在扩散过程中被学习得更深入,最初的步骤旨在学习粗糙的特征,如底层面部的形状和背景颜色,这意味着,如果我们有一张面部特征粗糙但缺乏更精细细节的图像,它可能被用来加快重建过程,在这种经验观察的激励下,我们通过以下过程生成了一个具有粗糙特征的图像,给定热图像y和可见光图像,x归一化范围为[0,1],我们将热图像二值化,通过以下操作生成掩码m

T2V-DDPM使用去噪扩散概率模型的热红外到可见人脸转换  第14张

由于几乎所有图像的背景颜色都是恒定的,我们从训练数据集中的随机图像中采样背景颜色,并形成图像大小的网格c,粗图像yc是根据

T2V-DDPM使用去噪扩散概率模型的热红外到可见人脸转换  第15张

使用yc,创建对应于时间Tr的yc的噪声版本ycTr,图3显示了从各向同性高斯噪声开始的yc、ycTr和xTr的可视化,从可视化中,可以注意到Tr = 50时的xTr和ycTr在语义上没有太大差异,此外,两幅图像的信噪比值几乎相同。

T2V-DDPM使用去噪扩散概率模型的热红外到可见人脸转换  第16张

算法1总结了该方法的训练过程,利用热图像及其对应的噪声可见图像训练T时间步长的DDPM模型,在推理过程中,我们从有噪声的粗图像开始,而不是从各向同性高斯噪声开始,从而减少了扩散过程的推理时间,推理过程在算法2中给出。

T2V-DDPM使用去噪扩散概率模型的热红外到可见人脸转换  第17张

3实验

在我们的实验中,我们重点研究了从尺寸为128 × 128的热图像到尺寸为128 × 128的可见图像的转换问题,我们实验的主要重点是提高重建图像的面部识别精度,但我们也会与不同的指标进行比较,到目前为止,还没有T2V面部翻译的标准化基线,因此,我们利用工作[16]中使用的数据集进行实验,我们在三个不同的数据集上进行了T2V面部翻译实验,关于各个数据集及其评估标准的更多细节将在本节中介绍。

VIS-TH数据集: VIS-TH数据集由对应于50个不同身份的面部图像组成,VIS-TH数据集中的图像通过长波红外(LWIR)模式的双传感器摄像机捕获并对齐,数据集中的面部图像由各种姿势组成。我们将随机选择的40个身份对应的所有图像作为训练集,其余图像作为测试集,VIS-TH是一个相当具有挑战性的数据集,因为它的身份数量较少,数据集的多样性。

ARL-VTF数据集: 与VIS-TH数据集一样,RLVTF数据集也包含以LWIR方式捕获的面部图像,数据集还提供了用于对准人脸的图像捕获设置,ARLVTF数据集中的可见图像严重过度曝光,因此,我们通过与VISTH数据集的曝光匹配来纠正这种过度曝光,我们为所有实验创建了原始ARL-VTF数据集的子集,并选择100个具有不同表达式的身份作为训练数据集,并选择40个身份对应的数据作为测试集,总共有3200对训练对和985对测试对。

评估指标:为了评估我们方法的有效性,我们使用了两种不同的方案,我们使用我们的方法来评估重建图像的人脸验证性能,并将我们的方法与现有方法进行比较,其Rank-1精度,验证率(VR) @错误接受率(FAR)=1%, VR@FAR=0.1%。所有人脸验证实验均使用预训练的ArcFace人脸识别系统进行。为了评估重建输出的质量,我们使用以下指标:学习感知图像斑块相似性(LPIPS), Deg (LightCNN特征之间的余弦距离),底层灰度图像的峰值信噪比(PSNR)和结构相似性指数(SSIM)。

训练设置:对于扩散模型,我们使用与改进扩散中使用的iamgeNet超分辨率模型相同的参数,我们使用imageNet预训练的权重初始化模型,该模型被训练为T = 1000时间步,在推理过程中,我们使用时间步长缩放,并将推理步骤的数量减少到100,Tr = 60。

比较方法:我们通过与不同的基于生成模型的图像到图像转换方法进行比较来评估我们的方法。使用Pixel2Pixel、Self-Attention GAN (SAGAN)、GANVFS、HIFaceGAN和AxialGAN进行比较。

A. VIS-TH数据集的结果

图4显示了VIS-TH数据集上四种不同姿势的定性结果,我们可以看到,除了HIFaceGAN之外,现有的所有方法都无法重建帽子和太阳镜等属性,而我们的方法,以及HIFaceGAN即使在这些遮挡下也能很好地工作。

T2V-DDPM使用去噪扩散概率模型的热红外到可见人脸转换  第18张

如果我们仔细观察图4的最后一行,我们可以看到,当正面姿势发生变化时,HiFaceGAN无法正确重建面部,但我们的方法即使在不同的属性和姿势下也能很好地工作,为了定量评估这些方法,我们使用前面提到的两个标准,量化结果如表II和表i所示,对于rank-1精度,我们可以看到我们获得了2%的改进。对于VR@FAR=0.1%和VR@FAR=1%,我们分别获得8.3%和6.3%的性能改进,对于图像质量指标,就感知相似度指标(LPIPS和Deg)而言,我们分别获得了0.0038和0.03的改进,我们的PSNR和SSIM值略低于AxialGAN,然而,请注意,PSNR通常并不代表重构图像中面部细节的数量,因为与清晰得多的图像相比,模糊的图像可能具有更高的PSNR。

T2V-DDPM使用去噪扩散概率模型的热红外到可见人脸转换  第19张

B. ARL-VTF数据集的结果

图5显示了ARL-VTF数据集上的定性结果,这个数据集包含更多的身份和更多的训练和测试图像。

T2V-DDPM使用去噪扩散概率模型的热红外到可见人脸转换  第20张

如图5所示,只有我们的方法才能正确地重建显著的底层面部特征,并且可以创建具有与热图像相对应的粗糙特征的真实特征,进一步的定量评价见表四和表三。

T2V-DDPM使用去噪扩散概率模型的热红外到可见人脸转换  第21张

C.消融研究:变化Tr时的性能变化:

为了注意改变Tr时的性能变化,我们以10为单位改变Tr,从Tr = 40,…, 100在VIS-TH数据集上,其中Tr = 100表示从纯高斯噪声开始,相应的结果如表v所示,可以看出,即使Tr = 40,人脸验证性能也没有太大变化,这清楚地验证了我们的主张和观察,即在扩散过程的初始步骤中,只有粗特征被学习,如果这可以正确地输入到扩散模型中,我们可以实现推理时间的大幅提高。

T2V-DDPM使用去噪扩散概率模型的热红外到可见人脸转换  第22张

4 结论

我们提出了一种利用ddpm进行V2T人脸翻译的解决方案,将其视为一个有条件的图像生成问题,我们发现,在概率分布建模方面,ddpm被证明是从给定热图像的可见图像的条件分布生成样本的理想解决方案,我们还引入了一种新的抽样策略来减少ddpm的推理时间,我们在多个数据集上的实验表明,对于T2V面部翻译问题,ddpm比GANs表现更好,据我们所知,这是第一个利用ddpm从热图像重建可见面部图像的工作。

The End