WO2023070695A1

WO2023070695A1 - 一种红外图像的转换训练方法、装置、设备及存储介质

Info

Publication number: WO2023070695A1
Application number: PCT/CN2021/128161
Authority: WO
Inventors: 陈凯; 王水根; 王建生; 王宏臣
Original assignee: 烟台艾睿光电科技有限公司
Priority date: 2021-10-26
Filing date: 2021-11-02
Publication date: 2023-05-04
Also published as: CN113850231A

Abstract

一种红外图像的转换训练方法、装置、设备及计算机可读存储介质，方法包括：获取第一图像域集和第二图像域集；基于帧间差一致性和对比学习，利用第一图像域集和第二图像域集对预设生成器和预设判别器的权重参数进行迭代训练，获取训练完成的预设生成器；根据训练完成的预设生成器，获取转换生成器。该方法引入对比学习的思想避免了现有循环一致性思想的严格的双向映射的方式，能够更好地适用存在时间跨度的红外图像转换，使得转换的白天真彩图像能够保留夜间红外图像的原始语义结构信息；基于帧间差一致性，采用帧间差分的思想约束输入与输出之间的帧间差异，能够有效防止生成真彩视频产生帧间闪烁问题。

Description

一种红外图像的转换训练方法、装置、设备及存储介质

本申请要求于2021年10月26日提交中国专利局、申请号为202111247706.4、发明名称为“一种红外图像的转换训练方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及图像处理技术领域，特别涉及一种红外图像的转换训练方法、装置、设备及计算机可读存储介质。

背景技术

红外成像技术由于其独特的热成像原理，能够在夜间或者各种极端环境下获得肉眼以及各种可见光探测器无法捕捉的图像。凭借此独特的优势，使其被广泛应用于夜间监控、火灾侦测、夜间辅助驾驶等众多领域。然而红外图像也有明显的缺点，其所成的灰度图像并不符合人眼的视觉感知神经；除此以外，相比可见光真彩图像，红外图像缺少了很多细节纹理信息，使得后端各种图像算法难以实现。

近年来，深度学习在各种图像处理任务中都取得了远超传统算法的效果，在红外彩色夜视领域也出现了基于深度神经网络的红外真彩转换算法，相比传统的融合技术，这些算法能够直接将红外图像转换为可见光的真彩图像，在技术上也有一定优越性。但是实现实现红外真彩转换的深度神经网络有着以下缺点：采用监督学习的算法需要严格配对配准的样本，对于红外彩色夜视这种跨时间转换任务，这种数据集几乎无法获取。而采用无监督学习的算法，基本都是基于循环一致性的思想；这类算法虽然无需严格的配对样本，但训练要求往往过于严格，红外图像与可见光图像之间的双向映射需要成对出现的生成器、判别器等模型，算力要求较高；循环一致性的思想在红外图像和可见光图像差异过大时，容易发生模式崩塌即训练失败，生成图像的效果并不稳定；并且现有的算法缺乏对于时间连续性的约束，当转换任务变为连续帧的视频转换任务时，会出现风格漂移或帧间闪烁的问题，使得生成视频的视觉效果极大降低。

因此，如何能够使训练得到一种红外图像的转换模型，在生成逼真的富有细节的可见光真彩图像的同时避免帧间闪烁问题的发生，提升用户体验，是现今急需解决的问题。

发明内容

本发明的目的是提供一种红外图像的转换训练方法、装置、设备及计算机可读存储介质，以使训练得到的红外图像的转换模型，能够在生成逼真的富有细节的可见光真彩图像的同时避免帧间闪烁问题的发生。

为解决上述技术问题，本发明提供一种红外图像的转换训练方法，包括：

获取第一图像域集和第二图像域集；其中，所述第一图像域集包括红外视频对应的红外图像，所述第二图像域集包括真彩视频对应的真彩图像，所述红外视频与所述真彩视频的场景相同；

基于帧间差一致性和对比学习，利用所述第一图像域集和所述第二图像域集对预设生成器和预设判别器的权重参数进行迭代训练，获取训练完成的预设生成器；其中，所述预设生成器用于将所述红外图像转换为转换真彩图像，所述预设判别器用于判别得到输入的真彩图像对应的真假结果；

根据训练完成的预设生成器，获取转换生成器，以利用所述转换生成器对实际红外视频进行图像转换，得到目标真彩视频。

可选的，所述基于帧间差一致性和对比学习，利用所述第一图像域集和所述第二图像域集对预设生成器和预设判别器的权重参数进行迭代训练，包括：

基于帧间差一致性思想，利用所述第一图像域集和所述第二图像域集对所述预设生成器和所述预设判别器的权重参数进行迭代训练，以使输入与输出所述预设生成器的对应连续帧图像的帧间差小于预设值；

基于语义结构的对比学习思想，利用所述第一图像域集和所述第二图像域集对所述预设生成器和所述预设判别器的权重参数进行迭代训练，以使输入与输出所述预设生成器的对应图像的语义信息保持一致。

可选的，所述对比学习思想具体基于语义结构损失函数实现，所述语义结构损失函数包括多层红外图像块对比损失函数和多层真彩图像块对比损失函数；

其中，所述多层红外图像块对比损失函数为

所述多层真彩图像块对比损失函数为

X为所述第一图像域集，Y为所述第二图像域集，l为所述预设生成器的编码器中的目标卷积层，L为所述编码器中的目标卷积层数量，s为每层所述目标卷积层中的目标位置，S _l为所述目标卷积层中的目标位置数量，z _l为通过所述编码器和预设多层感知器网络后生成的特征，

为所述红外图像或所述真彩图像与所述转换真彩图像相对应的所述目标位置上的特征，

为所述红外图像或所述真彩图像中的与所述转换真彩图像不对应的所述目标位置上的特征，

为所述红外图像或所述真彩图像中的与所述转换真彩图像相对应的所述目标位置上的特征。

可选的，所述帧间差一致性思想具体基于帧间差一致性损失函数实现，所述帧间差一致性损失函数为

其中，T为所述红外视频的总帧数，I _t为所述预设生成器的输入帧序列，

为所述预设生成器的输出帧序列，φ(x _t)＝f _m(x _t+1)-f _m(x _t)，x _t为第t+1帧和第t帧之间的差距，m为目标特征图层，f _m(x _t)为通过预设卷积神经网络的卷积层提取到的特征。

可选的，所述基于帧间差一致性和对比学习，利用所述第一图像域集和所述第二图像域集对预设生成器和预设判别器的权重参数进行迭代训练，还包括：

基于生成对抗思想，利用所述第一图像域集和所述第二图像域集对所述预设生成器和所述预设判别器的权重参数同时进行迭代训练，以使所述预设判别器输出的所述真彩图像对应的真假结果与所述转换真彩图像对应的真假结果的分数相等。

可选的，所述生成对抗思想具体基于生成对抗损失函数实现，所述生成对抗损失函数为

G(·)为所述预设生成器的输出，D(·)为所述预设判别器的输出，X为所述红外图像，Y为所述真彩图像，y _k为第k帧的真彩视频帧图像，x _i为第i帧的红外视频帧图像。

可选的，所述基于帧间差一致性和对比学习，利用所述第一图像域集和所述第二图像域集对预设生成器和预设判别器的权重参数进行迭代训练，获取训练完成的预设生成器，包括：

根据预设损失函数，利用所述第一图像域集和所述第二图像域集对所述预设生成器和所述预设判别器的权重参数进行迭代训练，获取训练完成的预设生成器；其中，所述预设损失函数为语义结构损失函数、帧间差一致性损失函数和生成对抗损失函数与各自对应的损失函数权重系数的乘积之和。

可选的，所述根据训练完成的预设生成器，获取转换生成器之后，还包括：

获取待转换图像集；其中，所述待转换图像集包括所述实际红外视频对应的待转换红外图像；

利用所述转换生成器对所述待转换红外图像进行图像转换，获取所述目标真彩视频。

可选的，所述获取第一图像域集和第二图像域集，包括：

获取训练视频数据；其中，所述训练视频数据包括所述红外视频和所述真彩视频；

对所述训练视频数据进行分帧，得到单帧图像；

将所述单帧图像进行转换，得到预设图像规格的目标单帧图像；

按照视频帧序，对预设数量的连续的所述目标单帧图像进行拼接，得到所述红外视频对应的红外图像和所述真彩视频对应的真彩图像。

本发明还提供了一种红外图像的转换训练装置，包括：

获取模块，用于获取第一图像域集和第二图像域集；其中，所述第一图像域集包括红外视频对应的红外图像，所述第二图像域集包括真彩视频对应的真彩图像，所述红外视频与所述真彩视频的场景相同；

训练模块，用于基于帧间差一致性和对比学习，利用所述第一图像域集和所述第二图像域集对预设生成器和预设判别器的权重参数进行迭代训练，获取训练完成的预设生成器；其中，所述预设生成器用于将所述红外图像转换为转换真彩图像，所述预设判别器用于判别得到输入的真彩图像对应的真假结果；

生成模块，用于根据训练完成的预设生成器，获取转换生成器，以利用所述转换生成器对实际红外视频进行图像转换，得到目标真彩视频。

本发明还提供了一种红外图像的转换训练设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述所述的红外图像的转换训练方法的步骤。

此外，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述的红外图像的转换训练方法的步骤。

本发明所提供的一种红外图像的转换训练方法，包括：获取第一图像域集和第二图像域集；其中，第一图像域集包括红外视频对应的红外图像，第二图像域集包括真彩视频对应的真彩图像，红外视频与真彩视频的场景相同；基于帧间差一致性和对比学习，利用第一图像域集和第二图像域集对预设生成器和预设判别器的权重参数进行迭代训练，获取训练完成的预设生成器；其中，预设生成器用于将红外图像转换为转换真彩图像，预设判别器用于判别得到输入的真彩图像对应的真假结果根据训练完成的预设生成器，获取转换生成器，以利用转换生成器对实际红外视频进行图像转换，得到目标真彩视频；

可见，本发明中通过基于帧间差一致性和对比学习，利用第一图像域集和第二图像域集对预设生成器和预设判别器的权重参数进行迭代训练，获取训练完成的预设生成器，引入对比学习的思想避免了现有循环一致性思想的严格的双向映射的方式，能够更好地适用存在时间跨度的红外图像转换，并且使得转换的白天真彩图像能够保留夜间红外图像的原始语义结构信息，实现逼真的富有细节的白天真彩图像的转换生成；基于帧间差一致性，采用帧间差分的思想约束输入与输出之间的帧间差异，能够有效防止生成真彩视频产生帧间闪烁问题。此外，本发明还提供了一种红外图像的转换训练装置、设备及计算机可读存储介质，同样具有上述有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例所提供的一种红外图像的转换训练方法的流程图；

图2为本发明实施例所提供的一种红外图像的转换训练方法的残差模块的结构示意图；

图3为本发明实施例所提供的一种红外图像的转换训练方法的马尔可夫判别器的结构示意图；

图4为本发明实施例所提供的一种红外图像的转换训练方法的基于对比学习的语义结构损失函数的结构示意图；

图5为本发明实施例所提供的一种红外图像的转换训练装置的结构框图；

图6为本发明实施例所提供的一种红外图像的转换训练设备的结构示意图；

图7为本实施例提供的一种红外图像的转换训练设备的具体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明实施例所提供的一种红外图像的转换训练方法的流程图。该方法可以包括：

步骤101：获取第一图像域集和第二图像域集；其中，第一图像域集包括红外视频对应的红外图像，第二图像域集包括真彩视频对应的真彩图像，红外视频与真彩视频的场景相同。

可以理解的是，本步骤中的第一图像域集可以为红外视频(如夜间红外视频)对应的红外图像的集合，本步骤中的第二图像域集可以为与红外视频相同场景的真彩视频(如白天真彩视频)对应的真彩图像的集合。

具体的，对于本步骤中处理器获取第一图像域集和第二图像域集的具体方式，可以由设计人员根据实用场景和用户需求自行设置，如处理器可以直接接收第一图像域集和第二图像域集。处理器也可以对接收的红外视频和真彩视频进行预处理，构建生成第一图像域集和第二图像域集；例如可以采用车载双目摄像头设备，分别在白天和黑夜两个时间段，采集相同场景下的双光视频数据，即白天的红外视频与可见光真彩视频以及夜间的红外视频与可见光真彩视频，从而使处理器可以对接收的夜间的红外视频和白天的可见光真彩视频进行预处理，构建生成第一图像域集和第二图像域集，并且双目摄像头在硬件部分可以进行配准和同步处理，保证夜间的红外视频与白天的可见光真彩视频的帧率和场景是相同的。

对应的，对于上述处理器对接收的红外视频和真彩视频进行预处理，构建生成第一图像域集和第二图像域集的具体方式，可以由设计人员自行设置，如处理器获取训练视频数据；对训练视频数据进行分帧，得到单帧图像；将单帧图像进行转换，得到预设图像规格的目标单帧图像；按照视频帧序，对预设数量的连续的目标单帧图像进行拼接，得到红外视频对应的红外图像和真彩视频对应的真彩图像；其中，训练视频数据包括红外视频和真彩视频。例如，处理器可以对接收的夜间红外视频和白天真彩视频进行分帧、转换(resize)和拼接(merge)这三个预处理操作，通过分帧操作将夜间红外视频和白天真彩视频分别转化为多个连续的单帧图像；通过转换操作将单帧图像统一转化为预设图像规格(如256*256)的目标单帧图像；通过拼接操作将连续预设数量(n)的目标单帧图像进行拼接，形成连续n帧为一张图像(即红外图像或真彩图像)的集合，如将连续n帧的目标单帧图像在宽度或长度方向上进行拼接，形成连续n帧为一张图像的集合。也就是说，无论是红外视频(如夜间红外视频)对应的第一图像域集，还是真彩视频(如白天真彩视频)对应的第二图像域集，其集合(即样本集)中的每一张图像都可以由n张连续的原始帧序列图像(即单帧图像)对应的目标单帧图像拼接而成的，其中n可以为2到5之间的正整数。处理器可以仅对接收的夜间红外视频和白天真彩视频进行分帧和拼接这两个预处理操作或者分帧和转换这两个预处理操作，本实施例对此不做任何限制。

步骤102：基于帧间差一致性和对比学习，利用第一图像域集和第二图像域集对预设生成器和预设判别器的权重参数进行迭代训练，获取训练完成的预设生成器；其中，预设生成器用于将红外图像转换为转换真彩图像，预设判别器用于判别得到输入的真彩图像对应的真假结果。

可以理解的是，本实施例中提供了一种基于对比学习和帧间差分损失的红外真彩夜视算法：I2V-NET(Infrared to visible Network，红外到可见光网络)，既能获得比现有循环一致性算法更细节的局部风格特征，还可以有效避免出现帧间闪烁的问题。I2V-NET的整体训练结构简单，可以包括一个生成器(即预设生成器)和一个判别器(即预设判别器)，无需其他繁杂的辅助结构，训练快且效果好。

具体的，本实施例中预设生成器可以将红外视频对应的红外图像转换为相应的真彩图像(即转换真彩图像)；预设判别器可以判别得到输入的真彩图像对应的真假结果，即判断输入的真彩图像是来自第二图像域集的真彩图像(即真实真彩图像)，还是来自预设生成器生成的转换真彩图像(即转换真彩图像)。对于本实施例中的预设生成器和预设判别器的具体结构，可以由设计人员根据实用场景和用户需求自行设置，预设生成器可以包括编码器(Encoder)、转换器和解码器；其中，编码器可以包括三组“Conv+instance norm+relu”，用于将输入的帧序列图像下采样为设定通道数的特征图，Conv可以为卷积层，instance norm可以为归一化层，relu可以为非线性激活层；转换器由预设模块数量(m)个残差模块(Resnet_block)构成，如图2所示，其作用是将编码器下采样后得到的特征图进行特征重组和转换；解码器通过反卷积操作还原图像尺寸，最后得到生成图像(即转换真彩图像)。预设判别器可以采用如图3所示的马尔可夫判别器(PatchGAN)，可以完全由卷积层构成，最后输出的是一个k*k的矩阵，最后取输出矩阵的各真或假(real or fake)的输出的均值作为真假结果的输出；输出矩阵中的每一个输出，代表着输入图像(如转换真彩图像或真彩图像)中一个感受野，对应了输入图像的一片(patch)。

需要说明的是，本步骤中基于帧间差一致性和对比学习，对I2V-NET的预设生成器和预设判别器的权重参数进行迭代训练的过程，可以在若干次迭代后，训练得到合适的预设生成器和预设判别器的权重参数(如深度神经网络权重)，从而利用训练得到的预设生成器，获取对实际红外视频进行图像转换的生成器(即转换生成器)。

对应的，对于本步骤中基于帧间差一致性和对比学习，利用第一图像域集和第二图像域集对预设生成器和预设判别器的权重参数进行迭代训练的具体方式，可以由设计人员根据实用场景和用户需求自行设置，如本步骤中处理器可以基于帧间差一致性思想，利用第一图像域集和第二图像域集对预设生成器和预设判别器的权重参数进行迭代训练，以使输入与输出预设生成器的对应连续帧图像的帧间差小于预设值；可以基于语义结构的对比学习思想，利用第一图像域集和第二图像域集对预设生成器和预设判别器的权重参数进行迭代训练，以使输入与输出预设生成器的对应图像的语义信息保持一致；例如处理器可以利用基于帧间差一致性思想和基于语义结构的对比学习思想的预设损失函数，利用第一图像域集和第二图像域集对预设生成器和预设判别器的权重参数进行迭代训练，获取训练完成的预设生成器；其中，预设损失函数可以包括基于对比学习的语义结构损失函数，用于调整预设生成器生成的图像的语义结构信息，以基于对比学习的思想训练预设生成器生成的转换真彩图像要保留红外图像的原始语义结构信息，使输入与输出预设生成器的对应图像的语义信息保持一致，即基于语义结构的对比学习思想具体可以基于语义结构损失函数实现；预设损失函数也可以包括帧间差一致性损失函数，用于调整预设生成器生成的连续帧图像与输入的连续帧图像的帧间差，使输入与输出预设生成器的对应连续帧图像的帧间差小于预设值，以利用帧间差一致性损失(temporal loss)函数，在保证预设生成器能够正确完成生成任务的前提下，令其生成的连续帧的真彩图像与原始输入视频的帧间变换具有一致性，也就是具有相同的时间相干性，改善生成视频帧序列出现帧间闪烁的问题，即帧间差一致性思想具体可以基于帧间差一致性损失函数实现。处理器也可以利用基于帧间差一致性思想和基于语义结构的对比学习思想的预设网络模型，利用第一图像域集和第二图像域集对预设生成器和预设判别器的权重参数进行迭代训练，获取训练完成的预设生成器，本实施例对此不做任何限制。

相应的，本步骤中还可以基于生成对抗思想，利用第一图像域集和第二图像域集对预设生成器和预设判别器的权重参数同时进行迭代训练，以使预设判别器输出的真彩图像对应的真假结果与转换真彩图像对应的真假结果的分数相等(如均为0.5)，从而使得预设判别器拥有足够强的辨别真假的能力，且预设生成器生成的转换真彩图像更像实际的真彩图像。例如上述预设损失函数还可以包括生成对抗损失函数，用于调整预设判别器对真彩图像和转换转换真彩图像的输出和调整预设生成器的输出，从而使得预设判别器拥有足够强的辨别真假的能力，且预设生成器生成的转换真彩图像更像实际的真彩图像，即生成对抗思想具体可以基于生成对抗损失函数实现；也就是说，本步骤中可以根据帧间差一致性损失函数、语义结构损失函数和生成对抗损失函数，利用第一图像域集和第二图像域集对预设生成器和预设判别器的权重参数进行迭代训练，获取训练完成的预设生成器。

具体的，对于上述生成对抗损失函数，由于I2V-NET的预设生成器(G)与预设判别器(D)同时训练，二者的训练过程是一个二元博弈的过程。训练预设判别器的目的是为了让其拥有足够强的辨别真假的能力，即当预设生成器的生成结果fake_B经过预设判别器时，预设判别器能够给出低得分，第二图像域集中原始的真彩图像real_B经过预设判别器后给出高得分；然而在训练预设生成器时恰恰相反，预设生成器的训练目标为，当把预设生成器的生成图像fake_B经过预设判别器时能够得到高得分，即fake_B更符合real_B的分布规律，可以在风格上达到了以假乱真的程度，在外观上“更像”第二图像域集中的真彩图像(即目标域真彩图像)。这样二者在训练时形成了极大极小值的博弈，损失函数即可以为生成对抗损失(GAN_loss)函数：

其中，

可以为生成对抗损失函数，G(·)可以为预设生成器的输出，D(·)可以为预设判别器的输出，X可以为第一图像域集中的红外图像(即源域样本图像)，Y可以为第二图像域集中的真彩图像(即目标域样本图像)，y _k可以为第k帧的真彩视频帧图像，x _i可以为第i帧的红外视频帧图像。

相应的，对于上述基于对比学习的语义结构损失函数，传统的基于CycleGAN(一种循环生成对抗网络)的方法是通过循环一致性来构成的双向映射的思想保持生成器的输入和输出语义结构的一致性，这会导致训练时需要同时训练两个生成器和两个判别器，非常消耗算力，而且这种严格的基于原图像的双向映射很容易训练失败，而且生成的图像缺乏细节信息。本实施例中的I2V-NET只需要一个预设生成器和一个预设判别器，通过对比输入和输出的图像块(patch)寻找对应的互信息，通过互信息最大化来得到具有较强的内容对应关系的输出。互信息最大化的方法可以为对比学习的思想，通过将查询的信号v、正信号v ⁺和N个负信号v ^-映射为K维的向量，其中

为K维实数，

为N×K维实数，为了防止模式崩塌，将这些向量正则化到单位球上，这样就建立起了一个N+1的分类问题，最后通过计算交叉熵损失，表示正样本被选择的概率，损失函数即可以为信息网损失(infoNCE Loss)函数：

其中，τ为预设缩放因子。

本实施例中可以采用多层和成对的对比学习方法，在无监督学习条件下能够同时在图像(image)和图像块(patch)约束生成图像的语义信息与输入图像保持一致，所以预设生成器生成的图像除了整张图像具有内容上的共同特征，输入和输出每个对应的patch也具有这样的对应关系，如图4所示，生成的白天真彩图像中一个汽车的patch，则其在转换前的夜间红外图像也应该包含对应的汽车的patch，而不是来自树木或者其他背景部分的patch。本实施例中I2V-NET中的预设生成器的编码器部分可以为G _enc，通过重用G _enc并在其之后加入预设多层感知器(MLP)网络H _l(如图4中MLP网络)，对预设生成器的输入和输出的特征进行堆栈；如将真实的夜间红外图像real_A和生成的相应的真彩图像fake_B的patch分别送入G _enc和H _l，生成一系列特征

然后可以利用相应的图像块网损失(PatchNCE loss)函数比较图像块之间的差异，从而将输入输出对应位置的图像块进行匹配。以输入第一图像域集中的红外图像(即源域样本图像)为例，语义结构损失函数可以包括多层红外图像块对比损失函数L _PatchNCE(G,H,X)：

其中，l可以为预设生成器的编码器中的目标卷积层，如编码器中所关注的任意一层卷积层、多层卷积层或全部卷积层，关注的层数越多，效果可以越好；L可以为预设生成器的编码器中的目标卷积层数量，即编码器中所关注卷积层的数量；X可以为第一图像域集；s可以为每层目标卷积层中的目标位置，即每层卷积中关注的位置；S _l可以为目标卷积层中的目标位置数量，即目标卷积层中关注的位置的数量；z _l为通过编码器和预设多层感知器网络后生成的特征，

为输入图像(如红外图像)与转换真彩图像相对应的目标位置上的特征，

为输入图像中的与转换真彩图像不对应的目标位置上的特征，

可以为输入图像中的与转换真彩图像相对应的目标位置上的特征，x～X可以表示x服从第一图像域集X的概率分布。

为了防止预设生成器进行不必要的更改，还可以对第二图像域集中的真彩图像(即目标域样本图像)使用相应的图像块网损失函数，即语义结构损失函数可以包括多层真彩图像块对比损失函数L _PatchNCE(G,H,Y)：

其中，Y可以为第二图像域集，

为输入图像(如真彩图像)与转换真彩图像相对应的目标位置上的特征，

为输入图像与转换真彩图像不对应的目标位置上的特征，

可以为输入图像中的与转换真彩图像相对应的目标位置上的特征，y～Y可以表示y服从第二图像域集Y的概率分布。

具体的，对于上述帧间差一致性损失函数，目前现有的算法通过训练一个新的辅助结构来稳定生成帧序列，从而减轻生成视频的帧间闪烁问题，例如采用双通道的生成器等，还有的通过计算光流损失来获得稳定的视频效果；但这些算法都需要很大的计算量，实用起来并不方便。本实施例中可以无需训练多余的辅助结构，在算法上更具有实用性和优越性；由于原始的红外视频(或内容视频)是时间相干的，而且这种相干特性经过编码后成为了帧间差，因此可以通过要求转换后的视频即生成的真彩视频在模型中具有相似的帧间差，就可以获得和输入具有近似稳定的视频。如I2V-NET中可以通过帧间差一致性损失函数L _temp改善生成视频帧序列出现帧间闪烁的问题，帧间差一致性损失函数的公式可以为：

其中，T可以为红外视频的总帧数，I _t可以为预设生成器的输入帧序列，

可以为预设生成器的输出帧序列，φ(x _t)＝f _m(x _t+1)-f _m(x _t)，x _t可以为第t+1帧和第t帧之间的差距，m可以为目标特征图层；f _m(x _t)可以为通过预设卷积神经网络的卷积层提取到的特征，如通过提取预训练的vgg16(一种卷积神经网络，即预设卷积神经网络)各卷积层输出获得特征。

也就是说，本步骤中的预设损失函数(即I2V-NET的总损失函数)可以为各损失函数与各自对应的损失函数权重系数的乘积之和，如预设损失函数包括上述语义结构损失函数、帧间差一致性损失函数和生成对抗损失函数时，预设损失函数可以为语义结构损失函数、帧间差一致性损失函数和生成对抗损失函数与各自对应的损失函数权重系数的乘积之和；例如预设损失函数：L(G,H,D,X,Y)＝L _gan(G,D,X,Y)+λ _XL _PatchNCE(G,H,X)+λ _YL _PatchNCE(G,H,Y)+λ _TL _temp，其中，λ _X、λ _Y和λ _T可以分别为预设的各自对应的损失函数的权重系数。

可以理解的是，对于本步骤中处理器根据预设损失函数，利用第一图像域集和第二图像域集对预设生成器和预设判别器的权重参数进行迭代训练，获取训练完成的预设生成器的具体过程，可以由设计人员自行设置，如处理器可以构建预设生成器和预设判别器；利用预设生成器对红外图像进行图像转换，获取转换真彩图像；利用预设判别器基于真彩图像对转换真彩图像进行判别，获取转换真彩图像对应的真假结果；判断是否达到预设迭代次数；若是，则确定预设生成器训练完成，并执行步骤103的步骤；若否，则可以利用预设损失函数调整预设生成器和预设判别器的权重参数，并在调整完成后，执行利用预设生成器对红外图像进行图像转换，获取转换真彩图像的步骤，继续进行迭代训练；例如，本实施例中I2V-NET的预设生成器和预设判别器的权重参数可以利用pytorch 1.7.0(一种开源的Python机器学习库软件)深度学习框架，采用xavier(一种参数初始化方法)随机参数初始化，利用adam(一种优化器)优化器进行训练，初始学习率为0.0002。

步骤103：根据训练完成的预设生成器，获取转换生成器，以利用转换生成器对实际红外视频进行图像转换，得到目标真彩视频。

可以理解的是，本步骤中处理器可以利用训练完成的预设生成器，得到对实际需要转换的夜间红外视频(即实际红外视频)进行真彩转换的生成器模型(即转换生成器)。

具体的，对于本步骤中根据训练完成的预设生成器，获取转换生成器的具体方式，可以由设计人员自行设置，如处理器可以将训练完成的预设生成器的权重参数加载到新构建的生成器模型中，将加载完成的生成器模型确定为转换生成器；处理器也可以直接将训练完成的预设生成器确定为转换生成器，本实施例对此不做任何限制。

对应的，本实施所提供的方法还可以包括利用转换生成器对实际红外视频进行图像转换的过程，如处理器可以获取待转换图像集；利用转换生成器对待转换红外图像进行图像转换，获取目标真彩视频；其中，待转换图像集包括实际红外视频对应的待转换红外图像。例如处理器可以实时读取夜间红外视频帧序列，送入已经加载好的转换生成器中，即可生成连续稳定的白天真彩视频，实现白天红外真彩转换任务。

需要说明的是，本实施所提供的方法还可以包括转换生成器或训练完成的预设生成器的测试过程，如处理器可以获取测试图像集；利用转换生成器对测试图像集中的测试红外图像进行图像转换，获取测试转换真彩视频；对比展示测试转换真彩视频的帧序列与测试真彩视频的序列；其中，测试图像集可以包括测试红外视频(如夜间红外视频)对应的测试红外图像，测试真彩视频可以为与测试红外视频相同场景的真彩视频(如夜间真彩视频)。

本实施例中，本发明实施例基于帧间差一致性和对比学习，利用第一图像域集和第二图像域集对预设生成器和预设判别器的权重参数进行迭代训练，获取训练完成的预设生成器，引入对比学习的思想避免了现有循环一致性思想的严格的双向映射的方式，能够更好地适用存在时间跨度的红外图像转换，并且使得转换的白天真彩图像能够保留夜间红外图像的原始语义结构信息，实现逼真的富有细节的白天真彩图像的转换生成；基于帧间差一致性，采用帧间差分的思想约束输入与输出之间的帧间差异，能够有效防止生成真彩视频产生帧间闪烁问题。

相应于上面的方法实施例，本发明实施例还提供了一种红外图像的转换训练装置，下文描述的一种红外图像的转换训练装置与上文描述的一种红外图像的转换训练方法可相互对应参照。

请参考图5，图5为本发明实施例所提供的一种红外图像的转换训练装置的结构框图。该装置可以包括：

获取模块10，用于获取第一图像域集和第二图像域集；其中，第一图像域集包括红外视频对应的红外图像，第二图像域集包括真彩视频对应的真彩图像，红外视频与真彩视频的场景相同；

训练模块20，用于基于帧间差一致性和对比学习，利用第一图像域集和第二图像域集对预设生成器和预设判别器的权重参数进行迭代训练，获取训练完成的预设生成器；其中，预设生成器用于将红外图像转换为转换真彩图像，预设判别器用于判别得到输入的真彩图像对应的真假结果；

生成模块30，用于根据训练完成的预设生成器，获取转换生成器，以利用转换生成器对实际红外视频进行图像转换，得到目标真彩视频。

可选的，训练模块20可以包括：

帧间差一致性训练子模块，用于基于帧间差一致性思想，利用第一图像域集和第二图像域集对预设生成器和预设判别器的权重参数进行迭代训练，以使输入与输出预设生成器的对应连续帧图像的帧间差小于预设值；

对比学习训练子模块，用于基于语义结构的对比学习思想，利用第一图像域集和第二图像域集对预设生成器和预设判别器的权重参数进行迭代训练，以使输入与输出预设生成器的对应图像的语义信息保持一致。

可选的，对比学习思想具体基于语义结构损失函数实现，语义结构损失函数包括多层红外图像块对比损失函数和多层真彩图像块对比损失函数；

其中，多层红外图像块对比损失函数为

多层真彩图像块对比损失函数为

X为第一图像域集，Y为第二图像域集，l为预设生成器的编码器中的目标卷积层，L为编码器中的目标卷积层数量，s为每层目标卷积层中的目标位置，S _l为目标卷积层中的目标位置数量，z _l为通过编码器和预设多层感知器网络后生成的特征，

为红外图像或真彩图像与转换真彩图像相对应的目标位置上的特征，

为红外图像或真彩图像中的与转换真彩图像不对应的目标位置上的特征，

为红外图像或真彩图像中的与转换真彩图像相对应的目标位置上的特征。

可选的，帧间差一致性思想具体基于帧间差一致性损失函数实现，帧间差一致性损失函数为

其中，T为红外视频的总帧数，I _t为预设生成器的输入帧序列，

为预设生成器的输出帧序列，φ(x _t)＝f _m(x _t+1)-f _m(x _t)，x _t为第t+1帧和第t帧之间的差距，m为目标特征图层，f _m(x _t)为通过预设卷积神经网络的卷积层提取到的特征。

可选的，训练模块20还可以包括：

生成对抗训练子模块，用于基于生成对抗思想，利用第一图像域集和第二图像域集对预设生成器和预设判别器的权重参数同时进行迭代训练，以使预设判别器输出的真彩图像对应的真假结果与转换真彩图像对应的真假结果的分数相等。

可选的，生成对抗思想具体基于生成对抗损失函数实现，生成对抗损失函数为

G(·)为预设生成器的输出，D(·)为预设判别器的输出，X为红外图像，Y为真彩图像，y _k为第k帧的真彩视频帧图像，x _i为第i帧的红外视频帧图像。

可选的，训练模块20可以具体用于根据预设损失函数，利用第一图像域集和第二图像域集对预设生成器和预设判别器的权重参数进行迭代训练，获取训练完成的预设生成器；其中，预设损失函数为语义结构损失函数、帧间差一致性损失函数和生成对抗损失函数与各自对应的损失函数权重系数的乘积之和。

可选的，该装置还可以包括：

转换获取模块，用于获取待转换图像集；其中，待转换图像集包括实际红外视频对应的待转换红外图像；

转换生成模块，用于利用转换生成器对待转换红外图像进行图像转换，获取目标真彩视频。

可选的，获取模块10可以包括：

视频获取子模块，用于获取训练视频数据；其中，训练视频数据包括红外视频和真彩视频；

分帧子模块，用于对训练视频数据进行分帧，得到单帧图像；

转换子模块，用于将单帧图像进行转换，得到预设图像规格的目标单帧图像；

拼接子模块，用于按照视频帧序，对预设数量的连续的目标单帧图像进行拼接，得到红外视频对应的红外图像和真彩视频对应的真彩图像。

本实施例中，本发明实施例通过训练模块20基于帧间差一致性和对比学习，利用第一图像域集和第二图像域集对预设生成器和预设判别器的权重参数进行迭代训练，获取训练完成的预设生成器，引入对比学习的思想避免了现有循环一致性思想的严格的双向映射的方式，能够更好地适用存在时间跨度的红外图像转换，并且使得转换的白天真彩图像能够保留夜间红外图像的原始语义结构信息，实现逼真的富有细节的白天真彩图像的转换生成；基于帧间差一致性，采用帧间差分的思想约束输入与输出之间的帧间差异，能够有效防止生成真彩视频产生帧间闪烁问题。

相应于上面的方法实施例，本发明实施例还提供了一种红外图像的转换训练设备，下文描述的一种红外图像的转换训练设备与上文描述的一种红外图像的转换训练方法可相互对应参照。

请参考图6，图6为本发明实施例所提供的一种红外图像的转换训练设备的结构示意图。该转换训练设备可以包括：

存储器D1，用于存储计算机程序；

处理器D2，用于执行计算机程序时实现上述方法实施例所提供的红外图像的转换训练方法的步骤。

具体的，请参考图7，图7为本实施例提供的一种红外图像的转换训练设备的具体结构示意图，该转换训练设备310可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)322(例如，一个或一个以上处理器)和存储器332，一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对电子设备中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储介质330通信，在转换训练设备310上执行存储介质330中的一系列指令操作。

转换训练设备310还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341。例如，Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等。

上文所描述的红外图像的转换训练方法中的步骤可以由红外图像的转换训练设备的结构实现。

相应于上面的方法实施例，本发明实施例还提供了一种计算机可读存储介质，下文描述的一种计算机可读存储介质与上文描述的一种红外图像的转换训练方法可相互对应参照。

一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例所提供的红外图像的转换训练方法的步骤。

该计算机可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、设备及计算机可读存储介质而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

以上对本发明所提供的一种红外图像的转换训练方法、装置、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

一种红外图像的转换训练方法，其特征在于，包括：

获取第一图像域集和第二图像域集；其中，所述第一图像域集包括红外视频对应的红外图像，所述第二图像域集包括真彩视频对应的真彩图像，所述红外视频与所述真彩视频的场景相同；

基于帧间差一致性和对比学习，利用所述第一图像域集和所述第二图像域集对预设生成器和预设判别器的权重参数进行迭代训练，获取训练完成的预设生成器；其中，所述预设生成器用于将所述红外图像转换为转换真彩图像，所述预设判别器用于判别得到输入的真彩图像对应的真假结果；

根据训练完成的预设生成器，获取转换生成器，以利用所述转换生成器对实际红外视频进行图像转换，得到目标真彩视频。
根据权利要求1所述的红外图像的转换训练方法，其特征在于，所述基于帧间差一致性和对比学习，利用所述第一图像域集和所述第二图像域集对预设生成器和预设判别器的权重参数进行迭代训练，包括：

基于帧间差一致性思想，利用所述第一图像域集和所述第二图像域集对所述预设生成器和所述预设判别器的权重参数进行迭代训练，以使输入与输出所述预设生成器的对应连续帧图像的帧间差小于预设值；

基于语义结构的对比学习思想，利用所述第一图像域集和所述第二图像域集对所述预设生成器和所述预设判别器的权重参数进行迭代训练，以使输入与输出所述预设生成器的对应图像的语义信息保持一致。
根据权利要求2所述的红外图像的转换训练方法，其特征在于，所述对比学习思想具体基于语义结构损失函数实现，所述语义结构损失函数包括多层红外图像块对比损失函数和多层真彩图像块对比损失函数：

其中，所述多层红外图像块对比损失函数为
所述多层真彩图像块对比损失函数为
X为所述第一图像域集，Y为所述第二图像域集，l为所述预设生成器的编码器中的目标卷积层，L为所述编码器中的目标卷积层数量，s为每层所述目标卷积层中的目标位置，S _l为所述目标卷积层中的目标位置数量，z _l为通过所述编码器和预设多层感知器网络后生成的特征，
为所述红外图像或所述真彩图像与所述转换真彩图像相对应的所述目标位置上的特征，
为所述红外图像或所述真彩图像中的与所述转换真彩图像不对应的所述目标位置上的特征，
为所述红外图像或所述真彩图像中的与所述转换真彩图像相对应的所述目标位置上的特征。
根据权利要求2所述的红外图像的转换训练方法，其特征在于，所述帧间差一致性思想具体基于帧间差一致性损失函数实现，所述帧间差一致性损失函数为

其中，T为所述红外视频的总帧数，I _t为所述预设生成器的输入帧序列，
为所述预设生成器的输出帧序列，φ(x _t)＝f _m(x _t+1)-f _m(x _t)，x _t为第t+1帧和第t帧之间的差距，m为目标特征图层，f _m(x _t)为通过预设卷积神经网络的卷积层提取到的特征。
根据权利要求1所述的红外图像的转换训练方法，其特征在于，所述基于帧间差一致性和对比学习，利用所述第一图像域集和所述第二图像域集对预设生成器和预设判别器的权重参数进行迭代训练，还包括：

基于生成对抗思想，利用所述第一图像域集和所述第二图像域集对所述预设生成器和所述预设判别器的权重参数同时进行迭代训练，以使所述预设判别器输出的所述真彩图像对应的真假结果与所述转换真彩图像对应的真假结果的分数相等。
根据权利要求5所述的红外图像的转换训练方法，其特征在于，所述生成对抗思想具体基于生成对抗损失函数实现，所述生成对抗损失函数为
G(·)为所述预设生成器的输出，D(·)为所述预设判别器的输出，X为所述红外图像，Y为所述真彩图像，y _k为第k帧的真彩视频帧图像，x _i为第i帧的红外视频帧图像。
根据权利要求5所述的红外图像的转换训练方法，其特征在于，所述基于帧间差一致性和对比学习，利用所述第一图像域集和所述第二图像域集对预设生成器和预设判别器的权重参数进行迭代训练，获取训练完成的预设生成器，包括：

根据预设损失函数，利用所述第一图像域集和所述第二图像域集对所述预设生成器和所述预设判别器的权重参数进行迭代训练，获取训练完成的预设生成器；其中，所述预设损失函数为语义结构损失函数、帧间差一致性损失函数和生成对抗损失函数与各自对应的损失函数权重系数的乘积之和。
根据权利要求1所述的红外图像的转换训练方法，其特征在于，所述根据训练完成的预设生成器，获取转换生成器之后，还包括：

获取待转换图像集；其中，所述待转换图像集包括所述实际红外视频对应的待转换红外图像；

利用所述转换生成器对所述待转换红外图像进行图像转换，获取所述目标真彩视频。
根据权利要求1至8任一项所述的红外图像的转换训练方法，其特征在于，所述获取第一图像域集和第二图像域集，包括：

获取训练视频数据；其中，所述训练视频数据包括所述红外视频和所述真彩视频；

对所述训练视频数据进行分帧，得到单帧图像；

将所述单帧图像进行转换，得到预设图像规格的目标单帧图像；

按照视频帧序，对预设数量的连续的所述目标单帧图像进行拼接，得到所述红外视频对应的红外图像和所述真彩视频对应的真彩图像。
一种红外图像的转换训练装置，其特征在于，包括：

获取模块，用于获取第一图像域集和第二图像域集；其中，所述第一图像域集包括红外视频对应的红外图像，所述第二图像域集包括真彩视频对应的真彩图像，所述红外视频与所述真彩视频的场景相同；

训练模块，用于基于帧间差一致性和对比学习，利用所述第一图像域集和所述第二图像域集对预设生成器和预设判别器的权重参数进行迭代训练，获取训练完成的预设生成器；其中，所述预设生成器用于将所述红外图像转换为转换真彩图像，所述预设判别器用于判别得到输入的真彩图像对应的真假结果；

生成模块，用于根据训练完成的预设生成器，获取转换生成器，以利用所述转换生成器对实际红外视频进行图像转换，得到目标真彩视频。
一种红外图像的转换训练设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至9任一项所述的红外图像的转换训练方法的步骤。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述的红外图像的转换训练方法的步骤。