WO2021258482A1

WO2021258482A1 - 基于迁移与弱监督的美丽预测方法、装置及存储介质

Info

Publication number: WO2021258482A1
Application number: PCT/CN2020/104569
Authority: WO
Inventors: 甘俊英; 白振峰; 翟懿奎; 何国辉
Original assignee: 五邑大学
Priority date: 2020-06-24
Filing date: 2020-07-24
Publication date: 2021-12-30
Also published as: CN111832435A; US11769319B2; US20220309768A1

Abstract

基于迁移和弱监督的人脸美丽预测方法、装置及存储介质，其中方法包括：预处理输入的人脸图像；利用预处理图像训练源域网络，并将源域网络的参数迁移至目标域网络；将标有噪声标签的噪声图像和标有真值标签的真值图像输入至所述目标域网络得到图像特征；将图像特征输入至分类网络得到最终人脸美丽预测结果。有效解决了模型所需数据量过大、模型容易过拟合、模型泛化能力弱、训练时间长问题，提高模型的稳定性和鲁棒性；而且解决了数据库标签的不可靠性问题。

Description

基于迁移与弱监督的美丽预测方法、装置及存储介质

技术领域

本发明涉及图像处理领域，特别是基于迁移与弱监督的美丽预测方法、装置及存储介质。

背景技术

人脸美丽预测技术是通过图像处理与人工智能的结合，智能判断人脸美丽等级。目前人脸美丽预测技术主要通过深度学习实现，但深度学习网络要求有大量的训练样本、训练模型容易过拟合、忽略多任务之间的相关性和差异性、强监督学习中数据标注成本较高以及忽略了获取数据库全部真值标签较困难的实际情况。目前，大多数任务是针对单任务、强标签数据进行模型训练的，单任务忽略了任务之间的关联性，现实生活中的任务往往有千丝万缕的联系；现实生活中强标签数据难以全部获取，并且全部获取真值标签成本昂贵。

发明内容

本发明的目的在于至少解决现有技术中存在的技术问题之一，提供基于迁移与弱监督的美丽预测方法、装置及存储介质。

本发明解决其问题所采用的技术方案是：

本发明的第一方面，基于迁移与弱监督的美丽预测方法，包括以下步骤：

预处理输入的人脸图像得到预处理图像；

利用所述预处理图像训练源域网络，并将训练后的所述源域网络的参数迁移至目标域网络；其中在迁移过程中，对于所述源域网络，根据所述源域网络的T值大于1的softmax层的输出与原始标签得到所述源域网络的损失函数；对于所述目标域网络，根据所述目标域网络的T值大于1的softmax层的输出与原始标签得到所述目标域网络的第一子损失函数，根据所述目标域网络的T值等于1的softmax层的输出与原始标签得到所述目标域网络的第二子损失函数，将所述第一子损失函数和所述第二子损失函数相加得到所述目标域网络的损失函数；

将所述预处理图像分为标有噪声标签的噪声图像和标有真值标签的真值图像，将所述噪声图像和所述真值图像输入至所述目标域网络得到图像特征；

将所述图像特征输入至残差网学习从所述图像特征至所述噪声标签与所述真值标签间的差值的映射并得到第一预测值，以及输入至标准神经网络学习从所述图像特征至所述真值标签的映射并得到第二预测值，将所述第一预测值与所述第二预测值相加后输入至第一分类器得到第一人脸美丽预测结果，将所述第二预测值输入至第二分类器得到第二人脸美丽预测结果，根据所述第一人脸美丽预测结果和所述第二人脸美丽预测结果得到最终人脸美丽预测结果。

根据本发明的第一方面，所述预处理输入的人脸图像得到预处理图像具体是：对所述人脸图像依次进行图像增强处理、图像矫正处理、图像裁剪处理、图像去重处理和图像归一化处理得到预处理图像。

根据本发明的第一方面，所述T值是调节参数，定义于softmax层的softmax函数，softmax函数具体为

其中q _i是softmax函数的输出，z为softmax函数的输入。

根据本发明的第一方面，所述第一分类器的损失函数为：

所述第二分类器的损失函数为：

其中h _i是所述第一预测值与所述第二预测值的和，g _j是所述第二预测值，y _i是所述噪声标签，v _j是真值标签，D _n是所述图像特征，N _n是所述图像特征的数量。

本发明的第二方面，基于迁移与弱监督的美丽预测装置，包括：

预处理模块，用于预处理输入的人脸图像得到预处理图像；

迁移模块，用于利用所述预处理图像训练源域网络，并将训练后的所述源域网络的参数迁移至目标域网络；其中在迁移过程中，对于所述源域网络，根据所述源域网络的T值大于1的softmax层的输出与原始标签得到所述源域网络的损失函数；对于所述目标域网络，根据所述目标域网络的T值大于1的softmax层的输出与原始标签得到所述目标域网络的第一子损失函数，根据所述目标域网络的T值等于1的softmax层的输出与原始标签得到所述目标域网络的第二子损失函数，将所述第一子损失函数和所述第二子损失函数相加得到所述目标域网络的损失函数；

特征提取模块，用于将所述预处理图像分为标有噪声标签的噪声图像和标有真值标签的真值图像，将所述噪声图像和所述真值图像输入至所述目标域网络得到图像特征；

分类模块，用于将所述图像特征输入至残差网学习从所述图像特征至所述噪声标签与所述真值标签间的差值的映射并得到第一预测值，以及输入至标准神经网络学习从所述图像特征至所述真值标签的映射并得到第二预测值，将所述第一预测值与所述第二预测值相加后输入至第一分类器得到第一人脸美丽预测结果，将所述第二预测值输入至第二分类器得到第二人脸美丽预测结果，根据所述第一人脸美丽预测结果和所述第二人脸美丽预测结果得到最终人脸美丽预测结果。

根据本发明的第二方面，所述预处理输入的人脸图像得到预处理图像具体是：对所述人脸图像依次进行图像增强处理、图像矫正处理、图像裁剪处理、图像去重处理和图像归一化处理得到预处理图像。

根据本发明的第二方面，所述T值是调节参数，定义于softmax 层的softmax函数，softmax函数具体为

其中q _i是softmax函数的输出，z为softmax函数的输入。

根据本发明的第二方面，所述第一分类器的损失函数为：

所述第二分类器的损失函数为：

本发明的第三方面，基于迁移与弱监督的美丽预测装置，包括处理器与所述处理器连接的存储器；所述存储器存储有可执行指令；所述处理器执行所述可执行指令，以执行如本发明第一方面所述的基于迁移与弱监督的美丽预测方法。

本发明的第四方面，存储介质存储有可执行指令，可执行指令能被计算机执行，使所述计算机执行如本发明第一方面所述的基于迁移与弱监督的美丽预测方法。

上述方案至少具有以下的有益效果：不仅利用迁移解决样本数量不足的问题，利用源域网络的参数增强目标域网络，有效解决了模型所需数据量过大、模型容易过拟合、模型泛化能力弱、训练时间长问题，提高模型的稳定性和鲁棒性；而且解决了数据库标签的不可靠性问题，在数据标签不准确、不足够、不具体的情况下也可进行相关模型训练；适应性强且能降低数据标注成本和失误标注对模型的影响。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

下面结合附图和实例对本发明作进一步说明。

图1是本发明实施例基于迁移与弱监督的美丽预测方法的流程图；

图2是本发明实施例基于迁移与弱监督的美丽预测装置的结构图；

图3是人脸美丽预测模型的结构图。

具体实施方式

本部分将详细描述本发明的具体实施例，本发明之较佳实施例在附图中示出，附图的作用在于用图形补充说明书文字部分的描述，使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案，但其不能理解为对本发明保护范围的限制。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

参照图1和图3，本发明的某些实施例，提供了基于迁移与弱监督的美丽预测方法，包括以下步骤：

步骤S100、预处理输入的人脸图像得到预处理图像；

步骤S200、利用预处理图像训练源域网络110，并将训练后的源域网络110的参数迁移至目标域网络120；其中在迁移过程中，对于源域网络110，根据源域网络110的T值大于1的softmax层的输出与原始标签得到源域网络110的损失函数；对于目标域网络120，根据目标域网络120的T值大于1的softmax层的输出与原始标签得到目标域网络120的第一子损失函数，根据目标域网络120的T值等于1的softmax层的输出与原始标签得到目标域网络120的第二子损失函数，将第一子损失函数和第二子损失函数相加得到目标域网络120 的损失函数；

步骤S300、将预处理图像分为标有噪声标签的噪声图像和标有真值标签的真值图像，将噪声图像和真值图像输入至目标域网络120得到图像特征；

步骤S400、将图像特征输入至残差网210学习从图像特征至噪声标签与真值标签间的差值的映射并得到第一预测值，以及输入至标准神经网络220学习从图像特征至真值标签的映射并得到第二预测值，将第一预测值与第二预测值相加后输入至第一分类器230得到第一人脸美丽预测结果，将第二预测值输入至第二分类器240得到第二人脸美丽预测结果，根据第一人脸美丽预测结果和第二人脸美丽预测结果得到最终人脸美丽预测结果。

在该实施例中，不仅利用迁移解决样本数量不足的问题，利用源域网络110的参数增强目标域网络120，有效解决了模型所需数据量过大、模型容易过拟合、模型泛化能力弱、训练时间长问题，提高模型的稳定性和鲁棒性；而且解决了数据库标签的不可靠性问题，在数据标签不准确、不足够、不具体的情况下也可进行相关模型训练；适应性强且能降低数据标注成本和失误标注对模型的影响。

进一步，输入的人脸图像是融合了多个数据库的数据，包括LSFBD人脸美丽数据库、Fer2013人脸表情数据库、GENKI-4K微笑识别数据库、IMDB-WIKI 500k+数据库以及SCUT-FBP5500数据库。

在步骤S100中，对人脸图像依次进行图像增强处理、图像矫正处理、图像裁剪处理、图像去重处理和图像归一化处理得到预处理图像。预处理能高效地对人脸图像进行区域检测以及关键点检测，以及对齐和裁剪，使人脸图像大小一致，便于后续操作。

将预处理图像输入至人脸美丽预测模型，人脸美丽预测模型执行步骤S200、步骤S300和步骤S400。

进一步，在步骤S200中，利用预处理图像训练源域网络110，并将训练后的源域网络110的参数迁移至目标域网络120。其中在迁移过程中，对于源域网络110，根据源域网络110的T值大于1的softmax层的输出与原始标签得到源域网络110的损失函数；对于目标域网络120，根据目标域网络120的T值大于1的softmax层的输出与原始标签得到目标域网络120的第一子损失函数，根据目标域网络120的T值等于1的softmax层的输出与原始标签得到目标域网络120的第二子损失函数，将第一子损失函数和第二子损失函数相加得到目标域网络120的损失函数。通过让T值升高，然后在后续阶段恢复至1，从而将源域网络110训练预处理图像的参数提取。

计算损失函数，梯度下降，更新目标域网络120的参数。

其中，T值是调节参数，定义于softmax层的softmax函数，softmax函数具体为

其中q _i是softmax函数的输出， z为softmax函数的输入。T值越大，则softmax函数的输出的分布越平缓；当T值趋向于无穷，则softmax函数的输出则是一个均匀分布且近似于源域网络110。

另外，对于迁移过程，其总体的损失函数为：L＝CE(y,p)+αCE(q,p)，其中CE＝-∑p*log q，p是源域网络110产生的分布。

进一步，在步骤S300中，目标域网络120起到特征提取层的作用。特征提取层是VGG16、ResNet50、Google Inception V3或DenseNet中的一种。在本实施例中，目标域网络120的具体结构为：第一层为3*3大小的卷积层；第二层为3*3大小的卷积层；第三层为3*3大小的卷积层；第四层为池化层；第五层为3*3大小的卷积层；第六层为3*3大小的卷积层；第七层为池化层；第八层为3*3大小的卷积层；第九层为3*3大小的卷积层；第十层为3*3大小的卷积层；第十一层为池化层；第十二层为3*3大小的卷积层；第十三层为3*3大小的卷积层；第十四层为池化层。通过特征提取层提取图像特征，在提取过程中根据实际任务可以对特征提取层进行结构调整、参数优化，寻找最优的形式。

进一步，在步骤S400中，将图像特征输入至残差网210学习从图像特征至噪声标签与真值标签间的差值的映射并得到第一预测值，利用噪声标签监督进入残差网210的所有图像特征；以及将图像特征输入至标准神经网络220学习从图像特征至真值标签的映射并得到第二预测值，利用真值标签监督进入标准神经网络220的所有图像特征。将第一预测值与第二预测值相加后输入至第一分类器230得到第一人脸美丽预测结果，将第二预测值输入至第二分类器240得到第二人脸美丽预测结果。根据第一人脸美丽预测结果和第二人脸美丽预测结果得到最终人脸美丽预测结果。具体为K＝w1*K1+w2*K2，其中K为最终人脸美丽预测结果，w1和w2为权重，K1和K2分别是第一人脸美丽预测结果和第二人脸美丽预测结果。

其中，第一分类器230的损失函数为：

第二分类器240的损失函数为：

其中h _i是第一预测值与第二预测值的和，g _j是第二预测值，y _i是噪声标签，v _j是真值标签，D _n是图像特征，N _n是图像特征的数量。

另外，该由残差网210、标准神经网络220、第一分类器230和第二分类器240组成的部分的总体目标为：

，其中W是超参数，α是残差网210的损失值与标准神经网络220的损失值之间的权衡参数。

参照图2，本发明的某些实施例，提供了基于迁移与弱监督的美丽预测装置，应用了如方法实施例所述的基于迁移与弱监督的美丽预测装置，美丽预测装置包括：

预处理模块10，用于预处理输入的人脸图像得到预处理图像；

迁移模块20，用于利用预处理图像训练源域网络110，并将训练后的源域网络110的参数迁移至目标域网络120；其中在迁移过程中，对于源域网络110，根据源域网络110的T值大于1的softmax层的输出与原始标签得到源域网络110的损失函数；对于目标域网络120，根据目标域网络120的T值大于1的softmax层的输出与原始标签得到目标域网络120的第一子损失函数，根据目标域网络120的T值等于1的softmax层的输出与原始标签得到目标域网络120的第二子损失函数，将第一子损失函数和第二子损失函数相加得到目标域网络120的损失函数；

特征提取模块30，用于将预处理图像分为标有噪声标签的噪声图像和标有真值标签的真值图像，将噪声图像和真值图像输入至目标域网络120得到图像特征；

分类模块40，用于将图像特征输入至残差网210学习从图像特征至噪声标签与真值标签间的差值的映射并得到第一预测值，以及输入至标准神经网络220学习从图像特征至真值标签的映射并得到第二预测值，将第一预测值与第二预测值相加后输入至第一分类器230得到第一人脸美丽预测结果，将第二预测值输入至第二分类器240得到第二人脸美丽预测结果，根据第一人脸美丽预测结果和第二人脸美丽预测结果得到最终人脸美丽预测结果。

在该装置实施例中，基于迁移与弱监督的美丽预测装置应用如方法实施例所述的基于迁移与弱监督的美丽预测方法，经各个模块的配合，能执行基于迁移与弱监督的美丽预测方法的各个步骤，具有和基于迁移与弱监督的美丽预测方法相同的技术效果，在此不再详述。

本发明的某些实施例，基于迁移与弱监督的美丽预测装置，包括处理器与处理器连接的存储器；存储器存储有可执行指令；处理器执行可执行指令，以执行如方法实施例的基于迁移与弱监督的美丽预测方法。

本发明的某些实施例，存储介质存储有可执行指令，可执行指令能被计算机执行，使计算机执行如方法实施例所述的基于迁移与弱监督的美丽预测方法。

存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

以上所述，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同的手段达到本发明的技术效果，都应属于本发明的保护范围。

Claims

基于迁移与弱监督的美丽预测方法，其特征在于，包括以下步骤：

预处理输入的人脸图像得到预处理图像；

利用所述预处理图像训练源域网络，并将训练后的所述源域网络的参数迁移至目标域网络；其中在迁移过程中，对于所述源域网络，根据所述源域网络的T值大于1的softmax层的输出与原始标签得到所述源域网络的损失函数；对于所述目标域网络，根据所述目标域网络的T值大于1的softmax层的输出与原始标签得到所述目标域网络的第一子损失函数，根据所述目标域网络的T值等于1的softmax层的输出与原始标签得到所述目标域网络的第二子损失函数，将所述第一子损失函数和所述第二子损失函数相加得到所述目标域网络的损失函数；

将所述预处理图像分为标有噪声标签的噪声图像和标有真值标签的真值图像，将所述噪声图像和所述真值图像输入至所述目标域网络得到图像特征；

将所述图像特征输入至残差网学习从所述图像特征至所述噪声标签与所述真值标签间的差值的映射并得到第一预测值，以及输入至标准神经网络学习从所述图像特征至所述真值标签的映射并得到第二预测值，将所述第一预测值与所述第二预测值相加后输入至第一分类器得到第一人脸美丽预测结果，将所述第二预测值输入至第二分类器得到第二人脸美丽预测结果，根据所述第一人脸美丽预测结果和所述第二人脸美丽预测结果得到最终人脸美丽预测结果。
根据权利要求1所述的基于迁移与弱监督的美丽预测方法，其特征在于，所述预处理输入的人脸图像得到预处理图像具体是：对所述人脸图像依次进行图像增强处理、图像矫正处理、图像裁剪处理、图像去重处理和图像归一化处理得到预处理图像。
根据权利要求1所述的基于迁移与弱监督的美丽预测方法，其特征在于，所述T值是调节参数，定义于softmax层的softmax函数，softmax函数具体为
其中q _i是softmax函数的输出，z为softmax函数的输入。
根据权利要求1所述的基于迁移与弱监督的美丽预测方法，其特征在于，所述第一分类器的损失函数为：
所述第二分类器的损失函数为：
其中h _i是所述第一预测值与所述第二预测值的和，g _j是所述第二预测值，y _i是所述噪声标签，v _j是真值标签，D _n是所述图像特征，N _n是所述图像特征的数量。
基于迁移与弱监督的美丽预测装置，其特征在于，包括：

预处理模块，用于预处理输入的人脸图像得到预处理图像；

迁移模块，用于利用所述预处理图像训练源域网络，并将训练后的所述源域网络的参数迁移至目标域网络；其中在迁移过程中，对于所述源域网络，根据所述源域网络的T值大于1的softmax层的输出与原始标签得到所述源域网络的损失函数；对于所述目标域网络，根据所述目标域网络的T值大于1的softmax层的输出与原始标签得到所述目标域网络的第一子损失函数，根据所述目标域网络的T值等于1的softmax层的输出与原始标签得到所述目标域网络的第二子损失函数，将所述第一子损失函数和所述第二子损失函数相加得到所述目标域网络的损失函数；

特征提取模块，用于将所述预处理图像分为标有噪声标签的噪声图像和标有真值标签的真值图像，将所述噪声图像和所述真值图像输入至所述目标域网络得到图像特征；

分类模块，用于将所述图像特征输入至残差网学习从所述图像特征至所述噪声标签与所述真值标签间的差值的映射并得到第一预测值，以及输入至标准神经网络学习从所述图像特征至所述真值标签的映射并得到第二预测值，将所述第一预测值与所述第二预测值相加后输入至第一分类器得到第一人脸美丽预测结果，将所述第二预测值输入至第二分类器得到第二人脸美丽预测结果，根据所述第一人脸美丽预测结果和所述第二人脸美丽预测结果得到最终人脸美丽预测结果。
根据权利要求5所述的基于迁移与弱监督的美丽预测装置，其特征在于，所述预处理输入的人脸图像得到预处理图像具体是：对所述人脸图像依次进行图像增强处理、图像矫正处理、图像裁剪处理、图像去重处理和图像归一化处理得到预处理图像。
根据权利要求5所述的基于迁移与弱监督的美丽预测装置，其特征在于，所述T值是调节参数，定义于softmax层的softmax函数，softmax函数具体为
其中q _i是softmax函数的输出，z为softmax函数的输入。
根据权利要求5所述的基于迁移与弱监督的美丽预测装置，其特征在于，所述第一分类器的损失函数为：
所述第二分类器的损失函数为：
其中h _i是所述第一预测值与所述第二预测值的和，g _j是所述第二预测值，y _i是所述噪声标签，v _j是真值标签，D _n是所述图像特征，N _n是所述图像特征的数量。
基于迁移与弱监督的美丽预测装置，其特征在于，包括处理器与所述处理器连接的存储器；所述存储器存储有可执行指令；所述处理器执行所述可执行指令，以执行如权利要求1至4任一项所述的基于迁移与弱监督的美丽预测方法。
存储介质，其特征在于，所述存储介质存储有可执行指令，可执行指令能被计算机执行，使所述计算机执行如权利要求1至4任一项所述的基于迁移与弱监督的美丽预测方法。