WO2021258481A1

WO2021258481A1 - 基于多任务与弱监督的美丽预测方法、装置及存储介质

Info

Publication number: WO2021258481A1
Application number: PCT/CN2020/104568
Authority: WO
Inventors: 甘俊英; 白振峰; 翟懿奎; 何国辉
Original assignee: 五邑大学
Priority date: 2020-06-24
Filing date: 2020-07-24
Publication date: 2021-12-30
Also published as: CN111832436A; US20220309828A1; US11721128B2; CN111832436B

Abstract

基于多任务与弱监督的美丽预测方法、装置及存储介质，其中方法包括：预处理输入的人脸图像得到预处理图像（S100）；将预处理图像分配至多个任务（S200）；通过特征提取层处理多个所述任务的所述真值图像和所述噪声图像得到共享的图像特征（S300）；通过多个由残差网、标准神经网络和分类器组成的分类网络得到多个分类结果（S400）；利用多任务间的相关性和差异性，增强主任务人脸美丽预测的表达能力；通过弱监督模式的分类网络，减少对真值标签的依赖，降低数据标注成本和降低噪声标签对人脸美丽预测模型的影响，提高人脸美丽预测模型的泛化能力。

Description

基于多任务与弱监督的美丽预测方法、装置及存储介质

技术领域

本发明涉及图像处理领域，特别是基于多任务与弱监督的美丽预测方法、装置及存储介质。

背景技术

人脸美丽预测技术是通过图像处理与人工智能的结合，智能判断人脸美丽等级。目前人脸美丽预测技术主要通过深度学习实现，但深度学习网络要求有大量的训练样本、训练模型容易过拟合、忽略多任务之间的相关性和差异性、强监督学习中数据标注成本较高以及忽略了获取数据库全部真值标签较困难的实际情况。目前，大多数任务是针对单任务、强标签数据进行模型训练的，单任务忽略了任务之间的关联性，现实生活中的任务往往有千丝万缕的联系；现实生活中强标签数据难以全部获取，并且全部获取真值标签成本昂贵。

发明内容

本发明的目的在于至少解决现有技术中存在的技术问题之一，提供基于多任务与弱监督的美丽预测方法、装置及存储介质。

本发明解决其问题所采用的技术方案是：

本发明的第一方面，基于多任务与弱监督的美丽预测方法，包括以下步骤：

预处理输入的人脸图像得到预处理图像，其中所述预处理图像包括标有真值标签的真值图像和标有噪声标签的噪声图像；

将所述预处理图像分配至多个任务，其中每个所述任务包含多个所述真值图像和多个所述噪声图像，多个所述任务包括一个具体为人脸美丽预测的主任务和多个与人脸美丽预测相关的辅任务；

通过特征提取层处理多个所述任务的所述真值图像和所述噪声图像得到共享的图像特征；

通过多个由残差网、标准神经网络和分类器组成的分类网络处理所述图像特征得到多个分类结果，其中多个所述分类网络与多个所述任务一一对应；

其中，在分类网络中，通过所述残差网处理所述图像特征，学习从所述图像特征到所述真值标签与所述噪声标签的残差值的映射，并得到第一预测值；通过所述标准神经网络，学习从所述图像特征到所述真值标签的映射，并得到第二预测值；通过分类器根据所述第一预测值和所述第二预测值得到所述分类结果。

根据本发明的第一方面，所述预处理输入的人脸图像得到预处理图像具体是：对所述人脸图像依次进行图像增强处理、图像矫正处理、图像裁剪处理、图像去重处理和图像归一化处理得到预处理图像。

根据本发明的第一方面，所述特征提取层是VGG16、ResNet50、Google Inception V3或DenseNet中的一种。

根据本发明的第一方面，多个所述任务的总体损失函数为：

其中L _n是单个所述任务的损失，ω _n是对应每个所述任务的权重。

根据本发明的第一方面，所述残差网的损失函数为：

其中D _n是所述图像特征，y _i是所述噪声标签，h _i是所述第一预测值，L _noise是所述残差网的损失值，N _n是所述图像特征的总数量。

根据本发明的第一方面，所述标准神经网络的损失函数为：

其中v _j是所述真值标签，g _j是所述第二预测值，L _clean是所述标准神经网络的损失值。

根据本发明的第一方面，多个所述分类网络的总体目标为：

其中W是超参数，α是所述残差网的损失值与所述标准神经网络的损失值之间的权衡参数。

根据本发明的第一方面，在每个所述任务中，所述噪声图像的数量比所述真值图像的数量多。

本发明的第二方面，基于多任务与弱监督的美丽预测装置，其特征在于，包括：

预处理模块，用于预处理输入的人脸图像得到预处理图像，其中所述预处理图像包括标有真值标签的真值图像和标有噪声标签的噪声图像；

多任务模块，用于将所述预处理图像分配至多个任务，其中每个所述任务包含多个所述真值图像和多个所述噪声图像，多个所述任务包括一个具体为人脸美丽预测的主任务和多个与人脸美丽预测相关的辅任务；

特征提取模块，用于处理多个所述任务的所述真值图像和所述噪声图像得到共享的图像特征；

分类模块，用于处理所述图像特征得到多个分类结果，所述分类模块包括多个由残差网、标准神经网络和分类器组成的分类网络，其中多个所述分类网络与多个所述任务一一对应；

本发明的第三方面，存储介质，所述存储介质存储有可执行指令，可执行指令能被计算机执行，使所述计算机执行如本发明第一方面所述的基于多任务与弱监督的美丽预测方法。

上述方案至少具有以下的有益效果：利用多任务间的相关性和差异性，增强主任务人脸美丽预测的表达能力；通过弱监督模式的分类网络，减少对真值标签的依赖，降低数据标注成本和降低噪声标签对人脸美丽预测模型的影响，提高人脸美丽预测模型的泛化能力。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

下面结合附图和实例对本发明作进一步说明。

图1是本发明实施例基于多任务与弱监督的美丽预测方法的流程图；

图2是本发明实施例基于多任务与弱监督的美丽预测装置的结构图；

图3是人脸美丽预测模型的结构图。

具体实施方式

本部分将详细描述本发明的具体实施例，本发明之较佳实施例在附图中示出，附图的作用在于用图形补充说明书文字部分的描述，使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案，但其不能理解为对本发明保护范围的限制。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

参照图1，本发明的某些实施例，提供了基于多任务与弱监督的美丽预测方法，包括以下步骤：

步骤S100、预处理输入的人脸图像得到预处理图像，其中预处理图像包括标有真值标签的真值图像和标有噪声标签的噪声图像；

步骤S200、将预处理图像分配至多个任务，其中每个任务包含多个真值图像和多个噪声图像，多个任务包括一个具体为人脸美丽预测的主任务和多个与人脸美丽预测相关的辅任务；

步骤S300、通过特征提取层处理多个任务的真值图像和噪声图像得到共享的图像特征；

步骤S400、通过多个由残差网210、标准神经网络220和分类器230组成的分类网络200处理图像特征得到多个分类结果，其中多个分类网络200与多个任务一一对应；

其中，在分类网络200中，通过残差网210处理图像特征，学习从图像特征到真值标签与噪声标签的残差值的映射，并得到第一预测值；通过标准神经网络220，学习从图像特征到真值标签的映射，并得到第二预测值；通过分类器230根据第一预测值和第二预测值得到分类结果。

在该实施例中，利用多任务间的相关性和差异性，增强主任务人脸美丽预测的表达能力；通过弱监督模式的分类网络200，减少对真值标签的依赖，降低数据标注成本和降低噪声标签对人脸美丽预测模型的影响，提高人脸美丽预测模型的泛化能力。

另外，在该基于多任务与弱监督的美丽预测方法中，同时学习多个相关任务，通过辅任务来提高人脸美丽预测主任务的准确度；弱监督模式的分类网络200，能有效利用具有真值标签的图像；解决了模型泛化能力差、只能训练单任务以及数据标注成本过高问题。

需要说明的是，输入的人脸图像是融合了多个数据库的数据，包括LSFBD人脸美丽数据库、GENKI-4K微笑识别数据库、IMDB-WIKI500k+数据库以及SCUT-FBP5500数据库。

进一步，预处理输入的人脸图像得到预处理图像具体是：对人脸图像依次进行图像增强处理、图像矫正处理、图像裁剪处理、图像去重处理和图像归一化处理得到预处理图像。预处理能高效地对人脸图像进行区域检测以及关键点检测，以及对齐和裁剪，使人脸图像大小一致，便于后续操作。

实际上，输入预处理图像至人脸美丽预测模型，以执行步骤S200、步骤S300和步骤S400。人脸美丽预测模型的结构参照图3。

进一步，对于步骤S200，在每个任务中，噪声图像的数量比真值图像的数量多。多个任务的总体损失函数为：

其中L _n是单个任务的损失，ω _n是对应每个任务的权重。需要说明的是，主任务为人脸美丽预测；辅任务为与人脸美丽预测相关的任务，例如性别识别、表情识别等。

进一步，特征提取层是VGG16、ResNet50、Google Inception V3或DenseNet中的一种。在本实施例中，特征提取层的具体结构为：第一层为3*3大小的卷积层；第二层为3*3大小的卷积层；第三层为3*3大小的卷积层；第四层为池化层；第五层为3*3大小的卷积层；第六层为3*3大小的卷积层；第七层为池化层；第八层为3*3大小的卷积层；第九层为3*3大小的卷积层；第十层为3*3大小的卷积层；第十一层为池化层；第十二层为3*3大小的卷积层；第十三层为3*3大小的卷积层；第十四层为池化层。通过特征提取层提取多个任务的图像得到共享的图像特征，通过共享的图像特征并行学习多个相关任务，挖掘多个相关任务间的关系，从而能获取额外的有用信息。

进一步，对于步骤S400，残差网210的损失函数为：

其中D _n是图像特征，y _i是噪声标签，h _i是第一预测值，L _noise是残差网210的损失值，N _n是图像特征的总数量。在残差网210中，学习从图像特征到真值标签与噪声标签的残差值的映射，并得到第一预测值；利用噪声标签监督进入残差网210的所有图像特征。

进一步，标准神经网络220的损失函数为：

其中v _j是真值标签，g _j是第二预测值，L _clean是标准神经网络220的损失值。在标准神经网络220中，学习从图像特征到真值标签的映射，并得到第二预测值；利用真值标签监督进入标准神经网络220的所有图像特征。

另外，第一预测值和第二预测值进入分类器230，分类结果按以下式子计算：k＝W ₁a+W ₂b；其中k为分类结果，a为第一预测值，b为第二预测值，W ₁是对应第一预测值的权重，W ₂是对应第二预测值的权重。

进一步，多个分类网络200的总体目标为：

其中W是超参数，α是残差网210的损失值与标准神经网络220的损失值之间的权衡参数。

参照图2，本发明的某些实施例，提供了基于多任务与弱监督的美丽预测装置，应用如方法实施例所述的基于多任务与弱监督的美丽预测方法，美丽预测装置包括：

预处理模,100，用于预处理输入的人脸图像得到预处理图像，其中预处理图像包括标有真值标签的真值图像和标有噪声标签的噪声图像；

多任务模块200，用于将预处理图像分配至多个任务，其中每个任务包含多个真值图像和多个噪声图像，多个任务包括一个具体为人脸美丽预测的主任务和多个与人脸美丽预测相关的辅任务；

特征提取模块300，用于处理多个任务的真值图像和噪声图像得到共享的图像特征；

分类模块400，用于处理图像特征得到多个分类结果，分类模块400包括多个由残差网210、标准神经网络220和分类器230组成的分类网络200，其中多个分类网络200与多个任务一一对应；

在该装置实施例中，基于多任务与弱监督的美丽预测装置应用如方法实施例所述的基于多任务与弱监督的美丽预测方法，经各个模块的配合，能执行基于多任务与弱监督的美丽预测方法的各个步骤，具有和基于多任务与弱监督的美丽预测方法相同的技术效果，在此不再详述。

本发明的某些实施例，提供了存储介质，存储有可执行指令，可执行指令能被计算机执行，使计算机执行如本发明方法实施例所述的基于多任务与弱监督的美丽预测方法。

存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

以上所述，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同的手段达到本发明的技术效果，都应属于本发明的保护范围。

Claims

基于多任务与弱监督的美丽预测方法，其特征在于，包括以下步骤：

预处理输入的人脸图像得到预处理图像，其中所述预处理图像包括标有真值标签的真值图像和标有噪声标签的噪声图像；

将所述预处理图像分配至多个任务，其中每个所述任务包含多个所述真值图像和多个所述噪声图像，多个所述任务包括一个具体为人脸美丽预测的主任务和多个与人脸美丽预测相关的辅任务；

通过特征提取层处理多个所述任务的所述真值图像和所述噪声图像得到共享的图像特征；

通过多个由残差网、标准神经网络和分类器组成的分类网络处理所述图像特征得到多个分类结果，其中多个所述分类网络与多个所述任务一一对应；

其中，在分类网络中，通过所述残差网处理所述图像特征，学习从所述图像特征到所述真值标签与所述噪声标签的残差值的映射，并得到第一预测值；通过所述标准神经网络，学习从所述图像特征到所述真值标签的映射，并得到第二预测值；通过分类器根据所述第一预测值和所述第二预测值得到所述分类结果。
根据权利要求1所述的基于多任务与弱监督的美丽预测方法，其特征在于，所述预处理输入的人脸图像得到预处理图像具体是：

对所述人脸图像依次进行图像增强处理、图像矫正处理、图像裁剪处理、图像去重处理和图像归一化处理得到预处理图像。
根据权利要求1所述的基于多任务与弱监督的美丽预测方法，其特征在于，所述特征提取层是VGG16、ResNet50、Google Inception V3或DenseNet中的一种。
根据权利要求1所述的基于多任务与弱监督的美丽预测方法，其特征在于，多个所述任务的总体损失函数为：
其中L _n是单个所述任务的损失，ω _n是对应每个所述任务的权重。
根据权利要求1所述的基于多任务与弱监督的美丽预测方法，其特征在于，所述残差网的损失函数为：
其中D _n是所述图像特征，y _i是所述噪声标签，h _i是所述第一预测值，L _noise是所述残差网的损失值，N _n是所述图像特征的总数量。
根据权利要求5所述的基于多任务与弱监督的美丽预测方法，其特征在于，所述标准神经网络的损失函数为：
其中v _j是所述真值标签，g _j是所述第二预测值，L _clean是所述标准神经网络的损失值。
根据权利要求6所述的基于多任务与弱监督的美丽预测方法，其特征在于，多个所述分类网络的总体目标为：arg _Wmin((αL _clean，1+L _noise，1)+...+(αL _clean，n+L _noise，n))，其中W是超参数，α是所述残差网的损失值与所述标准神经网络的损失值之间的权衡参数。
根据权利要求1所述的基于多任务与弱监督的美丽预测方法，其特征在于，在每个所述任务中，所述噪声图像的数量比所述真值图像的数量多。
应用如权利要求1至8任一项所述的基于多任务与弱监督的美丽预测装置，其特征在于，包括：

预处理模块，用于预处理输入的人脸图像得到预处理图像，其中所述预处理图像包括标有真值标签的真值图像和标有噪声标签的噪声图像；

多任务模块，用于将所述预处理图像分配至多个任务，其中每个所述任务包含多个所述真值图像和多个所述噪声图像，多个所述任务包括一个具体为人脸美丽预测的主任务和多个与人脸美丽预测相关的辅任务；

特征提取模块，用于处理多个所述任务的所述真值图像和所述噪声图像得到共享的图像特征；

分类模块，用于处理所述图像特征得到多个分类结果，所述分类模块包括多个由残差网、标准神经网络和分类器组成的分类网络，其中多个所述分类网络与多个所述任务一一对应；

其中，在分类网络中，通过所述残差网处理所述图像特征，学习从所述图像特征到所述真值标签与所述噪声标签的残差值的映射，并得到第一预测值；通过所述标准神经网络，学习从所述图像特征到所述真值标签的映射，并得到第二预测值；通过分类器根据所述第一预测值和所述第二预测值得到所述分类结果。
存储介质，其特征在于，所述存储介质存储有可执行指令，可执行指令能被计算机执行，使所述计算机执行如权利要求1至8任一项所述的基于多任务与弱监督的美丽预测方法。