WO2020228384A1

WO2020228384A1 - 虚拟头像生成方法及装置、存储介质

Info

Publication number: WO2020228384A1
Application number: PCT/CN2020/074597
Authority: WO
Inventors: 刘庭皓; 赵立晨; 王权; 钱晨
Original assignee: 北京市商汤科技开发有限公司
Priority date: 2019-05-15
Filing date: 2020-02-10
Publication date: 2020-11-19
Also published as: KR102443026B1; SG11202008025QA; TW202046249A; US11403874B2; JP2021528719A; CN110111246A; CN110111246B; US20200380246A1; KR20200132833A

Abstract

本公开提供了一种虚拟头像生成方法及装置、存储介质。其中，所述方法的示例之一包括：确定与至少一个目标人脸属性关联的目标任务，所述至少一个目标人脸属性分别为预定义的多个人脸属性之一；根据所述目标任务对至少包括人脸的目标图像进行关于所述目标人脸属性的分析，获得所述目标图像上与所述目标人脸属性关联的目标人脸属性参数；根据预定义的人脸属性参数和虚拟头像模版之间的对应关系，确定与所述目标人脸属性参数对应的目标虚拟头像模版；基于所述目标虚拟头像模版在所述目标图像上生成虚拟头像。

Description

虚拟头像生成方法及装置、存储介质

技术领域

本公开涉及图像处理领域，尤其涉及一种虚拟头像生成方法及装置、存储介质。

背景技术

人脸特征点定位是在一张包括人脸的图片上，计算出预先定义好的若干个特征点的位置，例如眼角、嘴角、鼻尖等。目前的人脸特征点定位，可以定义人脸上的一些简单特征，例如眼睛轮廓、嘴巴轮廓等，但对更加精细的特征信息不能进行准确定位。

发明内容

有鉴于此，本公开提供了一种虚拟头像生成方法及装置、存储介质。

根据本公开实施例的第一方面，提供一种虚拟头像生成方法，所述方法包括：确定与至少一个目标人脸属性关联的目标任务，其中，所述目标人脸属性为预定义的多个人脸属性之一；根据所述目标任务对至少包括人脸的目标图像进行关于所述目标人脸属性的分析，获得所述目标图像上与所述目标人脸属性关联的目标人脸属性参数；根据预定义的人脸属性参数和虚拟头像模版之间的对应关系，确定与所述目标人脸属性参数对应的目标虚拟头像模版；基于所述目标虚拟头像模版在所述目标图像上生成虚拟头像。

在一些可选实施例中，所述根据所述目标任务对至少包括人脸的目标图像进行关于所述目标人脸属性的分析，包括：确定与所述目标人脸属性对应的目标神经网络；将所述目标图像输入所述目标神经网络，获得所述目标神经网络输出的预估值，所述预估值表示所述目标图像具有与所述目标人脸属性关联的至少一个人脸属性参数的可能性概率；将所述目标神经网络输出的所述预估值中的最大值所对应的人脸属性参数，作为所述目标人脸属性参数。

在一些可选实施例中，所述目标人脸属性包括预定义的至少一个分类；所述将所述目标神经网络输出的所述预估值中的最大值所对应的人脸属性参数，作为所述目标人脸属性参数，包括：针对第一分类，将所述目标神经网络输出的针对所述第一分类的所述预估值中的最大值所对应的人脸属性参数，作为所述第一分类对应的所述目标人脸属性参数，所述第一分类为所述目标人脸属性包括的至少一个分类中的任一分类。

在一些可选实施例中，采用以下方式训练得到所述目标神经网络：将至少包括人脸的至少一个样本图像输入第一神经网络，其中，各所述样本图像标记有与第一人脸属性关联的人脸属性参数，所述第一神经网络包括与所述第一人脸属性对应的第一子网络，所述第一人脸属性是预定义的所述多个人脸属性中的任一属性；将所述第一神经网络输出的所述至少一个样本图像上与所述第一人脸属性关联的至少一个人脸属性参数作为预测值，将所述至少一个样本图像上标记的与所述第一人脸属性对应的至少一个人脸属性参数作为真实值，对所述第一子网络进行训练，训练完成后得到所述目标神经网络。

在一些可选实施例中，所述第一子网络采用残差神经网络的网络结构，且包括至少一个残差单元。

在一些可选实施例中，所述至少一个残差单元各自包括至少一个卷积层以及至少一个批量归一化层；并且，在所述至少一个残差单元包括多个残差单元的情况下，所述多个残差单元中的第二残差单元所包括的卷积层的数目和批量归一化层的数目均大于所述多个残差单元中的第一残差单元所包括的所述卷积层的数目和所述批量归一化层的数目。

在一些可选实施例中，所述第一子网络还包括输出分割层，所述输出分割层用于按照所述第一人脸属性包括的预定义的至少一个分类，对从所述样本图像中提取出的特征信息进行分割，得到针对所述至少一个分类各自关联的至少一个人脸属性参数的预估值。

在一些可选实施例中，所述方法还包括：对关注图像进行仿射变换，得到人脸转正后的图像；从所述人脸转正后的图像中截取出目标区域的图像，得到所述目标图像或所述样本图像，其中，所述目标区域至少包括人脸关键点所在的区域。此外，可选地，所述目标区域还包括位于所述目标人脸属性所对应的人脸部位外侧的预设面积的区域。

根据本公开实施例的第二方面，提供一种虚拟头像生成装置，所述装置包括：任务确定模块，被配置为确定与至少一个目标人脸属性关联的目标任务，其中，所述目标人脸属性为预定义的多个人脸属性之一；人脸属性分析模块，被配置为根据所述目标任务对至少包括人脸的目标图像进行关于所述目标人脸属性的分析，获得所述目标图像上与所述目标人脸属性关联的目标人脸属性参数；虚拟头像模版确定模块，被配置为根据预定义的人脸属性参数和虚拟头像模版之间的对应关系，确定与所述目标人脸属性参数对应的目标虚拟头像模版；头像生成模块，被配置为基于所述目标虚拟头像模版在所述目标图像上生成虚拟头像。

在一些可选实施例中，所述人脸属性分析模块包括：网络确定子模块，被配置为确定与所述目标人脸属性对应的目标神经网络；预估值确定子模块，被配置为将所述目标图像输入所述目标神经网络，获得所述目标神经网络输出的预估值，所述预估值表示所述目标图像具有与所述目标人脸属性关联的至少一个人脸属性参数的可能性概率；参数确定子模块，被配置为将所述目标神经网络输出的所述预估值中的最大值所对应的人脸属性参数，作为所述目标人脸属性参数。

在一些可选实施例中，所述目标人脸属性包括预定义的至少一个分类，所述参数确定子模块配置为：针对第一分类，将所述目标神经网络输出的针对所述第一分类的所述预估值中的最大值所对应的人脸属性参数，作为所述第一分类对应的所述目标人脸属性参数，其中，所述第一分类为所述目标人脸属性包括的至少一个分类中的任一分类。

在一些可选实施例中，所述装置还包括训练模块，所述训练模块被配置为：将至少包括人脸的至少一个样本图像输入第一神经网络，其中，各所述样本图像标记有与第一人脸属性关联的人脸属性参数，所述第一神经网络包括与所述第一人脸属性对应的第一子网络，所述第一人脸属性是预定义的所述多个人脸属性中的任一个属性；将所述第一神经网络输出的所述至少一个样本图像上与所述第一人脸属性关联的至少一个人脸属性参数作为预测值，将所述至少一个样本图像上标记的与所述第一人脸属性对应的至少一个人脸属性参数作为真实值，对所述第一子网络进行训练，训练完成后得到的所述第一子网络即可作为所述目标神经网络。

在一些可选实施例中，所述装置还包括：人脸转正处理模块，被配置为对关注图像进行仿射变换，得到人脸转正后的图像；图像截取模块，被配置为从所述人脸转正后的图像中截取出目标区域的图像，得到所述目标图像或所述样本图像，其中，所述目标区域至少包括人脸关键点所在的区域。此外，可选地，所述目标区域还包括位于所述目标人脸属性所对应的人脸部位外侧的预设面积的区域。

根据本公开实施例的第三方面，提供一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述第一方面中任一所述的虚拟头像生成方法。

根据本公开实施例的第四方面，提供一种虚拟头像生成装置，所述装置包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器中存储的可执行指令，实现上述第一方面中任一项所述的虚拟头像生成方法。

本公开实施例中，可以根据与至少一个人脸属性关联的目标任务，提取至少包括人脸的目标图像上的人脸属性参数，再结合预定义的人脸属性参数和虚拟头像模版之间的对应关系，为目标图像确定对应的目标虚拟头像模版，基于目标虚拟头像模版在目标图像上生成虚拟头像。通过与至少一个人脸属性关联的目标任务，对至少包括人脸的图像进行更精确地人脸属性分析，生成虚拟头像，为用户提供丰富的初始化人脸属性样式。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是本公开根据一示例性实施例示出的一种虚拟头像生成方法流程图。

图2是本公开根据一示例性实施例示出的一种虚拟头像生成示例图。

图3是本公开根据一示例性实施例示出的另一种虚拟头像生成示例图。

图4是本公开根据一示例性实施例示出的另一种虚拟头像生成方法流程图。

图5是本公开根据一示例性实施例示出的另一种虚拟头像生成方法流程图。

图6是本公开根据一示例性实施例示出的另一种虚拟头像生成方法流程图。

图7是本公开根据一示例性实施例示出的一种神经网络示例图。

图8是本公开根据一示例性实施例示出的一种虚拟头像生成装置框图。

图9是本公开根据一示例性实施例示出的另一种虚拟头像生成装置框图。

图10是本公开根据一示例性实施例示出的另一种虚拟头像生成装置框图。

图11是本公开根据一示例性实施例示出的另一种虚拟头像生成装置框图。

图12是本公开根据一示例性实施例示出的一种用于虚拟头像生成装置的一结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开运行的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所运行的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中运行的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所运行的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本公开实施例提供了一种虚拟头像生成方法，可以由人脸驱动设备，例如avatar执行。

如图1所示，图1示出了根据本公开实施例的虚拟头像生成方法的一个例子。

在步骤101中，确定与至少一个目标人脸属性关联的目标任务。其中，所述至少一个目标人脸属性分别为预定义的多个人脸属性之一。

在本公开实施例中，人脸属性(face property)可以包括但不限于发型、胡子、眼镜、眼皮等。

人脸驱动设备可以为用户提供预定义的多个人脸属性，由用户根据自身需要在这些人脸属性中确定要分析的目标人脸属性。其中，目标任务可以对上述至少一个人脸属性进行分析。例如，目标任务可以是对发型进行分析，或者对胡子和眼皮进行分析等等。

在步骤102中，根据所述目标任务对至少包括人脸的目标图像进行关于所述目标人脸属性的分析，获得所述目标图像上与所述目标人脸属性关联的目标人脸属性参数。

人脸驱动设备对通过相机采集到的目标图像进行人脸属性分析时，可以只对目标任务对应的目标人脸属性进行分析，从而得到目标图像上与所述目标人脸属性关联的目标人脸属性参数(target face property feature)。

例如，假设目标人脸属性为眼皮，眼皮可以关联有多个预定义的参数，如包括单眼皮、开扇形双眼皮、平行型双眼皮、欧式型双眼皮等。人脸驱动设备通过对目标图像进行关于眼皮的人脸属性分析，可以得到目标人脸属性参数，例如平行型双眼皮。

在步骤103中，根据预定义的人脸属性参数和虚拟头像模版之间的对应关系，确定与所述目标人脸属性参数对应的目标虚拟头像模版。

人脸驱动设备中可以存储预定义的人脸属性参数和虚拟头像模版之间的对应关系。例如每个虚拟头像模版对应至少一个人脸属性参数。可选地，虚拟头像模版可以采用卡通人物形象。

人脸驱动设备在确定目标人脸属性参数之后，可以在预存的虚拟头像模版库中确定与目标人脸属性参数对应的目标虚拟头像模版。其中，目标虚拟头像模版的数目可以是一个或多个，本公开对此不作限定。

在步骤104中，基于所述目标虚拟头像模版在所述目标图像上生成虚拟头像。

在人脸驱动设备例如avatar中，可以直接将目标虚拟头像模版作为要在目标图像上生成的虚拟头像。

如果目标虚拟头像模版的数目为多个，则可以由用户选择一个作为虚拟头像，并由人脸驱动设备在目标图像上生成该虚拟头像。

例如，假设目标图像如图2所示，目标任务是对发型进行人脸属性分析，则生成的虚拟头像可以如图3的右上角所示。

上述实施例中，可以根据与至少一个人脸属性关联的目标任务提取至少包括人脸的目标图像上的人脸属性参数，再结合预定义的人脸属性参数和虚拟头像模版之间的对应关系确定对应的目标虚拟头像模版，基于目标虚拟头像模版在目标图像上生成虚拟头像。如此，可对至少包括人脸的图像进行更精确地人脸属性分析，相应生成的虚拟头像可为用户提供更丰富的初始化人脸属性样式。

在一些可选实施例中，例如图4所示，步骤102可以包括：

在步骤102-1中，确定与所述目标人脸属性对应的目标神经网络。

本公开实施例中，可以为与至少一个人脸属性关联的目标任务训练得到对应的目标神经网络。在需要执行目标任务时，可以将目标神经网络作为相应的神经网络，以便后续进行人脸属性分析。

在步骤102-2中，将所述目标图像输入所述目标神经网络，获得所述目标神经网络输出的预估值，所述预估值表示所述目标图像具有与所述目标人脸属性关联的至少一个人脸属性参数的可能性概率。

人脸驱动设备可以将至少包括人脸的目标图像输入到目标神经网络中，由目标神经网络输出表示目标图像具有与目标人脸属性关联的至少一个人脸属性参数的可能性概率的预估值。其中，表示目标图像具有某个人脸属性参数的可能性概率的预估值，以下也可简化表述为针对该人脸属性参数的预估值、或者该人脸属性参数的预估值。

例如，假设目标人脸属性为眼皮，则目标神经网络可以输出表示目标图像具有与眼皮关联的至少一个人脸属性参数的可能性概率的预估值分别为如表1所示。

表1

人脸属性参数	可能性概率的预估值
单眼皮	0.1
开扇形双眼皮	0.6
平行型双眼皮	0.2
欧式型双眼皮	0.1

在步骤102-3中，将所述目标神经网络输出的所述预估值中的最大值所对应的人脸属性参数，作为所述目标人脸属性参数。

例如，根据表1可以将预估值中的最大值0.6所对应的人脸属性参数，即开扇形双眼皮作为目标人脸属性参数。

在一些可选实施例中，可以对上述人脸属性进行划分，得到每个人脸属性分别包括的至少一个分类(subclass)，从而更精确的描述人脸属性。划分方式可以包括但不限于表2所示的方式。

表2

人脸属性	人脸属性的分类
发型	刘海、卷发、头发长度
胡子	位于人中、位于下巴中心、位于下巴两侧
眼镜	眼镜种类、镜框类型、镜片形状、镜框粗细
眼皮	单眼皮、开扇形双眼皮、平行型双眼皮、欧式型双眼皮

再进一步地，每个人脸属性的分类可以包括至少一个人脸属性参数，例如表3所示。

表3

本公开对人脸属性的划分包括但不限于上述方式。

本公开实施例中，根据表3的划分，目标任务所需要分析的目标人脸属性可以包括预定义的至少一个分类。例如，如果目标人脸属性为发型，则发型这个人脸属性包括了三个分类，分别是刘海、卷发和头发长度。每个不同的分类还包括了至少一个人脸属性参数。其中，每个分类所关联的所有人脸属性参数的预估值的和值为1。例如，对于卷发这个分类，无头发、直发、大卷发、小卷发四个人脸属性参数各自对应的预估值可以分别为0.1、0.6、0.2和0.1，和值为1。

相应地，在上述实施例中，针对所述目标人脸属性的至少一个分类中的任一个分类，目标神经网络输出与该分类关联的至少一个人脸属性参数的可能性概率的预估值之后，人脸驱动设备可以将所述目标神经网络输出的针对该分类的所述预估值中的最大值所对应的人脸属性参数，作为该分类对应的目标人脸属性参数。例如，假设目标人脸属性为发型，其中，针对刘海这个分类的预估值中的最大值所对应的人脸属性参数为无刘海，针对卷发这个分类的预估值中的最大值所对应的人脸属性参数为直发，针对头发长度这个分类的预估值中的最大值所对应的人脸属性参数为短发但不过肩。则最终人脸驱动设备可以将无刘海、直发、短发但不过肩这三个人脸属性参数分别作为刘海、卷发和头发长度这三个分类各自对应的目标人脸属性参数。

在一些可选实施例中，例如图5所示，至少在执行步骤102之前，上述虚拟头像生成方法还可包括以下：

在步骤100-1中，对关注图像进行仿射变换，得到人脸转正后的图像。

本公开实施例中，所述关注图像(image of interest)可以是预先拍摄的包括人脸的图像，人脸驱动设备可以对关注图像进行仿射变换，从而将关注图像中偏转的人脸转正。

在步骤100-2中，从所述人脸转正后的图像中截取出目标区域的图像，得到所述目标图像。

本公开实施例中，人脸驱动设备可以采用人脸特征点定位方法，并且所述目标区域至少包括人脸关键点所在的区域。这样，可从所述人脸转正后的图像中截取出至少包括人脸关键点所在区域的图像，作为所述目标图像。其中，人脸关键点包括但不限于眉毛、眼睛、鼻子、嘴巴、脸部轮廓等。

相应地，人脸驱动设备在执行上述步骤102时，可以对所述目标图像进行人脸属性分析，获得所述目标图像上与所述目标人脸属性关联的目标人脸属性参数。获得目标人脸属性参数的方法与上述实施例中的方法一致，在此不再赘述。

本公开实施例中，可以对关注图像进行人脸转正后，再截取出包括人脸关键点所在区域的目标图像，后续针对目标图像进行人脸属性分析，使得人脸属性分析的结果更加准确。

在一些可选实施例中，针对上述步骤100-2，人脸驱动设备在从人脸转正后的图像中截取目标区域的图像时，目标区域除了可以包括人脸关键点所在的区域，还可以包括位于所述目标人脸属性所对应的人脸部位外侧预设面积的区域。可选地，不同的目标人脸属性所对应的人脸部位外侧的预设面积可以不同。

例如，在目标人脸属性为胡子、眼镜或眼皮时，对应的人脸部位为嘴巴、眉毛、眼睛等，且所述预设面积可以小于相应的人脸部位所占面积的一半。例如，在嘴巴作为目标人脸属性时，目标图像除了要截取嘴巴所在区域之外，还可以截取嘴巴外侧预设面积的区域，且该预设面积可以小于所截取的嘴巴所在区域面积的一半。

又例如，如果目标人脸属性为发型，对应的人脸部位为脸部轮廓。在这种情况下，为了避免提取发型时产生偏差，预设面积可以为整个脸部轮廓面积的一半或以上。

上述实施例中，目标区域除了包括人脸关键点所在的区域，还可以包括位于目标人脸属性所对应的人脸部位外侧的预设面积的区域，提高了进行目标人脸属性分析的准确度。

在一些可选实施例中，目标神经网络可以包括对应不同人脸属性的多个子网络。例如，目标神经网络包括分别对应发型、胡子、眼镜、眼皮的4个子网络。

在本公开实施例中，如图6所示，训练目标神经网络的过程可以包括：

在步骤201中，将至少包括人脸的至少一个样本图像输入第一神经网络。其中，各所述样本图像标记有与第一人脸属性关联的人脸属性参数，并且所述第一神经网络包括与所述第一人脸属性对应的第一子网络。

其中，可通过对预先采集的至少包括人脸的至少一个图像进行仿射变换后，截取出目标区域的图像，来得到所述至少一个样本图像。

本公开实施例中，可以对预先采集的至少包括人脸的每一个图像进行仿射变换以将人脸转正，然后从人脸转正后的图像截取出目标区域的图像，得到相应的一个样本图像。其中，所述目标区域至少包括人脸关键点所在的区域。

在步骤202中，将所述第一神经网络输出的所述至少一个样本图像上与所述第一人脸属性关联的至少一个人脸属性参数作为预测值，将所述至少一个样本图像上标记的与所述第一人脸属性对应的至少一个人脸属性参数作为真实值，对所述第一子网络进行训练。这样，训练完成后的所述第一子网络可被用作所述目标神经网络。

本公开实施例中，第一人脸属性可以是预定义的多个人脸属性中的任一个，例如可以是眼皮、发型、胡子、眼镜中的任一个。

如上所述，样本图像上与第一人脸属性关联的人脸属性参数是已知的。换言之，样本图像可标记有与第一人脸属性关联的人脸属性参数。例如，假设第一人脸属性为胡子，某个样本图像上与胡子对应的人脸属性参数可包括人中无胡子、下巴中心无胡子、下巴两侧无胡子。

本公开实施例中，可以将目标神经网络输出的至少一个样本图像上与第一人脸属性关联的至少一个人脸属性参数作为神经网络的预测值，将至少一个样本图像上标记的与第一人脸属性对应的至少一个人脸属性参数作为真实值，来优化调整第一子网络的网络参数，从而得到与第一人脸属性对应的第一子网络。

本公开实施例中，可以采用上述方式训练得到任一人脸属性对应的子网络。多个子网脸构成了目标神经网络。

在一些可选实施例中，本公开实施例中的目标神经网络所包括的子网络可以采用残差网络(Res Net)。残差网络的网络结构可以如图7所示。

该残差网络可包括一个单独的卷积层710。该卷积层710可用于提取基本信息，并降低输入图像(例如，至少包括人脸的目标图像或样本图像)的特征图(feature map)维度。例如，从3维降为2维。

如图7所示，该深度残差网络还可以包括两个残差网络块(ResNet Blob)721和722。ResNet Blob在结构上的特点为具有一个残差单元，从而可以在不改变任务整体输入输出的情况下，将任务的复杂度降低。其中，ResNet Blob 721可以包括卷积层以及批量归一化(Batch Normalization，BN)层，可用于提取特征信息。ResNet Blob 722也可以包括卷积层以及BN层，也可用于提取特征信息。不过，ResNet Blob 722在结构上可以比ResNet Blob 721多一个卷积层以及BN层，因此，ResNet Blob 722还可用于降低特征图的维度。

通过这种方式，可以利用深度的残差网络，较准确地得到目标图像的人脸特征信息。应当理解，可以使用任意一种卷积神经网络结构对目标图像的目标区域进行特征提取处理，得到目标区域的人脸图像的特征信息，本公开对此不作限制。

如图7所示，该深度残差网络还可以包括全连接层730。例如，该深度残差网络可以包括3个全连接层。全连接层730可将人脸图像的特征信息进行降维处理，并同时保留有用的人脸属性相关的信息。

该深度残差网络还可以包括输出分割层740。该输出分割层740可将全连接层730、具体为其中最后一个全连接层的输出进行输出分割处理，得到与至少一个人脸属性分类关联的至少一个人脸属性参数的预估值。例如，最后一个全连接层的输出经过输出分割层740处理后，可得到第一人脸属性为眼镜时所包括的4个分类(可具体为眼镜种类、镜框类型、镜片形状、镜框粗细)各自对应的至少一个人脸属性参数的预估值。

在一些可选实施例中，在步骤201之前，同样可以通过对预采集的关注图像先进行处理，例如进行人脸的转正，然后从所述人脸转正后的图像中截取出所述目标区域的图像，得到对应的样本图像。其中，目标区域至少包括人脸转正后的图像上人脸关键点所在的区域。这一过程与人脸属性分析过程中描述的基本一致，在此不再赘述。

在一些可选实施例中，在对样本图像进行截取时，目标区域除了包括人脸关键点所在的区域之外，还可以包括位于不同的目标人脸属性各自所对应的人脸部位外侧预设面积的区域。该过程也与人脸属性分析过程中描述的基本相同，在此也不再赘述。

在一些可选实施例中，预先采集的至少包括人脸的至少一个关注图像经过人脸转正和目标区域截取之后，还可以进行平移、旋转、缩放和水平翻转中的至少一项处理，并将得到的处理后图像也作为样本图像，进行后续的网络训练。这样，有效扩充了样本图像的集合，可以让后续训练得到的目标神经网络适应更多的人脸属性分析的复杂场景。

与前述方法实施例相对应，本公开还提供了装置的实施例。

如图8所示，图8是本公开一些实施例提供的一种虚拟头像生成装置的框图，装置可包括：任务确定模块810，被配置为确定与至少一个目标人脸属性关联的目标任务，其中，所述至少一个目标人脸属性分别为预定义的多个人脸属性之一；人脸属性分析模块820，被配置为根据所述目标任务对至少包括人脸的目标图像进行关于所述目标人脸属性的分析，获得所述目标图像上与所述目标人脸属性关联的目标人脸属性参数；虚拟头像模版确定模块830，被配置为根据预定义的人脸属性参数和虚拟头像模版之间的对应关系，确定与所述目标人脸属性参数对应的目标虚拟头像模版；头像生成模块840，被配置为基于所述目标虚拟头像模版在所述目标图像上生成虚拟头像。

在一些可选实施例中，例如图9所示，所述人脸属性分析模块820包括：网络确定子模块821，被配置为确定与所述目标人脸属性对应的目标神经网络；预估值确定子模块822，被配置为将所述目标图像输入所述目标神经网络，获得所述目标神经网络输出的预估值，所述预估值表示所述目标图像具有与所述目标人脸属性关联的至少一个人脸属性参数的可能性概率；参数确定子模块823，被配置为将所述目标神经网络输出的所述预估值中的最大值所对应的人脸属性参数，作为所述目标人脸属性参数。

在一些可选实施例中，所述目标人脸属性包括预定义的至少一个分类。在此情况下，所述参数确定子模块823可被配置为：针对第一分类，将所述目标神经网络输出的针对所述第一分类的所述预估值中的最大值所对应的人脸属性参数，作为所述第一分类对应的目标人脸属性参数。其中，所述第一分类为所述目标人脸属性包括的至少一个分类中的任一分类。

在一些可选实施例中，例如图10所示，所述装置还包括：人脸转正处理模块850，被配置为对关注图像进行仿射变换，得到人脸转正后的图像；图像截取模块860，被配置为从所述人脸转正后的图像中截取出目标区域的图像，得到所述目标图像，其中，所述目标区域至少包括人脸关键点所在的区域。

在一些可选实施例中，所述目标区域还包括位于所述目标人脸属性所对应的人脸部位外侧的预设面积的区域。

在一些可选实施例中，所述目标神经网络包括对应不同的人脸属性的多个子网络。在这种情况下，例如图11所示，所述装置还包括训练模块870，所述训练模块被配置为：将至少包括人脸的至少一个样本图像输入第一神经网络，其中，各所述样本图像标记有与第一人脸属性关联的人脸属性参数，所述第一神经网络包括与所述第一人脸属性对应的第一子网络，所述第一人脸属性是预定义的所述多个人脸属性中的任一个属性；将所述第一神经网络输出的所述至少一个样本图像上与所述第一人脸属性关联的至少一个人脸属性参数作为预测值，将所述至少一个样本图像上标记的与所述第一人脸属性对应的至少一个人脸属性参数作为真实值，对所述第一子网络进行训练。这样，训练完成后得到的所述第一子网络即可作为所述目标神经网络。

在一些可选实施例中，所述第一子网络可采用残差神经网络的网络结构，且包括至少一个残差单元。其中，所述至少一个残差单元可各自包括至少一个卷积层以及至少一个批量归一化层。

在一些可选实施例中，如果所述第一子网络包括多个残差单元，则所述多个残差单元中的第二残差单元所包括的卷积层的数目和批量归一化层的数目均大于所述多个残差单元中的第一残差单元所包括的所述卷积层的数目和所述批量归一化层的数目。

在一些可选实施例中，所述第一子网络还包括输出分割层，所述输出分割层用于按照所述第一人脸属性包括的预定义的至少一个分类，对从所述样本图像中提取出的特征信息进行分割，得到针对所述至少一个分类各自关联的至少一个所述人脸属性参数的预估值。

在一些可选实施例中，同样可以通过对预采集的关注图像先进行处理，例如进行人脸的转正，然后从所述人脸转正后的图像中截取出所述目标区域的图像，得到对应的样本图像。其中，目标区域至少包括人脸转正后的图像上人脸关键点所在的区域。这一过程与从关注图像获得目标图像的过程中描述的基本一致，在此不再赘述。此外，在对样本图像进行截取时，目标区域除了包括人脸关键点所在的区域之外，也可以包括位于不同的目标人脸属性各自所对应的人脸部位外侧预设面积的区域。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本公开实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述任一所述的虚拟头像生成方法。

本公开实施例还提供了一种虚拟头像生成装置，所述装置包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器中存储的可执行指令，实现上述任一所述的虚拟头像生成方法。

如图12所示，图12是一些实施例提供的一种虚拟头像生成装置1200的一结构示意图。例如，装置1200可以被提供为一虚拟头像生成装置，应用在人脸驱动设备上。参照图12，装置1200包括处理组件1222，其进一步包括一个或多个处理器，以及由存储器1232所代表的存储器资源，用于存储可由处理部件1222的执行的指令，例如应用程序。存储器1232中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1222被配置为执行指令，以执行上述任一的虚拟头像生成方法。

装置1200还可以包括一个电源组件1226被配置为执行装置1200的电源管理，一个有线或无线网络接口1250被配置为将装置1200连接到网络，和一个输入输出(I/O)接口1258。装置1200可以操作基于存储在存储器1232的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeB SDTM或类似。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或者惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

以上所述仅为本公开的较佳实施例而已，并不用以限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开保护的范围之内。

Claims

一种虚拟头像生成方法，包括：

确定与至少一个目标人脸属性关联的目标任务，其中，所述目标人脸属性为预定义的多个人脸属性之一；

根据所述目标任务对至少包括人脸的目标图像进行关于所述目标人脸属性的分析，获得所述目标图像上与所述目标人脸属性关联的目标人脸属性参数；

根据预定义的人脸属性参数和虚拟头像模版之间的对应关系，确定与所述目标人脸属性参数对应的目标虚拟头像模版；

基于所述目标虚拟头像模版在所述目标图像上生成虚拟头像。
根据权利要求1所述的方法，其特征在于，所述根据所述目标任务对至少包括人脸的目标图像进行关于所述目标人脸属性的分析，包括：

确定与所述目标人脸属性对应的目标神经网络；

将所述目标图像输入所述目标神经网络，获得所述目标神经网络输出的预估值，所述预估值表示所述目标图像具有与所述目标人脸属性关联的至少一个人脸属性参数的可能性概率；

将所述目标神经网络输出的所述预估值中的最大值所对应的人脸属性参数，作为所述目标人脸属性参数。
根据权利要求2所述的方法，其特征在于，所述目标人脸属性包括预定义的至少一个分类；所述将所述目标神经网络输出的所述预估值中的最大值所对应的人脸属性参数，作为所述目标人脸属性参数，包括：

针对第一分类，将所述目标神经网络输出的针对所述第一分类的所述预估值中的最大值所对应的人脸属性参数，作为所述第一分类对应的所述目标人脸属性参数，所述第一分类为所述目标人脸属性包括的至少一个分类中的任一分类。
根据权利要求2-3任一项所述的方法，其特征在于，采用以下方式训练得到所述目标神经网络：

将至少包括人脸的至少一个样本图像输入第一神经网络，其中，各所述样本图像标记有与第一人脸属性关联的人脸属性参数，所述第一神经网络包括与所述第一人脸属性对应的第一子网络，所述第一人脸属性是预定义的所述多个人脸属性中的任一属性；

将所述第一神经网络输出的所述至少一个样本图像上与所述第一人脸属性关联的至少一个人脸属性参数作为预测值，将所述至少一个样本图像上标记的与所述第一人脸属性对应的至少一个人脸属性参数作为真实值，对所述第一子网络进行训练，训练完成后得到所述目标神经网络。
根据权利要求4所述的方法，其特征在于，所述第一子网络采用残差神经网络的结构，且包括至少一个残差单元。
根据权利要求5所述的方法，其特征在于，

所述至少一个残差单元各自包括至少一个卷积层以及至少一个批量归一化层；并且

在所述至少一个残差单元包括多个残差单元的情况下，所述多个残差单元中的第二残差单元所包括的卷积层的数目和批量归一化层的数目均大于所述多个残差单元中的第一残差单元所包括的所述卷积层的数目和所述批量归一化层的数目。
根据权利要求5或6所述的方法，其特征在于，

所述第一子网络还包括输出分割层，

所述输出分割层用于按照所述第一人脸属性包括的预定义的至少一个分类，对从所述样本图像中提取出的特征信息进行分割，得到针对所述至少一个分类各自关联的至少一个人脸属性参数的预估值。
根据权利要求4-7任一项所述的方法，还包括：

对关注图像进行仿射变换，得到人脸转正后的图像；

从所述人脸转正后的图像中截取出目标区域的图像，得到所述目标图像或所述样本图像，其中，所述目标区域至少包括人脸关键点所在的区域。
根据权利要求8所述的方法，其特征在于，所述目标区域还包括位于所述目标人脸属性所对应的人脸部位外侧的预设面积的区域。
一种虚拟头像生成装置，包括：

任务确定模块，被配置为确定与至少一个目标人脸属性关联的目标任务，其中，所述目标人脸属性为预定义的多个人脸属性之一；

人脸属性分析模块，被配置为根据所述目标任务对至少包括人脸的目标图像进行关于所述目标人脸属性的分析，获得所述目标图像上与所述目标人脸属性关联的目标人脸属性参数；

虚拟头像模版确定模块，被配置为根据预定义的人脸属性参数和虚拟头像模版之间的对应关系，确定与所述目标人脸属性参数对应的目标虚拟头像模版；

头像生成模块，被配置为基于所述目标虚拟头像模版在所述目标图像上生成虚拟头像。
根据权利要求10所述的装置，其特征在于，所述人脸属性分析模块包括：

网络确定子模块，被配置为确定与所述目标人脸属性对应的目标神经网络；

预估值确定子模块，被配置为将所述目标图像输入所述目标神经网络，获得所述目标神经网络输出的预估值，所述预估值表示所述目标图像具有与所述目标人脸属性关联的至少一个人脸属性参数的可能性概率；

参数确定子模块，被配置为将所述目标神经网络输出的所述预估值中的最大值所对应的人脸属性参数，作为所述目标人脸属性参数。
根据权利要求11所述的装置，其特征在于，所述目标人脸属性包括预定义的至少一个分类；所述参数确定子模块配置为：

针对第一分类，将所述目标神经网络输出的针对所述第一分类的所述预估值中的最大值所对应的人脸属性参数，作为所述第一分类对应的所述目标人脸属性参数，其中，所述第一分类为所述目标人脸属性包括的至少一个分类中的任一分类。
根据权利要求10-12任一项所述的装置，其特征在于，所述装置还包括训练模块，所述训练模块被配置为：

将至少包括人脸的至少一个样本图像输入第一神经网络，其中，各所述样本图像标记有与第一人脸属性关联的人脸属性参数，所述第一神经网络包括与所述第一人脸属性对应的第一子网络，所述第一人脸属性是预定义的所述多个人脸属性中的任一个属性；

将所述第一神经网络输出的所述至少一个样本图像上与所述第一人脸属性关联的至少一个人脸属性参数作为预测值，将所述至少一个样本图像上标记的与所述第一人脸属性对应的至少一个人脸属性参数作为真实值，对所述第一子网络进行训练，训练完成后得到的所述第一子网络作为所述目标神经网络。
根据权利要求13所述的装置，其特征在于，所述第一子网络采用残差神经网络的网络结构，且包括至少一个残差单元。
根据权利要求14所述的装置，其特征在于，

所述至少一个残差单元各自包括至少一个卷积层以及至少一个批量归一化层；并且

在所述至少一个残差单元包括多个残差单元的情况下，所述多个残差单元中的第二残差单元所包括的卷积层的数目和批量归一化层的数目均大于所述多个残差单元中的第一残差单元所包括的所述卷积层的数目和所述批量归一化层的数目。
根据权利要求14或15所述的装置，其特征在于，

所述第一子网络还包括输出分割层，

所述输出分割层用于按照所述第一人脸属性包括的预定义的至少一个分类，对从所述样本图像中提取出的特征信息进行分割，得到针对所述至少一个分类各自关联的至少一个人脸属性参数的预估值。
根据权利要求10-16任一项所述的装置，其特征在于，所述装置还包括：

人脸转正处理模块，被配置为对关注图像进行仿射变换，得到人脸转正后的图像；

图像截取模块，被配置为从所述人脸转正后的图像中截取出目标区域的图像，得到所述目标图像或所述样本图像，其中，所述目标区域至少包括人脸关键点所在的区域。
根据权利要求17所述的装置，其特征在于，所述目标区域还包括位于所述目标人脸属性所对应的人脸部位外侧的预设面积的区域。
一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1至9任一所述的虚拟头像生成方法。
一种虚拟头像生成装置，其特征在于，所述装置包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器中存储的可执行指令，实现权利要求1至9中任一项所述的虚拟头像生成方法。