WO2022222810A1

WO2022222810A1 - 一种虚拟形象的生成方法、装置、设备及介质

Info

Publication number: WO2022222810A1
Application number: PCT/CN2022/086518
Authority: WO
Inventors: 吕伟伟; 黄奇伟; 白须; 陈朗
Original assignee: 北京字跳网络技术有限公司
Priority date: 2021-04-20
Filing date: 2022-04-13
Publication date: 2022-10-27
Also published as: US20230128505A1; CN113112580B; EP4207080A4; EP4207080A1; CN113112580A

Abstract

本公开实施例涉及一种虚拟形象的生成方法、装置、设备及介质，其中该方法包括：响应于用户输入获取目标图像；利用第一生成器得到目标图像对应的虚拟形象；其中，第一生成器是基于第一样本图像集和三维模型生成的第二样本图像集训练得到的。本公开利用第一生成器，有效简化了虚拟形象的生成方式，提升了生成效率，能够生成与目标图像一一对应的虚拟形象，使虚拟形象更加多样化；同时，第一生成器易于部署在各种生产环境中，降低了对硬件设备的性能要求。

Description

一种虚拟形象的生成方法、装置、设备及介质

本申请要求于2021年04月20日提交中国专利局、申请号为202110433895.8、发明名称为“一种虚拟形象的生成方法、装置、设备及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本公开涉及人工智能技术领域，尤其涉及一种虚拟形象的生成方法、装置、设备及介质。

背景技术

具有卡通、动漫等风格的三维虚拟形象广泛应用于虚拟主播、电商、新闻媒体等场景中，受到了越来越多用户的关注与喜爱。目前，三维虚拟形象一般是通过CG(Computer Graphics，计算机图形学)的方式渲染生成。但是，CG方式生成的虚拟形象单一，缺乏个性化，如果要实现多种多样的虚拟形象，需要从建模开始修改，制作时间较长、人力成本高；而且，渲染过程对图形硬件设备(如显卡)要求极高，在形象逼真程度和光影复杂度等渲染视觉效果方面，利用性能有限的硬件设备(如手机)是很难生成令人满意的虚拟形象的。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种虚拟形象的生成方法、装置、设备及介质。

本公开实施例提供了一种虚拟形象的生成方法，包括：

响应于用户输入获取目标图像；

利用第一生成器得到所述目标图像对应的虚拟形象；

其中，所述第一生成器是基于第一样本图像集和三维模型生成的第二样本图像集训练得到的。

可选的，在所述利用所述第一生成器得到所述目标图像对应的虚拟形象之前，所述方法还包括：

检测所述目标图像中面部的关键点，并确定包含所述关键点的包围盒；

所述利用所述第一生成器得到所述目标图像对应的虚拟形象的步骤，包括：

将所述包围盒和预设位置处的所述关键点输入至所述第一生成器；

通过所述第一生成器生成第一图像；其中，所述第一图像包括目标风格特征和所述目标图像的内容特征，所述目标风格特征是所述第一生成器从所述第二样本图像集的图像中学习得到的风格特征；

基于所述第一图像确定所述目标图像对应的虚拟形象。

可选的，基于所述第一图像确定所述目标图像对应的虚拟形象，还包括：

提取所述目标图像中的光照信息和低频信息；

将所述光照信息和低频信息与第一图像的同层次信息进行融合，得到第二图像；

将所述第二图像确定为所述目标图像对应的虚拟形象。

可选的，所述第二样本图像集中包括的第二样本图像的获取方式为：

建立面部不同的多个目标三维模型；

对各个所述目标三维模型进行渲染，得到多个第二样本图像。

可选的，所述建立面部不同的多个目标三维模型，包括：

建立面部的初始三维模型；

对所述初始三维模型的不同部位进行网格形变，得到面部不同的多个目标三维模型。

可选的，所述第二样本图像集还包括包含面部的三维模型的样本图像，所述第一样本图像集包括包含真实面部的样本图像，所述方法还包括：

基于第二生成器生成包含面部的三维模型的样本图像和包含真实面部的样本图像。

可选的，所述基于第二生成器生成包含面部的三维模型的样本图像和包含真实面部的样本图像，包括：

将所述第一样本图像集中的第一样本图像和所述第二样本图像集中的第二样本图像输入至第二生成器；

通过所述第二生成器交替采用正向混合和逆向混合，生成包含面部的三维模型的样本图像和包含真实面部的样本图像；其中，所述正向混合是基于所述第一样本图像生成包含面部的三维模型的样本图像，所述逆向混合是基于所述第二样本图像生成包含真实面部的样本图像。

可选的，所述第一生成器的训练过程包括：

从所述第一样本图像集中获取任一第一样本图像，从所述第二样本图像集中获取任一第二样本图像；

利用待训练的第一生成器，基于第二样本图像生成第一样本图像对应的虚拟形象样本图像；

计算所述第一样本图像和所述虚拟形象样本图像之间的图像损失值；其中，所述图像损失值用于衡量所述第一样本图像和所述虚拟形象样本图像之间相关度；

计算所述第一样本图像和所述虚拟形象样本图像之间的内容损失值；

计算所述第二样本图像和所述虚拟形象样本图像之间的风格损失值；

基于所述图像损失值、所述内容损失值和所述风格损失值确定目标损失值；

基于所述目标损失值训练所述第一生成器。

可选的，所述基于所述图像损失值、所述内容损失值和所述风格损失值确定目标损失值，包括：

确定所述图像损失值、所述内容损失值和所述风格损失值各自的权系数；所述权系数用于调整虚拟形象样本图像与第一样本图像之间的相似度；

根据所述权系数，将所述图像损失值、所述内容损失值和所述风格损失值的加权和确定为目标损失值。

可选的，所述响应于用户输入获取目标图像，包括：

检测用户输入的图像获取指令；其中，所述图像获取指令包括：选择操作、拍摄操作、上传操作、手势输入或动作输入；

响应于所述图像获取指令，获取目标图像。

可选的，所述第一样本图像集中的图像是包含真实面部的图像，所述第二样本图像集中的图像是包含面部的三维模型生成的图像。

本公开实施例还提供了一种虚拟形象的生成装置，包括：

图像获取模型，用于响应于用户输入获取目标图像；

形象生成模型，用于利用第一生成器得到所述目标图像对应的虚拟形象；

本公开实施例还提供了一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现如本公开实施例提供的虚拟形象的生成方法。

本公开实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行如本公开实施例提供的虚拟形象的生成方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点：

本公开实施例提供了一种虚拟形象的生成方法、装置、设备及介质，该方案响应于用户输入获取目标图像，利用第一生成器得到所述目标图像对应的虚拟形象。相比于现有CG方式，本技术方案利用第一生成器，有效简化了虚拟形象的生成方式，提升了生成效率，能够生成与目标图像一一对应的虚拟形象，使虚拟形象更加多样化；同时，第一生成器易于部署在各种生产环境中，降低了对硬件设备的性能要求。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种虚拟形象的生成方法的流程示意图；

图2为本公开实施例提供的一种初始三维模型的示意图；

图3为本公开实施例提供的一种网格形变的示意图；

图4为本公开实施例提供的一种虚拟形象样本图像的生成方式示意图；

图5为本公开实施例提供的一种虚拟形象的生成过程示意图；

图6为本公开实施例提供的一种虚拟形象的生成装置的结构框图；

图7为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

考虑到现有基于CG生成虚拟形象的方式，存在着形象单一，需要消耗大量的时间人力才能实现虚拟形象的多样化，而且，渲染过程对图形硬件设备要求极高等问题。基于此，本公开实施例提供了一种虚拟形象的生成方法、装置、设备及介质，该技术可用于游戏、直播等各种需要生成虚拟形象的场景中。为便于理解，以下对本公开实施例进行详细介绍。

图1为本公开实施例提供的一种虚拟形象的生成方法的流程示意图，该方法可以由虚拟形象的生成装置执行，其中该装置可以采用软件和/或硬件实现，一般可集成在电子设备中。如图1所示，该方法包括：

步骤S102，响应于用户输入获取目标图像。

其中，目标图像为包含有至少一个目标对象的面部的图像，该目标对象例如可以为人、动物等具有面部具体形象的真实对象。为便于理解，作为一种示例，本公开实施例以人作为目标对象进行描述，相应的，面部为人脸。

在一些实施例中，可以首先检测用户输入的图像获取指令；其中，图像获取指令可以包括但不限于：选择操作、拍摄操作、上传操作、手势输入或动作输入；上述手势输入比如针对屏幕的点击、长按、短按、拖拽和触摸屏幕形成的图案等，动作输入比如伸手指、挥手等手部动作，眨眼、张嘴等面部表情动作等。可以理解的是，以上仅为图像获取指令的示例，不应理解为限制。

然后响应于图像获取指令，获取目标图像。在一些具体实施例中，目标图像可以是响应于拍摄操作，通过图像采集装置拍摄的图像，也可以是响应于上传操作，由人工从本地存储上传的图像。该目标图像可以包括至少一个目标对象的面部。考虑到通过不同方式获取的目标图像可能尺寸各异，从而，可以先获取原始图像，然后按照预设尺寸，从原始图像中裁剪出包含目标对象的面部的区域图像，并将裁剪得到的区域图像作为目标图像。

步骤S104，通过第一生成器生成目标图像对应的虚拟形象。

其中，该第一生成器诸如可以为GAN(Generative Adversarial Networks，生成式对抗网络)，是基于第一样本图像集和三维模型生成的第二样本图像集训练得到的；第一样本图像集中的图像是包含真实面部的图像，第二样本图像集中的图像是基于包含面部的三维模型生成的图像。关于第一生成器训练的具体实现过程将在下文展开描述。训练好的第一生成器具有生成虚拟形象的功能，本实施例中的虚拟形象为具有动漫风格、油画风格等其他风格的虚拟的三维形象。

本公开实施例提供的虚拟形象的生成方法，响应于用户输入获取目标图像，通过第一生成器生成目标图像对应的虚拟形象。相比于现有CG方式，本技术方案利用第一生成器，有效简化了虚拟形象的生成方式，降低了生成成本，提升了生成效率，能够生成与目标图像一一对应的虚拟形象，使虚拟形象更加多样化；同时，第一生成器易于部署在各种生产环境中，降低了对硬件设备的性能要求。

为了更好地理解本公开提供的虚线形象的生成方法，以下对本公开实施例展开描述。

针对用于训练第一生成器的第二样本图像集，本实施例提供一种第二样本图像集中包括的第二样本图像的获取方式，参照如下所示：

建立面部不同的多个目标三维模型。在一种具体实现方式中，可以先通过MAYA、3D Max等三维建模工具，建立面部的初始三维模型，如图2所示；再对初始三维模型的不同部位分别进行网格形变，得到面部不同的多个目标三维模型。

初始三维模型具有网格拓扑结构，网格形变是指对目标部位对应的局部网格拓扑结构进行形变，以使形变后的网格所表示的目标部位满足用户的形变需求。在一个具体示例中，参照图3所示，对初始三维模型的单侧眼睛部位进行网格形变，使眼睛由睁开状态形变为闭合状态，得到面部为闭合一只眼睛的目标三维模型；还比如，对初始三维模型的嘴巴部位进行网格形变，使嘴巴由正常的闭合状态形变为撇嘴状态，得到面部为撇嘴表情的目标三维模型。可以理解的是，图3仅为两种网格形变的示例，此外还可以有多种形式的网格形变，诸如面部轮廓宽窄的形变等，在此不再一一列举。本实施例通过网格形变，可以由面部形式单一的初始三维模型得到面部形式多样化的多种目标三维模型。

接下来，可以对目标三维模型进行渲染，得到多个第二样本图像。具体的，针对每个目标三维模型，均可以对该模型的发型、发色、肤色、脸型胖瘦、光照等纹理信息进行渲染，以得到包含不同三维面部模型的第二样本图像；渲染得到的不同第二样本图像示例为：第二样本图像P1为蓝色披肩发、一字眉、丹凤眼、微笑的女孩人脸，第二样本图像P2为灰色披肩发、柳叶眉、圆眼睛、嘴巴微张的女孩人脸，第二样本图像P3为棕色扎马尾、被头帘遮住眉毛、眼睛视角向上、嘟嘴的女孩人脸，第二样本图像P4为短发、有胡须的男孩人脸。

考虑到基于三维模型生成的第二样本图像集中的图像可能包含的三维模型的形象有限，基于此，本实施例还可以提供如下一种获取第二样本图像集中图像的方式：基于第二生成器生成包含面部的三维模型的样本图像，并将生成的包含面部的三维模型的样本图像加入至第二样本图像集。本实施例中的第二生成器用于基于包括真实面容的图像生成包含面部的三维模型的样本图像；上述包括真实面容的图像可以采用第一样本图像集中的第一样本图像；第二生成器生成的包含面部的三维模型的样本图像的示例诸如：闭眼表情的样本图像和面部戴眼镜的样本图像。利用第二生成器可以生成丰富多样的第二样本图像，增加了第二样本图像集中图像的多样性。在本实施例中，基于三维模型生成的第二样本图像，以及利用第二生成器生成的第二样本图像，共同作为包含有面部三维模型的训练数据，应用于第一生成器的训练过程中。

针对用于训练第一生成器的第一样本图像集，通常可以从网络、本地数据库中采集第一样本图像，或者利用图像采集装置采集第一样本图像。由于在实际应用中，包含诸如紧闭双眼、戴眼镜、大笑等特殊面部特征的第一样本图像较少或很难采集，因此，本实施例可以参照上述利用第二生成器生成的第二样本图像的方式，基于第二生成器生成包含真实面部的样本图像，并将生成的包含真实面部的样本图像加入至第一样本图像集，由此增加第一样本图像的多样性。

在上述实施例中，利用第二生成器生成第一样本图像和第二样本图像的具体方式包括：将第一样本图像集中的第一样本图像和第二样本图像集中的第二样本图像输入至第二生成器；通过第二生成器交替采用正向混合和逆向混合，生成包含面部的三维模型的样本图像和包含真实面部的样本图像；其中，正向混合是基于第一样本图像生成包含面部的三维模型的样本图像，逆向混合是基于第二样本图像生成包含真实面部的样本图像。

基于上述第一样本图像集和第二样本图像集，本实施例提供一种第一生成器的训练过程，参照如下步骤1至步骤7所示。

步骤1，从第一样本图像集中获取任一第一样本图像，从第二样本图像集中获取任一第二样本图像。

步骤2，利用待训练的第一生成器，基于第二样本图像生成第一样本图像对应的虚拟形象样本图像。

在一种实施例中，待训练的第一生成器为GAN网络中的生成器，GAN网络中还包括判别器。如图4所示，通过第一生成器提取第一样本图像的样本内容特征，以及提取第二样本图像的样本三维风格特征。样本内容特征用于表示第一样本图像中面部的位置信息，如口眼鼻等关键点的位置坐标、面部角度和发型轮廓等信息；样本三维风格特征用于表示第二样本图像中面部的色调、形状、纹理等高层语义特征。而后将样本内容特征和样本三维风格特征进行融合，得到虚拟形象样本图像；虚拟形象样本图像中包含与第一样本图像中真实面部对应的虚拟形象。

此外需要说明的是，在实际应用中，还可以通过第一生成器提取第一样本图像的样本风格特征，以及提取第二样本图像的样本三维内容特征；以及，基于样本风格特征和样本内容特征生成第一样本图像对应的第一还原图像，基于样本三维风格特征和样本三维内容特征生成第二样本图像对应的第二还原图像。

为了保证第一生成器的输出图像与输入图像之间的相关性，也即保证虚拟形象与真实面部更相像，在第一生成器训练过程中，可以增加表示虚拟形象样本图像和第一样本图像相关度的目标损失值。该目标损失值的计算过程参照如下步骤3至步骤6所示：

步骤3，计算第一样本图像和虚拟形象样本图像之间的图像损失值；其中，图像损失值用于对第一样本图像和虚拟形象样本图像之间相关度进行评估。

步骤4，计算第一样本图像和虚拟形象样本图像之间的内容损失值。

步骤5，计算第二样本图像和虚拟形象样本图像之间的风格损失值。

步骤6，基于图像损失值、内容损失值和风格损失值确定目标损失值。具体的，确定图像损失值、内容损失值和风格损失值各自的权系数；权系数用于调整虚拟形象样本图像与第一样本图像之间的相似度，且可以根据实际需求设置，比如，当用户需要生成的虚拟形象更加贴近真实面部时，可以设置内容损失值的权系数大于风格损失值的权系数，当用户需要生成的虚拟形象更具有动漫等虚拟风格时，可以设置风格损失值的权系数大于内容损失值的权系数。根据权系数，将图像损失值、内容损失值和风格损失值的加权和确定为目标损失值。

本实施例中的目标损失值，综合考虑了第一样本图像和虚拟形象样本图像之间的相关度和内容损失，以及第二样本图像和虚拟形象样本图像之间的风格损失，通过该目标损失值对第一生成器进行训练，使得第一生成器能够更好的获取与目标对象贴合度高的虚拟形象，提高了用户体验。

步骤7，基于目标损失值训练第一生成器。本实施例可以基于目标损失值调整第一生成器的参数并继续训练；当目标损失值收敛至预设值时结束训练，得到训练好的第一生成器。

通过上述训练过程，得到可直接应用于虚拟形象生成的第一生成器，将该第一生成器进行压缩后，迁移到手机、平板等硬件设备上使用。

如图5所示，在通过第一生成器生成目标对象对应的虚拟形象之前，本实施例可以首先检测目标图像中面部的关键点，并确定包含关键点的包围盒。具体可根据人脸检测算法检测目标图像中面部的关键点，并确定包含关键点的包围盒。

而后，通过第一生成器生成目标图像对应的虚拟形象的具体过程可以包括：将包围盒和预设位置处的关键点输入至第一生成器，通过第一生成器生成第一图像。其中，预设位置为一组代表人脸内容的位置，如可以包括左眼位置、右侧眉毛的眉头和眉尾位置、鼻子下方的左侧位置；当然也可以为其他能够表示人脸内容的位置。通过第一生成器生成的第一图像包括目标风格特征和目标图像的内容特征，该目标风格特征是第一生成器从第二样本图像集的图像中学习得到的风格特征，如动漫风格特征。

基于第一图像确定目标图像对应的虚拟形象。在一种实现方式中，可以直接将第一图像确定为目标图像对应的虚拟形象。

为了使虚拟形象的真实性更高，与目标图像中的对象、环境更匹配，还可以提供另一种实现方式，即：(1)提取目标图像中的光照信息和低频信息。在实际应用中，图像的频率是表征图像中灰度变化剧烈程度的指标，图像中灰度变化缓慢的区域对应为低频信息，基于此，通过低频信息可以表示目标图像中面部的大致轮廓。(2)将光照信息和低频信息与第一图像的同层次信息进行融合，得到第二图像。(3)将第二图像确定为目标图像对应的虚拟形象。

综上，本公开实施例提供的虚拟形象的生成方法，利用第一生成器，有效简化了虚拟形象的生成方式，提升了生成效率。在第一生成器的训练过程中，通过第一样本图像集和基于三维模型和第二生成器生成的第二样本图像集，有效增加了训练数据的多样性；训练好的第一生成器在实际使用中，如果想要获得丰富多样的虚拟形象，只需变更输入至第一生成器的目标图像，便能够对各张目标图像生成一一对应的虚拟形象，使虚拟形象更加多样化，从而满足用户对虚拟形象的个性化、多样化需求。同时，第一生成器易于部署在各种生产环境中，降低了对硬件设备的性能要求。

图6为本公开实施例提供的一种虚拟形象的生成装置的结构示意图，该装置可由软件和/或硬件实现，一般可集成在电子设备中，可通过执行虚拟形象的生成方法来生成目标对象的虚拟形象。如图6所示，该装置包括：

图像获取模型602，用于响应于用户输入获取目标图像；

形象生成模型604，用于利用第一生成器得到目标图像对应的虚拟形象；

其中，第一生成器是基于第一样本图像集和三维模型生成的第二样本图像集训练得到的。

在一种实施例中，上述生成装置还包括检测模块，该检测模块用于：检测目标图像中面部的关键点，并确定包含关键点的包围盒；

相应地，上述形象生成模型604包括：

输入单元，用于将包围盒和预设位置处的关键点输入至第一生成器；

图像生成单元，用于利用第一生成器得到第一图像；其中，第一图像包括目标风格特征和目标图像的内容特征，目标风格特征是第一生成器从第二样本图像集的图像中学习得到的风格特征；

形象生成单元，用于基于第一图像确定目标图像对应的虚拟形象。

在一种实施例中，上述形象生成单元还用于：

提取目标图像中的光照信息和低频信息；将光照信息和低频信息与第一图像的同层次信息进行融合，得到第二图像；将第二图像确定为目标图像对应的虚拟形象。

在一种实施例中，上述生成装置包括第二样本图像获取模块，其包括：

建模单元，用于建立面部不同的多个目标三维模型；

渲染单元，用于对目标三维模型进行渲染，得到多个第二样本图像。

在一种实施例中，上述建模单元具体用于：建立面部的初始三维模型；对初始三维模型的不同部位进行网格形变，得到面部不同的多个目标三维模型。

在一种实施例中，上述生成装置还包括样本图像生成模块，其用于：

基于第二生成器生成包含面部的三维模型的样本图像和包含真实面部的样本图像；

将包含面部的三维模型的样本图像加入至第二样本图像集，将包含真实面部的样本图像加入至第一样本图像集。

在一种实施例中，上述样本图像生成模块具体用于：

将第一样本图像集中的第一样本图像和第二样本图像集中的第二样本图像输入至第二生成器；

通过第二生成器交替采用正向混合和逆向混合，生成包含面部的三维模型的样本图像和包含真实面部的样本图像；其中，正向混合是基于第一样本图像生成包含面部的三维模型的样本图像，逆向混合是基于第二样本图像生成包含真实面部的样本图像。

在一种实施例中，上述生成装置还包括训练模块，其用于：

从第一样本图像集中获取任一第一样本图像，从第二样本图像集中获取任一第二样本图像；

计算第一样本图像和虚拟形象样本图像之间的图像损失值；其中，图像损失值用于对第一样本图像和虚拟形象样本图像之间相关度进行评估；

计算第一样本图像和虚拟形象样本图像之间的内容损失值；

计算第二样本图像和虚拟形象样本图像之间的风格损失值；

基于图像损失值、内容损失值和风格损失值确定目标损失值；

基于目标损失值训练第一生成器。

在一种实施例中，上述训练模块具体用于：

确定图像损失值、内容损失值和风格损失值各自的权系数；权系数用于调整虚拟形象样本图像与第一样本图像之间的相似度；

根据权系数，将图像损失值、内容损失值和风格损失值的加权和确定为目标损失值。

在一种实施例中，上述图像获取模型602包括：

指令检测单元，用于检测用户输入的图像获取指令；其中，图像获取指令包括：选择操作、拍摄操作、上传操作、手势输入或动作输入；

图像获取单元，用于响应于图像获取指令，获取目标图像。

本公开实施例所提供的虚拟形象的生成装置可执行本发明任意实施例所提供的虚拟形象的生成方法，具备执行方法相应的功能模块和有益效果。

图7为本公开实施例提供的一种电子设备的结构示意图。如图7所示，电子设备700包括：处理器701；用于存储所述处理器701可执行指令的存储器702；所述处理器701，用于从所述存储器702中读取所述可执行指令，并执行所述指令以实现上述实施例中的虚拟形象的生成方法。

处理器701可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备700中的其他组件以执行期望的功能。

存储器702可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器701可以运行所述程序指令，以实现上文所述的本公开的实施例的虚拟形象的生成方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备700还可以包括：输入装置703和输出装置704，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

此外，该输入装置703还可以包括例如键盘、鼠标等等。

该输出装置704可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置704可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图7中仅示出了该电子设备700中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备700还可以包括任何其他适当的组件。

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本公开实施例所述虚拟形象的生成方法。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本公开实施例所提供的虚拟形象的生成方法。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本公开实施例还提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本公开实施例中的方法。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

一种虚拟形象的生成方法，其特征在于，包括：

响应于用户输入获取目标图像；

利用第一生成器得到所述目标图像对应的虚拟形象；

其中，所述第一生成器是基于第一样本图像集和三维模型生成的第二样本图像集训练得到的。
根据权利要求1所述的方法，其特征在于，在所述利用所述第一生成器得到所述目标图像对应的虚拟形象之前，所述方法还包括：

检测所述目标图像中面部的关键点，并确定包含所述关键点的包围盒；

所述利用所述第一生成器得到所述目标图像对应的虚拟形象的步骤，包括：

将所述包围盒和预设位置处的所述关键点输入至所述第一生成器；

通过所述第一生成器生成第一图像；其中，所述第一图像包括目标风格特征和所述目标图像的内容特征，所述目标风格特征是所述第一生成器从所述第二样本图像集的图像中学习得到的风格特征；

基于所述第一图像确定所述目标图像对应的虚拟形象。
根据权利要求2所述的方法，其特征在于，基于所述第一图像确定所述目标图像对应的虚拟形象，还包括：

提取所述目标图像中的光照信息和低频信息；

将所述光照信息和低频信息与第一图像的同层次信息进行融合，得到第二图像；

将所述第二图像确定为所述目标图像对应的虚拟形象。
根据权利要求1所述的方法，其特征在于，所述第二样本图像集中包括的第二样本图像的获取方式为：

建立面部不同的多个目标三维模型；

对各个所述目标三维模型进行渲染，得到多个第二样本图像。
根据权利要求4所述的方法，其特征在于，所述建立面部不同的多个目标三维模型，包括：

建立面部的初始三维模型；

对所述初始三维模型的不同部位进行网格形变，得到面部不同的多个目标三维模型。
根据权利要求4所述的方法，其特征在于，所述第二样本图像集还包括包含面部的三维模型的样本图像，所述第一样本图像集包括包含真实面部的样本图像，所述方法还包括：

基于第二生成器生成包含面部的三维模型的样本图像和包含真实面部的样本图像。
根据权利要求6所述的方法，其特征在于，所述基于第二生成器生成包含面部的三维模型的样本图像和包含真实面部的样本图像，包括：

将所述第一样本图像集中的第一样本图像和所述第二样本图像集中的第二样本图像输入至第二生成器；

通过所述第二生成器交替采用正向混合和逆向混合，生成包含面部的三维模型的样本图像和包含真实面部的样本图像；其中，所述正向混合是基于所述第一样本图像生成包含面部的三维模型的样本图像，所述逆向混合是基于所述第二样本图像生成包含真实面部的样本图像。
根据权利要求1所述的方法，其特征在于，所述第一生成器的训练过程包括：

从所述第一样本图像集中获取任一第一样本图像，从所述第二样本图像集中获取任一第二样本图像；

利用待训练的第一生成器，基于第二样本图像生成第一样本图像对应的虚拟形象样本图像；

计算所述第一样本图像和所述虚拟形象样本图像之间的图像损失值；其中，所述图像损失值用于衡量所述第一样本图像和所述虚拟形象样本图像之间相关度；

计算所述第一样本图像和所述虚拟形象样本图像之间的内容损失值；

计算所述第二样本图像和所述虚拟形象样本图像之间的风格损失值；

基于所述图像损失值、所述内容损失值和所述风格损失值确定目标损失值；

基于所述目标损失值训练所述第一生成器。
根据权利要求8所述的方法，其特征在于，所述基于所述图像损失值、所述内容损失值和所述风格损失值确定目标损失值，包括：

确定所述图像损失值、所述内容损失值和所述风格损失值各自的权系数；所述权系数用于调整虚拟形象样本图像与第一样本图像之间的相似度；

根据所述权系数，将所述图像损失值、所述内容损失值和所述风格损失值的加权和确定为目标损失值。
根据权利要求1所述的方法，其特征在于，所述响应于用户输入获取目标图像，包括：

检测用户输入的图像获取指令；其中，所述图像获取指令包括：选择操作、拍摄操作、上传操作、手势输入或动作输入；

响应于所述图像获取指令，获取目标图像。
根据权利要求1所述的方法，其特征在于，所述第一样本图像集中的图像是包含真实面部的图像，所述第二样本图像集中的图像是包含面部的三维模型生成的图像。
一种虚拟形象的生成装置，其特征在于，包括：

图像获取模型，用于响应于用户输入获取目标图像；

形象生成模型，用于利用第一生成器得到所述目标图像对应的虚拟形象；

其中，所述第一生成器是基于第一样本图像集和三维模型生成的第二样本图像集训练得到的。
一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-11中任一所述的虚拟形象的生成方法。
一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-11中任一所述的虚拟形象的生成方法。