WO2023088277A1

WO2023088277A1 - 虚拟穿戴方法、装置、设备、存储介质及程序产品

Info

Publication number: WO2023088277A1
Application number: PCT/CN2022/132132
Authority: WO
Inventors: 李安; 李玉乐; 项伟
Original assignee: 百果园技术(新加坡)有限公司; 李安
Priority date: 2021-11-16
Filing date: 2022-11-16
Publication date: 2023-05-25
Also published as: CN114067088A

Abstract

本申请公开了一种虚拟穿戴方法、装置、设备、存储介质及程序产品，其中该方法包括：获取包含目标人体的第一目标图像；获取包含目标穿戴物的第二目标图像；基于该第一目标图像获取人体特征信息，该人体特征信息包括与该目标穿戴物相关的目标人体关键点信息、人体解析结果以及穿戴物掩模图像；将该人体特征信息以及该第二目标图像输入至预先训练的虚拟穿戴网络中，以由该虚拟穿戴网络基于该人体特征信息确定人体穿戴区域信息，并根据该人体穿戴区域信息以及该第二目标图像确定该目标穿戴物的形变信息，以及根据该形变信息以及该人体特征信息生成穿戴效果图进行输出；其中，该虚拟穿戴网络是一种生成对抗网络。

Description

虚拟穿戴方法、装置、设备、存储介质及程序产品

本申请要求在2021年11月16日提交中国专利局、申请号为202111356765.5的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请涉及数据处理技术领域，例如涉及一种虚拟穿戴的方法、一种虚拟穿戴的装置、一种电子设备、一种计算机可读存储介质以及一种计算机程序产品。

背景技术

随着互联网的发展，网络购物越来越受大众喜欢，但和线下购物相比，线上购物存在一些体验差的问题，例如购买的衣服没有办法试穿，不知道效果如何，导致退货率高。而虚拟试衣技术目的就是提供一种虚拟的试衣场景，给用户带来更好的体验。虚拟试衣技术是计算机视觉领域的一种重要技术方向，其可以广泛用于电商平台中，以提升用户体验。

相关技术中提及的虚拟试衣技术，主要是通过重构3D人体，将3D的衣服变换(warp)到重构的3D人体身上。然而，3D的衣服是比较难获取的，并且重构的3D人体如果不够真实则会影响衣服试穿效果。因此相关技术中提及的虚拟试衣技术，比较难兼顾试衣效果和真实性。

发明内容

本申请提供一种虚拟穿戴方法、装置、设备、存储介质及程序产品，以避免相关技术中的虚拟试衣技术比较难兼顾试衣效果和真实性的情况。

第一方面，本申请实施例提供了一种虚拟穿戴的方法，所述方法包括：

获取包含目标人体的第一目标图像；

获取包含目标穿戴物的第二目标图像；

基于所述第一目标图像获取人体特征信息，所述人体特征信息包括与所述目标穿戴物相关的目标人体关键点信息、人体解析结果以及穿戴物掩模图像；

将所述人体特征信息以及所述第二目标图像输入至预先训练的虚拟穿戴网络中，以由所述虚拟穿戴网络基于所述人体特征信息确定人体穿戴区域信息，并根据所述人体穿戴区域信息以及所述第二目标图像确定所述目标穿戴物的形变信息，以及根据所述形变信息以及所述人体特征信息生成穿戴效果图进行输出；其中，所述虚拟穿戴网络是一种生成对抗网络。

第二方面，本申请实施例还提供了一种虚拟穿戴的装置，所述装置包括：

第一目标图像获取模块，设置为获取包含目标人体的第一目标图像；

第二目标图像获取模块，设置为获取包含目标穿戴物的第二目标图像；

人体特征信息获取模块，设置为基于所述第一目标图像获取人体特征信息，所述人体特征信息包括与所述目标穿戴物相关的目标人体关键点信息、人体解析结果以及穿戴物掩模图像；

穿戴效果图生成模块，设置为将所述人体特征信息以及所述第二目标图像输入至预先训练的虚拟穿戴网络中，以由所述虚拟穿戴网络基于所述人体特征信息确定人体穿戴区域信息，并根据所述人体穿戴区域信息以及所述第二目标图像确定所述目标穿戴物的形变信息，以及根据所述形变信息以及所述人体特征信息生成穿戴效果图进行输出；其中，所述虚拟穿戴网络是一种生成对抗网络。

第三方面，本申请实施例还提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储装置，设置为存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述第一方面的方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面的方法。

第五方面，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品包括计算机可执行指令，所述计算机可执行指令在被执行时设置为实现上述第一方面的方法。

附图说明

图1是本申请一实施例提供的一种虚拟穿戴的方法实施例的流程图；

图2是本申请另一实施例提供的一种虚拟穿戴的方法实施例的流程图；

图3是本申请一实施例提供的一种包含目标人体的第一目标图像示意图；

图4是本申请一实施例提供的一种对第一目标图像进行关键点检测后得到的人体关键点示意图；

图5是本申请一实施例提供的一种对第一目标图像进行人体解析后得到的初步人体解析结果示意图；

图6是本申请一实施例提供的对第一目标图像中的目标人体擦除衣服后得到的穿戴物掩模图像示意图；

图7是本申请一实施例提供的对初步人体解析结果擦除衣服后得到的人体解析结果示意图；

图8是本申请另一实施例提供的一种虚拟穿戴的方法实施例的流程图；

图9是本申请一实施例提供的一种虚拟穿戴网络架构示意图；

图10是本申请一实施例提供的一种穿戴区域生成模型架构示意图；

图11是本申请一实施例提供的一种穿戴区域生成模型的输入输出实现场景示意图；

图12是本申请一实施例提供的一种Warp模型的输入输出实现场景示意图；

图13是本申请一实施例提供的一种生成模型架构示意图；

图14是本申请一实施例提供的一种StyleGAN2模型架构示意图；

图15是本申请一实施例提供的一种生成模型的输入输出实现场景示意图；

图16是本申请一实施例提供的一种虚拟穿戴的装置实施例的结构框图；

图17是本申请一实施例提供的一种电子设备的结构示意图。

具体实施方式

图1为本申请一实施例提供的一种虚拟穿戴的方法实施例的流程图。该方法可以通过虚拟穿戴装置实现，其中，该虚拟穿戴装置可以按开发文档接入到APP或Web页面中，以在该APP或者Web页面中实现虚拟穿戴功能。该APP或Web页面所在的终端可以包括手机、平板电脑、试衣机器人等。

本实施例的虚拟穿戴的穿戴物可以包括衣服、裤子、鞋子、袜子、首饰等，为了便于理解，下述实施例均以衣服为例进行虚拟试衣场景的说明。

本实施例可以应用于电商平台、短视频娱乐、图像处理、电影制作、直播、游戏等场景的虚拟穿戴功能上。例如，在电商平台中，用户选定衣服以后，可以上传一张包含想要试穿该衣服的人物的照片，则通过虚拟试衣功能用户可以直接看到在该人物身上穿上该选定衣服的穿衣效果图。又如，给定一段视频，指定视频中需要试穿衣服的人物，以及想要试穿的衣服，则通过视频应用程序中的虚拟试衣功能，可以将视频中的该指定的人物的衣服换成想要试穿的衣服。

如图1所示，本实施例可以包括如下步骤：

步骤110，获取包含目标人体的第一目标图像。

在一种例子中，第一目标图像可以包括：经由虚拟穿戴功能页面导入的图像。例如，当用户触发虚拟试衣功能进入虚拟试衣功能页面以后，可以根据页面中的导入接口导入第一目标图像。其中，第一目标图像为包含需要试穿的目标人体的图像，该目标人体可以是用户本人，也可以是其他人；该第一目标图像可以是自拍图像，也可以是其他非自拍图像，本实施例对此不作限制。

在另一种例子中，第一目标图像还可以包括：目标视频中包含目标人体的多个图像帧。例如，在直播场景中，当用户在直播界面中触发虚拟试衣功能、并指定需要试穿衣服的人物时，则可以将该直播场景中包含该指定人物的图像帧作为第一目标图像。

需要说明的是，第一目标图像中的目标人体需要尽可能地完整保留人体的正面特征，至少是保留与目标穿戴物相关的人体部位的正面特征。

步骤120，获取包含目标穿戴物的第二目标图像。

示例性地，第二目标图像可以是用户上传的包含目标穿戴物的图像；或者，第二目标图像还可以是用户在当前APP或者Web页面展示的穿戴物图像序列中选定的图像；或者，第二目标图像还可以是用户在视频中选定某个人物，然后从该人物身上提取出目标穿戴物生成的图像，本实施例对第二目标图像的获取方式不作限定。

需要说明的是，第二目标图像中的目标穿戴物需要尽可能保留穿戴物的纹理、形状等重要特征。

在获得第一目标图像以及第二目标图像以后，可以将这两图像的尺寸处理成统一尺寸，例如采用中心等比例切割和等比例缩放等方式将两图像处理成统一尺寸。

步骤130，基于所述第一目标图像获取人体特征信息，所述人体特征信息包括：与所述目标穿戴物相关的目标人体关键点信息、人体解析结果以及穿戴物掩模图像。

目标人体关键点信息是指通过对第一目标图像中的目标人体进行关键点检测后得到的、与目标穿戴物相关的人体部位检测结果。

示例性地，目标人体关键点信息可以为对整个人体的关键点信息进行检测后选取的与目标穿戴物相关的人体部位的关键点信息；或者，目标人体关键点信息还可以为直接对目标穿戴物相关的人体部位进行关键点检测后得到的关键点信息，例如头部、颈部、肩部、手部等，本实施例对此不作限定。

人体解析结果是指通过对第一目标图像中的目标人体进行人体解析后得到的结果。人体解析就是将人体的多个部位分割出来，是一种细粒度的语义分割任务。例如，通过人体解析后可以将目标人体分割成头发、脸部、衣服、裤子、四肢等部位。

穿戴物掩模图像是指对第一目标图像中的目标人体中与目标穿戴物相关的穿戴物区域进行遮挡后得到的图像。例如，假设目标穿戴物为衣服，则穿戴物掩模图像是指对第一目标图像中的衣服进行遮挡后生成的图像。对目标穿戴物相关的穿戴物区域进行遮挡后得到的穿戴物掩模图像是与目标穿戴物无关的人体图像。

步骤140，将所述人体特征信息以及所述第二目标图像输入至预先训练的虚拟穿戴网络中，以由所述虚拟穿戴网络基于所述人体特征信息确定人体穿戴区域信息，并根据所述人体穿戴区域信息以及所述第二目标图像确定所述目标穿戴物的形变信息，以及根据所述形变信息以及所述人体特征信息生成穿戴效果图进行输出。

在该步骤中，虚拟穿戴网络可以为预训练的模型，其可以是一种生成对抗网络GAN(Generative Adversarial Networks)。生成就是模型通过学习一些数据，然后生成类似的数据。例如，让机器看一些动物图片，然后自己来产生动物的图片，这就是生成。生成式对抗网络是一种深度学习模型，模型通过框架中(至少)两个模块：生成模型(Generative Model)和判别模型(Discriminative Model)的互相博弈学习产生相当好的输出。判别模型需要输入变量，通过某种模型来预测；生成模型是给定某种隐含信息，来随机产生观测数据。

当通过对第一目标图像的分析得到人体特征信息后，可以将该人体特征信息与第二目标图像均输入至虚拟穿戴网络中，由虚拟穿戴网络进行虚拟试穿处理，输出目标人体穿戴该目标穿戴物后的穿戴效果图。

在虚拟穿戴网络中，首先可以基于人体特征信息来确定人体穿戴区域信息，该人体穿戴区域信息是指结合目标人体的姿态，确定的目标穿戴物穿戴在目标人体身上的哪个区域。然后，结合该人体穿戴区域信息以及第二目标图像可以确定目标穿戴物的形变信息，该形变信息是指目标穿戴物需要怎样扭曲形变才能匹配到目标人体的具体区域中。接着可以根据形变信息以及人体特征信息，将形变后的目标穿戴物贴在(Warp)目标人体身上，并擦除目标人体原有的与该目标穿戴物对应的穿戴物，生成穿戴效果图进行输出。

在本实施例中，当获得用户提供的包含目标人体的第一目标图像以及包含目标穿戴物的第二目标图像以后，可以从第一目标图像中提取出与目标人体相关的人体特征信息，如目标人体关键点信息、人体解析结果以及穿戴物掩模图像等，然后将人体特征信息与第二目标图像通过虚拟穿戴网络进行处理，由虚拟穿戴网络输出目标人体穿戴目标穿戴物后的穿戴效果图进行输出。对于用户而言，只需要指定目标人体以及目标穿戴物，即可得到目标人体穿戴目标穿戴物的穿戴效果图，操作简单快捷，提高了用户的使用体验。

在虚拟穿戴网络中，分成三步进行处理，先是基于人体特征信息确定目标穿戴物穿戴在目标人体上的人体穿戴区域信息，然后结合人体穿戴区域信息以及第二目标图像确定目标穿戴物的形变信息，最后根据形变后的目标穿戴物以及人体特征信息生成穿戴效果图进行输出。本实施例使用的虚拟穿戴网络是一种生成对抗网络，生成对抗网络通过上述的三步处理过程，可以使得输出的穿戴效果图能够同时兼顾效果和真实性，提高用户体验。且整个处理过程是对于图像的二维处理，相比于3D处理的方式，无需重构3D人体和3D衣服，降低了实现难度以及实现成本。

图2为本申请另一实施例提供的一种虚拟穿戴的方法实施例的流程图，本实施例在前述实施例的基础上，对人体特征信息的获取过程进行更具体的说明，可以包括如下步骤：

步骤210，获取包含目标人体的第一目标图像。

步骤220，获取包含目标穿戴物的第二目标图像。

步骤230，将所述第一目标图像输入至预训练的人体关键点检测模型，以由所述人体关键点检测模型对所述第一目标图像中的目标人体进行关键点检测，输出对应的人体关键点信息。

人体关键点是指人体的多个部位的关键位置点，人体关键点对于描述人体姿态，预测人体行为至关重要。人体关键点主要包括左、右手臂的三个点(手腕、手肘、肩膀)，左、右腿的三个点(脚腕、膝盖、胯骨)，髋、臀部点以及头部点(眼睛，下巴，头顶)等。

在该步骤中，可以通过人体关键点检测模型来对目标人体进行关键点检测。例如，人体关键点检测也称人体姿态估计，其任务是要在给定的图片中定位人体的身体关键部件，例如头部、颈部、肩部、手部等。在不同数据集上，需要检测的具体部位不同，检测出的关键点的数量也不同。

在一种实现中，人体关键点检测模型可以是一种基于深度学习的模型，根据不同的穿戴物，可以训练不同的人体关键点检测模型，以提取与该穿戴物匹配的人体关键点。本实施例对人体关键点检测模型的训练过程不作限定，本领域技术人员可以根据训练目标采用通用的人体关键点检测模型的训练方法进行模型拟合。

在另一种实现中，人体关键点检测模型还可以是预训练的经过多次推理检测、精度较高的无差别的关键点检测模型。例如，将第一目标图像输入一个相关技术中的无差别检测的人体关键点检测模型，得到每一人体关键点对应的概率分布图。其中，根据实际的处理情况和网络结构，可以对第一目标图像进行不同的采样处理，例如，第一目标图像是大小为3*256*256，经过三次下采样和卷积操作将第一目标图像预处理为n*32*32的图像。接着，将n*32*32的图像输入一个预设的沙漏网络(Hourglass)，进行升采样处理和卷积操作，得到对应的热力图(heatmap)，将该热力图对应的结果确定为人体关键点检测结果。

例如，如图3所示的包含目标人体的第一目标图像，经过关键点检测模型进行关键点检测后可以得到如图4所示的人体关键点示意图。

步骤240，从所述人体关键点信息中确定与所述目标穿戴物相关的目标关键点信息。

在一种实现中，如果人体关键点信息是针对与目标穿戴物匹配的指定人体部位的关键点信息，则可以将所有的关键点作为目标关键点。如果人体关键点信息是全部人体部位或者大部分人体部位的关键点信息，则可以选取与目标穿戴物匹配的指定人体部位的关键点作为目标关键点。

步骤250，将所述第一目标图像输入至预训练的人体解析模型，以由所述人体解析模型对所述第一目标图像中的目标人体进行人体解析，输出对应的初步人体解析结果。

人体解析旨在精确定位人体并将其划分为像素级的多个语义区域。例如，通过人体解析可以将人体划分为身体部位和衣物。示例性地，人体解析模型可以包括Human Parsing模型，例如，对于图3的第一目标图像，经过Human Parsing模型以后，输出的初步人体解析结果可以如图5所示。

步骤260，在所述第一目标图像中结合所述目标关键点信息以及所述初步人体解析结果绘制穿戴物掩模，生成穿戴物掩模图像。

为了减少原有穿戴物的影响，则该步骤可以将原有穿戴物擦除。在实现时，可以通过目标关键点信息以及初步人体解析结果绘制穿戴物掩模，例如，在进行虚拟试衣的场景中，目标关键点包括手臂关键点，可以基于手臂关键点绘制一个椭圆的图像掩模mask，这个椭圆的大小需要比原有手臂的范围大，在实现时椭圆的大小可以根据经验值确定。然后对于身体部分，可以基于初步人体解析结果中的身体部位，绘制方形mask，然后将两手臂的mask与身体部位的mask连接成一个完整的masks，最后再通过膨胀腐蚀的方法进行处理，得到擦除人体衣服的结果，即穿戴物掩模图像。例如，针对图3的第一目标图像，对其衣服进行遮挡后生成的穿戴物掩模图像可以如图6所示。

步骤270，在所述初步人体解析结果中基于所述目标关键点绘制穿戴物掩模，生成人体解析结果。

与步骤260的处理方法类似，对于初步人体解析结果也需要擦除原有的、与目标穿戴物对应的穿戴物区域，生成与原有穿戴物无关的人体解析结果。在处理时，可以将目标人体关键点信息叠加到初步人体解析结果中，并绘制相应的mask，然后将绘制的mask设置为背景色，例如，在虚拟试衣场景下，将绘制的手臂mask、身体mask等连接成的masks处理成背景色，生成的人体解析结果如图7所示。

在其他实施例中，还可以直接将步骤260中得到的masks部分叠加到初步人体解析结果中，并处理成背景色。

步骤280，将所述目标关键点信息、所述人体解析结果、所述穿戴物掩模图像以及所述第二目标图像输入至预先训练的虚拟穿戴网络中，以由所述虚拟穿戴网络基于所述目标关键点信息、所述人体解析结果及所述穿戴物掩模图像确定人体穿戴区域信息，并根据所述人体穿戴区域信息以及所述第二目标图像确定所述目标穿戴物的形变信息，以及根据所述形变信息、所述目标关键点信息以及所述穿戴物掩模图像生成穿戴效果图进行输出。

在得到目标关键点信息、穿戴物掩模图像以及人体解析结果以后，可以将这三者以及第二目标图像作为输入特征，输入至预训练的虚拟穿戴网络中，由虚拟穿戴网络进行虚拟穿戴处理，输出对应的穿戴效果图。

在本实施例中，虚拟穿戴网络的输入特征，包含了与目标穿戴物相关的人体部位的目标关键点信息、对目标人体擦除了与目标穿戴物对应的穿戴物区域后得到的穿戴物掩模图像、以及对初步人体解析结果擦除了与目标穿戴物对应的穿戴物区域后得到的人体解析结果，扩展了输入特征的维度，最大限度地保留了目标人体以及目标穿戴物的原有特征，从而使得虚拟穿戴网络输出的穿戴效果图更加真实，具有更好的穿戴模拟效果。

图8为本申请另一实施例提供的一种虚拟穿戴的方法实施例的流程图，本实施例在前述实施例的基础上，对虚拟穿戴网络进行虚拟穿戴处理的过程进行更具体的说明，可以包括如下步骤：

步骤310，获取包含目标人体的第一目标图像。

步骤320，获取包含目标穿戴物的第二目标图像。

步骤330，基于所述第一目标图像获取人体特征信息，所述人体特征信息包括与所述目标穿戴物相关的目标人体关键点信息、人体解析结果以及穿戴物掩模图像。

步骤340，将所述人体特征信息以及所述第二目标图像输入至预先训练的虚拟穿戴网络中，所述虚拟穿戴网络包括穿戴区域生成模型、形变识别模型以及生成模型。

如图9所示，虚拟穿戴网络包括穿戴区域生成模型、形变识别模型以及生成模型。其中，穿戴区域生成模型设置为基于人体特征信息确定人体穿戴区域信息；形变识别模型设置为根据人体穿戴区域信息以及第二目标图像确定目标穿戴物的形变信息；生成模型设置为根据形变信息以及人体特征信息生成穿戴效果图进行输出。关于上述三种模型的介绍将在后续步骤中进行详细说明。

步骤350，在虚拟穿戴网络中，将所述目标人体关键点信息、所述人体解析结果以及所述穿戴物掩模图像输入至所述穿戴区域生成模型中，以由所述穿戴区域生成模型预测所述目标人体穿戴所述目标穿戴物时的人体穿戴区域，并输出对应的人体穿戴区域信息。

穿戴区域生成模型作为虚拟穿戴网络第一阶段的模型，又可以称为穿戴物mask生成网络，其可以是一种包含U-NET网络结构(U-NET网络结构是一种对称的模型结构)的模型，如图10所示，包括左侧部分的编码器以及右侧部分的解码器。

穿戴区域生成模型的输入特征包括目标人体关键点信息、人体解析结果以及穿戴物掩模图像，穿戴区域生成模型根据人体关键点信息确定人体姿态信息，然后结合人体姿态信息以及穿戴物掩模图像和人体解析结果生成人穿上该目标穿戴物的区域(即人体穿戴区域信息)并输出。例如，如图11所示，输入穿戴区域生成模型的特征由上往下包括目标人体关键点信息、穿戴物掩模图像以及人体解析结果，穿戴区域生成模型输出的是人穿上该目标穿戴物的区域。

在一种实现中，在训练穿戴区域生成模型时，使用的损失函数可以包括交叉熵损失函数(Cross-Entropy loss，CE_loss)和骰子损失函数(Dice Loss，又称集合相似度度量损失函数)，其中，

交叉熵损失函数计算方法为：

其中，N表示训练时的Batch Size(批尺寸)；y _i表示label(标签)；p _i表示模型预测结果。

Dice Loss的计算方法为：

其中，X表示label的结果；Y表示预测的结果，|X∩Y|表示预测结果和label的交集。

在一种例子中，在训练穿戴区域生成模型时，可以采用Adam优化器，学习率设置为0.001，训练20个Epoch。

步骤360，将所述第二目标图像、所述目标人体关键点信息、以及所述穿戴区域生成模型输出的人体穿戴区域信息输入至所述形变识别模型中，以由所述形变识别模型根据所述人体穿戴区域信息以及所述目标人体关键点信息生成第一特征图，以及根据所述第二目标图像生成第二特征图，并基于所述第一特征图以及所述第二特征图确定所述目标穿戴物的形变信息。

穿戴区域生成模型输出的人体穿戴区域信息可以与第二目标图像以及目标人体关键点信息作为形变识别模型的输入特征，输入到形变识别模型中。形变识别模型作为虚拟穿戴网络第二阶段的模型，又可以称为Warp模型。

在一种实现中，Warp模型可以包括两个特征提取器(即编码器Encoder)，分别是第一特征提取器和第二特征提取器。第一特征提取器设置为提取目标人体关键点信息以及人体穿戴区域信息的、与目标人体相关的特征，生成第一特征图；第二特征提取器设置为提取目标穿戴物的相关特征，生成第二特征图。这两个特征提取器的结构是相同的，但权重不共享。

示例性地，特征提取器的结构示意图可以如下表1所示，包括输入层(input)以及6个残差层(ResBlock)：

特征提取器
Input，1024768N
ResBlock，51238432
ResBlock，25619264
ResBlock，12896128
ResBlock，6448512
ResBlock，3224512
ResBlock，1612512

表1

除此以外，Warp模型还可以包括空间变换(Spatial Transformer Networks，STN)子网络，第一特征提取器将提取的第一特征图，以及第二特征提取器将提取的第二特征图均作为STN子网络的输入特征，STN子网络设置为基于第一特征图以及第二特征图进行相关的空间变换处理，包括多种缩放、平移、旋转、变换等，输出目标穿戴物的形变信息，即warp参数，即，对目标穿戴物进行warp操作，得到目标穿戴物穿戴在目标人体身上的样子。

例如，如图12所示，输入Warp模型的特征由上往下包括第二目标图像、目标人体关键点信息以及人体穿戴区域信息。其中，目标人体关键点信息以及人体穿戴区域信息经由第一特征提取器进行特征提取，第二目标图像经由第二特征提取器进行特征提取，第一特征提取器以及第二特征提取器均将提取结果输出至STN子网络中，由STN子网络输出目标衣服形变后的warp参数。

在一种实现中在训练Warp模型时，使用的损失函数可以包括感知损失函数(Perceptual loss)和L1损失函数(L1_loss)，即：

Warp Loss＝Perceptual loss+L1_loss

其中，

Perceptual loss＝E((VGG(Y)-VGG(W(X)))2)

L1_loss＝E(Y–W(X))

其中，E为均值；X为Warp模型的输入；Y为第二目标图像；VGG为VGG模型，如VGG-19或VGG-16等；W为Warp模型。

在一种例子中，对于Warp模型的训练，也可以使用Adam优化器，在训练Warp模型的时候，穿戴区域生成模型不训练，学习率可以设置为0.0005，训练100个Epoch。

步骤370，将所述人体关键点信息、所述穿戴物掩模图像以及所述形变识别模型输出的目标穿戴物的形变信息输入至所述生成模型中，由所述生成模型进行处理，生成所述目标穿戴物穿戴在所述目标人体身上时的穿戴效果图。

Warp模型输出的目标穿戴物的形变信息可以与目标人体关键点信息以及穿戴物掩模图像作为生成模型的输入特征，输入到生成模型中。生成模型作为虚拟穿戴网络第三阶段的模型，设置为输出目标人体穿上目标穿戴物后的穿戴效果图。

在一种实现中，生成模型可以包括编码器Encoder以及解码器Decoder，其中，编码器设置为进行特征提取，并向解码器输出目标人体对应的第三特征图以及形变后的目标穿戴物的样式属性信息；解码器设置为根据该第三特征图以及样式属性信息进行解码处理，生成目标穿戴物穿戴在目标人体身上时的穿戴效果图。如图13所示，左边虚线框部分是Encoder，右边虚线框部分是Decoder。

在一种实施例中，Encoder的结构可以包括：输入层、若干个残差层以及全连接层，其中，残差层设置为提取与目标人体相关的第三特征图输出至解码器的对应层中，全连接层设置为提取形变后的目标穿戴物的样式属性信息，并将该样式属性信息输出至解码器的多个层中。其中，该样式属性信息为隐变量(latend code)。

例如，Encoder的结构如下表2所示，在表2中，残差层(ResBlock)有6个，每个残差层输出的第三特征图(Featuremap)的大小都是指定的，如表2中的512*384*32、256*192*64等。全连接层FC输出的是18*512大小的样式属性信息。

表2

如图13所示，每个残差层提取的第三特征图，一方面输出至下一层中进行处理，另一方面还需要输出至Decoder的对应层中(最后一个残差层除外，最后一个残差层只输出结果到Decoder的对应层中)。这里的对应层是指与当前输出的第三特征图的大小匹配的解码层，例如，若当前输出的第三特征图大小为32*24*512，则Decoder中的对应层是指能够处理32*24*512大小的特征图的解码层。

在图13中，Encoder最右边的两个输出层，位于上方的是最后一个残差层ResBlock，输出大小为16*12*512的特征图；位于下方的是FC层，输出的是18*512大小的样式属性信息，FC层将样式属性信息输出至Decoder的每一层中，以便于Decoder根据样式属性信息生成穿戴效果图。

在一种实施例中，Decoder的网络结构可以为StyleGAN2的合成网络的结构。如图14示出的StyleGAN2模型的模型架构所示，StyleGAN2由两部分组成，包含图14中左边部分为映射网络(Mapping NetWork)以及右边部分的合成网络。

Mapping NetWork可以将输入解缠得更好。如图14所示，Mapping NetWork由8个全连接层(fully connected layers，FC)构成，其输入为高斯噪声(latent Z)，经过Mapping NetWork得到隐变量(W)。

合成网络由可学习的仿射变换A、调制模块Mod-Demod、上采样Upsample等模块构成。除此以外，合成网络还包括权重(w)、偏差(b)和常数输入(c，即Const 4*4*512，表示可学习的常数)，激活函数(Leaky ReLU)总是在添加偏置后立即应用。

其中，可学习的仿射变换A可以由一个全连接层构成；Upsample可以使用反卷积(也叫转置卷积)进行上采样操作。

调制模块Mod-Demod的处理流程如下：

w′ _ijk＝s _i·w _ijk

其中，s _i是第i个输入特征图的缩放比例；

经过缩放和卷积后，对卷积层的权重进行demod，输出激活的标准差为：

解调demod权重，旨在使输出恢复到单位标准差，即新的卷积层的权重为：

上式中，加上∈是为了避免分母为0。

图14中最右边是随机噪声的注入，B是可学习的噪声参数，引入随机噪声是为了使得生成的图像更加真实逼真。

在一种实施例中，在训练生成模型时，使用的损失函数可以包括生成式对抗网络损失函数GAN_loss、感知损失函数Perceptual loss及L1损失函数L1_loss，即，

Loss＝GAN_loss+Perceptual loss+L1_loss

其中，

GAN_loss＝E[D(G(x)-1) ²]+E[D(G(x)) ²]

Perceptual loss＝E((VGG(Y)-VGG(G(X)))2)

L1_loss＝E(Y–G(X))

其中，E表示均值；D为判别器；G(x)表示生成模型输出的穿戴效果图；x表示生成模型的输入，Y表示样本中的穿戴效果图。

GAN loss是让生成模型生成的结果更加真实。

在一种例子中，对于生成模型的训练，也可以使用Adam优化器，训练生成模型的时候，图像mask生成模型和Warp模型均不训练，学习率设置为0.0005，训练100个Epoch。

如图15所示，对于训练完成的生成模型，其输入特征可以包括目标人体关键点信息、穿戴物掩模图像以及形变识别模型输出的目标穿戴物的形变信息，输出目标穿戴物穿戴在目标人体身上时的穿戴效果图。

在本实施例中，虚拟穿戴网络通过穿戴区域生成模型、形变识别模型以及生成模型实现将目标穿戴物穿戴在目标人体身上。其中，穿戴区域生成模型负责根据目标人体关键点信息、擦除原有穿戴物后的人体解析结果以及擦除原有穿戴物后的穿戴物掩模图像，预测目标人体穿戴目标穿戴物时的人体穿戴区域，并输出对应的人体穿戴区域信息。形变识别模型负责根据人体穿戴区域信息、目标人体关键点信息以及包含目标穿戴物的第二目标图像，确定目标穿戴物相对于人体姿态的形变信息，即得到形变后的目标穿戴物。生成模型负责根据上述形变信息、目标人体关键点信息以及穿戴物掩模图像，将形变后的目标穿戴物贴在擦除了原有穿戴物的目标人体的身上，生成穿戴效果图。上述三种模型的泛化能力强、具有较好的鲁棒性，使得输出的穿戴效果图能够同时兼顾穿戴效果与真实性。

图16为本申请实施例提供的一种虚拟穿戴的装置实施例的结构框图，可以包括如下模块：

第一目标图像获取模块410，设置为获取包含目标人体的第一目标图像；

第二目标图像获取模块420，设置为获取包含目标穿戴物的第二目标图像；

人体特征信息获取模块430，设置为基于所述第一目标图像获取人体特征信息，所述人体特征信息包括与所述目标穿戴物相关的目标人体关键点信息、人体解析结果以及穿戴物掩模图像；

穿戴效果图生成模块440，设置为将所述人体特征信息以及所述第二目标图像输入至预先训练的虚拟穿戴网络中，以由所述虚拟穿戴网络基于所述人体特征信息确定人体穿戴区域信息，并根据所述人体穿戴区域信息以及所述第二目标图像确定所述目标穿戴物的形变信息，以及根据所述形变信息以及所述人体特征信息生成穿戴效果图进行输出；其中，所述虚拟穿戴网络是一种生成对抗网络。

在一种实施例中，若所述人体特征信息为目标人体关键点信息，所述人体特征信息获取模块430设置为：

将所述第一目标图像输入至预训练的人体关键点检测模型，以由所述人体关键点检测模型对所述第一目标图像中的目标人体进行关键点检测，输出对应的人体关键点信息；

从所述人体关键点信息中确定与所述目标穿戴物相关的目标关键点信息。

在一种实施例中，若所述人体特征信息为人体解析结果，所述人体特征信息获取模块430设置为：

将所述第一目标图像输入至预训练的人体解析模型，以由所述人体解析模型对所述第一目标图像中的目标人体进行人体解析，输出对应的初步人体解析结果；

在所述初步人体解析结果中基于所述目标关键点绘制穿戴物掩模，生成人体解析结果。

在一种实施例中，若所述人体特征信息为穿戴物掩模图像，所述人体特征信息获取模块430设置为：

在所述第一目标图像中结合所述目标关键点信息以及所述初步人体解析结果绘制穿戴物掩模，生成穿戴物掩模图像。

在一种实施例中，所述虚拟穿戴网络包括穿戴区域生成模型，所述穿戴效果图生成模块440可以包括如下子模块：

穿戴区域生成模型处理子模块，设置为将所述目标人体关键点信息、所述人体解析结果以及所述穿戴物掩模图像输入至所述穿戴区域生成模型中，以由所述穿戴区域生成模型预测所述目标人体穿戴所述目标穿戴物时的人体穿戴区域，并输出对应的人体穿戴区域信息。

在一种实施例中，所述穿戴区域生成模型为包含U-NET网络结构的模型；在训练所述穿戴区域生成模型时，使用的损失函数包括交叉熵损失函数和骰子损失函数。

在一种实施例中，所述虚拟穿戴网络还包括形变识别模型，所述穿戴效果图生成模块440可以包括如下子模块：

形变识别模型处理子模块，设置为将所述第二目标图像、所述目标人体关键点信息、以及所述穿戴区域生成模型输出的人体穿戴区域信息输入至所述形变识别模型中，以由所述形变识别模型根据所述人体穿戴区域信息以及所述人体关键点信息生成第一特征图，以及根据所述第二目标图像生成第二特征图，并基于所述第一特征图以及所述第二特征图确定所述目标穿戴物的形变信息。

在一种实施例中，所述形变识别模型包括第一特征提取器、第二特征提取器以及空间变换子网络；

所述第一特征提取器设置为根据所述人体穿戴区域信息以及所述人体关键点信息输出所述第一特征图至所述空间变换子网络；

所述第二特征提取器设置为根据所述第二目标图像输出所述第二特征图至所述空间变换子网络；

所述空间变换子网络设置为基于所述第一特征图以及所述第二特征图进行相关的空间变换处理，输出所述目标穿戴物的形变信息。

在一种实施例中，在训练所述形变识别模型时，使用的损失函数包括感知损失函数和L1损失函数。

在一种实施例中，所述虚拟穿戴网络还包括生成模型，所述穿戴效果图生成模块440可以包括如下子模块：

生成模型处理子模块，设置为将所述人体关键点信息、所述穿戴物掩模图像以及所述形变识别模型输出的目标穿戴物的形变信息输入至所述生成模型中，由所述生成模型进行处理，生成所述目标穿戴物穿戴在所述目标人体身上时的穿戴效果图。

在一种实施例中，所述生成模型包括编码器以及解码器，所述编码器设置为进行特征提取，并向所述解码器输出目标人体对应的第三特征图以及形变后的目标穿戴物的样式属性信息；

所述解码器设置为根据所述第三特征图以及所述样式属性信息进行解码处理，生成所述目标穿戴物穿戴在所述目标人体身上时的穿戴效果图。

在一种实施例中，所述解码器的网络结构为StyleGAN2的合成网络的结构；

在训练所述生成模型时，使用的损失函数包括生成式对抗网络损失函数、感知损失函数及L1损失函数。

本申请实施例所提供的一种虚拟穿戴的装置可执行本申请前述实施例中的一种虚拟穿戴的方法，具备执行方法相应的功能模块和有益效果。

图17为本申请实施例提供的一种电子设备的结构示意图，如图17所示，该电子设备包括处理器510、存储器520、输入装置530和输出装置540；电子设备中处理器510的数量可以是一个或多个，图17中以一个处理器510为例；电子设备中的处理器510、存储器520、输入装置530和输出装置540可以通过总线或其他方式连接，图17中以通过总线连接为例。

存储器520作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请实施例中的上述实施例对应的程序指令/模块。处理器510通过运行存储在存储器520中的软件程序、指令以及模块，从而执行电子设备的多种功能应用以及数据处理，即实现上述的方法实施例中提到的方法。

存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器520可包括相对于处理器510远程设置的存储器，这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置530可设置为接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。

本申请实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时设置为执行上述方法实施例的方法。计算机可读存储介质可以为非暂态计算机可读存储介质。

当然，本申请实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本申请任意实施例所提供的方法中的相关操作。

本申请实施例七还提供一种计算机程序产品，该计算机程序产品包括计算机可执行指令，所述计算机可执行指令在由计算机处理器执行时用于执行上述方法实施例中任一实施例的方法。

当然，本申请实施例所提供的一种计算机程序产品，其计算机可执行指令不限于如上所述的方法操作，还可以执行本申请任意实施例所提供的方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本申请可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现。基于这样的理解，本申请的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本申请多个实施例所述的方法。

值得注意的是，上述装置的实施例中，所包括的多个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，多个功能单元的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

Claims

一种虚拟穿戴的方法，包括：

获取包含目标人体的第一目标图像；

获取包含目标穿戴物的第二目标图像；

基于所述第一目标图像获取人体特征信息，所述人体特征信息包括与所述目标穿戴物相关的目标人体关键点信息、人体解析结果以及穿戴物掩模图像；

将所述人体特征信息以及所述第二目标图像输入至预先训练的虚拟穿戴网络中，以由所述虚拟穿戴网络基于所述人体特征信息确定人体穿戴区域信息，并根据所述人体穿戴区域信息以及所述第二目标图像确定所述目标穿戴物的形变信息，以及根据所述形变信息以及所述人体特征信息生成穿戴效果图进行输出；其中，所述虚拟穿戴网络是一种生成对抗网络。
根据权利要求1所述的方法，其中，响应于确定所述人体特征信息包括目标人体关键点信息，所述基于所述第一目标图像获取人体特征信息，包括：

将所述第一目标图像输入至预训练的人体关键点检测模型，以由所述人体关键点检测模型对所述第一目标图像中的目标人体进行关键点检测，输出对应的人体关键点信息；

从所述人体关键点信息中确定与所述目标穿戴物相关的目标关键点信息。
根据权利要求2所述的方法，其中，响应于确定所述人体特征信息包括人体解析结果，所述基于所述第一目标图像获取人体特征信息，包括：

将所述第一目标图像输入至预训练的人体解析模型，以由所述人体解析模型对所述第一目标图像中的目标人体进行人体解析，输出对应的初步人体解析结果；

在所述初步人体解析结果中基于所述目标关键点信息绘制穿戴物掩模，生成人体解析结果。
根据权利要求3所述的方法，其中，响应于确定所述人体特征信息包括穿戴物掩模图像，所述基于所述第一目标图像获取人体特征信息，包括：

在所述第一目标图像中结合所述目标关键点信息以及所述初步人体解析结果绘制穿戴物掩模，生成穿戴物掩模图像。
根据权利要求1-4任一项所述的方法，其中，所述虚拟穿戴网络包括穿戴区域生成模型，所述基于所述人体特征信息确定人体穿戴区域信息，包括：

将所述目标人体关键点信息、所述人体解析结果以及所述穿戴物掩模图像输入至所述穿戴区域生成模型中，以由所述穿戴区域生成模型预测所述目标人体穿戴所述目标穿戴物时的人体穿戴区域，并输出对应的人体穿戴区域信息。
根据权利要求5所述的方法，其中，所述穿戴区域生成模型为包含U-NET网络结构的模型；在训练所述穿戴区域生成模型时，使用的损失函数包括交叉熵损失函数和骰子损失函数。
根据权利要求5所述的方法，其中，所述虚拟穿戴网络还包括形变识别模型，所述根据人体穿戴区域信息以及所述第二目标图像确定所述目标穿戴物的形变信息，包括：

将所述第二目标图像、所述目标人体关键点信息、以及所述穿戴区域生成模型输出的人体穿戴区域信息输入至所述形变识别模型中，以由所述形变识别模型根据所述人体穿戴区域信息以及所述人体关键点信息生成第一特征图，根据所述第二目标图像生成第二特征图，并基于所述第一特征图以及所述第二特征图确定所述目标穿戴物的形变信息。
根据权利要求7所述的方法，其中，所述形变识别模型包括第一特征提取器、第二特征提取器以及空间变换子网络；

所述第一特征提取器设置为根据所述人体穿戴区域信息以及所述目标人体关键点信息输出所述第一特征图至所述空间变换子网络；

所述第二特征提取器设置为根据所述第二目标图像输出所述第二特征图至所述空间变换子网络；

所述空间变换子网络设置为基于所述第一特征图以及所述第二特征图进行相关的空间变换处理，输出所述目标穿戴物的形变信息。
根据权利要求8所述的方法，其中，在训练所述形变识别模型时，使用的损失函数包括感知损失函数和L1损失函数。
根据权利要求6所述的方法，其中，所述虚拟穿戴网络还包括生成模型，所述根据所述形变信息以及所述人体特征信息生成穿戴效果图，包括：

将所述目标人体关键点信息、所述穿戴物掩模图像以及所述形变识别模型输出的目标穿戴物的形变信息输入至所述生成模型中，由所述生成模型进行处理，生成所述目标穿戴物穿戴在所述目标人体身上时的穿戴效果图。
根据权利要求10所述的方法，其中，所述生成模型包括编码器以及解码器，所述编码器设置为进行特征提取，并向所述解码器输出目标人体对应的第三特征图以及形变后的目标穿戴物的样式属性信息；

所述解码器设置为根据所述第三特征图以及所述样式属性信息进行解码处理，生成所述目标穿戴物穿戴在所述目标人体身上时的穿戴效果图。
根据权利要求11所述的方法，其中，所述解码器的网络结构为StyleGAN2的合成网络的结构；

在训练所述生成模型时，使用的损失函数包括生成式对抗网络损失函数、感知损失函数及L1损失函数。
一种虚拟穿戴的装置，包括：

第一目标图像获取模块，设置为获取包含目标人体的第一目标图像；

第二目标图像获取模块，设置为获取包含目标穿戴物的第二目标图像；

人体特征信息获取模块，设置为基于所述第一目标图像获取人体特征信息，所述人体特征信息包括与所述目标穿戴物相关的目标人体关键点信息、人体解析结果以及穿戴物掩模图像；

穿戴效果图生成模块，设置为将所述人体特征信息以及所述第二目标图像输入至预先训练的虚拟穿戴网络中，以由所述虚拟穿戴网络基于所述人体特征信息确定人体穿戴区域信息，并根据所述人体穿戴区域信息以及所述第二目标图像确定所述目标穿戴物的形变信息，以及根据所述形变信息以及所述人体特征信息生成穿戴效果图进行输出；其中，所述虚拟穿戴网络是一种生成对抗网络。
一种电子设备，包括：

一个或多个处理器；

存储装置，设置为存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-12任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-12任一项所述的方法。
一种计算机程序产品，所述计算机程序产品包括计算机可执行指令，所述计算机可执行指令在被执行时设置为实现权利要求1-12中任一项所述的方法。