WO2022213761A1

WO2022213761A1 - 一种图像处理方法、装置、电子设备和存储介质

Info

Publication number: WO2022213761A1
Application number: PCT/CN2022/079818
Authority: WO
Inventors: 张宏伦; 王鑫涛; 李昱; 邬彦泽; 单瀛
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2021-04-08
Filing date: 2022-03-09
Publication date: 2022-10-13
Also published as: EP4198898A1; CN113706577A; EP4198898A4; US20230072813A1

Abstract

本申请实施例公开了一种图像处理方法、装置和计算机可读存储介质；本申请实施例在获取用于动作迁移的目标图像和目标图像对应的至少一张源图像后，对源图像和目标图像进行多维度特征提取，得到源图像和目标图像中关键点的关键点特征信息、以及源图像对应的外观特征信息，该关键点特征信息包括关键点透视信息，然后，根据关键点透视信息，对关键点进行透视变换，得到关键点的光流信息，然后，基于光流信息和关键点特征信息，确定关键点对应的动作信息，将动作信息与外观特征信息进行融合，以得到处理后图像，该处理后图像为将目标图像中对象的动作迁移至源图像中对象的图像。

Description

一种图像处理方法、装置、电子设备和存储介质

本申请要求于2021年4月8日提交中国专利局、申请号为202110379725.6、发明名称为“一种图像处理方法、装置和计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及通信技术领域，具体涉及一种图像处理方法、装置和计算机可读存储介质。

发明背景

近年来，随着互联网技术的发展，对图像的处理也越来越多样化，比如，可以将目标图像中对象的动作迁移至另一张图像，从而在另一张图像中呈现出相同动作序列的效果。现有的图像处理方法是通过图像中关键点的关键点轨迹或关键点局部仿射变换来表征动作，从而完成动作迁移。

在对现有技术的研究和实践过程中，本申请的发明人对于现有的图像处理方法来说，关键点轨迹无法准确的捕捉局部动作细节，且关键点局部仿射变换也无法解决复杂的动作变换，因此，会导致图像处理的准确性大大降低。

发明内容

本申请实施例提供一种图像处理方法、装置和计算机可读存储介质，可以提高图像处理的准确性。

一种图像处理方法，由电子设备执行，包括：

获取用于动作迁移的目标图像和所述目标图像对应的至少一张源图像；

对所述源图像和目标图像进行多维度特征提取，得到所述源图像和目标图像中关键点的关键点特征信息、以及所述源图像对应的外观特征信息，所述关键点特征信息包括关键点透视信息；

根据所述关键点透视信息，对所述关键点进行透视变换，得到所述关键点的光流信息，所述光流信息用于指示所述关键点从源图像至目标图像的变换信息；

基于所述光流信息和关键点特征信息，确定所述关键点对应的动作信息；

将所述动作信息与外观特征信息进行融合，以得到处理后图像，所述处理后图像为将所述目标图像中对象的动作迁移至所述源图像中对象的图像。

相应的，本申请实施例提供一种图像处理装置，包括：

获取单元，用于获取用于动作迁移的目标图像和所述目标图像对应的至少一张源图像；

提取单元，用于对所述源图像和目标图像进行多维度特征提取，得到所述源图像和目标图像中关键点的关键点特征信息、以及所述源图像对应的外观特征信息，所述关键点特征信息包括关键点透视信息；

透视变换单元，用于根据所述关键点透视信息，对所述关键点进行透视变换，得到所述关键点的光流信息，所述光流信息用于指示所述关键点从源图像至目标图像的变换信息；

确定单元，用于基于所述光流信息和关键点特征信息，确定所述关键点对应的动作信息；

融合单元，用于将所述动作信息与外观特征信息进行融合，以得到处理后图像，所述处理后图像为将所述目标图像中对象的动作迁移至所述源图像中对象的图像。

此外，本申请实施例还提供一种电子设备，包括处理器和存储器，所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序实现本申请实施例提供的图像处理方法。

此外，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本申请实施例所提供的任一种图像处理方法中的步骤。

本申请实施例在获取用于动作迁移的目标图像和目标图像对应的至少一张源图像后，对源图像和目标图像进行多维度特征提取，得到源图像和目标图像中关键点的关键点特征信息、以及源图像对应的外观特征信息，该关键点特征信息包括关键点透视信息，然后，根据关键点透视信息，对关键点进行透视变换，得到关键点的光流信息，该光流信息用于指示关键点从源图像至目标图像的变换信息，然后，基于光流信息和关键点特征信息，确定关键点对应的动作信息，将动作信息与外观特征信息进行融合，以得到处理后图像，该处理后图像为将目标图像中对象的动作迁移至源图像中对象的图像；由于该方案对目标图像和源图像的关键点进行透视变换来表征动作，可以准确的捕捉局部动作细节，也可以处理复杂的动作变化，还可以处理大姿态变化和严重背景遮挡等问题，因此，可以大大提升图像处理的准确性。

附图简要说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的图像处理方法的场景示意图；

图2是本申请实施例提供的图像处理方法的流程示意图；

图3是本申请实施例提供的透视变换与仿射变换的动作表征示意图；

图4是本申请实施例提供的动作迁移的流程示意图；

图5是本申请实施例提供的图像处理方法的另一流程示意图；

图6是本申请实施例提供的图像处理装置的结构示意图；

图7是本申请实施例提供的图像处理装置的另一结构示意图；

图8是本申请实施例提供的电子设备的结构示意图。

实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种图像处理方法、装置和计算机可读存储介质。其中，该图像处理装置可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备。

其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

例如，参见图1，以图像处理装置集成在电子设备中为例，电子设备在获取用于动作迁移的目标图像和目标图像对应的至少一张源图像后，对源图像和目标图像进行多维度特征提取，得到源图像和目标图像中关键点的关键点特征信息、以及源图像对应的外观特征信息，该关键点特征信息包括关键点透视信息，然后，根据关键点透视信息，对关键点进行透视变换，得到关键点的光流信息，该光流信息用于指示关键点从源图像至目标图像的变换信息，然后，基于光流信息和关键点特征信息，确定关键点对应的动作信息，将动作信息与外观特征信息进行融合，以得到处理后图像，该处理后图像为将目标图像中对象的动作迁移至源图像中对象的图像。

其中，本申请实施例提供的图像处理方法涉及人工智能领域中的计算机视觉方向。本申请实施例可以通过对目标图像和源图像进行动作迁移，从而得到处理后图像。

其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。其中，人工智能软件技术主要包括计算机视觉技术、机器学习/深度学习等方向。

其中，计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指通过计算机代替人眼对目标进行识别、测量等的机器视觉，并进一步进行图像处理，使图像经过计算机处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别等技术，还包括常见的人脸识别、人体姿态识别等生物特征识别技术。

以下分别进行详细说明。需要说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从图像处理装置的角度进行描述，该图像处理装置具体可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备；其中，该终端可以包括平板电脑、笔记本电脑、以及个人计算机(Personal Computer，PC)、可穿戴设备、虚拟现实设备或其他可以进行图像处理的智能设备等设备。

一种图像处理方法，由图像处理装置执行，换言之，由电子设备执行，包括：

获取用于动作迁移的目标图像和目标图像对应的至少一张源图像，对源图像和目标图像进行多维度特征提取，得到源图像和目标图像中关键点的关键点特征信息、以及源图像对应的外观特征信息，该关键点特征信息包括关键点透视信息，根据关键点透视信息，对关键点进行透视变换，得到关键点的光流信息，该光流信息用于指示关键点从源图像至目标图像的变换信息，基于光流信息和关键点特征信息，确定关键点对应的动作信息，将动作信息与外观特征信息进行融合，以得到处理后图像，该处理后图像为将目标图像中对象的动作迁移至源图像中对象的图像。

如图2所示，该图像处理方法的具体流程如下：

101、获取用于动作迁移的目标图像和目标图像对应的至少一张源图像。

其中，目标图像为动作迁移提供对象的关键点对应的动作信息(姿态信息)的图像，源图像为将关键点对应的动作信息迁移至此的图像，源图像为动作迁移提供了外观信息。

例如，可以在同一个视频中筛选出用于动作迁移的目标图像和目标图像对应的至少一张源图像，比如，可以在一个视频中筛选出某一帧包含对象动作的画面帧作为用于动作迁移的目标图像，在同一个视频的其他画面帧中筛选出任意一个或多个画面帧作为目标图像对应的源图像。还可以在不同视频中筛选出用于动作迁移的目标图像和目标图像对应的至少一张源图像，比如，可以在某一个视频中筛选出任意一帧包含对象动作的画面帧作为用于动作迁移的目标图像，在其他视频中筛选出任意一个或多个画面帧作为目标图像对应的至少一个源图像。还可以直接接收或者获取用户上传的包含对象动作的图像作为目标图像，将上传的一个或多个其他图像作为目标图像对应的源图像，也可以在网上爬取一张包含对象动作的图像为目标图像，再爬取至少一张其他图像作为目标图像对应的源图像。

其中，需要说明的是，用于动作迁移的目标图像的数量为一张，目标图像对应的源图像可以为一张或者多张。

102、对源图像和目标图像进行多维度特征提取，得到源图像和目标图像中关键点的关键点特征信息、以及源图像对应的外观特征信息。

其中，关键点特征信息包括关键点透视信息。对于某一类对象(物体)来说，假设其由K个部分组成，每个部分的位置都可以由一个关键点来表示，其中，关键点可以为眼睛、鼻子、眉毛或者可以表征对象的某一部分的点，所谓关键点特征信息就可以为该关键点在目标图像中的特征信息，关键点特征信息还可以包括关键点位置信息和关键点形变信息，所谓关键点位置信息可以为关键点在目标图像和源图像中的位置信息，关键点形变信息可以为关键点从源图像至目标图像的形状变化信息。外观特征信息可以为源图像中除了对象动作以外的特征信息。

例如，可以采用训练后处理模型的关键点检测网络对源图像和目标图像中的关键点进行特征提取，得到源图像中关键点的关键点特征信息和目标图像中关键点的关键点特征信息，比如，采用关键点检测器(Keypoint Detector，KD)估计源图像和目标图像中关键点对应的关键点项p _k、雅可比项J _k、透视项q _k，将关键点项p _k作为源图像和目标图像对应的关键点位置信息，将雅可比项J _k作为源图像和目标图像对应的关键点形变信息，将透视项q _k作为源图像和目标图像对应的关键点透视信息，将关键点位置信息、关键点形变信息和关键点透视信息作为关键点特征信息。采用训练后处理模型的外观特征网络对源图像的外观特征进行特征提取，得到源图像对应的外观特征信息，比如，采用生成器(Generator，G)的编码网络对源图像的外观特征进行编码，得到源图像对应的外观特征信息。

103、根据关键点透视信息，对关键点进行透视变换，得到关键点的光流信息。

其中，光流信息用于指示关键点从源图像至目标图像的变换信息，比如，可以为关键点从源图像(S)至目标图像(D)的反向光流

其中，透视变换可以表征3D变换动作，比如，人脸的俯仰角pitch和偏航角yaw发生变化时，对应的动作包含3D旋转。

例如，可以将关键点透视信息与关键点形变信息进行融合，得到透视变换参数，根据透视变换参数和关键点位置信息，对关键点进行透视变换，得到关键点的光流信息，具体可以如下：

S1、将关键点透视信息与关键点形变信息进行融合，得到透视变换参数。

其中，透视变换参数可以为对关键点进行透视变换的透视变换矩阵，该透视变换矩阵可以包括关键点形变信息和关键点透视信息，该透视矩阵的尺寸可以根据实际应用进行设定，比如，可以为3×3的矩阵或者其他大小。

例如，基于关键点透视信息和关键点形变信息，分别构建源图像的第一透视变换参数和目标图像的第二初始透视变换参数，比如，在关键点透视信息中筛选出源图像中关键点的第一透视信息和目标图像中关键点的第二透视信息，譬如，在q _k中筛选出源图像(S)对应的

和目标图像(D)对应的

将

作为第一透视信息，将

作为第二透视信息，其中

和

均为1×2矩阵。在关键点形变信息中筛选出源图像中关键点的第一形变信息和目标图像中关键点的第二形变信息，比如，在J _k中筛选出源图像(S)对应的

和目标图像(D)对应的

将

作为第一形变信息，将

作为第二形变信息。将第一透视信息与第一形变信息进行融合，得到源图像的第一初始透视变换参数，并将第二透视信息与第二形变信息进行融合，得到目标图像的第二初始透视变换参数，比如，对

和

进行扩充，具体的扩充公式如下公式(1)所示，将

和

分别作为源图像(S)的第一初始透视变换参数和目标图像(D)的第二初始透视变换参数，具体如下：

将第一初始透视变换参数与第二初始透视变换参数进行融合，得到透视变换参数，比如，将

和

进行融合，将融合后的

作为透视变换参数。

S2、根据透视变换参数和关键点位置信息，对关键点进行透视变换，得到关键点的光流信息。

例如，获取关键点的单位光流信息，该单位光流信息为扭曲操作对应的光流信息，在关键点位置信息中分别筛选出源图像中关键点的第一位置信息和目标图像中关键点的第二位置信息，比如，在p _k中筛选出源图像(S)中关键点的第一位置信息

和目标图像(D)中关键点的第二位置信息

将单位光流信息、第二位置信息和透视变换参数，对关键点进行透视变换，得到关键点的初始光流信息，将第一位置信息与初始光流信息进行融合，得到关键点的光流信息，具体可以如公式(2)所示：

其中，

为透视变换操作后得到的初始光流信息，

为关键点的光流信息，

为满足

的单位光流信息，

代表反向扭曲(backward warping)操作。相对于放射变换来说，

通过不同的p _k，J _k和q _k取值，即可学习到复杂的2D和3D组合变换。

其中，对关键点进行透视变换操作具体可以参见公式(3)和公式(4)所示：

其中，x′和y′表示关键点在透视变换操作后的姿态信息。a ₁₁和a ₂₂代表缩放项，a ₁₂和a ₂₁为旋转项，a ₁₃和a ₃₁为3D变换项。

其中，当q _k＝[0,0]时，透视变换操作就退化为仿射变换，如果进一步，当

时，透视变换操作就退化为关键点轨迹变换。由于透视变换对a ₁₃和a ₃₁的取值较为敏感，为了保证处理模型训练的稳定性，需要采用以下限制：

|q _k11| ₁≤α|q _k12| ₁≤α

其中，|·|代表

范数，α为待调的超参数。

其中，对于透视变换操作来说，与仿射变换最大的区别在于，仿射变换仅包含2D变换，比如，缩放、旋转、斜切和反射等其他类型的仿射变换。在处理包含3D变换的运动时，就可以通过一系列可学习的关键点以及对应的局部透视变换来表征动作，如图3所示，透视变换所涵盖的变换类型比仿射变换更加丰富。

104、基于光流信息和关键点特征信息，确定关键点对应的动作信息。

例如，可以根据光流信息，对源图像进行扭曲操作，得到至少一张扭曲后源图像，将单位光流信息、第一位置信息、第二位置信息和扭曲后源图像进行融合，得到融合后源图像，在融合后源图像中识别出关键点对应的动作信息，具体可以如下：

(1)根据光流信息，对源图像进行扭曲操作，得到至少一张扭曲后源图像。

例如，基于每对关键点所对应的稀疏动作场(sparse motion field)的反向光流

对每一源图像进行扭曲(warping)操作，从而得到K个扭曲图像S ^k，将扭曲图像作为扭曲后源图像。

(2)将单位光流信息、第一位置信息、第二位置信息和扭曲后源图像进行融合，得到融合后源图像。

例如，计算第一位置信息与单位光流信息的第一位置差值，并计算第二位置信息与单位光流信息的第二位置差值。根据第一位置差值和第二位置差值，确定关键点的变换位置信息，比如，可以采用如下公式计算指示变换发送位置的差分热力图，将差分热力图作为关键点的变换位置信息，具体可以如公式(5)所示：

其中，H ^k为关键点的变换位置信息，e为指数函数，σ＝0.01，

为第二位置差值，

为第一位置差值。

将变换位置信息与扭曲后源图像进行拼接，得到融合后源图像信息，比如，获取差分热力图和扭曲后源图像的深度信息，基于深度信息，将差分热力图与扭曲后源图像进行拼接，从而得到融合后源图像信息。

(3)在融合后源图像信息中识别出关键点对应的动作信息。

其中，动作信息可以为关键点从源图像至目标图像的动作表征信息，该动作信息可以包括姿态信息、源图像的遮挡信息和注意力权重。

例如，采用训练后处理模型对融合后源图像信息进行多维度特征提取，得到关键点的局部动作特征信息、源图像的遮挡信息和注意力权重，比如，可以采用训练后处理模型的稠密动作网络(Dense Motion Network，DM)对融合后源图像信息进行多维度特征提取，从而得到关键点的局部动作特征信息、源图像的遮挡信息和注意力权重，该遮挡信息可以为遮挡图(occlusion map)

用于学习源图像(S)中的遮挡区域，该区域需要进行填充才能得到目标图像(D)中的预期内容。将局部动作特征信息进行加权，得到关键点的加权后动作特征信息，比如，可以通过空间加权的方式对局部动作特征信息进行加权，得到加权后动作特征信息，将加权后动作特征信息进行融合，得到目标图像中对象的姿态信息，比如，可以采用公式(6)的算法得到目标图像中对象的姿态信息，公式(6)如下：

其中，

为姿态信息，

用于学习保持静止不动的背景内容，M∈[0,1] ^(K+1)×H×W为满足

的权重项。

将姿态信息、遮挡信息和注意力权重作为关键点的动作信息。

该训练后处理模型除了可以由运维人员预先进行设置之外，也可以由该图像处理装置自行训练来得到。即步骤“采用训练后处理模型对融合后源图像信息进行多维度特征提取，得到关键点的局部动作特征信息”之前，该图像处理方法还可以包括：

获取源图像样本和目标图像样本，采用预设处理模型对源图像样本和目标图像样本中对象进行动作迁移，得到目标动作图像，根据目标动作图像和目标图像样本对预设处理模型进行收敛，得到训练后处理模型，具体可以如下：

(1)获取源图像样本和目标图像样本。

例如，可以从视频数据中获取源图像样本和目标图像样本，比如，可以从一个或多个视频中采集一个包含对象动作的画面帧作为目标图像样本，采集一个或多个不同的画面帧作为目标图像样本对应的源图像样本。还可以从数据库或网络中获取源图像样本和目标图像样本，比如，还可以从数据库或网络中获取一张包含对象动作的目标图像样本和目标图像样本对应的至少一张源图像。

(2)采用预设处理模型对源图像样本和目标图像样本中的对象进行动作迁移，得到目标动作图像。

例如，采用预设处理模型的特征提取网络对源图像样本和目标图像样本进行多维度特征提取，得到源图像样本和目标图像样本中关键点的关键点特征信息、以及源图像样本对应的外观特征信息，关键点特征信息包括关键点透视信息，根据关键点透视信息，对关键点进行透视变换，得到关键点的光流信息，基于光流信息和关键点特征信息，确定关键点对应的动作信息，将动作信息与外观特征信息进行融合，以得到目标动作图像。

(3)根据目标动作图像和目标图像样本对预设处理模型进行收敛，得到训练后处理模型。

例如，对目标动作图像和目标图像样本的尺寸进行调整，以得到目标动作图像与目标图像样本之间的特征损失信息，比如，可以将目标动作图像和目标图像样本缩放至原始分辨率的1.0、0.5、0.25和0.125，分别输入至预训练的VGG-19模型，然后，比较目标动作图像和目标图像样本在多个特定层输入值之间的差异，从而得到目标动作图像和目标图像样本之间的特征损失信息，特征损失信息的计算过程可以如公式(7)所示，具体可以如下：

其中，

为特征损失信息，

和D _s代表第s个尺度下的缩放图片，V _i(·)代表VGG-19第i层的输出。

对目标图像样本进行空间变换，并计算目标图像样本与空间变换后图像之间的同变性损失信息，比如，对目标图像样本(D)执行一项已知的空间变换

譬如，空间变换可以为薄板样条变换，得到变形后图像(Y)，将变形后图像作为空间变换后图像。对目标图像样本和空间变换后图像进行关键点特征提取，得到目标图像样本的关键点特征信息和空间变换后图像的关键点特征信息，目标图像样本的关键点特征信息包括第一关键点位置信息和第一关键点形变信息，空间变换后图像的关键点特征信息包括第二关键点位置信息和第二关键点形变信息，比如，对目标图像样本和空间变换后图像的关键点进行特征提取，得到p _k和J _k，在p _k中筛选出目标图像样本的

作为第一关键点位置信息，并在p _k中筛选出空间变换后图像的

作为第二关键点位置信息，在J _k中筛选出目标图像样本的

作为第一关键点形变信息，在J _k中筛选出空间变换后图像的

作为第二关键点形变信息。根据第一关键点位置信息和第二关键点位置信息，确定关键点位置损失信息，比如，可以采用公式(8)计算出关键点位置损失信息，公式(8)可以如下：

其中，

为关键点位置损失信息，

为第一关键点位置信息，

为第二关键点位置信息，

为对目标图像样本进行空间变换后关键点的光流信息。

根据第一关键点形变信息和第二关键点形变信息，确定关键点形变损失信息，比如，可以采用公式(9)计算出关键点形变损失信息，公式(9)可以如下：

其中，

为关键点形变损失信息，

为第一关键点形变信息，

为第二关键点形变信息，

代表

在位置

的雅可比项。

将关键点位置损失信息和关键点形变损失信息作为目标图像样本与空间变换后图像的同变性损失信息。

将特征损失信息与同变性损失信息进行融合，得到目标图像样本的目标损失信息，比如，将特征损失信息、关键点位置损失信息和关键点形变损失信息相加，就可以得到目标图像样本的目标损失信息，具体可以如公式(10)所示：

其中，

为目标图像样本的目标损失信息，

为特征损失信息，

为关键点位置损失信息，

为关键点形变损失信息。

基于目标损失信息，对预设处理模型进行收敛，得到训练后处理模型，比如，可以基于目标损失信息，对预设处理模型的网络参数进行更新，从而得到训练后处理模型，对网络参数进行更新的算法可以为梯度下降算法或者其他更新算法。

其中，需要说明的是，训练后处理模型包括多个子网络，比如，可以包括关键点检测网络(KD)、外观特征网络(G)和稠密动作网络(DM)，其中，KD和DM均采用U-Net(一种网络结构)结构，可以包括多个上采样块和下采样块，其中，上采样块和下采样块的数量可以根据实际应用选择，比如，可以包括5个上采样块和5个下采样块，还可以包括上采样块与下采样块对应的跳边连接。而G可以包括多个上采样块、下采样块和残差块，该模块的数量也可以根据实际应用来选择，比如，可以包括2个上采样块、6个残差块和2个下采样块。

105、将动作信息与外观特征信息进行融合，以得到处理后图像。

其中，处理后图像为将目标图像中对象的动作迁移至源图像中对象的图像。

例如，可以将姿态信息、遮挡信息与外观特征信息进行融合，得到初始图像信息，比如，以外观特征信息为ξ∈R ^{C×H′×W′}为例，根据姿态信息，对外观特征信息进行反向扭曲操作，再将反向扭曲操作后的信息与遮挡信息进行融合，就可以得到初始图像信息，具体的计算公式可以如公式(11)所示：

其中，ξ′为初始图像信息，

为遮挡信息，ξ为外观特征信息，

表示反向扭曲操作，

为姿态信息。

基于注意力权重，对初始图像信息进行加权，以得到目标图像信息，比如，对注意力权重进行归一化处理，得到源图像中每一像素位置的加权参数，比如，给定同一物体不同姿态的N张源图像S _(n)，按照公式(11)获取其对应的外观特征ξ′ _(n)，通过注意力权重组合这些外观特征，用于学习源图像S _(n)与目标图像D各像素之间的相关性，通过软最大化处理(softmax)，使得各个像素位置对应的权重加和为1，从而可以更好的处理训练阶段未曾见过的姿态，具体可以如公式(12)所示：

其中，

为加权参数，用于衡量不同ξ′的相对重要性，A _(n)∈R ^H×W为注意力权重。

根据加权参数，对初始图像信息进行加权，得到加权后图像信息，比如，可以基于加权参数，对初始图像信息中每个像素位置对应的图像信息进行加权，得到加权后图像信息，将加权后图像信息进行融合，得到目标图像信息，具体的融合过程可以参考公式(13)所示：

其中，

为目标图像信息，ξ′ _(n)初始图像信息，

为加权参数。

根据目标图像信息，生成处理后图像，比如，可以采用训练后处理模型的外观特征网络的解码器对目标图像信息进行解码，从而得到处理后图像。

其中，对于图像的处理，可以看作是在一个或多个视频中选中一个画面帧作为目标图像(D)，选中一个或多个不同画面帧作为源图像(S)，动作迁移任务需要基于S的外观信息和D的姿态信息进行重建，得到重建图像

该

就可以为处理后图像，该处理后图像应当和目标图像的动作尽可能相似。动作迁移的具体过程可以如图4所示，通过关键点检测器(KD)估计S和D对应的关键点项p _k、雅可比项J _k、透视项q _k，并进一步计算得到从S到D的反向光流

基于每对关键点所对应的稀疏动作场的反向光流

对源图像S进行了扭曲操作，从而得到多个扭曲图片S ^k，S ^k和差分热力图H ^k拼接后作为稠密动作网络的输入，该网络的输出为稠密动作场的姿态信息

和遮挡图

最后，将源图片S输入生成器，基于

和

对编码所得的隐特征进行处理，经解码后输出重建图像

由以上可知，本申请实施例在获取用于动作迁移的目标图像和目标图像对应的至少一张源图像后，对源图像和目标图像进行多维度特征提取，得到源图像和目标图像中关键点的关键点特征信息、以及源图像对应的外观特征信息，该关键点特征信息包括关键点透视信息，然后，根据关键点透视信息，对关键点进行透视变换，得到关键点的光流信息，该光流信息用于指示关键点从源图像至目标图像的变换信息，然后，基于光流信息和关键点特征信息，确定关键点对应的动作信息，将动作信息与外观特征信息进行融合，以得到处理后图像，该处理后图像为将目标图像中对象的动作迁移至源图像中对象的图像；由于该方案对目标图像和源图像的关键点进行透视变换来表征动作，可以准确的捕捉局部动作细节，也可以处理复杂的动作变化，还可以处理大姿态变化和严重背景遮挡等问题，因此，可以大大提升图像处理的准确性。

根据上面实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以该图像处理装置具体集成在电子设备，电子设备为服务器为例进行说明。

(一)处理模型的训练

(1)服务器获取源图像样本和目标图像样本。

例如，服务器可以从一个或多个视频中采集一个包含对象动作的画面帧作为目标图像样本，采集一个或多个不同的画面帧作为目标图像样本对应的源图像样本。还可以从数据库或网络中获取一张包含对象动作的目标图像样本和目标图像样本对应的至少一张源图像。

(2)服务器采用预设处理模型对源图像样本和目标图像样本中的对象进行动作迁移，得到目标动作图像。

例如，服务器采用预设处理模型的特征提取网络对源图像样本和目标图像样本进行多维度特征提取，得到源图像样本和目标图像样本中关键点的关键点特征信息、以及源图像样本对应的外观特征信息，关键点特征信息包括关键点透视信息，根据关键点透视信息，对关键点进行透视变换，得到关键点的光流信息，基于光流信息和关键点特征信息，确定关键点对应的动作信息，将动作信息与外观特征信息进行融合，以得到目标动作图像。

(3)服务器根据目标动作图像和目标图像样本对预设处理模型进行收敛，得到训练后处理模型。

例如，服务器可以将目标动作图像和目标图像样本缩放至原始分辨率的1.0、0.5、0.25和0.125，分别输入至预训练的VGG-19模型，然后，比较目标动作图像和目标图像样本在多个特定层输入值之间的差异，从而得到目标动作图像和目标图像样本之间的特征损失信息，特征损失信息的计算过程可以如公式(7)所示。

服务器对目标图像样本(D)执行一项已知的空间变换

比如，空间变换可以为薄板样条变换，得到变形后图像(Y)，将变形后图像作为空间变换后图像。对目标图像样本和空间变换后图像的关键点进行特征提取，得到p _k和J _k，在p _k中筛选出目标图像样本的

作为第二关键点位置信息，在J _k中筛选出目标图像样本的

作为第一关键点形变信息，在J _k中筛选出空间变换后图像的

作为第二关键点形变信息。根据第一关键点位置信息和第二关键点位置信息，采用公式(8)计算出关键点位置损失信息。根据第一关键点形变信息和第二关键点形变信息，采用公式(9)计算出关键点形变损失信息。将关键点位置损失信息和关键点形变损失信息作为目标图像样本与空间变换后图像的同变性损失信息。

服务器将特征损失信息、关键点位置损失信息和关键点形变损失信息相加，就可以得到目标图像样本的目标损失信息，具体可以如公式(10)所示。基于目标损失信息，采用梯度下降算法或者其他算法对预设处理模型的网络参数进行更新，从而得到训练后处理模型。

(二)通过训练后处理模型对目标图像和源图像进行处理。

其中，训练后处理模型可以包括关键点检测网络(KD)、外观特征网络(G)和稠密动作网络(DM)，KD和DM可以包括5个上采样块和5个下采样块、以及对应的跳边连接，G可以包括2个上采样块、6个残差块和2个下采样块。

如图5所示，一种图像处理方法，具体流程如下：

201、服务器获取用于动作迁移的目标图像和目标图像对应的至少一张源图像。

例如，服务器可以在一个视频中筛选出某一帧包含对象动作的画面帧作为用于动作迁移的目标图像，在同一个视频的其他画面帧中筛选出任意一个或多个画面帧作为目标图像对应的源图像，还可以在某一个视频中筛选出任意一帧包含对象动作的画面帧作为用于动作迁移的目标图像，在其他视频中筛选出任意一个或多个画面帧作为目标图像对应的至少一个源图像。服务器还可以直接接收或者获取用户上传的包含对象动作的图像作为目标图像，将上传的一个或多个其他图像作为目标图像对应的源图像，也可以在网上爬取一张包含对象动作的图像为目标图像，再爬取至少一张其他图像作为目标图像对应的源图像。

202、服务器对源图像和目标图像进行多维度特征提取，得到源图像和目标图像中关键点的关键点特征信息、以及源图像对应的外观特征信息。

例如，服务器采用关键点检测网络(KD)估计源图像和目标图像中关键点对应的关键点项p _k、雅可比项J _k、透视项q _k，将关键点项p _k作为源图像和目标图像对应的关键点位置信息，将雅可比项J _k作为源图像和目标图像对应的关键点形变信息，将透视项q _k作为源图像和目标图像对应的关键点透视信息，将关键点位置信息、关键点形变信息和关键点透视信息作为关键点特征信息。服务器采用外观特征网络(G)的编码网络对源图像的外观特征进行编码，得到源图像对应的外观特征信息。

203、服务器将关键点透视信息与关键点形变信息进行融合，得到透视变换参数。

例如，服务器在q _k中筛选出源图像(S)对应的

和目标图像(D)对应的

将

作为第一透视信息，将

作为第二透视信息。在J _k中筛选出源图像(S)对应的

和目标图像(D)对应的

将

作为第一形变信息，将

作为第二形变信息。对

和

进行扩充，具体的扩充公式如下公式(1)所示，将

和

分别作为源图像(S)的第一初始透视变换参数和目标图像(D)的第二初始透视变换参数。将

和

进行融合，将融合后的

作为透视变换参数。

204、服务器根据透视变换参数和关键点位置信息，对关键点进行透视变换，得到关键点的光流信息。

例如，获取关键点的单位光流信息，在p _k中筛选出源图像(S)中关键点的第一位置信息

和目标图像(D)中关键点的第二位置信息

根据单位光流信息、第二位置信息和透视变换参数，对关键点进行透视变换，得到关键点的初始光流信息，将第一位置信息与初始光流信息进行融合，得到关键点的光流信息，具体可以如公式(2)所示。对关键点进行透视变换操作具体可以参见公式(3)和公式(4)所示。

205、服务器根据光流信息，对源图像进行扭曲操作，得到至少一张扭曲后源图像。

例如，服务器基于每对关键点所对应的稀疏动作场的反向光流

对每一源图像进行扭曲操作，从而得到K个扭曲图像S ^k，将扭曲图像作为扭曲后源图像。

206、服务器将单位光流信息、第一位置信息、第二位置信息和扭曲后源图像进行融合，得到融合后源图像。

例如，服务器计算第一位置信息与单位光流信息的第一位置差值，并计算第二位置信息与单位光流信息的第二位置差值。根据第一位置差值和第二位置差值，采用公式(5)计算指示变换发送位置的差分热力图，将差分热力图作为关键点的变换位置信息。获取差分热力图和扭曲后源图像的深度信息，基于深度信息，将差分热力图与扭曲后源图像进行拼接，从而得到融合后源图像信息。

207、服务器在融合后源图像信息中识别出关键点对应的动作信息。

例如，服务器采用稠密动作网络(DM)对融合后源图像信息进行多维度特征提取，从而得到关键点的局部动作特征信息、源图像的遮挡信息和注意力权重，可以通过空间加权的方式对局部动作特征信息进行加权，得到加权后动作特征信息。采用公式(6)的算法将加权后动作特征信息进行融合，得到目标图像中对象的姿态信息。将姿态信息、遮挡信息和注意力权重作为关键点的动作信息。

208、服务器将动作信息与外观特征信息进行融合，以得到处理后图像。

例如，以外观特征信息为ξ∈R ^{C×H′×W′}为例，服务器根据姿态信息，对外观特征信息进行反向扭曲操作，再将反向扭曲操作后的信息与遮挡信息进行融合，就可以得到初始图像信息，具体的计算公式可以如公式(11)所示。采用公式(12)通过软最大化处理，对注意力权重进行归一化处理，得到源图像中每一像素位置的加权参数。基于加权参数，对初始图像信息中每个像素位置对应的图像信息进行加权，得到加权后图像信息，将加权后图像信息进行融合，得到目标图像信息，具体的融合过程可以参考公式(13)所示。服务器采用外观特征网络(G)的解码器对目标图像信息进行解码，从而得到处理后图像。

由以上可知，本实施例服务器在获取用于动作迁移的目标图像和目标图像对应的至少一张源图像后，对源图像和目标图像进行多维度特征提取，得到源图像和目标图像中关键点的关键点特征信息、以及源图像对应的外观特征信息，该关键点特征信息包括关键点透视信息，然后，根据关键点透视信息，对关键点进行透视变换，得到关键点的光流信息，该光流信息用于指示关键点从源图像至目标图像的变换信息，然后，基于光流信息和关键点特征信息，确定关键点对应的动作信息，将动作信息与外观特征信息进行融合，以得到处理后图像，该处理后图像为将目标图像中对象的动作迁移至源图像中对象的图像；由于该方案对目标图像和源图像的关键点进行透视变换来表征动作，可以准确的捕捉局部动作细节，也可以处理复杂的动作变化，还可以处理大姿态变化和严重背景遮挡等问题，因此，可以大大提升图像处理的准确性。

为了更好地实施以上方法，本申请实施例还提供一种图像处理装置，该图像处理装置可以集成在电子设备，比如服务器或终端等设备中，该终端可以包括平板电脑、笔记本电脑和/或个人计算机等。

例如，如图6所示，该图像处理装置可以包括获取单元301、提取单元302、透视变换单元303、确定单元304和融合单元305，如下：

(1)获取单元301；

获取单元301，用于获取用于动作迁移的目标图像和目标图像对应的至少一张源图像。

例如，获取单元301，具体可以用于在同一个视频中筛选出用于动作迁移的目标图像和目标图像对应的至少一张源图像，或者在不同视频中筛选出用于动作迁移的目标图像和目标图像对应的至少一张源图像，或者直接接收或者获取用户上传的包含对象动作的图像作为目标图像，将上传的一个或多个其他图像作为目标图像对应的源图像，也可以在网上爬取一张包含对象动作的图像为目标图像，再爬取至少一张其他图像作为目标图像对应的源图像。

(2)提取单元302；

提取单元302，用于对源图像和目标图像进行多维度特征提取，得到源图像和目标图像中关键点的关键点特征信息、以及源图像对应的外观特征信息，该关键点特征信息包括关键点透视信息。

例如，提取单元302，具体可以用于采用训练后处理模型的关键点检测网络对源图像和目标图像中的关键点进行特征提取，得到源图像中关键点的关键点特征信息和目标图像中关键点的关键点特征信息，采用训练后处理模型的外观特征网络对源图像的外观特征进行特征提取，得到源图像对应的外观特征信息。

(3)透视变换单元303；

透视变换单元303，用于根据关键点透视信息，对关键点进行透视变换，得到关键点的光流信息，该光流信息用于指示关键点从源图像至目标图像的变换信息。

例如，透视变换单元303，具体可以用于将关键点透视信息与关键点形变信息进行融合，得到透视变换参数，根据透视变换参数和关键点位置信息，对关键点进行透视变换，得到关键点的光流信息。

(4)确定单元304；

确定单元304，用于基于光流信息和关键点特征信息，确定关键点对应的动作信息。

例如，确定单元304，具体可以用于根据光流信息，对源图像进行扭曲操作，得到至少一张扭曲后源图像，将单位光流信息、第一位置信息、第二位置信息和扭曲后源图像进行融合，得到融合后源图像，在融合后源图像中识别出关键点对应的动作信息。

(5)融合单元305；

融合单元305，用于将动作信息与外观特征信息进行融合，以得到处理后图像，该处理后图像为将目标图像中对象的动作迁移至源图像中对象的图像。

例如，融合单元305，具体可以用于将姿态信息、遮挡信息与外观特征信息进行融合，得到初始图像信息，基于注意力权重，对初始图像信息进行加权，以得到目标图像信息，根据目标图像信息，生成处理后图像。

图像处理装置还可以包括训练单元306，如图7所示，具体可以如下：

训练单元306，用于对预设处理模型进行训练，得到训练后处理模型。

例如，训练单元306，具体可以用于获取源图像样本和目标图像样本，采用预设处理模型对源图像样本和目标图像样本中对象进行动作迁移，得到目标动作图像，根据目标动作图像和目标图像样本对预设处理模型进行收敛，得到训练后处理模型。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由以上可知，本实施例在获取单元301获取用于动作迁移的目标图像和目标图像对应的至少一张源图像后，提取单元302对源图像和目标图像进行多维度特征提取，得到源图像和目标图像中关键点的关键点特征信息、以及源图像对应的外观特征信息，该关键点特征信息包括关键点透视信息，然后，透视变换单元303根据关键点透视信息，对关键点进行透视变换，得到关键点的光流信息，该光流信息用于指示关键点从源图像至目标图像的变换信息，然后，确定单元304基于光流信息和关键点特征信息，确定关键点对应的动作信息，融合单元305将动作信息与外观特征信息进行融合，以得到处理后图像，该处理后图像为将目标图像中对象的动作迁移至源图像中对象的图像；由于该方案对目标图像和源图像的关键点进行透视变换来表征动作，可以准确的捕捉局部动作细节，也可以处理复杂的动作变化，还可以处理大姿态变化和严重背景遮挡等问题，因此，可以大大提升图像处理的准确性。

本申请实施例还提供一种电子设备，如图8所示，其示出了本申请实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图8中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器401可包括一个或多个处理核心；处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

例如，在同一个视频中筛选出用于动作迁移的目标图像和目标图像对应的至少一张源图像，或者在不同视频中筛选出用于动作迁移的目标图像和目标图像对应的至少一张源图像，或者直接接收或者获取用户上传的包含对象动作的图像作为目标图像，将上传的一个或多个其他图像作为目标图像对应的源图像，也可以在网上爬取一张包含对象动作的图像为目标图像，再爬取至少一张其他图像作为目标图像对应的源图像。采用训练后处理模型的关键点检测网络对源图像和目标图像中的关键点进行特征提取，得到源图像中关键点的关键点特征信息和目标图像中关键点的关键点特征信息，采用训练后处理模型的外观特征网络对源图像的外观特征进行特征提取，得到源图像对应的外观特征信息。将关键点透视信息与关键点形变信息进行融合，得到透视变换参数，根据透视变换参数和关键点位置信息，对关键点进行透视变换，得到关键点的光流信息。根据光流信息，对源图像进行扭曲操作，得到至少一张扭曲后源图像，将单位光流信息、第一位置信息、第二位置信息和扭曲后源图像进行融合，得到融合后源图像，在融合后源图像中识别出关键点对应的动作信息。将姿态信息、遮挡信息与外观特征信息进行融合，得到初始图像信息，基于注意力权重，对初始图像信息进行加权，以得到目标图像信息，根据目标图像信息，生成处理后图像。

以上各个操作的具体实施可参见前面的实施例，在此不作赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种图像处理方法中的步骤。例如，该指令可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本申请实施例所提供的任一种图像处理方法中的步骤，因此，可以实现本申请实施例所提供的任一种图像处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

其中，根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方面的各种实现方式中提供的方法。

以上对本申请实施例所提供的一种图像处理方法、装置和计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种图像处理方法，由电子设备执行，其特征在于，包括：

获取用于动作迁移的目标图像和所述目标图像对应的至少一张源图像；

对所述源图像和所述目标图像进行多维度特征提取，得到所述源图像和所述目标图像中关键点的关键点特征信息、以及所述源图像对应的外观特征信息，所述关键点特征信息包括关键点透视信息；

根据所述关键点透视信息，对所述关键点进行透视变换，得到所述关键点的光流信息，所述光流信息用于指示所述关键点从所述源图像至所述目标图像的变换信息；

基于所述光流信息和关键点特征信息，确定所述关键点对应的动作信息；

将所述动作信息与所述外观特征信息进行融合，以得到处理后图像，所述处理后图像为将所述目标图像中对象的动作迁移至所述源图像中对象的图像。
根据权利要求1所述的图像处理方法，其特征在于，所述关键点特征信息还包括关键点位置信息和关键点形变信息，所述根据所述关键点透视信息，对所述关键点进行透视变换，得到所述关键点的光流信息，包括：

将所述关键点透视信息与关键点形变信息进行融合，得到透视变换参数；

根据所述透视变换参数和关键点位置信息，对所述关键点进行透视变换，得到所述关键点的光流信息。
根据权利要求2所述的图像处理方法，其特征在于，所述将所述关键点透视信息与关键点形变信息进行融合，得到透视变换参数，包括：

基于所述关键点透视信息和关键点形变信息，分别构建所述源图像的第一初始透视变换参数和所述目标图像的第二初始透视变换参数；

将所述第一初始透视变换参数与所述第二初始透视变换参数进行融合，得到所述透视变换参数。
根据权利要求3所述的图像处理方法，其特征在于，所述基于所述关键点透视信息和关键点形变信息，分别构建所述源图像的第一初始透视变换参数和所述目标图像的第二初始透视变换参数，包括：

在所述关键点透视信息中筛选出所述源图像中关键点的第一透视信息和所述目标图像中关键点的第二透视信息；

在所述关键点形变信息中筛选出所述源图像中关键点的第一形变信息和所述目标图像中关键点的第二形变信息；

将所述第一透视信息与所述第一形变信息进行融合，得到所述源图像的第一初始透视变换参数，并将所述第二透视信息与所述第二形变信息进行融合，得到所述目标图像的第二初始透视变换参数。
根据权利要求2所述的图像处理方法，其特征在于，所述根据所述透视变换参数和关键点位置信息，对所述关键点进行透视变换，得到所述关键点的光流信息，包括：

获取所述关键点的单位光流信息，所述单位光流信息为扭曲操作对应的光流信息；

在所述关键点位置信息中分别筛选出所述源图像中关键点的第一位置信息和所述目标图像中关键点的第二位置信息；

根据所述单位光流信息、第二位置信息和透视变换参数，对所述关键点进行透视变换，得到所述关键点的初始光流信息；

将所述第一位置信息与所述初始光流信息进行融合，得到所述关键点的光流信息。
根据权利要求5所述的图像处理方法，其特征在于，所述基于所述光流信息和关键点特征信息，确定所述关键点对应的动作信息包括：

根据所述光流信息，对所述源图像进行扭曲操作，得到至少一张扭曲后源图像；

将所述单位光流信息、第一位置信息、第二位置信息和扭曲后源图像进行融合，得到融合后源图像信息；

在所述融合后源图像信息中识别出所述关键点对应的动作信息。
根据权利要求6所述的图像处理方法，其特征在于，所述将所述单位光流信息、第一位置信息、第二位置信息和扭曲后源图像进行融合，得到融合后源图像信息，包括：

计算所述第一位置信息与所述单位光流信息的第一位置差值；

计算所述第二位置信息与所述单位光流信息的第二位置差值；

根据所述第一位置差值与第二位置差值，确定所述关键点的变换位置信息；

将所述变换位置信息与扭曲后源图像进行拼接，得到所述融合后源图像信息。
根据权利要求6所述的图像处理方法，其特征在于，所述在所述融合后源图像信息中识别出所述关键点对应的动作信息，包括：

采用训练后处理模型对所述融合后源图像信息进行多维度特征提取，得到所述关键点的局部动作特征信息、所述源图像的遮挡信息和注意力权重；

将所述局部动作特征信息进行加权，得到所述关键点的加权后动作特征信息；

将所述加权后动作特征信息进行融合，得到所述目标图像中对象的姿态信息，并将所述姿态信息、遮挡信息和注意力权重作为所述动作信息。
根据权利要求8所述的图像处理方法，其特征在于，所述将所述动作信息与外观特征信息进行融合，以得到处理后图像，包括：

将所述姿态信息、遮挡信息与外观特征信息进行融合，得到初始图像信息；

基于所述注意力权重，对所述初始图像信息进行加权，以得到目标图像信息；

根据所述目标图像信息，生成所述处理后图像。
根据权利要求9所述的图像处理方法，其特征在于，所述基于所述注意力权重，对所述初始图像信息进行加权，以得到目标图像信息，包括：

对所述注意力权重进行归一化处理，得到所述源图像中每一像素位置的加权参数；

根据所述加权参数，对所述初始图像信息进行加权，得到加权后图像信息；

将所述加权后图像信息进行融合，得到所述目标图像信息。
根据权利要求8所述的图像处理方法，其特征在于，所述采用训练后处理模型对所述融合后源图像信息进行多维度特征提取，得到所述关键点的局部动作特征信息、所述源图像的遮挡信息和注意力权重之前，还包括：

获取源图像样本和目标图像样本；

采用预设处理模型对所述源图像样本和目标图像样本中的对象进行动作迁移，得到目标动作图像；

根据所述目标动作图像和目标图像样本对所述预设处理模型进行收敛，得到所述训练后处理模型。
根据权利要求11所述的图像处理方法，其特征在于，所述根据所述目标动作图像和目标图像样本对所述预设处理模型进行收敛，得到所述训练后处理模型，包括：

对所述目标动作图像和目标图像样本的尺寸进行调整，以得到所述目标动作图像与目标图像样本之间的特征损失信息；

对所述目标图像样本进行空间变换，并计算所述目标图像样本与空间变换后图像之间的同变性损失信息；

将所述特征损失信息与同变性损失信息进行融合，得到所述目标图像样本的目标损失信息，并基于所述目标损失信息，对所述预设处理模型进行收敛，得到所述训练后处理模型。
根据权利要求12所述的图像处理方法，其特征在于，所述对所述目标图像样本进行空间变换，并计算所述目标图像样本与空间变换后图像的同变性损失信息，包括：

对所述目标图像样本进行空间变换，得到所述空间变换后图像；

对所述目标图像样本和空间变换后图像进行关键点特征提取，得到所述目标图像样本的关键点特征信息和空间变换后图像的关键点特征信息，所述目标图像样本的关键点特征信息包括第一关键点位置信息和第一关键点形变信息，所述空间变换后图像的关键点特征信息包括第二关键点位置信息和第二关键点形变信息；

根据所述第一关键点位置信息和第二关键点位置信息，确定关键点位置损失信息，并根据所述第一关键点形变信息和第二关键点形变信息，确定关键点形变损失信息；

将所述关键点位置损失信息和关键点形变损失信息作为所述目标图像样本与空间变换后图像的同变性损失信息。
一种图像处理装置，其特征在于，包括：

获取单元，用于获取用于动作迁移的目标图像和所述目标图像对应的至少一张源图像；

提取单元，用于对所述源图像和目标图像进行多维度特征提取，得到所述源图像和目标图像中关键点的关键点特征信息、以及所述源图像对应的外观特征信息，所述关键点特征信息包括关键点透视信息；

透视变换单元，用于根据所述关键点透视信息，对所述关键点进行透视变换，得到所述关键点的光流信息，所述光流信息用于指示所述关键点从源图像至目标图像的变换信息；

确定单元，用于基于所述光流信息和关键点特征信息，确定所述关键点对应的动作信息；

融合单元，用于将所述动作信息与外观特征信息进行融合，以得到处理后图像，所述处理后图像为将所述目标图像中对象的动作迁移至所述源图像中对象的图像。
根据权利要求14所述的图像处理装置，其特征在于，所述关键点特征信息还包括关键点位置信息和关键点形变信息，所述透视变换单元进一步用于将所述关键点透视信息与所述关键点形变信息进行融合，得到透视变换参数，根据所述透视变换参数和所述关键点位置信息，对所述关键点进行透视变换，得到所述关键点的光流信息。
根据权利要求15所述的图像处理装置，其特征在于，所述透视变换单元进一步用于基于所述关键点透视信息和所述关键点形变信息，分别构建所述源图像的第一初始透视变换参数和所述目标图像的第二初始透视变换参数，将所述第一初始透视变换参数与所述第二初始透视变换参数进行融合，得到所述透视变换参数。
根据权利要求16所述的图像处理装置，其特征在于，所述透视变换单元进一步用于，在所述关键点透视信息中筛选出所述源图像中关键点的第一透视信息和所述目标图像中关键点的第二透视信息；在所述关键点形变信息中筛选出所述源图像中关键点的第一形变信息和所述目标图像中关键点的第二形变信息；将所述第一透视信息与所述第一形变信息进行融合，得到所述源图像的第一初始透视变换参数，并将所述第二透视信息与所述第二形变信息进行融合，得到所述目标图像的第二初始透视变换参数。
根据权利要求15所述的图像处理装置，其特征在于，所述透视变换单元进一步用于获取所述关键点的单位光流信息，所述单位光流信息为扭曲操作对应的光流信息；在所述关键点位置信息中分别筛选出所述源图像中关键点的第一位置信息和所述目标图像中关键点的第二位置信息；根据所述单位光流信息、所述第二位置信息和所述透视变换参数，对所述关键点进行透视变换，得到所述关键点的初始光流信息；将所述第一位置信息与所述初始光流信息进行融合，得到所述关键点的光流信息。
一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行权利要求1至13任一项所述的图像处理方法中的步骤。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至13任一项所述的图像处理方法中的步骤。