WO2022171114A1

WO2022171114A1 - 图像处理方法、装置、设备及介质

Info

Publication number: WO2022171114A1
Application number: PCT/CN2022/075622
Authority: WO
Inventors: 叶欣靖; 吴俊生; 吕海涛; 高茜
Original assignee: 北京字跳网络技术有限公司
Priority date: 2021-02-09
Filing date: 2022-02-09
Publication date: 2022-08-18
Also published as: CN112906553A; EP4206982A1; JP2024505597A; CN112906553B; JP7467780B2; KR20230130748A; EP4206982A4; US20230133416A1

Abstract

一种图像处理方法、装置、设备及介质，其中，图像处理方法包括：在初始视频图像中，确定第一识别对象的运动状态（S110）；根据第一识别对象的运动状态，确定素材对象的运动状态（S120）；若素材对象的运动状态属于第一状态，按照素材对象的运动状态将素材对象和第一风格视频图像合成，得到第一目标视频图像（S130）；若素材对象的运动状态属于第二状态，按照素材对象的运动状态将素材对象和第二风格视频图像合成，得到第二目标视频图像（S140）；其中，第一风格视频图像和第二风格视频图像是基于初始视频图像得到的不同风格的图像。能够自动对视频素材进行素材编辑得到合成图像，减少制作视频的时间成本，提高视频作品的质量，以及提升用户的体验。

Description

图像处理方法、装置、设备及介质

本申请要求于2021年02月09日提交中国国家知识产权局、申请号为202110180571.8、申请名称为“图像处理方法、装置、设备及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本公开涉及多媒体技术领域，尤其涉及一种图像处理方法、装置、设备及介质、程序产品。

背景技术

随着计算机技术和移动通信技术的迅速发展，基于电子设备的各种视频平台得到了普遍应用，极大地丰富了人们的日常生活。越来越多的用户乐于在视频平台上分享自己的视频作品，以供其他用户观看。

在制作视频时，用户首先需要对素材进行一些列复杂的素材编辑操作，然后对编辑后的素材进行视频剪辑操作，最终生成一个视频作品。如果用户不善于素材编辑，不但会使制作视频的时间成本较高，还无法保证视频作品的质量，降低了用户的体验。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种图像处理方法、装置、设备、介质及计算机程序产品。

第一方面，本公开提供了一种图像处理方法，包括：

在初始视频图像中，确定第一识别对象的运动状态；

根据第一识别对象的运动状态，确定素材对象的运动状态；

若素材对象的运动状态属于第一状态，按照素材对象的运动状态将素材对象和第一风格视频图像合成，得到第一目标视频图像；

若素材对象的运动状态属于第二状态，按照素材对象的运动状态将素材对象和第二风格视频图像合成，得到第二目标视频图像；

其中，第一风格视频图像和第二风格视频图像是基于初始视频图像得到的不同风格化的图像。

第二方面，本公开提供了一种图像处理装置，包括：

第一处理单元，配置为在初始视频图像中，确定第一识别对象的运动状态；

第二处理单元，配置为根据第一识别对象的运动状态，确定素材对象的运动状态；

第一合成单元，配置为若素材对象的运动状态属于第一状态，按照素材对象的运动状态将素材对象和第一风格视频图像合成，得到第一目标视频图像；

第二合成单元，配置为若素材对象的运动状态属于第二状态，按照素材对象的运动状态将素材对象和第二风格视频图像合成，得到第二目标视频图像；

第三方面，本公开提供了一种图像处理设备，包括：

处理器；

存储器，用于存储可执行指令；

其中，处理器用于从存储器中读取可执行指令，并执行可执行指令以实现第一方面所述的图像处理方法。

第四方面，本公开提供了一种计算机可读存储介质，该存储介质存储有计算机程序，当计算机程序被处理器执行时，使得处理器实现第一方面所述的图像处理方法。

第五方面，本公开提供了一种包含指令的计算机程序产品，当其在设备上运行时，使得设备执行上述第一方面所述的图像处理方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点：

本公开实施例的图像处理方法、装置、设备及介质，能够在初始视频图像中，确定第一识别对象的运动状态，并且根据第一识别对象的运动状态，确定素材对象的运动状态，然后对素材对象的运动状态进行判断，若素材对象的运动状态属于第一状态，则按照素材对象的运动状态将素材对象和第一风格视频图像合成，得到第一目标视频图像，若素材对象的运动状态属于第二状态，则按照素材对象的运动状态将素材对象和第二风格视频图像合成，得到第二目标视频图像，因此，可以自动对作为视频素材的初始视频图像进行素材编辑，得到编辑后的合成图像，无需用户手动进行素材编辑，从而可以减少制作视频的时间成本，提高视频作品的质量，以提升用户的体验。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。

图1为本公开实施例提供的一种图像处理方法的流程示意图；

图2为本公开实施例提供的另一种图像处理方法的流程示意图；

图3为本公开实施例提供的又一种图像处理方法的流程示意图；

图4为本公开实施例提供的一种图像处理过程的流程示意图；

图5为本公开实施例提供的一种图像处理装置的结构示意图；

图6为本公开实施例提供的一种图像处理设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

目前，在制作视频时，用户首先需要对素材进行一些列复杂的素材编辑操作，然后对编辑后的素材进行视频剪辑操作，最终生成一个视频作品。如果用户不善于素材编辑，不但会使制作视频的时间成本较高，还无法保证视频作品的质量，降低了用户的体验。

为了解决上述的问题，本公开实施例提供了一种能够自动对视频素材进行素材编辑的图像处理方法、装置、设备及介质。

下面首先参考图1对本公开实施例提供的一种图像处理方法进行说明。

在本公开一些实施例中，该图像处理方法可以由电子设备执行。其中，电子设备可以包括移动电话、平板电脑、台式计算机、笔记本电脑、车载终端、可穿戴电子设备、一体机、智能家居设备等具有通信功能的设备，也可以是虚拟机或者模拟器模拟的设备。

图1示出了本公开实施例提供的一种图像处理方法的流程示意图。

如图1所示，该图像处理方法包括如下步骤。

S110、在初始视频图像中，确定第一识别对象的运动状态。

在本公开实施例中，电子设备可以在获取初始视频图像之后，基于对象检测方法，对初始视频图像中的第一识别对象进行运动分析，并确定第一识别对象的运动状态。

在一些实施例中，初始视频图像可以为已经拍摄完成的视频中的视频图像。例如，初始视频图像可以为电子设备本地存储的视频、其他电子设备发送的视频或者互联网上的视频等中的视频图像。

在另一些实施例中，初始视频图像可以为电子设备实时拍摄的视频图像。

可选地，在本公开实施例中，在初始视频图像为电子设备实时拍摄的视频图像的情况下，可以基于增强现实(AR，Augmented Reality)技术在屏幕上将虚拟世界和现实世界结合，实现对视频素材的素材编辑，以达到与用户进行互动的效果。

在本公开实施例中，第一识别对象可以根据实际需要预先设定，在此不作限制。

在一些实施例中，第一识别对象可以包括人物、动物或事物中的任意一种。

以第一识别对象为人物为例，第一识别对象的运动状态可以指人物的整体运动状态。

在另一些实施例中，第一识别对象也可以包括任意的身体部位。

以第一识别对象为手部为例，第一识别对象的运动状态可以指手部的运动状态。

在本公开实施例中，第一识别对象的运动状态所属的运动类型可以根据实际需要预先设定，在此不作限制。

可选地，第一识别对象的运动状态可以包括下列中的任一项：第一识别对象沿目标移动方向的移动状态、第一识别对象向目标对象姿态的姿态变化状态、第一识别对象沿目标旋转方向的旋转状态。

在一些实施例中，目标移动方向可以根据实际需要预先设定，在此不作限制。例如，目标移动方向可以为视频图像内任意角度的深度方向。再例如，目标移动方向也可以为视频图像平面内任意角度的方向。

在这些实施例中，沿目标移动方向的移动状态可以包括沿目标移动方向的移动距离。

在目标对象为手部、目标移动方向为垂直视频图像的深度方向的情况下，第一识别对象的运动状态可以为手部沿垂直视频图像的深度方向上的移动距离。

在另一些实施例中，目标对象姿态可以根据实际需要预先设定，在此不作限制。

在这些实施例中，向目标对象姿态的姿态变化状态可以包括向目标对象姿态的姿态变化量。

在目标对象为手部、目标对象姿态为手掌张开姿态的情况下，第一识别对象的运动状态可以为手部姿态向手掌张开姿态的姿态变化量。

在又一些实施例中，目标旋转方向可以根据实际需要预先设定，在此不作限制。

例如，目标旋转方向可以为在视频图像的深度方向上的任意角度下的顺时针方向或逆时针方向。再例如，目标方向也可以为在视频图像平面内的顺时针方向或逆时针方向。

在这些实施例中，沿目标旋转方向的旋转状态可以包括沿目标旋转方向的旋转角度。

在目标对象为手部、目标旋转方向为在视频图像平面内的顺时针方向的情况下，第一识别对象的运动状态可以为手部在视频图像平面内旋转的旋转角度。

S120、根据第一识别对象的运动状态，确定素材对象的运动状态。

在本公开实施例中，电子设备可以在确定第一识别对象的运动状态之后，确定在第一识别对象的运动状态下的素材对象的运动状态。

在本公开实施例中，素材对象的运动状态可以为素材对象相对于第二识别对象的位置关系变化状态。

其中，素材对象的运动状态可以根据实际需要预先设定，在此不作限制。例如，素材对象的运动状态可以包括在目标倾斜方向下与第二识别对象之间的夹角变化状态、相对于第二识别对象的图层变化状态以及在图像平面内相对于第二识别对象的位置变化状态等中的至少一种。

其中，第二识别对象可以根据实际需要预先设定，在此不作限制。例如第二识别对象可以为图像主体如人物或动物。

在一些实施例中，目标倾斜方向可以根据实际需要预先设定，在此不作限制。例如，目标倾斜方向可以为视频图像内任意角度的深度方向。再例如，目标倾斜方向也可以为视频图像平面内任意角度的方向。

在这些实施例中，在目标倾斜方向下与第二识别对象之间的夹角状态可以包括在目标倾斜方向下与第二识别对象之间的夹角角度。

在另一些实施例中，相对于第二识别对象的图层状态可以包括相对于第二识别对象的图层位置。

例如，相对于第二识别对象的图层位置可以包括第二识别对象的前景或后景。

在又一些实施例中，在图像平面内相对于第二识别对象的位置状态可以包括在图像平面内相对于第二识别对象的相对距离。

在本公开实施例中，素材对象可以根据实际需要预先设定，在此不作限制。

例如，素材对象可以为场景装饰物特效。再例如，素材对象可以为贺卡装饰物特效。

在一些实施例中，素材对象可以包括运动素材对象。此时，素材对象的运动状态可以为运动素材对象的运动状态。

例如，运动素材对象可以包括可运动的贺卡边框特效。

以运动素材对象为贺卡边框特效、第二识别对象为人物为例，若素材对象的运动状态为在贺卡边框特效向垂直视频图像的深度方向倾斜的过程中与人物之间的夹角角度，随着第一识别对象的运动，贺卡边框特效与人物之间的夹角角度也随之改变，可以实现贺卡边框特效的倒下和立起效果。

以运动素材对象为贺卡边框特效、第二识别对象为人物为例，若素材对象的运动状态为相对于第二识别对象的图层位置，随着第一识别对象的运动，边框特效可以由人物的前景切换为人物的后景，也可以由人物的后景切换为人物的前景。

在另一些实施例中，为了进一步提高编辑后的视频素材的美观性，素材对象可以包括运动素材对象和固定素材对象。此时，素材对象的运动状态可以为运动素材对象的运动状态。而固定素材对象则以固定的预设显示状态进行显示，不具有运动状态。

例如，运动素材对象可以包括可运动的贺卡边框特性，固定素材对象可以包括不可运动的贺卡底框特效。

在本公开实施例中，电子设备在确定素材对象的运动状态之后，还可以对素材对象的运动状态进行判断，若素材对象的运动状态属于第一状态，则执行S130，若素材对象的运动状态属于第二状态，则执行S140。

S130、若素材对象的运动状态属于第一状态，按照素材对象的运动状态将素材对象和第一风格视频图像合成，得到第一目标视频图像。

在本公开实施例中，第一状态可以表示素材对象与初始视频图像中的第二识别对象满足第一位置关系。

在素材对象的运动状态为在目标倾斜方向下与第二识别对象之间存在夹角的情况下，第一位置关系可以具体为夹角角度变化值落入第一角度范围，或者第一关系可以具体为变化过程中夹角角度均落入第一角度范围内。

以目标倾斜方向为垂直视频图像的深度方向为例，第一位置关系可以具体为夹角角度落入在垂直视频图像的深度方向下的[0°,45°]角度范围内。

在素材对象的运动状态为相对于第二识别对象的图层位置的情况下，第一位置关系可以具体为素材对象位于第二识别对象的前景。

在素材对象的运动状态为在图像平面内相对于第二识别对象存在距离的情况下，第一位置关系可以具体为相对距离的变化值落入第一距离范围，或者变化过程中相对距离均落入第一距离范围。

因此，电子设备在确定素材对象的运动状态属于第一状态的情况下，可以获取初始视频图像对应的第一风格视频图像，进而按照素材对象的运动状态将素材对象和第一风格视频图像合成，得到第一状态对应的第一目标视频图像。

在本公开实施例中，第一风格视频图像可以为基于初始视频图像得到的具有第一风格的视频图像，第一风格为第一状态对应的风格。

S140、若素材对象的运动状态属于第二状态，按照素材对象的运动状态将素材对象和第二风格视频图像合成，得到第二目标视频图像。

在本公开实施例中，第二状态可以表示素材对象与初始视频图像中的第二识别对象满足第二位置关系。

在素材对象的运动状态为在目标倾斜方向下与第二识别对象之间存在夹角的情况下，第二位置关系可以具体为夹角角度变化值落入第二角度范围，或者第二关系可以具体为变化过程中夹角角度均落入第二角度范围内。

以目标倾斜方向为垂直视频图像的深度方向为例，第二位置关系可以具体为夹角角度落入在垂直视频图像的深度方向下的(45,90]角度范围内。

在素材对象的运动状态为相对于第二识别对象的图层位置的情况下，第二位置关系可以具体为素材对象位于第二识别对象的背景。

在素材对象的运动状态为在图像平面内相对于第二识别对象存在距离的情况下，第二位置关系可以具体为相对距离的变化值落入第二距离范围，或者变化过程中相对距离均落入第二距离范围。

因此，电子设备在确定素材对象的运动状态属于第二状态的情况下，可以获取初始视频图像对应的第二风格视频图像，进而按照素材对象的运动状态将素材对象和第二风格视频图像合成，得到第二状态对应的第二目标视频图像。

在本公开实施例中，第二风格视频图像可以为基于初始视频图像得到的具有第二风格的视频图像，第二风格为第二状态对应的风格。

进一步地，第一风格视频图像和第二风格视频图像是基于初始视频图像得到的不同风格化的图像，即第一风格与第二风格不同。

在本公开实施例中，能够在初始视频图像中，确定第一识别对象的运动状态，并且根据第一识别对象的运动状态，确定素材对象的运动状态，然后对素材对象的运动状态进行判断，若素材对象的运动状态属于第一状态，则按照素材对象的运动状态将素材对象和第一风格视频图像合成，得到第一目标视频图像，若素材对象的运动状态属于第二状态，则按照素材对象的运动状态将素材对象和第二风格视频图像合成，得到第二目标视频图像，因此，可以自动对作为视频素材的初始视频图像进行素材编辑，得到编辑后的合成图像，无需用户手动进行素材编辑，从而可以减少制作视频的时间成本，提高视频作品的质量，以提升用户的体验。

在本公开一种实施方式中，为了准确地确定第一识别对象的运动状态，S110可以具体包括：

S111、在初始视频图像中，检测第一识别对象的显示参数变量。

在初始视频图像为首帧视频图像的情况下，可以确定第一识别对象的显示参数变量为零。

在初始视频图像为非首帧视频图像的情况下，可以获取与初始视频图像前相邻的参考视频图像。

在这种情况下，电子设备可以基于对象检测方法，检测第一识别对象在初始视频图像中的第一显示参数和在参考视频图像中的第二显示参数，然后将第一显示参数减去第二显示参数，得到第一识别对象的显示参数变量。

其中，第一显示参数和第二显示参数的参数类型可以为根据实际需要预先设定的用于计算第一识别对象的运动状态的参数类型，在此不作限制。

可选地，上述的显示参数可以包括第一识别对象的对象姿态、第一识别对象的显示尺寸、第一识别对象在视频图像中的显示位置和第一识别对象相对于第三识别对象的距离等中的至少一项。

其中，第三识别对象可以为根据实际需要预先选择的位置参考对象，在此不做限制。例如第一识别对象为手部时，第三识别对象可以为头部。

以第一识别对象的运动状态为手部沿垂直视频图像的深度方向的移动距离为例，显示参数可以为手部的显示尺寸，第一显示参数可以为手部在初始视频图像中的第一显示尺寸，第二显示参数可以为手部在参考视频图像中的第二显示尺寸，然后将第一显示尺寸减去第二显示尺寸，得到第一识别对象的显示参数变量。

S112、根据显示参数变量，确定第一识别对象的运动状态。

在本公开实施例中，电子设备可以将显示参数变量作为第一识别对象的运动状态。

以第一识别对象的运动状态为手部沿垂直视频图像的深度方向的移动距离、第一显示参数为手部在初始视频图像中的第一显示尺寸、第二显示参数为手部在参考视频图像中的第二显示尺寸为例，若显示参数变量大于或等于零，则可以将显示参数变量作为手部沿垂直视频图像的深度方向靠近的移动距离，若显示参数变量小于零，则可以将显示参数变量作为手部沿垂直视频图像的深度方向远离的移动距离。

由此，在本公开实施例中，可以通过检测第一识别对象初始视频图像中的显示参数变量，对第一识别对象进行可靠地运动分析，进而确定第一识别对象的运动状态。

在本公开另一种实施方式中，不同素材对象的运动状态对应的风格视频图像的获取方式不同。

在本公开一些实施例中，第一风格视频图像可以为初始视频图像经过风格迁移处理得到的图像。

进一步地，在S130之前，该图像处理方法还可以包括：

对初始视频图像进行人脸风格化处理，得到风格化人脸图像；

对初始视频图像进行非人脸风格化处理，得到风格化非人脸图像；

将风格化人脸图像和风格化非人脸图像合成为第一风格视频图像。

首先，电子设备可以对初始视频图像进行人脸检测，得到初始视频图像中的人脸区域图像，并将人脸区域图像输入预先训练得到的人脸风格化模型，得到风格化人脸图像。

例如，人脸风格化模型可以为漫画人脸转换模型，电子设备可以将人脸区域图像输入漫画人脸转换模型，得到漫画风格的风格化人脸图像。

然后，电子设备可以利用预设的背景风格化算法，对初始视频图像的非人脸区域进行非人脸风格化处理，得到风格化非人脸图像。

例如，背景风格化算法可以为奥义背景转换算法，电子设备可以利用奥义背景转换算法对初始视频图像的非人脸区域进行非人脸风格化处理，得到漫画风格的风格化非人脸图像。

最后，电子设备可以确定人脸区域图像在初始视频图像中的相对位置，将风格化人脸图像拼接至风格化非人脸图像的相对位置上，得到第一风格视频图像。

在这些实施例中，可选地，S130中的按照素材对象的运动状态将素材对象和第一风格视频图像合成，得到第一目标视频图像可以具体包括：

将素材对象以素材对象的运动状态与第一风格视频图像进行叠加，得到第一目标视频图像。

在素材对象包括运动素材对象的情况下，直接将运动素材对象以运动素材对象的运动状态与第一风格视频图像的指定位置进行叠加，得到第一目标视频图像。

在素材对象包括运动素材对象和固定素材对象的情况下，直接将运动素材对象以运动素材对象的运动状态与第一风格视频图像的指定位置进行叠加，并且将固定素材对象以预设显示状态与第一风格视频图像进行叠加，进而得到第一目标视频图像。

在本公开另一些实施例中，第二风格视频图像可以为初始视频图像。

进一步地，在S140之前，该图像处理方法还可以包括：将初始视频图像作为第二风格视频图像。

具体地，电子设备可以直接将初始视频图像作为第二风格视频图像，使得第二风格视频图像为具有原始图像风格的初始视频图像。

由此，在本公开实施例中，可以通过不同的风格化处理方式，得到初始视频图像对应的不同风格的风格视频图像，进一步提高互动趣味性。

在这些实施例中，可选地，S140中的按照素材对象的运动状态将素材对象和第二风格视频图像合成，得到第二目标视频图像可以具体包括：

首先对第二风格视频图像进行图像分割，得到第二风格视频图像中的第二识别对象图像和第二识别对象图像以外的背景图像，然后将素材对象以素材对象的运动状态与第二识别对象图像和背景图像进行叠加，得到第二目标视频图像。

在素材对象包括运动素材对象的情况下，直接将运动素材对象以运动素材对象的运动状态与第二识别对象图像和背景图像的指定位置进行叠加，得到第人目标视频图像。

在素材对象包括运动素材对象和固定素材对象的情况下，直接将运动素材对象以运动素材对象的运动状态与第二识别对象图像和背景图像的指定位置进行叠加，并且将固定素材对象以预设显示状态与第二识别对象图像和背景图像进行叠加，进而得到第二目标视频图像。

为了提高互动趣味性，本公开实施例还提供了另一种图像处理方法，下面将参考图2进行说明。

图2示出了本公开实施例提供的另一种图像处理方法的流程示意图。

如图2所示，该图像处理方法包括如下步骤。

S210、在初始视频图像中，检测第一识别对象的对象姿态。

在本公开实施例中，电子设备可以在获取初始视频图像之后，基于对象检测方法，检测第一识别对象在初始视频图像中的对象姿态。

其中，初始视频图像已在图1所示的S110中说明，在此不做赘述。

S220、在第一识别对象的对象姿态为目标姿态的情况下，在初始视频图像中，确定第一识别对象的运动状态。

在本公开实施例中，电子设备可以首先对第一识别对象的对象姿态进行判断：如果第一识别对象的对象姿态为目标姿态，则在初始视频图像中，确定第一识别对象的运动状态；否则，不对初始视频图像进行处理。

在本公开实施例中，目标姿态可以根据实际需要预先设定，在此不作限制。例如，目标对象可以为手部，目标姿态可以为手掌张开姿态。

其中，确定第一识别对象的运动状态的具体方法与图1所示的S110相似，在此不做赘述。

S230、根据第一识别对象的运动状态，确定素材对象的运动状态。

在本公开实施例中，电子设备在确定素材对象的运动状态之后，还可以对素材对象的运动状态进行判断，若素材对象的运动状态属于第一状态，则执行S240，若素材对象的运动状态属于第二状态，则执行S250。

S240、若素材对象的运动状态属于第一状态，按照素材对象的运动状态将素材对象和第一风格视频图像合成，得到第一目标视频图像。

S250、若素材对象的运动状态属于第二状态，按照素材对象的运动状态将素材对象和第二风格视频图像合成，得到第二目标视频图像。

其中，第一风格视频图像和第二风格视频图像可以是基于初始视频图像得到的不同风格化的图像。

其中，S230-S250与图1所示的S120-S140相似，在此不做赘述。

由此，在本公开实施例中，可以在第一识别对象为指定的姿态的前提下，对初始视频图像进行编辑，进一步提高了互动趣味性。

为了提高素材编辑效率，本公开实施例还提供了又一种图像处理方法，下面将参考图3进行说明。

图3示出了本公开实施例提供的又一种图像处理方法的流程示意图。

如图3所示，该图像处理方法包括如下步骤。

S310、在初始视频图像中，确定第一识别对象的运动状态。

其中，S310与图1所示的S110相似，在此不做赘述。

S320、在素材对象的模板视频中，选择第一识别对象的运动状态对应的目标模板视频图像。

在本公开实施例中，电子设备可以在确定第一识别对象的运动状态之后，在素材对象的模板视频的多个模板视频图像中，选择第一识别对象的运动状态对应的目标模板视频图像。

可选地，S320可以具体包括：

S321、确定第一识别对象的运动状态对应的目标跳转帧数。

在一些实施例中，如果第一识别对象的运动状态为零，则目标跳转帧数为0，如果第一识别对象的运动状态不为零，则目标跳转帧数为1。

在另一些实施例中，电子设备可以预先设置有运动状态与跳转帧数之间的对应关系，跳转帧数可以与运动状态成正比，进而根据该对应关系，确定第一识别对象的运动状态对应的目标跳转帧数。

S322、根据目标跳转帧数，确定第一识别对象的运动状态对应的目标视频帧数。

在初始视频图像为首帧视频图像的情况下，初始视频帧数可以为第0帧。

在初始视频图像为非首帧视频图像的情况下，初始视频帧数可以为与初始视频图像前相邻的参考视频图像对应的视频帧数。

进一步地，电子设备可以根据初始视频帧数、第一识别对象的运动方向即第一识别对象的显示参数变量的变化方向和目标跳转帧数，确定第一识别对象的运动状态对应的目标视频帧数。

在第一识别对象的显示参数变量为正数的情况下，电子设备可以将初始视频帧数与目标跳转帧数相加，得到目标视频帧数；在第一识别对象的显示参数变量为负数的情况下，电子设备可以将初始视频帧数减去目标跳转帧数，得到目标视频帧数。

进一步地，在目标跳转帧数为负数的情况下，停止对初始视频图像进行处理。

S323、将素材对象的模板视频中的目标视频帧数对应的模板视频图像作为目标模板视频图像。

由此，在本公开实施例中，可以快速、可靠地选择第一识别对象的运动状态对应的目标模板视频图像。

S330、将素材对象在目标模板视频图像中的运动状态作为素材对象的运动状态。

在本公开实施例中，一个模板视频图像包括具有一种运动状态的素材对象，即素材对象在不同的模板视频图像中的运动状态不同，并且素材对象在每个模板视频图像中的运动状态可以根据实际需要预先设定。

因此，根据第一识别对象的运动状态确定素材对象的运动状态的具体方法可以为将素材对象在目标模板视频图像中的运动状态作为素材对象的运动状态。

可选地，S330可以具体包括：

将素材对象在目标视频帧数下的运动状态作为素材对象的运动状态。

由于一个模板视频图像包括具有一种运动状态的素材对象，因此，一个模板视频图像对应的视频帧数也可以用于指示素材对象的一种运动状态，即一个模板视频图像对应的视频帧数也可以用于指示素材对象在对应模板视频图像中的运动状态，因此，电子设备可以将素材对象在目标视频帧数下的运动状态作为素材对象的运动状态。

在本公开实施例中，电子设备在确定素材对象的运动状态之后，还可以对素材对象的运动状态进行判断，若素材对象的运动状态属于第一状态，则执行S340，若素材对象的运动状态属于第二状态，则执行S350。

可选地，电子设备可以通过判断目标视频帧数所属的帧数范围，来确定素材对象的运动状态是属于第一状态，还是属于第二状态。

由于一个模板视频图像对应的视频帧数可以用于指示素材对象在对应模板视频图像中的运动状态，因此，可以确定包含属于第一状态的运动状态的素材对象的模板视频图像对的第一帧数范围和包含属于第二状态的运动状态的素材对象的模板视频图像对的第二帧数范围。

具体地，电子设备可以对目标视频帧数所属的帧数范围进行判断，并且在确定目标视频帧数属于第一帧数范围的情况下，确定素材对象的运动状态属于第一状态；在确定目标视频帧数属于第二帧数范围的情况下，确定素材对象的运动状态属于第二状态。

S340、若素材对象的运动状态属于第一状态，按照素材对象的运动状态将素材对象和第一风格视频图像合成，得到第一目标视频图像。

S350、若素材对象的运动状态属于第二状态，按照素材对象的运动状态将素材对象和第二风格视频图像合成，得到第二目标视频图像。

其中，S340-S250与图1所示的S130-S140相似，在此不做赘述。

由此，在本公开实施例中，可以直接通过视频帧数确定素材对象的运动状态是属于第一状态还是第二状态，无需对素材对象的运动状态进行检测，减小了数据处理量，进而提高了素材编辑效率。

为了更清楚地说明本公开实施例提供的图像处理方法，下面以素材对象的模板视频为贺卡倒下动画模板视频、素材对象为贺卡、贺卡包括可运动的贺卡边框特效和不可运动的贺卡底框特效为例对本公开实施例提供的图像处理过程进行详细说明。

图4示出了本公开实施例提供的一种图像处理过程的流程示意图。

如图4所示，该图像处理过程可以包括如下步骤。

S401、在拍摄预览画面内，播放贺卡倒下动画的效果视频，其中，效果视频中的每一帧效果视频图像中均显示有效果控制引导信息，该效果控制引导信息可以用于引导用户张手并且前后推动手掌。

其中，电子设备在播放贺卡倒下动画的效果视频的过程中，若贺卡边框特效为人物的前景，则获取实时拍摄图像对应的漫画风格视频图像，并将贺卡底框特效、贺卡边框特效和漫画风格视频图像按照由顶层至底层的顺序依次叠加，得到效果视频图像；若贺卡边框特效为人物的后景，则将实时拍摄图像分割为人像和背景图像，并将贺卡底框特效、人像、贺卡边框特效和背景图像按照由顶层至底层的顺序依次叠加，得到效果视频图像。

在效果视频播放完毕后，针对每一帧实时采集图像，可以从S402开始执行后续步骤，直至电子设备停止采集图像。

S402、检测实时采集图像中用户是否张手，如果不是，则执行S403，如果是，则执行S404。

其中，电子设备可以对实时采集图像中的用户的手部姿态进行检测，如果手部姿态为手掌张开姿态，则执行S404，否则执行S403。

S403、在拍摄预览画面内，显示实时采集图像，并返回S402。

S404、判断实时采集图像的前一帧采集图像中用户是否张手，如果不是，则执行S405，否则执行S406。

其中，电子设备可以获取前一帧采集图像对手部姿态的检测结果，并且根据该检测结果确定前一帧采集图像中用户的手部是否为手掌张开姿态。

S405、确定实时采集图像对应贺卡倒下动画模板视频中的第一帧模板视频图像，然后执行S408。

S406、将实时采集图像中的手部尺寸与前一帧采集图像中的手部尺寸进行比较，计算手部尺寸变化量，然后执行S407。

S407、按照手部尺寸变化量、手部尺寸变化量的正负方向和前一帧采集图像对应的视频帧数，确定实时采集图像对应的模板视频图像，然后执行S408。

其中，如果手部尺寸变化量为正数，则说明手部向前推动，电子设备可以获取手部尺寸变化量对应的目标跳转帧数，然后将前一帧采集图像对应的视频帧数与目标跳转帧数相加，来确定贺卡倒下动画模板视频的播放帧数，以获取贺卡边框特效针对前一帧采集图像向后倾倒的效果；否则，电子设备可以将前一帧采集图像对应的视频帧数与目标跳转帧数相减，来确定贺卡倒下动画模板视频的播放帧数，以获取贺卡边框特效针对前一帧采集图像向前立起的效果。

S408、判断贺卡倒下动画模板视频的播放帧数是否高于帧数阈值，如果是，则执行S409，否则，执行S411。

S409、对实时采集图像进行图像分割，得到实时采集图像中的人像和背景图像，然后执行S410。

S410、将贺卡底框特效、人像、贺卡边框特效和背景图像由顶层至底层的顺序依次叠加，得到合成的视频图像，然后执行S413。

S411、对实时采集图像进行漫画风格化处理，得到漫画风格视频图像，然后执行S412。

S412、将贺卡底框特效、贺卡边框特效和漫画风格视频图像依次叠加，得到合成的视频图像，然后执行S413。

S413、在拍摄预览画面内，显示合成的视频图像。

由此，图4所示的图像处理过程可以在用户实时拍摄视频的过程中，实现视觉上贺卡穿过人脸倒下或立起的效果的显示，并在贺卡倒下或者立起的过程中，可以实现漫画效果和真人效果的切换，无需用户对拍摄的视频素材进行素材编辑，即可自动生成具有特殊效果的趣味视频，增加互动趣味性，提升了用户的体验。

本公开实施例还提供了一种能够实现上述的图像处理方法的图像处理装置，下面参考图5对本公开实施例提供的图像处理装置进行说明。

在本公开一些实施例中，该图像处理装置可以为电子设备。其中，电子设备可以包括移动电话、平板电脑、台式计算机、笔记本电脑、车载终端、可穿戴电子设备、一体机、智能家居设备等具有通信功能的设备，也可以是虚拟机或者模拟器模拟的设备。

图5示出了本公开实施例提供的一种图像处理装置的结构示意图。

如图5所示，该图像处理装置500可以包括第一处理单元510、第二处理单元520、第一合成单元530和第二合成单元540。

该第一处理单元510可以配置为在初始视频图像中，确定第一识别对象的运动状态。

该第二处理单元520可以配置为根据第一识别对象的运动状态，确定素材对象的运动状态。

该第一合成单元530可以配置为若素材对象的运动状态属于第一状态，按照素材对象的运动状态将素材对象和第一风格视频图像合成，得到第一目标视频图像。

该第二合成单元540可以配置为若素材对象的运动状态属于第二状态，按照素材对象的运动状态将素材对象和第二风格视频图像合成，得到第二目标视频图像。

在本公开一些实施例中，第一状态可以表示素材对象与初始视频图像中的第二识别对象满足第一位置关系，第二状态可以表示素材对象与初始视频图像中的第二识别对象满足第二位置关系。

在本公开一些实施例中，第一位置关系可以具体为：素材对象位于第二识别对象的前景；第二位置关系可以具体为：素材对象位于第二识别对象的背景。

在本公开一些实施例中，第一风格视频图可以像为初始视频图像经过风格迁移处理得到的图像，第二风格视频图像可以为初始视频图像。

在本公开一些实施例中，第一识别对象的运动状态可以包括下列中的任一项：

第一识别对象沿目标移动方向的移动状态；

第一识别对象向目标对象姿态的姿态变化状态；

第一识别对象沿目标旋转方向的旋转状态。

在本公开一些实施例中，该第一处理单元510可以包括第一子处理单元和第二子处理单元。

该第一子处理单元可以配置为在初始视频图像中，检测第一识别对象的显示参数变量。

该第二子处理单元可以配置为根据显示参数变量，确定第一识别对象的运动状态。

在本公开一些实施例中，该图像处理装置500还可以包括第三处理单元，该第三处理单元可以配置为在初始视频图像中，检测第一识别对象的对象姿态。

相应地，该第一处理单元510可以进一步配置为在第一识别对象的对象姿态为目标姿态的情况下，在初始视频图像中，确定第一识别对象的运动状态。

在本公开一些实施例中，该图像处理装置500还可以包括第四处理单元，该第四处理单元可以配置为在素材对象的模板视频中，选择第一识别对象的运动状态对应的目标模板视频图像。

相应地，该第二处理单元520可以进一步配置为将素材对象在目标模板视频图像中的运动状态作为素材对象的运动状态。

在本公开一些实施例中，该第四处理单元可以包括第三子处理单元、第四子处理单元和第五子处理单元。

该第三子处理单元可以配置为确定第一识别对象的运动状态对应的目标跳转帧数。

该第四子处理单元可以配置为根据目标跳转帧数，确定第一识别对象的运动状态对应的目标视频帧数。

该第五子处理单元可以配置为将素材对象的模板视频中的目标视频帧数对应的模板视频图像作为目标模板视频图像。

在本公开一些实施例中，该第二处理单元520可以进一步配置为将素材对象在目标视频帧数下的运动状态作为素材对象的运动状态。

在本公开一些实施例中，素材对象包括运动素材对象和固定素材对象，素材对象的运动状态为运动素材对象的运动状态。

需要说明的是，图5所示的图像处理装置500可以执行图1至图4所示的方法实施例中的各个步骤，并且实现图1至图4所示的方法实施例中的各个过程和效果，在此不做赘述。

本公开实施例还提供了一种图像处理设备，该图像处理设备可以包括处理器和存储器，存储器可以用于存储可执行指令。其中，处理器可以用于从存储器中读取可执行指令，并执行可执行指令以实现上述实施例中的图像处理方法。

图6示出了本公开实施例提供的一种图像处理设备的结构示意图。下面具体参考图6，其示出了适于用来实现本公开实施例中的图像处理设备600的结构示意图。

本公开实施例中的图像处理设备600可以为电子设备。其中，电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)、可穿戴设备、等等的移动终端以及诸如数字TV、台式计算机、智能家居设备等等的固定终端。

需要说明的是，图6示出的图像处理设备600仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图6所示，该图像处理设备600可以包括处理装置(例如中央处理器、图形处理器等)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有图像处理设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

通常，以下装置可以连接至I/O接口605：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607；包括例如磁带、硬盘等的存储装置608；以及通信装置609。通信装置609可以允许图像处理设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的图像处理设备600，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

本公开实施例还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，当计算机程序被处理器执行时，使得处理器实现上述实施例中的图像处理方法。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。

本公开实施例还提供了一种计算机程序产品，该计算机程序产品可以包括计算机程序，当计算机程序被处理器执行时，使得处理器实现上述实施例中的图像处理方法。

例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置609从网络上被下载和安装，或者从存储装置608被安装，或者从ROM 602被安装。在该计算机程序被处理装置601执行时，执行本公开实施例的图像处理方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，adhoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述图像处理设备中所包含的；也可以是单独存在，而未装配入该图像处理设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该图像处理设备执行时，使得该图像处理设备执行：

在初始视频图像中，确定第一识别对象的运动状态；根据第一识别对象的运动状态，确定素材对象的运动状态；若素材对象的运动状态属于第一状态，按照素材对象的运动状态将素材对象和第一风格视频图像合成，得到第一目标视频图像；若素材对象的运动状态属于第二状态，按照素材对象的运动状态将素材对象和第二风格视频图像合成，得到第二目标视频图像；其中，第一风格视频图像和第二风格视频图像是基于初始视频图像得到的不同风格化的图像。

在本公开实施例中，可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

一种图像处理方法，其特征在于，包括：

在初始视频图像中，确定第一识别对象的运动状态；

根据所述第一识别对象的运动状态，确定素材对象的运动状态；

若所述素材对象的运动状态属于第一状态，按照所述素材对象的运动状态将所述素材对象和第一风格视频图像合成，得到第一目标视频图像；

若所述素材对象的运动状态属于第二状态，按照所述素材对象的运动状态将所述素材对象和第二风格视频图像合成，得到第二目标视频图像；

其中，所述第一风格视频图像和所述第二风格视频图像是基于所述初始视频图像得到的不同风格化的图像。
根据权利要求1所述的方法，其特征在于，所述第一状态表示所述素材对象与所述初始视频图像中的第二识别对象满足第一位置关系，所述第二状态表示所述素材对象与所述初始视频图像中的第二识别对象满足第二位置关系。
根据权利要求2所述的方法，其特征在于，所述第一位置关系具体为：所述素材对象位于所述第二识别对象的前景；所述第二位置关系具体为：所述素材对象位于所述第二识别对象的背景。
根据权利要求1所述的方法，其特征在于，所述第一风格视频图像为所述初始视频图像经过风格迁移处理得到的图像，所述第二风格视频图像为所述初始视频图像。
根据权利要求1所述的方法，其特征在于，所述第一识别对象的运动状态包括下列中的任一项：

所述第一识别对象沿目标移动方向的移动状态；

所述第一识别对象向目标对象姿态的姿态变化状态；

所述第一识别对象沿目标旋转方向的旋转状态。
根据权利要求1所述的方法，其特征在于，所述在初始视频图像中，确定第一识别对象的运动状态，包括：

在所述初始视频图像中，检测所述第一识别对象的显示参数变量；

根据所述显示参数变量，确定所述第一识别对象的运动状态。
根据权利要求1所述的方法，其特征在于，在所述在初始视频图像中，确定第一识别对象的运动状态之前，所述方法还包括：

在所述初始视频图像中，检测所述第一识别对象的对象姿态；

其中，所述在初始视频图像中，确定第一识别对象的运动状态，包括：

在所述第一识别对象的对象姿态为目标姿态的情况下，在所述初始视频图像中，确定所述第一识别对象的运动状态。
根据权利要求1所述的方法，其特征在于，在所述根据所述第一识别对象的运动状态，确定素材对象的运动状态之前，所述方法还包括：

在素材对象的模板视频中，选择所述第一识别对象的运动状态对应的目标模板视频图像；

其中，所述根据所述第一识别对象的运动状态，确定素材对象的运动状态，包括：

将所述素材对象在所述目标模板视频图像中的运动状态作为所述素材对象的运动状态。
根据权利要求8所述的方法，其特征在于，所述在素材对象的模板视频中，选择所述第一识别对象的运动状态对应的目标模板视频图像，包括：

确定所述第一识别对象的运动状态对应的目标跳转帧数；

根据所述目标跳转帧数，确定所述第一识别对象的运动状态对应的目标视频帧数；

将所述素材对象的模板视频中的所述目标视频帧数对应的模板视频图像作为所述目标模板视频图像。
根据权利要求9所述的方法，其特征在于，所述将所述素材对象在所述目标模板视频图像中的运动状态作为所述素材对象的运动状态，包括：

将所述素材对象在所述目标视频帧数下的运动状态作为所述素材对象的运动状态。
根据权利要求1所述的方法，其特征在于，所述素材对象包括运动素材对象和固定素材对象，所述素材对象的运动状态为运动素材对象的运动状态。
一种图像处理装置，其特征在于，包括：

第一处理单元，配置为在初始视频图像中，确定第一识别对象的运动状态；

第二处理单元，配置为根据所述第一识别对象的运动状态，确定素材对象的运动状态；

第一合成单元，配置为若所述素材对象的运动状态属于第一状态，按照所述素材对象的运动状态将所述素材对象和第一风格视频图像合成，得到第一目标视频图像；

第二合成单元，配置为若所述素材对象的运动状态属于第二状态，按照所述素材对象的运动状态将所述素材对象和第二风格视频图像合成，得到第二目标视频图像；

其中，所述第一风格视频图像和所述第二风格视频图像是基于所述初始视频图像得到的不同风格化的图像。
一种图像处理设备，其特征在于，包括：

处理器；

存储器，用于存储可执行指令；

其中，所述处理器用于从所述存储器中读取所述可执行指令，并执行所述可执行指令以实现上述权利要求1-11中任一项所述的图像处理方法。
一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，当所述计算机程序被处理器执行时，使得处理器实现上述权利要求1-11中任一项所述的图像处理方法。
一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得计算机执行如权利要求1-11中任一项所述的图像处理方法。