WO2021238325A1

WO2021238325A1 - 一种图像处理方法及装置

Info

Publication number: WO2021238325A1
Application number: PCT/CN2021/079103
Authority: WO
Inventors: 彭焕文; 宋楠; 李宏俏; 刘苑文; 曾毅华
Original assignee: 华为技术有限公司
Priority date: 2020-05-29
Filing date: 2021-03-04
Publication date: 2021-12-02
Also published as: CN113810587A; CN113810587B

Abstract

本申请提供一种图像处理方法及装置，涉及多媒体处理技术领域，用于解决现有技术中不能实时生成目标拍摄对象的运动轨迹特效视频的问题。该方法包括：获取当前帧和N个历史动作帧，其中，当前帧和N个历史动作帧均包括目标主体，且当前帧和N个历史动作帧的场景存在交叠，所述目标主体在N个历史动作帧中场景的位置不同；对N个历史动作帧进行图像分割，得到N个历史动作帧分别对应的N个目标主体的图像；根据N个目标主体分别在N个历史动作帧的场景中位置以及当前帧的场景，在当前帧中确定出N个参考位置；将N个目标主体的图像分别融合在当前帧的N个参考位置上，得到目标帧。

Description

一种图像处理方法及装置

本申请要求于2020年05月29日提交国家知识产权局、申请号为202010478673.3、申请名称为“一种图像处理方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及多媒体处理技术领域，尤其涉及一种图像处理方法及装置。

背景技术

目前越来越多的用户选择用手机等移动电子设备上的相机拍摄照片或者视频来记录生活，而相机一般拍摄的图像或者视频中，不能在同一视频帧中直观体现出物体或者人物的运动轨迹，人像和背景、人像和人像之间的互动体验不够丰富，缺乏趣味性。

现有的解决方案是对已经生成的视频帧的图像数据进行处理，在其中加入目标对象的运动路径，生成特效视频。例如，在足球比赛视频中展示足球或者球员的实际运动轨迹路径，也就是后期通过图像处理技术，对足球或者球员的运动路线进行可视化的体现，例如，添加曲线或者直线表示的运动路线，从而生成特效视频。但是这种方案只能后期处理，不能实时生成特效视频。

发明内容

本申请提供一种图像处理方法及装置，解决了现有技术中不能实时生成目标拍摄对象的运动轨迹特效视频的问题。

为达到上述目的，本申请采用如下技术方案：

第一方面，提供一种图像处理方法，该方法包括：获取当前帧和N个历史动作帧，其中，当前帧和N个历史动作帧均包括目标主体，且当前帧和N个历史动作帧的场景存在交叠，所述目标主体在N个历史动作帧中场景的位置不同，N为大于等于1的正整数；对N个历史动作帧进行图像分割，得到N个历史动作帧分别对应的N个目标主体的图像；根据N个目标主体分别在N个历史动作帧的场景中位置以及当前帧的场景，在当前帧中确定出N个参考位置；将N个目标主体的图像分别融合在当前帧的N个参考位置上，得到目标帧。

需要说明的是，当电子设备接收用户的开始拍摄指令后，电子设备通过镜头获取到实时视频流，实时视频流由时间上连续的帧序列构成，每一帧视频帧在当前时刻可以是当前帧。当电子设备通过下述的具体方法确定关键动作帧后，相对于确定关键动作帧之后时刻对应的当前帧，该关键动作帧可以称为历史动作帧。以实时拍摄的时间轴t为例，电子设备在t0时刻开始视频拍摄，电子设备将t1时刻对应的实时视频帧确定为关键动作帧(历史动作帧1)，随后，电子设备又将t2时刻对应的实时视频帧确定为关键动作帧(历史动作帧2)，则对于当前时刻t3对应的当前帧来说，获取的N个历史动作帧即为历史动作帧1和历史动作帧2。

上述技术方案中，电子设备通过在实时视频帧流中确定至少一个关键动作帧作为历史动作帧，分割出至少一个历史动作帧中对应的至少一个目标主体的图像。其中，关键动作帧是指电子设备实时拍摄的视频帧流中，目标主体作出指定动作或者明显的关键动作时所对应的图像。再通过多帧融合显示的方法，根据多帧图像中物体的位置对应关系，将每个历史动作帧中的目标主体的图像同时显示在当前帧中。该技术方案主要的应用场景为对人像的分割和运动轨迹的融合显示，从而能够实时地生成拍摄的目标主体运动轨迹的特效图像或者特效视频，丰富用户的拍摄体验。

在一种可能的设计方式中，所述获取当前帧和N个历史动作帧之前，该方法还包括：接收用户的第一选择指令，第一选择指令用于指示进入自动拍摄模式或者手动拍摄模式。

上述可能的实现方式中，电子设备通过接收用户的选择指令确定自动拍摄模式或者手动拍摄模式。从而电子设备可以自动检测或者由用户手动确定出当前获取的视频帧流中的历史动作帧，根据多个历史动作帧融合出显示运动轨迹的特效视频效果，增加用户的拍摄乐趣。

在一种可能的设计方式中，若第一选择指令用于指示进入自动拍摄模式，则获取历史动作帧，具体包括：对实时视频流进行运动检测确定目标主体；检测目标主体在实时视频流包括的每个视频帧中场景的位置；确定目标主体在实时视频流包括的视频帧中场景的位置变化满足预设阈值的视频帧为历史动作帧。

上述可能的实现方式中，电子设备可以根据用户指示的自动拍摄指示，从实时视频帧流中自动检测出运动的目标主体，并根据运动的目标主体的图像变化确定符合预设条件的作为历史动作帧。从而自动根据确定的至少一个历史动作帧，实时进行融合显示更新到当前帧中，合成特效视频，丰富用户的拍摄体验。

在一种可能的设计方式中，若第一选择指令用于指示进入手动拍摄模式，则获取历史动作帧，具体包括：接收用户对实时视频流包括的视频帧的第二选择指令；确定第二选择指令在视频帧中对应位置的主体为目标主体，并确定该视频帧为历史动作帧。

上述可能的实现方式中，电子设备还可以通过与用户的实时交互，根据用户确定的当前视频帧流中的运动的目标主体，以及用户确定的至少一个历史动作帧，实时进行多帧图像的融合显示，更新到当前帧中合成特效视频，丰富用户的拍摄体验。

在一种可能的设计方式中，对历史动作帧进行图像分割，得到历史动作帧对应的目标主体的图像，具体包括：对历史动作帧根据运动检测技术缩小历史动作帧中对应目标主体的图像区域，得到历史动作帧中的目标图像区域；通过深度学习算法对目标图像区域的图像进行处理，得到历史动作帧对应的目标主体的掩码图像。

上述可能的实现方式中，电子设备可以根据历史动作帧进行图像分割得到目标主体的掩码mask图像，实现对多帧目标主体的运动跟踪与记录，从而根据至少一个目标主体的mask图像对当前帧进行多帧图像融合，生成运动轨迹的特效视频。另外，在进行图像分割之前，缩小图像分割的图像区域，可以提高图像分割的精度，并简化算法的复杂度。

在一种可能的设计方式中，若掩码图像中存在多个主体重叠的掩码图像，则该方法还包括：根据历史动作帧中所述多个主体的深度信息，从多个主体重叠的掩码图像中分离得到目标主体的掩码图像。

上述可能的实现方式中，当拍摄的目标主体的图像与其他主体图像存在重叠显示的问题时，可以根据历史动作帧中多个主体的深度信息与多人重叠的mask图像，分离得到目标主体的mask图像。除了上述的根据深度图像进行mask图像分割之外，还可以采用双目视觉深度、单目深度估计、结构光深度或者实例分割等技术实现对多人重叠的mask图像的分割。从多人重叠的mask图像中分割出目标主体的mask图像，提高图像处理的精度，使得生成的目标主体的运动轨迹特效视频更加真实、自然。

在一种可能的设计方式中，根据目标主体在历史动作帧的场景中位置以及当前帧的场景，在当前帧中确定出参考位置，具体包括：根据图像配准技术或者同步定位与建图SLAM技术，得到至少一个物体在历史动作帧中的位置与在当前帧中位置的对应关系；根据对应关系以及目标主体在历史动作帧中的位置，在当前帧中确定出目标主体的参考位置。

上述可能的实现方式中，通过图像配准技术或者同步定位与建图SLAM技术进行多帧图像的位置映射，根据多帧图像中不同物体的图像位置对应关系，从而确定出每一个历史动作帧中的目标主体的图像在当前帧中对应的参考位置，从而能够生成效果真实、自然的运动轨迹的特效视频，提升用户的拍摄体验。

在一种可能的设计方式中，将N个目标主体的图像分别融合在当前帧的N个参考位置上，具体包括：在当前帧的N个参考位置上，分别将N个目标主体的图像与当前帧中图像的像素信息进行加权融合处理。

上述可能的实现方式中，多个目标主体的图像进行融合显示后，还可以将目标主体的图像与当前帧中的背景图像等进行边缘融合处理，更新目标帧，使得融合显示的多个目标主体的图像与背景图像过渡自然。

在一种可能的设计方式中，将N个目标主体的图像分别融合在当前帧的N个参考位置上之后，该方法还包括：对当前帧中的目标主体的图像添加至少一个灰度图像得到目标帧，其中，若灰度图像与当前帧中的目标主体的图像之间的距离越近，则灰度图像的灰度值越大。

上述可能的实现方式中，通过在当前帧中目标主体的运动方向背后叠加多个留影图像，该留影图像可以通过灰度图像来显示，并且通过不同的灰度值来体现运动的轨迹，从而能够更加直观地表示出目标主体的运动方向和轨迹，增加特效视频的趣味性和直观性，进一步提升用户的拍摄体验。

第二方面，提供一种图像处理装置，该装置包括：获取模块，用于获取当前帧和N个历史动作帧，其中，当前帧和N个历史动作帧均包括目标主体，当前帧和N个历史动作帧的场景存在交叠，目标主体在N个历史动作帧中场景的位置不同，N为大于等于1的正整数；图像分割模块，用于对N个历史动作帧进行图像分割，得到N个历史动作帧分别对应的N个目标主体的图像；映射模块，用于根据N个目标主体分别在N个历史动作帧的场景中位置以及当前帧的场景，在当前帧中确定出N个参考位置；图像融合模块，用于将N个目标主体的图像分别融合在当前帧的N个参考位置上，得到目标帧。

在一种可能的设计方式中，该装置还包括：接收模块，用于接收用户的第一选择指令，第一选择指令用于指示进入自动拍摄模式或者手动拍摄模式。

在一种可能的设计方式中，若第一选择指令用于指示进入自动拍摄模式，则获取模块具体用于：对实时视频流进行运动检测确定目标主体；检测目标主体在实时视频流包括的每个视频帧中场景的位置；确定目标主体在实时视频流包括的视频帧中场景的位置变化满足预设阈值的视频帧为历史动作帧。

在一种可能的设计方式中，若第一选择指令用于指示进入手动拍摄模式，则接收模块还用于接收用户对实时视频流包括的视频帧的第二选择指令；获取模块具体还用于：确定第二选择指令在视频帧中对应位置的主体为目标主体，并确定视频帧为历史动作帧。

在一种可能的设计方式中，图像分割模块具体用于：根据运动检测技术缩小历史动作帧中对应目标主体的图像区域，得到历史动作帧中的目标图像区域；通过深度学习算法对目标图像区域的图像进行处理，得到历史动作帧对应的目标主体的掩码图像。

在一种可能的设计方式中，若掩码图像中存在多个主体重叠的掩码图像，则图像分割模块具体还用于：根据历史动作帧中多个主体的深度信息，从多个主体重叠的掩码图像中分离得到目标主体的掩码图像。

在一种可能的设计方式中，映射模块具体用于：根据图像配准技术或者同步定位与建图SLAM技术，得到至少一个物体在历史动作帧中的位置与在当前帧中位置的对应关系；根据对应关系以及目标主体在历史动作帧中的位置，在当前帧中确定出目标主体的参考位置。

在一种可能的设计方式中，图像融合模块具体用于：在当前帧的N个参考位置上，分别将N个目标主体的图像与当前帧中图像的像素信息进行加权融合处理。

在一种可能的设计方式中，图像融合模块具体还用于：对当前帧中的目标主体的图像添加至少一个灰度图像得到目标帧，其中，若灰度图像与当前帧中的目标主体的图像之间的距离越近，则灰度图像的灰度值越大。

第三方面，提供一种电子设备，其特征在于，该电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如上述第一方面及第一方面中任一种可能的实施方式。

第四方面，提供一种计算机可读存储介质，当所述计算机存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上述第一方面及第一方面中任一种可能的实施方式。

第五方面，提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如上述第一方面及第一方面中任一种可能的实施方式。

可以理解地，上述提供的任一种图像处理装置、电子设备、计算机可读存储介质和计算机程序产品，均可以通过上文所提供的对应的方法来实现，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

附图说明

图1A为本申请实施例提供的一种电子设备的硬件结构示意图；

图1B为本申请实施例提供的一种电子设备的软件系统架构图；

图1C为本申请实施例提供的一种图像处理方法的流程示意图；

图2为本申请实施例提供的一种电子设备特效视频拍摄的界面示意图；

图3为本申请实施例提供的另一种电子设备特效视频拍摄的界面示意图；

图4为本申请实施例提供的一种拍摄预览界面的用户交互示意图；

图5为本申请实施例提供的另一种图像处理方法的流程示意图；

图6为本申请实施例提供的一种确定当前帧为关键动作帧的算法示意图；

图7为本申请实施例提供的一种图像分割处理方法的示意图；

图8为本申请实施例提供的一种补全掩码图像的示意图；

图9A为本申请实施例提供的一种分离重叠人像的示意图；

图9B为本申请实施例提供的另一种分离重叠人像的示意图；

图10为本申请实施例提供的多帧图像映射的示意图；

图11为本申请实施例提供的另一种图像处理方法的流程示意图；

图12为本申请实施例提供的另一种图像处理方法的流程示意图；

图13为本申请实施例提供的另一种图像处理方法的流程示意图；

图14为本申请实施例提供的一种图像处理装置的结构示意图；

图15为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

需要说明的是，本申请中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种图像处理方法和装置，可以应用于视频拍摄的场景中，能够基于实时拍摄的视频帧流，实时生成目标拍摄对象运动轨迹的特效视频或者特效图像。其中，运动轨迹特效可以用来记录目标拍摄对象在时间轴上曾经发生过的关键动作，或者曾经出现的所在位置，并将被记录的历史关键动作中的目标拍摄对象图像融合显示在当前帧中，并且与当前帧的背景图像、地面等融合在一起。用户在拍摄视频过程中即可在拍摄预览画面实时看到特效视频拍摄效果，形成交错时间和空间的独特用户体验，同时也可以实时生成特效视频。从而解决了现有技术中不能实时生成运动轨迹特效视频的问题，丰富了视频拍摄的趣味性，提升了用户的拍摄和观看体验。

本申请实施例提供的图像处理方法可以应用于具备拍摄能力和图像处理能力的电子设备，该电子设备可以为手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、车载设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本，以及蜂窝电话、个人数字助理(personal digital assistant，PDA)、增强现实 (augmented reality，AR)\虚拟现实(virtual reality，VR)设备等，本公开实施例对该电子设备的具体形态不作特殊限制。

图1A示出了电子设备100的结构示意图。电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请的另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processing unit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuit sound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purpose input/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

MIPI接口可以被用于连接处理器110与显示屏194，摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(display serial interface，DSI)等。在一些实施例中，处理器110和摄像头193通过CSI接口通信，实现电子设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信，实现电子设备100的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器110与摄像头193，显示屏194，无线通信模块160，音频模块170，传感器模块180等。GPIO接口还可以被配置为I2C接口，I2S接口，UART接口，MIPI接口等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emitting diode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emitting diode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot light emitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

在本申请实施例中，上述内部存储器121中可以存储有用于实现本申请方法实施例中步骤的计算机程序代码。上述处理器110可以运行存储器121中存储的本申请方法实施例中步骤的计算机程序代码。上述显示屏194可以用于显示相机的拍摄对象，以及本申请实施例中涉及的实时视频帧等。

电子设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本申请实施例以分层架构的Android系统为例，示例性说明电子设备100的软件结构。

图1B是本申请实施例的电子设备100的软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。

应用程序层可以包括一系列应用程序包。如图1B所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序。本申请实施例主要就是通过改进应用程序层的相机应用程序来实现的，例如通过对相机增加插件来扩展其功能。

应用程序框架层为应用程序层的应用程序提供应用编程接口(application programming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图1B所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。在本申请实施例中，可以通过应用程序框架层对应用程序层的相机的程序进行改进，使得拍摄对象在拍摄时，可以在显示屏194中显示目标物体运动轨迹的特效图像或者特效视频，该特效图像或者特效视频是由电子设备后台通过实时的计算和处理合成的。

其中，窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如：MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层，也可以称为驱动层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

下面结合捕获拍照场景，示例性说明电子设备100软件以及硬件的工作流程。

当触摸传感器180K接收到触摸操作，相应的硬件中断被发给内核层。内核层将触摸操作加工成原始输入事件(包括触摸坐标，触摸操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件，识别该输入事件所对应的控件。以该触摸操作是触摸单击操作，该单击操作所对应的控件为相机应用图标的控件为例，相机应用调用应用框架层的接口，启动相机应用，进而通过调用内核层启动摄像头驱动，通过摄像头193捕获静态图像或视频。

在本申请实施例中，用户使用电子设备拍摄视频的过程中，当通过摄像头193捕获到静态图像或者视频时，可以将捕获到的图像或者视频暂时存储于内容提供器中，当执行拍照操作或者视频拍摄操作时，可通过视图系统显示拍摄完成的照片或者视频，对于本申请的实施例，在显示图像之前，还需要经过将多帧图像进行融合处理后再通过视图系统逐帧显示在预览界面中。

在本申请实施例涉及到的上述硬件和软件的基础上，下面将结合附图，对本申请的实施例进行详细介绍。如图1C所示，该方法可以包括：

S01：电子设备获取当前帧和历史动作帧，当前帧和历史动作帧均包括目标主体。

首先，需要说明的是，本申请实施例应用的拍摄场景如下，用户需要打开电子设备的相机应用进行对目标主体进行视频拍摄，目标主体即为电子设备的拍摄对象，是相对拍摄场景存在相对运动的目标主体，例如，目标主体可以为人物、动物或者运动的装置等。运动具体可以是指目标主体位置的移动、旋转、跳跃、肢体伸展或者指定动作等。电子设备的相机实时跟随其运动的目标主体进行拍摄，从而能够通过本申请提供的技术方法，在拍摄过程中根据实时视频流进行图像处理，实时生成运功轨迹的特效视频并可以实时预览。

其中，电子设备可以根据获取的实时视频流获取当前帧和N个历史动作帧，其中，N可以为大于或者等于1的正整数。实时视频流是指电子设备的相机实时拍摄获取的图像帧流，也可称为视频帧流，可以包括多个历史动作帧。根据实时视频流的实时获取的性质，可以将电子设备当前显示或者当前处理的帧称为当前帧。

在实时视频流中包括多张图像，动作帧就是指多张图像中，判断目标主体做出类似起舞、跳跃、转身或者肢体伸展等关键动作时，即将当前帧记录为关键动作帧，可以简称为动作帧。当前帧之前所确定的关键动作帧都可以称为历史动作帧。

目标主体是指电子设备的相机拍摄的一个或多个拍摄对象中，存在运动状态且被确定为运动目标主体的拍摄对象。确定目标主体的方式可以是电子设备自动检测确定的，也可以是由用户手动确定的。

因此，在一种实施方式中，电子设备获取当前帧和至少一个历史动作帧之前，该方法还包括：接收用户的第一选择指令，其中，该第一选择指令可以包括自动拍摄指示或者手动拍摄指示，分别用于指示电子设备进入自动拍摄模式或者手动拍摄模式。

其中，若第一选择指令用于指示电子设备进入自动拍摄模式，则电子设备可以自动检测目标拍摄对象，并自动检测关键动作帧生成运动轨迹的特效视频。若第一选择指令用于指示电子设备进入手动拍摄模式，则电子设备通过进一步接收用户的第二选择指令，也就是用户手动操作电子设备，确定目标拍摄对象，并且确定目标拍摄对象的指定拍摄动作帧的指令，即电子设备可以接收用户输入的至少一个第二选择指令。接下来，将结合附图详细说明应用的场景。

在一种实施方式中，用户的第一选择指令可以包括自动拍摄指示，用户可以通过操作电子设备确定自动拍摄特效视频，即开启自动拍摄模式。

示例性的，以电子设备是手机为例，用户可以通过触摸或者点击操作打开手机的相机应用，如图2所示，可以点击“特效视频拍摄”图标，切换到特效视频的拍摄界面。电子设备可以预配置特效视频拍摄的默认状态为自动拍摄，或者也可以由用户手动选择“自动拍摄”或者“手动拍摄”，即可以开始特效视频的拍摄并可以在预览界面实时查看目标拍摄图像。

进一步的，点击“特效视频拍摄”图标之后，电子设备的预览界面上方可以通过缩略图显示一个“典型运动轨迹特效视频”片段播放，用户可以点击进行查看，以便用户预先熟悉特效视频的拍摄操作方法和拍摄的效果等。

自动拍摄模式下，电子设备可以根据实时拍摄图像，根据运动物体检测技术或者帧差法等技术，自动检测出目标主体，并且确定出至少一个关键动作帧。具体的确定目标主体、确定至少一个历史动作帧以及确定历史动作帧中的目标主体的图像的方法，将在下文详细介绍，此处不再详述。

在另一种实施方式中，用户的第一选择指令可以包括手动拍摄指示，用户可以通过操作电子设备确定手动拍摄特效视频，即开启手动拍摄模式，并根据用户输入的至少一个第二选择指令，确定至少一个第二选择指令对应的至少一个目标主体和至少一个关键动作帧。具体的，电子设备可以根据第二选择指令在视频帧中对应位置，确定出对应的目标主体，并确定该视频帧为关键动作帧。

示例性的，以电子设备是手机为例，用户可以通过触摸或者点击操作打开手机的相机应用，如图3所示的，可以点击“特效视频拍摄”图标，切换到特效视频的拍摄界面，再点击选择“手动拍摄”选项，即可以开始特效视频的拍摄并可以在预览界面实时查看目标拍摄图像。

进一步的，为了方便提示用户操作电子设备以确定目标主体以及关键动作帧，电子设备可以在接收到用户点击“手动拍摄”的操作后，在界面上显示提示信息“请点击选择主体人像”，以指示用户输入第二选择指令。当用户点击或者触摸电子设备的显示区域，选择一个目标主体之后，电子设备可以持续在界面上显示提示信息，如“请点击喜爱的动作”，提示用户通过触摸操作或者点击操作，继续输入至少一个第二选择指令，进一步确定多个关键动作帧。

在手动拍摄模式下，用户在预览视频帧流的过程中，可以根据提示信息或者主动点击预览画面中的某个人像或者物体确定为目标主体。在随后的持续视频帧流过程中，用户也可以点击预览画面确定多个关键动作帧。

另外，当用户手动确定目标主体后，在后续的拍摄过程中，当拍摄界面中出现不止一个主体时，用户也可以自由切换为其他目标主体。此时，电子设备可以在界面上显示提示信息，如“可选择点击切换主体”。示例性的，如图4所示，用户初始确定人像A为目标主体，后续又点击拍摄预览界面中的人像B选择为目标主体，用于后续生成该目标主体B的特效视频。

其中，历史动作帧(关键动作帧)中的目标主体的图像是指图像中显示目标主体的部分区域的图像，具体是指对历史动作帧进行一定图像分割或者抠图处理后，分割得到或者抠出的显示目标主体对应区域的图像。例如，如图2中所示的，拍摄画面中除背景图像和静止不动的图像之外的，检测确定当前帧中运动的目标主体的图像为人像。具体可以通过图像分割技术将关键动作帧中的目标主体的图像区分出来。

需要说明的是，电子设备获取的当前帧和多个历史动作帧的场景是存在交叠的，目标主体在多个历史动作帧中场景的位置不同。也就是说任意一个历史动作帧中都存在与当前帧中的拍摄场景交叠的部分，其中，拍摄场景可以指目标主体在视频帧中周围存在的拍摄物体，例如，树木、草坪或者建筑物等。

交叠是指任意一个历史动作帧中都存在与当前帧中场景相同的部分，示例性的，如图4中所示的，历史动作帧中的同一颗树木也显示在当前帧拍摄场景中相同或者不同的位置，历史动作帧中的建筑物也显示在当前帧拍摄场景中相同或者不同的位置，在历史动作帧目标主体A的位置在树木的左前方，在当前帧中，该目标主体A的位置移动到了建筑物的正前方。因此，本申请的实施例可以实现的前提是，确定的任意一个历史动作帧中都存在与当前帧中场景交叠的部分，如果一个历史动作帧的场景与当前帧没有任何存在交叠的场景或者物体，则电子设备无法根据历史动作帧与当前帧得到图像映射关系，从而不能进行多帧融合显示。

综上所述，当电子设备接收用户的开始拍摄指令后，电子设备通过镜头获取到实时视频流，该实时视频流中包括的每一帧视频帧在对应的时刻可以认为是当前帧。无论电子设备是通过上述自动获取关键动作帧，或者在手动模式下根据用户指示获取的方法确定关键动作帧之后，相对于确定关键动作帧之后的时刻所对应的当前帧，该关键动作帧可以称为历史动作帧。结合图5所示的，以实时拍摄的时间轴t为例，电子设备在t0时刻开始视频拍摄，电子设备将t1时刻对应的实时视频帧确定为关键动作帧(第一动作帧01)，随后，电子设备又将t2时刻对应的实时视频帧确定为关键动作帧(第二动作帧02)，则对于当前时刻t3对应的当前帧来说，获取的N个历史动作帧即为第一动作帧01和第二动作帧02。

S02：电子设备对历史动作帧进行图像分割，得到历史动作帧对应的目标主体的图像。

在拍摄过程中，当电子设备每获取到一个历史动作帧时，为了能够根据历史动作帧得到每个历史动作帧中的目标主体的图像，电子设备可以逐个对历史动作帧进行图像分割，确定历史动作帧中的目标主体图像，具体可以为掩码图像。从而电子设备可以逐个记录实时视频流中包括的N个历史动作帧，以及N个历史动作帧对应的N个目标主体的图像。

其中，图像分割就是把原始图像分成若干个特定的或者具有独特性质的区域，并提取出感兴趣的目标对象的技术和过程。图像分割是由图像处理到图像识别和分析的关键步骤。具体的，基于原始图像中的人像进行图像分割的处理也可以称为人像分割技术，可以把原始图像中的人像部分提取出来。

掩码图像就是通过不同的掩码(mask)值，来标记图像中的特定目标区域，例如，用与背景图像不同的mask值标记目标主体的图像区域，以此来将目标主体的图像区域和其他的背景图像区域进行分离。示例性的，常见的掩码图像中，可以将目标主体图像区域的像素点mask值设置为255，其余区域的像素点mask值设置为0。从而可以根据掩码图像将历史动作帧中的目标主体的图像分离出来。

示例性的，可以通过深度学习算法对每个历史动作帧的目标图像区域进行处理，得到每个历史动作帧对应的目标主体的掩码图像，例如，通过神经网络算法或者支持向量机算法等，本申请对实现图像分割的算法不作具体限定。

S03：电子设备根据目标主体在历史动作帧的场景中位置以及当前帧的场景，在当前帧中确定出参考位置。

电子设备可以逐个根据N个目标主体在N个历史动作帧的场景中位置，结合当前帧的场景，分别映射出所述N个目标主体在当前帧中的参考位置。

具体的，电子设备可以根据每个历史动作帧中背景图像的位置与当前帧中背景图像的位置，得到每个历史动作帧与当前帧的图像映射关系，从而根据历史动作帧中目标主体的图像位置结合上述映射关系，可以得到目标主体的图像在目标帧中的相对位置，根据确定的相对位置将目标主体的图像在当前帧中进行融合处理。其中，该相对位置用于表示目标帧中目标主体的图像位于历史动作帧中该目标主体的图像的位置。

S04：电子设备将目标主体的图像分别融合在当前帧的参考位置上，得到目标帧。

电子设备确定至少一个历史动作帧之后，可以将上述S02得到的多个目标主体的图像，通过图像融合技术将多个目标主体的图像绘制到当前帧中，融合生成目标帧。

示例性的，如图5所示的，确定实时视频帧流中的第一动作帧01以及第二动作帧02，第一动作帧01之后实时显示的每一帧图像都融合第一动作帧01中的第一目标主体的图像进行显示。以第二动作帧02为例，经过融合显示为如图5中所示的，即包括第一动作帧01中的第一目标主体的图像(1)和第二动作帧02中的全部图像。而确定第N动作帧0N之后的当前帧经过融合显示为如图5中的，即包括第一动作帧01中的第一目标主体的图像(1)、第二动作帧02中的第二目标主体的图像(2)……第N动作帧0N中的全部图像，如图中第N动作帧0N的第N目标主体的图像(N)。当N为5时，即表示在当前帧中将第一动作帧01对应的第一目标主体的图像(1)、第二动作帧02对应的第二目标主体的图像(2)……和第5动作帧05对应的第5目标主体的图像(5)分别在对应的参考位置进行融合显示。具体的多帧图像融合过程即算法将在下文中详细介绍，此处不再赘述。

进一步的，在特效视频拍摄结束后，电子设备可以将生成的特效视频保存到图库中。为了区别于普通视频，可在特效视频的缩略图一角显示特定的标志，例如，特效视频的播放按钮上面叠加“运动轨迹”四个字，以此来将运动轨迹的特效视频文件和普通的视频文件进行区分，方便用户查看。

上述本申请的实施方式，通过在实时视频帧流中自动检测或者手动确定至少一个关键动作帧，将至少一个关键动作帧中的至少一个目标主体的图像通过多帧融合显示的方法，同时显示在当前帧中，从而能够实时地生成目标主体运动轨迹的特效图像或视频。同时可以实时将当前生成的目标图像传送到手机的拍摄预览画面和视频生成流，使得用户既可以在线实时预览运动轨迹的效果，也可以在拍摄完成后查看完整的运动轨迹特效视频，丰富用户的拍摄体验。

在一种实施方式中，上述的步骤S01中，若用户的第一选择指令包括自动拍摄指令，也就是指示电子设备进入自动拍摄模式下，电子设备能够根据算法自动检测出运动的目标主体，以及自动检测出至少一个历史动作帧(关键动作帧)。

首先，电子设备可以根据运动检测技术对实时视频流中的视频帧确定出目标主体。目标主体的运动检测可以通过人像识别或者其他目标识别技术确定，能够自动检测出实时视频帧中的运动物体，例如，人、动物、运动装置、车辆或者足球等。由于本申请的主要应用场景为人物的运动轨迹特效拍摄，因此实施例中以人像识别和检测作为示例进行介绍。

具体的，电子设备确定实时视频帧中的目标主体，可以通过对图像进行图像分割，例如人像分割或者实例分割，得到目标主体的掩码图像。如果得到的掩码图像只有一个人像mask，那确定该人像mask为目标主体；如果分割得到多个掩码图像，则电子设备可以将mask面积最大的确定为目标主体；如果没有得到人像mask，则电子设备可以通过在预览界面显示提示信息，提示用户没有检测到人像，请用户移动摄像头靠近被拍摄者。

接着，电子设备可以检测该目标主体在实时视频流包括的每个视频帧中场景的位置，得到多帧之间目标主体的场景位置变化。目标主体的场景位置变化可以为目标主体相对于拍摄场景的位置变化，或者目标主体的肢体姿势、肢体角度或肢体位置变化等。

电子设备确定目标主体之后，在持续拍摄过程中，逐个确定哪些帧是关键动作帧。电子设备可以通过帧差法来确定实时视频帧中的关键动作帧，帧差法即是指通过对比相邻的视频帧中像素点位置得到相邻视频帧之间的场景位置变化等信息。也就是电子设备可以通过检测出目标主体在实时视频流包括的视频帧中场景的位置变化满足预设阈值的视频帧，确定为关键动作帧。

其中，由于第一个关键动作帧之前没有参考帧，因此，电子设备可以将成功分割出目标主体的第一帧图像确定为第一个关键动作帧。或者，为保证图像处理算法的时延，电子设备可以将成功分割出目标主体的第一帧图像之后的第三帧或者第四帧确定为第一个关键动作帧。

第二个及后续的关键动作帧，都可以与前一个关键动作帧做比较进行确定。具体的，电子设备可以通过确定实时视频帧中的目标主体的图像同时满足以下两个条件的为关键动作帧：

条件一：当前帧中目标主体的图像位置区域与前一个关键动作帧中目标主体的图像映射到当前帧中的位置区域没有重合。

条件二：当前帧中目标主体的图像与前一个关键动作帧中目标主体的图像变化满足预设阈值。

也就是说，电子设备通过运动检测可以自动将实时视频帧中当前帧的目标主体的图像变化满足预设阈值，并且该当前帧中目标主体的图像与前一个关键动作帧的目标主体的图像没有重合的视频帧确定为历史动作帧。

当检测确定当前视频帧中的目标主体的图像变化满足预设阈值，则确定为关键动作帧(历史动作帧)。例如，当检测确定当前视频帧中的目标主体的图像变化大于或者等于预设阈值，则确定当前视频帧为关键动作帧；当检测确定当前视频帧中的目标主体的图像变化小于预设阈值，则确定当前视频帧不是关键动作帧。

示例性的，可以通过重心重合算法，确定当前帧中目标主体图像与前一个关键动作帧中目标主体图像的变化是否满足预设阈值。具体算法如下：

电子设备通过计算前一个关键动作帧目标主体掩码图像的重心坐标，以及当前帧目标主体掩码图像的重心坐标，将两者重心重合后，计算当前帧目标主体掩码图像与前一个关键动作帧目标主体掩码图像的非重叠区域面积。当非重叠区域面积超出预设阈值则将该当前帧确定为关键动作帧，否则确定当前帧不是关键动作帧。其中，预设阈值可以配置为两个目标主体掩码图像取并集后面积的一定比例，例如30％。

需要说明的是，预设阈值的设置可以由本领域技术人员根据图像检测精度，结合特效视频的需求和技术经验进行预先设定，本申请对此不做具体限定。

其中，计算重心坐标的公式如下(重心坐标可以取整)：

重心坐标

重心重合的具体计算方法可以为：如将当前帧目标主体的重心坐标加上坐标偏移(Δx，Δy)后与前一关键动作帧目标主体的重心坐标相等，则将当前帧目标主体区域内所有像素点的坐标加上(Δx，Δy)后，得到新的当前帧目标主体区域的坐标集，然后判断前一个关键动作帧中目标主体区域坐标集与新的当前帧中目标主体区域坐标集中坐标不相等的像素点数量。具体计算参见如下公式。

新的当前帧目标主体区域的坐标集为：

新坐标(x′，y′)＝原坐标(x，y)+(Δx，Δy)，

其中，(Δx，Δy)＝重心坐标(x ₀，y ₀) _{前一个关键动作帧}-重心坐标(x ₀，y ₀) _当前帧。

重心重合后，计算当前帧目标主体掩码图像与前一个关键动作帧目标主体掩码图像的非重叠区域比例，也就是计算当前帧目标主体掩码图像与前一个关键动作帧目标主体掩码图像的非重叠区域面积，相对两个目标主体掩码图像取并集面积的占比。非重叠区域比例计算公式如下：

其中，目标主体区域 _{前一个关键动作帧}∩目标主体区域 _当前帧表示前一个关键动作帧中目标主体的区域与当前帧中目标主体的区域的交集，目标主体区域 _{前一个关键动作帧}∪目标主体区域 _当前帧表示前一个关键动作帧中目标主体的区域与当前帧中目标主体的区域的并集。

结合图6所示，当前一个关键动作帧中的目标主体区域与当前帧1中的目标主体区域重叠，则不满足上述的条件一，当前帧1不是关键动作帧。当前一个关键动作帧中的目标主体重心与当前帧2中的目标主体重心重合后，非重叠区域比例不满足预设阈值，则不满足上述的条件二，当前帧2不是关键动作帧。当前一个关键动作帧中的目标主体区域与当前帧3中的目标主体区域不重叠，且前一个关键动作帧中的目标主体重心与当前帧3中的目标主体重心重合后，非重叠区域比例超过预设阈值，则当前帧3同时满足上述的条件一和条件二，确定当前帧3为关键动作帧。

上述的实施方式中，通过上述算法，电子设备可以实时、自动地检测到视频中的目标运动物体，并自动检测确定关键动作帧，从而能根据记录的关键动作帧中目标主体实时生成运动轨迹的特效视频，增加视频拍摄的趣味性和灵活性，提升用户的拍摄体验。

在一种实施方式中，对历史动作帧进行图像分割之前，可以先通过运动检测技术识别出运动的目标主体，然后缩小历史动作帧中对应的目标主体的图像区域，也就是只截取历史动作帧中感兴趣的运动主体的部分图像区域来进行图像分割算法的处理。由此缩小进行图像分割处理的图像区域，可以提高图像分割的精度，简化图像分割算法的数据处理复杂度。

其中，运动检测技术可以通过帧差法、背景差法或者光流法等实现。比如帧差法，是通过对相邻的三帧图像两两作差，再通过两个差值图像得到相邻帧的差分图像，就可以大致将图像中的运动物体检测出来。

示例性的，如图7所示，可以先通过运动检测缩小感兴趣的图像区域，例如图7中的人像区域。再根据大致得到的人像区域进行人像分割，得到目标主体的mask图像。

通过上述的实施方式，可以根据历史动作帧进行分离得到历史动作帧中的目标主体的mask图像，能够准确分离出目标主体的mask图像，实现对目标主体的运动跟踪与记录，从而根据至少一个目标主体的mask图像对当前帧进行多帧图像融合，生成运动轨迹的特效视频，提升用户的拍摄体验。

在上述的实施方式中，对关键动作帧进行图像分割的处理过程中，可能造成分割出来的目标主体的mask图像不完整或者有缺失，如图7所示。为了得到完整的目标主体的mask图像，可以结合运动检测补全目标主体的mask图像。

补全目标主体mask图像的具体处理过程可以为：在检测出关键动作帧中运动的目标主体后，通过选择合适的阈值将关键动作帧图像中的目标主体的图像区域分离出来；再利用此目标主体的图像区域对分割的目标主体的mask图像进行修复，从而得到完整的目标主体的mask图像。示例性的，如图8所示的，根据人像分割得到目标人像的mask图像A，根据相邻帧中的该目标人像对所述mask图像A进行补全，得到mask图像B。

在一种实施方式中，实时视频帧拍摄的对象可能不止一个运动主体，且多个目标拍摄对象可能会与目标主体的图像相互重叠，例如，目标主体为人像1，在关键动作帧中，人像1与人像2存在部分重叠或者相互遮挡的情况。因此，电子设备需要从多个主体重叠的掩码图像中分离出目标主体的掩码图像，并持续地自动对同一个目标主体进行跟踪记录。具体的，可以通过如下方式分割重叠的目标拍摄对象。

方式一、根据深度图分割多个主体重叠的掩码图像。

可以结合二维图像对应的深度图，电子设备根据历史动作帧中多个主体重叠的掩码图像与多个主体对应的深度信息，得到目标主体的掩码图像。也就是电子设备可以根据历史动作帧中的多个主体的深度信息和目标主体的深度信息，从所述多个主体重叠的掩码图像中分离得到目标主体的掩码图像。

其中，深度图，是包含拍摄点与目标拍摄物体的表面距离有关的信息的图像或图像通道。深度图类似于灰度图像，只是深度图的每个像素值反映的是拍摄点距离目标拍摄物体的实际距离。通常RGB图像和深度图是配准的，因而RGB图像的像素点和深度图的像素点之间具有一一对应的关系。

深度图具体可以根据基于飞行时间(Time of Flight，ToF)的测距相机得到，或者可以对原始二维图像通过人工神经网络算法进行计算，得到每个像素点对应的深度值，还原得到原始二维图像的深度图，本申请对此不做具体限定。

通过对深度图进行处理，可以将多个不同目标拍摄对象进行区分。示例性的，如图9A所示，电子设备需要将多个重叠的人像区分出目标主体的人像，可以将得到的深度图的像素点与当前的关键动作帧的像素点一一对应，统计出深度图中对应的目标主体人像mask区域像素点的深度值的平均值或者中值。电子设备根据目标主体人像深度值的平均值或者中值对深度图进行处理，提取出主体人像在深度图中覆盖的深度值范围，然后将此深度值范围与对应的人像mask取交集，从而在多个重叠的人像mask中分离出目标主体的人像mask。保证分离出的目标主体的人像mask始终是单一的人像。

方式二、实例分割重叠的目标拍摄对象。

其中，实例是指对象，对象代表了一类拍摄对象中的一个特定的实例。

实例分割即是指在对图像中的每个像素都划分出对应的类别，即实现像素级别的分类基础上，还需在具体的类别基础上区别开不同的实例。例如，根据图像中的每个像素划分出有人和背景物体。从多个人例如甲、乙和丙中区分开不同的人，即是进行实例分割。

具体的，电子设备可以通过深度学习算法进行实例分割。可参照图9B，实例分割mask中，不同人像的mask数值不相同，可直接分离出目标主体的人像mask区域。

需要说明的是，除了采用上述技术来分离多人重叠mask之外，现有的双目视觉深度、单目深度估计、结构光深度等方法也可以用于分离多人重叠mask，本申请对此不再赘述。

通过上述的实施方式，电子设备可以对多个重叠的目标拍摄对象分离出目标主体mask，从而准确对不同帧的目标主体进行运动轨迹的跟踪和记录，生成特定的目标主体的运动轨迹特效视频。

在一种实施方式中，上述的步骤S03中，电子设备根据目标主体在每个历史动作帧的场景中位置以及当前帧的场景，在当前帧中确定出参考位置，具体可以包括：

电子设备可以根据图像配准技术或者同步定位与建图技术，得到至少一个物体在每个历史动作帧中的位置与在当前帧中位置的对应关系；再根据得到的对应关系，以及每个历史动作帧中每个目标主体的图像位置与上述确定的对应关系，得到当前帧中每个目标主体对应的图像位置区域也即参考位置。从而电子设备可以将每个历史动作帧对应的每个目标主体的图像绘制到当前帧中对应的每个参考位置，即可得到目标帧。

示例性的，以下将结合图5，以历史动作帧包括第一动作帧01和第二动作帧02为例对此进行介绍。

如图5所示，若记录的历史动作帧包括第一动作帧01，且第一动作帧01对应的目标主体为第一目标主体。则后续每一帧图像都根据第一动作帧01中至少一个物体的位置与当前中至少一个物体的位置的映射关系，将第一目标主体的图像绘制到当前帧03中。

如图5所示，若记录的历史动作帧中还包括第二动作帧02，第二动作帧02对应的目标主体为第二目标主体，则当确定第二动作帧02之后的后续每一帧图像都根据第一动作帧01中至少一个物体的位置与当前帧03中至少一个物体的位置的映射关系，以及第二动作帧02中至少一个物体的位置与当前帧03中至少一个物体的位置的映射关系，将第一目标主体的图像和第二目标主体的图像绘制到当前帧03中。

其中，所述绘制是指电子设备的中央处理器(Central Processing Unit，CPU)或者图行处理器(图形处理器Graphics Processing Unit，GPU)根据绘制指令以及像素点信息等生成二维图像的过程。电子设备完成图像绘制之后，即可通过显示器件将目标图像显示在电子设备的显示屏上。

根据上述记载的实施方式，电子设备逐个对确定的关键动作帧做上述融合绘制处理，并进行实时显示，即可在线预览生成的运动轨迹特效视频，并生成最终的运动轨迹特效视频。

在上述实施方式中，在实时视频帧流过程中所记录的所有历史动作帧都需要映射到当前帧的相应位置来，具体可采用的映射方法有图像配准技术或者同步定位与建图技术(Simultaneous Localization And Mapping，SLAM)。从而，电子设备可以根据至少一个历史动作帧与当前帧的图像映射关系，将每个历史动作帧中的目标主体的图像绘制到当前帧中，具体的，可以通过如下处理生成目标图像。

Step1：根据图像配准技术或者SLAM技术，得到每个历史动作帧中至少一个物体的图像位置与当前帧中至少一个物体的图像位置的对应关系。

其中，图像配准就是将不同时间、不同成像设备或不同条件下(如天候、亮度、摄像位置或角度等)获取的多张图像进行匹配、映射或者叠加的过程，可以广泛地应用于数据分析、计算机视觉和图像处理等领域。

如图10所示，电子设备可以根据第一动作帧中至少一个物体的位置，和当前帧中该相同物体的位置，得到第一动作帧中物体位置与当前帧中物体位置的对应关系，也可称为映射关系。则电子设备可以根据第一动作帧中目标主体的位置，结合该位置对应关系，得到该目标主体再当前帧中的参考位置，如图10中的虚线示意的位置可以为参考位置。

采用图像配准技术时，需要提取出历史动作帧中的特征，比如可以为语义内核二值化(Semantic Kernels Binarized，SKB)特征。再进行特征匹配并计算出单应性矩阵，最后根据得到的单应性矩阵将历史关键动作帧映射到当前帧中的对应位置。其中，SKB特征是一种图像特征的描述算子。图像配准技术可以实现二维图像之间的映射匹配。

SLAM技术是一种可以让设备一边移动一边逐步描绘出周围环境三维位置信息的技术。具体的，设备从未知环境的未知地点出发，在运动过程中通过重复观测到的地图特征(比如，墙角，柱子等)定位自身位置和姿态，再根据自身位置增量式的构建地图，从而达到同步定位和地图构建的目的。

采用SLAM技术时，需要通过电子设备中的SLAM模块计算得到历史动作帧中物体的三维位置信息，根据物体的三维位置信息将历史动作帧映射到当前帧中的相应位置。

由于SLAM技术是基于三维位置信息进行位置映射的，而三维位置信息可适用于帧间三维运动。因此，当电子设备拍摄的目标主体的运动轨迹涉及三维运动时，可以采用SLAM技术进行映射。

Step2：根据每个历史动作帧中每个目标主体的图像位置与对应关系，得到每个目标主体在当前帧中的参考位置。

也就是将每个历史动作帧中每个目标主体的图像映射到当前帧中的相应的图像位置区域。

Step3：将每个历史动作帧中的每个目标主体的图像绘制到当前帧中每个目标主体在当前帧对应的参考位置。

根据上述映射得到的每个目标主体的图像在当前帧中的参考位置，将每个目标主体的图像绘制到当前帧中相应的参考位置，从而得到多帧图像的融合图像，更新显示为当前帧。

示例性的，如图5所示，将第一动作帧01中的第一目标主体映射到第二动作帧02中相应的参考位置，并绘制到第二动作帧02中；将第一动作帧01中的第一目标主体映射到当前帧中的相应的参考位置，并绘制到当前帧中，同时将第二动作帧02中的第二目标主体映射到当前帧中的相应的参考位置，并绘制到当前帧中，更新当前帧。

上述的实施方式，通过图像配准技术或者SLAM技术进行多帧图像之间的映射，从而完成多帧图像中的目标主体图像的融合显示，使得目标主体的运动轨迹能够较准确、自然地显示在同一帧图像中的相应位置，从而形成交错时间、空间的运动轨迹特效视频，丰富用户的拍摄体验。

在一种实施方式中，把所有的历史动作帧都用图像配准技术或者SLAM技术映射到当前帧的相应位置后，结合每个历史动作帧中的目标主体的mask图像，将每个历史动作帧中的目标主体的mask图像映射到当前帧的相应位置后，为了使添加的目标主体的图像与当前帧的背景图像的显示过渡更加自然，该方法还可以包括：将目标图像中的每个历史动作帧的目标主体的图像进行边缘融合处理，更新目标图像，使得目标主体的图像和背景图像过渡自然。

其中，上述的多帧图像的融合处理就是把本不属于当前帧中的图像(历史动作帧中的目标主体的图像)，融合显示到当前帧中；因此，需要进一步在当前帧的N个参考位置上，分别将N个目标主体的图像与当前帧中图像的像素信息进行加权融合处理，从而使得融合添加进来的目标主体的图像与当前帧之前的图像显示自然，边界过渡更加真实。

示例性的，采用的加权融合技术可以为alpha融合。具体处理过程可以为，根据目标主体图像的边缘mask值255，背景图像的边缘mask值0，将mask值由原始的255～0的垂直过渡，调整为255～0的平缓过渡，例如，可以通过线性或者非线性函数调整过渡的mask值。再把调整后的平缓过渡的mask值作为权重对目标主体的图像和背景图像做加权叠加。可选的，也可以采用高斯滤波方法对边缘区域处理，弱化边界线。其中，高斯滤波是根据高斯函数的形状来选择权值的非线性平滑滤波方式。

除了alpha融合技术外，泊松融合(Poisson Blending)技术、拉普拉斯融合(Laplacian Blending)技术等图像融合技术也可以用于上述实施方式，本申请对具体的图像融合技术不作限定。

在一种实施方式中，对多帧关键动作帧的图像进行融合显示，得到目标图像之后，为了更加直观显示出当前帧中的目标主体的运动轨迹，该方法还可以包括：对当前帧中目标主体的图像叠加至少一个留影图像。该留影图像是根据当前帧之前连续若干帧的目标主体的图像生成的。

具体的，至少一个留影图像可以用灰度图像来表示，其中，每个留影图像的灰度值可以一样，也可以不一样。

示例性的，如图11所示，可以在第二动作帧02中的第二目标主体图像的背后，叠加至少一个留影图像，并且，在当前帧03中的目标主体的运动方向背后叠加多个留影图像。留影图像距离当前帧03中目标主体的图像越远，留影图像的强度可以越弱；留影图像距离当前帧03中目标主体的图像越近，则留影图像的强度可以越强。留影图像可以随着距离当前帧03中目标主体图像逐渐变远，其强度逐渐减弱到0为止。

其中，本申请对留影图像的个数不做限定，本领域技术人员可以根据设计需要进行设置。

当留影图像用灰度图像表示的时候，其中，至少一个灰度图像与当前帧中的目标主体的图像之间的距离越近，则该灰度图像的灰度值越大；至少一个灰度图像与当前帧中的目标主体的图像之间的距离越远，则该灰度图像的灰度值越小。

上述的实施方式，通过在当前帧中目标主体的运动方向背后叠加多个留影图像，能够更加直观地表示出目标主体的运动方向和轨迹，增加特效视频的趣味性和直观性，进一步提升用户的拍摄体验。

根据上述的任一种实施方式，在实时将记录的所有历史动作帧中的目标主体的图像映射到当前帧的图像中之后，视频帧流持续更新，并将当前帧输出的图像显示到电子设备的视频拍摄预览画面。如图12所示，用户在开始拍摄特效视频后，同时能够在电子设备的视频拍摄预览画面中实时看到特效视频的拍摄效果。另外，也可以将实时生成的视频帧输出到最终的视频生成流中，在用户完成拍摄之后，即可观看生成的完整的运动轨迹特效视频。

结合上述的任一种可能的实施方式，如图13所示，为本申请实施例提供的一种生成运动轨迹特效视频的详细实施流程。该流程主要包括：1、拍摄预览界面交互、确定目标主体和关键动作帧；2、图像分割得到目标主体的图像；3、关键动作帧映射到当前帧，并将关键动作帧中的目标主体的图像绘制到当前帧；4、在线预览和实时生成视频帧流。

其中，图13中所示的处理流程中，并不是全部的处理流程，也不都是必选的处理流程，本领域技术人员可以根据设计需要，对详细的处理过程和顺序进行调整和设置。同时，本申请的上述技术方案不仅适用于生成运动轨迹的特效视频，还可以用于快速开发其他的类似特效视频，例如，多人像特效合成或者成长特效等，本申请对此不做具体限制。

本申请实施例还提供一种图像处理装置，如图14所示，该装置1400可以包括：获取模块1401、图像分割模块1402、映射模块1403和图像融合模块1404。

其中，获取模块1401，用于获取当前帧和N个历史动作帧，其中，所述当前帧和所述N个历史动作帧均包括目标主体，所述当前帧和所述N个历史动作帧的场景存在交叠，所述目标主体在所述N个历史动作帧中场景的位置不同，N为大于或者等于1的正整数。

图像分割模块1402，用于对所述N个历史动作帧进行图像分割，得到所述N个历史动作帧分别对应的N个目标主体的图像。

映射模块1403，用于根据所述N个目标主体分别在所述N个历史动作帧的场景中位置以及所述当前帧的场景，在所述当前帧中确定出N个参考位置。

图像融合模块1404，用于将所述N个目标主体的图像分别融合在所述当前帧的N个参考位置上，得到目标帧。

在一种可能的设计方式中，该装置还可以包括：接收模块，用于接收用户的第一选择指令，第一选择指令用于指示进入自动拍摄模式或者手动拍摄模式。

在一种可能的设计方式中，若第一选择指令用于指示进入自动拍摄模式，则获取模块1401具体用于：对实时视频流进行运动检测确定目标主体；检测目标主体在实时视频流包括的每个视频帧中场景的位置；确定目标主体在实时视频流包括的视频帧中场景的位置变化满足预设阈值的视频帧为历史动作帧。

在一种可能的设计方式中，若第一选择指令用于指示进入手动拍摄模式，则接收模块还用于接收用户对实时视频流包括的视频帧的第二选择指令；获取模块1401具体还用于：确定第二选择指令在视频帧中对应位置的主体为目标主体，并确定视频帧为历史动作帧。

在一种可能的设计方式中，图像分割模块1402具体用于：根据运动检测技术缩小历史动作帧中对应目标主体的图像区域，得到历史动作帧中的目标图像区域；通过深度学习算法对目标图像区域的图像进行处理，得到历史动作帧对应的目标主体的掩码图像。

在一种可能的设计方式中，若掩码图像中存在多个主体重叠的掩码图像，则图像分割模块1402具体还用于：根据历史动作帧中多个主体的深度信息，从多个主体重叠的掩码图像中分离得到目标主体的掩码图像。

在一种可能的设计方式中，映射模块1403具体用于：根据图像配准技术或者同步定位与建图SLAM技术，得到至少一个物体在历史动作帧中的位置与在当前帧中位置的对应关系；根据对应关系以及目标主体在历史动作帧中的位置，在当前帧中确定出目标主体的参考位置。

在一种可能的设计方式中，图像融合模块1404具体用于：在当前帧的N个参考位置上，分别将N个目标主体的图像与当前帧中图像的像素信息进行加权融合处理。

在一种可能的设计方式中，图像融合模块1404具体还用于：对当前帧中的目标主体的图像添加至少一个灰度图像得到目标帧，其中，若灰度图像与当前帧中的目标主体的图像之间的距离越近，则灰度图像的灰度值越大。

此外，该装置1400具体的执行过程和实施例可以参照上述方法实施例中电子设备执行的步骤和相关的描述，所解决的技术问题和带来的技术效果也可以参照前述实施例所述的内容，此处不再一一赘述。

在本实施例中，该测试装置以采用集成的方式划分各个功能模块的形式来呈现。这里的“模块”可以指特定电路、执行一个或多个软件或固件程序的处理器和存储器、集成逻辑电路、和/或其他可以提供上述功能的器件。在一个简单的实施例中，本领域的技术人员可以想到该装置可以采用如下图15所示的形式。

图15是根据一示例性实施例示出的一种电子设备1500的结构示意图，该电子设备1500可以用于根据上述实施方式生成拍摄主体的运动轨迹特效视频。如图15所示，该电子设备1500可以包括至少一个处理器1501，通信线路1502以及存储器1503。

处理器1501可以是一个通用中央处理器(central processing unit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本公开方案程序执行的集成电路。

通信线路1502可包括一通路，在上述组件之间传送信息，例如总线。

存储器1503可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过通信线路1502与处理器相连接。存储器也可以和处理器集成在一起。本公开实施例提供的存储器通常可以具有非易失性。其中，存储器1503用于存储执行本公开方案所涉及的计算机执行指令，并由处理器1501来控制执行。处理器1501用于执行存储器1503中存储的计算机执行指令，从而实现本公开实施例提供的方法。

可选的，本公开实施例中的计算机执行指令也可以称之为应用程序代码，本公开实施例对此不作具体限定。

在具体实现中，作为一种实施例，处理器1501可以包括一个或多个CPU，例如图15中的CPU0和CPU1。

在具体实现中，作为一种实施例，电子设备1500可以包括多个处理器，例如图15中的处理器1501和处理器1507。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，电子设备1500还可以包括通信接口1504。通信接口1504，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网接口，无线接入网接口(radio access network，RAN)，无线局域网接口(wireless local area networks，WLAN)等。

在具体实现中，作为一种实施例，电子设备1500还可以包括输出设备1505和输入设备15015。输出设备1505和处理器1501通信，可以以多种方式来显示信息。例如，输出设备1505可以是液晶显示器(liquid crystal display，LCD)，发光二级管(light emitting diode，LED)显示设备，阴极射线管(cathode ray tube，CRT)显示设备，或投影仪(projector)等。输入设备1506和处理器1501通信，可以以多种方式接收用户的输入。例如，输入设备1506可以是鼠标、键盘、触摸屏设备或传感设备等。

在具体实现中，电子设备1500可以是台式机、便携式电脑、网络服务器、掌上电脑(personal digital assistant，PDA)、移动手机、平板电脑、无线终端设备、嵌入式设备或有图15中类似结构的设备。本公开实施例不限定电子设备1500的类型。

在一些实施例中，图15中的处理器1501可以通过调用存储器1503中存储的计算机执行指令，使得电子设备1500执行上述方法实施例中的方法。

示例性的，图14中的获取模块1401、图像分割模块1402、映射模块1403和图像融合模块1404的功能/实现过程可以通过图15中的处理器1501调用存储器1503中存储的计算机执行指令来实现。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器1503，上述指令可由电子设备1500的处理器1501执行以完成上述方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时，可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

最后应说明的是：以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种图像处理方法，其特征在于，所述方法包括：

获取当前帧和N个历史动作帧，其中，所述当前帧和所述N个历史动作帧均包括目标主体，所述当前帧和所述N个历史动作帧的场景存在交叠，所述目标主体在所述N个历史动作帧中场景的位置不同，N为大于或者等于1的正整数；

对所述N个历史动作帧进行图像分割，得到所述N个历史动作帧分别对应的N个目标主体的图像；

根据所述N个目标主体分别在所述N个历史动作帧的场景中位置以及所述当前帧的场景，在所述当前帧中确定出N个参考位置；

将所述N个目标主体的图像分别融合在所述当前帧的N个参考位置上，得到目标帧。
根据权利要求1所述的方法，其特征在于，所述获取当前帧和N个历史动作帧之前，所述方法还包括：

接收用户的第一选择指令，所述第一选择指令用于指示进入自动拍摄模式或者手动拍摄模式。
根据权利要求2所述的方法，其特征在于，若所述第一选择指令用于指示进入所述自动拍摄模式，则获取所述历史动作帧，具体包括：

对实时视频流进行运动检测确定所述目标主体；

检测所述目标主体在所述实时视频流包括的每个视频帧中场景的位置；

确定所述目标主体在所述实时视频流包括的视频帧中场景的位置变化满足预设阈值的视频帧为所述历史动作帧。
根据权利要求2所述的方法，其特征在于，若所述第一选择指令用于指示进入所述手动拍摄模式，则获取所述历史动作帧，具体包括：

接收用户对实时视频流包括的视频帧的第二选择指令；

确定所述第二选择指令在所述视频帧中对应位置的主体为所述目标主体，并确定所述视频帧为所述历史动作帧。
根据权利要求1-4任一项所述的方法，其特征在于，对所述历史动作帧进行图像分割，得到所述历史动作帧对应的目标主体的图像，具体包括：

根据运动检测技术缩小所述历史动作帧中对应目标主体的图像区域，得到所述历史动作帧中的目标图像区域；

通过深度学习算法对所述目标图像区域的图像进行处理，得到所述历史动作帧对应的目标主体的掩码图像。
根据权利要求5所述的方法，其特征在于，若所述掩码图像中存在多个主体重叠的掩码图像，则所述方法还包括：

根据所述历史动作帧中所述多个主体的深度信息，从所述多个主体重叠的掩码图像中分离得到所述目标主体的掩码图像。
根据权利要求1-6任一项所述的方法，其特征在于，根据所述目标主体在所述历史动作帧的场景中位置以及所述当前帧的场景，在所述当前帧中确定出参考位置，具体包括：

根据图像配准技术或者同步定位与建图SLAM技术，得到至少一个物体在所述历史动作帧中的位置与在所述当前帧中位置的对应关系；

根据所述对应关系以及所述目标主体在所述历史动作帧中的位置，在所述当前帧中确定出所述目标主体的参考位置。
根据权利要求1-7任一项所述的方法，其特征在于，所述将所述N个目标主体的图像分别融合在所述当前帧的N个参考位置上，具体包括：

在所述当前帧的N个参考位置上，分别将所述N个目标主体的图像与所述当前帧中图像的像素信息进行加权融合处理。
根据权利要求1-8任一项所述的方法，其特征在于，所述将所述N个目标主体的图像分别融合在所述当前帧的N个参考位置上之后，所述方法还包括：

对所述当前帧中的目标主体的图像添加至少一个灰度图像得到所述目标帧，其中，若所述灰度图像与所述当前帧中的目标主体的图像之间的距离越近，则所述灰度图像的灰度值越大。
一种图像处理装置，其特征在于，所述装置包括：

获取模块，用于获取当前帧和N个历史动作帧，其中，所述当前帧和所述N个历史动作帧均包括目标主体，所述当前帧和所述N个历史动作帧的场景存在交叠，所述目标主体在所述N个历史动作帧中场景的位置不同，N为大于或者等于1的正整数；

图像分割模块，用于对所述N个历史动作帧进行图像分割，得到所述N个历史动作帧分别对应的N个目标主体的图像；

映射模块，用于根据所述N个目标主体分别在所述N个历史动作帧的场景中位置以及所述当前帧的场景，在所述当前帧中确定出N个参考位置；

图像融合模块，用于将所述N个目标主体的图像分别融合在所述当前帧的N个参考位置上，得到目标帧。
根据权利要求10所述的装置，其特征在于，所述装置还包括：

接收模块，用于接收用户的第一选择指令，所述第一选择指令用于指示进入自动拍摄模式或者手动拍摄模式。
根据权利要求11所述的装置，其特征在于，若所述第一选择指令用于指示进入所述自动拍摄模式，则所述获取模块具体用于：

对实时视频流进行运动检测确定所述目标主体；

检测所述目标主体在所述实时视频流包括的每个视频帧中场景的位置；

确定所述目标主体在所述实时视频流包括的视频帧中场景的位置变化满足预设阈值的视频帧为所述历史动作帧。
根据权利要求11所述的装置，其特征在于，若所述第一选择指令用于指示进入所述手动拍摄模式，则所述接收模块还用于接收用户对实时视频流包括的视频帧的第二选择指令；

所述获取模块具体还用于：确定所述第二选择指令在所述视频帧中对应位置的主体为所述目标主体，并确定所述视频帧为所述历史动作帧。
根据权利要求10-13任一项所述的装置，其特征在于，所述图像分割模块具体用于：

根据运动检测技术缩小所述历史动作帧中对应目标主体的图像区域，得到所述历史动作帧中的目标图像区域；

通过深度学习算法对所述目标图像区域的图像进行处理，得到所述历史动作帧对应的目标主体的掩码图像。
根据权利要求14所述的装置，其特征在于，若所述掩码图像中存在多个主体重叠的掩码图像，则所述图像分割模块具体还用于：

根据所述历史动作帧中所述多个主体的深度信息，从所述多个主体重叠的掩码图像中分离得到所述目标主体的掩码图像。
根据权利要求10-15任一项所述的装置，其特征在于，所述映射模块具体用于：

根据图像配准技术或者同步定位与建图SLAM技术，得到至少一个物体在所述历史动作帧中的位置与在所述当前帧中位置的对应关系；

根据所述对应关系以及所述目标主体在所述历史动作帧中的位置，在所述当前帧中确定出所述目标主体的参考位置。
根据权利要求10-16任一项所述的装置，其特征在于，所述图像融合模块具体用于：

在所述当前帧的N个参考位置上，分别将所述N个目标主体的图像与所述当前帧中图像的像素信息进行加权融合处理。
根据权利要求10-17任一项所述的装置，其特征在于，所述图像融合模块具体还用于：

对所述当前帧中的目标主体的图像添加至少一个灰度图像得到所述目标帧，其中，若所述灰度图像与所述当前帧中的目标主体的图像之间的距离越近，则所述灰度图像的灰度值越大。
一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至9中任一项所述的图像处理方法。
一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至9中任一项所述的图像处理方法。
一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求1至9中任一项所述的图像处理方法。