WO2023246844A1

WO2023246844A1 - 视频处理方法、装置、设备及介质

Info

Publication number: WO2023246844A1
Application number: PCT/CN2023/101608
Authority: WO
Inventors: 陈璐双
Original assignee: 北京字跳网络技术有限公司
Priority date: 2022-06-21
Filing date: 2023-06-21
Publication date: 2023-12-28
Also published as: CN117336422A

Abstract

本公开实施例涉及一种视频处理方法、装置、设备及介质，该方法包括：基于初始视频的视频帧序列获得多个图像组；基于目标图像组中的各帧图像进行运动模糊处理，并将各帧图像经过运动模糊处理所得的图像进行融合，得到目标图像组对应的运动模糊图像；基于目标图像组中的指定帧图像确定目标图像组对应的主体对象区域和背景区域；多个图像组中的每个图像组均为目标图像组；根据主体对象区域和背景区域，对运动模糊图像和指定帧图像进行融合，得到目标融合图像；基于多个图像组各自对应的目标融合图像生成目标视频。

Description

视频处理方法、装置、设备及介质

相关申请的交叉引用

本申请是以CN申请号为202210705983.3，申请日为2022年6月21日的申请为基础，并主张其优先权，该CN申请的公开内容在此作为整体引入本申请中。

技术领域

本公开涉及视频处理技术领域，尤其涉及一种视频处理方法、装置、设备及介质。

背景技术

在视频创作领域中，创作者通常会根据需求进行视频拍摄。拍摄方式不同，得到的视频效果不同。在一些场合下，创作者需要拍摄出主体对象清晰、背景虚晃且带有卡顿感的视频效果。这种视频效果大多需要借助专业的拍摄工具进行慢快门拍摄和/或通过运动镜头进行拍摄，而且也需要视频创作者具有过硬的拍摄技能以及需要合适的拍摄场景。

发明内容

本公开实施例提供了一种视频处理方法，所述方法包括：基于初始视频的视频帧序列获得多个图像组；基于目标图像组中的各帧图像进行运动模糊处理，并将所述各帧图像经过运动模糊处理所得的图像进行融合，得到所述目标图像组对应的运动模糊图像；所述多个图像组中的每个图像组均为所述目标图像组；基于所述目标图像组中的指定帧图像确定所述目标图像组对应的主体对象区域和背景区域；根据所述主体对象区域和所述背景区域，对所述运动模糊图像和所述指定帧图像进行融合，得到目标融合图像；所述目标融合图像在所述主体对象区域的图像部分为所述指定帧图像在所述主体对象区域的图像部分，所述目标融合图像在所述背景区域的图像部分为所述运动模糊图像在所述背景区域的图像部分；基于所述多个图像组各自对应的目标融合图像生成目标视频；所述多个图像组各自对应的目标融合图像在所述目标视频中的播放顺序与所述多个图像组在所述初始视频中的播放顺序相同。

在一些实施例中，基于目标图像组中的各帧图像进行运动模糊处理，并将所述各帧图像经过运动模糊处理所得的图像进行融合的步骤，包括：采用光流插值算法对所述目标图像组中的相邻帧图像之间均插入指定数量个中间帧图像，将插帧后的所述目标图像组中的所有帧图像作为所述目标图像组中的各帧图像经过运动模糊处理所得的图像；将所述各帧图像经过运动模糊处理所得的图像进行平均融合。

在一些实施例中，采用光流插值算法对所述目标图像组中的相邻帧图像之间插入指定数量个中间帧图像的步骤，包括：获取所述目标图像组中的相邻帧图像之间像素块的双向运动向量；根据所述像素块的双向运动向量以及块运动补偿算法对所述相邻帧图像之间插入指定数量个中间帧图像。

在一些实施例中，获取所述目标图像组中的相邻帧图像之间像素块的双向运动向量的步骤，包括：基于改进后的DIS光流算法获取所述目标图像组中的相邻帧图像之间像素块的双向运动向量；所述改进后的DIS光流算法所采用的图像金字塔的底层图像分辨率小于原有DIS光流算法所采用的图像金字塔的底层图像分辨率，和/或，所述改进后的DIS光流算法所采用的迭代次数小于原有DIS光流算法所采用的迭代次数。

在一些实施例中，基于所述目标图像组中的指定帧图像确定主体对象区域和背景区域的步骤，包括：将位于所述目标图像组中间位置的图像作为指定帧图像，采用对象实例分割算法对所述指定帧图像进行处理，基于处理结果得到所述目标图像组对应的主体对象区域和背景区域。

在一些实施例中，根据所述主体对象区域和所述背景区域，对所述运动模糊图像和所述指定帧图像进行图像融合的步骤，包括：根据所述主体对象区域和所述背景区域，得到主体对象掩膜图像；获取所述主体对象掩膜图像对应的权重系数；基于所述权重系数调整所述主体对象掩膜图像的像素值，得到调整后的所述主体对象掩膜图像；基于调整后的所述主体对象掩膜图像，对所述运动模糊图像和所述指定帧图像进行图像融合。

在一些实施例中，获取所述主体对象掩膜图像对应的权重系数的步骤，包括：基于光流法获取所述目标图像组中各帧图像对应的全局运动幅度；根据所述全局运动幅度确定所述主体对象掩膜图像对应的权重系数。

在一些实施例中，基于调整后的所述主体对象掩膜图像，对所述运动模糊图像和所述指定帧图像进行图像融合的步骤，包括：采用如下公式对所述运动模糊图像和所述指定帧图像进行图像融合：
Merge_N’＝β*mask_main*Pn+(1-β*mask_main)*Merge_N

β为所述权重系数；mask_main为所述主体对象掩膜图像；β*mask_main为调整后的所述主体对像掩膜图像；Pn为所述指定帧图像；Merge_N为所述运动模糊图像；Merge_N’为所述目标融合图像。

在一些实施例中，基于初始视频的视频帧序列获得多个图像组的步骤，包括：将初始视频的视频帧序列按照指定间隔进行切分，得到多个图像组；相邻的两个图像组之间具有预设数量个重叠帧图像。

本公开实施例还提供了一种视频处理装置，包括：图像组获取模块，用于基于初始视频的视频帧序列获得多个图像组；模糊处理模块，用于基于目标图像组中的各帧图像进行运动模糊处理，并将所述各帧图像经过运动模糊处理所得的图像进行融合，得到所述目标图像组对应的运动模糊图像；所述多个图像组中的每个图像组均为所述目标图像组；区域确定模块，用于基于所述目标图像组中的指定帧图像确定所述目标图像组对应的主体对象区域和背景区域；融合模块，用于根据所述主体对象区域和所述背景区域，对所述运动模糊图像和所述指定帧图像进行融合，得到目标融合图像；所述目标融合图像在所述主体对象区域的图像部分为所述指定帧图像在所述主体对象区域的图像部分，所述目标融合图像在所述背景区域的图像部分为所述运动模糊图像在所述背景区域的图像部分；视频生成模块，用于基于所述多个图像组各自对应的目标融合图像生成目标视频；所述多个图像组各自对应的目标融合图像在所述目标视频中的播放顺序与所述多个图像组在所述初始视频中的播放顺序相同。

本公开实施例还提供了一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现如本公开实施例提供的视频处理方法。

本公开实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序在被处理器运行时使得所述处理器执行如本公开实施例提供的视频处理方法。

本公开实施例还提供了一种计算机程序，包括：指令，指令当由处理器执行时使处理器执行本公开实施例提供的视频处理方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种视频处理方法的流程示意图；

图2为本公开实施例提供的一种相邻帧图像之间的插帧示意图；

图3为本公开实施例提供的一种视频处理装置的结构示意图；

图4为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

如前所述，想要获得主体对象清晰、背景虚晃且带有卡顿感的视频效果，大多需要借助专业的拍摄工具进行慢快门拍摄和/或通过运动镜头进行拍摄，而且也需要视频创作者具有过硬的拍摄技能以及需要合适的拍摄场景。大多数视频创作者难以满足上述拍摄条件，想要拍摄得到上述视频效果的难度较高。

为了获得具有主体对象清晰、背景虚晃且带有卡顿感的视频效果，通常需要专业的拍摄工具、过硬的拍摄技能以及合适的拍摄场景。例如，需要专业的拍摄稳定器搭配三角架进行慢快门拍摄，通过慢快门实现虚晃背景及运动拖影，以此营造画面迷离感，在拍摄过程中还需要专业调整慢快门以及利用合理曝光才可达到所需效果。另外，若要拍摄得到上述视频效果，对拍摄场景要求较高，诸如需要拍摄场景是夜里或者光线较暗情况，否则在光线较足的情况下容易过曝。

在相关技术中，大多采用控制拍摄帧率和曝光时间的方式来产生运动拖影，但这种方式会受到拍摄场景的限制，只能在光线较暗的场景拍摄，无法适用于所有场景。另外也无法对视频中的主体对象进行保护，只能是全图都拖影，难以保障主体对象清晰。另外，对于用户个人拍摄而言，大多缺少专业的拍摄稳定器，用户往往因为手持抖动而出现主体模糊的情况。

为了改善以上问题，本公开实施例提供了一种视频处理方法、装置、设备及介质，能够利用软件处理的方式将正常拍摄所得的视频处理成为具有主体人像清晰、背景虚晃模糊且具有卡顿感的视频，以下进行详细说明。

图1为本公开实施例提供的一种视频处理方法的流程示意图，该方法可以由视频处理装置执行，其中该装置可以采用软件和/或硬件实现，一般可集成在电子设备中。如图1所示，该方法主要包括如下步骤S102～步骤S110。

步骤S102，基于初始视频的视频帧序列获得多个图像组。。

初始视频可以是不受限于拍摄工具、拍摄技能以及拍摄场景拍摄所得的视频，诸如，可以是用户仅是用手机在任何场景下拍摄所得的视频。初始视频可以是用户实时拍摄所得的视频，也可以是用户上传的预先拍摄的视频。

在一些实施方式中，可以将初始视频的视频帧序列按照指定间隔进行切分，得到多个图像组。本公开实施例对切分方式不进行限定，该切分方式诸如可以为平均切分(也即等间隔切分)、非平均切分、也可以为交叉切分(交叉切分所得的相邻图像组之间存在重叠帧图像)。该指定间隔可以为数量间隔，因此每个图像组中的帧图像的数量可以相同，均包含N帧图像。N的数量可以根据需求而灵活设置，示例性地，可以参照初始视频的帧率以及所需视频的真实帧率确定。诸如，N值可以为初始视频的帧率与所需视频的真实帧率的比值，如比值非整数，则可以取最接近该比值的整数值。在一些实施方式中，相邻的两个图像组之间的帧图像完全不同。在另一些实施方式中，相邻的两个图像组之间的部分帧图像相同，也即有部分帧图像重叠，换言之，相邻的两个图像组之间具有预设数量个重叠帧图像。通过这种方式，既可以保证图像组数量的合理性(也即保证后续生成视频的帧率合理性)，又可以保障每个图像组在后续处理时的图像融合效果。为便于理解，以下进行示例性说明。

假设初始视频的原始帧率为Xfps，为了生成连续卡顿的视频，可以以N帧图像为一组进行处理，以便后续基于N帧图像融合为一帧图像。诸如，所需视频的真实帧率为10fps～15fps之间，示例性地可以选择N＝X/10，也即融合X/10个原始帧为一帧。假设原始帧率为30fps，则融合3个原始帧为一帧；假设原始帧率为60fps，则融合6个原始帧为一帧。以上仅为选取N值的示例，不应当被视为限制。对于待处理视频的视频帧序列而言，假设Pi为第i帧图像。在一些实施方式中，以P1～P6作为一个图像组，P7～P12作为一个图像组，P12～P17作为一个图像组….依次类推；这种方式所得的图像组数量通常较少，最终生成视频的帧率较少，致使卡顿太明显；而如果缩减图像组中帧图像的数量，诸如以P1～P3作为一个图像组，P4～P6作为一个图像组的方式，每次仅融合3帧会导致运动拖影程度较小，不易观察到明显的流动效果。为了达到更好的融合效果，本公开实施例可以对图像帧进行复用。仍旧选择每6帧为一组进行处理，但相邻的图像组之间具有重叠帧，也即采用P1～P6作为一个图像组，P4～P9作为一个图像组，P7～P12作为一个图像组，P10～P15作为一个图像组….依次类推。也即，任意两个相邻图像组之间都有3帧图像重叠，通过这种帧图像复用的方式，在保障每个图像组中包含有6帧图像的同时，可将图像组数量提升至2倍。因此既可以保障图像组数量的合理性，又可以保障每个图像组中的多帧图像在后续处理时的融合效果，也即在保证生成视频帧率的前提下提升整体画面的虚晃流动感。

将每个图像组分别作为目标图像组，也即针对每个图像组，分别执行下述步骤S104～步骤S108。

步骤S104，基于目标图像组中的各帧图像进行运动模糊处理，并将所述各帧图像经过运动模糊处理所得的图像进行融合，得到目标图像组对应的运动模糊图像。

运动模糊处理(Motion Blur)是一种抓取对象(物体、动物或人物等)运动状态效果的后处理方式，主要模拟在对象运动时曝光的摄像手法。例如，模拟出摄像中拍摄运动对象的间接曝光功能，从而使图像产生出一种动态效果，诸如制造出对象掠过或移动的效果。例如，运动模糊处理为沿指定的方向。

在本公开实施例中，通过基于目标图像组中的各帧图像进行运动模糊处理，并将运动模糊处理所得的所有图像进行融合。例如，运动模糊处理所得的图像可以不仅包含有目标图像组中经处理的原始帧图像，还可以包含在运动模糊处理过程中在原始帧图像的基础上额外插入的帧图像。最后将所有图像进行融合之后，即可得到目标图像组对应的运动模糊图像。该运动模糊图像即具有模糊虚晃的画面效果。

步骤S106，基于目标图像组中的指定帧图像确定目标图像组对应的主体对象区域和背景区域。

本公开实施例对主体对象的类型不进行限制，主体对象诸如可以为人物，也可以为动物或者诸如车辆等物品。

为了使视频中的主体对象部分能够相对清晰的出现在画面中，本公开实施例提出了对象保护策略。例如，可以从目标图像组中选择指定帧图像，诸如，该指定帧图像可以为目标图像组的中间位置帧；通过对指定帧图像进行对象分割，基于分割结果可最终获取目标图像组对应的主体对象区域和背景区域；通过主体对象区域和背景区域即可在后续实现对主体对象的保护。例如，可对指定帧图像进行对象分割(以主体对象是人物为例，则进行人像分割)，得到指定帧图像中的主体对象区域和背景区域，将指定帧图像中的主体对象区域和背景区域作为目标图像组对应的主体对象区域和背景区域，背景区域也即除主体对象区域之外的区域。

应当注意的是，上述步骤S104和步骤S106无先后关系，可以并行执行。

步骤S108，根据主体对象区域和背景区域，对运动模糊图像和指定帧图像进行融合，得到目标融合图像。

目标融合图像在主体对象区域的图像部分为指定帧图像在主体对象区域的图像部分，目标融合图像在背景区域的图像部分为运动模糊图像在背景区域的图像部分。也即，目标融合图像中的主体对象区域基于指定帧图像中主体对象区域的像素组成，目标融合图像中的背景区域基于运动模糊图像中背景区域的像素组成。通过上述方式，使得目标融合图像既有模糊虚晃的背景画面，又有相对清晰的主体对象。

例如，在将目标图像组中的指定帧图像进行主体对象区域和背景区域进行分割后，可以采用特定方式区分主体对象区域和背景区域。诸如，可以基于主体对象区域和背景区域生成主体对象掩膜图像，该主体对象掩膜图像可以针对不同的区域采用不同的像素值进行标识。示例性地，主体对象掩膜图像中的背景区域的像素值均为0，主体对象区域的像素值均为1；然后基于主体对象掩膜图像对运动模糊图像和指定帧图像进行融合，得到将指定帧图像中清晰的主体对象与运动模糊图像中模糊虚晃的背景相结合的目标融合图像。

步骤S110，基于多个图像组各自对应的目标融合图像生成目标视频，多个图像组各自对应的目标融合图像在目标视频中的播放顺序与多个图像组在初始视频中的播放顺序相同。

每个图像组都分别作为目标图像组执行了上述步骤S104～步骤S108，因此每个图像组都对应有一幅目标融合图像。所有的目标融合图像按照多个图像组在初始视频的视频帧序列中所对应的先后位置关系排列，每个目标融合图像均作为构成目标视频的一帧，多个目标融合图像按序排列后即可构成目标视频的视频帧序列。也即，由目标融合图像组成的视频帧序列即为目标视频。目标视频所包含的视频帧数量少于初始视频的视频帧数量，目标视频中的每一帧图像都是初始视频中的多帧图像经过运动模糊、主体对象保护等处理后融合而成。因此目标视频能够给人带来一定的卡顿感，而且图像画面的背景模糊虚晃，但主体人物清晰。

通过上述方式，采用软件算法即可将正常拍摄所得的视频处理为具有主体人像清晰、背景虚晃且带有卡顿感的效果的视频。可以使用户不受限于拍摄工具、拍摄技能以及拍摄场景，即可方便快捷地得到上述视频拍摄效果。

本公开实施例提供的上述技术方案，能够基于初始视频的视频帧序列得到多个图像组，并将每个图像组分别作为目标图像组，执行如下操作：基于目标图像组中的各帧图像进行运动模糊处理，并将各帧图像经过运动模糊处理所得的图像进行融合，得到目标图像组对应的运动模糊图像；基于目标图像组中的指定帧图像确定目标图像组对应的主体对象区域和背景区域；然后根据主体对象区域和背景区域，对运动模糊图像和指定帧图像进行融合，得到目标融合图像；最后基于多个图像组各自对应的目标融合图像生成目标视频。通过上述方式，采用软件算法即可将正常拍摄所得的视频处理为具有主体人像清晰、背景虚晃且带有卡顿感的效果的视频，可以使用户不受限于拍摄工具、拍摄技能以及拍摄场景，即可方便快捷地得到上述视频拍摄效果。

在一些实施方式中，基于目标图像组中的各帧图像进行运动模糊处理，并将各帧图像经过运动模糊处理所得的图像进行融合的步骤，可以参照如下步骤A～步骤B执行。

步骤A：采用光流插值算法对目标图像组中的相邻帧图像之间均插入指定数量个中间帧图像，将插帧后的目标图像组中的所有帧图像作为目标图像组中的各帧图像经过运动模糊处理所得的图像。

光流是空间运动物体在观测成像平面上的像素运动的“瞬时速度”。光流的研究是利用图像序列中的像素强度数据的时域变化和相关性来确定各自像素位置的“运动”。换言之，在光流算法中，将一幅图像中的像素与另一幅图像中的像素进行匹配，通过匹配即可获知像素是如何从一幅图像“移动”或“流动”至另一幅图像。在匹配每一个像素后，就可以通过局部地移动像素来插值两幅图像中的中间视图。在一些实施方式中，为了节约运算力，提高处理效率，可以采用稀疏光流插值的方式进行插帧。例如，将帧图像按照指定大小的像素块(诸如16*16)划分，以像素块为单位，进行像素块之间的匹配以及运动向量的计算。属于同一像素块中的所有像素对应的运动向量都相同，不同像素块之间的运动向量可能相同也可能不同。通过这种方式，可以极大节约运算力。无论是服务端还是移动终端，都可以直接采用上述方式进行视频处理。基于此，在一些实施示例中，上述步骤A可以参照如下步骤A1～步骤A2执行。

步骤A1：获取目标图像组中的相邻帧图像之间像素块的双向运动向量。

例如，双向运动向量包括前向运动向量和反向运动向量。诸如相邻帧图像分别为在前帧图像Fa与在后帧图像Fb，以Fa为基准，将Fa中的像素块与Fb中的像素块进行匹配，并从Fa到Fb的方向上计算前向运动向量。以Fb为基准，将Fb中的像素块与Fa中的像素块进行匹配，并从Fb到Fa的方向上计算反向运动向量。通过双向运动向量可以合理可靠地表征像素块在图像之间的光流运动趋势。

在一些实施方式中，可以基于改进后的DIS光流算法获取目标图像组中的相邻帧图像之间像素块的双向运动向量。

例如，改进后的DIS光流算法所采用的图像金字塔的底层图像分辨率小于原有DIS光流算法所采用的图像金字塔的底层图像分辨率

例如，改进后的DIS光流算法所采用的迭代次数小于原有DIS光流算法所采用的迭代次数。示例性地，原有DIS光流算法所采用的图像金字塔的底层图像分辨率为原图分辨率，而改进后的DIS光流算法所采用的图像金字塔的底层图像分辨率为原图分辨率的1/4；原有DIS光流算法的迭代次数为12次，而改进后的DIS光流算法所采用的迭代次数为5次。

DIS光流算法是Dense Inverse Search-based method(基于稠密逆搜索的方法)的简称。原有的DIS光流算法属于稠密光流算法，在本公开实施例中为了节约算力，在原有DIS光流算法的基础上进行改进。例如，DIS算法是把图像缩放到不同的尺度，构建一个图像金字塔；然后从最小分辨率的一层开始，逐层向下估计光流，每一层估计得到的光流会作为下一层估计的初始化，从而达到准确估计不同幅度的运动的目的。而在本公开实施例中，只需要得到稀疏光流即可(即每个像素块中的像素都共享一个光流，而不是每个像素都需要计算相应的光流，光流可表征运动向量)。因此对DIS光流算法进行改进，降低图像金字塔的底层图像分辨率(也即最高分辨率)。示例性地，将最高分辨率设置为原图的1/4。此外，在最高分辨率上也无需再进行稠密化步骤，最后即可得到稀疏光流。另外，由于本公开实施例只需得到稀疏光流，并不要求高精度，因此在使用梯度下降求解时，只需要使用较小的迭代次数即可。因此将原有的DIS光流算法的12次迭代改为5次迭代。通过对DIS光流算法进行改进后，即可采用改进后的DIS光流算法快速获得相邻帧图像之间像素块的双向运动向量。

步骤A2：根据像素块的双向运动向量以及块运动补偿算法对相邻帧图像之间插入指定数量个中间帧图像。中间帧图像为在相邻帧图像之间插入的图像。

运动补偿是一种描述相邻帧差别的方法，例如是描述在前帧图像中的每个像素块怎样逐步移动到在后帧图像中的某个位置。在块运动补偿算法(也可称为分块运动补偿)中，每帧图像被分为若干像素块；可以基于原有帧图像中的像素块及相应的运动向量，预测其在中间帧图像中的位置。例如，在已知相邻帧图像像素块之间的双向运动向量后，可将相邻帧图像的像素块分别在运动路径上等距离采样M次；每采样一次则插入一帧，采样数值M可表征图像融合细腻程度。M值越大，图像融合越自然，M值越小，则图像融合程度较为粗糙，容易出现明显的重叠痕迹。通过块运动补偿进行插帧，得到相邻帧之间的模糊效果图。为便于理解，参见图2所示的一种相邻帧图像之间的插帧示意图，Fa与Fb为相邻帧，对于Fa帧中的任意像素块block_i，在前后帧中找到对应的block_i0和block_iM；并通过该像素块的双向运动向量(前向运动向量F_ab、反向运动向量F_ba)，分别在相应的运动路径上等距离采样M次，每采样一次插入一帧。示例性地，在第j次和第k次采用的像素块位置如图2所示，示意出了在第j次采样对应的像素块为block_ij，第k次采样对应的像素块为block_ik。如图2所示，将每个像素在其所属的像素块的运动路径上进行复制并叠加，从而制造出真实平滑的运动模糊效果。通过上述方式，通过多次采样，可以在相邻帧图像之间插入多个中间帧图像，而且中间帧图像均为模糊图。

步骤B：将各帧图像经过运动模糊处理所得的图像进行平均融合。

将运动模糊处理所得的所有图像(原相邻图像帧及插入的中间帧图像)的像素值求平均即可得到目标图像组对应的运动模糊图像。通过这种方式，使得最终的运动模糊图像能够模拟出摄像中拍摄运动对象的间接曝光功能，使图像产生出一种运动虚晃的动态效果。另外，基于像素块的处理方式，在保证图像融合效果的前提下也可降低所需算力，有效提升整体算法性能，保证移动终端落地的可行性。

通过上述方式，可以基于每个图像组中的帧图像都对应生成运动模糊图像，而运动模糊图像的模糊程度通常与运动程度成正比，运动越快，拖影越长。采用上述算法的实现原理以及可达到的效果与真实慢快门的原理及拍出的模糊程度是一致的。因此它们都存在一个问题：当用户希望画面背景运动模糊而主体对象相对清晰时，所采用的上述模糊处理算法或真实拍摄效果都不能避免因主体运动或者拍摄设备抖动而导致的主体模糊。换言之，通过本公开实施例提供的上述运动模糊处理方式所得的运动模糊图像中的主体对象也是模糊的，难以清晰呈现给用户。为改善此问题，本公开实施例提出对象保护策略，可以基于目标图像组中的指定帧图像进行对象分割，以获取目标图像组对应的主体对象区域和背景区域；通过主体对象区域和背景区域来进行对象保护。例如，指定帧图像可以选择位于目标图像组中间位置的图像，有助于后续融合更为自然。

在一些实施方式中，将位于目标图像组中间位置的图像作为指定帧图像，采用对象实例分割算法对指定帧图像进行处理，基于处理结果得到目标图像组对应的主体对象区域和背景区域。例如，可根据主体对象区域和背景区域，可以得到主体对象掩膜图像。在一些实施方式中，指定帧图像中可能有至少一个对象，则可以从至少一个对象掩膜中确定主体对象掩膜。主体对象掩膜即为最靠近图像中心的对象掩膜，以此得到主体对象掩膜图像。

在确定主体对象掩膜图像的一些实施方式中，也可以参照如下步骤1～步骤4。

步骤1，对指定帧图像的对象分割结果(Alpha分割图)进行图像腐蚀，减少多个对象间的连通。

步骤2，对腐蚀后的图像进行二值化，之后进行连通区域检测，以找出最靠近图像中心的大片连通区域作为主体对象。

步骤3，对选中的连通区域进行膨胀操作，并映射到原有的Alpha分割图上，得到主体对象掩膜。

步骤4，对主体对象掩膜进行优化，示例性地，进行均值模糊及平滑边缘处理，得到主体对象掩膜图像。

通过上述方式，可得到主体对象掩膜图像，以便于后续利用主体对象掩膜图像对主体对象进行保护。

应当注意的是，本公开实施例在获取目标图像组对应的运动模糊图像以及主体对象掩膜图像的两个过程不分先后，可以并行执行。

在按照上述方式得到运动模糊图像和主体对象掩膜图像之后，在一些实施方式中，可以根据运动模糊图像、主体对象掩膜图像和指定帧图像，得到目标图像组对应的目标融合图像。

为了使得到的目标视频的帧图像画面更逼真，本公开实施例还可以控制主体对象保护的程度。诸如，在全局运动幅度较大的情况下，主体对象不会特别清晰，以避免违和感。基于此，根据主体对象掩膜图像，对运动模糊图像和指定帧图像进行图像融合的步骤，可以参照如下步骤(1)～步骤(3)。

在步骤(1)中，获取主体对象掩膜图像对应的权重系数。权重系数与主体对象的保护程度相关，权重系数越大，主体对象保护程度越高，主体对象越清晰。

在一些实施示例中，可以基于光流法获取目标图像组中各帧图像对应的全局运动幅度；根据全局运动幅度确定主体对象掩膜图像对应的权重系数。本公开实施例对光流法不进行限定，诸如可以采用稀疏光流法确定像素块的运动信息，从而获取目标图像组中各帧图像对应的全局运动幅度。全局运动幅度与权重系数呈负相关，全局运动幅度越大，也即运动越快，权重系数越小，主体对象的清晰度相对越低(但仍旧会高于模糊背景的清晰度，只是使主体对象不是特别清晰)。综上，本公开实施例可根据镜头移动带来的全局运动幅度来调节对象保护的程度。

在步骤(2)中，基于权重系数调整主体对象掩膜图像的像素值，得到调整后的主体对象掩膜图像。在一些示例中，可以令权重系数与主体对象掩膜图像的像素值相乘，以得到调整后的主体对象掩膜图像。

在步骤(3)中，基于调整后的主体对象掩膜图像，对运动模糊图像和指定帧图像进行图像融合。示例性地，可以采用如下公式对运动模糊图像和指定帧图像进行图像融合：
Merge_N’＝β*mask_main*Pn+(1-β*mask_main)*Merge_N

其中，β为权重系数；mask_main为主体对象掩膜图像；β*mask_main为调整后的主体对象掩膜图像；Pn为指定帧图像；Merge_N为运动模糊图像；Merge_N’为目标融合图像。

基于上述公式进行图像融合，所得到的目标融合图像即为背景画面模糊虚晃，但主体对象相对清晰，且清晰程度可基于权重系数调控；而权重系数可基于因镜头移动带来的全局运动幅度确定，使得主体对象的清晰程度与全局运动幅度相关，画面效果更为真实自然。

对于初始视频的视频帧序列切分(平均切分、非平均切分、交叉切分等，对切分方式不进行限定)所得的图像组都采用上述方式得到相应的目标融合图像之后，即可将所有的目标融合图像按序排列形成所需的目标视频。且由于是将初始视频的多帧图像融合处理为目标视频中的一帧图像，降低了帧率，因此可给用户带来卡顿感。综上，用户无需受限于拍摄工具、拍摄技能以及拍摄场景，仅通过本公开实施例提供的上述视频处理方法，采用软件算法即可方便快捷地将用户正常拍摄的视频转换为具有主体对象清晰、背景虚晃且带有卡顿感的目标视频。上述目标视频风格独特，可以为用户呈现出带有运动感及卡顿感的视频画面，但该视频画面中的主体对象仍旧清晰，因此可以较好突显出主体对象。以主体对象是人物为例，上述视频效果可以在一定程度上体现出主体人物的内心意识，具有较强的感染力。另外，在处理过程中采用诸如稀疏光流算法等方式进行运动模糊，可有效降低运算力，提升整体算法性能，保证了移动终端落地的可行性。因此既可以在服务端实现，又可以在移动终端实现，适用范围更广。

对应于前述视频处理方法，本公开实施例提供了一种视频处理装置，图3为本公开实施例提供的一种视频处理装置的结构示意图。该装置可由软件和/或硬件实现，一般可集成在电子设备中，如图4所示。

视频处理装置包括：图像组获取模块302，用于基于初始视频的视频帧序列获得多个图像组；

模糊处理模块304，用于基于目标图像组中的各帧图像进行运动模糊处理，并将所述各帧图像经过运动模糊处理所得的图像进行融合，得到所述目标图像组对应的运动模糊图像；所述多个图像组中的每个图像组均为所述目标图像组；

区域确定模块306，用于基于所述目标图像组中的指定帧图像确定所述目标图像组对应的主体对象区域和背景区域；

融合模块308，用于根据所述主体对象区域和所述背景区域，对所述运动模糊图像和所述指定帧图像进行融合，得到目标融合图像；所述目标融合图像在所述主体对象区域的图像部分为所述指定帧图像在所述主体对象区域的图像部分，所述目标融合图像在所述背景区域的图像部分为所述运动模糊图像在所述背景区域的图像部分；

视频生成模块310，用于基于所述多个图像组各自对应的目标融合图像生成目标视频；所述多个图像组各自对应的目标融合图像在所述目标视频中的播放顺序与所述多个图像组在所述初始视频中的播放顺序相同。

通过上述装置，采用软件算法即可将正常拍摄所得的视频处理为具有主体人像清晰、背景虚晃且带有卡顿感的的效果的视频，可以使用户不受限于拍摄工具、拍摄技能以及拍摄场景，即可方便快捷地得到上述视频拍摄效果。

在一些实施方式中，模糊处理模块304用于：采用光流插值算法对所述目标图像组中的相邻帧图像之间均插入指定数量个中间帧图像，将插帧后的所述目标图像组中的所有帧图像作为所述目标图像组中的各帧图像经过运动模糊处理所得的图像；将所述各帧图像经过运动模糊处理所得的图像进行平均融合。

在一些实施方式中，模糊处理模块304用于：获取所述目标图像组中的相邻帧图像之间像素块的双向运动向量；根据所述像素块的双向运动向量以及块运动补偿算法对所述相邻帧图像之间插入指定数量个中间帧图像。

在一些实施方式中，模糊处理模块304用于：基于改进后的DIS光流算法获取所述目标图像组中的相邻帧图像之间像素块的双向运动向量；所述改进后的DIS光流算法所采用的图像金字塔的底层图像分辨率小于原有DIS光流算法所采用的图像金字塔的底层图像分辨率，和/或，所述改进后的DIS光流算法所采用的迭代次数小于原有DIS光流算法所采用的迭代次数。

在一些实施方式中，区域确定模块306用于：将位于所述目标图像组中间位置的图像作为指定帧图像，采用对象实例分割算法对所述指定帧图像进行处理，基于处理结果得到所述目标图像组对应的主体对象区域和背景区域。

在一些实施方式中，融合模块308用于：根据所述主体对象区域和所述背景区域，得到主体对象掩膜图像；获取所述主体对象掩膜图像对应的权重系数；基于所述权重系数调整所述主体对象掩膜图像的像素值，得到调整后的所述主体对象掩膜图像；基于调整后的所述主体对象掩膜图像，对所述运动模糊图像和所述指定帧图像进行图像融合。

在一些实施方式中，融合模块308用于：基于光流法获取所述目标图像组中各帧图像对应的全局运动幅度；根据所述全局运动幅度确定所述主体对象掩膜图像对应的权重系数。

在一些实施方式中，融合模块308用于：基于调整后的所述主体对象掩膜图像，对所述运动模糊图像和所述指定帧图像进行图像融合的步骤，包括：

采用如下公式对所述运动模糊图像和所述指定帧图像进行图像融合：
Merge_N’＝β*mask_main*Pn+(1-β*mask_main)*Merge_N

β为所述权重系数；mask_main为所述主体对象掩膜图像；β*mask_main为调整后的所述主体对象掩膜图像；Pn为所述指定帧图像；Merge_N为所述运动模糊图像；Merge_N’为所述目标融合图像。

在一些实施方式中，图像组获取模块302用于：将初始视频的视频帧序列按照指定间隔进行切分，得到多个图像组；相邻的两个图像组之间具有预设数量个重叠帧图像。

本公开实施例所提供的视频处理装置可执行本公开任意实施例所提供的视频处理方法，具备执行方法相应的功能模块和有益效果。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置实施例的工作过程，可以参考方法实施例中的对应过程，在此不再赘述。

本公开实施例还提供了一种电子设备，电子设备包括：处理器；用于存储处理器可执行指令的存储器；处理器，用于从存储器中读取可执行指令，并执行指令以实现上述视频处理方法。图4为本公开实施例提供的一种电子设备的结构示意图。如图4所示，电子设备400包括一个或多个处理器401和存储器402。

处理器401可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备400中的其他组件以执行期望的功能。

存储器402可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器401可以运行所述程序指令，以实现上文所述的本公开的实施例的视频处理方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一些示例中，电子设备400还可以包括：输入装置403和输出装置404，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

此外，该输入装置403还可以包括例如键盘、鼠标等等。

该输出装置404可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置404可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图4中仅示出了该电子设备400中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备400还可以包括任何其他适当的组件。

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本公开实施例所提供的视频处理方法。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本公开实施例所提供的视频处理方法。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本公开实施例还提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本公开实施例中的视频处理方法。

本公开实施例还提供了一种计算机程序，包括指令，指令当由处理器执行时使处理器执行本公开实施例提供的视频处理方法。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

一种视频处理方法，包括：

基于初始视频的视频帧序列，获得多个图像组；

基于目标图像组中的各帧图像，进行运动模糊处理，并将所述各帧图像经过运动模糊处理所得的图像进行融合，得到所述目标图像组对应的运动模糊图像，所述多个图像组中的每个图像组均为所述目标图像组；

基于所述目标图像组中的指定帧图像，确定所述目标图像组对应的主体对象区域和背景区域；

根据所述主体对象区域和所述背景区域，对所述运动模糊图像和所述指定帧图像进行融合，得到目标融合图像，所述目标融合图像在所述主体对象区域的图像部分为所述指定帧图像在所述主体对象区域的图像部分，所述目标融合图像在所述背景区域的图像部分为所述运动模糊图像在所述背景区域的图像部分；

基于所述多个图像组各自对应的目标融合图像，生成目标视频，所述多个图像组各自对应的目标融合图像在所述目标视频中的播放顺序与所述多个图像组在所述初始视频中的播放顺序相同。
根据权利要求1所述的视频处理方法，其中，所述基于目标图像组中的各帧图像进行运动模糊处理，并将所述各帧图像经过运动模糊处理所得的图像进行融合的步骤，包括：

采用光流插值算法，对所述目标图像组中的相邻帧图像之间均插入指定数量个中间帧图像，将插帧后的所述目标图像组中的所有帧图像作为所述目标图像组中的各帧图像经过运动模糊处理所得的图像；

将所述各帧图像经过运动模糊处理所得的图像进行平均融合。
根据权利要求2所述的视频处理方法，其中，所述采用光流插值算法，对所述目标图像组中的相邻帧图像之间插入指定数量个中间帧图像的步骤，包括：

获取所述目标图像组中的相邻帧图像之间像素块的双向运动向量；

根据所述像素块的双向运动向量以及块运动补偿算法，对所述相邻帧图像之间插入指定数量个中间帧图像。
根据权利要求3所述的视频处理方法，其中，所述获取所述目标图像组中的相邻帧图像之间像素块的双向运动向量的步骤，包括：

基于改进后的基于稠密逆搜索DIS光流算法获取所述目标图像组中的相邻帧图像之间像素块的双向运动向量；

改进后的DIS光流算法所采用的图像金字塔的底层图像分辨率小于原有DIS光流算法所采用的图像金字塔的底层图像分辨率，和/或，所述改进后的DIS光流算法所采用的迭代次数小于原有DIS光流算法所采用的迭代次数。
根据权利要求1-4任一项所述的视频处理方法，其中，所述基于所述目标图像组中的指定帧图像，确定主体对象区域和背景区域的步骤，包括：

将位于所述目标图像组中间位置的图像作为指定帧图像；

采用对象实例分割算法，对所述指定帧图像进行处理；

基于处理结果，得到所述目标图像组对应的主体对象区域和背景区域。
根据权利要求1-4任一项所述的视频处理方法，其中，所述根据所述主体对象区域和所述背景区域，对所述运动模糊图像和所述指定帧图像进行图像融合的步骤，包括：

根据所述主体对象区域和所述背景区域，得到主体对象掩膜图像；

获取所述主体对像掩膜图像对应的权重系数；

基于所述权重系数，调整所述主体对象掩膜图像的像素值，得到调整后的所述主体对象掩膜图像；

基于调整后的所述主体对象掩膜图像，对所述运动模糊图像和所述指定帧图像进行图像融合。
根据权利要求6所述的视频处理方法，其中，所述获取所述主体对象掩膜图像对应的权重系数的步骤，包括：

基于光流法，获取所述目标图像组中各帧图像对应的全局运动幅度；

根据所述全局运动幅度，确定所述主体对象掩膜图像对应的权重系数。
根据权利要求7所述的视频处理方法，其中，所述全局运动幅度与所述权重系数负相关。
根据权利要求6所述的视频处理方法，其中，所述基于调整后的所述主体对象掩膜图像，对所述运动模糊图像和所述指定帧图像进行图像融合的步骤，包括：

采用如下公式对所述运动模糊图像和所述指定帧图像进行图像融合：
Merge_N’＝β*mask_main*Pn+(1-β*mask_main)*Merge_N，

其中，β为所述权重系数，mask_main为所述主体对象掩膜图像，β*mask_main 为调整后的所述主体对像掩膜图像，Pn为所述指定帧图像，Merge_N为所述运动模糊图像，Merge_N’为所述目标融合图像。
根据权利要求1-9任一项所述的方视频处理法，其中，所述基于初始视频的视频帧序列，获得多个图像组的步骤，包括：

将所述初始视频的视频帧序列按照指定间隔进行切分，得到所述多个图像组，相邻的两个图像组之间具有预设数量个重叠帧图像。
一种视频处理装置，包括：

图像组获取模块，用于基于初始视频的视频帧序列获得多个图像组；

模糊处理模块，用于基于目标图像组中的各帧图像进行运动模糊处理，并将所述各帧图像经过运动模糊处理所得的图像进行融合，得到所述目标图像组对应的运动模糊图像，所述多个图像组中的每个图像组均为所述目标图像组；

区域确定模块，用于基于所述目标图像组中的指定帧图像确定所述目标图像组对应的主体对象区域和背景区域；

融合模块，用于根据所述主体对象区域和所述背景区域，对所述运动模糊图像和所述指定帧图像进行融合，得到目标融合图像；所述目标融合图像在所述主体对象区域的图像部分为所述指定帧图像在所述主体对象区域的图像部分，所述目标融合图像在所述背景区域的图像部分为所述运动模糊图像在所述背景区域的图像部分；

视频生成模块，用于基于所述多个图像组各自对应的目标融合图像生成目标视频，所述多个图像组各自对应的目标融合图像在所述目标视频中的播放顺序与所述多个图像组在所述初始视频中的播放顺序相同。
一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-10中任一所述的视频处理方法。
一种计算机可读存储介质，存储有计算机程序，所述计算机程序在被处理器运行时使得所述处理器执行上述权利要求1-10中任一所述的视频处理方法。
一种计算机程序，包括：

指令，所述指令当由处理器执行时使所述处理器执行根据权利要求1-10中任一所述的视频处理方法。