WO2021233032A1

WO2021233032A1 - 视频处理方法、视频处理装置和电子设备

Info

Publication number: WO2021233032A1
Application number: PCT/CN2021/087795
Authority: WO
Inventors: 张弓
Original assignee: Oppo广东移动通信有限公司
Priority date: 2020-05-19
Filing date: 2021-04-16
Publication date: 2021-11-25
Also published as: CN111641835B; CN111641835A

Abstract

本申请提供了一种视频处理方法、视频处理装置和电子设备，涉及图像处理技术领域。该方法包括：获取原始视频和采集原始视频时采集设备对应的运动数据，对原始视频进行插帧处理，以获得原始视频对应的插帧视频；根据运动数据对插帧视频中的视频帧进行防抖修复，以获得插帧视频对应的防抖视频帧；根据防抖视频帧生成原始视频对应的防抖视频。本申请通过包含更多视频帧的插帧视频来展现原始视频中的运动状态，通过对原始视频进行插帧处理提高了视频在视觉上的运动连贯性，且在一定程度上修复了插帧视频中视频帧的抖动。

Description

视频处理方法、视频处理装置和电子设备

交叉引用

本公开要求于2020年5月19日提交的申请号为202010425185.6名称为“视频处理方法、视频处理装置和电子设备”的中国专利申请的优先权，该中国专利申请的全部内容通过引用全部并入本文。

技术领域

本公开涉及图像处理技术领域，具体涉及一种视频处理方法、视频处理装置和电子设备。

背景技术

伴随着人们生活水平的不断提高，各种电子摄像设备被广泛的应用于生活的各个方面。移动摄像设备因其体型较小且方便携带被应用在越来越多的领域，然而这些移动摄像设备在进行拍摄时，由于其移动方便，因此很容易受周围环境的影响。例如，在手持拍摄时，容易因为手部移动的不稳定造成视频抖动；再如，汽车行驶过程中的震动很容易造成车载摄像头拍摄的视频出现抖动的问题。

公开内容

本公开的目的在于提供一种视频处理方法、视频处理装置和电子设备，进而至少在一定程度上提高防抖视频的视觉连贯性。

根据本公开的第一方面，提供一种视频处理方法，包括：获取原始视频和采集原始视频时采集设备对应的运动数据，并对原始视频进行插帧处理，以获得原始视频对应的插帧视频；根据运动数据对插帧视频中的视频帧进行防抖修复，以获得插帧视频对应的防抖视频帧；根据防抖视频帧生成原始视频对应的防抖视频。

根据本公开的第二方面，提供一种视频处理装置，包括：视频插帧模块，用于获取原始视频和采集原始视频时采集设备对应的运动数据，并对原始视频进行插帧处理，以获得原始视频对应的插帧视频；防抖处理模块，用于根据运动数据对插帧视频中的视频帧进行防抖修复，以获得插帧视频对应的防抖视频帧；视频生成模块，用于根据防抖视频帧生成原始视频对应的防抖视频。

根据本公开的第三方面，提供一种电子设备，包括：处理器；以及存储器，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现上述的视频处理方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本公开实施例的一种示例性系统架构的示意图；

图2示出了可以应用本公开实施例的一种电子设备的示意图；

图3示意性示出本公开示例性实施例中一种视频处理方法的流程图；

图4示意性示出本公开示例性实施例中一种对原始视频进行插帧处理的方法的流程图；

图5示意性示出本公开示例性实施例中插帧处理的示意图；

图6示意性示出本公开示例性实施例中一种基于运动估计确定运动矢量的示意图；

图7示意性示出本公开示例性实施例中一种修正后的运动矢量的示意图；

图8示意性示出本公开示例性实施例中一种基于运动补偿进行插帧的示意图；

图9示意性示出本公开示例性实施例中另一种视频处理方法的流程图；

图10示意性示出本公开示例性实施例中视频处理装置的组成示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图1示出了可以应用本公开实施例的一种视频处理方法及装置的示例性应用环境的系统架构的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一个或多个，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是各种具有图像处理功能的电子设备，包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

本公开实施例所提供的视频处理方法一般由终端设备101、102、103执行，相应地，视频处理装置一般也设置于终端设备101、102、103中。但本领域技术人员容易理解的是，本公开实施例所提供的视频处理方法也可以由服务器105执行，相应的，视频处理装置也可以设置于服务器105中，本示例性实施例中对此不做特殊限定。举例而言，在一种示例性实施例中，终端设备101、102、103等一方面作为采集设备采集原始视频和对应的运动数据，同时作为视频处理方法的执行主体，基于采集到的原始视频和运动数据进行视频处理，得到防抖视频；在另一种示例性实施例中，可以以终端设备101、102、103等为采集设备，将采集到的原始视频和运动数据发送至其他终端设备101、102、103等或者服务器105中进行视频处理，得到防抖视频。

本公开的示例性实施方式提供一种用于实现视频处理方法的电子设备，其可以是图1中的终端设备101、102、103或服务器105。该电子设备至少包括处理器和存储器，存储器用于存储处理器的可执行指令，处理器配置为经由执行可执行指令来执行视频处理方法。

图2示出了适于用来实现本公开示例性实施方式的电子设备的示意图。

需要说明的是，图2示出的电子设备的电子设备200仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图2所示，电子设备200具体可以包括：处理器210、内部存储器221、外部存储器接口222、通用串行总线(Universal Serial Bus，USB)接口230、充电管理模块240、电源管理模块241、电池242、天线1、天线2、移动通信模块250、无线通信模块260、音频模块270、扬声器271、受话器272、麦克风273、耳机接口274、传感器模块280、显示屏290、摄像模组291、指示器292、马达293、按键294以及用户标识模块(subscriber identification module，SIM)卡接口295等。其中传感器模块280可以包括深度传感器2801、压力传感器2802、陀螺仪传感器2803、气压传感器2804、磁传感器2805、加速度传感器2806等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备200的具体限定。在本申请另一些实施例中，电子设备200可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或软件和硬件的组合实现。

处理器210可以包括一个或多个处理单元，例如：处理器210可以包括应用处理器(Application Processor，AP)、调制解调处理器、图形处理器(Graphics Processing Unit，GPU)、图像信号处理器(Image Signal Processor，ISP)、控制器、视频编解码器、数字信号处理器(Digital Signal Processor，DSP)、基带处理器和/或神经网络处理器(Neural-Network Processing Unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

处理器210中还可以设置存储器，用于存储指令和数据。存储器可以存储用于实现六个模块化功能的指令：检测指令、连接指令、信息管理指令、分析指令、数据传输指令和通知指令，并由处理器210来控制执行。在一些实施例中，处理器210中的存储器为高速缓冲存储器。该存储器可以保存处理器210刚用过或循环使用的指令或数据。如果处理器210需要再次使用该指令或数据，可从存储器中直接调用。避免了重复存取，减少了处理器210的等待时间，因而提高了系统的效率。

电子设备200的无线通信功能可以通过天线1、天线2、移动通信模块250、无线通信模块260、调制解调处理器以及基带处理器等实现。

摄像模组291用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(Charge Coupled Device，CCD)或互补金属氧化物半导体(Complementary Metal-Oxide-Semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备200可以包括1个或N个摄像模组291，N为大于1的正整数，若电子设备200包括N个摄像头，N个摄像头中有一个是主摄像头。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备200在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备200可以支持一种或多种视频编解码器。这样，电子设备200可以播放或录制多种编码格式的视频，例如：动态图像专家组(Moving Picture Experts Group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(Neural-Network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备200的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口222可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备200的存储能力。内部存储器221可以用于存储计算机可执行程序代码，可执行程序代码包括指令。内部存储器221可以包括存储程序区和存储数据区。

深度传感器2801用于获取景物的深度信息。在一些实施例中，深度传感器可以设置于摄像模组291。压力传感器2802用于感受压力信号，可以将压力信号转换成电信号。

陀螺仪传感器2803可以用于确定电子设备200的运动姿态。在一些实施例中，陀螺仪传感器可以用于收集采集设备在采集原始视频时对应的运动数据，即可以通过陀螺仪传感器2803确定电子设备200围绕三个轴(即，x，y和z轴)的角速度，并且以该角速度作为当前视频帧对应的运动数据。示例性的，在拍摄视频时，可以以摄像头对应的图像映射矩阵为第一帧视频对应的原始坐标映射矩阵，然后根据陀螺仪在每一帧视频时的运动数据与第一帧视频的运动数据的变化计算出原始坐标矩阵的偏移，进而得到第一帧以后每一帧视频的原始坐标矩阵，在一定程度上实现防抖。

气压传感器2804用于测量气压，电子设备200可以通过气压传感器2804测得的气压值计算海拔高度，辅助定位和导航。磁传感器2805包括霍尔传感器，电子设备200可以利用磁传感器2805检测翻盖皮套的开合。

加速度传感器2806可检测电子设备200在各个方向上(一般为三轴)加速度的大小，当电子设备200静止时可检测出重力的大小及方向，还可以用于识别电子设备姿态，因此在一些实施例中，也可以用于收集采集设备在采集原始视频时对应的运动数据。

按键294包括开机键，音量键等。马达293可以产生振动提示。马达293可以用于来电振动提示，也可以用于触摸振动反馈。指示器292可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。SIM卡接口295用于连接SIM卡。

下面对本公开示例性实施方式的视频处理方法和视频处理装置进行具体说明。

图3示出了本示例性实施方式中一种视频处理方法的流程，包括以下步骤S310至S330：

在步骤S310中，获取原始视频和采集原始视频时采集设备对应的运动数据，并对原始视频进行插帧处理，以获得原始视频对应的插帧视频。

其中，运动数据可以是采集设备在拍摄原始视频时，采集设备上设置的陀螺仪、加速度传感器等装置获取到的反映采集设备在当前状态下的位姿、加速度等运动状态的运动数据。例如，在通过手机进行视频拍摄时，运动数据可以是手机中陀螺仪收集到的手机位姿或者手机放置的角度等数据。

其中，插帧处理是指通过一定规则在原始视频中的两个原始视频帧之间插入一系列中间帧的过程。在获取到原始视频后，可以在原始视频中确定两帧作为原始视频帧，并在这两帧原始视频帧之间插入一定数量的中间帧。此外，可以在视频中同时抽取多个原始视频帧对，并针对每对进行插帧处理。在插帧处理结束后，将原始视频帧和插帧得到的插值视频帧按照时间先后顺序排序，作为原始视频对应的插帧视频。

在一示例性实施例中，对原始视频进行插帧处理，可以包括：在原始视频中抽取至少一对原始视频帧对，根据预设插帧规则确定对原始视频帧对进行插帧的插帧时间相位，并根据插帧时间相位对各原始视频帧对进行插帧处理。

其中，在原始视频中抽取原始视频帧对时，可以根据任意规则进行抽取，抽取得到的原始视频帧对可以是原始视频中相邻的两帧原始视频帧，也可以是原始视频中没有邻近关系的任意两帧原始视频帧。在进行插帧时，采用的预设插帧规则可以是任意插帧规则，即插帧的时间相位和插帧的数量等插帧的参数均可以自定义，本公开对此不做特殊限定。

其中，时间相位指将两个原始视频帧之间的时间间隔等间距划分为N份，每一份为一个时间相位。举例而言，若将两个原始视频帧之间的时间间隔即为1，则0.5时间相位的插值视频帧与两个原始视频帧之间的时间差相等；0.3时间相位的插值视频帧与两个原始视频帧之间的时间差之比为3：7。

通过对原始视频中的至少一对原始视频帧对进行插帧，可以提高视频的帧率，进而更细致的表现视频中各人物、物体等对象的运动状态。

进一步的，在另一示例性实施例中，由于在拍摄时有可能出现特殊情况造成视频抖动较大，例如手持拍摄时发生碰撞等原因，此时可能需要对抖动较大的视频进行特定处理。因此，预设插帧规则可以至少包括等时间相位规则，此时，参照图4所示，在原始视频中抽取至少一对原始视频帧对，根据预设插帧规则确定对原始视频帧对进行插帧的插帧时间相位，并根据插帧时间相位对各原始视频帧对进行插帧处理，可以包括以下步骤S410至S440：

在步骤S410中，在原始视频中任意抽取至少一对原始视频帧对，原始视频帧对包括第一原始视频帧和第二原始视频帧。

其中，原始视频帧对中可以包括两帧视频，根据时间顺序将时间靠前的一帧作为第一原始视频帧，将时间靠后的一帧作为第二原始视频帧。在原始视频中抽取原始视频帧对时，同样可以根据任意预设规则进行抽取，抽取得到的原始视频帧对可以是原始视频中，相邻的两帧原始视频帧，也可以是原始视频中没有邻近关系的任意两帧原始视频帧。

在步骤S420中，基于运动数据确定原始视频帧对对应视频片段的抖动程度值。

其中，原始视频帧对包括第一原始视频帧和第二原始视频帧，对应的视频片段即为原始视频中，以第一原始视频帧为起点，以第二原始视频帧为终点截取的视频片段。在拍摄视频出现较大抖动时，可以根据运动数据的浮动程度确定抖动程度，进而得到视频对应的抖动程度值。

在步骤S430中，在抖动程度值小于预设抖动阈值时，根据预设插帧规则中的任意一个插帧规则确定对原始视频帧对进行插帧的插帧时间相位，并根据插帧时间相位对原始视频帧对进行插帧，以获取对应的插值视频帧。

在一示例性实施例中，在抖动程度值小于预设抖动阈值时，可以判断当前视频片段的抖动程度不大，因此在原始视频帧对之间的中间帧可靠程度较高，因此可以直接基于任意插帧规则确定对原始视频帧对进行插帧时的插帧时间相位，进而根据插帧时间相位对原始视频帧对进行插帧，得到对应的插值帧视频。

在步骤S440中，在抖动程度值大于或等于预设抖动阈值时，根据等时间相位规则确定对原始视频帧对进行插帧的插帧时间相位，并根据插帧时间相位对原始视频帧对进行插帧，以获取对应的插值视频帧。

在一示例性实施例中，在抖动程度值大于或等于预设抖动阈值时，可以判断当前视频片段的抖动程度较大，因此很可能在原始视频帧对之间的中间帧由于抖动较大已经变得失真、不可靠，此时可以根据等时间相位规则对原始视频帧对之间的间隔进行等分，并根据等分结果确定插帧时间相位，进而根据插帧时间相位进行插帧，以获取对应的插值视频帧。

通过对抖动程度不同的视频片段以不同的手段进行处理，可以针对抖动程度较大的视频片段进行有针对性的修复，避免拍摄抖动造成视频中各人物、物体等对象的运动状态不连贯的问题。

具体的，在视频片段的抖动程度值较大时，原始视频帧对之间的中间帧很可能失真、不可靠，此时需要根据原始视频帧对修复对应的中间帧。为了能够更好的修复，可以获取原始视频帧对之间存在的中间帧，并根据中间帧的数量对原始视频帧对进行等时间相位的插帧，以生成与中间帧的数量相等的插值视频帧。同时，由于原始的中间帧明显存在失真、不可靠的问题，因此可以通过插值视频帧替换原始的中间帧，并将原始的中间帧删除。通过等时间相位规则插帧，可以通过相同数量的插值视频帧替换失真的中间帧，避免由于失真的中间帧造成视频运动连贯性被打破的问题。

此外，在根据中间帧的数量确定各插值视频帧的插帧时间相位时，需要确定与中间帧的数量相同的插帧时间相位，因此可以通过与中间帧的数量相同的等分点，并将得到的等分点确定为各插值视频帧的插帧时间相位。需要说明的是，在中间帧的数量为N时，等分点可以将原始视频帧对之间的时间间隔等间距划分为N+1份。

例如，假设有3帧视频，第一帧中小球处于地面上，第三帧中小球处于距离地面1米处，而第二帧由于拍摄的抖动较大，导致小球不在画面中，此时可以根据第一帧和第三帧进行等时间相位的插帧，即将第一帧和第三帧之间的时间间隔划分为两等份，等分点即为第二插值帧对应的插值时间相位，根据该插帧时间相位对第一帧和第三帧进行插帧得到第二插值帧，并通过第二插值帧替换上述第二帧。其中，第二插值视频帧中小球可以处于距离地面0.5米处的状态。

在一示例性实施例中，在进行插帧处理后，插帧视频中有可能出现同一时间相位上具有多个插值视频帧的情况，此时可以先对相同相位的多个插值视频帧进行融合，并将融合后的融合帧作为该时间相位上的插值视频帧。具体的，可以采用预设权重融合、自适应权重融合，以及其他融合方式，本公开对此不做特殊限定；此外，在融合时，可以进行像素级融合，也可以进行块级融合，或者帧级融合，本公开对此也不做特殊限定。

以下针对上述根据插帧时间相位对原始视频进行插帧处理的过程提供以下具体实施例：

参照图5所示，原始视频包括4帧，分别为原始视频帧1至原始视频帧4。

实施例1：

设置插帧数量为5，并以原始视频帧1和原始视频帧4为原始视频帧对进行等时间相位的插帧，则可以得到如图5所示的插值视频帧5-1至5-5。其中，插值视频帧5-2和5-4分别与原始视频帧2和原始视频帧3的时间相位相同，插值视频帧5-1位于原始视频帧1和原始视频帧2之间的中间时间相位，插值视频帧5-3位于原始视频帧2和原始视频帧3之间的中间时间相位，插值视频帧5-4位于原始视频帧3和原始视频帧4之间的中间时间相位。

实施例2：

设置插帧数量为1，并以原始视频帧1和原始视频帧2为原始视频帧对进行等时间相位的插帧，则可以得到如图5所示的插值视频帧1-1，位于原始视频帧1和原始视频帧2之间的中间时间相位。

实施例3：

设置插帧数量为3，并以原始视频帧3和原始视频帧4为原始视频帧对进行等时间相位的插帧，则可以得到如图5所示的插值视频帧3-1至3-3，均位于原始视频帧3和原始视频帧4之间，其插值视频帧3-1至3-3对应的时间相位等分原始视频帧3和原始视频帧4之间的时间。

在一示例性实施例中，上述的插帧处理可以采用运动估计运动补偿法、光流法、神经网络插帧或者其他任意插帧技术。

举例而言，上述的运动估计运动补偿方法可以包括以下步骤：

第一步，采用运动估计的方式确定原始视频帧对对应的运动矢量。

将原始视频帧对中的两帧原始视频帧分别记为当前图像和参考图像，按照预设大小对两幅图像进行分块，并对分块后的图像进行遍历，搜索当前图像中每个块在参考图像中的匹配块，确定当前图像每个块相对于参考图像的运动矢量(前向MV)，同理，采用上述方法确定参考图像每个块相对于当前图像的运动矢量(后向MV)，如图6所示。

随后，对前后向MV进行修正操作，其中，修正操作包括滤波，加权等多种操作中至少一种或多种的组合，最终确定每个块的前向或后向MV，如图7所示。

第二步，通过插帧时间相位对运动矢量进行校正，以获取原始视频帧对对应的映射矢量。

在根据预设插帧规则确定了插帧时间相位后，可以通过插帧时间相位对最终确定的每个块的前向或后向MV进行校正，然后在插帧图像中生成每个插值块相对于当前图像和参考图像的映射MV，如图8所示。

第三步，基于映射矢量对原始视频帧对进行融合插帧，以生成对应的插值视频帧。

按照该映射MV在参考图像和当前图像中找到对应块，进行两个块的权重插值，生成该插值块的所有像素，最终得到插帧图像，如图8所示。

在步骤S320中，根据运动数据对插帧视频中的视频帧进行防抖修复，以获得插帧视频对应的防抖视频帧。

在一示例性实施例中，由于插值视频帧中第一帧视频帧画面中的人物、物体等对象均处于初始状态，因此可以将运动数据对应的图像映射矩阵作为插帧视频中第一帧视频帧对应的原始坐标映射矩阵。其中，图像映射矩阵为采集设备生成的平面图像坐标和世界坐标的映射矩阵，该映射矩阵通常可以是3*3的矩阵。

在得到第一帧视频帧对应的原始坐标映射矩阵后，可以基于其他视频帧对应的运动数据计算其他视频帧相对于第一视频帧的偏移量，根据计算得到的偏移量对第一帧视频帧对应的原始坐标映射矩阵进行偏移，得到插帧视频中其它视频帧对应的原始坐标映射矩阵。

随后，通过时域滤波的方法对插值视频帧中的视频帧对应的原始坐标映射矩阵进行滤波处理，得到视频帧对应的修正图像映射矩阵，进而根据得到的修正图像映射矩阵对视频帧进行投影变换的修复操作后，获得插帧视频对应的防抖视频帧。其中，在对视频帧对应的原始坐标映射矩阵进行滤波处理时，滤波系数可以根据不同视频采集环境进行不同的设置。

之后，在根据修正图像映射矩阵对视频帧进行投影变换的修复操作时，可以针对插帧视频中的每一视频帧均进行修复，并将修复后的所有的待修复视频作为该插帧视频对应的防抖视频帧。

进一步的，也可以先根据预设选择规则在插帧视频中选择一部分作为待修复视频帧，然后根据修正图像映射矩阵对对应的待修复视频帧进行修复，并将所有修复后的待修复视频作为该插帧视频对应的防抖视频帧。通过对插帧视频进行选择性修复，可以在插帧视频的帧率较高时避免对所有插帧视频进行修复时，修复的视频帧过多导致修复耗时较长的问题。

需要说明的是，在对原始视频进行插帧时，针对抖动程度值较大的视频片段，可能是根据上述步骤S440中的等时间相位规则进行插帧得到的插值视频帧。在这一基础上，由于中间帧的失真、不可靠，通过等时间相位规则得到的插值视频帧已经可以使视频片段中的运动状态连贯，因此可以不做时域滤波的处理，而是直接以该插值视频帧作为防抖视频帧。

在步骤S330中，根据防抖视频帧生成原始视频对应的防抖视频。

在一示例性实施例中，可以直接将进行防抖修复后得到的防抖视频帧按顺序排列，生成原始视频对应的防抖视频。由于防抖视频帧是通过插帧处理和防抖处理后得到的，因此能够在保证视频抖动程度较低的同时，提高了视频在视觉上的运动连贯性。

在一示例性实施例中，根据防抖视频帧生成原始视频对应的防抖视频可以包括：根据预设抽帧规则在防抖视频帧中抽取目标防抖帧，并将目标防抖帧输出，生成原始视频对应的防抖视频。

在一示例性实施例中，预设抽帧规则可以是自定义设置的固定帧数。例如，可以定义每隔一帧抽取一帧，则在防抖视频中抽取的目标防抖帧分别为第1、3、5、7…帧。

在一示例性实施例中，预设抽帧规则还可以包括自适应抽帧规则。其中，自适应抽帧规则可以包括以下规则中至少一种：根据防抖视频帧中第一目标对象的运动状态进行抽帧、根据防抖视频帧中第二目标对象的稳定性进行抽帧，以及根据防抖视频帧的图像质量进行抽帧。

在一示例性实施例中，由于在对原始视频进行插帧时，插帧得到的插值视频帧可能存在质量参差不齐的情况，即使进行了防抖修复之后，图像质量仍然不同。因此在相同时间相位存在多个插帧形成的防抖视频帧时，可以根据多个防抖视频帧对应的置信度确定多个防抖视频帧的质量参数，进而根据质量参数在多个防抖视频帧中确定一个质量最好的作为该时间相位的目标防抖帧。其中，防抖视频帧对应的置信度可以是在进行插帧时基于运动估计方式寻找运动矢量时使用的置信度参数，用于表示插帧得到的插值视频帧的置信程度。为了保证得到的防抖视频质量更好，可以依据防抖视频帧的质量参数在防抖视频帧中抽取质量较高的作为目标防抖帧，并将目标防抖帧输出生成防抖视频。

在一示例性实施例中，由于第一目标对象在较短时间内运动状态的变化通常为线性，因此可以根据防抖视频帧中第一目标对象的运动状态进行抽帧。举例而言，可以先获取防抖视频帧中第一目标对象的初始运动状态和最终运动状态，然后根据初始运动状态和最终运动状态分别确定第一目标对象在各个时间点的中间运动状态，随后在根据中间运动状态在防抖视频帧中抽取目标防抖帧。其中，在抽取得到的目标防抖帧中，第一目标对象对应的运动状态与对应时间点的中间运动状态相同；第一目标对象则可以是原始视频中处于运动状态的任意人物、动物或者物体。

在一示例性实施例中，还可以根据防抖视频帧中第二目标对象的稳定性进行抽帧。其中，第二目标对象可以是视频的背景等通常处于静态的物体。具体的，可以根据防抖视频中的第二目标对象，与前一防抖视频帧中的第二目标对象的重合率确定防抖视频帧的稳定参数，该稳定参数可以用于表示第二目标对象在各防抖视频帧中的稳定程度。然后，根据稳定参数在防抖视频帧中抽取稳定性较好的防抖视频帧作为目标防抖帧。其中，前一防抖视频帧是指该防抖视频帧在防抖视频中，时间顺序上的前一帧防抖视频帧。

此外，在根据稳定参数在防抖视频帧中抽取目标防抖帧时，可以通过判断该防抖视频帧的稳定参数是否在预设的稳定参数阈值中确定该防抖视频帧是否可以作为目标防抖帧。除此之外，还可以根据对稳定参数的其他筛选方式确定防抖视频帧是否抽取，本公开对此不做特殊限定。例如，可以通过该防抖视频帧与前一防抖视频帧的稳定参数的波动幅度进行判断等方式。

在进行抽帧时，通过视频背景在各帧防抖视频帧中的稳定参数，抽取稳定性较高的作为目标防抖帧，这样得到的防抖视频帧中，背景始终处于稳定状态，即实现了防抖的目的。

需要说明的是，在对防抖视频帧进行抽帧时，还可以同时通过以上三种方式中两者的组合或者三者的组合进行抽帧，进而实现更好的防抖效果。

以下以陀螺仪为采集设备为例，参照图9所示，对本公开实施例的技术方案进行阐述：

参照图9所示，首先执行步骤S910，根据预设插帧规则对原始视频进行插帧处理得到插帧视频，随后获取通过步骤S920获取原始视频对应的陀螺仪数据，即运动数据，之后执行步骤S930，通过插帧视频中的第一帧和对应的陀螺仪数据确定该第一帧的原始坐标映射矩阵，并根据第一帧的原始坐标映射矩阵和陀螺仪数据确定后续每一帧的原始坐标映射矩阵；随后通过步骤S940对插帧视频中每一帧对应的原始坐标映射矩阵进行时域滤波，确定每一帧对应的修正坐标映射矩阵，之后执行步骤S950，根据修正坐标映射矩阵对插帧视频中的每一帧进行防抖修复，得到防抖视频帧；之后通过步骤S960在防抖视频帧中抽取目标防抖帧，并将目标防抖帧输出，生成原始视频对应的防抖视频。

其中，本公开对上述步骤S910和步骤S920的执行顺序不做限定，即可以先执行步骤S910后执行步骤S920，也可以先执行步骤S920再执行步骤S910，还可以同时执行步骤S910和步骤S920。

综上，本示例性实施方式中，通过对原始视频进行任意插帧或者等时间相位插帧后，对插帧视频进行防抖修复，可以实现对插帧视频的防抖；然后通过在插帧、修复后的防抖视频帧中抽取目标防抖帧，可以根据设置的预设抽帧规则控制目标防抖帧中各对象的运动状态，进而提高视觉上的运动连贯性。

此外，由于本示例性实施方式采用了先插帧，后进行防抖修复的方式，相对于先进行防抖修复，后进行插帧的方式，可以避免防抖修复过程造成的纹理损失导致的插帧错误或者插帧不准确的问题。同时，本示例性实施方式采用了先插帧，后抽帧的方式，因此在对插帧数量和抽帧数量的设置不同时，还可以实现对原始视频进行帧率转换的效果。

需要注意的是，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

进一步的，参考图10所示，本示例的实施方式中还提供一种视频处理装置1000，包括：视频插帧模块1010、防抖处理模块1020和视频生成模块1030。其中：

视频插帧模块1010可以用于获取原始视频和采集原始视频时采集设备对应的运动数据，并对原始视频进行插帧处理，以获得原始视频对应的插帧视频。

防抖处理模块1020可以用于根据运动数据对插帧视频中的视频帧进行防抖修复，以获得插帧视频对应的防抖视频帧。

视频生成模块1030可以用于根据防抖视频帧生成原始视频对应的防抖视频。

在一示例性实施例中，视频插帧模块1010可以用于在原始视频中抽取至少一对原始视频帧对，根据预设插帧规则确定对原始视频帧对进行插帧的插帧时间相位，并根据插帧时间相位对各原始视频帧对进行插帧处理。

在一示例性实施例中，视频插帧模块1010可以用于在原始视频中任意抽取至少一对原始视频帧对，原始视频帧对包括第一原始视频帧和第二原始视频帧；基于运动数据确定原始视频帧对对应视频片段的抖动程度值；其中，视频片段以第一原始视频帧为起点，以第二原始视频帧为终点；在抖动程度值小于预设抖动阈值时，根据预设插帧规则中的任意一个插帧规则确定对原始视频帧对进行插帧的插帧时间相位，并根据插帧时间相位对原始视频帧对进行插帧，以获取对应的插值视频帧；在抖动程度值大于或等于预设抖动阈值时，根据等时间相位规则确定对原始视频帧对进行插帧的插帧时间相位，并根据插帧时间相位对原始视频帧对进行插帧，以获取对应的插值视频帧。

在一示例性实施例中，视频插帧模块1010可以用于获取原始视频中原始视频帧对之间的中间帧；根据中间帧的数量对原始视频帧对之间的时间间隔进行等间距划分以确定插帧时间相位；根据插帧时间相位对原始视频帧对进行插帧，生成与中间帧的数量相等的插值视频帧，并将中间帧删除。

在一示例性实施例中，视频插帧模块1010可以用于采用运动估计的方式确定原始视频帧对对应的运动矢量；通过插帧时间相位对运动矢量进行校正，以获取原始视频帧对对应的映射矢量；基于映射矢量对原始视频帧对进行融合插帧，以生成对应的插值视频帧。

在一示例性实施例中，视频插帧模块1010可以用于在插值视频中存在相同时间相位的多个插值形成的插值视频帧时，对多个插值视频帧进行融合，并将融合得到的一个插值视频帧作为该时间相位对应的插值视频帧。

在一示例性实施例中，防抖处理模块1020可以用于读取运动数据对应的图像映射矩阵，并将图像映射矩阵作为插帧视频中第一帧视频帧对应的原始坐标映射矩阵；基于运动数据和第一帧视频帧对应的原始坐标映射矩阵生成插帧视频中其他视频帧对应的原始坐标映射矩阵；通过时域滤波的方法对插帧视频中的视频帧对应的原始坐标映射矩阵进行滤波处理，得到视频帧对应的修正图像映射矩阵；基于修正图像映射矩阵对视频帧进行修复，以获取插帧视频对应的防抖视频帧。

在一示例性实施例中，防抖处理模块1020可以用于根据预设选择规则在视频帧中选择待修复视频帧，通过修正图像映射矩阵对对应的待修复视频帧进行修复，并将修复后的待修复视频帧作为防抖视频帧。

在一示例性实施例中，视频生成模块1030可以用于根据预设抽帧规则在防抖视频帧中抽取目标防抖帧，并将目标防抖帧输出，生成原始视频对应的防抖视频。

在一示例性实施例中，视频生成模块1030可以用于根据防抖视频帧中第一目标对象的运动状态进行抽帧；根据防抖视频帧中第二目标对象的稳定性进行抽帧；以及根据防抖视频帧的图像质量进行抽帧。

在一示例性实施例中，视频生成模块1030可以用于获取防抖视频帧中第一目标对象的初始运动状态和最终运动状态；根据初始运动状态和最终运动状态确定第一目标对象在各个时间点的中间运动状态；在防抖视频帧中抽取目标防抖帧；其中，目标防抖帧中，第一目标对象对应的运动状态与对应时间点的中间运动状态相同。

在一示例性实施例中，视频生成模块1030可以用于根据防抖视频帧中的第二目标对象，与时间顺序上的前一帧防抖视频帧中的第二目标对象的重合率确定防抖视频帧的稳定参数；根据稳定参数在防抖视频帧中抽取目标防抖帧。

在一示例性实施例中，视频生成模块1030可以用于在防抖视频帧中存在相同时间相位的多个插帧形成的防抖视频帧时，根据多个防抖视频帧对应的置信度确定多个防抖视频帧的质量参数；根据质量参数在多个防抖视频帧中确定一个防抖视频帧作为时间相位对应的目标防抖帧。

上述装置中各模块的具体细节在方法部分实施方式中已经详细说明，未披露的细节内容可以参见方法部分的实施方式内容，因而不再赘述。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

本公开的示例性实施方式还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤，例如可以执行图3、图4和图9中任意一个或多个步骤。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

此外，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

一种视频处理方法，其特征在于，包括：

获取原始视频和采集所述原始视频时采集设备对应的运动数据，并对所述原始视频进行插帧处理，以获得所述原始视频对应的插帧视频；

根据所述运动数据对所述插帧视频中的视频帧进行防抖修复，以获得所述插帧视频对应的防抖视频帧；

根据所述防抖视频帧生成所述原始视频对应的防抖视频。
根据权利要求1所述的方法，其特征在于，所述对所述原始视频进行插帧处理，包括：

在所述原始视频中抽取至少一对原始视频帧对，根据预设插帧规则确定对所述原始视频帧对进行插帧的插帧时间相位，并根据所述插帧时间相位对各所述原始视频帧对进行插帧处理。
根据权利要求2所述的方法，其特征在于，所述预设插帧规则至少包括等时间相位规则；

所述在所述原始视频中抽取至少一对原始视频帧对，根据预设插帧规则确定对所述原始视频帧对进行插帧的插帧时间相位，并根据所述插帧时间相位对各所述原始视频帧对进行插帧处理，包括：

在所述原始视频中任意抽取至少一对原始视频帧对，所述原始视频帧对包括第一原始视频帧和第二原始视频帧；

基于所述运动数据确定所述原始视频帧对对应视频片段的抖动程度值；其中，所述视频片段以所述第一原始视频帧为起点，以所述第二原始视频帧为终点；

在所述抖动程度值小于预设抖动阈值时，根据所述预设插帧规则中的任意一个插帧规则确定对所述原始视频帧对进行插帧的插帧时间相位，并根据所述插帧时间相位对所述原始视频帧对进行插帧，以获取对应的插值视频帧；

在所述抖动程度值大于或等于所述预设抖动阈值时，根据所述等时间相位规则确定对所述原始视频帧对进行插帧的插帧时间相位，并根据所述插帧时间相位对所述原始视频帧对进行插帧，以获取对应的插值视频帧。
根据权利要求3所述的方法，其特征在于，所述根据所述等时间相位规则确定对所述原始视频帧对进行插帧的插帧时间相位，并根据所述插帧时间相位对所述原始视频帧对进行插帧，包括：

获取所述原始视频中所述原始视频帧对之间的中间帧；

根据所述中间帧的数量对所述原始视频帧对之间的时间间隔进行等间距划分以确定插帧时间相位；

根据所述插帧时间相位对所述原始视频帧对进行插帧，生成与所述中间帧的数量相等的插值视频帧，并将所述中间帧删除。
根据权利要求2至4中任一项所述的方法，其特征在于，根据所述插帧时间相位对所述原始视频帧对进行插帧处理，包括：

采用运动估计的方式确定所述原始视频帧对对应的运动矢量；

通过所述插帧时间相位对所述运动矢量进行校正，以获取所述原始视频帧对对应的映射矢量；

基于所述映射矢量对所述原始视频帧对进行融合插帧，以生成对应的插值视频帧。
根据权利要求2所述的方法，其特征在于，所述方法还包括：

在所述插帧视频中存在相同时间相位的多个插帧形成的插值视频帧时，对多个所述插值视频帧进行融合，并将融合得到的一个插值视频帧作为所述时间相位对应的插值视频帧。
根据权利要求1所述的方法，其特征在于，所述根据所述运动数据对所述插帧视频中的视频帧进行防抖修复，以获得所述插帧视频对应的防抖视频帧，包括：

读取所述运动数据对应的图像映射矩阵，并将所述图像映射矩阵作为所述插帧视频中第一帧视频帧对应的原始坐标映射矩阵；

基于所述运动数据和所述第一帧视频帧对应的原始坐标映射矩阵生成所述插帧视频中其他视频帧对应的原始坐标映射矩阵；

通过时域滤波的方法对所述插帧视频中的所述视频帧对应的原始坐标映射矩阵进行滤波处理，得到所述视频帧对应的修正图像映射矩阵；

基于所述修正图像映射矩阵对所述视频帧进行修复，以获取所述插帧视频对应的防抖视频帧。
根据权利要求7所述的方法，其特征在于，所述基于所述修正图像映射矩阵对所述视频帧进行修复，以获取所述插帧视频对应的防抖视频帧，包括：

根据预设选择规则在所述视频帧中选择待修复视频帧，通过所述修正图像映射矩阵对对应的所述待修复视频帧进行修复，并将修复后的所述待修复视频帧作为防抖视频帧。
根据权利要求1所述的方法，其特征在于，所述根据所述防抖视频帧生成所述原始视频对应的防抖视频，包括：

根据预设抽帧规则在所述防抖视频帧中抽取目标防抖帧，并将所述目标防抖帧输出，生成所述原始视频对应的防抖视频。
根据权利要求9所述的方法，其特征在于，所述预设抽帧规则包括自适应抽帧规则；所述自适应抽帧规则包括以下规则中至少一种：

根据所述防抖视频帧中第一目标对象的运动状态进行抽帧；

根据所述防抖视频帧中第二目标对象的稳定性进行抽帧；以及

根据所述防抖视频帧的图像质量进行抽帧。
根据权利要求10所述的方法，其特征在于，根据所述防抖视频帧中第一目标对象的运动状态进行抽帧，包括：

获取所述防抖视频帧中所述第一目标对象的初始运动状态和最终运动状态；

根据所述初始运动状态和所述最终运动状态确定所述第一目标对象在各个时间点的中间运动状态；

在所述防抖视频帧中抽取目标防抖帧；其中，所述目标防抖帧中，所述第一目标对象对应的运动状态与对应时间点的所述中间运动状态相同。
根据权利要求10所述的方法，其特征在于，根据所述防抖视频帧中第二目标对象的稳定性进行抽帧，包括：

根据所述防抖视频帧中的第二目标对象，与时间顺序上的前一帧防抖视频帧中的第二目标对象的重合率确定所述防抖视频帧的稳定参数；

根据所述稳定参数在所述防抖视频帧中抽取目标防抖帧。
根据权利要求10所述的方法，其特征在于，根据所述防抖视频帧的图像质量进行抽帧，包括：

在所述防抖视频帧中存在相同时间相位的多个插帧形成的防抖视频帧时，根据多个所述防抖视频帧对应的置信度确定多个所述防抖视频帧的质量参数；

根据所述质量参数在多个所述防抖视频帧中确定一个所述防抖视频帧作为所述时间相位对应的目标防抖帧。
一种视频处理装置，其特征在于，包括：

视频插帧模块，用于获取原始视频和采集所述原始视频时采集设备对应的运动数据，并对所述原始视频进行插帧处理，以获得所述原始视频对应的插帧视频；

防抖处理模块，用于根据所述运动数据对所述插帧视频中的视频帧进行防抖修复，以获得所述插帧视频对应的防抖视频帧；

视频生成模块，用于根据所述防抖视频帧生成所述原始视频对应的防抖视频。
根据权利要求14所述的装置，其特征在于，所述视频插帧模块还用于在所述原始视频中抽取至少一对原始视频帧对，根据预设插帧规则确定对所述原始视频帧对进行插帧的插帧时间相位，并根据所述插帧时间相位对各所述原始视频帧对进行插帧处理。
根据权利要求14所述的装置，其特征在于，所述防抖处理模块还用于读取所述运动数据对应的图像映射矩阵，并将所述图像映射矩阵作为所述插帧视频中第一帧视频帧对应的原始坐标映射矩阵；基于所述运动数据和所述第一帧视频帧对应的原始坐标映射矩阵生成所述插帧视频中其他视频帧对应的原始坐标映射矩阵；通过时域滤波的方法对所述插帧视频中的所述视频帧对应的原始坐标映射矩阵进行滤波处理，得到所述视频帧对应的修正图像映射矩阵；基于所述修正图像映射矩阵对所述视频帧进行修复，以获取所述插帧视频对应的防抖视频帧。
根据权利要求14所述的装置，其特征在于，所述视频生成模块还用于根据预设抽帧规则在所述防抖视频帧中抽取目标防抖帧，并将所述目标防抖帧输出，生成所述原始视频对应的防抖视频。
根据权利要求17所述的装置，其特征在于，所述预设抽帧规则包括自适应抽帧规则；所述自适应抽帧规则包括以下规则中至少一种：

根据所述防抖视频帧中第一目标对象的运动状态进行抽帧；

根据所述防抖视频帧中第二目标对象的稳定性进行抽帧；以及

根据所述防抖视频帧的图像质量进行抽帧。
一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至13中任一项所述的方法。
一种电子设备，其特征在于，包括：

处理器；以及存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至13中任一项所述的视频处理方法。