WO2022117076A1

WO2022117076A1 - 视频运动估计方法、装置、设备、计算机可读存储介质及计算机程序产品

Info

Publication number: WO2022117076A1
Application number: PCT/CN2021/135372
Authority: WO
Inventors: 李玉峰; 郭伟
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2020-12-04
Filing date: 2021-12-03
Publication date: 2022-06-09
Also published as: JP2023542397A; CN112203095B; EP4203476A1; US20230030020A1; EP4203476A4; CN112203095A; KR20230058133A

Abstract

一种视频运动估计方法、装置、设备、计算机可读存储介质及计算机程序产品，其中，方法包括：获取待处理视频中的多个图像帧，对多个图像帧进行场景划分处理，得到多个图像帧集合，其中，各个图像帧集合包括至少一个图像帧；提取各个图像帧集合中各个图像帧中的前景对象的轮廓特征和色彩特征；基于各个图像帧集合中的前景对象的轮廓特征，确定各个图像帧集合对应的搜索范围；确定各个图像帧集合中各个预测帧的起始搜索点；基于各个预测帧的起始搜索点、参考帧中的目标块和前景对象的色彩特征，在各个预测帧中的搜索范围对应的搜索区域内进行运动估计处理，得到目标块对应的运动矢量。

Description

视频运动估计方法、装置、设备、计算机可读存储介质及计算机程序产品

相关申请的交叉引用

本申请实施例基于申请号为202011401743.1、申请日为2020年12月04日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请实施例作为参考。

技术领域

本申请涉及视频运动估计技术领域，涉及但不限于一种视频运动估计方法、装置、设备、计算机可读存储介质及计算机程序产品。

背景技术

随着互联网技术的快速发展和数码设备的广泛普及，视频逐渐成为了人们进行信息获取与信息交流的重要载体。用户对视频服务的需求在日益增长的同时，对视频质量的要求亦越来越高，因此提高视频编码和传输效率成为业界关注的热点问题。

由于高质量的视频数据冗余度高、信息量大，为了满足相关网络领域的传输和存储要求，因此需要将视频数据进行压缩。视频压缩可采用帧间预测消除序列帧中的时间冗余，而运动估计是视频编码中广泛应用于帧间预测的关键技术，但其耗时量巨大，且占整个视频编码70％的计算量，对于更高清晰度的视频，该比率甚至会更高。因此，运动估计算法是决定视频压缩效率的主要因素，而降低运动估计的计算成本，提高运动估计的准确性使运动估计的搜索过程更健壮、更快速、更高效是加速视频压缩过程的关键目标。

发明内容

本申请实施例提供一种视频运动估计方法、装置、设备、计算机可读存储介质及计算机程序产品，能够提升搜索效率，提高运动估计的准确率。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种视频运动估计方法，由视频运动估计设备执行，包括：

获取待处理视频中的多个图像帧，对所述多个图像帧进行场景划分处理，得到多个图像帧集合，其中，各个所述图像帧集合包括至少一个图像帧；

提取各个所述图像帧集合中各个图像帧中的前景对象的轮廓特征和色彩特征；

基于各个所述图像帧集合中的前景对象的轮廓特征，确定各个所述图像帧集合对应的搜索范围；

确定各个所述图像帧集合中各个预测帧的起始搜索点；

基于所述各个预测帧的起始搜索点、参考帧中的目标块和所述前景对象的色彩特征，在所述各个预测帧中的所述搜索范围对应的搜索区域内进行运动估计处理，得到所述目标块对应的运动矢量。

本申请实施例提供一种视频运动估计装置，包括：

第一获取模块，配置为获取待处理视频中的多个图像帧，对所述多个图像帧进行场景划分处理，得到多个图像帧集合，其中，各个所述图像帧集合包括至少一个图像帧；

特征提取模块，配置为提取各个所述图像帧集合中各个图像帧中的前景对象的轮廓特征和色彩特征；

第一确定模块，配置为基于各个所述图像帧集合中的前景对象的轮廓特征，确定各个所述图像帧集合对应的搜索范围；

第二确定模块，配置为确定各个所述图像帧集合中各个预测帧的起始搜索点；

运动估计模块，配置为基于所述各个预测帧的起始搜索点、参考帧中的目标块和所述前景对象的色彩特征，在所述各个预测帧中的所述搜索范围对应的搜索区域内进行运动估计处理，得到所述目标块对应的运动矢量。

本申请实施例提供一种设备，包括：

存储器，用于存储可执行指令；处理器，用于执行所述存储器中存储的可执行指令时，实现上述的方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现上述的方法。

本申请实施例提供了一种计算机程序产品，包括计算机程序或指令，该计算机程序或指令使得计算机执行上述的方法。

本申请实施例具有以下有益效果：

基于各个图像帧集合中前景对象的轮廓特征，确定各个图像帧集合对应的搜索范围，基于各个起始搜索点、参考帧中的目标块和前景对象的色彩特征，在各个预测帧中搜索范围对应的搜索区域内进行运动估计，从而在一定范围内进行搜索，因此缩小了搜索范围，从而能够减少搜索时间，并且是基于各个场景中前景对象的轮廓特征对搜索范围进行了限定，进而能够提高运动估计的准确性。

附图说明

图1为本申请实施例提供的视频运动估计系统的一个系统架构示意图；

图2是本申请实施例提供的终端的结构示意图；

图3为本申请实施例提供的视频运动估计方法的一种实现流程示意图；

图4A-图4C为本申请实施例提供的在搜索范围对应的搜索区域内进行运动估计的实现流程示意图；

图5为本申请实施例提供的视频运动估计方法的再一种流程示意图；

图6为本申请实施例提供的基于3D图像块的视频运动估计方法的实现流程示意图；

图7是本申请实施例提供的预测运动矢量所在象限和优先搜索区域的对应示意图；

图8为本申请实施例提供的3D图像块的运动估计实现示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。除非另有定义，本申请实施例所使用的所有的技术和科学术语与属于本申请实施例的技术领域的技术人员通常理解的含义相同。本申请实施例所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)运动估计：在视频编码中使用的一种技术，是在压缩编码过程中计算当前帧和参考帧之间的运动矢量的过程。

2)运动矢量：表示当前编码块与参考图像中的最佳匹配块之间的相对位移的矢量。

3)光流：当人的眼睛观察运动物体时，物体的景象在人眼的视网膜上形成一系列连续变化的图像，这一系列连续变化的信息不断“流过”视网膜(即图像平面)，好像一种光的“流”，故称之为光流(optical flow)。

4)光流法：利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来确定上一帧与当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的一种方法。

为了更好地理解本申请实施例中提供的视频运动估计方法，首先对视频运动估计以及相关技术中的视频运动估计方法进行说明：

在视频压缩的帧间预测编码方法中，由于连续帧中的视频内容在时间上具有一定的相关性，因此相关技术中的运动估计方法是先将视频序列的每个图像帧划分为多个大小相同且互不重叠的块或宏块，并假设宏块内所有像素的位移量都相等，然后根据一定的匹配方案搜索出每个块或者宏块在邻近参考帧中最相似的目标匹配块，最后计算宏块与目标匹配块之间的空间位置的相对偏移量，即运动矢量，获取运动矢量的过程即为运动估计。

运动估计的核心思想是尽可能准确地获取视频序列帧间的运动矢量，其主要用于帧间的运动补偿，补偿残差需要经过变换、量化、编码等操作，然后同运动矢量一起进行熵编码，并以比特流形式发送到解码端，在解码端通过这两项数据(即补偿残差以及运动矢量)即可恢复出当前块或当前宏块。在视频传输中应用运动估计方法可以有效去除帧间数据冗余，从而降低传输的数据量。运动矢量的准确性决定了预测补偿的视频帧质量，质量越高，补偿残差越小，补偿编码所需位数就越少，对传输的比特率要求就越低。

相关技术的运动估计方法包括空域运动估计和频域运动估计。其中，空域运动估计包含基于全局、像素点、宏块、区域和网格等的运动估计，频域运动估计有相位法、离散余弦变换法和小波域法等。空域运动估计方法因其计算速度相对较快、复杂度低、易在多数硬件平台实现等特点成为了近几年众多研究人员青睐的方法。空域运动估计方法根据匹配搜索范围可以划分为全局搜索和快速搜索。全局搜索方法主要对搜索范围内所有的区域执行穷尽搜索，其精度最高，但是计算复杂度也较高且难以实现实时处理，而快速搜索则按照设定的规则在搜索区域中对部分搜索区域的宏块进行搜索，所以相较于全局搜索其搜索速度快，但查找的可能不是最优块，例如菱形搜索法(DS，Diamond Search)，三步搜索法(TSS，Three step Search)、四步搜索法(FSS，Four Step Search)都是基于局部搜索的快速运动估计方法，主要通过限制搜索步数或搜索点数，采取适宜的搜索模板来加快搜索速度。高效率视频编码(HEVC，High Efficiency Video Coding)的官方测试模型提供了基本的全搜算法和TZSearch两种搜索方法，其中TZSearch算法是一种基于混合搜索模型(砖石搜索和光栅搜索)的快速搜索方法。相关技术中针对块搜索方法的研究多是基于TZSearch算法提高其块的搜索速度和精度，其中大多数工作是从减少搜索块或者宏块数、引入阈值、更改搜索策略和数据重用等方面进行优化，但现实情况中的多数视频存在移动条件下拍摄的抖动、图像帧存在对比度低，运动场景连续变化复杂等问题，容易导致块的错误匹配，使得到的补偿帧存在较为明显的模糊或者块效应。针对这些问题提出的快速运动估计方法需要在计算资源和计算准确性之间进行有效权衡，这进一步对更高效的运动估计方法提出挑战。

相关技术中提供的快速运动估计方法在速度上优于全搜方法，但是多数快速搜索的计算方法其数据访问存在不规则性，搜索效率仍有待提高，且相关技术中的运动估计方法在处理特殊视频如拍摄时抖动、图像帧对比度低，运动场景连续变化时，其获取当前块最佳运动矢量会存在子块的错误匹配现象，容易导致得到的内插帧有明显的模糊和块效应。

基于此，在本申请实施例提供的视频运动估计方法中，将视频的连续图像帧作为整体计算对象，将视频的前背景处理加入到搜索范围的限制中，通过视频内容特征的约束，可以有效减少搜索时间，提高运动估计的准确率。

下面说明本申请实施例提供的视频运动估计设备的示例性应用，本申请实施例提供的视频运动估计设备可以实施为笔记本电脑，平板电脑，台式计算机，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)、智能机器人等任意具有屏幕显示功能的终端，也可以实施为服务器。

下面，将说明视频运动估计设备实施为终端时的示例性应用。

参见图1，图1是本申请实施例提供的视频运动估计系统10的一个架构示意图。如图1所示，该视频运动估计系统10中包括终端400、网络200和服务器100。其中，终端400上运行有应用程序，例如可以是图像采集应用程序，还可以是即时通讯应用程序等。在实现本申请实施例的视频运动估计方法时，终端400获取待处理的视频，其中该视频可以是通过终端400中自带的图像采集装置获取的，例如可以是摄像头实时录制的视频，还可以是终端本地存储的视频，终端400在获取待处理的视频后，将视频中包含的多个图像帧基于场景进行划分，并在每个场景所包含的多个图像帧中提取出前景对象的轮廓特征，并基于该轮廓特征确定搜索范围，每个场景对应有一个搜索范围，在同一场景的多个图像帧中，在该搜索范围确定的搜索区域中搜索与参考帧对应的目标块，进而确定出运动矢量，完成运动估计过程，进而终端400将参考帧和通过运动估计得到的运动矢量发送至服务器，服务器可以基于该运动矢量进行运动补偿，从而得到完整的视频文件。

下面，将说明视频运动估计设备实施为服务器时的示例性应用。

参见图1，其中，终端400上运行有应用程序，例如可以是图像采集应用程序，还可以是即时通讯应用程序等。在实现本申请实施例的视频运动估计方法时，终端400获取待处理的视频，并将待处理的视频发送至服务器100，服务器100在获取待处理的视频后，将视频中包含的多个图像帧基于场景进行划分，并在每个场景所包含的多个图像帧中提取出前景对象的轮廓特征，并基于该轮廓特征确定搜索范围，每个场景对应有一个搜索范围，在同一场景的多个图像帧中，在该搜索范围确定的搜索区域中搜索与参考帧对应的目标块，进而确定出运动矢量，完成运动估计过程，并基于该运动矢量进行运动补偿，从而得到完整的视频文件。

参见图2，图2是本申请实施例提供的视频运动估计设备的结构示意图，例如图1示出的终端400，图2所示的终端400包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端400中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他计算设备，示例性的网络接口420包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块453，用于经由一个或多个与用户接口430相关联的输出装置431(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的装置可以采用软件方式实现，图2示出了存储在存储器450中的视频运动估计装置455，其可以是程序和插件等形式的软件，包括以下软件模块：第一获取模块4551、特征提取模块4552、第一确定模块4553、第二确定模块4554和运动估计模块4555，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。

将在下文中说明各个模块的功能。

在一些实施例中，本申请实施例提供的装置可以采用硬件方式实现，作为示例，本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的视频运动估计方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

下面将结合本申请实施例提供的终端400的示例性应用和实施，说明本申请实施例提供的视频运动估计方法。参见图3，图3为本申请实施例提供的视频运动估计方法的一种实现流程示意图，将结合图3示出的步骤进行说明。

步骤S101，获取待处理视频中的多个图像帧，对多个图像帧进行场景划分处理，得到多个图像帧集合。

这里，待处理视频可以是终端实时录制的视频，也可以是终端本地存储的视频，还可以是终端从服务器下载的视频。

步骤S101在实现时，可以是基于图像帧的背景图像进行场景划分，当多个图像帧的背景图像相似时，可以认为处于同一个场景，例如，当视频为一场节日演出，分为多个不同的节目，不同节目的背景可以是不同的，因此，每个节目可以划分为一个场景。每个场景对应一个图像帧集合，并且，各个图像帧集合中包括至少一个图像帧。

在一些实施例中，一个图像帧集合可以理解为是一个3D图像块，该3D图像块中的三个维度分别为帧数、帧宽和帧高，其中，帧数是该图像帧集合中包括的图像帧的个数，帧宽为图像帧的宽度，在实际实现时，可以通过宽度方向上的像素点个数表示，帧高为图像帧的高度，可以通过图像帧在高度方向上的像素点个数表示。

步骤S102，提取各个图像帧集合中各个图像帧中的前景对象的轮廓特征和色彩特征。

这里，可以通过光流场的光流向量梯度计算并采集前景对象的轮廓特征，并根据前景对象所在图像区域提取出前景对象的色彩特征。

在一些实施例中，还可以利用连续的样本图像帧的背景结构的先验知识以及样本图像帧中的前景先验区域训练图像分割模型，利用训练好的图像分割模型实现前景对象分割和场景划分的估计，并提取分割出的前景对象的图像区域的色彩特征。一个图像帧集合中的各个图像帧的色彩特征也就构成了色彩特征序列。

在一些实施例中，步骤S101中的场景划分过程以及步骤S102中的前景对象的轮廓特征和色彩特征的提取过程可以是将待处理视频输入训练好的图像分割模型，从而完成对待处理视频中多个图像帧的场景划分和特征提取。

步骤S103，基于各个图像帧集合中前景对象的轮廓特征，确定各个图像帧集合对应的搜索范围。

这里，前景对象的轮廓可以通过矩形、正方形、不规则图形等表示，前景对象的轮廓特征可以包括轮廓顶点的坐标，步骤S103在实现时，可以通过图像帧集合中每一个图像帧中前景对象的轮廓顶点的坐标，确定出包含所有图像帧中前景对象的搜索范围。

步骤S104，确定各个图像帧集合中各个预测帧的起始搜索点。

这里，在各个图像帧集合中，可以以图像帧集合中所包含的多个图像帧的时间按照先后进行排序，将第一个图像帧作为参考帧，其他图像帧作为预测帧；还可以将第i个图像帧作为参考帧，第i+1个图像帧作为预测帧，其中，i为递增的正整数。需要说明的是，参考帧为图像帧集合中用于计算运动矢量时作为参考的图像帧，预测帧为图像帧集合中用于计算运动矢量的图像帧。

步骤S104在实现时，可以基于视频序列帧在空间域和时间域上的相关性，依次采用空间域的中值预测、上层预测和原点预测对各个预测帧中目标块的运动矢量进行预测，从而确定各个预测帧中的起始搜索点的位置。

步骤S105，基于各个预测帧的起始搜索点、参考帧中的目标块和前景对象的色彩特征，在各个预测帧中的搜索范围对应的搜索区域内进行运动估计，得到目标块对应的运动矢量。

这里，基于参考帧中的参考目标块(即参考帧中的某一目标块)，从各个预测帧中搜索与该参考目标块匹配的目标块时，可以以各个预测帧中的各个起始搜索点为中心，以搜索范围对应的搜索区域、前景对象的色彩特征作为约束条件，进行双向运动估计计算。以起始搜索点为中心，保持在搜索区域内完成预测帧的目标块的搜索，例如，可以采用w轴搜索点为h轴搜索点2倍的非对称十字搜索模板，根据预测矢量在w轴和h轴上的分量大小，确定滑块P中的前景运动是水平运动还是垂直运动。若是水平运动，则采用UMHexagonS原模板的水平方向非对称十字形，若判定为垂直运动，则采用h轴是w轴搜索点2倍的模板进行搜索，从而确定出预测帧中的目标块，然后再基于目标块和参考目标块的位置信息，确定目标块对应的运动矢量。

在本申请实施例提供的视频运动估计方法中，在获取到待处理视频中的多个图像帧之后，首先将该多个图像帧进行场景划分，得到多个图像帧集合，也即每个场景对应一个图像帧集合，并且每个图像帧集合中包括一个或多个图像帧，属于同一场景的图像帧的背景是相似的，进而再提取各个图像帧集合中各个图像帧中前景对象的轮廓特征和色彩特征，并且基于各个图像帧集合中前景对象的轮廓特征，确定各个图像帧集合对应的搜索范围，然后再确定各个图像帧集合中各个预测帧的各个起始搜索点，进而基于各个起始搜索点、参考帧中的目标块和前景对象的色彩特征，在各个预测帧中搜索范围对应的搜索区域内进行运动估计，得到目标块对应的运动矢量，在本申请实施例中是在一定范围内进行搜索，因此缩小了搜索范围，从而能够减少搜索时间，并且是基于各个场景中前景对象的轮廓特征对搜索范围进行了限定，进而能够提高运动估计的准确性。

在一些实施例中，上述步骤S101中的将多个图像帧进行场景划分，得到多个图像帧集合，可以通过以下方式实现：针对任意图像帧集合中任意图像帧执行以下处理：确定多个图像帧中的背景图像区域，并确定多个背景图像区域之间的图像相似度；基于多个背景图像区域之间的图像相似度，对多个图像帧进行场景划分处理，得到多个图像帧集合。

这里，在实现确定多个图像帧中的背景图像区域，并确定多个背景图像区域之间的图像相似度时，可以首先进行目标检测，先识别出多个图像帧中的前景对象，例如，可以是利用视频序列中连续的两帧或几帧图像的差来进行前景对象的检测和提取，利用时间信息，通过比较图像中若干连续帧获得对应像素点的灰度差值，如果均大于一定的阈值，则可以判断该位置存在前景对象，此时该位置之外的其他区域也即为背景图像区域。

在一些实施例中，也可以利用光流场法检测前景对象，在实现时，利用相邻两帧中对应像素的灰度保持原理来评估二维图像的变化，能够较好的从图像帧中检测到相关前景对象，光流场法适用于摄像机运动过程中相对运动前景目标的检测。

在获取到背景图像区域之后，可以计算各个背景图像区域之间的图像相似度，在实现时，可以是利用直方图匹配算法计算各个图像背景区域之间的图像相似度，例如有背景图像区域A和背景图像区域B，分别计算两幅图像的直方图，即HistA、HistB，然后计算两个直方图的归一化相关系数(例如巴氏距离、直方图相交距离)等等，从而确定两者之间的相似度。在一些实施例中，还可以基于特征点进行图像相似度计算，在实现时，可以分别提取背景图像区域中的特征点，计算特征点之间的汉明距离，从而确定背景图像区域之间的相似度值。

这里，在计算出多个背景图像区域之间的图像相似度之后，在对多个图像帧进行场景划分时，基于各个图像帧的时间信息，将时间连续且相似度高的背景图像区域对应的图像帧划分为一个图像帧集合。

在上述实施例中，通过背景图像将视频中的多个图像帧进行场景划分，由于在同一个场景中，前景对象的运动范围相对较小，从而能够基于场景确定前景对象的搜索范围，在搜索范围尽可能小的同时保证准确性。

在一些实施例中，图3所示的步骤S102中提取各个图像帧集合中各个图像帧中前景对象的轮廓特征和色彩特征，可以通过下述方式实现：针对任意图像帧集合中任意图像帧执行以下处理：确定图像帧中的前景对象所在的前景图像区域；将前景图像区域的位置信息作为图像帧中的前景对象的轮廓特征；基于前景图像区域进行色彩提取处理，得到图像帧中的前景对象的色彩特征。

这里，在获取背景图像区域时，进行了图像帧前景和背景的分割，从而也就能够确定出背景图像区域和前景对象所在的前景图像区域，以及前景图像区域的位置信息。

在本申请实施例中，前景图像区域的轮廓可以并不是与前景对象完全贴合的，举例来说，当前景对象为人物时，前景图像区域的轮廓可以是能够包括人物的矩形或者正方形，而不用必须是人形的轮廓。因此前景图像区域的位置信息可以是用前景对象轮廓中的顶点坐标来表示，也即前景对象的轮廓特征包括前景图像区域的各个顶点的坐标。

这里，前景对象的色彩特征，也可以理解为是前景对象的颜色特征，颜色特征是在图像检索中应用的视觉特征，颜色往往和图像中所包含的物体或场景十分相关。此外，与其他的视觉特征相比，颜色特征对图像本身的尺寸、方向、视角的依赖性较小，从而具有较高的鲁棒性。

在实际实现时，颜色特征可以利用颜色直方图、颜色矩、颜色集、颜色聚合向量以及颜色相关图等多种方式表示。

在上述实施例中，能够提取出各个图像帧集合中各个图像帧中前景对象的轮廓特征和色彩特征，从而为在进行预测帧中确定与参考目标块匹配的目标块时设定搜索范围以及设定运动估计的约束条件提供数据基础。

如图4A所示，图3所示的步骤S103中的基于各个图像帧集合中前景对象的轮廓特征，确定各个图像帧集合对应的搜索范围，可以通过以下步骤实现：

步骤S1031，针对任意图像帧集合执行以下处理：基于图像帧集合中的各个前景图像区域的位置信息，确定各个前景图像区域中的顶点坐标。

这里，前景图像区域的位置信息可以是利用前景图像区域的顶点坐标表示的，例如前景图像区域为矩形区域时，那么需要确定该矩形区域的四个顶点的坐标。假设某一预测帧中前景图像区域的四个顶点A、B、C、D的坐标分别为(100，100)、(100，500)、(300，500)、(300，100)。

步骤S1032，从各个顶点坐标中，确定第一维度对应的第一最大值和第一最小值，并确定第二维度对应的第二最大值和第二最小值。

这里，第一维度和第二维度不同，例如第一维度可以是宽度，第二维度可以是高度。步骤S1032在实现时，是从属于同一个图像帧集合中的各个前景图像区域的各个顶点坐标中，确定出第一维度对应的第一最大值和第一最小值，并确定出第二维度对应的第二最大值和第二最小值。

例如在一个图像帧集合中包括100个图像帧，并且各个图像帧中前景图像区域为矩形区域，那么步骤S1032在实现时，就是从400个顶点坐标中确定出第一维度的第一最大值和第一最小值以及第二维度的第二最大值和第二最小值。

步骤S1033，基于第一最小值、第一最大值、第二最小值和第二最大值，确定图像帧集合对应的搜索范围。

这里，在确定出第一最小值、第一最大值，第二最小值和第二最大值之后，即可确定图像帧集合对应的搜索范围，也即在第一维度的搜索范围是大于或者等于第一最小值、且小于或者等于第一最大值，在第二维度的搜索范围是大于或者等于第二最小值、且小于或者等于第二最大值。例如，可以利用这四个值，确定出四个顶点坐标，也即(第一最小值，第二最小值)、(第一最小值，第二最大值)、(第一最大值，第二最小值)和(第一最大值，第二最大值)，并基于这四个顶点坐标确定出该图像帧集合对应的搜索范围。

举例来说，第一最小值是100，第一最大值为600，第二最大值为100，第二最大值为800，那么基于该四个值确定出的四个顶点坐标分别为(100，100)、(100，800)、(600，100)和(600，800)，因此，搜索范围也即为该四个顶点确定的矩形区域。

通过上述的步骤S1031至步骤S1033，基于属于同一个场景的多个图像帧中的前景对象的轮廓特征，确定出了搜索区域，由于在同一场景中前景对象的运动范围一般相对较小，通过将多个前景图像区域中的在两个维度上的最大坐标和最小坐标确定出来的搜索范围能够保证包括该场景中所有图像帧中的前景对象，从而保证运动估计的计算精度。

在一些实施例中，图3所示的步骤S104中的确定各个图像帧集合中各个预测帧的各个起始搜索点，可以通过以下方式实现：确定各个图像帧集合中各个参考帧中的参考目标块的位置信息，其中，参考目标块为参考帧中的任意目标块；通过设定的预测模式对各个预测帧的运动矢量进行预测，得到各个预测帧的预测运动矢量，预测模式包括以下至少之一：中值预测模式、上层块预测模式和原点预测模式；基于参考目标块的位置信息和预测运动矢量，确定各个预测帧的起始搜索点。

这里，对于参考帧也进行了前景和背景的分割，在确定出参考帧中的前景图像区域之后，可以将前景图像区域进行分割，得到多个参考目标块，该参考目标块的大小可以是4*4，8*8等，参考目标块的位置信息用参考目标块的一个顶点坐标表示，例如可以用参考目标块中左上角的顶点坐标表示。

这里，该预测模式包括中值预测、上层块预测和原点预测中的至少之一。

由于运动物体的整体性和视频运动的连续性，视频的运动必然存在时间和空间上的相关性，因为相邻块相关性的存在，因此能够通过相邻块的运动矢量来预测当前块的运动矢量。在实现时，可以根据当前块在空间位置上的相邻块(中值预测)或者在时间上前一帧图像上位置相同块(原点预测)的运动矢量来预测当前块的初始运动矢量，从而确定初始搜索点。

这里，在实现基于参考目标块的位置信息和预测运动矢量，确定各个预测帧的起始搜索点的方案时，可以将参考目标块的位置信息按照该预测运动矢量进行移动，从而确定出各个预测帧的各个起始搜索点。

高精度的起始搜索点能够促使搜索点尽可能接近预测帧中的目标块，从而能够提高搜索速度，在上述实施例中，基于视频序列帧在空间域和时间域上的相关性采用空间域的中值预测、上层预测和原点预测中的至少一种预测模式对当前运动矢量进行预测，从而确定最佳起始搜索点的位置，保证起始搜索点的准确性。

在一些实施例中，图3所示的步骤S105中的基于各个预测帧的起始搜索点、参考帧中的目标块和前景对象的色彩特征，在各个预测帧中的搜索范围对应的搜索区域内进行运动估计处理，得到目标块对应的运动矢量，可以通过图4B所示的步骤S1051至步骤S1058实现，以下结合图4B对各步骤进行说明。

步骤S1051，确定各个预测帧对应的第一搜索模板。

这里，该第一搜索模板可以是非对称十字模板，还可以是六边形模板、菱形模板等。该第一搜索模板可以是根据前景对象的预测运动方向确定的。

在一些实施例中，上述步骤S1051可以通过以下方式实现：基于各个预测帧的预测目标块的预测运动矢量，确定预测帧中前景对象的第一运动方向；基于前景对象的第一运动方向，确定各个预测帧对应的搜索模板。

这里，第一运动方向可以是水平方向、垂直方向，还可以是斜向。

在一些实施例中，在预测前景对象的第一运动方向时，还可以是基于预测帧的前一帧相对于参考帧的运动方向确定的，例如，可以将预测帧的前一帧相对于参考帧的运动方向确定为前景对象的第一运动方向。

步骤S1052，以各个起始搜索点为中心，通过第一搜索模板在预测帧中的搜索范围对应的搜索区域内进行搜索处理，得到预测帧中与参考目标块对应的预测目标块。

这里，步骤S1052在实现时，可以以该起始搜索点为中心，通过该第一搜索模板在预测帧中搜索范围对应的搜索区域内进行搜索处理，以确定各个候选目标块，然后将候选目标块与参考目标块进行匹配，从而确定出于该参考目标块对应的预测目标块。

在本申请实施例中，为了充分利用色彩特征对运动估计的约束，在运动估计目标函数的基础上，添加了色彩特征的约束，即设SADcolor表示色彩特征的双向运动估计函数，SADobj表示前景对象目标序列的双向运动估计函数，λ1和λ2分别为色彩特征和前景对象目标序列的权重因子，权重因子可由预处理阶段两项序列特征的比例动态调整。所以本申请实施例的运动估计目标函数SAD即可表示为SAD＝λ1SADcolor+λ2SADobj。

步骤S1053，确定参考目标块与预测目标块之间的纹理差异程度。

这里，步骤S1053在实现时，可以提取参考目标块与预测目标块之间的纹理特征，然后通过参考目标块与预测目标块之间的纹理特征确定两者的纹理差异程度值。

步骤S1054，确定该纹理差异程度是否小于差异阈值。

这里，当纹理差异程度小于预设的差异阈值时，说明参考目标块与预测目标块的纹理差异较小，从而认为该预测目标块为正确的目标块，此时进入步骤S1055；当纹理差异程度大于或者等于该差异阈值时，说明参考目标块与预测目标块的纹理差异较大，从而认为该预测目标块为错误的目标块，此时进入步骤S1056。

步骤S1055，基于参考目标块的位置信息和预测目标块的位置信息，确定预测目标块对应的运动矢量。

这里，在获取到参考目标块的位置信息以及预测目标块的位置信息之后，即可确定出预测目标块对应的运动矢量。在实现时，可以将用于表征位置信息的两个顶点坐标相减，也即将参考目标块的顶点坐标减去预测目标块的顶点坐标，即可得到预测目标块对应的运动矢量。

步骤S1056，确定预测帧中搜索范围对应的搜索区域内的各个预测块与参考目标块之间的色彩差异程度和纹理差异程度。

这里，当预测目标块与参考目标块之间的纹理差异较大时，可以从搜索区域中依次确定各个预测块与参考目标块之间的色彩差异程度和纹理差异程度。

步骤S1057，基于各个预测块与参考目标块之间的色彩差异程度和纹理差异程度，从各个预测块中确定与参考目标块对应的预测目标块。

这里，步骤S1057在实现时，可以是从各个预测块中选择出与参考目标块之间的色彩差异程度小于色彩阈值、且纹理差异程度小于差异阈值，当存在预测块与参考目标块之间的色彩差异程度小于色彩阈值、且纹理差异程度小于差异阈值，那么将差异最小的预测块确定为预测目标块。

步骤S1058，基于参考目标块的位置信息和预测目标块的位置信息，确定预测目标块对应的运动矢量。

在上述步骤S1051至步骤S1058中，在确定出各个搜索模板之后，以起始搜索点为中心，采用该搜索模板在预测帧的搜索区域内搜索与参考帧中的参考目标块匹配的预测目标块，并且还要对比预测目标块与参考目标块之间的纹理差异程度，在纹理差异程度小于差异阈值时，认为匹配到正确的预测目标块，在纹理差异程度大于或者等于差异阈值时，则认为没有匹配到正确的预测目标块，那么此时可以遍历预测帧中搜索区域的各个预测块，并从中确定出正确的预测目标块，如此能够保证预测目标块的正确性，进而提高运动估计的准确度。

在实际实现过程中，如图4C所示，步骤S1052可以通过以下步骤实现：

步骤S10521，以各个起始搜索点为中心，基于第一搜索模板确定搜索区域内的多个第一候选块。

这里，以第一搜索模板为水平方向的非对称十字模板，且水平方向为6个块，垂直方向为3个块为例进行说明，步骤S10521在实现时，可以是以起始搜索点为中心，将起始搜索点上下各3个预测块以及左右各6个相邻预测块确定为第一候选块。

步骤S10522，基于预测运动矢量，确定多个第一候选块的匹配顺序。

这里，步骤S1052在实现时，可以基于预测运动矢量所落入的区域，确定多个候选块的匹配顺序，或者说根据预测运动矢量与各个候选块之间的距离确定多个候选块的匹配顺序，承接上述举例，例如该预测运动矢量为水平向左的方向，那么就将优先匹配起始搜索点左侧的6个候选块。

步骤S10523，基于匹配顺序，将各个第一候选块与参考目标块进行匹配处理，确定多个第一候选块中是否存在与参考目标块匹配的第一候选目标块。

这里，当多个第一候选块中有与参考目标块匹配的第一候选目标块时，进入步骤S10524；当多个第一候选块中没有与参考目标块匹配的候选目标块时，进入步骤S10525。

在一些实施例中，当多个第一候选块中没有与参考目标块匹配的第一候选目标块时，也可以直接对预测帧中搜索区域中的各个预测块进行遍历，从而确定出预测目标块。

步骤S10524，将候选目标块确定为预测目标块。

步骤S10525，基于第二运动方向，确定各个预测帧对应的第二搜索模板。

这里，第二运动方向与第一运动方向不同。如果通过基于第一运动方向确定出的第一搜索模板没有匹配到预测目标块时，可以认为第一运动方向预测错误，此时可以按照第二运动方向确定第二搜索模板，再次进行预测目标块的搜索。

步骤S10526，以起始搜索点为中心，基于第二搜索模板确定搜索区域内的多个第二候选块；

步骤S10527，基于预测运动矢量，确定多个第二候选块的匹配顺序；

步骤S10528，基于匹配顺序，将各个第二候选块与参考目标块进行匹配处理，确定多个第二候选块中是否存在与参考目标块匹配的第二候选目标块；

步骤S10529，当多个第二候选块中有与参考目标块匹配的第二候选目标块时，将第二候选目标块确定为预测目标块。

这里，步骤S10526至步骤S10529的实现过程与步骤S10521至步骤S10524是类似的，通过上述的步骤S10521至步骤S10529，能够通过前景对象的预测运动方向确定搜索模板，并通过预测运动矢量确定出优先匹配的候选块，从而将候选块与参考目标块进行匹配，在通过该搜索模板没有匹配出预测目标块时，可以再基于与前景对象的预测运动方向不同的运动方向再次确定搜索模板，以搜索出预测目标块，如此能够提高匹配速度从而提高运动估计的处理效率。

基于前述的实施例，本申请实施例再提供一种视频运动估计方法，应用于图1所示的网络架构，图5为本申请实施例提供的视频运动估计方法的一种实现流程示意图，如图5所示，该视频运动估计方法包括以下流程：

步骤S501，终端基于接收到的图像采集指令，启动图像采集装置。

这里，该图像采集指令可以是指示采集视频的操作指令，该图像采集指令通过即时通讯应用触发的，当然也可以是通过办公应用触发的，还可以是通过短视频应用触发的。

步骤S502，终端获取图像采集装置采集到的多个图像帧。

这里，图像采集装置在启动之后，进行图像采集，从而得到多个图像帧。

步骤S503，终端对多个图像帧进行场景划分处理，得到多个图像帧集合。

这里，终端可以结合光流场和基于场景结构估计的几何场景划分方法对多个图像帧进行场景分割，从而得到多个图像帧集合，并且各个图像帧集合中包括至少一个图像帧。

步骤S504，终端提取各个图像帧集合中各个图像帧中前景对象的轮廓特征和色彩特征。

步骤S505，终端基于各个图像帧集合中各个前景图像区域的位置信息，确定各个前景图像区域中的顶点坐标。

步骤S506，终端从各个顶点坐标中，确定第一维度对应的第一最大值和第一最小值，并确定第二维度对应的第二最大值和第二最小值。

步骤S507，终端基于第一最小值、第一最大值、第二最小值和第二最大值，确定图像帧集合对应的搜索范围。

步骤S508，终端确定各个图像帧集合中各个预测帧的起始搜索点。

步骤S509，终端基于各个起始搜索点、参考帧中的目标块和前景对象的色彩特征，在各个预测帧中的搜索范围对应的搜索区域内进行运动估计，得到目标块对应的运动矢量。

步骤S510，终端基于运动矢量和多个图像帧进行视频编码，得到编码后的视频。

步骤S511，终端将编码后的视频发送至服务器。

这里，该服务器可以是触发图像采集指令应用对应的业务服务器，例如可以是即时通讯服务器、办公应用服务器或短视频服务器。

步骤S512，服务器基于运动矢量对编码后的视频进行运动补偿，得到解码后的各个图像帧。

在本申请实施例提供的视频运动估计方法中，终端在采集到的视频的多个图像帧之后，首先将该多个图像帧进行场景划分，得到多个图像帧集合，也即每个场景对应一个图像帧集合，并且每个图像帧集合中包括一个或多个图像帧，属于同一场景的图像帧的背景是相似的，进而再提取各个图像帧集合中各个图像帧中前景对象的轮廓特征和色彩特征，并且基于各个图像帧集合中前景对象的轮廓的顶点坐标，确定出坐标的最大值和最小值，进而确定出各个图像帧集合对应的搜索范围，然后再确定各个图像帧集合中各个预测帧的各个起始搜索点，进而基于各个起始搜索点、参考帧中的目标块和前景对象的色彩特征，在各个预测帧中搜索范围对应的搜索区域内进行运动估计，得到目标块对应的运动矢量，由于搜索范围是基于轮廓顶点坐标确定的，能够保证搜索范围在包括前景对象的前提下尽可能小，从而能够减少搜索时间，还能保证运动估计的准确性，之后终端将参考帧以及运动矢量发送至服务器，能够降低对数据带宽的要求，还能够降低传输时延，提高传输效率。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

本申请实施例可应用于视频存储应用、即时通讯应用、视频播放应用、视频通话应用、直播应用等视频应用。以即时通讯应用为例，通话发送端上运行有即时通讯应用，视频发送方获取待处理的视频(例如录制的视频)，并在该搜索范围对应的搜索区域中搜索与参考帧对应的目标块，以确定出运动矢量，并基于运动矢量进行视频编码，将编码后的视频发送至服务器，服务器将编码后的视频发送至视频接收方，视频接收方对接收到编码后的视频进行解码，以播放视频，从而提高视频传输的效率；以视频存储应用为例，终端上运行有视频存储应用，终端获取待处理的视频(例如实时录制的视频)，并在该搜索范围对应的搜索区域中搜索与参考帧对应的目标块，以确定出运动矢量，并基于运动矢量进行视频编码，将编码后的视频发送至服务器，以实现云存储方案，从而节约了存储空间。下面结合视频场景说明本申请实施例提供的视频运动估计方法：

图6为本申请实施例提供的基于3D图像块的视频运动估计方法的实现流程示意图，如图6所示，该流程包括：

步骤S601，对待处理的视频进行初始化定义。

在实现时，可以将视频序列数据Vo(f1,f2,…,fn)定义为一个F*W*H的三维空间长方体，其中F、W、H分别为Vo在时域上的帧数、空间域上的帧宽和帧高。在Vo中设定一个长、宽、高分别为f、w、h的三维长方体滑块P(P∈Vo)，设定P在Vo的初始位置点为O(0,0,0)，其中初始位置点O为Vo的边界初始位置。

步骤S602，基于光流场进行前景对象的运动特征提取，得到前景运动轮廓特征。

考虑到基于视频对象分割的图割方法容易受复杂环境、镜头移动、光照不稳定等情况影响，在本申请实施例中，结合全局光流(例如Horn-Schunck光流)和图割对视频的前景进行处理。步骤S602在实现时，可以是通过光流场的光流向量梯度计算，并采集前景对象运动轮廓特征。

步骤S603，建立视频场景动作模型，并提取序列帧前景区域。

这里，结合光流场和基于场景结构估计的几何场景划分方法对视频Vo进行场景分割，并提取前景对象及其对应的色块彩色序列特征，将其提取、分割结果及色彩信息用于约束图像中各宏块的匹配过程。

例如，基于Horn-Schunck光流场的视频前景对象运动信息及连续帧背景结构的先验知识，结合前景先验区域建立视频场景的动作模型，提取连续图像帧中前景区域先验知识。进而通过迭代连续帧像素点的概率密度函数求极值，划分出同类型区域像素点，实现场景的分割，同时提取分割图块的彩色序列信息，并基于场景结构估计和分类改善分割结果。

如此完成了前景对象分割和场景划分的估计，并提取了分割图的彩色序列信息。

步骤S604，获取视频前景运动对象序列和背景分割序列。

在一些实施例中，在上述步骤S601至步骤S604所在的视频预处理阶段，可以通过基于神经网络的方法实现视频的前景运动信息提取和视频场景的分割。

步骤S605，基于3D序列图像帧进行运动估计计算。

这里，结合视频前景运动信息及Vo在F、W、H三个方向上的视频序列图像帧的特征设置滑块P的边长取值范围，预测当前运动矢量并确定起始搜索点的位置，根据该起始搜索点初始化滑块P在Vo的初始位置点O。在实际实现时，可以基于视频序列帧在空间域和时间域上的相关性，依次采用空间域的中值预测、上层预测和原点预测对当前运动矢量进行预测，从而确定最佳起始搜索点的位置。将滑块P在Vo的初始位置点O设定于所确定的起始搜索点位置所在的f、w、h三个方向上所属的前景运动区域的中心位置。

以起始预测点O为中心，在P所限定的空间、时域以及彩色序列特征约束范围下，基于双向运动估计思想，通过改进的UMHexagonS搜索模板实现运动矢量的估计。

例如，以长方体滑块P的边缘位置、分割的场景及视频彩色序列特征作为约束条件，进行双向运动估计计算。以起始预测点为中心，保持在P内完成当前帧的目标宏块的搜索，采用w轴搜索点为h轴搜索点2倍的非对称十字搜索模板，根据上一步预测矢量在w轴和h轴上的分量大小，确定滑块P中的前景运动是水平运动还是垂直运动。若滑块P中的前景运动是水平运动，则采用UMHexagonS原模板的水平方向非对称十字形，若滑块P中的前景运动是垂直运动，则采用h轴是w轴搜索点2倍的模板，根据预测运动矢量落入的区域，优先搜索不同的子区域，如图7所示，当预测运动矢量落入第一象限时，优先搜索701所示的子区域，当预测运动矢量落入第二象限时，优先搜索702所示的子区域，当预测运动矢量落入第三象限时，优先搜索703所示的子区域，当预测运动矢量落入第四象限时，优先搜索704所示的子区域，从而可以减少搜索时间成本，加上视频的场景序列特征限制，可以提高目标宏块查准率。

步骤S606，基于能量函数进行运动估计优化。

这里，考虑到图像帧中不同位置的宏块的色彩信息可能相似，在连续帧的宏块搜索中极易出现错误的块匹配，场景分割图的一致性代表视频图像帧具体的纹理信息，可以有效判别两个相似宏块的纹理差异，准确追踪到各宏块在图像帧中的运动信息，修正图像的运动矢量场。

在实现时，可以通过一致性能量函数对步骤S605运动矢量的计算估计进行约束，采用一致性分割方案来确定各分割图的彩色序列信息是否一致，从而检测宏块误匹配的情况并加以修正，提高运动矢量场的准确度。

由于宏块间的相似度越高，一致性能量函数的值越小，反之宏块间的相似度越低，则一致性能量函数的值越大。所以求取连续帧对应宏块的最佳运动矢量时，可以是求一致性能量函数的最小值，从而优化错误的运动矢量，提高运动估计精度。在实际实现时，为了提高搜索效率，在确定连续帧对应宏块的运动矢量时，也可以是在确定一致性能量函数的函数值小于预设阈值时，即认为搜索到与参考帧对应的宏块，此时基于参考帧宏块与当前帧搜索到的宏块的位置信息确定运动矢量。

考虑到基于宏块的运动估计方法主要通过求取参考帧和当前帧对应宏块的最小绝对误差来确定宏块最佳运动矢量，其计算耗时、复杂度大。尤其针对具有复杂场景的视频，运动估计的准确率不稳定，而结合基于视频内容前背景预处理的快速运动估计方法可以减少运动估计时间，降低运动估计复杂度，提高运动矢量场的精确度。所以在本申请实施例中，结合视频序列帧特有的结构特征及基于宏块运动估计方法的优缺点，提出将视频序列图像帧作为一个3D整体的计算对象来进行预处理并计算其运动矢量信息，以实现更高效的运动估计，在保证一定的编码率失真性能情况下减少视频编码时间。

图8为本申请实施例提供的3D图像块的运动估计实现示意图，如图8所示，将视频包含的一系列帧的3D图像集合作为一个F*W*H的三维计算对象Vo(f ₁,f ₂,…,f _n)，经过预处理后把Vo{S ₁(f ₁,f…,f _i-1),S2(f _i,f _i+1,f…),…,S _N}的每一个场景S _i列为一个搜索组，Vo根据场景数N划分为N个长方体块，滑块P依次从第一个长方体的场景S ₁遍历到第N个长方体S _N直至完成Vo的运动估计。滑块P在每一个场景中的f、w、h取值取决于前景运动目标在连续帧的三个方向上的运动范围，从F＝0处，执行双向运动估计，通过预测起始搜索点，并按照上述步骤S605提供的搜索模板完成当前帧针对当前宏块的目标块搜索，并提取对应的运动矢量。每执行一步搜索，滑块P随着搜索模板的该步搜索方向滑动，确保搜索范围限制在三维滑块P中，从而达到前景对象的运动特征能约束目标匹配宏块的搜索范围，减少搜索点的目的。

此外，本申请实施例在双向运动估计计算时，为了充分利用彩色序列对运动估计加以约束，在原始双向运动估计目标函数的基础上，添加了彩色序列特征的约束，即设SAD _color表示色彩序列帧的双向运动估计函数，SAD _obj表示前景对象目标序列的双向运动估计函数，λ ₁和λ ₂分别为彩色序列和前景对象目标序列的权重因子，权重因子可由预处理阶段两项序列特征的比例动态调整。所以本申请实施例中，Vo的双向运动估计目标函数SAD即可表示为SAD＝λ ₁SAD _color+λ ₂SAD _obj。

另外，考虑到在实际的视频图像帧中不同位置宏块的彩色信息是相似的，所以在参考帧和当前帧的宏块搜索匹配时，容易出现误匹配的情况。利用一致性能量函数可以区别相似块的底层纹理差异，能准确跟踪图像帧宏块的运动信息，修正错误矢量信息，提高运动矢量场的提取精确度。

针对视频运动估计方法运行耗时、计算复杂度高导致视频编码时间过长，得到的内插帧存在模糊和块效应等问题，本申请实施例提出一种高效的基于3D图像块的视频快速运动估计方法，该方法的不同之处在于将视频内容的预处理应用于运动估计，充分利用连续帧的前景运动信息及背景的场景结构特征，有效限制搜索过程中的搜索范围，减少搜索点，从而降低运动估计的时间成本。

在本申请实施例中，把待编码的视频连续序列图像视为一个3D的整体计算对象，将连续帧组成的三维图像块的内容用于约束运动矢量计算过程，实现快速运动估计，提高矢量场的准确率。与相关技术中的基于参考帧和当前帧宏块的运动估计方法相比，该方法能在保障编码率失真性能的基础上有效降低运动估计的复杂度，节约10％～30％的运动估计时间。

本申请实施例提供的运动估计方法主要通过帧间预测来消除视频序列帧中的时间冗余，可用于视频数据的压缩编码，提高视频传输效率，可应用于视频会议、可视电话等，实现极低码率传输条件下，高压缩比视频数据的实时传输。并且该方法还适用于2D视频和立体视频，尤其针对各类复杂的视频如拍摄时的抖动、图像帧对比度低、运动场景连续复杂变化等情况，依然能保持良好的编码率失真性能。

下面继续说明本申请实施例提供的视频运动估计装置455实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器450的视频运动估计装置455中的软件模块可以是终端400中的视频运动估计装置，包括：

第一获取模块4551，配置为获取待处理视频中的多个图像帧，对所述多个图像帧进行场景划分处理，得到多个图像帧集合，其中，各个所述图像帧集合包括至少一个图像帧；特征提取模块4552，配置为提取各个所述图像帧集合中各个图像帧中的前景对象的轮廓特征和色彩特征；第一确定模块4553，配置为基于各个所述图像帧集合中的前景对象的轮廓特征，确定各个所述图像帧集合对应的搜索范围；第二确定模块4554，配置为确定各个所述图像帧集合中各个预测帧的起始搜索点；运动估计模块4555，配置为基于所述各个预测帧的起始搜索点、参考帧中的目标块和所述前景对象的色彩特征，在所述各个预测帧中的所述搜索范围对应的搜索区域内进行运动估计处理，得到所述目标块对应的运动矢量。

在一些实施例中，该第一获取模块，还配置为：确定所述多个图像帧中的背景图像区域，并确定多个所述背景图像区域之间的图像相似度；基于多个所述背景图像区域之间的图像相似度，对所述多个图像帧进行场景划分处理，得到多个图像帧集合。

在一些实施例中，该特征提取模块，还配置为：针对任意所述图像帧集合中任意图像帧执行以下处理：确定所述图像帧中的前景对象所在的前景图像区域；将所述前景图像区域的位置信息作为所述图像帧中的前景对象的轮廓特征；基于所述前景图像区域进行色彩提取处理，得到所述图像帧中的前景对象的色彩特征。

在一些实施例中，该第一确定模块机，还配置为：针对任意所述图像帧集合执行以下处理：基于所述图像帧集合中的各个前景图像区域的位置信息，确定所述各个前景图像区域中的顶点坐标；从各个所述顶点坐标中，确定第一维度对应的第一最大值和第一最小值，并确定第二维度对应的第二最大值和第二最小值；基于所述第一最小值、所述第一最大值、所述第二最小值和所述第二最大值，确定所述图像帧集合对应的搜索范围。

在一些实施例中，该第二确定模块，还配置为：确定各个所述图像帧集合中各个参考帧中的参考目标块的位置信息，其中，所述参考目标块为所述参考帧中的任意所述目标块；通过设定的预测模式对各个预测帧的运动矢量进行预测，得到所述各个预测帧的预测运动矢量，所述预测模式包括以下至少之一：中值预测模式、上层块预测模式和原点预测模式；基于所述参考目标块的位置信息和所述预测运动矢量，确定所述各个预测帧的起始搜索点。

在一些实施例中，该运动估计模块，还配置为：针对任意所述预测帧执行以下处理：确定所述预测帧对应的第一搜索模板；以所述预测帧的起始搜索点为中心，通过所述第一搜索模板在所述预测帧中的所述搜索范围对应的搜索区域内进行搜索处理，得到所述预测帧中与所述参考目标块对应的预测目标块；确定所述参考目标块与所述预测目标块之间的纹理差异程度；当所述纹理差异程度小于差异阈值时，基于所述参考目标块的位置信息和所述预测目标块的位置信息，确定所述预测目标块对应的运动矢量。

在一些实施例中，该运动估计模块，还配置为：当所述纹理差异程度大于或者等于所述差异阈值时，确定所述预测帧中各个预测块与所述参考目标块之间的色彩差异程度和纹理差异程度，其中，所述预测块为所述预测帧中的所述搜索范围对应的搜索区域内的目标块；基于所述各个预测块与所述参考目标块之间的色彩差异程度和纹理差异程度，从所述各个预测块中确定与所述参考目标块对应的预测目标块；基于所述参考目标块的位置信息和所述预测目标块的位置信息，确定所述预测目标块对应的运动矢量。

在一些实施例中，该运动估计模块，还配置为：基于所述预测帧的预测目标块的预测运动矢量，确定所述预测帧中的前景对象的第一运动方向；基于所述前景对象的第一运动方向，确定所述预测帧对应的第一搜索模板。

在一些实施例中，该运动估计模块，还配置为：基于所述第一搜索模板确定所述搜索区域内的多个第一候选块；基于所述预测运动矢量，确定所述多个第一候选块的匹配顺序；基于所述匹配顺序，将所述多个第一候选块与所述参考目标块进行匹配处理；当所述多个第一候选块中存在与所述参考目标块匹配成功的第一候选目标块时，将所述第一候选目标块作为所述预测帧中与所述参考目标块对应的预测目标块。

在一些实施例中，该运动估计模块，还配置为：当所述多个第一候选块中不存在与所述参考目标块匹配成功的第一候选目标块时，基于第二运动方向，确定所述预测帧对应的第二搜索模板，所述第二运动方向与所述第一运动方向不同；以所述起始搜索点为中心，基于所述第二搜索模板确定所述搜索区域内的多个第二候选块；基于所述预测运动矢量，确定所述多个第二候选块的匹配顺序；基于所述匹配顺序，将所述多个第二候选块与所述参考目标块进行匹配处理；当所述多个第二候选块中存在与所述参考目标块匹配成功的第二候选目标块时，将所述第二候选目标块确定为预测目标块。

需要说明的是，本申请实施例装置的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。对于本装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

本申请实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图4示出的方法。

在一些实施例中，存储介质可以是计算机可读存储介质，例如，铁电存储器(FRAM，Ferromagnetic Random Access Memory)、只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPROM，Electrically Erasable Programmable Read Only Memory)、闪存、磁表面存储器、光盘、或光盘只读存储器(CD-ROM，Compact Disk-Read Only Memory)等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper Text Markup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

一种视频运动估计方法，由视频运动估计设备执行，包括：

获取待处理视频中的多个图像帧，对所述多个图像帧进行场景划分处理，得到多个图像帧集合，其中，各个所述图像帧集合包括至少一个图像帧；

提取各个所述图像帧集合中各个图像帧中的前景对象的轮廓特征和色彩特征；

基于各个所述图像帧集合中的前景对象的轮廓特征，确定各个所述图像帧集合对应的搜索范围；

确定各个所述图像帧集合中各个预测帧的起始搜索点；

基于所述各个预测帧的起始搜索点、参考帧中的目标块和所述前景对象的色彩特征，在所述各个预测帧中的所述搜索范围对应的搜索区域内进行运动估计处理，得到所述目标块对应的运动矢量。
根据权利要求1中所述的方法，其中，所述对所述多个图像帧进行场景划分处理，得到多个图像帧集合，包括：

确定所述多个图像帧中的背景图像区域，并确定多个所述背景图像区域之间的图像相似度；

基于多个所述背景图像区域之间的图像相似度，对所述多个图像帧进行场景划分处理，得到多个图像帧集合。
根据权利要求1中所述的方法，其中，所述提取各个所述图像帧集合中各个图像帧中的前景对象的轮廓特征和色彩特征，包括：

针对任意所述图像帧集合中任意图像帧执行以下处理：

确定所述图像帧中的前景对象所在的前景图像区域；

将所述前景图像区域的位置信息作为所述图像帧中的前景对象的轮廓特征；

基于所述前景图像区域进行色彩提取处理，得到所述图像帧中的前景对象的色彩特征。
根据权利要求3中所述的方法，其中，所述基于各个所述图像帧集合中的前景对象的轮廓特征，确定各个所述图像帧集合对应的搜索范围，包括：

针对任意所述图像帧集合执行以下处理：

基于所述图像帧集合中的各个前景图像区域的位置信息，确定所述各个前景图像区域中的顶点坐标；

从各个所述顶点坐标中，确定第一维度对应的第一最大值和第一最小值，并确定第二维度对应的第二最大值和第二最小值；

基于所述第一最小值、所述第一最大值、所述第二最小值和所述第二最大值，确定所述图像帧集合对应的搜索范围。
根据权利要求1中所述的方法，其中，所述确定各个所述图像帧集合中各个预测帧的起始搜索点，包括：

确定各个所述图像帧集合中各个参考帧中的参考目标块的位置信息，其中，所述参考目标块为所述参考帧中的任意所述目标块；

通过设定的预测模式对各个预测帧的运动矢量进行预测，得到所述各个预测帧的预测运动矢量，所述预测模式包括以下至少之一：中值预测模式、上层块预测模式和原点预测模式；

基于所述参考目标块的位置信息和所述预测运动矢量，确定所述各个预测帧的起始搜索点。
根据权利要求5中所述的方法，其中，所述基于所述各个预测帧的起始搜索点、参考帧中的目标块和所述前景对象的色彩特征，在所述各个预测帧中的所述搜索范围对应的搜索区域内进行运动估计处理，得到所述目标块对应的运动矢量，包括：

针对任意所述预测帧执行以下处理：

确定所述预测帧对应的第一搜索模板；

以所述预测帧的起始搜索点为中心，通过所述第一搜索模板在所述预测帧中的所述搜索范围对应的搜索区域内进行搜索处理，得到所述预测帧中与所述参考目标块对应的预测目标块；

确定所述参考目标块与所述预测目标块之间的纹理差异程度；

当所述纹理差异程度小于差异阈值时，基于所述参考目标块的位置信息和所述预测目标块的位置信息，确定所述预测目标块对应的运动矢量。
根据权利要求6中所述的方法，其中，所述方法还包括：

当所述纹理差异程度大于或者等于所述差异阈值时，确定所述预测帧中各个预测块与所述参考目标块之间的色彩差异程度和纹理差异程度，其中，所述预测块为所述预测帧中的所述搜索范围对应的搜索区域内的目标块；

基于所述各个预测块与所述参考目标块之间的色彩差异程度和纹理差异程度，从所述各个预测块中确定与所述参考目标块对应的预测目标块；

基于所述参考目标块的位置信息和所述预测目标块的位置信息，确定所述预测目标块对应的运动矢量。
根据权利要求6中所述的方法，其中，所述确定所述预测帧对应的第一搜索模板，包括：

基于所述预测帧的预测目标块的预测运动矢量，确定所述预测帧中的前景对象的第一运动方向；

基于所述前景对象的第一运动方向，确定所述预测帧对应的第一搜索模板。
根据权利要求8中所述的方法，其中，所述通过所述第一搜索模板在所述预测帧中的所述搜索范围对应的搜索区域内进行搜索处理，得到所述预测帧中与所述参考目标块对应的预测目标块，包括：

基于所述第一搜索模板确定所述搜索区域内的多个第一候选块；

基于所述预测运动矢量，确定所述多个第一候选块的匹配顺序；

基于所述匹配顺序，将所述多个第一候选块与所述参考目标块进行匹配处理；

当所述多个第一候选块中存在与所述参考目标块匹配成功的第一候选目标块时，将所述第一候选目标块作为所述预测帧中与所述参考目标块对应的预测目标块。
根据权利要求9中所述的方法，其中，所述方法还包括：

当所述多个第一候选块中不存在与所述参考目标块匹配成功的第一候选目标块时，基于第二运动方向，确定所述预测帧对应的第二搜索模板，所述第二运动方向与所述第一运动方向不同；

以所述起始搜索点为中心，基于所述第二搜索模板确定所述搜索区域内的多个第二候选块；

基于所述预测运动矢量，确定所述多个第二候选块的匹配顺序；

基于所述匹配顺序，将所述多个第二候选块与所述参考目标块进行匹配处理；

当所述多个第二候选块中存在与所述参考目标块匹配成功的第二候选目标块时，将所述第二候选目标块确定为预测目标块。
一种视频运动估计装置，包括：

第一获取模块，配置为获取待处理视频中的多个图像帧，对所述多个图像帧进行场景划分处理，得到多个图像帧集合，其中，各个所述图像帧集合包括至少一个图像帧；

特征提取模块，配置为提取各个所述图像帧集合中各个图像帧中的前景对象的轮廓特征和色彩特征；

第一确定模块，配置为基于各个所述图像帧集合中的前景对象的轮廓特征，确定各个所述图像帧集合对应的搜索范围；

第二确定模块，配置为确定各个所述图像帧集合中各个预测帧的起始搜索点；

运动估计模块，配置为基于所述各个预测帧的起始搜索点、参考帧中的目标块和所述前景对象的色彩特征，在所述各个预测帧中的所述搜索范围对应的搜索区域内进行运动估计处理，得到所述目标块对应的运动矢量。
一种视频运动估计设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至10任一项所述的视频运动估计方法。
一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现权利要求1至10任一项所述的视频运动估计方法。
一种计算机程序产品，包括计算机程序或指令，所述计算机程序或指令使得计算机执行如权利要求1至10任一项所述的视频运动估计方法。