WO2013013548A1

WO2013013548A1 - 基于h.264运动估计算法的初始点获取方法及装置

Info

Publication number: WO2013013548A1
Application number: PCT/CN2012/077466
Authority: WO
Inventors: 朱凯迪
Original assignee: 中兴通讯股份有限公司
Priority date: 2011-07-26
Filing date: 2012-06-25
Publication date: 2013-01-31
Also published as: CN102263958A

Abstract

本发明公开了一种基于H.264运动估计算法的初始点获取方法及装置，该方法包括以下步骤：在初始点预测时，通过磁力跟踪器获取摄像头的运动状态，根据摄像头的运动状态确定视频场景的运动矢量；将视频场景的运动矢量和非对称十字型多层次六边形格点搜索算法的运动估计矢量合成，得到最终预测矢量，并根据最终预测矢量和待预测块的坐标获得初始点的坐标。通过本发明节约了运动估计时间，提到搜索效率。

Description

基于 H.264运动估计算法的初始点获取方法及装置技术领域本发明涉及视频编码领域，尤其涉及一种基于 H.264运动估计算法的初始点获取方法及装置、终端设备。背景技术

H.264 标准并不明确规定一个编码器应该如何实现，而是规定一个编了码的视频比特流的句法和该比特流的解码方法，在实现上具有较大的灵活性。 H.264 标准一般采用变换和预测的混合编码法。运动估计，就是根据运动对象的空间相关性和时间相关性，通过相邻帧或是相邻块的运动矢量来估计当前宏块的运动矢量，通过该运动矢量找到搜索中心，再通过运动搜索算法找出最佳匹配块，然后保留运动矢量和残差帧数据。常见的固定模式运动估计算法有：三步搜索法（Three Step Search, 简称为 TSS)、二维对数法 (Two Dimensional Logarithmic Search, 简称为 TDLS)、共轭方向搜索法 (Conjugate Direction Search,简称为 CDS)、四步搜索法 (Four Step Search,简称为 FSS；)、菱形搜索法（Diamond Search,简称为 DS)、运动矢量场自适应搜索（Motion Vector Field Adaptive Search Technique, 简称为 MVFAST)算法、可预测运动矢量场自适应搜索技术（Predictive Motion Vector Field Adaptive Search Technique, 简称为 PMVFAST)算法和非对称十字型多层次六边形格点搜索（Unsymmetrical-Cross Muti-Hexa-gon Search, 简称为 UMHexagonS) 算法。其中， UMHexagonS算法采用了不同搜索模版混合的方法，能够很好地适用各种运动场景，具有良好的性能和较少的运算量。传统的运动估计算法通常都是以本帧所在的视频序列为参考，通过对前后帧的时间和空间相关性进行运动估计。大多数的优化工作也建立在此基础上，例如，初始点预测优化和搜索路径优化。在相关技术中，提供了一种基于矢量加权中值滤波的快速分层运动估计算法，该算法运用加权的算法来处理相邻的块的运动矢量，所得运动矢量可保护上层运动估算中出错的矢量，提高了运动估计的精确性。在相关技术中，还提供了一种自适应确定搜索范围的方法，该方法利用运动矢量场的空域，时域相关性动态计算搜索范围，提高了运动场景变化时的运动估计的灵活性。但是，以上二种算法在摄像头发生移动时，运动估计不够准确。在视频的采集过程中，经常发生摄像头移动的情况，摄像头的移动致使采集到的视频场景的移动。然而，已有的视频编码只能通过帧之间的智能分析辨别场景的变化，这样会导致在运动估计过程中搜索起始点不够精确。发明内容本发明的主要目的在于提供一种基于 H.264运动估计算法的初始点获取方案，以至少解决上述相关技术中在摄像头发生移动时运动估计不够精确的问题。为了实现上述目的，根据本发明的一种方面，提供了一种基于 H.264运动估计算法的初始点获取方法。根据本发明的基于 H.264运动估计算法的初始点获取方法，包括以下步骤：在初始点预测时，获取摄像头的运动状态，根据摄像头的运动状态确定视频场景的运动矢量；将视频场景的运动矢量和非对称十字型多层次六边形格点搜索算法的运动估计矢量合成，得到最终预测矢量，并根据最终预测矢量和待预测块的坐标获得初始点的坐标。优选地，获取摄像头的运动状态包括：通过安装在摄像头上的磁力跟踪器的接收器获取摄像头的六自由度数据，并依据摄像头的六自由度数据得到摄像头的运动状态。优选地，摄像头的六自由度数据包括摄像头的空间坐标和摄像头的空间旋转角度。优选地，根据摄像头的运动状态确定视频场景的运动矢量包括：根据摄像头的运动状态判断视频场景是否移动；在视频场景移动的情况下，确定视频场景的运动矢量。优选地，将视频场景的运动矢量和运动估计矢量合成之前，还包括：通过前两参考宏块的运动估计得到当前宏块的运动估计矢量。优选地，根据最终预测矢量和待预测块的坐标获得初始点的坐标之后，该方法还包括：使用非对称十字型多层次六边形格点搜索算法的搜索路径对初始点进行运动搜索，以找出前一帧对应宏块的最佳匹配块。优选地，视频场景的运动矢量为场景变化时的视频序列的运动矢量。为了实现上述目的，根据本发明的另一方面，还提供了一种基于 H.264运动估计算法的初始点获取装置。根据本发明的基于 H.264运动估计算法的初始点获取装置，包括：获取模块，设置为在初始点预测时，获取摄像头的运动状态，根据摄像头的运动状态确定视频场景的运动矢量；合成模块，设置为将视频场景的运动矢量和非对称十字型多层次六边形格点搜索算法的运动估计矢量合成，得到最终预测矢量；确定模块，设置为根据最终预测矢量和待预测块的坐标获得初始点的坐标。优选地，获取模块还设置为通过安装在摄像头上的磁力跟踪器的接收器获取摄像头的六自由度数据，并依据摄像头的六自由度数据得到摄像头的运动状态。为了实现上述目的，根据本发明的再一方面，还提供了一种终端设备。根据本发明的终端设备，包括上述的基于 H.264运动估计算法的初始点获取装置。通过本发明，采用通过磁力跟踪器获取摄像头的运动状态的方式，解决了相关技术中在摄像头发生移动时运动估计不够精确的问题，节约了运动估计时间，提高了搜索效率。附图说明此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图

图 1是根据本发明实施例的基于 H.264运动估计算法的初始点获取方法的流程图；图 2是根据本发明实施例的基于 H.264运动估计算法的初始点获取装置的结构框

图 3是根据本发明实施例的场景移动的对比示意图; 图 4是根据本发明实施例的矢量对称示意图; 图 5是根据本发明实施例的算法流程图; 图 6是根据本发明实施例的 foreman序列每帧平均估计时间的示意图。具体实施方式下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。根据本发明实施例，提供了一种基于 H.264运动估计算法的初始点获取方法。图 1是根据本发明实施例的基于 H.264运动估计算法的初始点获取方法的流程图，如图 1 所示，包括以下步骤：步骤 S102, 在初始点预测时，获取摄像头的运动状态，根据摄像头的运动状态确定视频场景的运动矢量；步骤 S104 , 将视频场景的运动矢量和非对称十字型多层次六边形格点搜索 (UMHexagonS) 算法的运动估计矢量合成，得到最终预测矢量；步骤 S106, 根据最终预测矢量和待预测块的坐标获得初始点的坐标。通过上述步骤，采用通过磁力跟踪器获取摄像头的运动状态的方式，解决了相关技术中在摄像头发生移动时运动估计不够精确的问题，节约了运动估计时间，提高了搜索效率。优选地，在步骤 S102中，可以通过安装在摄像头上的磁力跟踪器的接收器获取摄像头的六自由度数据，并依据摄像头的六自由度数据得到摄像头的运动状态。该方法可以提高获取摄像头移动的精度。优选地，摄像头的六自由度数据包括摄像头的空间坐标和摄像头的空间旋转角度。优选地，在步骤 S102中，根据摄像头的运动状态确定视频场景的运动矢量包括：根据摄像头的运动状态判断视频场景是否移动；在视频场景移动的情况下，确定视频场景的运动矢量。该方法可以提高系统的有效性。优选地，在步骤 S104之前，可以通过前两参考宏块的运动估计得到当前宏块的运动估计矢量。优选地，在前两参考宏块预测得到当前宏块的运动估计矢量和摄像头移动造成场景运动矢量之后，可以使用非对称十字型多层次六边形格点搜索算法的搜索路径进行运动搜索，以找出最佳匹配块。该方法可以提高系统的效率。优选地，上述视频场景的运动矢量为场景变化时的视频序列的运动矢量。对应于上述方法，本实施例还提供了一种基于 H.264运动估计算法的初始点获取装置。图 2是根据本发明实施例的基于 H.264运动估计算法的初始点获取装置的结构框图，如图 2所示，该装置 20包括：获取模块 22，设置为在初始点预测时，获取摄像头的运动状态，根据摄像头的运动状态确定视频场景的运动矢量；合成模块 24，耦合至获取模块 22，设置为将视频场景的运动矢量和非对称十字型多层次六边形格点搜索算法的运动估计矢量合成，得到最终预测矢量；确定模块 26，耦合至合成模块 24，设置为根据最终预测矢量和待预测块的坐标获得初始点的坐标。通过上述装置，采用通过磁力跟踪器获取摄像头的运动状态的方式，解决了相关技术中在摄像头发生移动时运动估计不够精确的问题，节约了运动估计时间，提高了搜索效率。优选地，获取模块 22还设置为通过安装在摄像头上的磁力跟踪器的接收器获取摄像头的六自由度数据，并依据摄像头的六自由度数据得到摄像头的运动状态。优选地，磁力跟踪器可以包括发射器、接收器和计算单元。根据本发明实施例，还提供了一种终端设备，包括上述的基于 H.264运动估计算法的初始点获取装置。下面结合优选实施例和附图对上述实施例的实现过程进行详细说明。实施例一在运动估计中可知，场景的移动和运动矢量具有相关性，本实施例通过磁力跟踪器获取摄像头运动的状态，并提供给运动估计算法参考，可在场景发生变化时，精确地预测搜索起始点，从而节约运动估计时间，提高搜索效率。在实施过程中，磁力跟踪器可以由发射器、接收器、计算单元构成，由它获得一个六自由度位置数据。将磁力跟踪器的接收端安装在摄像头上，通过对六自由度数据的处理可获取摄像头的运动产生的运动矢量。图 3是根据本发明实施例一的场景移动的对比示意图，如图 3所示，左侧一列为摄像头静止状态下拍摄水平向右移动小汽车的相邻三帧，右侧一列为摄像头在第三帧时，水平向右移动状态下拍摄小汽车（速度因素同左侧一列）的相邻三帧。比较图 3 两列图片可知， MV1=MV2=MV3>MV4。 S卩，当摄像头以小车相同方向移动时，相同速度的小车运动矢量反映在视频序列中变小了；当摄像头速度大于小车速度时，相同速度的小车运动矢量反映在视频序列中甚至可以反方向。定义 Frame (Μ,Ν) 为图 4中 M行 N列的帧，则 Frame (3,2) 中小车块根据参考帧 Frame ( 1,2)、 Frame (2,2) 所得的小车块所在的位置应为 Frame (3,1 ) 中的位置。定义 MV。_amera=MV2-MV4，则 MV。_amera就为摄像头状态改变反映在图像上的运动矢量。当 MV4<0， BP , 由于摄像头的运动，小车在视频序列中向实际运动方向的反方向运动。此时，根据 UMhexagonS算法所得运动矢量仍为 MV2，即仍认为视频序列中的小车按实际运动方向运行，从而导致运动搜索所得求和绝对误差（Sum of Absolute Difference, 简称为 SAD) 局部最小值概率增大。假设通过磁力跟踪器获取的场景运动产生的矢量为 MVa，而通过运动估计算法得到当前块 Currentblock估计运动矢量为 MVb，根据矢量的合成算法可得到运动矢量 MVc=F(MVa, MVb), 即公式（1 ):

MV_c = ^MV_a ² + MV_b ² + 2MV ^V_h cos 6»

(1) 其中，为 MVc与 MVa的夹角。图 4是根据本发明实施例一的矢量对称示意图，如图 4所示，当采用邻近参考帧运动矢量预测时，引入磁力跟踪器所获场景运动矢量进行运动估计，可得运动状态下的运动矢量计算式，如公式（2):

MV _d ΛΗΡ = F(MV_m x , - MV_camer)

- t - t (2) 其中， ^为前两个参考宏块的相对位置矢量，：为摄像头的运动矢量， t 和 f分别为前两宏块的时间。摄像头移动矢量转换到图像上的转换关系如图 4所示。其中，点 1为实际物体位置，点 2点 3分别是点 1在图像上对应位置。梯形为摄像头， h为成像物体到摄像头的距离， f为摄像头到成像面的距离。假设摄像头从位置 l(_X,y,z,a,b,_C)移动到位置 2(x+

Ax,y+Ay,z,a,b,c),则摄像头产生的运动矢量反映到图像上就为： S2 - Sl= ^(Ax'^Awf (可参见图 4)。在实施过程中，详细的算法实现可以包括如下步骤：步骤 1，通过磁力跟踪器获取摄像头状态。例如，使用队列来存储摄像头的状态，设每秒采集 N帧图像，则每 1/N秒去除六自由度数据抖动后将其存入队列（Queue 六自由度数据存贮格式可以为： Data{x,y,z,a,b,c} ,其中， x、 y、 z为摄像头的空间坐标， a、 b、 c为空间旋转角度。步骤 2，在 UMHexagonS算法起始点预测时，判断场景是否移动。例如，判断场景是否移动可以判断 Queue.getdataOQueue.getdataO是否小于指定阈值，其中，阈值可以根据磁力跟踪器的本身误差来设定，本实施例可以设定为 0.5。步骤 3，通过磁力跟踪器获取场景运动矢量。其中，水平移动的运动矢量为： MV 水平 = Queue.getdata( ).x-Queue.getdata( ).x; 垂直移动的运动矢量为： MV 垂直 =Queue.getdata( ).y-Queue.getdata( ).y。贝 U MVcamera=F(MV水平， MV垂直)。步骤 4，矢量合成。将步骤 3获得的 -MVcamer和 UMHexagonS运动估计矢量进行合成得到矢量 MVlast。则初始点为： X=currentX+MVlast.X， Y=currentY+MVlast.Y。其中，（currentX, current Y)为待预测块的坐标。步骤 5，使用 UMHexagonS搜索路径进行运动搜索找出最佳匹配块保存残差帧和 MVlast。步骤 6，判断视频序列是否结束，没有结束返回步骤 1。在本实施例中，对 H.264视频压缩算法运动估计进行了改进，增加了摄像头状态的参考因素，通过磁力跟踪器来获取摄像头的状态，增加了场景发生移动时运动估计的智能性。实施例二图 5是根据本发明实施例二的算法流程图，如图 5所示，该算法流程包括以下步骤：步骤 S502, 磁力跟踪器获取摄像头状态。步骤 S504, 判断场景是否移动。例如，判断 Queue.getdataOQueue.getdataO是否小于指定阈值。如果是，进入步骤 S506, 否则，进入步骤 S510。步骤 S506，计算摄像头运动矢量。步骤 S508, 预测矢量合成。需要说明的是，在"计算摄像头运动矢量"、 "预测矢量合成"的步骤中均运用公式（2)，预测矢量合成后获得初始点，进入步骤 S510。步骤 S510，运用" UMHexagonS算法"进行运动估计直到视频序列结束。本实施例的实验环境为 JVT (参考代码 JM.17.0版本），由于本实施例要求场景移动，所以选取视频序列 foreman, 在其中选取两组：一组为视频序列运动矢量平缓的 166-186帧，另一组为无场景运动的 100-120帧，并在 forman视频序列发生场景移动时，预先加入六自由度位置数据，以保证实验性能纵向可比性，设置多参考帧模式，量化参数 QP设置为 28，搜索算法采用 UMhexagonS。实验测得 166-186帧设置的六自由度数据如下： {1.0,0.1,0.1,0.3,0.1,0.2} {2.0,0.2,0.1,0.1,0.2,0.1}

{3.0,0.1,0.1,0.1,0.1,0.1} {4.0,0.2,0.3,0.6,0.1,0.1}

{5.0,0.10.2,0.7,0.4,0.3} {6.0,0.1,0.2,0.1,0.1,0.1}

{7.0,0.3,0.2,0.1,0.3,0.2} {8.0 ,0.3,0.4,0.2,0.1,0.5}

{9.0,0.3,0.4,0.2,0.1,0.1} {10.0,0.2,0.3,0.1,0.2,0.4}

{11.0,0.5,0.4,0.2,0.3,0.1} {12.0,0.1,0.2,0.4,0.2,0.3}

{13.0,0.5,0.2,0.1,0.1,0.1} {14.0,0.1,0.2,0.4,0.1,0.2}

{15.0,0.2,0.3,0.4,0.1,0.1}

表 1: (166-186) 对比结果改进后改进前

Frame Time(ms) MET(ms) Time(ms) MET(ms)

166 1502 5 1530 10

168 1421 0 1435 3

170 1498 10 1538 15

172 1702 3 1733 7 174 1697 8 1729 13

176 1732 10 1791 14

178 1812 19 1824 23

180 1856 22 1904 25

182 1895 11 1934 12

184 1847 6 1892 8

186 1862 8 1873 12

表 2: ( 100-120) 对比结果

图 6是根据本发明实施例二的 foreman序列每帧平均估计时间的示意图，如图 6 所示，是对整个视频 300帧压缩时间的统计。采用峰值信噪比 (PSNR)的变化、编码的加速度作为实验的结果与标准代码的结果进行比较仿真实验结果如下：表 3 : 改进效果表

序列 PSNR下降 (dB) 时间下降百分比

news 0.03 -0.02%

slient -0.01 -0.19%

foreman 0.02 4.19% 从表 1和表 2中可以得知，在引入六自由度数据后，虽然增加了计算六自由度的时间，但该时间小于提高运动估计精度后节约的时间，平均节约原始算法时间的 5%。表 3表明在在没有发生场景变换的视频序列（news, slient) 中，由于增加了场景判断的过程所以压缩时间并没有减少，而对有场景变换的序列（foreman) 中，较好地节约了压缩时间。图 6表明在 foreman序列中，在 165帧之后场景序列发生变化时，较好减少每帧的运动估计时间。实验结果表明改进后算法在保持运动估计性能的同时，提高了场景发生改变时运动估计的精度，对场景变化较频繁的视频率序列同样较好地提高了搜索精度。可见，本实施例提供的算法可以在保持比特率不变的情况下，很好地降低对 foreman视频序列了运算时间，而对 slient, news等没有发生场景变化的序列效果可能不太明显。即，本实施例中提供的算法适合场景变化较频繁的视频序列，适用于具有预置点的交通监控视频压缩。综上所述，本发明实施例是一种改进的基于 H.264 运动估计算法，在深入研究 H.264 算法的基础上，跳出单一的以视频序列为预测环境的模式，引入了磁力跟踪器作为参考对象，并和先进的 UMhexagonS算法相结合进行运动估计。通过本发明实施例，磁力跟踪器可将摄像头的运动状态反映到运动估计算法中，运动估计算法通过磁力跟踪器数据，可在视频场景发生变化时，避免无效运动估计的，提高了运动估计的精度。显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

权利要求书

1. 一种基于 H.264运动估计算法的初始点获取方法，包括以下步骤：在初始点预测时，获取摄像头的运动状态，根据所述摄像头的运动状态确定视频场景的运动矢量；

将所述视频场景的运动矢量和非对称十字型多层次六边形格点搜索算法的运动估计矢量合成，得到最终预测矢量，并根据所述最终预测矢量和待预测块的坐标获得所述初始点的坐标。

2. 根据权利要求 1所述的方法，其中，获取所述摄像头的运动状态包括：

通过安装在所述摄像头上的所述磁力跟踪器的接收器获取所述摄像头的六自由度数据，并依据所述摄像头的六自由度数据得到所述摄像头的运动状态。

3. 根据权利要求 2所述的方法，其中，所述摄像头的六自由度数据包括所述摄像头的空间坐标和所述摄像头的空间旋转角度。

4. 根据权利要求 1所述的方法，其中，根据所述摄像头的运动状态确定所述视频场景的运动矢量包括：

根据所述摄像头的运动状态判断所述视频场景是否移动；

在所述视频场景移动的情况下，确定所述视频场景的运动矢量。

5. 根据权利要求 1所述的方法，其中，将所述视频场景的运动矢量和所述运动估计矢量合成之前，还包括：

通过前两参考宏块的运动估计得到当前宏块的所述运动估计矢量。

6. 根据权利要求 1所述的方法，其中，根据所述最终预测矢量和待预测块的坐标获得所述初始点的坐标之后，还包括：

使用所述非对称十字型多层次六边形格点搜索算法的搜索路径对所述初始点进行运动搜索，以找出前一帧对应宏块的最佳匹配块。

7. 根据权利要求 1至 6中任一项所述的方法，其中，所述视频场景的运动矢量为场景变化时的视频序列的运动矢量。

8. 一种基于 H.264运动估计算法的初始点获取装置，包括：获取模块，设置为在初始点预测时，获取摄像头的运动状态，根据所述摄像头的运动状态确定视频场景的运动矢量；

合成模块，设置为将所述视频场景的运动矢量和非对称十字型多层次六边形格点搜索算法的运动估计矢量合成，得到最终预测矢量；

确定模块，设置为根据所述最终预测矢量和待预测块的坐标获得所述初始点的坐标。

9 根据权利要求 8所述的装置，其中，所述获取模块还设置为通过安装在所述摄像头上的所述磁力跟踪器的接收器获取所述摄像头的六自由度数据，并依据所述摄像头的六自由度数据得到所述摄像头的运动状态。

10. 一种终端设备，包括权利要求 8或 9所述的初始点获取装置。