WO2019157922A1

WO2019157922A1 - 一种图像处理方法、装置及ar设备

Info

Publication number: WO2019157922A1
Application number: PCT/CN2019/072918
Authority: WO
Inventors: 李中源; 刘力; 张小军
Original assignee: 视辰信息科技(上海)有限公司
Priority date: 2018-02-13
Filing date: 2019-01-24
Publication date: 2019-08-22
Also published as: CN108510520A; CN108510520B

Abstract

本发明实施例提供一种图像处理方法、装置及AR设备，在连续的视频帧图像序列中确定连续的第一帧图像和第二帧图像，其中，所述第二帧图像为当前帧图像，第一帧图像为所述第二帧图像的上一帧图像；以所述第一帧图像的目标区域为模板确定所述目标区域在所述第二帧图像的位置信息；以所述位置信息为迭代初值对所述第一帧图像和所述第二帧图像进行整图对齐的迭代处理；其中，所述第一帧图像和所述第二帧图像的整图对齐的迭代处理使用鲁棒误差函数进行迭代。本发明实施例所公开的图像处理方法、装置及AR设备，提高了整个系统追踪的成功率。

Description

一种图像处理方法、装置及AR设备

技术领域

本发明实施例涉及计算机视觉效果领域，尤其涉及一种图像处理方法、装置及AR设备。

背景技术

目标跟踪是计算机视觉研究领域的热点之一，并得到广泛应用。比如视频监控、车流量监控、无人驾驶、人脸识别、增强现实技术(Augmented Reality，AR)等。例如，相机的跟踪对焦、无人机的自动目标跟踪等都需要用到了目标跟踪技术。另外特定物体的跟踪，比如人体跟踪，交通监控系统中的车辆跟踪，人脸跟踪和智能交互系统中的手势跟踪等，都需要利用目标跟踪技术。

目标跟踪就是在连续的视频序列中，建立所要跟踪物体的位置关系，得到物体完整的运动轨迹，给定图像第一帧的目标坐标位置，计算在下一帧图像中目标的确切位置。在运动的过程中，目标可能会呈现一些图像上的变化，比如位置或形状的变化、尺度的变化、背景遮挡或光线亮度的变化等。目标跟踪算法的研究也围绕着解决这些变化和具体的应用展开。

一个完整的目标跟踪过程是首先检测出目标所在的位置，然后再进行追踪。忽略掉计算量的考量，通过检测代替跟踪的方式具有更高的准确性，即在每一帧中都采用检测的方式确定目标的位置。但是检测的计算量一般远超跟踪需求量。在现有的硬件条件下，投入市场的应用中，多采取追踪的方式进行目标追踪。

整图对齐更够在大幅度位移与抖动的情况下为后续的特征跟踪(feature tracking)提供更精确的初始值，确保特征跟踪的成功，输出最后精确的位置。目前，整图对齐是通过连续两帧之间的图像进行迭代对齐，不需要提取图像中的特征信息，也不需要显著平面等信息，因为整图中同时包含了目标信息和背景信息，所以整图对齐才会受到非目标区域(即背景)的干扰。

但是，现有技术的整图对齐中，由于相机移动或物体移动，两帧之前图像并不完全一致，在两帧图像背景差异过大的情况下，追踪的成功率比较低。

发明内容

本发明多个方面提供一种图像处理方法、装置及AR设备，可以提高整个系统追踪的成功率。

本发明的一方面提供了一种图像处理方法，包括：

在连续的视频帧图像序列中确定连续的第一帧图像和第二帧图像，其中，第一帧图像为所述第二帧图像的上一帧图像；

以所述第一帧图像的目标区域为模板确定所述目标区域在所述第二帧图像的位置信息；

以所述位置信息为迭代初值对所述第一帧图像和所述第二帧图像进行整图对齐的迭代处理；

其中，所述第一帧图像和所述第二帧图像的整图对齐的迭代处理使用鲁棒误差函数进行迭代。

优选地，所述第一帧图像和所述第二帧图像的整图对齐的迭代处理使用鲁棒误差函数作为惩罚函数进行迭代的目标函数为：

其中，ρ为鲁棒误差函数；W为位姿变换函数，包含两个参数；x为图像的像素点在图像中的坐标；p为位姿的变换系数；Δp为位姿变换系数p的更新量；W(x；Δp)表示位姿变换函数，该位姿变换函数的两个参数分别是x和Δp；W(x；p)表示位姿变换函数，该位姿变换函数的两个参数分别是x和p；T(W(x；Δp))表示坐标x在所述第一帧图像上经过Δp变换后的像素值；I(W(x；p))表示坐标x在所述第二帧图像上经过p变换后的像素值；σ为尺度参数向量，用于控制鲁棒误差函数对误差的惩罚力度。

其中，ρ为鲁棒误差函数；W为位姿变换函数，包含两个参数；x为图像的像素点在图像中的坐标；p为位姿的变换系数；Δp为位姿变换系数p的更新量；W(x；p+Δp)表示位姿变换函数，该位姿变换函数的两个参数分别是坐标x和变换参数p+Δp；I(W(x；p+Δp))表示坐标x在第二帧图像上经过p+Δp变换后的像素值；T(x)表示坐标x在第一帧图像中的像素值；σ为尺度参数向量，用于控制鲁棒误差函数对误差的惩罚力度。

其中，ρ为鲁棒误差函数；W为位姿变换函数，包含两个参数；x为图像的像素点在图像中的坐标；p为位姿的变换系数；Δp为位姿变换系数p的更新量；W(x；Δp)表示位姿变换函数，该位姿变换函数的两个参数分别是坐标x和变换参数Δp；W((W(x；Δp))；p)表示位姿变换函数，该位姿变换函数的两个参数是W(x；Δp)和p；I(W((x；Δp))；p))表示坐标x先经过Δp位姿变换，再经过p位姿变换后在第二帧图像上的像素值；T(x)表示坐标x在第一帧图像中的像素值；σ为尺度参数向量，用于控制鲁棒误差函数对误差的惩罚力度。

其中，ρ为鲁棒误差函数；W为位姿变换函数，包含两示个参数；x为图像的像素点在图像中的坐标；p为位姿的变换系数；W(x；p)表示位姿变换函数，该位姿变换函数的两个参数分别是x和p；I(W(x；p))表示坐标x经过p位姿变换后在所述第二帧图像上的像素值；T(x)表示坐标x在第一帧图像中的像素值；σ为尺度参数向量，用于控制鲁棒误差函数对误差的惩罚力度。

优选地，满足以下几个函数条件的函数为所述鲁棒误差函数：

a)ρ(t，σ)对于任意t，始终大于零；

b)对于t小于等于零时，ρ(t，σ)始终满足单调递减；

c)对于t大于等于零时，ρ(t，σ)始终满足单调递增；

d)ρ(t，σ)是分段可微分的；

e)ρ(t，σ)单调递增(递减)的时候其值增长幅度小于t ²，大于|t|；

其中，t表示鲁棒误差函数的参数，σ为尺度参数向量，用于控制鲁棒误差函数对误差的惩罚力度。

优选地，所述鲁棒误差函数为：

或，

其中，t表示鲁棒误差函数的参数，σ为尺度参数向量，用于控制鲁棒误差函数对误差的惩罚力度，σ ₁为鲁棒误差函数中设置的阈值。

优选地，在完成所述迭代处理之后，所述方法还包括：

在所述第二帧图像中通过特征追踪匹配的方式追踪到所述目标区域中的至少一个目标的位置。

优选地，所述方法还包括：

在所述第一帧图像上确定目标特征的位姿信息，根据所述目标特征的所述位姿信息确定所述第一帧图像的所述目标区域。

优选地，所述第一帧图像为模板图像，所述第二帧图像为当前帧图像。

本发明的另一方面提供了一种图像处理装置，包括：

收发器，用于获取连续的视频帧图像序列；

处理器，用于在所述连续的视频帧图像序列中确定连续的第一帧图像和第二帧图像，第一帧图像为所述第二帧图像的上一帧图像；以所述第一帧图像的目标区域为模板确定所述目标区域在所述第二帧图像的位置信息；以所述位置信息为迭代初值对所述第一帧图像和所述第二帧图像进行整图对齐的迭代处理；

其中，ρ为鲁棒误差函数；W为位姿变换函数，包含两个参数；x为图像的像素点在图像中的坐标；p为位姿的变换系数；Δp为位姿变换系数p的更新量； W(x；Δp)表示位姿变换函数，该位姿变换函数的两个参数分别是坐标x和变换参数Δp；W((W(x；Δp))；p)表示位姿变换函数，该位姿变换函数的两个参数是W(x；Δp)和p；I(W((W(x；Δp))；p))表示坐标x先经过Δp位姿变换，再经过p位姿变换后在第二帧图像上的像素值；T(x)表示坐标x在第一帧图像中的像素值；σ为尺度参数向量，用于控制鲁棒误差函数对误差的惩罚力度。

其中，ρ为鲁棒误差函数；W为位姿变换函数，包含两个参数；x为图像的像素点在图像中的坐标；p为位姿的变换系数；W(x；p)表示位姿变换函数，该位姿变换函数的两个参数分别是x和p；I(W(x；p))表示坐标x经过p位姿变换后在所述第二帧图像上的像素值；T(x)表示坐标x在第一帧图像中的像素值；σ为尺度参数向量，用于控制鲁棒误差函数对误差的惩罚力度。

a)ρ(t，σ)对于任意t，始终大于零；

b)对于t小于等于零时，ρ(t，σ)始终满足单调递减；

c)对于t大于等于零时，ρ(t，σ)始终满足单调递增；

d)ρ(t，σ)是分段可微分的；

优选地，所述鲁棒误差函数为：

或，

优选地，所述处理器还用于，在完成所述迭代处理之后，在所述第二帧图像中通过特征追踪匹配的方式追踪到所述目标区域中的至少一个目标的位置。

优选地，所述处理器还用于，在所述第一帧图像上确定目标特征的位姿信息，根据所述目标特征的所述位姿信息确定所述第一帧图像的所述目标区域。

本发明的另一方面提供了一种AR设备，包括前述任意一项所述图像处理装置。

上述描述的图像处理方法、装置及AR设备，对图像采用基于鲁棒函数的迭代方式进行处理，通过鲁棒误差函数迭代为最后的特征匹配追踪提供非常好的初值，极大的提高特征匹配追踪的成功率，因而提高了整个系统追踪的成功率。

附图说明

图1为本发明一实施例的一种图像处理方法的流程示意图；

图2为本发明另一实施例的鲁棒误差函数曲线和二次项曲线对比图；

图3为本发明另一实施例的一种图像处理装置的结构示意图；

图4为本发明另一实施例的一种AR能力光谱的技术体系示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。另外，本文中术语“系统”和“网络”在本文中常被可互换使用。

如图1所示，本发明一实施例提供了一种图像处理方法，图像处理装置可以从一段video中读取一系列的视频帧图像序列，这段video可以是实时录制的，也可以是提前录制好储存在特定设备上(磁盘，内存等)的，也可以是由摄像头等感光设备实时拍摄传入所述图像处理装置。所述图像处理方法可以在具有执行计算能力的芯片上面执行，即所述图像处理装置可以为一台电脑，也可以是一台便携移动设备(比如手机等)。

步骤101，在连续的视频帧图像序列中确定连续的第一帧图像和第二帧图像。

其中，所述第二帧图像为当前帧图像(currentframe)，第一帧图像为所述第二帧图像的上一帧图像(lastframe)且作为模板帧图像。

步骤102，在所述第一帧图像确定目标特征的位姿信息，根据所述目标特征的所述位姿信息确定目标区域。

例如，从上一帧的位姿信息中，提取出目标区域，以此目标区域为模板，在低分辨率的当前帧图像中进行搜索，确定目标区域的位姿信息，作为迭代初值提供给整图对齐的处理流程中。其中，所述位姿信息包含位置信息和/或姿态信息，所述姿态信息可以包括：形状的变换信息、尺度的变化信息和旋转的信息中的至少一个，所述形状的变换信息包括因视角转变引起的形状的变换信息，所述尺度的变化信息包括由远近变化引起的尺度的变化。在本发明的另一实施例中，所述位姿一般是六个自由度，包含位移和旋转两个部分，例如，物体在视野中存在旋转或透视等一系列变换而产生位姿信息。

步骤103，以所述第一帧图像的所述目标区域为模板在所述第二帧图像确定所述目标区域在所述第二帧图像的位置信息。

步骤104，以所述位置信息为迭代初值对所述第一帧图像和所述第二帧图像进行整图对齐的迭代处理。

例如，所述迭代处理采用Lukas-Kanada(LK)迭代算法，所述第一帧图像和所述第二帧图像的整图对齐的迭代处理使用鲁棒误差函数(Robust Error Function)ρ(t，σ)进行迭代，其中，t表示鲁棒误差函数的参数，σ为尺度参数向量，用于控制鲁棒误差函数对误差的惩罚力度。

例如，所述LK迭代算法的具体实施方式不作限定，可以包含多种具体算法，例如，Forward Additive算法、Inverse Compositional算法、Forward Compositional算法或Efficient Second-order minimization(ESM)算法。

Lucas-kanada(LK)迭代算法即常见的光流算法，光流算法本身又分为稠密光流算法与稀疏光流算法。本实施例所采用的算法为稠密光流算法，例如，Inverse Compositional算法。

在本实施例中，所述第一帧图像和所述第二帧图像的整图对齐的迭代处理可以使用鲁棒误差函数结合光流算法进行迭代，在一个优选的方案中，所述第一帧图像和所述第二帧图像的整图对齐的迭代处理可以使用鲁棒误差函数结合稠密光流算法进行迭代。

在本发明的另一实施例中，所述第一帧图像和所述第二帧图像的整图对齐的迭代处理使用鲁棒误差函数作为惩罚函数进行迭代的目标函数为：

其中，ρ为鲁棒误差函数；W为位姿变换函数，包含两个参数；x为图像的像素点在图像中的坐标；p为位姿的变换系数；Δp为位姿变换系数p的更新量；W(x；Δp)表示位姿变换函数，该位姿变换函数的两个参数分别是x和Δp；W(x；p)表示位姿变换函数，该位姿变换函数的两个参数分别是x和p；；T(W(x；Δp))表示坐标x在所述第一帧图像上经过Δp变换后的像素值；I(W(x；p))表示坐标x在所述第二帧图像上经过p变换后的像素值；σ为尺度参数向量，用于控制鲁棒误差函数对误差的惩罚力度。

在本实施例中，对于所述第一帧图像和所述第二帧图像的处理流程如下：对第一帧图像使用ΔP变换；对第二帧图像使用p变换，并将变换后的两个图像相减，两个图像相减表示经过变换后的两个图像每个像素点之间差值的和，当这个差值达到最小时，表示图像已经对齐，也即上述目标函数表示的意义。

在本实施例中，对于所述第一帧图像和所述第二帧图像的处理流程如下：对第一帧图像保持不变，对于第二帧图像，在已有变换系数p的基础上进行变换后，再额外叠加上Δp进行变换，并与第一帧图像相减，两个图像相减表示了经过变换后的两个图像每个像素点之间差值的和，当这个差值达到最小时，表示图像已经对齐，也即上述目标函数表示的意义。

其中，ρ为鲁棒误差函数；W为位姿变换函数，包含两个参数；x为图像的像素点在图像中的坐标；p为位姿的变换系数；Δp为位姿变换系数p的更新量；W(x；Δp)表示位姿变换函数，该位姿变换函数的两个参数分别是坐标x和变换参数Δp；W((x；Δp))；p)表示位姿变换函数，该位姿变换函数的两个参数是W(x；Δp)和p；I(W((W(x；Δp))；p))表示坐标x先经过Δp位姿变换，再经过p位姿变换后在第二帧图像上的像素值；T(x)表示坐标x在第一帧图像中的像素值；σ为尺度参数向量，用于控制鲁棒误差函数对误差的惩罚力度。

在本实施例中，对于所述第一帧图像和所述第二帧图像的处理流程如下：先后利用Δp及p对第二帧图像进行变换，并与第一帧图像相减，两个图像相减表示了经过变换后的两个图像每个像素点之间差值的和，当这个差值达到最小时，表示图像已经对齐，也即上述目标函数表示的意义。

在本实施例中，对于所述第一帧图像和所述第二帧图像的处理流程如下：使用p对第二帧图像进行变换，并与第一帧图像相减，并通过一阶以及二阶泰勒展开的形式对p进行分析和求解。两个图像相减表示了经过变换后的两个图像每个像素点之间差值的和，当这个差值达到最小时，表示图像已经对齐，也即上述目标函数表示的意义。

在上述实施例中，目标函数指的是迭代求取的目标。在一个优选的方案中，追求的是目标函数最小化，即达到最小值，换句话说，迭代的目的是使得这个式子达到其最小值，迭代的方式是对变换参数p利用ΔP进行更新。

所述目标函数通过迭代更新变换系数p，使得第二帧图像I经过变换后，与第一帧图像T的每个像素点像素值的差值的和达到最小。由于是二次项，所以其最小值为0。当其最小值为零时，则代表I和T中每一个像素的值都相同，即可以视为完全相同的两幅图像。然而在实际应用中，I和T或多或少有些不同的地方，所以通过迭代求取变换系数p，使得I和T尽可能的相同。

在上述实施例中，所述鲁棒误差函数也可以包括多种，例如，huber函数或Geman-McLure Function函数都属于鲁棒误差函数的一种。实际上，只要满足以下几个函数条件的函数均可以称为鲁棒误差函数：

a)ρ(t，σ)对于任意t，始终大于零；

b)对于t小于等于零时，ρ(t，σ)始终满足单调递减；

c)对于t大于等于零时，ρ(t，σ)始终满足单调递增；

d)ρ(t，σ)是分段可微分(piecewisedifferentiable)的；

e)ρ(t，σ)单调递增(递减)的时候其值增长幅度应该小于t2，大于|t|。

在一个实施例中，所述鲁棒误差函数可以为Huber Function，即：

在另一实施例中，σ为尺度参数向量，具体表示为(σ ₁，σ ₂，σ ₃，σ ₄，....，σ _s) ^T，该尺度参数的数量及具体选择与鲁棒函数本身相关。在一个优选的方案中，σ＝σ1。

在另一实施例中，所述鲁棒误差函数也可以为Geman-McLure Function，即：

在本另一实施例中，σ＝σ ₁。

对于一般的ρ(t)的幅值增长，近似于negativelogprobabilityfunction(P)，其公式为：

ρ(t)∝-log P[I(W(x；p))-T(x)]

其中，t表示鲁棒误差函数的参数，p表示位姿的变换系数，T(x)表示坐标x在第一帧图像中的像素值，I(W(x；p))表示坐标x经过p位姿变换后在所述第二帧图像上的像素值。

上一帧图像(Last frame)中的位姿(pose)，也就是目标区域(target)的位置是已知的，需要在当前帧图像(current frame)中精确的跟踪(track)到目标区域(target)的位置。一般位姿是通过feature track(特征点追踪匹配的方式) 来输出的，即通过追踪目标区域中的具有一定辨识度的特征点，当知晓这些特征点在两帧中各自的位置信息时，即可计算出当前帧图像(current frame)中的位姿。这些特征点一般来说是稀疏的，因而能够满足移动设备上实时性的要求。

在完成所述迭代处理之后，在所述第二帧图像中通过特征追踪匹配的方式追踪到所述目标区域中的至少一个目标的位置。

例如，迭代处理完成后，继续进行特征跟踪(Feature track)，特征跟踪的一般流程是以该对应特征点在上一帧的位置为基础，在当前帧图像(current frame)中的该位置附近进行搜索；或者以通过某种预测手段预测得到的该特征点在当前帧中可能存在的位置附近进行搜索。考虑到实时性效率的原因，搜索半径一般为数个像素。

由上述描述可知，目标函数求解的是每个像素点之间的差值趋于最小。当两幅图像完全一样时，这个差值可以达到0，因为每个像素点的值都是一样的。但是实际情况中，两幅图像不可能完全一致，例如，一般经过位姿变换后，以简单的仅有平移的情况举例，一部分背景会被移到画面外，然后会移入一部分新的背景。在做对齐的过程中，两帧图像中相同场景的部分经过对齐后差值可以达到非常小。但是本身背景不同(移出和移入)的部分，理论上来说像素值就是不同的，不能通过对齐的操作使其像素值相同。所以实际操作中，目标函数往往无法达到0。需要注意一点的是，迭代公式求取的是所有像素点差值和的最小值，两帧图像中场景相同的地方可以对齐成功，因此其差值较小；场景不同的地方无法实现对齐成功，因此其差值较大。因此引入鲁棒误差函数的意义是：当两个点的像素差值在一定范围时，即公式中的阈值t，即为像素差，用鲁棒误差函数的第二行对齐进行加权(第二行的公式的幅值增长时慢于二次项的)，使其虽然还是能够对迭代收敛造成一定影响，但是缩减了其影响的范围，从而提高了当背景不一致时，整图对齐的成功率。

图2为本发明另一实施例的鲁棒误差函数曲线和二次项曲线对比图。以图2所示的曲线进行说明，曲线1为二次函数f(t)＝t ²的曲线(即平方曲线)，曲线2为本实施例中鲁棒误差函数的曲线。横坐标t可以理解为像素之间的差值，纵坐标为该差值对最终迭代结果造成的影响。可以看到，当像素差值在一定范围内时，两者对迭代的影响是相同的。但是当像素差值达到一定程度(两帧图像中场景不一致的部分时时)，原本的二次项对迭代的影响迅速攀升，而鲁棒误差的影响则缓慢上升，因此避免了场景差异过大时，这部分场景不同的画面区域的像素差值过大而对迭代收敛过程影响太大而引起的图像对齐失败的问题。

图3为本发明另一实施例的一种图像处理装置的结构示意图，所述图像处理装置31包括：收发器(transceiver)311、处理器(processor)312、存储器(memory)313和总线314；其中，所述收发器311、所述处理器312和所述存储器313相互之间通过所述总线314进行通信。

在本发明实施例中，所述收发器311包括发送单元(例如发送电路)和接收单元(例如接收电路)。

在本发明实施例中，所述处理器312可以是中央处理单元(CentralProcessing Unit，CPU)，所述处理器312还可以是其他通用控制处理器、数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。所述通用控制处理器可以是微控制处理器或者是任何常规的控制处理器，例如单片机等。

所述存储器313用于存储程序代码或指令，所述程序代码包括计算机操作指令，所述处理器312用于执行所述存储器313存储的程序代码或指令，使得所述收发器311、所述处理器312和所述存储器313执行相关的功能，具体如下所述。所述存储器313可能包含易失性存储器，例如，随机存取存储器(random access memory，RAM)，所述RAM可以包括静态RAM或动态RAM。所述存储器313也可能包括非易失性存储器(non-volatile memory)，例如只读存储器(read-only memory，PROM)、可编程只读存储器(programmable read-only memory，PROM)、可擦写可编程只读存储器(erasable programmable read-only memory，EPROM)、电可擦写可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)或闪存(flash memory)。所述存储器313还可能是外部闪存、至少一个磁盘存储器或缓存器。

所述总线314可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外设部件互连标准(Peripheral Component Interconnect，PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture，EISA)总线等。该总线系统可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

所述图像处理装置31从一段video中读取一系列的视频帧图像序列，这段video可以是实时录制的，也可以是提前录制好储存在特定设备上(磁盘，内存等)的，也可以是由摄像头等感光设备实时拍摄传入所述图像处理装置。所述图像处理方法可以在具有执行计算能力的芯片上面执行的，即所述图像处理装置31可以为一台电脑，也可以是一台便携移动设备(比如手机等)。

所述收发器311用于获取视频帧图像序列。

所述处理器312，用于在连续的视频帧图像序列中确定连续的第一帧图像和第二帧图像。

所述处理器312还用于在所述第一帧图像确定目标特征的位姿信息，根据所述目标特征的所述位姿信息确定目标区域。

例如，从上一帧的位姿信息中，所述处理器312提取出目标区域，以此目标区域为模板，在低分辨率的当前帧图像中进行搜索，确定目标区域的位姿信息，作为迭代初值提供给整图对齐中。所述位姿信息包含位置信息和/或姿态信息，所述姿态信息可以包括如下至少之一：形状的变换信息、尺度的变化信息和旋转的信息，所述形状的变换信息包括多为视角转变引起的形状的变化信息，所述尺度的变化信息包括由远近变化引起的尺度的变化。在本发明的另一实施例中，所述位姿一般是六个自由度，包含位移和旋转两个部分，例如，物体在视野中存在旋转或透视等一系列变换而产生位姿信息。

所述处理器312还用于以所述第一帧图像的所述目标区域为模板在所述第二帧图像确定所述目标区域在所述第二帧图像的位置信息。

所述处理器312还用于以所述位置信息为迭代初值对所述第一帧图像和所述第二帧图像进行整图对齐的迭代处理。

所述处理器312还用于在完成所述迭代处理之后，在所述第二帧图像中通过特征追踪匹配的方式追踪到所述目标区域中的至少一个目标的位置。所述处理器312执行特征跟踪的具体过程，参考前述图1方法实施例对应描述的特征跟踪过程，在此不再赘述。

所述迭代处理的具体内容，参考前述图1方法实施例对应描述的迭代处理过程，在此不再赘述。

上述实施例中所分别描述的图像处理方法和装置，可以实现对连续两个图像进行整图对齐的迭代处理，也可以适用于增强现实(AR)的应用/设备。

在一个实施例中，AR应用/设备中所包含AR能力光谱的技术体系，如图4所示，主要包括两个核心要素：a)现实感知，即对现实世界理解、识别和跟踪等能力；b)AR内容，即对虚拟内容渲染、融合、交互、创作能力，其中：

AR内容是继文字、图片、视频等内容形态之后下一代内容形态。AR内容的两大特征是高度3D化和强互动性。AR内容是AR产业链里面非常关键的一环。AR内容的多少、好坏直接决定了终端用户的体验。如何高效的完成AR内容的生产、存储、分发、交换对于AR应用的繁荣会起到决定性作用，所以AR应用一定需要AR增强内容工具。

现实感知，是指通过摄像头、传感器等硬件设备感知现实环境中空间环境及对象目标，也就是指让手机或者AR眼镜拥有像人一样通过视觉的方式理解现实的能力。

在一个优选的方案中，现实感知又可以分为空间感知和对象感知，其中现实感知中的空间是指在相对大尺度环境范围内相对不动的小尺度环境，例如大尺度环境为整个地球，那么陆地、国家、城市、商业区、房间、桌面在一定条件下都可以认为是静态空间环境。对象感知中的对象目标是指相对于大尺度范围内常处于运动状态的对象。具备动态对象目标感知的基础上，可以让虚拟内容跟随动态目标移动而移动，例如站在卡片上的虚拟人物可以跟随卡片移动而移动，看上去两个是一体的。

在一个优选的方案中，对象感知又分为对于人体物体的感知(即针对人体、人脸、手势等的识别跟踪)和非人体物体(即人工标记，平面图像，三维刚体，非刚体，通用物体等)。

本发明一个实施例是在AR能力光谱的现实感知的对象感知能力中，提出了一种目标追踪的算法，在图像对齐的处理流程中引入鲁棒误差函数。在一个优选的方案中，整体的目标追踪流程是由1)初步位移的判断；2)鲁棒误差函数迭代-；3)特征匹配追踪来一步一步实现的。特征匹配追踪可以给出比较精确的位姿信息，系统一般是以最后得到的这个特征匹配追踪的位姿信息为准的进行目标追踪的。鲁棒误差函数迭代为最后的特征匹配追踪提供了非常好的初始值，极大的提高了特征匹配追踪的成功率，因而提高了整个系统追踪的成功率。

在一个实施例中，一个完整的AR应用/设备，需要通过现实感知能力去像人类或者接近人类一样去感知世界。现实感知一般是通过机器学习和计算机视觉的方式去达成的，有了这样的能力，AR应用/设备才能感知到现实中有什么、在哪里。在感知现实的基础上，AR应用/设备向用户展现合适的内容。由于现实世界是立体(3D)的，这个内容也具备很强的3D属性；由于信息是异常丰富多面的，用户必须能够通过一些交互手段同AR内容进行互动。

综上所述，上述描述的图像处理方法和装置，对图像采用基于鲁棒误差函数的迭代方式进行处理，避免图像差异过大引起迭代失败的情况，使追踪结果更加稳定。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所属技术领域的技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，并被通讯设备内部的处理器执行，前述的程序在被执行时处理器可以执行包括上述方法实施例的全部或者部分步骤。其中，所述处理器可以作为一个或多个处理器芯片实施，或者可以为一个或多个专用集成电路(Application Specific Integrated Circuit，ASIC)的一部分；而前述的存储介质可以包括但不限于以下类型的存储介质：闪存(Flash Memory)、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种图像处理方法，其特征在于，包括：

在连续的视频帧图像序列中确定连续的第一帧图像和第二帧图像，其中，第一帧图像为所述第二帧图像的上一帧图像；

以所述第一帧图像的目标区域为模板确定所述目标区域在所述第二帧图像的位置信息；

以所述位置信息为迭代初值对所述第一帧图像和所述第二帧图像进行整图对齐的迭代处理；

其中，所述第一帧图像和所述第二帧图像的整图对齐的迭代处理使用鲁棒误差函数进行迭代。
如权利要求1所述的方法，其特征在于，所述第一帧图像和所述第二帧图像的整图对齐的迭代处理使用鲁棒误差函数作为惩罚函数进行迭代的目标函数为：

其中，ρ为鲁棒误差函数；W为位姿变换函数，包含两个参数；x为图像的像素点在图像中的坐标；p为位姿的变换系数；Δp为位姿变换系数p的更新量；W(x；Δp)表示位姿变换函数，该位姿变换函数的两个参数分别是x和Δp；W(x；p)表示位姿变换函数，该位姿变换函数的两个参数分别是x和p；T(W(x；Δp))表示坐标x在所述第一帧图像上经过Δp变换后的像素值；I(W(x；p))表示坐标x在所述第二帧图像上经过p变换后的像素值；σ为尺度参数向量，用于控制鲁棒误差函数对误差的惩罚力度。
如权利要求1所述的方法，其特征在于，所述第一帧图像和所述第二帧图像的整图对齐的迭代处理使用鲁棒误差函数作为惩罚函数进行迭代的目标函数为：

其中，ρ为鲁棒误差函数；W为位姿变换函数，包含两个参数；x为图像的像素点在图像中的坐标；p为位姿的变换系数；Δp为位姿变换系数p的更新量；W(x；p+Δp)表示位姿变换函数，该位姿变换函数的两个参数分别是坐标x和变换参数p+Δp；I(W(x；p+Δp))表示坐标x在第二帧图像上经过p+Δp变换后的像素值；T(x)表示坐标x在第一帧图像中的像素值；σ为尺度参数向量，用于控制鲁棒误差函数对误差的惩罚力度。
如权利要求1所述的方法，其特征在于，所述第一帧图像和所述第二帧图像的整图对齐的迭代处理使用鲁棒误差函数作为惩罚函数进行迭代的目标函数为：

其中，ρ为鲁棒误差函数；W为位姿变换函数，包含两个参数；x为图像的像素点在图像中的坐标；p为位姿的变换系数；Δp为位姿变换系数p的更新量；W(x；Δp)表示位姿变换函数，该位姿变换函数的两个参数分别是坐标x和变换参数Δp；W((W(x；Δp))；p)表示位姿变换函数，该位姿变换函数的两个参数是W(x；Δp)和p；I(W((W(x；Δp))；p))表示坐标x先经过Δp位姿变换，再经过p位姿变换后在第二帧图像上的像素值；T(x)表示坐标x在第一帧图像中的像素值；σ为尺度参数向量，用于控制鲁棒误差函数对误差的惩罚力度。
如权利要求1所述的方法，其特征在于，所述第一帧图像和所述第二帧图像的整图对齐的迭代处理使用鲁棒误差函数作为惩罚函数进行迭代的目标函数为：

其中，ρ为鲁棒误差函数；W为位姿变换函数，包含两个参数；x为图像的像素点在图像中的坐标；p为位姿的变换系数；W(x；p)表示位姿变换函数，该位姿变换函数的两个参数分别是x和p；I(W(x；p))表示坐标x经过p位姿变换后在所述第二帧图像上的像素值；T(x)表示坐标x在第一帧图像中的像素值；σ 为尺度参数向量，用于控制鲁棒误差函数对误差的惩罚力度。
如权利要求2-5任意一项所述的方法，其特征在于，满足以下几个函数条件的函数为所述鲁棒误差函数：

a)ρ(t，σ)对于任意t，始终大于零；

b)对于t小于等于零时，ρ(t，σ)始终满足单调递减；

c)对于t大于等于零时，ρ(t，σ)始终满足单调递增；

d)ρ(t，σ)是分段可微分的；

e)ρ(t，σ)单调递增(递减)的时候其值增长幅度小于t ²，大于|t|；

其中，t表示鲁棒误差函数的参数，σ为尺度参数向量，用于控制鲁棒误差函数对误差的惩罚力度。
如权利要求6所述的方法，其特征在于，所述鲁棒误差函数为：

其中，t表示鲁棒误差函数的参数，σ为尺度参数向量，用于控制鲁棒误差函数对误差的惩罚力度，σ ₁为鲁棒误差函数中设置的阈值。
如权利要求1所述的方法，其特征在于，在完成所述迭代处理之后，所述方法还包括：

在所述第二帧图像中通过特征追踪匹配的方式追踪到所述目标区域中的至少一个目标的位置。
如权利要求1所述的方法，其特征在于，所述方法还包括：

在所述第一帧图像上确定目标特征的位姿信息，根据所述目标特征的所述位姿信息确定所述第一帧图像的所述目标区域。
如权利要求1所述的方法，其特征在于，所述第一帧图像为模板图像，所述第二帧图像为当前帧图像。
一种图像处理装置，其特征在于，包括：

收发器，用于获取连续的视频帧图像序列；

处理器，用于在所述连续的视频帧图像序列中确定连续的第一帧图像和第二帧图像，第一帧图像为所述第二帧图像的上一帧图像；以所述第一帧图像的目标区域为模板确定所述目标区域在所述第二帧图像的位置信息；以所述位置信息为迭代初值对所述第一帧图像和所述第二帧图像进行整图对齐的迭代处理；

其中，所述第一帧图像和所述第二帧图像的整图对齐的迭代处理使用鲁棒误差函数进行迭代。
如权利要求11所述的图像处理装置，其特征在于，所述第一帧图像和所述第二帧图像的整图对齐的迭代处理使用鲁棒误差函数作为惩罚函数进行迭代的目标函数为：

其中，ρ为鲁棒误差函数；W为位姿变换函数，包含两个参数；x为图像的像素点在图像中的坐标；p为位姿的变换系数；Δp为位姿变换系数p的更新量；W(x；Δp)表示位姿变换函数，该位姿变换函数的两个参数分别是x和Δp；W(x；p)表示位姿变换函数，该位姿变换函数的两个参数分别是x和p；T(W(x；Δp))表示坐标x在所述第一帧图像上经过Δp变换后的像素值；I(W(x；p))表示坐标x在所述第二帧图像上经过p变换后的像素值；σ为尺度参数向量，用于控制鲁棒误差函数对误差的惩罚力度。
如权利要求11所述的图像处理装置，其特征在于，所述第一帧图像和所述第二帧图像的整图对齐的迭代处理使用鲁棒误差函数作为惩罚函数进行迭代的目标函数为：

其中，ρ为鲁棒误差函数；W为位姿变换函数，包含两个参数；x为图像的像素点在图像中的坐标；p为位姿的变换系数；Δp为位姿变换系数p的更新量；W(x；p+Δp)表示位姿变换函数，该位姿变换函数的两个参数分别是坐标x和变换参数p+Δp；I(W(x；p+Δp))表示坐标x在第二帧图像上经过p+Δp变换后的像素值；T(x)表示坐标x在第一帧图像中的像素值；σ为尺度参数向量，用于控制鲁棒误差函数对误差的惩罚力度。
如权利要求11所述的图像处理装置，其特征在于，所述第一帧图像和所述第二帧图像的整图对齐的迭代处理使用鲁棒误差函数作为惩罚函数进行迭代的目标函数为：

其中，ρ为鲁棒误差函数；W为位姿变换函数，包含两个参数；x为图像的像素点在图像中的坐标；p为位姿的变换系数；Δp为位姿变换系数p的更新量；W(x；Δp)表示位姿变换函数，该位姿变换函数的两个参数分别是坐标x和变换参数Δp；W((W(x；Δp))；p)表示位姿变换函数，该位姿变换函数的两个参数是W(x；Δp)和p；I(W((W(x；Δp))；p))表示坐标x先经过Δp位姿变换，再经过p位姿变换后在第二帧图像上的像素值；T(x)表示坐标x在第一帧图像中的像素值；σ为尺度参数向量，用于控制鲁棒误差函数对误差的惩罚力度。
如权利要求11所述的图像处理装置，其特征在于，所述第一帧图像和所述第二帧图像的整图对齐的迭代处理使用鲁棒误差函数作为惩罚函数进行迭代的目标函数为：

其中，ρ为鲁棒误差函数；W为位姿变换函数，包含两个参数；x为图像的像素点在图像中的坐标；p为位姿的变换系数；W(x；p)表示位姿变换函数，该位姿变换函数的两个参数分别是x和p；I(W(x；p))表示坐标x经过p位姿变换后在所述第二帧图像上的像素值；T(x)表示坐标x在第一帧图像中的像素值；σ为尺度参数向量，用于控制鲁棒误差函数对误差的惩罚力度。
如权利要求12-15任意一项所述的图像处理装置，其特征在于，满足以下几个函数条件的函数为所述鲁棒误差函数：

a)ρ(t，σ)对于任意t，始终大于零；

b)对于t小于等于零时，ρ(t，σ)始终满足单调递减；

c)对于t大于等于零时，ρ(t，σ)始终满足单调递增；

d)ρ(t，σ)是分段可微分的；

e)ρ(t，σ)单调递增(递减)的时候其值增长幅度小于t ²，大于|t|；

其中，t表示鲁棒误差函数的参数，σ为尺度参数向量，用于控制鲁棒误差函数对误差的惩罚力度。
如权利要求16所述的图像处理装置，其特征在于，所述鲁棒误差函数为：

其中，t表示鲁棒误差函数的参数，σ为尺度参数向量，用于控制鲁棒误差函数对误差的惩罚力度，σ ₁为鲁棒误差函数中设置的阈值。
如权利要求11所述的图像处理装置，其特征在于，所述处理器还用于，在完成所述迭代处理之后，在所述第二帧图像中通过特征追踪匹配的方式追踪到所述目标区域中的至少一个目标的位置。
如权利要求11所述的图像处理装置，其特征在于，所述处理器还用于，在所述第一帧图像上确定目标特征的位姿信息，根据所述目标特征的所述位姿信息确定所述第一帧图像的所述目标区域。
如权利要求11所述的图像处理装置，其特征在于，所述第一帧图像为模板图像，所述第二帧图像为当前帧图像。
一种AR设备，其特征在于，包括如权利要求11至20任意一项所述图像处理装置。