WO2018210305A1

WO2018210305A1 - 图像的识别跟踪方法、装置、智能终端和可读存储介质

Info

Publication number: WO2018210305A1
Application number: PCT/CN2018/087282
Authority: WO
Inventors: 孙星; 郭晓威
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2017-05-18
Filing date: 2018-05-17
Publication date: 2018-11-22
Also published as: CN107194968B; CN107194968A

Abstract

本申请揭示了一种图像的识别跟踪方法。所述方法包括：获得图像中标记图案的识别结果；根据所述标记图案的识别结果定位所述图像中的标记图案，由定位的所述标记图案进行目标追踪获得所述图像中标记图案在空间的平移信息；将所述平移信息和智能终端中多传感器融合而输出的旋转角度形成所述图像中标记图案的位姿矩阵。

Description

图像的识别跟踪方法、装置、智能终端和可读存储介质

技术领域

本申请涉及互联网应用技术领域，特别涉及一种图像的识别跟踪方法、装置、智能终端和可读存储介质。

背景技术

随着互联网应用技术的迅猛发展，智能终端通过对已获得图像的目标追踪而估计得到此图像所对应的姿态，根据所得到的姿态而基于已获得图像实现各种交互应用。此图像所对应的姿态用于描述捕获此图像所对应实体目标在物理空间发生的平移和旋转。

目标追踪是基于特征点追踪实现的。一般而言，追踪的特征点数目越多，特征点的描述子越复杂，追踪效果越好，所估计的姿态越准确，但是，运行速度也越慢，即，现有的目标追踪存在着时间性能和追踪效果矛盾的局限性。

单纯基于特征点的追踪必然会带来时间性能和追踪效果的取舍问题。对于现有目标追踪在智能终端上的应用，为了获得较好的时间性能以及处理资源的限制，大都采用简单的特征点，以获得较快的特征点提取速度和追踪速度，但是，追踪准确率却非常低，无法使得智能终端上目标追踪的实现兼顾追踪效果和时间性能。

发明内容

为了解决相关技术中存在的图像中目标追踪的实现无法兼顾追踪效果和时间性能的技术问题，本申请的一个目的在于提供一种图像的识别跟踪方法和装置，用于解决现有技术所存在的无法同时保证追踪效果和时间性能的缺陷。

一种图像的识别跟踪方法，所述方法包括：

获得智能终端所捕获图像中标记图案的识别结果；

根据所述标记图案的识别结果定位所述图像中的标记图案，由定位的所述标记图案进行目标追踪获得所述图像中标记图案在空间的平移信息；

将所述平移信息和智能终端中多传感器融合而输出的旋转角度形成所述图像中标记图案的位姿矩阵。

在其中一个示例性实施例中，根据标记图案的识别结果定位图像中的标记图案，由定位的标记图案进行目标追踪获得图像中标记图案在空间的平移信息，包括：

通过识别结果指示的标记图案被识别定位图像中的标记图案；

根据定位的所述标记图案进行目标追踪，从进行的目标追踪获得所述图像中标记图案在空间水平面的平移距离以及标记图案相对于预存储标记图像的缩放尺寸；

根据所述缩放尺寸和标记图像的尺寸计算得到图像中标记图案在空间的垂直距离，所述垂直距离和平移距离形成平移信息。

在其中一个示例性实施例中，所述将所述平移信息和所在智能终端中多传感器融合而输出的旋转角度形成所述真实场景图像中标记图案的位姿矩阵之前，所述方法还包括：

获得智能终端捕获所述图像时多个传感器输出的传感器数据；

对所述传感器数据执行多传感器融合算法计算所述智能终端在空间中的旋转角度，所述旋转角度由多传感器融合而输出，且用于形成所述图像中标记图案的位姿矩阵。

在其中一个示例性实施例中，所述对所述传感器数据执行多传感器融合算法计算所述智能终端在空间中的旋转角度，包括：

获得所述智能终端捕获图像时多个传感器输出的传感器数据；

对传感器数据进行智能终端自身在空间中的旋转角度计算。

在其中一个示例性实施例中，所述对传感器数据进行智能终端自身在空间中的旋转角度计算，包括：

进行传感器数据中角速度的积分，获得智能终端分别相对于空间中各个方位的旋转粗略值；

根据传感器数据中的加速度和重力方向信息对旋转粗略值进行旋转角度的辅助计算获得所在智能终端在空间中分别相对于各个方位的旋转角度。

在其中一个示例性实施例中，所述获得智能终端所捕获图像中标记图案的识别结果，包括：

智能终端持续进行图像捕获且获得当前所捕获图像中标记图案的识别结果；

所述根据所述标记图案的识别结果定位图像中的标记图案，由定位的所述标记图案进行目标追踪获得所述图像中标记图案在空间的平移信息之前，所述方法还包括：

相对于首次被识别到标记图案的图像，进行当前所捕获图像的透射变换预处理获得透射图像，所述透射图像用于进行当前所捕获图像的目标追踪。

在其中一个示例性实施例中，所述相对于首次被识别到标记图案的图像，进行当前所捕获图像的透射变换预处理获得透射图像，所述透射图像用于进行当前所捕获图像的目标追踪，包括：

获取首次被识别到标记图案的图像中标记图案对应的旋转角度，以所述旋转角度作为初始旋转角度；

根据所述智能终端中多传感器融合而输出的旋转角度以及所述初始旋转角度，运算得到当前所捕获图像和首次被识别到标记图案的图像二者之间的夹角；

通过所述夹角进行当前所捕获图像的透射变换获得透射图像。

在其中一个示例性实施例中，所述将所述平移信息和智能终端中多传感器融合而输出的旋转角度形成所述图像中标记图案的位姿矩阵之后，所述方法还包括：

根据所述图像中标记图案的位姿矩阵进行预置图像在所述图像中的投影。

在其中一个示例性实施例中，获得智能终端所捕获图像中标记图案的识别结果，包括：

由图像与预置标记图案的匹配获得或由所捕获图像中标记图案的用户指定的触发获得所述标记图案的识别结果。

在其中一个示例性实施例中，所述将所述平移信息和智能终端中多传感器融合而输出的旋转角度形成所述图像中标记图案的位姿矩阵，包括：

将平移信息所指示标记图案在空间中的移动，以及旋转角度所指示的旋转分别作为元素而一并形成标记图案的位姿矩阵。

一种图像的识别跟踪装置，其特征在于，所述装置包括：

识别结果获得器，配置为获得智能终端所捕获图像中标记图案的识别结果；

目标追踪器，配置为根据所述标记图案的识别结果定位所述图像中的标记图案，由定位的所述标记图案进行目标追踪获得所述图像中标记图案在空间的平移信息；

位姿获得器，配置为将所述平移信息和智能终端中多传感器融合而输出的旋转角度形成所述图像中标记图案的位姿矩阵。

在其中一个示例性实施例中，所述目标追踪器包括：

标记定位器，配置为通过识别结果指示的标记图案被识别定位图像中的标记图案；

追踪执行器，配置为根据定位的所述标记图案进行目标追踪，从进行的目标追踪获得所述图像中标记图案在空间水平面的平移距离以及标记图案相对于预存储标记图像的缩放尺寸；

平移信息形成器，配置为根据所述缩放尺寸和标记图像的尺寸计算得到图像中标记图案在空间的垂直距离，所述垂直距离和平移距离形成平移信息。

在其中一个示例性实施例中，所述装置还包括：

数据获得器，配置为获得智能终端捕获所述图像时多个传感器输出的传感器数据；

多传感器融合器，配置为对传感器数据执行多传感器融合算法计算智能终端在空间中的旋转角度，所述旋转角度由多传感器融合而输出，且用于形成图像中标记图案的位姿矩阵。

在其中一个示例性实施例中，所述多传感器融合器配置执行：

对传感器数据进行智能终端自身在空间中的旋转角度计算。

在其中一个示例性实施例中，所述多传感器融合器配置执行对传感器数据进行智能终端自身在空间中的旋转角度计算中，配置执行：

在其中一个示例性实施例中，所述识别结果获得器进一步配置为智能终端持续进行图像捕获且获得当前所捕获图像中标记图案的识别结果；

所述装置还包括：

透射变换器，配置为相对于首次被识别到标记图案的图像，进行当前所捕获图像的透射变换预处理获得透射图像，所述透射图像用于进行当前所捕获图像的目标追踪。

在其中一个示例性实施例中，所述透射变换器包括：

初始旋转获得器，配置为获取首次被识别到标记图案的图像中标记图案对应的旋转角度，以所述旋转角度作为初始旋转角度；

旋转变换器，配置为根据所述智能终端中多传感器融合而输出的旋转角度以及所述初始旋转角度，运算得到当前所捕获图像和首次被识别到标记图案的图像二者之间的夹角；

图像透射变换器，配置为通过所述夹角进行当前所捕获图像的透射变换获得透射图像。

在其中一个示例性实施例中，所述装置还包括：

投影器，配置为根据所述图像中标记图案的位姿矩阵进行预置虚拟场景图像在所述图像中的投影。

一种智能终端，包括：

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如上所述的图像的识别跟踪方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的图像的识别跟踪方法。

本申请的实施例提供的技术方案可以包括以下有益效果：

对于所捕获的图像，首先获得智能终端所捕获图像中标记图案的识别结果，然后根据标记图案的识别结果定位图像中的标记图案，由定位的标记图案进行目标追踪获得图像中标记图案在空间的平移信息，最终将平移信息和智能终端中多传感器融合而输出的旋转角度形成图像标记图案的位姿矩阵，在智能终端中多传感器融合的作用下，不再需要采用目标追踪的过程而获得旋转角度，从整体上提升时间性能，并且也避免了采用目标追踪的过程而获得旋转角度时旋转角度很不准确，甚至无法计算的局限性，目标追踪过程和多传感器融合的结合在保证很快的追踪速度的同时，还具备较强的稳定性和准确性，能够兼顾追踪效果和时间性能。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并于说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种图像的识别跟踪方法的流程图；

图2是根据一示例性实施例示出的对传感器数据进行智能终端在空间中的旋转角度的细节进行描述的流程图；

图3是根据一示例性实施例示出的对步骤230的细节进行描述的流程图；

图4是根据根据图1对应实施例示出的对步骤130的细节进行描述的流程图；

图5是根据一示例性实施例示出的对相对于首次被识别到标记图案的图像，进行当前所捕获图像的透射变换预处理获得透射图像，透射图像用于进行当前所捕获图像的目标追踪步骤的细节进行描述的流程图；

图6是根据图1对应实施例示出的对步骤110的细节进行描述的流程图；

图7是根据一示例性实施例示出的智能终端中现实增强系统的框架图；

图8是图7对应实施例中追踪图像步骤的实现框架图；

图9是根据一示例性实施例示出的一种图像的识别跟踪装置的框图；

图10是根据图9对应实施例示出的对目标追踪器的细节进行描述的框图；

图11是根据另一示例性实施例示出的一种图像的识别跟踪装置的框图；

图12是根据一示例性实施例示出的对透射变换器的细节进行描述的框图；

图13是根据一示例性实施例示出的一种装置的框图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种图像的识别跟踪方法的流程图。在一个示例性实施例中，该图像的识别跟踪方法，如图1所示，可以包括以下步骤。

在步骤110中，获得智能终端所捕获图像中标记图案的识别结果。

其中，智能终端配置为执行本申请的图像识别跟踪方法，在此智能终端，将首先获取其捕获的图像。在此应当说明，智能终端的图像捕获过程，可以是当前所执行的，也可以是预先执行的。通过本申请的图像识别跟踪过程，将为图像执行识别跟踪过程，此图像是智能终端所即时捕获的或者智能终端所预先捕获的。

当然，可以理解的，对于执行图像捕获的智能终端，与当前对所捕获图像执行识别跟踪过程的智能终端，可以是同一智能终端，也可以是各不相同的两个智能终端。对于各不相同的智能终端，将需要执行图像捕获的智能终端将所捕获图像和相应的其它数据，例如后续所说的传感器数据传递给执行识别跟踪过程的智能终端。

在一个示例性实施例中，智能终端所捕获图像是通过智能终端配置的拍摄组件获得，例如，各种内置或者外置的摄像头实现。由此，所捕获图像为真实场景图像。

具体而言，随着智能终端对现实环境的拍摄，智能终端所捕获图像用于以图像的形式反映真实场景。可以理解的，真实场景，即为现实环境中的场景。也就是说，所捕获图像是用户携带的智能终端针对现实环境进行拍摄而捕获得到的，当然，也应当进一步说明的是，其可以是当前所捕获得到的，也可以是预先所获得的，在此不进行限定。

标记图案为预先所指定的图案，对于图像而言，标记图案是通过针对现实环境中布设的标记进行拍摄而存在于图像中的。

图像中标记图案的识别结果用于指示图像中是否存在标记图案以及标记图案在图像中的位置，具体而言，对于图像中存在标记图案的情况，所获得的识别结果便指示了标记图案被识别，此时，即可对此图像执行目标追踪。

在此应当说明的是，对于图像中标记图案的识别结果，可以由图像与预置的标记图像进行匹配而输出得到，也可以通过其它方式完成图像中标记图像的识别之后输出得到的，在此不进行限定，只要能够从输出的信息中获得图像中标记图案的识别结果即可。

在一个示例性实施例的具体实现中，智能终端所捕获图像中标记图案的识别结果，由图像与预置标记图案的匹配获得或由所捕获图像中标记图案的用户指定的触发获得。

通过这一捕获图像中标记图案的识别结果获得方式的配置，为智能终端的图像识别跟踪过程提供多种方式，以便于能够灵活适配于各种场景以及智能终端的性能，提高图像识别跟踪的可靠性。

在步骤130中，根据标记图案的识别结果定位图像中的标记图案，由定位的标记图案进行目标追踪获得图像中标记图案在空间的平移信息。

其中，图像的目标追踪是指对图像执行目标追踪过程，在此所指的目标即为图像中的标记图案。因此，对于图像的目标追踪而言，其必将是在标记图案的识别结果作用下触发进行的，以避免进行无效的目标追踪，浪费运算资源，提高处理效率。

在所触发进行图像的目标追踪中，是对图像中的标记图案运算其位姿的过程，在本申请的示例性实施例中，由目标追踪而获得的标记图案位姿，将包括图像中标记图案在空间中的平移信息。

所指的空间，是与真实场景所在空间，即物理空间对应的，其是所在智能终端构建的三维空间。因此，图像中标记图案在空间中的平移信息，是相对于空间中的三个方位而言的。

空间中的三个方位是在所构建的空间坐标系中三个坐标轴所指向的方向。相对于物理空间，构建了空间坐标系，物理空间和空间之间存在着物理坐标系和所构建空间坐标系之间的转换，由此，方能够将所捕获的现实环境精准映射至空间，准确获得空间中的平移信息。

空间坐标系为三维坐标系，其包括相互垂直的x坐标轴、y坐标轴和z坐标轴，图像中标记图案在空间中的平移信息是以x坐标轴、y坐标轴和z坐标轴为基准而运算得到的平移距离。

具体的，图像中标记图案在空间中的平移信息用于指示标记图案在空间中发生的移动，平移信息包括在空间水平面上的平移距离以及垂直距离。在空间水平面上的平移距离是分别对应于空间中的两个坐标轴方位的。

对于图像的目标追踪而言，能够对标记图案在空间中三个方位平移有快速稳定的预测，所以将仍然进行图像中的目标追踪，但不再进行图像中标记图案的相关旋转信息的运算，由此便将使得目标追踪的时间性能和速度得到极大提升和改善。

在一个示例性实施例的具体现实现中，用于实现图像中目标追踪的算法，可以是单目标追踪算法，也可以在匹配速度足够快时采用连续的匹配，还可以使用深度学习的方式实现，甚至于多目标追踪算法，在此不进行一一列举。

在步骤150中，将平移信息和智能终端中多传感器融合而输出的旋转角度形成图像中标记图案的位姿矩阵。

其中，智能终端是指执行本申请图像识别跟踪过程的终端设备，例如，智能终端可以是智能手机、平板电脑等便携移动终端。智能终端中装设有各种传感器，因此，可以用于执行图像捕获的智能终端中多个传感器输出的传感器数据进行融合，而获得反映智能终端所发生旋转的旋转角度，由于智能终端捕获图像且通过所装设的传感器输出传感器数据，因此，多传感器融合而输出的旋转角度，即可用于描述图像中标记图案所对应位姿中旋转的发生。

智能终端中的多传感器融合能够快速准确的实现旋转角度的计算，并且与图像的目标追踪相配合，而避免了目标追踪中旋转角度的计算不准确甚至无法计算的问题，进而方能够保证效率和准确性。

在经由图像的目标追踪获得标记图案在空间中的平移信息之后，将此平移信息与多传感器融合而输出的旋转角度一并形成图像中标记图案的位姿矩阵。

所指的将平移信息和旋转角度一并形成图像中标记图案的位姿矩阵，是指将平移信息所指示标记图案在空间中的移动，以及旋转角度所指示的旋转分别作为元素而一并形成标记图案的位姿矩阵。

例如，对于平移信息所指示标记图案在空间中的移动，其可以通过相对于空间中三个坐标轴方位而分别获得的距离体现；旋转角度也可以通过相对于空间中三个坐标轴所分别对应的坐标轴旋转角度，因此，即可获得六个自由度的标记图案位姿矩阵。

至此，将相对于空间中三个坐标轴所分别对应的距离，以及相相对于三个坐标轴所分别对应的坐标轴旋转角度分别作为矩阵中元素而构成标记图案的位姿矩阵。

图像中标记图案的位姿矩阵用于描述标记图案相对于其初始位姿而发生的位姿变化。通过运算得到的位姿矩阵，将使得后续所实现的业务实现场景是与位姿矩阵相匹配的，进而适配于图像以及图像中的标记图案。

例如，对于后续所实现的现实增强业务场景，根据所运算得到的位姿矩阵而进行虚拟场景图像的投影，以使得被投影至图像的虚拟场景图像是与其位姿矩阵相适配的，保证了后续业务实现场景在实现上的精准性和适应性。

如上所述的示例性实施例中，在图像的目标追踪和多传感器融合的作用下，使得智能终端中图像识别跟踪的实现能够在保持较好的追踪准确率下以非常快的速度完成运算，既可以保证智能终端，即移动端的实时性，也可以保证追踪效果不会受到影响，使得移动端本地实时标记图案的追踪成为现实，并且具有更好的稳定性。

在一个示例性实施例中，步骤350之前，该图像的识别跟踪方法，还可以包括以下步骤。

获得智能终端捕获图像时多个传感器输出的传感器数据；

对传感器数据执行多传感器融合算法计算智能终端在空间中的旋转角度，旋转角度由多传感器融合而输出，且用于形成图像中标记图案的位姿矩阵。

其中，如前所述的，多传感器融合是针对智能终端中多个传感器所输出的数据，即传感器数据而言的。在传感器数据中执行多传感器融合算法，计算得到智能终端在空间中分别对应于三个方位的旋转角度，计算得到的旋转角度即对应于图像中标记图案在空间中发生的旋转。

进一步的，图2是根据一示例性实施例示出的对传感器数据进行智能终端在空间中的旋转角度的细节进行描述的流程图。该步骤，如图2所示，可以包括以下步骤。

在步骤210中，获得智能终端捕获图像时多个传感器输出的传感器数据。

其中，为了多传感器融合下实现图像中标记图案的位姿预测，此图像的捕获与智能终端中传感器数据的采集是同时进行的，以保证所采集的传感器数据能够对应于智能终端捕获图像的姿态，进而方能够使得依据传感器数据而进行的计算相对于图像是准确的。

除此之外，智能终端中多个传感器进行的数据采集，也可以在智能终端捕获图像时保持姿态而执行，还可以是在智能终端捕获图像之前执行并保持姿态而捕获，在此不进行限定。

智能终端中用于在捕获真实图像时输出传感器数据的多个传感器，是指智能终端中能够用于运算得到智能终端的旋转角度的所有传感器。在一个示例性实施例中，传感器的数量为三个。

传感器数据，是与智能终端的旋转相关的多个传感器相关的。例如，传感器数据可以是由智能终端中角速度计、加速度计和重力感应计输出的数据。

在智能终端进行图像的捕获时，传感器便进行数据采集，以输出此图像关联的传感器数据。

在步骤230中，对传感器数据进行智能终端自身在空间中的旋转角度计算。

其中，通过传感器数据而进行空间中旋转角度的计算，获得相对于每一方位的旋转角度。在此应当说明的是，所指的方位，即为空间中所构建三维坐标系的坐标轴方向。

具体的，图3是根据一示例性实施例示出的对步骤230的细节进行描述的流程图。该步骤230，如图3所示，可以包括以下步骤。

在步骤231中，进行传感器数据中角速度的积分，获得智能终端分别相对于空间中各个方位的旋转粗略值。

其中，传感器数据包括角速度、加速度和重力方向信息。角速度是由智能终端中角速度计采集得到的，加速度是由加速度计采集得到，而重力方向信息则是由重力感应计采集得到。

随着图像捕获的进行，也由智能终端中指定的多个传感器获得了传感器数据。提取传感器数据中的角速度，首先进行传感器数据中角速度的积分，获得智能终端分别相对于空间中每一方位的旋转粗略值。

也就是说，在角速度的积分过程中，角速度计的设备误差是一直在累积的，因此，未能得到准确值，而仅仅获得相对于每一方位的旋转粗略值。

例如，可以理解的，在空间中存在着三个坐标轴方向，即此空间所建立坐标系的x坐标轴、y坐标轴和z坐标轴所指向的三个方向，这三个方向便是所指的方位，对每一方位都进行传感器数据中角速度的积分，分别获得每一方位的旋转粗略值。

在步骤233中，根据传感器数据中的加速度和重力方向信息对旋转粗略值进行旋转角度的辅助计算获得所在智能终端在空间中分别相对于各个方位的旋转角度。

其中，在获得智能终端分别相对于空间中各个方位的旋转粗略值之后，将以传感器数据中的加速度和重力方向信息对此旋转粗略值进行精确计算，以最终得到准确的旋转角度。

传感器数据中加速度和重力方向信息都是记录智能终端的位置和移动的信息，因此，将以加速度和重力方向信息为辅助，而进行卡尔曼滤波，由此来降低旋转粗略值中的误差，进而获得误差被大大降低的旋转角度。

具体而言，在运算得到智能终端分别相对于空间中各个方位的旋转粗略值之后，便将传感器数据中的加速度和重力方向信息作为辅助，和角速度一起送入卡尔曼滤波器，由卡尔曼滤波器输出智能终端自身在空间中分别相对于各个方位的旋转角度。

图4是根据根据图1对应实施例示出的对步骤130的细节进行描述的流程图。该步骤130，如图4所示，可以包括以下步骤。

在步骤131中，通过识别结果指示的标记图案被识别定位图像中的标记图案。

在步骤133中，根据定位的标记图案进行目标追踪，从进行的目标追踪获得图像中标记图案在空间水平面的平移距离以及标记图案相对于预存储标记图像的缩放尺寸。

其中，经由步骤110获得图像中标记图案的识别结果之后，在图像中标记图案被识别的指示下，触发执行图像的目标追踪过程，并定位图像中的标记图案。

在图像的目标追踪过程中，可以得到图像在空间水平面上对应于左右、上下两个方位的移动距离，即为标记图案在空间水平面的平移距离。

如前所述的，标记图像是预先存储且包含了标记图案的图像，因此，图像中标记图案是与标记图像呈一定的比例关系，即对应于一缩放尺寸的，由目标追踪过程的执行而获得此缩放尺寸。

在步骤135中，根据缩放尺寸和标记图像的尺寸计算得到图像中标记图案在空间的垂直距离，垂直距离和平移距离形成平移信息。

其中，获取所预先存储标记图像的尺寸，并在缩放尺寸的配合下计算标记图案在空间中的垂直距离，即空间中垂直方向的平移距离，从而将垂直距离和空间水平面的平移距离一并形成平移信息。

通过如上所述的示例性实施例，便在智能终端中实现了多传感器融合算法，快速准确的计算出空间中智能终端在三个方位的旋转角度，其也将是捕获图像以及图像中标记图案的位姿。

在另一个示例性实施例中，步骤110进一步包括：智能终端持续进行图像捕获且获得当前所捕获图像中标记图案的识别结果。

与之相对应的，步骤130之前，该图像的识别跟踪方法，还包括以下步骤。

相对于首次被识别到标记图案的图像，进行当前所捕获图像的透射变换预处理获得透射图像，透射图像用于进行当前所捕获图像的目标追踪。

其中，在此首先应当说明的是，为图像而实现的识别追踪是在智能终端所持续进行的图像捕获中进行的。换而言之，被执行识别追踪的图像，是智能终端持续捕获得到的每一图像。

例如，在以帧为单位进行真实场景的拍摄，所获得的图像即为拍摄中的一帧图像，随着拍摄的持续进行，下一帧图像也将被执行识别追踪过程。

如前所述的，将通过图像的目标追踪过程获得图像中标记图案在空间中的平移信息，而为了保证平移信息的准确性，并且进一步简化目标追踪过程，提高处理速度和效率，将在对图像执行目标追踪过程之前，对此图像进行优化，即执行透射变换预处理。

通过透射变换预处理所获得的透射图像，执行此图像的目标追踪过程，进而使得用于目标追踪的透射图像是与首次识别到标记图案的图像的空间角度姿态一致，从而使得目标追踪的实现中不再需要考虑旋转角度，而直接获得平移信息即可。

在此应当补充说明，图像的识别跟踪方法，所获得的位姿矩阵是相对于初始位姿而言的，即相对于首次被识别到标记图案的图像，其所对应的位姿。

进一步的，图5是根据一示例性实施例示出的对相对于首次被识别到标记图案的图像，进行当前所捕获图像的透射变换预处理获得透射图像，透射图像用于进行当前所捕获图像的目标追踪步骤的细节进行描述的流程图。

该步骤，如图5所示，可以包括以下步骤。

在步骤301中，获取首次被识别到标记图案的图像中标记图案对应的旋转角度，以旋转角度作为初始旋转角度。

在步骤303中，根据智能终端中多传感器融合而输出的旋转角度以及初始旋转角度，运算得到当前所捕获图像和首次被识别到标记图案的图像二者之间的夹角。

其中，对于一图像，在为其完成了智能终端中的多传感器融合之后，获得此图像的旋转角度。为此图像获取首次被识别到标记图案的图像中标记图案对应的初始旋转角度，通过运算此图像的旋转角度和初始旋转角度二者之间的差值获得夹角。

在步骤305中，通过夹角进行当前所捕获图像的透射变换获得透射图像。

其中，对所捕获图像执行透射变换实质为校正所捕获图像，消除其与首次被识别到标记图案的图像之间的旋转和畸变误差，进而方便后续进行目标追踪。

在获得透射图像之后，便使用此透射图像来执行图像的目标追踪过程，而不再直接使用图像。

对于图像中标记图案位姿矩阵的获得，可以结合所获得的夹角，此夹角也是分别对应于所在空间中的三个方位的，结合所获得的夹角和平移信息形成位姿矩阵，由此，就可以快速得到六个自由度的相机位姿矩阵。

在一个示例性实施例中，图1所示实施例中的步骤110，可以包括：

进行智能终端所捕获图像和预存储标记图像二者之间的匹配，识别图像中是否存在标记图案，获得图像中标记图案的识别结果。

其中，在进行图像的目标追踪之前，将进行此图像与预置标记图像的匹配，如果图像匹配上标记图像，则说明图像中存在着标记图案，图像中的标记图案被识别，从而获得相应的识别结果。

如果图像未匹配上标记图像，则说明图像中不存在标记图案，从而将不进行后续的目标追踪，而等待下一图像。

图6是根据图1对应实施例示出的对步骤110的细节进行描述的流程图。该步骤110，如图6所示，可以包括以下步骤。

在步骤111中，接收在所捕获图像中进行标记图案指定的用户指令。

其中，图像中是否存在标记图案，可以利用与用户的交互识别来实现。具体而言，对捕获得的图像进行显示，此时，用户可查看所捕获的图像，并确认此图像中是否存在着标记图案，如果存在着标记图案，则在图像中触发标记图案的指定操作，与之相对应的，智能终端将响应这一指定操作而生成图像中进行标记图案指定的用户指令。

例如，用户在图像中标记图案指定操作的触发，可以是用户在所显示的图像中框选出标记图案的操作，当然也可以其它操作，在此不进行限定。

在步骤113中，根据用户指令获得图像中标记图案的识别结果。

通过如上所述的示例性实施例，使得图像中的标记图像通过用户交互的方式简单快捷的实现，对于图像的识别跟踪而言，将进一步提高了准确性和效率。

在一个示例性实施例中，步骤150之后，该图像的识别跟踪方法还包括：

根据图像中标记图案的位姿矩阵进行预置虚拟场景图像在图像中的投影。

其中，在获得图像中标记图案的位姿矩阵之后，即可以此为依据进行图像中虚拟场景图像的投影，进而实现各种业务场景，进而在智能终端构建面向个人的现实增强系统，也可以构建面向企业的现实增强辅助办公系统等。

例如，对于面向企业的现实增强辅助办公系统的实现，可以在识别跟踪到标记图像，此标记图案对应于现实环境中的办公桌或者办公室内的特定位置，依据标记图像的位姿矩阵而产生邮件、会议通知、视频会议等业务场景，也可应用于远程会议中，以产生会议伙伴就在身边的真实感。

通过如上所述的示例性实施例，便能够在移动端，即智能终端中实现快速标记识别追踪，使得智能终端本地实时标记图案识别追踪成为现实，并且相较于传统特征点追踪具有更好的稳定性和更高的追踪准确率。

以智能终端中现实增强系统的实现为例，对如上所述的示例性实施例结合产品进行阐述。

图7是根据一示例性实施例示出的智能终端中现实增强系统的框架图。智能终端持续进行现实环境的拍摄，而不断捕获图像，进而形成视频图像。

也就是说，所不断捕获的图像，即为智能终端中现实增强显示的视频图像中的一帧图像。

如图7所示的，在捕获得到一帧图像之后，对其进行标记图像的匹配，即如系统框架中的步骤410所示，如果匹配上，则执行步骤430，进行图像追踪，进而最终获得这一帧图像的位姿矩阵，从而在智能终端的现实增强系统中方能够为此帧图像实现虚拟场景图像的投影，进而进行现实增强显示。

在执行步骤410而未匹配上标记图像时，将等待下一帧图像；如果能成功执行追踪图像步骤，则也将等待下一帧图像。

以此类推，不断为捕获的图像执行识别跟踪。

图8是图7对应实施例中追踪图像步骤的实现框架图。对于视频图像中的每一帧图像，都将在多传感器的配合下获得相应的透射图像，即如实现框架中步骤510所示。

进而以透射图像为输入而进行单目标追踪，获得透射变换的位姿矩阵，即如步骤530。透射变换的位姿矩阵是消除了旋转而获得的，因此，其仅仅描述了图像中标记图案的平移信息，而并未包含旋转角度。

此时，在多传感器的配合下，通过多传感器融合所获得的旋转角度与此透射变换的位姿矩阵一起，形成图像中标记图案在空间中的位姿矩阵，至此，便为智能终端中现实增强系统的实现提供了最为快速稳定的实现，进一步加速性能的同时，也不再需要进行时间性能和识别效果的取舍。

通过如上所述的实现，充分融合了智能终端中的多个传感器，其追踪的稳定性和准确率都保持在很高的水平。

下述为本申请装置实施例，可以配置为执行本申请上述图像的识别跟踪方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请图像的识别跟踪方法实施例。

图9是根据一示例性实施例示出的一种图像的识别跟踪装置的框图。该图像的识别跟踪装置，如图9所示，可以包括但不限于：识别结果获得器710、目标追踪器730和位姿获得器750。

识别结果获得器710，配置为获得智能终端所捕获图像中标记图案的识别结果。

目标追踪器730，配置为根据标记图案的识别结果定位图像中的标记图案，由定位的标记图案进行目标追踪获得图像中标记图案在空间的平移信息。

位姿获得器750，配置为将平移信息和智能终端中多传感器融合而输出的旋转角度形成图像中标记图案的位姿矩阵。

图10是根据图9对应实施例示出的对目标追踪器的细节进行描述的框图。该目标追踪器730，如图10所示，可以包括但不限于：标记定位器731、追踪执行器733和平移信息形成器735。

标记定位器731，配置为通过识别结果指示的标记图案被识别定位图像中的标记图案。

追踪执行器733，配置为根据定位的标记图案进行目标追踪，从进行的目标追踪获得图像中标记图案在空间水平面的平移距离以及标记图案相对于预存储标记图像的缩放尺寸。

平移信息形成器735，配置为根据缩放尺寸和标记图像的尺寸计算得到图像中标记图案在空间的垂直距离，垂直距离和平移距离形成平移信息。

图11是根据另一示例性实施例示出的一种图像的识别跟踪装置的框图，该图像的识别跟踪装置还包括但不限于：数据获得器810和多传感器融合器830。

数据获得器810，配置为获得智能终端捕获图像时多个传感器输出的传感器数据。

多传感器融合器830，配置为对传感器数据执行多传感器融合算法计算智能终端在空间中的旋转角度，旋转角度由多传感器融合而输出，且用于形成图像中标记图案的位姿矩阵。

在另一个示例性实施例中，识别结果获得器710进一步配置为智能终端持续进行图像捕获且获得当前所捕获图像中标记图案的识别结果。

该图像的识别跟踪装置还包括透射变换器。该透射变换器配置为相对于首次被识别到标记图案的图像，进行当前所捕获图像的透射变换预处理获得透射图像，透射图像用于进行当前所捕获图像的目标追踪。

进一步的，图12是根据一示例性实施例示出的对透射变换器的细节进行描述的框图。该透射变换器910，如图12所示，可以包括但不限于：初始旋转获得器911、旋转变换器913和图像透射变换器915。

初始旋转获得器911，配置为获取首次被识别到标记图案的图像中标记图案对应的旋转角度，以旋转角度作为初始旋转角度。

旋转变换器913，配置为根据智能终端中多传感器融合而输出的旋转角度以及初始旋转角度，运算得到当前所捕获图像和首次被识别到标记图案的图像二者之间的夹角。

图像透射变换器915，配置为通过夹角进行当前所捕获图像的透射变换获得透射图像。

在一个示例性实施例中，图9所示的识别结果获得器710进一步配置为进行所捕获图像和标记图像二者之间的匹配，识别图像中是否存在标记图案，获得图像中标记图案的识别结果。

在另一个示例性实施例中，该图像的识别跟踪装置还包括但不限于投影器。投影器配置为根据图像中标记图案的位姿矩阵进行预置虚拟场景图像在图像中的投影。

图13是根据一示例性实施例示出的一种装置的框图。例如，装置900可以是图1所示实施环境中的智能终端110。例如，智能终端110可以是智能手机、平板电脑等终端设备。

参照图13，装置900可以包括以下一个或多个组件：处理组件902，存储器904，电源组件906，多媒体组件908，音频组件910，传感器组件914以及通信组件916。

处理组件902通常控制装置900的整体操作，诸如与显示，电话呼叫，数据通信，相机操作以及记录操作相关联的操作等。处理组件902可以包括一个或多个处理器918来执行指令，以完成下述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件908和处理组件902之间的交互。

存储器904被配置为存储各种类型的数据以支持在装置900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory，简称EPROM)，可编程只读存储器(Programmable Red-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。存储器904中还存储有一个或多个模块，该一个或多个模块被配置成由该一个或多个处理器918执行，以完成下述图3、图4、图5和图6任一所示方法中的全部或者部分步骤。

电源组件906为装置900的各种组件提供电力。电源组件906可以包括电源管理系统，一个或多个电源，及其他与为装置900生成、管理和分配电力相关联的组件。

多媒体组件908包括在所述装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(Liquid Crystal Display，简称LCD)和触摸面板。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。屏幕还可以包括有机电致发光显示器(Organic Light Emitting Display，简称OLED)。

音频组件910被配置为输出和/或输入音频信号。例如，音频组件910包括一个麦克风(Microphone，简称MIC)，当装置900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，配置为输出音频信号。

传感器组件914包括一个或多个传感器，用于为装置900提供各个方面的状态评估。例如，传感器组件914可以检测到装置900的打开/关闭状态，组件的相对定位，传感器组件914还可以检测装置900或装置900一个组件的位置改变以及装置900的温度变化。在一些实施例中，该传感器组件914还可以包括磁传感器，压力传感器或温度传感器。

通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络，如WiFi(WIreless-Fidelity，无线保真)。在一个示例性实施例中，通信组件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件916还包括近场通信(Near Field Communication，简称NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(Radio Frequency Identification，简称RFID)技术，红外数据协会(Infrared Data Association，简称IrDA)技术，超宽带(Ultra Wideband，简称UWB)技术，蓝牙技术和其他技术来实现。

在示例性实施例中，装置900可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器、数字信号处理设备、可编程逻辑器件、现场可编程门阵列、控制器、微控制器、微处理器或其他电子元件实现，配置为执行下述方法。

可选的，本申请还提供一种智能终端，该电视终端可以用于图1所示实施环境中，执行图1、图2、图3、图4、图5和图6任一所示的图像的识别跟踪方法的全部或者部分步骤。所述智能终端包括：

处理器；

配置为存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行：

获得智能终端所捕获图像中标记图案的识别结果；

该实施例中的装置的处理器执行操作的具体方式已经在有关该智能终端的图像的识别跟踪方法的实施例中执行了详细描述，此处将不做详细阐述说明。

在示例性实施例中，还提供了一种存储介质，该存储介质为计算机可读存储介质，例如可以为包括指令的临时性和非临时性计算机可读存储介质。该存储介指例如包括指令的存储器904，上述指令可由装置900的处理器918执行以完成上述方法。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

一种图像的识别跟踪方法，所述方法包括：

获得智能终端所捕获图像中标记图案的识别结果；

根据所述标记图案的识别结果定位所述图像中的标记图案，由定位的所述标记图案进行目标追踪获得所述图像中标记图案在空间的平移信息；

将所述平移信息和智能终端中多传感器融合而输出的旋转角度形成所述图像中标记图案的位姿矩阵。
根据权利要求1所述的方法，其中，根据标记图案的识别结果定位图像中的标记图案，由定位的标记图案进行目标追踪获得图像中标记图案在空间的平移信息，包括：

通过识别结果指示的标记图案被识别定位图像中的标记图案；

根据定位的所述标记图案进行目标追踪，从进行的目标追踪获得所述图像中标记图案在空间水平面的平移距离以及标记图案相对于预存储标记图像的缩放尺寸；

根据所述缩放尺寸和标记图像的尺寸计算得到图像中标记图案在空间的垂直距离，所述垂直距离和平移距离形成平移信息。
根据权利要求1所述的方法，其中，所述将所述平移信息和所在智能终端中多传感器融合而输出的旋转角度形成所述真实场景图像中标记图案的位姿矩阵之前，所述方法还包括：

获得智能终端捕获所述图像时多个传感器输出的传感器数据；

对所述传感器数据执行多传感器融合算法计算所述智能终端在空间中的旋转角度，所述旋转角度由多传感器融合而输出，且用于形成所述图像中标记图案的位姿矩阵。
根据权利要求3所述的方法，其中，所述对所述传感器数据执行多传感器融合算法计算所述智能终端在空间中的旋转角度，包括：

获得所述智能终端捕获图像时多个传感器输出的传感器数据；

对传感器数据进行智能终端自身在空间中的旋转角度计算。
根据权利要求4所述的方法，其特征在于，所述对传感器数据进行智能终端自身在空间中的旋转角度计算，包括：

进行传感器数据中角速度的积分，获得智能终端分别相对于空间中各个方位的旋转粗略值；

根据传感器数据中的加速度和重力方向信息对旋转粗略值进行旋转角度的辅助计算获得所在智能终端在空间中分别相对于各个方位的旋转角度。
根据权利要求1所述的方法，其中，所述获得智能终端所捕获图像中标记图案的识别结果，包括：

智能终端持续进行图像捕获且获得当前所捕获图像中标记图案的识别结果；

所述根据所述标记图案的识别结果定位图像中的标记图案，由定位的所述标记图案进行目标追踪获得所述图像中标记图案在空间的平移信息之前，所述方法还包括：

相对于首次被识别到标记图案的图像，进行当前所捕获图像的透射变换预处理获得透射图像，所述透射图像用于进行当前所捕获图像的目标追踪。
根据权利要求6所述的方法，其中，所述相对于首次被识别到标记图案的图像，进行当前所捕获图像的透射变换预处理获得透射图像，所述透射图像用于进行当前所捕获图像的目标追踪，包括：

获取首次被识别到标记图案的图像中标记图案对应的旋转角度，以所述旋转角度作为初始旋转角度；

根据所述智能终端中多传感器融合而输出的旋转角度以及所述初始旋转角度，运算得到当前所捕获图像和首次被识别到标记图案的图像二者之间的夹角；

通过所述夹角进行当前所捕获图像的透射变换获得透射图像。
根据权利要求1所述的方法，其中，所述将所述平移信息和智能终端中多传感器融合而输出的旋转角度形成所述图像中标记图案的位姿矩阵之后，所述方法还包括：

根据所述图像中标记图案的位姿矩阵进行预置图像在所述图像中的投影。
根据权利要求1所述的方法，其中，获得智能终端所捕获图像中标记图案的识别结果，包括：

由图像与预置标记图案的匹配获得或由所捕获图像中标记图案的用户指定的触发获得所述标记图案的识别结果。
根据权利要求1所述的方法，其特征在于，所述将所述平移信息和智能终端中多传感器融合而输出的旋转角度形成所述图像中标记图案的位姿矩阵，包括：

将平移信息所指示标记图案在空间中的移动，以及旋转角度所指示的旋转分别作为元素而一并形成标记图案的位姿矩阵。
一种图像的识别跟踪装置，其中，所述装置包括：

识别结果获得器，配置为获得智能终端所捕获图像中标记图案的识别结果；

目标追踪器，配置为根据所述标记图案的识别结果定位所述图像中的标记图案，由定位的所述标记图案进行目标追踪获得所述图像中标记图案在空间的平移信息；

位姿获得器，配置为将所述平移信息和智能终端中多传感器融合而输出的旋转角度形成所述图像中标记图案的位姿矩阵。
根据权利要求11所述的装置，其中，所述目标追踪器包括：

标记定位器，配置为通过识别结果指示的标记图案被识别定位图像中的标记图案；

追踪执行器，配置为根据定位的所述标记图案进行目标追踪，从进行的目标追踪获得所述图像中标记图案在空间水平面的平移距离以及标记图案相对于预存储标记图像的缩放尺寸；

平移信息形成器，配置为根据所述缩放尺寸和标记图像的尺寸计算得到图像中标记图案在空间的垂直距离，所述垂直距离和平移距离形成平移信息。
根据权利要求11所述的装置，其中，所述装置还包括：

数据获得器，配置为获得智能终端捕获所述图像时多个传感器输出的传感器数据；

多传感器融合器，配置为对传感器数据执行多传感器融合算法计算智能终端在空间中的旋转角度，所述旋转角度由多传感器融合而输出，且用于形成图像中标记图案的位姿矩阵。
根据权利要求11所述的装置，其中，所述识别结果获得器进一步配置为智能终端持续进行图像捕获且获得当前所捕获图像中标记图案的识别结果；

所述装置还包括：

透射变换器，配置为相对于首次被识别到标记图案的图像，进行当前所捕获图像的透射变换预处理获得透射图像，所述透射图像用于进行当前所捕获图像的目标追踪。
根据权利要求14所述的装置，其中，所述透射变换器包括：

初始旋转获得器，配置为获取首次被识别到标记图案的图像中标记图案对应的旋转角度，以所述旋转角度作为初始旋转角度；

旋转变换器，配置为根据所述智能终端中多传感器融合而输出的旋转角度以及所述初始旋转角度，运算得到当前所捕获图像和首次被识别到标记图案的图像二者之间的夹角；

图像透射变换器，配置为通过所述夹角进行当前所捕获图像的透射变换获得透射图像。
根据权利要求11所述的装置，其中，所述装置还包括：

投影器，配置为根据所述图像中标记图案的位姿矩阵进行预置虚拟场景图像在所述图像中的投影。
一种智能终端，其中，包括：

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现根据权利要求1至10中任一项所述的图像的识别跟踪方法。
一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据权利要求1至10中任一项所述的图像的识别跟踪方法。