WO2015161697A1

WO2015161697A1 - 应用于人机交互的运动物体跟踪方法及系统

Info

Publication number: WO2015161697A1
Application number: PCT/CN2015/071828
Authority: WO
Inventors: 程如中; 全冬兵; 梁浩; 魏江月; 赵勇; 邓小昆; 魏益群
Original assignee: 深港产学研基地
Priority date: 2014-04-25
Filing date: 2015-01-29
Publication date: 2015-10-29
Also published as: CN103985137A; CN103985137B

Abstract

本申请公开了一种应用于人机交互的运动物体跟踪方法，包括采集图像，确定当前帧图像中目标的初始位置；对所述当前帧图像中的目标区域进行LK光流跟踪得到跟踪结果框；对所述当前帧图像通过训练分类器进行检测，得到检测结果框；计算所述检测结果的可信度，根据所述可信度确定所述目标的最终位置及用于下一帧图像LK光流跟踪的初始信息。本申请还公开了一种应用于人机交互的运动物体跟踪系统。本申请可在不同情况下，有区分地使用目标检测方法，并将检测与跟踪相结合来实现动态目标的实时高效跟踪，本申请为一种通用方法，适用于各种人机交互的场景，无需使用穿戴式设备，即可完成运动物体的实时跟踪，又降低了硬件成本。

Description

应用于人机交互的运动物体跟踪方法及系统

技术领域

本申请涉及视频图像，尤其涉及一种应用于人机交互的运动物体跟踪方法及系统。

背景技术

近年来随着智能手机和平板电脑的普及，基于手势的设备人机交互已经非常普遍，基于触摸屏的模式，人们每天都在通过点击、滑动、扭转、缩放等多种手势动作对诸如iPhone 、iPad、Windows Phone或基于Android系统的终端设备进行操控、娱乐。这样大规模用户习惯的改变，在习惯物理键盘实现人机交互的5至10年前是难以预计的，最重要的是它以更直观、更便利的方式，从家庭娱乐到企业应用的方方面面，对未来人们的生活方式的各方面产生了长久深远的影响，是未来消费电子产品技术革新与升级的必然趋势。

2012年美国NMC Horizon 报告显示，人机交互在未来的4到5年，将会在现有基于触摸屏模式的交互方式，将以智能电视、家庭娱乐、手机应用等消费电子品为媒介，向基于图像、语音和MEMS传感器的多种模式偕同发展，彻底改变未来人们的生活、工作、娱乐中的信息交互方式。

目前，国内外的研发状态主要呈现以下特点：

1）多数同类产品针对特定行业应用或本公司配套设备而设计，而非通用模块。例如Google手套是与Google Glass搭配的产品，任天堂的游戏手柄及微软Kinect都是配套其公司游戏主机的辅助装置，尽管也可以在其它领域得以应用，但仍有很大的制约与局限。

2）多数类似系统价格昂贵，与现有通用电子消费平整和成本过高，在价格上难以大众普及。例如Kinect核心模块，把该模块集成到机顶盒或智能电视之中远超普通消费者的承受能力。

发明内容

本申请提供一种应用于人机交互的运动物体跟踪方法及系统。

根据本申请的第一方面，本申请提供一种应用于人机交互的运动物体跟踪方法，包括：

采集图像，确定当前帧图像中目标的初始位置；

对所述当前帧图像中的目标区域进行LK光流跟踪得到跟踪结果框；

对所述当前帧图像通过训练分类器进行检测，得到检测结果框；

计算所述检测结果的可信度，根据所述可信度确定所述目标的最终位置及用于下一帧图像LK光流跟踪的初始信息。

上述方法中，所述对所述当前帧图像中的目标区域进行LK光流跟踪得到跟踪结果框，具体包括：

通过LK光流从所述上一帧图像跟踪到所述当前帧图像；

再从跟踪到的所述当前帧图像通过LK光流反跟踪到所述上一帧图像；

根据所述上一帧图像的初始跟踪点与经过两次LK光流跟踪后得到的跟踪点之间的关系，确定第一阈值；

根据所述第一阈值选取成功跟踪的点对。

上述方法中，所述根据所述上一帧图像的初始跟踪点与经过两次LK光流跟踪后得到的跟踪点之间的关系，确定第一阈值，根据所述第一阈值选取成功跟踪的点对，具体包括：

计算所述上一帧图像的初始跟踪点与经过两次LK光流跟踪后得到的跟踪点之间的误差，将所述误差的平均值作为第一阈值；

选取所述误差小于所述第一阈值的点对。

上述方法中，所述采集图像，确定当前帧图像中目标的初始位置，具体包括：

通过肤色检测、运动块检测和分类器检测确定所述目标的初始位置。

上述方法中，所述计算所述检测结果的可信度，根据所述可信度确定所述目标的最终位置及用于下一帧图像LK光流跟踪的初始信息，具体包括：

使用所述跟踪结果框与所述检测结果框的重叠面积除以所述跟踪结果框的面积，得到所述可信度；

确定第二阈值；

当所述可信度大于等于所述第二阈值时，将所述检测结果作为所述目标的最终位置，并作为用于下一帧图像LK光流跟踪的初始信息；

当所述可信度小于所述第二阈值时，将所述跟踪结果作为所述目标的最终位置，并作为下一帧图像LK光流跟踪的初始信息。

根据本申请的第二方面，本申请提供一种应用于人机交互的运动物体跟踪系统，包括细检测模块、跟踪模块、粗检测模块和分析模块；

所述细检测模块用于采集图像，确定当前帧图像中目标的初始位置；

所述跟踪模块用于对所述当前帧图像中的目标区域进行LK光流跟踪得到跟踪结果框；

所述粗检测模块用于对所述当前帧图像通过训练分类器进行检测，得到检测结果框；

所述分析模块用于计算所述检测结果的可信度，根据所述可信度确定所述目标的最终位置及用于下一帧图像LK光流跟踪的初始信息。

上述系统中，所述跟踪模块包括跟踪单元和选择单元；

所述跟踪单元用于通过LK光流从所述上一帧图像跟踪到所述当前帧图像，再从跟踪到的所述当前帧图像通过LK光流反跟踪到所述上一帧图像；

所述选择单元用于根据所述上一帧图像的初始跟踪点与经过两次LK光流跟踪后得到的跟踪点之间的关系，确定第一阈值，并根据所述第一阈值选取成功跟踪的点对。

上述系统中，所述选择单元还用于计算所述上一帧图像的初始跟踪点与经过两次LK光流跟踪后得到的跟踪点之间的误差，将所述误差的平均值作为第一阈值，选取所述误差小于所述第一阈值的点对。

上述系统中，所述细检测模块具体通过肤色检测、运动块检测和分类器检测确定所述目标的初始位置。

上述系统中，所述分析模块包括计算单元和分析单元；

所述计算单元用于使用所述跟踪结果框与所述检测结果框的重叠面积除以所述跟踪结果框的面积，得到所述可信度；

所述分析单元用于确定第二阈值，在所述可信度大于等于所述第二阈值时，当所述可信度大于等于所述第二阈值时，将所述检测结果作为所述目标的最终位置，并作为用于下一帧图像LK光流跟踪的初始信息；在所述可信度小于所述第二阈值时，将所述跟踪结果作为所述目标的最终位置，并作为下一帧图像LK光流跟踪的初始信息。

由于采用了以上技术方案，使本申请具备的有益效果在于：

(1) 在本申请的具体实施方式中，包括对当前帧图像进行LK光流跟踪得到跟踪结果框，对当前帧图像通过训练分类器进行检测，得到检测结果框，计算检测结果的可信度，根据可信度确定下一帧图像的初始信息。本申请可在不同情况下，有区分地使用目标检测方法，并将检测与跟踪相结合来实现动态目标的实时高效跟踪，本申请为一种通用方法，适用于各种人机交互的场景，无需使用穿戴式设备，即可完成运动物体的实时跟踪，又降低了硬件成本。

(2)在本申请的具体实施方式中，利用细检测确定手势的位置及判断手势信息，再以细检测得到的图像位置信息为初始状态对它进行跟踪，最后对运动物体目标跟踪结果，结合粗检测结果，进行可信度判断,从而修正手势目标所在位置,用于下一帧图像的手势目标跟踪。本申请通过细检测、粗检测、LK光流跟踪相结合的方法，既降低了对系统硬件的要求，又能满足实时准确的跟踪，将本申请用于机顶盒或智能电视等产品，进一步降低了成本。

附图说明

图1为本申请的应用于人机交互的运动物体跟踪方法在一种实施方式中的流程图；

图2为本申请的应用于人机交互的运动物体跟踪方法在另一种实施方式中的流程图；

图3是本申请的应用于人机交互的运动物体跟踪方法粗检测和细检测流程示意图；

图4是本申请的应用于人机交互的运动物体跟踪方法中跟踪检测的流程图；

图5是本申请的应用于人机交互的运动物体跟踪方法中得到跟踪的最终结果的流程图；

图6为本申请的应用于人机交互的运动物体跟踪系统在一种实施方式中的结构示意图；

图7为本申请的应用于人机交互的运动物体跟踪系统在一种实施方式中的结构示意图。

具体实施方式

下面通过具体实施方式结合附图对本申请作进一步详细说明。

实施例一：

如图1、图2所示，本申请的应用于人机交互的运动物体跟踪方法，其一种实施方式，包括以下步骤：

步骤102：采集图像，确定当前帧图像中目标的初始位置。

步骤104：对当前帧图像中的目标区域进行LK光流跟踪得到跟踪结果框。

步骤106：对当前帧图像通过训练分类器进行检测，得到检测结果框。

步骤108：计算检测结果框的可信度，根据可信度确定目标的最终位置及用于下一帧图像LK光流跟踪的初始信息。

如图3所示，步骤102中，确定当前帧图像的初始位置，通过细检测的方法实现。细检测包括肤色检测、运动块检测和分类器检测等多种检测方法。通过细检测确定运动物体区域及相关信息，以检测到的图像作为下一步检测的初始状态。检测的对象可以是运动物体，如手势等。利用细检测来获取手势所在ROI （Region Of Interest ，感兴趣区域)。

本步骤106中，使用线下分类器进行检测，称为粗检测。利用Haar特征+AdaBoost训练得到的分类器，对图像进行手势检测。确定手势的具体位置及手势信息。

在一种实施方式中，步骤104利用计算两次LK光流的方法来获得LK光流跟踪点的信息，通过计算前后向误差信息来过滤误差较大的跟踪点，用余下的跟踪点来估计当前帧中目标所在位置。具体包括：

步骤1042：通过LK光流从上一帧图像跟踪到当前帧图像。

步骤1044：再从跟踪到的当前帧图像通过LK光流反跟踪到上一帧图像。

步骤1046：根据上一帧图像的初始跟踪点与经过两次LK光流跟踪后得到的跟踪点之间的关系，确定第一阈值。

计算上一帧图像的初始跟踪点与经过两次LK光流跟踪后得到的跟踪点之间的误差，计算所有误差的平均值，将误差的平均值作为第一阈值。第一阈值也可以根据需要来设置，如设置一个经验值，或是通过其他方法计算。

步骤1048：根据第一阈值选取成功跟踪的点对。具体可选取误差小于所述第一阈值的点对。

首先，利用目标在前一帧图像中的位置信息作为初始状态，在该位置区域中根据需要均匀选取一些点。如图4所示，在本实施方式中，可选取100个点，并以每个点为中心，取10*10的图像块，利用LK光流法，来计算该点A对应于当前帧图像的位置B；其次，再次使用LK光流法，对前面跟踪到的当前帧中该点的位置B进行反向跟踪，得到其在前一帧中的位置C；然后，分别计算类似A、C这样的100个点对之间误差，取小于等于误差均值的点对作为跟踪正确的点对；最后，利用这些跟踪正确的点来计算位置及信息变换矩阵，从而得到跟踪位置。

本申请的应用于人机交互的运动物体跟踪方法，步骤108具体包括：

步骤1082：使用跟踪结果框与检测结果框的重叠面积除以跟踪结果框的面积，得到可信度；

步骤1084：确定第二阈值；第二阈值可以根据需要来确定，在本实施方式中，第二阈值可以取一个经验值，如0.65。

步骤1086：当可信度大于等于第二阈值时，将检测结果作为所述目标的最终位置，并作为用于下一帧图像LK光流跟踪的初始信息；

步骤1088：当可信度小于第二阈值时，将跟踪结果作为所述目标的最终位置，并作为下一帧图像LK光流跟踪的初始信息。

如果可信度小于第二阈值，则取跟踪结果为最终跟踪结果；否则，取粗检测结果为最终跟踪结果。如果没有跟踪结果，则使用细检测，取检测结果为最终跟踪结果。图5为在一种具体实施方式中得到最终的跟踪结果的流程图。

实施例二：

如图6所示，本申请的应用于人机交互的运动物体跟踪系统，其一种实施方式，包括细检测模块、跟踪模块、粗检测模块和分析模块。细检测模块用于采集图像，确定当前帧图像中目标的初始位置；跟踪模块用于对当前帧图像中的目标区域进行LK光流跟踪得到跟踪结果框；粗检测模块用于对当前帧图像通过训练分类器进行检测，得到检测结果框；分析模块用于计算所述检测结果的可信度，根据所述可信度确定所述目标的最终位置及用于下一帧图像LK光流跟踪的初始信息。

如图7所示，跟踪模块包括跟踪单元和选择单元。跟踪单元用于通过LK光流从上一帧图像跟踪到当前帧图像，再从跟踪到的当前帧图像通过LK光流反跟踪到上一帧图像；选择单元用于根据上一帧图像的初始跟踪点与经过两次LK光流跟踪后得到的跟踪点之间的关系，确定第一阈值，并根据第一阈值选取成功跟踪的点对。

在一种实施方式中，选择单元还用于计算上一帧图像的初始跟踪点与经过两次LK光流跟踪后得到的跟踪点之间的误差，将误差的平均值作为第一阈值，选取误差小于第一阈值的点对。

在一种实施方式中，细检测模块具体通过肤色检测、运动块检测和分类器检测确定目标的初始位置。

在一种实施方式中，分析模块包括计算单元和分析单元；计算单元用于使用跟踪结果框与检测结果框的重叠面积除以跟踪结果框的面积，得到可信度；分析单元用于确定第二阈值，在可信度大于等于所述第二阈值时，将所述检测结果作为所述目标的最终位置，并作为用于下一帧图像LK光流跟踪的初始信息；在可信度小于第二阈值时，将跟踪结果作为所述目标的最终位置，并作为下一帧图像LK光流跟踪的初始信息。

以上内容是结合具体的实施方式对本申请所作的进一步详细说明，不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干简单推演或替换。

Claims

一种应用于人机交互的运动物体跟踪方法，其特征在于，包括：

采集图像，确定当前帧图像中目标的初始位置；

对所述当前帧图像中的目标区域进行LK光流跟踪得到跟踪结果框；

对所述当前帧图像通过训练分类器进行检测，得到检测结果框；

计算所述检测结果的可信度，根据所述可信度确定所述目标的最终位置及用于下一帧图像LK光流跟踪的初始信息。
如权利要求1所述的应用于人机交互的运动物体跟踪方法，其特征在于，所述对所述当前帧图像中的目标区域进行LK光流跟踪得到跟踪结果框，具体包括：

通过LK光流从所述上一帧图像跟踪到所述当前帧图像；

再从跟踪到的所述当前帧图像通过LK光流反跟踪到所述上一帧图像；

根据所述上一帧图像的初始跟踪点与经过两次LK光流跟踪后得到的跟踪点之间的关系，确定第一阈值；

根据所述第一阈值选取成功跟踪的点对。
如权利要求2所述的应用于人机交互的运动物体跟踪方法，其特征在于，所述根据所述上一帧图像的初始跟踪点与经过两次LK光流跟踪后得到的跟踪点之间的关系，确定第一阈值，根据所述第一阈值选取成功跟踪的点对，具体包括：

计算所述上一帧图像的初始跟踪点与经过两次LK光流跟踪后得到的跟踪点之间的误差，将所述误差的平均值作为第一阈值；

选取所述误差小于所述第一阈值的点对。
如权利要求１所述的应用于人机交互的运动物体跟踪方法，其特征在于，所述采集图像，确定当前帧图像中目标的初始位置，具体包括：

通过肤色检测、运动块检测和分类器检测确定所述目标的初始位置。
如权利要求１所述的应用于人机交互的运动物体跟踪方法，其特征在于，所述计算所述检测结果的可信度，根据所述可信度确定所述目标的最终位置及用于下一帧图像LK光流跟踪的初始信息，具体包括：

使用所述跟踪结果框与所述检测结果框的重叠面积除以所述跟踪结果框的面积，得到所述可信度；

确定第二阈值；

当所述可信度大于等于所述第二阈值时，将所述检测结果作为所述目标的最终位置，并作为用于下一帧图像LK光流跟踪的初始信息；

当所述可信度小于所述第二阈值时，将所述跟踪结果作为所述目标的最终位置，并作为下一帧图像LK光流跟踪的初始信息。
一种应用于人机交互的运动物体跟踪系统，其特征在于，包括细检测模块、跟踪模块、粗检测模块和分析模块；

所述细检测模块用于采集图像，确定当前帧图像中目标的初始位置；

所述跟踪模块用于对所述当前帧图像中的目标区域进行LK光流跟踪得到跟踪结果框；

所述粗检测模块用于对所述当前帧图像通过训练分类器进行检测，得到检测结果框；

所述分析模块用于计算所述检测结果的可信度，根据所述可信度确定所述目标的最终位置及用于下一帧图像LK光流跟踪的初始信息。
如权利要求6所述的应用于人机交互的运动物体跟踪系统，其特征在于，所述跟踪模块包括跟踪单元和选择单元；

所述跟踪单元用于通过LK光流从所述上一帧图像跟踪到所述当前帧图像，再从跟踪到的所述当前帧图像通过LK光流反跟踪到所述上一帧图像；

所述选择单元用于根据所述上一帧图像的初始跟踪点与经过两次LK光流跟踪后得到的跟踪点之间的关系，确定第一阈值，并根据所述第一阈值选取成功跟踪的点对。
如权利要求7所述的应用于人机交互的运动物体跟踪系统，其特征在于，所述选择单元还用于计算所述上一帧图像的初始跟踪点与经过两次LK光流跟踪后得到的跟踪点之间的误差，将所述误差的平均值作为第一阈值，选取所述误差小于所述第一阈值的点对。
如权利要求6所述的应用于人机交互的运动物体跟踪系统，其特征在于，所述细检测模块具体通过肤色检测、运动块检测和分类器检测确定所述目标的初始位置。
如权利要求6所述的应用于人机交互的运动物体跟踪系统，其特征在于，所述分析模块包括计算单元和分析单元；

所述计算单元用于使用所述跟踪结果框与所述检测结果框的重叠面积除以所述跟踪结果框的面积，得到所述可信度；

所述分析单元用于确定第二阈值，在所述可信度大于等于所述第二阈值时，当所述可信度大于等于所述第二阈值时，将所述检测结果作为所述目标的最终位置，并作为用于下一帧图像LK光流跟踪的初始信息；在所述可信度小于所述第二阈值时，将所述跟踪结果作为所述目标的最终位置，并作为下一帧图像LK光流跟踪的初始信息。