WO2021227351A1

WO2021227351A1 - 目标部位跟踪方法、装置、电子设备和可读存储介质

Info

Publication number: WO2021227351A1
Application number: PCT/CN2020/120965
Authority: WO
Inventors: 岳海潇; 冯浩城; 王珂尧
Original assignee: 北京百度网讯科技有限公司
Priority date: 2020-05-15
Filing date: 2020-10-14
Publication date: 2021-11-18
Also published as: CN111627046A; EP4152258A4; JP2023516480A; KR20230003346A; EP4152258A1; US20230196587A1

Abstract

一种目标部位跟踪方法、装置、电子设备和计算机可读存储介质，涉及人工智能领域，具体为计算机视觉。该方法可以包括基于视频的先前帧中的对象的目标部位的先前检测区域，确定所述视频的当前帧中的用于检测所述目标部位的当前检测区域（302）。该方法进一步包括确定所述目标部位位于所述当前检测区域内的概率（304）。此外，该方法可以进一步包括响应于所述概率大于或等于预定阈值，至少基于所述当前检测区域和所述先前检测区域，确定所述视频的后续帧中的用于检测所述目标部位的后续检测区域（306）。该方法可以快速高效且低成本地获取追踪目标部位的位置信息，从而降低目标部位跟踪的算力和时间成本。

Description

目标部位跟踪方法、装置、电子设备和可读存储介质

本申请要求于2020年05月15日提交的中国专利申请第202010415394.2号的优先权权益。

技术领域

本公开的实施例主要涉及人工智能领域，具体为计算机视觉，并且更具体地，涉及目标部位跟踪方法、装置、电子设备和计算机可读存储介质。

背景技术

人脸识别系统通过人脸检测、人脸跟踪、人脸对齐、人脸活体、人脸识别等技术实现人脸的识别与比对任务，在视频监控、楼宇门禁、人脸闸机、金融核验等领域有着广泛应用。人脸跟踪技术是指在视频或帧的序列中确定某个对象的面部运动轨迹以及大小变化的技术。该技术作为准确、快速获取人脸位置坐标的方法，是人脸识别系统的重要组成之一。传统的人脸跟踪技术仅可以获取当前帧的人脸框坐标，并在跟踪人脸成功后输出人脸框坐标，提供给后续的人脸对齐模型来确定关键点。如果人脸被障碍物遮挡或超出图像采集范围，现有的人脸跟踪技术并不能准确判断是否存在人脸跟踪失败的问题，导致人脸识别功能失效。

发明内容

根据本公开的示例实施例，提供了一种目标部位跟踪方案。

在本公开的第一方面中，提供了一种目标部位跟踪方法。该方法可以包括基于视频的先前帧中的对象的目标部位的先前检测区域，确定所述视频的当前帧中的用于检测所述目标部位的当前检测区域。该方法进一步包括确定所述目标部位位于所述当前检测区域内的概率。此外，该方法可以进一步包括响应于所述概率大于或等于预定阈值，至少基于所述当前检测区域和所述先前检测区域，确定所述视频的后续帧中的用于检测所述目标部位的后续检测区域。

在本公开的第二方面中，提供了一种目标部位跟踪装置，包括：当前检测区域确定模块，被配置为基于视频的先前帧中的对象的目标部位的先前检测区域，确定所述视频的当前帧中的用于检测所述目标部位的当前检测区域；概率确定模块，被配置为确定所述目标部位位于所述当前检测区域内的概率；以及后续检测区域确定模块，被配置为响应于所述概率大于或等于预定阈值，至少基于所述当前检测区域和所述先前检测区域，确定所述视频的后续帧中的用于检测所述目标部位的后续检测区域。

在本公开的第三方面中，提供了一种电子设备，包括一个或多个处理器；以及存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现根据本公开的第一方面的方法。

在本公开的第四方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现根据本公开的第一方面的方法。

在本公开的第五方面中，提供了一种目标部位跟踪系统，包括：视频采集模块，被配置为提供与对象的目标部位相关联的视频；计算模块，与视频采集模块通信连接，所述计算模块被配置为实现根据本公开的第一方面的方法；以及输出展示模块，被配置为展示计算模块的处理结果。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标注表示相同或相似的元素，其中：

图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图；

图2示出了本公开的多个实施例能够在其中实现的详细示例环境的示意图；

图3示出了根据本公开的实施例的目标部位跟踪的过程的流程图；

图4示出了根据本公开的实施例的涉及目标部位跟踪的系统的框图；

图5示出了根据本公开的实施例的目标部位跟踪的装置的框图；以及

图6示出了能够实施本公开的多个实施例的计算设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

针对上文描述的干扰情况，人脸跟踪技术一般存在如下三种优化方案：

(1)基于模型的人脸跟踪方案。这种方案主要依据肤色模型、纹理模型等，通过获取人脸的先验知识，建立参数模型，建立针对每帧图像的滑动窗口进行模型匹配，以实现人脸跟踪。然而，此方案对于不同尺度人脸和人脸部分遮挡的情况跟踪准确率较低，且在跟踪过程中无法判断是否跟踪失败。

(2)基于运动信息的人脸跟踪方案。这种方案依据光流分析等方法进行人脸的运动估计。然而，此方案对于连续帧中尺度变化人脸跟踪准确率低，并且对于快速运动人脸的跟踪效果较差。

(3)基于神经网络的人脸跟踪方案。这种方案利用神经网络隐性学习人脸特征，根据对图像进行滑窗等方式进行特征匹配，从而实现人脸的跟踪。此方案对于人脸的特征表达要优于方案(1)，但计算量巨大，在嵌入式端难以保证实时性。

如上文提及的，亟需一种目标部位跟踪方法，来快速高效且低成本地追踪目标部位的位置信息，从而降低目标部位跟踪的算力和时间成本。

根据本公开的实施例，提出了一种目标部位跟踪方案。在该方案中，可以在目标部位检测的基础上加入针对目标部位的运动预测功能。在基于先前帧预测到当前帧中目标部位所处的检测区域之后、在基于该检测区域确定目标部位的关键点的同时确定目标部位是否位于该检测区域内。如果判断目标部位仍位于该检测区域内，则表明运动预测功能正常，可以继续预测后续帧中目标部位的检测区域，从而无需使用复杂且对算力需求较大的目标部位检测模型。如果判断目标部位并不位于该检测区域内，则表明运动预测的结果与实际情况不符，此时可以直接调用目标部位检测模型来对预测结果进行纠正。以此方式，即便存在被监控对象的目标部位被遮挡的情况或者被监控对象出现不规则运动的情况，均可以低成本且高精度地确定后续帧的检测区域。

以下将参照附图来具体描述本公开的实施例。图1示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。如图1所示，示例环境100中包含监控视频中的帧110、计算设备120和经确定的检测区域130。

帧110可以是由与计算设备120相连接的图像获取设备获取的实时监控视频中的一帧或多帧。作为示例，图像获取设备可以设置在人流量较大的公共场所(例如，视频监控、人脸闸机等)，以便获取经过该场所的人群中的每一个人的图像信息。作为另一示例，图像获取设备可以设置在人流量较少的私密场所(例如，楼宇门禁、金融核验等)。应理解，获取图像信息的对象可以不限于人，而是还可以包含需要批量识别的动物(例如，动物园或饲养场所内的动物)和静物(例如，传送带上的货物)。计算设备120可以接收帧110以确定被监控对象的诸如脸部的目标部位的检测区域130。

应理解，本文所述的检测区域是用于检测目标部位的区域，例如可以通过检测框或者其他适当的工具来标定，也可以仅仅是确定图像上的一部分区域、而不实际标定。作为示例，检测区域可以具有多种实现形式，例如可以具有方框、圆形、椭圆形、不规则形状等形状，也可以以实线、虚线、点划线等来描绘。

当确定了帧110的检测区域130之后，计算设备120可以通过其中加载的诸如卷积神经网络CNN等的人工智能网络来确定目标部位在检测区域130中的多个关键点并且判定目标部位是否仍位于检测区域130内。以此来监控计算设备120的预测功能是否正常。此外，当判定目标部位没有位于检测区域130内时，计算设备120还需要通过其中加载的诸如卷积神经网络CNN等的另一人工智能网络来确定后续帧中的目标部位的检测区域。

下文将以CNN为例参考图2对计算设备120中的人工智能网络的构建和使用进行描述。

图2示出了本公开的多个实施例能够在其中实现的详细示例环境200的示意图。与图1类似地，示例环境200可以包含计算设备220、输入帧210和输出结果230。区别在于，示例环境200总体上可以包括模型训练系统260和模型应用系统270。作为示例，模型训练系统260和/或模型应用系统270可以在如图1所示的计算设备120 或如图2所示的计算设备220中实现。应当理解，仅出于示例性的目的描述示例环境200的结构和功能并不旨在限制本文所描述主题的范围。本文所描述主题可以在不同的结构和/或功能中实施。

如前所述，确定被监控对象的诸如脸部的目标部位的关键点以及目标部位是否位于检测区域内的过程以及确定目标部位的检测区域的过程均可以分为两个阶段：模型训练阶段和模型应用阶段。作为示例，对于确定目标部位的关键点以及目标部位位于检测区域内的概率的过程，在模型训练阶段中，模型训练系统260可以利用训练数据集250来训练确定关键点和概率的CNN 240。在模型应用阶段中，模型应用系统270可以接收经训练的CNN 240，从而由CNN 240基于输入帧210确定关键点和概率作为输出结果230。应理解，训练数据集250可以是海量的被标注的参考帧。

作为另一示例，对于确定目标部位的检测区域的过程，在模型训练阶段中，模型训练系统260可以利用训练数据集250来训练确定检测区域的CNN 240。在模型应用阶段中，模型应用系统270可以接收经训练的CNN 240，从而由CNN 240基于输入帧210确定目标部位的检测区域。

在其他实施例中，CNN 240可以被构建为学习网络。这样的学习网络也可以被称为学习模型，或者被简称为网络或模型。在一些实施例中，该学习网络可以包括多个网络，例如分别用于确定被监控对象的诸如脸部的目标部位的关键点以及目标部位是否位于检测区域内的概率，以及确定目标部位的检测区域。其中每个网络可以是一个多层神经网络，其可以由大量的神经元组成。通过训练过程，每个网络中的神经元的相应参数能够被确定。这些网络中的神经元的参数被统称为CNN 240的参数。

CNN 240的训练过程可以以迭代方式来被执行。具体地，模型训练系统260可以从训练数据集250中获取参考图像，并且利用参考图像来进行训练过程的一次迭代，以更新CNN 240的相应参数。模型训练系统260可以基于训练数据集250中的多个参考图像重复执行上述过程，直至CNN 240的参数中的至少部分参数收敛，由此获得最终的模型参数。

上文描述的技术方案仅用于示例，而非限制本发明。应理解，还可以按照其他方式和连接关系来布置各个网络。为了更清楚地解释上述方案的原理，下文将参考图3来更详细描述目标部位跟踪过程。

图3示出了根据本公开的实施例的目标部位跟踪的过程300的流程图。在某些实施例中，方法300可以在图1的计算设备120、图2的计算设备220以及图6示出的设备中实现。现参照图1描述根据本公开实施例的用于跟踪目标部位的过程300。为了便于理解，在下文描述中提及的具体实例均是示例性的，并不用于限定本公开的保护范围。

在302，计算设备120可以基于视频的先前帧中的对象的目标部位的先前检测区域，确定视频的当前帧中的用于检测目标部位的当前检测区域。在某些实施例中，计算设备120可以将先前检测区域应用于位置预测模型，以确定当前检测区域。作为示例，位置预测模型至少可以是卡尔曼滤波器、维纳滤波器、强跟踪滤波器、一次移动平均预测模型、二次移动平均预测模型、单指数平滑模型、双指数平滑模型、霍尔特指数平滑模型等中的一个。

以卡尔曼滤波器为例，当接收到监控视频中的帧110之前的一帧之后，计算设备120中或与计算设备连接的卡尔曼滤波器可以基于该帧以及卡尔曼滤波器中的先验信息来预测下一帧的检测区域。卡尔曼滤波器中的算法的计算公式为：

状态方程：X _k＝A _k,k-1·X _k-1+V _k-1

观测方程：Y _k＝H·X _k+W _k

上式X _k与X _k-1分别为第k帧与第k-1帧的状态向量，Y _k为第k帧的观测向量；A _k,k-1为状态转移矩阵；H为观测矩阵，V _k-1和W _k分布为第k-1帧和第k帧的系统状态噪声与观测噪声，Q和R分别为相应方差矩阵。

设状态向量为X _k＝[S _xk,S _yk,V _xk,V _yk],其中S _xk,S _yk,V _xk,V _yk分别为当前帧人脸框中心点x轴坐标、y轴坐标、x轴方向速度、y轴方向速度；观测向量为Y _k＝[O _xk,O _yk]，其中O _xk,O _yk分别为当前帧观测人脸框中心点中心点x轴坐标、y轴坐标，状态更新公式为：

X _k，k-1＝A _k，k-1X _k-1

X _k＝K _k，k-1+K _k[Y _k-H _kX _k，k-1]

P _k＝[I-K _kH _k]P _k，k-1

式中，X _k,k-1为一步状态估计值，X _k为先验估计X _k,k-1的修正值，X _k为卡尔曼滤波增益矩阵，P _k,k-1为X _k,k-1的协方差矩阵，P _k为X _k的协方差矩阵，I为单位阵。

由此，当计算设备120接收到帧110时，即可使用预测的检测区域来确定帧110中的目标部位的多个关键点信息，例如，每个关键点的坐标。应理解，基于卡尔曼滤波器的运动预测可以灵活实现。例如，还可以基于先前帧中的目标部位的关键点信息以及卡尔曼滤波器中的先验信息来预测下一帧的检测区域。

在某些实施例中，目标部位是对象的面部、眼睛、或指纹等。并且对象也不限于是人。还应理解，本文描述的对象可以是人，也可以是动物或处于运动状态的物体(例如，传送带上的货物)。本公开的方案可以应用于多对象场景的识别。具体来说，本公开可以在动物园或牧场中的动物必经的区域识别每一只或每一种动物，还可以在商场或工厂中的货物的运送通道识别每一个或每一种商品或工业品，从而实现自动化的物流信息管理。

在304，计算设备120可以确定目标部位位于当前检测区域内的概率。作为示例，计算设备120可以将当前检测区域应用于概率确定模型(诸如，上文所述的CNN 240包含的一个模型)，以确定目标部位位于当前检测区域内的概率。该概率确定模型可以是基于参考帧中的参考检测区域以及预先标注的参考概率来训练得到的。在一些实施例中，该概率确定模型更为简单地通过确定当前检测区域内存在特定目标部位(诸如人脸)的概率来快速确定目标部位位于当前检测区域内的概率。该概率可以按照得分的形式输出，分值范围为0到1。分值越高代表人脸框内存在人脸的可能性越高。优选地，判断是否存在人脸的预定阈值可以是0.5或其他数值。

在某些实施例中，在确定目标部位位于当前检测区域内的概率的同时，计算设备120中的人工智能网络还可以基于当前检测区域确定目标部位的多个关键点。作为示例，计算设备120可以将当前检测区域应用于关键点确定模型(诸如，上文所述的CNN 240包含的一个模型)，以确定目标部位的关键点。该关键点确定模型是基于参考帧中的参考检测区域以及预先标注的参考关键点来训练得到的。备选地或附加地，关键点确定模型和上述概率确定模型可以合并为一个模型，来基于当前检测区域同时确定目标部位的多个关键点以及目标部位位于当前检测区域内的概率。以此方式，可以在不显著增加算力的前提下获知预测得到的检测区域是否正确。

之后，计算设备120可以判定该概率是否大于或等于预定阈值。在306，当该概率大于或等于预定阈值时，计算设备120可以至少基于当前检测区域和先前检测区域，确定视频的后续帧中的用于检测目标部位的后续检测区域。作为示例，计算设备120中的位置预测模型可以基于当前检测区域和先验信息来确定后续检测区域。如上所述，该位置预测模型至少可以是卡尔曼滤波器、维纳滤波器、强跟踪滤波器、一次移动平均预测模型、二次移动平均预测模型、单指数平滑模型、双指数平滑模型、霍尔特指数平滑模型等中的一个。以此方式，当被监控对象不存在异常运动或遮挡时，计算设备120可以利用算力需求较小的位置预测模型来确定目标部位的检测区域，从而显著地节约了计算资源。

此外，当该概率小于预定阈值时，计算设备120可以对后续帧中的目标部位进行检测，并且基于检测结果确定后续帧中的用于检测目标部位的后续检测区域。作为示例，计算设备120可以将后续帧应用于区域确定模型(诸如，上文所述的CNN 240包含的一个模型)，以确定目标部位的后续检测区域。该区域确定模型是基于参考帧以及预先标注的参考检测区域来训练得到的。以此方式，可以及时发现运动预测所出现的错误，并利用更为精确的区域确定模型来纠正错误，保证区域跟踪的正确度。

在一些实施例中，区域确定模型可以对帧110进行人脸区域检测。例如，可以通过六层卷积网络对帧110进行人脸基础特征提取，并且每层卷积网络实现一次图像下采样，基于最后的三层卷积神经网络分别预设置固定数目的不同尺寸人脸锚点区域进行人脸检测区域回归，最终人脸的检测区域。应理解，上述实例仅是示例性的，还可以采用其他层数的卷积网络，并且也不限于确定人脸的检测区域。以此方式，可以基于区域确定模型快速识别帧110中的目标部位的检测区域。

以此方式，通过在传统的系统中加入了运动预测模型，本公开可以将确定目标部位的检测区域的大部分工作转移到算力需求较小的运动预测模型，从而节约了算力资源。此外，本公开还在关键点确定模型的基础上融合了上述概率确定模型，从而可以逐帧的检查运动预测的结果，并当可能发生预测错误时利用区域确定模型来获取正确的检测区域。由此，本公开在节约算力的同时还提升了检测区域预测的正确度。另外，当关键点确定模型与概率确定模型融合为一个模型时，不会增加计算设备120对输入的帧110的处理时间。因此，本公开几乎是无缺陷地提升了计算设备120的确定检测区域的性能，从而优化了用户体验。

此外，本公开还提供了一种用于目标部位跟踪的系统400。如图4所示，该系统包括图像采集模块410，该图像采集模块可以是诸如RGB相机的图像感测设备。该系统400还可以包括与图像采集模块410通信连接的计算模块420，该计算模块420用于上文所描述的各个方法和处理，例如过程300。此外，该系统400可以包括输出展示模块430，用于向用户展示计算模块420的处理结果。例如，输出展示模块430可以向用户展示被监控对象的人脸跟踪结果。

以此方式，可以实现系统级的人脸跟踪，且在人脸跟踪与识别的准确度不变的前提下显著降低算力需求。

在某些实施例中，系统400可以应用于多行人的人脸跟踪场景。作为示例，系统400可以应用于楼宇门禁场景或金融核验场景。当被监控对象的面部进入监控视野时，系统400可以基于包含该对象的面部的第一帧监控图像以及先验信息预测该对象的面部在下一帧监控图像中的位置，并在确定关键点时同时确定该位置中是否仍然包含该对象的面部。以此方式，既可以通过预测人脸位置来节约重复进行人脸检测的算力，还可以通过后续的人脸复查确定预测的准确性。当发现预测不准确时，可以重启人脸检测，保证人脸跟踪结果随时可用。

作为另一示例，系统400还可以应用于视频监控领域，尤其是在地铁或场馆入口对多个被监控对象进行体温监控的情形。例如，当多个被监控对象的面部进入监控视野时，系统400可以分别基于包含这些对象的面部的相应第一帧监控图像以及先验信息预测这些对象的面部在相应下一帧监控图像中的位置，并在确定关键点时同时确定该位置中是否仍然包含相应对象的面部。由于可能需要同时跟踪多个人脸，本公开的系统400可以极大的节约重复进行人脸检测的算力，同时保证保证人脸跟踪结果正确且随时可用。

图5示出了根据本公开的实施例的用于跟踪目标部位的装置500的框图。如图5所示，装置500可以包括：当前检测区域确定模块502，被配置为基于视频的先前帧中的对象的目标部位的先前检测区域，确定视频的当前帧中的用于检测目标部位的当前检测区域；概率确定模块，被配置为确定目标部位位于当前检测区域内的概率；以及后续检测区域确定模块，被配置为响应于概率大于或等于预定阈值，至少基于当前检测区域和先前检测区域，确定视频的后续帧中的用于检测所述目标部位的后续检测区域。

在某些实施例中，装置500还可以包括：目标部位检测模块，被配置为响应于概率小于预定阈值，对后续帧中的目标部位进行检测；以及区域确定模块，被配置为基于检测的结果，确定后续帧中的用于检测目标部位的后续检测区域。

在某些实施例中，目标部位检测模块可以包括：后续帧应用模块，被配置为将后续帧应用于区域确定模型，以确定目标部位的后续检测区域，区域确定模型是基于参考帧以及预先标注的参考检测区域来训练得到的。

在某些实施例中，概率确定模块504可以包括：当前检测区域应用模块，被配置为将当前检测区域应用于概率确定模型，以确定目标部位位于当前检测区域内的概率，概率确定模型是基于参考帧中的参考检测区域以及预先标注的参考概率来训练得到的。

在某些实施例中，当前检测区域确定模块502可以包括：先前检测区域应用模块，被配置为将先前检测区域应用于位置预测模型，以确定当前检测区域，位置预测模型至少可以是以下中的一项：卡尔曼滤波器；维纳滤波器；以及强跟踪滤波器。

在某些实施例中，目标部位可以是对象的面部、眼睛、指纹中的至少一项。

在某些实施例中，装置500还可以包括：关键点确定模块，被配置为基于当前检测区域确定目标部位的关键点。

在某些实施例中，关键点确定模块可以包括：当前检测区域应用模块，被配置为将当前检测区域应用于关键点确定模型，以确定目标部位的所述关键点，关键点确定模型是基于参考帧中的参考检测区域以及预先标注的参考关键点来训练得到的。

图6示出了能够实施本公开的多个实施例的计算设备600的框图。设备600可以用于实现图1的计算设备120或者图2中的计算设备220。如图所示，设备600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的计算机程序指令或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序指令，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元601执行上文所描述的各个方法和处理，例如过程300。例如，在一些实施例中，过程300可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由CPU 601执行时，可以执行上文描述的过程300的一个或多个步骤。备选地，在其他实施例中，CPU 601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行过程300。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

一种目标部位跟踪方法，包括：

基于视频的先前帧中的对象的目标部位的先前检测区域，确定所述视频的当前帧中的用于检测所述目标部位的当前检测区域；

确定所述目标部位位于所述当前检测区域内的概率；以及

响应于所述概率大于或等于预定阈值，至少基于所述当前检测区域和所述先前检测区域，确定所述视频的后续帧中的用于检测所述目标部位的后续检测区域。
根据权利要求1所述的方法，还包括：

响应于所述概率小于所述预定阈值，对所述后续帧中的所述目标部位进行检测；以及

基于所述检测的结果，确定所述后续帧中的用于检测所述目标部位的后续检测区域。
根据权利要求2所述的方法，其中对所述后续帧中的所述目标部位进行检测包括：

将所述后续帧应用于区域确定模型，以确定所述目标部位的后续检测区域，所述区域确定模型是基于参考帧以及预先标注的参考检测区域来训练得到的。
根据权利要求1所述的方法，其中确定所述概率包括：

将所述当前检测区域应用于概率确定模型，以确定所述目标部位位于所述当前检测区域内的概率，所述概率确定模型是基于参考帧中的参考检测区域以及预先标注的参考概率来训练得到的。
根据权利要求1所述的方法，其中确定所述当前检测区域包括：

将所述先前检测区域应用于位置预测模型，以确定所述当前检测区域，所述位置预测模型至少是以下中的一项：

卡尔曼滤波器；

维纳滤波器；以及

强跟踪滤波器。
根据权利要求1所述的方法，其中所述目标部位是所述对象的面部、眼睛、指纹中的至少一项。
根据权利要求1所述的方法，还包括：

基于所述当前检测区域确定所述目标部位的关键点。
根据权利要求1所述的方法，其中确定所述关键点包括：

将所述当前检测区域应用于关键点确定模型，以确定所述目标部位的所述关键点，所述关键点确定模型是基于参考帧中的参考检测区域以及预先标注的参考关键点来训练得到的。
一种目标部位跟踪装置，包括：

当前检测区域确定模块，被配置为基于视频的先前帧中的对象的目标部位的先前检测区域，确定所述视频的当前帧中的用于检测所述目标部位的当前检测区域；

概率确定模块，被配置为确定所述目标部位位于所述当前检测区域内的概率；以及

后续检测区域确定模块，被配置为响应于所述概率大于或等于预定阈值，至少基于所述当前检测区域和所述先前检测区域，确定所述视频的后续帧中的用于检测所述目标部位的后续检测区域。
根据权利要求9所述的装置，还包括：

目标部位检测模块，被配置为响应于所述概率小于所述预定阈值，对所述后续帧中的所述目标部位进行检测；以及

区域确定模块，被配置为基于所述检测的结果，确定所述后续帧中的用于检测所述目标部位的后续检测区域。
根据权利要求10所述的装置，其中所述目标部位检测模块包括：

后续帧应用模块，被配置为将所述后续帧应用于区域确定模型，以确定所述目标部位的后续检测区域，所述区域确定模型是基于参考帧以及预先标注的参考检测区域来训练得到的。
根据权利要求9所述的装置，其中所述概率确定模块包括：

当前检测区域应用模块，被配置为将所述当前检测区域应用于概率确定模型，以确定所述目标部位位于所述当前检测区域内的概率，所述概率确定模型是基于参考帧中的参考检测区域以及预先标注的参考概率来训练得到的。
根据权利要求9所述的装置，其中所述当前检测区域确定模块包括：

先前检测区域应用模块，被配置为将所述先前检测区域应用于位置预测模型，以确定所述当前检测区域，所述位置预测模型至少是以下中的一项：

卡尔曼滤波器；

维纳滤波器；以及

强跟踪滤波器。
根据权利要求9所述的装置，其中所述目标部位是所述对象的面部、眼睛、指纹中的至少一项。
根据权利要求9所述的装置，还包括：

关键点确定模块，被配置为基于所述当前检测区域确定所述目标部位的关键点。
根据权利要求9所述的装置，其中所述关键点确定模块包括：

当前检测区域应用模块，被配置为将所述当前检测区域应用于关键点确定模型，以确定所述目标部位的所述关键点，所述关键点确定模型是基于参考帧中的参考检测区域以及预先标注的参考关键点来训练得到的。
一种电子设备，所述电子设备包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如权利要求1-8任一项所述的方法。
一种目标部位跟踪系统，包括：

视频采集模块，被配置为提供与对象的目标部位相关联的视频；

计算模块，与所述视频采集模块通信连接，所述计算模块被配置为实现如权利要求1-8任一项所述的方法；以及

输出展示模块，被配置为展示所述计算模块的处理结果。