WO2020252974A1

WO2020252974A1 - 一种针对运动状态下的多目标对象追踪方法和装置

Info

Publication number: WO2020252974A1
Application number: PCT/CN2019/108432
Authority: WO
Inventors: 吉长江
Original assignee: 北京影谱科技股份有限公司
Priority date: 2019-06-17
Filing date: 2019-09-27
Publication date: 2020-12-24
Also published as: US20220215560A1; CN110264493B; CN110264493A

Abstract

本申请实施例公开了一种针对运动状态下的多目标对象追踪方法和装置，其中，所述方法包括：从视频采集装置采集的视频帧中确定目标对象的特征检测区域，从所述检测区域中提取所述目标对象的颜色特征进行比对，获得第一比对结果；将相邻所述视频帧中所述目标对象的标识部位在目标坐标系中的位置信息进行比对，获得第二比对结果；根据所述第一比对结果和所述第二比对结果，判断相邻所述视频帧中的所述目标对象是否为同一目标对象，进而实现精确的定位和追踪。采用本申请所述的针对运动状态下的多目标对象追踪方法，能够同时对多目标对象进行快速识别和追踪，提高了针对视频数据中目标对象进行识别和追踪的精确度。

Description

一种针对运动状态下的多目标对象追踪方法和装置

本申请要求于2018年06月17日提交中国专利局，申请号为CN201910522911.3，申请名称为“一种针对运动状态下的多目标对象追踪方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及人工智能技术领域，具体涉及一种针对运动状态下的多目标对象追踪方法和装置。

背景技术

随着计算机视觉技术的快速发展，现有视频采集设备的功能越来越强大，用户可以通过视频采集设备实现对视频数据中特定目标对象的追踪拍摄。计算机视觉技术是一种研究如何使机器“看”的技术，可以用摄影机和计算机设备代替人眼对目标对象进行实时识别、定位、跟踪和测量等机器视觉处理技术。通过计算机设备对图像进行分析处理，使摄影机获取的数据更适合人眼观察或传送给仪器检测的图像信息。例如，在篮球比赛中，通常需要利用摄像机对场上的多名球员同时进行追踪拍摄，使用户可以根据需求随时切换至球员相应的追踪拍摄角度或者获得该球员在场上的运动轨迹数据。因此，如何在视频采集设备和目标对象都处于运动状态的情况下实现对目标对象的快速、精确定位和追踪，成为当前亟待解决的技术问题。

为了解决上述技术问题，现有技术中通常采用的技术手段是基于2D图像识别技术对视频帧中的目标对象的位置相似度进行判断，确定相邻视频帧中的目标对象是否为同一目标对象，进而实现对目标对象的定位追踪以及获得所述目标对象的运动轨迹。然而，在实际应用场景中，除了目标对象处于运动状态之外，往往还存在视频采集设备本身的位姿变化，导致现有技术对目标对象的实际追踪拍摄效果较差，容易出现识别错误，无法满足当前用户的需求。

发明内容

为此，本申请实施例提供一种针对运动状态下的多目标对象追踪方法，以解决现有技术中存在针对视频中多目标对象的识别和追踪效率较低、精确度较差的问题。

为了实现上述目的，本申请实施例提供如下技术方案：

根据本申请实施例提供一种针对运动状态下的多目标对象追踪方法，包括：获得视频采集装置中采集的视频数据所包含的视频帧；将所述视频帧发送至预设的特征识别模型中，确定所述视频帧中对应目标对象的特征检测区域，从所述检测区域中提取所述目标对象的颜色特征，将相邻所述视频帧中所述目标对象的所述颜色特征进行比对，获得第一比对结果；确定相邻所述视频帧中所述目标对象的标识部位在目标坐标系中的位置信息，将相邻所述视频帧中的所述标识部位在目标坐标系中的位置信息进行比对，获得第二比对结果；根据所述第一比对结果和所述第二比对结果，判断相邻所述视频帧中的所述目标对象是否为同一目标对象，若是，则将相邻所述视频帧中所述目标对象作为同一目标对象进行追踪。

进一步的，所述确定相邻所述视频帧中所述目标对象的标识部位在目标坐标系中的位置信息，具体包括：通过预测相邻所述视频帧分别对应的所述视频采集装置的位姿变化情况，获得相邻所述视频帧中分别对应的所述视频采集装置的位姿变化信息；根据所述位姿变化信息和相邻所述视频帧中前一视频帧对应的所述视频采集装置的位置信息，确定相邻所述视频帧中后一视频帧对应的所述视频采集装置的位置信息；根据相邻所述视频帧中分别对应的所述视频采集装置的位置信息以及所述目标对象的标识部位，利用三角测量法获得所述目标对象的标识部位在以所述视频采集装置为空间坐标原点构建的空间直角坐标系中的位置信息；通过坐标变换获得所述目标对象的标识部位在目标坐标系中的位置信息。

进一步的，所述的针对运动状态下的多目标对象追踪方法，还包括：确定所述视频帧中所述目标对象的实际运动区域；将所述视频帧中所述目标对象的实际运动区域作为待检测区域，对所述待检测区域之外的所述特征检测区域进行滤除，获得所述待检测区域之内的所述特征检测区域。

进一步的，所述标识部位为所述目标对象的颈部部位；相应的，所述目标对象的标识部位在目标坐标系中的位置信息为所述目标对象的颈部部位位于以所述待检测区域中心为空间坐标原点构建的空间直角坐标系中的位置信息。

进一步的，获得所述视频采集装置中采集的所述视频数据，对所述视频数据进行分割处理，获得所述视频数据所包含的视频片段；检测所述视频片段之间的特征相似度，将所述特征相似度达到或超过预设相似度阈值并且时间间隔不超过预设时间阈值的视频片段作为一个视频镜头；获取所述视频镜头中所包含的视频帧。

相应的，本申请实施例还提供一种针对运动状态下的多目标对象追踪装置，包括：视频帧获得单元，用于获得视频采集装置中采集的视频数据所包含的视频帧；第一比对单元，用于将所述视频帧发送至预设的特征识别模型中，确定所述视频帧中对应目标对象的特征检测区域，从所述检测区域中提取所述目标对象的颜色特征，将相邻所述视频帧中所述目标对象的所述颜色特征进行比对，获得第一比对结果；第二比对单元，用于确定相邻所述视频帧中所述目标对象的标识部位在目标坐标系中的位置信息，将相邻所述视频帧中的所述标识部位在目标坐标系中的位置信息进行比对，获得第二比对结果；判断单元，用于根据所述第一比对结果和所述第二比对结果，判断相邻所述视频帧中的所述目标对象是否为同一目标对象，若是，则将相邻所述视频帧中所述目标对象作为同一目标对象进行追踪。

进一步的，所述的针对运动状态下的多目标对象追踪装置，还包括：运动区域确定单元，用于确定所述视频帧中所述目标对象的实际运动区域；滤除单元，用于将所述视频帧中所述目标对象的实际运动区域作为待检测区域，对所述待检测区域之外的所述特征检测区域进行滤除，获得所述待检测区域之内的所述特征检测区域。

进一步的，所述获得视频采集装置中采集的视频数据所包含的视频帧，具体包括：获得所述视频采集装置中采集的所述视频数据，对所述视频数据进行分割处理，获得所述视频数据所包含的视频片段；检测所述视频片段之间的特征相似度，将所述特征相似度达到或超过预设相似度阈值并且时间间隔不超过预设时间阈值的视频片段作为一个视频镜头；获取所述视频镜头中所包含的视频帧。

相应的，本申请还提供一种电子设备，包括：处理器和存储器；其中，所述存储器用于存储针对运动状态下的多目标对象追踪方法的程序，该设备通电并通过所述处理器运行该针对运动状态下的多目标对象追踪方法的程序后，执行下述步骤：

获得视频采集装置中采集的视频数据所包含的视频帧；将所述视频帧发送至预设的特征识别模型中，确定所述视频帧中对应目标对象的特征检测区域，从所述检测区域中提取所述目标对象的颜色特征，将相邻所述视频帧中所述目标对象的所述颜色特征进行比对，获得第一比对结果；确定相邻所述视频帧中所述目标对象的标识部位在目标坐标系中的位置信息，将相邻所述视频帧中的所述标识部位在目标坐标系中的位置信息进行比对，获得第二比对结果；根据第一比对结果和所述第二比对结果，判断相邻所述视频帧中的所述目标对象是否为同一目标对象，若是，则将相邻所述视频帧中所述目标对象作为同一目标对象进行追踪。

相应的，本申请还提供一种存储设备，存储有针对运动状态下的多目标对象追踪方法的程序，该程序被处理器运行，执行下述步骤：

采用本申请所述的针对运动状态下的多目标对象追踪方法，能够同时对处于运动状态下的多目标对象进行快速的识别和追踪，提高了针对视频数据中处于运动状态的多目标对象进行识别和追踪的精确度，从而提升了用户的使用体验。

附图说明

为了更清楚地说明本申请的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本申请可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本申请所能产生的功效及所能达成的目的下，均应仍落在本申请所揭示的技术内容得能涵盖的范围内。

图1为本申请实施例提供的一种针对运动状态下的多目标对象追踪方法的流程图；

图2为本申请实施例提供的一种针对运动状态下的多目标对象追踪装置的示意图；

图3为本申请实施例提供的一种利用三角测量法定位目标对象的示意图；

图4为本申请实施例提供的一种电子设备的示意图。

具体实施方式

以下由特定的具体实施例说明本申请的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本申请的其他优点及功效，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面基于本申请所述的针对运动状态下的多目标对象追踪方法，对其实施例进行详细描述。如图1所示，其为本申请实施例提供的一种针对运动状态下的多目标对象追踪方法的流程图，具体实现过程包括以下步骤：

步骤S101：获得视频采集装置中采集的视频数据所包含的视频帧。

在本申请实施例中，所述的视频采集装置包括摄像机、录像机以及图像传感器等视频数据采集设备。所述的视频数据为一个独立镜头内所包含的视频数据。其中，一个独立镜头是视频采集装置的一个连续拍摄过程获得的视频数据，视频数据由视频帧画面组成，一组连续的视频帧可以构成一个镜头。

在一个完整的视频数据中可能包含多个镜头，所述的获得视频采集装置中采集的视频数据所包含的视频帧，具体可以通过如下方式实现：

获得所述视频采集装置中采集的所述视频数据，在获取其中一个镜头所包含的视频帧之前需要首先基于视频帧的全局特征和局部特征对完整的视频数据进行镜头分割，得到一系列独立的视频片段。检测所述视频片段之间的相似度，将所述相似度达到或超过预设相似度阈值并且时间间隔不超过预设时间阈值的视频片段作为一个视频镜头，进而获取所述视频镜头中所包含的视频帧。

在具体实施过程中，不同镜头所包含的视频帧的颜色特征通常存在明显差异，当相邻两个视频帧之间的颜色特征发生变化时，则可以认为在此处发生了镜头的切换，利用颜色特征提取算法可以提取视频数据中每一视频帧的RGB或HSV颜色直方图，然后利用窗口函数计算视频帧画面中前半部分和后半部分的概率分布，若两个概率不同则认为此时的窗口中心为镜头分界。

所述的基于视频帧的全局特征和局部特征对完整的视频数据进行镜头分割，具体可以通过如下过程实现：

全局特征分析：基于相邻视频帧颜色特征计算视频数据的相邻视频帧之间的第一相似度，将所述第一相似度与第一相似度阈值进行比较，若所述第一相似度小于所述第一相似度阈值，则将该视频帧作为一个独立镜头的候选视频帧。

局部特征分析：分别计算所述候选视频帧与其前一视频帧中关键点的描述子到每一个视觉词的距离值，将描述子与所述视觉词的距离值最小的视觉词相对应，基于描述子和对应的视觉词，分别构建所述候选视频帧和其前一帧的视觉词直方图，计算视频帧的视觉词直方图之间的第二相似度。

镜头分割步骤：对所述第二相似度进行判断，若所述第二相似度大于或者等于第二相似度阈值，则将所述候选视频帧和其前一帧归并为同一个镜头，若所述第二相似度小于所述第二相似度阈值，则将所述候选视频帧确定为新镜头的起始视频帧。

步骤S102：将所述视频帧发送至预设的特征识别模型中，确定所述视频帧中对应目标对象的特征检测区域，从所述特征检测区域中提取所述目标对象的颜色特征，将相邻所述视频帧中所述目标对象的所述颜色特征进行比对，获得第一比对结果。

在上述步骤S101中获得视频采集装置采集的视频数据中所包含的视频帧后，为本步骤将相邻视频帧中目标对象的颜色特征进行比对做了数据准备工作。在步骤S102中，可以从所述视频帧中提取目标对象的颜色特征，进一步将相邻所述视频帧中所述目标对象的所述颜色特征进行比对，获得第一比对结果。

在本申请实施例中，所述的特征识别模型可以是指预先经过迭代训练获得的Faster RCNN深度神经网络模型。所述的特征检测区域可以是指针对视频帧使用Faster RCNN深度神经网络模型进行目标对象检测过程中，得到的视频画面中的每个目标对象对应的检测框。

具体的，考虑到相邻视频帧中对应每个目标对象的待检测区域中的每个像素位置的RGB(红、绿、蓝)颜色或HSV(Hue Saturation Value，色调、饱和度、明度)颜色的通常相同或相似，因此，可以从所述待检测区域中提取所述目标对象的颜色特征，将相邻所述视频帧中所述目标对象的所述颜色特征进行比对，获得第一比对结果，即：相邻所述视频帧中所述目标对象的所述颜色特征之间的相似度。

考虑到在实际实施过程中，确定所述视频帧中对应目标对象的特征检测区域时，最终确定的检测结果中可能存在对应非目标对象生成的检测区域(即非目标对象对应的监测框)，此时，需要预先对上述检测结果进行过滤，只保留对应目标对象的特征检测区域(即目标对象对应的监测框)，具体实现方式如下：

确定所述视频帧中所述目标对象的实际运动区域，将所述视频帧中所述目标对象的实际运动区域作为待检测区域，对所述待检测区域之外的所述特征检测区域进行滤除，获得所述待检测区域之内的所述特征检测区域。其中，所述的实际运动区域，即：所述目标对象的活动区域。

以篮球比赛为例对上述实现方式进行说明：在篮球比赛过程中，首先需要针对每一视频帧中包含的球员使用特征识别模型进行球员检测，获得视频画面中每个球员(即目标对象)分别对应的检测框，并记录唯一标识球员身份的ID。此时，可能将球场之外的观众(即非目标对象)也会产生相应的检测框，然而，观众并非需要定位和追踪的目标对象，因此需要将对应观众的检测框进行滤除，仅保留球场范围内的检测框。具体的，可以利用球场地板的颜色特征和观众席之间颜色特征的差异，通过阈值过滤法进行区分过滤，得到仅包含球场的图像，进一步对球场的图像进行腐蚀、膨胀等一系列处理操作，得到球场的外轮廓(所述外轮廓围成的区域即所述目标对象的实际运动区域)，将球场的外轮廓之外的检测框进行滤除，仅保外轮廓围成的区域之内(即：留球场之内)的检测框。

步骤S103：确定相邻所述视频帧中所述目标对象的标识部位在目标坐标系中的位置信息，将相邻所述视频帧中的所述标识部位在目标坐标系中的位置信息进行比对，获得第二比对结果。

上述步骤S102中获得第一比对结果后，本步骤可以进一步确定相邻所述视频帧中所述目标对象的标识部位在目标坐标系中的位置信息，将相邻所述视频帧中的所述标识部位在目标坐标系中的位置信息进行比对，获得第二比对结果。

在本申请实施例中，所述的目标坐标系可以是指世界坐标系，世界坐标系可以是指视频画面的绝对坐标系，在视频画面中所有目标对象的标识部位对应的点的坐标都可以以该世界坐标系来确定各个目标对象所处的具体位置。其中，所述的世界坐标系可以是指以检测区域中心为空间坐标系原点构建的空间直角坐标系。

如图3所示，为本申请实施例提供的一种利用三角测量法定位目标对象的示意图。其中，P点可以是指目标对象的颈部部位对应的点的位置；Q1点可以是指视频采集装置对应的点在前一视频帧中所处的位置，也可以是指视频采集装置对应的点在前一镜头中所处的位置；Q2点可以是指视频采集装置对应的点在相对于前一视频的后一视频帧中所处的位置，也可以是指视频采集装置对应的点在相对于前一镜头的后一镜头中所处的位置。

所述的确定相邻所述视频帧中所述目标对象的标识部位在目标坐标系中的位置信息，具体可以通过如下方式实现：

首先，对上述完整视频数据中的每一个镜头，可以利用视觉里程计算法(特征点法)对视频采集装置的位姿变化进行预测，通过预测可以获得相邻所述视频帧分别对应的所述视频采集装置的位姿变化情况，进而获得相邻所述视频帧中分别对应的所述视频采集装置的位姿变化信息。根据位姿变化信息，可以确定相邻所述视频帧中分别对应的所述视频采集装置的位置信息。

在此，可以将相邻所述视频帧中的前一视频帧中视频采集装置的位置信息记为第一位置，将相邻所述视频帧中的后一视频帧中视频采集装置的位置信息记为第二位置。

根据相邻所述视频帧中视频采集装置分别对应的第一位置、第二位置以及所述标识部位对应的点的位置，利用如图3所示的三角测量法进行计算可以获得所述目标对象在以所述视频采集装置为空间坐标原点构建的空间直角坐标系中的位置信息，进一步通过坐标变换即可以获得所述目标对象在目标坐标系(即：世界坐标系)中的位置信息。其中，所述位姿变化包括运动轨迹和活动姿态的变化情况等。

需要说明的是，为了便于对目标对象进行精确的定位和追踪，所述标识部位可以选择所述目标对象的颈部部位。所述目标对象的标识部位在目标坐标系中的位置信息为所述颈部部位位于以所述待检测区域中心为空间坐标原点构建的空间直角坐标系中的位置信息。具体的，在特征检测区域中，可以使用骨骼检测算法得到每个目标对象的颈部部位对应的点P。

步骤S104：根据第一比对结果和所述第二比对结果，判断相邻所述视频帧中的所述目标对象是否为同一目标对象，若是，则将相邻所述视频帧中所述目标对象作为同一目标对象进行追踪。

上述步骤S102和步骤S103中分别获得第一比对结果和第二比对结果后，本步骤可以根据第一比对结果和所述第二比对结果，判断相邻所述视频帧中的所述目标对象是否为同一目标对象，进而实现对目标对象实时的定位和追踪。

在本申请实施例中，所述根据第一比对结果和所述第二比对结果，判断相邻所述视频帧中的所述目标对象的相似度值是否满足预设相似度阈值，若是，则将相邻所述视频帧中的所述目标对象作为同一目标对象进行定位和追踪。

具体的，根据相邻两个视频帧中目标对象所对应的颜色特征和位置信息之间的相似性，采用两两比对的方式，利用相似性函数可以进行计算，定义相似性函数如下：

Sim(player _i,player _j)＝-(Sim(b _i,b _j)+Sim(P _i,P _j))；

其中，Sim(player _i,player _j)为相邻两个视频帧中目标对象的相似度；记录相邻两个视频帧中每个目标对象为player _i＝(b _i，P _i)；Sim(b _i,b _j)＝|f(b _i)-f(b _j)|，其中函数f为外观特征提取函数，使用方向梯度直方图(Histogram of Oriented Gradient，HOG)的方式可以获得相邻两个视频帧中对应目标对象的颜色特征相似度Sim(b _i,b _j)；Sim(P _i,P _j)为两点P _i、P _j的欧氏距离的平方。

预先设定相似度阈值T，当相邻两个视频帧中目标对象的相似度 Sim(player _i,player _j)等于或大于T时，可以认定相邻两个视频帧为同一目标对象，并将相邻两两视频帧中的目标对象认定为同一目标对象，进行轨迹合并，从而实现精确的目标对象识别和追踪。

采用本申请所述的针对运动状态下的多目标对象追踪方法，能够同时对处于运动状态下的多目标对象进行快速的识别和追踪，提高了针对视频数据中处于运动状态的多目标对象进行追踪的精确度，从而提升了用户的使用体验。

与上述提供的一种针对运动状态下的多目标对象追踪方法相对应，本申请还提供一种针对运动状态下的多目标对象追踪装置。由于该装置的实施例相似于上述方法实施例，所以描述的比较简单，相关之处请参见上述方法实施例部分的说明即可，下面描述一种针对运动状态下的多目标对象追踪装置的实施例仅是示意性的。请参考图2所示，其为本申请实施例提供的一种针对运动状态下的多目标对象追踪装置的示意图。

本申请所述的一种针对运动状态下的多目标对象追踪装置包括如下部分：

视频帧获得单元201，用于获得视频采集装置中采集的视频数据所包含的视频帧。

第一比对单元202，用于将所述视频帧发送至预设的特征识别模型中，确定所述视频帧中对应目标对象的特征检测区域，从所述检测区域中提取所述目标对象的颜色特征，将相邻所述视频帧中所述目标对象的所述颜色特征进行比对，获得第一比对结果。

在本申请实施例中，所述的特征识别模型可以是指Faster RCNN深度神经网络模型。所述的特征检测区域可以是指针对视频帧使用Faster RCNN深度神经网络模型进行目标对象检测，得到的视频画面中的每个目标对象的检测框。

具体的，考虑到相邻视频帧中对应每个目标对象的待检测区域中的每个像素位置的RGB(红、绿、蓝)颜色或HSV(Hue，Saturation，Value，色调、饱和度、明度)颜色的通常相同或相似，因此，可以从所述待检测区域中提取所述目标对象的颜色特征，将相邻所述视频帧中所述目标对象的所述颜色特征进行比对，获得第一比对结果。

考虑到在实际实施过程中，确定所述视频帧中对应目标对象的特征检测区域时，最终确定的检测结果中可能存在对应非目标对象生成的检测区域，此时，需要对上述检测结果进行过滤，只保留对应目标对象的特征检测区域，具体实现方式如下：

确定所述视频帧中所述目标对象的实际运动区域，将所述视频帧中所述目标对象的实际运动区域作为待检测区域，对所述待检测区域之外的所述特征检测区域进行滤除，获得所述待检测区域之内的所述特征检测区域。

第二比对单元203，用于确定相邻所述视频帧中所述目标对象的标识部位在目标坐标系中的位置信息，将相邻所述视频帧中的所述标识部位在目标坐标系中的位置信息进行比对，获得第二比对结果。

判断单元204，用于根据第一比对结果和所述第二比对结果，判断相邻所述视频帧中的所述目标对象是否为同一目标对象，若是，则将相邻所述视频帧中所述目标对象作为同一目标对象进行追踪。

Sim(player _i,player _j)＝-(Sim(b _i,b _j)+Sim(P _i,P _j))；

预先设定相似度阈值T，当相邻两个视频帧中目标对象的相似度Sim(player _i,player _j)等于或大于T时，可以认定相邻两个视频帧为同一目标对象，并进行轨迹合并。

采用本申请所述的针对运动状态下的多目标对象追踪装置，能够同时对处于运动状态下的多目标对象进行快速的识别和追踪，提高了针对视频数据中处于运动状态的多目标对象进行追踪的精确度，从而提升了用户的使用体验。

与上述提供的一种针对运动状态下的多目标对象追踪方法相对应，本申请还提供一种电子设备和存储设备。由于该电子设备的实施例相似于上述方法实施例，所以描述的比较简单，相关之处请参见上述方法实施例部分的说明即可，下面描述一种电子设备的实施例和一种存储设备的实施例仅是示意性的。请参考图4所示，其为本申请实施例提供的一种电子设备的示意图。

本申请还提供一种电子设备，包括：处理器401和存储器402；其中，所述存储器402用于存储针对运动状态下的多目标对象追踪方法的程序，该设备通电并通过所述处理器运行该针对运动状态下的多目标对象追踪方法的程序后，执行下述步骤：

本申请还提供一种存储设备，存储有针对运动状态下的多目标对象追踪方法的程序，该程序被处理器运行，执行下述步骤：

在本申请实施例中，处理器或处理器模块可以是一种集成电路芯片，具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息，结合其硬件完成上述方法的步骤。

存储介质可以是存储器，例如可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

其中，非易失性存储器可以是只读存储器(Read-Only Memory，简称ROM)、可编程只读存储器(Programmable ROM，简称PROM)、可擦除可编程只读存储器(Erasable PROM，简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM，简称EEPROM)或闪存。

易失性存储器可以是随机存取存储器(Random Access Memory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，简称SRAM)、动态随机存取存储器(Dynamic RAM，简称DRAM)、同步动态随机存取存储器(Synchronous DRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，简称DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，简称ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，简称SLDRAM)和直接内存总线随机存取存储器(Direct Ram bus RAM，简称DRRAM)。

本申请实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请所描述的功能可以用硬件与软件组合来实现。当应用软件时，可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述的具体实施方式，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施方式而已，并不用于限定本申请的保护范围，凡在本申请的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本申请的保护范围之内。

Claims

一种针对运动状态下的多目标对象追踪方法，其特征在于，包括：

获得视频采集装置中采集的视频数据所包含的视频帧；

将所述视频帧发送至预设的特征识别模型中，确定所述视频帧中对应目标对象的特征检测区域，从所述特征检测区域中提取所述目标对象的颜色特征，将相邻所述视频帧中所述目标对象的所述颜色特征进行比对，获得第一比对结果；

确定相邻所述视频帧中所述目标对象的标识部位在目标坐标系中的位置信息，将相邻所述视频帧中的所述标识部位在所述目标坐标系中的位置信息进行比对，获得第二比对结果；

根据所述第一比对结果和所述第二比对结果，判断相邻所述视频帧中的所述目标对象是否为同一目标对象，若是，则将相邻所述视频帧中所述目标对象作为同一目标对象进行追踪。
根据权利要求1所述的针对运动状态下的多目标对象追踪方法，其特征在于，所述确定相邻所述视频帧中所述目标对象的标识部位在目标坐标系中的位置信息，具体包括：

通过预测相邻所述视频帧分别对应的所述视频采集装置的位姿变化情况，获得相邻所述视频帧中分别对应的所述视频采集装置的位姿变化信息；

根据所述位姿变化信息和相邻所述视频帧中前一视频帧对应的所述视频采集装置的位置信息，确定相邻所述视频帧中后一视频帧对应的所述视频采集装置的位置信息；

根据相邻所述视频帧中分别对应的所述视频采集装置的位置信息以及所述目标对象的标识部位，利用三角测量法获得所述目标对象的标识部位在以所述视频采集装置为空间坐标原点构建的空间直角坐标系中的位置信息；

通过坐标变换获得所述目标对象的标识部位在目标坐标系中的位置信息。
根据权利要求1所述的针对运动状态下的多目标对象追踪方法，其特征在于，还包括：

确定所述视频帧中所述目标对象的实际运动区域；

将所述视频帧中所述目标对象的实际运动区域作为待检测区域，对所述待检测区域之外的所述特征检测区域进行滤除，获得所述待检测区域之内的所述特征检测区域。
根据权利要求3所述的针对运动状态下的多目标对象追踪方法，其特征在于，所述标识部位为所述目标对象的颈部部位；

相应的，所述目标对象的标识部位在目标坐标系中的位置信息为所述目标对象的颈部部位位于以所述待检测区域中心为空间坐标原点构建的空间直角坐标系中的位置信息。
根据权利要求1所述的针对运动状态下的多目标对象追踪方法，其特征在于，所述获得视频采集装置中采集的视频数据所包含的视频帧，具体包括：

获得所述视频采集装置中采集的所述视频数据，对所述视频数据进行分割处理，获得所述视频数据所包含的视频片段；

检测所述视频片段之间的特征相似度，将所述特征相似度达到或超过预设相似度阈值并且时间间隔不超过预设时间阈值的视频片段作为一个视频镜头；

获取所述视频镜头中所包含的视频帧。
一种针对运动状态下的多目标对象追踪装置，其特征在于，包括：

视频帧获得单元，用于获得视频采集装置中采集的视频数据所包含的视频帧；

第一比对单元，用于将所述视频帧发送至预设的特征识别模型中，确定所述视频帧中对应目标对象的特征检测区域，从所述检测区域中提取所述目标对象的颜色特征，将相邻所述视频帧中所述目标对象的所述颜色特征进行比对，获得第一比对结果；

第二比对单元，用于确定相邻所述视频帧中所述目标对象的标识部位在目标坐标系中的位置信息，将相邻所述视频帧中的所述标识部位在目标坐标系中的位置信息进行比对，获得第二比对结果；

判断单元，用于根据所述第一比对结果和所述第二比对结果，判断相邻所述视频帧中的所述目标对象是否为同一目标对象，若是，则将相邻所述视频帧中所述目标对象作为同一目标对象进行追踪。
根据权利要求6所述的针对运动状态下的多目标对象追踪装置，其特征在于，所述确定相邻所述视频帧中所述目标对象的标识部位在目标坐标系中的位置信息，具体包括：

通过预测相邻所述视频帧分别对应的所述视频采集装置的位姿变化情况，获得相邻所述视频帧中分别对应的所述视频采集装置的位姿变化信息；

根据所述位姿变化信息和相邻所述视频帧中前一视频帧对应的所述视频采集装置的位置信息，确定相邻所述视频帧中后一视频帧对应的所述视频采集装置的位置信息；

根据相邻所述视频帧中分别对应的所述视频采集装置的位置信息以及所述目标对象的标识部位，利用三角测量法获得所述目标对象的标识部位在以所述视频采集装置为空间坐标原点构建的空间直角坐标系中的位置信息；

通过坐标变换获得所述目标对象的标识部位在目标坐标系中的位置信息。
根据权利要求6所述的针对运动状态下的多目标对象追踪装置，其特征在于，还包括：

运动区域确定单元，用于确定所述视频帧中所述目标对象的实际运动区域；

滤除单元，用于将所述视频帧中所述目标对象的实际运动区域作为待检测区域，对所述待检测区域之外的所述特征检测区域进行滤除，获得所述待检测区域之内的所述特征检测区域。
一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储针对运动状态下的多目标对象追踪方法的程序，该设备通电并通过所述处理器运行该针对运动状态下的多目标对象追踪方法的程序后，执行下述步骤：

获得视频采集装置中采集的视频数据所包含的视频帧；

将所述视频帧发送至预设的特征识别模型中，确定所述视频帧中对应目标对象的特征检测区域，从所述检测区域中提取所述目标对象的颜色特征，将相邻所述视频帧中所述目标对象的所述颜色特征进行比对，获得第一比对结果；

确定相邻所述视频帧中所述目标对象的标识部位在目标坐标系中的位置信息，将相邻所述视频帧中的所述标识部位在目标坐标系中的位置信息进行比对，获得第二比对结果；

根据所述第一比对结果和所述第二比对结果，判断相邻所述视频帧中的所述目标对象是否为同一目标对象，若是，则将相邻所述视频帧中所述目标对象作为同一目标对象进行追踪。
一种存储设备，其特征在于，存储有针对运动状态下的多目标对象追踪方法的程序，该程序被处理器运行，执行下述步骤：

获得视频采集装置中采集的视频数据所包含的视频帧；

将所述视频帧发送至预设的特征识别模型中，确定所述视频帧中对应目标对象的特征检测区域，从所述检测区域中提取所述目标对象的颜色特征，将相邻所述视频帧中所述目标对象的所述颜色特征进行比对，获得第一比对结果；

确定相邻所述视频帧中所述目标对象的标识部位在目标坐标系中的位置信息，将相邻所述视频帧中的所述标识部位在目标坐标系中的位置信息进行比对，获得第二比对结果；

根据所述第一比对结果和所述第二比对结果，判断相邻所述视频帧中的所述目标对象是否为同一目标对象，若是，则将相邻所述视频帧中所述目标对象作为同一目标对象进行追踪。