WO2020151166A1

WO2020151166A1 - 多目标跟踪方法、装置、计算机装置及可读存储介质

Info

Publication number: WO2020151166A1
Application number: PCT/CN2019/091158
Authority: WO
Inventors: 杨国青
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-01-23
Filing date: 2019-06-13
Publication date: 2020-07-30
Also published as: CN109886998A

Abstract

一种多目标跟踪方法、装置、计算机装置及非易失性可读存储介质。所述多目标跟踪方法包括：利用目标检测器检测图像中的预定类型目标，得到所述预定类型目标的目标框；利用目标分类器对所述目标框打分，得到所述目标框属于指定目标的分数；删除所述目标框中所述分数低于预设阈值的目标框，得到筛选后的目标框；利用特征提取器提取所述筛选后的目标框的特征，得到所述筛选后的目标框的特征向量；根据所述特征向量将所述筛选后的目标框与所述图像的前一帧图像的各个目标框进行匹配，得到更新后的目标框。本申请解决了现有多目标跟踪方案中对目标检测器的依赖问题，并且提高了跟踪的精度和鲁棒性。

Description

多目标跟踪方法、装置、计算机装置及可读存储介质

本申请要求于2019年01月23日提交中国专利局，申请号为201910064677.4，发明名称为“多目标跟踪方法、装置、计算机装置及计算机存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及图像处理技术领域，具体涉及一种多目标跟踪方法、装置、计算机装置及非易失性可读存储介质。

背景技术

多目标跟踪是指对视频或图像序列中多个运动物体(例如交通视频中的汽车和行人)进行跟踪，得到运动物体在每一帧的位置。多目标跟踪在视频监控、自动驾驶和视频娱乐等领域有广泛的应用。

目前的多目标跟踪主要采用了track by detection架构，在视频或图像序列的每帧图像上通过检测器检测出各个目标的位置信息，然后将当前帧的目标位置信息和前一帧的目标位置信息进行匹配。如果检测器的精度不高、出现大量的错检或者检测框跟真实框的偏差过大，就会直接导致跟踪的精度变差、跟踪错误或丢失目标。

发明内容

鉴于以上内容，有必要提出一种多目标跟踪方法、装置、计算机装置及非易失性可读存储介质，其可以解决现有多目标跟踪方案中对目标检测器的依赖问题，并且提高了跟踪的精度和鲁棒性。

本申请的第一方面提供一种多目标跟踪方法，所述方法包括：

利用目标检测器检测图像中的预定类型目标，得到所述预定类型目标的目标框；

利用目标分类器对所述目标框打分，得到所述目标框属于指定目标的分数；

删除所述目标框中所述分数低于预设阈值的目标框，得到筛选后的目标框；

利用特征提取器提取所述筛选后的目标框的特征，得到所述筛选后的目标框的特征向量；

根据所述特征向量将所述筛选后的目标框与所述图像的前一帧图像的各个目标框进行匹配，得到更新后的目标框。

本申请的第二方面提供一种多目标跟踪装置，所述装置包括：

检测模块，用于利用目标检测器检测图像中的预定类型目标，得到所述预定类型目标的目标框；

打分模块，用于利用目标分类器对所述目标框打分，得到所述目标框属于指定目标的分数；

删除模块，用于删除所述目标框中所述分数低于预设阈值的目标框，得到筛选后的目标框；

提取模块，用于利用特征提取器提取所述筛选后的目标框的特征，得到所述筛选后的目标框的特征向量；

匹配模块，用于根据所述特征向量将所述筛选后的目标框与所述图像的前一帧图像的各个目标框进行匹配，得到更新后的目标框。

本申请的第三方面提供一种计算机装置，所述计算机装置包括处理器，所述处理器用于执行存储器中存储的计算机可读指令时实现所述多目标跟踪方法。

本申请的第四方面提供一种非易失性可读存储介质，其上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现所述多目标跟踪方法。

本申请利用目标检测器检测图像中的预定类型目标，得到所述预定类型目标的目标框；利用目标分类器对所述目标框打分，得到所述目标框属于指定目标的分数；删除所述目标框中所述分数低于预设阈值的目标框，得到筛选后的目标框；利用特征提取器提取所述筛选后的目标框的特征，得到所述筛选后的目标框的特征向量；根据所述特征向量将所述筛选后的目标框与所述图像的前一帧图像的各个目标框进行匹配，得到更新后的目标框。本申请解决了现有多目标跟踪方案中对目标检测器的依赖问题，并且提高了跟踪的精度和鲁棒性。

附图说明

图1是本申请实施例提供的多目标跟踪方法的流程图。

图2是本申请实施例提供的多目标跟踪装置的结构图。

图3是本申请实施例提供的计算机装置的示意图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施例对本申请进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本申请，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

优选地，本申请的多目标跟踪方法应用在一个或者多个计算机装置中。所述计算机装置是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机装置可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

实施例一

图1是本申请实施例一提供的多目标跟踪方法的流程图。所述多目标跟踪方法应用于计算机装置。

本申请多目标跟踪方法对视频或图像序列中指定类型的运动物体(例如行人)进行跟踪，得到运动物体在每一帧图像中的位置。所述多目标跟踪方法可以解决现有多目标跟踪方案中对目标检测器的依赖问题，并且提高了跟踪的精度和鲁棒性。

如图1所示，所述多目标跟踪方法包括：

步骤101，利用目标检测器检测图像中的预定类型目标，得到所述预定类型目标的目标框。

所述预定类型目标可以包括行人、汽车、飞机、船只等。所述预定类型目标可以是一种类型的目标(例如行人)，也可以是多种类型的目标(例如行人和汽车)。

所述目标检测器可以是具有分类和回归功能的神经网络模型。在本实施例中，所述目标检测器可以是加快区域卷积神经网络(Faster Region-Based Convolutional Neural Network，Faster RCNN)模型。

Faster RCNN模型包括区域建议网络(Region Proposal Network,RPN)和快速区域卷积神经网络(Fast Region-based Convolution Neural Network,Fast RCNN)。

所述区域建议网络和所述快速区域卷积神经网络有共享的卷积层，所述卷积层用于提取图像的特征图。所述区域建议网络根据所述特征图生成图像的候选框，并将生成的候选框输入所述快速区域卷积神经网络。所述快速区域卷积神经网络根据所述特征图对所述候选框进行筛选和调整，得到图像的目标框。

在利用目标检测器检测图像中的预定类型目标之前，所述目标检测器需要使用训练样本集进行训练。在训练时，所述卷积层提取训练样本集中各个样本图像的特征图，所述区域建议网络根据所述特征图获取所述各个样本图像中的候选框，所述快速区域卷积神经网络根据所述特征图对所述候选框进行筛选和调整，得到所述各个样本图像的目标框。目标检测器检测预定类型目标(例如行人、汽车、飞机、船只等)的目标框。

在一较佳实施例中，所述加快区域卷积神经网络模型采用ZF框架，所述区域建议网络和所述快速区域卷积神经网络共享5个卷积层。

在一具体实施例中，可以按照以下步骤使用训练样本集对加快区域卷积神经网络模型进行训练：

(1)使用Imagenet模型初始化所述区域建议网络，使用所述训练样本集训练所述区域建议网络；

(2)使用(1)中训练后的区域建议网络生成训练样本集中各个样本图像的候选框，利用所述候选框训练所述快速区域卷积神经网络。此时，区域建议网络和快速区域卷积神经网络还没有共享卷积层；

(3)使用(2)中训练后的快速区域卷积神经网络初始化所述区域建议网络，使用训练样本集训练所述区域建议网络；

(4)使用(3)中训练后的区域建议网络初始化所述快速区域卷积神经网络，并保持所述卷积层固定，使用训练样本集训练所述快速区域卷积神经网络。此时，区域建议网络和快速区域卷积神经网络共享相同的卷积层，构成了一个统一的网络模型。

区域建议网络选取的候选框较多，可以根据候选框的目标分类得分筛选了若干个得分最高的候选框输入到快速区域卷积神经网络，以加快训练和检测的速度。

可以使用反向传播算法对区域建议网络进行训练，训练过程中调整区域建议网络的网络参数，使损失函数最小化。损失函数指示区域建议网络预测的候选框的预测置信度与真实置信度的差异。损失函数可以包括目标分类损失和回归损失两部分。

损失函数可以定义为：

其中，i为一个训练批量(mini-batch)中候选框的索引。

是候选框的目标分类损失。N _cls为训练批量的大小，例如256。p _i是第i个候选框为目标的预测概率。

是GT标签，若候选框为正(即分配的标签为正标签，称为正候选框)，

为1；若候选框为负(即分配的标签为负标签，称为负候选框)，

为0。

可以计算为

是候选框的回归损失。λ为平衡权重，可以取为10。N _reg为候选框的数量。

可以计算为

t _i是一个坐标向量，即t _i＝(t _x,t _y,t _w,t _h)，表示候选框的4个参数化坐标(例如候选框左上角的坐标以及宽度、高度)。

是与正候选框对应的GT边界框的坐标向量，即

(例如真实目标框左上角的坐标以及宽度、高度)。R为具有鲁棒性的损失函数(smoothL1)，定义为：

快速区域卷积网络的训练方法可以参照区域建议网络的训练方法，此处不再赘述。

在本实施例中，在快速区域卷积网络的训练中加入负样本难例挖掘(Hard Negative Mining，HNM)方法。对于被快速区域卷积网络错误地分类为正样本的负样本(即难例)，将这些负样本的信息记录下来，在下次迭代训练的过程中，将这些负样本再次输入到训练样本集中，并且加大其损失的权重，增强其对分类器的影响，这样能够保证不停的针对更难的负样本进行分类，使得分类器学到的特征由易到难，涵盖的样本分布也更具多样性。

在其他的实施例中，所述目标检测器还可以是其他的神经网络模型，例如区域卷积神经网络(RCNN)模型、加快卷积神经网络(Faster RCNN)模型。

利用目标检测器检测图像中的预定类型目标时，将所述图像输入所述目标检测器，所述目标检测器对图像中的预定类型目标进行检测，输出所述图像中的预定类型目标的目标框的位置。例如，所述目标检测器输出所述图像中的6个目标框。目标框可以以矩形框的形式呈现。目标框的位置可以用位置坐标表示，所述位置坐标可以包括左上角坐标(x,y)和宽高(w,h)。

所述目标检测器还可以输出每个目标框的类型，例如输出5个行人类型的目标框(称为行人目标框)和1个汽车类型的目标框(称为汽车目标框)。本方法对目标检测器的精度要求不高，所述目标检测器输出的目标框的类型可能是不准确的。

步骤102，利用目标分类器对所述目标框打分，得到所述目标框属于指定目标的分数。

将所述图像和所述目标框的位置输入目标分类器，所述目标分类器对每个目标框打分，得到每个目标框的分数。

所述指定目标包含在所述预定类型目标中。例如，所述预定类型目标包括行人和汽车，所述指定目标包括行人。

预定类型目标的目标框可以是多个，利用目标分类器对目标框打分是对每个目标框分别进行打分，得到每个目标框属于指定目标的分数。例如，在对行人进行跟踪的应用中，对得到的5个行人目标框和1个汽车目标框进行打分，得到每个目标框属于行人的分数。

目标检测器检测得到的预定类型目标的目标框中可能含有非指定目标的目标框，目标分类器对所述目标框打分的目的是要识别出非指定目标的目标框。若目标框属于指定目标，则属于指定目标的分数较高；若目标框不属于指定目标，则属于指定目标的分数较低。例如，指定目标是行人，输入的是行人目标框，得到的分数为0.9，输入的是汽车目标框，得到的分数为0.1。

所述目标分类器可以是神经网络模型。在本实施例中，所述目标分类器可以是区域全卷积网络(Region-based Fully Convolutional Network，R-FCN)模型。

R-FCN模型也包括区域建议网络。与Faster RCNN模型相比，R-FCN模型具有更深的共享卷积层，可以获得更加抽象的特征用于打分。

R-FCN模型获取目标框的的位置敏感得分图(position-sensitive score map)，根据所述位置敏感得分图对所述目标框打分。

在利用目标分类器对所述目标框进行打分之前，需要使用训练样本集对目标检测器进行训练。目标分类器的训练可以参考现有技术，此处不再赘述。

步骤103，删除所述目标框中所述分数低于预设阈值的目标框，得到筛选后的目标框。

筛选后的目标框也就是指定目标的目标框。

可以判断所述目标框中每个目标框属于指定目标的分数是否低于所述预设阈值(例如0.7)，若目标框属于指定目标的分数低于所述预设阈值，则删除该目标框。若目标框属于指定目标的分数低于所述预设阈值，则认定该目标框是错检，删除该目标框。例如，得到的5个行人目标框的分数分别是0.9、0.8、0.7、0.8、0.9，得到的1个汽车目标框的分数是0.1，汽车目标框的分数低于所述预设阈值，则删除该汽车目标框，剩下5个行人目标框。

所述预设阈值可以根据实际需要进行设置。

步骤104，利用特征提取器提取所述筛选后的目标框的特征，得到所述筛选后的目标框的特征向量。

将所述筛选后的目标框输入到特征提取器，所述特征提取器提取所述筛选后的目标框的特征，得到所述筛选后的目标框的特征向量。

筛选后的目标框可以有多个，利用特征提取器提取筛选后的目标框的特征是提取每个筛选后的目标框的特征，得到每个筛选后的目标框的特征向量。

所述特征提取器可以是神经网络模型。在本实施例中，可以采用重识别(Re-Identification，ReID)方法提取筛选后的目标框的特征。例如，所述方法用于对行人进行跟踪，可以采用ReID方法，例如部位对齐ReID(part-aligned ReID)方法提取筛选后的行人目标框的特征(称为行人重识别特征)。

提取的所述筛选后的目标框的特征可以包括全局特征和局部特征。提取局部特征的方式可以包括图像切块、利用关键点(例如骨架关键点)定位以及姿态/角度矫正等。

在一具体实施例中，所述方法用于对行人进行跟踪，可以利用特征提取卷积神经网络(CNN)模型提取筛选后的目标框的特征。所述特征提取CNN模型包括线性的三个子网络FEN-C1、FEN-C2、FEN-C3。对于每个筛选后的目标框，可以提取目标框中的14个骨架关键点，根据所述14个骨架关键点获取7个感兴趣区域(Region of interest,ROI))区域，所述7个感兴趣区域包括头、上身、下身3个大区域和4个四肢小区域。目标框经过完整的特征提取CNN模型得到全局特征。3个大区域经过FEN-C2和FEN-C3子网络得到三个局部特征。四个四肢区域经过FEN-C3子网络得到四个局部特征。所有8个特征在不同的尺度进行联结，最终得到一个融合全局特征和多个尺度局部特征的行人重识别特征。

在一具体实施例中，提取的筛选后的目标框的特征向量是128维的特征向量。

步骤105，根据所述特征向量将所述筛选后的目标框与所述图像的前一帧图像的各个目标框进行匹配，得到更新后的目标框。

可以根据所述特征向量计算所述筛选后的目标框与所述前一帧图像的各个目标框的差异值，根据所述差异值确定所述筛选后的目标框中与所述前一帧图像的各个目标框匹配的目标框，得到更新后的目标框。

例如，筛选后的目标框包括目标框A1、目标框A2、目标框A3、目标框A4，前一帧图像的目标框包括目标框B1、目标框B2、目标框B3、目标框B4。对于目标框A1，计算目标框A1与目标框B1、目标框A1与目标框B2、目标框A1与目标框B3、目标框A1与目标框B4的差异值，将差异值最小且不大于预设差异值的一组目标框(例如目标框A1与目标框B1)确定为匹配的目标框。类似地，对于目标框A2，计算目标框A2与目标框B1、目标框A2与目标框B2、目标框A2与目标框B3、目标框A2与目标框B4的差异值，将差异值最小且不大于预设差异值的一组目标框(例如目标框A2与目标框B2)确定为匹配的目标框；对于目标框A3，计算目标框A3与目标框B1、目标框A3与目标框B2、目标框A3与目标框B3、目标框A3与目标框B4的差异值，将差异值最小且不大于预设差异值的一组目标框(例如目标框A3与目标框B3)确定为匹配的目标框；对于目标框A4，计算目标框A4与目标框B1、目标框A4与目标框B2、目标框A4与目标框B3、目标框A4与目标框B4的差异值，将差异值最小且不大于预设差异值的一组目标框(例如目标框A4与目标框B4)确定为匹配的目标框。因此，更新后的目标框包括目标框A1、目标框A2、目标框A3、目标框A4，分别对应前一帧图像中目标框B1、目标框B2、目标框B3、目标框B4。

可以计算所述筛选后的目标框的特征向量与前一帧图像的各个目标框的特征向量的余弦距离，将所述余弦距离作为所述筛选后的目标框与所述前一帧图像的各个目标框的差异值。

或者，可以计算所述筛选后的目标框的特征向量与前一帧图像的各个目标框的特征向量的欧氏距离，将所述欧氏距离作为所述筛选后的目标框与所述前一帧图像的各个目标框的差异值。

如果所述筛选后的目标框与所述前一帧图像的各个目标框的差异值均大于预设差异值，则将所述筛选后的目标框存储为新的目标框。

需要说明的是，如果是对连续拍摄的多帧图像中的第一帧图像进行处理，即不存在前一帧图像，则在步骤104得到筛选后的目标框的特征向量之后，直接将筛选后的目标框的特征向量进行存储。

综上所述，根据上述目标跟踪方法，利用目标检测器检测图像中的预定类型目标，得到所述预定类型目标的目标框；利用目标分类器对所述目标框打分，得到所述目标框属于指定目标的分数；删除所述目标框中所述分数低于预设阈值的目标框，得到筛选后的目标框；利用特征提取器提取所述筛选后的目标框的特征，得到所述筛选后的目标框的特征向量；根据所述特征向量将所述筛选后的目标框与所述图像的前一帧图像的各个目标框进行匹配，得到更新后的目标框。本申请解决了现有多目标跟踪方案中对目标检测器的依赖问题，并且提高了跟踪的精度和鲁棒性。

实施例二

图2是本申请实施例二提供的多目标跟踪装置的结构图。所述多目标跟踪装置20应用于计算机装置。本装置的多目标跟踪对视频或图像序列中指定类型的运动物体(例如行人)进行跟踪，得到运动物体在每一帧图像中的位置。所述多目标跟踪装置20可以解决现有多目标跟踪方案中对目标检测器的依赖问题，并且提高了跟踪的精度和鲁棒性。如图2所示，所述多目标跟踪装置20可以包括检测模块201、打分模块202、删除模块203、提取模块204、匹配模块205。

检测模块201，用于利用目标检测器检测图像中的预定类型目标，得到所述预定类型目标的目标框。

其中，i为一个训练批量(mini-batch)中候选框的索引。

为0。

可以计算为

是与正候选框对应的GT边界框的坐标向量，即

打分模块202，用于利用目标分类器对所述目标框打分，得到所述目标框属于指定目标的分数。

删除模块203，用于删除所述目标框中所述分数低于预设阈值的目标框，得到筛选后的目标框。

筛选后的目标框也就是指定目标的目标框。

所述预设阈值可以根据实际需要进行设置。

提取模块204，用于利用特征提取器提取所述筛选后的目标框的特征，得到所述筛选后的目标框的特征向量。

匹配模块205，用于根据所述特征向量将所述筛选后的目标框与所述图像的前一帧图像的各个目标框进行匹配，得到更新后的目标框。

需要说明的是，如果是对连续拍摄的多帧图像中的第一帧图像进行处理，即不存在前一帧图像，则在模块204得到筛选后的目标框的特征向量之后，直接将筛选后的目标框的特征向量进行存储。

本实施例供了一种多目标跟踪装置20。所述多目标跟踪是对视频或图像序列中指定类型的运动物体(例如行人)进行跟踪，得到运动物体在每一帧图像中的位置。所述多目标跟踪装置20利用目标检测器检测图像中的预定类型目标，得到所述预定类型目标的目标框；利用目标分类器对所述目标框打分，得到所述目标框属于指定目标的分数；删除所述目标框中所述分数低于预设阈值的目标框，得到筛选后的目标框；利用特征提取器提取所述筛选后的目标框的特征，得到所述筛选后的目标框的特征向量；根据所述特征向量将所述筛选后的目标框与所述图像的前一帧图像的各个目标框进行匹配，得到更新后的目标框。本实施例解决了现有多目标跟踪方案中对目标检测器的依赖问题，并且提高了跟踪的精度和鲁棒性。

实施例三

本实施例提供一种可读存储介质，该可读存储介质上存储有计算机可读指令，该计算机可读指令被处理器执行时实现上述多目标跟踪方法实施例中的步骤，例如图1所示的步骤101-105：

步骤101，利用目标检测器检测图像中的预定类型目标，得到所述预定类型目标的目标框；

步骤102，利用目标分类器对所述目标框打分，得到所述目标框属于指定目标的分数；

步骤103，删除所述目标框中所述分数低于预设阈值的目标框，得到筛选后的目标框；

步骤104，利用特征提取器提取所述筛选后的目标框的特征，得到所述筛选后的目标框的特征向量；

或者，该计算机可读指令被处理器执行时实现上述装置实施例中各模块的功能，例如图2中的模块201-205：

检测模块201，用于利用目标检测器检测图像中的预定类型目标，得到所述预定类型目标的目标框；

打分模块202，用于利用目标分类器对所述目标框打分，得到所述目标框属于指定目标的分数；

删除模块203，用于删除所述目标框中所述分数低于预设阈值的目标框，得到筛选后的目标框；

提取模块204，用于利用特征提取器提取所述筛选后的目标框的特征，得到所述筛选后的目标框的特征向量；

实施例四

图3为本申请实施例四提供的计算机装置的示意图。所述计算机装置30包括存储器301、处理器302以及存储在所述存储器301中并可在所述处理器302上运行的计算机可读指令303，例如多目标跟踪程序。所述处理器302执行所述计算机可读指令303时实现上述多目标跟踪方法实施例中的步骤，例如图1所示的步骤101-105：

示例性的，所述计算机可读指令303可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器301中，并由所述处理器302执行，以完成本方法。例如，所述计算机可读指令303可以被分割成图2中的检测模块201、打分模块202、删除模块203、提取模块204，匹配模块205，各模块具体功能参见实施例二。

所述计算机装置30可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解，所述示意图3仅仅是计算机装置30的示例，并不构成对计算机装置30的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述计算机装置30还可以包括输入输出设备、网络接入设备、总线等。

所称处理器302可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器302也可以是任何常规的处理器等，所述处理器302是所述计算机装置30的控制中心，利用各种接口和线路连接整个计算机装置30的各个部分。

所述存储器301可用于存储所述计算机可读指令303，所述处理器302通过运行或执行存储在所述存储器301内的计算机可读指令或模块，以及调用存储在存储器301内的数据，实现所述计算机装置30的各种功能。所述存储器302可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机装置30的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器301可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述计算机装置30集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个可读存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一可读存储介质中，该计算机可读指令在被处理器执行时，可实现上述各个方法实施例的步骤。所述计算机可读介质可以包括：能够携带所述计算机可读指令的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

上述软件功能模块存储在一个可读存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他模块或步骤，单数不排除复数。系统权利要求中陈述的多个模块或装置也可以由一个模块或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本申请的技术方案而非限制，尽管参照较佳实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，可以对本申请的技术方案进行修改或等同替换，而不脱离本申请技术方案的精神和范围。

Claims

一种多目标跟踪方法，其特征在于，所述方法包括：

利用目标检测器检测图像中的预定类型目标，得到所述预定类型目标的目标框；

利用目标分类器对所述目标框打分，得到所述目标框属于指定目标的分数；

删除所述目标框中所述分数低于预设阈值的目标框，得到筛选后的目标框；

利用特征提取器提取所述筛选后的目标框的特征，得到所述筛选后的目标框的特征向量；

根据所述特征向量将所述筛选后的目标框与所述图像的前一帧图像的各个目标框进行匹配，得到更新后的目标框。
如权利要求1所述的方法，其特征在于，所述目标检测器是加快区域卷积神经网络模型，所述加快区域卷积神经网络模型包括区域建议网络和快速区域卷积神经网络，所述加快区域卷积神经网络模型在检测所述图像中的预定类型目标之前按照以下步骤进行训练：

第一训练步骤，使用Imagenet模型初始化所述区域建议网络，使用训练样本集训练所述区域建议网络；

第二训练步骤，使用所述第一训练步骤中训练后的区域建议网络生成所述训练样本集中各个样本图像的候选框，利用所述候选框训练所述快速区域卷积神经网络；

第三训练步骤，使用所述第二训练步骤中训练后的快速区域卷积神经网络初始化所述区域建议网络，使用所述训练样本集训练所述区域建议网络；

第四训练步骤，使用所述第三训练步骤中训练后的区域建议网络初始化所述快速区域卷积神经网络，并保持所述卷积层固定，使用所述训练样本集训练所述快速区域卷积神经网络。
如权利要求2所述的方法，其特征在于，所述加快区域卷积神经网络模型采用ZF框架，所述区域建议网络和所述快速区域卷积神经网络共享5个卷积层。
如权利要求1所述的方法，其特征在于，所述目标分类器是区域全卷积网络模型。
如权利要求1所述的方法，其特征在于，所述利用特征提取器提取所述筛选后的目标框的特征包括：

采用重识别方法提取所述筛选后的目标框的特征。
如权利要求1所述的方法，其特征在于，所述根据所述特征向量将所述筛选后的目标框与所述图像的前一帧图像的各个目标框进行匹配包括：

根据所述特征向量计算所述筛选后的目标框与所述前一帧图像的各个目标框的差异值，根据所述差异值确定所述筛选后的目标框中与所述前一帧图像的各个目标框匹配的目标框。
如权利要求6所述的方法，其特征在于，所述根据所述特征向量计算所述筛选后的目标框与所述前一帧图像的各个目标框的差异值包括：

计算所述筛选后的目标框的特征向量与所述前一帧图像的各个目标框的特征向量的余弦距离，将所述余弦距离作为所述筛选后的目标框与所述前一帧图像的各个目标框的差异值；或

计算所述筛选后的目标框的特征向量与所述前一帧图像的各个目标框的特征向量的欧氏距离，将所述欧氏距离作为所述筛选后的目标框与所述前一帧图像的各个目标框的差异值。
一种多目标跟踪装置，其特征在于，所述装置包括：

检测模块，用于利用目标检测器检测图像中的预定类型目标，得到所述预定类型目标的目标框；

打分模块，用于利用目标分类器对所述目标框打分，得到所述目标框属于指定目标的分数；

删除模块，用于删除所述目标框中所述分数低于预设阈值的目标框，得到筛选后的目标框；

提取模块，用于利用特征提取器提取所述筛选后的目标框的特征，得到所述筛选后的目标框的特征向量；

匹配模块，用于根据所述特征向量将所述筛选后的目标框与所述图像的前一帧图像的各个目标框进行匹配，得到更新后的目标框。
一种计算机装置，其特征在于，所述计算机装置包括存储器和处理器，所述存储器存储有至少一条计算机可读指令，所述处理器执行所述至少一条计算机可读指令以实现以下步骤：

利用目标检测器检测图像中的预定类型目标，得到所述预定类型目标的目标框；

利用目标分类器对所述目标框打分，得到所述目标框属于指定目标的分数；

删除所述目标框中所述分数低于预设阈值的目标框，得到筛选后的目标框；

利用特征提取器提取所述筛选后的目标框的特征，得到所述筛选后的目标框的特征向量；

根据所述特征向量将所述筛选后的目标框与所述图像的前一帧图像的各个目标框进行匹配，得到更新后的目标框。
如权利要求9所述的计算机装置，其特征在于，所述目标检测器是加快区域卷积神经网络模型，所述加快区域卷积神经网络模型包括区域建议网络和快速区域卷积神经网络，所述处理器在所述利用目标检测器检测图像中的预定类型目标，得到所述预定类型目标的目标框之前，还执行所述至少一条计算机可读指令以实现以下步骤：

第一训练步骤，使用Imagenet模型初始化所述区域建议网络，使用训练样本集训练所述区域建议网络；

第二训练步骤，使用所述第一训练步骤中训练后的区域建议网络生成所述训练样本集中各个样本图像的候选框，利用所述候选框训练所述快速区域卷积神经网络；

第三训练步骤，使用所述第二训练步骤中训练后的快速区域卷积神经网络初始化所述区域建议网络，使用所述训练样本集训练所述区域建议网络；

第四训练步骤，使用所述第三训练步骤中训练后的区域建议网络初始化所述快速区域卷积神经网络，并保持所述卷积层固定，使用所述训练样本集训练所述快速区域卷积神经网络。
如权利要求10所述的计算机装置，其特征在于，所述加快区域卷积神经网络模型采用ZF框架，所述区域建议网络和所述快速区域卷积神经网络共享5个卷积层。
如权利要求9所述的计算机装置，其特征在于，所述目标分类器是区域全卷积网络模型。
如权利要求9所述的计算机装置，其特征在于，所述利用特征提取器提取所述筛选后的目标框的特征包括：

采用重识别方法提取所述筛选后的目标框的特征。
如权利要求9所述的计算机装置，其特征在于，所述根据所述特征向量将所述筛选后的目标框与所述图像的前一帧图像的各个目标框进行匹配包括：

根据所述特征向量计算所述筛选后的目标框与所述前一帧图像的各个目标框的差异值，根据所述差异值确定所述筛选后的目标框中与所述前一帧图像的各个目标框匹配的目标框。
如权利要求14所述的计算机装置，其特征在于，所述根据所述特征向量计算所述筛选后的目标框与所述前一帧图像的各个目标框的差异值包括：

计算所述筛选后的目标框的特征向量与所述前一帧图像的各个目标框的特征向量的余弦距离，将所述余弦距离作为所述筛选后的目标框与所述前一帧图像的各个目标框的差异值；或

计算所述筛选后的目标框的特征向量与所述前一帧图像的各个目标框的特征向量的欧氏距离，将所述欧氏距离作为所述筛选后的目标框与所述前一帧图像的各个目标框的差异值。
一种非易失性可读存储介质，所述非易失性可读存储介质上存储有至少一条计算机可读指令，其特征在于，所述至少一条计算机可读指令被处理器执行时实现以下步骤：

利用目标检测器检测图像中的预定类型目标，得到所述预定类型目标的目标框；

利用目标分类器对所述目标框打分，得到所述目标框属于指定目标的分数；

删除所述目标框中所述分数低于预设阈值的目标框，得到筛选后的目标框；

利用特征提取器提取所述筛选后的目标框的特征，得到所述筛选后的目标框的特征向量；

根据所述特征向量将所述筛选后的目标框与所述图像的前一帧图像的各个目标框进行匹配，得到更新后的目标框。
如权利要求16所述的非易失性可读存储介质，其特征在于，所述目标检测器是加快区域卷积神经网络模型，所述加快区域卷积神经网络模型包括区域建议网络和快速区域卷积神经网络，所述利用目标检测器检测图像中的预定类型目标，得到所述预定类型目标的目标框之前，所述至少一条计算机可读指令被所述处理器执行时还实现以下步骤：

第一训练步骤，使用Imagenet模型初始化所述区域建议网络，使用训练样本集训练所述区域建议网络；

第二训练步骤，使用所述第一训练步骤中训练后的区域建议网络生成所述训练样本集中各个样本图像的候选框，利用所述候选框训练所述快速区域卷积神经网络；

第三训练步骤，使用所述第二训练步骤中训练后的快速区域卷积神经网络初始化所述区域建议网络，使用所述训练样本集训练所述区域建议网络；

第四训练步骤，使用所述第三训练步骤中训练后的区域建议网络初始化所述快速区域卷积神经网络，并保持所述卷积层固定，使用所述训练样本集训练所述快速区域卷积神经网络。
如权利要求17所述的非易失性可读存储介质，其特征在于，所述利用特征提取器提取所述筛选后的目标框的特征包括：

采用重识别方法提取所述筛选后的目标框的特征。
如权利要求16所述的非易失性可读存储介质，其特征在于，所述根据所述特征向量将所述筛选后的目标框与所述图像的前一帧图像的各个目标框进行匹配包括：

根据所述特征向量计算所述筛选后的目标框与所述前一帧图像的各个目标框的差异值，根据所述差异值确定所述筛选后的目标框中与所述前一帧图像的各个目标框匹配的目标框。
如权利要求16所述的非易失性可读存储介质，其特征在于，所述根据所述特征向量计算所述筛选后的目标框与所述前一帧图像的各个目标框的差异值包括：

计算所述筛选后的目标框的特征向量与所述前一帧图像的各个目标框的特征向量的余弦距离，将所述余弦距离作为所述筛选后的目标框与所述前一帧图像的各个目标框的差异值；或

计算所述筛选后的目标框的特征向量与所述前一帧图像的各个目标框的特征向量的欧氏距离，将所述欧氏距离作为所述筛选后的目标框与所述前一帧图像的各个目标框的差异值。