WO2022142417A1

WO2022142417A1 - 目标跟踪方法、装置、电子设备及存储介质

Info

Publication number: WO2022142417A1
Application number: PCT/CN2021/114903
Authority: WO
Inventors: 王智卓
Original assignee: 深圳云天励飞技术股份有限公司
Priority date: 2020-12-31
Filing date: 2021-08-27
Publication date: 2022-07-07
Also published as: CN113191180A; CN113191180B

Abstract

本发明实施例提供一种目标跟踪方法，方法包括：提取待处理图像序列中每一帧图像的目标计数信息、目标检测框信息与目标预测框信息；计算待处理图像序列中每个目标的第一跟踪轨迹；判断是否存在第一漏检情况；若存在第一漏检情况，则根据第n帧图像对应的目标预测框信息与第n+1帧图像对应的第一漏检目标点，判断是否存在第二漏检情况；若不存在第二漏检情况，则根据第一漏检目标点，确定第一漏检框信息；若存在第二漏检情况，则根据第二漏检目标点，确定第二漏检框信息；基于第一跟踪轨迹、第一漏检框信息和/或第二漏检框信息，得到目标跟踪轨迹。可以提高多目标跟踪的准确率。

Description

目标跟踪方法、装置、电子设备及存储介质

本申请要求于2020年12月31日提交中国专利局，申请号为202011639844.2、发明名称为“目标跟踪方法、装置、电子设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及人工智能领域，尤其涉及一种目标跟踪方法、装置、电子设备及存储介质。

背景技术

随着城市人口的快速增加，越来越多场景需要安装更多的智能摄像头来完成视频监控与分析的任务，然而多目标跟踪算法是智能摄像头中不可或缺的一种算法，一种鲁棒、高精度的多目标跟踪算法可以极大的提升整个智能视频监控系统的性能。多目标跟踪算法包括目标检测算法与目标ID匹配跟踪算法，虽然当前已经有多目标跟踪网络，但是对于目标检测算法而言，在某些情况下会出现目标漏检的情况。比如，在真实场景中，目标发生遮挡或者受到干扰的情况下，尤其是在比较拥挤的场景中，漏检率较高，导致目标跟踪的准确率较低。因此，现有的目标跟踪算法存在目标检测准确率低的问题。

发明内容

本发明实施例提供一种目标跟踪方法，能够降低目标检测的漏检率，进而提高多目标跟踪的目标检测准确率。

第一方面，本发明实施例提供一种目标跟踪方法，所述方法包括：

提取待处理图像序列中每一帧图像的目标计数信息、目标检测框信息与目标预测框信息；

根据每一帧图像的目标检测框信息与目标预测框信息，计算待处理图像序列中每个目标的第一跟踪轨迹；

根据第n+1帧图像对应的目标检测框信息与第n+1帧图像对应的目标计数信息，判断所述是否存在第一漏检情况，所述第一漏检情况包括第一漏检目标点；

若存在所述第一漏检情况，则根据第n帧图像对应的目标预测框信息与第n+1帧图像对应的第一漏检目标点，判断是否存在第二漏检情况，所述第二漏检情况包括第二漏检目标点；

若不存在第二漏检情况，则根据所述第一漏检目标点，确定第一漏检框信息；

若存在第二漏检情况，则根据所述第二漏检目标点，确定第二漏检框信息；

基于所述第一跟踪轨迹、所述第一漏检框信息和/或所述第二漏检框信息，得到目标跟踪轨迹。

可选的，所述提取待处理图像序列中每一帧图像的目标计数信息、目标检测框信息与目标预测框信息，包括：

根据预设的目标计数估计网络计算每帧图像的目标计数信息；

根据预设的检测与重识别网络计算每帧图像的目标检测框信息，所述目标检测框信息包括目标检测框与目标检测特征；

根据预设的预测网络计算每帧图像的目标预测框信息，所述目标预测框信息包括目标预测框与目标预测特征。

可选的，所述检测与重识别网络包括公共网络、检测分支网络以及重识别分支网络，所述检测分支网络的输入连接于所述公共网络的输出，以及所述重识别分支网络的输入连接于所述公共网络的输出，所述根据预设的检测与重识别网络计算每帧图像的目标检测框信息，包括：

通过所述公共网络提取每帧图像对于检测分支网络以及重识别分支网络的公共特征；

通过所述检测分支网络提取所述公共特征中隐含的目标检测框；

通过所述重识别分支网络提取所述公共特征中隐含的目标检测特征。

可选的，所述根据每一帧图像的目标检测框信息与目标预测框信息，计算待处理图像序列中每个目标的第一跟踪轨迹，包括：

根据所述目标检测框信息与目标预测框信息，为每个目标的目标检测框配置一个唯一ID；

根据每个目标的唯一ID，得到每个目标的第一跟踪轨迹。

可选的，所述根据所述目标检测框信息与目标预测框信息，为每个目标的目标检测框配置一个唯一ID，包括：

计算第n+1帧图像各个目标的目标检测框与第n帧图像中各个目标的目标预测框的交并比；

计算第n+1帧图像各个目标的目标检测特征与第n帧图像中各个目标的目标预测特征的特征相似度；

基于所述交并比与所述特征相似度，为每个目标的目标检测框配置一个唯一ID。

可选的，所述目标计数信息包括目标估计数量，所述根据第n+1帧图像对应的目标检测框信息与第n+1帧图像对应的目标计数信息，判断所述是否存在第一漏检情况，包括：

根据所述第n+1帧图像对应的目标检测框信息，统计第n+1帧图像中目标检测框的数量；

判断所述目标检测框的数量是否小于所述目标估计数量；

若所述目标检测框的数量小于所述目标估计数量，则确定存在第一漏检情况。

可选的，所述根据第n帧图像对应的目标预测框信息与第n+1帧图像对应的第一漏检目标点，判断是否存在第二漏检情况，包括：

判断所述第一漏检目标点是否位于所述第一目标预测框内；

若第一漏检目标点位于所述第一目标预测框内，则确定存在第二漏检情况。

可选的，所述第一漏检框信息包括第一漏检目标检测框，所述根据所述第一漏检目标点，确定第一漏检框信息，包括：

将所述第一目标预测框作为所述第一漏检目标点在第n+1帧图像中的第一漏检目标检测框。

可选的，所述第二漏检框信息包括第二漏检目标检测框，根据所述第二漏检目标点，确定第二漏检框信息，包括：

根据第n帧图像中的目标预测框的高宽信息，以所述第二漏检目标点为中心，在第n+1帧图像中为所述第二漏检目标点配置一个第二漏检目标检测框。

可选的，所述基于所述第一跟踪轨迹、所述第一漏检框信息和/或所述第二漏检框信息，得到目标跟踪轨迹，包括：

根据所述第n+1帧图像中对应的第一漏检框信息与第n帧图像中对应的目标检测框信息，为所述第n+1帧图像中对应的第一漏检框信息配置一个第一唯一ID，所述第一唯一ID为所述第一跟踪轨迹对应的一个唯一ID；

根据所述第一漏检框信息的唯一ID，将所述第一漏检框信息加入到具有相同唯一ID的第一跟踪轨迹；和/或

为所述第n+1帧图像中对应的第二漏检框信息配置一个第二唯一ID，所述第二唯一ID与所有第一跟踪轨迹对应的唯一ID均不同。

第二方面，本发明实施例还提供一种目标跟踪装置，所述装置包括：

提取模块，用于提取待处理图像序列中每一帧图像的目标计数信息、目标检测框信息与目标预测框信息；

计算模块，用于根据每一帧图像的目标检测框信息与目标预测框信息，计算待处理图像序列中每个目标的第一跟踪轨迹；

第一判断模块，用于根据第n+1帧图像对应的目标检测框信息与第n+1帧图像对应的目标计数信息，判断所述是否存在第一漏检情况，所述第一漏检情况包括第一漏检目标点；

第二判断模块，用于若存在所述第一漏检情况，则根据第n帧图像对应的目标预测框信息与第n+1帧图像对应的第一漏检目标点，判断是否存在第二漏检情况，所述第二漏检情况包括第二漏检目标点；

第一确定模块，用于若不存在第二漏检情况，则根据所述第一漏检目标点，确定第一漏检框信息；

第二确定模块，用于若存在第二漏检情况，则根据所述第二漏检目标点，确定第二漏检框信息；

处理模块，用于基于所述第一跟踪轨迹、所述第一漏检框信息和/或所述第二漏检框信息，得到目标跟踪轨迹。

第三方面，本发明实施例提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例提供的目标跟踪方法中的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现发明实施例提供的目标跟踪方法中的步骤。

本发明实施例中，提取待处理图像序列中每一帧图像的目标计数信息、目标检测框信息与目标预测框信息；根据每一帧图像的目标检测框信息与目标预测框信息，计算待处理图像序列中每个目标的第一跟踪轨迹；根据第n+1帧图像对应的目标检测框信息与第n+1帧图像对应的目标计数信息，判断所述是否存在第一漏检情况，所述第一漏检情况包括第一漏检目标点；若存在所述第一漏检情况，则根据第n帧图像对应的目标预测框信息与第n+1帧图像对应的第一漏检目标点，判断是否存在第二漏检情况，所述第二漏检情况包括第二漏检目标点；若不存在第二漏检情况，则根据所述第一漏检目标点，确定第一漏检框信息；若存在第二漏检情况，则根据所述第二漏检目标点，确定第二漏检框信息；基于所述第一跟踪轨迹、所述第一漏检框信息和/或所述第二漏检框信息，得到目标跟踪轨迹。通过目标检测框信息与目标计数信息，可以判断是否存在第一漏检情况，通过目标预测框信息与第一漏检目标点，可以判断是否存在第二漏检情况，进而可以判断漏检的目标为已有目标或是新出现目标，可以有效降低漏检率，提高多目标跟踪的目标检测准确率，进而使得多目标跟踪的准确率得到提高。

附图说明

图1是本发明实施例提供的一种目标跟踪方法的流程图；

图1a是本发明实施例提供的一种检测与重识别网络的结构图；

图1b是本发明实施例提供的一种特征映射的热图示意图；

图1c是本发明实施例提供的一种中心点偏置分量的示意图；

图1d是本发明实施例提供的一种检测框大小分量的示意图；

图1e是本发明实施例提供的一种人群计数估计网络的输出示意图；

图2是本发明实施例提供的一种目标跟踪装置的结构示意图；

图3是本发明实施例提供的一种提取模块的结构示意图；

图4是本发明实施例提供的一种第二计算子模块的结构示意图；

图5是本发明实施例提供的一种计算模块的结构示意图；

图6是本发明实施例提供的一种第一配置子模块的结构示意图；

图7是本发明实施例提供的一种第一判断模块的结构示意图；

图8是本发明实施例提供的一种第二判断模块的结构示意图；

图9是本发明实施例提供的一种处理模块的结构示意图；

图10是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

请参见图1，图1是本发明实施例提供的一种目标跟踪方法的流程图，如图1所示，包括以下步骤：

101、提取待处理图像序列中每一帧图像的目标计数信息、目标检测框信息与目标预测框信息。

在本发明实施例中，上述待处理图像序列可以是摄像头实时抓拍的视频图像，比如通过安装在特定监控场景的摄像头实时抓拍该特定监控场景的视频图像，进一步的，摄像头可以设置在该特定监控场景的一定高度之处，对该特定监控场景中的目标进行实时抓拍。也可以是用户上传的视频图像，上述图像序列指的是按时序获取的帧图像。

上述待处理图像序列中包括待跟踪目标，上述待跟踪目标可以是运动目标，上述的运动目标可以是行人、车辆、动物等可以产生运动轨迹的目标。上述待跟踪目标可以是一个或多个。

上述的目标检测框信息可以通过目标检测网络来对待跟踪目标进行目标检测，上述目标检测网络为已经训练好的，上述目标检测网络可以为用户通过样本目标数据集进行训练得到，也可以是下载获取目标检测网络的网络结构与参数，通过样本目标数据集进行微调训练后得到。

在本发明实施例中，上述目标检测网络的输入为待处理图像序列中的帧图像，输出为对应帧图像中待跟踪目标的检测框信息，上述目标检测网络输出的检测框信息可以包括待跟踪目标在对应帧图像的位置信息和置信度信息。上述位置信息可以是det(x，y，w，h)格式的信息，其中，上述的x和y表示检测框在对应帧图像中的中心点坐标，上述w和h分别表示检测框在对应帧图像中的宽和高。上述的置信度信息用于表示检测框内的图像内容为待跟踪目标的可信程度，置信度越高，则检测框内的图像内容为待跟踪目标的可信程度越高。上述目标检测网络可以是基于CenterNet目标检测算法进行构建的网络。

进一步的，上述的目标检测网络为检测与重识别网络，上述目标检测框信息包括目标检测框与目标检测特征。具体的，请参见图1a，图1a是本发明实施例提供的一种检测与重识别网络的结构图，如图1a所示，检测与重识别网络包括公共网络、检测分支网络以及重识别分支网络，上述检测分支网络的输入连接于上述公共网络的输出，以及上述重识别分支网络的输入连接于上述公共网络的输出。可以通过上述公共网络提取每帧图像对于检测分支网络以及重识别分支网络的公共特征；通过上述检测分支网络提取公共特征中隐含的目标检测框；通过上述重识别分支网络提取公共特征中隐含的目标检测特征。

更进一步的，上述本发明实施例还提供一个快速、鲁棒的公共网络，具体的，公共网络的实现结构如下述表1所示：

索引

网络层名称

滤波器个数

卷积核大小

其它

0	Conv2d	16	7*7/1
1	BatchNorm2d			Eps＝1e-05,momentum＝0.1
2	ReLU
3	Conv2d	16	3*3/2
4	BatchNorm2d			Eps＝1e-05,momentum＝0.1
5	ReLU
6	Conv2d	32	3*3/2
7	BatchNorm2d			Eps＝1e-05,momentum＝0.1
8	ReLU
9	Conv2d	64	3*3/2
10	BatchNorm2d			Eps＝1e-05,momentum＝0.1
11	ReLU
12	Conv2d	64	3*3/1
13	BatchNorm2d			Eps＝1e-05,momentum＝0.1
14	Conv2d	64	3*3/2
15	BatchNorm2d			Eps＝1e-05,momentum＝0.1
16	ReLU
17	Conv2d	64	3*3/1
18	BatchNorm2d			Eps＝1e-05,momentum＝0.1
19	Conv2d	64	1*1/1
20	BatchNorm2d			Eps＝1e-05,momentum＝0.1
21	ReLU
22	MaxPool2d		2*2/2
23	Conv2d	64	1*1/1
24	BatchNorm2d			Eps＝1e-05,momentum＝0.1
25	Conv2d	128	3*3/2
26	BatchNorm2d			Eps＝1e-05,momentum＝0.1
27	ReLU
28	Conv2d	128	3*3/1

29	BatchNorm2d			Eps＝1e-05,momentum＝0.1
30	Conv2d	128	3*3/2
31	BatchNorm2d			Eps＝1e-05,momentum＝0.1
32	ReLU
33	Conv2d	128	3*3/1
34	BatchNorm2d			Eps＝1e-05,momentum＝0.1
35	Conv2d	128	3*3/2
36	BatchNorm2d			Eps＝1e-05,momentum＝0.1
37	Conv2d	128	1*1/1
38	BatchNorm2d			Eps＝1e-05,momentum＝0.1
39	ReLU
40	MaxPool2d		2*2/2
41	Conv2d	128	1*1/1
42	BatchNorm2d			Eps＝1e-05,momentum＝0.1
43	Conv2d	256	3*3/2
44	BatchNorm2d			Eps＝1e-05,momentum＝0.1
45	ReLU
46	Conv2d	256	3*3/1
47	BatchNorm2d			Eps＝1e-05,momentum＝0.1
48	Conv2d	256	3*3/2
49	BatchNorm2d			Eps＝1e-05,momentum＝0.1
50	ReLU
51	Conv2d	256	3*3/1
52	BatchNorm2d			Eps＝1e-05,momentum＝0.1
53	Conv2d	256	3*3/2
54	BatchNorm2d			Eps＝1e-05,momentum＝0.1
55	Conv2d	256	1*1/1
56	BatchNorm2d			Eps＝1e-05,momentum＝0.1
57	ReLU

58	MaxPool2d		2*2/2
59	Conv2d	256	1*1/1
60	BatchNorm2d			Eps＝1e-05,momentum＝0.1
61	Conv2d	256	3*3/2
62	Conv2d	256	3*3/1	heatmap
63	ReLU
64	Conv2d	1	1*1/1
65	Conv2d	256	3*3/1	Size
66	ReLU
67	Conv2d	2	1*1/1
68	Conv2d	256	3*3/1	center
69	ReLU
70	Conv2d	2	1*1/1
71	Conv2d	256	3*3/1	id
72	ReLU
73	Conv2d	256	1*1/1

表1

其中，上述Conv2d代表二维卷积层，BatchNorm2d代表二维批归一化，ReLU为激活函数，MaxPool2d二维最大上采样，Eps为完整数据集，momentum为动量更新速度，heatmap为特征映射对应的隐含特征，Size为检测框大小尺寸对应的隐含特征，center为中心点偏置对应的隐含特征，id为重识别所对应的隐含特征。

在本发明实施例中，上述检测分支网络可以是基于CenterNet网络进行构建，可以同时输出不同目标的特征映射、检测框大小和中心点偏置。如图1b、图1c、图1d所示，其中，图1b是本发明实施例提供的一种特征映射的热图示意图，图1c是本发明实施例提供的一种中心点偏置分量的示意图，图1d是本发明实施例提供的一种检测框大小分量的示意图。在图1b中，特征映射的热图包括目标的中心点；在图1c中，中心点偏置表示目标中心点坐标的偏移量，该偏移量可以减小由于特征映射的步长所带来的中心点精度影响；在图1d中，检测框大小分量为检测的高和宽偏移量。

上述检测分支网络的训练可以基于深度学习框架进行，比如，可以基于Pytorch深度学习框架来进行训练。在检测分支网络的训练过程中，所采用的超参数可以如下述表2所示：

参数名称	默认值	描述
Input_size	1088*608	输入图片大小
lr	0.0001	学习率
epoch	30	迭代次数
batch_size	12	每次训练使用的图片个数
optimizer	Adam	优化器

在本发明实施例中，上述的目标预测框信息可以通过目标预测网络来对待跟踪目标进行目标位置预测，上述目标预测网络为已经训练好的，具体可以是用户自行训练得到，也可以是下载获取目标检测网络的网络结构与参数，通过样本目标数据集进行微调训练后得到，上述目标预测网络可以是基于卡尔曼滤波算法进行构建的网络。

在本发明实施例中，上述目标预测网络的输入为待处理图像序列中的帧图像，输出为对应帧图像中待跟踪目标在下一帧中的预测框信息，上述目标预测网络输出的预测框信息可以包括待跟踪目标在下一帧图像的位置信息和置信度信息。上述位置信息可以是pre(x，y，w，h)格式的信息，其中，上述的x和y表示检测框在下一帧图像中的中心点坐标，上述w和h分别表示检测框在下一帧图像中的宽和高。

可以理解的是，通过目标检测网络和目标预测网络，对于第n帧图像作为输入的情况，会输出第n帧图像对应的目标检测框信息与第n帧图像对应的目标预测框信息；对于第n+1帧图像作为输入的情况，会输出第n+1帧图像对应的目标检测框信息与第n+1帧图像对应的目标预测框信息。其中，第n帧图像对应的目标预测框信息可以理解为是对第n+1帧图像对应的目标检测框信息的预测，第n+1帧图像对应的目标预测框信息可以理解为是对第n+2帧图像对应的目标检测框信息的预测。

在本发明实施例中，可以根据预设的目标计数估计网络计算每帧图像的目标计数信息。上述目标计数估计网络可以是基于C-CNN算法或M-CNN算法的目标计数估计网络。目标计数估计网络的计算结果包括目标计数信息，具体的，可以参见图1e，图1e是本发明实施例提供的一种人群计数估计网络的输出示意图，在图1e中，GT表示人数标准结果，Pred表示目标计数估计网络的目标计数估计结果。

102、根据每一帧图像的目标检测框信息与目标预测框信息，计算待处理图像序列中每个目标的第一跟踪轨迹。

在本发明实施例中，第n帧图像对应的目标预测框信息可以理解为是对第n+1帧图像对应的目标检测框信息的预测，上述将第n+1帧图像对应的目标检测框信息与第n帧图像对应的目标预测框信息进行匹配的目的，可以理解为检测结果是否与预测结果相同或相近，进而判断是否发生误检。上述第一跟踪轨迹可以通过SORT排序算法将目标检测框信息与目标预测框信息进行匹配连接得到。

进一步的，可以根据目标检测框信息与目标预测框信息，为每个目标的目标检测框配置一个唯一ID；根据每个目标的唯一ID，得到每个目标的第一跟踪轨迹，可以将目标检测框信息与目标预测框信息进行匹配，给匹配上的每个目标检测框设置一个ID，可以对于同一个目标的目标检测框ID，设置为同一个唯一ID。

进一步的，上述目标检测框信息包括目标检测框与目标检测特征，上述目标预测框信息包括目标预测框与目标预测特征。上述的预测框特征可以根据目标预测框在对应帧图像中获取对应的目标图像后进行特征提取得到。可以计算第n+1帧图像各个目标的目标检测框与第n帧图像中各个目标的目标预测框的交并比；计算第n+1帧图像各个目标的目标检测特征与第n帧图像中各个目标的目标预测特征的特征相似度；基于交并比与特征相似度，为每个目标的目标检测框配置一个唯一ID。上述交并比指的是目标检测框与目标预测框的相交面积比上目标检测框与目标预测框的相并面积，其中，相并面积为目标检测框面积加上目标预测框面积再减去目标检测框与目标预测框的相交面积。上述交并比可以理解为运动特征相似度，上述相似度可以理解为外观特征相似度，可以通过下述式子来得到运动特征相似度与外观特征相似度的总相似度：

S＝λIOU(D _i,T _j)+(1-λ)SIM(D _i,T _j)

其中，D _i和T _j分别表示第i个目标检测框信息和第j个目标预测框信息，IOU表示目标检测框和目标预测框的交并比IOU，SIM表示目标检测特征和目标预测特征之间的特征相似度，S表示最终的相似度，λ是一个预设的参数，可以根据用户先验进行调整，当用户更相信外观特征相似度时，则参数λ可以设置为较小的值，当用户更相信运动特征相似度时，则参数λ可以设置为较大的值。通过上述式子，可以得到每个目标检测框信息与每个目标预测框信息之间的相似度S，可以通过一个相似度矩阵IOU_Matrix进行表示，其中，上述相似度矩阵IOU_Matrix＝1–S，相似度矩阵IOU_Matrix，每个单元格的值都表示一个目标检测框信息与一个目标预测框信息之间的相似度。当相似度大于预测的相似度阈值时，则可以说明目标检测框信息与目标预测框信息匹配，进一步说明该目标检测框信息与目标预测框信息同属于一个目标，为每个目标对应的目标检测框信息对应分配一个唯一ID，一个目标对应一个唯一ID，则可以通过该唯一ID，当对应的目标检测框信息加入到对应目标的第一跟踪轨迹中，若存在目标检测框信息与目标预测框信息不匹配的情况，可以判断是新增目标、已消失目标或漏检目标。上述新增目标可以理解为，在第n+1帧图像中存在对应的目标检测框信息，在第n帧图像中不存在对应的目标预测框信息；上述已消失目标可以理解为，在第n+1帧图像中存在对应的目标检测框信息，在第n+1帧图像中不存在对应的目标预测框信息；上述漏检目标可以理解为，在第n+1帧图像中不存在对应的目标检测框信息，在第n帧图像中存在对应的目标预测框信息。

103、根据第n+1帧图像对应的目标检测框信息与第n+1帧图像对应的目标计数信息，判断是否存在第一漏检情况。

在本发明实施例中，上述第一漏检情况包括第一漏检目标点。上述第一漏检目标点可以理解为没有对应目标检测框信息的目标。

可选的，目标计数信息包括目标估计数量，上述第n+1帧图像为当前帧，可以根据第n+1帧图像对应的目标检测框信息，统计第n+1帧图像中目标检测框的数量；判断目标检测框的数量是否小于所述目标估计数量；若目标检测框的数量小于目标估计数量，则确定存在第一漏检情况。举例来说，通过检测分支网络，可以得到第n+1帧图像中m个目标的目标检测框信息，即m个目标检测框，通过目标计数估计网络，可以得到第n+1帧图像中目标计数信息中目标估计数量k，判断m是否小于k，若m小于k，则说明目标检测框数量小于目标估计数量，存在第一漏检情况。

104、若存在第一漏检情况，则根据第n帧图像对应的目标预测框信息与第n+1帧图像对应的第一漏检目标点，判断是否存在第二漏检情况。

在本发明实施例中，上述第二漏检情况包括第二漏检目标点。上述第二漏检目标点可以理解为没有对应目标预测框信息的目标。

进一步的，可以判断第一漏检目标点是否位于第一目标预测框内；若第一漏检目标点位于第一目标预测框内，则确定存在第二漏检情况。上述第一目标预测框指的是第n帧图像中各个目标的目标预测框。当第一漏检目标点位于第一目标预测框内，则说明该第一漏检目标点为在n帧图像中被预测到的目标，却在第n+1帧图像中没有被检测到，属于漏检目标。当第一漏检目标点没有位于任何一个第一目标预测框内，则说明目标为是第n+1帧图像中新出现的漏检目标，第n+1帧图像中新出现的目标在n帧图像中是不会被预测到的。

105、若不存在第二漏检情况，则根据第一漏检目标点，确定第一漏检框信息。

在本发明实施例中，若不存在第二漏检情况，则说明该第一漏检目标点为在n帧图像中被预测到的目标，却在第n+1帧图像中没有被检测到，属于漏检目标。此时，可以将与第一漏检目标点对应的第一目标预测框作为该第一漏检目标点在第n+1帧图像中的第一漏检目标检测框。另外，还可以对第一漏检目标检测框标记第一漏检标识。

106、若存在第二漏检情况，则根据第二漏检目标点，确定第二漏检框信息。

在本发明实施例中，若存在第二漏检情况，则说明目标为是第n+1帧图像中新出现的漏检目标，第n+1帧图像中新出现的目标在n帧图像中是不会被预测到的，属于新增漏检目标。此时，可以根据第n帧图像中的目标预测框的高宽信息，以第二漏检目标点为中心，在第n+1帧图像中为第二漏检目标点配置一个第二漏检目标检测框。另外，还可以对第二漏检目标检测框标记第二漏检标识。上述第一漏检标识与第二漏检标识用于区分第一漏检目标检测框与第二漏检目标检测框。

107、基于第一跟踪轨迹、第一漏检框信息和/或第二漏检框信息，得到目标跟踪轨迹。

在本发明实施例中，上述第一跟踪轨迹包括与目标对应的唯一ID，一个目标对应一个第一跟踪轨迹，一个第一跟踪轨迹对应一个唯一ID。

可以根据第n+1帧图像中对应的第一漏检框信息与第n帧图像中对应的目标检测框信息，为第n+1帧图像中对应的第一漏检框配置一个第一唯一ID，上述第一唯一ID为上述第一跟踪轨迹对应的一个唯一ID；根据所述第一漏检框的唯一ID，将所述第一漏检框加入到具有相同唯一ID的第一跟踪轨迹；这样，可以将第一漏检框信息加入到第一跟踪轨迹，补全漏检的跟踪轨迹，得到目标跟踪轨迹。

为第n+1帧图像中对应的第二漏检框配置一个第二唯一ID，上述第二唯一ID与所有第一跟踪轨迹对应的唯一ID均不同。由于第二漏检框信息为新增漏检目标对应的漏检，因此，相当于一个是一个新的目标，需要对这个新目标分配一个没有被占用的第二唯一ID。

需要说明的是，本发明实施例提供的目标跟踪方法可以应用于可以进行目标跟踪的手机、监控器、计算机、服务器等设备。

请参见图2，图2是本发明实施例提供的一种目标跟踪装置的结构示意图，如图2所示，所述装置包括：

提取模块201，用于提取待处理图像序列中每一帧图像的目标计数信息、目标检测框信息与目标预测框信息；

计算模块202，用于根据每一帧图像的目标检测框信息与目标预测框信息，计算待处理图像序列中每个目标的第一跟踪轨迹；

第一判断模块203，用于根据第n+1帧图像对应的目标检测框信息与第n+1帧图像对应的目标计数信息，判断所述是否存在第一漏检情况，所述第一漏检情况包括第一漏检目标点；

第二判断模块204，用于若存在所述第一漏检情况，则根据第n帧图像对应的目标预测框信息与第n+1帧图像对应的第一漏检目标点，判断是否存在第二漏检情况，所述第二漏检情况包括第二漏检目标点；

第一确定模块205，用于若不存在第二漏检情况，则根据所述第一漏检目标点，确定第一漏检框信息；

第二确定模块206，用于若存在第二漏检情况，则根据所述第二漏检目标点，确定第二漏检框信息；

处理模块207，用于基于所述第一跟踪轨迹、所述第一漏检框信息和/或所述第二漏检框信息，得到目标跟踪轨迹。

可选的，如图3所示，所述提取模块201，包括：

第一计算子模块2011，用于根据预设的目标计数估计网络计算每帧图像的目标计数信息；

第二计算子模块2012，用于根据预设的检测与重识别网络计算每帧图像的目标检测框信息，所述目标检测框信息包括目标检测框与目标检测特征；

第二计算子模块2013，用于根据预设的预测网络计算每帧图像的目标预测框信息，所述目标预测框信息包括目标预测框与目标预测特征。

可选的，如图4所示，所述检测与重识别网络包括公共网络、检测分支网络以及重识别分支网络，所述检测分支网络的输入连接于所述公共网络的输出，以及所述重识别分支网络的输入连接于所述公共网络的输出，所述第二计算子模块2012，包括：

第一提取单元20121，用于通过所述公共网络提取每帧图像对于检测分支网络以及重识别分支网络的公共特征；

第二提取单元20122，用于通过所述检测分支网络提取所述公共特征中隐含的目标检测框；

第三提取单元20123，用于通过所述重识别分支网络提取所述公共特征中隐含的目标检测特征。

可选的，如图5所示，所述计算模块202，包括：

第一配置子模块2021，用于根据所述目标检测框信息与目标预测框信息，为每个目标的目标检测框配置一个唯一ID；

第一关联子模块2022，用于根据每个目标的唯一ID，得到每个目标的第一跟踪轨迹。

可选的，如图6所示，所述第一配置子模块2021，包括：

第一计算单元20211，用于计算第n+1帧图像各个目标的目标检测框与第n帧图像中各个目标的目标预测框的交并比；

第二计算单元20212，用于计算第n+1帧图像各个目标的目标检测特征与第n帧图像中各个目标的目标预测特征的特征相似度；

配置单元20213，用于基于所述交并比与所述特征相似度，为每个目标的目标检测框配置一个唯一ID。

可选的，如图7所示，所述目标计数信息包括目标估计数量，所述第一判断模块203，包括：

统计子模块2031，用于根据所述第n+1帧图像对应的目标检测框信息，统计第n+1帧图像中目标检测框的数量；

第一判断子模块2032，用于判断所述目标检测框的数量是否小于所述目标估计数量；

第一确定子模块2033，用于若所述目标检测框的数量小于所述目标估计数量，则确定存在第一漏检情况。

可选的，如图8所示，所述第二判断模块204，包括：

第二判断子模块2041，用于判断所述第一漏检目标点是否位于所述第一目标预测框内；

第二确定子模块2042，用于若第一漏检目标点位于所述第一目标预测框内，则确定存在第二漏检情况。

可选的，所述第一确定模块205还用于将所述第一目标预测框作为所述第一漏检目标点在第n+1帧图像中的第一漏检目标检测框。

可选的，所述第二确定模块206还用于根据第n帧图像中的目标预测框的高宽信息，以所述第二漏检目标点为中心，在第n+1帧图像中为所述第二漏检目标点配置一个第二漏检目标检测框。

可选的，如图9所示，所述处理模块207，包括：

第二配置子模块2071，用于根据所述第n+1帧图像中对应的第一漏检框信息与第n帧图像中对应的目标检测框信息，为所述第n+1帧图像中对应的第一漏检框信息配置一个第一唯一ID，所述第一唯一ID为所述第一跟踪轨迹对应的一个唯一ID；

第二关联子模块2072，用于根据所述第一漏检框信息的唯一ID，将所述第一漏检框信息加入到具有相同唯一ID的第一跟踪轨迹；和/或

第三配置子模块2073，用于为所述第n+1帧图像中对应的第二漏检框信息配置一个第二唯一ID，所述第二唯一ID与所有第一跟踪轨迹对应的唯一ID均不同。

需要说明的是，本发明实施例提供的目标跟踪装置可以应用于可以进行目标跟踪的手机、监控器、计算机、服务器等设备。

本发明实施例提供的目标跟踪装置能够实现上述方法实施例中目标跟踪方法实现的各个过程，且可以达到相同的有益效果。为避免重复，这里不再赘述。

参见图10，图10是本发明实施例提供的一种电子设备的结构示意图，如图10所示，包括：存储器1002、处理器1001及存储在所述存储器1002上并可在所述处理器1001上运行的计算机程序，其中：

处理器1001用于调用存储器1002存储的计算机程序，执行如下步骤：

可选的，处理器1001执行的所述提取待处理图像序列中每一帧图像的目标计数信息、目标检测框信息与目标预测框信息，包括：

可选的，所述检测与重识别网络包括公共网络、检测分支网络以及重识别分支网络，所述检测分支网络的输入连接于所述公共网络的输出，以及所述重识别分支网络的输入连接于所述公共网络的输出，处理器1001执行的所述根据预设的检测与重识别网络计算每帧图像的目标检测框信息，包括：

可选的，处理器1001执行的所述根据每一帧图像的目标检测框信息与目标预测框信息，计算待处理图像序列中每个目标的第一跟踪轨迹，包括：

根据每个目标的唯一ID，得到每个目标的第一跟踪轨迹。

可选的，处理器1001执行的所述根据所述目标检测框信息与目标预测框信息，为每个目标的目标检测框配置一个唯一ID，包括：

可选的，所述目标计数信息包括目标估计数量，处理器1001执行的所述根据第n+1帧图像对应的目标检测框信息与第n+1帧图像对应的目标计数信息，判断所述是否存在第一漏检情况，包括：

判断所述目标检测框的数量是否小于所述目标估计数量；

可选的，处理器1001执行的所述根据第n帧图像对应的目标预测框信息与第n+1帧图像对应的第一漏检目标点，判断是否存在第二漏检情况，包括：

判断所述第一漏检目标点是否位于所述第一目标预测框内；

可选的，处理器1001执行的所述第一漏检框信息包括第一漏检目标检测框，所述根据所述第一漏检目标点，确定第一漏检框信息，包括：

可选的，处理器1001执行的所述第二漏检框信息包括第二漏检目标检测框，根据所述第二漏检目标点，确定第二漏检框信息，包括：

可选的，处理器1001执行的所述基于所述第一跟踪轨迹、所述第一漏检框信息和/或所述第二漏检框信息，得到目标跟踪轨迹，包括：

需要说明的是，上述电子设备可以是可以应用于可以进行目标跟踪的手机、监控器、计算机、服务器等设备。

本发明实施例提供的电子设备能够实现上述方法实施例中目标跟踪方法实现的各个过程，且可以达到相同的有益效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现本发明实施例提供的目标跟踪方法的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

Claims

一种目标跟踪方法，其特征在于，包括以下步骤：

提取待处理图像序列中每一帧图像的目标计数信息、目标检测框信息与目标预测框信息；

根据每一帧图像的目标检测框信息与目标预测框信息，计算待处理图像序列中每个目标的第一跟踪轨迹；

根据第n+1帧图像对应的目标检测框信息与第n+1帧图像对应的目标计数信息，判断所述是否存在第一漏检情况，所述第一漏检情况包括第一漏检目标点；

若存在所述第一漏检情况，则根据第n帧图像对应的目标预测框信息与第n+1帧图像对应的第一漏检目标点，判断是否存在第二漏检情况，所述第二漏检情况包括第二漏检目标点；

若不存在第二漏检情况，则根据所述第一漏检目标点，确定第一漏检框信息；

若存在第二漏检情况，则根据所述第二漏检目标点，确定第二漏检框信息；

基于所述第一跟踪轨迹、所述第一漏检框信息和/或所述第二漏检框信息，得到目标跟踪轨迹。
如权利要求1所述的方法，其特征在于，所述提取待处理图像序列中每一帧图像的目标计数信息、目标检测框信息与目标预测框信息，包括：

根据预设的目标计数估计网络计算每帧图像的目标计数信息；

根据预设的检测与重识别网络计算每帧图像的目标检测框信息，所述目标检测框信息包括目标检测框与目标检测特征；

根据预设的目标预测网络计算每帧图像的目标预测框信息，所述目标预测框信息包括目标预测框与目标预测特征。
如权利要求2所述的方法，其特征在于，所述检测与重识别网络包括公共网络、检测分支网络以及重识别分支网络，所述检测分支网络的输入连接于所述公共网络的输出，以及所述重识别分支网络的输入连接于所述公共网络的输出，所述根据预设的检测与重识别网络计算每帧图像的目标检测框信息，包括：

通过所述公共网络提取每帧图像对于检测分支网络以及重识别分支网络的公共特征；

通过所述检测分支网络提取所述公共特征中隐含的目标检测框；

通过所述重识别分支网络提取所述公共特征中隐含的目标检测特征。
如权利要求3所述的方法，其特征在于，所述根据每一帧图像的目标检测框信息与目标预测框信息，计算待处理图像序列中每个目标的第一跟踪轨迹，包括：

根据所述目标检测框信息与目标预测框信息，为每个目标的目标检测框配置一个唯一ID；

根据每个目标的唯一ID，得到每个目标的第一跟踪轨迹。
如权利要求4所述的方法，其特征在于，所述根据所述目标检测框信息与目标预测框信息，为每个目标的目标检测框配置一个唯一ID，包括：

计算第n+1帧图像各个目标的目标检测框与第n帧图像中各个目标的目标预测框的交并比；

计算第n+1帧图像各个目标的目标检测特征与第n帧图像中各个目标的目标预测特征的特征相似度；

基于所述交并比与所述特征相似度，为每个目标的目标检测框配置一个唯一ID。
如权利要求2至5中任一所述的方法，其特征在于，所述目标计数信息包括目标估计数量，所述根据第n+1帧图像对应的目标检测框信息与第n+1帧图像对应的目标计数信息，判断所述是否存在第一漏检情况，包括：

根据所述第n+1帧图像对应的目标检测框信息，统计第n+1帧图像中目标检测框的数量；

判断所述目标检测框的数量是否小于所述目标估计数量；若所述目标检测框的数量小于所述目标估计数量，则确定存在第一漏检情况。
如权利要求6所述的方法，其特征在于，所述根据第n帧图像对应的目标预测框信息与第n+1帧图像对应的第一漏检目标点，判断是否存在第二漏检情况，包括：

判断所述第一漏检目标点是否位于所述第一目标预测框内；

若第一漏检目标点位于所述第一目标预测框内，则确定存在第二漏检情况。
如权利要求7所述的方法，其特征在于，所述第一漏检框信息包括第一漏检目标检测框，所述根据所述第一漏检目标点，确定第一漏检框信息，包括：

将所述第一目标预测框作为所述第一漏检目标点在第n+1帧图像中的第一漏检目标检测框。
如权利要求8所述的方法，其特征在于，所述第二漏检框信息包括第二漏检目标检测框，所述根据所述第二漏检目标点，确定第二漏检框信息，包括：

根据第n帧图像中的目标预测框的高宽信息，以所述第二漏检目标点为中心，在第n+1帧图像中为所述第二漏检目标点配置一个第二漏检目标检测框。
如权利要求9所述的方法，其特征在于，所述基于所述第一跟踪轨迹、所述第一漏检框信息和/或所述第二漏检框信息，得到目标跟踪轨迹，包括：

根据所述第n+1帧图像中对应的第一漏检框信息与第n帧图像中对应的目标检测框信息，为所述第n+1帧图像中对应的第一漏检框信息配置一个第一唯一ID，所述第一唯一ID为所述第一跟踪轨迹对应的一个唯一ID；

根据所述第一漏检框信息的唯一ID，将所述第一漏检框信息加入到具有相同唯一ID的第一跟踪轨迹；和/或

为所述第n+1帧图像中对应的第二漏检框信息配置一个第二唯一ID，所述第二唯一ID与所有第一跟踪轨迹对应的唯一ID均不同。
一种目标跟踪装置，其特征在于，所述装置包括：

提取模块，用于提取待处理图像序列中每一帧图像的目标计数信息、目标检测框信息与目标预测框信息；

计算模块，用于根据每一帧图像的目标检测框信息与目标预测框信息，计算待处理图像序列中每个目标的第一跟踪轨迹；

第一判断模块，用于根据第n+1帧图像对应的目标检测框信息与第n+1帧图像对应的目标计数信息，判断所述是否存在第一漏检情况，所述第一漏检情况包括第一漏检目标点；

第二判断模块，用于若存在所述第一漏检情况，则根据第n帧图像对应的目标预测框信息与第n+1帧图像对应的第一漏检目标点，判断是否存在第二漏检情况，所述第二漏检情况包括第二漏检目标点；

第一确定模块，用于若不存在第二漏检情况，则根据所述第一漏检目标点，确定第一漏检框信息；

第二确定模块，用于若存在第二漏检情况，则根据所述第二漏检目标点，确定第二漏检框信息；

处理模块，用于基于所述第一跟踪轨迹、所述第一漏检框信息和/或所述第二漏检框信息，得到目标跟踪轨迹。
一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至10中任一项所述的目标跟踪方法中的步骤。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至10中任一项所述的目标跟踪方法中的步骤。