WO2021232652A1

WO2021232652A1 - 目标跟踪方法、装置、电子设备及计算机可读存储介质

Info

Publication number: WO2021232652A1
Application number: PCT/CN2020/117751
Authority: WO
Inventors: 苏翔博; 袁宇辰; 孙昊
Original assignee: 北京百度网讯科技有限公司
Priority date: 2020-05-22
Filing date: 2020-09-25
Publication date: 2021-11-25
Also published as: JP7375192B2; EP4044117A1; CN111640140A; JP2023500969A; CN111640140B; US20220383535A1; KR20220110320A; EP4044117A4

Abstract

一种目标跟踪方法、装置、电子设备及计算机可读存储介质，涉及计算机视觉技术领域。具体方案为：对当前帧图像进行目标检测，得到目标检测框的第一信息，该第一信息表示第一位置和第一尺寸（101）；利用卡尔曼滤波进行目标跟踪，得到当前帧图像中的目标跟踪框的第二信息，该第二信息表示第二位置和第二尺寸（102）；对卡尔曼滤波中的预测误差协方差矩阵进行容错修正，得到修正后的协方差矩阵（103）；根据第一信息、第二信息以及修正后的协方差矩阵，计算当前帧图像中的目标检测框和目标跟踪框之间的马氏距离（104）；根据该马氏距离，对当前帧图像中的目标检测框和目标跟踪框进行关联匹配（105）。

Description

目标跟踪方法、装置、电子设备及计算机可读存储介质

相关申请的交叉引用

本公开主张在2020年5月22日在中国提交的中国专利申请号No.202010443892.8的优先权，其全部内容通过引用包含于此。

技术领域

本公开涉及人工智能领域，尤其涉及计算机视觉技术领域。

背景技术

相关技术中，对于实时视频流中的目标跟踪，可首先利用检测器提取当前帧图像中所有目标检测框，然后将所有目标检测框与已有轨迹进行关联匹配，以得到目标在当前帧图像下新的轨迹。但是如果目标的运动状态发生急剧变化，比如出现长时间静止后突然运动、在移动过程中突然静止、移动速度发生明显变化等情况，则会导致目标的检测框和已有轨迹位置无法成功匹配，导致跟踪失效。

发明内容

本公开实施例提供一种目标跟踪方法、装置、电子设备及计算机可读存储介质，以解决目前当跟踪目标的运动状态发生急剧变化时容易导致跟踪失效的问题。

为了解决上述技术问题，本公开是这样实现的：

第一方面，本公开实施例提供了一种目标跟踪方法，包括：

对当前帧图像进行目标检测，得到所述当前帧图像中的目标检测框的第一信息，所述第一信息用于表示第一位置和第一尺寸；

利用卡尔曼滤波进行目标跟踪，得到所述当前帧图像中的目标跟踪框的第二信息，所述第二信息用于表示第二位置和第二尺寸；

对卡尔曼滤波中的预测误差协方差矩阵进行容错修正，得到修正后的协方差矩阵；

根据所述第一信息、所述第二信息以及所述修正后的协方差矩阵，计算所述当前帧图像中的目标检测框和目标跟踪框之间的马氏距离；

根据所述马氏距离，对所述当前帧图像中的目标检测框和目标跟踪框进行关联匹配。

这样，可以基于容错修正后的预测误差协方差矩阵来计算目标检测框和目标跟踪框之间的马氏距离，从而即使在目标运动状态发生急剧变化的情况下，该马氏距离也可维持在比较合理的范围内，从而在根据该马氏距离对当前帧图像中的目标检测框和目标跟踪框进行关联匹配时，可以增强目标在不同运动状态下进行跟踪的鲁棒性。

第二方面，本公开实施例提供了一种目标跟踪装置，包括：

检测模块，用于对当前帧图像进行目标检测，得到所述当前帧图像中的目标检测框的第一信息，所述第一信息用于表示第一位置和第一尺寸；

跟踪模块，用于利用卡尔曼滤波进行目标跟踪，得到所述当前帧图像中的目标跟踪框的第二信息，所述第二信息用于表示第二位置和第二尺寸；

修正模块，用于对卡尔曼滤波中的预测误差协方差矩阵进行容错修正，得到修正后的协方差矩阵；

第一计算模块，用于根据所述第一信息、所述第二信息以及所述修正后的协方差矩阵，计算所述当前帧图像中的目标检测框和目标跟踪框之间的马氏距离；

匹配模块，用于根据所述马氏距离，对所述当前帧图像中的目标检测框和目标跟踪框进行关联匹配。

第三方面，本公开实施例还提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的目标跟踪方法。

第四方面，本公开实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如上所述的目标跟踪方法。

上述申请中的一个实施例具有如下优点或有益效果：可以基于容错修正后的预测误差协方差矩阵来计算目标检测框和目标跟踪框之间的马氏距离，从而即使在目标运动状态发生急剧变化的情况下，该马氏距离也可维持在比较合理的范围内，从而在根据该马氏距离对当前帧图像中的目标检测框和目标跟踪框进行关联匹配时，可以增强目标在不同运动状态下进行跟踪的鲁棒性。因为采用了对当前帧图像进行目标检测，得到所述当前帧图像中的目标检测框的第一信息，所述第一信息用于表示第一位置和第一尺寸；利用卡尔曼滤波进行目标跟踪，得到所述当前帧图像中的目标跟踪框的第二信息，所述第二信息用于表示第二位置和第二尺寸；对卡尔曼滤波中的预测误差协方差矩阵进行容错修正，得到修正后的协方差矩阵；根据所述第一信息、所述第二信息以及所述修正后的协方差矩阵，计算所述当前帧图像中的目标检测框和目标跟踪框之间的马氏距离；根据所述马氏距离，对所述当前帧图像中的目标检测框和目标跟踪框进行关联匹配的技术手段，所以克服了目前当跟踪目标的运动状态发生急剧变化时容易导致跟踪失效的技术问题，进而达到增强目标在不同运动状态下进行跟踪的鲁棒性的技术效果。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开实施例的目标跟踪方法的流程图；

图2是本公开具体实例中目标跟踪过程的流程图；

图3是用来实现本公开实施例的目标跟踪方法的跟踪装置的框图；

图4是用来实现本公开实施例的目标跟踪方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例可以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参见图1，图1是本公开实施例提供的一种目标跟踪方法的流程图，该方法应用于电子设备，如图1所示，该方法包括如下步骤：

步骤101：对当前帧图像进行目标检测，得到所述当前帧图像中的目标检测框的第一信息。

本实施例中，该第一信息用于表示第一位置和第一尺寸，即表示对应目标检测框所包含目标的位置信息(如坐标信息)和尺寸信息。比如，该第一信息可以表示为(x,y,w,h)，其中x表示目标检测框左上角的横坐标，y表示目标检测框左上角的纵坐标，w表示目标检测框的宽度，h表示目标检测框的高度；进一步的该x、y、w和h可以均以像素为单位，对应一个目标在图像中的区域。

可选的，上述对当前帧图像进行目标检测的过程可以包括：将当前帧图像输入到目标检测模型(或称为目标检测器)中，得到所述当前帧图像中的目标检测框的第一信息。可理解的，经过目标检测得到的目标检测框的数量可为多个，即经过目标检测可得到一系列目标检测框，每个目标检测框包含对应目标的坐标信息和尺寸信息。上述目标检测模型可以选用相关技术中基于深度学习的方法训练得到，可以为以下任意一种：直接多目标检测(Single Shot Multi Box Detector，SSD)模型、精细直接多目标检测(Single-Shot Refinement Neural Network for Object Detection，RefineDet)、基于针对移动端视觉应用的高效卷积神经网络的直接多目标检测(MobileNet based Single Shot Multi Box Detector，MobileNet-SSD)模型、统一实时目标检测(You Only Look Once:Unified，Real-Time Object Detection，YOLO)模型等等。

一种实施方式中，当利用目标检测模型进行目标检测时，若该目标检测模型是基于预处理后的图像训练得到，则在对当前帧图像进行目标检测之前，需对当前帧图像进行预处理，比如将当前帧图像缩放成固定尺寸(如512*512)，并减去统一的RGB均值(如[104,117,123])，以保证与模型训练过程中训练样本的统一，增强模型鲁棒性。

另一种实施方式中，上述当前帧图像可为监控或其他场景摄像头的实时视频流中的图像。上述目标可选为行人、车辆等。

步骤102：利用卡尔曼滤波进行目标跟踪，得到所述当前帧图像中的目标跟踪框的第二信息。

本实施例中，该第二信息用于表示第二位置和第二尺寸，即表示对应目标跟踪框所包含目标的位置信息(如坐标信息)和尺寸信息。比如，该第二信息可以表示为(x,y,w,h)，其中x表示目标跟踪框左上角的横坐标，y表示目标跟踪框左上角的纵坐标，w表示目标跟踪框的宽度，h表示目标跟踪框的高度；进一步的该x、y、w和h可以均以像素为单位，对应一个目标在图像中的区域。

上述利用卡尔曼滤波(Kalman滤波)进行目标跟踪可理解为：基于目标轨迹已有的运动状态，预测该目标在当前帧图像中可能出现的位置和尺寸大小。该目标轨迹可表示为在当前帧图像之前的若干帧图像中，所有属于同一目标的不同帧图像上的目标检测框。每一个目标轨迹对应一个Kalman滤波，该Kalman滤波用目标第一次出现的检测框进行初始化，并在每帧图像的关联匹配完成后，用匹配上的目标检测框对该Kalman滤波进行修正。对于新得到的一帧图像(如当前帧图像)，可对所有存储的目标轨迹的Kalman滤波进行预测，得到目标轨迹预测在当前帧图像出现的位置，以及得到Kalman滤波的预测误差协方差矩阵Σ。该预测误差协方差矩阵Σ可选为一个维度4x4的矩阵，用来描述目标跟踪中预测值与真实值的误差协方差。

步骤103：对卡尔曼滤波中的预测误差协方差矩阵进行容错修正，得到修正后的协方差矩阵。

步骤104：根据第一信息、第二信息以及修正后的协方差矩阵，计算所述当前帧图像中的目标检测框和目标跟踪框之间的马氏距离。

可理解的，上述对卡尔曼滤波中的预测误差协方差矩阵进行容错修正主要是为了改进马氏距离计算公式，以使通过改进后的马氏距离计算公式计算得到的目标检测框和目标跟踪框之间的马氏距离，即使在目标运动状态发生急剧变化的情况下，也可维持在比较合理的范围内。对于上述容错修正的方式，可以基于实际需求来设定，在此不进行限制。

步骤105：根据所述马氏距离，对所述当前帧图像中的目标检测框和目标跟踪框进行关联匹配。

可选的，此步骤中可以利用匈牙利算法等图匹配算法进行目标检测框和目标跟踪框之间的关联匹配，以得到若干匹配的目标检测框和目标跟踪框之间的配对。该配对中的目标检测框与目标跟踪框属于同一目标轨迹，属于同一目标，可赋予统一目标标识ID。在关联匹配完成后即可得到当前帧图像下新的目标轨迹，包括已有目标轨迹的更新、已有目标轨迹的删除，和/或增加新的目标轨迹。

可选的，此步骤中进行关联匹配的过程可以包括：当所述马氏距离小于或等于预设阈值时，确定对应的目标检测框和目标跟踪框之间匹配；或者，当所述马氏距离大于所述预设阈值时，确定对应的目标检测框和目标跟踪框之间不匹配。也就是说，当目标检测框和目标跟踪框之间的马氏距离越小时，两者属于同一目标的可能性越大。由此，借助距离信息与预设阈值的比较来进行关联匹配，可以简便实现匹配过程。

本公开实施例的目标跟踪方法，可以基于容错修正后的预测误差协方差矩阵来计算目标检测框和目标跟踪框之间的马氏距离，从而即使在目标运动状态发生急剧变化的情况下，该马氏距离也可维持在比较合理的范围内，从而在根据该马氏距离对当前帧图像中的目标检测框和目标跟踪框进行关联匹配时，可以增强目标在不同运动状态下进行跟踪的鲁棒性。

在多目标跟踪中，相关技术中马氏距离计算公式可如下所示：

其中，μ表示卡尔曼滤波的均值(x,y,w,h)，为卡尔曼滤波预测目标(即目标跟踪框)在当前帧图像中的坐标和宽高尺寸。Σ表示卡尔曼滤波的预测误差协方差矩阵。X表示当前帧图像中目标检测框的坐标和宽高尺寸，为描述某一目标当前实际运动状态(x,y,w,h)的变量。当一个目标在一段时间内保持同样的运动状态(如长时间静止或长时间维持同样的运动速度等)时，卡尔曼滤波的协方差Σ较小，Σ ^-1较大，即认为预测值与真实值的偏差较小，倾向于预测目标轨迹在下一帧时仍维持原有的运动状态。当目标保持原有运动状态时，即(X-μ)接近于0，在Σ ^-1较大的情况下计算得到的马氏距离D _M值较小；而当目标的运动状态发生突变时，(X-μ)的值变大，在Σ ^-1较大的情况下计算得到的马氏距离D _M值将变得异常大，导致后续匹配错误。当计算得到马氏距离D _M大于一个预先设定好的阈值时，则认为目标检测框X不属于该卡尔曼滤波所对应的轨迹，导致跟踪失败。

一种实施方式中，上述步骤104中计算马氏距离的过程可为：

利用如下公式(该公式可理解为改进后的马氏距离计算公式)，计算当前帧图像中的目标检测框和目标跟踪框之间的马氏距离：

其中，X表示当前帧图像中的目标检测框的第一信息，如包括位置信息和尺寸信息，可表示为(x,y,w,h)。μ表示基于卡尔曼滤波得到的当前帧图像中目标跟踪框的第二信息，如包括位置信息和尺寸信息，可表示为(x,y,w,h)。Σ表示卡尔曼滤波的预测误差协方差矩阵。(∑+αE)表示修正后的协方差矩阵，α为大于0的预设系数，E表示单位矩阵。

通过对上述改进后的马氏距离计算公式的分析可知：

当α＞0时，恒有如下不等式(1)至(3)：

∑＜∑+αE (1)

∑ ^-1＞(∑+αE) ^-1 (2)

基于上述不等式(3)可得到：D _M(X，μ)＞D _Mnew(X，μ)。

此外还存在如下不等式(4)至(7)：

α∑＜∑+α∑ (4)

(α∑) ^-1＞(∑+αE) ^-1 (5)

基于上述不等式(7)可得到：

也就是说，对于任意的X，均有D _Mnew<D _M，并且Σ越小，两者的偏差越大。当一个目标在一段时间内保持同样的运动状态(如长时间静止或长时间维持同样的运动速度等)时，卡尔曼滤波的协方差Σ较小。当目标保持原有运动状态时，即(X-μ)接近于0，相比于D _M计算得到的D _Mnew值较小。当目标的运动状态发生突变时，(X-μ)的值变大，但相比于D _M计算得到的D _Mnew将约束至更小的值。

由此，借助上述改进后的马氏距离计算公式，即使在目标运动状态发生急剧变化的情况下，也可使得计算得到的马氏距离维持在比较合理的范围内，从而增强目标在不同运动状态下进行跟踪的鲁棒性。

本公开实施例中，为了增强关联匹配的准确性，在计算得到的马氏距离的基础上，还可结合其他辅助关联匹配的相似度度量方法中的如外观特征相似度、形状轮廓相似度等，构成相似度匹配矩阵，以基于该相似度匹配矩阵进行关联匹配。可选的，上述步骤104之后，所述方法还包括：

根据所述马氏距离，计算距离相似度矩阵M _D；其中，所述M _D中第i行第j列的值表示，所述当前帧图像中第i个目标跟踪框与第j个目标检测框之间的距离相似度；比如，该距离相似度可选为第i个目标跟踪框与第j个目标检测框之间的马氏距离D _Mnew的倒数，即D _Mnew ^-1，或者采用其他方式对该马氏距离D _Mnew处理后的值，只要体现出相似度即可；

计算外观深度特征相似度矩阵M _A；其中，所述M _A中第i行第j列的值表示，第i个目标跟踪框对应的上一帧图像中外观深度特征F _i与第j个目标检测框的外观深度特征F _j的余弦相似度cos(F _i,F _j)；对于外观深度特征F可以利用深度卷积神经网络(如残差神经网络ResNet)从相应帧图像中提取得到；

根据所述M _D和所述M _A，确定相似度匹配矩阵。

上述步骤105可包括：根据所述相似度匹配矩阵，对所述当前帧图像中的目标检测框和目标跟踪框进行关联匹配。

一种实施方式中，在确定相似度匹配矩阵时，可以采用加权平均的方式对M _D和M _A进行融合得到，如该相似度匹配矩阵等于aM _D加bM _A，其中a和b分别是M _D和M _A的权重，可以基于实际需求预先设置。

另一种实施方式中，在根据相似度匹配矩阵，对当前帧图像中的目标检测框和目标跟踪框进行关联匹配时，可以利用匈牙利算法进行二分图匹配，从而得到目标检测框和目标跟踪框之间的一一匹配的结果。

可理解的，在多目标跟踪中，可能会出现前后目标严重遮挡的情况，由于离镜头近的目标遮挡了离镜头远的目标的大部分区域，可能会导致目标跟踪错误，在后续帧图像中得到错误的跟踪结果。为了克服此问题，本公开实施例提出了利用目标的前后拓扑关系进行约束匹配。

由于透视关系的存在，在摄像装置(如摄像头)采集的图像中，地面目标检测框下边缘的中心点可以视为目标的接地点，该点越靠近图像下方，则可以认为是离镜头越近，反之则离镜头越远。对于两个目标检测框，当他们之间的交并比大于一定阈值时，可以认为对应的两个目标严重遮挡。通过目标接地点的位置，可以判断两个目标的前后关系。其中离摄像头近的目标为前景遮挡目标，离摄像头远的目标为背景被遮挡目标。所有遮挡目标之间的前后关系可称为目标的前后拓扑关系。前后拓扑关系一致性可以定义为：在连续帧(图像)中，若前一帧两个目标A和B严重遮挡，目标A为前景遮挡目标，目标B为背景被遮挡目标，则在后一帧中，如果目标A和B仍然严重遮挡，则目标A仍然为前景遮挡目标，目标B为背景被遮挡目标。当前帧图像中多个目标发生严重遮挡时，可以获得上一帧目标轨迹之间的前后拓扑关系，并在关联匹配中利用前后拓扑关系一致性加以约束，使得匹配更加准确。

可选的，上述步骤105之后，所述方法还可包括：

获取所述当前帧图像的拓扑关系矩阵M _T1，和获取所述当前帧图像的上一帧图像的拓扑关系矩阵M _T2；

将M _T1和M _T2进行逐元素相乘，得到拓扑变化矩阵M ₀；

利用M ₀，对当前帧图像中的目标检测框的匹配结果进行修正处理。

其中，所述M _T1中第i行第j列的值表示，所述当前帧图像中第i个目标与第j个目标的前后关系；所述M _T2中第i行第j列的值表示，所述上一帧图像中第i个目标与第j个目标的前后关系；所述M ₀中第i行第j列的值表示相比于所述上一帧图像，所述当前帧图像中的第i个目标与第j个目标的前后关系是否发生了变化。上述修正处理可理解为：若在上一帧和当前帧中，第i个目标与第j个目标的前后关系发生了变化，则对当前帧中第i个目标与第j个目标所匹配的检测框进行互换处理，以修正目标跟踪过程中关联匹配的结果。

这样，可以利用相邻帧图像中遮挡物前后拓扑关系一致性约束，从而增强目标在被严重遮挡时进行匹配的可靠性，从而保证目标跟踪过程的顺利进行。

例如，在获取M _T1和M _T2时，可以将目标检测框的下边缘中心点(x+w/2,y+h)作为相应目标的接地点，根据透视原理，纵坐标y+h越大则目标距离摄像头越近，反之距离摄像头越远。当确定两目标之间的前后关系时，可以比较相应目标检测框的下边缘中心点的纵坐标。比如，以M _T1为例，其中第i行第j列的值表示当前帧图像中第i个目标与第j个目标的前后关系t，若第i个目标与第j个目标存在遮挡关系，且y _i+h _i<y _j+h _j，则t＝-1，表示第i个目标在第j个目标的前面；或者若第i个目标与第j个目标存在遮挡关系，且y _i+h _i＞y _j+h _j，则t＝1，表示第i个目标在第j个目标的后面；或者当第i个目标与第j个目标不存在遮挡关系时，则t＝0。对于M _T2，可采用如上M _T1的方式来设定。这样，将M _T1和M _T2进行逐元素相乘得到的拓扑变化矩阵M ₀中，若第i个目标与第j个目标均匹配正确的，则M ₀中第i行第j列的值为0或1，即第i个目标与第j个目标的前后关系没有发生变化；而若M ₀中第i行第j列的值为-1，则表示因匹配错误，第i个目标与第j个目标在相邻两帧中的前后关系发生了变化，此时可对当前帧图像中该两个目标所匹配的检测框进行互换处理，以修正相应的目标轨迹，保证跟踪过程的顺利进行。

可选的，对于两个目标是否存在遮挡关系，可以利用相应的检测框和跟踪框的交并比(Intersection over Union，IoU)来确定。

本公开实施例适用的场景包括但不限于智慧城市、智慧交通、智慧零售等场景下的行人和/或车辆等目标的持续跟踪，以获得目标的位置、身份、运动状态以及历史轨迹等信息。

下面结合图2对本公开具体实例中目标跟踪过程进行说明。

如图2所示，对应的目标跟踪过程可包括如下步骤：

S21：获取监控或其他场景摄像头的实时视频流；

S22：从该实时视频流中抽取当前帧图像，并进行预处理，比如缩放成固定尺寸，以及减去统一的RGB均值等；

S23：将预处理后的当前帧图像输入到预设的目标检测器中，输出一系列目标检测框，每个框包含目标的坐标和尺寸信息；

S24：利用卡尔曼滤波进行目标跟踪，得到当前帧图像中的目标跟踪框所包含目标的坐标和尺寸信息；

S25：借助改进后的马氏距离计算公式，计算当前帧图像中的目标检测框和目标跟踪框之间的马氏距离；具体过程可参见上述内容；

S26：根据S25中得到的马氏距离，对当前帧图像中的目标检测框和目标跟踪框进行关联匹配；如利用匈牙利算法进行二分图匹配；

S27：利用相邻帧图像中目标的前后拓扑关系对关联匹配结果进行一致性约束；

S28：结束当前帧图像中跟踪过程，并抽取下一图像帧，重复上述S22至S27，直至视频流结束。而对于存在记录却在一定时间内(超过若干图像帧)未与任何检测框所匹配上的目标轨迹，可将其标记为离场并在未来不再参与关联匹配过程。

请参见图3，图3是本公开实施例提供的一种目标跟踪装置的结构示意图，如图3所示，该目标跟踪装置30包括：

检测模块31，用于对当前帧图像进行目标检测，得到所述当前帧图像中的目标检测框的第一信息，所述第一信息用于表示第一位置和第一尺寸；

跟踪模块32，用于利用卡尔曼滤波进行目标跟踪，得到所述当前帧图像中的目标跟踪框的第二信息，所述第二信息用于表示第二位置和第二尺寸；

修正模块33，用于对卡尔曼滤波中的预测误差协方差矩阵进行容错修正，得到修正后的协方差矩阵；

第一计算模块34，用于根据所述第一信息、所述第二信息以及所述修正后的协方差矩阵，计算所述当前帧图像中的目标检测框和目标跟踪框之间的马氏距离；

匹配模块35，用于根据所述马氏距离，对所述当前帧图像中的目标检测框和目标跟踪框进行关联匹配。

可选的，所述第一计算模块34具体用于：利用如下公式，计算所述当前帧图像中的目标检测框和目标跟踪框之间的马氏距离：

其中，X表示所述第一信息，μ表示所述第二信息，Σ表示所述卡尔曼滤波中的预测误差协方差矩阵，(Σ+αE)表示所述修正后的协方差矩阵，α为大于0的预设系数，E表示单位矩阵。

可选的，所述匹配模块35具体用于：当所述马氏距离小于或等于预设阈值时，确定对应的目标检测框和目标跟踪框之间匹配；或者，当所述马氏距离大于所述预设阈值时，确定对应的目标检测框和目标跟踪框之间不匹配。

可选的，所述目标跟踪装置30还包括：

获取模块，用于获取所述当前帧图像的拓扑关系矩阵M _T1，和获取所述当前帧图像的上一帧图像的拓扑关系矩阵M _T2；

第二计算模块，用于将所述M _T1和所述M _T2进行逐元素相乘，得到拓扑变化矩阵M ₀；

处理模块，用于利用所述M ₀，对所述当前帧图像中的目标检测框的匹配结果进行修正处理；

其中，所述M _T1中第i行第j列的值表示，所述当前帧图像中第i个目标与第j个目标的前后关系；所述M _T2中第i行第j列的值表示，所述上一帧图像中第i个目标与第j个目标的前后关系；所述M ₀中第i行第j列的值表示相比于所述上一帧图像，所述当前帧图像中的第i个目标与第j个目标的前后关系是否发生了变化。

可选的，所述目标跟踪装置30还包括：

第三计算模块，用于根据所述马氏距离，计算距离相似度矩阵M _D；其中，所述M _D中第i行第j列的值表示，所述当前帧图像中第i个目标跟踪框与第j个目标检测框之间的距离相似度；

第四计算模块，用于计算外观深度特征相似度矩阵M _A；其中，所述M _A中第i行第j列的值表示，第i个目标跟踪框对应的上一帧图像中外观深度特征与第j个目标检测框的外观深度特征的余弦相似度；

确定模块，用于根据所述M _D和所述M _A，确定相似度匹配矩阵；

所述匹配模块35具体用于：

根据所述相似度匹配矩阵，对所述当前帧图像中的目标检测框和目标跟踪框进行关联匹配。

可理解的，本公开实施例的目标跟踪装置30，可以实现上述图1所示方法实施例中实现的各个过程，以及达到相同的有益效果，为避免重复，这里不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备和一种可读存储介质。

如图4所示，是用来实现本公开实施例的目标跟踪方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图4所示，该电子设备包括：一个或多个处理器401、存储器402，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图4中以一个处理器401为例。

存储器402即为本公开所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本公开所提供的目标跟踪方法。本公开的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本公开所提供的目标跟踪方法。

存储器402作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本公开实施例中的目标跟踪方法对应的程序指令/模块(例如，附图3所示的检测模块31、跟踪模块32、修正模块33、第一计算模块34和匹配模块35)。处理器401通过运行存储在存储器402中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的目标跟踪方法。

存储器402可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器402可选包括相对于处理器401远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

目标跟踪方法的电子设备还可以包括：输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接，图4中以通过总线连接为例。

输入装置403可接收输入的数字或字符信息，以及产生与目标跟踪方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置404可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声音输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本公开实施例的技术方案，可以基于容错修正后的预测误差协方差矩阵来计算目标检测框和目标跟踪框之间的马氏距离，从而即使在目标运动状态发生急剧变化的情况下，该马氏距离也可维持在比较合理的范围内，从而在根据该马氏距离对当前帧图像中的目标检测框和目标跟踪框进行关联匹配时，可以增强目标在不同运动状态下进行跟踪的鲁棒性。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

一种目标跟踪方法，包括：

对当前帧图像进行目标检测，得到所述当前帧图像中的目标检测框的第一信息，所述第一信息用于表示第一位置和第一尺寸；

利用卡尔曼滤波进行目标跟踪，得到所述当前帧图像中的目标跟踪框的第二信息，所述第二信息用于表示第二位置和第二尺寸；

对卡尔曼滤波中的预测误差协方差矩阵进行容错修正，得到修正后的协方差矩阵；

根据所述第一信息、所述第二信息以及所述修正后的协方差矩阵，计算所述当前帧图像中的目标检测框和目标跟踪框之间的马氏距离；

根据所述马氏距离，对所述当前帧图像中的目标检测框和目标跟踪框进行关联匹配。
根据权利要求1所述的方法，其中，所述根据所述第一信息、所述第二信息以及所述修正后的协方差矩阵，计算所述当前帧图像中的目标检测框和目标跟踪框之间的马氏距离，包括：

利用如下公式，计算所述当前帧图像中的目标检测框和目标跟踪框之间的马氏距离：

其中，X表示所述第一信息，μ表示所述第二信息，Σ表示所述卡尔曼滤波中的预测误差协方差矩阵，(∑+αE)表示所述修正后的协方差矩阵，α为大于0的预设系数，E表示单位矩阵。
根据权利要求1所述的方法，其中，所述根据所述马氏距离，对所述当前帧图像中的目标检测框和目标跟踪框进行关联匹配，包括：

当所述马氏距离小于或等于预设阈值时，确定对应的目标检测框和目标跟踪框之间匹配；或者，当所述马氏距离大于所述预设阈值时，确定对应的目标检测框和目标跟踪框之间不匹配。
根据权利要求1所述的方法，还包括：

获取所述当前帧图像的拓扑关系矩阵M _T1，和获取所述当前帧图像的上一帧图像的拓扑关系矩阵M _T2；

将所述M _T1和所述M _T2进行逐元素相乘，得到拓扑变化矩阵M ₀；

利用所述M ₀，对所述当前帧图像中的目标检测框的匹配结果进行修正处理；

其中，所述M _T1中第i行第j列的值表示，所述当前帧图像中第i个目标与第j个目标的前后关系；所述M _T2中第i行第j列的值表示，所述上一帧图像中第i个目标与第j个目标的前后关系；所述M ₀中第i行第j列的值表示相比于所述上一帧图像，所述当前帧图像中的第i个目标与第j个目标的前后关系是否发生了变化。
根据权利要求1所述的方法，其中，所述计算所述当前帧图像中的目标检测框和目标跟踪框之间的马氏距离之后，所述方法还包括：

根据所述马氏距离，计算距离相似度矩阵M _D；其中，所述M _D中第i行第j列的值表示，所述当前帧图像中第i个目标跟踪框与第j个目标检测框之间的距离相似度；

计算外观深度特征相似度矩阵M _A；其中，所述M _A中第i行第j列的值表示，第i个目标跟踪框对应的上一帧图像中外观深度特征与第j个目标检测框的外观深度特征的余弦相似度；

根据所述M _D和所述M _A，确定相似度匹配矩阵；

所述根据所述马氏距离，对所述当前帧图像中的目标检测框和目标跟踪框进行关联匹配，包括：

根据所述相似度匹配矩阵，对所述当前帧图像中的目标检测框和目标跟踪框进行关联匹配。
一种目标跟踪装置，包括：

检测模块，用于对当前帧图像进行目标检测，得到所述当前帧图像中的目标检测框的第一信息，所述第一信息用于表示第一位置和第一尺寸；

跟踪模块，用于利用卡尔曼滤波进行目标跟踪，得到所述当前帧图像中的目标跟踪框的第二信息，所述第二信息用于表示第二位置和第二尺寸；

修正模块，用于对卡尔曼滤波中的预测误差协方差矩阵进行容错修正，得到修正后的协方差矩阵；

第一计算模块，用于根据所述第一信息、所述第二信息以及所述修正后的协方差矩阵，计算所述当前帧图像中的目标检测框和目标跟踪框之间的马氏距离；

匹配模块，用于根据所述马氏距离，对所述当前帧图像中的目标检测框和目标跟踪框进行关联匹配。
根据权利要求6所述的装置，其中，

所述第一计算模块具体用于：利用如下公式，计算所述当前帧图像中的目标检测框和目标跟踪框之间的马氏距离：

其中，X表示所述第一信息，μ表示所述第二信息，Σ表示所述卡尔曼滤波中的预测误差协方差矩阵，(∑+αE)表示所述修正后的协方差矩阵，α为大于0的预设系数，E表示单位矩阵。
根据权利要求6所述的装置，其中，

所述匹配模块具体用于：当所述马氏距离小于或等于预设阈值时，确定对应的目标检测框和目标跟踪框之间匹配；或者，当所述马氏距离大于所述预设阈值时，确定对应的目标检测框和目标跟踪框之间不匹配。
根据权利要求6所述的装置，还包括：

获取模块，用于获取所述当前帧图像的拓扑关系矩阵M _T1，和获取所述当前帧图像的上一帧图像的拓扑关系矩阵M _T2；

第二计算模块，用于将所述M _T1和所述M _T2进行逐元素相乘，得到拓扑变化矩阵M ₀；

处理模块，用于利用所述M ₀，对所述当前帧图像中的目标检测框的匹配结果进行修正处理；

其中，所述M _T1中第i行第j列的值表示，所述当前帧图像中第i个目标与第j个目标的前后关系；所述M _T2中第i行第j列的值表示，所述上一帧图像中第i个目标与第j个目标的前后关系；所述M ₀中第i行第j列的值表示相比于所述上一帧图像，所述当前帧图像中的第i个目标与第j个目标的前后关系是否发生了变化。
根据权利要求6所述的装置，还包括：

第三计算模块，用于根据所述马氏距离，计算距离相似度矩阵M _D；其中，所述M _D中第i行第j列的值表示，所述当前帧图像中第i个目标跟踪框与第j个目标检测框之间的距离相似度；

第四计算模块，用于计算外观深度特征相似度矩阵M _A；其中，所述M _A中第i行第j列的值表示，第i个目标跟踪框对应的上一帧图像中外观深度特征与第j个目标检测框的外观深度特征的余弦相似度；

确定模块，用于根据所述M _D和所述M _A，确定相似度匹配矩阵；

所述匹配模块具体用于：

根据所述相似度匹配矩阵，对所述当前帧图像中的目标检测框和目标跟踪框进行关联匹配。
一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。