WO2022217840A1

WO2022217840A1 - 一种复杂背景下高精度多目标跟踪方法

Info

Publication number: WO2022217840A1
Application number: PCT/CN2021/119796
Authority: WO
Inventors: 辛付豪; 朱伟; 董小舒; 刘羽; 张典; 陆园
Original assignee: 南京莱斯电子设备有限公司
Priority date: 2021-04-15
Filing date: 2021-09-23
Publication date: 2022-10-20
Also published as: CN113012203A; CN113012203B

Abstract

本发明提供了一种复杂背景下高精度多目标跟踪方法，包括将获取的视频数据输入至残差网络，进行目标分辨率特征提取，在输出端输出提取结果，提取结果包括不同维度的目标分辨率特征；计算目标分辨率特征的相关滤波响应图；利用目标检测网络得到目标的检测结果；将目标的检测结果与预测的轨迹进行匹配，获得匹配结果，匹配结果包括融合运动信息和表观信息两种度量的值；将两种度量融合的值与预设匹配阈值进行对比，获得目标跟踪结果。相较于现有技术，通过增加了一个提取特征的残差网络，提取目标的多分辨率特征，将匹配的过程结合运动信息以及表观信息，更大限度的提高了匹配过程的准确性。

Description

一种复杂背景下高精度多目标跟踪方法

技术领域

本发明涉及目标跟踪技术领域，尤其涉及一种复杂背景下高精度多目标跟踪方法。

背景技术

目前，随着计算机视觉技术的发展，海量的视觉信息被获取、传输以及分析，因此如何让计算机处理这些视频数据成为了当前的研究热点，其中视觉目标跟踪技术是处理这些视频数据的重要手段，视觉目标跟踪是计算机视觉中的一个基本的研究问题，在视频监控、无人驾驶、人机交互、行星探测、军事应用等诸多方面都有广泛的应用前景。视觉目标跟踪要解决的问题可以表述为：在视频序列中，给出第一帧中目标的位置和大小(通常是一个矩形边界框)，需要在后续帧中预测出目标的位置和大小。

传统的目标跟踪算法可以分为基于生成模型和基于判别模型的目标跟踪算法。采用历史帧的结果来生成用于描述目标特征的统计模型，能够有效处理跟踪过程中目标丢失的情况，但是基于生成模型的方法通常忽略了目标周围的背景信息，同时在面对背景混乱的情况时容易丢失目标。传统的基于相关滤波的跟踪方法大多只使用手工设计的特征描述子来提取特征，使得对目标的表征能力有限，通过响应图确定的目标位置不够精确，在遮挡和背景混杂等因素干扰下通常不能得到令人满意的性能。在2010年之前，目标跟踪算法一般采用经典的跟踪算法，例如均值漂移、粒子滤波、卡尔曼滤波、子空间学习、稀疏表达方法、核密度估计方法。

基于深度学习的目标跟踪算法可以分成基于深度特征的目标跟踪算法、基于孪生网络的目标跟踪算法、基于循环神经网络、基于生成对抗网络的目标跟踪算法和基于其他特定网络的目标跟踪算法。

尽管目标跟踪已经被研究了多年，并取得了一定的进展，但在复杂背景下仍然难以满足实际的需求，在跟踪任务中，当环境亮度降低或者存在较多相似的目标，跟踪算法区分目标区域与背景区域的能力将变弱，跟踪效果将变差；当目标发生遮时，目标的特征信息会丢失，而随着遮挡比例的增大，丢失的信息会越来越多。因此，如何设计一个实时鲁棒的跟踪算法是当前目标跟踪领域的研究焦点。

发明内容

本发明针对目标跟踪中的问题，提出了一种复杂背景下高精度多目标跟踪方法，解决了传统的目标跟踪算法在复杂场景下跟踪效果不佳的缺陷，包括以下步骤：

步骤1，将获取的视频数据输入至残差网络，进行目标分辨率特征提取，在输出端输出提取结果，所述提取结果包括不同维度的目标分辨率特征。具体的，本发明中，所述残差网络可采用ResNet。

本发明中，所述提取结果中不同维度的目标分辨率特征具有不同特性，根据所述不同特性可增强特征表达能力。通过本步骤解决了目标跟踪过程中经常出现的尺度变化问题。

步骤2，计算所述目标分辨率特征的相关滤波响应图；

步骤3，利用目标检测网络得到目标的检测结果，所述目标的检测结果将目标的运动状态定义为一个8维空间，分别表示轨迹在某个时刻的状态；

步骤4，将所述目标的检测结果与预测的轨迹进行匹配，获得匹配结果，所述匹配结果包括融合运动信息和表观信息两种度量的值；

步骤5，将所述两种度量融合的值与预设匹配阈值进行对比，获得目标跟踪结果。

进一步地，在一种实现方式中，所述步骤2，包括：

步骤2-1，对所述不同维度的所述目标分辨率特征进行插值操作，将所述不同分辨率的特征转换到连续空间域，插值算子J _d表示为：

其中，b _d∈L ²(T)，属于差值函数，每个样本都包含D维的特征通道，N _d表示特征通道中空间采样点的数目，d∈{0,1,2,…}，不同分辨率的特征被转换到连续的空间域[0,T)∈R，T表示支持区域的大小，t表示跟踪目标在图像中的位置，t∈[0,T)，n表示离散空间变量n∈{0,…N _d-1}；

步骤2-2，通过最小化损失函数，求出相关滤波器；

傅里叶域中相应的损失函数可推导为：

其中，f为滤波器，P是特征矩阵；z表示插值特征图，惩罚函数w∈L ²(T)是一个空间正则化项，C表示为C维特征图，λ表示为权重参数，F表示滤波器f经过傅里叶变化后的结果；

步骤2-3，进行因式分解的卷积操作求出相关滤波器的响应，相关性用来描述两个信号的联系，分为互相关和正相关，本实施例中，所述的相关指的是正相关；

新的滤波响应R _c表示为矩阵向量乘积Pf，所述滤波响应R _c因式分解的卷积算子表示为：

其中，每个位置t的特征向量J{x}(t)首先与矩阵P ^T相乘，然后将生成的特征图与滤波器进行卷积，P _dc表示学习系数，可以紧凑地表示为D×C的矩阵P＝(P _dc)；式中，每个位置t的特征向量J{x}(t)表示为J{x}；

步骤2-4，对所述跟踪目标采用视觉显著性检测；本发明中，通过对所述跟踪目标采用视觉显著性检测，能够快速定位所述跟踪目标，并提高定位的准确性；

步骤2-5，由获得的滤波响应R _c和当前帧的显著性R _S相乘，最终的响应图R _f＝R _c·R _S，当所述最终的响应图R _f取最大值时，将响应值最大的位置映射到原图，得到所述目标在后续帧中的位置，即获得预测的轨迹。

进一步地，在一种实现方式中，所述步骤2-4，包括：

步骤2-4-1，假设输入图像为I，若已知一个跟踪目标的目标区域，即矩形框区域，以及环绕区域时，在图像处的像素属于目标像素的概率是：

其中，m表示分离出的目标像素，O表示目标区域，S表示环绕区域，b _m表示分配给输入图像I的颜色分量；

所述分配给输入图像I的颜色分量b _m属于目标区域O和环绕区域S的概率分别表示为：

其中，

表示在目标区域O∈I上计算的非标准化直方图H的第b _m个计算区间，

表示在环绕区域S∈I上计算的非标准化直方图H的第b _m个计算区间；

步骤2-4-2，分配给背景像素值的最大熵为0.5，在目标跟踪过程中，给定第一帧的目标位置，在后续帧中，在前一帧的位置周围进行一个矩形区域的搜索，当前帧的显著性R _S计算公式为：

R _S＝s _v(O _t)s _d(O _t)，

其中，s _v(O _t)表示基于对象模型的概率分数，s _d(O _t)表示目标到前一帧的目标中心c _t-1的欧氏距离的距离分数，P _1:t-1表示从第一帧到前一帧的概率分数，σ表示为正态分布的标准差。

进一步地，在一种实现方式中，所述步骤3，包括：利用目标检测网络得到目标的检测结果，将目标的运动状态定义为一个8维空间(x _t,y _t,r _t,h _t,x ^*,y ^*,r ^*,h ^*)，分别表示轨迹在某个时刻的状态，其中，x _t,y _t表示检测框的中心在图像坐标系中的坐标，r _t表示检测框的长宽比，h _t表示检测框的高度；x ^*,y ^*,r ^*,h ^*表示在图像坐标中对应的速度信息。具体的，本实施例中，所述目标检测网络可采用yolov4。

进一步地，在一种实现方式中，所述步骤4，包括：

步骤4-1，使用所述目标的检测结果与预测的轨迹之间的距离表示运动匹配程度：

其中，d _jk表示第j个目标的第k个的状态，y _ik表示第i条轨迹的第k个状态；

所述运动匹配程度表示第j个目标的检测结果和第i条轨迹之间的匹配程度；

其中，S _i是轨迹预测得到的在当前时刻观测空间的协方差矩阵，y _i是轨迹在当前时刻的预测观测量，d _j是第j个目标的状态。

步骤4-2，使用所述目标的检测结果与轨迹包含的目标的特征向量之间的最小余弦距离作为目标与轨迹之间的表观匹配程度；

第j个目标的检测结果和第i条轨迹之间的余弦相似度为：

余弦距离＝1-余弦相似度，所述目标与轨迹之间的表观匹配程度为：

现有技术中，单独使用运动信息作为匹配度度量会导致追踪目标的ID变化过于严重，因此，本发明通过联合表观匹配度进行追踪，相较于现有技术能够有效减少追踪目标的ID变化。

步骤4-3，利用加权平均的方式对两种度量方式，即对运动距离匹配度和表观信息进行融合，获得所述两种度量方式融合的值ω _i,j：

即，

其中，μ为超参数，用于调整不同项的去权重。

具体的，本实施例中，所述运动距离匹配度度量对于短期的预测和匹配效果很好，而表观信息对于长时间丢失的轨迹而言，匹配度度量的比较有效。超参数的选择要看具体的数据集，如果想取相通的重要程度，μ应该取0.1左右。

进一步地，在一种实现方式中，所述步骤5，包括：

步骤5-1，若所述两种度量融合的值ω _i,j大于或等于预设匹配阈值T _hres，则所述目标跟踪结果为匹配成功；

若所述两种度量融合的ω _i,j小于预设匹配阈值T _hres，则所述目标跟踪结果为匹配失败；

步骤5-2，已知轨迹的初始状态为T _ini，若视频在处理过程中连续n帧匹配成功，将所述轨迹从初始状态T _ini转为确定状态T _cofr，视为跟踪成功；

若视频连续匹配成功的帧数小于n帧，计当前帧数为z，z＝z+1；返回所述步骤1，重新进行匹配；

若视频连续n帧都匹配失败，将轨迹从初始状态T _ini转为删除状态T _dele，视为跟踪失败，将当前轨迹从视频中删除。

本发明提出了一种复杂背景下高精度多目标跟踪方法，该方法将传统的跟踪算法进行改进。传统的方法在进行检测目标与轨迹匹配时，由于缺乏足够的特征信息，容易造成ID switch，就是检测框的ID不停的进行更换，缺乏准确性与鲁棒性。本文通过增加了一个提取特征的残差网络，提取目标的多分辨率特征，将匹配的过程结合运动信息以及表观信息，更大限度的提高了匹配过程的准确性。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例部分提供的一种复杂背景下高精度多目标跟踪方法的基本流程框架示意图；

图2是本发明实施例部分提供的一种复杂背景下高精度多目标跟踪方法中目标区域和环绕区域示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明实施例公开一种复杂背景下高精度多目标跟踪方法，应用于复杂背景下多目标任务的跟踪，包括以下步骤：

在步骤1之前，首先获取视频数据；本实施例中，可利用摄像头时实抓拍视频并发送到计算机，或者计算机直接读取本地视频。具体的，所述摄像头和计算机可采用任意型号。

步骤1，将获取的视频数据输入至残差网络，进行目标分辨率特征提取，在输出端输出提取结果，所述提取结果包括不同维度的目标分辨率特征，具体的，本实施例中，所述残差网络可采用ResNet。

本实施例中，所述提取结果中不同维度的目标分辨率特征具有不同特性，根据所述不同特性可增强特征表达能力。通过本步骤解决了目标跟踪过程中经常出现的尺度变化问题。

步骤2，计算所述目标分辨率特征的相关滤波响应图；

本发明实施例所述的一种复杂背景下高精度多目标跟踪方法中，所述步骤2，包括：

步骤2-2，通过最小化损失函数，求出相关滤波器；

傅里叶域中相应的损失函数可推导为：

步骤2-4，对所述跟踪目标采用视觉显著性检测；本实施例中，通过对所述跟踪目标采用视觉显著性检测，能够快速定位所述跟踪目标，并提高定位的准确性；

本发明实施例所述的一种复杂背景下高精度多目标跟踪方法中，所述步骤2-4，包括：

步骤2-4-1，如图2所示，假设输入图像为I，若已知一个跟踪目标的目标区域，即矩形框区域，以及环绕区域时，在图像处的像素属于目标像素的概率是：

其中，

表示在环绕区域S∈I上计算的非标准化直方图H的第b个计算区间；

步骤2-4-2，在目标跟踪过程中，给定第一帧的目标位置，在后续帧中，在前一帧的位置周围进行一个矩形区域的搜索，当前帧的显著性R _S计算公式为：

R _S＝s _v(O _t)s _d(O _t)，

本发明实施例所述的一种复杂背景下高精度多目标跟踪方法中，所述步骤3，包括：利用目标检测网络得到目标的检测结果，将目标的运动状态定义为一个8维空间(x _t,y _t,r _t,h _t,x ^*,y ^*,r ^*,h ^*)，分别表示轨迹在某个时刻的状态，其中，x _t,y _t表示检测框的中心在图像坐标系中的坐标，r _t表示检测框的长宽比，h _t表示检测框的高度；x ^*,y ^*,r ^*,h ^*表示在图像坐标中对应的速度信息。具体的，本实施例中，所述目标检测网络可采用yolov4。

本发明实施例所述的一种复杂背景下高精度多目标跟踪方法中，所述步骤4，包括：

第j个目标的检测结果和第i条轨迹之间的余弦相似度为：

即，

其中，μ为超参数，用于调整不同项的去权重。

本发明实施例所述的一种复杂背景下高精度多目标跟踪方法中，所述步骤5，包括：

具体的，本实施例中，n＝3；当前帧匹配结束后，z＝z+1；重新返回所述步骤1，视频进入下一帧图像的目标匹配跟踪。

具体实现中，本发明还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本发明提供的一种复杂背景下高精度多目标跟踪方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，ROM)或随机存储记忆体(random access memory，RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例之间相同相似的部分互相参见即可。以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims

一种复杂背景下高精度多目标跟踪方法，其特征在于，包括如下步骤：

步骤1，将获取的视频数据输入至残差网络，进行目标分辨率特征提取，在输出端输出提取结果，所述提取结果包括不同维度的目标分辨率特征；

步骤2，计算所述目标分辨率特征的相关滤波响应图；

步骤3，利用目标检测网络得到目标的检测结果，所述目标的检测结果将目标的运动状态定义为一个8维空间，分别表示轨迹在某个时刻的状态；

步骤4，将所述目标的检测结果与预测的轨迹进行匹配，获得匹配结果，所述匹配结果包括融合运动信息和表观信息两种度量的值；

步骤5，将所述两种度量融合的值与预设匹配阈值进行对比，获得目标跟踪结果。
根据权利要求1所述的一种复杂背景下高精度多目标跟踪方法，其特征在于，所述步骤2，包括：

步骤2-1，对所述不同维度的所述目标分辨率特征进行插值操作，将所述不同分辨率的特征转换到连续空间域，插值算子J _d表示为：

其中，b _d∈L ²(T)，属于差值函数，每个样本都包含D维的特征通道，N _d表示特征通道中空间采样点的数目，d∈{0,1,2,…}，不同分辨率的特征被转换到连续的空间域[0,T)∈R，T表示支持区域的大小，t表示跟踪目标在图像中的位置，t∈[0,T)，n表示离散空间变量n∈{0,…N _d-1}；

步骤2-2，通过最小化损失函数，求出相关滤波器；

傅里叶域中相应的损失函数可推导为：

其中，f为滤波器，P是特征矩阵；z表示插值特征图，惩罚函数w∈L ²(T)是一个空间正则化项，C表示为C维特征图，λ表示为权重参数，F表示滤波器f经过傅里叶变化后的结果；

步骤2-3，进行因式分解的卷积操作求出相关滤波器的响应；

新的滤波响应R _c表示为矩阵向量乘积Pf，所述滤波响应R _c因式分解的卷积算子表示为：

其中，每个位置t的特征向量J{x}(t)首先与矩阵P ^T相乘，然后将生成的特征图与滤波器进行卷积，P _dc表示学习系数，可以紧凑地表示为D×C的矩阵P＝(P _dc)；式中，每个位置t的特征向量J{x}(t)表示为J{x}；

步骤2-4，对所述跟踪目标采用视觉显著性检测；

步骤2-5，由获得的滤波响应R _c和当前帧的显著性R _S相乘，最终的响应图R _f＝R _c·R _S，当所述最终的响应图R _f取最大值时，将响应值最大的位置映射到原图，得到所述目标在后续帧中的位置，即获得预测的轨迹。
根据权利要求2所述的一种复杂背景下高精度多目标跟踪方法，其特征在于，所述步骤2-4，包括：

步骤2-4-1，假设输入图像为I，若已知一个跟踪目标的目标区域，即矩形框区域，以及环绕区域时，在图像处的像素属于目标像素的概率是：

其中，m表示分离出的目标像素，O表示目标区域，S表示环绕区域，b _m表示分配给输入图像I的颜色分量；

所述分配给输入图像I的颜色分量b _m属于目标区域O和环绕区域S的概率分别表示为：

其中，
表示在目标区域O∈I上计算的非标准化直方图H的第b _m个计算区间，
表示在环绕区域S∈I上计算的非标准化直方图H的第b _m个计算区间；

步骤2-4-2，在目标跟踪过程中，给定第一帧的目标位置，在后续帧中，在前一帧的位置周围进行一个矩形区域的搜索，当前帧的显著性R _S计算公式为：

R _S＝s _v(O _t)s _d(O _t)，

其中，s _v(O _t)表示基于对象模型的概率分数，s _d(O _t)表示目标到前一帧的目标中心c _t-1的欧氏距离的距离分数，P _1:t-1表示从第一帧到前一帧的概率分数，σ表示为正态分布的标准差。
根据权利要求1所述的一种复杂背景下高精度多目标跟踪方法，其特征在于，所述步骤3，包括：利用目标检测网络得到目标的检测结果，将目标的运动状态定义为一个8维空间(x _t,y _t,r _t,h _t,x ^*,y ^*,r ^*,h ^*)，分别表示轨迹在某个时刻的状态，其中，x _t,y _t表示检测框的中心在图像坐标系中的坐标，r _t表示检测框的长宽比，h _t表示检测框的高度；x ^*,y ^*,r ^*,h ^*表示在图像坐标中对应的速度信息。
根据权利要求1所述的一种复杂背景下高精度多目标跟踪方法，其特征在于，所述步骤4，包括：

步骤4-1，使用所述目标的检测结果与预测的轨迹之间的距离表示运动匹配程度：

其中，d _jk表示第j个目标的第k个的状态，y _ik表示第i条轨迹的第k个状态；

所述运动匹配程度表示第j个目标的检测结果和第i条轨迹之间的匹配程度；

其中，S _i是轨迹预测得到的在当前时刻观测空间的协方差矩阵，y _i是轨迹在当前时刻的预测观测量，d _j是第j个目标的状态。

步骤4-2，使用所述目标的检测结果与轨迹包含的目标的特征向量之间的最小余弦距离作为目标与轨迹之间的表观匹配程度；

第j个目标的检测结果和第i条轨迹之间的余弦相似度为：

余弦距离＝1-余弦相似度，所述目标与轨迹之间的表观匹配程度为：

步骤4-3，利用加权平均的方式对两种度量方式，即对运动距离匹配度和表观信息进行融合，获得所述两种度量方式融合的值ω _i,j：

即，

其中，μ为超参数，用于调整不同项的去权重。
根据权利要求1所述的一种复杂背景下高精度多目标跟踪方法，其特征在于，所述步骤5，包括：

步骤5-1，若所述两种度量融合的值ω _i,j大于或等于预设匹配阈值T _hres，则所述目标跟踪结果为匹配成功；

若所述两种度量融合的ω _i,j小于预设匹配阈值T _hres，则所述目标跟踪结果为匹配失败；

步骤5-2，已知轨迹的初始状态为T _ini，若视频在处理过程中连续n帧匹配成功，将所述轨迹从初始状态T _ini转为确定状态T _cofr，视为跟踪成功；

若视频连续匹配成功的帧数小于n帧，计当前帧数为z，z＝z+1；返回所述步骤1，重新进行匹配；

若视频连续n帧都匹配失败，将轨迹从初始状态T _ini转为删除状态T _dele，视为跟踪失败，将当前轨迹从视频中删除。