WO2023216572A1

WO2023216572A1 - 一种跨视频目标跟踪方法、系统、电子设备以及存储介质

Info

Publication number: WO2023216572A1
Application number: PCT/CN2022/137022
Authority: WO
Inventors: 胡金星; 李东昊; 尚佩晗; 贾亚伟; 何兵
Original assignee: 深圳先进技术研究院
Priority date: 2022-05-07
Filing date: 2022-12-06
Publication date: 2023-11-16
Also published as: CN114842028A

Abstract

本申请涉及一种跨视频目标跟踪方法、系统、电子设备以及存储介质。方法包括：确定待跟踪的视频图像以及初始目标模板图像；将视频图像以及初始目标模板图像输入训练好的深度孪生网络跟踪模型，通过深度孪生网络跟踪模型输出跟踪目标在视频图像中的目标预测图像；利用训练好的地理映射模型将视频图像映射到统一地理坐标空间中，得到视频图像的全局地理坐标；基于映射后的视频图像，通过多边形裁剪法计算两两视频图像之间的重叠区域，并判定重叠区域中是否存在目标预测图像，在存在目标预测图像的重叠区域对应的视频图像中利用跟踪目标交接算法进行跨视频目标跟踪。本申请可以长时间持续稳定的跟踪目标，保证了跟踪的实时性，且跟踪精度较高。

Description

一种跨视频目标跟踪方法、系统、电子设备以及存储介质

技术领域

本申请属于视觉跟踪目标跟踪技术领域，特别涉及一种跨视频目标跟踪方法、系统、电子设备以及存储介质。

背景技术

随着科技的发展，人们的生活品质不断提高，对安全的需求也越来越迫切。视频安防监控行业迅速发展，各类应用也提出了不同的监控技术需求，视频安防监控由数字化、网格化逐步走向智能化。智能监控系统常用于社会安防场所、大型娱乐场所以及各种道路交通场所，在智能监控系统中，视觉跟踪目标跟踪是一项基本需求，也是如姿态识别、行为分析等后续高级视觉处理的基础任务，例如，可以通过自动化监测对政府机构或银行等重要区域进行监控，对可疑行为进行识别，在检测到异常行为时进行警告；也可以对车辆进行实时跟踪与分析，使用交通数据实现智能化的交通管理。视觉跟踪目标跟踪要解决的问题可以表述为：在视频序列中，给出第一帧中跟踪目标的位置及大小，需要在后续视频帧中预测跟踪目标的位置及大小。根据跟踪目标的数量，视觉跟踪目标跟踪技术可以分为多跟踪目标跟踪和单跟踪目标跟踪。视觉跟踪目标跟踪在实际生活中有广泛的应用，例如人机交互(Human–Computer Interaction)和无人驾驶(Autonomous Driving)等。

目前，智能监控系统能够在不依赖人的情况下，在单摄像头视角下通过视觉跟踪模型实现自动跟踪目标。现阶段的智能监控系统跟踪方法研究中，大多数是针对多视角协同的视频监控范围内不存在重叠视域范围的运动跟踪目标跟踪方法进行研究，如基于跟踪目标重识别算法的跟踪。但是在多摄像头协同跨视频跟踪的场景中，由于多视频切换导致的场景变换，会产生如尺度变化、外观变化、光照变化、遮挡和跟踪目标消失等问题，导致跟踪目标跟踪不稳定，难以实现跨视频跟踪。其次，跨视频的跟踪目标跟踪持续时间较长，相对于短时间跟踪目标更易产生尺度和外观上的变化，跟踪模型会因为跟踪误差的积累而产生跟踪漂移，导致跟踪失败。另外，跨视频跟踪涉及到多视频的联合分析，对于跟踪算法的实时推理速度要求比较高，不能直接应用复杂的跟踪算法模型。因此，如何优化改进目标跟踪模型，解决跨视频跟踪场景下存在的多种问题，实现重叠视域下跨视频范围内的同一跟踪目标实时连续跟踪，是智能监控系统中亟待解决的难题之一，具有重要的理论意义和应用意义。

发明内容

本申请提供了一种跨视频目标跟踪方法、系统、电子设备以及存储介质，旨在至少在一定程度上解决现有技术中的上述技术问题之一。

为了解决上述问题，本申请提供了如下技术方案：

一种跨视频目标跟踪方法，包括：

确定待跟踪的视频图像以及初始目标模板图像；

将所述视频图像以及初始目标模板图像输入训练好的深度孪生网络跟踪模型，通过所述深度孪生网络跟踪模型输出跟踪目标在所述视频图像中的目标预测图像；

利用训练好的地理映射模型将所述视频图像映射到统一地理坐标空间中，得到所述视频图像的全局地理坐标；

基于映射后的视频图像，通过多边形裁剪法计算两两视频图像之间的重叠区域，并判定所述重叠区域中是否存在目标预测图像，在存在所述目标预测图像的重叠区域对应的视频图像中利用跟踪目标交接算法进行跨视频目标跟踪。

本申请实施例采取的技术方案还包括：所述深度孪生网络跟踪模型包括骨架网络、自注意力网络、目标估计网络和动态模板网络，

所述骨架网络的输入为目标模板图像和目标搜索图像，所述骨架网络利用深度可分离卷积模块、多路复用卷积模块和倒置残差模块输出所述目标模板图像和目标搜索图像的一维特征图；

所述自注意力网络采用编码器-解码器架构，其输入为所述骨架网络的输出，输出为一张二维特征图；

所述目标估计网络包括偏置回归头、尺度预测头和目标分类头三个网络头，其输入为所述自注意力网络的输出，所述三个网络头的输出分别为偏置回归图、尺度预测图和目标分类图，根据偏置回归图、尺度预测图和目标分类图得到跟踪目标在所述目标搜索图像中的位置，输出目标预测图像；

所述动态模板网络包括三层前馈神经网络，其输入为所述自注意力网络的输出，输出为一个布尔值，代表是否更新所述目标模板图像。

本申请实施例采取的技术方案还包括：所述骨架网络利用深度可分离卷积模块、多路复用卷积模块和倒置残差模块输出所述目标模板图像和目标搜索图像的一维特征图具体为：

令所述目标模板图像和目标搜索图像通过一个共享的卷积核Conv_1，分别得到目标模板图像和目标搜索图像的特征图T1,S1；

配置三个深度可分离卷积层DwConv_1、DwConv_2和DwConv_3，每一个深度可分离卷积层包括逐通道卷积和逐点卷积；DwConv_1、DwConv_2和DwConv_3的输入为特征图T1,S1，DwConv_1和DwConv_2输出的特征图与T1,S1尺寸相同，DwConv_3输出最终的第一特征图T2,S2，所述T2,S2的尺寸分别为T1,S1的一半；

将所述第一特征图输入多路复用卷积模块，所述多路复用卷积模块包括三层卷积层，每一层卷积层分别包括三个倒置残差模块以及两个多路复用模块，所述多路复用卷积模块的输入为第一特征图T2,S2，其输出为第二特征图T3,S3。

本申请实施例采取的技术方案还包括：所述自注意力网络包括编码器和解码器，所述编码器包括第一多头自注意力模块、第一前馈网络以及第一残差归一化模块，所述编码器的输入为目标模板图像的特征图Z∈R ^h×w×d，其中h和w分别为特征图Z的宽和高，d为通道数量，将Z的空间维数压缩至一维，变成一个序列Z ₀∈R ^hw×d；

所述解码器包括第二前馈网络、第二残差归一化模块、第二多头自注意力模块和多头交叉注意力模块，所述解码器的输入为目标搜索图像的特征图 X∈R ^H×W×d，其中H和W分别为特征图X的宽和高，且H>h，W>w，所述解码器将特征图X压缩成一维的序列X ₀∈R ^HW×d。

本申请实施例采取的技术方案还包括：所述目标估计网络包括偏置回归头、尺度预测头和目标分类头，所述偏置回归头、尺度预测头和目标分类头分别连接自注意力网络的输出，且所述偏置回归头、尺度预测头和目标分类头分别包含三个1x1卷积层和一个Sigmoid函数，所述偏置回归头和尺度预测头分别用于目标框回归和尺度回归，输出分别为偏置回归图和尺度预测图，所述目标分类头用于目标分类，其输出为目标分类图，所述目标分类图的值代表跟踪目标在低分辨率离散化情况下的出现概率。

本申请实施例采取的技术方案还包括：所述动态模板网络包括一个分数网络，所述分数网络为一个三层的全连接网络，并接一个Sigmoid激活函数，所述分数网络的输入为自注意力网络的输出，并将其展平成一维，所述分数网络的输出为一个分数，当该分数大于设定的阈值τ，且间隔帧数达到F _u以上时，则触发动态模板网络更新目标模板图像。

本申请实施例采取的技术方案还包括：所述地理映射模型为采用基于薄板样条函数的地理映射模型，所述利用训练好的地理映射模型将所有视频图像映射到统一地理坐标空间具体为：

通过ArcGIS在所述视频图像中选取设定数量的地理控制点，将所述地理控制点与视频图像中的像素点一一对应，找出N个匹配点，并应用薄板样条函数将N个匹配点形变到对应位置，同时计算N个对应的形变函数，通过所述形变函数将不同的视频图像映射到统一地理坐标空间中。

本申请实施例采取的技术方案还包括：所述利用跟踪目标交接算法进行跨视频目标跟踪具体为：

通过多边形裁剪算法计算两两视频图像之间的重叠区域，将所有视频图像之间的重叠区域集合记为A[n]；

将所述视频图像加入初始的视频集z[m]，在任意一个视频图像上手动标记一个需要跟踪的目标模板，并将跟踪目标的目标模板图像、视频集z[m]和重叠区域集A[n]输入目标交接算法中；

启动目标交接算法，获得一个点集P _i，所述点集P _i中包含了跟踪目标在视频集z[m]上的所有视频图像中运行目标跟踪算法得到的预测中心点像素坐标；如果视频图像中存在中心点，则将该中心点加入点集P _i，如果该视频图像不存在中心点，则将该视频图像从视频集z[m]中移除；

判断所述点集P _i是否为空，如果点集P _i为空，结束目标交接算法，以最后一次出现的跟踪目标作为新的目标模板图像，并对所有视频图像重新运行目标跟踪算法；如果点集P _i不为空，

通过薄板样条函数将点集P _i的像素坐标转换为地理坐标点集P _g，并用射线法判定跟踪目标是否进入重叠区域，将存在跟踪目标的重叠区域记为A _k；

在A _k所从属的所有视频图像上执行目标跟踪算法。

本申请实施例采取的另一技术方案为：一种跨视频目标跟踪系统，包括：

目标预测模块：用于确定待跟踪的视频图像以及初始目标模板图像，将所述视频图像以及初始目标模板图像输入训练好的深度孪生网络跟踪模型，通过所述深度孪生网络跟踪模型输出跟踪目标在所述视频图像中的目标预测图像；

地理坐标映射模块：用于利用训练好的地理映射模型将所述视频图像映射到统一地理坐标空间中，得到所述视频图像的全局地理坐标；

跨视频目标交接模块：用于基于映射后的视频图像，通过多边形裁剪法计算两两视频图像之间的重叠区域，并判定所述重叠区域中是否存在目标预测图像，在存在所述目标预测图像的重叠区域对应的视频图像中利用跟踪目标交接算法进行跨视频目标跟踪。

本申请实施例采取的又一技术方案为：一种电子设备，所述电子设备包括处理器、与所述处理器耦接的存储器，其中，

所述存储器存储有用于实现所述跨视频目标跟踪方法的程序指令；

所述处理器用于执行所述存储器存储的所述程序指令以控制跨视频目标跟踪。

本申请实施例采取的又一技术方案为：一种存储介质，存储有处理器可运行的程序指令，所述程序指令用于执行所述跨视频目标跟踪方法。

相对于现有技术，本申请实施例产生的有益效果在于：本申请实施例的跨视频目标跟踪方法、系统、电子设备以及存储介质通过构建一种基于自注意力网络、动态模板网络的深度孪生网络跟踪模型，能够适应长时间的跟踪，其跟踪结果基本不受跟踪目标的尺度和外观变化影响，在跨视频多视角目标跟踪的场景下跟踪性能稳定，解决了跨视频跟踪中由于尺度外观变化等问题无法有效跟踪目标的问题。其次，本申请使用基于薄板样条函数的像素点到统一地理坐标映射模型，结合多边形裁剪法计算视频与视频之间的重叠区域，并使用射线法根据地理坐标判断跟踪目标是否进入重叠区域，以此判断是否切换视频，实现对跟踪目标的跨视频持续跟踪。相比于现有技术，本申请实施例的跨视频跟踪技术视域范围大，可以长时间持续稳定的跟踪目标，在大范围内标识出跟踪目标的行动轨迹，有效的辅助了后续决策任务，节省了人力物力，保证了跟踪的实时性，且跟踪精度较高。

附图说明

图1是本申请实施例的孪生网络目标跟踪模型示意图；

图2是本申请实施例的跨视频目标跟踪方法的流程图；

图3是本申请实施例的自注意力网络结构示意图；

图4是本申请实施例的自注意力模块结构示意图；

图5为本申请实施例的地理坐标映射示意图，其中，(a)为控制点选取示意图，(b)为统一地理坐标映射示意图；

图6为本申请实施例的跨视频目标交接算法流程图；

图7为本申请实施例的跨视频目标跟踪系统结构示意图；

图8为本申请实施例的电子设备结构示意图；

图9为本申请实施例的存储介质的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

为了解决现有技术的不足，本申请实施例的跨视频目标跟踪方法通过构建一种鲁棒性强的孪生网络目标跟踪模型，并构建了跨视频目标交接算法，实现了重叠区域下跨视频范围内同一跟踪目标的实时连续跟踪。如图1所示，本申请实施例的孪生网络目标跟踪模型包括骨架网络、自注意力网络(Transformer)、目标估计网络和动态模板网络四个部分，其中，骨架网络是一种轻量级的网络，其输入为初始的目标模板图像和目标搜索图像，利用深度可分离卷积模块、多路复用卷积模块和倒置残差模块输出目标模板图像和目标搜索图像的一维特征图。自注意力网络采用编码器-解码器架构，其输入为骨架网络的输出，输出为一张二维特征图。目标估计网络包括偏置回归头、尺度预测头和目标分类头三个网络头，其输入为自注意力网络的输出，三个网络头的输出分别为三种响应图，根据响应图可以得到跟踪目标在目标搜索图像中的位置，输出目标预测图像。动态模板网络包括三层前馈神经网络，其输入是自注意力网络的输出，输出为一个布尔值，代表是否更新目标模板图像。跨视频目标交接算法具体为：通过地理映射模型将像素点坐标和统一地理坐标进行映射，从而将多个不同视频的像素点坐标对应到统一地理坐标系下，以对跟踪目标进行精确定位；然后通过多边形裁剪法确定不同视频中的重叠区域，用射线法判定跟踪目标是否进入重叠区域，以确定存在跟踪目标的视频集合，并在存在跟踪目标的视频集合上启动跟踪目标跟踪算法，对跟踪目标进行跨视频在线跟踪。

进一步地，本申请实施例的孪生网络目标跟踪模型分为三个训练阶段，分别为：骨干网络训练阶段、回归网络训练阶段和动态模板网络训练阶段。

在骨干网络训练阶段，使用微型ImageNet数据集(20类)，选取其中20000张不同种类的图片作为训练集。该阶段只训练骨架网络，去掉自注意力网络、目标估计网络和动态模板网络，并将第一个卷积层的stride(卷积步长)改为1。此时输出特征图为7*7*224，将特征图输入一个三层全连接神经网络，最终输出一个20维的向量，代表20个分类。在训练过程中，使用随机梯度下降法作为梯度更新算法，学习率从0.0001开始每5轮折半，损失函数使用分类损失交叉熵损失函数。

在回归网络训练阶段，使用COCO2017和Youtube-BB的子集作为训练集，每轮选取其中4500张图片，生成4500个目标模板图像和目标搜索图像的输入对。去掉全连接神经网络，加上自注意力网络和目标估计网络，输出为目标估计网络的三个网络头的响应图，分别为：偏置回归图、尺度预测图和目标分类图。在模型训练过程中，使用ADAM优化算法，权重衰减率为0.0001，起始学习率设置为0.0001，每20轮折半。损失函数为回归和分类的联合损失函数。

在动态模板网络训练阶段，使用COCO2017和Youtube-BB的子集作为训练集，每轮选取其中4500张图片，生成4500个目标模板图像和目标搜索图像的输入对。加入动态模板网络，冻结回归网络的参数，只训练分类网络和动态模板网络中的三层前馈神经网络。在网络训练过程中，使用随机梯度下降法作为优化算法，学习率设置为0.00001，每5轮学习率减半。

具体地，请参阅图2，是本申请实施例的跨视频目标跟踪方法的流程图。本申请实施例的跨视频目标跟踪方法包括以下步骤：

S100：获取待跟踪的视频图像以及初始目标模板图像；

S200：将视频图像以及初始目标模板图像输入训练好的孪生网络目标跟踪模型，通过孪生网络目标跟踪模型输出跟踪目标在视频图像中的目标预测图像；

本步骤中，孪生网络目标跟踪模型的训练过程具体包括：

S201：获取目标模板图像和目标搜索图像，将目标模板图像和目标搜索图像输入骨架网络，通过骨架网络输出目标模板图像和目标搜索图像的第一特征图；

本步骤中，骨架网络为图1中的MPSiam骨架网络部分，其输入是98*98*3的目标模板图像和354*354*3的目标搜索图像。首先令目标模板图像和目标搜索图像通过一个共享的3*3*28的卷积核Conv_1，分别得到96*96*28和352*352*28的特征图，记为T1,S1。然后配置三个深度可分离卷积层DwConv_1、DwConv_2和DwConv_3，每一个深度可分离卷积层包括逐通道卷积和逐点卷积，逐通道卷积中的卷积核设置为3*3*28，一个卷积核只负责一个通道；逐点卷积中的卷积核设置为1*1*28，用于在通道方向上进行信息融合。DwConv_1和DwConv_2的stride设置为1，padding(填充)设置为same，DwConv_3的stride设置为2，padding设置为1，DwConv_1、DwConv_2和DwConv_3的输入为特征图T1,S1，DwConv_1和DwConv_2输出的特征图与T1,S1尺寸相同，DwConv_3输出最终的第一特征图，记为T2,S2，其尺寸分别为T1,S1的一半，即第一特征图T2,S2的尺寸分别为48*48*28和176*176*28。

S202：将第一特征图输入多路复用卷积模块，通过多路复用卷积模块输出第二特征图；

本步骤中，如图1所示，多路复用卷积模块包括三层卷积层，分别为MPConv_1、MPConv_2和MPConv_3。每一层卷积层分别包括三个倒置残差模块InvResidual_1、InvResidual_2、InvResidual_3以及两个多路复用模块MultiplexingBlock1和MultiplexingBlock2。每个倒置残差模块分别由两个逐点卷积和一个逐通道卷积组成，记作PwConv_1,CwConv_1和PwConv_2，PwConv_1,CwConv_1和PwConv_2的尺寸分别是1*1、3*3和1*1，三个倒置残差模块的输入分别为骨架网络输出的第一特征图T2,S2，其输出的特征图与T2,S2的尺寸相同。

Multiplexing Block1设置为输出尺寸不变，Multiplexing Block2设置为输出尺寸为输入的一半，并将通道数翻倍。第一特征图T2,S2依次通过三层卷积层MPConv_1、MPConv_2和MPConv_3后,尺寸依次变成24*24*56，88*88*56、12*12*112，44*44*112和6*6*224，22*22*224，最后输出的第二特征图记为T3,S3，其尺寸分别为6*6*224和22*22*224。

S203：将第二特征图输入自注意力网络，自注意力网络通过多头自注意力机制将第二特征图恢复为二维特征图；

本步骤中，如图1所示，自注意力网络即为图1中的Transformer结构，自注意力网络是一种基于编码器-解码器(Encoder-Decoder)的特征提取架构，可以充分提取时序信息。

请一并参阅图3，是本申请实施例的自注意力网络结构示意图。自注意力网络包括编码器和解码器两个部分，其中，编码器包括第一多头自注意力模块(Multi-head Self-Attention)、第一前馈网络(FFN)以及第一残差归一化模块(Add&Norm)，其中，第一残差归一化模块的数量为两个。设编码器的输入为目标模板图像的特征图Z∈R ^h×w×d，其中h和w分别为特征图Z的宽和高，d为通道数量。将Z的空间维数压缩至一维，即变成一个序列Z ₀∈R ^hw×d。为了满足置换不变性(Permutation-invariant)，自注意力网络中需要加入位置编码(Positional Encoding)，位置编码使用正弦余弦变换来建模两个位置之间的仿射变换，使模型可以利用序列的顺序信息。

解码器包括第二前馈网络、第二残差归一化模块、第二多头自注意力模块和多头交叉注意力模块(Multi-head Cross-Attention)。设解码器的输入为目标搜索图像的特征图X∈R ^H×W×d，其中H和W分别为特征图X的宽和高，且H>h，W>w。与编码器类似，将特征图X压缩成一维的序列X ₀∈R ^HW×d，解码器最后的输出和解码器的输入尺寸相同，并被恢复为R ^H×W×d的大小，用于后续的回归与分类。

基于上述，本申请实施例的自注意力网络的核心模块为多头注意力模块(Multi-head Attention)，而多头注意力模块由多个自注意力模块(Self-Attention)组成，自注意力模块结构如图4所示。自注意力模块以上述的X ₀和Z ₀作为输入，通过W _q、W _k和W _v三个加权矩阵进行线性投影，最后通过下式获得键矩阵(K)、值矩阵(V)和查询矩阵(Q)：

其中，

在编码器的第一多头自注意力模块中，N _q＝N _kv＝hw，X _q＝X _kv，表示其输入为目标模板图像的特征图Z ₀。在解码器的第二多头自注意力模块中，N _q＝N _kv＝HW，X _q＝X _kv表示其输入为目标搜索图像的特征图X ₀。在解码器的多头交叉注意力模块中，N _q＝HW，N _kv＝hw，X _kv是编码器的输出，X _q是解码器前半部分的输出。P _q和P _k代表X _q和X _kv的位置编码。其统一的计算公式如下：

其中pos代表特征图上对应的位置，2i代表奇偶维度。

如图4所示，首先计算Q和K的内积，即QK ^T。为了防止内积过大，需要除以

的平方根。之后，以矩阵行为单位，使用Softmax函数计算每一行对其他行的系数，得到输出的二维特征图记为

再用A与V计算内积，即可得到最终的注意力矩阵：

其中

W代表W _q、W _k和W _v三个加权矩阵。

由于多头注意力模块是由M个自注意力模块组合而成，将输入传递到M个不同的自注意力模块中，得到M个输出矩阵A′，每个自注意力模块的通道维度

再将M个输出矩阵从通道维度上连接到一起，连接后的特征图维度变回d维，再通矩阵W′做一次线性变换，最后将得到的一维特征图恢复为二维特征图，记为R ^H×W×d。具体计算过程如下式所示：

MultiHeadAttn(X _q,X _kv)＝[Attn(X _q,X _kv,W ₁)…Attn(X _q,X _kv,W _M)]W′ (4)

S204：将二维特征图输入目标估计网络，通过目标估计网络输出目标预测图像；

本步骤中，本发明使用基于中心点预测的目标估计网络，其结构如图1所示，包括三个独立的网络头，分别为偏置回归头、尺度预测头和目标分类头，三个网络头分别连接到自注意力网络的输出，每个网络头分别包含三个1x1卷积层和一个Sigmoid函数，偏置回归头和尺度预测头分别用于目标框回归和尺度回归，输出分别为偏置回归图和尺度预测图，目标分类头用于目标分类，其输出为目标分类图。

具体的，目标分类头输出一张目标分类图Y∈[0,1] ^Scale×1，Scale的公式如下：

其中，H，W分别代表目标搜索图像的宽和高，s代表缩放系数，优选地，本申请实施例中，s＝16。Floor代表取地板函数，可以保证输出的特征图尺寸为22。目标分类图Y的值代表了跟踪目标在低分辨率离散化情况下的出现概率。

由于最终需要在原目标搜索图像上定位跟踪目标，而离散化会导致位置还原到原目标搜索图像时产生偏移误差。因此，为了恢复由于离散化导致的误差，通过预测一个局部偏移特征图O∈[0,1] ^Scale×2，O代表了x坐标偏移和y坐标偏移的两幅响应图。基于此，在目标搜索图像中预测跟踪目标的中心点位置可以由下式来表达：

(x _c,y _c)＝s(Argmax(Y′)+O(Argmax(Y′))) (6)

其中，Y′代表对目标分类图Y进行加权余弦窗处理的结果，用于抑制目标分类图Y中的大离群值。Argmax函数可以返回对应目标分类图Y峰值的二维位置。即跟踪目标在目标搜索图像中的中心点位置可以用Y中的峰值加上对应的偏移值，再乘以缩放系数得到。

对于尺度预测头，同样生成一个尺度回归特征图S∈[0,1] ^Scale×2，之后，通过如下公式计算跟踪目标在目标搜索图像中边界框的大小：

(w _bb,h _bb)＝(W,H)*S(Argmax(Y′)) (7)

其中，*运算代表Hadamard(哈达玛积)乘积。

然后通过以下中心值和宽高值计算出边界框的角点值：

S205：将目标预测图像输入动态模板网络，通过动态模板网络判断是否需要更新目标模板图像；

本步骤中，本发明使用动态模板网络来适应长时间的跟踪目标跟踪。其结构如图1上半部分标识所示。记初始的目标模板图像为z，初始的目标搜索图像为x。在模型训练和推理期间，从最后的目标预测图像中裁剪出预测目标，将其记为对偶模板t。将t和z一同输入到骨架网络中进行运算，将经过骨架网络后的特征图记为F _z和F _t。之后，通过简单线性插值算法计算目标模板图像z和对偶模板t融合后的特征图F′ _t：

F′ _t＝(1-w)F _t+wF _z (10)

其中w是一个预先设置的超参数，优选地，w可以设置为0.7-0.8。

在目标跟踪过程中，有些情况下并不应该更新目标模板图像，例如，当跟踪目标被遮挡或移出视线以及跟踪模型发生漂移时。在本申请实施例中，如果目标搜索图像中包含跟踪目标，则通过动态模板网络更新目标模板图像。如图1所示，动态模板网络包括一个分数网络(Scorehead)，该分数网络是一个三层的全连接网络，并接一个Sigmoid激活函数。分数网络的输入为自注意力网络的输出，并将其展平成一维；分数网络的输出为一个分数，当该分数大于设定的阈值τ，且间隔帧数达到F _u以上时，才会触发动态模板网络更新目标模板。优选地，通常设τ＝0.5，F _u＝200。

在训练动态模板网络时，如果将其和主干网络同时进行训练，可能会导致收敛到次优解。因此，将训练分为两个阶段，在第一阶段中，去掉动态模板网络，训练整个主干网络。在第二阶段中，冻结主干网络以及两个回归分支的参数，只保留分类分支的参数，并加入动态模板网络，再进行动态模板网络和分类分支的联合训练。本申请实施例中，动态模板网络使用交叉熵损失进行训练：

L _t＝y _ilog(P _i)+(1-y _i)log(1-P _i) (11)

其中，y _i代表真值的标签，P _i代表分类分支响应图上的置信度。

S300：利用训练好的地理映射模型将所有视频图像映射到统一地理坐标空间中，得到视频图像的全局地理坐标；

本步骤中，为了在不同视频视角中实现目标交接，需要将所有视频映射到一个统一地理坐标空间中。本发明采用基于薄板样条函数(TPS)的地理映射模型，该地理映射模型将像素点坐标和统一地理坐标进行映射，可以将多个不同视频图像的像素坐标对应到统一地理坐标系下，以实现对跟踪目标的精确定位。具体映射方式为：在两幅视频图像中，通过ArcGIS选取15-20个地理控制点，将地理控制点与视频图像中的像素点一一对应，找出N个匹配点，并应用薄板样条函数将N个匹配点形变到对应位置，同时给出整个空间的形变函数，N个视频图像可以计算出N个对应的形变函数，经过形变函数的计算，即可将不同的视频图像映射到统一地理坐标空间中，视频图像具有地理属性后，可以进行像素坐标到全局地理坐标的换算。具体如图5所示，(a)为控制点选取示意图，(b)为统一地理坐标映射示意图。

具体地，令p代表一个视频图像上原始的点，q代表经过移动之后的对应点，若干控制点产生了这种移动之后，整个图像平面必然会发生扭曲，薄板样条函数的目的就是拟合一个函数，从而得到曲面上每个点的变化。为了描述该插值过程，需要定义两个变量，一个是拟合项

用于测量将原点形变后离跟踪目标点的距离。第二个是扭曲项ε _d，用于度量曲面的扭曲程度，因此，总的损失函数如下：

其中α是权值系数，用于控制非刚体形变发生的程度。公式中两项展开后分别如下式：

其中，N为控制点的数量，

代表了原点经过形变函数

计算之后和跟踪目标点之间的距离，式(14)代表了曲面扭曲程度的能量函数【】,最小化损失函数后，可以得到一个闭式解：

其中p代表曲面上的任意一个点，p _i代表选定的控制点，M＝(m ₁,m ₂)。U为径向基函数，代表曲面上的某一个点的变形受其他控制点的影响程度，定义如下：

U(x)＝x ²logx (16)

ω _i代表对不同径向基函数的加权。式(15)可以理解为使用M和m ₀两个参数去拟合一个平面，并用径向基函数在平面的基础上拟合弯曲程度。总共有3+N个参数，控制点数N选取越多，拟合的效果就越好。

在拥有闭式解的情况下，可以求解下式(17)，相当于求解一个具有N+3个方程的线性方程组，之后可以得到参数组(ω _i,m ₀,m ₁,m ₂)。拥有参数组后，就可以通过函数

将任一视频上的任意点映射到统一地理坐标空间中：

S400：通过多边形裁剪法计算两两视频图像之间的重叠区域，并采用射线法判定重叠区域中是否存在目标预测图像，在存在目标预测图像的重叠区域对应的视频图像中启动跟踪目标交接算法，对跟踪目标进行跨视频跟踪；

本步骤中，如图6所示，为本申请实施例的跨视频目标交接算法流程图，其具体包括以下步骤：

S401：通过多边形裁剪算法计算两两视频图像之间的重叠区域，将所有待预测的视频图像记为[Z ₁,Z ₂,…Z ₇]，将所有视频图像之间的重叠区域集合记为A[n]；

其中，两两视频图像之间的重叠区域如图7所示。重叠区域计算方式为：将每个地理坐标映射后的视频图像看作一个凸多边形，将求解重叠区域的问题转化成求解两个凸多变形之间重叠区域的图形学问题。多边形裁剪算法(Suther land-Hodgman)采用了分割处理、逐边裁剪的方法，其输入为两个凸多边形的顶点数组，输出为裁剪后的凸多边形的顶点数组，如下式所示：

Sutherland-Hodgman(PolyA[…]，PolyB[…])＝PolyC[…] (18)

其中PolyC代表两个视频图像之间的重叠区域的顶点数组。假设对七幅视频图像进行两两重叠区域的计算，则得到的重叠区域数组记为[A ₁,A ₂,…A _n]。

S402：在任意一个视频图像上手动标记一个需要跟踪的目标模板，将视频图像加入初始的视频集z[m]，并将跟踪目标的目标模板图像、视频集z[m]和重叠区域集A[n]作为参数，输入到目标交接算法中；

S403：启动目标交接算法，首先获得一个点集P _i，点集P _i中包含了跟踪目标在视频集z[m]上的所有视频图像中运行目标跟踪算法得到的预测中心点像素坐标；如果跟踪目标在某个视频图像上可以被跟踪到，表示该视频图像存在中心点，则将该中心点加入点集P _i，如果该视频图像不存在中心点，则认为跟踪目标已经离开该视频图像，将该视频图像从视频集z[m]中移除。

S404：判断点集P _i是否为空，如果点集P _i为空，执行S405；否则，执行S406；

其中，点集P _i为空表示在视频集z[m]上的任一视频图像上都跟踪不到跟踪目标，此时，点集P _i为一个空点集。

S405：结束目标交接算法，以最后一次出现的跟踪目标作为新的目标模板图像，并对所有视频图像重新运行目标跟踪算法；

其中，优选地，本申请实施例设定重新运行目标跟踪算法的次数为五次，如果运行五次算法都找不到跟踪目标，则认为跟踪目标已经离开视野，算法结束。如果在五次算法中重新跟踪到跟踪目标，则将重新跟踪到的跟踪目标设置为新的目标模板图像，将跟踪目标最后一次出现的视频设置为初始视频，并重新执行目标跟踪算法。

S406：通过薄板样条函数将点集P _i的像素坐标转换为地理坐标点集P _g，并用射线法判定跟踪目标是否进入重叠区域，将存在跟踪目标的重叠区域记为A _k；

其中，由于是转换到统一地理空间，P _g中的地理坐标都应该相同，而在实际中，可能会有些许的误差，因此，通过对P _g中的地理坐标取均值或求重心值，然后根据地理坐标判断P _g是否进入了A[n]中的某个重叠区域，即判断一个点是否在一个多边形区域内。

具体的，本申请实施例通过图形学中的射线法进行判断。射线法的思路为：(1)如果点在多边形内部，则从点出去的射线第一次一定是穿出多边形；(2)如果点在多边形外部，则从点出去的射线第一次一定是穿入多边形。

S407：在A _k所从属的所有视频图像上执行目标跟踪算法；

具体的，首先找到A _k所从属的视频图像中不存在于视频集z[m]中的那一个，记为Z _k，然后将z _k加入到视频集z[m]中。如此，在下一轮跨视频目标交接算法运行的第一步中，就可以遍历到Z _k并开启目标跟踪算法。本申请实施例通过重叠区域的判断，在不同的视频图像之间交接跟踪目标，实现了跨视频的目标交接，最终达到了跨视频目标跟踪的目的。本发明实施例的跨视频目标跟踪算法可以达到25帧每秒的运行速率，跟踪鲁棒性好，且精度较高。

基于上述，本申请实施例的跨视频目标跟踪方法通过构建一种基于自注意力网络、动态模板网络的深度孪生网络跟踪模型，能够适应长时间的跟踪，其跟踪结果基本不受跟踪目标的尺度和外观变化影响，在跨视频多视角目标跟踪的场景下跟踪性能稳定，解决了跨视频跟踪中由于尺度外观变化等问题无法有效跟踪目标的问题。其次，本申请使用基于薄板样条函数的像素点到统一地理坐标映射模型，结合多边形裁剪法计算视频与视频之间的重叠区域，并使用射线法根据地理坐标判断跟踪目标是否进入重叠区域，以此判断是否切换视频，实现对跟踪目标的跨视频持续跟踪。相比于现有技术，本申请实施例的跨视频跟踪技术视域范围大，可以长时间持续稳定的跟踪目标，在大范围内标识出跟踪目标的行动轨迹，有效的辅助了后续决策任务，节省了人力物力，保证了跟踪的实时性，且跟踪精度较高。

请参阅图7，为本申请实施例的跨视频目标跟踪系统结构示意图。本申请实施例的跨视频目标跟踪系统40包括：

目标预测模块41：用于确定待跟踪的视频图像以及初始目标模板图像，将视频图像以及初始目标模板图像输入训练好的深度孪生网络跟踪模型，通过深度孪生网络跟踪模型输出跟踪目标在视频图像中的目标预测图像；

地理坐标映射模块42：用于利用训练好的地理映射模型将视频图像映射到统一地理坐标空间中，得到视频图像的全局地理坐标；

跨视频目标交接模块43：用于基于映射后的视频图像，通过多边形裁剪法计算两两视频图像之间的重叠区域，并判定重叠区域中是否存在目标预测图像，在存在目标预测图像的重叠区域对应的视频图像中利用跟踪目标交接算法进行跨视频目标跟踪。

请参阅图8，为本申请实施例的电子设备结构示意图。该电子设备50包括处理器51、与处理器51耦接的存储器52。

存储器52存储有用于实现上述跨视频目标跟踪方法的程序指令。

处理器51用于执行存储器52存储的程序指令以控制跨视频目标跟踪。

其中，处理器51还可以称为CPU(Central Processing Unit，中央处理单元)。处理器51可能是一种集成电路芯片，具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

请参阅图9，为本申请实施例的存储介质的结构示意图。本申请实施例的存储介质存储有能够实现上述所有方法的程序文件61，其中，该程序文件61可以以软件产品的形式存储在上述存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等电子设备设备。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本申请中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本申请所示的这些实施例，而是要符合与本申请所公开的原理和新颖特点相一致的最宽的范围。

Claims

一种跨视频目标跟踪方法，其特征在于，包括：

确定待跟踪的视频图像以及初始目标模板图像；

将所述视频图像以及初始目标模板图像输入训练好的深度孪生网络跟踪模型，通过所述深度孪生网络跟踪模型输出跟踪目标在所述视频图像中的目标预测图像；

利用训练好的地理映射模型将所述视频图像映射到统一地理坐标空间中，得到所述视频图像的全局地理坐标；

基于映射后的视频图像，通过多边形裁剪法计算两两视频图像之间的重叠区域，并判定所述重叠区域中是否存在目标预测图像，在存在所述目标预测图像的重叠区域对应的视频图像中利用跟踪目标交接算法进行跨视频目标跟踪。
根据权利要求1所述的跨视频目标跟踪方法，其特征在于，所述深度孪生网络跟踪模型包括骨架网络、自注意力网络、目标估计网络和动态模板网络，

所述骨架网络的输入为目标模板图像和目标搜索图像，所述骨架网络利用深度可分离卷积模块、多路复用卷积模块和倒置残差模块输出所述目标模板图像和目标搜索图像的一维特征图；

所述自注意力网络采用编码器-解码器架构，其输入为所述骨架网络的输出，输出为一张二维特征图；

所述目标估计网络包括偏置回归头、尺度预测头和目标分类头三个网络头，其输入为所述自注意力网络的输出，所述三个网络头的输出分别为偏置回归图、尺度预测图和目标分类图，根据偏置回归图、尺度预测图和目标分类图得到跟踪目标在所述目标搜索图像中的位置，输出目标预测图像；

所述动态模板网络包括三层前馈神经网络，其输入为所述自注意力网络的输出，输出为一个布尔值，代表是否更新所述目标模板图像。
根据权利要求2所述的跨视频目标跟踪方法，其特征在于，所述骨架网络利用深度可分离卷积模块、多路复用卷积模块和倒置残差模块输出所述目标模板图像和目标搜索图像的一维特征图具体为：

令所述目标模板图像和目标搜索图像通过一个共享的卷积核Conv_1，分别得到目标模板图像和目标搜索图像的特征图T1,S1；

配置三个深度可分离卷积层DwConv_1、DwConv_2和DwConv_3，每一个深度可分离卷积层包括逐通道卷积和逐点卷积；DwConv_1、DwConv_2和DwConv_3的输入为特征图T1,S1，DwConv_1和DwConv_2输出的特征图与T1,S1尺寸相同，DwConv_3输出最终的第一特征图T2,S2，所述T2,S2的尺寸分别为T1,S1的一半；

将所述第一特征图输入多路复用卷积模块，所述多路复用卷积模块包括三层卷积层，每一层卷积层分别包括三个倒置残差模块以及两个多路复用模块，所述多路复用卷积模块的输入为第一特征图T2,S2，其输出为第二特征图T3,S3。
根据权利要求3所述的跨视频目标跟踪方法，其特征在于，所述自注意力网络包括编码器和解码器，所述编码器包括第一多头自注意力模块、第一前馈网络以及第一残差归一化模块，所述编码器的输入为目标模板图像的特征图Z∈R ^h×w×d，其中h和w分别为特征图Z的宽和高，d为通道数量，将Z的空间维数压缩至一维，变成一个序列Z ₀∈R ^hw×d；

所述解码器包括第二前馈网络、第二残差归一化模块、第二多头自注意力模块和多头交叉注意力模块，所述解码器的输入为目标搜索图像的特征图X∈R ^H×W×d，其中H和W分别为特征图X的宽和高，且H>h，W>w，所述解码器将特征图X压缩成一维的序列X ₀∈R ^HW×d。
根据权利要求4所述的跨视频目标跟踪方法，其特征在于，所述目标估计网络包括偏置回归头、尺度预测头和目标分类头，所述偏置回归头、尺度预测头和目标分类头分别连接自注意力网络的输出，且所述偏置回归头、尺度预测头和目标分类头分别包含三个1x1卷积层和一个Sigmoid函数，所述偏置回归头和尺度预测头分别用于目标框回归和尺度回归，输出分别为偏置回归图和尺度预测图，所述目标分类头用于目标分类，其输出为目标分类图，所述目标分类图的值代表跟踪目标在低分辨率离散化情况下的出现概率。
根据权利要求5所述的跨视频目标跟踪方法，其特征在于，所述动态模板网络包括一个分数网络，所述分数网络为一个三层的全连接网络，并接一个Sigmoid激活函数，所述分数网络的输入为自注意力网络的输出，并将其展平成一维，所述分数网络的输出为一个分数，当该分数大于设定的阈值τ，且间隔帧数达到F _u以上时，则触发动态模板网络更新所述目标模板图像。
根据权利要求1至6任一项所述的跨视频目标跟踪方法，其特征在于，所述地理映射模型为采用基于薄板样条函数的地理映射模型，所述利用训练好的地理映射模型将所有视频图像映射到统一地理坐标空间具体为：

通过ArcGIS在所述视频图像中选取设定数量的地理控制点，将所述地理控制点与视频图像中的像素点一一对应，找出N个匹配点，并应用薄板样条函数将N个匹配点形变到对应位置，同时计算N个对应的形变函数，通过所述形变函数将不同的视频图像映射到统一地理坐标空间中。
根据权利要求7所述的跨视频目标跟踪方法，其特征在于，所述利用跟踪目标交接算法进行跨视频目标跟踪具体为：

通过多边形裁剪算法计算两两视频图像之间的重叠区域，将所有视频图像之间的重叠区域集合记为A[n]；

将所述视频图像加入初始的视频集z[m]，在任意一个视频图像上手动标记一个需要跟踪的目标模板，并将跟踪目标的目标模板图像、视频集z[m]和重叠区域集A[n]输入目标交接算法中；

启动目标交接算法，获得一个点集P _i，所述点集P _i中包含了跟踪目标在视频集z[m]上的所有视频图像中运行目标跟踪算法得到的预测中心点像素坐标；如果视频图像中存在中心点，则将该中心点加入点集P _i，如果该视频图像不存在中心点，则将该视频图像从视频集z[m]中移除；

判断所述点集P _i是否为空，如果点集P _i为空，结束目标交接算法，以最后一次出现的跟踪目标作为新的目标模板图像，并对所有视频图像重新运行目标跟踪算法；如果点集P _i不为空，

采用射线法判定跟踪目标是否进入重叠区域，将存在跟踪目标的重叠区域记为A _k；

在A _k所从属的所有视频图像上执行目标跟踪算法。
一种跨视频目标跟踪系统，其特征在于，包括：

目标预测模块：用于确定待跟踪的视频图像以及初始目标模板图像，将所述视频图像以及初始目标模板图像输入训练好的深度孪生网络跟踪模型，通过所述深度孪生网络跟踪模型输出跟踪目标在所述视频图像中的目标预测图像；

地理坐标映射模块：用于利用训练好的地理映射模型将所述视频图像映射到统一地理坐标空间中，得到所述视频图像的全局地理坐标；

跨视频目标交接模块：用于基于映射后的视频图像，通过多边形裁剪法计算两两视频图像之间的重叠区域，并判定所述重叠区域中是否存在目标预测图像，在存在所述目标预测图像的重叠区域对应的视频图像中利用跟踪目标交接算法进行跨视频目标跟踪。
一种电子设备，其特征在于，所述电子设备包括处理器、与所述处理器耦接的存储器，其中，

所述存储器存储有用于实现权利要求1-8任一项所述的跨视频目标跟踪方法的程序指令；

所述处理器用于执行所述存储器存储的所述程序指令以控制跨视频目标跟踪。