WO2023273136A1

WO2023273136A1 - 一种基于目标物表征点估计的视觉跟踪方法

Info

Publication number: WO2023273136A1
Application number: PCT/CN2021/133957
Authority: WO
Inventors: 钱诚; 徐则中; 游庆祥; 刘冬; 李春光; 王甜
Original assignee: 常州工学院
Priority date: 2021-06-29
Filing date: 2021-11-29
Publication date: 2023-01-05
Also published as: CN113344976B; CN113344976A

Abstract

本发明公开了一种基于目标物表征点估计的视觉跟踪方法，其技术方案要点是：包括以下步骤：S1、首帧中指定目标框作为目标模板；S2、在下一帧中裁剪出目标搜索图像区域；S3、将目标模板与搜索图像区域输入孪生网络；S4、目标框估计模块输出预测目标框和前背景分类模块输出置信度图；S5、取具有最大置信度目标框作为最终目标框，并重复S2-S5步骤；本发明根据表征点估计可形变卷积的偏移量参数，所提取的特征更具有针对性，更适合视觉跟踪任务要求。

Description

一种基于目标物表征点估计的视觉跟踪方法

技术领域

本发明涉及视觉跟踪领域，特别涉及一种基于目标物表征点估计的视觉跟踪方法。

背景技术

视觉跟踪根据视频第一帧中所要跟踪的目标对象，通过跟踪方法在后续每一帧中确定目标空间位置。视觉跟踪可以被视为是一种目标模板匹配问题，也即根据第一帧中标定的目标图像区域，将其作为模板在后续视频序列中寻找匹配对象，以此确定目标图像区域。相应地，基于孪生网络结构的跟踪框架被提出用于图像的匹配。

2018年发表在国际会议IEEEConferenceonComputerVisionandPatternRecognition上的题为《HighPerformanceVisualTrackingwithSiameseRegionProposalNetwork》将目标跟踪分为前背景分类和目标框回归两个子任务，借鉴目标检测的区域提议网络，引入了锚点框用于分类和回归计算。但是，该方法需要预设锚点框，这一方面需要关于锚点框参数的先验知识，另一方面大量锚点框的设置降低了计算效率。

在孪生网络被用于构建跟踪算法框架的过程中，目标物外观由于目标物自身形变造成其与目标模板之间的差异性过大，降低了匹配的准确性，严重削弱了孪生跟踪框架下匹配的有效性。针对这一问题，2020年发表在国际会议EuropeanConferenceonComputerVision上的题为《Ocean:Object-awareAnchor-freeTracking》的论文提出了一种目标区域感知的孪生网络框架，通过可形变卷积来配准目标区域，以此获得更为准确的目标特征，这在一定程度上缓解了目标物形变对模板匹配的不利影响。但是，该方法根据目标框位置估计结果来获取配准点，并在此基础上做可形变卷积提取目标外观特征，其中配准点是在边框上以固定的几何点方式采集获得，并不一定能够完全反映目标形变。

发明内容

针对背景技术中提到的问题，本发明的目的是提供一种基于目标物表征点估计的视觉跟踪方法，以解决背景技术中提到的问题。

本发明的上述技术目的是通过以下技术方案得以实现的：

一种基于目标物表征点估计的视觉跟踪方法，包括以下步骤：

S1、首帧中指定目标框作为目标模板；

S2、在下一帧中裁剪出目标搜索图像区域；

S3、将目标模板与搜索图像区域输入孪生网络；

S4、目标框估计模块输出预测目标框和前背景分类模块输出置信度图；

S5、取具有最大置信度目标框作为最终目标框，并重复S2-S5步骤。

较佳的，所述孪生网络的结构包括特征提取模块、互相关模块、目标框估计模块、前背景分类模块；所述孪生网络的每一支卷积神经网络都是用于提取深度特征的主干网络模块，所述互相关模块计算目标模板特征与搜索区域特征之间的匹配似然度，所述目标框估计模块是在表征点估计结果的基础上输出目标框。

较佳的，所述孪生网络具有2支卷积神经网络构成的分支，每支所述卷积神经网络的主干网络都采用了残差神经网络ResNet-50，残差神经网络ResNet-50包含第1卷积块、第2卷积块、第3卷积块、第4卷积块、第5卷积块，在残差神经网络ResNet-50的第4卷积块、第5卷积块中舍去了下采样操作并采用空洞卷积来扩大感受野，其中第4卷积块中的空洞率设置为2，第5卷积块中的空洞率设置为4，第4卷积块和所述第5卷积块分别用于目标模板图像和目标搜索图像深度特征的提取。

较佳的，使用所述第3卷积块、第4卷积块和第5卷积块输出的特征结果进行融合克服多层卷积神经网络所提取的特征存在的差异性，对于每一个卷积块的输出，将目标模板的特征图视作为卷积核，并与搜索图像的特征图作卷积计算，将获得的互相关特征图作为后续前背景分类、目标框位置估计的输入；在计算互相关图时，将卷积的跨度参数按{(1,1),(1,2),(2,1)}设置，从而得到3组互相关特征图，对于每一组互相关特征图，由第3卷积块、第4卷积块和第5卷积块计算所得的3个互相关特征图在对应通道上做加权求和操作，最后得到互相关特征图。

较佳的，所述目标框估计模块接收互相关特征图，输出每个特征点所对应表征点的偏移量和目标区域表征点位置，所述目标框估计模块的网络结构包括了2个分支，其中一个分支层由4层256输入输出通道、3×3卷积核的卷积层，以及1层256输入通道、18个输出通道、1×1卷积核的卷积层构成的主干层；另一个分支层包含了由1层256输出通道、3×3卷积核构成的可形变卷积层，以及1层由256输入通道、18输出通道、1×1卷积核构成的卷积层。

较佳的，所述主干层接收互相关模块输出的互相关特征图，其输出每个表征点的偏移量为表征点位移参数，由偏移量估计出每个特征点所属的初始目标框；所述分支层接收主干层第3层的特征图输出，其输出表征点进一步的偏移量；所述主干层输出的初始表征点位移量用来估计表征点初始位置，而后由表征点初始位置加上分支层输出的表征点偏移量可以得到表征点最终的位置结果，进一步在表征点的基础上直接得到目标框。

较佳的，所述前背景分类模块由3层卷积层和1层可形变卷积层依次连接构成，所述前背景分类模块接收互相关特征图作为输入，输出每个特征点所对应候选框的分类置信度；所述3层卷积层都具有256个输入输出通道、3×3卷积核；所述可形变卷积的输入通道数为256，具有3×3卷积核，所述可形变卷积接收目标框估计模块输出的表征点位移参数作为可形变卷积中卷积核的位移参数。

较佳的，所述孪生网络的训练步骤包括：

进行训练数据的准备：训练数据选用已手工标注的目标检测图像数据集VID和YouTube-BoundingBoxes数据集，从每段视频中任意选取帧数相差不大于20帧的两帧图像，以其中一帧中目标为中心的矩形框为目标图像区域，假设该矩形框宽度为w，高度为h，将其缩放至127×127大小，其为目标模板的原始图像输入；另一帧中围绕目标中心裁剪出宽度为2w，高度为2h的目标搜索图像区域，随后将其缩放至255×255大小；每一对目标模板图像与目标搜索区域图像构成了1个训练数据；

之后在所述目标框估计模块中，为主干层和分支层分别建立关于预测的初始目标框位置和预测的最终目标框位置的损失函数，将主干层以每个特征点为中心输出9个表征点的坐标偏移量，假设特征点坐标为(x，y)，表征点相对于特征点的偏移量就为(Δx _i，Δy _i)(i＝1，2，…，9)，得到每个表征点的坐标就为(x+Δx _i，y+Δy _i)；根据9个表征点构造预测目标框，目标框的左上角为

右下角坐标为

在预测目标框中，将包含真实目标框中心点的预测目标框作为正实例，通过平滑L1损失函数计算正实例目标框与真实目标框左上角点和右下角点位置差，作为目标位置损失，为公式(1)：

上式中，t表示真值，v表示预测值；

所述分支层利用主干层输出的偏移量做可形变卷积操作，同样输出表征点相对于特征点的偏移量，并在表征点的基础上采用与主干层相同的方式构造预测目标框，在预测目标框中，选取与真实目标框交并比大于0.5的预测目标框作为正实例，通过平滑L1损失函数计算预测目标框与真实目标框在中心点位置和长宽上的差值作为目标位置损失，为公式(2)：

上式中t表示真值，u表示预测值；

利用前背景分类模块估计每个特征点属于目标框的置信度分数，其损失函数为关于分类误差的函数，为公式(3)：

L _cls＝||p*h-g|| ²+λ||h|| ² (3)；

上式中，p是前背景分类模块所接收的互相关特征图，h是卷积核，g是以真实目标框中心坐标为均值的二维高斯函数形式标签图；

根据式(1)、式(2)和式(3)，可以得到总体损失函数为公式(4)：

L＝L _cls+λ ₁L _loc1+λ ₂L _loc2 (4)；

其中λ ₁、λ ₂分别为正数值的正则参数，最后利用公式(4)的损失函数根据输入的训练数据进行反向传播，调整网络参数至损失函数收敛。

较佳的，所述孪生网络的目标跟踪过程步骤包括：

步骤1、在目标跟踪开始阶段，在第一帧视频中指定目标跟踪框，并以跟踪框内的图像作为目标图像；

步骤2、在后续跟踪过程中，在当前帧中围绕上一帧中的目标框为中心裁剪出高和宽为上一帧目标框高和宽2倍的图像区域作为当前帧中的目标搜索图像区域；

步骤3、基于训练完毕的孪生网络，将步骤1中得到的目标图像和步骤2中得到的目标搜索图像分别输入孪生网络的目标模板分支和目标搜索分支；

步骤4、以目标框估计模块分支输出的表征点构造预测目标框；

步骤5、前背景分类模块输出每个特征点的置信度，选取具有最大置信度特征点所对应的预测目标框作为最终目标框；

步骤6、重复步骤2到步骤5，直到完成所有视频帧上的目标跟踪任务。

综上所述，本发明主要具有以下有益效果：

本发明提出了一种基于表征点提取的视觉跟踪方法，使用9个表征点来描述目标物，并进一步在这9个点基础上作可形变卷积操作，以此提取出更为鲁棒的目标外观特征。相比于上述基于目标感知的跟踪方法，本发明根据表征点估计可形变卷积的偏移量参数，所提取的特征更具有针对性，更适合视觉跟踪任务要求。

附图说明

图1是本发明的整体网络结构图；

图2是本发明的跟踪方法流程图；

图3是本发明中滑雪运动员跟踪结果分析图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

参考图1至图3，一种基于目标物表征点估计的视觉跟踪方法，包括以下步骤：

S1、首帧中指定目标框作为目标模板；

S2、在下一帧中裁剪出目标搜索图像区域；

S3、将目标模板与搜索图像区域输入孪生网络；

其中，孪生网络的结构包括特征提取模块、互相关模块、目标框估计模块、前背景分类模块；孪生网络的每一支卷积神经网络都是用于提取深度特征的主干网络模块，互相关模块计算目标模板特征与搜索区域特征之间的匹配似然度，目标框估计模块是在表征点估计结果的基础上输出目标框。

其中，孪生网络具有2支卷积神经网络构成的分支，每支卷积神经网络的主干网络都采用了残差神经网络ResNet-50，残差神经网络ResNet-50包含第1卷积块、第2卷积块、第3卷积块、第4卷积块、第5卷积块，在残差神经网络ResNet-50的第4卷积块、第5卷积块中舍去了下采样操作并采用空洞卷积来扩大感受野，其中第4卷积块中的空洞率设置为2，第5卷积块中的空洞率设置为4，第4卷积块和第5卷积块分别用于目标模板图像和目标搜索图像深度特征的提取。

其中，使用第3卷积块、第4卷积块和第5卷积块输出的特征结果进行融合克服多层卷积神经网络所提取的特征存在的差异性，对于每一个卷积块的输出，将目标模板的特征图视作为卷积核，并与搜索图像的特征图作卷积计算，将获得的互相关特征图作为后续前背景分类、目标框位置估计的输入；在计算互相关图时，将卷积的跨度参数按{(1,1),(1,2),(2,1)}设置，从而得到3组互相关特征图，对于每一组互相关特征图，由第3卷积块、第4卷积块和第5卷积块计算所得的3个互相关特征图在对应通道上做加权求和操作，最后得到互相关特征图。

其中，目标框估计模块接收互相关特征图，输出每个特征点所对应表征点的偏移量和目标区域表征点位置，目标框估计模块的网络结构包括了2个分支，其中一个分支层由4层256输入输出通道、3×3卷积核的卷积层，以及1层256输入通道、18个输出通道、1×1卷积核的卷积层构成的主干层；另一个分支层包含了由1层256输出通道、3×3卷积核构成的可形变卷积层，以及1层由256输入通道、18输出通道、1×1卷积核构成的卷积层。

其中，主干层接收互相关模块输出的互相关特征图，其输出每个表征点的偏移量为表征点位移参数，由偏移量估计出每个特征点所属的初始目标框；分支层接收主干层第3层的特征图输出，其输出表征点进一步的偏移量；主干层输出的初始表征点位移量用来估计表征点初始位置，而后由表征点初始位置加上分支层输出的表征点偏移量可以得到表征点最终的位置结果，进一步在表征点的基础上直接得到目标框。

其中，前背景分类模块由3层卷积层和1层可形变卷积层依次连接构成，前背景分类模块接收互相关特征图作为输入，输出每个特征点所对应候选框的分类置信度；3层卷积层都具有256个输入输出通道、3×3卷积核；可形变卷积的输入通道数为256，具有3×3卷积核，可形变卷积接收目标框估计模块输出的表征点位移参数作为可形变卷积中卷积核的位移参数。

其中，孪生网络的训练步骤包括：

之后在目标框估计模块中，为主干层和分支层分别建立关于预测的初始目标框位置和预测的最终目标框位置的损失函数，将主干层以每个特征点为中心输出9个表征点的坐标偏移量，假设特征点坐标为(x，y)，表征点相对于特征点的偏移量就为(Δx _i，Δy _i)(i＝1，2，…，9)，得到每个表征点的坐标就为(x+Δx _i，y+Δy _i)；根据9个表征点构造预测目标框，目标框的左上角为

右下角坐标为

上式中，t表示真值，v表示预测值；

分支层利用主干层输出的偏移量做可形变卷积操作，同样输出表征点相对于特征点的偏移量，并在表征点的基础上采用与主干层相同的方式构造预测目标框，在预测目标框中，选取与真实目标框交并比大于0.5的预测目标框作为正实例，通过平滑L1损失函数计算预测目标框与真实目标框在中心点位置和长宽上的差值作为目标位置损失，为公式(2)：

上式中t表示真值，u表示预测值；

L _cls＝||p*h-g|| ²+λ||h|| ² (3)；

根据式(1)、式(2)和式(3)，可以得到总体损失函数为公式(4)：

L＝L _cls+λ ₁L _loc1+λ ₂L _loc2 (4)；

其中，孪生网络的目标跟踪过程步骤包括：

其中，本发明提出了一种基于表征点提取的视觉跟踪方法，使用9个表征点来描述目标物，并进一步在这9个点基础上作可形变卷积操作，以此提取出更为鲁棒的目标外观特征。相比于上述基于目标感知的跟踪方法，本发明根据表征点估计可形变卷积的偏移量参数，所提取的特征更具有针对性，更适合视觉跟踪任务要求。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

一种基于目标物表征点估计的视觉跟踪方法，其特征在于：包括以下步骤：

S1、首帧中指定目标框作为目标模板；

S2、在下一帧中裁剪出目标搜索图像区域；

S3、将目标模板与搜索图像区域输入孪生网络；

S4、目标框估计模块输出预测目标框和前背景分类模块输出置信度图；

S5、取具有最大置信度目标框作为最终目标框，并重复S2-S5步骤。
根据权利要求1所述的一种基于目标物表征点估计的视觉跟踪方法，其特征在于：所述孪生网络的结构包括特征提取模块、互相关模块、目标框估计模块、前背景分类模块；所述孪生网络的每一支卷积神经网络都是用于提取深度特征的主干网络模块，所述互相关模块计算目标模板特征与搜索区域特征之间的匹配似然度，所述目标框估计模块是在表征点估计结果的基础上输出目标框。
根据权利要求1所述的一种基于目标物表征点估计的视觉跟踪方法，其特征在于：所述孪生网络具有2支卷积神经网络构成的分支，每支所述卷积神经网络的主干网络都采用了残差神经网络ResNet-50，残差神经网络ResNet-50包含第1卷积块、第2卷积块、第3卷积块、第4卷积块、第5卷积块，在残差神经网络ResNet-50的第4卷积块、第5卷积块中舍去了下采样操作并采用空洞卷积来扩大感受野，其中第4卷积块中的空洞率设置为2，第5卷积块中的空洞率设置为4，第4卷积块和所述第5卷积块分别用于目标模板图像和目标搜索图像深度特征的提取。
根据权利要求3所述的一种基于目标物表征点估计的视觉跟踪方法，其特征在于：使用所述第3卷积块、第4卷积块和第5卷积块输出的特征结果进行融合克服多层卷积神经网络所提取的特征存在的差异性，对于每一个卷积块的输出，将目标模板的特征图视作为卷积核，并与搜索图像的特征图作卷积计算，将获得的互相关特征图作为后续前背景分类、目标框位置估计的输入；在计算互相关图时，将卷积的跨度参数按{(1,1),(1,2),(2,1)}设置，从而得到3组互相关特征图，对于每一组互相关特征图，由第3卷积块、第4卷积块和第5卷积块计算所得的3个互相关特征图在对应通道上做加权求和操作，最后得到互相关特征图。
根据权利要求2所述的一种基于目标物表征点估计的视觉跟踪方法，其特征在于：所述目标框估计模块接收互相关特征图，输出每个特征点所对应表征点的偏移量和目标区域表征点位置，所述目标框估计模块的网络结构包括了2个分支，其中一个分支层由4层256输入输出通道、3×3卷积核的卷积层，以及1层256输入通道、18个输出通道、1×1卷积核的卷积层构成的主干层；另一个分支层包含了由1层256输出通道、3×3卷积核构成的可形变卷积层，以及1层由256输入通道、18输出通道、1×1卷积核构成的卷积层。
根据权利要求5所述的一种基于目标物表征点估计的视觉跟踪方法，其特征在于：所述主干层接收互相关模块输出的互相关特征图，其输出每个表征点的偏移量为表征点位移参数，由偏移量估计出每个特征点所属的初始目标框；所述分支层接收主干层第3层的特征图输出，其输出表征点进一步的偏移量；所述主干层输出的初始表征点位移量用来估计表征点初始位置，而后由表征点初始位置加上分支层输出的表征点偏移量可以得到表征点最终的位置结果，进一步在表征点的基础上直接得到目标框。
根据权利要求2所述的一种基于目标物表征点估计的视觉跟踪方法，其特征在于：所述前背景分类模块由3层卷积层和1层可形变卷积层依次连接构成，所述前背景分类模块接收互相关特征图作为输入，输出每个特征点所对应候选框的分类置信度；所述3层卷积层都具有256个输入输出通道、3×3卷积核；所述可形变卷积的输入通道数为256，具有3×3卷积核，所述可形变卷积接收目标框估计模块输出的表征点位移参数作为可形变卷积中卷积核的位移参数。
根据权利要求6所述的一种基于目标物表征点估计的视觉跟踪方法，其特征在于：所述孪生网络的训练步骤包括：

进行训练数据的准备：训练数据选用已手工标注的目标检测图像数据集VID和YouTube-BoundingBoxes数据集，从每段视频中任意选取帧数相差不大于20帧的两帧图像，以其中一帧中目标为中心的矩形框为目标图像区域，假设该矩形框宽度为w，高度为h，将其缩放至127×127大小，其为目标模板的原始图像输入；另一帧中围绕目标中心裁剪出宽度为2w，高度为2h的目标搜索图像区域，随后将其缩放至255×255大小；每一对目标模板图像与目标搜索区域图像构成了1个训练数据；

之后在所述目标框估计模块中，为主干层和分支层分别建立关于预测的初始目标框位置和预测的最终目标框位置的损失函数，将主干层以每个特征点为中心输出9个表征点的坐标偏移量，假设特征点坐标为(x，y)，表征点相对于特征点的偏移量就为(Δx _i，Δy _i)(i＝1，2，…，9)，得到每个表征点的坐标就为(x+Δx _i，y+Δy _i)；根据9个表征点构造预测目标框，目标框的左上角为
右下角坐标为
在预测目标框中，将包含真实目标框中心点的预测目标框作为正实例，通过平滑L1损失函数计算正实例目标框与真实目标框左上角点和右下角点位置差，作为目标位置损失，为公式(1)：

上式中，t表示真值，v表示预测值；

所述分支层利用主干层输出的偏移量做可形变卷积操作，同样输出表征点相对于特征点的偏移量，并在表征点的基础上采用与主干层相同的方式构造预测目标框，在预测目标框中，选取与真实目标框交并比大于0.5的预测目标框作为正实例，通过平滑L1损失函数计算预测目标框与真实目标框在中心点位置和长宽上的差值作为目标位置损失，为公式(2)：

上式中t表示真值，u表示预测值；

利用前背景分类模块估计每个特征点属于目标框的置信度分数，其损失函数为关于分类误差的函数，为公式(3)：

L _cls＝||p*h-g|| ²+λ||h|| ²(3)；

上式中，p是前背景分类模块所接收的互相关特征图，h是卷积核，g是以真实目标框中心坐标为均值的二维高斯函数形式标签图；

根据式(1)、式(2)和式(3)，可以得到总体损失函数为公式(4)：

L＝L _cls+λ ₁L _loc1+λ ₂L _loc2(4)；

其中λ ₁、λ ₂分别为正数值的正则参数，最后利用公式(4)的损失函数根据输入的训练数据进行反向传播，调整网络参数至损失函数收敛。
根据权利要求1所述的一种基于目标物表征点估计的视觉跟踪方法，其特征在于：所述孪生网络的目标跟踪过程步骤包括：

步骤1、在目标跟踪开始阶段，在第一帧视频中指定目标跟踪框，并以跟踪框内的图像作为目标图像；

步骤2、在后续跟踪过程中，在当前帧中围绕上一帧中的目标框为中心裁剪出高和宽为上一帧目标框高和宽2倍的图像区域作为当前帧中的目标搜索图像区域；

步骤3、基于训练完毕的孪生网络，将步骤1中得到的目标图像和步骤2 中得到的目标搜索图像分别输入孪生网络的目标模板分支和目标搜索分支；

步骤4、以目标框估计模块分支输出的表征点构造预测目标框；

步骤5、前背景分类模块输出每个特征点的置信度，选取具有最大置信度特征点所对应的预测目标框作为最终目标框；

步骤6、重复步骤2到步骤5，直到完成所有视频帧上的目标跟踪任务。