WO2022227771A1

WO2022227771A1 - 目标跟踪方法、装置、设备和介质

Info

Publication number: WO2022227771A1
Application number: PCT/CN2022/075128
Authority: WO
Inventors: 路金诚; 张伟; 谭啸; 孙昊
Original assignee: 北京百度网讯科技有限公司
Priority date: 2021-04-27
Filing date: 2022-01-29
Publication date: 2022-11-03
Also published as: CN113112526B; CN113112526A

Abstract

本公开提供了一种目标跟踪方法、装置、设备和介质，涉及人工智能领域，具体为计算机视觉和深度学习技术，可应用于智能交通或智慧城市场景下。实现方案为：将跟踪目标与至少一个检测目标进行匹配；以及响应于确定至少一个检测目标中不包括与至少一部分跟踪目标中的至少一个跟踪目标匹配的检测目标，对至少一个跟踪目标中的每一个跟踪目标执行以下匹配操作：获取跟踪目标对应于历史匹配视频帧的运动参数；基于运动参数，确定跟踪目标在当前待检测视频帧中的预测位置参数；以及至少基于跟踪目标的预测位置参数和至少一个检测目标中的至少一部分检测目标各自相应的位置参数，确定至少一部分检测目标是否包括与跟踪目标匹配的检测目标。

Description

目标跟踪方法、装置、设备和介质

相关申请的交叉引用

本申请要求于2021年4月27日提交的中国专利申请202110462193.2的优先权，其全部内容通过引用整体结合在本申请中。

技术领域

本公开涉及人工智能领域，具体为计算机视觉和深度学习技术，可应用于智能交通或智慧城市场景下，特别涉及一种目标跟踪方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

背景技术

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术:人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

随着我国高速车辆总数、公路总里程不断攀升，道路交通管理面临着新的挑战，高速公路摄像头常规部署间隔3-5公里，无法保证道路区域全覆盖，且存在视野固定、人力物力成本高等问题。无人机、车辆、摩托车等载具具有机动性强、大视野、部署灵活的特点，在这些载具上安装监控摄像头弥补了传统视频监控的不足，对建立全方位、立体式、直观性的监控体系，实现智慧交通管理，提升应对突发事件的响应速度有着积极作用。

在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

发明内容

本公开提供了一种目标跟踪方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

根据本公开的一方面，提供了一种目标跟踪方法，包括：获取当前待检测视频帧中的至少一个检测目标；针对一个或多个跟踪目标中的至少一部分跟踪目标中的每一个跟踪目标，将跟踪目标与至少一个检测目标中的每一个检测目标进行匹配，以确定至少一个检测目标是否包括与跟踪目标匹配的检测目标；以及响应于确定至少一个检测目标中不包括与至少一部分跟踪目标中的至少一个跟踪目标匹配的检测目标，对至少一个跟踪目标中的每一个跟踪目标执行以下匹配操作：获取包括跟踪目标的历史匹配视频帧，以及跟踪目标对应于历史匹配视频帧的运动参数；基于运动参数，确定跟踪目标在当前待检测视频帧中的预测位置参数；以及至少基于跟踪目标在当前待检测视频帧中的预测位置参数和至少一个检测目标中的至少一部分检测目标各自相应的位置参数，确定至少一部分检测目标是否包括与跟踪目标匹配的检测目标。

根据本公开的另一方面，提供了一种目标跟踪装置，包括：获取单元，被配置为获取当前待检测视频帧中的至少一个检测目标；第一匹配单元，被配置为针对一个或多个跟踪目标中的至少一部分跟踪目标中的每一个跟踪目标，将跟踪目标与至少一个检测目标中的每一个检测目标进行匹配，以确定至少一个检测目标是否包括与跟踪目标匹配的检测目标；第二匹配单元，被配置为响应于确定至少一个检测目标中不包括与至少一部分跟踪目标中的至少一个跟踪目标匹配的检测目标，对至少一个跟踪目标中的每一个跟踪目标执行匹配操作，其中，第二匹配单元包括：第一获取子单元，被配置为获取包括跟踪目标的历史匹配视频帧，以及跟踪目标对应于历史匹配视频帧的运动参数；第一确定子单元，被配置为基于运动参数，确定跟踪目标在当前待检测视频帧中的预测位置参数；以及第二确定子单元，被配置为至少基于跟踪目标在当前待检测视频帧中的预测位置参数和至少一个检测目标中的至少一部分检测目标各自相应的位置参数，确定至少一部分检测目标是否包括与跟踪目标匹配的检测目标。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中存储器存储有可被至少一个处理器执行的指令，这些指令被至少一个处理器执行，以使至少一个处理器能够执行上述目标跟踪方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行上述目标跟踪方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，其中，计算机程序在被处理器执行时实现上述目标跟踪方法。

根据本公开的一个或多个实施例，首先对获取到一个或多个跟踪目标与当前待检测视频帧中的检测目标进行第一阶段匹配，再对匹配结果中未与任意检测目标匹配成功的跟踪目标进行第二阶段匹配，以得到最终匹配结果。其中，第二阶段匹配为基于根据跟踪目标对应于历史匹配视频帧的运动参数得到的其在当前待检测视频帧中的位置参数和检测目标的位置参数而进行的。由此，通过对跟踪目标和检测目标进行基于不同匹配机制的两阶段匹配，以确保在第一阶段中未成功匹配的跟踪目标和检测目标对可以经过第二阶段匹配进行进一步匹配，从而提升跟踪目标和检测目标进行匹配的准确率。此外，通过使用历史匹配视频帧中跟踪目标的运动参数预测跟踪目标在当前待检测视频帧中的预测位置参数，从而基于跟踪目标的预测位置参数和检测目标的位置参数进行第二阶段匹配，使得能够基于更充分的信息执行对跟踪目标和检测目标之间的匹配，进而能够进一步提升多目标跟踪的准确率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1示出了根据本公开示例性实施例的目标跟踪方法的流程图；

图2A-图2B示出了根据本公开示例性实施例的应用场景示意图；

图3示出了根据本公开示例性实施例的第一阶段匹配的流程图；

图4示出了根据本公开示例性实施例的目标跟踪方法的流程图；

图5示出了根据本公开示例性实施例的第二阶段匹配的流程图；

图6示出了根据本公开的实施例的目标跟踪装置的结构框图；以及

图7示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个元件与另一元件区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。

在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的，而并非旨在进行限制。除非上下文另外明确地表明，如果不特意限定要素的数量，则该要素可以是一个也可以是多个。此外，本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。

相关技术中，现有技术基于前后帧中的目标所在的位置以及对目标进行检测而的到的检测框的位置、重合度(交并比)等参数进行计算，以完成对目标的跟踪。而在相机和目标之间存在快速移动时，例如无人机机载相机拍摄场景、车载相机拍摄场景，由于目标帧间位移的不确定性较大，难以将前后帧的目标进行准确关联。

为解决上述问题，本公开首先对获取到一个或多个跟踪目标与当前待检测视频帧中的检测目标进行第一阶段匹配，再对匹配结果中未与任意检测目标匹配成功的跟踪目标进行第二阶段匹配，以得到最终匹配结果。其中，第二阶段匹配为基于根据跟踪目标对应于历史匹配视频帧的运动参数得到的其在当前待检测视频帧中的位置参数和检测目标的位置参数而进行的。由此，通过对跟踪目标和检测目标进行基于不同匹配机制的两阶段匹配，以确保在第一阶段中未成功匹配的跟踪目标和检测目标对可以经过第二阶段匹配进行进一步匹配，从而提升跟踪目标和检测目标进行匹配的准确率。此外，通过使用历史匹配视频帧中跟踪目标的运动参数预测跟踪目标在当前待检测视频帧中的预测位置参数，从而基于跟踪目标的预测位置参数和检测目标的位置参数进行第二阶段匹配，使得能够基于更充分的信息执行对跟踪目标和检测目标之间的匹配，进而能够进一步提升多目标跟踪的准确率。

下面将结合附图详细描述本公开的实施例。

根据本公开的一方面，提供了一种目标跟踪方法。如图1所示，目标跟踪方法可以包括：步骤S101、获取当前待检测视频帧中的至少一个检测目标；步骤S102、针对一个或多个跟踪目标中的至少一部分跟踪目标中的每一个跟踪目标，将跟踪目标与至少一个检测目标中的每一个检测目标进行匹配，以确定至少一个检测目标是否包括与跟踪目标匹配的检测目标；以及步骤S103、响应于确定至少一个检测目标中不包括与至少一部分跟踪目标中的至少一个跟踪目标匹配的检测目标，对至少一个跟踪目标中的每一个跟踪目标执行以下匹配操作：步骤S104、获取包括该跟踪目标的历史匹配视频帧，以及该跟踪目标对应于历史匹配视频帧的运动参数；步骤S105、基于运动参数，确定该跟踪目标在当前待检测视频帧中的预测位置参数；以及步骤S106、至少基于该跟踪目标在当前待检测视频帧中的预测位置参数和至少一个检测目标中的至少一部分检测目标各自相应的位置参数，确定至少一部分检测目标是否包括与该跟踪目标匹配的检测目标。由此，通过对跟踪目标和检测目标进行基于不同匹配机制的两阶段匹配，以确保在第一阶段中未成功匹配的跟踪目标和检测目标对可以经过第二阶段匹配进行进一步匹配，从而提升跟踪目标和检测目标进行匹配的准确率。此外，通过使用历史匹配视频帧中跟踪目标的运动参数预测跟踪目标在当前待检测视频帧中的预测位置参数，从而基于跟踪目标的预测位置参数和检测目标的位置参数进行第二阶段匹配，使得能够基于更充分的信息执行对跟踪目标和检测目标之间的匹配，进而能够进一步提升多目标跟踪的准确率。

根据一些实施例，当前待检测视频帧例如可以是由无人机机载相机拍摄的。通过使用无人机机载相机，能够更好地覆盖固定摄像头难以拍摄到的区域，从而实现智慧安防、抢险救灾、行为分析、智慧交通、智慧城市等多个领域的目标跟踪任务。

根据一些实施例，检测目标可以为车辆。由此，通过使用无人机对道路车辆进行监控，实现了实时道路巡检，并能够在出现交通事故或其他紧急情况时第一时间抵达现场获取图像序列或视频影像，以完成对多个车辆的目标跟踪任务。

根据一些实施例，图2A和图2B示出了本公开示例性的应用场景，例如可以为无人机在向画面上方行进时连续拍摄的两个视频帧。其中，图2A中检测到了三辆汽车18、33和12，同时在左方有一辆汽车的车头部分进入了画幅，但并未被检出；图2B检测到了四辆汽车，除了18、33和12外还有刚刚只露出车头部分的汽车25。通过该场景可以看出，在无人机与画面中右侧的两个车辆(33、12)同向行进时，这两辆汽车在两帧之间的位置变化较小，而相向的两辆汽车(18、25)与无人机的相对速度较大，因此其在两帧之间的位置变化同样较大。

根据一些实施例，至少一个检测目标可以是对当前待检测视频帧进行目标检测而得到的。示例性地，可以通过使用训练好的深度学习神经网络对当前待检测视频帧进行目标检测，已得到当前待检测视频帧中的至少一个车辆各自相应的检测框。

根据一些实施例，一个或多个跟踪目标例如可以为历史视频帧中检测到的车辆，例如上一帧中检测到的车辆，也可以为多个历史视频帧中出现但上一帧中未检测到的车辆，还可以为预设的作为主要跟踪目标的车辆，在此不做限定。

根据一些实施例，步骤S102、针对一个或多个跟踪目标中至少一部分跟踪目标的每一个跟踪目标，将该跟踪目标与至少一个检测目标中的每一个检测目标进行匹配，以确定至少一个检测目标是否包括与该跟踪目标匹配的检测目标例如可以为基于检测目标的ReID特征和跟踪目标的ReID特征进行级联匹配，从而得到检测目标和跟踪目标的级联匹配结果。级联匹配结果例如可以包括已关联的跟踪、未关联的跟踪和未关联的检测，分别对应已经匹配成功的跟踪目标-检测目标对、未成功匹配的跟踪目标和未成功匹配的检测目标。

根据一些实施例，至少一部分跟踪目标可以为已确认跟踪目标，一个或多个跟踪目标还可以包括未确认跟踪目标。未确认跟踪目标例如可以为在历史视频帧中连续出现次数小于预设数量的跟踪目标，而已确认跟踪目标例如可以为在历史视频帧中连续出现次数大于预设数量并且距离上一次出现小于预设时长的跟踪目标。可以根据需求设定预设数量和预设时长，预设数量和预设时长越短，模型中保留的历史跟踪目标越少，需要匹配的跟踪目标越少，模型的性能越好，但相应的模型的准确率会下降；而预设数量和预设时长越长，模型中保留的历史跟踪目标越多，需要匹配的跟踪目标越多，模型的准确率会有所提升，但模型的性能会下降。预设数量例如可以为1次、3次、5次或其他数值，预设时长例如可以为1帧、3帧、5帧或其他帧数，在此不做限定。

根据一些实施例，如图3所示，步骤S102、针对一个或多个跟踪目标中至少一部分跟踪目标的每一个跟踪目标，将跟踪目标与至少一个检测目标中的每一个检测目标进行匹配，以确定至少一个检测目标是否包括与跟踪目标匹配的检测目标可以包括：步骤S1021、获取每一个跟踪目标的颜色直方图；步骤S1022、获取每一个检测目标的颜色直方图；以及步骤S1023、基于每一个跟踪目标的颜色直方图和每一个检测目标的颜色直方图，将该跟踪目标与至少一个检测目标中的每一个检测目标进行匹配，以确定至少一个检测目标是否包括与该跟踪目标匹配的检测目标。由此，通过使用颜色直方图作为将跟踪目标和检测目标进行匹配的匹配依据，能够在保持高准确率的基础上大幅提升模型的性能，从而提升模型的整体表现。

颜色直方图为反映某个图像或图像中某个区域的像素颜色分布的统计表。其横坐标代表了不同灰度或不同颜色，而其纵坐标代表了该灰度或该颜色对应的像素数量或像素数量占比。颜色直方图的计算代价小，并且具有平移、旋转、缩放不变性的优点，在无人机道路巡检场景下，车辆的行进、转向等都不会带来颜色直方图的改变。示例性地，使用检测框区域的24维颜色直方图特征作为车辆的ReID特征，计算方法见如下公式：

其中，P为颜色直方图特征，c _i表示颜色为i的像素个数，p _i表示颜色为i的像素数量占比。

根据一些实施例，步骤S1023、基于每一个跟踪目标的颜色直方图和每一个检测目标的颜色直方图，将该跟踪目标与至少一个检测目标中的每一个检测目标进行匹配，以确定至少一个检测目标是否包括与该跟踪目标匹配的检测目标可以包括：计算每一个跟踪目标的颜色直方图和每一个检测目标的颜色直方图的余弦距离代价矩阵，并基于代价矩阵确定至少一个检测目标中是否包括与该跟踪目标匹配的检测目标。例如可以将代价矩阵项小于阈值视为检测目标和跟踪目标关联成功。由此，通过计算每一个跟踪目标的颜色直方图和每一个检测目标的颜色直方图之间的余弦距离，能够得到针对每一个跟踪目标和每一个检测目标的代价矩阵，从而能够确定这些跟踪目标和这些检测目标之间的匹配关系，而使用余弦距离并计算代价矩阵的方式能在保证匹配模型准确率的基础上满足无人机道路巡检场景下的性能需求。

根据一些实施例，如图4所示，目标跟踪方法还包括：步骤S403、响应于确定至少一个检测目标中包括与至少一部分跟踪目标中的一个跟踪目标匹配的检测目标，基于该检测目标更新该跟踪目标。图4中的步骤S401-步骤S402、步骤S404与图1中的步骤S101-步骤S103类似，在此不做赘述。由此，通过对第一阶段匹配后已关联的跟踪目标进行更新，实现对跟踪目标的实时更新。对跟踪目标的更新例如可以包括基于该检测目标的ReID更新该跟踪目标ReID，还可以包括更新该跟踪目标在当前视频帧的检测框位置、检测框宽高、运动方向和速度等运动参数等等。可以理解的是，可以在成功将跟踪目标和检测目标进行关联后立刻确定该跟踪目标在下一帧的预测位置参数，也可以在对下一帧的检测目标进行匹配时更新该跟踪目标的相关参数，在此不做限定。

根据一些实施例，步骤S103、响应于确定至少一个检测目标中不包括与至少一部分跟踪目标中的至少一个跟踪目标匹配的检测目标，对至少一个跟踪目标中的每一个跟踪目标执行匹配操作。其中，至少一个跟踪目标可以为级联匹配后未成功与检测目标匹配的未关联的跟踪，从而可以对这些未关联的跟踪可以执行第二阶段的匹配。

根据一些实施例，如图4所示，目标跟踪方法还可以包括：步骤S405、对未确认跟踪目标直接执行第二阶段匹配操作。由此，使得未确认的跟踪至多只进行一次匹配即第二阶段匹配，从而避免了参与第一阶段匹配的跟踪目标过多而消耗大量的计算资源，进而进一步提升目标跟踪模型的性能。

根据一些实施例，步骤S104、获取包括跟踪目标的历史匹配视频帧，以及跟踪目标对应于历史匹配视频帧的运动参数。这些历史匹配视频帧可以是跟踪目标出现的上一帧，也可以是多个历史视频帧，在此不做限定。跟踪目标对应于历史匹配视频帧的运动参数可以包括跟踪目标在历史匹配视频帧的运动方向、运动速度等。此外，还可以获取跟踪目标在历史匹配视频帧中的检测框，包括检测框的中心位置、检测框的宽高等参数。

根据一些实施例，步骤S105、基于运动参数，确定跟踪目标在当前待检测视频帧中的预测位置参数例如可以使用卡尔曼滤波法对跟踪目标在当前待检测视频帧中的预测位置参数进行更新。预测位置参数例如可以包括跟踪目标在当前待检测视频帧中的检测框的预测中心点位置、检测框的预测宽高等参数。

根据一些实施例，步骤S106例如可以为：基于跟踪目标对应于历史匹配视频帧的运动参数、跟踪目标在当前待检测视频帧中的预测位置参数和当前待检测视频帧中的至少一个检测目标中至少一部分检测目标各自相应的位置参数，确定至少一部分检测目标是否包括与跟踪目标匹配的检测目标。由此，能够将跟踪目标的运动参数也作为进行匹配的依据，从而进一步提升匹配的准确性，同时避免出现不同车道的车辆在前后帧的位置相近而导致错误匹配的问题。

根据一些实施例，确定至少一部分检测目标是否包括与跟踪目标匹配的检测目标可以包括：确定至少一部分检测目标中的每一个检测目标与跟踪目标的中心点加权距离，其中，中心点加权距离为基于跟踪目标的运动方向、跟踪目标和检测目标的连线方向、跟踪目标和检测目标的距离以及预设权重而计算得到的；以及基于至少一部分检测目标中的每一个检测目标与跟踪目标中心点加权距离，确定至少一部分检测目标是否包括与跟踪目标匹配的检测目标。由此，通过使用基于中心点加权距离的匹配方法，能够以基于跟踪目标的运动方向、跟踪目标和检测目标的连线方向、跟踪目标和检测目标的距离以及预设权重而计算得到的中心点加权距离作为匹配所依据的代价，从而提供了更为具体并更符合逻辑的匹配依据，进而进一步提升匹配的准确性。示例性地，中心点加权距离可以通过如下公式计算：

d＝(w ₀+cosθ)d ₀

其中d ₀为检测目标与跟踪目标中心点之间的欧式距离，cosθ为中心点连线与车辆运动方向夹角，w ₀为基础权重系数。

根据一些实施例，如图5所示，匹配操作还可以包括：步骤S504、响应于确定至少一部分检测目标中包括与至少一个跟踪目标中的一个跟踪目标匹配的检测目标，基于该检测目标更新该跟踪目标。图5中的步骤S501-步骤S503与图1中的步骤S104-步骤S106类似，在此不做赘述。由此，在检测目标和跟踪目标成功匹配后，基于该检测目标对该跟踪目标进行更新，以进一步实现对跟踪目标的实时更新。

根据一些实施例，基于该检测目标更新该跟踪目标可以包括：将当前待检测视频帧确定为该跟踪目标的历史匹配视频帧；以及响应于确定该跟踪目标为未确认跟踪目标，并且在包括所述当前待检测视频帧的大于预设数量的连续多个历史匹配视频帧中均检测到了该跟踪目标，将该跟踪目标更新为已确认跟踪目标。可以理解的是，对第二阶段匹配后的已关联的跟踪目标的更新与对第一阶段匹配后的已关联的跟踪目标的更新类似，在此不做赘述。

根据一些实施例，如图5所示，匹配操作还可以包括：步骤S505、响应于确定至少一部分检测目标中包括与至少一个跟踪目标中的每一个跟踪目标均不匹配的一个或多个检测目标，将一个或多个检测目标确定为未确认跟踪目标。由此，通过将经过两阶段匹配后仍未匹配成功的检测目标设定为未确认跟踪目标，从而实现了对跟踪目标的实时更新，以确保当前待检测视频帧中的每一个检测到的检测目标均能作为下一帧的跟踪目标。

根据一些实施例，如图5所示，匹配操作还可以包括：步骤S506、针对所述至少一部分跟踪目标中的任一个跟踪目标，响应于确定至少一部分检测目标中不包括与该跟踪目标匹配的检测目标，根据该跟踪目标的未更新时长，确定是否将该跟踪目标删除。未更新时长为上一次检测到该跟踪目标的历史匹配视频帧到当前待检测视频帧的时间间隔。由此，针对已确认的跟踪目标，通过根据跟踪目标的未更新时长确定是否将跟踪目标删除，能够确保跟踪目标中不再包括长期未更新的跟踪目标或临时出现的未确认目标，从而进一步实现对跟踪目标的实时更新。

根据一些实施例，步骤S506可以包括：响应于确定至少一部分检测目标中不包括与该跟踪目标匹配的检测目标，并且该跟踪目标为未确认跟踪目标，删除该跟踪目标；响应于确定至少一部分检测目标中不包括与该跟踪目标匹配的检测目标，并且该跟踪目标为已确认跟踪目标，判断该跟踪目标的未更新时间；响应于该跟踪目标的未更新时间大于预设时长，删除该跟踪目标；以及响应于该跟踪目标的未更新时间小于等于预设时长，更新该跟踪目标。由此，通过上述步骤可以实现对两个阶段匹配后仍未成功匹配的跟踪目标，基于该跟踪目标是否已确认以及其未更新时间对其进行删除或更新，从而提升了模型的性能并进一步实现了对跟踪目标的实时更新。

根据本公开的另一方面，还提供了一种目标跟踪装置。如图6所示，目标跟踪装置600可以包括：获取单元610，被配置为获取当前待检测视频帧中的至少一个检测目标；第一匹配单元620，被配置为针对一个或多个跟踪目标中的至少一部分跟踪目标中的每一个跟踪目标，将跟踪目标与至少一个检测目标中的每一个检测目标进行匹配，以确定至少一个检测目标是否包括与跟踪目标匹配的检测目标；第二匹配单元630，被配置为响应于确定至少一个检测目标中不包括与至少一部分跟踪目标中的至少一个跟踪目标匹配的检测目标，对至少一个跟踪目标中的每一个跟踪目标执行匹配操作，其中，第二匹配单元630包括：第一获取子单元631，被配置为获取包括跟踪目标的历史匹配视频帧，以及跟踪目标对应于历史匹配视频帧的运动参数；第一确定子单元632，被配置为基于运动参数，确定跟踪目标在当前待检测视频帧中的预测位置参数；以及第二确定子单元633，被配置为至少基于跟踪目标在当前待检测视频帧中的预测位置参数和至少一个检测目标中的至少一部分检测目标各自相应的位置参数，确定至少一部分检测目标是否包括与跟踪目标匹配的检测目标。

目标跟踪装置600的单元610-单元630和子单元631-子单元633的操作与前面描述的步骤S101-步骤S106的操作类似，在此不做赘述。

根据本公开的实施例，还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

参考图7，现将描述可以作为本公开的服务器或客户端的电子设备600的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706、输出单元707、存储单元708以及通信单元709。输入单元706可以是能向设备700输入信息的任何类型的设备，输入单元706可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入，并且可以包括但不限于鼠标、键盘、触摸屏、轨迹板、轨迹球、操作杆、麦克风和/或遥控器。输出单元707可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元708可以包括但不限于磁盘、光盘。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如目标跟踪方法。例如，在一些实施例中，目标跟踪方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的目标跟踪方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行目标跟踪方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行、也可以顺序地或以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

虽然已经参照附图描述了本公开的实施例或示例，但应理解，上述的方法、系统和设备仅仅是示例性的实施例或示例，本发明的范围并不由这些实施例或示例限制，而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外，可以通过不同于本公开中描述的次序来执行各步骤。进一步地，可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进，在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims

一种目标跟踪方法，包括：

获取当前待检测视频帧中的至少一个检测目标；

针对一个或多个跟踪目标中的至少一部分跟踪目标中的每一个跟踪目标，将所述跟踪目标与所述至少一个检测目标中的每一个检测目标进行匹配，以确定所述至少一个检测目标是否包括与所述跟踪目标匹配的检测目标；以及

响应于确定所述至少一个检测目标中不包括与所述至少一部分跟踪目标中的至少一个跟踪目标匹配的检测目标，对所述至少一个跟踪目标中的每一个跟踪目标执行以下匹配操作：

获取包括所述跟踪目标的历史匹配视频帧，以及所述跟踪目标对应于所述历史匹配视频帧的运动参数；

基于所述运动参数，确定所述跟踪目标在所述当前待检测视频帧中的预测位置参数；以及

至少基于所述跟踪目标在所述当前待检测视频帧中的预测位置参数和所述至少一个检测目标中的至少一部分检测目标各自相应的位置参数，确定所述至少一部分检测目标是否包括与所述跟踪目标匹配的检测目标。
如权利要求1所述的方法，其中，所述至少一部分跟踪目标为已确认跟踪目标，所述一个或多个跟踪目标还包括未确认跟踪目标，所述方法还包括：

对所述未确认跟踪目标直接执行所述匹配操作。
如权利要求2所述的方法，其中，所述匹配操作还包括：

响应于确定所述至少一部分检测目标中包括与所述至少一个跟踪目标中的每一个跟踪目标均不匹配的一个或多个检测目标，将所述一个或多个检测目标确定为未确认跟踪目标。
如权利要求2所述的方法，其中，基于所述跟踪目标对应于所述历史匹配视频帧的运动参数、所述跟踪目标在所述当前待检测视频帧中的预测位置参数和所述当前待检测视频帧中的至少一个检测目标中至少一部分检测目标各自相应的位置参数，确定所述至少一部分检测目标是否包括与所述跟踪目标匹配的检测目标。
如权利要求4所述的方法，其中，确定所述至少一部分检测目标是否包括与所述跟踪目标匹配的检测目标包括：

确定所述至少一部分检测目标中的每一个检测目标与所述跟踪目标的中心点加权距离，其中，所述中心点加权距离为基于所述跟踪目标的运动方向、所述跟踪目标和所述检测目标的连线方向、所述跟踪目标和所述检测目标的距离以及预设权重而计算得到的；以及

基于所述至少一部分检测目标中的每一个检测目标与所述跟踪目标中心点加权距离，确定所述至少一部分检测目标是否包括与所述跟踪目标匹配的检测目标。
如权利要求2所述的方法，其中，所述匹配操作还包括：

针对所述至少一部分跟踪目标中的任一个跟踪目标，响应于确定所述至少一部分检测目标中不包括与所述跟踪目标匹配的检测目标，根据所述跟踪目标的未更新时长，确定是否将所述跟踪目标删除，其中，所述未更新时长为上一次检测到所述跟踪目标的历史匹配视频帧到所述当前待检测视频帧的时间间隔。
如权利要求2所述的方法，其中，所述匹配操作还包括：

响应于确定所述至少一部分检测目标中包括与所述至少一个跟踪目标中的一个跟踪目标匹配的检测目标，基于该检测目标更新该跟踪目标。
如权利要求7所述的方法，其中，基于该检测目标更新该跟踪目标包括：

将所述当前待检测视频帧确定为该跟踪目标的历史匹配视频帧；以及

响应于确定该跟踪目标为未确认跟踪目标，并且在包括所述当前待检测视频帧的大于预设数量的连续多个历史匹配视频帧中均检测到了该跟踪目标，将该跟踪目标更新为已确认跟踪目标。
如权利要求1所述的方法，还包括：

响应于确定所述至少一个检测目标中包括与所述至少一部分跟踪目标中的一个跟踪目标匹配的检测目标，基于该检测目标更新该跟踪目标。
如权利要求1所述的方法，其中，针对所述一个或多个跟踪目标中至少一部分跟踪目标的每一个跟踪目标，将所述跟踪目标与所述至少一个检测目标中的每一个检测目标进行匹配，以确定所述至少一个检测目标是否包括与所述跟踪目标匹配的检测目标包括：

获取所述每一个跟踪目标的颜色直方图；

获取所述每一个检测目标的颜色直方图；以及

基于所述每一个跟踪目标的颜色直方图和所述每一个检测目标的颜色直方图，将所述跟踪目标与所述至少一个检测目标中的每一个检测目标进行匹配，以确定所述至少一个检测目标是否包括与所述跟踪目标匹配的检测目标。
如权利要求10所述的方法，其中，基于所述每一个跟踪目标的颜色直方图和所述每一个检测目标的颜色直方图，将所述跟踪目标与所述至少一个检测目标中的每一个检测目标进行匹配，以确定所述至少一个检测目标是否包括与所述跟踪目标匹配的检测目标包括：

计算所述每一个跟踪目标的颜色直方图和所述每一个检测目标的颜色直方图的余弦距离代价矩阵，并基于所述代价矩阵确定所述至少一个检测目标中是否包括与所述跟踪目标匹配的检测目标。
如权利要求1所述的方法，其中，所述至少一个检测目标是对所述当前待检测视频帧进行目标检测而得到的。
如权利要求1所述的方法，其中，所述当前待检测视频帧是由无人机机载相机拍摄的。
如权利要求1所述的方法，其中，所述检测目标为车辆。
一种目标跟踪装置，包括：

获取单元，被配置为获取当前待检测视频帧中的至少一个检测目标；

第一匹配单元，被配置为针对一个或多个跟踪目标中的至少一部分跟踪目标中的每一个跟踪目标，将所述跟踪目标与所述至少一个检测目标中的每一个检测目标进行匹配，以确定所述至少一个检测目标是否包括与所述跟踪目标匹配的检测目标；

第二匹配单元，被配置为响应于确定所述至少一个检测目标中不包括与所述至少一部分跟踪目标中的至少一个跟踪目标匹配的检测目标，对所述至少一个跟踪目标中的每一个跟踪目标执行匹配操作，其中，所述第二匹配单元包括：

第一获取子单元，被配置为获取包括所述跟踪目标的历史匹配视频帧，以及所述跟踪目标对应于所述历史匹配视频帧的运动参数；

第一确定子单元，被配置为基于所述运动参数，确定所述跟踪目标在所述当前待检测视频帧中的预测位置参数；以及

第二确定子单元，被配置为至少基于所述跟踪目标在所述当前待检测视频帧中的预测位置参数和所述至少一个检测目标中的至少一部分检测目标各自相应的位置参数，确定所述至少一部分检测目标是否包括与所述跟踪目标匹配的检测目标。
一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-14中任一项所述的方法。
一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-14中任一项所述的方法。
一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现权利要求1-14中任一项所述的方法。