WO2020029874A1

WO2020029874A1 - 对象跟踪方法及装置、电子设备及存储介质

Info

Publication number: WO2020029874A1
Application number: PCT/CN2019/099001
Authority: WO
Inventors: 王强; 朱政; 李搏; 武伟
Original assignee: 北京市商汤科技开发有限公司
Priority date: 2018-08-07
Filing date: 2019-08-02
Publication date: 2020-02-13
Also published as: CN109284673A; US20210124928A1; CN109284673B; JP7093427B2; KR20210012012A; SG11202011644XA; JP2021526269A

Abstract

本公开实施例公开了一种对象跟踪方法及装置、电子设备及存储介质，其中，方法包括：根据视频中参考帧图像中的目标对象，检测所述视频中当前帧图像中的至少一备选对象；获取所述视频中至少一在先帧图像中的干扰对象；根据获取的干扰对象调整所述至少一备选对象的筛选信息；确定筛选信息满足预定条件的备选对象，为所述当前帧图像的目标对象。本公开实施例可以提升对象跟踪的判别能力。

Description

对象跟踪方法及装置、电子设备及存储介质

本公开要求在2018年08月07日提交中国专利局、申请号为CN201810893022.3、发明名称为“对象跟踪方法及装置、电子设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本公开中。

技术领域

本公开涉及计算机视觉技术，尤其是一种对象跟踪方法及装置、电子设备及存储介质。

背景技术

目标跟踪是计算机视觉研究的热点之一，它在许多领域具有广泛的应用。例如：相机的跟踪对焦、无人机的自动目标跟踪、人体跟踪、交通监控系统中的车辆跟踪、人脸跟踪和智能交互系统中的手势跟踪等。

发明内容

本公开实施例提供一种对象跟踪技术方案。

根据本公开实施例的一个方面，提供一种对象跟踪方法，包括：

根据视频中参考帧图像中的目标对象，检测所述视频中当前帧图像中的至少一备选对象；

获取所述视频中至少一在先帧图像中的干扰对象；

根据获取的干扰对象调整所述至少一备选对象的筛选信息；

确定筛选信息满足预定条件的备选对象，为所述当前帧图像中的目标对象。

根据本公开实施例的另一个方面，提供一种对象跟踪装置，包括：

检测单元，用于根据视频中参考帧图像中的目标对象，检测所述视频中当前帧图像中的至少一备选对象；

获取单元，用于获取所述视频中至少一在先帧图像中的干扰对象；

调整单元，用于根据获取的干扰对象调整所述至少一备选对象的筛选信息；

确定单元，用于确定筛选信息满足预定条件的备选对象，为所述当前帧图像的目标对象。

根据本公开实施例的又一个方面，提供的一种电子设备，包括上述任一实施例所述的装置。

根据本公开实施例的再一个方面，提供的一种电子设备，包括：

存储器，用于存储可执行指令；以及

处理器，用于执行所述可执行指令从而完成上述任一实施例所述的方法。

根据本公开实施例的再一个方面，提供的一种计算机程序，包括计算机可读代码，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现上述任一实施例所述方法的指令。

根据本公开实施例的再一个方面，提供的一种计算机存储介质，用于存储计算机可读指令，所述指令被执行时实现上述任一实施例所述的方法。

基于本公开上述实施例提供的对象跟踪方法及装置、电子设备、计算机程序及存储介质，通过根据视频中参考帧图像中的目标对象，检测视频中当前帧图像中的至少一备选对象，获取视频中至少一在先帧图像中的干扰对象，根据获取的干扰对象调整至少一备选对象的筛选信息，确定筛选信息满足预定条件的备选对象，为当前帧图像的目标对象，本公开实施例在对象跟踪过程中，利用当前帧图像之前的在先帧图像中的干扰对象，来调整备选对象的筛选信息，从而在利用备选对象的筛选信息来确定当前帧图像中的目标对象时，可以有效地抑制备选对象中的干扰对象，从备选对象中获取目标对象，从而在确定当前帧图像中的目标对象的过程中，可以有效抑制目标对象周围的干扰对象对判别结果造成的影响，提升；了目标对象跟踪的判别能力。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同描述一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1为本公开一些实施例的对象跟踪方法的流程图；

图2为本公开另一些实施例的对象跟踪方法的流程图；

图3为本公开又一些实施例的对象跟踪方法的流程图；

图4A至图4C为本公开一些实施例的对象跟踪方法的一个应用示例的示意图；

图4D及图4E为本公开一些实施例的对象跟踪方法的另一个应用示例的示意图；

图5为本公开一些实施例的对象跟踪装置的结构示意图；

图6为本公开另一些实施例的对象跟踪装置的结构示意图；

图7是本公开一些实施例提供的电子设备的结构示意图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

另外，公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

本公开实施例可以应用于计算机系统/服务器，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

图1为本公开一些实施例的对象跟踪方法的流程图。如图1所示，该方法包括：

102，根据视频中参考帧图像中的目标对象，检测视频中当前帧图像中的至少一备选对象。

在本实施例中，进行对象跟踪的视频可以是从视频采集设备获取的一段视频，例如：视频采集设备可以包括摄像机和摄像头等，也可以是从存储设备获取的一段视频，例如：存储设备可以包括光盘、硬盘和U盘等还可以是从网络服务器获取的一段视频，本实施例对待处理视频的获取方式不作限定。参考帧图像可以是视频中的首帧图像，也可以是对视频进行对象跟踪处理的首帧图像，还可以是视频的某个中间帧图像，本实施例对参考帧图像的选取不作限定。当前帧图像可以是视频中除参考帧图像外的一帧图像，它可以位于参考帧图像之前，也可以位于参考帧图像之后，本实施例对此不作限定。在一个可选的例子中，视频中的当前帧图像位于参考帧图像之后。

可选地，可以确定参考帧图像中的目标对象的图像与当前帧图像的相关性，根据相关性获得当前帧图像中至少一备选对象的检测框和筛选信息。在一个可选的例子中，可以根据参考帧图像中的目标对象的图像的第一特征与当前帧图像的第二特征，确定参考帧图像中的目标对象的图像与当前帧图像的相关性，例如：通过卷积处理获得相关性。本实施例对确定参考帧图像中的目标对象的图像与当前帧图像的相关性的方式不作限定。其中，备选对象的检测框例如可以通过非极大值抑制(non maximum suppression，NMS)的方式获得，备选对象的筛选信息例如可以是备选对象的检测框的得分、选中概率等信息，本实施例对根据相关性获得备选对象的检测框和筛选信息的方式不作限定。

在一个可选示例中，该操作102可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的检测单元执行。

104，获取视频中至少一在先帧图像中的干扰对象。

在本实施例中，在先帧图像可以包括：参考帧图像，和/或，位于参考帧图像与当前帧图像之间的至少一中间帧图像。

可选地，可以根据预设的干扰对象集合，获取视频中至少一在先帧图像中的干扰对象，可以通过预设干扰对象集合，在对视频中的每一帧图像进行对象跟踪处理时，将至少一备选对象中未确定为目标对象中的一个或多个备选对象，确定为当前帧图像中的干扰对象，放入干扰对象集合中。在一个可选的例子中，可以将未确定为目标对象的至少一备选对象备中，筛选信息满足干扰对象预定条件的备选对象，确定干扰对象，放入干扰对象集合中。例如：筛选信息为检测框的得分，干扰对象预定条件可以为检测框的得分大于预设阈值。

在一个可选的例子中，可以获取视频中所有在先帧图像中的干扰对象。

在一个可选示例中，该操作104可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的获取单元执行。

106，根据获取的干扰对象调整至少一备选对象的筛选信息。

可选地，可以确定至少一备选对象和获取的干扰对象之间的第一相似度，根据第一相似度调整至少一备选对象的筛选信息。在一个可选的例子中，可以根据至少一备选对象的特征和获取的干扰对象的特征，确定至少一备选对象和获取的干扰对象之间的第一相似度。在一个可选的例子中，筛选信息为检测框的得分，当备选对象与获取的干扰对象之间的第一相似度较高时，可以调低该备选对象的检测框的得分，反之，当备选对象与获取的干扰对象之间的第一相似度较低时，可以调高该备选对象的检测框的得分或者保持得分不变。

可选地，当获取的干扰对象的数量非一个时，可以通过计算备选对象与获取的所有干扰对象的相似度的加权平均值，利用该加权平均值来调整该备选对象的筛选信息，其中，加权平均值中各干扰对象的权重与该干扰对象对目标对象选取的干扰程度相关，例如：对目标对象选取的干扰越大的干扰对象的权重的数值也越大。在一个可选的例子中，筛选信息为检测框的得分，可以以备选对象与获取的干扰对象的相关系数来表示备选对象和获取的干扰对象之间的第一相似度，可以通过参考帧图像中的目标对象与备选对象的相关系数，与备选对象与获取的干扰对象的第一相似度的加权平均值的差值，来调整该备选对象的检测框的得分。

在一个可选示例中，该操作106可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的调整单元执行。

108，确定筛选信息满足预定条件的备选对象，为当前帧图像的目标对象。

可选地，可以确定筛选信息满足预定条件的备选对象的检测框，为当前帧图像的目标对像的检测框。在一个可选的例子中，筛选信息为检测框的得分，可以根据备选对象的检测框的得分对备选对象进行排序，将得分最高的备选对象的检侧框，作为当前帧图像的目标对象的检测框，从而确定当前帧图像中的目标对象。

可选地，还可以将备选对象的检测框的位置和形状，与视频中当前帧图像的前一帧图像中的目标对象的检测框的位置和形状进行比较，根据比较结果调整当前帧图像中的备选对象的检侧框的得分，并对调整后的当前帧图像中的备选对象的检侧框的得分重新进行排序，将重新排序后得分最高的备选对象的检测框，作为当前帧图像中的目标对象的检测框。例如：对与前一帧图像相比，位置移动量较大，形状变化量较大的备选对象的检测框进行降低得分的调整。

可选地，在确定筛选信息满足预定条件的备选对象的检测框，为当前帧图像的目标对像的检测框之后，还可以在当前帧图像中显示目标对象的检测框，以在当前帧图像中标示出目标对象的位置。

在一个可选示例中，该操作108可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的确定单元执行。

基于本实施例提供的对象跟踪方法，通过根据视频中参考帧图像中的目标对象，检测视频中当前帧图像中的至少一备选对象，获取视频中至少一在先帧图像中的干扰对象，根据获取的干扰对象调整至少一备选对象的筛选信息，确定筛选信息满足预定条件的备选对象，为当前帧图像的目标对象，在对象跟踪过程中，利用当前帧图像之前的在先帧图像中的干扰对象，来调整备选对象的筛选信息，从而在利用备选对象的筛选信息来确定当前帧图像中的目标对象时，可以有效地抑制备选对象中的干扰对象，从备选对象中获取目标，从而在确定当前帧图像中的目标对象的过程中，可以有效抑制目标对象周围的干扰对象对判别结果造成的影响，提升对象跟踪的判别能力。

图4A至图4C为本公开一些实施例的对象跟踪方法的一个应用示例的示意图。如图4A至图4C所示，其中，图4A为对象跟踪的待处理视频的当前帧图像，在图4A中，方框a、b、d、e、f、g为当前帧图像中备选对象检测框，c方框为当前帧图像中目标对象的检测框，图4B为采用现有的对象跟踪方法获得的当前帧图像中备选对象的检测框的得分的示意图，从图4B中，可以看出我们期望获得最高得分的目标对象，即c方框对应的目标对象，由于受到干扰对象的影响而并未获得最高的得分，图4C为采用本公开一些实施例的对象跟踪方法获得的当前帧图像中备选对象的检测框的得分的示意图，从图4C中，可以看出我们期望获得最高得分的目标对象，即c方框对应的目标对象，获得了最高的得分，而它周围干扰对象的得分受到了抑制。

在一些实施例中，对象跟踪方法还可以获取视频中参考帧图像与当前帧图像之间的至少一中间帧图像中的目标对象，根据获取的至少一中间帧图像中的目标对象优化至少一备选对象的筛选信息。在一个可选的例子中，可以确定至少一备选对象和获取的至少一中间帧图像中的目标对象之间的第二相似度，然后根据第二相似度优化至少一备选对象的筛选信息。例如：可以根据至少一备选对象的特征和获取的至少一中间帧图像中的目标对象的特征，确定至少一备选对象和获取的至少一中间帧图像中的目标对象之间的第二相似度。

可选地，可以从视频中参考帧图像与当前帧图像之间的已经确定目标对象的至少一中间帧图像中获取目标对象。在一个可选的例子中，可以获取视频中参考帧图像与当前帧图像之间所有已经确定目标对象的中间帧图像中的目标对象。

可选地，当获取的目标对象的数量非一个时，可以通过计算备选对象与获取的所有目标对象的相似度的加权平均值，利用该加权平均值来优化该备选对象的筛选信息，其中，加权平均值中各目标对象的权重与该目标对象对当前帧图像中的目标对象选取的影响程度相关，例如：与当前帧图像时间越接近的一帧图像的目标对象的权重的数值也越大。在一个可选的例子中，筛选信息为检测框的得分，可以以备选对象与获取的干扰对象的相关系数来表示备选对象和获取的干扰对象之间的第一相似度，可以通过参考帧图像中的目标对象与备选对象的相关系数与备选对象与获取的目标对象的第二相似度的加权平均值，与备选对象与获取的干扰对象的第一相似度的加权平均值的差值，来调整该备选对象的检测框的得分。

本实施例利用从视频中参考帧图像与当前帧图像之间获得的一中间帧图像的目标对象，来优化备选对象的筛选信息，可以使所获得的当前帧图像中备选对象的筛选信息能够更加真实的反映各备选对像的属性，从而在确定待处理视频当前帧图像中目标对象的位置时可以获得更加准确的判别结果。

在一些实施例中，在操作102根据视频中参考帧图像中的目标对象，检测视频中当前帧图像中的至少一备选对象之前，还可以获取当前帧图像中的搜索区域，以提高运算速度，操作102可以在当前帧图像中的搜索区域中，根据视频中参考帧图像中的目标对象，检测视频中当前帧图像中的至少一备选对象。其中，获取当前帧图像中的搜索区域的操作可以通过预定的搜索算法对当前帧图像中目标对象可能出现的区域进行估计和假设。

可选地，在操作108确定筛选信息满足预定条件的备选对象，为当前帧图像的目标对象之后，还可以根据当前帧图像中的目标对象的筛选信息，确定视频中当前帧图像的下一帧图像中的搜索区域。下面将结合图2，详细描述根据当前帧图像中的目标对象的筛选信息确定视频中当前帧图像的下一帧图像中的搜索区域的流程。如图2所示，该方法包括：

202，检测目标对象的筛选信息是否小于第一预设阈值。

可选地，第一预设阈值可以根据对目标对象的筛选信息与目标对象被遮挡或者离开视野的状态通过统计确定。在一个可选的例子中，筛选信息为目标对象的检测框的得分。

若目标对象的筛选信息小于第一预设阈值，执行操作204；和/或，若目标对象的筛选信息大于或等于第一预设阈值，执行操作206。

204，根据预设步长逐步扩大搜索区域，直到扩大后的搜索区域覆盖当前帧图像，以扩大后的搜索区域为当前帧图像的下一帧图像中的搜索区域。

可选地，在操作204之后，还可以以视频中当前帧图像的下一帧图像为当前帧图像，在扩大后的搜索区域中，确定当前帧图像的目标对象。

206，以视频中当前帧图像的下一帧图像为当前帧图像，获取当前帧图像中的搜索区域。

可选地，以视频中当前帧图像的下一帧图像为当前帧图像，获取当前帧图像中的搜索区域之后，还可以在当前帧图像中的搜索区域中，确定当前帧图像的目标对象。

在一个可选示例中，该操作202-206可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的搜索单元执行。

本实施例通过将当前帧图像中的目标对象的筛选信息与第一预设阈值进行比较，在当前帧图像中目标对象的筛选信息小于第一预设阈值时，对搜索区域进行扩大，直到扩大后的搜索区域覆盖所述当前帧图像，可以在对象跟踪的当前帧图像出现目标对象被遮挡或者目标对象离开视野时，利用与当前帧图像相同的扩大后的搜索区域覆盖整个当前帧图像，并在对下一帧图像进行对象跟踪时，利用扩大后的搜索区域覆盖整个下一帧图像，当目标对象在下一帧图像中出现时，由于扩大后的搜索区域覆盖整个下一帧图像，因此不会出现目标对象出现在搜索区域之外的区域而造成目标对象无法跟踪的情形，可以实现长时间对目标对象的跟踪。

在一些实施例中，在操作204根据预设步长逐步扩大所述搜索区域，直到扩大后的搜索区域覆盖所述当前帧图像之后，还可以以视频中当前帧图像的下一帧图像作为当前帧图像，获取扩大后的搜索区域为当前帧图像中的搜索区域，在扩大后的搜索区域中，确定当前帧图像的目标对象，并且还可以根据当前帧图像中目标对象的筛选信息，确定是否需要恢复当前帧图像中的搜索区域。下面将结合图3，详细描述根据当前帧图像中的目标对象的筛选信息确定恢复当前帧图像中的搜索区域的流程。如图3所示，该方法包括：

302，检测目标对象的筛选信息是否大于第二预设阈值。

其中，第二预设阈值大于第一预设阈值，第二预设阈值可以根据对目标对象的筛选信息与目标对象未遮挡和未离开视野的状态通过统计确定。

若目标对象的筛选信息大于第二预设阈值，执行操作304；和/或，目标对象的筛选信息小于或等于第二预设阈值，执行操作306。

304，获取所当前帧图像中的搜索区域。

可选地，在操作304之后，从在当前帧图像中的搜索区域中，确定当前帧图像的目标对象。

306，视频中当前帧图像的下一帧图像作为当前帧图像，获取扩大后的搜索区域为当前帧图像中的搜索区域。

其中，在以视频中当前帧图像的下一帧图像作为当前帧图像，获取扩大后的搜索区域为当前帧图像中的搜索区域像之后，还可以在扩大后的搜索区域中，确定当前帧图像的目标对象。

在一个可选示例中，该操作302-306可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的搜索单元执行。

本实施例在对根据当前帧图像中的目标对象的筛选信息扩大搜索区域后的下一帧图像进行对象跟踪时，将下一帧图像作为当前帧图像，然后将当前帧图像中的目标对象的筛选信息与第二预设阈值进行比较，在当前帧图像中的目标对象的筛选信息大于第二预设阈值时，获取当前帧图像中的搜索区域，并在搜索区域中，确定当前帧图像的目标对象，可以在对象跟踪的当前帧图像中的目标对象未被遮挡和目标对象未离开视野时，恢复原来的对象跟踪方法，即利用预设的搜索算法获取当前帧图像中的搜索区域进行对象跟踪，可以减少数据的处理量，提高运算速度。

图4D及图4E为本公开一些实施例的对象跟踪方法的另一个应用示例的示意图。如图4D及图4E所示，其中，图4D为进行对象跟踪的视频的四帧图像，在图4D中，四帧图像的序号分别为692、697、722和727，a方框为确定当前帧图像中搜索区域的搜索框，b方框为表示目标对象真实轮廓的方框，c方框为目标跟踪的检测框，从图4D中，可以看出697和722两帧图像的目标对象均不在视野范围内，因此对搜索区域进行了扩大，692和727两帧图像的目标对象又回到视野范围内，因此对搜索区域又恢复为正常的搜索区域。图4E为图4D中目标对象的得分的变化情况及目标对象与检测框的重叠情况的变化示意图。其中的相表示目标对象的得分的变化情况，e线表示目标对象与检测框的重叠情况，从图4D中，可以看出目标对象的得分在697时迅速减小，同时目标对象与检测框的重叠情况在697时也迅速减小，目标对象的得分在722时已经恢复成较大数值，目标对象与检测框的重叠情况在722时也迅速提升，因此利用对目标对象得分的判断可以改善目标对象不在视野范围或者被遮挡时对象跟踪存在的问题。

在一些实施例中，操作108确定筛选信息满足预定条件的备选对象，为当前帧图像的目标对象之后，还可以识别当前帧图像中目标对象的类别，可以增强对象跟踪的功能，扩展对象跟踪的应用场景。

在一些实施例中，上述各实施例的对象跟踪方法可以通过神经网络执行。

可选地，在执行对象跟踪方法之前，可以根据样本图像对该神将网络进行训练。其中，用于训练神经网络的样本图像可以包括正样本和负样本，其中正样本包括：预设训练数据集中的正样本图像和预设测试数据集中的正样本图像。例如：预设训练数据集可以采用Youtube BB和VID上的视频序列，预设测试数据集可以采用来自ImageNet和COCO的检测数据。本实施例通过采用测试数据集中的正样本图像对神经网络进行训练，可以增加正样本的类别，保证神经网络的泛华性能，从而提升对象跟踪的判别能力。

可选地，正样本除了包括预设训练数据集中的正样本图像和预设测试数据集中的正样本图像外，还可以包括：对预设测试数据集中的正样本图像进行数据增强处理获得的正样本图像。例如：除了可以采用平移、尺度变化和光照变化等外常规的数据增强处理外，还可以采用运动模糊等针对特定运动模式的数据增强处理，本实施例对于数据增强处理的方法不作限定。本实施例通过采用对测试数据集中的正样本图像进行数据增强处理获得正样本图像对神经网络进行训练，可以增加正样本图像的多样性，提高神经网络的鲁棒性，避免过拟合的发生。

可选地，负样本可以包括：具有与目标对象相同类别的对象的负样本图像和/或具有与目标对象不同类别的对象的负样本图像。例如：根据预设测试数据集中的正样本图像获得的负样本图像，可以是选自预设测试数据集中正样本图像中目标对象周围的背景的图像；这两类负样本图像通常是不具有语义的图像；而具有与目标对象相同类别的对象的负样本图像，可以是随机从其他视频或者图像中抽取一帧图像，该图像中的对象与正样本图像中的目标对象具有相同的类别；具有与目标对象不同类别的对象的负样本图像，可以是随机从其他视频或者图像中抽取一帧图像，该图像中的对象与正样本图像中的目标对象具有不同的类别；这两类负样本图像通常是具有语义的图像。本实施例通过采用具有与目标对象相同类别的对象的负样本图像和/或具有与目标对象不同类别的对象的负样本图像对神经网络进行训练，可以保证正负样本图像的分布均衡，改善神经网络的性能，从而提升对象跟踪的判别能力。

本公开实施例提供的任一种对象跟踪方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种对象跟踪方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种对象跟踪方法。下文不再赘述。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图5为本公开一些实施例的对象跟踪装置的流程图。如图5所示，该装置包括：检测单元510、获取单元520、调整单元530和确定单元540。其中：

检测单元510，用于根据视频中参考帧图像中的目标对象，检测视频中当前帧图像中的至少一备选对象。

在本实施例中，进行对象跟踪的视频可以是从视频采集设备获取的一段视频，例如：视频采集设备可以包括摄像机和摄像头等，也可以是从存储设备获取的一段视频，例如：存储设备可以包括光盘、硬盘和U盘等还可以是从网络服务器获取的一段视频；本实施例对待处理视频的获取方式不作限定。参考帧图像可以是视频中的首帧图像，也可以是对视频进行对象跟踪处理的首帧图像，还可以是视频的某个中间帧图像，本实施例对参考帧图像的选取不作限定。当前帧图像可以是视频中除参考帧图像外的一帧图像，它可以位于参考帧图像之前，也可以位于参考帧图像之后，本实施例对此不作限定。在一个可选的例子中，视频中的当前帧图像位于参考帧图像之后。

可选地，检测单元510可以确定参考帧图像中的目标对象的图像与当前帧图像的相关性，根据相关性获得当前帧图像中至少一备选对象的检测框和筛选信息。在一个可选的例子中，检测单元510可以根据参考帧图像中的目标对象的第一特征与当前帧图像的第二特征，确定参考帧图像中的目标对象的图像与当前帧图像的相关性例如：通过卷积处理获得相关性。本实施例对确定参考帧图像中的目标对象的图像与当前帧图像的相关性的方式不作限定。其中，备选对象的检测框例如可以通过非极大值抑制(non maximum suppression，NMS)的方式获得，备选对象的筛选信息，是与备选对象本身的性质有关的信息，可以根据这些信息将该备选对象与其他备选对象相区别，例如可以是备选对象的检测框的得分、选中概率等信息，其中检测框的得分和选中概率可以是根据相关性获得的备选对象的相关系数相关系数，本实施例对根据相关性获得备选对象的检测框和筛选信息的方式不作限定。

获取单元520，用于获取视频中至少一在先帧图像中的干扰对象。

可选地，获取单元520可以根据预设的干扰对象集合，获取视频中至少一在先帧图像中的干扰对象，可以通过预设干扰对象集合，在对视频中的每一帧图像进行对象跟踪处理时，将至少一备选对象中未确定为目标对象的一个或多个备选对象，确定为当前帧图像中的干扰对象，放入干扰对象集合中。在一个可选的例子中，可以将未确定为目标对象的至少一备选对象备中，筛选信息满足干扰对象预定条件的备选对象，确定干扰对象，放入干扰对象集合中。例如：筛选信息为检测框的得分，干扰对象预定条件可以为检测框的得分大于预设阈值。

在一个可选的例子中，获取单元520可以获取视频中所有在先帧图像中的干扰对象。

调整单元530，用于根据获取的干扰对象调整至少一备选对象的筛选信息。

可选地，调整单元530可以确定至少一备选对象和获取的干扰对象之间的第一相似度，根据第一相似度调整至少一备选对象的筛选信息。在一个可选的例子中，调整单元530可以根据至少一备选对象的特征和获取的干扰对象的特征，确定至少一备选对象和获取的干扰对象之间的第一相似度。在一个可选的例子中，筛选信息为检测框的得分，当备选对象与获取的干扰对象之间的第一相似度较高时，可以调低该备选对象的检测框的得分，反之，当备选对象与获取的干扰对象之间的第一相似度较低时，可以调高该备选对象的检测框的得分或者保持得分不变。

确定单元540，用于确定筛选信息满足预定条件的备选对象，为当前帧图像的目标对象。

可选地，确定单元540可以确定筛选信息满足预定条件的备选对象的检测框，为当前帧图像的目标对像的检测框。在一个可选的例子中，筛选信息为检测框的得分，可以根据备选对象的检测框的得分对备选对象进行排序，将得分最高的备选对象的检侧框，作为当前帧图像的目标对象的检测框，从而确定当前帧图像中的目标对象。

可选地，该装置还可以包括：显示单元，在确定筛选信息满足预定条件的备选对象的检测框，为当前帧图像的目标对像的检测框之后，显示单元还可以在当前帧图像中显示目标对象的检测框，以在当前帧图像中标示出目标对象的位置。

基于本实施例提供的对象跟踪装置，通过根据视频中参考帧图像中的目标对象，检测视频中当前帧图像中的至少一备选对象，获取视频中至少一在先帧图像中的干扰对象，根据获取的干扰对象调整至少一备选对象的筛选信息，确定筛选信息满足预定条件的备选对象，为当前帧图像的目标对象，在对象跟踪过程中，利用当前帧图像之前的在先帧图像中的干扰对象，来调整备选对象的筛选信息，从而在利用备选对象的筛选信息来确定当前帧图像中的目标对象时，可以有效地抑制备选对象中的干扰对象，从备选对象中获取目标，从而在确定当前帧图像中的目标对象的过程中，可以有效抑制目标对象周围的干扰对象对判别结果造成的影响，提升对象跟踪的判别能力。

在一些实施例中，获取单元520还可以获取视频中参考帧图像与当前帧图像之间的至少一中间帧图像中的目标对象，该装置还可以包括优化单元，用于根据获取的至少一中间帧图像中目标对象优化至少一备选对象的筛选信息。在一个可选的例子中，优化单元可以确定至少一备选对象和获取的至少一中间帧图像中目标对象之间的第二相似度，然后根据第二相似度优化至少一备选对象的筛选信息。例如：优化单元可以根据至少一备选对象的特征和获取的至少一中间帧图像中目标对象的特征，确定至少一备选对象和获取的至少一中间帧图像中目标对象之间的第二相似度。

可选地，获取单元520可以从视频中参考帧图像与当前帧图像之间的已经确定目标对象的至少一中间帧图像中获取目标对象。在一个可选的例子中，获取单元520可以获取视频中参考帧图像与当前帧图像之间所有已经确定目标对象的中间帧图像中的目标对象。

图6为本公开另一些实施例的对象跟踪装置的流程图。如图6所示，该装置除了包括检测单元610、获取单元620、调整单元630和确定单元640外，与图5所示的实施例相比，该装置还包括搜索单元650，搜索单元650用于获取当前帧图像中的搜索区域，检测单元610用于在搜索区域中，根据视频中参考帧图像中的目标对象，检测视频中当前帧图像中的至少一备选对象。其中，获取当前帧图像中的搜索区域的操作可以通过预定的搜索算法对当前帧图像中目标对象可能出现的区域进行估计和假设。

可选地，搜索单元650，还用于根据当前帧图像中的目标对象的筛选信息，确定搜索区域。

在一些实施例中，搜索单元650，用于检测目标对象的筛选信息是否小于第一预设阈值；若目标对象的筛选信息小于第一预设阈值，根据预设步长逐步扩大所述搜索区域，直到扩大后的搜索区域覆盖当前帧图像；和/或，若目标对象的筛选信息大于或等于第一预设阈值，以视频中当前帧图像的下一帧图像作为当前帧图像，获取当前帧图像中的搜索区域。

在一些实施例中，搜索单元650，还用于在扩大后的搜索区域中，确定当前帧图像的目标对象后，检测目标对象的筛选信息是否大于第二预设阈值；其中第二预设阈值大于第一预设阈值；若目标对象的筛选信息大于第二预设阈值，获取当前帧图像中的搜索区域；和/或，若目标对象的筛选信息小于或等于第二预设阈值，以视频中当前帧图像的下一帧图像作为当前帧图像，获取扩大后的搜索区域为当前帧图像中的搜索区域。

在一些实施例中，对象跟踪装置还包括识别单元，在确定筛选信息满足预定条件的备选对象，为当前帧图像的目标对象之后，识别单元还可以识别当前帧图像中目标对象的类别，可以增强对象跟踪的功能，扩展对象跟踪的应用场景。

在一些实施例中，对象跟踪装置包括神经网络，通过神经网络执行对象跟踪方法。

在一个可选的例子中，由于采用其它方法获得的训练数据的“标注数据”比较稀疏，即深度图中有效的像素值比较少，因此采用双目图像立体匹配获得的深度图作为训练数据的“标注数据”。

另外，本公开实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图7，其示出了适于用来实现本公开实施例的终端设备或服务器的电子设备700的结构示意图：如图7所示，电子设备700包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)701，和/或一个或多个图像处理器(GPU)713等，处理器可以根据存储在只读存储器(ROM)702中的可执行指令或者从存储部分708加载到随机访问存储器(RAM)703中的可执行指令而执行各种适当的动作和处理。通信部712可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，处理器可与只读存储器702和/或随机访问存储器730中通信以执行可执行指令，通过总线704与通信部712相连、并经通信部712与其他目标设备通信，从而完成本公开实施例提供的任一项方法对应的操作，例如，根据视频中参考帧图像中的目标对象，检测所述视频中当前帧图像中的至少一备选对象；获取所述视频中至少一在先帧图像中的干扰对象；根据获取的干扰对象调整所述至少一备选对象的筛选信息；确定所述筛选信息满足预定条件的备选对象，为所述当前帧图像的目标对象。

此外，在RAM 703中，还可存储有装置操作所需的各种程序和数据。CPU701、ROM702以及RAM703通过总线704彼此相连。在有RAM703的情况下，ROM702为可选模块。RAM703存储可执行指令，或在运行时向ROM702中写入可执行指令，可执行指令使中央处理单元701执行上述对象跟踪方法对应的操作。输入/输出(I/O)接口705也连接至总线704。通信部712可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

需要说明的，如图7所示的架构仅为一种可选实现方式，在实践过程中，可根据实际需要对上述图7的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU713和CPU701可分离设置或者可将GPU713集成在CPU701上，通信部可分离设置，也可集成设置在CPU701或GPU713上，等等。这些可替换的实施方式均落入本公开公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本公开实施例提供的方法步骤对应的指令，例如，根据视频中参考帧图像中的目标对象，检测所述视频中当前帧图像中的至少一备选对象；获取所述视频中至少一在先帧图像中的干扰对象；根据获取的干扰对象调整所述至少一备选对象的筛选信息；确定筛选信息满足预定条件的备选对象，为所述当前帧图像的目标对象。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时，执行本公开的方法中限定的上述功能。

在一个或多个可选实施方式中，本公开实施例还提供了一种计算机程序程序产品，用于存储计算机可读指令，该指令被执行时使得计算机执行上述任一可能的实现方式中的图像恢复方法。

该计算机程序产品可以通过硬件、软件或其结合的方式实现。在一个可选例子中，该计算机程序产品体现为计算机存储介质，在另一个可选例子中，该计算机程序产品体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

在一个或多个可选实施方式中，本公开实施例还提供了一种对象跟踪方法及其对应的装置、电子设备、计算机存储介质、计算机程序以及计算机程序产品，其中，该方法包括：第一装置向第二装置发送对象跟踪指示，该指示使得第二装置执行上述任一可能的实施例中的对象跟踪方法；第一装置接收第二装置发送的对象跟踪的结果。

在一些实施例中，该对象跟踪指示可以为调用指令，第一装置可以通过调用的方式指示第二装置执行对象跟踪，相应地，响应于接收到调用指令，第二装置可以执行上述对象跟踪方法中的任意实施例中的步骤和/或流程。

应理解，本公开实施例中的“第一”、“第二”等术语仅仅是为了区分，而不应理解成对本公开实施例的限定。

还应理解，在本公开中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

本公开的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims

一种对象跟踪方法，其特征在于，包括：

根据视频中参考帧图像中的目标对象，检测所述视频中当前帧图像中的至少一备选对象；

获取所述视频中至少一在先帧图像中的干扰对象；

根据获取的干扰对象调整所述至少一备选对象的筛选信息；

确定筛选信息满足预定条件的备选对象，为所述当前帧图像中的目标对象。
根据权利要求1所述的方法，其特征在于，所述视频中的所述当前帧图像位于所述参考帧图像之后；

所述在先帧图像包括：所述参考帧图像，和/或，位于所述参考帧图像与所述当前帧图像之间的至少一中间帧图像。
根据权利要求1或2所述的方法，其特征在于，还包括：

将所述至少一备选对象中未确定为目标对象的一个或多个备选对象，确定为所述当前帧图像中的干扰对象。
根据权利要求1至3中任意一项所述的方法，其特征在于，所述根据获取的干扰对象调整所述至少一备选对象的筛选信息，包括：

确定所述至少一备选对象和获取的干扰对象之间的第一相似度；

根据所述第一相似度调整所述至少一备选对象的筛选信息。
根据权利要求4所述的方法，其特征在于，所述确定所述至少一备选对象和获取的干扰对象之间的第一相似度，包括：

根据所述至少一备选对象的特征和获取的干扰对象的特征确定所述第一相似度。
根据权利要求1至5中任意一项所述的方法，其特征在于，还包括：

获取所述视频中所述参考帧图像与所述当前帧图像之间的至少一中间帧图像中的目标对象；

根据所述至少一中间帧图像中的目标对象优化所述至少一备选对象的筛选信息。
根据权利要求6所述的方法，其特征在于，所述根据所述至少一中间帧图像中的目标对象优化所述至少一备选对象的筛选信息，包括：

确定所述至少一备选对象和所述至少一中间帧图像中的目标对象之间的第二相似度；

根据所述第二相似度优化所述至少一备选对象的筛选信息。
根据权利要求7所述的方法，其特征在于，所述确定所述至少一备选对象和所述至少一中间帧图像中的目标对象之间的第二相似度，包括：

根据所述至少一备选对象的特征和所述至少一中间帧图像中的目标对象的特征确定所述第二相似度。
根据权利要求1至8中任意一项所述的方法，其特征在于，所述根据视频中参考帧图像中的目标对象，检测所述视频中当前帧图像中的至少一备选对象，包括：

确定所述参考帧图像中的目标对象的图像与所述当前帧图像的相关性；

根据所述相关性获得所述当前帧图像中至少一备选对象的检测框和所述筛选信息。
根据权利要求9所述的方法，其特征在于，所述确定所述参考帧图像中的目标对象的图像与所述当前帧图像的相关性，包括：

根据所述参考帧图像中的目标对象的图像的第一特征与所述当前帧图像的第二特征确定所述相关性。
根据权利要求9或10所述的方法，其特征在于，所述确定筛选信息满足预定条件的备选对象，为所述当前帧图像中的目标对象，包括：

确定筛选信息满足预定条件的备选对象的检测框，为所述当前帧图像的目标对像的检测框。
根据权利要求11所述的方法，其特征在于，所述确定筛选信息满足预定条件的备选对象的检测框，为所述当前帧图像的目标对像的检测框之后，还包括：

在所述当前帧图像中显示所述目标对象的检测框。
根据权利要求1至12中任意一项所述的方法，其特征在于，所述根据视频中参考帧图像中的目标对象，检测所述视频中当前帧图像中的至少一备选对象之前，还包括：

获取所述当前帧图像中的搜索区域；

所述根据视频中参考帧图像中的目标对象，检测所述视频中当前帧图像中的至少一备选对象，包括：

在所述当前帧图像中的搜索区域中，根据视频中参考帧图像中的目标对象，检测所述视频中当前帧图像中的至少一备选对象。
根据权利要求1至13中任意一项所述的方法，其特征在于，所述确定筛选信息满足预定条件的备选对象，为所述当前帧图像的目标对象之后，还包括：

根据所述当前帧图像中的目标对象的筛选信息，确定所述视频中所述当前帧图像的下一帧图像中的搜索区域。
根据权利要求14所述的方法，其特征在于，所述根据所述当前帧图像中的目标对象的筛选信息，确定所述视频中所述当前帧图像的下一帧图像中的搜索区域，包括：

检测所述目标对象的筛选信息是否小于第一预设阈值；

若所述目标对象的筛选信息小于第一预设阈值，根据预设步长逐步扩大所述搜索区域，直到所述扩大后的搜索区域覆盖所述当前帧图像，以所述扩大后的搜索区域为所述当前帧图像的下一帧图像中的搜索区域；和/或，

若所述目标对象的筛选信息大于或等于第一预设阈值，以所述视频中所述当前帧图像的下一帧图像作为当前帧图像，获取所述当前帧图像中的搜索区域。
根据权利要求15所述的方法，其特征在于，所述根据预设步长逐步扩大所述搜索区域，直到所述者扩大后的搜索区域覆盖所述当前帧图像之后，还包括：

以所述视频中所述当前帧图像的下一帧图像作为当前帧图像；

在所述扩大后的搜索区域中，确定所述当前帧图像的目标对象；

检测所述目标对象的筛选信息是否大于第二预设阈值；其中所述第二预设阈值大于所述第一预设阈值；

若所述目标对象的筛选信息大于第二预设阈值，获取所述当前帧图像中的搜索区域；和/或，

若所述目标对象的筛选信息小于或等于第二预设阈值，以所述视频中所述当前帧图像的下一帧图像为当前帧图像，获取所述扩大后的搜索区域为所述当前帧图像中的搜索区域。
根据权利要求1至16中任意一项所述的方法，其特征在于，所述确定筛选信息满足预定条件的备选对象，为所述当前帧图像的目标对象之后，还包括：

识别所述当前帧图像中的目标对象的类别。
根据权利要求1至17中任意一项所述的方法，其特征在于，通过神经网络执行所述对象跟踪方法，所述神经网络根据样本图像训练获得，所述样本图像包括正样本和负样本，所述正样本包括：预设训练数据集中的正样本图像和预设测试数据集中的正样本图像。
根据权利要求18所述的方法，其特征在于，所述正样本还包括：对所述预设测试数据集中的正样本图像进行数据增强处理获得的正样本图像。
根据权利要求18或19所述的方法，其特征在于，所述负样本包括：具有与所述目标对象相同类别的对象的负样本图像，和/或，具有与所述目标对象不同类别的对象的负样本图像。
一种对象跟踪装置，其特征在于，包括：

检测单元，用于根据视频中参考帧图像中的目标对象，检测所述视频中当前帧图像中的至少一备选对象；

获取单元，用于获取所述视频中至少一在先帧图像中的干扰对象；

调整单元，用于根据获取的干扰对象调整所述至少一备选对象的筛选信息；

确定单元，用于确定筛选信息满足预定条件的备选对象，为所述当前帧图像的目标对象。
根据权利要求21所述的装置，其特征在于，所述视频中的所述当前帧图像位于所述参考帧图像之后；

所述在先帧图像包括：所述参考帧图像，和/或，位于所述参考帧图像与所述当前帧图像之间的至少一中间帧图像。
根据权利要求21或22所述的装置，其特征在于，所述确定单元，还用于将所述至少一备选对象中未确定为目标对象的一个或多个备选对象，确定为所述当前帧图像中的干扰对象。
根据权利要求21至23中任意一项所述的装置，其特征在于，所述调整单元，用于确定所述至少一备选对象和获取的干扰对象之间的第一相似度；以及根据所述第一相似度调整所述至少一备选对象的筛选信息。
根据权利要求24所述的装置，其特征在于，所述调整单元，用于根据所述至少一备选对象的特征和获取的干扰对象的特征确定所述第一相似度。
根据权利要求21至25中任意一项所述的装置，其特征在于，所述获取单元，还用于获取所述视频中所述参考帧图像与所述当前帧图像之间的至少一中间帧图像中的目标对象；

所述装置还包括：

优化单元，用于根据所述至少一中间帧图像中的目标对象优化所述至少一备选对象的筛选信息。
根据权利要求26所述的装置，其特征在于，所述优化单元，用于确定所述至少一备选对象和所述至少一中间帧图像中的目标对象之间的第二相似度；以及根据所述第二相似度优化所述至少一备选对象的筛选信息。
根据权利要求27所述的装置，其特征在于，所述优化单元，用于根据所述至少一备选对象的特征和所述至少一中间帧图像中的目标对象的特征确定所述第二相似度。
根据权利要求21至28中任意一项所述的装置，其特征在于，所述检测单元，用于确定所述参考帧图像中的目标对象的图像与所述当前帧图像的相关性；以及根据所述相关性获得所述当前帧图像中至少一备选对象的检测框和所述筛选信息。
根据权利要求29所述的装置，其特征在于，所述检测单元，用于根据所述参考帧图像中的目标对象的图像的第一特征与所述当前帧图像的第二特征确定所述相关性。
根据权利要求29或30所述的装置，其特征在于，所述确定单元，用于确定筛选信息满足预定条件的备选对象的检测框，为所述当前帧图像的目标对像的检测框。
根据权利要求31所述的装置，其特征在于，还包括：

显示单元，用于在所述当前帧图像中显示所述目标对象的检测框。
根据权利要求21至32中任意一项所述的装置，其特征在于，还包括：

搜索单元，用于获取所述当前帧图像中的搜索区域；

所述检测单元，用于在所述当前帧图像中的搜索区域中，根据视频中参考帧图像中的目标对象，检测所述视频中当前帧图像中的至少一备选对象。
根据权利要求21至33中任意一项所述的装置，其特征在于，所述搜索单元，还用于根据所述当前帧图像中的目标对象的筛选信息，确定所述视频中所述当前帧图像的下一帧图像中的搜索区域。
根据权利要求21至34中任意一项所述的装置，其特征在于，所述搜索单元，用于检测所述目标对象的筛选信息是否小于第一预设阈值；若所述目标对象的筛选信息小于第一预设阈值，根据预设步长逐步扩大所述搜索区域，直到所述扩大后的搜索区域覆盖所述当前帧图像，以所述扩大后的搜索区域为所述当前帧图像的下一帧图像中的搜索区域；和/或，若所述目标对象的筛选信息大于或等于第一预设阈值，以所述视频中所述当前帧图像的下一帧图像为当前帧图像，获取所述当前帧图像中的搜索区域。
根据权利要求35所述的装置，其特征在于，所述搜索单元，还用于在所述扩大后的搜索区域中，确定所述当前帧图像的目标对象后，检测所述目标对象的筛选信息是否大于第二预设阈值；其中所述第二预设阈值大于所述第一预设阈值；若所述目标对象的筛选信息大于第二预设阈值，获取所述当前帧图像中的搜索区域；和/或，若所述目标对象的筛选信息小于或等于第二预设阈值，以所述视频中所述当前帧图像的下一帧图像为当前帧图像，获取所述扩大后的搜索区域为所述当前帧图像中的搜索区域。
根据权利要求21至36中任意一项所述的装置，其特征在于，还包括：

识别单元，用于识别所述当前帧图像中的目标对象的类别。
根据权利要求21至37中任意一项所述的装置，其特征在于，包括神经网络，通过所述神经网络执行对象跟踪方法，所述神经网络根据样本图像训练获得，所述样本图像包括正样本和负样本，所述正样本包括：预设训练数据集中的正样本图像和预设测试数据集中的正样本图像。
根据权利要求38所述的装置，其特征在于，所述正样本还包括：对所述预设测试数据集中的正样本图像进行数据增强处理获得的正样本图像。
根据权利要求38或39所述的装置，其特征在于，所述负样本包括：具有与所述目标对象相同类别的对象的负样本图像，和/或，具有与所述目标对象不同类别的对象的负样本图像。
一种电子设备，其特征在于，包括权利要求21至40中任意一项所述的装置。
一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；以及

处理器，用于执行所述可执行指令从而完成权利要求1至20中任意一项所述的方法。
一种计算机存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时实现权利要求1至20中任意一项所述的方法。
一种计算机程序，包括计算机可读代码，其特征在于，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现权利要求1至20中任意一项所述的方法的指令。