WO2020052319A1

WO2020052319A1 - 目标跟踪方法、装置、介质以及设备

Info

Publication number: WO2020052319A1
Application number: PCT/CN2019/093793
Authority: WO
Inventors: 张�浩; 牛志伟
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2018-09-14
Filing date: 2019-06-28
Publication date: 2020-03-19
Also published as: TWI786313B; CN109325967A; US20210019627A1; EP3770854A1; EP3770854A4; CN109325967B; TW202011268A

Abstract

本申请实施例公开了一种目标跟踪方法、装置、设备及介质，该方法包括：服务器获取第一视频流，对第一视频流中的各视频帧执行如下数据处理操作：服务器先根据目标检测模型和当前视频帧，检测得到当前视频帧中的候选区域；服务器根据特征提取模型和候选区域，提取得到各候选区域对应的深度特征；服务器根据各候选区域对应的深度特征和在前视频帧中跟踪到的目标的深度特征，计算各候选区域对应的特征相似度；最终服务器基于各候选区域对应的特征相似度，确定当前视频帧中跟踪到的目标。利用目标检测模型在当前视频帧范围内进行目标检测，并且基于深度特征进行目标跟踪，能够有效地防止发生跟踪漂移或跟丢跟踪目标的情况发生，保证目标跟踪的准确性。

Description

目标跟踪方法、装置、介质以及设备

本申请要求于2018年09月14日提交中国专利局、申请号为201811076284.7、发明名称“目标跟踪方法、装置、介质以及设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及计算机视觉技术领域，尤其涉及一种目标跟踪方法、装置、计算机存储介质以及设备。

背景技术

目标跟踪是计算机视觉研究领域的热点之一，目标跟踪在视频监控、导航、军事、人机交互、虚拟现实、自动驾驶等多个领域都有着广泛的应用。简单来说，目标跟踪就是对视频中给定的目标进行分析跟踪，以确定视频中目标的确切位置。

相关的目标跟踪方法多为经典的基于相关滤波跟踪原理的跟踪方法，该跟踪方法是根据视频的前一帧中跟踪到的目标区域更新相关滤波器，进而根据更新后的相关滤波器对当前视频帧进行目标跟踪，在跟踪过程中，相关滤波器根据前一帧跟踪到的目标区域确定当前视频帧的跟踪范围，并在该跟踪范围内采用局部滑窗方式以形状特征为基准在当前视频帧中进行目标跟踪。

由于目标运动的不可控性，而且目标区域范围也发生较大变化，因此，采用这种局部滑窗方式针对运动的目标进行跟踪会发生跟踪漂移或者遮挡更丢问题。

发明内容

本申请实施例提供了一种目标跟踪方法、装置、介质以及设备，能够有效地防止跟丢跟踪目标以及跟踪漂移等情况的发生，保证目标跟踪的准确度。

有鉴于此，本申请实施例第一方面提供了一种目标跟踪方法，所述方法包括：

服务器获取第一视频流，针对所述第一视频流中的视频帧执行如下数据处理，以实现在所述第一视频流中的目标跟踪，所述数据处理包括：

服务器根据目标检测模型和当前视频帧，检测得到所述当前视频帧中的候选区域；

服务器根据特征提取模型和所述候选区域，提取得到所述候选区域对应的深度特征，所述特征提取模型是端到端的神经网络模型，以图像作为输入，以图像中可运动体的深度特征作为输出；

服务器根据所述候选区域对应的深度特征和在前视频帧中跟踪到的目标的深度特征，计算所述候选区域对应的特征相似度；

服务器根据所述候选区域对应的特征相似度，确定所述当前视频帧中跟踪到的目标。

本申请实施例第二方面提供了一种目标跟踪方法，所述方法包括：

服务器对第一视频流中的目标进行跟踪，其中，所述第一视频流是第一摄像头拍摄到的；

在所述目标在所述第一视频流中消失后，所述服务器根据所述第一视频流中最后一次跟踪到的目标区域，从与所述第一摄像头相邻的摄像头中选择用于跨屏目标跟踪的第二摄像头；

所述服务器获取所述第二摄像头拍摄的第二视频流；

所述服务器在所述第二视频流中对所述目标进行跟踪。

本申请实施例第三方面提供了一种目标跟踪装置，所述装置包括一个或多个处理器，以及一个或多个存储程序单元的存储器，其中，程序单元由处理器执行，该程序单元包括：

获取模块，被设置为获取第一视频流；

处理模块，被设置为针对所述第一视频流中的视频帧执行如下数据处理，以实现在所述第一视频流中的目标跟踪；

所述处理模块包括：

检测子模块，被设置为根据目标检测模型和当前视频帧，检测得到所述当前视频帧中的候选区域；

特征提取子模块，被设置为根据特征提取模型和所述候选区域，提取得到所述候选区域对应的深度特征，所述特征提取模型是端到端的神经网络模型，以图像作为输入，以图像中可运动体的深度特征作为输出；

计算子模块，被设置为根据所述候选区域对应的深度特征和在前视频帧中跟踪到的目标的深度特征，计算所述候选区域对应的特征相似度；

确定子模块，被设置为根据所述候选区域对应的特征相似度，确定所述当前视频帧中跟踪到的目标。

本申请实施例第四方面提供了一种设备，所述设备包括处理器以及存储器：

所述存储器被设置为存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器被设置为根据所述程序代码中的指令，执行如上述第一方面所述的目标跟踪方法的步骤。

本申请实施例第五方面提供了一种计算机可读存储介质，所述计算机可读存储介质被设置为存储程序代码，所述程序代码被设置为执行上述第一方面所述的目标跟踪方法。

本申请实施例第六方面提供了一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行上述第一方面所述的目标跟踪方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例提供了一种目标跟踪方法，该目标跟踪方法利用目标检测模型在当前视频帧的整体范围内进行目标检测，以确定当前视频帧中存在的所有候选区域，进而基于所确定的各个候选区域确定跟踪目标，相比于相关技术中根据前一视频帧的目标区域确定当前视频帧的目标跟踪范围，并且仅在该目标跟踪范围内进行目标跟踪，本申请实施例中利用目标检测模型在视频帧的整体范围内确定候选区域，扩大了目标跟踪的范围，能够有效地防止发生因跟踪目标移动过快而跟丢跟踪目标的情况；另外，在本申请实施例提供的目标跟踪方法中，利用特征提取模型提取所确定的各个候选区域的深度特征，并基于各个候选区域的深度特征和在前视频帧中跟踪到的目标的深度特征确定目标，相比于相关技术中仅以形态特征为依据进行目标跟踪，本申请实施例中基于深度特征确定跟踪目标，能够保证所确定的跟踪目标更加准确，有效地防止发生跟踪漂移的情况。

附图说明

图1为本申请实施例中一种目标跟踪方法的应用场景示意图；

图2为本申请实施例中一种目标跟踪方法的流程示意图；

图3为本申请实施例中一种目标检测模型的工作效果示意图；

图4为本申请实施例中一种跨屏目标跟踪方法的流程示意图；

图5为本申请实施例中一种特征提取模型训练方法的流程示意图；

图6为本申请实施例中另一种目标跟踪方法的应用场景示意图；

图7为本申请实施例中一种目标跟踪装置的结构示意图；

图8为本申请实施例中另一种目标跟踪装置的结构示意图；

图9为本申请实施例中另一种目标跟踪装置的结构示意图；

图10为本申请实施例中另一种目标跟踪装置的结构示意图；

图11为本申请实施例中另一种目标跟踪装置的结构示意图；

图12为本申请实施例中一种目标跟踪设备的结构示意图；

图13为本申请实施例中另一种目标跟踪设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请实施例方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请实施例保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

相关的基于相关滤波器跟踪原理的跟踪方法，在跟踪目标的过程中，存在容易发生跟踪漂移以及跟丢跟踪目标的技术问题，针对相关技术中存在的技术问题，本申请实施例提供了一种目标跟踪方法。

下面先对本申请实施例提供的目标跟踪方法的核心技术思路进行介绍：

本申请实施例提供的目标跟踪方法中，基于目标检测模型和特征提取模型，在所获取的视频流包括的视频帧中进行目标跟踪。具体针对视频流中的某一视频帧进行目标跟踪时，先利用目标检测模型在该视频帧的整体范围内进行检测，以获得该视频帧中存在的所有候选区域；然后利用特征提取模型对检测到的各个候选区域进行特征提取，以得到各个候选区域对应的深度特征；接下来，基于各个候选区域对应的深度特征以及在前视频帧中跟踪到的目标的深度特征，计算各个候选区域与跟踪目标之间的特征相似度；进而根据各个候选区域对应的特征相似度，确定该视频帧中的跟踪目标。

在本申请实施例提供的目标跟踪方法中，利用目标检测模型在当前视频帧的整体范围内进行目标检测，以确定当前视频帧中存在的所有候选区域，进而基于所确定的各个候选区域确定跟踪目标，相比于相关技术中根据前一视频帧的目标区域确定当前视频帧的目标跟踪范围，并且仅在该目标跟踪范围内进行目标跟踪，本申请实施例中利用目标检测模型在视频帧的整体范围内确定候选区域，扩大了目标跟踪的范围，能够有效地防止发生因跟踪目标移动过快而跟丢跟踪目标的情况；另外，在本申请实施例提供的目标跟踪方法中，利用特征提取模型提取所确定的各个候选区域的深度特征，并基于各个候选区域的深度特征和在前视频帧中跟踪到的目标的深度特征确定跟踪目标，相比于相关技术中仅以形态特征为依据进行目标跟踪，本申请实施例中基于深度特征确定跟踪目标，能够保证所确定的跟踪目标更加准确，有效地防止发生跟踪漂移的情况。

应理解，本申请实施例提供的目标跟踪方法可以应用于具有图像处理功能的设备，如终端设备、服务器等。其中，终端设备具体可以为计算机、智能手机、个人数字助理(Personal Digital Assitant，PDA)、平板电脑等；服务器具体可以为应用服务器、也可以为Web服务器，在实际应用部署时，该服务器可以为独立服务器，也可以为集群服务器，该服务器可以同时为多个终端设备提供的目标跟踪服务。

为了便于理解本申请实施例提供的技术方案，下面以服务器作为执行主体，结合实际应用场景对本申请实施例提供的目标跟踪方法进行介绍。

参见图1，图1为本申请实施例提供的目标跟踪方法的应用场景示意图。该应用场景中包括监控摄像机101和服务器102，其中，监控摄像机101用于将自身录制的视频流发送至服务器102，服务器102用于执行本申请实施例提供的目标跟踪方法，以在监控摄像机101发送的视频流包括的各视频帧中进行目标跟踪。

当用户需要在监控摄像机101录制的视频流中进行目标跟踪时，服务器102调取监控摄像机101拍摄的视频流，并针对该视频流中的各视频帧执行以下数据处理：服务器102先利用目标检测模型在当前视频帧的整体范围内进行检测，以获得该视频帧中存在的所有候选区域；服务器102然后利用特征提取模型提取当前视频帧中所有候选区域各自对应的深度特征，根据各候选区域各自对应的深度特征和在前视频帧中跟踪到的目标的深度特征，计算各候选区域对应的特征相似度；服务器102进而根据各候选区域对应的特征相似度，确定当前视频帧中跟踪到的目标。

需要说明的是，服务器102先利用目标检测模型在当前视频帧的整体范围内进行目标检测，确定该当前视频帧中存在的所有候选区域，进而基于所确定的所有候选区域进行目标跟踪，由此扩大了各个视频帧中的目标跟踪范围，能够有效地防止发生因跟踪目标移动过快而跟丢跟踪目标的情况；另外，服务器102还利用了特征提取模型提取各候选区域的深度特征，并基于各候选区域的深度特征以及在前视频帧跟踪到的目标的深度特征，确定当前视频帧中的跟踪目标，由于深度特征能够从更深层次反映跟踪目标所具有的特征，该深度特征不会因跟踪目标的形态等特征的改变而改变，因此，基于该深度特征进行目标跟踪，能够保证所确定的跟踪目标更加准确，有效地防止发生跟踪漂移的情况。

需要说明的是，上述图1所示场景仅为一种示例，在实际应用中，本申请实施例提供的目标跟踪方法还可以应用于终端设备，在此不对该目标跟踪方法的应用场景做任何具体限定。

下面通过实施例对本申请提供的目标跟踪方法进行介绍。

参见图2，图2为本申请实施例提供的一种目标跟踪方法的流程示意图。为了便于描述，本实施例以服务器作为执行主体进行描述，应理解，该目标跟踪方法的执行主体并不仅限于服务器，还可以应用于终端设备等具备图像处理功能的设备。

当服务器需要针对第一视频流进行目标跟踪时，获取该第一视频流，并针对该第一视频流中的视频帧执行如图2所示的数据处理流程，以实现跟踪该第一视频流中的目标。

在一种可能的实现方式中，服务器可以从视频流数据库中调取历史视频流作为第一视频流。具体实现时，服务器可以根据第一视频流对应的摄像头标签以及第一视频流的拍摄起止时间，从视频流数据库存储的历史视频流中调取该第一视频流，该视频数据库用于存储多个摄像头拍摄的视频流数据；进而，针对所获取的第一视频流中的视频帧执行图2所示的数据处理流程，以实现在该第一视频流中进行目标跟踪。

在另一种可能的实现方式中，服务器可以实时获取某个摄像头拍摄的视频流作为第一视频流。具体实现时，服务器可以向某个摄像头发起视频流获取请求，请求获取该摄像头实时拍摄的视频流作为第一视频流，相应地，该摄像头响应于服务器发起的获取请求，将自身实时拍摄的第一视频流发送至服务器，以使服务器针对该第一视频流中的视频帧执行图2所示的数据处理流程，实现在该第一视频流中进行目标跟踪。

应理解，服务器还可以采用其他方式获取第一视频流，在此不对第一视频流的具体获取方式做任何限定。

服务器获取到第一视频流后，针对该第一视频流中的各个视频帧执行图2所示的数据处理流程，如图2所示，该数据处理流程具体包括以下步骤：

步骤201：服务器根据目标检测模型和当前视频帧，检测得到所述当前视频帧中的候选区域。

服务器针对第一视频流中的某一视频帧进行目标跟踪时，将该视频帧作为当前视频帧，并将该当前视频帧输入至目标检测模型中，目标检测模型在该当前视频帧的整体范围内进行对象检测，以获得该当前视频帧中存在的所有候选区域，候选区域为当前视频帧中各个检测对象所处的区域，各个候选区域包括的检测对象中可能存在需要跟踪的目标。

上述目标检测模型为端到端的神经网络，该目标检测模型以视频帧作为输入，以该视频帧中检测对象的边界框以及检测对象所属的类别作为输出。也就是说，将当前视频帧输入至该目标检测模型，目标检测模型通过对该当前视频帧做相应地处理，能够输出当前视频帧中各个检测对象的边界框以及各个检测对象所属的类别，各个检测对象的边界框所包围的区域即为候选区域。

应理解，目标检测模型能够检测出当前视频帧中所有的候选区域，每个候选区域中包括一个检测对象，该检测对象具体可以为人也可以为物体，即该目标检测模型能够检测各种类型的检测对象。

为了便于理解上述目标检测模型的工作效果，下面结合图3对该目标检测模型的输出结果进行示例性的说明。

如图3所示，将视频帧301输入至目标检测模型302中，目标检测模型302通过对视频帧301进行相应地处理，能够在视频帧301中标注出其中包括的各个检测对象的边界框，如图301所示，经目标检测模型302的处理后，在视频帧301中标注出边界框303、边界框304和边界框305，并且在边界框303的旁边标注出边界框303中的物体类别为路灯，在边界框304的旁边标注出边界框304中的物体类别为汽车，在边界框305的旁边标注出边界框305中的物体类别为交通信号灯。

应理解，上述图3所示的目标检测模型的输出结果仅为示例，在实际应用中，目标检测模型能够检测出该视频帧中所有的候选区域，为了便于描述，图3中并未标注出目标检测模型所检测到的所有的候选区域。

在一种可能的实现方式中，上述目标检测模型中可以包括基础网络和辅助网络，该基础网络采用轻量级的卷积神经网络mobilenet，该辅助网络采用卷积核构成的检测层；该辅助网络的输入为基础网络的不同卷积层输出的特征图。

具体的，该目标检测模型是基于深度学习神经网络结构SSD构建而成的，深度学习神经网络SSD的核心在于采用卷积核预测一系列检测对象所属的类别以及检测对象所处的区域；此外，在该目标检测模型中，将深度学习神经网络结构SSD中的基础网络替换为轻量级的卷积神经网络mobilenet，由于该卷积神经网络mobilenet具有较快的处理速度，相应地，利用该目标检测模型进行目标检测时，也能够较快地检测出当前视频帧存在的候选区域。

应理解，本申请实施例提供的目标检测模型还可以基于其他神经网络结构构建而成，在此不对本申请实施例提供的目标检测模型的具体结构做任何限定。

步骤202：服务器根据特征提取模型和所述候选区域，提取得到所述候选区域对应的深度特征，所述特征提取模型是端到端的神经网络模型，以图像作为输入，以图像中可运动体的深度特征作为输出。

服务器利用目标检测模型检测出当前视频帧中存在的所有候选区域后，将该当前视频帧中的所有候选区域输入至自身运行的特征提取模型，该特征提取模型相应地提取各个候选区域对应的深度特征，该深度特征能够从深层次反映各个候选区域中的检测对象具备的特征，该深度特征对物体形变具有鲁棒性，其不会单纯地跟随检测对象形态等特征的改变而发生改变，也就是说，即使检测对象的形态发生改变，该深度特征仍然能够表征该检测对象。

上述特征提取模型是端到端的神经网络模型，以图像作为输入，以图像中可运动体的深度特征作为输出。即采用该特征提取模型对当前视频帧中的各个候选区域进行特征提取时，将标注出各个候选区域的当前视频帧输入该特征提取模型，该特征提取模型相应地提取各个候选区域所具备的深度特征，进而，输出当前视频帧中各个可运动体的深度特征。

应理解，进行目标跟踪时，跟踪的目标通常为可运动体如人、动物、车辆等，不可运动体在通常情况下不会被作为跟踪的目标；相应地，特征提取模型无需输出不可运动体的深度特征，由此服务器后续也无需根据不可运动体的深度特征进行一系列的计算，一定程度上减少了服务器需要执行的工作量。

步骤203：服务器根据所述候选区域对应的深度特征和在前视频帧中跟踪到的目标的深度特征，计算所述候选区域对应的特征相似度。

服务器中的特征提取模型获取到各候选区域对应的深度特征后，根据各候选区域对应的深度特征以及在前视频帧中跟踪到的目标的深度特征，计算各候选区域对应的特征相似度，各候选区域对应的特征相似度即为各候选区域的深度特征与在前视频帧中跟踪到的目标的深度特征之间的相似度。

需要说明的是，上述在前视频帧指的是在当前视频帧之前，距离当前视频帧最近且已跟踪到目标的视频帧；例如，若在与当前视频帧相邻的前一帧视频帧中跟踪到目标，则直接将当前视频帧相邻的前一帧视频帧作为上述在前视频帧；若在与当前视频帧相邻的前一帧视频帧中没有跟踪到目标，则按照从后至前的时间顺序，继续判断该前一帧视频帧之前的视频帧中是否存在跟踪的目标，直到查找到存在跟踪的目标的视频帧，将查找到的视频帧作为上述在前视频帧；进而根据该视频帧中跟踪到的目标的深度特征以及当前视频帧中各候选区域对应的深度特征，计算各候选区域对应的深度特征与跟踪的目标的深度特征之间的特征相似度。

需要说明的是，若当前视频帧为第一视频流中的第一帧视频帧，用户可以点击第一视频帧中某一目标，相应地，服务器可以响应于用户的点击操作，将该目标确定为在第一视频流中需要跟踪的目标，并利用特征提取模型提取该目标的深度特征，进而基于该目标的深度特征在后续视频帧中进行目标跟踪；此外，用户还可以将包含有需要跟踪的目标的图像上传至服务器，以使服务器利用特征提取模型根据上传的图像，提取其中所包括的需要跟踪的目标的深度特征，进而基于提取到的需要跟踪的目标的深度特征在第一视频流中进行目标跟踪。

应理解，服务器还可以采用其他方式确定需要跟踪的目标，并基于该目标的深度特征在第一视频流中进行目标跟踪，在此不对确定跟踪目标的具体方式做任何限定。

具体计算各候选区域对应的特征相似度时，服务器可以采用欧几里得距离(Eucledian Distance)算法、曼哈顿距离(Manhattan Distance)算法、明可夫斯基距离(Minkowski Distance)算法以及余弦相似度(Cosine Similarity)算法等算法，计算当前视频帧中各候选区域对应的深度特征向量与在前视频帧中跟踪到的目标的深度特征向量之间的相似度。

应理解，服务器还可以采用其他相似度计算方法，根据各候选区域对应的深度特征以及在前视频帧中跟踪到的目标的深度特征，计算各候选区域对应的特征相似度，在此不对用于计算特征相似度的算法做具体限定。

步骤204：服务器根据所述候选区域对应的特征相似度，确定所述当前视频帧中跟踪到的目标。

服务器计算获得当前视频帧中各个候选区域对应的特征相似度后，基于各个候选区域对应的特征相似度，确定当前视频帧中的需要跟踪的目标。由于候选区域对应的特征相似度能够表征该候选区域的深度特征与在前视频帧中跟踪到的目标的深度特征之间的相似度，因此，该特征相似度越大，则说明该候选区域的检测对象与在前视频帧中跟踪到的目标越相似，即该候选区域中所包括的检测对象为当前视频帧中需要跟踪的对象的可能性越大。

确定当前视频帧中的跟踪目标时，服务器可以根据候选区域各自对应的特征相似度，选择特征相似度最大的候选区域，作为当前视频帧的目标区域；进而根据该目标区域确定当前视频帧中跟踪到的目标。

具体的，服务器可以先根据当前视频帧中各个候选区域对应的特征相似度，对当前视频帧中各个候选区域对应的特征相似度按照大小顺序进行排序；由于候选区域对应的特征相似度越大，说明该候选区域中所包括的检测对象为需要跟踪的目标的可能性越大，因此，可以根据该特性相似度的排列顺序，从中选取特征相似度最大的候选区域，作为当前视频帧的目标区域；进而将目标区域中所包括的检测对象作为当前视频帧中需要跟踪的目标。

可选的，服务器还可以预先设定特征相似度的阈值，候选区域的特征相似度超过该阈值则说明该候选区域可能为目标区域，即该候选区域中所包括的检测对象可能为当前视频帧中需要跟踪的目标。应理解，该阈值可以根据实际情况进行设定，在此不对该阈值做具体限定。

在一些情况下，当前视频帧中可能存在多个特征相似度均超过上述阈值的候选区域，此时这些候选区域均有可能为目标区域。针对这种情况，本申请实施例提供了下述三种可能的实现方式，以从这多个超过阈值的候选区域中确定目标区域，并基于该目标区域进一步确定跟踪目标。

在第一种可能的实现方式中，服务器可以从多个特征相似度超过阈值的多个候选区域中，选择与在前视频帧中跟踪到的目标的运动方向最匹配的候选区域，作为当前视频帧的目标区域；根据该当前视频帧的目标区域确定当前视频中跟踪到的目标。

具体实现时，服务器可以先根据当前视频帧中各个候选区域对应的特征相似度，判断各个候选区域对应的特征相似度是否超过阈值，若存在多个特征相似度超过阈值的候选区域，服务器则根据在前视频帧中跟踪到的目标的运动方向，从这多个候选区域中确定目标区域。具体的，服务器可以将在当前视频帧之前的视频帧中跟踪到的目标所处的图像位置，输入至位置坐标映射模型，利用位置坐标映射模型确定在当前视频帧之前的视频帧中跟踪到的目标的物理位置，然后根据在当前视频帧之前的视频帧中跟踪到的目标的物理位置，确定在前视频帧中跟踪到的目标的运动方向；进而，按照上述方法，利用位置坐标映射模型确定当前视频帧中多个超过阈值的候选区域的物理位置以及在前视频帧中跟踪到的目标的物理位置，根据多个超过阈值的候选区域的物理位置以及在前视频帧中跟踪到的目标的物理位置，确定当前视频帧中多个超过阈值的候选区域各自对应的运动方向，进而计算多个超过阈值的候选区域各自对应的运动方向与在前视频帧中跟踪到的目标的运动方向之间的匹配程度，最终确定与在前视频帧中跟踪到的目标的运动方向最匹配的候选区域作为目标区域，基于该目标区域确定当前视频帧中的跟踪目标。

应理解，确定在前视频帧中跟踪到的目标的运动方向时，需要选择与在前视频帧相距较近的多个连续的跟踪到目标的视频帧，根据这些视频帧中跟踪到的目标所处的位置确定目标的运动方向。

为了便于理解上述根据跟踪的目标的运动方向，在多个超过阈值的候选区域中确定目标区域的具体实现方式，下面对上述确定目标区域的具体实现过程进行举例说明：

假设当前视频帧为第一视频流中的第20帧视频帧，在该第20帧视频帧之前，距离该第20帧视频帧最近且包含跟踪到的目标的视频帧为第19帧视频帧，即在前视频帧为第19帧视频帧；服务器根据第17帧视频帧至第19帧视频帧中跟踪到的目标的物理位置，确定第19帧视频帧中跟踪到的目标的运动方向，作为第一方向；进而，服务器根据第20帧视频帧中各超过阈值的候选区域的物理位置以及第19帧视频帧中跟踪到的目标的物理位置，确定第20帧视频帧中各超过阈值的候选区域各自对应的运动方向，作为第二方向，即第20帧视频帧中每个超过阈值的候选区域分别对应一个第二方向，计算各个第二方向与第一方向的匹配程度，最终确定匹配程度最高的第二方向对应的候选区域为目标区域，基于该目标区域确定第20帧视频帧中跟踪到的目标。

在第二种可能的实现方式中，服务器可以从多个特征相似度超过阈值的多个候选区域中，选择与在前视频帧中跟踪到的目标区域的物理位置距离最小的候选区域，作为当前视频帧的目标区域；进而根据该当前视频帧的目标区域确定当前视频帧中跟踪到的目标。

具体实现时，服务器可以根据多个特征相似度超过阈值的候选区域在当前视频帧中的图像位置，确定出这些候选区域的物理位置；同理，服务器可以根据在前视频帧中跟踪到的目标在该视频帧中的图像位置，确定出在前视频帧中跟踪到的目标的物理位置；然后，计算各个候选区域的物理位置与在前视频帧中跟踪到的目标的物理位置之间的距离，确定距离最小的候选区域作为当前视频帧中的目标区域，进而，将当前视频帧的目标区域中所包括的检测对象作为当前视频帧中跟踪到的目标。

例如，假设当前视频帧为第一视频流中的第20帧，与当前视频帧距离最近且包括跟踪到的目标的视频帧为第19帧视频帧，服务器根据第20帧视频帧中存在的两个特征相似度超过阈值的候选区域在第20帧视频帧中的图像位置，确定这两个候选区域对应的物理位置，服务器根据第19帧视频帧中跟踪到的目标的图像位置，确定第19帧视频帧中跟踪到的目标的物理位置；服务器计算两个候选区域对应的物理位置与第19帧中跟踪到的目标的物理位置之间的距离，确定距离最近的候选区域作为目标区域，将该目标区域中包括的检测对象作为第20帧视频帧中跟踪到的目标。

在第三种可能的实现方式中，服务器可以结合物理位置距离和跟踪到的运动方向两个参考因素，在多个特征相似度超过阈值的候选区域中选择目标区域。即，服务器从多个特征相似度超过阈值的候选区域中，选择与在前视频帧中跟踪到的目标的物理位置和运动方向最匹配的候选区域，作为当前视频帧的目标区域；即选择与在前视频帧中跟踪到的目标的距离最近且运动方向最相近的候选区域；进而，根据当前视频帧的目标区域确定当前视频帧中跟踪到的目标。

具体实现时，服务器可以先利用位置坐标映射模型，将当前视频帧中各个超过阈值的候选区域的图像位置转换为物理位置，将在前视频帧中跟踪到的目标的图像位置转换为物理位置；然后，基于各个超过阈值的候选区域的物理位置以及在前视频帧中跟踪到的目标的物理位置，确定各个超过阈值的候选区域对应的位移，该位移指的是根据候选区域的物理位置以及在前视频帧中跟踪到的目标的物理位置确定出的有向线段，该有向线段既能够表征候选区域与在前视频帧中跟踪到的目标之间的物理位置距离，又能够表征候选区域对应的运动方向。同理，服务器可以根据与在前视频帧相邻且处于在前视频帧之前的视频帧中跟踪到的目标所处位置，以及在前视频帧中跟踪到的目标所处的位置，确定在前视频帧中跟踪到的目标对应的位移。进而，计算当前视频帧中各候选区域对应的位移与在前视频帧中跟踪到的目标对应的位移之间的相似度，选取相似度最高的候选区域作为目标区域，基于该目标区域确定当前视频帧中跟踪到的目标。可选的，服务器还可以先根据上述第一种可能的实现方式中提供的确定跟踪到的目标的运动方向的方法，确定在前视频帧中跟踪到的目标的运动方向，进而，根据当前视频帧中多个特征相似度超过阈值的候选区域所处的位置，确定与跟踪到的目标的运动方向匹配的候选区域；若仅存在一个与跟踪到的目标的运动方匹配的候选区域，则可以直接将该候选区域确定为目标区域；若存在多个与跟踪到的目标的运动方向匹配的候选区域，则继续按照第二种可能的实现方式中提供的确定物理位置距离的方法，确定这多个与跟踪到的目标的运动方向匹配的候选区域与在前视频帧中跟踪到的目标之间的物理位置距离，进而，选取物理位置距离最小的候选区域作为目标区域，基于该目标区域确定当前视频帧中的跟踪目标。

可选的，服务器也可以先根据上述第二种可能的实现方式中提供的确定物理位置距离的方法，确定当前视频帧中多个特征相似度超过阈值的候选区域与在前视频帧中跟踪到的目标之间的物理位置距离，进而判断各候选区域与在前视频帧中跟踪到的目标之间的物理位置距离是否小于距离阈值，若仅存在一个小于距离阈值的候选区域，则可以直接将该候选区域作为目标区域；若存在多个小于距离阈值的候选区域，则服务器继续按照第一种可能的实现方式中提供的确定跟踪到的目标的运动方向的方法，确定在前视频帧中跟踪到的目标的运动方向，进而，从多个小于距离阈值的候选区域中选取与该目标运动方向最匹配的候选区域作为目标区域，进而，基于该目标区域确定当前视频帧中的跟踪目标。

需要说明的是，在上述三种可能的实现方式中，服务器在根据候选区域的图像位置确定其对应的物理位置时，以及在根据在前视频帧中跟踪到的目标的图像位置确定其对应的物理位置时，可以基于位置坐标映射模型实现图像位置与物理位置之间的转换。

服务器将候选区域的图像位置输入至位置坐标映射模型，获取该位置坐标映射模型输出的候选区域的物理位置；以及将在前视频帧中跟踪到的目标区域的图像位置输入至该位置坐标映射模型，获取该位置坐标映射模型输出的在前视频帧中跟踪到的目标区域的物理位置。

具体实现时，服务器将候选区域的图像位置输入至该位置坐标映射模型后，该位置坐标映射模型对该候选区域的图像位置进行相应的处理，进而获得并输出该候选区域对应的物理位置；同理，服务器将在前视频帧中跟踪到的目标的图像位置输入至该位置坐标映射模型后，该位置坐标映射模型也会对该目标的图像位置进行相应地处理，进而获得并输入该目标对应的物理位置。

应理解，上述图像位置具体指的是候选区域或跟踪目标在视频帧中的像素位置坐标，上述物理位置具体指的是候选区域或跟踪目标在平面地图上对应的位置坐标。

需要说明的是，确定候选区域的图像位置时，可以将候选区域与地面的交点的像素位置坐标作为该候选区域的图像位置，也可以将候选区域的中心点在视频帧中的像素位置坐标作为该候选区域的图像位置，在此不对候选区域的图像位置做具体限定；同理，确定跟踪目标的图像位置时，可以将跟踪目标与其所在的视频帧中地面的交点的像素位置坐标作为跟踪目标的图像坐标，也可以将该跟踪目标的中心点在该视频帧中的像素位置坐标作为跟踪目标的图像位置，在此也不对跟踪目标的图像位置做具体限定。

需要说明的是，上述位置坐标映射模型是基于坐标映射矩阵构建的，具体构建该位置坐标映射模型时，服务器根据标定图像上的至少四个位置点的位置坐标以及所述至少四个位置点在物理世界上的物理位置坐标，通过透视变换公式计算得到坐标映射矩阵，进而根据该坐标映射矩阵生成位置坐标映射模型。相应地，使用该位置坐标映射模型时，该位置坐标映射模型可以通过利用输入的图像位置坐标乘上该坐标映射矩阵，获得该图像位置坐标对应的物理位置坐标，即实现将视频帧中的图像位置转换为物理世界中的物理位置。

需要说明的是，由于不同的摄像头对应的坐标映射矩阵可能不同，因此，每个摄像头均会保存自身对应的坐标映射矩阵作为自身的属性，服务器构建位置坐标映射模型时，可以基于各个摄像头对应的坐标映射矩阵进行构建与摄像头对应的位置坐标映射模型。相应地，利用位置坐标映射模型定位某一视频帧的某个图像位置时，位置坐标映射模型可以调取该视频帧对应的摄像头的坐标映射矩阵，采用该坐标映射矩阵将图像位置转换为物理位置。应理解，利用该坐标映射矩阵的逆矩阵也可以构建位置坐标映射模型，利用该位置坐标映射模型，可以将物理世界中的物理位置映射为视频帧中的图像位置坐标，即利用该坐标映射矩阵以及坐标映射矩阵的逆矩阵，能够实现图像位置与物理位置之间的双向转换。

由于该位置坐标映射模型能够将视频帧中的图像位置转换为物理位置，因此，利用该位置坐标映射模型也可以根据第一视频流跟踪得到的目标的物理位置，在物理地图上绘制目标的运动轨迹，由此实现在物理地图上实时定位并显示跟踪到的目标所处的位置。

具体的，服务器可以先按时间顺序获取第一视频流中的各个包含有目标的视频帧，然后将这些视频帧中所包含的目标的图像位置依次输入至位置坐标映射模型，相应地，位置坐标映射模型根据输入的目标的图像位置对应地输出各个视频帧中目标的图像位置对应的物理位置；进而按照视频帧的时间顺序，将各个视频帧中目标对应的物理位置标注在物理地图上，由此根据所标注的物理位置即可在物理地图上绘制目标的运动轨迹。

应理解，若第一视频流是第一摄像头拍摄到的，随着跟踪的目标的移动，该目标可能移动出第一摄像头所能拍摄的范围，即在该目标在第一摄像头拍摄的范围内消失，在第一摄像头拍摄的第一视频流中无法继续跟踪该目标。在这种情况下，本申请实施例提供的目标跟踪方法，还可以从与该第一摄像头相邻的摄像头中选择能够拍摄到该目标的第二摄像头，针对该第二摄像头拍摄的视频流继续进行目标跟踪，即实现跨屏目标跟踪。

下面结合图4，对本申请实施例提供的跨屏目标跟踪方法进行介绍。参见图4，图4为本申请实施例提供的跨屏目标跟踪方法的流程示意图。为了便于描述，本实施例仍以服务器作为执行主体进行描述，应理解，该跨屏目标跟踪方法的执行主体并不仅限于服务器，还可以应用于终端设备等具备图像处理功能的设备。如图4所示，该跨屏目标跟踪方法包括以下步骤：

步骤401：服务器根据所述第一视频流中最后一次跟踪到的目标区域，从与所述第一摄像头相邻的摄像头中选择用于跨屏目标跟踪的第二摄像头。

若服务器在预设时间段内在第一视频流中检测不到需要跟踪的目标，或者，服务器检测发现需要跟踪的目标在第一摄像头所能够拍摄的图像边缘消失，则说明需要跟踪的目标可能移动至第一摄像头无法拍摄到的范围；此时，服务器需要根据第一视频流中最后一次跟踪到的目标所处的区域，从与第一摄像头相邻的摄像头中选择能够拍摄到需要跟踪的目标的第二摄像头，以在该第二摄像头拍摄的第二视频流继续进行目标跟踪，即实现跨屏跟踪。

根据第一视频流中最后一次跟踪到的目标区域，从与该第一摄像头相邻的摄像头中选择第二摄像头时，服务器可以先针对与该第一摄像头相邻的摄像头，根据该摄像头拍摄的视频流和目标检测模型，检测得到摄像头对应的候选区域。

具体实现时，服务器可以先根据第一摄像头所处的位置，确定位置与该第一摄像头所处位置相邻的摄像头；然后根据第一视频流中最后一次跟踪到目标的时刻，从与第一摄像头相邻的摄像头拍摄的视频流中选取视频帧，所选取的视频帧的拍摄时刻在第一视频流中最后一次跟踪到目标的时刻之后，且在最后一次跟踪到目标的相邻时段内，该相邻时段可以根据实际需求进行设定。

应理解，在一些情况下，与第一摄像头相邻的摄像头能够拍摄的范围与第一摄像头能够拍摄的范围之间可能存在一定的距离，需要跟踪的目标可能无法立刻从第一摄像头能够拍摄的范围移动至第二摄像头拍摄的范围，因此，在从与第一摄像头相邻的摄像头拍摄的视频流中选取视频帧时，可以从与第一摄像头相邻的各个摄像头拍摄的视频流中，选取出多个拍摄时刻属于相邻时段的视频帧。

为了便于描述，下面将第一视频流中最后一次跟踪到目标的视频帧称为第一视频帧，将从第一摄像头相邻的各个摄像头拍摄的视频流中选取的视频帧统称为第二视频帧。

服务器从与第一摄像头相邻的摄像头拍摄的视频流中选取出第二视频帧后，将各个第二视频帧输入至目标检测模型，目标检测模型通过对各个第二视频帧进行相应地处理，检测得到各个第二视频帧中存在的候选区域，即检测得到与第一摄像头相邻的各个摄像头对应的候选区域。

检测得到与第一摄像头相邻的各个摄像头对应的候选区域后，服务器根据各个摄像头对应的候选区域与第一视频流中最后一次跟踪到的目标区域中的深度特征的相似度，选择相似度超过阈值的多个候选区域对应的摄像头作为候选摄像头。

具体实现时，服务器利用特征提取模型提取各个第二视频帧中各个候选区域的深度特征，并计算各第二视频帧中各个候选区域的深度特征与第一视频帧中目标区域的深度特征之间的特征相似度，判断各个候选区域对应的特征相似度是否超过阈值，将特征相似度超过阈值的各个候选区域对应的摄像头作为候选摄像头。基于各个候选区域的深度特征和第一视频帧中目标区域的深度特征，确定用于跨屏跟踪的第二摄像头，能够有效地防止因目标的形态发生变化或者因摄像头拍摄视角的改变，而造成跟丢目标的情况发生，即使在跨屏的情况下，也能保证对目标进行准确地跟踪。

为了便于进一步理解上述确定候选摄像头的具体实现过程，下面对上述确定候选摄像头的过程进行举例说明：

假设与第一摄像头相邻的摄像头为摄像头A、摄像头B和摄像头C，根据第一视频帧的拍摄时刻，从摄像头A、摄像头B和摄像头C拍摄的视频流中分别选取拍摄时刻与该第一视频帧拍摄时刻相邻的第二视频帧，假设从摄像头A拍摄的视频流中选取的第二视频帧为视频帧a，从摄像头 B拍摄的视频流中选取的第二视频帧为视频帧b，从摄像头C拍摄的视频流中选取的第二视频帧为视频帧c；服务器利用目标检测模型检测视频帧a、视频帧b和视频帧c中存在的候选区域，假设目标检测模型检测出视频帧a中存在候选区域a1、a2、a3和a4，检测出视频帧b中存在候选区域b1和b2，检测出视频帧c中存在候选区域c1。

然后，服务器利用特征提取模型提取视频帧a、视频帧b和视频帧c中存在的候选区域的深度特征，并计算视频帧a、视频帧b和视频帧c中各候选区域的深度特征与第一视频帧中目标区域的深度特征之间的特征相似度；进而，服务器根据各个第二视频帧中各个候选区域对应的特征相似度，确定相似度超过阈值的候选区域，假设相似度超过阈值的候选区域包括候选区域a3和候选区域c1，则服务器可以将候选区域a3对应的摄像头A以及候选区域c1对应的摄像头C作为候选摄像头。

应理解，若仅存在一个特征相似度超过阈值的候选区域，则可以直接将该候选区域对应的摄像头作为第二摄像头。

若根据候选区域对应的特征相似度确定出多个候选摄像头，则服务器可以进一步从候选摄像头中选择与第一视频流中最后一次跟踪到目标区域的物理位置和运动方向最匹配的候选区域，作为用于目标跟踪的第二摄像头。

具体实现时，服务器可以将第一视频帧中目标区域的图像位置输入至位置坐标映射模型，利用该位置坐标映射模型确定第一视频帧中目标区域的物理位置；并且，服务器利用该位置坐标映射模型，根据各第二视频帧中各个特征相似度超过阈值的候选区域的图像位置，确定各个候选区域的物理位置；计算各个候选区域的物理位置与第一视频帧中目标区域的物理位置之间的距离。

此外，服务器还可以根据第一视频流中与第一视频帧相邻的多个跟踪到目标的视频帧，确定跟踪的目标的运动方向；进而，根据各个第二视频帧中各个特征相似度超过阈值的候选区域的位置，确定各个特征相似度超过阈值的候选区域所处的位置与跟踪的目标的运动方向是否匹配。

最终，结合各个候选区域的物理位置与第一视频帧中目标区域的物理位置之间的距离，以及第一视频流中跟踪到的目标的运动方向两种因素，确定物理位置距离较近，且与第一视频流中跟踪到的目标的运动方向相匹配的候选区域，将该候选区域对应的摄像头作为用于跨屏目标跟踪的第二摄像头。

应理解，服务器也可以仅根据各个候选区域的物理位置与第一视频帧中目标区域的物理位置之间的距离，确定用于目标跟踪的第二摄像头，即服务器可以直接确定与第一视频帧中目标区域的物理位置距离最近的候选区域，进而确定该候选区域对应的摄像头作为第二摄像头。

应理解，服务器也可以仅根据第一视频帧中跟踪的目标的运动方向，确定与该运动方向最匹配的候选区域，进而，确定该候选区域对应的摄像头作为第二摄像头。

也就是说，在确定用于跨屏跟踪的第二摄像头时，服务器可以仅根据第二视频帧中各候选区域的特征相似度，确定特征相似度最大的候选区域对应的摄像头作为第二摄像头；服务器也可以将特征相似度，与物理位置距离和/或跟踪的目标的运动方向结合起来，在第二视频帧中确定最有可能包括跟踪的目标的候选区域，进而，确定该候选区域对应的摄像头作为候选摄像头。

步骤402：服务器获取所述第二摄像头拍摄的第二视频流，针对所述第二视频流中的视频帧执行所述数据处理，以实现在所述第二视频流中的目标跟踪。

服务器确定出第二摄像头后，获取该第二摄像头拍摄的第二视频流，并针对该第二视频流包括的各个视频帧执行图2所示的目标跟踪方法，从而实现在第二视频流中进行目标跟踪。

应理解，在第二视频流中进行目标跟踪时，服务器也可以利用位置坐标映射模型，将第二视频流中各视频帧中跟踪的目标的图像位置转换为物理位置，进而，服务器可以根据第一视频流以及第二视频流中跟踪到的目标的物理位置，在物理地图上绘制出跟踪到的目标的运动轨迹，即在跨屏跟踪的情况下，服务器也可以利用该位置坐标映射模型对在物理地图上绘制出跟踪到的目标的运动轨迹。

在本申请实施例提供的跨屏跟踪方法中，利用目标检测模型在与第一摄像头相邻的各个摄像头拍摄的视频帧中检测候选区域，然后，利用特征提取模型提取各个候选区域的深度特征，基于各个候选区域的深度特征与第一视频流中最后一次跟踪到的目标的深度特征，确定各个候选区域对应的特征相似度；进而，将各个候选区域对应的特征相似度，各个候选区域的物理位置与第一视频流中最后一次跟踪到的目标的物理位置之间的距离，以及第一视频流中跟踪到的目标的运动方向结合起来，确定用于跨屏跟踪的第二摄像头；进而，针对第二摄像头拍摄的第二视频流中包括的各视频帧执行上一实施例提供的目标跟踪方法，以实现在该第二视频流中进行目标跟踪。在上述跨屏跟踪的过程中，利用目标检测模型和特征提取模型确定用于跨屏跟踪的第二摄像头，以及在第二摄像头拍摄的第二视频流中进行目标跟踪，由此，能够保证较为准确地确定出用于跨屏跟踪的第二摄像头，并且在第二摄像头拍摄的第二视频流中能够在较大的跟踪范围内，以跟踪的目标的深度特征为依据进行目标跟踪，保证目标跟踪的准确度。

如上文所述，本申请实施例提供的目标跟踪方法的实现需要基于特征提取模型，根据视频帧中的各候选区域确定各候选区域对应的深度特征。由于在实际应用中需要跟踪的目标通常为人体，因此，可以基于人体再识别技术构建该特征提取模型，以使该特征提取模型能够相应地提取人体的深度特征。

下面结合附图对用于提取人体深度特征的特征提取模型的训练方法进行介绍。参见图5，图5为本申请实施例提供的特征提取模型的训练方法的流程示意图。为了便于描述，本实施例仍以服务器作为执行主体进行描述，应理解，该训练方法的执行主体并不仅限于服务器，还可以应用于终端设备等具有模型训练功能的设备。如图5所示，该训练方法包括以下步骤：

步骤501：服务器获取图像样本，所述图像样本包括人体图像以及图像标签。

服务器在训练特征提取模型时，需要获取图像样本，以便基于所获取的图像样本对特征提取模型进行训练。服务器所获取的图像样本中通常包括人体图像以及与人体图像对应的图像标签，人体图像为包括人物的图像，图像标签为能够表征人体图像中人物的标签，例如，服务器所获取的人体图像为包括人物A的图像，那么与该人体图像对应的图像标签即为能表征该人体图像中存在人物A的标签。

应理解，训练该特征提取模型时通常需要获取大量的图像样本，以便基于这些图像样本能够训练出性能较好的特征提取模型。

需要说明的是，为了使得用于训练特征提取模型的图像样本更加丰富，服务器还可以利用基于人体姿态识别技术构建的生成式对抗网络，对获取的图像样本中的人体图像进行多姿态增广，以针对同一人物生成更多的人体图像，从而丰富图像样本。

步骤502：服务器构建深度卷积神经网络初始模型，利用所述图像样本对所述深度卷积神经网络初始模型进行训练，以训练得到满足训练结束条件的深度卷积神经网络模型，作为所述特征提取模型。

训练特征提取模型时，可以基于人体局部分割技术和特征学习技术，构建深度卷积神经网络初始模型；利用该深度卷积神经网络可以从图像样本包括的人体图像中提取人体深度特征，进而，根据具有相同标签的人体图像各自对应的人体深度特征的特征误差构建损失函数，基于该损失函数对深度卷积神经网络初始模型进行优化训练，以训练得到满足训练结束条件的模型参数，将最终训练得到的深度卷积神经网络模型作为特征提取模型。

判断训练的模型是否满足训练结束条件时，服务器可以利用测试图像样本对训练后的模型进行验证，其中，训练后的模型是利用图像样本对深度卷积神经网络初始模型进行一轮或者多轮训练优化得到的模型；其中，测试图像样本中可以包括对应于同一测试图像标签的多个测试人体图像，测试图像样本中也可以包括对应于不同测试图像标签的多个测试人体图像。具体的，采用包括对应于同一测试图像标签的多个测试人体图像对训练后的模型进行验证时，可以将测试图像样本中包括的多个测试人体图像输入至该第一模型，利用该训练后的模型提取各个测试人体图像的人体深度特征，若各个测试人体图像对应的人体深度特征之间的特征相似度超过第一相似度阈值，则说明该第一模型的模型性能较好，已满足训练结束条件，可以根据该训练后的模型直接作为特征提取模型；若采用包括对应于不同测试图像标签的多个测试人体图像对第一模型进行验证时，可以将测试图像样本中包括的多个测试人体图像输入至该训练后的模型，利用该训练后的模型提取各个测试人体图像的人体深度特征，若各个测试人体图像对应的人体深度特征之间的特征相似度低于第二相似度阈值，则说明该第一模型的模型性能较好，已满足训练结束条件，可以将该训练后的模型直接作为特征提取模型。否则，表明该训练后的模型性能不够优异，还需要进一步训练。

应理解，上述第一相似度阈值大于第二相似度阈值，第一相似度阈值和第二相似度阈值可以根据实际情况进行设定，在此不对第一相似度阈值和第二相似度阈值做任何具体限定。

为了便于理解上述判断训练的模型是否满足训练结束条件的具体实现过程，下面对上述判断过程进行举例说明：

假设服务器利用测试图像样本A对经第一轮训练优化得到的深度卷积神经网络初始模型进行验证，测试图像样本A中包括对应于同一测试图像标签的测试人体图像a1和测试人体图像a2，服务器将测试人体图像a1和测试人体图像a2输入至经第一轮训练优化得到的训练模型后，该模型相应地提取测试人体图像a1中的人体深度特征以及测试人体图像a2的人体深度特征，计算测试人体图像a1中的人体深度特征与测试人体图像a2中的人体深度特征之间的特征相似度，若该特征相似度大于第一相似度阈值，则说明模型识别准确度已达到目标，此时训练的模型已满足训练结束条件，可以将该模型作为特征提取模型；反之，若该特征相似度小于第一相似度阈值，则说明此时训练的模型的识别精确度还不能满足需求，还未满足训练结束条件，需要利用图像样本继续对模型进行训练优化。

应理解，在实际应用中，服务器还可以采用其他方式验证深度卷积神经网络初始模型是否满足训练结束条件，在此不对验证深度卷积神经网络初始模型做任何限定。

按照上述方法基于人体再识别技术构建并训练特征提取模型，能够保证训练得到的特征提取模型能够准确地提取出人体的深度特征，由此，保证基于该特征提取模型进行目标跟踪时，能够准确地确定需要跟踪的目标的深度特征以及目标检测模型所确定的各候选区域的深度特征，进而保证目标跟踪的准确性。

为了便于进一步理解本申请实施例提供的目标跟踪方法，下面结合在监控录像中跟踪目标的应用场景，对本申请实施例提供的目标跟踪方法进行介绍。

参见图6，图6为本申请实施例提供的目标跟踪方法的应用场景示意图。该应用场景中包括：第一摄像头601、跟踪服务器602以及第二摄像头603。

当安保人员需要在第一摄像头601实时拍摄的第一视频流中进行目标跟踪时，安保人员可以通过终端设备向跟踪服务器602发起相应的目标跟踪请求，相应地，跟踪服务器602响应于该目标跟踪请求，实时地从第一摄像头601处获取该第一摄像头601拍摄的第一视频流，并针对第一视频流中的视频帧执行以下数据处理。

跟踪服务器602具体针对第一视频流中的某一视频帧进行目标跟踪时，将该视频帧作为当前视频帧，跟踪服务器602先利用目标检测模型在该当前视频帧的整体范围内进行检测对象的检测，以获得该当前视频帧中存在的所有候选区域，每个候选区域中均包含有一个检测对象；然后，跟踪服务器602利用特征提取模型提取当前视频帧中各个候选区域的深度特征；进而，跟踪服务器602根据各个候选区域对应的深度特征以及在该当前视频帧之前的视频帧中跟踪到的目标的深度特征，计算各个候选区域对应的深度特征与在前视频帧中跟踪到的目标的深度特征之间的特征相似度；最终，基于各个候选区域对应的特征相似度，确定当前视频帧中跟踪到的目标。

跟踪服务器602在确定当前视频帧中跟踪到的目标时，也可以利用位置坐标映射模型，确定当前视频帧中各个候选区域对应的物理位置以及在前视频帧中跟踪到的目标的物理位置，基于各个候选区域的物理位置与在前视频帧中跟踪到的目标的物理位置，计算各个候选区域的物理位置与在前视频帧中跟踪到的目标的物理位置之间的距离；进而，结合特征相似度与物理位置距离两个因素，确定当前视频帧中跟踪到的目标。

跟踪服务器602在确定当前视频帧中跟踪到的目标时，还可以根据在前视频帧中跟踪到的目标所处的位置，确定跟踪到的目标的运动方向，根据各个候选区域在当前视频帧中所处的位置，判断各个候选区域与跟踪到的目标的运动方向是否匹配；进而，结合特征相似度以及候选区域与跟踪到的目标的运动方向的匹配程度两个因素，确定当前视频帧中跟踪到的目标。

此外，跟踪服务器602在确定当前视频帧中跟踪到的目标时，还可以将上述特征相似度、物理位置距离以及与运动方向的匹配程度三个因素结合起来，确定当前视频帧中跟踪到的目标。

由此，跟踪服务器602可以按照上述方法对第一视频流中的各个视频帧进行数据处理，从而实现在第一视频流中进行目标跟踪。

若跟踪服务器602检测发现跟踪的目标消失于第一摄像头能够拍摄的范围边缘，且在预设时间段内第一摄像头拍摄的第一视频流中均没有跟踪到该目标，则可认为所跟踪的目标移动至第一摄像头无法拍摄到的范围，相应地，跟踪服务器602开启跨屏目标跟踪，确定能够拍摄到需要跟踪的目标的第二摄像头603。

跟踪服务器602确定第二摄像头603时，需要先根据第一摄像头601所处的位置，确定与该第一摄像头601相邻的摄像头；进而根据第一摄像头601最后一次拍摄到需要跟踪的目标的时刻，从这些与第一摄像头601相邻的摄像头拍摄的视频流中提取第二视频帧，利用目标检测模型检测第二视频帧中存在的候选区域。

然后跟踪服务器602利用特征提取模型提取各个第二视频帧中各个候选区域的深度特征，根据各个候选区域的深度特征以及在第一视频流中最后一次跟踪到的目标的深度特征，计算各个候选区域对应的特征相似度，进而，选取特征相似度超过阈值的候选区域，确定特征相似度超过阈值的候选区域对应的摄像头为候选摄像头。

在仅存在一个特征相似度超过阈值的候选区域时，跟踪服务器602可以直接将该候选区域对应的摄像头作为第二摄像头；在存在多个特征相似度超过阈值的候选区域时，跟踪服务器602可以利用位置坐标映射模型，确定各个特征相似度超过阈值的候选区域的物理位置，进而根据各个候选区域的物理位置与在第一视频流中最后一次跟踪到的目标的物理位置，确定各候选区域与第一视频流中最后一次跟踪到目标的物理位置距离；此外，跟踪服务器602还可以确定第一视频流中最后一次跟踪到的目标的运动方向，判断各个超过阈值的候选区域所处的位置与目标的运动方向是否匹配；最终，在各个超过阈值的候选区域中选取物理位置距离最小，且与目标的运动方向最匹配的候选区域，确定该候选区域对应的摄像头为第二摄像头603。

进而，跟踪服务器602可以按照上述在第一摄像头601拍摄的第一视频流中进行目标跟踪的方法，对第二摄像头602拍摄的第二视频流进行目标跟踪。

由于位置坐标映射模型能够将在视频帧中跟踪到的目标的图像位置转换为物理位置，因此，跟踪服务器602还可以利用位置坐标映射模型，将在第一视频流以及第二视频流中各个视频帧中跟踪到的目标的图像位置相应地转换为物理地图上的物理位置，并根据各视频帧中跟踪到的目标的物理位置在物理地图上绘制出该目标的运动轨迹，由此，便于安保人员根据物理地图实时更新显示的运动轨迹，及时合理地安排安保力量对该目标进行追踪拦截，同时也为事后调查回溯历史恶意人员作案轨迹提供了快速有力的帮助。

在实际应用中，视频监控系统中常常会包括多个摄像头，通过多个摄像头进行全方位视频监控，上述图6所示场景仅通过两个摄像头的跨屏跟踪描述了方案的实现过程，而基于多个摄像头实现目标跟踪时，其本质是上述目标跟踪方法的重复实现。

针对上文描述的目标跟踪方法，本申请实施例还提供了对应的目标跟踪装置，以便于这些方法在实际中的应用及实现。

参见图7，图7是与上文图2所示的方法对应的一种目标跟踪装置的结构示意图，该目标跟踪装置700包括一个或多个处理器，以及一个或多个存储程序单元的存储器，其中，程序单元由处理器执行，该程序单元包括：

获取模块710，被设置为获取第一视频流；

处理模块720，被设置为针对所述第一视频流中的视频帧执行如下数据处理，以实现在所述第一视频流中的目标跟踪；

所述处理模块720包括：

检测子模块721，被设置为根据目标检测模型和当前视频帧，检测得到所述当前视频帧中的候选区域；

特征提取子模块722，被设置为根据特征提取模型和所述候选区域，提取得到所述候选区域对应的深度特征，所述特征提取模型是端到端的神经网络模型，以图像作为输入，以图像中可运动体的深度特征作为输出；

计算子模块723，被设置为根据所述候选区域对应的深度特征和在前视频帧中跟踪到的目标的深度特征，计算所述候选区域对应的特征相似度；

确定子模块724，被设置为根据所述候选区域对应的特征相似度，确定所述当前视频帧中跟踪到的目标。

可选的，在上述图7所示的目标跟踪装置的基础上，确定子模块724具体被设置为：

根据所述候选区域各自对应的特征相似度，选择特征相似度最大的候选区域，作为所述当前视频帧的目标区域；

根据所述目标区域确定所述当前视频帧中跟踪到的目标。

根据所述候选区域各自对应的特征相似度，选择特征相似度超过阈值的多个候选区域；

从所述多个候选区域中选择与所述在前视频帧中跟踪到的目标的运动方向最匹配的候选区域，作为所述当前视频帧的目标区域；

根据所述当前视频帧的目标区域确定所述当前视频帧中跟踪到的目标。

从所述多个候选区域中选择与所述在前视频帧中跟踪到的目标的物理位置距离最小的候选区域，作为所述当前视频帧的目标区域；

从所述多个候选区域中，选择与所述在前视频帧中跟踪到的目标的物理位置和运动方向最匹配的候选区域，作为所述当前视频帧的目标区域；

可选的，在上述图7所示的目标跟踪装置的基础上，确定子模块724具体通过以下方式计算所述候选区域的物理位置以及所述在前视频帧中跟踪到的目标区域的物理位置：

将所述候选区域的图像位置输入位置坐标映射模型，获取所述位置坐标映射模型输出的所述候选区域的物理位置；以及，

将所述在前视频帧中跟踪到的目标区域的图像位置输入所述位置坐标映射模型，获取所述位置坐标映射模型输出的所述在前视频帧中跟踪到的目标区域的物理位置。

可选的，在图7所示的目标跟踪装置的基础上，参见图8，图8为本申请实施例提供的另一种目标跟踪装置的结构示意图，该装置800还包括一个或多个处理器，以及一个或多个存储程序单元的存储器，其中，程序单元由处理器执行，该程序单元包括：

坐标映射矩阵计算模块801，被设置为根据标定图像上的至少四个位置点的位置坐标以及所述至少四个位置点在物理世界地面上的物理位置坐标，通过透视变换公式计算得到坐标映射矩阵；

模型生成模块802，被设置为根据所述坐标映射矩阵生成所述位置坐标映射模型。

可选的，在图7所示的目标跟踪装置的基础上，参见图9，图9为本申请实施例提供的另一种目标跟踪装置的结构示意图，该装置900还包括一个或多个处理器，以及一个或多个存储程序单元的存储器，其中，程序单元由处理器执行，该程序单元包括：

选择模块901，被设置为根据所述第一视频流中最后一次跟踪到的目标区域，从与第一摄像头相邻的摄像头中选择用于跨屏目标跟踪的第二摄像头，所述第一视频流是所述第一摄像头拍摄得到的；

跨屏跟踪模块902，被设置为获取所述第二摄像头拍摄的第二视频流，针对所述第二视频流中的视频帧执行所述数据处理，以实现在所述第二视频流中的目标跟踪。

可选的，在图9所示的目标跟踪装置的基础上，选择模块901具体被设置为：

针对与所述第一摄像头相邻的摄像头，根据所述摄像头拍摄的视频流和所述目标检测模型，检测得到所述摄像头对应的候选区域；

根据所述摄像头对应的候选区域与所述第一视频流中最后一次跟踪到的目标区域中的深度特征的特征相似度，选择特征相似度超过阈值的多个候选区域对应的所述摄像头，作为候选摄像头；

从所述候选摄像头中选择与所述第一视频流最后一次跟踪到的目标区域的物理位置和运动方向最匹配的候选区域，作为用于目标跟踪的第二摄像头。

可选的，在图7所示的目标跟踪装置的基础上，参见图10，图10为本申请实施例提供的另一种目标跟踪装置的结构示意图，该装置1000还包括一个或多个处理器，以及一个或多个存储程序单元的存储器，其中，程序单元由处理器执行，该程序单元包括：

绘制模块1001，被设置为根据所述第一视频流跟踪得到的目标的物理位置，在物理地图上绘制所述目标的运动轨迹。

可选的，在图7所示的目标跟踪装置的基础上，所述目标检测模型包括：

基础网络和辅助网络，所述基础网络采用轻量级的卷积神经网络mobilenet，所述辅助网络采用卷积核构成的检测层；所述辅助网络的输入为所述基础网络的不同卷积层输出的特征图。

可选的，在图7所示的目标跟踪装置的基础上，参见图11，图11为本申请实施例提供的另一种目标跟踪装置的结构示意图，该装置1100还包括一个或多个处理器，以及一个或多个存储程序单元的存储器，其中，程序单元由处理器执行，该程序单元包括：

图像样本获取模块1101，被设置为获取图像样本，所述图像样本包括人体图像以及图像标签；

模型训练模块1102，被设置为构建深度卷积神经网络初始模型，利用所述图像样本对所述深度卷积神经网络初始模型进行训练，以训练得到满足训练结束条件的深度卷积神经网络模型，作为所述特征提取模型。

在本申请实施例提供的目标跟踪装置中，利用目标检测模型在当前视频帧的整体范围内进行目标检测，以确定当前视频帧中存在的所有候选区域，进而基于所确定的各个候选区域确定跟踪目标，相比于相关技术中根据前一视频帧的目标区域确定当前视频帧的目标跟踪范围，并且仅在该目标跟踪范围内进行目标跟踪，本申请实施例中利用目标检测模型在视频帧的整体范围内确定候选区域，扩大了目标跟踪的范围，能够有效地防止发生因跟踪目标移动过快而跟丢跟踪目标的情况；另外，在本申请实施例提供的目标跟踪装置中，利用特征提取模型提取所确定的各个候选区域的深度特征，并基于各个候选区域的深度特征和在前视频帧中跟踪到的目标的深度特征确定跟踪目标，相比于相关技术中仅以形态特征为依据进行目标跟踪，本申请实施例中基于深度特征确定跟踪目标，能够保证所确定的跟踪目标更加准确，有效地防止发生跟踪漂移的情况。此外，本申请实施例提供的目标跟踪装置同样可以可靠地应用于跨屏目标跟踪的场景下，因此，在跨屏目标跟踪的应用场景下，同样能够有效地防止发生跟丢跟踪目标或跟踪目标漂移的情况，保证目标跟踪的准确性。

本申请实施例还提供了一种目标跟踪设备，该设备具体可以为服务器，参见图12，图12是本申请实施例提供的一种目标跟踪设备的结构示意图，该服务器1200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1222(例如，一个或一个以上处理器)和存储器1232，一个或一个以上存储应用程序1242或数据1244的存储介质1230(例如一个或一个以上海量存储设备)。其中，存储器1232和存储介质1230可以是短暂存储或持久存储。存储在存储介质1230的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1222可以设置为与存储介质1230通信，在服务器1200上执行存储介质1230中的一系列指令操作。

服务器1200还可以包括一个或一个以上电源1226，一个或一个以上有线或无线网络接口1250，一个或一个以上输入输出接口1258，和/或，一个或一个以上操作系统1241，例如Windows ServerTM，Mac OS XTM， UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图12所示的服务器结构。

其中，CPU 1222被设置为执行如下步骤：

获取第一视频流，针对所述第一视频流中的视频帧执行如下数据处理，以实现在所述第一视频流中的目标跟踪，所述数据处理包括：

根据目标检测模型和当前视频帧，检测得到所述当前视频帧中的候选区域；

根据特征提取模型和所述候选区域，提取得到所述候选区域对应的深度特征，所述特征提取模型是端到端的神经网络模型，以图像作为输入，以图像中可运动体的深度特征作为输出；

根据所述候选区域对应的深度特征和在前视频帧中跟踪到的目标的深度特征，计算所述候选区域对应的特征相似度；

根据所述候选区域对应的特征相似度，确定所述当前视频帧中跟踪到的目标。

可选的，CPU1222还可以执行本申请实施例中目标跟踪方法任一具体实现方式的方法步骤。

本申请实施例还提供了另一种目标跟踪设备，该目标跟踪设备可以为终端设备，如图13所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(英文全称：Personal Digital Assistant，英文缩写：PDA)、销售终端(英文全称：Point of Sales，英文缩写：POS)、车载电脑等任意终端设备，以终端为手机为例：

图13示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图13，手机包括：射频(英文全称：Radio Frequency，英文缩写：RF)电路1310、存储器1320、输入单元1330、显示单元1340、传感器1350、音频电路1360、无线保真(英文全称：wireless fidelity，英文缩写：WiFi)模块1370、处理器1380、以及电源1390等部件。本领域技术人员可以理解，图13中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图13对手机的各个构成部件进行具体的介绍：

RF电路1310可被设置为收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1380处理；另外，将设计上行的数据发送给基站。通常，RF电路1310包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(英文全称：Low Noise Amplifier，英文缩写：LNA)、双工器等。此外，RF电路1310还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(英文全称：Global System of Mobile communication，英文缩写：GSM)、通用分组无线服务(英文全称：General Packet Radio Service，GPRS)、码分多址(英文全称：Code Division Multiple Access，英文缩写：CDMA)、宽带码分多址(英文全称：Wideband Code Division Multiple Access,英文缩写：WCDMA)、长期演进(英文全称：Long Term Evolution，英文缩写：LTE)、电子邮件、短消息服务(英文全称：Short Messaging Service，SMS)等。

存储器1320可被设置为存储软件程序以及模块，处理器1380通过运行存储在存储器1320的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1330可被设置为接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1330可包括触控面板1331以及其他输入设备1332。触控面板1331，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1331上或在触控面板1331附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1331可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1380，并能接收处理器1380发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1331。除了触控面板1331，输入单元1330还可以包括其他输入设备1332。具体地，其他输入设备1332可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1340可被设置为显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1340可包括显示面板1341，可选的，可以采用液晶显示器(英文全称：Liquid Crystal Display，英文缩写：LCD)、有机发光二极管(英文全称：Organic Light-Emitting Diode，英文缩写：OLED)等形式来配置显示面板1341。进一步的，触控面板1331可覆盖显示面板1341，当触控面板1331检测到在其上或附近的触摸操作后，传送给处理器1380以确定触摸事件的类型，随后处理器1380根据触摸事件的类型在显示面板1341上提供相应的视觉输出。虽然在图13中，触控面板1331与显示面板1341是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1331与显示面板1341集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1350，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1341的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1341和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1360、扬声器1361，传声器1362可提供用户与手机之间的音频接口。音频电路1360可将接收到的音频数据转换后的电信号，传输到扬声器1361，由扬声器1361转换为声音信号输出；另一方面，传声器1362将收集的声音信号转换为电信号，由音频电路1360接收后转换为音频数据，再将音频数据输出处理器1380处理后，经RF电路1310以发送给比如另一手机，或者将音频数据输出至存储器1320以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1370可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图13示出了WiFi模块1370，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1380是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1320内的软件程序和/或模块，以及调用存储在存储器1320内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1380可包括一个或多个处理单元；优选的，处理器1380可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1380中。

手机还包括给各个部件供电的电源1390(比如电池)，优选的，电源可以通过电源管理系统与处理器1380逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。此外，手机内还可以图形处理器(Graphics Processing Unit，GPU)，特征提取模型和目标检测模型可以通过GPU运行，GPU与处理器1380相互通信，以实现本申请实施例提供的目标跟踪方法。当然，特征提取模型和目标检测模型也可以在处理器1380上运行以实现其功能。

在本申请实施例中，该终端所包括的处理器1380还具有以下功能：

可选的，处理器1380还可以执行本申请实施例中目标跟踪方法任一具体实现方式的方法步骤。

本申请实施例还提供一种计算机可读存储介质，被设置为存储程序代码，该程序代码被设置为执行前述各个实施例所述的一种目标跟踪方法中的任意一种实施方式。

本申请实施例还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例所述的一种目标跟踪方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-Only Memory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请实施例的技术方案，而非对其限制；尽管参照前述实施例对本申请实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

工业实用性

Claims

一种目标跟踪方法，包括：

服务器获取第一视频流，针对所述第一视频流中的视频帧执行如下数据处理，以实现在所述第一视频流中的目标跟踪，所述数据处理包括：

所述服务器根据目标检测模型和当前视频帧，检测得到所述当前视频帧中的候选区域；

所述服务器根据特征提取模型和所述候选区域，提取得到所述候选区域对应的深度特征，所述特征提取模型是端到端的神经网络模型，以图像作为输入，以图像中可运动体的深度特征作为输出；

所述服务器根据所述候选区域对应的深度特征和在前视频帧中跟踪到的目标的深度特征，计算所述候选区域对应的特征相似度；

所述服务器根据所述候选区域对应的特征相似度，确定所述当前视频帧中跟踪到的目标。
根据权利要求1所述的方法，其中，所述服务器根据所述候选区域对应的特征相似度，确定所述当前视频帧中跟踪到的目标，包括：

根据所述候选区域各自对应的特征相似度，选择特征相似度最大的候选区域，作为所述当前视频帧的目标区域；

根据所述目标区域确定所述当前视频帧中跟踪到的目标。
根据权利要求1所述的方法，其中，所述服务器根据所述候选区域对应的特征相似度，确定所述当前视频帧中跟踪到的目标，包括：

根据所述候选区域各自对应的特征相似度，选择特征相似度超过阈值的多个候选区域；

从所述多个候选区域中选择与所述在前视频帧中跟踪到的目标的运动方向最匹配的候选区域，作为所述当前视频帧的目标区域；

根据所述当前视频帧的目标区域确定所述当前视频帧中跟踪到的目标。
根据权利要求1所述的方法，其中，所述服务器根据所述候选区域对应的特征相似度，确定所述当前视频帧中跟踪到的目标，包括：

根据所述候选区域各自对应的特征相似度，选择特征相似度超过阈值的多个候选区域；

从所述多个候选区域中选择与所述在前视频帧中跟踪到的目标的物理位置距离最小的候选区域，作为所述当前视频帧的目标区域；

根据所述当前视频帧的目标区域确定所述当前视频帧中跟踪到的目标。
根据权利要求1所述的方法，其中，所述服务器根据所述候选区域对应的特征相似度，确定所述当前视频帧中跟踪到的目标，包括：

根据所述候选区域各自对应的特征相似度，选择特征相似度超过阈值的多个候选区域；

从所述多个候选区域中，选择与所述在前视频帧中跟踪到的目标的物理位置和运动方向最匹配的候选区域，作为所述当前视频帧的目标区域；

根据所述当前视频帧的目标区域确定所述当前视频帧中跟踪到的目标。
根据权利要求1所述的方法，其中，所述第一视频流是第一摄像头拍摄得到的，则在所述第一视频流中跟踪目标消失后，所述方法还包括：

所述服务器根据所述第一视频流中最后一次跟踪到的目标区域，从与所述第一摄像头相邻的摄像头中选择用于跨屏目标跟踪的第二摄像头；

所述服务器获取所述第二摄像头拍摄的第二视频流，针对所述第二视频流中的视频帧执行所述数据处理，以实现在所述第二视频流中的目标跟踪。
根据权利要求6所述的方法，其中，所述服务器根据从所述第一视频流中最后一次跟踪到的目标区域，从与所述第一摄像头相邻的摄像头中选择用于跨屏目标跟踪的第二摄像头，包括：

针对与所述第一摄像头相邻的摄像头，根据所述摄像头拍摄的视频流和所述目标检测模型，检测得到所述摄像头对应的候选区域；

根据所述摄像头对应的候选区域与所述第一视频流中最后一次跟踪到的目标区域中的深度特征的特征相似度，选择特征相似度超过阈值的多个候选区域对应的所述摄像头，作为候选摄像头；

从所述候选摄像头中选择与所述第一视频流最后一次跟踪到的目标的物理位置和运动方向最匹配的候选区域，作为用于目标跟踪的第二摄像头。
根据权利要求1至7任一项所述的方法，其中，所述方法还包括通过以下方式计算所述候选区域的物理位置以及所述在前视频帧中跟踪到的目标区域的物理位置：

将所述候选区域的图像位置输入位置坐标映射模型，获取所述位置坐标映射模型输出的所述候选区域的物理位置；以及，

将所述在前视频帧中跟踪到的目标区域的图像位置输入所述位置坐标映射模型，获取所述位置坐标映射模型输出的所述在前视频帧中跟踪到的目标的物理位置。
根据权利要求8所述的方法，其中，所述方法还包括：

根据预设的标定图像上的至少四个位置点的位置坐标以及所述至少四个位置点在物理世界地面上的物理位置坐标，通过透视变换公式计算得到坐标映射矩阵；

根据所述坐标映射矩阵生成所述位置坐标映射模型。
根据权利要求1至7任一项所述的方法，其中，所述方法还包括：

所述服务器根据所述第一视频流跟踪到的目标的物理位置，在物理地图上绘制所述目标的运动轨迹。
根据权利要求1至7任一项所述的方法，其中，所述目标检测模型，包括：

基础网络和辅助网络，所述基础网络采用轻量级的卷积神经网络mobilenet，所述辅助网络采用卷积核构成的检测层；所述辅助网络的输入为所述基础网络的不同卷积层输出的特征图。
根据权利要求1至7任一项所述的方法，其中，所述方法还包括：

所述服务器获取图像样本，所述图像样本包括人体图像以及图像标签；

所述服务器构建深度卷积神经网络初始模型，利用所述图像样本对所述深度卷积神经网络初始模型进行训练，以训练得到满足训练结束条件的深度卷积神经网络模型，作为所述特征提取模型。
根据权利要求1至7任一项所述的方法，其中，所述当前视频帧为所述第一视频流中位于第一帧视频帧之后的视频帧，在所述当前视频帧为所述第一视频流中的第二帧视频帧的情况下，所述在前视频帧中跟踪到的目标的深度特征为利用所述特征提取模型提取的在所述第一帧视频帧中需要跟踪的目标的深度特征。
一种目标跟踪方法，包括：

服务器对第一视频流中的目标进行跟踪，其中，所述第一视频流是第一摄像头拍摄到的；

在所述目标在所述第一视频流中消失后，所述服务器根据所述第一视频流中最后一次跟踪到的目标区域，从与所述第一摄像头相邻的摄像头中选择用于跨屏目标跟踪的第二摄像头；

所述服务器获取所述第二摄像头拍摄的第二视频流；

所述服务器在所述第二视频流中对所述目标进行跟踪。
根据权利要求14所述的方法，其中，所述服务器根据从所述第一视频流中最后一次跟踪到的目标区域，从与所述第一摄像头相邻的摄像头中选择用于跨屏目标跟踪的第二摄像头，包括：

针对与所述第一摄像头相邻的摄像头，根据所述摄像头拍摄的视频流和目标检测模型，检测得到所述摄像头对应的候选区域；

根据特征提取模型和所述候选区域，提取得到所述候选区域对应的深度特征，所述特征提取模型是端到端的神经网络模型，以图像作为输入，以图像中可运动体的深度特征作为输出；

根据所述候选区域对应的深度特征和在第一视频流中最后一次跟踪到的目标的深度特征，计算所述候选区域对应的特征相似度；

根据所述候选区域对应的特征相似度，确定所述用于跨屏目标跟踪的第二摄像头。
根据权利要求15所述的方法，其中，所述根据所述候选区域对应的特征相似度，确定所述用于跨屏目标跟踪的第二摄像头包括：

将与所述特征相似度超过阈值的候选区域对应的摄像头确定为所述第二摄像头。
根据权利要求15所述的方法，其中，所述根据所述候选区域对应的特征相似度，确定所述用于跨屏目标跟踪的第二摄像头包括：

根据所述候选区域各自对应的特征相似度，选择特征相似度超过阈值的多个候选区域；

从所述多个候选区域中选择与所述在第一视频流中最后一次跟踪到的目标的运动方向最匹配的候选区域，将与所述最匹配的候选区域对应的摄像头确定为所述第二摄像头。
根据权利要求15所述的方法，其中，所述根据所述候选区域对应的特征相似度，确定所述用于跨屏目标跟踪的第二摄像头包括：

根据所述候选区域各自对应的特征相似度，选择特征相似度超过阈值的多个候选区域；

从所述多个候选区域中选择与所述在第一视频流中最后一次跟踪到的目标的物理位置距离最小的候选区域，将与所述距离最小的候选区域对应的摄像头确定为所述第二摄像头。
根据权利要求15所述的方法，其中，所述根据所述候选区域对应的特征相似度，确定所述用于跨屏目标跟踪的第二摄像头包括：

根据所述候选区域各自对应的特征相似度，选择特征相似度超过阈值的多个候选区域；

从所述多个候选区域中，选择与所述在第一视频流中最后一次跟踪到的目标的物理位置和运动方向最匹配的候选区域，将与所述最匹配的候选区域对应的摄像头确定为所述第二摄像头。
根据权利要求14至19中任一项所述的方法，其中，所述方法还包括通过以下方式计算所述候选区域的物理位置以及所述在第一视频流中最后一次跟踪到的目标区域的物理位置：

将所述候选区域的图像位置输入位置坐标映射模型，获取所述位置坐标映射模型输出的所述候选区域的物理位置；以及，

将所述在第一视频流中最后一次跟踪到的目标区域的图像位置输入所述位置坐标映射模型，获取所述位置坐标映射模型输出的所述在第一视频流中最后一次跟踪到的目标区域的物理位置。
根据权利要求14所述的方法，其中，所述服务器在所述第二视频流中对所述目标进行跟踪包括：针对所述第二视频流中的视频帧执行如下数据处理：

根据目标检测模型和当前视频帧，检测得到所述当前视频帧中的候选区域；

根据特征提取模型和所述候选区域，提取得到所述候选区域对应的深度特征，所述特征提取模型是端到端的神经网络模型，以图像作为输入，以图像中可运动体的深度特征作为输出；

根据所述候选区域对应的深度特征和在前视频帧中跟踪到的目标的深度特征，计算所述候选区域对应的特征相似度；

根据所述候选区域对应的特征相似度，确定所述当前视频帧中跟踪到的目标。
一种目标跟踪装置，包括一个或多个处理器，以及一个或多个存储程序单元的存储器，其中，所述程序单元由所述处理器执行，所述程序单元包括：

获取模块，被设置为获取第一视频流；

处理模块，被设置为针对所述第一视频流中的视频帧执行如下数据处理，以实现在所述第一视频流中的目标跟踪；

所述处理模块包括：

检测子模块，被设置为根据目标检测模型和当前视频帧，检测得到所述当前视频帧中的候选区域；

特征提取子模块，被设置为根据特征提取模型和所述候选区域，提取得到所述候选区域对应的深度特征，所述特征提取模型是端到端的神经网络模型，以图像作为输入，以图像中可运动体的深度特征作为输出；

计算子模块，被设置为根据所述候选区域对应的深度特征和在前视频帧中跟踪到的目标的深度特征，计算所述候选区域对应的特征相似度；

确定子模块，被设置为根据所述候选区域对应的特征相似度，确定所述当前视频帧中跟踪到的目标。
一种设备，所述设备包括处理器以及存储器：

所述存储器被设置为存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器被设置为根据所述程序代码中的指令执行权利要求1-13，或权利要求14-21任一项所述的目标跟踪方法。
一种计算机可读存储介质，所述计算机可读存储介质被设置为存储程序代码，所述程序代码被设置为执行权利要求1-13，或权利要求14-21任一项所述的目标跟踪方法。