WO2019080747A1

WO2019080747A1 - 目标跟踪及神经网络训练方法、装置、存储介质、电子设备

Info

Publication number: WO2019080747A1
Application number: PCT/CN2018/110433
Authority: WO
Inventors: 李博; 武伟
Original assignee: 北京市商汤科技开发有限公司
Priority date: 2017-10-27
Filing date: 2018-10-16
Publication date: 2019-05-02
Also published as: CN108230358A

Abstract

本申请实施例提供一种目标跟踪及神经网络训练方法、装置、存储介质、电子设备，涉及人工智能领域。其中，所述目标跟踪方法包括：通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取所述目标物体在所述非检测图像中的位置数据，所述第一神经网络用于根据所述检测图像回归所述目标物体在所述非检测图像中的位置，所述非检测图像为所述检测图像的在后图像；根据所述目标物体在所述检测图像中的位置数据和所述目标物体在所述非检测图像中的位置数据确定所述目标物体的轨迹。通过本申请实施例，不仅提高了目标跟踪的检测效率，而且还提高了目标跟踪的精度。

Description

目标跟踪及神经网络训练方法、装置、存储介质、电子设备

本申请要求在2017年10月27日提交中国专利局、申请号为CN 201711031418.9、发明名称为“目标跟踪及神经网络训练方法、装置、存储介质、电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及人工智能技术领域，尤其涉及一种目标跟踪方法、装置、存储介质和电子设备，以及，一种神经网络的训练方法、装置、存储介质和电子设备。

背景技术

目标跟踪技术是智能视频监控技术中的重要组成部分。对于静态图像，只需要检测出静态图像中物体的限位框的位置，但是对于智能视频，在检测出每一帧视频图像中物体的限位框的位置之后，还需要对每一帧视频图像中物体的限位框进行匹配，以确定目标物体的轨迹。

发明内容

本申请实施例提供一种目标跟踪的技术方案和神经网络训练的技术方案。

根据本申请实施例的第一方面，提供了一种目标跟踪方法。所述方法包括：通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取所述目标物体在所述非检测图像中的位置数据，所述第一神经网络用于根据所述检测图像回归所述目标物体在所述非检测图像中的位置，所述非检测图像为所述检测图像的在后图像；根据所述目标物体在所述检测图像中的位置数据和所述目标物体在所述非检测图像中的位置数据确定所述目标物体的轨迹。

可选地，所述通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取所述目标物体在所述非检测图像中的位置数据，包括：通过所述第一神经网络，根据所述视频帧序列中的检测图像和在所述检测图像之后的第一非检测图像，获取所述目标物体在所述第一非检测图像中的位置数据。

可选地，所述方法还包括：通过所述第一神经网络，根据所述视频帧序列中的第一非检测图像和在所述第一非检测图像之后的第二非检测图像，获取所述目标物体在所述第二非检测图像中的位置数据。

可选地，所述通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取所述目标物体在所述非检测图像中的位置数据之前，所述方法还包括：根据所述检测图像中目标物体的位置数据，分别对所述检测图像和所述非检测图像进行裁剪，获得与所述检测图像对应的第一区域图像以及与所述非检测图像对应的第二区域图像，其中，所述第一区域图像与所述第二区域图像包含所述目标物体；所述通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取所述目标物体在所述非检测图像中的位置数据，包括：通过所述第一神经网络，根据含有所述目标物体的第一区域图像和第二区域图像，获取所述目标物体在所述第二区域图像中的位置数据。

可选地，所述方法还包括：按照时间顺序，将所述视频帧序列划分为多组视频帧，每组所述视频帧包括至少一帧视频图像；针对所述多组视频帧，从首帧视频图像中获取所述目标物体的位置数据，并通过所述第一神经网络，获取所述首帧视频图像后续的视频图像中目标物体的位置数据，从而获得该组所述视频帧中的至少一帧视频图像的目标物体的位置数据；根据所述多组视频帧中的至少一帧视频图像的目标物体的位置数据确定所述目标物体的轨迹。

可选地，所述从首帧视频图像中获取所述目标物体的位置数据，包括：通过用于目标位置检测的第二神经网络，从首帧视频图像中获取所述目标物体的位置数据，所述第二神经网络包括快速卷积神经网络。

可选地，所述通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取所述目标物体在所述非检测图像中的位置数据之前，所述方法还包括：根据所述目标物体的类别确定与所述目标物体的类别对应的第一神经网络。

可选地，所述通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取所述目标物体在所述非检测图像中的位置数据之前，所述方法还包括：根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像训练所述第一神经网络，所述非检测样本图像为所述检测样本图像的在后图像。

可选地，所述根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像训练所述第一神经网络，包括：通过待训练的第一神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据；根据所述检测样本图像中所述目标物体的位置数据和所述非检测样本图像中所述目标物体的位置数据，确定所述目标物体在所述检测样本图像和所述非检测样本图像之间的第二位置偏移数据；根据第一位置偏移数据和所述第二位置偏移数据，训练所述第一神经网络，所述第一位置偏移数据为所述目标物体在所述检测样本图像和所述非检测样本图像之间的标准位置偏移量。

可选地，所述通过待训练的第一神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据之前，所述方法还包括：根据所述检测样本图像中目标物体的位置数据，分别对所述检测样本图像和所述非检测样本图像进行裁剪，获得与所述检测样本图像对应的第三区域图像以及与所述非检测样本图像对应的第四区域图像，其中，所述第三区域图像与所述第四区域图像包含所述目标物体；所述通过待训练的第一神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据，包括：通过所述待训练的第一神经网络，根据含有所述目标物体的第三区域图像和第四区域图像，获取所述目标物体在所述第四区域图像中的位置数据。

可选地，所述待训练的第一神经网络包括卷积层、连接在所述卷积层末端的拼接层，以及连接在所述拼接层末端的全连接层，所述通过所述待训练的第一神经网络，根据含有所述目标物体的第三区域图像和第四区域图像，获取所述目标物体在所述第四区域图像中的位置数据，包括：通过所述卷积层，对所述第三区域图像和所述第四区域图像进行特征提取，获得所述第三区域图像和所述第四区域图像中所述目标物体的位置特征向量；通过所述拼接层，对所述第三区域图像和所述第四区域图像中所述目标物体的位置特征向量进行拼接，获得拼接后的位置特征向量；通过所述全连接层，对所述拼接后的位置特征向量进行映射操作，获得所述目标物体在所述第四区域图像中的位置数据。

可选地，所述通过待训练的第一神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据之前，所述方法还包括：根据所述检测样本图像中目标物体的位置数据和所述非检测样本图像中目标物体的位置标定数据确定所述第一位置偏移数据。

可选地，所述位置数据包括所述目标物体的限位框的长度、宽度以及中心位置坐标。

根据本申请实施例的第二方面，提供了一种神经网络训练方法。所述方法包括：通过待训练的神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据，所述非检测样本图像为所述检测样本图像的在后图像；根据所述检测样本图像中所述目标物体的位置数据和所述非检测样本图像中所述目标物体的位置数据，确定所述目标物体在所述检测样本图像和所述非检测样本图像之间的第二位置偏移数据；根据第一位置偏移数据和所述第二位置偏移数据，训练所述神经网络，所述第一位置偏移数据为所述目标物体在所述检测样本图像和所述非检测样本图像之间的标准位置偏移量。

可选地，所述通过待训练的神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据之前，所述方法还包括：根据所述检测样本图像中目标物体的位置数据，分别对所述检测样本图像和所述非检测样本图像进行裁剪，获得与所述检测样本图像对应的第三区域图像以及与所述非检测样本图像对应的第四区域图像，其中，所述第三区域图像与所述第四区域图像包含所述目标物体；所述通过待训练的神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据，包括：通过所述待训练的神经网络，根据含有所述目标物体的第三区域图像和第四区域图像，获取所述目标物体在所述第四区域图像中的位置数据。

可选地，所述待训练的神经网络包括卷积层、连接在所述卷积层末端的拼接层，以及连接在所述拼接层末端的全连接层，所述通过所述待训练的神经网络，根据含有所述目标物体的第三区域图像和第四区域图像，获取所述目标物体在所述第四区域图像中的位置数据，包括：通过所述卷积层，对所述第三区域图像和所述第四区域图像进行特征提取，获得所述第三区域图像和所述第四区域图像中所述目标物体的位置特征向量；通过所述拼接层，对所述第三区域图像和所述第四区域图像中所述目标物体的位置特征向量进行拼接，获得拼接后的位置特征向量；通过所述全连接层，对所述拼接后的位置特征向量进行映射操作，获得所述目标物体在所述第四区域图像中的位置数据。

可选地，所述通过待训练的神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据之前，所述方法还包括：根据所述检测样本图像中目标物体的位置数据和所述非检测样本图像中目标物体的位置标定数据确定所述第一位置偏移数据。

根据本申请实施例的第三方面，提供了一种目标跟踪装置。所述装置包括：第一获取模块，用于通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取所述目标物体在所述非检测图像中的位置数据，所述第一神经网络用于根据所述检测图像回归所述目标物体在所述非检测图像中的位置，所述非检测图像为所述检测图像的在后图像；第一确定模块，用于根据所述目标物体在所述检测图像中的位置数据和所述目标物体在所述非检测图像中的位置数据确定所述目标物体的轨迹。

可选地，所述第一获取模块，包括：第一获取子模块，用于通过所述第一神经网络，根据所述视频帧序列中的检测图像和在所述检测图像之后的第一非检测图像，获取所述目标物体在所述第一非检测图像中的位置数据。

可选地，所述装置还包括：第二获取模块，用于通过所述第一神经网络，根据所述视频帧序列中的第一非检测图像和在所述第一非检测图像之后的第二非检测图像，获取所述目标物体在所述第二非检测图像中的位置数据。

可选地，所述第一获取模块之前，所述装置还包括：第一裁剪模块，用于根据所述检测图像中目标物体的位置数据，分别对所述检测图像和所述非检测图像进行裁剪，获得与所述检测图像对应的第一区域图像以及与所述非检测图像对应的第二区域图像，其中，所述第一区域图像与所述第二区域图像包含所述目标物体；所述第一获取模块，包括：第二获取子模块，用于通过所述第一神经网络，根据含有所述目标物体的第一区域图像和第二区域图像，获取所述目标物体在所述第二区域图像中的位置数据。

可选地，所述装置还包括：划分模块，用于按照时间顺序，将所述视频帧序列划分为多组视频帧，每组所述视频帧包括至少一帧视频图像；第三获取模块，用于针对所述多组视频帧，从首帧视频图像中获取所述目标物体的位置数据，并通过所述第一神经网络，获取所述首帧视频图像后续的视频图像中目标物体的位置数据，从而获得该组所述视频帧中的至少一帧视频图像的目标物体的位置数据；第二确定模块，用于根据所述多组视频帧中的至少一帧视频图像的目标物体的位置数据确定所述目标物体的轨迹。

可选地，所述第三获取模块，包括：第三获取子模块，用于通过用于目标位置检测的第二神经网络，从首帧视频图像中获取所述目标物体的位置数据，所述第二神经网络包括快速卷积神经网络。

可选地，所述第一获取模块之前，所述装置还包括：选择模块，用于根据所述目标物体的类别确定与所述目标物体的类别对应的第一神经网络。

可选地，所述第一获取模块之前，所述装置还包括：第一训练模块，用于根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像训练所述第一神经网络，所述非检测样本图像为所述检测样本图像的在后图像。

可选地，所述第一训练模块，包括：第四获取子模块，用于通过待训练的第一神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据；第一确定子模块，用于根据所述检测样本图像中所述目标物体的位置数据和所述非检测样本图像中所述目标物体的位置数据，确定所述目标物体在所述检测样本图像和所述非检测样本图像之间的第二位置偏移数据；第一训练子模块，用于根据第一位置偏移数据和所述第二位置偏移数据，训练所述第一神经网络，所述第一位置偏移数据为所述目标物体在所述检测样本图像和所述非检测样本图像之间的标准位置偏移量。

可选地，所述第四获取子模块之前，所述装置还包括：第一裁剪子模块，用于根据所述检测样本图像中目标物体的位置数据，分别对所述检测样本图像和所述非检测样本图像进行裁剪，获得与所述检测样本图像对应的第三区域图像以及与所述非检测样本图像对应的第四区域图像，其中，所述第三区域图像与所述第四区域图像包含所述目标物体；所述第四获取子模块，包括：获取单元，用于通过所述待训练的第一神经网络，根据含有所述目标物体的第三区域图像和第四区域图像，获取所述目标物体在所述第四区域图像中的位置数据。

可选地，所述待训练的第一神经网络包括卷积层、连接在所述卷积层末端的拼接层，以及连接在所述拼接层末端的全连接层，所述获取单元，具体用于：通过所述卷积层，对所述第三区域图像和所述第四区域图像进行特征提取，获得所述第三区域图像和所述第四区域图像中所述目标物体的位置特征向量；通过所述拼接层，对所述第三区域图像和所述第四区域图像中所述目标物体的位置特征向量进行拼接，获得拼接后的位置特征向量；通过所述全连接层，对所述拼接后的位置特征向量进行映射操作，获得所述目标物体在所述第四区域图像中的位置数据。

可选地，所述第四获取子模块之前，所述装置还包括：第二确定子模块，用于根据所述检测样本图像中目标物体的位置数据和所述非检测样本图像中目标物体的位置标定数据确定所述第一位置偏移数据。

根据本申请实施例的第四方面，提供了一种神经网络训练装置。所述装置包括：第四获取模块，用于通过待训练的神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据，所述非检测样本图像为所述检测样本图像的在后图像；第三确定模块，用于根据所述检测样本图像中所述目标物体的位置数据和所述非检测样本图像中所述目标物体的位置数据，确定所述目标物体在所述检测样本图像和所述非检测样本图像之间的第二位置偏移数据；第二训练模块，用于根据第一位置偏移数据和所述第二位置偏移数据，训练所述神经网络，所述第一位置偏移数据为所述目标物体在所述检测样本图像和所述非检测样本图像之间的标准位置偏移量。

可选地，所述第四获取模块之前，所述装置还包括：第二裁剪模块，用于根据所述检测样本图像中目标物体的位置数据，分别对所述检测样本图像和所述非检测样本图像进行裁剪，获得与所述检测样本图像对应的第三区域图像以及与所述非检测样本图像对应的第四区域图像，其中，所述第三区域图像与所述第四区域图像包含所述目标物体；所述第四获取模块，包括：第五获取子模块，用于通过所述待训练的神经网络，根据含有所述目标物体的第三区域图像和第四区域图像，获取所述目标物体在所述第四区域图像中的位置数据。

可选地，所述待训练的神经网络包括卷积层、连接在所述卷积层末端的拼接层，以及连接在所述拼接层末端的全连接层，所述第五获取子模块，具体用于：通过所述卷积层，对所述第三区域图像和所述第四区域图像进行特征提取，获得所述第三区域图像和所述第四区域图像中所述目标物体的位置特征向量；通过所述拼接层，对所述第三区域图像和所述第四区域图像中所述目标物体的位置特征向量进行拼接，获得拼接后的位置特征向量；通过所述全连接层，对所述拼接后的位置特征向量进行映射操作，获得所述目标物体在所述第四区域图像中的位置数据。

可选地，所述第四获取模块之前，所述装置还包括：第四确定模块，用于根据所述检测样本图像中目标物体的位置数据和所述非检测样本图像中目标物体的位置标定数据确定所述第一位置偏移数据。

根据本申请实施例的第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述程序指令被处理器执行时实现本申请实施例第一方面所述的目标跟踪方法的步骤，或者实现本申请实施例第二方面所述的神经网络训练方法的步骤。

根据本申请实施例的第六方面，提供了一种计算机程序产品，其包括有计算机程序指令，其中，所述程序指令被处理器执行时实现本申请实施例第一方面所述的目标跟踪方法的步骤，或者实现本申请实施例第二方面所述的神经网络训练方法的步骤。

根据本申请实施例的第七方面，提供了一种计算机程序，包括计算机可读代码，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现本申请实施例第一方面所述的对象属性检测方法中各步骤的指令；或者

当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现本申请实施例第二方面所述的神经网络训练方法中各步骤的指令。

根据本申请实施例的第八方面，提供了一种电子设备，包括：处理器和存储器；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行本申请实施例第一方面所述的目标跟踪方法对应的操作；或者，所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行本申请实施例第二方面所述的神经网络训练方法对应的操作。

根据本申请实施例的第九方面，提供了一种电子设备，包括：处理器和本申请实施例第三方面所述的目标跟踪装置；在处理器运行所述目标跟踪装置时，本申请实施例第三方面所述的目标跟踪装置中的模块被运行；或者

处理器和本申请实施例第四方面所述的神经网络训练装置；在处理器运行所述神经网络的训练装置时，本申请实施例第四方面所述的神经网络训练装置中的模块被运行。

根据本申请实施例提供的技术方案，通过用于根据检测图像回归目标物体在非检测图像中的位置的第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取目标物体在非检测图像中的位置数据；并根据目标物体在检测图像中的位置数据和目标物体在非检测图像中的位置数据确定目标物体的轨迹，相比于现有隔帧检测的技术，本申请实施例可以根据检测图像回归非检测图像中目标物体的位置，在兼顾目标跟踪的检测效率的同时，还提高了目标跟踪的精度。

下面通过附图和实施例，对本申请的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本申请的实施例，并且连同描述一起用于解释本申请的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本申请，其中：

图1是根据本申请实施例目标跟踪方法的一个实施例的流程示意图。

图2是根据本申请实施例目标跟踪方法的另一个实施例的流程示意图。

图3是根据本申请实施例神经网络训练方法的一个实施例的流程示意图。

图4是根据本申请实施例神经网络训练方法的另一个实施例的流程示意图。

图5是根据本申请实施例目标跟踪装置的一个实施例的结构示意图。

图6是根据本申请实施例目标跟踪装置的另一个实施例的结构示意图。

图7是根据本申请实施例目标跟踪装置的又一实施例的结构示意图。

图8是根据本申请实施例神经网络训练装置的一个实施例的结构示意图。

图9是根据本申请实施例神经网络训练装置的另一实施例的结构示意图。

图10是根据本申请实施例电子设备的一个实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本申请实施例可以应用于计算机系统/服务器，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

图1是根据本申请实施例目标跟踪方法的一种实施例的流程示意图。该方法可以由任意目标跟踪设备执行，例如终端设备、服务器、移动设备等等，本申请实施例对此不做限定。如图1所示，本实施例的目标跟踪方法包括以下步骤：

在步骤S101中，通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取目标物体在非检测图像中的位置数据。

其中，第一神经网络用于根据检测图像回归目标物体在非检测图像中的位置。目标物体可包括但不限于交通工具、行人、无人机等。目标物体在图像中的位置数据可包括但不限于目标物体的限位框的顶点坐标和中心位置坐标。可选地，目标物体的限位框可为正方形或长方形。当目标物体的限位框为正方形时，目标物体的限位框的顶点坐标可为正方形的四个角所在的点的坐标。

在可选的实施方式中，检测图像可为在视频帧序列中利用检测器检测得到目标物体的位置的图像，非检测图像可为检测图像的在后图像，且非利用检测器检测得到目标物体的位置的图像。检测图像与非检测图像可为视频帧序列中相邻的视频图像，也可为视频帧序列中不相邻的视频图像，即检测图像与非检测图像之间具有相隔的视频图像。

在一个可选示例中，该步骤S101可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一获取模块501执行。

在步骤S102中，根据目标物体在检测图像中的位置数据和目标物体在非检测图像中的位置数据确定目标物体的轨迹。

其中，目标物体在检测图像中的位置数据是事先确定好的，不需要第一神经网络进行获取。可选地，可事先通过用于目标位置检测的神经网络检测出所述检测图像中目标物体的位置数据。当然，也可以采用其它的实施方式事先检测出检测图像中的目标物体的位置数据，本申请实施例对此不作限制。非检测图像中目标物体的位置数据是通过第一神经网络，根据检测图像和非检测图像获取得到的。

在一个可选示例中，该步骤S102可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一确定模块502执行。

在可选的实施方式中，含有目标物体的视频帧序列中包括多帧视频图像。由于目标物体在在前的检测图像中的位置数据以及目标物体在在后的非检测图像中的位置数据是已知的，可得到目标物体在视频帧序列的每一帧视频图像中的位置数据。根据目标物体在视频帧序列的每一帧视频图像中的位置数据可确定得到目标物体的轨迹。

本实施例的目标跟踪方法可以由任意适当的具有图像或数据处理能力的设备执行，包括但不限于：摄像头、终端、移动终端、PC机、服务器、车载设备、娱乐设备、广告设备、个人数码助理(PDA)、平板电脑、笔记本电脑、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备或显示增强设备(如Google Glass、Oculus Rift、Hololens、Gear VR)等。

图2是根据本申请实施例目标跟踪方法的另一个实施例的流程示意图。该方法可以由任意目标跟踪设备执行，例如终端设备、服务器、移动设备等等，本申请实施例对此不做限定。如图2所示，本实施例的目标跟踪方法包括以下步骤：

在步骤S201中，根据检测图像中目标物体的位置数据，分别对检测图像和非检测图像进行裁剪，获得与检测图像对应的第一区域图像以及与非检测图像对应的第二区域图像。

其中，目标物体的位置数据可包括但不限于目标物体的限位框的长度、宽度以及中心位置坐标。第一区域图像与第二区域图像包含目标物体。

在可选的实施方式中，首先可根据检测图像中目标物体的位置数据确定得到图像的裁剪位置数据。可选地，可保证裁剪框的中心位置坐标与目标物体的限位框的中心位置坐标相同，并将目标物体的限位框的长度和宽度按照一定的比例进行扩大，获得裁剪框的长度和宽度，从而得到图像的裁剪位置数据。在获得图像的裁剪位置数据之后，可根据图像的裁剪位置数据，分别对检测图像和非检测图像进行裁剪，获得与检测图像对应的第一区域图像以及与非检测图像对应的第二区域图像。之所以对检测图像和非检测图像进行裁剪，是因为检测图像与非检测图像之间相隔的视频图像的帧数通常较小，例如：在0到3之间，那么目标物体在非检测图像中的位置相对于目标物体在检测图像中的位置的变化也很小，目标物体在非检测图像中的限位框的位置会落入非检测图像的裁剪框内。籍此，可减轻第一神经网络的数据处理量，第一神经网络能够基于视频帧序列中在前的检测图像的目标物体位置快速回归出视频帧序列中在后的非检测图像的目标物体位置。此外，由于图像的裁剪位置数据是根据检测图像中目标物体的位置数据确定得到的，因此，检测图像中目标物体的位置数据隐含在裁剪后的检测图像(第一区域图像)中。可选地，可根据第一区域图像的中心位置坐标、长度和宽度确定得到第一区域图像中目标物体的限位框的长度、宽度和中心位置坐标。

在一个可选示例中，该步骤S201可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一裁剪模块601执行。

在步骤S202中，通过第一神经网络，根据含有目标物体的第一区域图像和第二区域图像，获取目标物体在第二区域图像中的位置数据。

其中，第一神经网络用于根据第一区域图像回归目标物体在第二区域图像中的位置。目标物体在第二区域图像中的位置数据可包括但不限于目标物体的限位框的长度、宽度以及中心位置坐标。

在一个可选示例中，该步骤S202可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第二获取子模块6022执行。

在不对检测图像和非检测图像进行裁剪的情况下，通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取目标物体在非检测图像中的位置数据。在本申请一可选实施方式中，通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取目标物体在非检测图像中的位置数据，包括：通过第一神经网络，根据视频帧序列中的检测图像和在检测图像之后的第一非检测图像，获取目标物体在第一非检测图像中的位置数据。籍此，能够非常准确地预测出在检测图像之后的第一非检测图像中的目标物体的位置数据。

可选地，在本申请一可选实施方式中，本申请实施例方法还包括：通过第一神经网络，根据视频帧序列中的第一非检测图像和在第一非检测图像之后的第二非检测图像，获取目标物体在第二非检测图像中的位置数据。籍此，能够较为准确地预测出在第一非检测图像之后的第二非检测图像中的目标物体的位置数据。

其中，检测图像与第一非检测图像可为视频帧序列中相邻的视频图像，也可为视频帧序列中不相邻的视频图像，即检测图像与第一非检测图像之间具有相隔的视频图像。第一非检测图像与第二非检测图像可为视频帧序列中相邻的视频图像，也可为视频帧序列中不相邻的视频图像，即第一非检测图像与第二非检测图像之间具有相隔的视频图像。第一神经网络根据检测图像回归出目标物体在检测图像之后的第一非检测图像中的位置的准确度较高，第一神经网络根据第一非检测图像回归出目标物体在第一非检测图像之后的第二非检测图像中的位置的准确度较低。

可选地，在该步骤S202之前，本申请实施例方法还包括：根据目标物体的类别确定与目标物体的类别对应的第一神经网络。籍此，能够进一步提高目标跟踪的精度。

在可选的实施方式中，可以针对目标物体的不同类别分别训练对应的第一神经网络。例如，对于移动较快的车辆可以单独训练一个相应的第一神经网络，而对于移动较慢的车辆可以单独训练一个相应的第一神经网络，从而能够进一步提高目标车辆跟踪的精度。

步骤S203，根据目标物体在第一区域图像中的位置数据和目标物体在所述第二区域图像中的位置数据确定所述目标物体的轨迹。

其中，第一区域图像中目标物体的位置数据就是检测图像中目标物体的位置数据，因为第一区域图像是通过对检测图像进行裁剪得到的。第二区域图像中目标物体的位置数据是通过第一神经网络，根据第一区域图像和第二区域图像获取得到的。

在一个可选示例中，该步骤S203可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第二确定模块607执行。

在可选的实施方式中，含有目标物体的视频帧序列中包括多帧视频图像。由于目标物体在第一区域图像中的位置数据和目标物体在第二区域图像中的位置数据是已知的，相应地，目标物体在在前的检测图像中的位置数据以及目标物体在在后的非检测图像中的位置数据也是已知的，可得到目标物体在视频帧序列的每一帧视频图像中的位置数据。根据目标物体在视频帧序列的每一帧视频图像中的位置数据可确定得到目标物体的轨迹。

可选地，本申请的一些可选实施例方法中还包括：按照时间顺序，将视频帧序列划分为多组视频帧，每组视频帧包括至少一帧视频图像；针对多组视频帧，从首帧视频图像中获取目标物体的位置数据，并通过第一神经网络，获取首帧视频图像后续的视频图像中目标物体的位置数据，从而获得该组视频帧中至少一帧视频图像的目标物体的位置数据；根据多组视频帧中至少一帧视频图像的目标物体的位置数据确定目标物体的轨迹。籍此，能够进一步提高目标跟踪的精度。

其中，从首帧视频图像中获取目标物体的位置数据，包括：通过用于目标位置检测的第二神经网络，从首帧视频图像中获取目标物体的位置数据。可选地，第二神经网络包括快速卷积神经网络(Faster Region with CNN，Faster RCNN)。通过第一神经网络，获取首帧视频图像后续的视频图像中目标物体的位置数据，包括：通过第一神经网络，根据首帧视频图像和后续的视频图像获取后续的视频图像中目标物体的位置数据。

在一些可选的实施方式中，每组视频帧包括四帧视频图像。首帧视频图像为关键帧，需要第二神经网络从首帧视频图像中检测出目标物体的位置数据，首帧视频图像后续的三帧视频图像需要第一神经网络根据首帧视频图像和后续的视频图像回归出后续的视频图像中目标物体的位置数据。籍此，视频可以以分段的形式进行检测，一个分段内，首帧为关键帧，首帧后面的几个视频帧都做回归，这样一个分段的整体检测时间和现有技术中一帧视频图像的检测时间接近，可以让目标跟踪的反应时间更短。

在本实施例中，通过第一神经网络，根据含有目标物体的第一区域图像和第二区域图像，获取目标物体在第二区域图像中的位置数据之前，需要对第一神经网络进行训练。在训练第一神经网络时，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像训练第一神经网络，非检测样本图像为检测样本图像的在后图像。

在本申请一些可选实施方式中，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像训练第一神经网络，包括：通过待训练的第一神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取目标物体在非检测样本图像中的位置数据；并根据检测样本图像中目标物体的位置数据和非检测样本图像中目标物体的位置数据，确定目标物体在检测样本图像和非检测样本图像之间的第二位置偏移数据；再根据第一位置偏移数据和第二位置偏移数据，训练第一神经网络，第一位置偏移数据为目标物体在检测样本图像和非检测样本图像之间的标准位置偏移量。其中，标准位置偏移量为根据目标物体在检测样本图像和非检测样本图像中的实际位置测量得到的。

在本申请一些可选实施方式中，通过待训练的第一神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取目标物体在非检测样本图像中的位置数据之前，该实施例方法还包括：根据检测样本图像中目标物体的位置数据，分别对检测样本图像和非检测样本图像进行裁剪，获得与检测样本图像对应的第三区域图像以及与非检测样本图像对应的第四区域图像，其中，第三区域图像与第四区域图像包含目标物体。相应地，通过待训练的第一神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取目标物体在非检测样本图像中的位置数据，包括：通过待训练的第一神经网络，根据含有目标物体的第三区域图像和第四区域图像，获取目标物体在第四区域图像中的位置数据。

在本申请一些可选实施方式中，待训练的第一神经网络包括卷积层、连接在卷积层末端的拼接层，以及连接在拼接层末端的全连接层，其中，通过第一神经网络，根据含有目标物体的第三区域图像和第四区域图像，获取目标物体在第四区域图像中的位置数据，包括：通过卷积层，对第三区域图像和第四区域图像进行特征提取，获得第三区域图像和第四区域图像中目标物体的位置特征向量；通过拼接层，对第三区域图像和第四区域图像中目标物体的位置特征向量进行拼接，获得拼接后的位置特征向量；通过全连接层，对拼接后的位置特征向量进行映射操作，获得目标物体在第四区域图像中的位置数据。

在本申请一些可选实施方式中，通过待训练的第一神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取目标物体在非检测样本图像中的位置数据之前，该实施例方法还包括：根据检测样本图像中目标物体的位置数据和非检测样本图像中目标物体的位置标定数据确定第一位置偏移数据。

本申请实施例提供的目标跟踪方法，与现有技术中对视频帧序列中每帧视频图像都做检测的方法相比，不仅能够提高目标跟踪的速度，还能够保证目标跟踪的精度，并且与现有技术中对视频帧序列进行跳帧检测的方法相比，能够综合运用视频帧序列中每一帧视频图像的目标物体的位置信息，目标跟踪的精度更高。此外，本申请实施例提供的目标跟踪方法可以保证获取得到的在后的非检测图像中物体的位置数据与目标物体是一对一的关系，而不需要在得到视频帧序列中每一帧视频图像的物体位置数据之后，再通过对每一帧视频图像中的物体的位置数据进行匹配来获得每一帧视频图像中目标物体的位置数据，从而得到目标物体的轨迹。

本申请实施例提供的目标跟踪方法可以应用于实际的场景中。例如，在实时的交通路面上，如果交通管理部门希望通过目标跟踪来确认车辆的运行轨迹，而又无法为每个监控摄像头都支付一笔昂贵的设备费用的时候，通过本申请实施例提供的目标跟踪方法则可以实现一台设备实时跟踪数个甚至数十个监控摄像头，降低了目标跟踪的成本。

根据本实施例提供的目标跟踪方法，根据检测图像中目标物体的位置数据，分别对检测图像和非检测图像进行裁剪，获得与检测图像对应的第一区域图像以及与非检测图像对应的第二区域图像，再通过用于根据第一区域图像回归目标物体在第二区域图像中的位置的第一神经网络，根据含有目标物体的第一区域图像和第二区域图像，获取目标物体在第二区域图像中的位置数据；并根据目标物体在第一区域图像中的位置数据和目标物体在第二区域图像中的位置数据确定目标物体的轨迹，相比于现有隔帧检测的技术，本申请实施例可以根据第一区域图像回归第二区域图像中目标物体的位置，在兼顾目标跟踪的检测效率的同时，还提高了目标跟踪的精度。

图3是根据本申请实施例神经网络训练方法的一个实施例的流程示意图。该方法可以由任意神经网络训练设备执行，例如终端设备、服务器、移动设备等等，本申请实施例对此不做限定。如图3所示，本实施例的神经网络训练方法包括以下步骤：

在步骤S301中，通过待训练的神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取目标物体在非检测样本图像中的位置数据。

在本申请实施例中，神经网络可以是任意适当的可实现特征提取或目标对象检测的神经网络，包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络等等。神经网络中结构的设置可以由本领域技术人员根据实际需求适当设定，如卷积层的层数、卷积核的大小、通道数等等，本申请实施例对此不作限制。其中，目标物体可包括交通工具、行人、无人机等。样本图像中目标物体的位置数据可包括目标物体的限位框的顶点坐标和中心位置坐标。可选地，目标物体的限位框可为正方形或长方形。例如，当目标物体的限位框为长方形时，目标物体的限位框的顶点坐标可为长方形的四个角所在的点的坐标。

在可选的实施方式中，检测样本图像可为在视频帧样本序列中利用检测器检测得到目标物体的位置的图像，非检测样本图像可为检测样本图像的在后图像，且非利用检测器检测得到目标物体的位置的图像。检测样本图像与非检测样本图像可为视频帧样本序列中相邻的视频图像，也可为视频帧样本序列中不相邻的视频图像，即检测样本图像与非检测样本图像之间具有相隔的视频图像。为了让训练得到的神经网络的适应性较好，效果较佳，不仅限于选择相邻的检测样本图像和非检测样本图像，还可以选择不相邻的检测样本图像和非检测样本图像，让训练得到的神经网络能够获取目标位置变化更大的样本图像中目标物体的位置，即可以让训练得到的神经网络能够根据过去几帧的视频图像中的目标物体位置更精确地获取当前视频帧图像中的物体的位置，而不是只能通过前一帧视频图像中目标物体的位置获取当前视频帧图像中的物体的位置。

在一个可选示例中，该步骤S301可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第四获取模块801执行。

在步骤S302中，根据检测样本图像中目标物体的位置数据和非检测样本图像中目标物体的位置数据，确定目标物体在检测样本图像和非检测样本图像之间的第二位置偏移数据。

其中，检测样本图像中目标物体的位置数据是事先确定好的，不需要待训练的神经网络进行获取。可选地，可事先通过用于目标位置检测的神经网络检测出检测样本图像中目标物体的位置数据。当然，也可以采用其它的实施方式事先检测出检测样本图像中的目标物体的位置数据，本申请实施例对此不作限制。非检测样本图像中目标物体的位置数据是通过待训练的神经网络，根据检测样本图像和非检测样本图像获取得到的。

在可选的实施方式中，可将非检测样本图像中目标物体的位置数据减去检测样本图像中目标物体的位置数据，获得目标物体在检测样本图像和非检测样本图像之间的第二位置偏移数据。

在一个可选示例中，该步骤S302可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第三确定模块802执行。

在步骤S303中，根据第一位置偏移数据和第二位置偏移数据，训练神经网络。

其中，第一位置偏移数据为目标物体在检测样本图像和非检测样本图像之间的标准位置偏移量。可选地，第一位置偏移数据是根据检测样本图像中目标物体的位置和非检测样本图像中目标物体的标注位置确定得到的，可作为神经网络训练的监督量。在可选的实施方式中，该步骤S303可包括：根据第一位置偏移数据和第二位置偏移数据确定目标物体的位置差异，再根据目标物体的位置差异调整神经网络的网络参数。通过计算目标物体的位置差异，对当前获得的第二位置偏移数据进行评估，以作为后续训练神经网络的依据。

在一个可选示例中，该步骤S303可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第二训练模块803执行。

可选地，可将目标物体的位置差异反向传输给神经网络，从而迭代地训练该神经网络。神经网络的训练是一个迭代的过程，本申请实施例仅对其中的一次训练过程进行了说明，但本领域技术人员应当明了，对神经网络的每次训练都可采用该训练方式，直至完成所述神经网络的训练。

本申请的示例性实施例旨在提出一种神经网络的训练方法，通过待训练的神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取目标物体在非检测样本图像中的位置数据，并根据检测样本图像中目标物体的位置数据和非检测样本图像中目标物体的位置数据，确定目标物体在检测样本图像和非检测样本图像之间的第二位置偏移数据，再根据目标物体在检测样本图像和非检测样本图像之间的标准位置偏移量和所述第二位置偏移数据，训练神经网络，与现有技术相比，使得训练得到的神经网络能够基于视频帧序列中在前视频图像的目标物体位置回归出视频帧序列中在后视频图像的目标物体位置。

本实施例的神经网络的训练方法可以由任意适当的具有图像或数据处理能力的设备执行，包括但不限于：摄像头、终端、移动终端、PC机、服务器、车载设备、娱乐设备、广告设备、个人数码助理(PDA)、平板电脑、笔记本电脑、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备或显示增强设备(如Google Glass、Oculus Rift、Hololens、Gear VR)等。

图4是根据本申请实施例神经网络训练方法的另一个实施例的流程示意图。该方法可以由任意神经网络训练设备执行，例如终端设备、服务器、移动设备等等，本申请实施例对此不做限定。如图4所示，本实施例的神经网络的训练方法包括以下步骤：

在步骤S401中，根据检测样本图像中目标物体的位置数据，分别对检测样本图像和非检测样本图像进行裁剪，获得与检测样本图像对应的第三区域图像以及与非检测样本图像对应的第四区域图像。

其中，目标物体的位置数据可包括目标物体的限位框的长度、宽度以及中心位置坐标。第三区域图像与第四区域图像包含目标物体。

在可选的实施方式中，首先可根据检测样本图像中目标物体的位置数据确定得到样本图像的裁剪位置数据。可选地，可保证裁剪框的中心位置坐标与目标物体的限位框的中心位置坐标相同，并将目标物体的限位框的长度和宽度按照一定的比例进行扩大，获得裁剪框的长度和宽度，从而得到样本图像的裁剪位置数据。在获得样本图像的裁剪位置数据之后，可根据样本图像的裁剪位置数据，分别对检测样本图像和非检测样本图像进行裁剪，获得与检测样本图像对应的第三区域图像以及与非检测样本图像对应的第四区域图像。之所以对检测样本图像和非检测样本图像进行裁剪，是因为检测样本图像与非检测样本图像之间相隔的视频图像的帧数通常较小，例如：在0到3之间，那么目标物体在非检测样本图像中的位置相对于目标物体在检测样本图像中的位置的变化也很小，目标物体在非检测样本图像中的限位框的位置会落入非检测样本图像的裁剪框内。籍此，可减轻神经网络的数据处理量，从而训练得到的神经网络可基于视频帧序列中在前视频图像的目标物体位置快速回归出视频帧序列中在后视频图像的目标物体位置。此外，由于样本图像的裁剪位置数据是根据检测样本图像中目标物体的位置数据确定得到的，因此，检测样本图像中目标物体的位置数据隐含在裁剪后的检测样本图像(第三区域图像)中。可选地，可根据第三区域图像的中心位置坐标、长度和宽度确定得到第三区域图像中目标物体的限位框的长度、宽度和中心位置坐标。

在一个可选示例中，该步骤S401可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第二裁剪模块 902执行。

在步骤S402中，通过待训练的神经网络，根据含有目标物体的第三区域图像和第四区域图像，获取目标物体在第四区域图像中的位置数据。

其中，待训练的神经网络具有卷积层、连接在卷积层末端的拼接层，以及连接在拼接层末端的全连接层。可选地，神经网络具有六层连续的卷积层，为了使得训练得到的神经网络基于视频帧序列中在前视频图像的目标物体位置快速回归出视频帧序列中在后视频图像的目标物体位置，神经网络没有采用池化层。可选地，待训练的神经网络具有两个输入端和一个输出端，一个输入端用于输入第三区域图像，另一个输入端用于输入第四区域图像，输出端用于输出目标物体在第四区域图像中的位置数据。

在一个可选示例中，该步骤S402可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第五获取子模块9031执行。

可选地，通过待训练的神经网络，根据含有目标物体的第三区域图像和第四区域图像，获取目标物体在第四区域图像中的位置数据，包括：通过卷积层，对第三区域图像和第四区域图像进行特征提取，获得第三区域图像和第四区域图像中目标物体的位置特征向量；通过拼接层，对第三区域图像和第四区域图像中目标物体的位置特征向量进行拼接，获得拼接后的位置特征向量；通过全连接层，对拼接后的位置特征向量进行映射操作，获得目标物体在所述第四区域图像中的位置数据。

在步骤S403中，根据第三区域图像中目标物体的位置数据和第四区域图像中目标物体的位置数据，确定目标物体在第三区域图像和第四区域图像之间的第二位置偏移数据。

其中，第三区域图像中目标物体的位置数据就是检测样本图像中目标物体的位置数据，因为第三区域图像是通过对检测样本图像进行裁剪得到的。第四区域图像中目标物体的位置数据是通过待训练的神经网络，根据第三区域图像和第四区域图像获取得到的。

在一个可选示例中，该步骤S403可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第三确定模块904执行。

在可选的实施方式中，第二位置偏移数据是非检测样本图像中目标物体的位置相对于检测样本图像中目标物体的位置的偏移量。可选地，可将第四区域图像中目标物体的位置数据减去第三区域图像中目标物体的位置数据，获得目标物体在第三区域图像和第四区域图像之间的第二位置偏移数据。当目标物体的位置数据包括目标物体的限位框的长度、宽度以及中心位置坐标时，第二位置偏移数据包括目标物体的限位框的中心位置坐标的改变量以及目标物体的限位框的长度和宽度的改变量。

在步骤S404中，根据第一位置偏移数据和第二位置偏移数据，训练神经网络。

其中，第一位置偏移数据为目标物体在检测样本图像和非检测样本图像之间的标准位置偏移量，也即是第一位置偏移数据为目标物体在第三区域图像和第四区域图像之间的标准位置偏移量。可选地，根据检测样本图像中目标物体的位置数据，分别对检测样本图像和非检测样本图像进行裁剪之前，该实施例方法还包括：根据检测样本图像中目标物体的位置数据和非检测样本图像中目标物体的位置标定数据确定第一位置偏移数据。

在一个可选示例中，该步骤S404可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第二训练模块905执行。

在本实施例中，检测样本图像中目标物体的位置数据可以是事先确定好的，不需要待训练的神经网络进行获取。可选地，可事先通过用于目标位置检测的神经网络检测出检测样本图像中目标物体的位置数据。当然，也可以采用其它的实施方式事先检测出检测样本图像中的目标物体的位置数据，本申请实施例对此不作限制。非检测样本图像中目标物体的位置标定数据也可以是事先确定好的。可选地，可事先通过用于目标位置检测的神经网络检测出所述非检测样本图像中目标物体的位置标定数据。在本申请一些可选实施方式中，还可通过人工标定的方式对非检测样本图像中目标物体的限位框的位置进行标定，从而得到非检测样本图像中目标物体的位置标定数据。当然，也可以采用其它的实施方式事先获得非检测样本图像中目标物体的位置标定数据，本申请实施例对此不作限制。

在可选的实施方式中，第一位置偏移数据是非检测样本图像中目标物体的标定位置相对于检测样本图像中目标物体的位置的偏移量。可选地，可将非检测样本图像中目标物体的位置标定数据减去检测样本图像中目标物体的位置数据，获得目标物体在检测样本图像和非检测样本图像之间的第一位置偏移数据。当目标物体的位置数据包括目标物体的限位框的长度、宽度以及中心位置坐标时，第一位置偏移数据包括目标物体的限位框的中心位置坐标的改变量以及目标物体的限位框的长度和宽度的改变量。

在本申请一些可选实施方式中，还可以采取以下方法对神经网络进行训练。例如，首先通过待训练的神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取目标物体在非检测样本图像中的位置数据，其中，非检测样本图像含有目标物体的位置标定数据；然后，再根据目标物体在非检测样本图像中的位置数据和非检测样本图像含有的目标物体的位置标定数据训练神经网络。

在本申请另一些可选实施方式中，还可以采取以下方法对神经网络进行训练。例如，首先根据检测样本图像中目标物体的位置数据，分别对检测样本图像和非检测样本图像进行裁剪，获得与检测样本图像对应的第三区域图像以及与非检测样本图像对应的第四区域图像，再通过待训练的神经网络，根据含有目标物体的第三区域图像和第四区域图像，获取目标物体在第四区域图像中的位置数据，其中，第四区域图像含有目标物体的位置标定数据。然后，再根据目标物体在第四区域图像中的位置数据和第四区域图像含有的目标物体的位置标定数据训练神经网络。

本申请的示例性实施例旨在提出一种神经网络的训练方法，根据检测样本图像中目标物体的位置数据，分别对检测样本图像和非检测样本图像进行裁剪，获得与检测样本图像对应的第三区域图像以及与非检测样本图像对应的第四区域图像，并通过待训练的神经网络，根据含有目标物体的第三区域图像和第四区域图像，获取目标物体在第四区域图像中的位置数据，再根据第三区域图像中目标物体的位置数据和第四区域图像中目标物体的位置数据，确定目标物体在第三区域图像和第四区域图像之间的第二位置偏移数据，再根据目标物体在第三区域图像和第四区域图像之间的标准位置偏移量和第二位置偏移数据，训练神经网络，使得训练得到的神经网络能够基于视频帧序列中在前视频图像的目标物体位置快速回归出视频帧序列中在后视频图像的目标物体位置。

基于相同的技术构思，图5是根据本申请实施例目标跟踪装置的一个实施例的结构示意图。本实施例装置可用以执行本申请实施例上述目标跟踪方法的任一实施例。

参照图5，该目标跟踪装置包括第一获取模块501和第一确定模块502。

第一获取模块501，用于通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取目标物体在非检测图像中的位置数据，第一神经网络用于根据检测图像回归所述目标物体在所述非检测图像中的位置，非检测图像为检测图像的在后图像。

第一确定模块502，用于根据目标物体在检测图像中的位置数据和目标物体在非检测图像中的位置数据确定目标物体的轨迹。

通过本实施例提供的目标跟踪装置，通过用于根据检测图像回归目标物体在非检测图像中的位置的第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取目标物体在非检测图像中的位置数据；并根据目标物体在检测图像中的位置数据和目标物体在非检测图像中的位置数据确定目标物体的轨迹，相比于现有隔帧检测的技术，本申请实施例可以根据检测图像回归非检测图像中目标物体的位置，在兼顾目标跟踪的检测效率的同时，还提高了目标跟踪的精度。

基于相同的技术构思，图6是根据本申请实施例目标跟踪装置的另一个实施例的结构示意图。本实施例装置可用以执行本申请实施例上述目标跟踪方法的任一实施例。

参照图6，该目标跟踪装置包括第一获取模块602和第一确定模块603。其中，第一获取模块602，用于通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取目标物体在非检测图像中的位置数据，第一神经网络用于根据检测图像回归目标物体在非检测图像中的位置，非检测图像为检测图像的在后图像；第一确定模块603，用于根据目标物体在检测图像中的位置数据和目标物体在非检测图像中的位置数据确定目标物体的轨迹。

可选地，第一获取模块602，包括：第一获取子模块6021，用于通过第一神经网络，根据视频帧序列中的检测图像和在检测图像之后的第一非检测图像，获取目标物体在第一非检测图像中的位置数据。

可选地，本申请实施例装置还包括：第二获取模块604，用于通过第一神经网络，根据视频帧序列中的第一非检测图像和在第一非检测图像之后的第二非检测图像，获取目标物体在第二非检测图像中的位置数据。

可选地，本申请实施例装置还包括：第一裁剪模块601，用于根据检测图像中目标物体的位置数据，分别对检测图像和非检测图像进行裁剪，获得与检测图像对应的第一区域图像以及与非检测图像对应的第二区域图像，其中，第一区域图像与第二区域图像包含目标物体；第一获取模块602，包括：第二获取子模块6022，用于通过第一神经网络，根据含有目标物体的第一区域图像和第二区域图像，获取目标物体在第二区域图像中的位置数据。

可选地，本申请实施例装置还包括：划分模块605，用于按照时间顺序，将视频帧序列划分为多组视频帧，每组视频帧包括至少一帧视频图像；第三获取模块606，用于针对多组视频帧，从首帧视频图像中获取目标物体的位置数据，并通过第一神经网络，获取首帧视频图像后续的视频图像中目标物体的位置数据，从而获得该组视频帧中的至少一帧视频图像的目标物体的位置数据；第二确定模块607，用于根据多组视频帧中的至少一帧视频图像的目标物体的位置数据确定目标物体的轨迹。

可选地，第三获取模块606，包括：第三获取子模块6061，用于通过用于目标位置检测的第二神经网络，从首帧视频图像中获取目标物体的位置数据，第二神经网络包括快速卷积神经网络。

需要说明的是，对于本申请实施例提供的目标跟踪装置还涉及的具体细节已在本申请实施例提供的目标跟踪方法中作了详细的说明，在此不在赘述。

基于相同的技术构思，图7是根据本申请实施例目标跟踪装置的又一个实施例的结构示意图。本实施例装置可用以执行本申请实施例上述目标跟踪方法的任一实施例。

参照图7，该目标跟踪装置包括第一获取模块703和第一确定模块704。其中，第一获取模块703，用于通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取目标物体在所述非检测图像中的位置数据，第一神经网络用于根据检测图像回归目标物体在非检测图像中的位置，非检测图像为检测图像的在后图像；第一确定模块704，用于根据目标物体在检测图像中的位置数据和目标物体在非检测图像中的位置数据确定目标物体的轨迹。

可选地，本申请实施例装置还包括：选择模块702，用于根据目标物体的类别选择与目标物体的类别对应的第一神经网络。

可选地，本申请实施例装置还包括：第一训练模块701，用于根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像训练所述第一神经网络，非检测样本图像为检测样本图像的在后图像。

可选地，第一训练模块701，包括：第四获取子模块7013，用于通过待训练的第一神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取目标物体在非检测样本图像中的位置数据；第一确定子模块7014，用于根据检测样本图像中目标物体的位置数据和非检测样本图像中目标物体的位置数据，确定目标物体在检测样本图像和非检测样本图像之间的第二位置偏移数据；第一训练子模块7015，用于根据第一位置偏移数据和第二位置偏移数据，训练第一神经网络，第一位置偏移数据为目标物体在检测样本图像和非检测样本图像之间的标准位置偏移量。

可选地，本申请实施例装置还包括：第一裁剪子模块7012，用于根据检测样本图像中目标物体的位置数据，分别对检测样本图像和非检测样本图像进行裁剪，获得与检测样本图像对应的第三区域图像以及与非检测样本图像对应的第四区域图像，其中，第三区域图像与第四区域图像包含目标物体；第四获取子模块7013，包括：获取单元70131，用于通过待训练的第一神经网络，根据含有目标物体的第三区域图像和第四区域图像，获取目标物体在第四区域图像中的位置数据。

可选地，第一神经网络具有卷积层、连接在卷积层末端的拼接层，以及连接在拼接层末端的全连接层，其中，获取单元70131，用于：通过卷积层，对第三区域图像和第四区域图像进行特征提取，获得第三区域图像和第四区域图像中目标物体的位置特征向量；通过拼接层，对第三区域图像和第四区域图像中目标物体的位置特征向量进行拼接，获得拼接后的位置特征向量；通过全连接层，对拼接后的位置特征向量进行映射操作，获得目标物体在第四区域图像中的位置数据。

可选地，本申请实施例装置还包括：第二确定子模块7011，用于根据检测样本图像中目标物体的位置数据和非检测样本图像中目标物体的位置标定数据确定第一位置偏移数据。

可选地，位置数据包括目标物体的限位框的长度、宽度以及中心位置坐标。

基于相同的技术构思，图8是根据本申请实施例神经网络训练装置的一个实施例的结构示意图。本实施例装置可用以执行本申请实施例上述神经网络训练方法的任一实施例。

参照图8，该神经网络的训练装置包括第四获取模块801、第三确定模块802和第二训练模块803。

第四获取模块801，用于通过待训练的神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取目标物体在非检测样本图像中的位置数据，非检测样本图像为检测样本图像的在后图像。

第三确定模块802，用于根据检测样本图像中目标物体的位置数据和非检测样本图像中目标物体的位置数据，确定目标物体在检测样本图像和非检测样本图像之间的第二位置偏移数据。

第二训练模块803，用于根据第一位置偏移数据和第二位置偏移数据，训练神经网络，第一位置偏移数据为目标物体在检测样本图像和非检测样本图像之间的标准位置偏移量。

通过本实施例提供的神经网络的训练装置，通过待训练的神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取目标物体在非检测样本图像中的位置数据，并根据检测样本图像中目标物体的位置数据和非检测样本图像中目标物体的位置数据，确定目标物体在检测样本图像和非检测样本图像之间的第二位置偏移数据，再根据目标物体在检测样本图像和非检测样本图像之间的标准位置偏移量和所述第二位置偏移数据，训练所述神经网络，与现有技术相比，使得训练得到的神经网络能够基于视频帧序列中在前视频图像的目标物体位置回归出视频帧序列中在后视频图像的目标物体位置。

基于相同的技术构思，图9是根据本申请实施例神经网络的训练装置的另一个实施例的结构示意图。本实施例装置可用以执行本申请实施例上述神经网络训练方法的任一实施例。

参照图9，该神经网络的训练装置包括第四获取模块903、第三确定模块904和第二训练模块905。其中，第四获取模块903，用于通过待训练的神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取目标物体在非检测样本图像中的位置数据，非检测样本图像为检测样本图像的在后图像；第三确定模块904，用于根据检测样本图像中目标物体的位置数据和非检测样本图像中目标物体的位置数据，确定目标物体在检测样本图像和非检测样本图像之间的第二位置偏移数据；第二训练模块905，用于根据第一位置偏移数据和第二位置偏移数据，训练神经网络，第一位置偏移数据为目标物体在检测样本图像和非检测样本图像之间的标准位置偏移量。

可选地，本申请实施例装置还包括：第二裁剪模块902，用于根据检测样本图像中目标物体的位置数据，分别对检测样本图像和非检测样本图像进行裁剪，获得与检测样本图像对应的第三区域图像以及与非检测样本图像对应的第四区域图像，其中，第三区域图像与第四区域图像包含目标物体；第四获取模块903，包括：第五获取子模块9031，用于通过待训练的神经网络，根据含有目标物体的第三区域图像和第四区域图像，获取目标物体在第四区域图像中的位置数据。

可选地，待训练的神经网络包括卷积层、连接在卷积层末端的拼接层，以及连接在拼接层末端的全连接层，其中，通过第五获取子模块9031，用于：通过卷积层，对第三区域图像和第四区域图像进行特征提取，获得第三区域图像和第四区域图像中目标物体的位置特征向量；通过拼接层，对第三区域图像和第四区域图像中目标物体的位置特征向量进行拼接，获得拼接后的位置特征向量；通过全连接层，对拼接后的位置特征向量进行映射操作，获得目标物体在第四区域图像中的位置数据。

可选地，本申请实施例装置还包括：第四确定模块901，用于根据检测样本图像中目标物体的位置数据和非检测样本图像中目标物体的位置标定数据确定第一位置偏移数据。

需要说明的是，对于本申请实施例提供的神经网络的训练装置还涉及的具体细节已在本申请实施例提供的神经网络的训练方法中作了详细的说明，在此不在赘述。

根据本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述程序指令被处理器执行时实现本申请实施例所述的目标跟踪方法的步骤，或者实现本申请实施例所述的神经网络训练方法的步骤。

根据本申请实施例还提供了一种计算机程序产品，其包括有计算机程序指令，其中，所述程序指令被处理器执行时实现本申请实施例所述的目标跟踪方法的步骤，或者实现本申请实施例所述的神经网络的训练方法的步骤。

根据本申请实施例还提供了一种计算机程序，包括计算机可读代码，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现本申请实施例所述的对象属性检测方法中各步骤的指令；或者

当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现本申请实施例所述的神经网络训练方法中各步骤的指令。

根据本申请实施例还提供了一种电子设备，包括：处理器和存储器；

该存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行本申请实施例所述的目标跟踪方法对应的操作；或者，所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行本申请实施例所述的神经网络训练方法对应的操作。

根据本申请实施例还提供了一种电子设备，包括：处理器和本申请实施例第三方面所述的目标跟踪装置；在处理器运行所述目标跟踪装置时，本申请实施例所述的目标跟踪装置中的模块被运行；或者

处理器和本申请实施例第四方面所述的神经网络训练装置；在处理器运行所述神经网络的训练装置时，本申请实施例所述的神经网络训练装置中的模块被运行。

本申请实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图10，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备1000的结构示意图。如图10所示，电子设备1000包括一个或多个第一处理器、第一通信元件等，所述一个或多个第一处理器例如：一个或多个中央处理单元(CPU)1001，和/或一个或多个图像处理器(GPU)1013等，第一处理器可以根据存储在只读存储器(ROM)1002中的可执行指令或者从存储部分1008加载到随机访问存储器(RAM)1003中的可执行指令而执行各种适当的动作和处理。本实施例中，第一只读存储器1002和随机访问存储器1003统称为第一存储器。第一通信元件包括通信组件1012和/或通信接口1009。其中，通信组件 1012可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，通信接口1009包括诸如LAN卡、调制解调器等的网络接口卡的通信接口，通信接口1009经由诸如因特网的网络执行通信处理。

第一处理器可与只读存储器1002和/或随机访问存储器1003中通信以执行可执行指令，通过第一通信总线1004与通信组件1012相连、并经通信组件1012与其他目标设备通信，从而完成本申请实施例提供的任一项目标跟踪方法对应的操作，例如，通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取所述目标物体在所述非检测图像中的位置数据，所述第一神经网络用于根据所述检测图像回归所述目标物体在所述非检测图像中的位置，所述非检测图像为所述检测图像的在后图像；根据所述目标物体在所述检测图像中的位置数据和所述目标物体在所述非检测图像中的位置数据确定所述目标物体的轨迹。或者，完成本申请实施例提供的任一项神经网络的训练方法对应的操作，例如，通过待训练的神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据，所述非检测样本图像为所述检测样本图像的在后图像；根据所述检测样本图像中所述目标物体的位置数据和所述非检测样本图像中所述目标物体的位置数据，确定所述目标物体在所述检测样本图像和所述非检测样本图像之间的第二位置偏移数据；根据第一位置偏移数据和所述第二位置偏移数据，训练所述神经网络，所述第一位置偏移数据为所述目标物体在所述检测样本图像和所述非检测样本图像之间的标准位置偏移量。

此外，在RAM 1003中，还可存储有装置操作所需的各种程序和数据。CPU1001或GPU1013、ROM1002以及RAM1003通过第一通信总线1004彼此相连。在有RAM1003的情况下，ROM1002为可选模块。RAM1003存储可执行指令，或在运行时向ROM1002中写入可执行指令，可执行指令使第一处理器执行上述通信方法对应的操作。输入/输出(I/O)接口1005也连接至第一通信总线1004。通信组件1012可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在通信总线链接上。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信接口1009。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

需要说明的，如图10所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图10的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU1013和CPU1001可分离设置或者可将GPU1013集成在CPU1001上，通信元件可分离设置，也可集成设置在CPU1001或GPU1013上，等等。这些可替换的实施方式均落入本申请的保护范围。

特别地，根据本申请实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取所述目标物体在所述非检测图像中的位置数据，所述第一神经网络用于根据所述检测图像回归所述目标物体在所述非检测图像中的位置，所述非检测图像为所述检测图像的在后图像；根据所述目标物体在所述检测图像中的位置数据和所述目标物体在所述非检测图像中的位置数据确定所述目标物体的轨迹。或者，例如，通过待训练的神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据，所述非检测样本图像为所述检测样本图像的在后图像；根据所述检测样本图像中所述目标物体的位置数据和所述非检测样本图像中所述目标物体的位置数据，确定所述目标物体在所述检测样本图像和所述非检测样本图像之间的第二位置偏移数据；根据第一位置偏移数据和所述第二位置偏移数据，训练所述神经网络，所述第一位置偏移数据为所述目标物体在所述检测样本图像和所述非检测样本图像之间的标准位置偏移量。在这些实施例中，该计算机程序可以通过通信元件从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被第一处理器执行时，执行本申请实施例的方法中限定的上述功能。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的处理方法。此外，当通用计算机访问用于实现在此示出的处理的代码时，代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本申请的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本申请的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本申请实施为记录在记录介质中的程序，这些程序包括用于实现根据本申请的方法的机器可读指令。因而，本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。

本申请的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本申请限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本申请的原理和实际应用，并且使本领域的普通技术人员能够理解本申请从而设计适于特定用途的带有各种修改的各种实施例。

Claims

一种目标跟踪方法，其特征在于，所述方法包括：

通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取所述目标物体在所述非检测图像中的位置数据，所述第一神经网络用于根据所述检测图像回归所述目标物体在所述非检测图像中的位置，所述非检测图像为所述检测图像的在后图像；

根据所述目标物体在所述检测图像中的位置数据和所述目标物体在所述非检测图像中的位置数据确定所述目标物体的轨迹。
根据权利要求1所述的方法，其特征在于，所述通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取所述目标物体在所述非检测图像中的位置数据，包括：

通过所述第一神经网络，根据所述视频帧序列中的检测图像和在所述检测图像之后的第一非检测图像，获取所述目标物体在所述第一非检测图像中的位置数据。
根据权利要求2所述的方法，其特征在于，所述方法还包括：

通过所述第一神经网络，根据所述视频帧序列中的第一非检测图像和在所述第一非检测图像之后的第二非检测图像，获取所述目标物体在所述第二非检测图像中的位置数据。
根据权利要求1～3中任意一项权利要求所述的方法，其特征在于，所述通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取所述目标物体在所述非检测图像中的位置数据之前，所述方法还包括：

根据所述检测图像中目标物体的位置数据，分别对所述检测图像和所述非检测图像进行裁剪，获得与所述检测图像对应的第一区域图像以及与所述非检测图像对应的第二区域图像，其中，所述第一区域图像与所述第二区域图像包含所述目标物体；

所述通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取所述目标物体在所述非检测图像中的位置数据，包括：

通过所述第一神经网络，根据含有所述目标物体的第一区域图像和第二区域图像，获取所述目标物体在所述第二区域图像中的位置数据。
根据权利要求1～4中任意一项权利要求所述的方法，其特征在于，所述方法还包括：

按照时间顺序，将所述视频帧序列划分为多组视频帧，每组所述视频帧包括至少一帧视频图像；

针对所述多组视频帧，从首帧视频图像中获取所述目标物体的位置数据，并通过所述第一神经网络，获取所述首帧视频图像后续的视频图像中目标物体的位置数据，从而获得该组所述视频帧中的至少一帧视频图像的目标物体的位置数据；

根据所述多组视频帧中的至少一帧视频图像的目标物体的位置数据确定所述目标物体的轨迹。
根据权利要求5所述的方法，其特征在于，所述从首帧视频图像中获取所述目标物体的位置数据，包括：

通过用于目标位置检测的第二神经网络，从首帧视频图像中获取所述目标物体的位置数据，所述第二神经网络包括快速卷积神经网络。
根据权利要求1～6中任意一项权利要求所述的方法，其特征在于，所述通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取所述目标物体在所述非检测图像中的位置数据之前，所述方法还包括：

根据所述目标物体的类别确定与所述目标物体的类别对应的第一神经网络。
根据权利要求1～7中任意一项权利要求所述的方法，其特征在于，所述通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取所述目标物体在所述非检测图像中的位置数据之前，所述方法还包括：

根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像训练所述第一神经网络，所述非检测样本图像为所述检测样本图像的在后图像。
根据权利要求8所述的方法，其特征在于，所述根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像训练所述第一神经网络，包括：

通过待训练的第一神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据；

根据所述检测样本图像中所述目标物体的位置数据和所述非检测样本图像中所述目标物体的位置数据，确定所述目标物体在所述检测样本图像和所述非检测样本图像之间的第二位置偏移数据；

根据第一位置偏移数据和所述第二位置偏移数据，训练所述第一神经网络，所述第一位置偏移数据为所述目标物体在所述检测样本图像和所述非检测样本图像之间的标准位置偏移量。
根据权利要求9所述的方法，其特征在于，所述通过待训练的第一神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据之前，所述方法还包括：

根据所述检测样本图像中目标物体的位置数据，分别对所述检测样本图像和所述非检测样本图像进行裁剪，获得与所述检测样本图像对应的第三区域图像以及与所述非检测样本图像对应的第四区域图像，其中，所述第三区域图像与所述第四区域图像包含所述目标物体；

所述通过待训练的第一神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据，包括：

通过所述待训练的第一神经网络，根据含有所述目标物体的第三区域图像和第四区域图像，获取所述目标物体在所述第四区域图像中的位置数据。
根据权利要求10所述的方法，其特征在于，所述待训练的第一神经网络包括卷积层、连接在所述卷积层末端的拼接层，以及连接在所述拼接层末端的全连接层，

所述通过所述待训练的第一神经网络，根据含有所述目标物体的第三区域图像和第四区域图像，获取所述目标物体在所述第四区域图像中的位置数据，包括：

通过所述卷积层，对所述第三区域图像和所述第四区域图像进行特征提取，获得所述第三区域图像和所述第四区域图像中所述目标物体的位置特征向量；

通过所述拼接层，对所述第三区域图像和所述第四区域图像中所述目标物体的位置特征向量进行拼接，获得拼接后的位置特征向量；

通过所述全连接层，对所述拼接后的位置特征向量进行映射操作，获得所述目标物体在所述第四区域图像中的位置数据。
根据权利要求9～11中任意一项权利要求所述的方法，其特征在于，所述通过待训练的第一神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据之前，所述方法还包括：

根据所述检测样本图像中目标物体的位置数据和所述非检测样本图像中目标物体的位置标定数据确定所述第一位置偏移数据。
根据权利要求1～12中任意一项权利要求所述的方法，其特征在于，所述位置数据包括所述目标物体的限位框的长度、宽度以及中心位置坐标。
一种神经网络训练方法，其特征在于，所述方法包括：

通过待训练的神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据，所述非检测样本图像为所述检测样本图像的在后图像；

根据所述检测样本图像中所述目标物体的位置数据和所述非检测样本图像中所述目标物体的位置数据，确定所述目标物体在所述检测样本图像和所述非检测样本图像之间的第二位置偏移数据；

根据第一位置偏移数据和所述第二位置偏移数据，训练所述神经网络，所述第一位置偏移数据为所述目标物体在所述检测样本图像和所述非检测样本图像之间的标准位置偏移量。
根据权利要求14所述的方法，其特征在于，所述通过待训练的神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据之前，所述方法还包括：

根据所述检测样本图像中目标物体的位置数据，分别对所述检测样本图像和所述非检测样本图像进行裁剪，获得与所述检测样本图像对应的第三区域图像以及与所述非检测样本图像对应的第四区域图像，其中，所述第三区域图像与所述第四区域图像包含所述目标物体；

所述通过待训练的神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据，包括：

通过所述待训练的神经网络，根据含有所述目标物体的第三区域图像和第四区域图像，获取所述目标物体在所述第四区域图像中的位置数据。
根据权利要求15所述的方法，其特征在于，所述待训练的神经网络包括卷积层、连接在所述卷积层末端的拼接层，以及连接在所述拼接层末端的全连接层，

所述通过所述待训练的神经网络，根据含有所述目标物体的第三区域图像和第四区域图像，获取所述目标物体在所述第四区域图像中的位置数据，包括：

通过所述卷积层，对所述第三区域图像和所述第四区域图像进行特征提取，获得所述第三区域图像和所述第四区域图像中所述目标物体的位置特征向量；

通过所述拼接层，对所述第三区域图像和所述第四区域图像中所述目标物体的位置特征向量进行拼接，获得拼接后的位置特征向量；

通过所述全连接层，对所述拼接后的位置特征向量进行映射操作，获得所述目标物体在所述第四区域图像中的位置数据。
根据权利要求14～16中任意一项权利要求所述的方法，其特征在于，所述通过待训练的神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据之前，所述方法还包括：

根据所述检测样本图像中目标物体的位置数据和所述非检测样本图像中目标物体的位置标定数据确定所述第一位置偏移数据。
根据权利要求14～17中任意一项权利要求所述的方法，其特征在于，所述位置数据包括所述目标物体的限位框的长度、宽度以及中心位置坐标。
一种目标跟踪装置，其特征在于，所述装置包括：

第一获取模块，用于通过第一神经网络，根据含有目标物体的视频帧序列中的检测图像和非检测图像，获取所述目标物体在所述非检测图像中的位置数据，所述第一神经网络用于根据所述检测图像回归所述目标物体在所述非检测图像中的位置，所述非检测图像为所述检测图像的在后图像；

第一确定模块，用于根据所述目标物体在所述检测图像中的位置数据和所述目标物体在所述非检测图像中的位置数据确定所述目标物体的轨迹。
根据权利要求19所述的装置，其特征在于，所述第一获取模块，包括：

第一获取子模块，用于通过所述第一神经网络，根据所述视频帧序列中的检测图像和在所述检测图像之后的第一非检测图像，获取所述目标物体在所述第一非检测图像中的位置数据。
根据权利要求20所述的装置，其特征在于，所述装置还包括：

第二获取模块，用于通过所述第一神经网络，根据所述视频帧序列中的第一非检测图像和在所述第一非检测图像之后的第二非检测图像，获取所述目标物体在所述第二非检测图像中的位置数据。
根据权利要求19～21中任意一项权利要求所述的装置，其特征在于，所述第一获取模块之前，所述装置还包括：

第一裁剪模块，用于根据所述检测图像中目标物体的位置数据，分别对所述检测图像和所述非检测图像进行裁剪，获得与所述检测图像对应的第一区域图像以及与所述非检测图像对应的第二区域图像，其中，所述第一区域图像与所述第二区域图像包含所述目标物体；

所述第一获取模块，包括：

第二获取子模块，用于通过所述第一神经网络，根据含有所述目标物体的第一区域图像和第二区域图像，获取所述目标物体在所述第二区域图像中的位置数据。
根据权利要求19～22中任意一项权利要求所述的装置，其特征在于，所述装置还包括：

划分模块，用于按照时间顺序，将所述视频帧序列划分为多组视频帧，每组所述视频帧包括至少一帧视频图像；

第三获取模块，用于针对所述多组视频帧，从首帧视频图像中获取所述目标物体的位置数据，并通过所述第一神经网络，获取所述首帧视频图像后续的视频图像中目标物体的位置数据，从而获得该组所述视频帧中的至少一帧视频图像的目标物体的位置数据；

第二确定模块，用于根据所述多组视频帧中的至少一帧视频图像的目标物体的位置数据确定所述目标物体的轨迹。
根据权利要求23所述的装置，其特征在于，所述第三获取模块，包括：

第三获取子模块，用于通过用于目标位置检测的第二神经网络，从首帧视频图像中获取所述目标物体的位置数据，所述第二神经网络包括快速卷积神经网络。
根据权利要求19～24中任意一项权利要求所述的装置，其特征在于，所述第一获取模块之前，所述装置还包括：

选择模块，用于根据所述目标物体的类别确定与所述目标物体的类别对应的第一神经网络。
根据权利要求19～25中任意一项权利要求所述的装置，其特征在于，所述第一获取模块之前，所述装置还包括：

第一训练模块，用于根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像训练所述第一神经网络，所述非检测样本图像为所述检测样本图像的在后图像。
根据权利要求26所述的装置，其特征在于，所述第一训练模块，包括：

第四获取子模块，用于通过待训练的第一神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据；

第一确定子模块，用于根据所述检测样本图像中所述目标物体的位置数据和所述非检测样本图像中所述目标物体的位置数据，确定所述目标物体在所述检测样本图像和所述非检测样本图像之间的第二位置偏移数据；

第一训练子模块，用于根据第一位置偏移数据和所述第二位置偏移数据，训练所述第一神经网络，所述第一位置偏移数据为所述目标物体在所述检测样本图像和所述非检测样本图像之间的标准位置偏移量。
根据权利要求27所述的装置，其特征在于，所述第四获取子模块之前，所述装置还包括：

第一裁剪子模块，用于根据所述检测样本图像中目标物体的位置数据，分别对所述检测样本图像和所述非检测样本图像进行裁剪，获得与所述检测样本图像对应的第三区域图像以及与所述非检测样本图像对应的第四区域图像，其中，所述第三区域图像与所述第四区域图像包含所述目标物体；

所述第四获取子模块，包括：

获取单元，用于通过所述待训练的第一神经网络，根据含有所述目标物体的第三区域图像和第四区域图像，获取所述目标物体在所述第四区域图像中的位置数据。
根据权利要求28所述的装置，其特征在于，所述待训练的第一神经网络包括卷积层、连接在所述卷积层末端的拼接层，以及连接在所述拼接层末端的全连接层，

所述获取单元，具体用于：

通过所述卷积层，对所述第三区域图像和所述第四区域图像进行特征提取，获得所述第三区域图像和所述第四区域图像中所述目标物体的位置特征向量；

通过所述拼接层，对所述第三区域图像和所述第四区域图像中所述目标物体的位置特征向量进行拼接，获得拼接后的位置特征向量；

通过所述全连接层，对所述拼接后的位置特征向量进行映射操作，获得所述目标物体在所述第四区域图像中的位置数据。
根据权利要求27～29中任意一项权利要求所述的装置，其特征在于，所述第四获取子模块之前，所述装置还包括：

第二确定子模块，用于根据所述检测样本图像中目标物体的位置数据和所述非检测样本图像中目标物体的位置标定数据确定所述第一位置偏移数据。
根据权利要求19～30中任意一项权利要求所述的装置，其特征在于，所述位置数据包括所述目标物体的限位框的长度、宽度以及中心位置坐标。
一种神经网络训练装置，其特征在于，所述装置包括：

第四获取模块，用于通过待训练的神经网络，根据含有目标物体的视频帧样本序列中的检测样本图像和非检测样本图像，获取所述目标物体在所述非检测样本图像中的位置数据，所述非检测样本图像为所述检测样本图像的在后图像；

第三确定模块，用于根据所述检测样本图像中所述目标物体的位置数据和所述非检测样本图像中所述目标物体的位置数据，确定所述目标物体在所述检测样本图像和所述非检测样本图像之间的第二位置偏移数据；

第二训练模块，用于根据第一位置偏移数据和所述第二位置偏移数据，训练所述神经网络，所述第一位置偏移数据为所述目标物体在所述检测样本图像和所述非检测样本图像之间的标准位置偏移量。
根据权利要求32所述的装置，其特征在于，所述第四获取模块之前，所述装置还包括：

第二裁剪模块，用于根据所述检测样本图像中目标物体的位置数据，分别对所述检测样本图像和所述非检测样本图像进行裁剪，获得与所述检测样本图像对应的第三区域图像以及与所述非检测样本图像对应的第四区域图像，其中，所述第三区域图像与所述第四区域图像包含所述目标物体；

所述第四获取模块，包括：

第五获取子模块，用于通过所述待训练的神经网络，根据含有所述目标物体的第三区域图像和第四区域图像，获取所述目标物体在所述第四区域图像中的位置数据。
根据权利要求33所述的装置，其特征在于，所述待训练的神经网络包括卷积层、连接在所述卷积层末端的拼接层，以及连接在所述拼接层末端的全连接层，

所述第五获取子模块，具体用于：

通过所述卷积层，对所述第三区域图像和所述第四区域图像进行特征提取，获得所述第三区域图像和所述第四区域图像中所述目标物体的位置特征向量；

通过所述拼接层，对所述第三区域图像和所述第四区域图像中所述目标物体的位置特征向量进行拼接，获得拼接后的位置特征向量；

通过所述全连接层，对所述拼接后的位置特征向量进行映射操作，获得所述目标物体在所述第四区域图像中的位置数据。
根据权利要求32～34中任意一项权利要求所述的装置，其特征在于，所述第四获取模块之前，所述装置还包括：

第四确定模块，用于根据所述检测样本图像中目标物体的位置数据和所述非检测样本图像中目标物体的位置标定数据确定所述第一位置偏移数据。
根据权利要求32～35中任意一项权利要求所述的装置，其特征在于，所述位置数据包括所述目标物体的限位框的长度、宽度以及中心位置坐标。
一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述程序指令被处理器执行时实现权利要求1～13中任意一项权利要求所述的目标跟踪方法，或者实现权利要求14～18中任意一项权利要求所述的神经网络训练方法。
一种计算机程序产品，其包括有计算机程序指令，其中，所述程序指令被处理器执行时实现权利要求1～13中任意一项权利要求所述的目标跟踪方法，或者实现权利要求14～18中任意一项权利要求所述的神经网络训练方法。
一种电子设备，包括：处理器和存储器；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1～13中任意一项权利要求所述的目标跟踪方法对应的操作；或者，所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求14～18中任意一项权利要求所述的神经网络训练方法对应的操作。
一种电子设备，包括：处理器和权利要求19～31中任意一项所述的目标跟踪装置；在处理器运行所述目标跟踪装置时，权利要求19～31中任意一项所述的目标跟踪装置中的模块被运行；或者

处理器和权利要求32～36中任意一项所述的神经网络训练装置；在处理器运行所述神经网络的训练装置时，权利要求32～36中任意一项所述的神经网络训练装置中的模块被运行。