WO2019091464A1

WO2019091464A1 - 目标检测方法和装置、训练方法、电子设备和介质

Info

Publication number: WO2019091464A1
Application number: PCT/CN2018/114884
Authority: WO
Inventors: 李搏; 武伟
Original assignee: 北京市商汤科技开发有限公司
Priority date: 2017-11-12
Filing date: 2018-11-09
Publication date: 2019-05-16
Also published as: PH12020550588A1; SG11202004324WA; US20200265255A1; JP7165731B2; JP2021502645A; KR20200087784A; CN108230359B; US11455782B2; CN108230359A

Abstract

本公开实施例公开了一种目标检测方法和装置、训练方法、电子设备和介质，其中，目标检测方法包括：经神经网络分别提取模版帧和检测帧的特征，其中，所述模版帧为目标对象的检测框图像，所述模版帧的图像大小小于所述检测帧；基于所述模版帧的特征获取局部区域检测器的分类权重和回归权重；将所述检测帧的特征输入所述局部区域检测器，得到所述局部区域检测器输出的多个备选框的分类结果和回归结果；根据所述局部区域检测器输出的多个备选框的分类结果和回归结果，获取所述检测帧中所述目标对象的检测框。本公开实施例可以提升目标跟踪的速度和准确性。

Description

目标检测方法和装置、训练方法、电子设备和介质

本申请要求在2017年11月12日提交中国专利局、申请号为CN201711110587.1、发明名称为“目标检测方法和装置、训练方法、电子设备、程序和介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本公开涉及计算机视觉技术，尤其是一种目标检测方法和装置、训练方法、电子设备和介质。

背景技术

单目标跟踪是人工智能领域的一个重要问题，在自动驾驶、多目标跟踪等一系列任务当中都可以用到。单目标跟踪的主要任务为：在一段视频序列的某一帧图像中指定一个需要跟踪的目标，在之后的帧图像中一直跟踪住这个指定的目标。

发明内容

本公开实施例提供一种用于进行目标跟踪的技术方案。

根据本公开实施例的一个方面，提供的一种目标跟踪方法，包括：

经神经网络分别提取模版帧和检测帧的特征，其中，所述模版帧为目标对象的检测框图像，所述模版帧的图像大小小于所述检测帧；

基于所述模版帧的特征获取局部区域检测器的分类权重和回归权重；

将所述检测帧的特征输入所述局部区域检测器，得到所述局部区域检测器输出的多个备选框的分类结果和回归结果；

根据所述局部区域检测器输出的多个备选框的分类结果和回归结果，获取所述检测帧中所述目标对象的检测框。

根据本公开实施例的另一个方面，提供的一种目标检测网络的训练方法，包括：

通过一卷积层，增加所述模板帧的特征的通道，以得到的第一特征作为所述局部区域检测器的分类权重；以及通过第二卷积层增加所述模板帧的特征的通道，以得到的第二特征作为所述局部区域检测器的回归权重；

根据所述局部区域检测器输出的多个备选框的分类结果和回归结果，获取所述检测帧中所述目标对象的检测框；

以获得的所述检测帧中所述目标对象的检测框作为预测检测框，基于所述检测帧的标注信息和所述预测检测框训练所述神经网络、所述第一卷积层和所述第二卷积层。

根据本公开实施例的又一个方面，提供的一种目标检测装置，包括：

神经网络，用于分别提取模版帧和检测帧的特征，其中，所述模版帧为目标对象的检测框图像，所述模版帧的图像大小小于所述检测帧；

第一卷积层，用于增加所述模板帧的特征的通道，以得到的第一特征作为局部区域检测器的分类权重；

第二卷积层，用于增加所述模板帧的特征的通道，以得到的第二特征作为所述局部区域检测器的回归权重；

局部区域检测器，用于根据所述检测帧的特征，输出多个备选框的分类结果和回归结果；

获取单元，用于根据所述局部区域检测器输出的多个备选框的分类结果和回归结果，获取所述检测帧中所述目标对象的检测框。

根据本公开实施例的再一个方面，提供的一种电子设备，包括本公开任一实施例所述的目标检测装置。

根据本公开实施例的再一个方面，提供的另一种电子设备，包括：

存储器，用于存储可执行指令；以及

处理器，用于与所述存储器通信以执行所述可执行指令从而完成本公开任一实施例所述方法的操作。

根据本公开实施例的再一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，所述指令被执行时实现本公开任一实施例所述方法的操作。

根据本公开实施例的再一个方面，提供的一种计算机程序，包括计算机可读取的指令，当所述计算机可读取的指令在设备中运行时，所述设备中的处理器执行用于实现本公开任一实施例所述方法中的步骤的可执行指令。

基于本公开上述实施例，经神经网络分别提取模版帧和检测帧的特征，基于模版帧的特征获取局部区域检测器的分类权重和回归权重，将检测帧的特征输入局部区域检测器，得到局部区域检测器输出的多个备选框的分类结果和回归结果，并根据局部区域检测器输出的多个备选框的分类结果和回归结果，获取检测帧中目标对象的检测框。本公开实施例，由同一或具有相同结果的神经网络可以更好的提取同一目标对象的相似特征，从而使得在不同帧中提取的目标对象的特征变化较小，有助于提高在检测帧中目标对象检测结果的准确性；基于模版帧的特征获取局部区域检测器的分类权重和回归权重，局部区域检测器可以获得检测帧多个备选框的分类结果和回归结果，进而获取检测帧中所述目标对象的检测框，能够更好的估计目标对象的位置和大小变化，能够更精确的找出目标对象在检测帧中的位置，从而提升了目标跟踪的速度和准确性，跟踪效果好、速度快。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同描述一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1为本公开目标检测方法一个实施例的流程图。

图2为本公开目标检测方法另一个实施例的流程图。

图3为本公开目标检测网络的训练方法一个实施例的流程图。

图4为本公开目标检测网络的训练方法另一个实施例的流程图。

图5为本公开目标检测装置一个实施例的结构示意图。

图6为本公开目标检测装置另一个实施例的结构示意图。

图7为本公开目标检测装置又一个实施例的结构示意图。

图8为本公开目标检测装置一个应用实施例的结构示意图。

图9为本公开目标检测装置另一个应用实施例的结构示意图。

图10为本公开电子设备一个应用实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

本领域技术人员可以理解，本申请实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

图1为本公开目标检测方法一个实施例的流程图。如图1所示，该实施例的目标检测方法包括：

102，经神经网络分别提取模版帧和检测帧的特征。

其中，模版帧为目标对象的检测框图像，模版帧的图像大小小于检测帧；检测帧为需要进行目标对象检测的当前帧或者当前帧中可能包含目标对象的区域图像。检测帧为需要进行目标对象检测的当前帧中可能包含目标对象的区域图像时，在本公开各实施例的一个实施方式中，该区域图像大于模板帧的图像大小，例如，该区域图像可以以模板帧图像的中心点为中心点、大小可以为模板帧图像大小的2-4倍。

在本公开各实施例的一个实施方式中，模板帧为视频序列中检测时序位于检测帧之前、且目标对象的检测框确定的帧，可以是视频序列中需要进行目标跟踪的起始帧，该起始帧在视频帧序列中的位置是非常灵活的，例如可以是视频帧序列中的首帧或者任一中间帧。检测帧是需要进行目标跟踪的帧，检测帧图像中确定了目标对象的检测框后，该检测帧中对应检测框的图像便可以作为下一个检测帧的模板帧图像。

在本公开各实施例的一个实施方式中，该操作102中，可以经同一神经网络分别提取模版帧和检测帧的特征；或者，经具有相同结构的不同神经网络分别提取模版帧和检测帧的特征。

在一个可选示例中，该操作102可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的神经网络执行。

104，基于模版帧的特征获取局部区域检测器的分类权重和回归权重。

在本公开各实施例的一个实施方式中，可以通过第一卷积层对模板帧的特征进行卷积操作，以卷积操作得到的第一特征作为局部区域检测器的分类权重。

例如，在其中一个可选示例中，可以通过如下方式获取局部区域检测器的分类权重：通过第一卷积层增加模板帧的特征的通道数量，得到第一特征，第一特征的通道数量为模板帧的特征的通道数量的2k倍，其中，k为大于0的整数。

在本公开各实施例的一个实施方式中，可以通过第二卷积层对模板帧的特征进行卷积操作，以卷积操作得到的第二特征作为局部区域检测器的回归权重。

例如，在其中一个可选示例中，可以通过如下方式获取局部区域检测器的回归权重：通过第二卷积层增加模板帧的特征的通道数量，得到第二特征，该第二特征的通道数量为模板帧的特征的通道数量的4k倍，其中，k为大于0的整数。

在一个可选示例中，该操作104可以由处理器调用存储器存储的相应指令执行，也可以由分别被处理器运行的第一卷积层和第二卷积层执行。

106，将检测帧的特征输入局部区域检测器，得到局部区域检测器输出的多个备选框的分类结果和回归结果。

其中，分类结果包括各备选框分别为目标对象的检测框的概率值，回归结果包括各备选框相对于模板帧对应的检测框的偏移量。

在本公开各实施例的一个可选示例中，上述多个备选框可以包括：检测帧中各位置上的K个备选框。其中，K为预先设置的、大于1的整数。K个备选框的长度与宽度的比值各不相同，例如，K个备选框的长度与宽度的比值可以包括：1:1，2:1，2:1，3:1，1:3，等。分类结果用于表示各位置上的K个备选框是否为目标对象的检测框的概率值。

在本公开目标检测方法的一个可选实施例中，通过该操作106获得多个备选框是否为目标对象的检测框的概率值之后，还可以包括：对该分类结果进行归一化处理，使各备选框是否为目标对象的检测框的概率值之和为1，从而有助于判断各备选框是否为目标对象的检测框。

在本公开各实施例的一个可选示例中，回归结果包括检测帧图像中各位置上的K个备选框分别相对于模板帧中目标对象的检测框的偏移量，其中的偏移量可以包括位置和大小的变化量，其中的位置可以是中心点的位置，也可以是基准框的四个顶点的位置等。

在第二特征的通道数量为模板帧的特征的通道数量的4k倍时，各备选框分别相对于模板帧中目标对象的检测框的偏移量例如可以包括中心点的位置的横坐标的偏移量(dx)、中心点的位置的纵坐标的偏移量(dy)、高度的变化量(dh)和宽度的变化量(dw)。

在本公开各实施例的一个实施方式中，该操作106可以包括：利用分类权重对检测帧的特征进行卷积操作，获得多个备选框的分类结果；以及利用回归权重对检测帧的特征进行卷积操作，获得多个备选框的回归结果。

在一个可选示例中，该操作106可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的局部区域检测器执行。

108，根据局部区域检测器输出的多个备选框的分类结果和回归结果，获取检测帧中目标对象的检测框。

在一个可选示例中，该操作108可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的获取单元执行。

基于本公开上述实施例的目标检测方法，经神经网络分别提取模版帧和检测帧的特征，基于模版帧的特征获取局部区域检测器的分类权重和回归权重，将检测帧的特征输入局部区域检测器，得到局部区域检测器输出的多个备选框的分类结果和回归结果，并根据局部区域检测器输出的多个备选框的分类结果和回归结果，获取检测帧中目标对象的检测框。本公开实施例，由同一或具有相同结果的神经网络可以更好的提取同一目标对象的相似特征，从而使得在不同帧中提取的目标对象的特征变化较小，有助于提高在检测帧中目标对象检测结果的准确性；基于模版帧的特征获取局部区域检测器的分类权重和回归权重，局部区域检测器可以获得检测帧多个备选框的分类结果和回归结果，进而获取检测帧中所述目标对象的检测框，能够更好的估计目标对象的位置和大小变化，能够更精确的找出目标对象在检测帧中的位置，从而提升了目标跟踪的速度和准确性，跟踪效果好、速度快。

本公开实施例基于模板帧，局部区域检测器可以从检测帧中快速产生大量的备选框，并获得检测帧中各位置上的K个备选框分别相对于模板帧中目标对象的检测框的偏移量，能够更好的估计目标对象的位置和大小变化，能够更精确的找出目标对象在检测帧中的位置，从而提升目标跟踪的速度和准确性，跟踪效果好、速度快。

在本公开目标检测方法的另一实施例中，还可以包括：

经神经网络提取视频序列中时序位于检测帧之后的至少一其他检测帧的特征；

将上述至少一其他检测帧的特征依次输入局部区域检测器，依次得到局部区域检测器输出的上述至少一其他检测帧中的多个备选框、以及各备选框的分类结果和回归结果，即：依次针对上述至少一其他检测帧的特征执行操作106；

依次根据上述至少一其他检测帧的多个备选框的分类结果和回归结果，获取上述至少一其他检测帧中目标对象的检测框；即：依次针对上述至少一其他检测帧的多个备选框的分类结果和回归结果执行操作108。

在本公开目标检测方法的又一个实施例中，检测帧为需要进行目标对象检测的当前帧中可能包含目标对象的区域图像时，还可以包括：预先以模板帧的中心点为中心点，从当前帧中截取长度和/或宽度对应大于模板帧的图像长度和/或宽度的区域图像作为检测帧。

图2为本公开目标检测方法另一个实施例的流程图。如图2所示，该实施例的目标检测方法包括：

202，经神经网络分别提取模版帧和检测帧的特征。

其中，模版帧为目标对象的检测框图像，模版帧的图像大小小于检测帧；检测帧为需要进行目标对象检测的当前帧或者当前帧中可能包含目标对象的区域图像。模板帧为视频序列中检测时序位于检测帧之前、且目标对象的检测框确定的帧。

在本公开各实施例的一个实施方式中，该操作202中，可以经同一神经网络分别提取模版帧和检测帧的特征；或者，经具有相同结构的不同神经网络分别提取模版帧和检测帧的特征。

在一个可选示例中，该操作202可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的神经网络执行。

204，通过第三卷积层对检测帧的特征进行卷积操作，获得第三特征，该第三特征的通道数量与检测帧的特征的通道数量相同；以及通过第四卷积层对检测帧的特征进行卷积操作，获得第四特征，该第四特征的通道数量与检测帧的特征的通道数量相同。

在一个可选示例中，该操作204可以由处理器调用存储器存储的相应指令执行，也可以由分别被处理器运行的第三卷积层和第四卷积层执行。

206，基于模版帧的特征获取局部区域检测器的分类权重和回归权重。

其中，操作206与204之间不存在执行顺序限制，二者可以同时执行，也可以以任意先后顺序执行。

在一个可选示例中，该操作206可以由处理器调用存储器存储的相应指令执行，也可以由分别被处理器运行的第一卷积层和第二卷积层执行。

208，利用分类权重对第三特征进行卷积操作，获得多个备选框的分类结果；以及利用回归权重对第四特征进行卷积操作，获得多个备选框的回归结果。

在一个可选示例中，该操作208可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的局部区域检测器执行。

210，根据局部区域检测器输出的多个备选框的分类结果和回归结果，获取检测帧中目标对象的检测框。

在一个可选示例中，该操作210可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的获取单元执行。

在本公开各实施例的一个实施方式中，操作108或者210可以包括：根据分类结果和回归结果从多个备选框中选取一个备选框，并根据选取的备选框的偏移量对选取的备选框进行回归，获得检测帧中目标对象的检测框。

在其中一个可选示例中，根据分类结果和回归结果从多个备选框中选取一个备选框时，可以通过如下方式实现：根据分类结果和回归结果的权重系数，从多个备选框中选取一个备选框，例如，根据分类结果和回归结果的权重系数，分别由各备选框的概率值与分类结果的权重系数的乘积和偏移量与回归结果的权重系数的乘积之和计算一个综合分数，根据上述多个备选框的综合分数，从上述多个备选框中选取一个备选框。

在其中的另一个可选示例中，通过上述各实施例获得回归结果之后，还可以包括：根据回归结果中位置和大小的变化量，对备选框的概率值进行调整，例如，根据回归结果中位置和大小的变化量，对备选框的概率值进行调整。例如，对位置的变化量较大(即：位置移动较大)、大小的变化量较大(即：形状变化较大)的备选框的概率值进行惩罚，降低其概率值。相应的，该示例中，根据分类结果和回归结果从多个备选框中选取一个备选框时，可以通过如下方式实现：根据调整后的分类结果，从多个备选框中选取一个备选框，例如，根据调整后的概率值，从多个备选框中，选取一个概率值最高的备选框。

在一个可选示例中，上述根据回归结果中位置和大小的变化量，对备选框的概率值进行调整的操作，可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的调整单元执行。

图3为本公开目标检测网络的训练方法一个实施例的流程图。本公开实施例的目标检测网络，包括本公开实施例的神经网络、第一卷积层和第二卷积层。如图3所示，该实施例的训练方法包括：

302，经神经网络分别提取模版帧和检测帧的特征。

在本公开各实施例的一个实施方式中，该操作302中，可以经同一神经网络分别提取模版帧和检测帧的特征；或者，经具有相同结构的不同神经网络分别提取模版帧和检测帧的特征。

在一个可选示例中，该操作302可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的神经网络执行。

304，通过第一卷积层对模板帧的特征进行卷积操作，以卷积操作得到的第一特征作为局部区域检测器的分类权重；以及通过第二卷积层对模板帧的特征进行卷积操作，以卷积操作得到的第二特征作为局部区域检测器的回归权重。

在一个可选示例中，该操作304可以由处理器调用存储器存储的相应指令执行，也可以由分别被处理器运行的第一卷积层和第二卷积层执行。

306，将检测帧的特征输入局部区域检测器，得到局部区域检测器输出的多个备选框的分类结果和回归结果。

在本公开各实施例的一个实施方式中，该操作306可以包括：利用分类权重对检测帧的特征进行卷积操作，获得多个备选框的分类结果；以及利用回归权重对检测帧的特征进行卷积操作，获得多个备选框的回归结果。

在一个可选示例中，该操作306可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的区域检测器执行。

308，根据局部区域检测器输出的多个备选框的分类结果和回归结果，获取检测帧中目标对象的检测框。

在一个可选示例中，该操作308可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的获取单元执行。

310，以获得的检测帧中目标对象的检测框作为预测检测框，基于检测帧的标注信息和预测检测框训练神经网络、第一卷积层和第二卷积层。

在一个可选示例中，该操作310可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的训练单元执行。

基于本公开上述实施例的目标检测网络的训练方法，经神经网络分别提取模版帧和检测帧的特征，基于模版帧的特征获取局部区域检测器的分类权重和回归权重，将检测帧的特征输入局部区域检测器，得到局部区域检测器输出的多个备选框的分类结果和回归结果，并根据局部区域检测器输出的多个备选框的分类结果和回归结果，获取检测帧中目标对象的检测框，基于检测帧的标注信息和预测检测框训练目标检测网络。基于本公开实施例训练得到的目标检测网络，由同一或具有相同结果的神经网络可以更好的提取同一目标对象的相似特征，从而使得在不同帧中提取的目标对象的特征变化较小，有助于提高在检测帧中目标对象检测结果的准确性；基于模版帧的特征获取局部区域检测器的分类权重和回归权重，局部区域检测器可以获得检测帧多个备选框的分类结果和回归结果，进而获取检测帧中所述目标对象的检测框，能够更好的估计目标对象的位置和大小变化，能够更精确的找出目标对象在检测帧中的位置，从而提升了目标跟踪的速度和准确性，跟踪效果好、速度快。

在本公开训练方法的另一实施例中，还可以包括：经神经网络提取视频序列中时序位于检测帧之后的至少一其他检测帧的特征；

将至少一其他检测帧的特征依次输入局部区域检测器，依次得到局部区域检测器输出的至少一其他检测帧中的多个备选框、以及各备选框的分类结果和回归结果，即：针对依次至少一其他检测帧的特征执行操作306；

依次根据至少一其他检测帧的多个备选框的分类结果和回归结果，获取至少一其他检测帧中目标对象的检测框；即：针对依次至少一其他检测帧的多个备选框的分类结果和回归结果执行操作308。

在本公开训练方法的又一个实施例中，检测帧为需要进行目标对象检测的当前帧中可能包含目标对象的区域图像时，还可以包括：预先以模板帧的中心点为中心点，从当前帧中截取长度和/或宽度对应大于模板帧的图像长度和/或宽度的区域图像作为检测帧。

图4为本公开目标检测网络的训练方法另一个实施例的流程图。本公开实施例的目标检测网络，包括本公开实施例的神经网络、第一卷积层、第二卷积层、第三卷积层和第四卷积层。如图4所示，该实施例的训练方法包括：

402，经神经网络分别提取模版帧和检测帧的特征。

在本公开各实施例的一个实施方式中，该操作402中，可以经同一神经网络分别提取模版帧和检测帧的特征；或者，经具有相同结构的不同神经网络分别提取模版帧和检测帧的特征。

在一个可选示例中，该操作402可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的神经网络执行。

404，通过第三卷积层对检测帧的特征进行卷积操作，获得第三特征，该第三特征的通道数量与检测帧的特征的通道数量相同；以及通过第四卷积层对检测帧的特征进行卷积操作，获得第四特征，该第四特征的通道数量与检测帧的特征的通道数量相同。

在一个可选示例中，该操作404可以由处理器调用存储器存储的相应指令执行，也可以由分别被处理器运行的第三卷积层和第四卷积层执行。

406，通过第一卷积层对模板帧的特征进行卷积操作，以卷积操作得到的第一特征作为局部区域检测器的分类权重；以及通过第二卷积层对模板帧的特征进行卷积操作，以卷积操作得到的第二特征作为局部区域检测器的回归权重。

其中，操作406与404之间不存在执行顺序限制，二者可以同时执行，也可以以任意先后顺序执行。

在一个可选示例中，该操作406可以由处理器调用存储器存储的相应指令执行，也可以由分别被处理器运行的第一卷积层和第二卷积层执行。

408，利用分类权重对第三特征进行卷积操作，获得多个备选框的分类结果；以及利用回归权重对第四特征进行卷积操作，获得多个备选框的回归结果。

在一个可选示例中，该操作408可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的局部区域检测器执行。

410，根据局部区域检测器输出的多个备选框的分类结果和回归结果，获取检测帧中目标对象的检测框。

在一个可选示例中，该操作410可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一特征提取单元701执行。

412，以获得的检测帧中目标对象的检测框作为预测检测框，根据标注的目标对象在检测帧中的检测框的位置和大小，与预测检测框的位置和大小之间的差异，对神经网络、第一卷积层和第二卷积层的权重值进行调整。

在一个可选示例中，该操作412可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的训练单元执行。

在本公开各实施例的一个实施方式中，操作308或者410可以包括：根据分类结果和回归结果从多个备选框中选取一个备选框，并根据选取的备选框的偏移量对选取的备选框进行回归，获得检测帧中目标对象的检测框。

在其中一个可选示例中，根据分类结果和回归结果从多个备选框中选取一个备选框时，可以通过如下方式实现：根据分类结果和回归结果的权重系数，从多个备选框中选取一个备选框，例如，根据分类结果和回归结果的权重系数，分别由各备选框的概率值与分类结果的权重系数的乘积和偏移量与回归结果的权重系数的乘积之和计算一个综合分数，根据上述多个备选框的综合分数，从上述多个备选框中选取一个概率值高、偏移量小的备选框。

在其中的另一个可选示例中，通过上述各实施例获得回归结果之后，还可以包括：根据回归结果中位置和大小的变化量，对备选框的概率值进行调整，例如，根据回归结果中位置和大小的变化量，对备选框的概率值进行调整。相应的，该示例中，根据分类结果和回归结果从多个备选框中选取一个备选框时，可以通过如下方式实现：根据调整后的分类结果，从多个备选框中选取一个备选框，例如，根据调整后的概率值，从多个备选框中，选取一个概率值最高的备选框。

在一个可选示例中，上述根据回归结果中位置和大小的变化量，对备选框的概率值进行调整的操作可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的调整单元执行。

在其中一个可选示例中，根据分类结果和回归结果从多个备选框中选取一个备选框时，可以通过如下方式实现：根据分类结果和回归结果的权重系数，从多个备选框中选取一个备选框，例如，根据分类结果和回归结果的权重系数，分别由各备选框的概率值和偏移量计算一个综合分数，根据上述多个备选框的综合分数，从上述多个备选框中选取一个备选框。

本公开各实施例中，局部区域检测器可以包括第三卷积层、第四卷积层和两个卷积操作单元。其中，局部区域检测器与第一卷积层、第二卷积层结合后，形成的局部区域检测器也可以称为区域提议网络。

本公开实施例提供的任一种目标检测方法、目标检测网络的训练方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种目标检测方法、目标检测网络的训练方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种目标检测方法、目标检测网络的训练方法。下文不再赘述。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图5为本公开目标检测装置一个实施例的结构示意图。本公开各实施例的目标检测装置可用于实现本公开上述各目标检测方法实施例。如图5所示，该实施例的目标检测装置包括：神经网络，第一卷积层，第二卷积层，局部区域检测器和获取单元。其中：

神经网络，用于分别提取模版帧和检测帧的特征，其中，模版帧为目标对象的检测框图像，模版帧的图像大小小于检测帧。其中，模版帧为目标对象的检测框图像，模版帧的图像大小小于检测帧；检测帧为需要进行目标对象检测的当前帧或者当前帧中可能包含目标对象的区域图像。模板帧为视频序列中检测时序位于检测帧之前、且目标对象的检测框确定的帧。提取模版帧和检测帧的特征的身价网络可以是同一神经网络，或者，也可以是具有相同结构的不同神经网络。

第一卷积层，用于对所述模板帧的特征进行卷积操作，以卷积操作得到的第一特征作为所述局部区域检测器的分类权重。

第二卷积层，用于通过第二卷积层对所述模板帧的特征进行卷积操作，以卷积操作得到的第二特征作为所述局部区域检测器的回归权重。

局部区域检测器，用于根据检测帧的特征，输出多个备选框的分类结果和回归结果；其中，分类结果包括各备选框分别为目标对象的检测框的概率值，回归结果包括各备选框相对于模板帧对应的检测框的偏移量。

获取单元，用于根据局部区域检测器输出的多个备选框的分类结果和回归结果，获取检测帧中目标对象的检测框。

基于本公开上述实施例的目标检测装置，经神经网络分别提取模版帧和检测帧的特征，基于模版帧的特征获取局部区域检测器的分类权重和回归权重，将检测帧的特征输入局部区域检测器，得到局部区域检测器输出的多个备选框的分类结果和回归结果，并根据局部区域检测器输出的多个备选框的分类结果和回归结果，获取检测帧中目标对象的检测框。本公开实施例，由同一或具有相同结果的神经网络可以更好的提取同一目标对象的相似特征，从而使得在不同帧中提取的目标对象的特征变化较小，有助于提高在检测帧中目标对象检测结果的准确性；基于模版帧的特征获取局部区域检测器的分类权重和回归权重，局部区域检测器可以获得检测帧多个备选框的分类结果和回归结果，进而获取检测帧中所述目标对象的检测框，能够更好的估计目标对象的位置和大小变化，能够更精确的找出目标对象在检测帧中的位置，从而提升了目标跟踪的速度和准确性，跟踪效果好、速度快。

在本公开目标检测装置各实施例的一种实施方式中，局部区域检测器用于：利用分类权重对检测帧的特征进行卷积操作，获得多个备选框的分类结果；以及利用回归权重对检测帧的特征进行卷积操作，获得多个备选框的回归结果。

检测帧为需要进行目标对象检测的当前帧中可能包含目标对象的区域图像时，在本公开目标检测装置另一个实施例中，还可以包括：预处理单元，用于以模板帧的中心点为中心点，从当前帧中截取长度和/或宽度对应大于模板帧的图像长度和/或宽度的区域图像作为检测帧。如图6所示，为本公开目标检测装置另一个实施例的结构示意图。

另外，再参见图6，在本公开目标检测装置的又一个实施例中，还可以包括：第三卷积层，用于对检测帧的特征进行卷积操作，获得第三特征，第三特征的通道数量与检测帧的特征的通道数量相同。相应地，该实施例中，局部区域检测器用于利用分类权重对第三特征进行卷积操作。

另外，再参见图6，在本公开目标检测装置的再一个实施例中，还可以包括：第四卷积层，用于对检测帧的特征进行卷积操作，获得第四特征，第四特征的通道数量与检测帧的特征的通道数量相同。相应地，该实施例中，局部区域检测器用于利用回归权重对第四特征进行卷积操作。

在本公开目标检测装置各实施例的另一种实施方式中，获取单元用于：根据分类结果和回归结果从多个备选框中选取一个备选框，并根据选取的备选框的偏移量对选取的备选框进行回归，获得检测帧中目标对象的检测框。

示例性地，获取单元根据分类结果和回归结果从多个备选框中选取一个备选框时，用于：根据分类结果和回归结果的权重系数，从多个备选框中选取一个备选框。

另外，再参见图6，在本公开目标检测装置的还一个实施例中，还可以包括：调整单元，用于根据回归结果对分类结果进行调整。相应地，获取单元根据分类结果和回归结果从多个备选框中选取一个备选框时，用于根据调整后的分类结果，从多个备选框中选取一个备选框。

图7为本公开目标检测装置再一个实施例的结构示意图。该实施例的目标检测装置可用于实现本公开图3～图4任一目标检测网络的训练方法实施例。如图7所示，与图5或图6所示实施例相比，该实施例的目标检测装置还包括：训练单元，用于以获得的检测帧中目标对象的检测框作为预测检测框，基于检测帧的标注信息和预测检测框训练神经网络、第一卷积层和第二卷积层。

在其中一种实施方式中，检测帧的标注信息包括：标注的目标对象在检测帧中的检测框的位置和大小。相应地，该实施方式中，训练单元用于根据标注的检测框的位置和大小与预测检测框的位置和大小之间的差异，对神经网络、第一卷积层和第二卷积层的权重值进行调整。

基于本公开上述实施例，经神经网络分别提取模版帧和检测帧的特征，基于模版帧的特征获取局部区域检测器的分类权重和回归权重，将检测帧的特征输入局部区域检测器，得到局部区域检测器输出的多个备选框的分类结果和回归结果，并根据局部区域检测器输出的多个备选框的分类结果和回归结果，获取检测帧中目标对象的检测框，基于检测帧的标注信息和预测检测框训练目标检测网络。基于本公开实施例训练得到的目标检测网络，由同一或具有相同结果的神经网络可以更好的提取同一目标对象的相似特征，从而使得在不同帧中提取的目标对象的特征变化较小，有助于提高在检测帧中目标对象检测结果的准确性；基于模版帧的特征获取局部区域检测器的分类权重和回归权重，局部区域检测器可以获得检测帧多个备选框的分类结果和回归结果，进而获取检测帧中所述目标对象的检测框，能够更好的估计目标对象的位置和大小变化，能够更精确的找出目标对象在检测帧中的位置，从而提升了目标跟踪的速度和准确性，跟踪效果好、速度快。

如图8所示，为本公开目标检测装置一个应用实施例的结构示意图。如图9所示，为本公开目标检测装置另一个应用实施例的结构示意图。在图8和图9中，LxMxN(例如256x20x20)中，L表示通道数量，M和N分别表示高度(也即长度)和宽度。

本公开实施例还提供了一种电子设备，包括本公开上述任一实施例的目标检测装置。

本公开实施例还提供了另一种电子设备，包括：存储器，用于存储可执行指令；以及处理器，用于与存储器通信以执行可执行指令从而完成本公开上述任一实施例的目标检测方法或者目标检测网络的训练方法的操作。

图10为本公开电子设备一个应用实施例的结构示意图。下面参考图10，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备的结构示意图。如图10所示，该电子设备包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)，和/或一个或多个图像处理器(GPU)等，处理器可以根据存储在只读存储器(ROM)中的可执行指令或者从存储部分加载到随机访问存储器(RAM)中的可执行指令而执行各种适当的动作和处理。通信部可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，处理器可与只读存储器和/或随机访问存储器中通信以执行可执行指令，通过总线与通信部相连、并经通信部与其他目标设备通信，从而完成本申请实施例提供的任一方法对应的操作，例如，经神经网络分别提取模版帧和检测帧的特征，其中，所述模版帧为目标对象的检测框图像，所述模版帧的图像大小小于所述检测帧；基于所述模版帧的特征获取局部区域检测器的分类权重和回归权重；将所述检测帧的特征输入所述局部区域检测器，得到所述局部区域检测器输出的多个备选框的分类结果和回归结果；根据所述局部区域检测器输出的多个备选框的分类结果和回归结果，获取所述检测帧中所述目标对象的检测框。再如，经神经网络分别提取模版帧和检测帧的特征，其中，所述模版帧为目标对象的检测框图像，所述模版帧的图像大小小于所述检测帧；通过一卷积层，增加所述模板帧的特征的通道，以得到的第一特征作为所述局部区域检测器的分类权重；以及通过第二卷积层增加所述模板帧的特征的通道，以得到的第二特征作为所述局部区域检测器的回归权重；将所述检测帧的特征输入所述局部区域检测器，得到所述局部区域检测器输出的多个备选框的分类结果和回归结果；根据所述局部区域检测器输出的多个备选框的分类结果和回归结果，获取所述检测帧中所述目标对象的检测框；以获得的所述检测帧中所述目标对象的检测框作为预测检测框，基于所述检测帧的标注信息和所述预测检测框训练所述神经网络、所述第一卷积层和所述第二卷积层。

此外，在RAM中，还可存储有装置操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。在有RAM的情况下，ROM为可选模块。RAM存储可执行指令，或在运行时向ROM中写入可执行指令，可执行指令使处理器执行本公开上述任一方法对应的操作。输入/输出(I/O)接口也连接至总线。通信部可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口：包括键盘、鼠标等的输入部分；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要被安装入存储部分。

需要说明的，如图10所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图10的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本公开公开的保护范围。

另外，本公开实施例还提供了一种计算机存储介质，用于存储计算机可读取的指令，该指令被执行时实现本公开上述任一实施例的目标检测方法或者目标检测网络的训练方法的操作。

另外，本公开实施例还提供了一种计算机程序，包括计算机可读取的指令，当该计算机可读取的指令在设备中运行时，该设备中的处理器执行用于实现本公开上述任一实施例的目标检测方法或者目标检测网络的训练方法中的步骤的可执行指令。

本公开实施例可以进行单目标跟踪，例如多目标跟踪系统当中，可以不每帧都进行目标检测，而是固定检测间隔，例如每10帧检测一次，而中间的9帧可以通过单目标跟踪来确定中间帧的目标的位置。由于本公开实施例的算法速度较快，所以整体上可以让多目标跟踪系统能够更快完成跟踪，并且达到更好的效果。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

本公开的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims

一种目标检测方法，其特征在于，包括：

经神经网络分别提取模版帧和检测帧的特征，其中，所述模版帧为目标对象的检测框图像，所述模版帧的图像大小小于所述检测帧；

基于所述模版帧的特征获取局部区域检测器的分类权重和回归权重；

将所述检测帧的特征输入所述局部区域检测器，得到所述局部区域检测器输出的多个备选框的分类结果和回归结果；

根据所述局部区域检测器输出的多个备选框的分类结果和回归结果，获取所述检测帧中所述目标对象的检测框。
根据权利要求1所述的方法，其特征在于，还包括：

经所述神经网络提取视频序列中时序位于所述检测帧之后的至少一其他检测帧的特征；

将所述至少一其他检测帧的特征依次输入所述局部区域检测器，依次得到所述局部区域检测器输出的所述至少一其他检测帧中的多个备选框、以及各备选框的分类结果和回归结果；

依次根据所述至少一其他检测帧的多个备选框的分类结果和回归结果，获取所述至少一其他检测帧中所述目标对象的检测框。
根据权利要求1或2所述的方法，其特征在于，所述经神经网络分别提取模版帧和检测帧的特征，包括：

经同一神经网络分别提取所述模版帧和所述检测帧的特征；或者，

经具有相同结构的不同神经网络分别提取所述模版帧和所述检测帧的特征。
根据权利要求1-3任一所述的方法，其特征在于，所述模板帧为视频序列中检测时序位于所述检测帧之前、且目标对象的检测框确定的帧。
根据权利要求1-4任一所述的方法，其特征在于，所述检测帧为需要进行所述目标对象检测的当前帧或者当前帧中可能包含所述目标对象的区域图像。
根据权利要求5所述的方法，其特征在于，所述检测帧为需要进行所述目标对象检测的当前帧中可能包含所述目标对象的区域图像时，所述方法还包括：

以所述模板帧的中心点为中心点，从当前帧中截取长度和/或宽度对应大于所述模板帧的图像长度和/或宽度的区域图像作为所述检测帧。
根据权利要求1-6任一所述的方法，其特征在于，基于所述模版帧的特征获取局部区域检测器的分类权重，包括：

通过第一卷积层对所述模板帧的特征进行卷积操作，以卷积操作得到的第一特征作为所述局部区域检测器的分类权重。
根据权利要求1-7任一所述的方法，其特征在于，基于所述模版帧的特征获取局部区域检测器的回归权重，包括：

通过第二卷积层对所述模板帧的特征进行卷积操作，以卷积操作得到的第二特征作为所述局部区域检测器的回归权重。
根据权利要求1-8任一所述的方法，其特征在于，将所述检测帧的特征输入所述局部区域检测器，得到所述局部区域检测器输出的多个备选框的分类结果和回归结果，包括：

利用所述分类权重对所述检测帧的特征进行卷积操作，获得多个备选框的分类结果；以及利用所述回归权重对所述检测帧的特征进行卷积操作，获得多个备选框的回归结果。
根据权利要求9所述的方法，其特征在于，提取所述检测帧的特征之后，还包括：通过第三卷积层对所述检测帧的特征进行卷积操作，获得第三特征，所述第三特征的通道数量与所述检测帧的特征的通道数量相同；

所述利用所述分类权重对所述检测帧的特征进行卷积操作，获得多个备选框的分类结果，包括：利用所述分类权重对所述第三特征进行卷积操作，获得多个备选框的分类结果。
根据权利要求9或10所述的方法，其特征在于，提取所述模板帧的特征之后，还包括：通过第四卷积层对所述检测帧的特征进行卷积操作，获得第四特征，所述第四特征的通道数量与所述检测帧的特征的通道数量相同；

利用所述回归权重对所述检测帧的特征进行卷积操作，获得多个备选框的回归结果，包括：利用所述回归权重对所述第四特征进行卷积操作，获得多个备选框的回归结果。
根据权利要求1-11任一所述的方法，其特征在于，根据所述局部区域检测器输出的多个备选框的分类结果和回归结果，获取所述检测帧中所述目标对象的检测框，包括：

根据所述分类结果和所述回归结果从所述多个备选框中选取一个备选框，并根据选取的备选框的偏移量对所述选取的备选框进行回归，获得所述检测帧中所述目标对象的检测框。
根据权利要求12所述的方法，其特征在于，根据所述分类结果和所述回归结果从所述多个备选框中选取一个备选框，包括：

根据所述分类结果和所述回归结果的权重系数，从所述多个备选框中选取一个备选框。
根据权利要求12所述的方法，其特征在于，所述获得回归结果之后，还包括：根据所述回归结果对所述分类结果进行调整；

根据所述分类结果和所述回归结果从所述多个备选框中选取一个备选框，包括：根据调整后的分类结果，从所述多个备选框中选取一个备选框。
一种目标检测网络的训练方法，其特征在于，包括：

经神经网络分别提取模版帧和检测帧的特征，其中，所述模版帧为目标对象的检测框图像，所述模版帧的图像大小小于所述检测帧；

通过一卷积层对所述模板帧的特征进行卷积操作，以卷积操作得到的第一特征作为所述局部区域检测器的分类权重；以及通过第二卷积层对所述模板帧的特征进行卷积操作，以卷积操作得到的第二特征作为所述局部区域检测器的回归权重；

将所述检测帧的特征输入所述局部区域检测器，得到所述局部区域检测器输出的多个备选框的分类结果和回归结果；

根据所述局部区域检测器输出的多个备选框的分类结果和回归结果，获取所述检测帧中所述目标对象的检测框；

以获得的所述检测帧中所述目标对象的检测框作为预测检测框，基于所述检测帧的标注信息和所述预测检测框训练所述神经网络、所述第一卷积层和所述第二卷积层。
根据权利要求15所述的方法，其特征在于，还包括：

经所述神经网络提取视频序列中时序位于所述检测帧之后的至少一其他检测帧的特征；

将所述至少一其他检测帧的特征依次输入所述局部区域检测器，依次得到所述局部区域检测器输出的所述至少一其他检测帧中的多个备选框、以及各备选框的分类结果和回归结果；

依次根据所述至少一其他检测帧的多个备选框的分类结果和回归结果，获取所述至少一其他检测帧中所述目标对象的检测框。
根据权利要求15或16所述的方法，其特征在于，经神经网络分别提取模版帧和检测帧的特征，包括：

经同一神经网络分别提取所述模版帧和所述检测帧的特征；或者，

经具有相同结构的不同神经网络分别提取所述模版帧和所述检测帧的特征。
根据权利要求15-17任一所述的方法，其特征在于，所述模板帧为视频序列中检测时序位于所述检测帧之前、且目标对象的检测框确定的帧。
根据权利要求15-18任一所述的方法，其特征在于，所述检测帧为需要进行所述目标对象检测的当前帧或者当前帧中可能包含所述目标对象的区域图像。
根据权利要求19所述的方法，其特征在于，所述检测帧为需要进行所述目标对象检测的当前帧中可能包含所述目标对象的区域图像时，所述方法还包括：

以所述模板帧的中心点为中心点，从当前帧中截取长度和/或宽度对应大于所述模板帧的图像长度和/或宽度的区域图像作为所述检测帧。
根据权利要求15-20任一所述的方法，其特征在于，将所述检测帧的特征输入所述局部区域检测器，得到所述局部区域检测器输出的多个备选框的分类结果和回归结果，包括：

利用所述分类权重对所述检测帧的特征进行卷积操作，获得多个备选框的分类结果；以及利用所述回归权重对所述检测帧的特征进行卷积操作，获得多个备选框的回归结果。
根据权利要求21所述的方法，其特征在于，提取所述检测帧的特征之后，还包括：

通过第三卷积层对所述检测帧的特征进行卷积操作，获得第三特征，所述第三特征的通道数量与所述检测帧的特征的通道数量相同；

所述利用所述分类权重对所述检测帧的特征进行卷积操作，获得多个备选框的分类结果，包括：利用所述分类权重对所述第三特征进行卷积操作，获得多个备选框的分类结果。
根据权利要求21所述的方法，其特征在于，提取所述模板帧的特征之后，还包括：

通过第四卷积层对所述检测帧的特征进行卷积操作，获得第四特征，所述第四特征的通道数量与所述检测帧的特征的通道数量相同；

利用所述回归权重对所述检测帧的特征进行卷积操作，获得多个备选框的回归结果，包括：利用所述回归权重对所述第四特征进行卷积操作，获得多个备选框的回归结果。
根据权利要求15-23任一所述的方法，其特征在于，根据所述局部区域检测器输出的多个备选框的分类结果和回归结果，获取所述检测帧中所述目标对象的检测框，包括：

根据所述分类结果和所述回归结果从所述多个备选框中选取一个备选框，并根据选取的备选框的偏移量对所述选取的备选框进行回归，获得所述检测帧中所述目标对象的检测框。
根据权利要求24所述的方法，其特征在于，根据所述分类结果和所述回归结果从所述多个备选框中选取一个备选框，包括：

根据所述分类结果和所述回归结果的权重系数，从所述多个备选框中选取一个备选框。
根据权利要求25所述的方法，其特征在于，所述获得回归结果之后，还包括：根据所述回归结果对所述分类结果进行调整；

根据所述分类结果和所述回归结果从所述多个备选框中选取一个备选框，包括：根据调整后的分类结果，从所述多个备选框中选取一个备选框。
根据权利要求15-26任一所述的方法，其特征在于，所述检测帧的标注信息包括：标注的所述目标对象在所述检测帧中的检测框的位置和大小；

以获得的所述检测帧中所述目标对象的检测框作为预测检测框，基于所述检测帧的标注信息和所述预测检测框，训练所述神经网络、所述第一卷积层和所述第二卷积层，包括：

根据所述标注的检测框的位置和大小与所述预测检测框的位置和大小之间的差异，对所述神经网络、所述第一卷积层和所述第二卷积层的权重值进行调整。
一种目标检测装置，其特征在于，包括：

神经网络，用于分别提取模版帧和检测帧的特征，其中，所述模版帧为目标对象的检测框图像，所述模版帧的图像大小小于所述检测帧；

第一卷积层，用于增加所述模板帧的特征的通道，以得到的第一特征作为局部区域检测器的分类权重；

第二卷积层，用于增加所述模板帧的特征的通道，以得到的第二特征作为所述局部区域检测器的回归权重；

局部区域检测器，用于根据所述检测帧的特征，输出多个备选框的分类结果和回归结果；

获取单元，用于根据所述局部区域检测器输出的多个备选框的分类结果和回归结果，获取所述检测帧中所述目标对象的检测框。
根据权利要求28所述的装置，其特征在于，所述神经网络包括：具有相同结构的、分别用于提取所述模版帧和所述检测帧的特征的不同神经网络。
根据权利要求28或29所述的装置，其特征在于，所述模板帧为视频序列中检测时序位于所述检测帧之前、且目标对象的检测框确定的帧。
根据权利要求28-30任一所述的装置，其特征在于，所述检测帧为需要进行所述目标对象检测的当前帧或者当前帧中可能包含所述目标对象的区域图像。
根据权利要求31所述的装置，其特征在于，还包括：

预处理单元，用于以所述模板帧的中心点为中心点，从当前帧中截取长度和/或宽度对应大于所述模板帧的图像长度和/或宽度的区域图像作为所述检测帧。
根据权利要求28-32任一所述的装置，其特征在于，所述局部区域检测器用于：利用所述分类权重对所述检测帧的特征进行卷积操作，获得多个备选框的分类结果；以及利用所述回归权重对所述检测帧的特征进行卷积操作，获得多个备选框的回归结果。
根据权利要求33所述的装置，其特征在于，还包括：

第三卷积层，用于对所述检测帧的特征进行卷积操作，获得第三特征，所述第三特征的通道数量与所述检测帧的特征的通道数量相同；

所述局部区域检测器，用于利用所述分类权重对所述第三特征进行卷积操作。
根据权利要求33所述的装置，其特征在于，还包括：

第四卷积层，用于对所述检测帧的特征进行卷积操作，获得第四特征，所述第四特征的通道数量与所述检测帧的特征的通道数量相同；

所述局部区域检测器，用于利用所述回归权重对所述第四特征进行卷积操作。
根据权利要求28-35任一所述的装置，其特征在于，所述获取单元用于：根据所述分类结果和所述回归结果从所述多个备选框中选取一个备选框，并根据选取的备选框的偏移量对所述选取的备选框进行回归，获得所述检测帧中所述目标对象的检测框。
根据权利要求36所述的装置，其特征在于，所述获取单元根据所述分类结果和所述回归结果从所述多个备选框中选取一个备选框时，用于：根据所述分类结果和所述回归结果的权重系数，从所述多个备选框中选取一个备选框。
根据权利要求36所述的装置，其特征在于，还包括：

调整单元，用于根据所述回归结果对所述分类结果进行调整；

所述获取单元根据所述分类结果和所述回归结果从所述多个备选框中选取一个备选框时，用于：根据调整后的分类结果，从所述多个备选框中选取一个备选框。
根据权利要求28-38任一所述的装置，其特征在于，还包括：

训练单元，用于以获得的所述检测帧中所述目标对象的检测框作为预测检测框，基于所述检测帧的标注信息和所述预测检测框训练所述神经网络、所述第一卷积层和所述第二卷积层。
根据权利要求39所述的装置，其特征在于，所述检测帧的标注信息包括：标注的所述目标对象在所述检测帧中的检测框的位置和大小；

所述训练单元，用于根据所述标注的检测框的位置和大小与所述预测检测框的位置和大小之间的差异，对所述神经网络、所述第一卷积层和所述第二卷积层的权重值进行调整。
一种电子设备，其特征在于，包括权利要求28-40任一所述的目标检测装置。
一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；以及

处理器，用于与所述存储器通信以执行所述可执行指令从而完成权利要求1-27任一所述方法的操作。
一种计算机存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时实现权利要求1-27任一所述方法的操作。