WO2018090912A1

WO2018090912A1 - 目标对象检测方法、装置及系统和神经网络结构

Info

Publication number: WO2018090912A1
Application number: PCT/CN2017/110953
Authority: WO
Inventors: 康恺; 李鸿升; 欧阳万里; 王晓刚
Original assignee: 北京市商汤科技开发有限公司
Priority date: 2016-11-15
Filing date: 2017-11-14
Publication date: 2018-05-24
Also published as: CN108073864B; CN108073864A

Abstract

一种目标对象检测方法、装置及系统和神经网络结构，其中，所述方法包括：在视频图像序列的当前帧确定至少一个待检测的感兴趣区域（S100），每个感兴趣区域至少部分包含至少一个目标对象的信息；分别提取当前帧的至少一个感兴趣区域中的目标对象的特征（S200）；根据目标对象的特征对当前帧的至少一个感兴趣区域进行预测，得到预测结果（S300）；根据所述预测结果确定后续帧待检测的感兴趣区域（S400）。因此，在对目标对象进行检测时，能够将当前帧的信息传送至后续帧，实现不同帧图像之间的时域信息复用，充分利用了长程的时域特征，进而为处理对象外貌变化等复杂情况提供了时域依据。

Description

目标对象检测方法、装置及系统和神经网络结构

本申请要求在2016年11月15日提交中国专利局、申请号为CN 201611013117.9、发明名称为“目标对象检测方法、装置及系统和神经网络结构”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及视频图像处理领域，具体涉及一种目标对象检测方法、装置及系统和神经网络结构。

背景技术

视频目标对象检测/跟踪是静态图像目标对象检测在视频中邻域的拓展，在视频的每一帧中进行多类别、多目标对象的检测/跟踪。

现有技术中，视频目标对象检测/跟踪系统主要基于静态目标对象检测，在静态目标对象检测结果的基础上加入一些后期处理技术来实现视频目标对象检测/跟踪。

发明内容

本申请实施例提供一种目标对象检测方法、装置及系统和神经网络结构，以实现不同帧图像之间的时域信息复用。

根据本申请实施例的一方面，提供了一种目标对象检测方法，包括：

在视频图像序列的当前帧确定至少一个待检测的感兴趣区域，每个所述感兴趣区域至少部分包含至少一个目标对象的信息；分别提取所述当前帧的至少一个感兴趣区域中的目标对象的特征；根据所述目标对象的特征对所述当前帧的至少一个感兴趣区域进行预测，得到预测结果；根据所述预测结果确定后续帧待检测的感兴趣区域。

可选地，所述预测结果包括：所述感兴趣区域包含目标对象的概率和所述目标对象的预测位置。

可选地，所述根据所述预测结果确定后续帧待检测的感兴趣区域，包括：将所述当前帧的所述目标对象的预测位置作为所述后续帧的待检测的感兴趣区域。

可选地，所述根据所述预测结果确定后续帧待检测的感兴趣区域，包括：获取所述当前帧的感兴趣区域中目标对象在区域的边界位置；对目标对象所在区域对应的所述边界位置进行加权，得到与所述当前帧的感兴趣区域对应的后续帧的目标对象区域的边界位置。

可选地，所述当前帧的感兴趣区域至少部分包含多个目标对象的信息；所述获取所述当前帧的感兴趣区域中目标对象所在区域的边界位置，包括：分别获取感兴趣区域中各类目标对象所在区域边界位置；所述对目标对象所在区域对应的所述边界位置进行加权，得到与所述感兴趣区域对应的后续帧的目标对象区域的边界位置，包括：对各类目标对象所在区域边界位置进行加权得到与所述感兴趣区域对应的后续帧的目标对象区域的边界位置。

可选地，所述当前帧的感兴趣区域至少部分包含多个目标对象的信息；所述获取所述当前帧的感兴趣区域中目标对象所在区域的边界位置，包括：分别获取感兴趣区域中各类目标对象所在区域边界位置；所述对目标对象所在区域对应的所述边界位置进行加权得到与所述感兴趣区域对应的后续帧的目标对象区域的边界位置，包括：对各类目标对象所在区域边界位置和各类目标对象包含在所述当前帧的感兴趣区域中的概率进行加权，得到与所述感兴趣区域对应的后续帧的目标对象区域的边界位置。

可选地，还包括：基于预设规则在所述视频图像序列的起始帧设置所述至少一个感兴趣区域。

可选地，分别提取所述当前帧的至少一个感兴趣区域中的目标对象的特征包括：分别提取所述当前帧的至少一个感兴趣区域记忆的目标对象的特征轨迹。

可选地，所述特征轨迹包含：所述当前帧的至少一个感兴趣区域中的目标对象的特征和所述当前帧的先前帧的感兴趣区域记忆的目标对象的特征轨迹。

可选地，所述根据所述目标对象的特征对所述至少一个感兴趣区域进行预测，得到预测结果，包括：通过所述当前帧的目标对象的特征轨迹对所述至少一个感兴趣区域进行预测，得到预测结果。

根据本申请实施例的另一方面，提供了一种目标对象检测装置，包括：

第一感兴趣模块，用于在视频图像序列的当前帧确定至少一个待检测的感兴趣区域，每个所述感兴趣区域至少部分包含至少一个目标对象的信息；特征提取模块，用于分别提取所述当前帧的至少一个感兴趣区域中的目标对象的特征；预测模块，用于根据所述目标对象的特征对所述当前帧的至少一个感兴趣区域进行预测，得到预测结果；第二感兴趣模块，用于根据所述预测结果确定后续帧待检测的感兴趣区域。

可选地，所述第二感兴趣模块用于将所述当前帧的所述目标对象的预测位置作为所述后续帧的待检测的感兴趣区域。

可选地，所述第二感兴趣模块包括：位置获取单元，用于获取所述当前帧的感兴趣区域中目标对象在区域的边界位置；位置生成单元，用于对目标对象所在区域对应的所述边界位置进行加权，得到与所述感兴趣区域对应的后续帧的目标对象区域的边界位置。

可选地，所述当前帧的感兴趣区域至少部分包含多个目标对象的信息；所述位置获取单元用于分别获取感兴趣区域中各类目标对象所在区域边界位置；所述位置生成单元用于对各类目标对象所在区域边界位置进行加权，得到与所述感兴趣区域对应的后续帧的目标对象区域的边界位置。

可选地，所述当前帧的感兴趣区域至少部分包含多个目标对象的信息；所述位置获取单元用于分别获取感兴趣区域中各类目标对象所在区域边界位置；还包括：所述位置生成单元用于对各类目标对象所在区域边界位置和各类目标对象包含在所述当前帧的感兴趣区域中的概率进行加权，得到与所述感兴趣区域对应的后续帧的目标对象区域的边界位置。

可选地，目标对象检测装置还包括：起始模块，用于基于预设规则在视频图像序列的起始帧设置所述至少一个感兴趣区域。

可选地，所述特征提取模块用于分别提取所述当前帧的至少一个感兴趣区域记忆的目标对象的特征轨迹。

可选地，所述特征轨迹包含：当前帧的至少一个感兴趣区域中的目标对象的特征和当前帧的先前帧的感兴趣区域记忆的目标对象的特征轨迹。

可选地，所述预测模块还用于通过所述当前帧的目标对象的特征轨迹对所述至少一个感兴趣区域进行预测，得到预测结果。

根据本申请实施例的又一方面，提供了一种目标对象检测系统，包括：

图像获取装置，用于获取待检测视频图像的视频图像序列数据；处理器，用于接收待检测视频图像的视频图像序列数据，用于执行上述方法中的操作；存储器，用于存放至少一可执行指令，可执行指令使处理器执行上述方法对应的操作。

根据本申请实施例的再一方面，提供了一种用于目标对象检测的神经网络结构，包括：

级联的多层神经网络，各层神经网络用于接收视频图像序列中的一帧图像数据，用于对图像数据生成至少一个感兴趣区域，并对至少一个感兴趣区域进行目标对象检测得到预测结果，预测结果包括目标对象的位置；本层神经网络的预测结果作为下一层神经网络的输入，下一层神经网络根据本层神经网络的预测结果对下一层神经网络接收的图像数据生成至少一个感兴趣区域，并进行目标对象检测得到预测结果。

根据本申请实施例的再一方面，提供了一种电子设备，包括：

处理器和本申请任一实施例所述的目标对象检测装置；

在处理器运行所述目标对象检测装置时，本申请任一实施例所述的目标对象检测装置中的单元被运行。

根据本申请实施例的再一方面，提供了另一种电子设备，包括：

处理器和本申请任一实施例所述的目标对象检测系统；

在处理器运行所述目标对象检测系统时，本申请任一实施例所述的目标对象检测系统中的单元被运行。

根据本申请实施例的再一方面，提供了又一种电子设备，包括：

处理器和本申请任一实施例所述的神经网络结构；

在处理器运行所述神经网络结构时，本申请任一实施例所述的神经网络结构中的单元被运行。

根据本申请实施例的再一方面，提供了再一种电子设备，包括：一个或多个处理器、存储器、通信部件和通信总线，所述处理器、所述存储器和所述通信部件通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如本申请任一实施例所述的目标对象检测方法对应的操作。

根据本申请实施例的再一方面，提供了一种计算机程序，包括计算机可读代码，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现本申请任一实施例所述的目标对象检测方法中各步骤的指令。

根据本申请实施例的再一方面，提供了一种计算机可读存储介质，用于存储计算机可读取的指令，所述指令被执行时实现本申请任一实施例所述的目标对象检测方法中各步骤的操作。

例如，所述指令包括：在视频图像序列的当前帧确定至少一个待检测的感兴趣区域，每个感兴趣区域至少部分包含至少一个目标对象的信息的指令；分别提取当前帧的至少一个感兴趣区域中的目标对象的特征的指令；根据目标对象的特征对当前帧的至少一个感兴趣区域进行预测，得到预测结果的指令；根据所述预测结果确定后续帧待检测的感兴趣区域的指令，等等。

本申请实施例技术方案，可以实现如下至少一技术效果：

本申请实施例提供的技术方案，在视频图像序列的当前帧确定至少一个待检测的感兴趣区域，而后，根据该至少一个感兴趣区域的特征对该至少一个感兴趣区域进行预测得到预测结果，并且，根据当前帧的至少一个感兴趣区域的预测结果确定后续帧的感兴趣区域，因此，在对目标对象进行检测时，能够将当前帧的信息传送至后续帧，可以实现不同帧图像之间的时域信息复用，利用了长程的时域特征，进而为处理对象外貌变化等复杂情况提供了时域依据；

此外，在视频图像序列的当前帧确定待检测的至少一个感兴趣区域，而后，根据该至少一个感兴趣区域的特征对该至少一个感兴趣区域进行预测得到预测结果，由于将图像帧确定至少一个感兴趣区域，并对感兴趣区域进行预测，本申请实施例技术方案基于图像数据本身区域化特征的预测，能够对目标对象进行并行检测/跟踪，减少了检测耗时。

下面通过附图和实施例，对本申请的技术方案做进一步的详细描述。

附图说明

为了更清楚地说明本申请可选实施方式或现有技术中的技术方案，下面将对可选实施方式或现有技术描述中所需要使用的附图作简单地介绍，构成说明书的一部分的附图描述了本申请的实施例，并且连同描述一起用于解释本申请的原理。显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请目标对象检测方法一实施例的流程图；

图2为本申请目标对象检测方法另一实施例的流程图；

图3为本申请用于目标对象检测的神经网络结构一个实施例的结构示意图；

图4为本申请实施例中一种记忆模型的结构示意图；

图5为本申请目标对象检测装置一个实施例的结构示意图；

图6为适于用来实现本申请实施例的计算机系统的结构示意图；

具体实施方式

下面将结合附图对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。应注意到：除非另外可选说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

此外，下面所描述的本申请不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本申请实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

通常视频图像为时域上连续的图像集合，不同帧图像之间的特征具有一定的关联性。因此，为了充分利用时域信息，实现不同帧图像的特征(例如时域信息)复用，以提高目标对象检测效率和精度。本实施例公开了一种目标对象检测方法，需要说明的是，在时域上进行连续检测时，可以实现对目标对象的跟踪。请参考图1，为本申请目标对象检测方法一实施例的流程图，该实施例的目标对象检测方法包括如下步骤：

步骤S100，确定当前帧至少一个感兴趣区域。

本申请的各实施例中，在视频图像序列的当前帧确定至少一个感兴趣区域(Region of interest，RoI)，其中，每个感兴趣区域至少部分包含至少一个目标对象的信息。在一个可选实施例中，当前帧的至少一个感兴趣区域可以根据当前帧的先前帧(例如上一帧)来确定生成，可选地，可参见下文步骤S400中有关根据当前帧的预测结果确定后续帧的感兴趣区域的展开说明，在此不再赘述。

本申请的各实施例中，视频图像序列的各帧图像中可以包含一个目标对象，也可以包含多个目标对象；在生成的至少一个感兴趣区域中，各个感兴趣区域可能部分包含一个或多个目标对象信息，也可能完整地包含一个或多个目标对象信息。

本申请的各实施例中，后续帧为同一视频图像序列中，检测时序位于当前帧之后的帧图像，后续帧可以是沿时域正向检测时在时域上滞后于当前帧的图像帧，也可以是沿时域反向检测时在时域上位于当前帧之前的图像帧。

在一个可选示例中，步骤S100可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一感兴趣模块100执行。

步骤S200，分别提取当前帧的上述至少一个感兴趣区域中的目标对象特征。

本申请的各实施例中，可以示例性地采用并行的方式提取各感兴趣区域的特征，从而将感兴趣区域中的目标对象从背景中提取出来，可选地，可以通过神经网络来实现特征的提取，作为一个例子，可以采用卷积神经网络、GoogleNet、VGG、ResNet等网络，当然，在可选的实施例中，还可以采用其它算法来实现各感兴趣区域的特征提取。本申请各实施例中，提取的特征可以是例如目标对象的外貌特征。

在一个可选示例中，步骤S200可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的特征提取模块200执行。

步骤S300，根据目标对象的特征对当前帧的上述至少一个感兴趣区域进行预测，得到预测结果。

本申请的各实施例中，预测结果包括感兴趣区域包含目标对象的概率p和目标对象的预测位置。本申请的各实施例中，目标对象可以是同一类的一个或多个目标对象，例如多辆汽车、多架飞机等；也可以是不同类的目标对象，例如飞机、汽车、自行车、人等任意组合。在不同类的目标对象中，各类别的目标对象数目也可以是一个或多个。在一个可选实施例中，当神经网络训练完成后，可以根据目标对象的特征预测每个感兴趣区域(RoI)内所包含每一个对象的可能性(概率)以及每一个对象位置的预测，可选地，每个目标对象的位置可以通过目标对象所在像素区域的边界(例如边框、各顶角等)坐标表示，当然，当各感兴趣区域为相同大小或者具有一定规律形状或者能够推断出感兴趣区域像素块覆盖范围时，也可以基于一定规则的方式(例如感兴趣区域中心坐标)来表征各类对象所处的位置。通常，针对当前帧的感兴趣区域预测得到的目标对象的位置，相对于当前帧生成的多个目标对象的感兴趣区域会有一定的位置偏移量。作为一个例子，请参考图3，通过神经网络的卷积层(convolutional layers)进行预测，得到预测结果，该预测结果包括了每一类目标对象的预测位置(bounding box regression)以及预测概率p。

在一个可选示例中，步骤S300可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的预测模块300执行。

步骤S400，确定后续帧的待检测的感兴趣区域。

可选地，根据当前帧的上述至少一个感兴趣区域的预测结果，确定后续帧的感兴趣区域。

在一个可选示例中，步骤S400可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第二感兴趣模块400执行。

本实施例中，以后续帧为当前帧的下一帧为例进行说明。在一种实施例中，可以将当前帧的目标对象的预测位置作为后续帧(例如下一帧)的待检测的感兴趣区域，即直接将当前帧预测得到的各个目标对象预测位置区域对应生成后续帧(例如下一帧)的各个目标对象所在的区域，以分别作为后续帧(例如下一帧)的待检测的感兴趣区域。在另一种实施例中，也可以获取当前帧的至少一个感兴趣区域中目标对象在区域的边界位置；对目标对象所在区域对应的边界位置进行加权，得到与感兴趣区域对应的后续帧(例如下一帧)的目标对象区域的边界位置，从而生成后续帧(例如下一帧)的各个目标对象所在的区域。

本申请各实施例中，在确定了后续帧(例如下一帧)的目标对象所在区域的边界位置后，通过确定的边界位置即可作为后续帧(例如下一帧)的待检测的感兴趣区域。请参考图3，在预测得到当前帧Frame t目标对象预测位置区域后，可将该预测位置区域坐标或者加权后的坐标区域作为后续帧(例如下一帧)Frame t+1的目标对象所在的区域，以得到感兴趣区域；而后，再将后续帧(例如下一帧)Frame t+1预测得到预测位置区域作为下一后续帧(例如当前帧之后两帧)Frame t+2的目标对象所在的区域，以得到感兴趣区域。

需要说明的是，上述实施例中，以“后续帧”为“当前帧”的“下一帧”为例进行说明，在其它实施例中，“后续帧”也可能是“当前帧”之后的若干帧，在一可选实施过程中，可以根据“后续帧”与“当前帧”的帧数差来合理确定加权系数，或者还可以结合运动估计等来实现对“后续帧”的感兴趣区域更准确地确定。

需要说明的是，在应用本实施例的目标对象检测方法时：可以在对目标对象进行时域上的连续检测时，即可实现对目标对象进行跟踪；也可以在时域上等间隔或者不等间隔对若干图像帧进行抽样检测；还可以在视频图像序列中确定一些待检测的图像帧子序列，而后对这些确定的图像帧子序列进行检测和/或跟踪；还可以检测单帧图像。

本实施例中，在视频图像序列的当前帧确定至少一个待检测的感兴趣区域，而后，根据该至少一个感兴趣区域的特征对该至少一个感兴趣区域进行预测得到预测结果，并且，根据当前帧的至少一个感兴趣区域的预测结果确定后续帧的感兴趣区域，因此，在对目标对象进行检测时，能够将当前帧的信息传送至后续帧，可以实现不同帧图像之间的时域信息复用，利用了长程的时域特征，进而为处理对象外貌变化等复杂情况提供了时域依据；

为了实现对多类目标对象的检测，作为一个可选的实施例，当检测/跟踪的目标对象为多个(可以是同类目标对象，也可以是不同类目标对象)时，当前帧的感兴趣区域可能至少部分包含多个目标对象的信息。针对每个感兴趣区域，可以分别获取感兴趣区域中各个目标对象所在区域边界位置d_c，其中，c为整数，且1≤c≤C，C为目标对象的个数；而后，针对当前帧中每个感兴趣区域所包含的各个目标对象，对各个目标对象所在区域边界位置d_c进行加权，得到与当前帧的感兴趣区域对应的后续帧的目标对象所在区域的边界位置，通过该加权后得到的边界位置可以得到后续帧的目标对象所在区域，以作为与当前帧的感兴趣区域对应的后续帧的感兴趣区域。

作为一个可选的实施例，可以通过各个目标对象被包含的概率来进行加权，可选地，可以分别获取各个目标对象包含在当前帧的感兴趣区域中的概率p_c；对各个目标对象所在区域边界位置d_c和各个目标对象包含在当前帧的感兴趣区域中的概率p_c进行加权，得到与当前帧的感兴趣区域对应的后续帧的目标对象所在区域的边界位置。作为一个例子，以当前帧中某一个感兴趣区域为例进行说明：分别获取各个目标对象包含在当前帧的感兴趣区域中的概率p_c，c＝1，2，3…C；并获取该感兴趣区域中各个目标对象预测得到位置

其中，

分别为第c个目标对象所在感兴趣区域的左上角、右下角的横纵坐标，当然，也可以采用其它的边界坐标替代；而后，对目标对象所在边界位置和目标对象包含在该感兴趣区域的概率进行加权，得到与当前帧的感兴趣区域对应的后续帧的目标对象所在区域的边界位置，可选地，可以采用下述公式进行加权得到后续帧的目标对象区域的边界位置：

其中，d^*为与当前帧的感兴趣区域对应的后续帧的目标对象区域的边界位置；c为整数，且1≤c≤C，C为目标对象的个数；d_c为各个目标对象所在区域边界位置；p_c为各个目标对象包含在当前帧该感兴趣区域中的概率。

为了实现对起始帧感兴趣区域的确定。在一个可选的实施例中，对于视频图像序列的起始帧，可以基于预设规则在视频图像序列的起始帧设置至少一个感兴趣区域，以对起始帧的各个感兴趣区域进行预测得到预测结果。可选地，在对起始帧的感兴趣区域预测时，可参见上述实施例中当前帧的感兴趣区域的预测方式，在此不再赘述。在一个可选实施例中，可以利用例如区域提议网络(Region Proposal Network，RPN)设置起始帧的感兴趣区域，当然，在其它实施例中，还可以采用其它的网络提议设置起始帧的感兴趣区域。

为了实现在时域上对目标对象特征的记忆，减小因目标对象特征消失而导致发生跟踪失败的概率。在一个可选的实施例中，分别提取当前帧的感兴趣区域中的目标对象的特征包括：分别提取当前帧的感兴趣区域记忆的目标对象的特征轨迹，该特征轨迹可以包含当前帧的感兴趣区域中的目标对象的特征和当前帧的先前帧的感兴趣区域记忆的目标对象的特征轨迹。由此，在根据目标对象的特征对各个感兴趣区域进行预测时，可以通过当前帧的目标对象的特征轨迹对各个感兴趣区域进行预测，得到预测结果。本申请各实施例中，所称先前帧是指同一视频图像序列中，在检测时序上位于当前帧之前的图像帧或图像帧集，可以是沿时域上超前于当前帧的图像帧或图像帧集，即：先前帧可以是时域上超前于当前帧的一帧图像帧，也可以是超前于当前帧的若干图像帧构成的图像序列集合，另外，先前帧也可以是沿时域反向检测时在时域上位于当前帧之后的图像帧或图像帧集。在一个可选实施例中，请参考图2，在执行步骤S200之后，还可以包括：

步骤S510，基于预设时长记忆当前时刻对应的当前帧的至少一个感兴趣区域中目标对象的特征。

请参考图4，为本申请实施例中记忆模型一个实施例的结构示意，可选地，可以通过例如长短期记忆(Long Short-term Memory,LSTM)来实现，如图3中标记的LSTM，该模型可以通过记忆单元c_t、c_t-1、c_t+1对各自对应的当前帧的特征(x_t、x_t-1、x_t+1)进行记忆，其中，记忆单元c_t记忆t时刻对应的当前帧的特征，c_t-1记忆t-1时刻对应的当前帧的特征，c_t+1记忆t+1时刻对应的当前帧的特征等等。在本本申请的各实施例中，可以通过遗忘门来实现预设时长的控制，作为一个例子，例如通过遗忘门f_t-1来实现t-1时刻特征的记忆控制，通过遗忘门f_t来实现t时刻特征的记忆控制，通过遗忘门f_t+1来实现t+1时刻特征的记忆控制。本申请各实施例中，可以获取目标对象的姿态变化频率，而后，根据姿态变化频率调整预设时长的长短，以完成遗忘门对特征的记忆控制。可选地，当步骤S200提取的特征相对于之前帧的姿态变化显著时，可以关闭遗忘门，以实现更快地记忆当前帧的特征，实现特征的快速更新。

步骤S520，将记忆的至少一个感兴趣区域中目标对象的特征作为后续帧的记忆输入。

本申请的各实施例中，当前时刻的记忆单元可以将其记忆的特征传递到下一时刻的记忆单元，例如：请参考图4，c_t-1传递至c_t，c_t传递至c_t+1，从而，在时域上储存着轨迹的特征。需要说明的是，通过在时域上储存轨迹的特征，可以更有效地判断特征的姿态变化是否显著。在将记忆的各感兴趣区域中目标对象的特征作为后续帧的记忆输入之后，在后续帧确定感兴趣区域时，可以根据记忆输入的特征来判断目标对象的特征是否变化，由此，可以确定是否可以在时域上继承前一时刻记忆的特征。

本申请的各实施例中，由于前一时刻的记忆单元可以将其记忆的特征传递到下一时刻的记忆单元，因此，可以将先前帧记忆的目标对象的特征作为当前帧的特征进行记忆，从而能够减小因目标对象特征消失而导致发生跟踪失败的概率。

需要说明的是，在可选实施例中，请参考图4，可以通过输入门来控制各时刻记忆单元记忆的特征(如图3中t-1、t、t+1时刻分别对应的输入门i_t-1、i_t、i_t+1)，输入门控制是否需要用当前的输入来改变记忆单元。因此，在当前帧对象遮挡和运动模糊的情况下可以关闭输入门，以记忆先前帧的特征，从而不影响时域上对目标对象特征的储存。

需要说明的是，在一个可选实施例中，还可以通过加入其它逻辑门结构来控制信息流向，请参考图4，例如输出门，如图3中t-1、t、t+1时刻分别对应的输出门o_t-1、o_t、o_t+1来控制是否需要输出各时刻对应预测的输出特征h_t-1、h_t、h_t+1，在跟踪失败时，可以关闭对应的输出门，对应的输出特征输出为空，即可停止后续时刻的跟踪。本实施例中，通过输出门的控制，在跟踪失败时，及时退出检测/跟踪，从而能够有效地减少系统运行负荷。

本申请实施例提供的任一种目标对象检测方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本申请实施例提供的任一种目标对象检测方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本申请实施例提及的任一种目标对象检测方法。下文不再赘述。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

另外，本实施例还公开了一种目标对象检测装置，本申请各实施例的目标对象检测装置可用于实现本申请上述各目标对象检测方法实施例。请参考图5，为该目标对象检测装置一个实施例的结构示意图，该实施例的目标对象检测装置包括：第一感兴趣模块100、特征提取模块200、预测模块300和第二感兴趣模块400，其中：

第一感兴趣模块100用于在视频图像序列的当前帧确定至少一个待检测的感兴趣区域，每个感兴趣区域至少部分包含至少一个目标对象的信息；

特征提取模块200用于分别提取当前帧的上述至少一个感兴趣区域中的目标对象的特征；

预测模块300用于根据目标对象的特征对当前帧的上述至少一个感兴趣区域进行预测，得到预测结果；

第二感兴趣模块400用于根据当前帧的上述至少一个感兴趣区域的预测结果确定后续帧待检测的感兴趣区域。

在可选的实施例中，预测结果可以包括：感兴趣区域包含目标对象的概率和目标对象的预测位置。

在一个可选的实施例中，第二感兴趣模块400用于将当前帧的目标对象的预测位置作为后续帧的待检测的感兴趣区域。

在一个可选的实施例中，第二感兴趣模块400包括：位置获取单元，用于获取当前帧的感兴趣区域中目标对象在区域的边界位置；位置生成单元，用于对目标对象所在区域对应的边界位置进行加权，得到与感兴趣区域对应的后续帧的目标对象区域的边界位置。

在一个可选的实施例中，当前帧的感兴趣区域至少部分包含多类目标对象的信息；位置获取单元用于分别获取感兴趣区域中各类目标对象所在区域边界位置；位置生成单元用于对各类目标对象所在区域边界位置进行加权，得到与感兴趣区域对应的后续帧的目标对象区域的边界位置。

在一个可选的实施例中，当前帧的感兴趣区域至少部分包含多类目标对象的信息；位置获取单元用于分别获取感兴趣区域中各类目标对象所在区域边界位置；位置生成单元用于对各类目标对象所在区域边界位置和各类目标对象包含在当前帧的感兴趣区域中的概率进行加权，得到与感兴趣区域对应的后续帧的目标对象区域的边界位置。

在一个可选的实施例中，还包括：起始模块，用于基于预设规则在视频图像序列的起始帧设置至少一个感兴趣区域。

在一个可选的实施例中，特征提取模块200用于分别提取当前帧的感兴趣区域记忆的目标对象的特征轨迹。

在一个可选的实施例中，特征轨迹包含：当前帧的至少一个感兴趣区域中的目标对象的特征和当前帧的先前帧的感兴趣区域记忆的目标对象的特征轨迹。

在一个可选的实施例中，预测模块还用于通过当前帧的目标对象的特征轨迹对至少一个感兴趣区域进行预测，得到预测结果。

本申请实施例还公开了一种目标对象检测系统，包括：

图像获取装置，用于获取待检测视频图像的视频图像序列数据；处理器，接收待检测视频图像的视频图像序列数据，用于执行本申请上述任一实施例目标对象检测方法中的操作；存储器，用于存放至少一可执行指令，可执行指令使处理器执行本申请上述任一实施例目标对象检测方法目标对象检测对应的操作。

本实施例还公开了一种用于对象检测的神经网络结构，请参考图3，该神经网络结构包括：

级联的多层神经网络，各层神经网络用于接收视频图像序列中的一帧图像数据，用于对图像数据生成至少一个感兴趣区域，并对至少一个感兴趣区域进行目标对象检测得到预测结果，预测结果包括目标对象的位置；本层神经网络的预测结果作为下一层神经网络的输入，下一层神经网络根据本层神经网络的预测结果对下一层神经网络接收的图像数据生成多个感兴趣区域，并进行目标对象检测得到预测结果。

本申请实施例还公开了一种电子设备，包括：

处理器和本申请上述任一实施例的目标对象检测装置；

在处理器运行目标对象检测装置时，本申请上述任一实施例的目标对象检测装置中的单元被运行。

本申请实施例还公开了另一种电子设备，包括：

处理器和本申请上述任一实施例的目标对象检测系统；

在处理器运行目标对象检测系统时，本申请上述任一实施例的目标对象检测系统中的单元被运行。

本申请实施例还公开了又一种电子设备，包括：

处理器和本申请上述任一实施例的神经网络结构；

在处理器运行神经网络结构时，本申请上述任一实施例的神经网络结构中的单元被运行。

本申请实施例还公开了再一种电子设备，包括：一个或多个处理器、存储器、通信部件和通信总线，处理器、存储器和通信部件通过通信总线完成相互间的通信；

存储器用于存放至少一可执行指令，可执行指令使处理器执行如本申请上述任一实施例的目标对象检测方法对应的操作。

本申请实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器、工控机(IPC)等。下面参考图6，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备600的结构示意图：如图6所示，计算机系统600包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)601，和/或一个或多个图像处理器(GPU)613等，处理器可以根据存储在只读存储器(ROM)602中的可执行指令或者从存储部分608加载到随机访问存储器(RAM)603中的可执行指令而执行各种适当的动作和处理。通信部612可包括但不限于网卡，所述网卡可包括但不限于IB(InfiniBand)网卡，

处理器可与只读存储器602和/或随机访问存储器630中通信以执行可执行指令，通过总线604与通信部612相连、并经通信部612与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如：在视频图像序列的当前帧确定至少一个待检测的感兴趣区域，每个感兴趣区域至少部分包含至少一个目标对象的信息的操作；分别提取当前帧的感兴趣区域中的目标对象的特征的操作；根据目标对象的特征对当前帧的各个感兴趣区域进行预测，得到预测结果的操作；根据当前帧的各个感兴趣区域的预测结果确定后续帧待检测的感兴趣区域的操作，等等。

此外，在RAM 603中，还可存储有装置操作所需的各种程序和数据。CPU601、ROM602以及RAM603通过总线604彼此相连。在有RAM603的情况下，ROM602为可选模块。RAM603存储可执行指令，或在运行时向ROM602中写入可执行指令，可执行指令使处理器601执行上述通信方法对应的操作。输入/输出(I/O)接口605也连接至总线604。通信部612可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

需要说明的，如图6所示的架构仅为一种可选实现方式，在可选实践过程中，可根据实际需要对上述图6的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本申请公开的保护范围。

本申请实施例还提供了一种计算机程序，包括计算机可读代码，当该计算机可读代码在设备上运行时，该设备中的处理器执行用于实现本申请上述任一实施例的目标对象检测方法中各步骤的指令。特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，在视频图像序列的当前帧确定至少一个待检测的感兴趣区域，每个感兴趣区域至少部分包含至少一个目标对象的信息的指令；分别提取当前帧的感兴趣区域中的目标对象的特征的指令；根据目标对象的特征对当前帧的各个感兴趣区域进行预测，得到预测结果的指令；根据当前帧的各个感兴趣区域的预测结果确定后续帧待检测的感兴趣区域的指令，等等。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本申请的方法中限定的上述功能。

本申请实施例还提供了一种计算机可读存储介质，用于存储计算机可读取的指令，该指令被执行时实现本申请上述任一实施例的目标对象检测方法中各步骤的操作。

可能以许多方式来实现本申请的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本申请的方法的步骤不限于以上可选描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本申请实施为记录在记录介质中的程序，这些程序包括用于实现根据本申请的方法的机器可读指令。因而，本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本申请限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本申请的原理和实际应用，并且使本领域的普通技术人员能够理解本申请从而设计适于特定用途的带有各种修改的各种实施例。

Claims

一种目标对象检测方法，其特征在于，包括如下步骤：

在视频图像序列的当前帧确定至少一个待检测的感兴趣区域，每个所述感兴趣区域至少部分包含至少一个目标对象的信息；

分别提取所述当前帧的至少一个感兴趣区域中的目标对象的特征；

根据所述目标对象的特征对所述当前帧的至少一个感兴趣区域进行预测，得到预测结果；

根据所述预测结果确定后续帧待检测的感兴趣区域。
如权利要求1所述的目标对象检测方法，其特征在于，所述预测结果包括：所述感兴趣区域包含目标对象的概率和所述目标对象的预测位置。
如权利要求2所述的目标对象检测方法，其特征在于，所述根据所述预测结果确定后续帧待检测的感兴趣区域，包括：

将所述当前帧的所述目标对象的预测位置作为所述后续帧的待检测的感兴趣区域。
如权利要求1-3任一所述的目标对象检测方法，其特征在于，所述根据所述预测结果确定后续帧待检测的感兴趣区域，包括：

获取所述当前帧的感兴趣区域中目标对象在区域的边界位置；

对目标对象所在区域对应的所述边界位置进行加权，得到与所述当前帧的感兴趣区域对应的后续帧的目标对象区域的边界位置。
如权利要求4所述的目标对象检测方法，其特征在于，所述当前帧的感兴趣区域至少部分包含多个目标对象的信息；

所述获取所述当前帧的感兴趣区域中目标对象所在区域的边界位置，包括：分别获取感兴趣区域中各类目标对象所在区域边界位置；

所述对目标对象所在区域对应的所述边界位置进行加权，得到与所述感兴趣区域对应的后续帧的目标对象区域的边界位置，包括：对各类目标对象所在区域边界位置进行加权，得到与所述感兴趣区域对应的后续帧的目标对象区域的边界位置。
如权利要求4所述的目标对象检测方法，其特征在于，所述当前帧的感兴趣区域至少部分包含多个目标对象的信息；

所述获取所述当前帧的感兴趣区域中目标对象所在区域的边界位置，包括：分别获取感兴趣区域中各类目标对象所在区域边界位置；

所述对目标对象所在区域对应的所述边界位置进行加权，得到与所述感兴趣区域对应的后续帧的目标对象区域的边界位置，包括：

对各类目标对象所在区域边界位置和各类目标对象包含在所述当前帧的感兴趣区域中的概率进行加权，得到与所述感兴趣区域对应的后续帧的目标对象区域的边界位置。
如权利要求1-6任一所述的目标对象检测方法，其特征在于，还包括：基于预设规则在所述视频图像序列的起始帧设置所述至少一个感兴趣区域。
如权利要求1-7任一所述的目标对象检测方法，其特征在于，分别提取所述当前帧的至少一个感兴趣区域中的目标对象的特征包括：分别提取所述当前帧的至少一个感兴趣区域记忆的目标对象的特征轨迹。
如权利要求8所述的目标对象检测方法，其特征在于，所述特征轨迹包含：所述当前帧的至少一个感兴趣区域中的目标对象的特征和所述当前帧的先前帧的感兴趣区域记忆的目标对象的特征轨迹。
如权利要求8或9所述的目标对象检测方法，其特征在于，所述根据所述目标对象的特征对所述至少一个感兴趣区域进行预测，得到预测结果，包括：通过所述当前帧的目标对象的特征轨迹对所述至少一个感兴趣区域进行预测，得到预测结果。
一种目标对象检测装置，其特征在于，包括：

第一感兴趣模块，用于在视频图像序列的当前帧确定至少一个待检测的感兴趣区域，每个所述感兴趣区域至少部分包含至少一个目标对象的信息；

特征提取模块，用于分别提取所述当前帧的至少一个感兴趣区域中的目标对象的特征；

预测模块，用于根据所述目标对象的特征对所述当前帧的至少一个感兴趣区域进行预测，得到预测结果；

第二感兴趣模块，用于根据所述预测结果确定后续帧待检测的感兴趣区域。
如权利要求11所述的目标对象检测装置，其特征在于，所述预测结果包括：所述感兴趣区域包含目标对象的概率和所述目标对象的预测位置。
如权利要求12所述的目标对象检测装置，其特征在于，所述第二感兴趣模块用于将所述当前帧的所述目标对象的预测位置作为所述后续帧的待检测的感兴趣区域。
如权利要求11-13任意一项所述的目标对象检测装置，其特征在于，所述第二感兴趣模块包括：

位置获取单元，用于获取所述当前帧的感兴趣区域中目标对象在区域的边界位置；

位置生成单元，用于对目标对象所在区域对应的所述边界位置进行加权，得到与所述感兴趣区域对应的后续帧的目标对象区域的边界位置。
如权利要求14所述的目标对象检测装置，其特征在于，所述当前帧的感兴趣区域至少部分包含多个目标对象的信息；

所述位置获取单元用于分别获取感兴趣区域中各类目标对象所在区域边界位置；

所述位置生成单元用于对各类目标对象所在区域边界位置进行加权，得到与所述感兴趣区域对应的后续帧的目标对象区域的边界位置。
如权利要求14项所述的目标对象检测装置，其特征在于，所述当前帧的感兴趣区域至少部分包含多个目标对象的信息；

所述位置获取单元用于分别获取感兴趣区域中各类目标对象所在区域边界位置；

所述位置生成单元用于对各类目标对象所在区域边界位置和各类目标对象包含在所述当前帧的感兴趣区域中的概率进行加权得到与所述感兴趣区域对应的后续帧的目标对象区域的边界位置。
如权利要求11-16任一所述的目标对象检测装置，其特征在于，还包括：

起始模块，用于基于预设规则在视频图像序列的起始帧设置所述至少一个感兴趣区域。
如权利要求11-17任一所述的目标对象检测装置，其特征在于，所述特征提取模块用于分别提取所述当前帧的至少一个感兴趣区域记忆的目标对象的特征轨迹。
如权利要求18所述的目标对象检测装置，其特征在于，所述特征轨迹包含：当前帧的至少一个感兴趣区域中的目标对象的特征和当前帧的先前帧的感兴趣区域记忆的目标对象的特征轨迹。
如权利要求18或19所述的目标对象检测装置，其特征在于，所述预测模块还用于通过所述当前帧的目标对象的特征轨迹对所述至少一个感兴趣区域进行预测，得到预测结果。
一种目标对象检测系统，其特征在于，包括：

图像获取装置，用于获取待检测视频图像的视频图像序列数据；

处理器，用于接收所述待检测视频图像的视频图像序列数据，用于执行如权利要求1-10任一所述方法中的操作；

存储器，用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-10任一所述方法对应的操作。
一种用于目标对象检测的神经网络结构，其特征在于，包括：

级联的多层神经网络，各层神经网络用于接收视频图像序列中的一帧图像数据，用于对所述图像数据生成至少一个感兴趣区域，并对所述至少一个感兴趣区域进行目标对象检测得到预测结果，所述预测结果包括所述目标对象的位置；

本层神经网络的预测结果作为下一层神经网络的输入，所述下一层神经网络根据所述本层神经网络的预测结果对所述下一层神经网络接收的图像数据生成至少一个感兴趣区域，并进行目标对象检测得到预测结果。
一种电子设备，其特征在于，包括：

处理器和权利要求10-20任一所述的目标对象检测装置；

在处理器运行所述目标对象检测装置时，权利要求10-20任一所述的目标对象检测装置中的单元被运行。
一种电子设备，其特征在于，包括：

处理器和权利要求21所述的目标对象检测系统；

在处理器运行所述目标对象检测系统时，权利要求21所述的目标对象检测系统中的单元被运行。
一种电子设备，其特征在于，包括：

处理器和权利要求22所述的神经网络结构；

在处理器运行所述神经网络结构时，权利要求22所述的神经网络结构中的单元被运行。
一种电子设备，其特征在于，包括：一个或多个处理器、存储器、通信部件和通信总线，所述处理器、所述存储器和所述通信部件通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-10任一所述的目标对象检测方法对应的操作。
一种计算机程序，包括计算机可读代码，其特征在于，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现权利要求1-10任一所述的目标对象检测方法中各步骤的指令。
一种计算机可读存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时实现权利要求1-10任一所述的目标对象检测方法中各步骤的操作。