WO2024139763A1

WO2024139763A1 - 一种目标对象检测方法、装置、电子设备及可读存储介质

Info

Publication number: WO2024139763A1
Application number: PCT/CN2023/130606
Authority: WO
Inventors: 樊辉; 叶涵; 曾桃; 童毅
Original assignee: 中移物联网有限公司; 中国移动通信集团有限公司
Priority date: 2022-12-27
Filing date: 2023-11-09
Publication date: 2024-07-04
Also published as: CN116912725A

Abstract

本公开提供一种目标对象检测方法、装置、电子设备及可读存储介质，涉及数据处理技术领域，该方法包括：获取当前视频流中的当前帧、第一帧和第二帧，第一帧为当前帧之前的图像帧，第二帧为当前帧之后的图像帧；基于当前帧、第一帧和第二帧，确定帧间差分信息，帧间差分信息用于表征第一帧和第二帧相对于当前帧的差异信息；基于检测网络模型对当前帧、第一帧、第二帧和帧间差分信息进行检测，得到当前帧是否包括当前对象的检测结果，其中，当前帧、第一帧、第二帧和帧间差分信息为输入检测网络模型的动态通道的参数，当前帧和帧间差分信息在输入检测网络模型的静态通道的参数。本公开提高了目标对象检测的准确率。

Description

一种目标对象检测方法、装置、电子设备及可读存储介质

相关申请的交叉引用

本申请基于申请号为202211684600.5、申请日为2022年12月27日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本公开涉及数据处理技术领域，具体涉及一种目标对象检测方法、装置、电子设备及可读存储介质。

背景技术

随着深度学习技术的封装，通过检测模型在不同场景对目标对象进行识别，实现对区域的监控。相关技术中，检测模型通过在不同场景进行特征提取，并基于特征训练得到检测模型，使得训练模型可以在不同景进行对象识别。但相关技术中，特征提取为对静态的对象进行特征提取，检测模型对静态物体识别率较高，但对行人等移动速度较快的对象不能准确检测，导致目标对象检测的准确率较低。

可见，现有技术中存在着目标对象检测的准确率较低的问题。

发明内容

本公开实施例提供一种目标对象检测方法、装置、电子设备及可读存储介质，以解决相关技术中存在着目标对象检测的准确率的问题。

为解决上述问题，本公开是这样实现的：

第一方面，本公开实施例提供一种目标对象检测方法，包括：

获取当前视频流中的当前帧、第一帧和第二帧，所述第一帧为所述当前帧之前的图像帧，所述第二帧为所述当前帧之后的图像帧；

基于所述当前帧、所述第一帧和所述第二帧，确定帧间差分信息，所述帧间差分信息用于表征所述第一帧和所述第二帧相对于所述当前帧的差异信息；

基于检测网络模型对所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息进行检测，得到所述当前帧是否包括当前对象的检测结果，其中，所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息为输入所述检测网络模型的动态通道的参数，所述当前帧和所述帧间差分信息在输入所述检测网络模型的静态通道的参数，所述动态通道和所述静态通道用于提取不同层次的图像特征。

第二方面，本公开实施例还提供一种目标对象检测装置，包括：

获取模块，用于获取当前视频流中的当前帧、第一帧和第二帧，所述第一帧为所述当前帧之前的图像帧，所述第二帧为所述当前帧之后的图像帧；

确定模块，用于基于所述当前帧、所述第一帧和所述第二帧，确定帧间差分信息，所述帧间差分信息用于表征所述第一帧和所述第二帧相对于所述当前帧的差异信息；

处理模块，用于基于检测网络模型对所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息进行检测，得到所述当前帧是否包括当前对象的检测结果，其中，所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息为输入所述检测网络模型的动态通道的参数，所述当前帧和所述帧间差分信息在输入所述检测网络模型的静态通道的参数，所述动态通道和所述静态通道用于提取不同层次的图像特征。

第三方面，本公开实施例还提供一种电子设备，包括收发机和处理器，

所述收发机，用于获取当前视频流中的当前帧、第一帧和第二帧，所述第一帧为所述当前帧之前的图像帧，所述第二帧为所述当前帧之后的图像帧；

所述处理器，用于基于所述当前帧、所述第一帧和所述第二帧，确定帧间差分信息，所述帧间差分信息用于表征所述第一帧和所述第二帧相对于所述当前帧的差异信息；

所述处理器，还用于检测网络模型对所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息进行检测，得到所述当前帧是否包括当前对象的检测结果，其中，所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息为输入所述检测网络模型的动态通道的参数，所述当前帧和所述帧间差分信息在输入所述检测网络模型的静态通道的参数，所述动态通道和所述静态通道用于提取不同层次的图像特征。

第四方面，本公开实施例还提供一种电子设备，包括：收发机、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序；所述处理器，用于读取存储器中的程序实现上述第一方面所述的目标对象检测方法中的步骤。

第五方面，本公开实施例还提供一种可读存储介质，用于存储程序，所述程序被处理器执行时实现如上述第一方面所述的目标对象检测方法中的步骤。

第六方面，本公开实施例还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的目标对象检测方法中的步骤。

在本公开实施例中，通过获取当前视频流中的当前帧、第一帧和第二帧，并基于当前帧、第一帧和第二帧，确定帧间差分信息，再基于检测网络模型对当前帧、第一帧、第二帧和帧间差分信息进行检测，得到当前帧是否包括当前对象的检测结果。其中，通过确定帧间差分信息，再将当前帧、第一帧、第二帧和帧间差分信息为输入检测网络模型的动态通道的参数，当前帧和帧间差分信息在输入检测网络模型的静态通道的参数，通过动态通道和静态通道提前不同层次的图像特征，并对图像特征进行处理，基于双通道对目标对象进行检测，提高了检测的灵敏度；同时通过帧间差分信息对目标对象进行检测，提高了对移动物体的检测准确度。

附图说明

为更清楚地说明本公开实施例的技术方案，下面将对本公开实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本公开实施例提供的一种目标对象检测方法的流程图；

图2是本公开实施例提供的基础的卷积块结构的示意图；

图3是本公开实施例提供的检测网络模型的结构示意图之一；

图4是本公开实施例提供的检测网络模型的结构示意图之二；

图5是本公开实施例提供的跨阶段局部网络的结构示意图；

图6是本公开实施例提供的一种目标对象检测装置的结构图；

图7是本公开实施例提供的一种电子设备的结构图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

请参见图1，图1是本公开实施例提供的一种目标对象检测方法的流程图，如图1所示，包括以下步骤：

步骤101、获取当前视频流中的当前帧、第一帧和第二帧，所述第一帧为所述当前帧之前的图像帧，所述第二帧为所述当前帧之后的图像帧。

上述当前帧、第一帧和第二帧为在视频流中采集的图像帧，其中，当前帧为需要确定是否存在目标对象的图像帧。应理解，根据设定的间隔采集当前帧、第一帧和第二帧，例如，在视频流中每5帧抽取3帧，分别为第一帧I_pre、当前帧I_cur和第二帧I_back。在当前帧检测出存在目标对象的情况下，认为当前帧的前两帧和后两帧均存在目标对象。

其中，视频流可以是正常照度场景下的视频流，也可以是低照度场景下的视频流。

步骤102、基于所述当前帧、所述第一帧和所述第二帧，确定帧间差分信息，所述帧间差分信息用于表征所述第一帧和所述第二帧相对于所述当前帧的差异信息。

上述帧间差分信息表征第一帧和第二帧相对于当前帧的差异信息，通过将帧间差分信息输入值检测网络模型，可以增强对当前帧的图像中移动的物体的检测准确率。其中，帧间差分信息可以通过如下公式确认：
I_dif＝(I_pre+I_back-2I_cur)/2

上述公式中I_dif为帧间差分信息，通过该公式可以由当前帧、第一帧和第二帧确定帧间差分信息。

步骤103、基于检测网络模型对所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息进行检测，得到所述当前帧是否包括当前对象的检测结果，其中，所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息为输入所述检测网络模型的动态通道的参数，所述当前帧和所述帧间差分信息在输入所述检测网络模型的静态通道的参数，所述动态通道和所述静态通道用于提取不同层次的图像特征。

上述动态特征通道用于提取动态特征信息，其中，提取动态特征信息需要捕捉更充分的运动细节，同时需要保留相对较大的分辨率，故需要将当前帧、第一帧和第二帧和帧间差分信息作为输入参数输入至检测网络模型中。

上述静态特征通道用于提取静态特征信息，其中，提取的静态特征信息具有高层次的抽象特征，但不需要保证交到的分辨率和捕捉运动细节，故将当前帧和帧间差分信息作为输入参数输入至检测网络模型中。

上述检测网络模型为进过训练的，可以确定当前帧是否存在目标对象的模型。其中，将当前帧、第一帧、第二帧和帧间差分信息为输入检测网络模型的动态通道的参数，当前帧和帧间差分信息在输入检测网络模型的静态通道的参数，通过动态通道提取动态特征信息，静态通道提取静态特征信息后，根据动态特征信息和静态特征信息的融合后的特征确定当前帧是否检出目标对象的检测结果。

其中，在检测网络模型中动态通道和静态通道均使用基础的卷积块结构，如图2所示。动态通道包括1个卷积块、归一化块和激活函数块，在动态通道中的卷积块为步长为1；静态通道包括2个卷积块，在静态通道中的卷积块的步长为2，从而使得动态通道和静态通道输出的特征的大小存在区别。例如，在输入的当前帧、第一帧、第二帧的分辨率为(608×608)大小的情况下，静态通道输出的静态特征为[152，152,32]，动态通道输出的动态特征为[608,608,16]。

在一个实施例中，如图3所示，所述检测网络模型包括依次连接的骨干网络、颈部网络和头部网络，所述骨干网络包括依次串联的N层卷积块层，每层卷积块层分别与所述颈部网络相连，N为正整数；

所述基于检测网络模型对所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息进行检测，得到所述当前帧是否包括当前对象的检测结果，包括：

通过所述N个卷积块层中每个卷积块层对输入所述动态通道的参数卷积，或者，对所述每个卷积块层的上一层卷积块层输出的动态特征信息卷积，得到所述每个卷积块层的动态特征信息，所述动态特征信息用于表征对输入所述检测网络模型的动态通道的参数处理得到的特征信息；

通过所述每个卷积块层对输入所述静态通道的参数卷积，或者，对所述每个卷积块层的上一层卷积块层得到的静态特征信息卷积，得到所述卷积块层的静态特征信息，所述静态特征信息用于表征对输入所述检测网络模型的静态通道的参数处理得到的特征信息；

通过所述每个卷积块层对所述每个卷积块层卷积得到的动态特征信息和静态特征信息拼接，得到N个拼接结果；

通过所述每个卷积块层对N个拼接结果进行卷积，得到N个基础特征图层；

通过所述颈部网络对所述N个特征图层进行卷积，得到N个融合特征图层；

通过所述头部网络对所述N个融合特征图层卷积，得到所述检测结果。

上述N个卷积块层构成骨干网络，卷积块层用于对动态通道输入的当前帧、第一帧、第二帧和帧间差分信息进行动态特征信息提取，以及对静态通道输入的当前帧和帧间差分信息进行静态特征信息提取。应理解，静态通道使用更深的网络结构来获取深层特征信息，动态通道使用较浅的网络结构来同时兼顾大尺寸和计算效果。

其中，卷积块层的数量为N，即从N个维度对动态特征进行提取，通过多个维度提取动态特征信息和静态特征信息，再将动态特征信息和静态特征信息拼接并卷积，得到N个基础特征图层。应理解，卷积块层的数量越多，提取得到的基础特征图层越多，使得最终得到的检测结果更加准确。

进一步地，由于卷积块层的数量的增加导致计算资源占用较多，为提高计算速率，需减少卷积块层的数量。本实施例中将卷积块层设为3层，使得检测网络模型保持较高准确率的同时，保证计算速率。

上述基础特征图层为对每个卷积块层的动态特征信息和静态特征信息拼接并卷积得到。其中，不同卷积块层的得到的基础特征图层大小不同。例如，检测网络模型中包括3个卷积块层，静态通道输出的静态特征为[152，152,32]，动态通道输出的动态特征为[608,608,16]，则三个卷积块层输出的基础特征图层的大小依次为[19,19,1024]、[38,38,256]和[76,76,128]。

上述颈部网络用于对骨干网络中的每个卷积块层输出的基础特征图层进行融合，从而得到融合特征图层。上述头部网络根据融合特征图层输出检测结果，可以使用非极大值抑制(Non-Maximum Suppression，NMS)对结果进行处理，获得当前帧的检测结果。其中，颈部网络和头部网络可以使用YoloV5模型对应部分的网络实现。

在本公开实施例中，检测网络模型包括N个卷积块层、颈部网络和头部网络，每个卷积块层对动态通道输入的当前帧、第一帧、第二帧和帧间差分信息进行动态特征信息提取，或者，对上一卷积块层的动态特征信息提取，得到每个卷积块层的动态特征信息；对静态通道输入的当前帧和帧间差分信息进行静态特征信息提取，或者对上一卷积块层的静态特征信息提取，得到每个卷积块层的静态特征信息，再将动态特征信息和静态特征信息拼接并卷积，得到每个卷积块层的基础特征图层，在通过颈部网络对基础特征图层进行卷积，得到融合特征图层，再通过头部网络对融合特征图层卷积，得到检测结果，使得检测结果经过N个维度卷积后确定，提高了检测结果的准确性。

在一个实施例中，如图4所示，所述每个卷积块层包括动态卷积块、静态卷积块、拼接块和骨干卷积块，所述拼接块分别与所述动态卷积块、所述静态卷积块和所述骨干卷积块连接，所述N个卷积块层中的每个动态卷积块依次串联，所述N个卷积块层中的每个静态卷积块依次串联，每个骨干卷积块与所述颈部网络连接，

通过所述每个动态卷积块对输入所述动态通道的参数卷积，或者，对所述每个动态卷积块的上一个动态卷积块得到的动态特征信息卷积，得到所述每个动态卷积块的动态特征信息；

通过所述每个静态卷积块对输入所述静态通道的参数卷积，或者，对所述每个静态卷积块的上一个静态卷积块得到的静态特征信息卷积，得到所述每个静态卷积块的静态特征信息；

通过所述拼接块对每个动态卷积块卷积得到的动态特征信息，和每个静态卷积块卷积得到的静态特征信息拼接，得到所述N个拼接结果；

通过所述骨干卷积块对N个拼接结果进行卷积，得到所述N个基础特征图层。

上述动态卷积块用于处理动态通道输入的参数或上一动态卷积块的动态特征信息，上述静态卷积块用于处理静态通道输入的参数或上一静态卷积块的静态特征信息。应理解，动态卷积块和静态卷积块可以根据跨阶段局部网络(Cross Stage Partial Network，CSPNet)构建，其结构如图5所示。其中，每个卷积块以卷积核为1×1，步长为1的结构构建。

应理解，动态卷积块、静态卷积块、拼接块和骨干卷积块形成卷积块层，通过动态卷积块提取动态特征信息、静态卷积块提取静态特征信息、拼接块拼接动态特征信息和静态特征信息，骨干卷积块卷积拼接的接动态特征信息和静态特征信息得到基础特征图层，以实现不同维度的基础特征图层的提取。

示例性的，检测网络结构包括3个卷积块层，每个卷积块层包括动态卷积块、静态卷积块、拼接块和骨干卷积块。其中，第一动态卷积块提取动态通道输入的大小为[608,608,16]的特征，得到动态特征信息F₁，第一静态卷积块提取静态通道输入的大小为[152，152,32]的特征，得到静态特征信息F_a，拼接块将下采样的动态特征信息F₁和静态特征信息F_a拼接，并由第一骨干网络卷积块对拼接结果卷积，得到大小为[76,76,128]的基础特征图层F_h。

在本公开实施例中，卷积块层包括动态卷积块、静态卷积块、拼接块和骨干卷积块，通过动态卷积块提取动态特征信息、静态卷积块提取静态特征信息、拼接块拼接动态特征信息和静态特征信息，骨干卷积块卷积拼接的接动态特征信息和静态特征信息得到基础特征图层，以实现不同维度的基础特征图层的提取。

在一个实施例中，所述检测网络模型通过如下方式训练得到：

获取训练样本数据和验证样本数据，所述训练样本数据包括当前帧训练样本、第一帧训练样本、第二帧训练样本和帧间差分信息训练样本，所述验证样本数据用于表征所述训练样本数据中待检测的目标对象的真实参数情况；

基于所述当前帧训练样本、所述第一帧训练样本、所述第二帧训练样本和所述帧间差分信息训练样本对初始模型进行训练，得到所述当前帧样本对应的置信度、分类和位置；

基于所述验证样本数据分别对所述当前帧样本对应的置信度、分类和位置进行验证，得到置信度损失值、分类损失值和位置损失值；

将所述置信度损失值、所述分类损失值和所述位置损失值带入损失函数中，得到损失值；

基于所述训练样本数据和验证样本数据对所述初始模型进行迭代训练，得到所述检测网络模型，所述检测网络模型对应的损失值为迭代训练过程中得到的模型中对应的损失值最小的模型。

上述训练样本数据为在不同照度场景下采集的图像数据，验证样本数据为训练样本数据采集的图像数据对应的验证数据，包括是否存在目标对象，以及目标对象的位置或大小等。通过训练样本数据对初始模型进行训练，可以得到当前帧样本对应的置信度、分类和位置，再根据验证数据确定每个当前帧样本对应的置信度损失值、分类损失值和位置损失值。

上述损失函数为根据置信度、分类和位置三个维度设计的损失函数，其中，位置损失使用回归损失函数CloU Loss，置信度和分类损失使用二元交叉熵损失函数BCE Loss。

进一步地，通过置信度、分类和位置三个维度确定的损失函数如下表示：
Loss＝w₁×loss_conf+w₂×loss_class+w₃×loss_ciou

其中，loss_conf为置信度损失值，w₁为置信度损失加权；loss_class为分类损失值，w₂为分类损失加权；loss_ciou为位置损失值，w₃为位置损失加权，Loss为损失值。通过上述公式可以确定损失值。

其中，w₁可以取值为0.5，w₂可以取值为0.25，w₃可以取值为0.25。

在本公开实施例中，通过获取训练样本数据和验证样本数据，并基于当前帧训练样本、第一帧训练样本、第二帧训练样本和帧间差分信息训练样本对初始模型进行训练，得到当前帧样本对应的置信度、分类和位置；再基于验证样本数据分别对当前帧样本对应的置信度、分类和位置进行验证，得到置信度损失值、分类损失值和位置损失值；将置信度损失值、分类损失值和位置损失值带入损失函数中，得到损失值。本实施例通过训练样本数据和验证样本数据对初始模型进行迭代训练，将检测网络模型对应的损失值为迭代训练过程中得到的模型中对应的损失值最小的模型设为检测网络模型，使得检测网络模型能更准确的检测出当前帧是否存在目标对象。

在一个实施例中，所述训练样本数据通过如下方式得到：

采集样本图像，所述样本图像包括初始第一帧图像、初始当前帧图像和初始第二帧图像；

对所述初始第一帧图像、所述初始当前帧图像和所述初始第二帧图像分别进行数据增强，得到增强第一帧图像、增强当前帧图像和增强第二帧图像；

对所述增强第一帧图像、所述增强当前帧图像和所述增强第二帧图像分别进行缩放处理，得到设定尺寸的所述当前帧训练样本、所述第一帧训练样本和所述第二帧训练样本；

基于所述当前帧训练样本、所述第一帧训练样本和所述第二帧训练样本，确定所述帧间差分信息训练样本。

上述样本图像包括初始第一帧图像、初始当前帧图像和初始第二帧图像，其中，初始第一帧图像、初始当前帧图像和初始第二帧图像均在不同照度环境下采集，使得最终训练得到的检测网络模块可以在不同照度场景下检测目标对象。

上述数据增强为将样本图像在设定范围增强，可以是以设定范围内随机强度地亮度调整、伽马调整、随机噪声、模糊退化、平移变换等方式进行数据增强。其中，在增强样本图像时，采用同一种数据增强的方式进行增强。

上述缩放处理为对增强后的样本图像进行尺寸调整，使得每个图像的尺寸相同。其中，将每个样本图像的长短边按固定比例缩放，并对短边进行值填充，使得每个图像的尺寸相同。

上述帧间差分信息训练样本与帧间差分信息确定的方式相同，由如下公式确定：
I_dif’＝(I_pre’+I_back’-2I_cur’)/2

其中，I_cur’为当前帧训练样本，为I_pre’第一帧训练样本，I_back’为第二帧训练样本，I_dif’为帧间差分信息训练样本。

进一步地，对当前帧训练样本进行标注，以方便从初始模型输出的结果中快速定位当前帧训练样本对应的置信度、分类和位置等数据。

请参见图6，图6是本公开实施例提供的一种目标对象检测装置的结构图，如图6所示，目标对象检测装置600包括：

获取模块601，用于获取当前视频流中的当前帧、第一帧和第二帧，所述第一帧为所述当前帧之前的图像帧，所述第二帧为所述当前帧之后的图像帧；

确定模块602，用于基于所述当前帧、所述第一帧和所述第二帧，确定帧间差分信息，所述帧间差分信息用于表征所述第一帧和所述第二帧相对于所述当前帧的差异信息；

处理模块603，用于基于检测网络模型对所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息进行检测，得到所述当前帧是否包括当前对象的检测结果，其中，所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息为输入所述检测网络模型的动态通道的参数，所述当前帧和所述帧间差分信息在输入所述检测网络模型的静态通道的参数，所述动态通道和所述静态通道用于提取不同层次的图像特征。

在一个实施例中，所述检测网络模型包括依次连接的骨干网络、颈部网络和头部网络，所述骨干网络包括依次串联的N层卷积块层，每层卷积块层分别与所述颈部网络相连，N为正整数；

所述处理模块603包括：

第一处理单元，用于通过所述N个卷积块层中每个卷积块层对输入所述动态通道的参数卷积，或者，对所述每个卷积块层的上一层卷积块层输出的动态特征信息卷积，得到所述每个卷积块层的动态特征信息，所述动态特征信息用于表征对输入所述检测网络模型的动态通道的参数处理得到的特征信息；

第二处理单元，用于通过所述每个卷积块层对输入所述静态通道的参数卷积，或者，对所述每个卷积块层的上一层卷积块层得到的静态特征信息卷积，得到所述卷积块层的静态特征信息，所述静态特征信息用于表征对输入所述检测网络模型的静态通道的参数处理得到的特征信息；

第三处理单元，用于通过所述每个卷积块层对所述每个卷积块层卷积得到的动态特征信息和静态特征信息拼接，得到N个拼接结果；

第四处理单元，用于通过所述每个卷积块层对N个拼接结果进行卷积，得到N个基础特征图层；

第五处理单元，用于通过所述颈部网络对所述N个特征图层进行卷积，得到N个融合特征图层；

第六处理单元，用于通过所述头部网络对所述N个融合特征图层卷积，得到所述检测结果。

在一个实施例中，所述每个卷积块层包括动态卷积块、静态卷积块、拼接块和骨干卷积块，所述拼接块分别与所述动态卷积块、所述静态卷积块和所述骨干卷积块连接，所述N个卷积块层中的每个动态卷积块依次串联，所述N个卷积块层中的每个静态卷积块依次串联，每个骨干卷积块与所述颈部网络连接，

所述处理模块603包括：

第七处理单元，用于通过所述每个动态卷积块对输入所述动态通道的参数卷积，或者，对所述每个动态卷积块的上一个动态卷积块得到的动态特征信息卷积，得到所述每个动态卷积块的动态特征信息；

第八处理单元，用于通过所述每个静态卷积块对输入所述静态通道的参数卷积，或者，对所述每个静态卷积块的上一个静态卷积块得到的静态特征信息卷积，得到所述每个静态卷积块的静态特征信息；

第九处理单元，用于通过所述拼接块对每个动态卷积块卷积得到的动态特征信息，和每个静态卷积块卷积得到的静态特征信息拼接，得到所述N个拼接结果；

第十处理单元，用于通过所述骨干卷积块对N个拼接结果进行卷积，得到所述N个基础特征图层。

在一个实施例中，所述训练样本数据通过如下方式得到：

本公开实施例提供的目标对象检测装置为能实现上述目标对象检测方法的各实施例的各个过程，技术特征一一对应，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本公开实施例中的目标对象检测装置可以是装置，也可以是电子设备中的部件、集成电路、或芯片。

具体的，参见图7，本公开实施例还提供了一种电子设备的结构示意图，包括总线701、收发机702、天线703、总线接口704、处理器705和存储器706。

其中，所述收发机702，用于获取当前视频流中的当前帧、第一帧和第二帧，所述第一帧为所述当前帧之前的图像帧，所述第二帧为所述当前帧之后的图像帧；

所述处理器705，用于基于所述当前帧、所述第一帧和所述第二帧，确定帧间差分信息，所述帧间差分信息用于表征所述第一帧和所述第二帧相对于所述当前帧的差异信息；

所述处理器705，还用于检测网络模型对所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息进行检测，得到所述当前帧是否包括当前对象的检测结果，其中，所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息为输入所述检测网络模型的动态通道的参数，所述当前帧和所述帧间差分信息在输入所述检测网络模型的静态通道的参数，所述动态通道和所述静态通道用于提取不同层次的图像特征。

所述处理器705，还用于通过所述N个卷积块层中每个卷积块层对输入所述动态通道的参数卷积，或者，对所述每个卷积块层的上一层卷积块层输出的动态特征信息卷积，得到所述每个卷积块层的动态特征信息，所述动态特征信息用于表征对输入所述检测网络模型的动态通道的参数处理得到的特征信息；

所述处理器705，还用于通过所述每个卷积块层对输入所述静态通道的参数卷积，或者，对所述每个卷积块层的上一层卷积块层得到的静态特征信息卷积，得到所述卷积块层的静态特征信息，所述静态特征信息用于表征对输入所述检测网络模型的静态通道的参数处理得到的特征信息；

所述处理器705，还用于通过所述每个卷积块层对所述每个卷积块层卷积得到的动态特征信息和静态特征信息拼接，得到N个拼接结果；

所述处理器705，还用于通过所述每个卷积块层对N个拼接结果进行卷积，得到N个基础特征图层；

所述处理器705，还用于通过所述颈部网络对所述N个特征图层进行卷积，得到N个融合特征图层；

所述处理器705，还用于通过所述头部网络对所述N个融合特征图层卷积，得到所述检测结果。

所述处理器705，还用于通过所述每个动态卷积块对输入所述动态通道的参数卷积，或者，对所述每个动态卷积块的上一个动态卷积块得到的动态特征信息卷积，得到所述每个动态卷积块的动态特征信息；

所述处理器705，还用于通过所述每个静态卷积块对输入所述静态通道的参数卷积，或者，对所述每个静态卷积块的上一个静态卷积块得到的静态特征信息卷积，得到所述每个静态卷积块的静态特征信息；

所述处理器705，还用于通过所述拼接块对每个动态卷积块卷积得到的动态特征信息，和每个静态卷积块卷积得到的静态特征信息拼接，得到所述N个拼接结果；

所述处理器705，还用于通过所述骨干卷积块对N个拼接结果进行卷积，得到所述N个基础特征图层。

在一个实施例中，所述训练样本数据通过如下方式得到：

在图7中，总线架构(用总线701来代表)，总线701可以包括任意数量的互联的总线和桥，总线701将包括由处理器705代表的一个或多个处理器和存储器706代表的存储器的各种电路链接在一起。总线701还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口704在总线701和收发机702之间提供接口。收发机702可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器705处理的数据通过天线703在无线介质上进行传输，进一步，天线703还接收数据并将数据传送给处理器705。

处理器705负责管理总线701和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器706可以被用于存储处理器705在执行操作时所使用的数据。

在一个实施例中，处理器705可以是CPU、ASIC、FPGA或CPLD。

本公开实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述目标对象检测方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，的计算机可读存储介质，如只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者第二终端设备等)执行本公开各个实施例的方法。

上面结合附图对本公开的实施例进行描述，但是本公开并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本公开的启示下，在不脱离本公开宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本公开的保护之内。

Claims

一种目标对象检测方法，包括：

获取当前视频流中的当前帧、第一帧和第二帧，所述第一帧为所述当前帧之前的图像帧，所述第二帧为所述当前帧之后的图像帧；

基于所述当前帧、所述第一帧和所述第二帧，确定帧间差分信息，所述帧间差分信息用于表征所述第一帧和所述第二帧相对于所述当前帧的差异信息；

基于检测网络模型对所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息进行检测，得到所述当前帧是否包括当前对象的检测结果，其中，所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息为输入所述检测网络模型的动态通道的参数，所述当前帧和所述帧间差分信息在输入所述检测网络模型的静态通道的参数，所述动态通道和所述静态通道用于提取不同层次的图像特征。
根据权利要求1所述的方法，其中，所述检测网络模型包括依次连接的骨干网络、颈部网络和头部网络，所述骨干网络包括依次串联的N层卷积块层，每层卷积块层分别与所述颈部网络相连，N为正整数；

所述基于检测网络模型对所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息进行检测，得到所述当前帧是否包括当前对象的检测结果，包括：

通过所述N个卷积块层中每个卷积块层对输入所述动态通道的参数卷积，或者，对所述每个卷积块层的上一层卷积块层输出的动态特征信息卷积，得到所述每个卷积块层的动态特征信息，所述动态特征信息用于表征对输入所述检测网络模型的动态通道的参数处理得到的特征信息；

通过所述每个卷积块层对输入所述静态通道的参数卷积，或者，对所述每个卷积块层的上一层卷积块层得到的静态特征信息卷积，得到所述卷积块层的静态特征信息，所述静态特征信息用于表征对输入所述检测网络模型的静态通道的参数处理得到的特征信息；

通过所述每个卷积块层对所述每个卷积块层卷积得到的动态特征信息和静态特征信息拼接，得到N个拼接结果；

通过所述每个卷积块层对N个拼接结果进行卷积，得到N个基础特征图层；

通过所述颈部网络对所述N个特征图层进行卷积，得到N个融合特征图层；

通过所述头部网络对所述N个融合特征图层卷积，得到所述检测结果。
根据权利要求2所述的方法，其中，所述每个卷积块层包括动态卷积块、静态卷积块、拼接块和骨干卷积块，所述拼接块分别与所述动态卷积块、所述静态卷积块和所述骨干卷积块连接，所述N个卷积块层中的每个动态卷积块依次串联，所述N个卷积块层中的每个静态卷积块依次串联，每个骨干卷积块与所述颈部网络连接，

所述基于检测网络模型对所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息进行检测，得到所述当前帧是否包括当前对象的检测结果，包括：

通过所述每个动态卷积块对输入所述动态通道的参数卷积，或者，对所述每个动态卷积块的上一个动态卷积块得到的动态特征信息卷积，得到所述每个动态卷积块的动态特征信息；

通过所述每个静态卷积块对输入所述静态通道的参数卷积，或者，对所述每个静态卷积块的上一个静态卷积块得到的静态特征信息卷积，得到所述每个静态卷积块的静态特征信息；

通过所述拼接块对每个动态卷积块卷积得到的动态特征信息，和每个静态卷积块卷积得到的静态特征信息拼接，得到所述N个拼接结果；

通过所述骨干卷积块对N个拼接结果进行卷积，得到所述N个基础特征图层。
根据权利要求1至3中任一项所述的方法，其中，所述检测网络模型通过如下方式训练得到：

获取训练样本数据和验证样本数据，所述训练样本数据包括当前帧训练样本、第一帧训练样本、第二帧训练样本和帧间差分信息训练样本，所述验证样本数据用于表征所述训练样本数据中待检测的目标对象的真实参数情况；

基于所述当前帧训练样本、所述第一帧训练样本、所述第二帧训练样本和所述帧间差分信息训练样本对初始模型进行训练，得到所述当前帧样本对应的置信度、分类和位置；

基于所述验证样本数据分别对所述当前帧样本对应的置信度、分类和位置进行验证，得到置信度损失值、分类损失值和位置损失值；

将所述置信度损失值、所述分类损失值和所述位置损失值带入损失函数中，得到损失值；

基于所述训练样本数据和验证样本数据对所述初始模型进行迭代训练，得到所述检测网络模型，所述检测网络模型对应的损失值为迭代训练过程中得到的模型中对应的损失值最小的模型。
根据权利要求4所述的方法，其中，所述训练样本数据通过如下方式得到：

采集样本图像，所述样本图像包括初始第一帧图像、初始当前帧图像和初始第二帧图像；

对所述初始第一帧图像、所述初始当前帧图像和所述初始第二帧图像分别进行数据增强，得到增强第一帧图像、增强当前帧图像和增强第二帧图像；

对所述增强第一帧图像、所述增强当前帧图像和所述增强第二帧图像分别进行缩放处理，得到设定尺寸的所述当前帧训练样本、所述第一帧训练样本和所述第二帧训练样本；

基于所述当前帧训练样本、所述第一帧训练样本和所述第二帧训练样本，确定所述帧间差分信息训练样本。
一种目标对象检测装置，包括：

获取模块，用于获取当前视频流中的当前帧、第一帧和第二帧，所述第一帧为所述当前帧之前的图像帧，所述第二帧为所述当前帧之后的图像帧；

确定模块，用于基于所述当前帧、所述第一帧和所述第二帧，确定帧间差分信息，所述帧间差分信息用于表征所述第一帧和所述第二帧相对于所述当前帧的差异信息；

处理模块，用于基于检测网络模型对所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息进行检测，得到所述当前帧是否包括当前对象的检测结果，其中，所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息为输入所述检测网络模型的动态通道的参数，所述当前帧和所述帧间差分信息在输入所述检测网络模型的静态通道的参数，所述动态通道和所述静态通道用于提取不同层次的图像特征。
根据权利要求6所述的装置，其中，所述检测网络模型包括依次连接的骨干网络、颈部网络和头部网络，所述骨干网络包括依次串联的N层卷积块层，每层卷积块层分别与所述颈部网络相连，N为正整数；

所述处理模块包括：

第一处理单元，用于通过所述N个卷积块层中每个卷积块层对输入所述动态通道的参数卷积，或者，对所述每个卷积块层的上一层卷积块层输出的动态特征信息卷积，得到所述每个卷积块层的动态特征信息，所述动态特征信息用于表征对输入所述检测网络模型的动态通道的参数处理得到的特征信息；

第二处理单元，用于通过所述每个卷积块层对输入所述静态通道的参数卷积，或者，对所述每个卷积块层的上一层卷积块层得到的静态特征信息卷积，得到所述卷积块层的静态特征信息，所述静态特征信息用于表征对输入所述检测网络模型的静态通道的参数处理得到的特征信息；

第三处理单元，用于通过所述每个卷积块层对所述每个卷积块层卷积得到的动态特征信息和静态特征信息拼接，得到N个拼接结果；

第四处理单元，用于通过所述每个卷积块层对N个拼接结果进行卷积，得到N个基础特征图层；

第五处理单元，用于通过所述颈部网络对所述N个特征图层进行卷积，得到N个融合特征图层；

第六处理单元，用于通过所述头部网络对所述N个融合特征图层卷积，得到所述检测结果。
根据权利要求7所述的装置，其中，所述每个卷积块层包括动态卷积块、静态卷积块、拼接块和骨干卷积块，所述拼接块分别与所述动态卷积块、所述静态卷积块和所述骨干卷积块连接，所述N个卷积块层中的每个动态卷积块依次串联，所述N个卷积块层中的每个静态卷积块依次串联，每个骨干卷积块与所述颈部网络连接，

所述处理模块包括：

第七处理单元，用于通过所述每个动态卷积块对输入所述动态通道的参数卷积，或者，对所述每个动态卷积块的上一个动态卷积块得到的动态特征信息卷积，得到所述每个动态卷积块的动态特征信息；

第八处理单元，用于通过所述每个静态卷积块对输入所述静态通道的参数卷积，或者，对所述每个静态卷积块的上一个静态卷积块得到的静态特征信息卷积，得到所述每个静态卷积块的静态特征信息；

第九处理单元，用于通过所述拼接块对每个动态卷积块卷积得到的动态特征信息，和每个静态卷积块卷积得到的静态特征信息拼接，得到所述N个拼接结果；

第十处理单元，用于通过所述骨干卷积块对N个拼接结果进行卷积，得到所述N个基础特征图层。
根据权利要求6至8中任一项所述的装置，其中，所述检测网络模型通过如下方式训练得到：

获取训练样本数据和验证样本数据，所述训练样本数据包括当前帧训练样本、第一帧训练样本、第二帧训练样本和帧间差分信息训练样本，所述验证样本数据用于表征所述训练样本数据中待检测的目标对象的真实参数情况；

基于所述当前帧训练样本、所述第一帧训练样本、所述第二帧训练样本和所述帧间差分信息训练样本对初始模型进行训练，得到所述当前帧样本对应的置信度、分类和位置；

基于所述验证样本数据分别对所述当前帧样本对应的置信度、分类和位置进行验证，得到置信度损失值、分类损失值和位置损失值；

将所述置信度损失值、所述分类损失值和所述位置损失值带入损失函数中，得到损失值；

基于所述训练样本数据和验证样本数据对所述初始模型进行迭代训练，得到所述检测网络模型，所述检测网络模型对应的损失值为迭代训练过程中得到的模型中对应的损失值最小的模型。
根据权利要求9所述的装置，其中，所述训练样本数据通过如下方式得到：

采集样本图像，所述样本图像包括初始第一帧图像、初始当前帧图像和初始第二帧图像；

对所述初始第一帧图像、所述初始当前帧图像和所述初始第二帧图像分别进行数据增强，得到增强第一帧图像、增强当前帧图像和增强第二帧图像；

对所述增强第一帧图像、所述增强当前帧图像和所述增强第二帧图像分别进行缩放处理，得到设定尺寸的所述当前帧训练样本、所述第一帧训练样本和所述第二帧训练样本；

基于所述当前帧训练样本、所述第一帧训练样本和所述第二帧训练样本，确定所述帧间差分信息训练样本。
一种电子设备，包括收发机和处理器，

所述收发机，用于获取当前视频流中的当前帧、第一帧和第二帧，所述第一帧为所述当前帧之前的图像帧，所述第二帧为所述当前帧之后的图像帧；

所述处理器，用于基于所述当前帧、所述第一帧和所述第二帧，确定帧间差分信息，所述帧间差分信息用于表征所述第一帧和所述第二帧相对于所述当前帧的差异信息；

所述处理器，还用于检测网络模型对所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息进行检测，得到所述当前帧是否包括当前对象的检测结果，其中，所述当前帧、所述第一帧、所述第二帧和所述帧间差分信息为输入所述检测网络模型的动态通道的参数，所述当前帧和所述帧间差分信息在输入所述检测网络模型的静态通道的参数，所述动态通道和所述静态通道用于提取不同层次的图像特征。
一种电子设备，包括：收发机、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序；所述处理器，用于读取存储器中的程序实现如权利要求1至5中任一项所述的目标对象检测方法中的步骤。
一种可读存储介质，用于存储程序，所述程序被处理器执行时实现如权利要求1至5中任一项所述的目标对象检测方法中的步骤。
一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的目标对象检测方法中的步骤。