WO2022237902A1

WO2022237902A1 - 对象检测方法、装置、设备及计算机存储介质

Info

Publication number: WO2022237902A1
Application number: PCT/CN2022/092842
Authority: WO
Inventors: 谢伟; 宇军; 李逸; 胡荣东; 黄倩倩
Original assignee: 长沙智能驾驶研究院有限公司
Priority date: 2021-05-14
Filing date: 2022-05-13
Publication date: 2022-11-17
Also published as: CN112949785A; CN112949785B

Abstract

本申请提供了一种对象检测方法、装置、设备及计算机存储介质。对象检测方法包括：获取第一帧图像中检测对象的第一检测框和第二帧图像中检测对象的第二检测框；第二帧图像的采集时刻在第一帧图像的采集时刻之前，第一检测框和第二检测框均携带有特征参数，特征参数至少包括置信度；根据第一检测框的特征参数和第二检测框的特征参数，确定第一检测框和第二检测框之间的至少一种相似度信息；对至少一种相似度信息和特征参数进行融合，得到融合结果；根据融合结果更新第一检测框的置信度；根据置信度更新后的第一检测框确定检测对象。

Description

对象检测方法、装置、设备及计算机存储介质

相关申请的交叉引用

本申请主张2021年05月14日在中国提交的中国专利申请号202110525549.2的优先权，其全部内容通过引用包含于此。

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种对象检测方法、装置、设备及计算机存储介质。

背景技术

随着计算机视觉的发展，计算机视觉识别技术广泛应用到对象密集场所以实现对象检测或统计，例如客流统计。

计算机视觉识别技术主要是通过深度学习检测算法对对象进行检测，然后利用跟踪算法进行对象统计，相比传统的对象检测和统计方法，计算机视觉识别技术有稳定性好、不易损坏等优点。

然而，在对图像或者视频进行对象检测的时候，若图像或视频中因对象排布比较紧密而产生对象的重叠，现有检测算法在检测这些重叠对象时准确率较低，很容易出现漏检，难以得到准确的统计结果。

发明内容

本申请实施例提供了一种对象检测方法、装置、设备及计算机存储介质，能够解决对象检测准确率较低、容易出现漏检的技术问题。

第一方面，本申请实施例提供了一种对象检测方法，对象检测方法包括：

获取第一帧图像中检测对象的第一检测框和第二帧图像中检测对象的第二检测框；第二帧图像的采集时刻在第一帧图像的采集时刻之前，第一检测框和第二检测框均携带有特征参数，特征参数至少包括置信度；

根据第一检测框的特征参数和第二检测框的特征参数，确定第一检测框和第二检测框之间的至少一种相似度信息；

对至少一种相似度信息和特征参数进行融合，得到融合结果；

根据融合结果更新第一检测框的置信度；

根据置信度更新后的第一检测框确定检测对象。

第二方面，本申请实施例提供了一种对象检测装置，对象检测装置包括：

信息获取模块，用于获取第一帧图像中检测对象的第一检测框和第二帧图像中检测对象的第二检测框；第二帧图像的采集时刻在第一帧图像的采集时刻之前，第一检测框和第二检测框均携带有特征参数，特征参数至少包括置信度；

相似度确定模块，用于根据第一检测框的特征参数和第二检测框的特征参数，确定第一检测框和第二检测框之间的至少一种相似度信息；

信息融合模块，用于对至少一种相似度参数和特征参数进行融合，得到融合结果；

信息更新模块，用于根据融合结果更新第一检测框的置信度；

目标确定模块，用于根据置信度更新后的第一检测框确定检测对象。

第三方面，本申请实施例提供了一种对象检测设备，对象检测设备包括：处理器，以及存储有计算机程序指令的存储器；

处理器读取并执行计算机程序指令，以实现本申请实施例第一方面提供的对象检测方法。

第四方面，本申请实施例提供了一种计算机存储介质，该计算机存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现本申请实施例第一方面提供的对象检测方法。

本申请实施例的技术，至少能够实现如下有益效果：

本申请实施例同时考虑前后两帧图像来实现对象的检测，在基于该两帧图像的检测框的特征参数确定两帧图像的检测框之间的至少一种相似度信息后，进一步将得到的至少一种相似度信息与特征参数进行融合，可实现两帧图像检测框的多重信息的融合，基于融合结果可更新第一检测框的置信度，根据更新后的第一检测框可确定出对象；相比于只考虑一帧图像或只考虑检测框置信度的情形，本申请实施例的技术方案在检测对象时可同时参考前后两帧图像的检测框的特征参数以及两帧图像的检测框之间的至少一种相似度信息，所参考的信息更加全面，在将更加全面的信息进行融合后基于融合结果进行对象检测时，可提高对象检测的准确性，减少漏检。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的对象检测方法的流程示意图；

图2是本申请另一实施例提供的对象检测方法的部分流程示意图；

图3是本申请一实施例中不同检测框重叠度计算的原理示意图；

图4是本申请又一实施例提供的对象检测方法的部分流程示意图；

图5是相关技术中涉及的一种检测框匹配情形示意图；

图6是相关技术中涉及的另一种检测框匹配情形示意图；

图7是本申请一实施例中对同一检测对象进行跟踪的跟踪时序示意图和更新第一检测框置信度的原理示意图；

图8是本申请一实施例提供的对象检测装置的结构框架示意图；

图9是本申请一实施例提供的对象检测设备的结构框架示意图。

具体实施方式

下面将详细描述本申请的各个方面的特征和示例性实施例，为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本申请进行进一步详细描述。应理解，此处所描述的具体实施例仅意在解释本申请，而不是限定本申请。对于本领域技术人员来说，本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面对本申请的技术方案进行详细介绍。

本申请实施例提供了一种对象检测方法，如图1所示，该对象检测方法可以包括：

S110，获取第一帧图像中检测对象的第一检测框和第二帧图像中检测对象的第二检测框。

第二帧图像的采集时刻在第一帧图像的采集时刻之前，第一检测框和第二检测框均携带有特征参数，特征参数至少包括置信度。

S120，根据第一检测框的特征参数和第二检测框的特征参数，确定第一检测框和第二检测框之间的至少一种相似度信息。

S130，对至少一种相似度信息和特征参数进行融合，得到融合结果。

S140，根据融合结果更新第一检测框的置信度。

S150，根据置信度更新后的第一检测框确定检测对象。

本申请实施例提供的对象检测方法，至少能够实现如下有益效果：

本申请实施例同时考虑前后两帧图像来实现对象的检测，在基于该两帧图像的检测框的特征参数确定两帧图像的检测框之间的至少一种相似度信息后，进一步将得到的至少一种相似度信息与特征参数进行融合，可实现两帧图像检测框的多重信息的融合，基于融合结果可更新第一检测框的置信度，根据更新后的第一检测框可确定出检测对象；相比于只考虑一帧图像或只考虑检测框置信度的情形，本申请实施例的技术方案在检测对象时可同时参考前后两帧图像的检测框的特征参数以及两帧图像的检测框之间的至少一种相似度信息，所参考的信息更加全面，在将更加全面的信息进行融合后基于融合结果进行对象检测时，可提高对象检测的准确性，减少漏检。

在一个可选的实施方式中，本申请实施例中的第一帧图像和第二帧图像之间间隔的帧数可小于预设帧数，该预设帧数可根据实际需求和经验值设置。在一个示例中，为了使第二帧图像和第一帧图像在时序上更加接近，从而使第二帧图像中的第二检测框更具参考性，可将预设帧数设置为一个较小的值，例如2帧，此时第二帧图像和第一帧图像之间间隔一帧，即第二帧图像是第一帧图像的前一帧图像。

在一个可选的实施方式中，参照图2所示，在步骤S110中，获取第一帧图像中检测对象的第一检测框和第二帧图像中检测对象的第二检测框之前，可以包括如下步骤S111-S113。

S111，根据目标检测模型对第一帧图像中的检测对象进行检测，得到多个初始检测框。

本申请目标检测模型可以是现有的任意一种可实现目标检测的神经网络，在一个示例中，目标检测模型可以是两阶段检测算法和单阶段检测算法的任意一种，两阶段检测算法可以R-CNN(Region-Convolutional Neural Network，区域卷积神经网络)、Fast R-CNN(快速区域卷积神经网络)系列等任意一种卷积神经网络检测算法，单阶段检测算法可以是SSD(Single Shot MultiBox Detector，单阶段多框预测算法)、YOLO(You Only Look Once)系列等任意一种卷积神经网络检测算法，目标检测模型输出的初始检测框携带有位置信息和置信度。

本申请实施例的检测对象可以是任意指定对象，例如某场所的人头、动物或其它物体。

S112，在多个初始检测框中确定大于第一置信度阈值的初始检测框。

第一置信度阈值小于预设数值，该预设数值可根据实际需求或经验值设置，第一置信度阈值可在小于预设数值的基础上根据实际需求或经验值设置。

为了减少漏检，通常不希望在初始阶段过滤掉过多的检测框，此时可将预设数值设置为一个较小的数值，例如1×10 ^-4或1×10 ^-1，从而使第一置信度阈值为一个较小的数值，例如0.5×10 ^-4；此时，大部分初始检测框可以满足大于第一置信度阈值这个条件，从而可以保留较多的初始检测框供后续处理过程使用。

本申请实施例通过获取第一帧图像中检测对象的第一检测框之前，可对基于一个较小的置信度阈值即第一置信度阈值对第一帧图像中的初始检测框进行初步筛选；相比于现有的以一个较大的置信度阈值进行初步筛选的方式，本申请实施例的方式可增加筛选出的第一检测框数量，保证后续步骤中能够对尽可能多的第一检测框进行处理，以减少漏检。

S113，根据非极大抑制算法对大于第一置信度阈值的初始检测框进行筛选，将筛选出的初始检测框确定为第一检测框。

根据非极大抑制算法的原理，可对大于第一置信度阈值的初始检测框进行局部最大搜索。

在一个示例中，将大于第一置信度阈值的各初始检测框中按照置信度从大到小的顺序进行排序，形成排序后的初始检测框列表，选择置信度最高的初始检测框添加到输出列表中，并在初始检测框列表中删除该置信度最高的初始检测框；确定置信度最高的初始检测框和其它初始检测框的重叠度或称交并比(IOU)，在初始检测框列表中删除重叠度大于重叠度阈值的初始检测框；重复前面的步骤，直到初始检测框列表为空，最终得到的输出列表中的初始检测框即为根据非极大抑制算法筛选出的初始检测框。

在一个可选的实施方式中，可通过上述步骤S111至S313对第二帧图像进行检测和筛选。

在一个示例中，若本申请实施例中的第二帧图像为当前图像检测中的起始帧图像，在基于步骤S112中的第一置信度阈值对第二帧图像的初始检测框进行初步筛选时，第一置信度阈值可以设置为一个较大的数值，例如0.5，从而筛选出较为置信度较高的第二检测框，为后续图像的对象检测提供置信度较高数据基础。

在另一个示例中，若本申请实施例中的第二帧图像为当前图像检测中的起始帧图像，在基于步骤S112中的第一置信度阈值对第二帧图像的初始检测框进行初步筛选时，仍可将第一置信度阈值设置为一个较小的数值，例如0.5×10 ^-4。

本领域技术人员可以理解，在基于步骤S112中的第一置信度阈值对第二帧图像的初始检测框进行初步筛选后，还需要执行S113进行基于非极大抑制的筛选，具体筛选原理可参照前面的内容，此处不再赘述。

在一个可选的实施方式中，在步骤S120中，本申请实施例中的特征参数还可以包括位置信息，至少一种相似度信息包括重叠度和距离中的至少一种信息。

根据第一检测框的特征参数和第二检测框的特征参数，确定第一检测框和第二检测框之间的至少一种相似度信息，包括：根据第一检测框的位置信息和第二检测框的位置信息，确定第一检测框和第二检测框之间的重叠度和距离中的至少一种信息。

本申请实施例可基于第一检测框和第二检测框的位置信息，确定重叠度和距离中的至少一种，重叠度和距离可以直观地反映第一检测框和第二检测框的相对位置关系，进而反映第一检测框和第二检测框的相似度，从而重叠度和距离可作为相似度信息，与置信度进行融合。相比于单一信息的检测框匹配，本申请实施例的融合结果可兼顾多种情况，从而更准确地对第一检测框和第二检测框进行匹配，进而提高对象检测的准确率。

本申请实施例中的位置信息可以包括检测框轮廓的坐标信息。

在一个可选的实施方式中，根据第一检测框的位置信息和第二检测框的位置信息，确定第一检测框和第二检测框之间的重叠度，包括：

根据第一检测框的坐标信息确定第一检测框的第一面积；根据第二检测框的坐标信息确定第二检测框的第二面积；根据第一面积和第二面积确定第一检测框和第二检测框之间的重叠度。

参照图3所示的检测框重叠示意图，上述重叠度的确定方式可表达为：

在表达式(1)中，I _ij为第i个第一检测框和第j个第二检测框之间的重叠度；A为第i个第一检测框的面积，即第一面积；B为第j个第二检测框的面积，即第二面积；i和j均为正整数。

在另一个可选的实施方式中，根据第一检测框的位置信息和第二检测框的位置信息，确定第一检测框和第二检测框之间的距离，包括：

根据第一检测框的坐标信息确定第一检测框的第一边界长度、第二边界长度和第一中心坐标；根据第二检测框的坐标信息确定第二检测框的第二中心坐标；根据第一边界长度、第二边界长度、第一中心坐标和第二中心坐标，确定第一检测框和第二检测框之间的距离。

在一个示例中，可通过如下方式确定第一检测框和第二检测框之间的距离：

在表达式(2)中，G _ij为第i个第一检测框和第j个第二检测框之间的距离；w ₁为第i个第一检测框中沿第一方向(如图3中的x方向)延伸的边界的长度，即第一边界长度；h ₁为第i个第一检测框中沿第二方向(如图3中的y方向)延伸的边界的长度，即第二边界长度；x ₁和y ₁分别为第i个第一检测框的中心点在第一方向和第二方向的坐标值，(x ₁,y ₁)即为第一中心坐标；x ₂和y ₂分别为第j个第二检测框的中心点在第一方向和第二方向的坐标值，(x ₂,y ₂)即为第二中心坐标；i和j均为正整数。

在一个示例中，还可直接基于第一检测框和第二检测框的中心坐标之差确定第一检测框和第二检测框之间距离，在该种情况下，若两个检测框的第一边界长度或第二边界长度相差较大，直接采用中心坐标确定出的距离受边界长度的影响，可能不够，基于表达式(2)所示的方式确定第一检测框和第二检测框之间的距离时，对中心坐标之差进行了除以边界长度的操作，可减小边界长度差异带来影响，使得到的距离更加准确。

在一个可选的实施方式中，在步骤S130中，对至少一种相似度信息和特征参数进行融合，得到融合结果，包括：对第一检测框和第二检测框之间的重叠度和距离中的至少一种信息、第一检测框的置信度、第二检测框的置信度进行融合，得到融合结果。

在一个可选的实施方式中，对距离进行归一化处理；确定重叠度和归一化处理后的距离的加权平均值；确定该加权平均值、第一检测框的置信度和第二检测框的置信度的乘积，作为融合结果。

在一个示例中，可通过以下方式得到融合结果：

在表达式(3)中，I _ij为第i个第一检测框和第j个第二检测框之间的重叠度G _ij为第i个第一检测框和第j个第二检测框之间的距离；

为归一化处理后的第i个第一检测框和第j个第二检测框之间的距离；s _i为第i个第一检测框的置信度；s _j为第j个第二检测框的置信度；θ为权重值，取值范围为(0,1)；

为I _ij和

的加权平均值；V _ij为I _ij、G _ij、s _i和s _j的融合结果，i和j均为正整数。

在表达式(3)，通过对第i个第一检测框和第j个第二检测框之间的距离G _ij进行指数化运算，可实现对距离G _ij的归一化处理，使归一化处理后的距离

与重叠度I _ij一致，均为(0,1)之间的数值，以便于进行距离G _ij和重叠度I _ij的融合。在此基础上，通过表达式(3)，距离G _ij和重叠度I _ij还可进一步与置信度s _i和s _j进行融合，得到融合结果V _ij，融合结果V _ij可表征第i个第一检测框和第j个第二检测框的匹配度，表示第i个第一检测框和第j个第二检测框具有初步匹配关系。

在一个可选的实施方式中，参照图4所示，在步骤S140中，根据融合结果更新第一检测框的置信度，可以包括如下步骤S141-S143。

S141，根据融合结果确定多个检测框组。

检测框组包括相互匹配的第一检测框和第二检测框。

在一个示例中，对于M个第一检测框和N个第二检测框(M和N均为正整数)，通过表达(3)可确定出每个第一检测框和每个第二检测框进行信息融合的融合结果，得到M行N列融合结果矩阵，可根据匈牙利匹配算法和该融合结果矩阵实现M个第一检测框和N个第二检测框之间的一一匹配。具体地，匈牙利匹配算法可基于该融合结果矩阵各元素表征的第一检测框和第二检测框的匹配度，对第一检测框和第二检测框进行最优配对求解。

相对于基于单一信息进行检测框匹配的情况，基于至少一个相似度信息和置信度的融合结果进行检测框的匹配，可考虑多重信息以提高检测框匹配的准确率。

在一个示例中，参照图5，若检测区域的检测框A和检测框B的中心相同但大小不同，则检测框A和检测框B明显来自不同的检测对象，但在采用单一信息例如单一的距离信息来进行检测框的匹配时，会认为检测框A和检测框B是可以相互匹配的检测框，进而认为检测框A和检测框B来自同一检测对象，从而发生检测错误。

在另一个示例中，参照图6，对于检测区域的检测框A、B和C，若采用单一信息例如单一的重叠度信息来进行检测框的匹配，由于检测框A与检测框B重叠度、以及检测框A与检测框C的重叠度均为0，此时无法判断检测框A与检测框B、检测框C中的哪个检测框更匹配。

S142，根据检测框组中第一检测框的置信度和第二检测框的置信度，确定检测框组的置信度。

在一个可选的实施方式中，确定第一检测框对应的检测对象在跟踪时序中出现的次数；根据该次数确定第一检测框的置信度的第一权重、以及第二检测框的置信度的第二权重；根据第一权重和第二权重，确定第一检测框的置信度和第二检测框的置信度的加权平均值，作为检测框组的置信度。

本申请实施例中的跟踪时序是基于不同时刻采集的图像对同一检测对象进行跟踪检测的检测结果的序列集合。

在一个示例中，可通过如下时序模型确定任意一个检测框组的置信度：

在表达式(4)中，s′为检测框组的置信度，s _i为检测框组中第一检测框的置信度，s _j为检测框组中第二检测框的置信度，n为检测框中第一检测框的检测对象在跟踪时序中出现的次数；q为正则因子，可根据实际需求设置，例如可设置为5；q/(n+q)为检测框组中第一检测框的置信度的权重，即第一权重；n/(n+q)为检测框组中第二检测框的置信度的权重，即第二权重。

S143，根据检测框组的置信度更新检测组中第一检测框的置信度。

根据表达式(4)所示的时序模型可知，若某个第一检测框在跟踪时序中出现的次数越多，也就是n值越大，则第一权重q/(n+q)越小，第二权重n/(n+q)越大，则s′值更受与该第一检测框匹配的第二检测框的置信度s _j的影响。也即某一第一检测框对应的对象在跟踪时序中出现的越久，则该第一检测框是真实检测对象的概率越大，由于目标检测模型检测的第一检测框的置信度可能会出现波动(例如某些第一检测框的置信度过小)从而导致漏检，此时认为第二检测框的置信度相对于第一检测框的置信度的可靠性更高，因此可以通过表达式(4)的时序模型引入第二检测框的置信度，可较为准确地更新第一检测框的置信度。

图7示出了对同一检测对象进行跟踪的跟踪时序示意图和更新第一检测框置信度的原理示意图。图7中的t-n至t表示跟踪时序中的n+1个时刻，t时刻为第一帧图像的采集时刻，各时刻上方的数字表示各时刻的图像中检测框的置信度，在更新前的跟踪时序示意图中，t时刻上方的数字0.1表示更新前的第一帧图像中第一检测框的置信度，在更新后的跟踪时序示意图中，t时刻上方的数字0.67表示更新后的第一帧图像中第一检测框的置信度。

由图7可以看出，可以看出如若某个对象的检测框在t时刻出现置信度很低的情况，若按照正常置信度阈值(一般为0.5)进行筛选，该检测框就会被剔除，从而造成漏检；在本申请实施例的一种实施方式中，假设该检测框的对象在跟踪时序中出现的次数为10，即n＝10，则在利用如表达式(4)所示的时序模型进行置信度的更新后，该检测框的置信度由0.1更新为0.67，则按照正常置信度阈值筛选时该检测框不会被剔除，从而避免了漏检情况。

在一个可选的实施方式中，在步骤S150中，根据置信度更新后的第一检测框确定检测对象，包括：在置信度更新后的第一检测框中确定大于第二置信度阈值的第一检测框，作为目标检测框，目标检测框对应的对象作为检测对象。

本申请实施例中的第二置信度阈值大于预设数值，预设数值可根据实际需求或经验值设置，第二置信度阈值可在小于预设数值的基础上根据实际需求或经验值设置。

在一个示例中，第二置信度阈值可以大于第一置信度阈值，例如第二置信度可设置为0.5，由于前序步骤中是以较小的第一置信度阈值作为筛选阈值初步筛选出初始检测框的，可能引入了较多的无效的第一检测框，在本步骤中，基于第二置信度阈值对置信度更新后的第一检测框和置信度未更新的第一检测框进行再次筛选，可剔除置信度较低的无效检测框，得到更准确的检测框集合，从而更精确地确定出检测对象。

在另一个可选的实施方式中，在步骤S150中，根据置信度更新后的第一检测框确定检测对象，包括：在更新后的第一检测框和未更新的第一检测框中确定大于第二置信度阈值的第一检测框，作为目标检测框，目标检测框对应的对象作为检测对象。

在本申请实施例中，基于置信度更新后的第一检测框可确定出与前序图像匹配度高、持续出现的检测对象，基于置信度未更新的第一检测框可确定出首次出现的检测对象，从而保证对象检测的全面性，减少漏检，

在一个示例中，经过上述步骤S110至S150后，若需要对第一帧图像之后(指该图像的采集时刻之后)的某一帧图像进行对象检测时，该待检测的图像可作为新的第一帧图像，当前的第一帧图像可作为新的第二帧图像，经过上述步骤S110至S150确定出的目标检测框可作为新的第二帧图像的第二检测框，也即，步骤S150之后可以重新执行步骤S110，从而对于每一个新的第一帧图像可循环执行S110至S150，进行信息的融合、置信度的更新等操作，以提高针对每一帧图像进行对象检测的准确率。

基于同一发明构思，本申请实施例还提供了一种对象检测装置。如图8所示，该对象检测装置800可以包括：信息获取模块801、相似度确定模块802、信息融合模块803、信息更新模块804和对象确定模块805。

信息获取模块801用于获取第一帧图像中检测对象的第一检测框和第二帧图像中检测对象的第二检测框；第二帧图像的采集时刻在第一帧图像的采集时刻之前，第一检测框和第二检测框均携带有特征参数，特征参数至少包括置信度。

相似度确定模块802用于根据第一检测框的特征参数和第二检测框的特征参数，确定第一检测框和第二检测框之间的至少一种相似度信息。

信息融合模块803用于对至少一种相似度参数和特征参数进行融合，得到融合结果。

信息更新模块804用于根据融合结果更新第一检测框的置信度。

对象确定模块805用于根据置信度更新后的第一检测框确定检测对象。

在一个可选的实施方式中，本申请实施例提供的对象检测装置800还可以包括检测模块。

该检测模块用于在获取第一帧图像中检测对象的第一检测框和第二帧图像中检测对象的第二检测框，根据目标检测模型对第一帧图像中的检测对象进行检测，得到多个初始检测框；在多个初始检测框中确定大于第一置信度阈值的初始检测框；第一置信度阈值为小于预设数值；根据非极大抑制算法对大于第一置信度阈值的初始检测框进行筛选，将筛选出的初始检测框确定为第一检测框。

在一个可选的实施方式中，本申请实施例中的特征参数还包括位置信息，至少一种相似度信息包括重叠度和距离中的至少一种信息。

在一个可选的实施方式中，本申请实施例中的相似度确定模块802具体用于根据第一检测框的位置信息和第二检测框的位置信息，确定第一检测框和第二检测框之间的重叠度和距离中的至少一种信息。

在一个可选的实施方式中，本申请实施例中的信息融合模块803具体用于对重叠度和距离中的至少一种信息、第一检测框的置信度、以及第二检测框的置信度进行融合，得到融合结果。

在一个可选的实施方式中，位置信息包括检测框轮廓的坐标信息。

在一个可选的实施方式中，本申请实施例中的相似度确定模块802具体用于根据第一检测框的坐标信息确定第一检测框的第一边界长度、第二边界长度和第一中心坐标；根据第二检测框的坐标信息确定第二检测框的第二中心坐标；根据第一边界长度、第二边界长度、第一中心坐标和第二中心坐标，确定第一检测框和第二检测框之间的距离。

在一个可选的实施方式中，本申请实施例中的信息融合模块803具体用于对距离进行归一化处理；确定重叠度和归一化处理后的距离的加权平均值；确定该加权平均值、第一检测框的置信度和第二检测框的置信度的乘积，作为融合结果。

在一个可选的实施方式中，本申请实施例中的信息更新模块804具体用于：根据融合结果确定多个检测框组；根据检测框组中第一检测框的置信度和第二检测框的置信度，确定检测框组的置信度；根据检测框组的置信度更新检测组中第一检测框的置信度；检测框组包括相互匹配的第一检测框和第二检测框。

在一个可选的实施方式中，本申请实施例中的信息更新模块804，在根据检测框组中第一检测框的置信度和第二检测框的置信度，确定检测框组的置信度时，具体用于：确定第一检测框对应的检测对象在跟踪时序中出现的次数；根据次数确定第一检测框的置信度的第一权重、以及第二检测框的置信度的第二权重；根据第一权重和第二权重，确定第一检测框的置信度和第二检测框的置信度的加权平均值，作为检测框组的置信度。跟踪时序是基于不同时刻采集的图像对同一检测对象进行跟踪检测的检测结果的序列集合。

在一个可选的实施方式中，本申请实施例中的对象确定模块805具体用于在置信度更新后的第一检测框中确定大于第二置信度阈值的第一检测框，作为目标检测框，目标检测框对应的对象作为检测对象；第二置信度阈值大于预设数值。

在另一个可选的实施方式中，本申请实施例中的对象确定模块805具体用于：在置信度更新后的第一检测框和置信度未更新的第一检测框中确定大于第二置信度阈值的第一检测框，作为目标检测框，目标检测框对应的对象作为检测对象；第二置信度阈值大于预设数值。

本申请实施例提供的对象检测装置800中的各个模块/单元具有实现本申请实施例提供的对象检测方法中各个步骤的功能，并能达到其相应的技术效果，为简洁描述，在此不再赘述。

基于同一发明构思，本申请实施例还提供了一种对象检测设备。如图9所示，该对象检测设备900包括处理器901以及存储有计算机程序指令的存储器902。

具体地，上述处理器901可以包括中央处理器(Central Processing Unit，CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器902可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器902可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在一个实例中，存储器802可以包括可移除或不可移除(或固定)的介质，或者存储器802是非易失性固态存储器。存储器902可在对象检测设备的内部或外部。

在一个实例中，存储器902可包括只读存储器(ROM)，随机存取存储器(RAM)，磁盘存储介质设备，光存储介质设备，闪存设备，电气、光学或其他物理/有形的存储器存储设备。因此，通常，存储器902包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如，存储器设备)，并且当该软件被执行(例如，由一个或多个处理器)时，其可操作来执行参考根据本申请的一方面的方法所描述的操作。

处理器901通过读取并执行存储器902中存储的计算机程序指令，以实现本申请实施例提供的对象检测方法，并该对象检测方法达到的相应技术效果，为简洁描述在此不再赘述。

在一个示例中，本申请实施例提供的对象检测设备900还可包括通信接口903和总线904。其中，如图9所示，处理器901、存储器902、通信接口903通过总线904连接并完成相互间的通信。

通信接口903，主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。

总线904包括硬件、软件或两者，将对象检测设备900的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(Accelerated Graphics Port，AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，EISA)总线、前端总线(Front Side Bus，FSB)、超传输(Hyper Transport，HT)互连、工业标准架构(Industry Standard Architecture，ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线904可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

本申请实施例提供的对象检测设备900可以执行本申请实施例中的对象检测方法，并实现该对象检测方法的相应技术效果，为简洁描述，在此不再赘述。

基于同一发明构思，本申请实施例还提供了一种计算机存储介质，该计算机存储介质上存储有计算机程序指令，该计算机程序指令被处理器执行时实现上述实施例中的任意一种对象检测方法。

本申请实施例提供的计算机存储介质可以包括用于数据或指令的大容量存储器。举例来说而非限制，该计算机存储介质可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在一个实例中，计算机存储介质可以包括可移除或不可移除(或固定)的介质，或者计算机存储介质是非易失性固态存储器。计算机存储介质可在对象检测设备的内部或外部。

需要明确的是，本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本申请的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本申请的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(Application Specific Integrated Circuit，ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、只读存储器、闪存、可擦除只读存储器(EROM)、软盘、只读光盘(CD-ROM)、光盘、硬盘、光纤介质、射频(Radio Frequency，RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

以上所述，仅为本申请的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。

Claims

一种对象检测方法，包括：

获取第一帧图像中检测对象的第一检测框和第二帧图像中检测对象的第二检测框；所述第二帧图像的采集时刻在所述第一帧图像的采集时刻之前，所述第一检测框和所述第二检测框均携带有特征参数，所述特征参数包括置信度和位置信息；

根据所述第一检测框的所述位置信息和所述第二检测框的所述位置信息，确定所述第一检测框和所述第二检测框之间的重叠度和距离中的至少一种相似度信息；

对所述重叠度和所述距离中的至少一种相似度信息、所述第一检测框的置信度、以及所述第二检测框的置信度进行融合，得到融合结果；

根据所述融合结果更新所述第一检测框的置信度；

根据置信度更新后的所述第一检测框确定检测对象。
根据权利要求1所述的对象检测方法，其中，所述获取第一帧图像中检测对象的第一检测框和第二帧图像中检测对象的第二检测框之前，还包括：

根据目标检测模型对所述第一帧图像中的检测对象进行检测，得到多个初始检测框；

在多个所述初始检测框中确定大于第一置信度阈值的所述初始检测框；所述第一置信度阈值为小于预设数值；

根据非极大抑制算法对大于第一置信度阈值的所述初始检测框进行筛选，将筛选出的所述初始检测框确定为所述第一检测框。
根据权利要求1所述的对象检测方法，其中，所述位置信息包括检测框轮廓的坐标信息；

根据所述第一检测框的所述位置信息和所述第二检测框的所述位置信息，确定所述第一检测框和所述第二检测框之间的距离，包括：

根据所述第一检测框的所述坐标信息确定所述第一检测框的第一边界长度、第二边界长度和第一中心坐标；

根据所述第二检测框的所述坐标信息确定所述第二检测框的第二中心坐标；

根据所述第一边界长度、所述第二边界长度、所述第一中心坐标和所述第二中心坐标，确定所述第一检测框和所述第二检测框之间的距离。
根据权利要求1所述的对象检测方法，其中，所述对所述重叠度和所述距离中的至少一种信息、所述第一检测框的置信度、以及所述第二检测框的置信度进行融合，得到融合结果，包括：

对所述距离进行归一化处理；

确定所述重叠度和归一化处理后的所述距离的加权平均值；

确定所述加权平均值、所述第一检测框的置信度和所述第二检测框的置信度的乘积，作为融合结果。
根据权利要求1-4中任意一项所述的对象检测方法，其中，所述根据所述融合结果更新所述第一检测框的置信度，包括：

根据所述融合结果确定多个检测框组；所述检测框组包括相互匹配的第一检测框和第二检测框；

根据所述检测框组中所述第一检测框的置信度和所述第二检测框的置信度，确定所述检测框组的置信度；

根据所述检测框组的置信度更新所述检测组中所述第一检测框的置信度。
根据权利要求5所述的对象检测方法，其中，所述根据所述检测框组中所述第一检测框的置信度和所述第二检测框的置信度，确定所述检测框组的置信度，包括：

确定所述第一检测框对应的检测对象在跟踪时序中出现的次数；所述跟踪时序是基于不同时刻采集的图像对同一检测对象进行跟踪检测的检测结果的序列集合；

根据所述次数确定所述第一检测框的置信度的第一权重、以及所述第二检测框的置信度的第二权重；

根据所述第一权重和所述第二权重，确定所述第一检测框的置信度和所述第二检测框的置信度的加权平均值，作为所述检测框组的置信度。
根据权利要求1-4中任意一项所述的对象检测方法，其中，所述根据置信度更新后的所述第一检测框确定所述检测对象，包括：

在置信度更新后的所述第一检测框中确定大于第二置信度阈值的所述第一检测框，作为所述目标检测框，所述目标检测框对应的对象作为所述检测对象；

或，在置信度更新后的所述第一检测框和置信度未更新的所述第一检测框中确定大于所述第二置信度阈值的所述第一检测框，作为所述目标检测框，所述目标检测框对应的对象作为所述检测对象；

所述第二置信度阈值大于预设数值。
一种对象检测装置，包括：

信息获取模块，用于获取第一帧图像中检测对象的第一检测框和第二帧图像中检测对象的第二检测框；所述第二帧图像的采集时刻在所述第一帧图像的采集时刻之前，所述第一检测框和所述第二检测框均携带有特征参数，所述特征参数包括置信度和位置信息；

相似度确定模块，用于根据所述第一检测框的所述位置信息和所述第二检测框的所述位置信息，确定所述第一检测框和所述第二检测框之间的重叠度和距离中的至少一种相似度信息；

信息融合模块，用于对所述重叠度和所述距离中的至少一种相似度信息、所述第一检测框的置信度、以及所述第二检测框的置信度进行融合，得到融合结果；

信息更新模块，用于根据所述融合结果更新所述第一检测框的置信度；

对象确定模块，用于根据置信度更新后的所述第一检测框确定所述检测对象。
根据权利要求8所述的对象检测装置，其中，所述对象检测装还包括：

检测模块，用于根据目标检测模型对所述第一帧图像中的检测对象进行检测，得到多个初始检测框；

所述检测模块，还用于在多个所述初始检测框中确定大于第一置信度阈值的所述初始检测框；所述第一置信度阈值为小于预设数值；

所述检测模块，还用于根据非极大抑制算法对大于第一置信度阈值的所述初始检测框进行筛选，将筛选出的所述初始检测框确定为所述第一检测框。
根据权利要求8所述的对象检测装置，其中，所述位置信息包括检测框轮廓的坐标信息；

所述相似度确定模块，还用于根据所述第一检测框的所述坐标信息确定所述第一检测框的第一边界长度、第二边界长度和第一中心坐标；

根据所述第二检测框的所述坐标信息确定所述第二检测框的第二中心坐标；

根据所述第一边界长度、所述第二边界长度、所述第一中心坐标和所述第二中心坐标，确定所述第一检测框和所述第二检测框之间的距离。
根据权利要求8所述的对象检测装置，其中，

所述信息融合模块，还用于对所述距离进行归一化处理；确定所述重叠度和归一化处理后的所述距离的加权平均值；确定所述加权平均值、所述第一检测框的置信度和所述第二检测框的置信度的乘积，作为融合结果。
根据权利要求8-11中任意一项所述的对象检测装置，其中，

所述信息更新模块，还用于根据所述融合结果确定多个检测框组；所述检测框组包括相互匹配的第一检测框和第二检测框；根据所述检测框组中所述第一检测框的置信度和所述第二检测框的置信度，确定所述检测框组的置信度；根据所述检测框组的置信度更新所述检测组中所述第一检测框的置信度。
根据权利要求12所述的对象检测装置，其中，

所述信息更新模块，还用于确定所述第一检测框对应的检测对象在跟踪时序中出现的次数；所述跟踪时序是基于不同时刻采集的图像对同一检测对象进行跟踪检测的检测结果的序列集合；根据所述次数确定所述第一检测框的置信度的第一权重、以及所述第二检测框的置信度的第二权重；根据所述第一权重和所述第二权重，确定所述第一检测框的置信度和所述第二检测框的置信度的加权平均值，作为所述检测框组的置信度。
根据权利要求8-11中任意一项所述的对象检测装置，其中，

所述对象确定模块，还用于在置信度更新后的所述第一检测框中确定大于第二置信度阈值的所述第一检测框，作为所述目标检测框，所述目标检测框对应的对象作为所述检测对象；

所述对象确定模块，还用于在置信度更新后的所述第一检测框和置信度未更新的所述第一检测框中确定大于所述第二置信度阈值的所述第一检测框，作为所述目标检测框，所述目标检测框对应的对象作为所述检测对象；

所述第二置信度阈值大于预设数值。
一种对象检测设备，包括：处理器，以及存储有计算机程序指令的存储器；

所述处理器读取并执行所述计算机程序指令，以实现如权利要求1-7中任意一项所述的对象检测方法。
一种计算机存储介质，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-7中任意一项所述的对象检测方法。