WO2020114097A1

WO2020114097A1 - 一种边界框确定方法、装置、电子设备及存储介质

Info

Publication number: WO2020114097A1
Application number: PCT/CN2019/111645
Authority: WO
Inventors: 刘裕峰; 胡玉坤; 郑文
Original assignee: 北京达佳互联信息技术有限公司
Priority date: 2018-12-04
Filing date: 2019-10-17
Publication date: 2020-06-11
Also published as: CN109784327B; CN109784327A

Abstract

一种边界框确定方法、装置、电子设备及存储介质，涉及图像处理技术领域，所述边界框确定方法包括：将待检测图像输入第一卷积神经子网络，获取所述待检测图像中目标物体的第一特征（S11）；所述第一特征包括：所述待检测图像中所述目标物体的边界图像特征；将所述第一特征，分别输入n个第二神经子网络，得到所述目标物体的n个第一边界框（S12）；所述n为大于等于2的整数；所述各个第一边界框包括第一位置参数值；基于所述n个第一边界框的各个第一位置参数值，确定所述待检测图像中目标物体的目标边界框（S13）。该方法能够提升确定目标物体的边界框的鲁棒性，有效避免过拟合，能够提升目标物体的边界框的准确性。

Description

一种边界框确定方法、装置、电子设备及存储介质

本申请要求于2018年12月4日提交中国专利局、申请号为201811475816.4发明名称为“边界框确定方法、装置、电子设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及图像处理技术领域，尤其涉及一种边界框确定方法、装置、电子设备及存储介质。

背景技术

边界框为物体检测时界定目标物体边缘的界限。目前主要通过边界框对应的第一位置参数值对目标物体的界限进行划分。

目前主要基于卷积神经子网络，将待检测的图像作为输入，通过卷积神经子网络进行图像特征提取后，获得待检测图像的图像特征后，将该待检测图像的图像特征通过第二神经子网络，输出待检测图像中的目标物体的边界框。

相关技术中，由于第二神经子网络本身的不稳定性等，导致基于该第二神经子网络得到的边界框存在识别不准的问题。

发明内容

为克服相关技术中存在的问题，本申请提供一种边界框确定方法及装置。

根据本申请实施例的第一方面，提供一种边界框确定方法，包括：

将待检测图像输入第一卷积神经子网络，获取所述待检测图像中目标物体的第一特征；所述第一特征包括：所述待检测图像中所述目标物体的边界图像特征；

将所述第一特征，分别输入n个第二神经子网络，得到所述目标物体的n个第一边界框；所述n为大于等于2的整数；所述各个第一边界框包括第一位置参数值；

基于所述n个第一边界框的各个第一位置参数值，确定所述待检测图像中目标物体的目标边界框。

根据本申请实施例的第二方面，提供一种边界框确定装置，包括：

第一特征获取模块，被配置为将待检测图像输入第一卷积神经子网络，获取所述待检测图像中目标物体的第一特征；所述第一特征包括：所述待检测图像中所述目标物体的边界图像特征；

第一边界框确定模块，被配置为将所述第一特征，分别输入n个第二神经子网络，得到所述目标物体的n个第一边界框；所述n为大于等于2的整数；所述各个第一边界框包括第一位置参数值；

目标边界框确定模块，被配置为基于所述n个第一边界框的各个第一位置参数值，确定所述待检测图像中目标物体的目标边界框。

根据本申请实施例的第三方面，提供一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为：执行上述的边界框确定方法。

根据本申请实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行上述的边界框确定方法。

根据本申请实施例的第五方面，提供一种计算机程序产品，当所述计算机程序产品中的指令由移动终端的处理器执行时，使得移动终端能够执行上述的边界框确定方法。

基于本申请实施例提供的技术方案，将待检测图像输入第一卷积神经子网络，获取待检测图像中目标物体的第一特征；第一特征包括：待检测图像中目标物体的边界图像特征；将第一特征，分别输入n个第二神经子网络，得到目标物体的n个第一边界框；n为大于等于2的整数；各个第一边界框包括第一位置参数值；基于n个第一边界框的各个第一位置参数值，确定待检测图像中目标物体的目标边界框。该目标物体的目标边界框同时基于n种第二神经子网络获得，确定的该目标边界框可以位于各个第一边界框的各个第一位置参数值的相对中间区域，能够避免单个第二神经子网络的不稳定性导致的对目标物体的划分不准的问题，能够提升确定目标物体的边界框的鲁棒性，能够有效避免过拟合的问题，进而能够提升目标物体的边界框的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

图1是根据一示例性实施例示出的一种边界框确定方法的流程图。

图2是根据一示例性实施例示出的另一种边界框确定方法的流程图。

图3是根据一示例性实施例示出的一种边界框确定装置框图。

图4是根据一示例性实施例示出的另一种边界框确定装置框图。

图5是根据一示例性实施例示出的一种电子设备的框图。

图6是根据一示例性实施例示出的另一种电子设备的框图。

具体实施方式

图1是根据一示例性实施例示出的一种边界框确定方法的流程图，如图1所示，边界框确定方法用于终端中，可以包括以下步骤。

在步骤S11中，将待检测图像输入第一卷积神经子网络，获取待检测图像中目标物体的第一特征。

其中，第一特征可以包括：待检测图像中目标物体的边界图像特征。

在本申请实施例中，上述待检测图像可以为RGB格式、YUV格式等。在本申请实施例中，对此不作具体限定。

在本申请实施例中，上述待检测图像可以为拍摄的图像，或基于网络下载的图像，或者可以为视频中的一帧或多帧图像等，在本申请实施例中，对此不作具体限定。

在本申请实施例中，该待检测图像中的目标物体可以为待检测图像中的任意一个主体，例如，若该待检测图像中包括：小狗、小猫、花等，该待检测图像中的目标物体可以为该待检测图像中的小狗，或者，该待检测图像中的目标物体可以为该待检测图像中的小猫，或该待检测图像中的目标物体可以为该待检测图像中的花等。

在本申请实施例中，该第一卷积神经子网络可以为针对该目标物体的第一特征提取的卷积神经子网络。例如，针对上述例子，若目标物体为该待检测图像中的小狗，则该第一卷积神经子网络可以为针对小狗的第一特征提取的卷积神经子网络。在本申请实施例中，对此不作具体限定。

在本申请实施例中，该第一卷积神经子网络可以包括：输入层、卷积层、池化层等，在本申请实施例中，对此不作具体限定。第一卷积神经子网络还可以包括：密集卷积网络。该密集卷积网络中每一个第一网络层的输入包括该密集卷积网络中所有第二网络层的输入，其中，第一网络层可以为该密集卷积网络中，任一网络层，该第二网络层可以为该密集卷积网络中，该第一网络层之前的各个网络层。例如，若第一网络层若为该密集网络层中的第4层，则该第四层的输入可以包括：该密集卷积网络中，第一层的输入、第二层的输入、第三层的输入，以及第三层的输出。相比于任意网络层的输入只包括其上一层的输出而言，密集卷积网络可以减轻梯度消失的现象，同时使得待检测图像中目标物体的第一特征传递更加有效，便于网络训练，且能够从一定程度上抑制过拟合的问题，进而使得，基于该第一卷积神经子网络，提取的待检测图像中目标物体的第一特征更加准确。

在本申请实施例中，待检测图像中目标物体的第一特征可以包括：待检测图像中目标物体的边界图像特征。待检测图像中目标物体的边界图像特征可以为：待检测图像中目标物体的轮廓图像特征、形状图像特征、空间位置图像特征等。在本申请实施例中，对此不作具体限定。

在本申请实施例中，将待检测图像输入上述第一卷积神经子网络，获取该待检测图像中目标物体的第一特征，该第一特征可以包括：该待检测图像中该目标物体的边界图像特征。

在步骤S12中，将第一特征，分别输入n个第二神经子网络，得到目标物体的n个第一边界框。

其中，n为大于等于2的整数，各个第一边界框包括第一位置参数值。

在本申请实施例中，上述n为大于等于2的整数，具体可以根据实际需要进行设定。例如，n可以为2，n可以为8、n可以为20等，在本申请实施例中，对此不作具体限定。

在本申请实施例中，上述各个第二神经子网络可以基于上述待检测图像中目标物体的第一特征，输出该目标物体的边界，进而可以得到该目标物体的各个第一边界框。该第二神经子网络可以包括：卷积层、池化层、全连接层中的至少一种等，在本申请实施例中，对此不作具体限定。

在本申请实施例中，目标物体的第一边界框，可以为在表征待检测图像中目标物体的轮廓的边界框，该边界框可以为矩形，该第一边界框可以包括第一位置参数值，该第一边界框的第一位置参数值可以为能够在待检测图像中限定目标物体的轮廓的位置参数，例如，该第一边界框的第一位置参数可以为：该第一边界框的中心坐标，以及该边界框的长和宽等，或者，第一边界框的第一位置参数可以为：该第一边界框至少一条对角线上的顶点坐标，例如，第一边界框的第一位置参数可以为：该边界框的左上角的顶点坐标和右下角的顶点坐标等。在本申请实施例中，对此不作具体限定。

在本申请实施例中，n个第二神经子网络可以为n个相同的第二神经子网络，或者，n个第二神经子网络可以为n个不同的第二神经子网络，或者，n个第二神经子网络可以包括m组第三神经子网络，m为大于0小于n的整数，各组第三神经子网络分别可以包括：y个相同的第四神经子网络，y为大于等于2小于等于n的整数，以及x个与上述第三神经子网络或第四神经子网络不同的第二神经子网络等。在本申请实施例中，对此不作具体限定。

例如，若n为8，该8个第二神经子网络中可以包括：8个相同的第二神经子网络，如，A1、A2、A3、A4、A5、A6、A7、A8，或者，该8个第二神经子网络中可以包括：8个互不相同的第二神经子网络，如，A1、B1、C1、D1、E1、F1、G1、H1，或者，该8个第二神经子网络中可以包括：3组第三神经子网络，则m可以为3，其中，第1组第三神经子网络包括3个相同的第四神经子网络，如：A1、A2、A3，则y1可以为3，第2组第三神经子网络可以包括2个相同的第四神经子网络，如，B1、B2，则y2可以为2，第3组第三神经子网络可以包括2个相同的第四神经子网络，如，C1、C2，则y3可以为2，以及1个与上述第三神经子网络或第四神经子网络不同的第二神经子网络，如，D1，则x可以为1。

在本申请实施例中，可以将上述第一特征，分别输入上述n个第二神经子网络，确定该目标物体的边界，得到该目标物体的n个第一边界框，各个第一边界框包括第一位置参数值。例如，针对上述例子，可以将上述第一特征，输入上述A1、B1、C1、D1、E1、F1、G1、H1，8个第二神经子网络，参照下表1，表1示出了上述8个第二神经子网络的一种模型结构。

表1

表1中，Mobile_unit可以为e个第一卷积层、f个第一池化层、p个第一全连接层组成的第五神经子网络，e、f、p、s、w可以为大于0的整数，s*w可以为上述第一特征的尺寸，input可以为上述第一特征通道数，第一特征的尺寸、通道数可以根据第一特征实际情况进行确定，例如，s*w可以为：16*16，通道数可以为1，或者，通道数可以为3，或者通道数可以为4等，AvgPool可以为平均池化层，conv_layer可以为卷积层，MaxPool可以为最大池化层。表1中，conv_layer1、conv_layer9、conv_layer10、conv_layer12可以相同或不同，在本申请实施例中，对此不作具体限定。

表1中，各个第二神经子网络中，各个层的数量可以根据实际情况进行设定。在本申请实施例中，对此不作具体限定。

在本申请实施例中，可以将上述第一特征输入上述A1第二神经子网络，进而得到第1个第一边界框，将上述第一特征输入上述B1第二神经子网络，进而得到第2个第一边界框，将上述第一特征输入上述C1第二神经子网络，进而得到第3个第一边界框，将上述第一特征输入上述D1第二神经子网络，进而得到第4个第一边界框，将上述第一特征输入上述E1第二神经子网络，进而得到第5个第一边界框，将上述第一特征输入上述F1第二神经子网络，进而得到第6个第一边界框，将上述第一特征输入上述G1第二神经子网络，进而得到第7个第一边界框，将上述第一特征输入上述H1第二神经子网络，进而得到第8个第一边界框。上述8个第一边界框，各个第一边界框包括第一位置参数值。

在步骤S13中，基于n个第一边界框的各个第一位置参数值，确定待检测图像中目标物体的目标边界框。

在本申请实施例中，基于上述n个第一边界框的各个第一位置参数值，确定上述待检测图像中目标物体的目标边界框。

一种实现方式中，可以将上述n个第一边界框的各个第一位置参数值进行均值计算等，进而确定上述待检测图像中目标物体的目标边界框。该均值计算可以为几何均值计算、算术均值计算、加权均值计算、均方根平均值计算、调和平均值计算等，在本申请实施例中，对此不作具体限定。例如，针对上述例子，将上述第一特征，输入上述A1、B1、C1、D1、E1、F1、G1、H1，8个第二神经子网络，得到8个第一边界框，各个第一边界框包括第一位置参数值，基于上述8个第一边界框的第一位置参数值，确定该待检测图像中目标物体的目标边界框。确定的该目标边界框可以位于各个第一边界框的各个第一位置参数值的相对中间区域，能够避免单个第二神经子网络的不稳定性导致的对目标物体的划分不准的问题，能够提升目标物体的边界框的准确性。

图2是根据一示例性实施例示出的一种边界框确定方法的流程图，如图2所示，边界框确定方法包括以下步骤。

在步骤S21中，获取第一图像样本数据。

在本申请实施例中，第一图像样本数据可以是通过相机等拍摄装置拍摄的图像，或者可以为通过网络下载或接收的图像等。该第一图像样本数据中可以包括多个不同的物体或主体，例如，可以包括：人、小狗、小猫等。在本申请实施例中，对此不作具体限定。

在本申请实施例中，该第一图像样本数据可以包括上述目标物体。例如，上述目标物体若为小狗，则上述第一图像样本数据中可以包括小狗。在本申请实施例中，对此不作具体限定。

在本申请实施例中，在获取到第一图像样本数据的同时或之后，针对上述第一图像样本数据，可以获取其对应的特征标签图，该特征标签图可以是对上述各个第一图像样本数据中各个主体的第一特征进行标注的图。例如，针对上述例子，若第一图像样本数据包括：人、小猫、小狗等，该特征标签图即为将该第一图像样本数据中各个像素进行标注后的图，例如，标注出各个像素点是否为小狗的第一特征，若该像素属于小狗的第一特征，可以具体标注出该像素具体是该第一特征中的哪一类特征等。在本申请实施例中，对此不作具体限定。

在步骤S22中，基于第一图像样本数据，训练第一卷积神经子网络。

在本申请实施例中，可以针对上述第一图像样本数据，训练第一卷积神经子网络。

一种实现方式中，可以将上述第一图像样本数据，输入原始第一卷积神经子网络，采用该原始第一卷积神经子网络，提取第一图像样本数据对应的特征部分，该特征部分可以包括该第一图像样本数据中各个主体的局部特征或该第一图像样本数据的整体特征等，该局部特征可以识别出该第一图像样本数据中各个主体的形状、轮廓等，该第一图像样本数据的整体特征可以为该第一图像样本数据中各个主体的逻辑结构等。例如，人通常比小狗或小猫高等。

对上述第一图像样本数据对应的特征部分进行相应的运算，获得上述第一图像样本数据中各个主体的第一特征，主要是获取目标物体的第一特征，将上述第一图像样本数据的整体特征、局部特征、边缘特征、第一特征等进行相应运算，同时，参照上述第一图像样本数据对应的特征标签图，对上述第一卷积神经子网络中的各项参数等进行调整，直至根据该原始第一卷积神经子网络输出的第一特征，与上述第一图像样本数据对应的特征标签图中标注的目标物体的第一特征的一致性达到预设阈值的情况下，训练得到该第一卷积神经子网络。在本申请实施例中，对此不作具体限定。

在本申请实施例中，该第一卷积神经子网络可以与获取第一特征的目标物体具有对应关系，则在训练上述第一卷积神经子网络的过程中，可以主要关注上述第一图像样本数据中该目标物体的相关数据，进而提高该第一卷积神经子网络相对该目标物体的针对性，进而提高针对该目标物体第一特征提取的准确性。在本申请实施例中，对此不作具体限定。

在步骤S23中，将待检测图像输入第一卷积神经子网络，获取待检测图像中目标物体的第一特征；第一特征包括：待检测图像中目标物体的边界图像特征。

在本申请实施例中，上述步骤可以参照上述步骤S11的具体记载，为了避免重复，此处不再赘述。

在步骤S24中，将第一图像样本数据，输入第一卷积神经子网络，获取第一图像样本数据中目标物体的第三特征；第三特征包括：第一图像样本数据中目标物体的边界图像特征。

在本申请实施例中，可以将上述第一图像样本数据，输入上述训练好的第一卷积神经子网络，获取上述第一图像样本数据中目标物体的第三特征，该第三特征可以包括：该第一图像样本数据中该目标物体的边界图像特征。

例如，若上述目标物体若为小狗，则上述第一图像样本数据中可以包括小狗。将上述第一图像样本数据，输入上述训练好的第一卷积神经子网络，获取上述第一图像样本数据中小狗的第三特征，该第三特征可以包括：该第一图像样本数据中小狗的边界图像特征，如，第一图像样本数据中小狗的边缘图像特征、形状图像特征等。

在步骤S25中，基于第三特征，训练n个第二神经子网络。

在本申请实施例中，可以针对上述第三特征，训练上述n个第二神经子网络。一种实现方式中，可以将上述第三特征，分别输入各个原始第二神经子网络，采用各个原始第二神经子网络，基于上述第三特征，确定上述第一图像样本数据中目标物体的原始边界框。

在本申请实施例中，在获取到第一图像样本数据的同时或之后，针对上述第一图像样本数据，可以获取其对应的边界标签图，该边界标签图可以是对上述各个第一图像样本数据中目标物体的实际边界框进行标注的图。例如，针对上述例子，若第一图像样本数据包括：人、小猫、小狗等，该边界标签图即为将该第一图像样本数据中各个像素进行标注后的图，例如，标注出各个像素点是否为小狗的实际边界框等。在本申请实施例中，对此不作具体限定。同时，可以参照上述第一图像样本数据对应的边界标签图中标注的目标物体的实际边界框，调整各个原始第二神经子网络的各项参数，使得各个原始第二神经子网络得出的该第一图像样本数据中目标物体的边界框，与上述第一图像样本数据对应的边界标签图中标注的目标物体的实际边界框的交并比等达到预设值，训练得到各个第二神经子网络。在本申请实施例中，对此不作具体限定。

在本申请实施例中，各个第二神经子网络可以与获取边界框的目标物体具有对应关系，则在训练上述各个第二神经子网络的过程中，可以主要关注上述第一图像样本数据中该目标物体的相关数据，进而提高各个第二神经子网络相对该目标物体的针对性，进而提高针对该目标物体确定边界框的识别准确性。在本申请实施例中，对此不作具体限定。

在步骤S26中，若n个第二神经子网络中包括：m组第三神经子网络，各组第三神经子网络分别包括：y个相同的第四神经子网络，对第一特征进行差异化处理，得到y种不同的第二特征。

在本申请实施例中，m为大于0小于n的整数，例如，若n为8，m可以为1、2、3等。y为大于等于2小于等于n的整数。若n为8，y可以为2、3等。如果上述n个第二神经子网络中包括：m组第三神经子网络，各组第三神经子网络分别包括：y个相同的第四神经子网络，y为大于等于2小于等于n的整数，n为大于等于2的整数，对第一特征进行差异化处理，得到y种不同的第二特征。

例如，若n为8，该8个第二神经子网络中可以包括：3组第三神经子网络，则m可以为3，其中，第1组第三神经子网络包括3个相同的第四神经子网络，如：A1、A2、A3，则y1可以为3，第2组第三神经子网络可以包括2个相同的第四神经子网络，如，B1、B2，则y2可以为2，第3组第三神经子网络可以包括2个相同的第四神经子网络，如，C1、C2，则y3可以为2，以及1个与上述第三神经子网络或第四神经子网络不同的第二神经子网络，如，D1。

在本申请实施例中，针对各组第三神经子网络，由于其包括了y个相同的第四神经子网络，可以将上述第一特征进行差异化处理，以得到y种不同的第二特征。在本申请实施例中，可选的，差异化处理包括：剪裁处理、缩放处理、镜像处理、旋转处理、增强处理、锐化处理中的至少一种。剪裁处理可以是从上述第一特征中，剪裁一部分图像特征，缩放处理可以为将上述第一特征的进行放大缩小处理等，镜像处理可以为将上述第一特征进行镜像处理，旋转处理可以为将上述第一特征进行预设角度的旋转等，增强处理可以为将上述第一特征进行去噪或增强边缘等，锐化处理可以为将上述第一特征进行轮廓补偿，增强边缘及灰度跳变的部分等，即可以通过对上述待检测图像处理进行上述差异化处理，进而得到y种不同的第二特征。在本申请实施例中，对此不作具体限定。

例如，针对上述例子，针对第1组第三神经子网络，其包括3个相同的第四神经子网络，如：A1、A2、A3，则y1可以为3，则可以对上述第一特征进行差异化处理，得到3种不同的第二特征；第2组第三神经子网络包括2个相同的第四神经子网络，如，B1、B2，则y2可以为2，则可以对上述第一特征进行差异化处理，得到2种不同的第二特征；第3组第三神经子网络可以包括2个相同的第四神经子网络，如，C1、C2，则y3可以为2，则可以对上述第一特征进行差异化处理，得到2种不同的第二特征。

另外，如果某几组第三神经子网络中，第四神经子网络的个数相同，为了减少工作量，可以只针对一组第三神经子网络中的第四神经子网络的个数，待检测图像处理进行上述进行差异化处理，然后，将差异化得到的第二特征直接作为另外1组第三神经子网络对应的第二特征。例如，针对上述例子，第2组第三神经子网络包括2个相同的第四神经子网络，如，B1、B2，则y2可以为2，第3组第三神经子网络可以包括2个相同的第四神经子网络，如，C1、C2，则y3可以为2，上述第2组第三神经子网络和第3组第三神经子网络包括的第四神经子网络的个数相同，均为2，为了减少工作量，可以只针对一组第三神经子网络中的第四神经子网络的个数，进行差异化处理，例如，对上述第一特征进行差异化处理，得到2种不同的第二特征，将差异化得到的第二特征直接作为第3组第三神经子网络对应的第二特征，相当于，针对第2组第三神经子网络和第3组第三神经子网络，一共只针对第一特征进行差异化处理，得到2种不同的第二特征，并不是得到2种不同的第二特征，进而为了减少运算量等，提升效率。

在本申请实施例中，还可以只针对上述m组第三神经子网络中，第四神经子网络个数最多的一组，针对待检测图像处理进行上述差异化处理，得到多个第二特征，其余各组第三神经子网络，直接从上述多个第二特征中任选即可。例如，针对上述例子，若n为8，该8个第二神经子网络中可以包括：3组第三神经子网络，第1组第三神经子网络，包括3个相同的第四神经子网络，如：A1、A2、A3，则y1可以为3，第2组第三神经子网络包括2个相同的第四神经子网络，如，B1、B2，则y2可以为2，第3组第三神经子网络可以包括2个相同的第四神经子网络，如，C1、C2，则y3可以为2，上述3组第三神经子网络中，第1组第三神经子网络包括的第四神经子网络的个数最多，为3个，为了减少工作量，可以只针对第1组第三神经子网络中的第四神经子网络的个数，进行差异化处理，例如，对上述第一特征进行差异化处理，得到3种不同的第二特征，第2组第三神经子网络、第3组第三神经子网络，直接从上述3个第二特征中任选即可。相当于，针对3组第三神经子网络，一共只针对第一特征进行差异化处理，得到3种不同的第二特征，并不是得到7种不同的第二特征，进而减少运算量，提升效率。

在本申请实施例中，可选的，第二神经子网络为：a个平均池化层、b个最大池化层、c个卷积层、d个全连接层的任意组合；a、b、d为大于等于0的整数；c为大于等于1的整数。一种实现方式中，该第二神经子网络可以为： a个平均池化层、b个最大池化层、c个卷积层、d个全连接层的任意组合，其中，a、b、d可以为大于等于0的整数；c可以为大于等于1的整数。例如，第二神经子网络可以为：10个卷积层连接5个平均池化层，再连接1个全连接层。

在步骤S27中，将y种不同的第二特征，分别输入各组第三神经子网络中的各个第四神经子网络，得到目标物体的k个第一边界框。

其中，k为大于0小于等于n的整数，各个第一边界框包括第一位置参数值。

在本申请实施例中，可以将上述y种不同的第二特征，分别输入各组第三神经子网络中的各个第四神经子网络，确定上述目标物体的边界，得到上述目标物体的k个第一边界框，k为大于0小于等于n的整数，各个第一边界框可以包括第一位置参数值。

例如，针对上述例子，若n为8，该8个第二神经子网络中可以包括：3组第三神经子网络，则m可以为3，其中，第1组第三神经子网络包括3个相同的第四神经子网络，如：A1、A2、A3，则y1可以为3，第2组第三神经子网络可以包括2个相同的第四神经子网络，如，B1、B2，则y2可以为2，第3组第三神经子网络可以包括2个相同的第四神经子网络，如，C1、C2，则y3可以为2，以及1个与上述第三神经子网络或第四神经子网络不同的第二神经子网络，如，D1。则可以将上述3种不同的第二特征，输入第1组第三神经子网络中的3第四神经子网络，确定上述目标物体的边界，得到上述目标物体的3个第一边界框，将上述2种不同的第二特征，输入第2组第三神经子网络中的2第四神经子网络，确定上述目标物体的边界，得到上述目标物体的2个第一边界框，将上述2种不同的第二特征，输入第3组第三神经子网络中的2第四神经子网络，确定上述目标物体的边界，得到上述目标物体的2个第一边界框。一共得到上述目标物体的7个第一边界框。则上述k可以为：3+2+2＝7。

在步骤S28中，将第一特征，分别输入x个第二神经子网络，得到目标物体的x个第一边界框。

其中，x个第二神经子网络为n个第二神经子网络中，除第三神经子网络或第四神经子网络之外的神经子网络，x为大于等于0小于n的整数，各个第一边界框包括第一位置参数值。

在本申请实施例中，可以将上述第一特征，分别输入x个第二神经子网络，确定该目标物体的边界，得到该目标物体的x个第一边界框，上述x个第二神经子网络可以为上述n个第二神经子网络中，除上述第三神经子网络或第四神经子网络之外的神经子网络。x可以为大于等于0小于n的整数。具体的，x可以为n与上述k的差值。各个第一边界框可以包括第一位置参数值。

例如，针对上述例子，若n为8，该8个第二神经子网络中可以包括：3组第三神经子网络，则m可以为3，其中，第1组第三神经子网络包括3个相同的第四神经子网络，如：A1、A2、A3，则y1可以为3，第2组第三神经子网络可以包括2个相同的第四神经子网络，如，B1、B2，则y2可以为2，第3组第三神经子网络可以包括2个相同的第四神经子网络，如，C1、C2，则y3可以为2，以及1个与上述第三神经子网络或第四神经子网络不同的第二神经子网络，如，D1，则x可以为1。则可以将上述第一特征，输入上述第二神经子网络D1中，确定该目标物体的边界，得到该目标物体的1个第一边界框。

在本申请实施例中，若上述n个第二神经子网络中包括：m组第三神经子网络，上述m为大于0小于n的整数，上述各组第三神经子网络分别包括：y个相同的第四神经子网络，上述y为大于等于2小于等于n的整数，对上述第一特征进行差异化处理，得到y种不同的第二特征；将上述y种不同的第二特征，分别输入各组第三神经子网络中的各个第四神经子网络，确定上述目标物体的边界，得到上述目标物体的k个第一边界框，k为大于0小于等于n的整数；将上述第一特征，分别输入x个第二神经子网络，确定上述目标物体的边界，得到该目标物体的x个第一边界框，x个第二神经子网络为上述n个第二神经子网络中，除上述第三神经子网络或第四神经子网络之外的神经子网络，x为大于等于0小于n的整数。即在上述n个第二神经子网络中存在相同子网络的情况下，对上述第一特征进行了差异化处理，进而使得各个相同子网络输入的第二特征，各不相同，进而使得各个相同子网络能够关注，该待检测图像中目标物体不同的边界图像特征，能够从一定程度上，提升后续确定目标物体的目标边界框的准确性。

在步骤S29中，将n个第一边界框的各个第一位置参数值，按照预设权重加权求和，得到目标物体的第二位置参数值，并基于第二位置参数值确定待检测图像中目标物体的目标边界框。

在本申请实施例中，可以将上述n个第一边界框的各个第一位置参数值，按照预设权重加权求和，得到上述目标物体的第二位置参数值，并基于上述第二位置参数值确定上述待检测图像中目标物体的目标边界框。该预设权重可以根据实际需要进行设定等，在本申请实施例中，对此不作具体限定。

例如，若n为2，若第1个第一边界框左上角的顶点坐标为：(3，9)，右下角的的顶点坐标为：(6，2)，第2个第一边界框左上角的顶点坐标为：(3，7)，右下角的的顶点坐标为：(4，4)，第1个第一边界框的第一位置参数值对应的权重为：0.5，若第2个第一边界框的第一位置参数值对应的权重为：0.5，则得到该目标物体的第二位置参数值可以为：左上角顶点坐标为(3×0.5+3×0.5，9×0.5+7×0.5)，右上角顶点坐标为(6×0.5+4×0.5，2×0.5+4×0.5)，即目标物体的第二位置参数值可以为：左上角顶点坐标为(3，8)，右上角顶点坐标为(5，3)，进而基于上述第二位置参数值确定该待检测图像中目标物体的目标边界框为：待检测图像中左上角顶点坐标为(3，8)，右上角顶点坐标为(5，3)的矩形框。确定的该目标边界框可以位于上述2个第一边界框的各个第一位置参数值的相对中间区域，能够避免单个第二神经子网络的不稳定性导致的对目标物体的划分不准的问题，能够提升目标物体的边界框的准确性。

在步骤S30中，获取待检测图像中目标物体的实际边界框。

在本申请实施例中，可以获取上述待检测图像中目标物体的实际边界框。该过程可以由人工在上述待检测图像中，对上述目标物体的实际边框进行确定，或者，该过程可以为：将上述待检测图像输入第一边界框输入模型，得到的待检测图像中目标物体的实际边界框。该第一边界框模型可以为针对该目标物体的，置信度较高的确定目标物体边界框的模型等，在本申请实施例中，对此不作具体限定。

在步骤S31中，基于实际边界框和目标边界框，确定目标边界框的评价值。

在本申请实施例中，可以基于上述实际边界框和该目标边界框，确定该目标边界框的评价值。该评价值可以为能够评判该目标边界框与实际边界框相似性的参数值等。例如，该评价值可以为上述实际边界框和该目标边界框的交并比等，进而通过上述实际边界框和该目标边界框的交并比等，对该目标边界框的准确性进行评价。例如，上述实际边界框和该目标边界框的交并比越高，可以认为该目标边界框的准确性越高。

在本申请实施例中，获取上述待检测图像中目标物体的实际边界框，基于上述实际边界框和上述目标边界框，确定上述目标边界框的评价值。可以准确的对上述目标边界框进行评价。

在本申请实施例中，将待检测图像输入第一卷积神经子网络，获取待检测图像中目标物体的第一特征；第一特征可以包括：待检测图像中目标物体的边界图像特征；将第一特征，分别输入n个第二神经子网络，得到目标物体的n个第一边界框；n为大于等于2的整数；各个第一边界框包括第一位置参数值；基于n个第一边界框的各个第一位置参数值，确定待检测图像中目标物体的目标边界框。可以使得上述实际边界框和该目标边界框的交并比提升2％左右。

图3是根据一示例性实施例示出的一种边界框确定装置框图。参照图3，该装置300包括第一特征获取模块303，第一边界框确定模块307和目标边界框确定模块308。

第一特征获取模块303，被配置为将待检测图像输入第一卷积神经子网络，获取所述待检测图像中目标物体的第一特征；所述第一特征包括：所述待检测图像中所述目标物体的边界图像特征；

第一边界框确定模块307，被配置为将所述第一特征，分别输入n个第二神经子网络，得到所述目标物体的n个第一边界框；所述n为大于等于2的整数；所述各个第一边界框包括第一位置参数值；

目标边界框确定模块308，被配置为基于所述n个第一边界框的各个第一位置参数值，确定所述待检测图像中目标物体的目标边界框。

可选的，参见图4，图4是根据一示例性实施例示出的另一种边界框确定装置框图。

若所述n个第二神经子网络中包括：m组第三神经子网络，所述m为大于0小于n的整数，所述各组第三神经子网络分别包括：y个相同的第四神经子网络，所述y为大于等于2小于等于n的整数，所述装置，还可以包括：

差异化处理模块306，被配置为对所述第一特征进行差异化处理，得到y种不同的第二特征；

所述第一边界框确定模块307可以包括：

第一边界框第一确定单元3071，被配置为将所述y种不同的第二特征，分别输入各组第三神经子网络中的各个第四神经子网络，得到所述目标物体的k个第一边界框；所述k为大于0小于等于n的整数；

第一边界框第二确定单元3072，被配置为将所述第一特征，分别输入x个第二神经子网络，得到所述目标物体的x个第一边界框；所述x个第二神经子网络为所述n个第二神经子网络中，除所述第三神经子网络或第四神经子网络之外的神经子网络；所述x为大于等于0小于n的整数。

可选的，所述差异化处理可以包括：剪裁处理、缩放处理、镜像处理、旋转处理、增强处理、锐化处理中的至少一种。

可选的，所述目标边界框确定模块308可以包括：

目标边界框确定单元3081，被配置为将所述n个第一边界框的各个第一位置参数值，按照预设权重加权求和，得到所述目标物体的第二位置参数值，并基于所述第二位置参数值确定所述待检测图像中目标物体的目标边界框。

可选的，所述第二神经子网络为：a个平均池化层、b个最大池化层、c个卷积层、d个全连接层的任意组合；所述a、b、d为大于等于0的整数；所述c为大于等于1的整数。

可选的，所述的边界框确定装置300还可以包括：

第一图像样本数据获取模块301，被配置为获取第一图像样本数据；

第一卷积神经子网络训练模块302，被配置为基于所述第一图像样本数据，训练所述第一卷积神经子网络；

第三特征获取模块304，被配置为将所述第一图像样本数据，输入所述第一卷积神经子网络，获取所述第一图像样本数据中目标物体的第三特征；所述第三特征包括：所述第一图像样本数据中所述目标物体的边界图像特征；

第二卷积神经子网络训练模块305，被配置为基于所述第三特征，训练所述n个第二神经子网络。

可选的，所述边界框确定装置300还可以包括：

实际边界框获取模块309，被配置为获取所述待检测图像中目标物体的实际边界框；

评价模块310，被配置为基于所述实际边界框和所述目标边界框，确定所述目标边界框的评价值。

关于上述实施例中的装置，其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种电子设备500的框图。例如，电子设备500可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，电子设备500可以包括以下一个或多个组件：处理组件502，存储器504，电源组件506，多媒体组件508，音频组件510，输入/输出(I/O)的接口512，传感器组件514，以及通信组件516。

处理组件502通常控制电子设备500的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件502可以包括一个或多个模块，便于处理组件502和其他组件之间的交互。例如，处理组件502可以包括多媒体模块，以方便多媒体组件508和处理组件502之间的交互。

存储器504被配置为存储各种类型的数据以支持在设备500的操作。这些数据的示例包括用于在电子设备500上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件506为电子设备500的各种组件提供电力。电源组件506可以包括电源管理系统，一个或多个电源，及其他与为电子设备500生成、管理和分配电力相关联的组件。

多媒体组件508包括在所述电子设备500和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件508包括一个前置摄像头和/或后置摄像头。当设备500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件510被配置为输出和/或输入音频信号。例如，音频组件510包括一个麦克风(MIC)，当电子设备500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中，音频组件510还包括一个扬声器，用于输出音频信号。

I/O接口512为处理组件502和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件514包括一个或多个传感器，用于为电子设备500提供各个方面的状态评估。例如，传感器组件514可以检测到设备500的打开/关闭状态，组件的相对定位，例如所述组件为电子设备500的显示器和小键盘，传感器组件514还可以检测电子设备500或电子设备500一个组件的位置改变，用户与电子设备500接触的存在或不存在，电子设备500方位或加速/减速和电子设备500的温度变化。传感器组件514可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件514还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件516被配置为便于电子设备500和其他设备之间有线或无线方式的通信。电子设备500可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件516还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述图1至图2的边界框确定方法，且能达到相同的技术效果，为了避免重复此处不再赘述。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器504，上述指令可由装置500的处理器520执行以完成上述图1至图2的边界框确定方法，且能达到相同的技术效果，为了避免重复此处不再赘述。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图6是根据一示例性实施例示出的另一种电子设备600的框图。例如，电子设备600可以被提供为一服务器。参照图6，电子设备600包括处理组件622，其进一步包括一个或多个处理器，以及由存储器632所代表的存储器资源，用于存储可由处理组件622的执行的指令，例如应用程序。存储器632中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件622被配置为执行指令，以执行上述图1至图2的边界框确定方法，且能达到相同的技术效果，为了避免重复此处不再赘述。

电子设备600还可以包括一个电源组件626被配置为执行电子设备600的电源管理，一个有线或无线网络接口650被配置为将电子设备600连接到网络，和一个输入输出(I/O)接口658。电子设备600可以操作基于存储在存储器632的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM或类似。

根据本申请实施例的一个方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行上述图1至图2的边界框确定方法，且能达到相同的技术效果，为了避免重复此处不再赘述。本领域技术人员在考虑说明书及实践这里公开的申请后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

一种边界框确定方法，包括：

将待检测图像输入第一卷积神经子网络，获取所述待检测图像中目标物体的第一特征；所述第一特征包括：所述待检测图像中所述目标物体的边界图像特征；

将所述第一特征，分别输入n个第二神经子网络，得到所述目标物体的n个第一边界框；所述n为大于等于2的整数；所述各个第一边界框包括第一位置参数值；

基于所述n个第一边界框的各个第一位置参数值，确定所述待检测图像中目标物体的目标边界框。
根据权利要求1所述的边界框确定方法，若所述n个第二神经子网络中包括：m组第三神经子网络，所述m为大于0小于n的整数，所述各组第三神经子网络分别包括：y个相同的第四神经子网络，所述y为大于等于2小于等于n的整数，所述将所述第一特征，分别输入n个第二神经子网络，得到所述目标物体的n个第一边界框之前，还包括：

对所述第一特征进行差异化处理，得到y种不同的第二特征；

所述将所述第一特征，分别输入n个第二神经子网络，得到所述目标物体的n个第一边界框，包括：

将所述y种不同的第二特征，分别输入各组第三神经子网络中的各个第四神经子网络，得到所述目标物体的k个第一边界框；所述k为大于0小于等于n的整数；

将所述第一特征，分别输入x个第二神经子网络，得到所述目标物体的x个第一边界框；所述x个第二神经子网络为所述n个第二神经子网络中，除所述第三神经子网络或第四神经子网络之外的神经子网络；所述x为大于等于0小于n的整数。
根据权利要求2所述的边界框确定方法，所述差异化处理包括：剪裁处理、缩放处理、镜像处理、旋转处理、增强处理、锐化处理中的至少一种。
根据权利要求1所述的边界框确定方法，所述基于所述n个第一边界框的各个第一位置参数值，确定所述待检测图像中目标物体的目标边界框，包括：

将所述n个第一边界框的各个第一位置参数值，按照预设权重加权求和，得到所述目标物体的第二位置参数值，并基于所述第二位置参数值确定所述待检测图像中目标物体的目标边界框。
根据权利要求1所述的边界框确定方法，所述第二神经子网络为：a个平均池化层、b个最大池化层、c个卷积层、d个全连接层的任意组合；所述a、b、d为大于等于0的整数；所述c为大于等于1的整数。
根据权利要求1所述的边界框确定方法，所述将待检测图像输入第一卷积神经子网络之前，还包括：

获取第一图像样本数据；

基于所述第一图像样本数据，训练所述第一卷积神经子网络；

所述将所述第一特征，分别输入n个第二神经子网络，确定所述目标物体的边界之前，还包括：

将所述第一图像样本数据，输入所述第一卷积神经子网络，获取所述第一图像样本数据中目标物体的第三特征；所述第三特征包括：所述第一图像样本数据中所述目标物体的边界图像特征；

基于所述第三特征，训练所述n个第二神经子网络。
根据权利要求1所述的边界框确定方法，所述基于所述n个第一边界框的各个第一位置参数值，确定所述待检测图像中目标物体的目标边界框之后，还包括：

获取所述待检测图像中目标物体的实际边界框；

基于所述实际边界框和所述目标边界框，确定所述目标边界框的评价值。
一种边界框确定装置，包括：

第一特征获取模块，被配置为将待检测图像输入第一卷积神经子网络，获取所述待检测图像中目标物体的第一特征；所述第一特征包括：所述待检测图像中所述目标物体的边界图像特征；

第一边界框确定模块，被配置为将所述第一特征，分别输入n个第二神经子网络，得到所述目标物体的n个第一边界框；所述n为大于等于2的整数；所述各个第一边界框包括第一位置参数值；

目标边界框确定模块，被配置为基于所述n个第一边界框的各个第一位置参数值，确定所述待检测图像中目标物体的目标边界框。
根据权利要求8所述的边界框确定装置，若所述n个第二神经子网络中包括：m组第三神经子网络，所述m为大于0小于n的整数，所述各组第三神经子网络分别包括：y个相同的第四神经子网络，所述y为大于等于2小于等于n的整数，所述装置，还包括：

差异化处理模块，被配置为对所述第一特征进行差异化处理，得到y种不同的第二特征；

所述第一边界框确定模块包括：

第一边界框第一确定单元，被配置为将所述y种不同的第二特征，分别输入各组第三神经子网络中的各个第四神经子网络，得到所述目标物体的k个第一边界框；所述k为大于0小于等于n的整数；

第一边界框第二确定单元，被配置为将所述第一特征，分别输入x个第二神经子网络，得到所述目标物体的x个第一边界框；所述x个第二神经子网络为所述n个第二神经子网络中，除所述第三神经子网络或第四神经子网络之外的神经子网络；所述x为大于等于0小于n的整数。
根据权利要求9所述的边界框确定装置，所述差异化处理包括：剪裁处理、缩放处理、镜像处理、旋转处理、增强处理、锐化处理中的至少一种。
根据权利要求8所述的边界框确定装置，所述目标边界框确定模块包括：

目标边界框确定单元，被配置为将所述n个第一边界框的各个第一位置参数值，按照预设权重加权求和，得到所述目标物体的第二位置参数值，并基于所述第二位置参数值确定所述待检测图像中目标物体的目标边界框。
根据权利要求8所述的边界框确定装置，所述第二神经子网络为：a个平均池化层、b个最大池化层、c个卷积层、d个全连接层的任意组合；所述a、b、d为大于等于0的整数；所述c为大于等于1的整数。
根据权利要求8所述的边界框确定装置，还包括：

第一图像样本数据获取模块，被配置为获取第一图像样本数据；

第一卷积神经子网络训练模块，被配置为基于所述第一图像样本数据，训练所述第一卷积神经子网络；

第三特征获取模块，被配置为将所述第一图像样本数据，输入所述第一卷积神经子网络，获取所述第一图像样本数据中目标物体的第三特征；所述第三特征包括：所述第一图像样本数据中所述目标物体的边界图像特征；

第二卷积神经子网络训练模块，被配置为基于所述第三特征，训练所述n个第二神经子网络。
根据权利要求8所述的边界框确定装置，还包括：

实际边界框获取模块，被配置为获取所述待检测图像中目标物体的实际边界框；

评价模块，被配置为基于所述实际边界框和所述目标边界框，确定所述目标边界框的评价值。
一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行如权利要求1至7中任一项所述的边界框确定方法。
一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行如权利要求1至7中任一项所述的边界框确定方法。