WO2019100886A1

WO2019100886A1 - 用于确定目标对象的外接框的方法、装置、介质和设备

Info

Publication number: WO2019100886A1
Application number: PCT/CN2018/111464
Authority: WO
Inventors: 李步宇; 李全全; 闫俊杰
Original assignee: 北京市商汤科技开发有限公司
Priority date: 2017-11-21
Filing date: 2018-10-23
Publication date: 2019-05-31
Also published as: JP6872044B2; US11348275B2; SG11201913529UA; JP2020525959A; CN108229305B; CN108229305A; US20200134859A1

Abstract

本申请实施例公开了一种用于确定目标对象的外接框的方法、装置、介质和设备，其中，方法包括：获取目标对象的多个关键点中每个关键点的属性信息；根据所述目标对象的多个关键点中每个关键点的属性信息以及预设的神经网络，确定所述目标对象的外接框位置。本申请实施方式能够提高确定目标对象的外接框的效率以及准确性。

Description

用于确定目标对象的外接框的方法、装置、介质和设备

本申请要求在2017年11月21日提交中国专利局、申请号为CN 201711165979.8、发明名称为“用于确定目标对象的外接框的方法、装置和电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机视觉技术，尤其是一种用于确定目标对象的外接框的方法、装置、电子设备和计算机可读存储介质。

背景技术

在图像识别等计算机视觉领域中，往往需要快速准确的确定出人体的外接框。

目前，通常利用Faster-RCNN(Convolutional Neural Networks，加快的基于区域的卷积神经网络)来确定人体的外接框，即先利用RPN(Region Proposal Network，候选区域生成网络)获得多个候选区域，然后，再利用RCNN对各个候选区域进行评分及修正，从而确定出人体的外接框，然而，确定人体的外接框的准确率还有待进一步提升。

发明内容

本申请实施方式提供一种用于确定目标对象的外接框的技术方案。

根据本申请实施例的一个方面，提供一种用于确定目标对象的外接框的方法，包括：获取目标对象的多个关键点中每个关键点的属性信息；根据所述目标对象的多个关键点中每个关键点的属性信息以及预设的神经网络，确定所述目标对象的外接框位置。

可选地，在本申请上述方法的一实施方式中，所述目标对象包括：人体。

可选地，在本申请上述方法的又一实施方式中，所述关键点的属性信息包括：坐标信息以及存在判别值。

可选地，在本申请上述方法的一实施方式中，所述根据所述目标对象的多个关键点中每个关键点的属性信息以及预设的神经网络，确定所述目标对象的外接框位置，包括：根据所述多个关键点中每个关键点的属性信息，从所述多个关键点中确定至少一个有效关键点；根据所述至少一个有效关键点中每个有效关键点的属性信息，对所述多个关键点的属性信息进行处理，得到处理后的多个关键点的属性信息；将所述处理后的多个关键点的属性信息输入到所述预设的神经网络进行处理，得到所述目标对象的外接框位置。

可选地，在本申请上述方法的一实施方式中，所述处理后的多个关键点的属性信息包括：所述至少一个有效关键点中每个有效关键点的处理后的属性信息以及所述多个关键点中除所述至少一个有效关键点之外的其他关键点的属性信息。

可选地，在本申请上述方法的一实施方式中，所述根据所述至少一个有效关键点中每个有效关键点的属性信息，对所述多个关键点的属性信息进行处理，得到处理后的多个关键点的属性信息，包括：根据所述至少一个有效关键点中每个有效关键点的属性信息包括的坐标信息，确定参考坐标；根据所述参考坐标和所述至少一个有效关键点中每个有效关键点的属性信息中的坐标信息，确定所述每个有效关键点的处理后的属性信息中的坐标信息。

可选地，在本申请上述方法的一实施方式中，所述根据所述至少一个有效关键点中每个有效关键点的属性信息包括的坐标信息，确定参考坐标，包括：对所述至少一个有效关键点中每个有效关键点的坐标信息对应的坐标进行平均处理，得到所述参考坐标；和/或，所述根据所述参考坐标和所述至少一个有效关键点中每个有效关键点的属性信息中的坐标信息，确定所述每个有效关键点的处理后的属性信息中的坐标信息，包括：将所述参考坐标作为原点，确定所述至少一个有效关键点中每个有效关键点的坐标信息所对应的处理后的坐标信息。

可选地，在本申请上述方法的一实施方式中，所述将所述处理后的多个关键点的属性信息输入到所述预设的神经网络进行处理，得到所述目标对象的外接框位置，包括：将所述处理后的多个关键点的属性信息输入到所述预设的神经网络进行处理，得到输出位置信息；根据所述参考坐标和所述输出位置信息，确定所述目标对象的外接框位置。

可选地，在本申请上述方法的一实施方式中，所述方法还包括：获取包括多个样本数据的样本集合，其中，所述样本数据包括：样本对象的多个关键点的属性信息，并且所述样本数据标注有所述样本对象的外接框位置；

根据每个所述样本数据中样本对象的多个关键点的属性信息以及所述样本对象的外接框位置，训练所述神经网络。

可选地，在本申请上述方法的一实施方式中，所述神经网络是基于随机梯度下降算法进行训练得到的。

可选地，在本申请上述方法的一实施方式中，所述目标对象的外接框位置包括：所述目标对象的外接框对角线方向上的两个顶点的坐标信息。

可选地，在本申请上述方法的一实施方式中，所述神经网络包括：至少两层全连接层。

可选地，在本申请上述方法的一实施方式中，所述神经网络包括：三层全连接层，其中，所述三层全连接层的第一层全连接层和第二层全连接层中的至少一层的激活函数包括：修正线性单元ReLu激活函数。

可选地，在本申请上述方法的一实施方式中，所述第一层全连接层包括320个神经元，所述第二层全连接层包括320个神经元，所述三层全连接层中的最后一层全连接层包括4个神经元。

根据本申请实施例的另一个方面，提供一种用于确定目标对象的外接框的装置，包括：获取模块，用于获取目标对象的多个关键点中每个关键点的属性信息；确定模块，用于根据所述获取模块获取的所述目标对象的多个关键点中每个关键点的属性信息以及预设的神经网络，确定所述目标对象的外接框位置。

可选地，在本申请上述装置的一实施方式中，所述目标对象包括：人体。

可选地，在本申请上述装置的又一实施方式中，所述关键点的属性信息包括：坐标信息以及存在判别值。

可选地，在本申请上述装置的再一实施方式中，所述确定模块包括：第一子模块，用于根据所述获取模块获取的多个关键点中每个关键点的属性信息，从所述多个关键点中确定至少一个有效关键点；第二子模块，用于根据所述第一子模块确定出的至少一个有效关键点中每个有效关键点的属性信息，对所述多个关键点的属性信息进行处理，得到处理后的多个关键点的属性信息；第三子模块，用于将所述第二子模块得到的处理后的多个关键点的属性信息输入到所述预设的神经网络进行处理，得到所述目标对象的外接框位置。

可选地，在本申请上述装置的再一实施方式中，所述处理后的多个关键点的属性信息包括：所述至少一个有效关键点中每个有效关键点的处理后的属性信息以及所述多个关键点中除所述至少一个有效关键点之外的其他关键点的属性信息。

可选地，在本申请上述装置的再一实施方式中，所述第二子模块包括：第一单元，用于根据所述第一子模块确定出的至少一个有效关键点中每个有效关键点的属性信息包括的坐标信息，确定参考坐标；第二单元，用于根据所述第一单元确定出的参考坐标和所述至少一个有效关键点中每个有效关键点的属性信息中的坐标信息，确定所述每个有效关键点的处理后的属性信息中的坐标信息。

可选地，在本申请上述装置的再一实施方式中，所述第一单元用于：对所述第一子模块确定出的至少一个有效关键点中每个有效关键点的坐标信息对应的坐标进行平均处理，得到所述参考坐标；和/或第二单元用于：将所述第一单元确定出的参考坐标作为原点，确定所述至少一个有效关键点中每个有效关键点的坐标信息所对应的处理后的坐标信息。

可选地，在本申请上述装置的再一实施方式中，所述第三子模块用于：将所述第二子模块得到的处理后的多个关键点的属性信息输入到所述预设的神经网络进行处理，得到输出位置信息；根据所述参考坐标和所述输出位置信息，确定所述目标对象的外接框位置。

可选地，在本申请上述装置的再一实施方式中，所述装置还包括：训练模块，用于：获取包括多个样本数据的样本集合，其中，所述样本数据包括：样本对象的多个关键点的属性信息，并且所述样本数据标注有所述样本对象的外接框位置；根据每个所述样本数据中样本对象的多个关键点的属性信息以及所述样本对象的外接框位置，训练所述神经网络。

可选地，在本申请上述装置的再一实施方式中，所述神经网络是基于随机梯度下降算法进行训练得到的。

可选地，在本申请上述装置的再一实施方式中，所述目标对象的外接框位置包括：所述目标对象的外接框对角线方向上的两个顶点的坐标信息。

可选地，在本申请上述装置的再一实施方式中，所述神经网络包括：至少两层全连接层。

可选地，在本申请上述装置的再一实施方式中，所述神经网络包括：三层全连接层，其中，所述三层全连接层的第一层全连接层和第二层全连接层中的至少一层的激活函数包括：修正线性单元ReLu激活函数。所述第一层全连接层包括320个神经元，所述第二层全连接层包括320个神经元，所述三层全连接层中的最后一层全连接层包括4个神经元。

根据本申请实施例的再一个方面，提供一种电子设备，包括：处理器和计算机可读存储介质，计算机可读存储介质用于存储指令，所述处理器对所述指令的执行使得所述电子设备执行上述方法的任一实施方式。

根据本申请实施例的再一个方面，提供一种计算机程序产品，包括至少一个指令，所述至少一个指令在被处理器执行时，上述方法的任一实施方式被执行。

在一个可选实施方式中，所述计算机程序产品为计算机存储介质，在另一个可选实施方式中，所述计算机程序产品为软件产品，例如SDK等。

基于本申请上述实施方式提供的用于确定目标对象的外接框的方法和装置、电子设备和计算机程序产品，通过利用目标对象的多个关键点中每个关键点的属性信息以及神经网络，来确定目标对象的外接框位置，有利于提高确定目标对象的外接框的效率以及准确性。

下面通过附图和实施方式，对本申请的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本申请的实施例，并且连同描述一起用于解释本申请的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本申请，其中：

图1为本申请一些实施方式中用于确定目标对象的外接框的方法的流程图；

图2为本申请一些实施方式中对神经网络进行训练的方法的流程图；

图3为本申请一些实施方式中用于确定目标对象的外接框的装置的结构示意图；

图4为本申请一些实施方式中的电子设备的结构示意图；

图5为本申请一些实施方式中计算机存储介质的示意图。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施方式。应该注意到：除非另外具体说明，否则在这些实施方式中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施方式的描述实际上仅仅是说明性的，决不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本申请实施方式可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或者专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或者远程计算系统存储介质上。

图1为本申请一些实施方式中用于确定目标对象的外接框的方法的流程图。如图1所示，本申请用于确定目标对象的外接框的方法包括：S100和S110。下面对图1中的各操作分别进行说明。

S100、获取目标对象的多个关键点中每个关键点的属性信息。

在一个可选示例中，本申请实施方式中的目标对象也可以称为检测对象或者外接框检测对象等，本申请实施例对此不做限定。可选地，该目标对象可以为人体，也可以为人脸或者某种特定物体，本申请实施方式不限制目标对象的表现形式。本申请实施方式中的外接框通常是指能够表示出目标对象所在区域的多边形(通常为矩形)，且该外接框通常不仅可以准确的涵盖目标对象的所有部位，而且其面积还可以尽可能的小。

在一个可选示例中，本申请实施方式中的关键点的属性信息可以包括关键点的多种信息。作为一个例子，关键点的属性信息可以用于描述目标对象的至少一个关键点是否在图像中可见，以及图像中可见的至少一个关键点在图像中的位置，本申请实施方式可以将在图像中可见的关键点(即位于图像中的关键点)称为有效关键点，而将图像中不可见的关键点(即没有位于图像中的关键点)称为无效关键点。其中，图像中不可见的关键点可以为被遮挡的关键点，也可以为位于图像之外的关键点，本申请实施例对此不做限定。

在一个可选的例子中，关键点的属性信息可以包括：关键点的坐标信息以及关键点的存在判别值，其中，关键点的坐标信息可以用于表示该关键点在图像中的位置，例如，该关键点的坐标信息可以为关键点的二维坐标，但本申请实施例不限于此；关键点的存在判别值可以用于指示关键点在图像中是否可见。例如，若关键点的存在判别值为1，则表示该关键点可见，而若关键点的存在判别值为0，则表示该关键点不可见，但本申请实施例中的存在判别值还可以采用其他方式实现，本实施例对此不做限定。可选地，该属性信息还可以包括其他信息，本申请实施例不限于此。

作为一个例子，本申请实施方式获取到的关键点的属性信息可以是一个3×N维的向量，其中，N表示预先为目标对象设定的多个关键点的数量。本申请实施方式中的一个关键点的属性信息可以通过一个数组(x，y，v)来表示，其中x和y分别为该关键点在图像中的二维坐标，v为该关键点的存在判别值，在v的取值为第一判别值时，表示该关键点为图像中的可见关键点，在v的取值为第二判别值时，表示该关键点为图像中的不可见关键点。例如，对于目标对象的一个关键点而言，如果该关键点为有效关键点，则该关键点的属性信息可以表示为数组(x，y，1)，而如果该关键点为无效关键点(被遮挡或者位于图像之外)，则该关键点的属性信息可以表示为数组(0，0，0)。通过这样的方式来表示关键点的属性信息可以方便的获知目标对象的所有关键点在图像中的实际情况。

在一个可选示例中，在目标对象为人体的情况下，本申请实施方式的人体的关键点通常可以包括：头顶、颈部、左肩、右肩、左肘、右肘、左腕、右腕、左髋、右髋、左膝、右膝、左踝以及右踝，利用这14个关键点可以较为完整的描述出人体的姿势形态。此时，多个关键点的属性信息可以包括这14个关键点中部分或全部关键点的属性信息。作为一个例子，本申请实施方式所获取到的多个关键点的属性信息可以包括：头顶的坐标信息和头顶的存在判别值、颈部的坐标信息和颈部的存在判别值、左肩的坐标信息和左肩的存在判别值、右肩的坐标信息和右肩的存在判别值、左肘的坐标信息和左肘的存在判别值、右肘的坐标信息和右肘的存在判别值、左腕的坐标信息和左腕的存在判别值、右腕的坐标信息和右腕的存在判别值、左髋的坐标信息和左髋的存在判别值、右髋的坐标信息和右髋的存在判别值、左膝的坐标信息和左膝的存在判别值、右膝的坐标信息和右膝的存在判别值、左踝的坐标信息和左踝的存在判别值以及右踝的坐标信息和右踝的存在判别值。利用这14个关键点的属性信息可以描述出图像中的人体概况。在目标对象为其他事物的情况下，其关键点通常会随之发生变化，本申请实施方式不限制目标对象的关键点的表现形式。

在一个可选示例中，本申请实施方式可以适用于已经获得了目标对象的多个关键点的属性信息的应用场景，也就是说，在已经从图像中或通过其他方式获得了目标对象的多个关键点的属性信息的应用场景中，本申请实施方式可以通过信息读取等方式获得该目标对象的关键点的属性信息，但本申请实施例不限于此。在这样的应用场景中，本申请实施方式可以根据该目标对象的多个关键点的属性信息，利用预先训练出的神经网络，获得目标对象的外接框位置。

在一个可选示例中，该S100可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的获取模块300执行。

S110、根据目标对象的多个关键点中每个关键点的属性信息以及预设的神经网络，确定目标对象的外接框位置。

可选地，目标对象的外接框位置可以用于确定目标对象的外接框。可选地，该外接框位置可以包括外接框的一个或多个顶点的位置信息。在一个可选的例子中，如果该外接框为四边形，例如，四边形为矩形，则该外接框位置可以包括外接框的两个相对顶点的位置信息，例如，两个相对顶点中每个相对顶点的二维坐标，但本申请实施例对目标对象的外接框位置的实现方式不做限定。

在一个可选示例中，本申请实施方式中的神经网络可以为专用神经网络。该神经网络可以是利用大量的样本数据训练而成的，其中，该样本数据可以包括样本对象的多个关键点的属性信息以及外接框位置，也就是说，该样本数据可以标注有样本对象的外接框位置。该训练过程的一个可选的例子可以参见下面对图2的描述，故在此处不再详细说明。

可选地，本申请实施方式中的神经网络可以包括：至少两层全连接层。与卷积神经网络相比，全连接网络可以具有更快的计算速度和处理效率。

在一个可选示例中，本申请实施方式中的神经网络包括：两层全连接层，且第一层全连接层的激活函数可以为ReLu(Rectified Linear Unit，修正线性单元)激活函数。

在一个可选示例中，本申请实施方式中的神经网络包括：三层全连接层，且第一层全连接层的激活函数可以为ReLu激活函数，而第二层全连接层的激活函数也可以为ReLu激活函数。

在本申请实施例中，神经网络所包含的全连接层的层数以及每一层全连接层所包含的神经元的数量可以根据实际情况自行设置。在神经网络的层数以及神经元的数量足够多的情况下，神经网络具有较强的函数表达能力，从而基于神经网络所获得的外接框位置会更准确。在一个可选的例子中，对于由三层全连接层形成的神经网络，第一层全连接层的神经元数量可以为320个，第二层全连接层的神经元数量也可以为320个，在目标对象的外接框为四边形(例如，矩形)，且在目标对象的外接框位置通过外接框的对角线方向上的两个顶点的二维坐标信息来表示的情况下，第三层全连接层的神经元数量可以设置为4个。

通过多次实验验证，具有三层全连接层的神经网络，其中，第一层全连接层和第二层全连接层的激活函数使用ReLu激活函数，且第一层全连接层和第二层全连接层分别具有320个神经元，第三层全连接层具有4个神经元，不但运算速度可以满足实际需求，且确定外接框位置的准确性同样可以满足实际需求。

在一个可选示例中，该S110可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的确定模块310执行。

在本申请实施例中，可以直接将该多个关键点的属性信息输入到神经网络，或者可以在对该多个关键点的属性信息进行处理之后输入到神经网络。也就是说，可以根据该多个关键点的属性信息，确定神经网络的输入信息，其中，该输入信息可以是该多个关键点的属性信息本身，或者是通过对该多个关键点的属性信息进行处理得到的。神经网络可以对输入信息进行处理，得到输出结果，其中，该目标对象的外接框位置可以根据神经网络的输出结果得到。可选地，神经网络的输出结果可以包括该目标对象的外接框的位置信息，例如，目标对象的外接框的一个或多个顶点的坐标信息，作为一个例子，如果该外接框为矩形，则该输出结果可以包括外接框的两个相对顶点的坐标信息；或者，该目标对象的外接框位置可以通过对神经网络的输出结果进行处理得到的，本申请实施例对此不做限定。

在一个可选示例中，本申请可以根据目标对象的多个关键点中每个关键点的属性信息，进行有效关键点的选取。例如，如果关键点的属性信息包括存在判别值，则可以将存在判别值指示存在的关键点确定为有效关键点，例如，如果关键点的存在判别值为1，则可以将该关键点确定为有效关键点，但本申请实施例不限于此。

可选地，如果能够从该多个关键点中选出至少一个有效关键点，则可以根据该至少一个有效关键点中每个有效关键点的属性信息，对该多个关键点中部分或所有关键点的属性信息进行处理，得到处理后的多个关键点的属性信息，并将该处理后的多个关键点的属性信息作为输入信息。可选地，该处理后的多个关键点的属性信息可以包括该多个关键点中每个关键点的处理后的属性信息，或者包括该多个关键点中的一部分关键点的处理后的属性信息以及该多个关键点中的另一个部分关键点的原始的属性信息。作为一个例子，该处理后的多个关键点的属性信息可以包括至少一个有效关键点中每个有效关键点的处理后的属性信息以及该多个关键点中除该至少一个有效关键点之外的其他关键点的原始的属性信息，也就是说，可以对该至少一个有效关键点中每个有效关键点的属性信息进行处理，而不对其他关键点的属性信息进行处理，但本申请实施例不限于此。

在本申请实施例中，可以通过多种方式处理该至少一个有效关键点的属性信息。作为一个例子，可以根据至少一个有效关键点中每个有效关键点的属性信息包括的坐标信息，确定参考坐标，并且根据参考坐标和有效关键点的属性信息中的坐标信息，确定该有效关键点的处理后的属性信息中的坐标信息。该参考坐标可以通过对该至少一个有效关键点的坐标信息进行处理得到的。例如，该参考坐标可以是对该至少一个有效关键点的坐标进行平均处理得到的，但本申请实施例对该参考坐标的实现方式不做限定。

在一个可选示例中，可以对S100获取到的关键点的属性信息进行零均值化处理，并将零均值处理后获得的信息作为输入信息的一部分提供给神经网络。例如：可以根据有效关键点的属性信息中的坐标信息，计算坐标均值(m _x，m _y)；之后，针对所有关键点中的每一个有效关键点，分别计算该关键点的坐标信息(x _i，y _i)与上述坐标均值的差值，即(x _i-m _x，y _i-m _y)，并利用计算出的差值作为该有效关键点的坐标信息；最后，可以将目标对象的所有关键点的坐标信息以及所有关键点的存在判别值作为输入信息提供给神经网络。

需要特别说明的是，如果本申请实施方式在训练神经网络的过程中，并未对样本数据进行零均值处理，则在S110中，也不需要对目标对象的有效关键点的二维坐标进行零均值处理。

可选地，在提供给神经网络的输入信息为经过零均值处理的输入信息的情况下，本申请实施方式可以将神经网络输出的坐标信息与上述计算出来的坐标均值的和作为目标对象的外接框的多个顶点(如矩形外接框的对角线上的两个顶点)的最终的坐标。例如：神经网络的输出位置信息为(bx ₁，by ₁)和(bx ₂，by ₂)，则目标对象的外接框对角线上的两个顶点的坐标可以为(bx ₁+m _x，by ₁+m _y)以及(bx ₂+m _x，by ₂+m _y)。

图2为本申请一些实施方式中对神经网络进行训练的方法的流程图。其中，这里假设多个关键点的数量为N，每个关键点的属性信息可以均为3维向量：(x，y，v)，外接框为矩形。此外，假设神经网络的输入包括3×N的矩阵，输出包括2×2的矩阵，可以为外接框对角线上两个顶点的二维坐标。

如图2所示，本申请实施方式对神经网络进行训练的方法包括：S200、S210、S220、S230、S240和S250。下面对图2中的各操作分别进行说明。

S200、从样本集合中获取一条样本数据。

在一个可选示例中，本申请实施方式中的样本集合通常为非空，且通常包括大量的样本数据，例如，该样本集合可以为目前公开的MS COCO数据库等。样本集合中的每一条样本数据可以包括：样本对象的多个关键点的属性信息，并且每个样本数据可以标注有样本对象的外接框位置，其中，关键点的属性信息可以包括关键点的坐标信息和关键点的存在判别值，但本申请实施例不限于此。样本数据所对应的样本对象通常与目标对象具有相同的类型，例如，在目标对象为人体的情况下，样本对象也为人体。本申请实施方式可以从样本集合中按照样本数据的排列次序顺序地选取一条样本数据，也可以从样本集合中随机地选取一条样本数据，本申请实施例对选择样本数据的方式不做限定。

S210、根据该条样本数据的所有有效关键点的坐标信息计算坐标均值。

例如，针对样本数据中的存在判别值v为1的所有关键点的属性信息中的坐标信息计算坐标均值(m _x，m _y)。

S220、计算该条样本数据中的至少一个有效关键点的坐标信息与上述坐标均值的差值，并将计算出的差值作为相应的有效关键点的坐标信息。

例如，针对样本数据中的有效关键点的坐标信息(x _i，y _i)，计算(x _i-m _x，y _i-m _y)。

S230、将该条样本数据的所有关键点的属性信息作为输入提供给神经网络。

在一个可选的例子中，在神经网络的输出为矩形对角线上的两个顶点的二维坐标(bx ₁，by ₁)和(bx ₂，by ₂)的情况下，外接框的坐标可以确定为上述输出坐标信息与坐标均值的和(即给定监督)，可以表示为(bx ₁+m _x，by ₁+m _y)以及(bx ₂+m _x，by ₂+m _y)。

可选地，本申请实施方式可以采用随机梯度下降算法进行计算，以实现训练。

可选地，可以通过比较神经网络计算得到的结果和该样本数据标注的外接框位置，来确定是否对神经网络的参数进行调整。其中，若神经网络计算得到的结果与样本数据标注的外接框位置之间的差别低于一定范围，则可以终止训练过程或者继续从样本集合中选取新的样本数据。否则，可以调整神经网络的参数，并利用调整后的神经网络继续进行计算。

S240、判断是否继续从样本集合中获取一条新的样本数据。

如果需要继续从样本集合中获取一条新的样本数据，则返回S200，否则，到S250。

在一个可选示例中，本申请实施方式可以通过判断样本集合中的所有样本数据是否均被用于训练、神经网络输出的结果是否满足预定准确度要求或者读取的样本数量是否达到预定数量等因素，来判断是否继续从样本集合中获取一条新的样本数据。

S250、本次训练过程结束。

在一个可选示例中，通过检测，在确定出神经网络输出的结果满足预定准确度要求的情况下，神经网络训练成功，而如果样本集合中的所有样本数据已经均被用于训练或者读取的样本数量已经达到预定数量，然而，通过检测在确定出神经网络输出的结果还不满足预定准确度要求，则虽然本次训练过程结束了，但是，神经网络并没有训练成功，可以对神经网络进行再次训练。上述检测可以为：从样本集合中选取多个未进行过训练的样本数据，并基于这样的样本数据，按照图1所示的方法提供给神经网络，并确定基于神经网络获得的至少一个外接框位置与相应的样本数据中人工标注的外接框位置的误差，在根据至少一个误差确定出准确度满足预定准确度要求时，神经网络训练成功。另外，本申请实施方式在训练神经网络的过程中，可以采用L2损失函数进行训练监督，但本申请实施例不限于此。

本申请通过利用样本对象的关键点的属性信息以及外接框位置来训练神经网络，使训练后的神经网络可以基于目标对象的关键点的属性信息直接确定出目标对象的外接框位置；由于在一些实际应用中，存在已经成功获得了目标对象的关键点的属性信息的情况，因此，本申请实施方式可以在不需要图像的情况下，通过充分利用已经获得的目标对象的关键点的属性信息快速的获得目标对象的外接框；由于本申请实施方式中的神经网络是利用样本对象的关键点的属性信息以及外接框位置训练获得的，因此，在样本对象的关键点数量较多且设置的神经元数量较多的情况下，神经网络所需要学习的参数也较多，这有利于使神经网络能够较为准确的确定出目标对象的外接框。

本申请实施例提供的任一种方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本申请实施例提供的任一种方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本申请实施例提及的任一种方法。下文不再赘述。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分操作可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的操作；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等至少一个种可以存储程序代码的介质。

图3为本申请一些实施方式中用于确定目标对象的外接框的装置的结构示意图。该实施方式的装置可用于实现本申请上述各方法实施方式。

如图3所示，该实施方式的装置包括：获取模块300和确定模块310，可选的，该装置还可以包括：训练模块320。

获取模块300，用于获取目标对象的多个关键点中每个关键点的属性信息。

可选地，目标对象、关键点、有效关键点以及关键点的属性信息的内容可以参见上述方法实施方式中S100的相关描述，故在此不再详细说明。

在一个可选示例中，本申请实施方式的装置可以适用于已经成功获得了目标对象的关键点的属性信息的应用场景，也就是说，在已经从图像中获得了目标对象的关键点的属性信息的应用场景中，获取模块300可以通过信息读取等方式直接获得已经存在的目标对象的关键点的属性信息。

确定模块310，用于根据获取模块300获取的目标对象的多个关键点中每个关键点的属性信息以及预设的神经网络，确定目标对象的外接框位置。

可选地，本申请中的神经网络的表现形式(例如，层数、神经元数量以及激活函数等)可以参见上述方法实施方式中的相关描述，故在此不再详细说明。

在一个可选示例中，确定模块310可以包括：第一子模块、第二子模块和第三子模块。其中，第一子模块用于根据获取模块300获取的多个关键点中每个关键点的属性信息，从多个关键点中确定至少一个有效关键点；第二子模块用于根据第一子模块确定出的至少一个有效关键点中每个有效关键点的属性信息，对多个关键点的属性信息进行处理，得到处理后的多个关键点的属性信息；第三子模块用于将第二子模块得到的处理后的多个关键点的属性信息输入到预设的神经网络进行处理，得到目标对象的外接框位置。

可选地，处理后的多个关键点的属性信息可以包括：至少一个有效关键点中每个有效关键点的处理后的属性信息以及多个关键点中除所述至少一个有效关键点之外的其他关键点的属性信息。

可选地，第二子模块可以包括：第一单元和第二单元。其中，第一单元用于根据第一子模块确定出的至少一个有效关键点中每个有效关键点的属性信息包括的坐标信息，确定参考坐标；例如，第一单元对至少一个有效关键点中每个有效关键点的坐标信息对应的坐标进行平均处理，得到参考坐标；第二单元用于根据第一单元确定出的参考坐标和至少一个有效关键点中每个有效关键点的属性信息中的坐标信息，确定每个有效关键点的处理后的属性信息中的坐标信息；例如，第二单元将第一单元确定出的参考坐标作为原点，确定至少一个有效关键点中每个有效关键点的坐标信息所对应的处理后的坐标信息。此时，第三子模块可以用于将第二单元处理后的多个关键点的属性信息输入到神经网络进行处理，得到输出位置信息，并根据参考坐标和上述输出的位置信息，确定目标对象的外接框位置。

在一个可选示例中，在需要对目标对象的关键点的二维坐标进行零均值处理的情况下，第一单元用于根据目标对象的所有有效关键点的坐标信息计算二维坐标均值；第二单元用于针对目标对象的所有有效关键点，分别计算关键点的坐标信息与二维坐标均值的差值，并将差值作为有效关键点的坐标信息；第三子模块用于将目标对象的所有关键点的坐标信息以及所有关键点的存在判别值作为输入信息提供给神经网络。

在确定模块310对目标对象的关键点的二维坐标进行零均值处理的情况下，确定模块310可以将神经网络输出的外接框坐标信息与坐标均值的和作为目标对象的外接框二维坐标信息。

训练模块320用于训练神经网络，获取包括多个样本数据的样本集合，其中，样本数据包括：样本对象的多个关键点的属性信息，并且样本数据标注有样本对象的外接框位置，然后根据每个样本数据中样本对象的多个关键点的属性信息以及样本对象的外接框位置，训练神经网络。

在一个可选示例中，训练模块320从样本集合中获取多条样本数据，针对每一条样本数据，根据该条样本数据的所有有效关键点的坐标信息计算坐标均值，并分别计算该条样本数据中的至少一个有效关键点的坐标信息与上述坐标均值的差值，将计算出的差值作为相应的有效关键点的坐标信息，然后将该条样本数据的所有关键点的属性信息作为输入提供给神经网络。训练模块320对神经网络进行训练所执行的操作的一个例子可以参见上述方法施方式中的描述，故在此不再重复说明。

本申请实施方式还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图4，其示出了适于用来实现本申请实施方式的终端设备或服务器的电子设备400的结构示意图：如图4所示，电子设备400包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)401，和/或一个或多个加速单元413等，加速单元413可包括但不限于GPU、FPGA、其他类型的专用处理器等，处理器可以根据存储在只读存储器(ROM)402中的可执行指令或者从存储部分408加载到随机访问存储器(RAM)403中的可执行指令而执行各种适当的动作和处理。通信部412可以包括但不限于网卡，所述网卡可以包括但不限于IB(Infiniband)网卡。处理器可与只读存储器402和/或随机访问存储器403中通信以执行可执行指令，通过总线404与通信部412相连、并经通信部412与其他目标设备通信，从而完成本申请实施方式提供的任一项方法对应的操作。例如：获取目标对象的多个关键点中每个关键点的属性信息；根据所述目标对象的多个关键点中每个关键点的属性信息以及预设的神经网络，确定所述目标对象的外接框位置。

此外，在RAM 403中，还可以存储有装置操作所需的各种程序以及数据。CPU401、ROM402及RAM403通过总线404彼此相连。在有RAM403的情况下，ROM402为可选模块。RAM403存储可执行指令，或在运行时向ROM402中写入可执行指令，可执行指令使处理器执行上述通信方法对应的操作。输入/输出(I/O)接口405也连接至总线404。通信部412可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口405：包括键盘、鼠标等的输入部分406；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。

需要说明的，如图4所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图4的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或者集成设置等实现方式，例如加速单元413和CPU401可分离设置或者可将加速单元413集成在CPU401上，通信部可分离设置，也可集成设置在CPU401或者加速单元413上，等等。这些可替换的实施方式均落入本申请公开的保护范围。

特别地，根据本申请公开的实施方式，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请公开的实施方式包括一种计算机程序产品，其包括有形地包含在计算机可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施方式提供的方法步骤对应的指令。例如：获取目标对象的多个关键点中每个关键点的属性信息；根据所述目标对象的多个关键点中每个关键点的属性信息以及预设的神经网络，确定所述目标对象的外接框位置。在这样的实施方式中，该计算机程序可以通过通信部分409从网络上被下载以及安装，和/或从可拆卸介质411被安装。在该计算机程序中的指令被中央处理单元(CPU)401执行时，执行本申请的方法中限定的上述功能。

可能以许多方式来实现本申请的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本申请的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施方式中，还可将本申请实施为记录在记录介质中的程序，这些程序包括用于实现根据本申请的方法的计算机可读指令。因而，本申请还覆盖存储用于执行本申请的方法的程序的记录介质，例如，图5所示的计算机可读存储介质500。

可能以许多方式来实现本申请的方法和装置、电子设备以及计算机可读存储介质。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和装置、电子设备以及计算机可读存储介质。用于方法的步骤的上述顺序仅是为了进行说明，本申请的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施方式中，还可将本申请实施为记录在记录介质中的程序，这些程序包括用于实现根据本申请的方法的计算机可读指令。因而，本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。

本申请的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本申请限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施方式是为了更好说明本申请的原理和实际应用，并且使本领域的普通技术人员能够理解本申请从而设计适于特定用途的带有各种修改的各种实施方式。

Claims

一种用于确定目标对象的外接框的方法，其特征在于，包括：

获取目标对象的多个关键点中每个关键点的属性信息；

根据所述目标对象的多个关键点中每个关键点的属性信息以及预设的神经网络，确定所述目标对象的外接框位置。
根据权利要求1所述的方法，其特征在于，所述目标对象包括：人体。
根据权利要求1或2所述的方法，其特征在于，所述关键点的属性信息包括：坐标信息以及存在判别值。
根据权利要求3所述的方法，其特征在于，所述根据所述目标对象的多个关键点中每个关键点的属性信息以及预设的神经网络，确定所述目标对象的外接框位置，包括：

根据所述多个关键点中每个关键点的属性信息，从所述多个关键点中确定至少一个有效关键点；

根据所述至少一个有效关键点中每个有效关键点的属性信息，对所述多个关键点的属性信息进行处理，得到处理后的多个关键点的属性信息；

将所述处理后的多个关键点的属性信息输入到所述预设的神经网络进行处理，得到所述目标对象的外接框位置。
根据权利要求4所述的方法，其特征在于，所述处理后的多个关键点的属性信息包括：所述至少一个有效关键点中每个有效关键点的处理后的属性信息以及所述多个关键点中除所述至少一个有效关键点之外的其他关键点的属性信息。
根据权利要求4或5所述的方法，其特征在于，所述根据所述至少一个有效关键点中每个有效关键点的属性信息，对所述多个关键点的属性信息进行处理，得到处理后的多个关键点的属性信息，包括：

根据所述至少一个有效关键点中每个有效关键点的属性信息包括的坐标信息，确定参考坐标；

根据所述参考坐标和所述至少一个有效关键点中每个有效关键点的属性信息中的坐标信息，确定所述每个有效关键点的处理后的属性信息中的坐标信息。
根据权利要求6所述的方法，其特征在于，所述根据所述至少一个有效关键点中每个有效关键点的属性信息包括的坐标信息，确定参考坐标，包括：

对所述至少一个有效关键点中每个有效关键点的坐标信息对应的坐标进行平均处理，得到所述参考坐标；和/或

所述根据所述参考坐标和所述至少一个有效关键点中每个有效关键点的属性信息中的坐标信息，确定所述每个有效关键点的处理后的属性信息中的坐标信息，包括：

将所述参考坐标作为原点，确定所述至少一个有效关键点中每个有效关键点的坐标信息所对应的处理后的坐标信息。
根据权利要求6或7所述的方法，其特征在于，所述将所述处理后的多个关键点的属性信息输入到所述预设的神经网络进行处理，得到所述目标对象的外接框位置，包括：

将所述处理后的多个关键点的属性信息输入到所述预设的神经网络进行处理，得到输出位置信息；

根据所述参考坐标和所述输出位置信息，确定所述目标对象的外接框位置。
根据权利要求1至8中任一项所述的方法，其特征在于，所述方法还包括：

获取包括多个样本数据的样本集合，其中，所述样本数据包括：样本对象的多个关键点的属性信息，并且所述样本数据标注有所述样本对象的外接框位置；

根据每个所述样本数据中样本对象的多个关键点的属性信息以及所述样本对象的外接框位置，训练所述神经网络。
根据权利要求1至9中任一项所述的方法，其特征在于，所述神经网络是基于随机梯度下降算法进行训练得到的。
根据权利要求1至10中任一项所述的方法，其特征在于，所述目标对象的外接框位置包括：所述目标对象的外接框对角线方向上的两个顶点的坐标信息。
根据权利要求1至11中任一项所述的方法，其特征在于，所述神经网络包括：至少两层全连接层。
根据权利要求1至12中任一项所述的方法，其特征在于，所述神经网络包括：三层全连接层，其中，所述三层全连接层的第一层全连接层和第二层全连接层中的至少一层的激活函数包括：修正线性单元ReLu激活函数。
根据权利要求13所述的方法，其特征在于，所述第一层全连接层包括320个神经元，所述第二层全连接层包括320个神经元，所述三层全连接层中的最后一层全连接层包括4个神经元。
一种用于确定目标对象的外接框的装置，其特征在于，包括：

获取模块，用于获取目标对象的多个关键点中每个关键点的属性信息；

确定模块，用于根据所述获取模块获取的所述目标对象的多个关键点中每个关键点的属性信息以及预设的神经网络，确定所述目标对象的外接框位置。
根据权利要求15所述的装置，其特征在于，所述目标对象包括：人体。
根据权利要求15或16所述的装置，其特征在于，所述关键点的属性信息包括：坐标信息以及存在判别值。
根据权利要求17所述的装置，其特征在于，所述确定模块包括：

第一子模块，用于根据所述获取模块获取的多个关键点中每个关键点的属性信息，从所述多个关键点中确定至少一个有效关键点；

第二子模块，用于根据所述第一子模块确定出的至少一个有效关键点中每个有效关键点的属性信息，对所述多个关键点的属性信息进行处理，得到处理后的多个关键点的属性信息；

第三子模块，用于将所述第二子模块得到的处理后的多个关键点的属性信息输入到所述预设的神经网络进行处理，得到所述目标对象的外接框位置。
根据权利要求18所述的装置，其特征在于，所述处理后的多个关键点的属性信息包括：所述至少一个有效关键点中每个有效关键点的处理后的属性信息以及所述多个关键点中除所述至少一个有效关键点之外的其他关键点的属性信息。
根据权利要求18或19所述的装置，其特征在于，所述第二子模块包括：

第一单元，用于根据所述第一子模块确定出的至少一个有效关键点中每个有效关键点的属性信息包括的坐标信息，确定参考坐标；

第二单元，用于根据所述第一单元确定出的参考坐标和所述至少一个有效关键点中每个有效关键点的属性信息中的坐标信息，确定所述每个有效关键点的处理后的属性信息中的坐标信息。
根据权利要求20所述的装置，其特征在于，所述第一单元用于：

对所述第一子模块确定出的至少一个有效关键点中每个有效关键点的坐标信息对应的坐标进行平均处理，得到所述参考坐标；和/或

第二单元用于：

将所述第一单元确定出的参考坐标作为原点，确定所述至少一个有效关键点中每个有效关键点的坐标信息所对应的处理后的坐标信息。
根据权利要求20或21所述的装置，其特征在于，所述第三子模块用于：

将所述第二子模块得到的处理后的多个关键点的属性信息输入到所述预设的神经网络进行处理，得到输出位置信息；

根据所述参考坐标和所述输出位置信息，确定所述目标对象的外接框位置。
根据权利要求15至22中任一项所述的装置，其特征在于，所述装置还包括：训练模块，用于：

获取包括多个样本数据的样本集合，其中，所述样本数据包括：样本对象的多个关键点的属性信息，并且所述样本数据标注有所述样本对象的外接框位置；

根据每个所述样本数据中样本对象的多个关键点的属性信息以及所述样本对象的外接框位置，训练所述神经网络。
根据权利要求15至23中任一项所述的装置，其特征在于，所述神经网络是基于随机梯度下降算法进行训练得到的。
根据权利要求15至24中任一项所述的装置，其特征在于，所述目标对象的外接框位置包括：所述目标对象的外接框对角线方向上的两个顶点的坐标信息。
根据权利要求15至25中任一项所述的装置，其特征在于，所述神经网络包括：至少两层全连接层。
根据权利要求15至26中任一项所述的装置，其特征在于，所述神经网络包括：三层全连接层，其中，所述三层全连接层的第一层全连接层和第二层全连接层中的至少一层的激活函数包括：修正线性单元ReLu激活函数。
根据权利要求27所述的装置，其特征在于，所述第一层全连接层包括320个神经元，所述第二层全连接层包括320个神经元，所述三层全连接层中的最后一层全连接层包括4个神经元。
一种电子设备，包括：处理器和计算机可读存储介质，计算机可读存储介质用于存储指令，所述处理器对所述指令的执行使得所述电子设备执行如权利要求1至14中任一项所述的方法。
一种计算机可读存储介质，其上存储有指令，所述指令被处理器执行时，执行如权利要求1至14中任一项所述的方法。