WO2020237942A1

WO2020237942A1 - 一种行人3d位置的检测方法及装置、车载终端

Info

Publication number: WO2020237942A1
Application number: PCT/CN2019/108075
Authority: WO
Inventors: 蒋云飞; 方欣
Original assignee: 初速度（苏州）科技有限公司
Priority date: 2019-05-30
Filing date: 2019-09-26
Publication date: 2020-12-03
Also published as: CN110956069A; CN110956069B

Abstract

本发明实施例公开一种行人3D位置的检测方法及装置、车载终端。该方法包括：将车辆中的图像采集设备采集待检测图像输入行人检测模型，由行人检测模型检测待检测图像中的行人边界框和行人关键点；其中，行人检测模型包含特征提取层和回归层，通过特征提取层中训练好的第一模型参数确定待检测图像的特征向量，通过回归层中训练好的第二模型参数对特征向量进行回归，得到待检测图像中的行人边界框和行人关键点；根据确定的行人边界框和行人关键点，以及预先确定的图像坐标系与车辆所在世界坐标系之间的转换关系，确定待检测图像中的行人的3D位置。应用本发明实施例提供的方案，能够在行人边界框不存在接地点时也能准确地确定行人的3D位置。

Description

一种行人3D位置的检测方法及装置、车载终端

技术领域

本发明涉及智能驾驶技术领域，具体而言，涉及一种行人3D位置的检测方法及装置、车载终端。

背景技术

行人检测是智能驾驶领域至关重要的感知任务之一。行人检测通常是指在获取车辆中安装的相机采集的图像时，对图像中的行人进行检测，当检测得到图像中的行人边界框时，根据行人边界框中行人的接地点位置，确定行人在车辆所在的世界坐标系下的3D(3 Dimensions，三维)位置。根据该3D位置，即能够确定行人相对于车辆的位置，从而控制车辆的行驶，保障行人和车辆的安全。

相机通常安装在车辆的前挡风玻璃内侧。当行人距离车辆较近时，行人的脚部容易被车辆的引擎盖遮挡，导致相机采集的图像中没有行人的接地点，这样从图像中检测得到的行人边界框就不存在接地点，根据这样的行人边界框无法准确地确定行人的3D位置。

发明内容

本发明提供了一种行人3D位置的检测方法及装置、车载终端，以在行人边界框不存在接地点时也能准确地确定行人的3D位置。具体的技术方案如下。

第一方面，本发明实施例公开了一种行人3D位置的检测方法，包括：

获取车辆中的图像采集设备采集的待检测图像；

将所述待检测图像输入行人检测模型，由所述行人检测模型检测所述待检测图像中的行人边界框和行人关键点；其中，预先训练好的所述行人检测模型能够使得所述待检测图像与行人边界框和行人关键点进行关联；所述行人检测模型包含特征提取层和回归层，通过所述特征提取层中训练好的第一模型参数确定所述待检测图像的特征向量，通过所述回归层中训练好的第二模型参数对所述特征向量进行回归，得到所述待检测图像中的行人边界框和行人关键点；

根据确定的所述行人边界框和行人关键点，以及预先确定的图像坐标系与所述车辆所在世界坐标系之间的转换关系，确定所述待检测图像中的行人在所述世界坐标系下的三维3D位置。

可选的，所述行人检测模型还输出所述待检测图像的行人边界框是否存在接地点的信息；

所述根据确定的所述行人边界框和行人关键点，以及预先确定的图像坐标系与所述车辆所在世界坐标系之间的转换关系，确定所述待检测图像中的行人在所述世界坐标系下的3D位置的步骤，包括：

判断所述行人边界框是否存在接地点；

如果存在，则根据所述行人边界框的接地点，以及预先确定的图像坐标系与所述车辆所在世界坐标系之间的转换关系，确定所述待检测图像中的行人在所述世界坐标系下的3D位置；

如果不存在，则根据确定的所述行人边界框和行人关键点之间的相对位置，以及预先确定的图像坐标系与所述车辆所在世界坐标系之间的转换关系，确定所述待检测图像中的行人在所述世界坐标系下的3D位置。

可选的，所述根据确定的所述行人边界框和行人关键点之间的相对位置，以及预先确定的图像坐标系与所述车辆所在世界坐标系之间的转换关系，确定所述待检测图像中的行人在所述世界坐标系下的3D位置的步骤，包括：

确定所述行人关键点与所述行人边界框的上边界框之间的第一高度；

根据预设的所述行人关键点与人体头顶、人体脚底之间的比例关系，以及所述第一高度，预测所述行人关键点与所述行人边界框对应的行人脚底之间的第二高度；

根据所述第二高度，确定所述待检测图像中所述行人边界框对应的接地点；

根据确定的所述行人边界框对应的接地点，以及预先确定的图像坐标系与所述车辆所在世界坐标系之间的转换关系，确定所述待检测图像中的行人在所述世界坐标系下的3D位置。

可选的，所述行人检测模型采用以下方式训练得到：

获取多个样本行人图像和标注的标准行人边界框和标准行人关键点；

将每个样本行人图像输入行人检测模型中的特征提取层；

通过所述特征提取层中的第一模型参数，确定所述样本行人图像的样本特征向量，并将所述样本特征向量发送至所述行人检测模型中的回归层；

通过所述回归层中的第二模型参数，对所述样本特征向量进行回归，得到所述样本行人图像中的样本行人边界框和样本行人关键点；

确定所述样本行人边界框和样本行人关键点分别与对应的标准行人边界框和标准行人关键点之间的差异量；

当所述差异量不小于预设差异量阈值时，根据所述差异量对所述第一模型参数和所述第二模型参数进行调整，返回执行所述将每个样本行人图像输入行人检测模型中的特征提取层的步骤；

当所述差异量小于预设差异量阈值时，确定所述行人检测模型训练完成。

可选的，所述通过所述回归层中训练好的第二模型参数，对所述特征向量进行回归，得到待检测图像中的行人边界框和行人关键点的步骤，包括：

通过所述回归层中训练好的第二模型参数，对所述特征向量进行回归，得到多个待选行人边界框和该待选行人边界框中的待选行人关键点；

根据非极大抑制算法，从多个待选行人边界框和该待选行人边界框中的待选行人关键点中选择所述待检测图像中的行人边界框和行人关键点。

可选的，所述根据非极大抑制算法，从多个待选行人边界框和该待选行人边界框中的待选行人关键点中选择所述待检测图像中的行人边界框和行人关键点的步骤，包括：

确定每个待选行人边界框中的待选行人关键点之间的连线；

根据预先训练得到的目标宽度，以所述连线作为高度，生成所述待选行人关键点对应的虚拟边框；

根据非极大抑制算法，对每个虚拟边框进行筛选，将筛选出的虚拟边框对应的待选行人边界框和该待选行人边界框中的待选行人关键点分别作为所述待检测图像中的行人边界框和行人关键点。

第二方面，本发明实施例提供了一种行人3D位置的检测装置，包括：

获取模块，被配置为获取车辆中的图像采集设备采集的待检测图像；

检测模块，被配置为将所述待检测图像输入行人检测模型，由所述行人检测模型检测所述待检测图像中的行人边界框和行人关键点；其中，预先训练好的所述行人检测模型能够使得所述待检测图像与行人边界框和行人关键点进行关联；所述行人检测模型包含特征提取层和回归层，通过所述特征提取层中训练好的第一模型参数确定所述待检测图像的特征向量，通过所述回归层中训练好的第二模型参数对所述特征向量进行回归，得到所述待检测图像中的行人边界框和行人关键点；

确定模块，被配置为根据确定的所述行人边界框和行人关键点，以及预先确定的图像坐标系与所述车辆所在世界坐标系之间的转换关系，确定所述待检测图像中的行人在所述世界坐标系下的三维3D位置。

所述确定模块，具体被配置为：

判断所述行人边界框是否存在接地点；

可选的，所述确定模块，根据确定的所述行人边界框和行人关键点之间的相对位置，以及预先确定的图像坐标系与车辆所在世界坐标系之间的转换关系，确定待检测图像中的行人在所述世界坐标系下的3D位置时，包括：

根据第二高度，确定所述待检测图像中所述行人边界框对应的接地点；

可选的，所述装置还包括：训练模块；所述训练模块，被配置为采用以下操作训练得到所述行人检测模型：

将每个样本行人图像输入行人检测模型中的特征提取层；

可选的，所述检测模块，通过所述回归层中训练好的第二模型参数，对所述特征向量进行回归，得到所述待检测图像中的行人边界框和行人关键点时，包括：

可选的，所述检测模块，根据非极大抑制算法，从多个待选行人边界框和该待选行人边界框中的待选行人关键点中选择所述待检测图像中的行人边界框和行人关键点时，包括：

确定每个待选行人边界框中的待选行人关键点之间的连线；

第三方面，本发明实施例公开了一种车载终端，包括：处理器和图像采集设备；所述处理器包括获取模块、检测模块和确定模块；

所述获取模块，用于获取车辆中的图像采集设备采集的待检测图像；

所述检测模块，用于将所述待检测图像输入行人检测模型，由所述行人检测模型检测所述待检测图像中的行人边界框和行人关键点；其中，预先训练好的所述行人检测模型能够使得所述待检测图像与行人边界框和行人关键点进行关联；所述行人检测模型包含特征提取层和回归层，通过所述特征提取层中训练好的第一模型参数确定所述待检测图像的特征向量，通过所述回归层中训练好的第二模型参数对所述特征向量进行回归，得到所述待检测图像中的行人边界框和行人关键点；

所述确定模块，用于根据确定的所述行人边界框和行人关键点，以及预先确定的图像坐标系与所述车辆所在世界坐标系之间的转换关系，确定所述待检测图像中的行人在所述世界坐标系下的三维3D位置。

可选的，所述行人检测模型还输出所述待检测图像的行人边界框是否存在接地点的信息；所述确定模块，具体用于：

判断所述行人边界框是否存在接地点；

可选的，所述确定模块，根据确定的所述行人边界框和行人关键点之间的相对位置，以及预先确定的图像坐标系与所述车辆所在世界坐标系之间的转换关系，确定所述待检测图像中的行人在所述世界坐标系下的3D位置时，包括：

可选的，所述处理器还包括：训练模块；所述训练模块，用于采用以下操作训练得到所述行人检测模型：

将每个样本行人图像输入行人检测模型中的特征提取层；

确定每个待选行人边界框中的待选行人关键点之间的连线；

由上述内容可知，本发明实施例提供的行人3D位置的检测方法及装置、车载终端，可以由行人检测模型检测待检测图像中的行人边界框和行人关键点，根据确定的行人边界框和行人关键点以及预先确定的图像坐标系与世界坐标系之间的转换关系，确定待检测图像中的行人在世界坐标系下的3D位置。本发明实施例可以由行人检测模型同时检测出待检测图像中的行人边界框和行人关键点，当行人边界框没有接地点时，可以采用行人边界框和行人关键点的结合，更准确地确定行人的3D位置。

本发明实施例的创新点包括：

1、针对每个待检测图像，采用行人检测模型一次性地从待检测图像中检测出行人边界框和行人关键点，在行人边界框不存在接地点时可以结合行人关键点确定行人的3D位置，提高3D位置的准确性。

2、当行人边界框不存在接地点时，可以结合行人关键点与行人各部位之间的比例关系，确定行人关键点到行人脚底的高度，进而确定行人边界框对应的接地点。当确定行人在待检测图像中的接地点时可以确定行人的3D位置，这样能够提高行人3D位置的准确性。

3、在行人检测模型检测行人边界框和行人关键点的过程中，针对行人关键点进行非极大值抑制，针对多个相互遮挡的行人，也能够更准确地确定每个行人的行人边界框和行人关键点，进而提高确定的行人3D位置的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例。对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的行人3D位置的检测方法的一种流程示意图；

图2为本发明实施例提供的对待检测图像进行检测的一种流程参考图；

图3A为本发明实施例提供的行人检测模型检测过程的一种流程示意图；

图3B为本发明实施例提供的执行非极大值抑制时的一种示意图；

图4为本发明实施例提供的行人3D位置的检测装置的一种结构示意图；

图5为本发明实施例提供的车载终端的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例及附图中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含的一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

本发明实施例公开了一种行人3D位置的检测方法及装置、车载终端，能够在行人边界框不存在接地点时也能准确地确定行人的3D(3 Dimensions，三维)位置。下面对本发明实施例进行详细说明。

图1为本发明实施例提供的行人3D位置的检测方法的一种流程示意图。该方法应用于电子设备。该电子设备可以为普通计算机、服务器或智能移动设备等，也可以为安装于车辆中的车载终端。该方法具体包括以下步骤。

S110：获取车辆中的图像采集设备采集的待检测图像。

图像采集设备可以为普通相机、监控摄像头或者行车记录仪。图像采集设备可以为安装于车辆的前挡风玻璃内侧的相机，也可以为安装于车辆的后挡风玻璃内侧的相机。

待检测图像中包含行人以及行人之外的背景区域。待检测图像中可以包含一个或多个行人，行人可能距离车辆较远，也可能距离车辆较近；待检测图像中可以存在行人的接地点，也可以不存在行人的接地点。行人的接地点可能被车辆遮挡，也可能被其他障碍物遮挡。

其中，接地点可以理解为行人与道路接触的点。

S120：将待检测图像输入行人检测模型，由行人检测模型检测待检测图像中的行人边界框和行人关键点。

其中，预先训练好的行人检测模型能够使得待检测图像与行人边界框和行人关键点进行关联。行人检测模型包含特征提取层和回归层。行人检测模型可以为预先根据样本行人图像和标注的标准行人编辑框和标准行人关键点、采用机器学习算法训练得到的。行人检测模型可以为深度学习中的神经网络模型。

行人检测模型检测待检测图像中的行人边界框和行人关键点时，具体可以包括：通过特征提取层中训练好的第一模型参数确定待检测图像的特征向量，通过回归层中训练好的第二模型参数对特征向量进行回归，得到待检测图像中的行人边界框和行人关键点。

其中，待检测图像中每个行人的行人边界框和行人关键点是相关联的。每个行人均包含行人边界框和行人关键点。行人边界框可以理解为能够包围行人的身体区域所有像素点的矩形框，行人边界框可以采用矩形框的对角顶点坐标表示。行人边界框还可以包含行人边界框中心点的坐标。

行人关键点可以包括腰部关键点、肩部关键点、胳膊关键点、头部关键点、腿部关键点等。由于人体的脚部和腿部容易被车辆等物体遮挡，因此，行人关键点可以选用腰部关键点和肩部关键点。例如，可以将腰部中心点作为腰部关键点，将肩部中心点作为肩部关键点。

行人关键点可能会被遮挡而无法检测到，但是当行人边界框确定时，可以根据行人边界框确定行人关键点，因此可以在样本行人图像中根据行人边界框的位置标注标准行人关键点的位置以及行人关键点的可见性，这样训练好的行人检测模型也能够确定行人关键点以及行人关键点的可见性。

例如，行人检测模型在对待检测图像进行检测后，可以输出以下检测结果：行人的肩部中心点和腰部中心点的坐标以及可见性、行人边界框对角点的坐标。

S130：根据确定的行人边界框和行人关键点，以及预先确定的图像坐标系与车辆所在世界坐标系之间的转换关系，确定待检测图像中的行人在世界坐标系下的3D位置。

其中，图像坐标系为待检测图像所在坐标系。世界坐标系为三维坐标系，可以以车辆的中心点为原点，以车辆的行进方向为X轴方向，以垂直于车辆顶面且向上的方向为Z轴方向。

所确定的行人边界框和行人关键点均为图像坐标系中的参量，根据该行人边界框和行人关键点能够确定行人在待检测图像中的接地点；根据图像坐标系与车辆所在世界坐标系之间的转换关系，可以将该接地点的位置转换成世界坐标系下的3D位置。该3D位置能够表示行人距离位于车辆中的各个坐标轴方向上的距离。

在确定图像坐标系与车辆所在世界坐标系之间的转换关系时，可以根据图像坐标系与相机坐标系之间的转换关系、以及相机坐标系与世界坐标系之间的转换关系确定。相机坐标系为图像采集设备所在的三维坐标系，相机坐标系可以图像采集设备感光元件的光心为原点，以光轴为Z轴建立坐标系。根据图像采集设备的内参矩阵，可以得到图像坐标系与相机坐标系之间的转换关系。

例如，内参矩阵可以为

其中，s为光轴的倾斜参量，f _u和f _v为感光元件的焦距，u ₀和v ₀为图像坐标系的原点到中心点的距离，也可以分别为待检测图像长度和宽度的一半。u和v分别为图像坐标系的两个坐标轴。

由上述内容可知，本实施例可以由行人检测模型检测待检测图像中的行人边界框和行人关键点，根据确定的行人边界框和行人关键点以及预先确定的图像坐标系与世界坐标系之间的转换关系，确定待检测图像中的行人在世界坐标系下的3D位置。本实施例可以由行人检测模型同时检测出待检测图像中的行人边界框和行人关键点，当行人边界框没有接地点时，可以采用行人边界框和行人关键点的结合，更准确地确定行人的3D位置。

为了确定行人的3D位置，在一种方案中，可以训练用于检测行人边界框的第一网络模型和用于检测行人关键点的第二网络模型，当第一网络模型检测到待检测图像中的行人边界框不存在接地点时，可以再将待检测图像输入第二网络模型，由第二网络模型检测待检测图像中的行人关键点，将行人边界框和行人关键点进行结合确定行人的3D位置。但是，这种方案就需要将待检测图像两次输入网络模型，对待检测图像检测两次，并且前期需要训练两个网络模型，整体上处理的效率较低。相比于这种方案，图1所示实施例中能够对待检测图像检测一次，同时输出行人边界框和行人关键点，在一定程度上节省了运行时间，提高了检测效率。

在本发明的另一实施例中，基于图1所示实施例，行人检测模型还输出待检测图像的行人边界框是否存在接地点的信息。

本实施例中，步骤S130，根据确定的行人边界框和行人关键点，以及预先确定的图像坐标系与车辆所在世界坐标系之间的转换关系，确定待检测图像中的行人在世界坐标系下的3D位置时，具体可以包括以下步骤1a～3a。

步骤1a：判断行人边界框是否存在接地点，如果存在，则执行步骤2a；如果不存在，则执行步骤3a。

本步骤可以根据行人检测模型输出的信息，判断行人边界框是否存在接地点。

步骤2a：根据行人边界框的接地点，以及预先确定的图像坐标系与车辆所在世界坐标系之间的转换关系，确定待检测图像中的行人在世界坐标系下的3D位置。

本步骤中，根据图像坐标系与世界坐标系之间的转换关系，可以确定行人边界框的接地点在世界坐标系下的3D位置，该3D位置即为待检测图像中的行人在世界坐标系下的3D位置。

也可以是，根据图像坐标系与世界坐标系之间的转换关系，确定行人边界框的接地点以及行人边界框的头部顶点和表征身体宽度的点在世界坐标系下的3D位置，将该多个3D位置构成的人体的立体包围框，作为待检测图像中的行人在世界坐标系下的3D位置。

步骤3a：根据确定的行人边界框和行人关键点之间的相对位置，以及预先确定的图像坐标系与车辆所在世界坐标系之间的转换关系，确定待检测图像中的行人在世界坐标系下的3D位置。

其中，行人边界框与行人关键点之间的相对位置，可以包括行人关键点到行人边界框顶端的距离、行人关键点到行人边界框侧边的距离等。例如，该行人边界框与行人关键点之间的相对位置可以包括肩部关键点到头顶的距离，腰部关键点到头顶的距离等。

综上，本实施例可以判断行人边界框是否存在接地点，当存在时直接根据行人边界框的接地点确定行人的3D位置，当不存在时根据行人边界框与行人关键点之间的相对位置确定行人的3D位置，根据不同的情况做出不同的处理，能够提高整体的计算效率。

在本发明的另一实施例中，基于图1所示实施例，步骤3a，根据确定的行人边界框和行人关键点之间的相对位置，以及预先确定的图像坐标系与车辆所在世界坐标系之间的转换关系，确定待检测图像中的行人在世界坐标系下的3D位置的步骤，具体可以包括步骤3a-1～3a-4。

步骤3a-1：确定行人关键点与行人边界框的上边界框之间的第一高度。

其中，上边界框可以理解为行人边界框所在的矩形框的上边。第一高度可以理解为行人关键点与行人边界框的上边界框在待检测图像的纵向上的距离。

步骤3a-2：根据预设的行人关键点与人体头顶、人体脚底之间的比例关系，以及第一高度，预测行人关键点与行人边界框对应的行人脚底之间的第二高度。

行人关键点与人体头顶、人体脚底之间的比例关系可以为预先对大量人体样本进行统计后得到的数据。例如，可以根据统计得到人体肩部中心点到人体头顶以及人体脚底的比例关系，以及人体腰部中心点到人体头顶以及人体脚底的比例关系。

当行人边界框不存在接地点时，行人边界框可以只包含人体上半身或者包含除人体脚部以外的区域。为了确定行人在世界坐标系下的3D位置，可以预测行人关键点与行人边界框对应的行人脚底之间的第二高度，根据该第二高度确定行人接地点在待检测图像中的位置。

步骤3a-3：根据第二高度，确定待检测图像中所述行人边界框对应的接地点。

本步骤中，可以直接从行人关键点的坐标向下扩展第二高度的位置，得到行人边界框对应的接地点；也可以根据预先经过实测确定的待检测图像不同坐标区间与真实空间之间的缩放关系，对第二高度进行缩放处理，再从行人关键点的坐标向下扩展处理后的第二高度的位置，得到行人边界框对应的接地点。

步骤3a-4：根据确定的行人边界框对应的接地点，以及预先确定的图像坐标系与车辆所在世界坐标系之间的转换关系，确定待检测图像中的行人在世界坐标系下的3D位置。

本步骤的具体实施方式可以参考步骤2a中的说明。

综上，本实施例中，当行人边界框不存在接地点时，可以结合行人关键点与行人各部位之间的比例关系，确定行人关键点到行人脚底的高度，进而确定行人边界框对应的接地点。当确定行人在待检测图像中的接地点时可以确定行人的3D位置，这样能够提高行人3D位置的准确性。

在本发明的另一实施例中，基于图1所示实施例，行人检测模型可以采用以下步骤1b～6b训练得到。

步骤1b：获取多个样本行人图像和标注的标准行人边界框和标准行人关键点。该标准行人边界框和标准行人关键点可以视为真实值。

在实际应用中，为了使得模型训练得更准确，可以获取大量样本行人图像。样本行人图像中可以包括一个或多个行人。样本行人图像中包含行人之外的背景区域。

样本行人图像可以是预先利用车辆上的摄像头采集得到的。每个样本行人图像均标注有标准行人边界框以及是否存在接地点的信息，标注的标准行人关键点可以包括关键点坐标以及关键点的可见性。

步骤2b：将每个样本行人图像输入行人检测模型中的特征提取层。

步骤3b：通过特征提取层中的第一模型参数，确定样本行人图像的样本特征向量，并将样本特征向量发送至所述行人检测模型中的回归层。

其中，特征提取层和回归层的功能可以分别以不同的卷积层来实现。样本特征向量可以特征矩阵的形式表示。第一模型参数的初始值可以根据经验预先设置，例如可以设置为较小的值。在每次训练的过程中，第一模型参数不断地被修正，逐渐接近真实值。

步骤4b：通过回归层中的第二模型参数，对样本特征向量进行回归，得到样本行人图像中的样本行人边界框和样本行人关键点。

第二模型参数的初始值可以根据经验预先设置，例如可以设置为较小的值。在每次训练的过程中，第二模型参数不断地被修正，逐渐接近真实值。

在训练过程中，得到的样本行人边界框和样本行人关键点可能不够准确，该样本行人边界框和样本行人关键点可以作为对第一模型参数和第二模型参数进行修正时的参考依据。

步骤5b：确定所述样本行人边界框和样本行人关键点分别与对应的标准行人边界框和标准行人关键点之间的差异量。

其中，上述差异量可以采用损失函数(loss)确定。在确定差异量时可以分别确定样本行人边界框与标准行人边界框之间的差异量，确定样本行人关键点与标准行人关键点之间的差异量。

步骤6b：当差异量不小于预设差异量阈值时，根据该差异量对第一模型参数和第二模型参数进行调整，返回执行步骤2b。当差异量小于预设差异量阈值时，确定行人检测模型训练完成。

当返回执行步骤2b时，可以将其他的样本行人图像输入行人检测模型中的特征提取层，执行下一次学习过程。

本实施例中，在确定上述差异量时，可以判断该差异量是否小于预设差异量阈值。当差异量不小于预设差异量阈值时，认为行人检测模型的预测结果与标准值之间的差异较大，需要继续训练网络。根据差异量对上述第一模型参数和第二模型参数进行调整时，可以参考差异量的具体数值以及变化方向，根据该具体数值，向相反方向调整该第一模型参数和第二模型参数。

在本发明的另一实施例中，基于图1所示实施例，步骤S120中，通过回归层中训练好的第二模型参数，对特征向量进行回归，得到待检测图像中的行人边界框和行人关键点的步骤，包括：

步骤1c：通过回归层中训练好的第二模型参数，对特征向量进行回归，得到多个待选行人边界框和该待选行人边界框中的待选行人关键点。

根据第二模型参数，直接对特征向量进行回归时，可以得到大量的行人边界框和行人关键点，作为待选行人边界框和待选行人关键点。为了对这些大量的行人边界框和行人关键点进行筛选，消除多余的检测结果，可以对这些大量的行人边界框和行人关键点进行NMS(Non-Maximum Suppression，非极大值抑制)处理。

步骤2c：根据非极大抑制算法，从多个待选行人边界框和该待选行人边界框中的待选行人关键点中选择待检测图像中的行人边界框和行人关键点。

由于待选行人边界框和待选行人关键点是对应关联的，可以根据对各个待选行人边界框之间的重合度进行筛选，例如可以确定两个待选行人边界框之间的交并比(即重合度)，针对交并比大于预设交并比的待选行人边界框，去除分值低的待选行人边界框和对应的待选行人关键点。分值为置信度得分。

在行人较多且拥挤的场景中，行人之间的间距非常小，还经常会相互遮挡。在这种情况下，这些行人之间的待选行人边界框之间的交并比会比较大，超出预设交并比阈值，导致部分行人的行人边界框被清除掉，造成多个相互遮挡的行人可能只能检测出一组行人边界框和行人关键点。

为了尽可能多地从待检测图像中检测到每个行人，提高算法的召回率(召回率即Recall Rate，也叫查全率)，在本发明的另一实施例中，步骤2c可以采用以下实施方式实现，具体包括以下步骤2c-1～2c-3。

步骤2c-1：确定每个待选行人边界框中的待选行人关键点之间的连线。

例如，当待选行人关键点包括肩部中心点和腰部中心点时，可以将每个待选行人边界框中的肩部中心点和腰部中心点进行连线。

步骤2c-2：根据预先训练得到的目标宽度，以上述连线作为高度，生成待选行人关键点对应的虚拟边框。

其中，上述目标宽度为在行人检测模型的训练过程中确定的较优值。虚拟边框可以理解为矩形框，该矩形框的高度为上述连线，宽度为上述目标宽度。这样可以针对每一组待选行人边界框和待选行人关键点，可以得到一个虚拟边框。

根步骤2c-3：据非极大抑制算法，对每个虚拟边框进行筛选，将筛选出的虚拟边框对应的待选行人边界框和该待选行人边界框中的待选行人关键点分别作为所述待检测图像中的行人边界框和行人关键点。

具体的，本步骤可以确定每个虚拟边框之间的交并比，针对交并比大于预设交并比阈值的虚拟边框对应的待选行人边界框和待选行人关键点，去除分值低的待选行人边界框和对应的待选行人关键点，将剩余的待选行人边界框和待选行人关键点作为待检测图像中的行人边界框和行人关键点。

下面结合具体实例对本实施例进行说明。图3A为行人检测模型对待检测图像进行检测得到输出结果的流程示意图。将待检测图像输入特征提取层，特征提取层根据第一模型参数确定待检测图像的特征向量，得到特征向量图，并将特征向量图输入回归层。回归层根据第二模型参数从特征向量图中确定大量可能的区域建议(proposals)，每个区域建议中包括表示区域建议置信度的分值、行人边界框对角顶点和行人关键点坐标以及关键点可见性。将这些大量的区域建议对应于上述实施例中的待选行人边界框和待选行人关键点。

参见图3B的左侧图，采用虚线框表示两个行人的行人边界框，黑色圆点分别为肩部中心点和腰部中心点。当根据行人边界框对各个区域建议进行非极大值抑制时，当两个行人距离很近时，行人边界框之间的交并比非常高，其中一个行人容易被清除掉。参见图3B的右侧图，P1为行人的肩部中心点，P2为行人的腰部中心点，以P1和P2的连线h作为高度，以目标宽度w作为宽度，生成虚拟边框(采用点画线表示)，即对关键点连线进行横向膨胀。当从两个关键点扩展到虚拟边框时，线的NMS可以扩展为位姿的NMS，即给关键点之间的连线赋予虚拟宽度，再进行NMS。从图3B右侧图中可见，虚拟边框之间的交并比比行人边界框之间的交并比小得多，能够提高行人的召回率。

当对图3A中的区域建议进行NMS之后，可以将剩余的区域建议和特征向量均输入池化层进行归一化处理，最后得到模型的输出结果。

综上，本实施例中，在行人检测模型检测行人边界框和行人关键点的过程中，针对行人关键点进行非极大值抑制，针对多个相互遮挡的行人，也能够更准确地确定每个行人的行人边界框和行人关键点，进而提高确定的行人3D位置的准确性。

为了确定目标宽度，可以将设置σ＝h/w，通过在训练阶段设定不同的σ值，得到更优化的目标宽度。

在行人检测模型的训练过程中，也可以采用上述实施例中步骤2c-1～2c-3的方式对从样本行人图像中检测到的参考行人边界框和参考行人关键点进行NMS。在训练过程中，根据参考值与标准值之间的差异量不断调整σ值，最终确定较优化的σ值。

为了更快速地得到行人检测模型，可以采用迁移学习的方法，利用已有的在行人检测领域取得较好结果的深度卷积神经网络，如Faster R-CNN等，对其输出类别数量及可能需要修改的其他部位的结构做出相应的修改，并直接采用原有网络模型中已经充分训练的参数，作为模型参数。

在另一种实施方式中，上述行人检测模型还可以包含池化层和全连接层。当回归层根据第二模型参数对样本特征向量进行回归之后，可以得到样本行人边界框和样本行人关键点，将样本特征向量以及样本行人边界框和样本行人关键点输入池化层，池化层可以对样本行人边界框和样本行人关键点进行归一化，并将归一化后的结果输入全连接层。全连接层可以对归一化后的样本行人边界框和样本行人关键点进行映射，得到模型的输出结果。

参见图3A，在训练阶段中，在回归行人关键点的坐标时，可以根据以下公式计算关键点的变换向量：

其中，g _x和g _y表示标准行人关键点的两个分量，P _x和P _y表示区域建议中行人关键点的两个分量，P _width和P _height表示区域建议中行人边界框的宽度和高度，d _x和d _y表示在每一次训练过程中计算标准行人关键点与区域建议中行人关键点之间的映射关系，

和

为参考行人关键点的坐标分量。在训练过程中，可以将

和g之间的差异作为损失函数，通过对第一模型参数和第二模型参数进行调整而不断地减小损失函数，进而学习到更好的d _x和d _y。当训练完成后

当行人检测模型训练好之后，可以根据训练阶段得到的d _x和d _y，以及区域建议中的信息转换得到

和

即为行人检测模型输出的行人关键点。

图4为本发明实施例提供的行人3D位置的检测装置的一种结构示意图。该装置应用于电子设备，该装置实施例与图1所示方法实施例相对应。该装置包括：

获取模块410，被配置为获取车辆中的图像采集设备采集的待检测图像；

检测模块420，被配置为将待检测图像输入行人检测模型，由行人检测模型检测待检测图像中的行人边界框和行人关键点；其中，预先训练好的行人检测模型能够使得待检测图像与行人边界框和行人关键点进行关联；行人检测模型包含特征提取层和回归层，通过特征提取层中训练好的第一模型参数确定待检测图像的特征向量，通过回归层中训练好的第二模型参数对特征向量进行回归，得到待检测图像中的行人边界框和行人关键点；

确定模块430，被配置为根据确定的行人边界框和行人关键点，以及预先确定的图像坐标系与车辆所在世界坐标系之间的转换关系，确定待检测图像中的行人在世界坐标系下的三维3D位置。

在本发明的另一实施例中，基于图4所示实施例，行人检测模型还输出待检测图像的行人边界框是否存在接地点的信息；确定模块430，具体被配置为：

判断行人边界框是否存在接地点；

如果存在，则根据行人边界框的接地点，以及预先确定的图像坐标系与车辆所在世界坐标系之间的转换关系，确定待检测图像中的行人在世界坐标系下的3D位置；

如果不存在，则根据确定的行人边界框和行人关键点之间的相对位置，以及预先确定的图像坐标系与车辆所在世界坐标系之间的转换关系，确定待检测图像中的行人在世界坐标系下的3D位置。

在本发明的另一实施例中，基于图4所示实施例，确定模块430，根据确定的行人边界框和行人关键点之间的相对位置，以及预先确定的图像坐标系与车辆所在世界坐标系之间的转换关系，确定待检测图像中的行人在世界坐标系下的3D位置时，包括：

确定行人关键点与行人边界框的上边界框之间的第一高度；

根据预设的行人关键点与人体头顶、人体脚底之间的比例关系，以及第一高度，预测行人关键点与行人边界框对应的行人脚底之间的第二高度；

根据第二高度，确定待检测图像中行人边界框对应的接地点；

根据确定的行人边界框对应的接地点，以及预先确定的图像坐标系与车辆所在世界坐标系之间的转换关系，确定待检测图像中的行人在世界坐标系下的3D位置。

在本发明的另一实施例中，基于图4所示实施例，该装置还包括：训练模块(图中未示出)；训练模块，被配置为采用以下操作训练得到行人检测模型：

将每个样本行人图像输入行人检测模型中的特征提取层；

通过特征提取层中的第一模型参数，确定样本行人图像的样本特征向量，并将样本特征向量发送至行人检测模型中的回归层；

通过回归层中的第二模型参数，对样本特征向量进行回归，得到样本行人图像中的样本行人边界框和样本行人关键点；

确定样本行人边界框和样本行人关键点分别与对应的标准行人边界框和标准行人关键点之间的差异量；

当差异量不小于预设差异量阈值时，根据差异量对第一模型参数和第二模型参数进行调整，返回执行将每个样本行人图像输入行人检测模型中的特征提取层的步骤；

当差异量小于预设差异量阈值时，确定行人检测模型训练完成。

在本发明的另一实施例中，基于图4所示实施例，检测模块420，通过回归层中训练好的第二模型参数，对特征向量进行回归，得到待检测图像中的行人边界框和行人关键点时，包括：

通过回归层中训练好的第二模型参数，对特征向量进行回归，得到多个待选行人边界框和该待选行人边界框中的待选行人关键点；

根据非极大抑制算法，从多个待选行人边界框和该待选行人边界框中的待选行人关键点中选择待检测图像中的行人边界框和行人关键点。

在本发明的另一实施例中，基于图4所示实施例，检测模块420，根据非极大抑制算法，从多个待选行人边界框和该待选行人边界框中的待选行人关键点中选择待检测图像中的行人边界框和行人关键点时，包括：

确定每个待选行人边界框中的待选行人关键点之间的连线；

根据预先训练得到的目标宽度，以连线作为高度，生成待选行人关键点对应的虚拟边框；

根据非极大抑制算法，对每个虚拟边框进行筛选，将筛选出的虚拟边框对应的待选行人边界框和该待选行人边界框中的待选行人关键点分别作为待检测图像中的行人边界框和行人关键点。

上述装置实施例与方法实施例相对应，与该方法实施例具有同样的技术效果，具体说明参见方法实施例。装置实施例是基于方法实施例得到的，具体的说明可以参见方法实施例部分，此处不再赘述。

图5为本发明实施例提供的车载终端的一种结构示意图。该车载终端包括：处理器510和图像采集设备520；处理器510包括获取模块11、检测模块12和确定模块13；

获取模块11，用于获取车辆中的图像采集设备520采集的待检测图像；

检测模块12，用于将待检测图像输入行人检测模型，由行人检测模型检测待检测图像中的行人边界框和行人关键点；其中，预先训练好的行人检测模型能够使得待检测图像与行人边界框和行人关键点进行关联；行人检测模型包含特征提取层和回归层，通过特征提取层中训练好的第一模型参数确定待检测图像的特征向量，通过回归层中训练好的第二模型参数对特征向量进行回归，得到待检测图像中的行人边界框和行人关键点；

确定模块13，用于根据确定的行人边界框和行人关键点，以及预先确定的图像坐标系与车辆所在世界坐标系之间的转换关系，确定待检测图像中的行人在世界坐标系下的三维3D位置。

在本发明的另一实施例中，基于图5所示实施例，行人检测模型还输出待检测图像的行人边界框是否存在接地点的信息；确定模块13具体用于：

判断行人边界框是否存在接地点；

在本发明的另一实施例中，基于图5所示实施例，确定模块13根据确定的行人边界框和行人关键点之间的相对位置，以及预先确定的图像坐标系与车辆所在世界坐标系之间的转换关系，确定待检测图像中的行人在世界坐标系下的3D位置时，包括：

确定行人关键点与行人边界框的上边界框之间的第一高度；

在本发明的另一实施例中，基于图5所示实施例，处理器510还包括：训练模块(图中未示出)；训练模块，用于采用以下操作训练得到行人检测模型：

将每个样本行人图像输入行人检测模型中的特征提取层；

在本发明的另一实施例中，基于图5所示实施例，检测模块12，通过回归层中训练好的第二模型参数，对特征向量进行回归，得到待检测图像中的行人边界框和行人关键点时，包括：

在本发明的另一实施例中，基于图5所示实施例，检测模块12，根据非极大抑制算法，从多个待选行人边界框和该待选行人边界框中的待选行人关键点中选择待检测图像中的行人边界框和行人关键点时，包括：

确定每个待选行人边界框中的待选行人关键点之间的连线；

该终端实施例与图1所示方法实施例是基于同一发明构思得到的实施例，相关之处可以相互参照。上述终端实施例与方法实施例相对应，与该方法实施例具有同样的技术效果，具体说明参见方法实施例。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域普通技术人员可以理解：实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

一种行人3D位置的检测方法，其特征在于，包括：

获取车辆中的图像采集设备采集的待检测图像；

将所述待检测图像输入行人检测模型，由所述行人检测模型检测所述待检测图像中的行人边界框和行人关键点；其中，预先训练好的所述行人检测模型能够使得所述待检测图像与行人边界框和行人关键点进行关联；所述行人检测模型包含特征提取层和回归层，通过所述特征提取层中训练好的第一模型参数确定所述待检测图像的特征向量，通过所述回归层中训练好的第二模型参数对所述特征向量进行回归，得到所述待检测图像中的行人边界框和行人关键点；

根据确定的所述行人边界框和行人关键点，以及预先确定的图像坐标系与所述车辆所在世界坐标系之间的转换关系，确定所述待检测图像中的行人在所述世界坐标系下的三维3D位置。
如权利要求1所述的方法，其特征在于，所述行人检测模型还输出所述待检测图像的行人边界框是否存在接地点的信息；

所述根据确定的所述行人边界框和行人关键点，以及预先确定的图像坐标系与所述车辆所在世界坐标系之间的转换关系，确定所述待检测图像中的行人在所述世界坐标系下的3D位置的步骤，包括：

判断所述行人边界框是否存在接地点；

如果存在，则根据所述行人边界框的接地点，以及预先确定的图像坐标系与所述车辆所在世界坐标系之间的转换关系，确定所述待检测图像中的行人在所述世界坐标系下的3D位置；

如果不存在，则根据确定的所述行人边界框和行人关键点之间的相对位置，以及预先确定的图像坐标系与所述车辆所在世界坐标系之间的转换关系，确定所述待检测图像中的行人在所述世界坐标系下的3D位置。
如权利要求2所述的方法，其特征在于，所述根据确定的所述行人边界框和行人关键点之间的相对位置，以及预先确定的图像坐标系与所述车辆所在世界坐标系之间的转换关系，确定所述待检测图像中的行人在所述世界坐标系下的3D位置的步骤，包括：

确定所述行人关键点与所述行人边界框的上边界框之间的第一高度；

根据预设的所述行人关键点与人体头顶、人体脚底之间的比例关系，以及所述第一高度，预测所述行人关键点与所述行人边界框对应的行人脚底之间的第二高度；

根据所述第二高度，确定所述待检测图像中所述行人边界框对应的接地点；

根据确定的所述行人边界框对应的接地点，以及预先确定的图像坐标系与所述车辆所在世界坐标系之间的转换关系，确定所述待检测图像中的行人在所述世界坐标系下的3D位置。
如权利要求1所述的方法，其特征在于，所述行人检测模型采用以下方式训练得到：

获取多个样本行人图像和标注的标准行人边界框和标准行人关键点；

将每个样本行人图像输入行人检测模型中的特征提取层；

通过所述特征提取层中的第一模型参数，确定所述样本行人图像的样本特征向量，并将所述样本特征向量发送至所述行人检测模型中的回归层；

通过所述回归层中的第二模型参数，对所述样本特征向量进行回归，得到所述样本行人图像中的样本行人边界框和样本行人关键点；

确定所述样本行人边界框和样本行人关键点分别与对应的标准行人边界框和标准行人关键点之间的差异量；

当所述差异量不小于预设差异量阈值时，根据所述差异量对所述第一模型参数和所述第二模型参数进行调整，返回执行所述将每个样本行人图像输入行人检测模型中的特征提取层的步骤；

当所述差异量小于预设差异量阈值时，确定所述行人检测模型训练完成。
如权利要求1所述的方法，其特征在于，所述通过所述回归层中训练好的第二模型参数，对所述特征向量进行回归，得到所述待检测图像中的行人边界框和行人关键点的步骤，包括：

通过所述回归层中训练好的第二模型参数，对所述特征向量进行回归，得到多个待选行人边界框和该待选行人边界框中的待选行人关键点；

根据非极大抑制算法，从多个待选行人边界框和该待选行人边界框中的待选行人关键点中选择所述待检测图像中的行人边界框和行人关键点。
如权利要求5所述的方法，其特征在于，所述根据非极大抑制算法，从多个待选行人边界框和该待选行人边界框中的待选行人关键点中选择所述待检测图像中的行人边界框和行人关键点的步骤，包括：

确定每个待选行人边界框中的待选行人关键点之间的连线；

根据预先训练得到的目标宽度，以所述连线作为高度，生成所述待选行人关键点对应的虚拟边框；

根据非极大抑制算法，对每个虚拟边框进行筛选，将筛选出的虚拟边框对应的待选行人边界框和该待选行人边界框中的待选行人关键点分别作为所述待检测图像中的行人边界框和行人关键点。
一种行人3D位置的检测装置，其特征在于，包括：

获取模块，被配置为获取车辆中的图像采集设备采集的待检测图像；

检测模块，被配置为将所述待检测图像输入行人检测模型，由所述行人检测模型检测所述待检测图像中的行人边界框和行人关键点；其中，预先训练好的所述行人检测模型能够使得所述待检测图像与行人边界框和行人关键点进行关联；所述行人检测模型包含特征提取层和回归层，通过所述特征提取层中训练好的第一模型参数确定所述待检测图像的特征向量，通过所述回归层中训练好的第二模型参数对所述特征向量进行回归，得到所述待检测图像中的行人边界框和行人关键点；

确定模块，被配置为根据确定的所述行人边界框和行人关键点，以及预先确定的图像坐标系与所述车辆所在世界坐标系之间的转换关系，确定所述待检测图像中的行人在所述世界坐标系下的三维3D位置。
如权利要求7所述的装置，其特征在于，所述行人检测模型还输出所述待检测图像的行人边界框是否存在接地点的信息；

所述确定模块，具体被配置为：

判断所述行人边界框是否存在接地点；

如果存在，则根据所述行人边界框的接地点，以及预先确定的图像坐标系与所述车辆所在世界坐标系之间的转换关系，确定所述待检测图像中的行人在所述世界坐标系下的3D位置；

如果不存在，则根据确定的所述行人边界框和行人关键点之间的相对位置，以及预先确定的图像坐标系与所述车辆所在世界坐标系之间的转换关系，确定所述待检测图像中的行人在所述世界坐标系下的3D位置。
一种车载终端，其特征在于，包括：处理器和图像采集设备；所述处理器包括获取模块、检测模块和确定模块；

所述获取模块，用于获取车辆中的图像采集设备采集的待检测图像；

所述检测模块，用于将所述待检测图像输入行人检测模型，由所述行人检测模型检测所述待检测图像中的行人边界框和行人关键点；其中，预先训练好的所述行人检测模型能够使得所述待检测图像与行人边界框和行人关键点进行关联；所述行人检测模型包含特征提取层和回归层，通过所述特征提取层中训练好的第一模型参数确定所述待检测图像的特征向量，通过所述回归层中训练好的第二模型参数对所述特征向量进行回归，得到所述待检测图像中的行人边界框和行人关键点；

所述确定模块，用于根据确定的所述行人边界框和行人关键点，以及预先确定的图像坐标系与所述车辆所在世界坐标系之间的转换关系，确定所述待检测图像中的行人在所述世界坐标系下的三维3D位置。
如权利要求9所述的终端，其特征在于，所述检测模块，通过所述回归层中训练好的第二模型参数，对所述特征向量进行回归，得到所述待检测图像中的行人边界框和行人关键点时，包括：

通过所述回归层中训练好的第二模型参数，对所述特征向量进行回归，得到多个待选行人边界框和该待选行人边界框中的待选行人关键点；

根据所述非极大抑制算法，从多个待选行人边界框和该待选行人边界框中的待选行人关键点中选择所述待检测图像中的行人边界框和行人关键点。