WO2022151664A1

WO2022151664A1 - 一种基于单目摄像头的3d物体检测方法

Info

Publication number: WO2022151664A1
Application number: PCT/CN2021/102534
Authority: WO
Inventors: 黄梓航; 伍小军; 周航; 刘妮妮; 董萌; 陈炫翰
Original assignee: 惠州市德赛西威汽车电子股份有限公司
Priority date: 2021-01-15
Filing date: 2021-06-25
Publication date: 2022-07-21
Also published as: CN112883790A

Abstract

一种基于单目摄像头的3D物体检测方法，该方法包括：建立深度估计模型，所述深度估计模型用于获取与原始图像数据相匹配的预测深度图（101）；通过车载摄像头获取原始图像数据（102）；利用深度估计模型获取与原始图像数据相匹配的预测深度图（103）；在原始图像数据中检测出目标物体（104）；将目标物体投射至对应的预测深度图中，生成锚定区域，并对锚定区域进行3D重建，获得目标物体在世界坐标系中的三维坐标值（105）；该方法仅凭借单目摄像头就能获得物体的三维坐标信息，不依赖于路面完全平整的假设基础，成本低，检测精度高，能够为驾驶员提供较为准确的参考数据，利于提高驾驶安全性。

Description

一种基于单目摄像头的3D物体检测方法

技术领域

本发明涉及3D物体检测技术领域，特别涉及一种基于单目摄像头的3D物体检测方法。

背景技术

在计算机视觉中，检测感兴趣物体并推断其三维特性是一个核心问题，目前已取得了广泛应用。特别是在过去的十年中，随着无人驾驶技术和移动机器人的快速发展，物体检测在感知系统中发挥了极其重要的作用，精准，高效的感知系统能够有效确保机器人与其他周围移动物体的安全。近年来，虽然二维的物体检测在无人驾驶系统中也得到了迅猛地发展，但将检测到的物体从图像平面转换到真实世界姿态仍需更多的改进。而常规三维物体检测的任务通常又严重依赖激光雷达或毫米波雷达等深度传感器，不仅计算量较大，而且成本也较高。

鉴于越来越多的车辆已经配备了高清摄像头，因此，借助于单目摄像头来执行3D目标的检测，以降低成本，已逐渐成为行业的发展趋势。在现有的基于单目摄像头的3D物体检测算法中，其实时性与精度都远远不及使用其他传感器的方法(如激光雷达)。这是因为，现有基于单目摄像头的3D物体检测算法都依赖于一个假设，即地面(或地球)是平的。基于这个假设，可以使用二维信息源对三维信息建模。例如，由于假设地面是平的，传统方法进一步假设被检测物体对应的二维目标框的底部位于地平面上。因此，当一个物体被检测到，基于这个平面假设，简单的几何结构计算就可算出障碍物与本车的距离。

然而，实际路面不可能是完全平整的，当路面是弯曲或者不平整时，这些传统办法就会受到影响。例如，当假设地平面是平的时候，实际上是不平的，行驶面上的曲线会导致不准确的预测，对环境中障碍物的距离估计就会出现过高或过低的判断。在这两种情况中，不准确的距离估计会对车辆的各种操作产生直接的负面影响，从而可能危及横向和纵向控制或者驾驶的安全性与可靠性。例如，低估的距离会导致Adaptive Cruise Control(ACC，主动巡航控制系统)功能失效，更严重地，在防止潜在的交通事故中，Automatic Energency Brake(AEB，自动紧急制动系统)功能的失效。反之，高估的距离可能导致ACC或AEB功能在不需要的时候被激活，从而对乘客造成潜在的不适或伤害，同时也降低了乘客对车辆安全运行能力的信心。

发明内容

为了克服上述缺陷，本发明提供了一种基于单目摄像头的3D物体检测方法，该方法包括：

建立深度估计模型，所述深度估计模型用于获取与原始图像数据相匹配的预测深度图；

通过车载摄像头获取原始图像数据；

利用深度估计模型获取与原始图像数据相匹配的预测深度图；

在原始图像数据中检测出目标物体；

将目标物体投射至对应的预测深度图中，生成锚定区域，并对锚定区域进行3D重建，获得目标物体在世界坐标系中的三维坐标值。

进一步的，所述建立深度估计模型步骤包括：

获取若干帧原始图像数据以及与各原始图像数据相匹配的深度图像数据，并建立训练集，所述训练集中每帧原始图像数据和与其相对应的深度图像数据组成一个样本；

以训练集中的各样本作为训练因素，根据Scale-invariant Error loss损失函数计算出深度估计模型。

进一步的，在所述建立深度估计模型步骤之后，在所述在原始图像数据中检测出目标物体步骤之前，还包括建立物体检测模型步骤：

利用深度学习模型框架Darknet53作为特征提取框架，以训练集中的各原始图像数据作为训练因素，根据Focal Loss损失函数训练出物体检测模型，所述物体检测模型用于检测原始图像数据中的目标物体。

进一步的，所述Focal Loss损失函数如下：

FL(pt)＝-α(1-pt)γlog(pt)

其中，所述pt为检测概率，所述α为类别间参数，(1-pt)γ为简单/困难样本调节因子，且α＝0.5γ＝2。

进一步的，所述获取若干帧原始图像数据以及与各原始图像数据相匹配的深度图像数据，并建立训练集步骤，包括：

同时获取若干帧原始图像数据以及与各原始图像数据相匹配的激光雷达数据；

将各所述激光雷达数据与各所述原始图像数据进行时间同步处理，形成一一对应关系；

将激光雷达数据中的三维点云投射至图像平面内，形成点云图；

对点云图分别进行深度扩充处理，以获取与原始图像数据相匹配的深度图像数据；

以若干帧原始图像数据以及与各原始图像数据相匹配的深度图像数据建立训练集。

进一步的，所述将激光雷达数据中的三维点云投射至图像平面内，形成点云图步骤，包括：

获取车载摄像头的内参矩阵；

通过联合标定法计算出车载摄像头与车载激光雷达之间的旋转平移矩阵；

根据内参矩阵以及旋转平移矩阵，将激光雷达数据中的三维点云转换成二维的点云图。

进一步的，所述对点云图进行深度扩充处理，以获取与原始图像数据相匹配的深度图像数据步骤，包括：

对点云图进行逆转处理；

对经过逆转处理的点云图进行第一次内核扩张处理，以完成小孔闭合；

使用中值滤波器，对经过第一次内核扩张处理的点云图进行第一次动态模糊去除异常值处理；

对经过第一次动态模糊去除异常值处理的点云图进行第二次内核扩张处理，以完成孔距填充；

对经过第二次内核扩张处理的点云图进行第三内核扩张处理，以完成大孔闭合；

使用中值滤波器，对经过第三次内核扩张处理的点云图进行第二次动态模糊去除异常值处理；

针对经过第二次动态模糊去除异常值处理的点云图，采用双边滤波器去除异常值，保持局部边界特征，并实现二次逆转处理，以获取与原始图像数据相匹配的深度图像数据。

进一步的，所述利用深度估计模型获取与原始图像数据相匹配的预测深度图步骤，包括：

采用Dense121Net作为编码层，提取原始图像数据中的特征参数；

对编码层进行解码，获取三个支路，以通过三个支路提取不同尺寸下的相对局部结构特征，并将三个支路的输出串联，统一尺寸为输入图像大小，获取串联层；

对串联层进行卷积计算，分析局部结构，以获取与深度图像数据相对应的预测深度图。

进一步的，所述对编码层进行解码，获取三个支路，以通过三个支路提取不同尺寸下的相对局部结构特征，并将三个支路的输出串联，统一尺寸为输入图像大小，获取串联层步骤，包括：

将编码后的特征降维至H/8,通过空间金字塔池化层提取上下文结构信息，并将提取出的结构信息连接至局部平面引导层解析其局部几何结构信息，从而生成第一支路的估计深度特征；

将编码后的特征降维至H/4,串联第一支路生成的深度特征，并连接至局部平面引导层解析其局部几何结构信息，从而生成第二支路的估计深度特征；

将编码后的特征降维至H/2,串联第二支路生成的深度特征，并连接至局部平面引导层解析其局部几何结构信息，从而生成第三支路的估计深度特征；

将第一支路、第二支路以及第三支路生成的估计深度特征串联起来，并统一尺寸为输入图像大小，获取串联层。

进一步的，所述特征参数包括图像纹理、色彩以及空间结构。

与现有技术相比，本发明的有益效果是如下：

本发明公开了一种基于单目摄像头的3D物体检测方法，该3D物体检测方法仅借助于单目摄像头即可完成对3D物体的准确检测，整个计算过程中，不依赖于路面完全平整的假设基础，与传统借助于单目摄像头来执行3D目标的检测方案相比，检测精度得到了明显提高，能够为驾驶员提供较为准确的参考数据，利于提高驾驶安全性，同时明显降低了3D物体的检测成本，具有非常重要的使用价值。

附图说明

图1为实施例1中基于单目摄像头的3D物体检测方法流程示意图。

图2为实施例1中训练集的建立过程示意图。

图3为实施例1中基于单目摄像头的3D物体检测方法原理图。

图4为实施例1中利用深度估计模型获取预测深度图的具体流程示意图。

图5为实施例1中原始图像数据以及标注信息示意图。

图6为实施例1中预测深度图以及锚定区域的示意图。

附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的；相同或相似的标号对应相同或相似的部件；附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制。

具体实施方式

下面对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征更易被本领域技术人员理解，从而对本发明的保护范围作出更为清楚的界定。

实施例1

本实施例提供了一种基于单目摄像头的3D物体检测方法，该方法的实现主要基于车载摄像头以及车载激光雷达。车载摄像头与车载激光雷达可以设置一个也可以设置多个，数量不做限制。车载摄像头与车载激光雷达尽量安装在测试车辆的同一侧，或相近位置，以便于获取同一角度的原始图像数据和激光雷达数据。

如图1-图6所示，一种基于单目摄像头的3D物体检测方法，包括如下步骤：

101、建立深度估计模型，所述深度估计模型用于获取与原始图像数据相匹配的预测深度图。

建立深度估计模型主要是为了能够快速获取与原始图像数据相匹配的预测深度图。在建立深度估计模型的具体过程中，首先需要先获取若干帧原始图像数据以及与各原始图像数据相匹配的深度图像数据，并建立训练集。所述训练集中每帧原始图像数据和与其相对应的深度图像数据即组成一个样本。然后以训练集中的各样本作为训练因素，根据Scale-invariant Error loss损失函数计算出深度估计模型。

所述深度估计模型用于获取与原始图像数据相匹配的预测深度图。简单来讲，就是使用上述形成的训练集结合损失函数，对该预测模型进行训练，从而获得最终的深度估计模型，深度估计模型的输入是原始图像数据，深度估计模型能够直接根据原始图像数据中的特征参数直接输出相对应的预测深度图。预测深度图中的像素信息是指物体与车辆之间的距离，因此深度估计模型是测量距离的模型。本技术方案中，所述Scale-invariant Error loss损失函数如下：

其中，Loss＝损失函数，n为有效的像素，d _i代表在i位置处的深度，

分别为特征值和i对应的深度真值，而λ＝0.5时，效果最佳。

在本技术方案中，为了获取若干帧原始图像数据以及与各原始图像数据相匹配的深度图像数据，以建立训练集。一般需要先通过车载摄像头和车载激光雷达来同时获取原始图像数据以及与原始图像数据相匹配的激光雷达数据。这里所说的匹配是指激光雷达数据与原始图像数据的拍摄角度以及拍摄物体等均相互吻合。并将所述激光雷达数据与所述原始图像数据进行时间同步处理，形成一一对应关系，以保证两者之间具有良好的同时性，即保证两者的拍摄时间也是吻合的。然后，再将激光雷达数据中的三维点云投射至图像平面内，形成点云图。最后，对点云图进行深度扩充处理，即可获取到与原始图像数据相匹配的深度图像数据。以若干帧原始图像数据以及与各原始图像数据相匹配的深度图像数据组成数据集，便可形成训练集。

一般来讲，在通过车载摄像头和车载激光雷达分别获取原始图像数据和激光雷达数据时，车载摄像头和车载激光雷达会分别记录各自每一帧图像的时间戳。而在将所述激光雷达数据与所述原始图像数据进行时间同步处理过程中，只需要根据每一帧激光雷达数据的时间戳找出离其最近的原始图像数据时间戳进行匹配，即可获取时间匹配的激光雷达数据与所述原始图像数据。

本实施例中，在将激光雷达数据中的三维点云投射至图像平面内，形成点云图的过程中，需要先获取车载摄像头的内参矩阵(摄像头的内参矩阵是固定的，一般可以通过厂家直接获取)，同时通过联合标定法计算出车载摄像头与车载激光雷达之间的旋转平移矩阵。根据内参矩阵以及旋转平移矩阵，进而将激光雷达数据中的三维点云投射至图像平面内，以将激光雷达数据中的三维点云转换成二维的点云图。在二维的点云图中，像素值是激光雷达点的深度信息。

作为优选的，为了对点云图进行深度扩充处理，以获取与原始图像数据相匹配的深度图像数据，通常需要先对点云图进行逆转处理，逆转处理时，通常设置最远距离为100米，使D _inv＝100–D _gt，其中，D _gt代表深度真值，例如将D _gt的深度真值设定为16m，那么D _inv则为84m。然后使用5x5数值为1的内核矩阵，对经过逆转处理的点云图进行第一次内核扩张处理，以完成小孔闭合。再使用中值滤波器(内核尺寸为5)，对经过第一次内核扩张处理的点云图进行第一次动态模糊去除异常值处理。使用7x7数值为1的内核，对经过第一次动态模糊去除异常值处理的点云图进行第二次内核扩张处理，以完成孔距填充。并使用15x15数值为1的内核对经过第二次内核扩张处理的点云图进行第三内核扩张处理，以完成大孔闭合。随后，继续使用中值滤波器(内核尺寸为5)，对经过第三次内核扩张处理的点云图进行第二次动态模糊去除异常值处理。最后，针对经过第二次动态模糊去除异常值处理的点云图，采用双边滤波器去除异常值，同时保持局部边界特征。在采用双边滤波器去除异常值过程中，直径可设为5，色彩θ＝0.5，θ'＝2。并将经过双边滤波器去除异常值处理所得到的深度原始图再进行二次逆转处理，以获取与原始图像数据相匹配的深度图像数据(即深度原始图)，其中，深度信息D＝100-D _inv。

为了便于理解，在此特对训练集的建立过程进行具体的举例说明，例如，一次路采，我们可以采集回来2万张图片与1W个点云数据，针对这一次采集回来的数据，做数据清理，并进行时间同步处理，以及后续将激光雷达数据转换成点云图、对点云图进行深度扩充等。假设最后洗出了5000张有效的原始图片数据与5000张与之对应的深度图像数据，那么两两成一组为样本，训练集按照8:1:1区分，那么就有4000组训练样本，500组验证样本，500组测试样本。

102、通过车载摄像头获取原始图像数据。

当深度估计模型建立完成后，就意味着，可以根据车载摄像头获取的原始图像数据直接得到与其对应的预测深度图了。此时，便可以通过车载摄像头获取真正需要分析的原始图像数据，以对原始图像数据中的物体3D信息进行检测。

103、利用深度估计模型获取与原始图像数据相匹配的预测深度图。

在利用深度估计模型获取与原始图像数据相匹配的预测深度图的过程中，基本工作原理是，先采用Dense121Net作为编码层，提取深度图像数据中的特征参数。然后对编码层进行解码，获取三个支路，三个支路所解码的尺寸不同。以通过三个支路提取不同尺寸下的相对局部结构特征，并将三个支路的输出串联，统一尺寸为输入图像大小，获取串联层。最后，对串联层进行卷积计算，分析局部结构，以获取与深度图像数据相对应的预测深度图。预测深度图中的每一个像素点的大小即为深度值。

在本实施例中，为了获取三个支路的串联层，需要先将编码后的密集特征降维至H/8,通过空间金字塔池化层提取上下文结构信息，并将提取出的结构信息连接至局部平面引导层(8x8)解析其局部几何结构信息，从而生成第一支路的估计深度特征。其中，空间金字塔池化层的扩张率为3、6、12、18、24。然后再将编码后的密集特征降维至H/4,串联第一支路生成的深度特征，并连接至局部平面引导层(4x4)解析其局部几何结构信息，从而生成第二支路的估计深度特征。最后将编码后的密集特征降维至H/2,串联第二支路生成的深度特征，并连接至局部平面引导层(2x2)解析其局部几何结构信息，从而生成第三支路的估计深度特征。并将第一支路、第二支路以及第三支路生成的估计深度特征串联起来，并统一尺寸为输入图像大小，获取串联层。将串联层连接卷积层，最终生成与深度图像数据相对应的预测深度图。

本技术方案中的所说的特征参数包括但不限于图像纹理、色彩以及空间结构。

104、在原始图像数据中检测出目标物体。

在具体实施过程中，可以利用二维包围框对原始图像数据进行标注，以将原始图像数据中的目标物体全部检测并标注出来。这里所说的目标物体至少包括小轿车、卡车、货车、行人、骑行人员等。

作为优选的，在所述建立深度估计模型步骤之后，在所述在原始图像数据中检测出目标物体步骤之前，还可以选择建立物体检测模型。以利用建立的物体检测模型来实现对原始图像数据中的目标物体进行检测标注。具体的，建立物体检测模型，同样需要基于上述所建立的训练集来完成。一般来讲，以训练集中各原始图像数据中的各检测物体形成物体检测训练集。利用深度学习模型框架Darknet53作为特征提取框架，以训练集中的各原始图像数据的检测物体作为训练因素，根据Focal Loss损失函数即可训练出物体检测模型。物体检测模型的输入是原始图像数据，输出结果是目标物体，如人、车或卡车等。物体检测模型与深度估计模型之间是无关联的，两者可分别独立运行。

本技术方案中的Focal Loss损失函数如下：

FL(p _t)＝-α(1-p _t) ^γlog(p _t)；

其中，所述p _t为检测概率，所述α为类别间参数，(1-p _t) ^γ为简单/困难样本调节因子，且当α＝0.5γ＝2时，效果最好。

105、将目标物体投射至对应的预测深度图中，生成锚定区域，并对锚定区域进行3D重建，获得目标物体在世界坐标系中的三维坐标值。

在具体实施过程中，直接将检测物体的轮廓投射至预测深度图中的操作难度相对较大，一般只要是将步骤104中物体检测形成的二维包围框一一投射至对应的预测深度图中，即可生成锚定区域。相当于是将围设在检测物体周围的二维包围框直接投射至对应的预测深度图，以此替代将检测物体的轮廓直接投射在预测深度图中，降低操作难度。然后对锚定区域进行3D重建，从而获得检测物体在世界坐标系中的三维坐标值。

经过多次反复验证，通过本实施例公开的基于单目摄像头的3D物体检测方法来获取100米内的物体三维坐标信息，能够在较低成本条件下实现较高的精度，且计算效率也得到了明显提高。

本实施例提供的一种基于单目摄像头的3D物体检测方法，借助于单目摄像头与车载激光雷达即可完成对3D物体的准确检测，整个计算过程中，不依赖于路面完全平整的假设基础，与传统借助于单目摄像头来执行3D目标的检测方案相比，检测精度得到了明显提高，能够为驾驶员提供较为准确的参考数据，利于提高驾驶安全性，同时明显降低了3D物体的检测成本，具有非常重要的使用价值。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

一种基于单目摄像头的3D物体检测方法，其特征在于，该方法包括：

建立深度估计模型，所述深度估计模型用于获取与原始图像数据相匹配的预测深度图；

通过车载摄像头获取原始图像数据；

利用深度估计模型获取与原始图像数据相匹配的预测深度图；

在原始图像数据中检测出目标物体；

将目标物体投射至对应的预测深度图中，生成锚定区域，并对锚定区域进行3D重建，获得目标物体在世界坐标系中的三维坐标值。
如权利要求1所述一种基于单目摄像头的3D物体检测方法，其特征在于，所述建立深度估计模型步骤包括：

获取若干帧原始图像数据以及与各原始图像数据相匹配的深度图像数据，并建立训练集，所述训练集中每帧原始图像数据和与其相对应的深度图像数据组成一个样本；

以训练集中的各样本作为训练因素，根据Scale-invariant Error loss损失函数计算出深度估计模型。
如权利要求2所述一种基于单目摄像头的3D物体检测方法，其特征在于，在所述建立深度估计模型步骤之后，在所述在原始图像数据中检测出目标物体步骤之前，还包括建立物体检测模型步骤：

利用深度学习模型框架Darknet53作为特征提取框架，以训练集中的各原始图像数据作为训练因素，根据Focal Loss损失函数训练出物体检测模型，所述物体检测模型用于检测原始图像数据中的目标物体。
如权利要求3所述一种基于单目摄像头的3D物体检测方法，其特征在于，所述Focal Loss损失函数如下：

FL(p _t)＝-α(1-p _t) ^γlog(p _t)

其中，所述p _t为检测概率，所述α为类别间参数，(1-p _t) ^γ为简单/困难样本调节因子，且α＝0.5γ＝2。
如权利要求2所述一种基于单目摄像头的3D物体检测方法，其特征在于，所述获取若干帧原始图像数据以及与各原始图像数据相匹配的深度图像数据，并建立训练集步骤，包括：

同时获取若干帧原始图像数据以及与各原始图像数据相匹配的激光雷达数据；将各所述激光雷达数据与各所述原始图像数据进行时间同步处理，形成一一对应关系；

将激光雷达数据中的三维点云投射至图像平面内，形成点云图；

对点云图分别进行深度扩充处理，以获取与原始图像数据相匹配的深度图像数据；

以若干帧原始图像数据以及与各原始图像数据相匹配的深度图像数据建立训练集。
如权利要求5所述一种基于单目摄像头的3D物体检测方法，其特征在于，所述将激光雷达数据中的三维点云投射至图像平面内，形成点云图步骤，包括：获取车载摄像头的内参矩阵；

通过联合标定法计算出车载摄像头与车载激光雷达之间的旋转平移矩阵；

根据内参矩阵以及旋转平移矩阵，将激光雷达数据中的三维点云转换成二维的点云图。
如权利要求5所述一种基于单目摄像头的3D物体检测方法，其特征在于，所述对点云图进行深度扩充处理，以获取与原始图像数据相匹配的深度图像数据步骤，包括：

对点云图进行逆转处理；

对经过逆转处理的点云图进行第一次内核扩张处理，以完成小孔闭合；

使用中值滤波器，对经过第一次内核扩张处理的点云图进行第一次动态模糊去除异常值处理；

对经过第一次动态模糊去除异常值处理的点云图进行第二次内核扩张处理，以完成孔距填充；

对经过第二次内核扩张处理的点云图进行第三内核扩张处理，以完成大孔闭合；使用中值滤波器，对经过第三次内核扩张处理的点云图进行第二次动态模糊去除异常值处理；

针对经过第二次动态模糊去除异常值处理的点云图，采用双边滤波器去除异常值，保持局部边界特征，并实现二次逆转处理，以获取与原始图像数据相匹配的深度图像数据。
如权利要求1所述一种基于单目摄像头的3D物体检测方法，其特征在于，所述利用深度估计模型获取与原始图像数据相匹配的预测深度图步骤，包括：

采用Dense121Net作为编码层，提取原始图像数据中的特征参数；

对编码层进行解码，获取三个支路，以通过三个支路提取不同尺寸下的相对局部结构特征，并将三个支路的输出串联，统一尺寸为输入图像大小，获取串联层；对串联层进行卷积计算，分析局部结构，以获取与深度图像数据相对应的预测深度图。
如权利要求8所述一种基于单目摄像头的3D物体检测方法，其特征在于，所述对编码层进行解码，获取三个支路，以通过三个支路提取不同尺寸下的相对局部结构特征，并将三个支路的输出串联，统一尺寸为输入图像大小，获取串联层步骤，包括：

将编码后的特征降维至H/8,通过空间金字塔池化层提取上下文结构信息，并将提取出的结构信息连接至局部平面引导层解析其局部几何结构信息，从而生成第一支路的估计深度特征；

将编码后的特征降维至H/4,串联第一支路生成的深度特征，并连接至局部平面引导层解析其局部几何结构信息，从而生成第二支路的估计深度特征；

将编码后的特征降维至H/2,串联第二支路生成的深度特征，并连接至局部平面引导层解析其局部几何结构信息，从而生成第三支路的估计深度特征；

将第一支路、第二支路以及第三支路生成的估计深度特征串联起来，并统一尺寸为输入图像大小，获取串联层。
如权利要求8所述一种基于单目摄像头的3D物体检测方法，其特征在于，所述特征参数包括图像纹理、色彩以及空间结构。