WO2020062433A1

WO2020062433A1 - 一种神经网络模型训练及通用接地线的检测方法

Info

Publication number: WO2020062433A1
Application number: PCT/CN2018/113661
Authority: WO
Inventors: 年素磊; 梁继
Original assignee: 初速度（苏州）科技有限公司
Priority date: 2018-09-29
Filing date: 2018-11-02
Publication date: 2020-04-02
Also published as: CN109726627B; CN109726627A

Abstract

一种神经网络训练方法，以及采用该神经网络进行通用接地线检测的方法，属于智能驾驶领域。现有技术存在难以估计边界的速度，不利于规划算法使用的技术问题，本发明提供的神经网络以及利用该神经网络系统进行通用接地线的检测，包括步骤1：对摄像装置获取的图像进行单目标定，记录并存储所述摄像装置的内部参数和畸变参数；步骤2：将步骤1中获得的图像输入到所述训练好的神经网络中，得到可行驶区域分割图以及接地点、接地线。该方法把当前道路图像分割成可行驶区域和障碍物区域的同时，检测出接地线及其对应的物体类别，相比传统方法检测更加准确快捷。

Description

一种神经网络模型训练及通用接地线的检测方法

技术领域

本发明属于智能驾驶领域领域，更具体地，涉及一种通用接地线检测方法。

背景技术

随着科学技术的发展，自动驾驶的概念被人们提出。在自动驾驶领域，车辆可以预置智能化系统检测出当前的可行驶区域并依照该区域行驶。

利用现有的可行驶区域检测方法可对图片进行处理得到障碍物区域和可行驶区域。然而，现有技术无法识别出障碍物的类型以及障碍物的个数。这样就难以估计边界的速度，不利于规划算法使用。

发明内容

针对现有技术的以上缺陷或改进需求，本发明的一个方面是提供了一种神经网络模型的训练方法，其特征在于：

所述训练方法包括如下训练步骤：步骤11：获取道路的样本，道路样本图像中标注可行驶区域以及边界处动态物体的一对接地点；

步骤12：将所述道路样本图像输入初始化的神经网络模型；

步骤13：利用经过标注的道路样本图像训练初始化的神经网络模型；所述神经网络的损失函数为：

其中，L表示损失函数，p _i,t _i,s _i分别表示同一位置的像素分别在接地点分类图、接地点距离图和可行驶区域分割图中的预测值，

分别为相应的label值；L _cls是分类的损失函数，优选使用交叉熵损失；

是对所有参与计算的像素点做归一化；L _reg是回归的损失函数，优选使用均方误差，L _seg是交叉熵损失函数，

分别是对参与计算回归和分割的像素点做归一化，λ,γ表示不同的系数。优选地，在步骤11中，将所述道路样本图像和标注的可行驶区域图缩放至预设尺寸。

所述图像中与道路路面具有重叠部分的物体，这些物体与真实道路路面连接部分的边界线为接地线，所述接地线的两端点为接地点。

优选地，所述步骤12包括步骤121和步骤122：

步骤121：所述道路样本图像输入所述初始化的神经网络模型的编码器部分；

步骤122：将所述编码器获得的图像特征输入到所述初始化的神经网络模型的解码器，获得可行驶区域分割结果和接地线检测结果。

优选地，所述解码器包括可行驶区域分割分支和接地线检测分支。

按照本发明的另一方面，本发明提供了一种神经网络模型，其采用上述任一项所述的训练方法得到。

按照本发明的另一方面，提供了一种利用权利要求1-5中任一神经网络模型的训练方法检测通用接地线的方法，其特征在于，检测方法包括以下步骤：：

步骤1：对摄像装置获取的图像进行单目标定，记录并存储所述摄像装置的内部参数和畸变参数；

步骤2：将步骤1中获得的图像输入到所述训练好的神经网络中，得到可行驶区域分割图以及接地点、接地线。

优选地，在所述步骤1中还包括使用双线性插值将所述图像缩放为预设尺寸。

本发明的发明点在于下述的几个方面，但不仅限于下述的几个方面：

(1)该方法利用预先训练好的可行驶区域检测模型，对车辆拍摄的当前道路图像进行识别。该模型可以提取当前道路图像特征并进行学习，在把当前道路图像分割成可行驶区域和障碍物区域的同时，检测出接地线及其对应的物体类别。后续还可通过区分动态物体的实例，产出不同类别的接地线，进而通过物体边界在连续多帧上的变化，估计出物体的速度等对于规划算法至关重要的物理量。

(2)损失函数的建立，该损失函数是将三个损失项相加得到的，三个损失项可归类为损失函数以及分类损失函数和归类损失函数；还考虑了参与计算回归和分割的像素点做归一化的因素，从而提高了神经网络的训练效果。

附图说明

图1是是本发明实施例提供的可行驶区域边界结构化的示例图；

图2是本发明实施例提供的网络中编码器结构和解码器结构中可行驶区域分割网络的结构示意图；

图3本发明实施例提供的网络中编码器中用于特征融合的结构的示意图。

在所有附图中，相同的附图标记用来表示相同的元件或结构，其中：

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

本发明通过对当前道路图像进行处理得到了当前道路图像中可行驶区域边界结构化的表示，行车过程中，车辆可根据该结构化表示规划行车策略。

图1出示了本发明实施例提供的可行驶区域边界结构化的示例图，示例图中给出了一种通用接地线检测结果。如图1所示，阴影部分为识别到的可行驶区域，其他部分即为非可行驶区域。对于可行驶区域的边界物体，本发明实施例也给出了结构化表示。可行驶区域边界物体可分为静态物体和动态物体。静态物体包括路肩、栅栏、三角锥等静态障碍物，动态物体包括汽车、电动车、自行车、行人等可自由移动的物体。对于静态物体，由于不需要估计物体的速度，所以其边界由可行驶区域边界表示，即图1中阴影部分。对于动态物体，本发明实施例通过接地线来表示。接地线根据所属物体类别或者同种物体不同方向而划分成不同类别。如图1中电动车和汽车车轮部位的地面上的线段分别表示电动车接地线，机动车前后侧接地线以及机动车左右侧接地线。接地线两段点为接地点，接地点有两个类别分别为可见接地点和推测接地点。

接下来对本申请实施例提供的一种可行驶区域及接地线检测模型的训练方法的具体实现方式进行介绍。

步骤1：获取道路样本图像，道路样本图像中应标注好可行驶区域以及边界处动态物体的一对接地点。

道路样本图像可以视为用于训练检测模型的样本图像。本申请实施例中，训练模型采用了有监督的训练方式，因此所用样本图像需要具有相应标注。其中可行驶区域需要对图像中每个像素进行标注。另外，样本图像中可行驶区域边界的动态物体的接地点也需要标注，接地线两端的两个接地点需要标注为一对,另外接地点类型也需要进行标注。

为了提高检测模型的精准度，需要大量样本图像。在本申请实施例中，样本图像来源于摄像机采集到的视频流。摄像机需要进行单目标定并记录摄像机的内部参数和畸变参数。根据摄像机参数对单帧图像进行矫正，使图片变换为无畸变或接近无畸变状态。对矫正后的道路样本图像进行标注后即可构建样本库以便模型训练。

步骤2：将道路样本图片输入初始化的神经网络模型。

为了训练神经网络模型需要将道路样本图像输入神经网络。在本申请实施例一些可能的实现方式中，在将道路样本图像输入预先建立的初始神经网络模型之前，需要将道路样本图像缩放至预设尺寸。

步骤3：利用经过标注的道路样本图像训练初始化的神经网络。

为了便于理解，首先对神经网络模型的概念进行简单介绍。神经网络是由大量的、简单的处理单元广泛地互相连接而形成的网络系统，它因为拥有大量的可调节参数而具有强大的学习能力。神经网络模型即为基于神经网络建立的一种数学模型，基于神经网络模型的强大的学习能力，神经网络模型在许多领域都得到广泛的应用。

其中，在图像处理和模式识别领域，常常采用卷积神经网络模型进行模式识别。由于卷积神经网络模型中的卷积层局部连接以及权值共享的特性，使得需要训练的参数大大减少，简化了网络模型，提高了训练效率。

在本实施例中可以采用卷积神经网络作为初始化神经网络模型。利用部分卷积神经网络层对道路样本图像中的特征进行提取。根据提取到的图像特征，后续卷积神经网络层对相关特征进行映射，从而得到可行驶区域的识别结果。同样利用这些特征神经网络可以得到接地点对的信息。将神经网络输出的可行驶区域识别结果和可行驶区域边界动态物体接地点对的检测结果和道路样本图像预先标注的可行驶区域和接地点对进行对比，由此可以对初始神经网络模型的参数进行优化，当初始化的神经网络经过足够多的训练样本训练后，就可以得到训练好的可行驶区域和接地点检测模型。

由上可知，本申请提供了一种可行驶区域和可行驶区域边界动态物体接地点检测模型的训练方法。获取道路样本图像，道路样本图像中标注有可行驶区域和区域边界动态物体的接地点和类别，将道路样本图像输入预先建立的初始神经网络模型，利用道路样本图像以有监督学习方式训练初始神经网络模型。

为了使本申请的技术方案更清楚，下面将结合具体实施例对道路样本图像经过神经网络，检测得到可行驶区域和障碍物接地线的过程进行详细说明。

步骤1：道路样本图像输入卷积神经网络编码器部分，如图2左半部分所示，输入的道路样本图像为RGB图像。卷积神经网络编码器由卷积层，批处理归一化，ReLU激活函数和池化层组合而成。其中卷积层对一张图像的不同区域采用相同的卷积核提取出该图像的一种特征，例如沿某一方向的边缘，不同区域之间实现权值共享，如此可以大大降低训练的参数。进一步地，采用多种卷积核分别对图像的不同区域进行特征提取，可以得到该图像的多种特征。批处理归一化通过对每一层的特征进行归一化使得后续神经网络的训练更容易收敛并减少了过拟合情况的发生。RelU激活函数则为卷积神经网络中常用的激活函数，它为整个神经网络提供了非线性建模能力。池化层则减少了特征的大小，减少了计算量，同时它还能够使神经网络对平移变换有一定鲁棒性。现有的卷积神经网络模型包括VGG Net(Visual Geometry Group)、AlexNet、Network in Network、ResNet深度残差网络模型等等。这些网络在网络深度，计算量，提取特征的精准度等方面有所不同。在本申请实施例中，卷积神经网络的模型选择可根据搭载设备的计算能力和所需可行驶区域和接地线检测的精准度进行选择。本申请实施例中卷积神经网络编码器还包括一个用于特征融合的结构。与分类卷积神经网络提取抽象特征不同，由于后续的可行驶区域分割和接地点检测都需要较为精确的定位，因此编码器提取的特征不能只包含抽象语义特征，还要包含道路样本图像中一些具体的细节特征。因此，卷积神经网络编码器中使用了用于融合各层特征的结构。如图3所示，该结构通过将不同深度的卷积神经网络的特征相加从而实现不同深度特征的融合。

步骤2：将卷积神经网络编码器获得的图像特征输入卷积神经网络解码器可行驶区域分割分支，获得可行驶区域分割结果。如图2所示，卷积神经网络解码器中包含卷积层，批处理归一化，ReLU激活函数以及上采样部分，其中上采样部分是为了扩大特征图的大小，使得最后输出的可行驶区域分割结果和原道路样本图像相同大小。这里的上采样采用的是反卷积方法。反卷积即为卷积反向传播的过程，它可以通过控制反卷积的步长来控制输出特征图的大小，因此，反卷积操作可以用来实现上采样。经过一系列反卷积操作，得到了和原道路图像相同大小的特征图，其中每个像素的维度为2，将特征图经过softmax函数后得到每个像素分类为可行驶区域和不可行驶区域的概率，取较大值概率的类别就是该像素点的分类，这样就可以实现对道路图像可行驶区域和不可行驶区域的划分。

步骤3：将卷积神经网络编码器获得的图像特征输入到卷积神经网络解码器接地线检测分支。该分支和可行驶区域分割分支的输入相同，也具有相似的结构，只是输出通道数不同。图像特征在该分支中经过卷积，批处理归一化，ReLU激活函数和上采样，最终得到和原图片相同大小的特征图。该特征图将有两个卷积层分支。

其中一个分支得到和原图相同大小的分数图，该分数图的通道数为C+1。其中C表示接地点的种类，包括机动车左右侧可见接地点，机动车左右侧不可见接地点，机动车前后测可见接地点，机动车前后测不可见接地点，电动车可见接地点，电动车不可见接地点等；1代表背景即不是接地点。将每个像素点周围KxK个像素的分数相加投票，然后输入softmax函数，就得到该点分类的分数。

另一个分支得到和原图大小相同的距离图，该距离图的通道数为4，分别代表该点距离接地点中心的横坐标距离Δx1和纵坐标距离Δy1以及距离该接地线另一接地点中心的横坐标距离Δx2和Δy2。

对于分类为接地点的像素，根据周围KxK范围内像素的距离图投票得到接地点中心。如此可以得到候选接地点，然后采用非极大值抑制算法得到最终接地点。具体做法为对于某一类接地点，选取分数最高的接地点，当其他分为该类的接地点距离该分数最大接地点小于d，则去除，这样认为该接地点经过处理。接着对于其他未处理的接地点执行该操作。当所有类别接地点都经过该操作后，就完成了非极大值抑制处理。如此就确定了所有接地点。

对于检测得到的接地点还需要进行连线以确定接地线，对于某个接地点，根据其周围KxK个像素投票得到的距离找到另一个像素，当该像素距离另一接地点相距小于c并且该接地点类别符合对应关系时，将两接地点连线。遍历所有接地点后，若仍有未连线的接地点，则将这些点舍去。

由上可知，道路样本图像经过卷积神经网络输出可行驶区域分割图，接地点分类图以及接地点距离图，由上述神经网络输出信息可以得到最终道路样本图像的可行驶区域和可行驶区域边界障碍物接地线。在训练中，需要将可行驶区域分割图，接地点分类图，接地点距离图和道路样本图像本身的标注进行对比从而训练神经网络。接下来将对比和训练方法进行详细说明。

步骤1：将道路样本图像和标注的可行驶区域图缩放至预设尺寸，在本申请实施例的一种实现方式中，预设尺寸为448x448。根据标注中的接地点坐标和种类计算得到接地点分割图和接地点距离图。

步骤2：将道路样本图像输入至上述卷积神经网络中得到可行驶区域分割图，接地点分类图和接地点距离图。对可行驶区域分割图中的每一个像素，计算与标注可行驶区域分割图之间的交叉熵损失。计算神经网络输出的接地点分类图和依据标注信息得到的接地点分类图之间的交叉熵损失。对于标注为接地点的像素，计算该像素在接地点距离图中的距离数值和依据标注信息得到的距离数值之间的均方误差损失。然后将这三个损失相加作为神经网络训练的损失函数。

上述式子中，L表示损失函数，p _i,t _i,s _i分别表示同一个位置的像素在接地点分类图、接地点距离图、和可行驶区域分割图中的预测值，

分别为相应的label值；L _cls是分类的损失函数，这里使用交叉熵损失，

是对所有参与计算的像素点做归一化；同理，L _reg是回归的损失函数，可以使用均方误差等，L _seg同样是交叉熵损失函数，

分别是对参与计算回归和分割的像素点做归一化。3个损失函数之间用不同的系数λ,γ结合起来。

步骤3：在本申请实施例的一种实现方式中，需要将使用有标注道路样本图像将初始化的卷积神经网络依据上述损失函数训练16个epoch，其中学习率设定为0.00001，采用的优化算法为Adam算法。在本申请实施例的其他方法中，训练的次数，学习率可依据数据量调整，优化方法也可采用基于梯度下降的其他优化方法。

当可行驶区域检测和接地线检测模型训练完成后，本申请实施例具体施用细节如下：

步骤1：对摄像机进行单目标定，记录并存储摄像机的内部参数和畸变参数。从摄像机中获取视频流后取单个视频帧依据上述标定参数对视频帧进行畸变矫正，然后使用双线性插值将图片缩放为预设尺寸。

步骤2：将步骤1获得的图片输入卷积神经网络中。经过卷积神经网络及上述后续处理可以得到可行驶区域分割图以及可行驶区域边界障碍物接地点，如图1所示。

步骤3：基于不同视频帧中动态物体的接地线，可以方便地估计物体的运动速度。接地线也容易投影到3D空间从而估计物体的位姿和距离。这样根据接地线提供的结构化信息和可行驶区域的信息，智能系统可以更为精准的规划行车路线。

上述内容对本申请实施例中基于通用接地线的可行驶区域表示方法的模型训练和使用的细节步骤做了详细描述，下面将从硬件或软件实现角度对本发明实施例进行介绍。本发明实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种神经网络模型的训练方法，其特征在于：所述训练方法包括如下训练步骤：

步骤11：获取道路的样本，道路样本图像中标注可行驶区域以及边界处动态物体的一对接地点；

步骤12：将所述道路样本图像输入初始化的神经网络模型；

步骤13：利用经过标注的道路样本图像训练初始化的神经网络模型；其中所述神经网络的损失函数为：

其中，L表示损失函数，p _i,t _i,s _i分别表示同一位置的像素分别在接地点分类图、接地点距离图和可行驶区域分割图中的预测值，
分别为相应的label值；L _cls是分类的损失函数，优选使用交叉熵损失；
是对所有参与计算的像素点做归一化；L _reg是回归的损失函数，优选使用均方误差，L _seg是交叉熵损失函数，
分别是对参与计算回归和分割的像素点做归一化，λ,γ表示不同的系数；

所述图像中与道路路面具有重叠部分的物体，这些物体与真实道路路面连接部分的边界线为接地线，所述接地线的两端点为接地点。
如权利要求1所述的训练方法，其特征在于，所述步骤12包括步骤121和步骤122：

步骤121：将所述道路样本图像输入所述初始化的神经网络模型的编码器部分；

步骤122：将所述编码器获得的图像特征输入到所述初始化的神经网络模型的解码器，获得可行驶区域分割结果和接地线检测结果。
如权利要求2所述的训练方法，其特征在于，所述解码器包括可行驶区域分割分支和接地线检测分支。
如权利要求1所述的训练方法，其特征在于，在步骤11中，将所述道路样本图像和标注的可行驶区域图缩放至预设尺寸。
一种神经网络模型，其采用权利要求1-4中任一项所述的训练方法得到。
利用权利要求1-4中任一项的神经网络模型的训练方法检测通用接地线的方法，其特征在于，检测方法包括以下步骤：

步骤1：对摄像装置获取的图像进行单目标定，记录并存储所述摄像装置的内部参数和畸变参数；

步骤2：将步骤1中获得的所述图像输入到所述训练好的所述神经网络中，得到可行驶区域分割图以及接地点、接地线。
如权利要求6所述的检测通用接地线的方法，其特征在于，在所述步骤1中还包括使用双线性插值将所述图像缩放为预设尺寸。