WO2023216460A1

WO2023216460A1 - 基于鸟瞰图的多视角3d目标检测方法、存储器及系统

Info

Publication number: WO2023216460A1
Application number: PCT/CN2022/114418
Authority: WO
Inventors: 陈远鹏; 张军良; 赵天坤
Original assignee: 合众新能源汽车股份有限公司
Priority date: 2022-05-09
Filing date: 2022-08-24
Publication date: 2023-11-16
Also published as: CN114821505A

Abstract

基于鸟瞰图的多视角3D目标检测方法、存储器及系统。该方法包括：利用残差网络以及特征金字塔对多视角图片进行编码，得到多尺度特征；通过映射关系将所述多尺度特征映射到鸟瞰图，得到鸟瞰图特征；对查询向量进行随机初始化，通过第一多头注意力机制模块构建多个子空间并将所述查询向量投射到多个子空间中，得到初始化特征；对所述初始化特征进行第一次残差连接和正则化；利用第二多头注意力机制模块将所述第一次残差连接和正则化后的特征与所述鸟瞰图特征结合，得到学习特征；以及对所述学习特征进行第二次残差连接和正则化，并利用第一前馈神经网络模块输出目标检测类别以及利用第二前馈神经网络模块输出目标检测框的大小。

Description

基于鸟瞰图的多视角3D目标检测方法、存储器及系统

技术领域

本发明涉及自动驾驶领域，尤其涉及目标检测算法。

背景技术

目前在自动驾驶领域，利用视觉信息进行3D目标检测是低成本自动驾驶系统中一个长期存在的挑战。目前该领域通常使用两种常用的方法：一种是基于2D计算建立检测流程。该流程使用为2D任务设计的目标检测流程来预测3D信息，例如目标姿态和速度，而不考虑3D场景结构或传感器配置。这种方法往往需要很多后处理步骤来融合不同相机的预测结果，用于去除冗余包络框。该方法的缺点在于后处理算法比较复杂，并且往往需要在性能和效率之间做一个折中。另一种常用的方法是利用3D重建从相机图像生成伪激光雷达，将更多的3D计算信息整合到目标检测流程中。然后将这些输入当作直接从3D传感器采集的数据，使用3D目标检测方法。这种方法能够有效地提高3D目标检测的精度。但是这种方法往往受到复合误差的影响，当深度值预测不准时，往往对3D目标检测的准确性会带来负面的作用。

发明内容

为了克服现有技术的缺陷，本发明提供了一种基于鸟瞰图的多视角3D目标检测方法，所述方法包括以下步骤：

利用残差网络以及特征金字塔对多视角图片进行编码，得到多尺度特征；

通过映射关系将所述多尺度特征映射到鸟瞰图，得到鸟瞰图特征；

对查询向量进行随机初始化，通过第一多头注意力机制模块构建多个子空间并将所述查询向量投射到多个子空间中，得到初始化特征；

对所述初始化特征进行第一次残差连接和正则化；

利用第二多头注意力机制模块将所述第一次残差连接和正则化后的特征与所述鸟瞰图特征结合，得到学习特征；以及

对所述学习特征进行第二次残差连接和正则化，并利用第一前馈神经网络模块输出目标检测类别以及利用第二前馈神经网络模块输出目标检测框的大小。

在一个实施例中，所述利用残差网络以及特征金字塔对多视角图片进行编码得到多尺度特征的步骤包括：

所述残差网络对所述多视角图提取特征并进行上采样，得到从底层到高层依次排布的多层特征；以及

所述特征金字塔根据特征映射图将所述残差网络输出的多层特征进行累加，输出多尺度特征。

在一个实施例中，所述通过映射关系将所述多尺度特征映射到鸟瞰图得到鸟瞰图特征的步骤包括：

沿着垂直方向压缩所述多尺度特征，同时保留水平方向的维度，得到压缩后的不同尺度的鸟瞰图特征；

对所述压缩后的不同尺度的鸟瞰图特征进行再采样，转换到极坐标系中，得到维度大小相同的鸟瞰图特征；

对所述维度大小相同的鸟瞰图特征进行下采样，得到降低维度后的鸟瞰图特征。

沿着垂直方向压缩所述多尺度特征，同时保留水平方向的维度，并直接进行维度变换，得到维度大小相同的鸟瞰图特征；

在一个实施例中，所述第一多头注意力机制模块的输入和输出的关系如公式(1)所示：

其中，Q，K，V为输入，Q为所述查询向量，K为被查向量，V为内容向量，K、V与Q相同，

为尺度标度，d _k为K的维度；softmax为激活函数，其将

归一化为概率分布；T表示对K的转置；Attention(Q，K，V)为所述第一多头注意力机制模块的输出，即所述初始化特征。

在一个实施例中，所述第二多头注意力机制模块的输入和输出的关系如公式(1)所示：

其中，Q，K，V为输入，Q和K均为所述第一次残差连接和正则化后的特征，V为所述鸟瞰图特征，

为尺度标度，d _k为K的维度；softmax为激活函数，其将

归一化为概率分布；T表示对K的转置；Attention(Q，K，V)为所述第二多头注意力机制模块的输出，即所述学习特征。

在一个实施例中，所述第一或第二前馈神经网络对第二次残差连接和正则化后的特征进行线性变换，所述第一或第二前馈神经网络的表达式如公式(2)所示：

FFN(x)＝max(0，xW ₁+b ₁)*W ₂+b ₂ (2)

其中，x为第二次残差连接和正则化后的特征，W1和W2为激活函数的权重，b1和b2为偏置的权重，max函数为取0和xW ₁+b ₁中的较大者。

在一个实施例中，利用第一前馈神经网络模块输出目标检测类别以及利用第二前馈神经网络模块输出目标检测框的大小的步骤包括：

通过与目标检测类别相关联的损失模块对所述第一前馈神经网络进行监督学习，得到所述目标检测类别；

通过与目标检测框相关联的损失模块对所述第二前馈神经网络进行监督学习，得到所述目标检测框的大小。

在一个实施例中，所述多视角图片分别来自自动驾驶交通工具的前摄像头、左前摄像头、右前摄像头、后摄像头、左后摄像头、右后摄像头六个相机。

本发明还提供了一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时执行本发明的基于鸟瞰图的多视角3D目标检测方法。

本发明还提供了一种基于鸟瞰图的多视角3D目标检测系统，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行本发明的基于鸟瞰图的多视角3D目标检测方法。

本发明还提供了一种基于鸟瞰图的多视角3D目标检测系统，所述系统包括编码模块、鸟瞰图特征获取模块以及转换解码模块。

编码模块，用于对多视角图片进行编码得到多尺度特征。

鸟瞰图特征获取模块，用于通过映射关系将所述多尺度特征映射到鸟瞰图，得到鸟瞰图特征。

转换解码模块，包括初始模块和学习模块。

所述初始模块包括：

第一多头注意力机制构，用于构建多个子空间，将查询向量投射到多个子空间中，输出多个初始化的子空间拼接后的特征，即初始化特征。

第一次残差连接模块，根据所述查询向量以及初始化特征进行恒等映射，输出第一次残差连接后的特征；以及

第一正则化模块，对所述第一次残差连接后的特征进行正则化，得到第一次正则化后的特征；

所述学习模块包括：

第二多头注意力机制模块，用于将所述正则化后的特征与所述鸟瞰图特征结合，得到学习特征；

第二残差连接模块，用于对所述学习特征进行恒等映射，输出所述第二次残差连接后的特征；

第二正则化模块，用于对所述第二次残差连接后的特征进行正则化，得到第二次正则化后的特征；

第一前馈神经网络，根据所述第二次正则化后的特征，在与目标检测类别相关联的损失模块的监督学习下输出目标检测类别；以及

第二前馈神经网络，根据所述第二次正则化后的特征，在与目标检测框相关联的损失模块的监督学习下输出目标检测框的大小。

在一个实施例中，所述编码模块包括残差网络以及特征金字塔。

残差网络用于对所述多视角图片提取特征并进行上采样，得到从底层到高层依次排布的多层特征。

特征金字塔用于根据特征映射图将所述多层特征进行累加，输出多尺度特征。

在一个实施例中，所述映射关系为：

为尺度标度，d _k为K的维度；softmax为激活函数，其将

FFN(x)＝max(0，xW ₁+b ₁)*W ₂+b ₂ (2)

本发明提出的基于鸟瞰图的多视角3D目标检测方法以及系统具有极为有益的技术效果。首先，相比于RGB平面等，物体在投影到鸟瞰图时保持了物理尺寸，因此具有较小的尺寸差异。其次，鸟瞰图的物体占据不同的空间，从而避免了遮挡问题。第三，在道路场景中，由于物体通常位于地面上，垂直位置的变化很小，鸟瞰图位置对于获得准确的三维边界盒更有优势。相比于单视角的相机输入，本发明的多视角3D检测算法能够有效地利用多视角点图像之间的关系，改进特征融合的，从而可以很好的提高检测的精度。

换言之，相比于单目检测算法，本发明基于多视觉图像进行融合，能够获得更多的特征，能够很好的解决单目出现的截断问题；相比于图像视角空间，本发明将特征转到鸟瞰图(BEV)向量空间中，能够很好的处理多视角重合的问题；此外，由于充分考虑多视角和鸟瞰图特征，本发明目标检测算法的检测效果表现出众。

附图说明

本发明的以上发明内容以及下面的具体实施方式在结合附图阅读时会得到更好的理解。需要说明的是，附图仅作为所请求保护的发明的示例。在附图中，相同的附图标记代表相同或类似的元素。

图1示出根据本发明一实施例的基于鸟瞰图的3D目标检测算法的整体架构；

图2示出根据本发明一实施例的编码模块的结构示意图；

图3示出根据本发明一实施例的鸟瞰图特征获取模块(Bird-eye-view Feature)的网络结构；

图4示出根据本发明又一实施例的鸟瞰图特征获取模块(Bird-eye-view Feature)的网络结构；

图5示出根据本发明一实施例的转换解码模块的架构示意图；

图6示出根据本发明一实施例的多头注意力机制模块实现图；

图7示出根据本发明一实施例的残差连接模块的具体结构；以及

图8示出根据本发明一实施例的基于鸟瞰图的多视角3D目标检测方法流程图。

具体实施方式

以下在具体实施方式中详细叙述本发明的详细特征以及优点，其内容足以使任何本领域技术人员了解本发明的技术内容并据以实施，且根据本说明书所揭露的说明书、权利要求及附图，本领域技术人员可轻易地理解本发明相关的目的及优点。

本发明将多视角的图片进行特征融合并基于鸟瞰图进行3d目标检测，提出了一种基于鸟瞰图的3D目标检测方法以及系统。

图1示出根据本发明一实施例的基于鸟瞰图的3D目标检测算法的整体架构。整个算法构架包括编码模块(Encoder)101、鸟瞰图特征获取模块(Bird-eye-view Feature)102以及转换解码模块(Transformer Decoder)103。

整个基于鸟瞰图的3D目标检测算法网络架构的输入为多视角图片。多视角图片可以分别来自例如前摄像头、左前摄像头、右前摄像头、后摄像头、左后摄像头、右后摄像头六个相机，整个网络架构的输出为3D框架中的物体的类别以及3D框架的大小。

编码模块包括残差网络(Res-Net)以及特征金字塔(Feature Pyramid Network)。残差网络对多视角图片进行提取特征，得到多层特征。特征金字塔融合各层特征(例如，融合底层和高层特征)，得到多尺度的特征。特征金字塔的作用是加强多层特征中的高层特征，并加强多层特征中的底层特征的定位细节。

图2示出根据本发明一实施例的编码模块的结构示意图。该编码模块的作用在于把更抽象、语义更强的高层特征图进行上采样，然后把该特征横向连接到前一层特征，因此高层特征得到了加强，且这样做的好处还在于能够很好的利用底层的定位细节信息。并且，这样的网络结构能够解决待检测的目标的尺寸不同带来的问题，尤其是小尺寸难以检测的问题。

从图2中可以看出，编码模块包括残差网络(Res-Net)201以及特征金字塔(Feature Pyramid Network)202。

残差网络(Res-Net)201用于对多视角图提取特征并进行上采样，得到从底层到高层依次排布的多层特征。

特征金字塔(FPN，Feature Pyramid Network)202根据特征映射图将残差网络输出的多层特征进行累加，输出多尺度特征。

鸟瞰图特征获取模块是本发明的重要模块，其网络结构完成了图像空间到鸟瞰图空间的特征转换。

图3示出根据本发明一实施例的鸟瞰图特征获取模块(Bird-eye-view Feature)的网络结构。鸟瞰图特征获取模块的输入来自于编码模块的特征金字塔(FPN)中输出的多尺度特征，该鸟瞰图特征获取模块通过映射关系将多尺度特征映射到鸟瞰图，输出鸟瞰图特征(BEV特征)。

通过映射关系将多尺度特征映射到鸟瞰图并输出鸟瞰图特征的方式主要包括如下步骤：首先，沿着垂直方向压缩该多尺度特征，同时保留水平方向的维度，得到压缩后的不同尺度的鸟瞰图特征(301)；然后，通过再采样，转换到极坐标系中，得到维度大小相同的鸟瞰图特征(即，极坐标中沿深度轴方向预测一组特征)(302)；接着，对这些维度大小相同的鸟瞰图特征再进行下采样，降低维度，得到降低维度后的鸟瞰图特征(303)，以适应转换解码模块的输入维度。

图4示出根据本发明又一实施例的鸟瞰图特征获取模块(Bird-eye-view Feature)的网络结构。鸟瞰图特征获取模块的输入来自于编码模块的特征金字塔(FPN)中输出的多尺度特征，该鸟瞰图特征获取模块通过映射关系将多尺度特征映射到鸟瞰图，输出鸟瞰图特征(BEV特征)。

通过映射关系将多尺度特征映射到鸟瞰图并输出鸟瞰图特征的方式主要包括如下步骤：首先，沿着垂直方向压缩该多尺度特征，同时保留水平方向的维度，并直接进行维度变换，得到维度大小相同的鸟瞰图特征(401)；再通过再采样(即，下采样)，对鸟瞰图特征降低维度，得到降低维度后的鸟瞰图特征(402)，以适应转换解码模块的输入维度。

图5示出根据本发明一实施例的转换解码模块的架构示意图。转换解码模块的主要作用是进行解码，转换解码模块首先对目标查询向量(Query)(目标特征)进行随机初始化，接着通过第一多头注意力机制(Multi-head self-attention)构建多个子空间，将目标查询向量(Query)的特征投射到多个子空间中，这样做的作用在于可以综合利用各个方面的信息，这使得模型可以从不同角度看同一问题，可以收获更好的效果；然后再通过残差连接和正则化模块(Add&Norm)，来加深网络的深度，加速网络的收敛。随后，和鸟瞰图特征一起再经过第二多头注意力机制将编码器输出的特征和目标特征进行很好的结合。然后再通过残差连接模块和正则化模块(Add&Norm)和两个前馈神经网络模块，输出最终的目标检测类别和3D框(3D bounding box，包括中心点坐标)。

如图5所示，转换解码模块主要包括初始模块501和学习模块502。初始模块501包括第一多头注意力机制模块(Multi-Head Self-Attention)、第一残差连接模块(Add)和第一正则化模块(Norm)。学习模块502包括第二多头注意力机制模块(Multi-Head Self-Attention)、第二残差连接模块(Add)和第二正则化模块(Norm)、第一前馈神经网络(FFN)(即，目标检测类别前馈神经网络)以及第二前馈神经网络(FFN)(即，目标检测框前馈神经网络)。

图6示出根据本发明一实施例的多头注意力机制模块实现图。其中，MatMul表示矩阵相乘，Scale表示尺度标度，Softmax表示Softmax函数。第一多头注意力机制模块构建多个子空间，将目标查询向量(Query)的特征投射到多个子空间中，输出多个初始化的子空间拼接后的特征，即初始化特征。第二多头注意力机制模块将第一正则化模块的输出与BEV特征结合，输出融合了BEV特征后的多个子空间拼接后的特征，即学习特征。

多头注意力机制模块的输出如公式(1)所示：

其中，

为尺度标度，除以一个尺度标度

是为了防止结果过大，d _k为K(Key)向量的维度；Softmax为激活函数，其将

归一化为概率分布；Softmax函数再乘以矩阵V就得权重的求和表示。T表示对矩阵K的转置。

对于第一多头注意力机制模块，由于是用于初始化，所以Q向量、K向量、V向量三个矩阵均来自同一个输入，即Q向量、K向量、V向量三个矩阵均等于查询向量(Q向量)。

对于第二多头注意力机制模块，Q向量和K向量是一样的，Q和K向量均为所述第一次残差连接和正则化后的特征，V向量是鸟瞰图特征(BEV特征)，这体现出了学习的功能。

残差连接模块的作用是为了将信息传递的更深，增强模型的拟合能力。

正则化模块(Norm)网络结构通常表示层归一化(Layer Normalization)，会将每一层神经元的输入都转成匀值和方差都一样的特征。正则化模块的作用是，随着网络层数的增加，通过多层的计算后参数可能会出现过大、过小、方差变大等现象，这会导致学习过程出现异常。模型的收敛非常慢，因此对每一层计算后的数值进行正则化可以提升模型的表现，加速网络的收敛。

根据本发明的一实施例，第一残差连接模块(Add)的输入为查询向量(Query)以及初始化特征，在进行恒等映射后输出第一次残差连接后的特征，残差连接模块的具体结构如图7所示。第一正则化模块(Norm)对第一次残差连接后的特征进行正则化，得到第一次正则化后的特征。

根据本发明的一实施例，第二残差连接模块(Add)的输入为第二多头注意力机制模块输出的学习特征，恒等映射后输出第二次残差连接后的特征，残差连接模块的具体结构如图7所示。第二正则化模块(Norm)对第二次残差连接后的特征进行正则化，得到第二次正则化后的特征。

第二正则化模块的输出分两路分别输出至第一前馈神经网络FFN(目标检测类别前馈神经网络)和第二前馈神经网络FFN(目标检测框前馈神经网络)。第一前馈神经网络输出最终的目标检测类别。第二前馈神经网络输出目标检测框(3D bounding box)的大小以及目标检测框的中心坐标。

第一或第二前馈神经网络的表达式如公式(2)所示：

FFN(x)＝max(0，xW ₁+b ₁)*W ₂+b ₂ (2)

公式(2)表示的是前馈神经网络(FFN)网络结构的表达形式，主要是对正则化后的特征进行线性变换。其中，x为第二正则化模块的输出，W1和W2为激活函数的权重，b1和b2是偏置的权重。Max的函数意义是取0和xW ₁+b ₁中的较大者。第一前馈神经网络在与目标检测类别前馈神经网络相关联的损失模块的监督学习下，输出目标检测类别。第二前馈神经网络在与目标检测框前馈神经网络相关联的损失模块的监督学习下，得到3D框的大小以及中心坐标。

图8示出根据本发明一实施例的基于鸟瞰图的多视角3D目标检测方法流程图。所述方法包括以下步骤：

801：利用残差网络以及特征金字塔对多视角图片进行编码，得到多尺度特征；

802：通过映射关系将所述多尺度特征映射到鸟瞰图，得到鸟瞰图特征；

803：对查询向量进行随机初始化，通过第一多头注意力机制模块构建多个子空间并将所述查询向量投射到多个子空间中，得到初始化特征；

804：对所述初始化特征进行第一次残差连接和正则化；

805：利用第二多头注意力机制模块将所述第一次残差连接和正则化后的特征与所述鸟瞰图特征结合，得到学习特征；以及

806：对所述学习特征进行第二次残差连接和正则化，并利用第一前馈神经网络模块输出目标检测类别以及利用第二前馈神经网络模块输出目标检测框的大小。

为尺度标度，d _k为K的维度；softmax为激活函数，其将

FFN(x)＝max(0，xW ₁+b ₁)*W ₂+b ₂ (2)

编码模块，用于对多视角图片进行编码得到多尺度特征。

转换解码模块，包括初始模块和学习模块。

所述初始模块包括：

所述学习模块包括：

在一个实施例中，所述映射关系为：

为尺度标度，d _k为K的维度；softmax为激活函数，其将

FFN(x)＝max(0，xW ₁+b ₁)*W ₂+b ₂ (2)

综上，相比于单目检测算法，本发明基于多视觉图像进行融合，能够获得更多的特征，能够很好的解决单目出现的截断问题；相比于图像视角空间，本发明将特征转到鸟瞰图(BEV)向量空间中，能够很好的处理多视角重合的问题；此外，由于充分考虑多视角和鸟瞰图特征，本发明目标检测算法的检测效果表现出众。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述发明披露仅仅作为示例，而并不构成对本申请的限定。虽然此处并没有明确说明，本领域技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议，所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各种步骤。同时，或将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

同时，本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

计算机可读信号介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等等、或合适的组合形式。计算机可读信号介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机可读信号介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质、或任何上述介质的组合。

本申请各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、Visual Basic、Fortran2003、Perl、COBOL 2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

此外，除非权利要求中明确说明，本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本申请披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本申请实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

这里采用的术语和表述方式只是用于描述，本发明并不应局限于这些术语和表述。使用这些术语和表述并不意味着排除任何示意和描述(或其中部分)的等效特征，应认识到可能存在的各种修改也应包含在权利要求范围内。其他修改、变化和替换也可能存在。相应的，权利要求应视为覆盖所有这些等效物。

同样，需要指出的是，虽然本发明已参照当前的具体实施例来描述，但是本技术领域中的普通技术人员应当认识到，以上的实施例仅是用来说明本发明，在没有脱离本发明精神的情况下还可做出各种等效的变化或替换，因此，只要在本发明的实质精神范围内对上述实施例的变化、变型都将落在本申请的权利要求书的范围内。

Claims

一种基于鸟瞰图的多视角3D目标检测方法，其特征在于，所述方法包括：

利用残差网络以及特征金字塔对多视角图片进行编码，得到多尺度特征；

通过映射关系将所述多尺度特征映射到鸟瞰图，得到鸟瞰图特征；

对查询向量进行随机初始化，通过第一多头注意力机制模块构建多个子空间并将所述查询向量投射到多个子空间中，得到初始化特征；

对所述初始化特征进行第一次残差连接和正则化；

利用第二多头注意力机制模块将所述第一次残差连接和正则化后的特征与所述鸟瞰图特征结合，得到学习特征；以及

对所述学习特征进行第二次残差连接和正则化，并利用第一前馈神经网络模块输出目标检测类别以及利用第二前馈神经网络模块输出目标检测框的大小。
如权利要求1所述的基于鸟瞰图的多视角3D目标检测方法，其特征在于，所述利用残差网络以及特征金字塔对多视角图片进行编码得到多尺度特征的步骤包括：

所述残差网络对所述多视角图提取特征并进行上采样，得到从底层到高层依次排布的多层特征；以及

所述特征金字塔根据特征映射图将所述残差网络输出的多层特征进行累加，输出多尺度特征。
如权利要求1所述的基于鸟瞰图的多视角3D目标检测方法，其特征在于，所述通过映射关系将所述多尺度特征映射到鸟瞰图得到鸟瞰图特征的步骤包括：

沿着垂直方向压缩所述多尺度特征，同时保留水平方向的维度，得到压缩后的不同尺度的鸟瞰图特征；

对所述压缩后的不同尺度的鸟瞰图特征进行再采样，转换到极坐标系中，得到维度大小相同的鸟瞰图特征；

对所述维度大小相同的鸟瞰图特征进行下采样，得到降低维度后的鸟瞰图特征。
如权利要求1所述的基于鸟瞰图的多视角3D目标检测方法，其特征在于，所述通过映射关系将所述多尺度特征映射到鸟瞰图得到鸟瞰图特征的步骤包括：

沿着垂直方向压缩所述多尺度特征，同时保留水平方向的维度，并直接进行维度变换，得到维度大小相同的鸟瞰图特征；

对所述维度大小相同的鸟瞰图特征进行下采样，得到降低维度后的鸟瞰图特征。
如权利要求1所述的基于鸟瞰图的多视角3D目标检测方法，其特征在于，所述第一多头注意力机制模块的输入和输出的关系如公式(1)所示：

其中，Q，K，V为输入，Q为所述查询向量，K为被查向量，V为内容向量，K、V与Q相同，
为尺度标度，d _k为K的维度；softmax为激活函数，其将
归一化为概率分布；T表示对K的转置；Attention(Q，K，V)为所述第一多头注意力机制模块的输出，即所述初始化特征。
如权利要求1所述的基于鸟瞰图的多视角3D目标检测方法，其特征在于，所述第二多头注意力机制模块的输入和输出的关系如公式(1)所示：

其中，Q，K，V为输入，Q和K均为所述第一次残差连接和正则化后的特征，V为所述鸟瞰图特征，
为尺度标度，d _k为K的维度；softmax为激活函数，其将
归一化为概率分布；T表示对K的转置；Attention(Q，K，V)为所述第二多头注意力机制模块的输出，即所述学习特征。
如权利要求1所述的基于鸟瞰图的多视角3D目标检测方法，其特征在于，所述第一或第二前馈神经网络对第二次残差连接和正则化后的特征进行线性变换，所述第一或第二前馈神经网络的表达式如公式(2)所示：

FFN(x)＝max(0，xW ₁+b ₁)*W ₂+b ₂ (2)

其中，x为第二次残差连接和正则化后的特征，W1和W2为激活函数的权重，b1和b2为偏置的权重，max函数为取0和xW ₁+b ₁中的较大者。
如权利要求1所述的基于鸟瞰图的多视角3D目标检测方法，其特征在于，利用第一前馈神经网络模块输出目标检测类别以及利用第二前馈神经网络模块输出目标检测框的大小的步骤包括：

通过与目标检测类别相关联的损失模块对所述第一前馈神经网络进行监督学习，得到所述目标检测类别；

通过与目标检测框相关联的损失模块对所述第二前馈神经网络进行监督学习，得到所述目标检测框的大小。
如权利要求1所述的基于鸟瞰图的多视角3D目标检测方法，其特征在于，所述多视角图片分别来自自动驾驶交通工具的前摄像头、左前摄像头、右前摄像头、后摄像头、左后摄像头、右后摄像头六个相机。
一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述计算机指令运行时执行如权利要求1至9任一项所述的基于鸟瞰图的多视角3D目标检测方法。
一种基于鸟瞰图的多视角3D目标检测系统，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，其特征在于，所述处理器运行所述计算机指令时执行如权利要求1至9任一项所述的基于鸟瞰图的多视角3D目标检测方法。
一种基于鸟瞰图的多视角3D目标检测系统，其特征在于，所述系统包括：

编码模块，用于对多视角图片进行编码得到多尺度特征；

鸟瞰图特征获取模块，用于通过映射关系将所述多尺度特征映射到鸟瞰图，得到鸟瞰图特征；以及

转换解码模块，包括初始模块和学习模块；

所述初始模块包括：

第一多头注意力机制构，用于构建多个子空间，将查询向量投射到多个子空间中，输出多个初始化的子空间拼接后的特征，即初始化特征；

第一次残差连接模块，根据所述查询向量以及初始化特征进行恒等映射，输出第一次残差连接后的特征；以及

第一正则化模块，对所述第一次残差连接后的特征进行正则化，得到第一次正则化后的特征；

所述学习模块包括：

第二多头注意力机制模块，用于将所述正则化后的特征与所述鸟瞰图特征结合，得到学习特征；

第二残差连接模块，用于对所述学习特征进行恒等映射，输出所述第二次残差连接后的特征；

第二正则化模块，用于对所述第二次残差连接后的特征进行正则化，得到第二次正则化后的特征；

第一前馈神经网络，根据所述第二次正则化后的特征，在与目标检测类别相关联的损失模块的监督学习下输出目标检测类别；以及

第二前馈神经网络，根据所述第二次正则化后的特征，在与目标检测框相关联的损失模块的监督学习下输出目标检测框的大小。
如权利要求12所述的基于鸟瞰图的多视角3D目标检测系统，其特征在于，所述编码模块包括：

残差网络，用于对所述多视角图片提取特征并进行上采样，得到从底层到高层依次排布的多层特征；

特征金字塔，用于根据特征映射图将所述多层特征进行累加，输出多尺度特征。
如权利要求12所述的基于鸟瞰图的多视角3D目标检测系统，其特征在于，所述映射关系为：

沿着垂直方向压缩所述多尺度特征，同时保留水平方向的维度，得到压缩后的不同尺度的鸟瞰图特征；

对所述压缩后的不同尺度的鸟瞰图特征进行再采样，转换到极坐标系中，得到维度大小相同的鸟瞰图特征；

对所述维度大小相同的鸟瞰图特征进行下采样，得到降低维度后的鸟瞰图特征。
如权利要求12所述的基于鸟瞰图的多视角3D目标检测系统，其特征在于，所述映射关系为：

沿着垂直方向压缩所述多尺度特征，同时保留水平方向的维度，并直接进行维度变换，得到维度大小相同的鸟瞰图特征；

对所述维度大小相同的鸟瞰图特征进行下采样，得到降低维度后的鸟瞰图特征。
如权利要求12所述的基于鸟瞰图的多视角3D目标检测系统，其特征在于，所述第一多头注意力机制模块的输入和输出的关系如公式(1)所示：

其中，Q，K，V为输入，Q为所述查询向量，K为被查向量，V为内容向量，K、V与Q相同，
为尺度标度，d _k为K的维度；softmax为激活函数，其将
归一化为概率分布；T表示对K的转置；Attention(Q，K，V)为所述第一多头注意力机制模块的输出，即所述初始化特征。
如权利要求12所述的基于鸟瞰图的多视角3D目标检测系统，其特征在于，所述第二多头注意力机制模块的输入和输出的关系如公式(1)所示：

其中，Q，K，V为输入，Q和K均为所述第一次残差连接和正则化后的特征，V为所述鸟瞰图特征，
为尺度标度，d _k为K的维度；softmax为激活函数，其将
归一化为概率分布；T表示对K的转置；Attention(Q，K，V)为所述第二多头注意力机制模块的输出，即所述学习特征。
如权利要求12所述的基于鸟瞰图的多视角3D目标检测系统，其特征在于，所述第一或第二前馈神经网络对第二次残差连接和正则化后的特征进行线性变换，所述第一或第二前馈神经网络的表达式如公式(2)所示：

FFN(x)＝max(0，xW ₁+b ₁)*W ₂+b ₂ (2)

其中，x为第二次残差连接和正则化后的特征，W1和W2为激活函数的权重，b1和b2为偏置的权重，max函数为取0和xW ₁+b ₁中的较大者。
如权利要求12所述的基于鸟瞰图的多视角3D目标检测系统，其特征在于，所述多视角图片分别来自自动驾驶交通工具的前摄像头、左前摄像头、右前摄像头、后摄像头、左后摄像头、右后摄像头六个相机。