WO2023216654A1

WO2023216654A1 - 多视角语义分割方法、装置、电子设备和存储介质

Info

Publication number: WO2023216654A1
Application number: PCT/CN2023/074402
Authority: WO
Inventors: 王梦圆; 朱红梅; 张骞
Original assignee: 北京地平线机器人技术研发有限公司
Priority date: 2022-05-11
Filing date: 2023-02-03
Publication date: 2023-11-16
Also published as: CN114821506A

Abstract

本公开实施例公开了一种多视角语义分割方法、装置、电子设备和存储介质，其中，方法包括：确定至少两个第一类视角分别对应的第一图像数据，得到至少两个第一图像数据；确定至少两个第一图像数据分别对应的第二类视角下的第一语义分割特征，得到至少两个第一语义分割特征；将至少两个第一语义分割特征进行融合，获得融合语义分割特征；基于融合语义分割特征，获得融合语义分割结果。本公开实施例可以实现仅利用相机、雷达等，通过中融合即可实现端到端的多视角语义分割结果，无需进行后处理，有效降低处理时间，从而减小辅助延迟，解决了现有技术需要传输到后处理模块进行后处理导致延迟较大等问题。

Description

多视角语义分割方法、装置、电子设备和存储介质

本公开要求在2022年5月11日提交的、申请号为202210512773.2、发明名称为“多视角语义分割方法、装置、电子设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本公开中。

技术领域

本公开涉及计算机视觉技术，尤其是一种多视角语义分割方法、装置、电子设备和存储介质。

背景技术

在自动驾驶等计算机视觉领域，为了辅助规划与控制，获得可移动设备(比如自动驾驶车辆、半自动驾驶车辆、自动机器人等)周围环境信息成为关键操作，相关技术中，通常通过设置在可移动设备上的多个视角的摄像头采集周围多个视角的图像数据，然后基于神经网络模型分别对各视角的图像数据进行语义分割，获得各视角分别对应的语义分割结果，传输到后处理模块进行后处理，比如滤波、融合等，获得可移动设备的周围环境语义信息。但是，现有这种后融合的方法的后处理过程处理时间较长，从而为辅助驾驶带来较大延迟。

发明内容

为了解决上述后处理过程处理时间较长等技术问题，提出了本公开。本公开的实施例提供了一种多视角语义分割方法、装置、电子设备和存储介质。

根据本公开实施例的一个方面，提供了一种多视角语义分割方法，包括：确定至少两个第一类视角分别对应的第一图像数据，得到至少两个第一图像数据；确定所述至少两个第一图像数据分别对应的第二类视角下的第一语义分割特征，得到至少两个第一语义分割特征；将所述至少两个第一语义分割特征进行融合，获得融合语义分割特征；基于所述融合语义分割特征，获得融合语义分割结果。

根据本公开实施例的另一个方面，提供了一种多视角语义分割装置，包括：第一确定模块，用于确定至少两个第一类视角分别对应的第一图像数据，得到至少两个第一图像数据；第一处理模块，用于确定所述至少两个第一图像数据分别对应的第二类视角下的第一语义分割特征，得到至少两个第一语义分割特征；第一融合模块，用于将所述至少两个第一语义分割特征进行融合，获得融合语义分割特征；第二处理模块，用于基于所述融合语义分割特征，获得融合语义分割结果。

根据本公开实施例的再一方面，提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行本公开上述任一实施例所述的多视角语义分割方法。

根据本公开实施例的又一方面，提供一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现本公开上述任一实施例所述的多视角语义分割方法。

基于本公开上述实施例提供的多视角语义分割方法、装置、电子设备和存储介质，通过中融合方式，基于相机视角、雷达视角等第一类视角对应的图像数据，确定鸟瞰视角的第二类视角的语义分割特征，在特征阶段进行融合，获得鸟瞰视角的融合语义分割特征，基于融合语义分割特征确定融合语义分类结果，从而实现仅利用相机、雷达等，通过中融合即可实现端到端的多视角语义分割结果，无需进行后处理，有效降低处理时间，从而减小辅助延迟，解决了现有技术需要传输到后处理模块进行后处理导致延迟较大等问题。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开提供的多视角语义分割方法的一个示例性的应用场景；

图2是本公开一示例性实施例提供的多视角语义分割方法的流程示意图；

图3是本公开一示例性实施例提供的第一语义分割特征的融合示意图；

图4是本公开一个示例性实施例提供的多视角语义分割方法的流程示意图；

图5是本公开一示例性实施例提供的步骤202的流程示意图；

图6是本公开一示例性实施例提供的第一语义分割网络模型的训练流程示意图；

图7是本公开一示例性实施例提供的第二语义分割网络模型的训练流程示意图；

图8是本公开一示例性实施例提供的两个第一语义分割特征融合的原理示意图；

图9是本公开一示例性实施例提供的步骤203的流程示意图；

图10是本公开一示例性实施例提供的多视角语义分割装置的结构示意图；

图11是本公开一示例性实施例提供的第一处理模块502的结构示意图；

图12是本公开另一示例性实施例提供的多视角语义分割装置的结构示意图；

图13是本公开一示例性实施例提供的第一融合模块503的结构示意图；

图14是本公开电子设备一个应用实施例的结构示意图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

本公开概述

在实现本公开的过程中，发明人发现，在自动驾驶等计算机视觉领域，为了辅助规划与控制，通常通过设置在可移动设备上的多个视角的摄像头采集周围多个视角的图像数据，然后基于神经网络模型分别对各视角的图像数据进行语义分割，获得各视角分别对应的语义分割结果，传输到后处理模块进行后处理，比如滤波、融合等，获得可移动设备的周围环境语义信息。但是，现有这种后融合的方法的后处理过程处理时间较长，从而为辅助驾驶带来较大延迟。

示例性概述

图1是本公开提供的多视角语义分割方法的一个示例性的应用场景。

在该场景中，可移动设备为车辆，在车辆上设置有前、后、左、右4个视角的摄像头，第一类视角以摄像头视角为例，第二类视角为鸟瞰视角，4个视角的摄像头用于采集车辆前、后、左、右4个视角的图像数据，并传输到用于执行本公开的多视角语义分割方法的多视角语义分割装置，利用本公开的多视角语义分割方法，可以基于各摄像头视角的图像数据分别确定该视角对应的鸟瞰视角下的语义分割特征，进而将各摄像头视角对应的鸟瞰视角下的语义分割特征进行融合，获得融合语义分割特征，进而基于融合语义分割特征确定鸟瞰视角下的融合语义分割结果。具体语义分割的类型可以根据实际需求设置，比如语义分割结果可以包括属于地面区域的分割结果、属于车道线的分割结果，等等，具体不做限定。本公开实施例通过特征阶段的中融合实现了端到端的多视角语义分割，无需进行后处理，有效降低处理时间，从而减小辅助延迟，提高准确度，解决了现有技术需要传输到后处理模块进行后处理导致延迟较大等问题。

示例性方法

图2是本公开一示例性实施例提供的多视角语义分割方法的流程示意图。本实施例可应用在电子设备上，具体比如车载计算平台上，如图2所示，包括如下步骤：

步骤201，确定至少两个第一类视角分别对应的第一图像数据，得到至少两个第一图像数据。

其中，第一类视角可以为摄像头视角(或称相机视角)、雷达视角等采集可移动设备周围环境信息的传感器视角。对于摄像头视角，每个摄像头对应一个视角，从至少两个摄像头可以确定上述至少两个第一类视角分别对应的第一图像数据，每个第一图像数据对应一个第一类视角；对于雷达视角，可以将采集的三维点云数据转换成二维图像数据，得到至少两个第一图像数据，具体可以根据实际需求设置。

示例性的，在自动驾驶领域，需要4个或6个视角的摄像头，覆盖车辆周围环境图像的采集，在每个时刻可以获得对应视角数量(4个或6个)的第一图像数据。

步骤202，确定至少两个第一图像数据分别对应的第二类视角下的第一语义分割特征，得到至少两个第一语义分割特征。

其中，第二类视角为鸟瞰视角，鸟瞰视角是在天空中飞翔的鸟类的视角，鸟瞰视角下的图像称为鸟瞰图(BEV(Birds Eye Views)图)，鸟瞰视角下可以获得可移动设备周围一定范围的全局图像。

在得到至少两个第一图像数据后，每个第一图像数据可以获得一个对应的第二类视角下的第一语义分割特征，至少两个第一图像数据可得到至少两个第二类视角下的第一语义分割特征。具体第一类视角的视角数量可以根据实际需求设置，本公开不做限定。比如自动驾驶车辆的前、后、左、右4个视角，可以获得4个第二类视角下的第一语义分割特征。具体不再赘述。

在一个可选示例中，第一语义分割特征可以基于第一类视角下的特征提取及视角转换获得。比如先在第一类视角下对第一图像数据进行特征提取，获得第一类视角下的语义分割特征，再基于第一类视角与第二类视角的坐标转换关系将第一类视角下的语义分割特征转换到第二类视角下，比如基于逆透视变换(IPM)实现视角转换，具体不做限定。

步骤203，将至少两个第一语义分割特征进行融合，获得融合语义分割特征。

其中，鸟瞰视角下的第一语义分割特征的特征图是包括了可移动设备周围一定范围的全局特征图，也即第一语义分割特征包括了全局范围的像素，对于每个第一类视角来说，其对应的第一语义分割特征中只有该第一类视角在第二类视角中的对应像素区域具有有效的特征值，其他像素区域特征值为0。将至少两个第一语义分割特征融合后，获得的融合语义分割特征的各像素区域均具有有效特征值。

示例性的，图3是本公开一示例性实施例提供的第一语义分割特征的融合示意图，对于设置有前、后、左、右4个视角的摄像头的车辆来说，每个视角的摄像头图像对应的鸟瞰视角下的第一语义分割特征实质上包括前、后、左、右视角分别对应的区域，以前视视角为例，其对应的第一语义分割特征中灰色的前视区域像素特征值从前视摄像头图像提取并转换获得，对于其他区域，由于前视摄像头图像中没有相关信息，因此特征值为0或其他表示，具体可以根据实际需求设置。各视角的第一语义分割特征融合后，获得的融合语义分割特征融合了各视角的第一语义分割特征，形成了车辆一定范围内的全局语义分割特征。这里仅以一简单示例说明第一语义分割特征与融合语义分割特征的关系，并不对其进行限定。

在实际应用中，不同视角之间可能存在重叠区域，不同视角在第一语义分割特征中对应的区域形状、大小可能相同也可能不同，融合方式也可能是其他方式，融合语义分割特征的表示方式也可能是其他方式，比如可以是将各第一语义分割特征通过concat(拼接)方式融合，本公开不做限定。

步骤204，基于融合语义分割特征，获得融合语义分割结果。

其中，融合语义分割结果可以包括根据实际需求设置的分割类型及对应的分割区域。比如地面区域、车道线区域，等等，具体可以根据实际需求设置。基于融合语义分割特征，可以采用任意可实施的方式获得融合语义分割结果。比如可以采用任意可实施的训练好的语义分割网络模型对融合语义分割特征进行语义分割，获得融合语义分割结果，具体可以根据实际需求设置。本公开的融合语义分割结果可以用于定位、导航、规划控制等场景。

本实施例提供的多视角语义分割方法，通过中融合方式，基于相机视角、雷达视角等第一类视角对应的图像数据，确定鸟瞰视角的第二类视角的语义分割特征，在特征阶段进行融合，获得鸟瞰视角的融合语义分割特征，基于融合语义分割特征确定融合语义分类结果，从而实现仅利用相机、雷达等，通过中融合即可实现端到端的多视角语义分割结果，无需进行后处理，有效降低处理时间，从而减小辅助延迟，解决了现有技术需要传输到后处理模块进行后处理导致延迟较大等问题。

图4是本公开一个示例性实施例提供的多视角语义分割方法的流程示意图。

在一个可选示例中，步骤202具体可以包括以下步骤：

步骤2021，分别对至少两个第一图像数据进行特征提取，确定至少两个第一图像数据分别对应的第一类视角下的第二语义分割特征，得到至少两个第二语义分割特征。

其中，对第一图像数据进行特征提取可以采用任意可实施的方式，比如可以基于训练好的特征提取网络模型进行特征提取，还可以基于训练好的第一语义分割网络模型中的特征提取网络部分进行特征提取，具体可以根据实际需求设置。每个第一图像数据得到一个对应的第二语义分割特征。

步骤2022，将至少两个第二语义分割特征分别转换到第二类视角对应的坐标系下，得到至少两个第一语义分割特征。

其中，第二类视角对应的坐标系可以为可移动设备的自坐标系(比如车辆坐标系)，也可以为世界坐标系，还可以是地图坐标系，具体可以根据实际需求设置，本公开不做限定。第一类视角以摄像头视角为例，第二类视角以车辆坐标系为例，摄像头视角对应的坐标系为图像坐标系，图像坐标系与车辆坐标系的转换关系可以基于摄像头的内参和外参、及预先获得的图像坐标系的预设点坐标确定。比如可以基于摄像头的内参和外参、及预先获得的图像坐标系的预设点坐标确定该摄像头视角对应的单应性变换矩阵，基于单应性变换矩阵实现第二语义分割特征到第二类视角的转换。还可以通过其他转换方式进行转换，本实施例不做限定。每个第二语义分割特征可以得到一个对应的第一语义分割特征。

本公开通过第一类视角下的特征提取结合视角转换，获得第一类视角下的第一图像数据对应的第二类视角下的第一语义分割特征，实现了特征阶段的视角转换，便于后续第二类视角下的特征融合，从而实现中融合。

图5是本公开一示例性实施例提供的步骤202的流程示意图。

在一个可选示例中，步骤2021的分别对至少两个第一图像数据进行特征提取，确定至少两个第一图像数据分别对应的第一类视角下的第二语义分割特征，得到至少两个第二语义分割特征，包括：

步骤20211，基于预先训练获得的第一语义分割网络模型对至少两个第一图像数据进行特征提取，获得至少两个第二语义分割特征。

其中，第一语义分割网络模型可以采用任意可实施的网络结构，比如基于FCN(Fully Convolutional Networks，全卷积网络)的语义分割网络模型及其系列、基于UNet的语义分割网络模型及其系列、基于DeepLab的语义分割网络模型及其系列，等等。第一语义分割网络模型的训练采用分割类型标签数据进行监督，在用于特征提取时，可以将第一语义分割网络模型中最后的归一化层(比如softmax层)之前输出的特征图作为提取的第二语义分割特征。

在一个可选示例中，图6是本公开一示例性实施例提供的第一语义分割网络模型的训练流程示意图。在本示例中，第一语义分割网络模型通过以下方式获得：

步骤301，确定第一训练数据，第一训练数据包括第一类视角下的训练图像数据及对应的第一标签数据；

其中，第一类视角下的训练图像数据可以包括多个视角的图像数据，第一标签数据包括各训练图像数据各像素所属的第一预设语义分割类型标签，第一预设语义分割类型可以根据实际需求设置，比如可以包括地面类型、路沿类型、车道线类型、车辆类型及其他可能的类型等中的至少一种。第一预设语义分割类型标签可以采用任意可实施的表示方式，比如用0、1、2、3等编号表示，也可以用其他方式表示，对于只有一种分割类型的情况，每个像素对应的分割类型可以用0、1表示，0表示不属于该类型，1表示属于该类型，具体不做限定。第一预设语义分割类型的设置可以根据第二类视角下的融合语义分割需求设置。

在一个可选示例中，由于需要采用逆透视变换，会对高于地面的物体产生拉伸效果，为了保证语义分割结果的精准度，第一预设语义分割类型可以设置为与地面处于同一高度的类型，比如车道线类型、人行道类型、路沿、停止线、箭头标志等与地面处于同一高度的类型，以及除道路标志外的地面类型，具体可以根据实际需求设置。

步骤302，基于第一训练图像数据和第一标签数据，对预先建立的第一语义分割网络进行训练，获得第一语义分割网络模型。

其中，训练过程中，可以采用任意可实施的损失函数，比如交叉熵损失函数、聚焦损失函数(focal loss)，等等。第一标签数据可以采用任意可实施的方式获得。具体来说，将第一训练图像数据作为第一语义分割网络的输入，获得对应的第一输出数据，基于第一输出数据、对应的第一标签数据及第一损失函数，确定当前损失，基于当前损失调整网络参数，进入下一迭代流程，以此类推，直至当前损失收敛，获得第一语义分割网络模型。具体训练原理不再赘述。

在一个可选示例中，步骤2022的将至少两个第二语义分割特征分别转换到第二类视角对应的坐标系下，得到至少两个第一语义分割特征，包括：

步骤20221，基于至少两个第一类视角分别对应的图像坐标系中的预设点坐标和预先获得的相机参数，确定至少两个第一类视角分别对应的单应性变换矩阵，得到至少两个单应性变换矩阵。

其中，预设点坐标可以包括4个点坐标，以一个摄像头为例，具体为该摄像头的图像坐标系中地面的4个点的坐标，表示为I_img，相机参数即摄像头参数，可以包括内参和外参。每个第一类视角确定出一个对应的单应性变换矩阵。具体来说，在车辆标定出厂后，车辆上部署的摄像头的内参k)是固定的，可以通过一系列标定，确定各摄像头的外参p，当第二类视角对应的坐标系为车辆坐标系时，可以确定摄像头到车辆坐标系原点(通常为车辆后轴中心)的外参p。基于摄像头内参k和外参p，可以得到上述4个点坐标对应的鸟瞰视角的坐标I_BEV，表示如下：
IBEV＝kpIimg

基于图像坐标系和鸟瞰视角的车辆坐标系的4个点对，可以得到该摄像头对应的单应性变换矩阵，比如可以通过相应的IPM变换函数getPerspectiveTransform实现，表示如下：
H＝getPerspectiveTransform(I_img,I_BEV)

具体IPM变换原理不再赘述。

步骤20222，基于至少两个单应性变换矩阵，分别将至少两个第二语义分割特征转换到第二类视角对应的坐标系下，得到至少两个第一语义分割特征。

在确定了各第一类视角分别对应的单应性变换矩阵后，即可基于各单应性变换矩阵将对应视角的第二语义分割特征转换到第二类视角对应的坐标系下，得到对应的第一语义分割特征。

示例性的，通过上述单应性变换矩阵H，将第二语义分割特征F_img，转换到鸟瞰视角，得到第一语义分割特征F_BEV，表示如下：
FBEV＝HFimg

具体转换原理不再赘述。

在一个可选示例中，步骤204的基于融合语义分割特征，获得融合语义分割结果，包括：

步骤2041，基于融合语义分割特征及预先训练获得的第二语义分割网络模型，获得融合语义分割结果。

其中，第二语义分割网络模型可以采用任意可实施的语义分割网络模型，比如基于FCN(Fully Convolutional Networks，全卷积网络)的语义分割网络模型及其系列、基于UNet的语义分割网络模型及其系列、基于DeepLab的语义分割网络模型及其系列，等等。第二语义分割网络模型的输入为融合语义分割特征，在训练过程中，其输入也为鸟瞰视角下的融合语义分割特征。

在一个可选示例中，图7是本公开一示例性实施例提供的第二语义分割网络模型的训练流程示意图。在本示例中，第二语义分割网络模型通过以下方式获得：

步骤401，确定第二训练数据，第二训练数据包括第二类视角下的训练语义分割特征数据及对应的第二标签数据。

其中，第二类视角下的训练语义分割特征数据是多视角融合后的训练融合语义分割特征数据。第二标签数据包括训练语义分割特征数据中各像素所属的第二预设语义分割类型，第二预设语义分割类型与第一预设语义分割类型类似，在此不再赘述。

步骤402，基于训练语义分割特征数据和第二标签数据，对预先建立的第二语义分割网络进行训练，获得第二语义分割网络模型。

其中，训练语义分割特征数据作为第二语义分割网络的输入，第二标签数据作为监督，通过损失调整网络参数，直至损失收敛获得第二语义分割网络模型。具体训练过程不再赘述。训练过程中的损失函数可以采用任意可实施的损失函数，比如交叉熵损失函数、聚焦损失函数(focal loss)，等等。

在一个可选示例中，第二标签数据可以根据高清地图或者雷达投影自动生成。

具体来说，在确定车辆位置的情况下，第二类视角对应的坐标系为车辆坐标系，可以确定高清地图中车辆位置周围范围的全局信息，高清地图中每个位置的语义分割类型是确定可知的，因此基于车辆坐标系与高清地图坐标系之间的转换关系，可以从高清地图获取训练语义分割特征数据每个像素所属的分割类型，从而自动获得第二标签数据。雷达投影与高清地图类似，雷达投影可以确定车辆周围的三维信息，进而基于车辆坐标系与雷达坐标系的转换关系，可以确定训练语义分割特征数据中每个像素所属的分割类型，即获得了第二标签数据。

通过高清地图或雷达投影自动生成第二标签数据，实现自动化标注，有效减少人工标注成本，提高模型训练效率。

在一个可选示例中，步骤203的将至少两个第一语义分割特征进行融合，获得融合语义分割特征，包括：

步骤2031a，将至少两个第一语义分割特征中相同像素位置的特征值相加，获得融合语义分割特征。

其中，各第一语义分割特征是相同尺寸的特征图，比如均为512*512*1的特征图，每个第一类视角对应的第一语义分割特征包含该第一类视角对应区域的特征值，其他区域特征值为0，因此，可以将多个视角分别对应的第一语义分割特征中相同像素位置的特征值相加，实现不同第一类视角区域的特征值融合到了一个特征图上，形成了包含多视角信息的全局语义分割特征。参见上述图3，每个视角区域包括多个像素，在各视角的第一语义分割特征中，相应视角区域的各像素具有对应的特征值，其他区域像素的特征值为0，在融合获得的融合语义分割特征中，各像素均具有对应的特征值，融合了各视角区域的特征值，形成了第二类视角下的全局语义分割特征图。具体不再赘述。

示例性的，图8是本公开一示例性实施例提供的两个第一语义分割特征融合的原理示意图。

需要说明的是，在实际应用中各第一类视角之间可能存在重叠区域，转换到第二类视角后，表现为各第一语义分割特征之间可能存在重叠的像素，即在同一像素位置，两个第一语义分割特征中特征值均不为0，在该示例中，对于重叠区域的特征值同样可以采用直接相加方式，由于第一语义分割特征和融合语义分割特征是从第一类视角的图像数据到第二类视角的语义分割结果的端到端处理过程的中间的特征图，在基于第二语义分割网络模型进行语义分割时，融合语义分割特征还会经过多层网络的处理，且在模型训练过程同样采用相同的方式进行特征融合，从而学习了因此可能带来的误差，保证模型精度，因此，特征值直接相加不会影响第二类视角下的语义分割结果。

在一个可选示例中，图9是本公开一示例性实施例提供的步骤203的流程示意图。在本示例中，步骤203包括：

步骤2031b，响应于至少两个第一语义分割特征的相同像素位置的特征值中，有小于或等于一个非0特征值，将该像素位置的特征值相加，作为该像素位置的融合特征值。

其中，相同像素位置有小于或等于一个非0特征值，可以表示该像素位置为非重叠区域的像素，因此，特征值可以直接相加，作为该像素位置的融合特征值，参见前述相加融合内容，具体不再赘述。

步骤2032b，响应于至少两个第一语义分割特征的相同像素位置的特征值中，有至少两个非0特征值，将该像素位置的特征值按非0特征值数量求均值，作为该像素位置的融合特征值。

其中，当相同像素位置，有至少两个第一语义分割特征存在非0特征值，表示该至少两个第一语义分割特征在该像素位置为重叠区域，可以求特征值的均值作为融合特征值。按非0特征值数量求均值，是指当该像素位置有N个非0特征值时，将N个非0特征值相加的和再除以N，获得均值作为该像素位置的融合特征值。

步骤2033b，基于各像素位置的融合特征值，获得融合语义分割特征。

基于上述步骤的处理，可以获得每个像素位置的融合特征值，从而获得融合语义分割特征。

本公开实施例通过特征阶段的中融合实现了端到端的多视角语义分割，无需进行后处理，有效降低处理时间，从而减小辅助延迟，解决了现有技术需要传输到后处理模块进行后处理导致延迟较大等问题。并且现有技术的后融合方式在两视角重叠的部分，不同视角的语义分割结果可能不同，导致语义分割结果准确度低，相对于现有技术，本公开的中融合方式有效解决了现有技术这一问题，基于融合的特征直接实现全局的语义分割，避免不同视角重叠区域分割结果不同的情况发生，有效提高语义分割结果的准确度。

本公开上述各实施例或可选示例可以单独实施，也可以在不冲突的情况下，以任意组合方式结合实施。

本公开实施例提供的任一种多视角语义分割方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种多视角语义分割方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种多视角语义分割方法。下文不再赘述。

示例性装置

图10是本公开一示例性实施例提供的多视角语义分割装置的结构示意图。该实施例的装置可用于实现本公开相应的方法实施例，如图10所示的装置包括：第一确定模块501、第一处理模块502、第一融合模块503和第二处理模块504。

第一确定模块501，用于确定至少两个第一类视角分别对应的第一图像数据，得到至少两个第一图像数据；第一处理模块502，用于确定第一确定模块501得到的至少两个第一图像数据分别对应的第二类视角下的第一语义分割特征，得到至少两个第一语义分割特征；第一融合模块503，用于将第一处理模块502得到的至少两个第一语义分割特征进行融合，获得融合语义分割特征；第二处理模块504，用于基于第一融合模块503获得的融合语义分割特征，获得融合语义分割结果。

图11是本公开一示例性实施例提供的第一处理模块502的结构示意图。

在一个可选示例中，第一处理模块502包括：特征提取单元5021和视角转换单元5022。

特征提取单元5021，用于分别对至少两个第一图像数据进行特征提取，确定至少两个第一图像数据分别对应的第一类视角下的第二语义分割特征，得到至少两个第二语义分割特征；视角转换单元5022，用于将至少两个第二语义分割特征分别转换到第二类视角对应的坐标系下，得到至少两个第一语义分割特征。

在一个可选示例中，特征提取单元5021具体用于：基于预先训练获得的第一语义分割网络模型对至少两个第一图像数据进行特征提取，获得至少两个第二语义分割特征。

在一个可选示例中，视角转换单元5022具体用于：基于至少两个第一类视角分别对应的图像坐标系中的预设点坐标和预先获得的相机参数，确定至少两个第一类视角分别对应的单应性变换矩阵，得到至少两个单应性变换矩阵；基于至少两个单应性变换矩阵，分别将至少两个第二语义分割特征转换到第二类视角对应的坐标系下，得到至少两个第一语义分割特征。

图12是本公开另一示例性实施例提供的多视角语义分割装置的结构示意图。

在一个可选示例中，第二处理模块504，包括：第一处理单元5041，用于基于融合语义分割特征及预先训练获得的第二语义分割网络模型，获得融合语义分割结果。

在一个可选示例中，第一融合模块503，包括：融合单元5031a，用于将至少两个第一语义分割特征中相同像素位置的特征值相加，获得融合语义分割特征。

在一个可选示例中，图13是本公开一示例性实施例提供的第一融合模块503的结构示意图。在本示例中，第一融合模块503包括：

第二处理单元5031b，用于响应于至少两个第一语义分割特征的相同像素位置的特征值中，有小于或等于一个非0特征值，将该像素位置的特征值相加，作为该像素位置的融合特征值；

第三处理单元5032b，用于响应于至少两个第一语义分割特征的相同像素位置的特征值中，有至少两个非0特征值，将该像素位置的特征值按非0特征值数量求均值，作为该像素位置的融合特征值；

第四处理单元5033b，用于基于各像素位置的融合特征值，获得融合语义分割特征。

本公开提供的多视角语义分割装置中各模块的具体操作参见前述方法实施例，在此不再赘述。

示例性电子设备

本公开实施例还提供了一种电子设备，包括：存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现本公开上述任一实施例所述的多视角语义分割方法。

图14是本公开电子设备一个应用实施例的结构示意图。本实施例中，该电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本公开的各个实施例的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，该输入装置13可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。

此外，该输入装置13还可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图14中仅示出了该电子设备10中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的方法中的步骤。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

Claims

一种多视角语义分割方法，包括：

确定至少两个第一类视角分别对应的第一图像数据，得到至少两个第一图像数据；

确定所述至少两个第一图像数据分别对应的第二类视角下的第一语义分割特征，得到至少两个第一语义分割特征；

将所述至少两个第一语义分割特征进行融合，获得融合语义分割特征；

基于所述融合语义分割特征，获得融合语义分割结果。
根据权利要求1所述的方法，其中，所述确定所述至少两个第一图像数据分别对应的第二类视角下的第一语义分割特征，得到至少两个第一语义分割特征，包括：

分别对所述至少两个第一图像数据进行特征提取，确定所述至少两个第一图像数据分别对应的所述第一类视角下的第二语义分割特征，得到至少两个第二语义分割特征；

将所述至少两个第二语义分割特征分别转换到所述第二类视角对应的坐标系下，得到所述至少两个第一语义分割特征。
根据权利要求2所述的方法，其中，所述分别对所述至少两个第一图像数据进行特征提取，确定所述至少两个第一图像数据分别对应的所述第一类视角下的第二语义分割特征，得到至少两个第二语义分割特征，包括：

基于预先训练获得的第一语义分割网络模型对所述至少两个第一图像数据进行特征提取，获得所述至少两个第二语义分割特征。
根据权利要求2所述的方法，其中，所述将所述至少两个第二语义分割特征分别转换到所述第二类视角对应的坐标系下，得到所述至少两个第一语义分割特征，包括：

基于所述至少两个第一类视角分别对应的图像坐标系中的预设点坐标和预先获得的相机参数，确定所述至少两个第一类视角分别对应的单应性变换矩阵，得到至少两个单应性变换矩阵；

基于所述至少两个单应性变换矩阵，分别将所述至少两个第二语义分割特征转换到所述第二类视角对应的坐标系下，得到所述至少两个第一语义分割特征。
根据权利要求1所述的方法，其中，所述基于所述融合语义分割特征，获得融合语义分割结果，包括：

基于所述融合语义分割特征及预先训练获得的第二语义分割网络模型，获得所述融合语义分割结果。
根据权利要求1-5任一所述的方法，其中，所述将所述至少两个第一语义分割特征进行融合，获得融合语义分割特征，包括：

将所述至少两个第一语义分割特征中相同像素位置的特征值相加，获得所述融合语义分割特征。
根据权利要求1-5任一所述的方法，其中，所述将所述至少两个第一语义分割特征进行融合，获得融合语义分割特征，包括：

响应于所述至少两个第一语义分割特征的相同像素位置的特征值中，有小于或等于一个非0特征值，将该像素位置的特征值相加，作为该像素位置的融合特征值；

响应于所述至少两个第一语义分割特征的相同像素位置的特征值中，有至少两个非0特征值，将该像素位置的特征值按非0特征值数量求均值，作为该像素位置的融合特征值；

基于各所述像素位置的所述融合特征值，获得所述融合语义分割特征。
一种多视角语义分割装置，包括：

第一确定模块，用于确定至少两个第一类视角分别对应的第一图像数据，得到至少两个第一图像数据；

第一处理模块，用于确定所述至少两个第一图像数据分别对应的第二类视角下的第一语义分割特征，得到至少两个第一语义分割特征；

第一融合模块，用于将所述至少两个第一语义分割特征进行融合，获得融合语义分割特征；

第二处理模块，用于基于所述融合语义分割特征，获得融合语义分割结果。
根据权利要求8所述的装置，其中，所述第一处理模块，包括：

特征提取单元，用于分别对所述至少两个第一图像数据进行特征提取，确定所述至少两个第一图像数据分别对应的所述第一类视角下的第二语义分割特征，得到至少两个第二语义分割特征；

视角转换单元，用于将所述至少两个第二语义分割特征分别转换到所述第二类视角对应的坐标系下，得到所述至少两个第一语义分割特征。
一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-7任一所述的多视角语义分割方法。
一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-7任一所述的多视角语义分割方法。