WO2022016368A1

WO2022016368A1 - 3d框标注方法、设备及计算机可读存储介质

Info

Publication number: WO2022016368A1
Application number: PCT/CN2020/103263
Authority: WO
Inventors: 陈创荣; 徐斌; 陈晓智
Original assignee: 深圳市大疆创新科技有限公司
Priority date: 2020-07-21
Filing date: 2020-07-21
Publication date: 2022-01-27
Also published as: CN113795847A

Abstract

一种3D框标注方法、设备及计算机可读存储介质，该方法在图像层面直接对3D框进行标注，无需依赖额外的深度传感器，降低成本，而且该方法仅通过在包含目标物体的二维图像上标注目标物体的2D框和该2D框上的一角点，就能获得目标物体的3D框，处理过程简单，降低工作量，另外，本申请实施例获取的3D框与物体实际尺寸相差较小，解决现有基于点云数据标注获得的3D框与物体的实际尺寸相差较大的问题，从而，保证后续对神经网络的准确训练，提高神经网络的识别效果。

Description

3D框标注方法、设备及计算机可读存储介质

技术领域

本申请实施例涉及图像处理技术，尤其涉及一种3D框标注方法、设备及计算机可读存储介质。

背景技术

随着神经网络至深度学习等人工智能(AI)领域技术的快速发展，人们已经能够使用这些AI技术来实现对周围环境的感知功能。例如，在自动驾驶中，可以利用神经网络对搭载于车辆上的摄像头所采集的图像进行识别，从而得到周围目标物体(如周围的车辆、行人、树木等)的2D或3D信息。然而，想要获得高准确率的识别结果，需要首先对所使用的神经网络进行训练。例如，如需要使用神经网络对图像进行识别得到目标物体及其3D信息，则需要首先利用训练图像和图像中已知目标物体和其3D信息对该神经网络进行训练。

获得图像中已知的目标物体和其3D信息(如伪3D框，即二维图像平面上的3D框投影，后续简述为3D框)，通常需要人工进行标注。现有的标注方法一个是依赖于外部激光雷达传感器或深度相机等主动式深度传感器的标注方法。该方法依赖外部深度传感器获取深度信息，生成点云数据，并直接在3D空间标注物体的实际3D框，再根据传感器间坐标转换关系将其3D框投影到图像上，从而得到3D框。

然而，这类标注方法过程复杂，成本较高，而且基于点云数据标注获得的3D框与物体的实际尺寸相差较大，影响后续对神经网络的训练，从而影响神经网络的识别效果。因此，有必要提供一种更为高效准备的标注方法。

发明内容

本申请实施例提供一种3D框标注方法、设备及计算机可读存储介质，以克服上述至少一个问题。

第一方面，本申请实施例提供一种3D框标注方法，包括：

获取2D框标注操作，根据所述2D框标注操作，在包含目标物体的二维图像上确定所述目标物体的2D框；

获取角点标注操作，其中，所述角点位于所述2D框的一条边上，根据所述角点标注操作在所述2D框上标注所述角点；

基于所述2D框和所述角点，确定并显示所述目标物体的3D框。

第二方面，本申请实施例提供另一种3D框标注方法，包括：

在包含目标物体的二维图像上确定所述目标物体的2D框；

获取标注的角点，其中，所述角点位于所述2D框的一条边上；

基于所述2D框和所述角点，确定所述目标物体的3D框。

第三方面，本申请实施例提供一种3D框标注设备，包括存储器、处理器、交互单元，以及存储在所述存储器中并可在所述处理器上运行的计算机指令，所述处理器执行所述计算机指令时实现如下步骤：

通过所述交互单元获取2D框标注操作，根据所述2D框标注操作，在包含目标物体的二维图像上确定所述目标物体的2D框；

通过所述交互单元获取角点标注操作，其中，所述角点位于所述2D框的一条边上，根据所述角点标注操作在所述2D框上标注所述角点；

基于所述2D框和所述角点，确定所述目标物体的3D框，并通过所述交互单元显示。

第四方面，本申请实施例提供另一种3D框标注设备，包括存储器、处理器，以及存储在所述存储器中并可在所述处理器上运行的计算机指令，所述处理器执行所述计算机指令时实现如下步骤：

在包含目标物体的二维图像上确定所述目标物体的2D框；

基于所述2D框和所述角点，确定所述目标物体的3D框。

第五方面，本申请实施例提供一种神经网络训练方法，包括：

利用如上第一方面以及第一方面各种可能的设计所述的3D框标注方法确定的目标物体的3D框，以及包含所述目标物体的二维图像，进行神经网络的训练。

第六方面，本申请实施例提供另一种神经网络训练方法，包括：

利用如上第二方面以及第二方面各种可能的设计所述的3D框标注方法确定的目标物体的3D框，以及包含所述目标物体的二维图像，进行神经网络的训练。

第七方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机指令，当处理器执行所述计算机指令时，实现如上第一方面以及第一方面各种可能的设计所述的3D框标注方法。

第八方面，本申请实施例提供另一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机指令，当处理器执行所述计算机指令时，实现如上第二方面以及第二方面各种可能的设计所述的3D框标注方法。

本申请实施例提供的3D框标注方法、设备及计算机可读存储介质，该方法在图像层面直接对3D框进行标注，无需依赖额外的深度传感器，降低成本，而且该方法仅通过在包含目标物体的二维图像上标注目标物体的2D框和该2D框上的一角点，就能获得目标物体的3D框，处理过程简单，降低工作量，另外，本申请实施例获取的3D框与物体实际尺寸相差较小，解决现有基于点云数据标注获得的3D框与物体的实际尺寸相差较大的问题，从而，保证后续对神经网络的准确训练，提高神经网络的识别效果。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请实施例提供的3D框标注系统架构示意图；

图2为本申请实施例提供的一种3D框标注方法的流程示意图；

图3为本申请实施例提供的一种2D框示意图；

图4为本申请实施例提供的一种2D框上的角点示意图；

图5为本申请实施例提供的一种3D框示意图；

图6为本申请实施例提供的另一种3D框标注方法的流程示意图；

图7为本申请实施例提供的再一种3D框标注方法的流程示意图；

图8为本申请实施例提供的又一种3D框标注方法的流程示意图；

图9为本申请实施例提供的又一种3D框标注方法的流程示意图；

图10为本申请实施例提供的又一种3D框标注方法的流程示意图；

图11为本申请实施例提供的一种2D框和3D框的对应关系示意图；

图12为本申请实施例提供的又一种3D框标注方法的流程示意图；

图13为本申请实施例提供的一种3D框标注装置的结构示意图；

图14为本申请实施例提供的另一种3D框标注装置的结构示意图；

图15为本申请实施例提供的一种3D框标注设备的基本硬件架构；

图16为本申请实施例提供的另一种3D框标注设备的基本硬件架构。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”及“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例提供的3D框标注方法可应用在神经网络训练的前期数据标注中，其中，该神经系统可以用于获得目标物体(如车辆、房屋等)的2D或3D信息等，本申请实施例对此不做特别限制。需要说明的是，本申请实施例中标注的3D框指的是在二维图像上的物体的三维框的投影，而非实际三维空间中的三维框。

可选地，本申请实施例提供的3D框标注方法可以应用于如图1所示的应用场景中。图1只是以示例的方式描述了本申请实施例提供的3D框标注方法的一种可能的应用场景，本申请实施例提供的3D框标注方法的应用场景不限于图1所示的应用场景。

图1为3D框标注系统架构示意图。在图1中，以获得周围的车辆的3D信息为例。上述架构包括处理装置11和多个摄像头，这里，该多个摄像头以第一摄像头12、第二摄像头13和第三摄像头14为例。

可以理解的是，本申请实施例示意的结构并不构成对3D框标注架构的具体限定。在本申请另一些可行的实施方式中，上述架构可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置，具体可根据实际应用场景确定，在此不做限制。图1所示的部件可以以硬件，软件，或软件与硬件的组合实现。

在具体实现过程中，本申请实施例中第一摄像头12、第二摄像头13和第三摄像头14可以分别采集周围的车辆的图像。在上述应用场景中，第一摄像头12、第二摄像头13和第三摄像头14在采集图像后，可以把采集的图像发送至处理装置11。处理装置11将接收的上述图像作为样本数据，该样本数据经过标注后，可用于训练神经网络。处理装置11在图像层面获取到用户的基本操作后，可以直接生成标注完成的3D框，从而，利用上述图像中已知车辆和其3D信息对神经网络进行训练。

本申请实施例所涉及的3D框标注是指在图像层面直接对目标物体的3D框进行标注，指的是目标物体的三维空间中的实际3D框在二维图像上投影的3D框，即通过在包含目标物体的二维图像上标注目标物体的2D框和该2D框上的一角点，获得目标物体的3D框，无需依赖额外的深度传感器，降低成本，处理过程简单，降低工作量。

另外，本申请实施例描述的系统架构以及业务场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着系统架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

下面结合附图详细介绍本申请实施例提供的3D框标注方法。该方法的执行主体可以为图1中的处理装置11。处理装置11的工作流程主要包括2D 框阶段和3D框阶段。在2D框阶段，处理装置11获取在包含目标物体的二维图像上标注的目标物体的2D框和该2D框上的一角点。在3D框阶段，处理装置11根据上述2D框和2D框上的一角点，生成目标物体的3D框，无需依赖额外的深度传感器，降低成本，处理过程简单，降低工作量。

下面以几个实施例为例对本申请的技术方案进行描述，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2为本申请实施例提供的一种3D框标注方法的流程示意图，本实施例的执行主体可以为图1中的处理装置11，具体执行主体可以根据实际应用场景确定。如图2所示，在图1所示应用场景的基础上，本申请实施例提供的3D框标注方法包括如下步骤：

S201：获取2D框标注操作，根据该2D框标注操作，在包含目标物体的二维图像上确定上述目标物体的2D框。

这里，上述目标物体可以根据实际情况确定，例如车辆、房屋等，本申请实施例对此不做特别限制。

本申请实施例中，以目标物体为车辆为例，处理装置11在获取2D框标注操作后，在包含上述车辆的二维图像上确定上述车辆的2D框。示例性的，2D框标注操作可由标注人员操作完成，如图3所示，上述车辆的2D框在包含上述车辆的二维图像上完全框住上述车辆，具体上述2D框大小可以根据实际需要确定，例如上述2D框的大小与上述二维图像上的上述车辆的大小越近似越好，本申请实施例对此不做特别限制。

另外，处理装置11在确定上述目标物体的2D框后，还可以获取2D框调整操作，根据该操作，调整上述2D框，例如调整上述2D框的大小、位置等。

S202：获取角点标注操作，其中，该角点位于上述2D框的一条边上，根据上述角点标注操作在上述2D框上标注该角点。

本申请实施例中，角点指的是被标注物体实际三维框的某个角投影在二维图像上的点。例如，当物体为车辆时，通常其实际三维框为长方体，则标注的角点为该长方体的六个角在二维图像上的投影的点。上述角点具体在上述2D框的哪条边上，可以根据实际情况确定，本申请实施例对此不做特别限制。

示例性的，还以目标物体为车辆为例，如图4所示，上述角点位于上述2D框的底边上。

S203：基于上述2D框和上述角点，确定并显示上述目标物体的3D框。

这里，还以目标物体为车辆为例，如图5所示，在该车辆的上述2D框和上述角点基础上，获得该车辆的3D框。

本申请实施例，在图像层面直接对3D框进行标注，无需依赖额外的深度传感器，降低成本，而且该方法仅通过在包含目标物体的二维图像上标注目标物体的2D框和该2D框上的一角点，就能获得目标物体的3D框，处理过程简单，降低工作量，另外，本申请实施例获取的3D框与物体实际尺寸相差较小，解决现有基于点云数据标注获得的3D框与物体的实际尺寸相差较大的问题，从而，保证后续对神经网络的准确训练，提高神经网络的识别效果。

另外，本申请实施例在确定并显示上述目标物体的3D框之前，还获取上述角点的角点编号。图6为本申请实施例提出的另一种3D框标注方法的流程示意图。如图6所示，该方法包括：

S601：获取2D框标注操作，根据该2D框标注操作，在包含目标物体的二维图像上确定上述目标物体的2D框。

S602：获取角点标注操作，其中，该角点位于上述2D框的一条边上，根据上述角点标注操作在上述2D框上标注该角点。

其中，步骤S601-S602与上述步骤S201-S202的实现方式相同，此处不再赘述。

S603：获取上述角点的角点编号，该角点编号用于指示上述角点相对于上述目标物体的位置。

这里，角点编号的顺序可以不限，只要角点与其角点编号之间有映射关系即可。

其中，上述映射关系可以理解为角点相对于物体的位置与其角点编号之间有对应关系，例如位于物体的2D框的底边上四个角点，从后面的右边位置开始，顺时针，确定角点编号可以为p0、p1、p2和p3。如果某一角点位于物体的2D框的底边的后面左边位置，则其角点编号为p1。

上述处理装置11可以预存上述映射关系，从而，基于该映射关系获取上述角点的角点编号，该角点编号用于指示上述角点相对于目标物体的位置。

另外，上述角点编号可以是用户输入的，也可以是预先配置的，本申请实施例对此不做特别限制。

S604：基于上述角点编号、2D框和角点，确定并显示上述目标物体的3D框。

本申请实施例，在确定并显示上述目标物体的3D框之前，还获取上述角点的角点编号，进而，基于上述角点编号、2D框和角点，准确确定并显示上述目标物体的3D框，满足应用需要。示例性的，当所述目标物体为车辆时，通常由于车辆位于前方且朝向前方行驶，因此可以默认设定为车辆朝向为正前方；在确定了车辆的3D框的一个角点编号后，由于3D框在图像上的各个角点都落在已标注的2D框的各个边上，因此，可以根据2D视图下三维物体的消失点及已确定的角点编号及映射关系，直接生成车辆的3D框。本申请实施例在图像层面直接对3D框进行标注，无需依赖额外的深度传感器，降低成本，该方法仅通过在包含目标物体的二维图像上标注目标物体的2D框和该2D框上的一角点，就能获得目标物体的3D框，处理过程简单，降低工作量，并且相对于人工标注目标物体3D框，能更加满足实际三维框在二维图像上投影的几何关系约束，避免人工标注造成的误差或错误，从而提高标注数据精确度及可用性。本申请实施例获取的3D框与物体实际尺寸相差较小，解决现有基于点云数据标注获得的3D框与物体的实际尺寸相差较大的问题，从而，保证后续对神经网络的准确训练，提高神经网络的识别效果。

另外，在另一些实施例中，本申请在确定并显示上述目标物体的3D框之前，还获取上述目标物体在3D空间的朝向角。图7为本申请实施例提出的再一种3D框标注方法的流程示意图。如图7所示，该方法包括：

S701：获取2D框标注操作，根据该2D框标注操作，在包含目标物体的二维图像上确定上述目标物体的2D框。

S702：获取角点标注操作，其中，该角点位于上述2D框的一条边上，根据上述角点标注操作在上述2D框上标注该角点。

其中，步骤S701-S702与上述步骤S201-S202的实现方式相同，此处不再赘述。

S703：获取上述目标物体在3D空间的朝向角，该朝向角用于指示上述目标物体的朝向。

其中，上述朝向角可以是用户输入的，也可以是预设设置的，本申请实施例对此不做特别限制，例如，以目标物体为车辆为例，用户可以不输入朝向角，默认目标物体朝向正前方且朝向角为0度。当然用户也可以输入其他朝向角的角度。例如，当目标物体为车辆时，当车辆朝向正前方行驶时，则可以选择默认的朝向角；而当出现某些斜向行驶或逆向行驶的车辆时，则可以根据实际情况输入实际的朝向角。

S704：基于上述朝向角、2D框和角点，确定并显示上述目标物体的3D框。

本申请实施例，在确定并显示上述目标物体的3D框之前，还获取上述目标物体在3D空间的朝向角，进而，基于上述朝向角、2D框和角点，确定并显示上述目标物体的3D框，使得获得的3D框与实际更相符。具体的，当朝向角取默认设置，例如为0度时，表示目标物体朝向为正前方，此时目标物体对应的消失点位于图像中心，从而可以根据消失点确定出目标物体其他角点的位置完成3D框的生成；而当朝向角为用户输入的其他数值时，表示目标物体朝向其他方向，此时消失点位于其他位置，但同样地可以根据消失点完成3D框的生成。本申请实施例在图像层面直接对3D框进行标注，无需依赖额外的深度传感器，降低成本，该方法仅通过在包含目标物体的二维图像上标注目标物体的2D框和该2D框上的一角点，就能获得目标物体的3D框，处理过程简单，降低工作量，另外，本申请实施例获取的3D框与物体实际尺寸相差较小，解决现有基于点云数据标注获得的3D框与物体的实际尺寸相差较大的问题，从而，保证后续对神经网络的准确训练，提高神经网络的识别效果。

另外，本申请实施例在确定并显示上述目标物体的3D框之后，还可以调整上述2D框。图8为本申请实施例提出的又一种3D框标注方法的流程示意图。如图8所示，该方法包括：

S801：获取2D框标注操作，根据该2D框标注操作，在包含目标物体的二维图像上确定上述目标物体的2D框。

S802：获取角点标注操作，其中，该角点位于上述2D框的一条边上，根据上述角点标注操作在上述2D框上标注该角点。

S803：基于上述2D框和上述角点，确定并显示上述目标物体的3D框。

其中，步骤S801-S803与上述步骤S201-S203的实现方式相同，此处不再赘述。

S804：上述2D框标注操作包括框选操作、移动操作和旋转操作中至少一个，根据上述2D框标注操作调整上述2D框。

其中，上述2D框标注操作除上述外，还可以包括其它操作，本申请实施例对此不做特别限制。

本申请实施例，在确定并显示上述目标物体的3D框之后，还可以调整上述2D框，从而，可以基于调整后的2D框生成新的3D框，满足多种应用需要。而且，本申请实施例在图像层面直接对3D框进行标注，无需依赖额外的深度传感器，降低成本，该方法仅通过在包含目标物体的二维图像上标注目标物体的2D框和该2D框上的一角点，就能获得目标物体的3D框，处理过程简单，降低工作量，另外，本申请实施例获取的3D框与物体实际尺寸相差较小，解决现有基于点云数据标注获得的3D框与物体的实际尺寸相差较大的问题，从而，保证后续对神经网络的准确训练，提高神经网络的识别效果。

图9为本申请实施例提供的又一种3D框标注方法的流程示意图，本实施例的执行主体可以为图1中的处理装置11，具体执行主体可以根据实际应用场景确定。如图9所示，在图1所示应用场景的基础上，本申请实施例提供的3D框标注方法包括如下步骤：

S901：在包含目标物体的二维图像上确定上述目标物体的2D框。

这里，处理装置11在确定上述目标物体的2D框后，还可以获取2D框调整操作，根据该操作，调整上述2D框，例如调整上述2D框的大小、位置等。

S902：获取标注的角点，其中，该角点位于上述2D框的一条边上。

在一种可能的实现方式中，上述角点位于上述2D框的底边上。

S903：基于上述2D框和角点，确定上述目标物体的3D框。

另外，本申请实施例在确定上述目标物体的3D框之前，还获取上述角点的角点编号。图10为本申请实施例提出的又一种3D框标注方法的流程示意图。如图10所示，该方法包括：

S1001：在包含目标物体的二维图像上确定上述目标物体的2D框。

S1002：获取标注的角点，其中，该角点位于上述2D框的一条边上。

其中，步骤S1001-S1002与上述步骤S901-S902的实现方式相同，此处不再赘述。

S1003：获取上述角点的角点编号，该角点编号用于指示上述角点相对于上述目标物体的位置。

其中，上述角点编号可以是用户输入的，也可以是预先配置的。

S1004：基于上述角点编号、2D框和角点，确定上述目标物体的3D框。

在一种可能的实现方式中，上述处理装置11可以基于上述角点编号和上述角点，确定上述2D框和3D框的对应关系，进而，根据该对应关系和上述2D框，确定上述3D框。

示例性的，还以目标物体为车辆为例，上述2D框和3D框的对应关系，如图11所示，图中front表示前方，rear表示后方。

在本申请实施例中，上述确定上述2D框和3D框的对应关系，可以包括：

获取预存的物体2D框与其3D框的角点的对应规则；

根据上述对应规则，以及上述角点编号和上述角点，确定上述对应关系。

其中，上述对应规则可以根据实际情况设置，本申请实施例对此不做特别限制。

本申请实施例，在确定上述目标物体的3D框之前，还获取上述角点的角点编号，进而，基于上述角点编号、2D框和角点，准确确定上述目标物体的3D框，满足应用需要。而且，本申请实施例在图像层面直接对3D框进行标注，无需依赖额外的深度传感器，降低成本，该方法仅通过在包含目标物体的二维图像上标注目标物体的2D框和该2D框上的一角点，就能获得目标物体的3D框，处理过程简单，降低工作量，另外，本申请实施例获取的3D框与物体实际尺寸相差较小，解决现有基于点云数据标注获得的3D框与物体的实际尺寸相差较大的问题，从而，保证后续对神经网络的准确训练，提高神经网络的识别效果。

另外，本申请实施例在确定上述目标物体的3D框之前，还获取上述目标物体在3D空间的朝向角。图12为本申请实施例提出的又一种3D框标注方法的流程示意图。如图12所示，该方法包括：

S1201：在包含目标物体的二维图像上确定上述目标物体的2D框。

S1202：获取标注的角点，其中，该角点位于上述2D框的一条边上。

其中，步骤S1201-S1202与上述步骤S901-S902的实现方式相同，此处不再赘述。

S1203：获取上述目标物体在3D空间的朝向角，该朝向角用于指示上述目标物体的朝向。

其中，上述朝向角可以是用户输入的，也可以是预先配置的。

S1204：基于上述朝向角、2D框和角点，确定上述目标物体的3D框。

在一种可能的实现方式中，上述处理装置11可以根据上述朝向角，确定上述3D框对应的三个消失点，进而，根据该三个消失点、上述2D框和角点，确定上述3D框。示例性的，结合长方体的边的平行关系，根据上述三个消失点、上述2D框和角点，确定上述3D框。

其中，上述根据上述朝向角，确定上述3D框对应的三个消失点，可以包括：

获取上述二维图像对应的图像获取装置的投影矩阵；

根据上述投影矩阵和上述朝向角的投影矩阵，确定上述三个消失点。

示例性的，将上述投影矩阵和上述朝向角的投影矩阵相乘，根据矩阵相乘结果确定上述三个消失点，例如，如图11所示，三个消失点vp0、vp1 和vp2。

另外，在上述根据上述三个消失点、2D框和角点，确定上述3D框之前，还包括：

获取上述角点的角点编号，该角点编号用于指示上述角点相对于所述目标物体的位置。

相应的，上述根据上述三个消失点、2D框和角点，确定上述3D框，包括：

根据上述角点编号、三个消失点、2D框和角点，确定上述3D框。

示例性的，上述处理装置11可以基于上述角点编号和角点，确定上述2D框和上述3D框的对应关系，进而，结合长方体的边的平行关系，根据该对应关系、上述三个消失点和2D框，求解3D框投影的8个角点位置，例如图11中角点p0、p1、p2、p3、p4、p5、p6和p7，从而，确定上述3D框。

这里，本申请实施例将长方体的内在几何关系与上述图像获取装置的投影模型相结合，从而可以保证标注得到的伪3D框满足长方体的内在几何关系，标注精度和标注一致性更高。

本申请实施例，在确定并显示上述目标物体的3D框之前，还获取上述目标物体在3D空间的朝向角，进而，基于上述朝向角、2D框和角点，确定并显示上述目标物体的3D框，使得获得的3D框与实际更相符。而且，本申请实施例在图像层面直接对3D框进行标注，无需依赖额外的深度传感器，降低成本，该方法仅通过在包含目标物体的二维图像上标注目标物体的2D框和该2D框上的一角点，就能获得目标物体的3D框，处理过程简单，降低工作量，另外，本申请实施例获取的3D框与物体实际尺寸相差较小，解决现有基于点云数据标注获得的3D框与物体的实际尺寸相差较大的问题，从而，保证后续对神经网络的准确训练，提高神经网络的识别效果。

对应于上文实施例的3D框标注方法，图13为本申请实施例提供的一种3D框标注装置的结构示意图。为了便于说明，仅示出了与本申请实施例相关的部分。图13为本申请实施例提供的一种3D框标注装置的结构示意图，该3D框标注装置1300包括：第一获取模块1301、第二获取模块 1302以及显示模块1303。这里的3D框标注装置可以是上述处理装置11本身，或者是实现处理装置11的功能的芯片或者集成电路。这里需要说明的是，第一获取模块、第二获取模块以及显示模块的划分只是一种逻辑功能的划分，物理上两者可以是集成的，也可以是独立的。

其中，第一获取模块1301，用于获取2D框标注操作，根据所述2D框标注操作，在包含目标物体的二维图像上确定所述目标物体的2D框。

第二获取模块1302，用于获取角点标注操作，其中，所述角点位于所述2D框的一条边上，根据所述角点标注操作在所述2D框上标注所述角点；

显示模块1303，用于基于所述2D框和所述角点，确定并显示所述目标物体的3D框。

在一种可能的实现方式中，在所述显示模块1303确定并显示所述目标物体的3D框之前，还用于：

获取所述角点的角点编号，所述角点编号用于指示所述角点相对于所述目标物体的位置。

在一种可能的实现方式中，所述显示模块1303，具体用于：

基于所述角点编号、所述2D框和所述角点，确定并显示所述3D框。

获取所述目标物体在3D空间的朝向角，所述朝向角用于指示所述目标物体的朝向。

在一种可能的实现方式中，所述显示模块1303，具体用于：

基于所述朝向角、所述2D框和所述角点，确定并显示所述3D框。

在一种可能的实现方式中，所述角点位于所述2D框的底边上。

在一种可能的实现方式中，所述2D框标注操作包括框选操作、移动操作和旋转操作中至少一个。

在一种可能的实现方式中，在所述显示模块1303确定并显示所述目标物体的3D框之后，还用于：

根据所述2D框标注操作调整所述2D框。

在一种可能的实现方式中，所述角点编号是用户输入或预先配置的。

在一种可能的实现方式中，所述朝向角是用户输入或预先配置的。

本申请实施例提供的装置，可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，本申请实施例此处不再赘述。

图14为本申请实施例提供的另一种3D框标注装置的结构示意图，该3D框标注装置1400包括：第一确定模块1401、第三获取模块1402以及第二确定模块1403。这里的3D框标注装置可以是上述处理装置11本身，或者是实现处理装置11的功能的芯片或者集成电路。这里需要说明的是，第一确定模块、第三获取模块以及第二确定模块的划分只是一种逻辑功能的划分，物理上两者可以是集成的，也可以是独立的。

其中，第一确定模块1401，用于在包含目标物体的二维图像上确定所述目标物体的2D框。

第三获取模块1402，用于获取标注的角点，其中，所述角点位于所述2D框的一条边上；

第二确定模块1403，用于基于所述2D框和所述角点，确定所述目标物体的3D框。

在一种可能的实现方式中，在所述第二确定模块1403确定所述目标物体的3D框之前，还用于：

在一种可能的实现方式中，所述第二确定模块1403，具体用于：

基于所述角点编号、所述2D框和所述角点，确定所述3D框。

在一种可能的实现方式中，所述第二确定模块1403基于所述角点编号、所述2D框和所述角点，确定所述3D框，包括：

基于所述角点编号和所述角点，确定所述2D框和所述3D框的对应关系；

根据所述对应关系和所述2D框，确定所述3D框。

在一种可能的实现方式中，所述第二确定模块1403确定所述2D框和所述3D框的对应关系，包括：

获取预存的物体2D框与其3D框的角点的对应规则；

根据所述对应规则，以及所述角点编号和所述角点，确定所述对应关系。

基于所述朝向角、所述2D框和所述角点，确定所述3D框。

在一种可能的实现方式中，所述第二确定模块1403基于所述朝向角、所述2D框和所述角点，确定所述3D框，包括：

根据所述朝向角，确定所述3D框对应的三个消失点；

根据所述三个消失点、所述2D框和所述角点，确定所述3D框。

在一种可能的实现方式中，所述第二确定模块1403根据所述朝向角，确定所述3D框对应的三个消失点，包括：

获取所述二维图像对应的图像获取装置的投影矩阵；

根据所述投影矩阵和所述朝向角的投影矩阵，确定所述三个消失点。

在一种可能的实现方式中，在所述第二确定模块1403根据所述三个消失点、所述2D框和所述角点，确定所述3D框之前，还用于：

获取所述角点的角点编号，所述角点编号用于指示所述角点相对于所述目标物体的位置；

所述根据所述三个消失点、所述2D框和所述角点，确定所述3D框，包括：

根据所述角点编号、所述三个消失点、所述2D框和所述角点，确定所述3D框。

可选地，图15示意性地提供本申请所述3D框标注设备的一种可能的基本硬件架构。

参见图15，3D框标注设备1500包括至少一个处理器1501以及存储器1502。进一步可选的，还可以包括通信接口1503和总线1504。

其中，3D框标注设备1500可以是计算机或服务器，本申请对此不作特别限制。3D框标注设备1500中，处理器1501的数量可以是一个或多个，图15仅示意了其中一个处理器1501。可选地，处理器1501，可以是中央处理器(central processing unit，CPU)、图形处理器(graphics processing unit，GPU)或者数字信号处理器(digital signal processor，DSP)。如果3D框标注设备1500具有多个处理器1501，多个处理器1501的类型可以不同，或者可以相同。可选地，3D框标注设备1500的多个处理器1501还可以集成为多核处理器。

存储器1502存储计算机指令和数据；存储器1502可以存储实现本申请提供的上述3D框标注方法所需的计算机指令和数据，例如，存储器1502存储用于实现上述3D框标注方法的步骤的指令。存储器1502可以是以下存储介质的任一种或任一种组合：非易失性存储器(例如只读存储器

(ROM)、固态硬盘(SSD)、硬盘(HDD)、光盘)，易失性存储器。

通信接口1503可以为所述至少一个处理器提供信息输入/输出。也可以包括以下器件的任一种或任一种组合：网络接口(例如以太网接口)、无线网卡等具有网络接入功能的器件。

可选的，通信接口1503还可以用于3D框标注设备1500与其它计算设备或者终端进行数据通信。

进一步可选的，图15用一条粗线表示总线1504。总线1504可以将处理器1501与存储器1502和通信接口1503连接。这样，通过总线1504，处理器1501可以访问存储器1502，还可以利用通信接口1503与其它计算设备或者终端进行数据交互。

在本申请中，处理器1501执行存储器1502中的计算机指令，实现如下步骤：

基于所述2D框和所述角点，确定并显示所述目标物体的3D框。

在一种可能的实现方式中，在所述确定并显示所述目标物体的3D框之前，所述处理器1501执行所述计算机指令时还实现如下步骤：

在一种可能的实现方式中，所述确定并显示所述目标物体的3D框，包括：

在一种可能的实现方式中，在所述确定并显示所述目标物体的3D框之后，所述处理器1501执行所述计算机指令时还实现如下步骤：

根据所述2D框标注操作调整所述2D框。

另外，从逻辑功能划分来看，示例性的，如图15所示，存储器1502中可以包括第一获取模块1301、第二获取模块1302以及显示模块1303。这里的包括仅仅涉及存储器中所存储的指令被执行时可以分别实现第一获取模块1301、第二获取模块1302以及显示模块1303的功能，而不限定是物理上的结构。

上述的3D框标注设备除了可以像上述图15通过软件实现外，也可以作为硬件模块，或者作为电路单元，通过硬件实现。

可选地，图16示意性地提供本申请所述3D框标注设备的另一种可能的基本硬件架构。

参见图16，3D框标注设备1600包括至少一个处理器1601以及存储器1602。进一步可选的，还可以包括通信接口1603和总线1604。

其中，3D框标注设备1600可以是计算机或服务器，本申请对此不作特别限制。3D框标注设备1600中，处理器1601的数量可以是一个或多个，图16仅示意了其中一个处理器1601。可选地，处理器1601，可以是中央处理器(central processing unit，CPU)、图形处理器(graphics processing unit，GPU)或者数字信号处理器(digital signal processor，DSP)。如果3D框标注设备1600具有多个处理器1601，多个处理器1601的类型可以不同，或者可以相同。可选地，3D框标注设备1600的多个处理器1601还可以集成为多核处理器。

存储器1602存储计算机指令和数据；存储器1602可以存储实现本申请提供的上述并行执行单元的管理方法所需的计算机指令和数据，例如，存储器1602存储用于实现上述并行执行单元的管理方法的步骤的指令。存储器1602可以是以下存储介质的任一种或任一种组合：非易失性存储器(例如只读存储器(ROM)、固态硬盘(SSD)、硬盘(HDD)、光盘)，易失性存储器。

通信接口1603可以为所述至少一个处理器提供信息输入/输出。也可以包括以下器件的任一种或任一种组合：网络接口(例如以太网接口)、无线网卡等具有网络接入功能的器件。

可选的，通信接口1603还可以用于3D框标注设备1600与其它计算设备或者终端进行数据通信。

进一步可选的，图16用一条粗线表示总线1604。总线1604可以将处理器1601与存储器1602和通信接口1603连接。这样，通过总线1604，处理器1601可以访问存储器1602，还可以利用通信接口1603与其它计算设备或者终端进行数据交互。

在本申请中，处理器1601执行存储器1602中的计算机指令，实现如下步骤：

在包含目标物体的二维图像上确定所述目标物体的2D框；

基于所述2D框和所述角点，确定所述目标物体的3D框。

在一种可能的实现方式中，在所述确定所述目标物体的3D框之前，所述处理器1601执行所述计算机指令时还实现如下步骤：

在一种可能的实现方式中，所述确定所述目标物体的3D框，包括：

基于所述角点编号、所述2D框和所述角点，确定所述3D框。

在一种可能的实现方式中，所述基于所述角点编号、所述2D框和所述角点，确定所述3D框，包括：

根据所述对应关系和所述2D框，确定所述3D框。

在一种可能的实现方式中，所述确定所述2D框和所述3D框的对应关系，包括：

获取预存的物体2D框与其3D框的角点的对应规则；

基于所述朝向角、所述2D框和所述角点，确定所述3D框。

在一种可能的实现方式中，所述基于所述朝向角、所述2D框和所述角点，确定所述3D框，包括：

根据所述朝向角，确定所述3D框对应的三个消失点；

根据所述三个消失点、所述2D框和所述角点，确定所述3D框。

在一种可能的实现方式中，所述根据所述朝向角，确定所述3D框对应的三个消失点，包括：

获取所述二维图像对应的图像获取装置的投影矩阵；

在一种可能的实现方式中，在所述根据所述三个消失点、所述2D框和所述角点，确定所述3D框之前，所述处理器1601执行所述计算机指令时还实现如下步骤：

另外，从逻辑功能划分来看，示例性的，如图16所示，存储器1602中可以包括第一确定模块1401、第三获取模块1402以及第二确定模块1403。这里的包括仅仅涉及存储器中所存储的指令被执行时可以分别实现第一确定模块1401、第三获取模块1402以及第二确定模块1403的功能，而不限定是物理上的结构。

上述的3D框标注设备除了可以像上述图16通过软件实现外，也可以作为硬件模块，或者作为电路单元，通过硬件实现。

另外，本申请实施例提供一种神经网络训练方法，包括：利用如上上述的3D框标注方法确定的目标物体的3D框，以及包含上述目标物体的二维图像，进行神经网络的训练。

本申请提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得所述计算机执行上述3D框标注方法。

本申请提供一种计算机程序产品，其特征在于，所述计算机程序产品包括指令，当其在计算机上运行时，使得所述计算机执行上述3D框标注方法。

本申请提供一种可移动平台，所述可移动平台可以为智能设备或者运输工具，例如无人机、无人车或者机器人等，其上包含上述3D框标注设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

Claims

一种3D框标注方法，其特征在于，包括：

获取2D框标注操作，根据所述2D框标注操作，在包含目标物体的二维图像上确定所述目标物体的2D框；

获取角点标注操作，其中，所述角点位于所述2D框的一条边上，根据所述角点标注操作在所述2D框上标注所述角点；

基于所述2D框和所述角点，确定并显示所述目标物体的3D框。
根据权利要求1所述的方法，其特征在于，在所述确定并显示所述目标物体的3D框之前，还包括：

获取所述角点的角点编号，所述角点编号用于指示所述角点相对于所述目标物体的位置。
根据权利要求2所述的方法，其特征在于，所述确定并显示所述目标物体的3D框，包括：

基于所述角点编号、所述2D框和所述角点，确定并显示所述3D框。
根据权利要求1所述的方法，其特征在于，在所述确定并显示所述目标物体的3D框之前，还包括：

获取所述目标物体在3D空间的朝向角，所述朝向角用于指示所述目标物体的朝向。
根据权利要求4所述的方法，其特征在于，所述确定并显示所述目标物体的3D框，包括：

基于所述朝向角、所述2D框和所述角点，确定并显示所述3D框。
根据权利要求1至5任一项所述的方法，其特征在于，所述角点位于所述2D框的底边上。
根据权利要求1至6中任一项所述的方法，其特征在于，所述2D框标注操作包括框选操作、移动操作和旋转操作中至少一个。
根据权利要求7所述的方法，其特征在于，在所述确定并显示所述目标物体的3D框之后，还包括：

根据所述2D框标注操作调整所述2D框。
根据权利要求2或3所述的方法，其特征在于，所述角点编号是用户输入或预先配置的。
根据权利要求4或5所述的方法，其特征在于，所述朝向角是用户输入或预先配置的。
一种3D框标注方法，其特征在于，包括：

在包含目标物体的二维图像上确定所述目标物体的2D框；

获取标注的角点，其中，所述角点位于所述2D框的一条边上；

基于所述2D框和所述角点，确定所述目标物体的3D框。
根据权利要求11所述的方法，其特征在于，在所述确定所述目标物体的3D框之前，还包括：

获取所述角点的角点编号，所述角点编号用于指示所述角点相对于所述目标物体的位置。
根据权利要求12所述的方法，其特征在于，所述确定所述目标物体的3D框，包括：

基于所述角点编号、所述2D框和所述角点，确定所述3D框。
根据权利要求13所述的方法，其特征在于，所述基于所述角点编号、所述2D框和所述角点，确定所述3D框，包括：

基于所述角点编号和所述角点，确定所述2D框和所述3D框的对应关系；

根据所述对应关系和所述2D框，确定所述3D框。
根据权利要求14所述的方法，其特征在于，所述确定所述2D框和所述3D框的对应关系，包括：

获取预存的物体2D框与其3D框的角点的对应规则；

根据所述对应规则，以及所述角点编号和所述角点，确定所述对应关系。
根据权利要求11所述的方法，其特征在于，在所述确定所述目标物体的3D框之前，还包括：

获取所述目标物体在3D空间的朝向角，所述朝向角用于指示所述目标物体的朝向。
根据权利要求16所述的方法，其特征在于，所述确定所述目标物体的3D框，包括：

基于所述朝向角、所述2D框和所述角点，确定所述3D框。
根据权利要求17所述的方法，其特征在于，所述基于所述朝向角、所述2D框和所述角点，确定所述3D框，包括：

根据所述朝向角，确定所述3D框对应的三个消失点；

根据所述三个消失点、所述2D框和所述角点，确定所述3D框。
根据权利要求18所述的方法，其特征在于，所述根据所述朝向角，确定所述3D框对应的三个消失点，包括：

获取所述二维图像对应的图像获取装置的投影矩阵；

根据所述投影矩阵和所述朝向角的投影矩阵，确定所述三个消失点。
根据权利要求18或19所述的方法，其特征在于，在所述根据所述三个消失点、所述2D框和所述角点，确定所述3D框之前，还包括：

获取所述角点的角点编号，所述角点编号用于指示所述角点相对于所述目标物体的位置；

所述根据所述三个消失点、所述2D框和所述角点，确定所述3D框，包括：

根据所述角点编号、所述三个消失点、所述2D框和所述角点，确定所述3D框。
根据权利要求11至20中任一项所述的方法，其特征在于，所述角点位于所述2D框的底边上。
根据权利要求12至15中任一项所述的方法，其特征在于，所述角点编号是用户输入或预先配置的。
根据权利要求16至20中任一项所述的方法，其特征在于，所述朝向角是用户输入或预先配置的。
一种3D框标注设备，其特征在于，包括存储器、处理器，以及存储在所述存储器中并可在所述处理器上运行的计算机指令，所述处理器执行所述计算机指令时实现如下步骤：

获取2D框标注操作，根据所述2D框标注操作，在包含目标物体的二维图像上确定所述目标物体的2D框；

获取角点标注操作，其中，所述角点位于所述2D框的一条边上，根据所述角点标注操作在所述2D框上标注所述角点；

基于所述2D框和所述角点，确定并显示所述目标物体的3D框。
根据权利要求24所述的设备，其特征在于，在所述确定并显示所述目标物体的3D框之前，所述处理器执行所述计算机指令时还实现如下步骤：

获取所述角点的角点编号，所述角点编号用于指示所述角点相对于所述目标物体的位置。
根据权利要求25所述的设备，其特征在于，所述确定并显示所述目标物体的3D框，包括：

基于所述角点编号、所述2D框和所述角点，确定并显示所述3D框。
根据权利要求24所述的设备，其特征在于，在所述确定并显示所述目标物体的3D框之前，所述处理器执行所述计算机指令时还实现如下步骤：

获取所述目标物体在3D空间的朝向角，所述朝向角用于指示所述目标物体的朝向。
根据权利要求27所述的设备，其特征在于，所述确定并显示所述目标物体的3D框，包括：

基于所述朝向角、所述2D框和所述角点，确定并显示所述3D框。
根据权利要求24至28中任一项所述的设备，其特征在于，所述角点位于所述2D框的底边上。
根据权利要求24至29中任一项所述的设备，其特征在于，所述2D框标注操作包括框选操作、移动操作和旋转操作中至少一个。
根据权利要求30所述的设备，其特征在于，在所述确定并显示所述目标物体的3D框之后，所述处理器执行所述计算机指令时还实现如下步骤：

根据所述2D框标注操作调整所述2D框。
根据权利要求25或26所述的设备，其特征在于，所述角点编号是用户输入或预先配置的。
根据权利要求27或28所述的设备，其特征在于，所述朝向角是用户输入或预先配置的。
一种3D框标注设备，其特征在于，包括存储器、处理器，以及存储在所述存储器中并可在所述处理器上运行的计算机指令，所述处理器执行所述计算机指令时实现如下步骤：

在包含目标物体的二维图像上确定所述目标物体的2D框；

获取标注的角点，其中，所述角点位于所述2D框的一条边上；

基于所述2D框和所述角点，确定所述目标物体的3D框。
根据权利要求34所述的设备，其特征在于，在所述确定所述目标物体的3D框之前，所述处理器执行所述计算机指令时还实现如下步骤：

获取所述角点的角点编号，所述角点编号用于指示所述角点相对于所述目标物体的位置。
根据权利要求35所述的设备，其特征在于，所述确定所述目标物体的3D框，包括：

基于所述角点编号、所述2D框和所述角点，确定所述3D框。
根据权利要求36所述的设备，其特征在于，所述基于所述角点编号、所述2D框和所述角点，确定所述3D框，包括：

基于所述角点编号和所述角点，确定所述2D框和所述3D框的对应关系；

根据所述对应关系和所述2D框，确定所述3D框。
根据权利要求37所述的设备，其特征在于，所述确定所述2D框和所述3D框的对应关系，包括：

获取预存的物体2D框与其3D框的角点的对应规则；

根据所述对应规则，以及所述角点编号和所述角点，确定所述对应关系。
根据权利要求34所述的设备，其特征在于，在所述确定所述目标物体的3D框之前，所述处理器执行所述计算机指令时还实现如下步骤：

获取所述目标物体在3D空间的朝向角，所述朝向角用于指示所述目标物体的朝向。
根据权利要求39所述的设备，其特征在于，所述确定所述目标物体的3D框，包括：

基于所述朝向角、所述2D框和所述角点，确定所述3D框。
根据权利要求40所述的设备，其特征在于，所述基于所述朝向角、所述2D框和所述角点，确定所述3D框，包括：

根据所述朝向角，确定所述3D框对应的三个消失点；

根据所述三个消失点、所述2D框和所述角点，确定所述3D框。
根据权利要求41所述的设备，其特征在于，所述根据所述朝向角，确定所述3D框对应的三个消失点，包括：

获取所述二维图像对应的图像获取装置的投影矩阵；

根据所述投影矩阵和所述朝向角的投影矩阵，确定所述三个消失点。
根据权利要求41或42所述的设备，其特征在于，在所述根据所述三个消失点、所述2D框和所述角点，确定所述3D框之前，所述处理器执行所述计算机指令时还实现如下步骤：

获取所述角点的角点编号，所述角点编号用于指示所述角点相对于所述目标物体的位置；

所述根据所述三个消失点、所述2D框和所述角点，确定所述3D框，包括：

根据所述角点编号、所述三个消失点、所述2D框和所述角点，确定所述3D框。
根据权利要求34至43中任一项所述的设备，其特征在于，所述角点位于所述2D框的底边上。
根据权利要求35至38中任一项所述的设备，其特征在于，所述角点编号是用户输入或预先配置的。
根据权利要求39至43中任一项所述的设备，其特征在于，所述朝向角是用户输入或预先配置的。
一种神经网络训练方法，其特征在于，包括：

利用权利要求1至10任一项所述的3D框标注方法确定的目标物体的3D框，以及包含所述目标物体的二维图像，进行神经网络的训练。
一种神经网络训练方法，其特征在于，包括：

利用权利要求11至23任一项所述的3D框标注方法确定的目标物体的3D框，以及包含所述目标物体的二维图像，进行神经网络的训练。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机指令，当处理器执行所述计算机指令时，实现如权利要求1至10任一项所述的3D框标注方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机指令，当处理器执行所述计算机指令时，实现如权利要求11至23任一项所述的3D框标注方法。