WO2020258286A1

WO2020258286A1 - 图像处理方法、装置、拍摄装置和可移动平台

Info

Publication number: WO2020258286A1
Application number: PCT/CN2019/093835
Authority: WO
Inventors: 王涛; 李思晋; 刘政哲; 李然
Original assignee: 深圳市大疆创新科技有限公司
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2020-12-30
Also published as: CN111837158A

Abstract

一种图像处理方法、装置、拍摄装置和可移动平台，所述方法包括：获取目标场景的双目图像；根据所述双目图像，确定所述目标场景的深度信息；根据所述深度信息以及所述双目图像中的一个单目图像的语义分割图，获得所述目标场景中各目标的语义信息和位置信息。本发明在进行目标识别时，结合了目标场景的深度信息与目标场景的单目图像的语义分割图，能够更精确的获取目标场景中各目标的语义信息和位置信息，实现了对目标场景中距离缺失、纹理相近的类别的区分，为构建精确实用的语义地图提供了支撑；本发明的目标识别方法尤其适用于背景较为复杂的目标场景。

Description

图像处理方法、装置、拍摄装置和可移动平台

技术领域

本发明涉及图像处理领域，尤其涉及一种图像处理方法、装置、拍摄装置和可移动平台。

背景技术

相关技术中，在进行场景中的目标进行识别时，对针对该场景拍摄的单张图像进行语义分割，获得该语义分割图，根据语义分割图识别目标。上述目标识别方式难以对场景特别是背景较为复杂的场景中距离缺失、纹理相近的类别进行区分，如草丛和地面的区分以及前后车辆的区分，通过上述目标识别方式很难实现。

发明内容

本发明提供一种图像处理方法、装置、拍摄装置和可移动平台。

具体地，本发明是通过如下技术方案实现的：

根据本发明的第一方面，提供一种图像处理方法，所述方法包括：

获取目标场景的双目图像；

根据所述双目图像，确定所述目标场景的深度信息；

根据所述深度信息以及所述双目图像中的一个单目图像的语义分割图，获得所述目标场景中各目标的语义信息和位置信息。

根据本发明的第二方面，提供一种图像处理装置，所述装置包括：

存储装置，用于存储程序指令；

一个或多个处理器，调用所述存储装置中存储的程序指令，当所述程序指令被执行时，所述一个或多个处理器单独地或共同地被配置成用于：

获取目标场景的双目图像；

根据所述双目图像，确定所述目标场景的深度信息；

根据本发明的第三方面，提供一种拍摄装置，所述拍摄装置包括：

图像采集模块，用于采集目标场景的双目图像；

存储装置，用于存储程序指令；

获取所述图像采集模块采集的目标场景的双目图像；

根据所述双目图像，确定所述目标场景的深度信息；

根据本发明的第四方面，提供一种可移动平台，所述可移动平台包括：

图像采集模块，用于采集目标场景的双目图像；

存储装置，用于存储程序指令；

获取所述图像采集模块采集的目标场景的双目图像；

根据所述双目图像，确定所述目标场景的深度信息；

由以上本发明实施例提供的技术方案可见，本发明在进行目标识别时，结合了目标场景的深度信息与目标场景的单目图像的语义分割图，能够更精确的获取目标场景中各目标的语义信息和位置信息，实现了对目标场景中距离缺失、纹理相近的类别的区分，为构建精确实用的语义地图提供了支撑；本发明的目标识别方法尤其适用于背景较为复杂的目标场景。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中的一种图像处理方法的方法流程图；

图2a是本发明一实施例中的一目标场景的双目图像中的一个单目图像；

图2b为图2a所示目标场景的深度信息的表征示意图；

图2c是本发明一实施例中的一种根据双目图像，确定目标场景的深度信息的一种具体实现方式的流程图；

图3是本发明一实施例中的一种根据深度信息以及双目图像中的一个单目图像的语义分割图，获得目标场景中各目标的语义信息和位置信息的一种具体实现方式的流程图；

图4a是本发明一实施例中的图像处理方法的应用场景示意图；

图4b是图4a场景的深度图和双目图像的示意图；

图5a是本发明一实施例中的图像处理方法的另一应用场景示意图；

图5b是图5a场景的深度图和双目图像的示意图；

图6a是本发明一实施例中的图像处理方法的又一应用场景示意图；

图6b是图6a场景的深度图和双目图像的示意图；

图7是本发明一实施例中的一种根据深度信息以及双目图像中的一个单目图像的语义分割图，获得目标场景中各目标的语义信息和位置信息的另一种具体实现方式的流程图；

图8是本发明一实施例中的一种图像处理方法的一具体的方法流程图；

图9是本发明一实施例中的一种图像处理装置的结构框图；

图10是本发明一实施例中的一种拍摄装置的结构框图；

图11是本发明一实施例中的一种可移动平台的结构示意图。

具体实施方式

传统目标识别方式难以对场景中距离缺失、纹理相近的类别进行区分，如场景中的草丛和地面、前后车辆、相邻墙壁等类别。

本发明在进行目标识别时，结合了目标场景的深度信息与目标场景的单目图像的语义分割图，能够更精确的获取目标场景中各目标的语义信息和位置信息，实现了对目标场景中距离缺失、纹理相近的类别的区分。

本发明可以为可移动平台视角下的场景提供像素级语义识别，构建语义图提供关键策略语义类别支持，例如可行驶区域、人、车等信息。双目图像中的单幅单目图像由于缺乏距离信息、颜色信息，语义分割的结果较差，对于一些难以分辨的类别，例如草丛和地面、以及前后车辆等，对于此，本发明依赖于双目图像，在进行目标识别时，结合了目标场景的深度信息与目标场景的单目图像的语义分割图，能够更精确的获取可移动平台视角下的场景中各目标的语义信息和位置信息，实现了对可移动平台视角下的场景中距离缺失、纹理相近的类别的区分，为可移动平台的其他智能功能提供支持。

本发明的可移动平台具备拍摄功能，该可移动平台可以为车辆、无人飞行器、手持云台、无人船等。其中，车辆可以为无人驾驶车辆、遥控车等，无人飞行器可以为航拍无人机或其他具有拍摄功能的无人飞行器。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，下述的实施例及实施方式中的特征可以相互组合。

图1是本发明一实施例中的一种图像处理方法的方法流程图；参见图1，本发明实施例的图像处理方法可以包括如下步骤：

S101：获取目标场景的双目图像；

双目图像的获取方式可根据需要选择，例如，在某些实施例中，采用双目拍摄像头进行拍摄，获取目标场景的双目图像。上述双目摄像头可以为双目相机的摄像头，该双目相机搭载在可移动平台上使用，也可以直接使用；当然，也可将上述双目摄像头集成在可移动平台上。

在某些实施例中，采用单目摄像头在不同的位置进行拍摄，获取目标场景的双目图像。其中，不同位置与双目拍摄像头的拍摄位置相对应。本实施例的单目摄像头可以为单目相机的摄像头，该单目相机可以搭载在可移动平台上使用，也可以直接使用；当然，也可以将上述单目摄像头集成在可移动平台上。

其中，对于同一目标场景的双目图像，可以获取该目标场景的一组或多组双目图像，一组双目图像包括两幅单目图像，即左目图像和右目图像。

S102：根据双目图像，确定目标场景的深度信息；

其中，深度信息可以包括：目标场景中的各目标在预设坐标系下的相对距离信息。可选的，深度信息包括：目标场景中的各目标相对拍摄目标场景的拍摄装置的距离信息，如各目标相对镜头的距离，或各目标相对拍摄装置的其他位置的距离。上述预设坐标系可以为世界坐标系，也可以为自定义坐标系。可以理解地，在其他实施例中，也可以采用绝对距离信息来表示深度信息。

深度信息可以采用特征图方式呈现，也可以采用数据方式呈现。图2a为一目标场景的双目图像中的一个单目图像；图2b为图2a所示目标场景的深度信息，本实施例采用特征图方式来呈现目标场景的深度信息。

相关技术中，利用三角形相似原理确定深度信息，该方式计算过程较为复杂，使用时间较长。为减小确定深度信息的时间，本实施例中，采用深度学习方式确定深度信息，如图2c所示，为根据双目图像，确定目标场景的深度信息的一种具体实现方式。参见图2c，在根据双目图像，确定目标场景的深度信息时，将双目图像的图像信息输入预先训练的第一卷积神经网络中，确定目标场景的深度信息。其中，图像信息包括对应单目图像的各通道的颜色信息，如RGB分量；另外，本实施例中，将一组或多组双目图像的图像信息输入第一卷积神经网络中，确定目标场景的深度信息。并且，最终确定的深度信息可以通过一幅特征图表现，该特征图的长度和宽度与双目图像中的单目图像的长度和宽度相同。

第一卷积神经网络的网络结构可根据需要设计，例如，在一个可行的实现方式中，第一卷积神经网络可以包括多个依次连接的第一网络单元，第一网络单元用于对各自的输入进行特征提取；可选的，第一卷积神经网络包括三个依次连接的第一网络单元，首个第一网络单元的输入为双目图像的图像信息，中间的第一网络单元的输入为第一网络单元的输出，最后一个第一网络单元的输入为中间的第一网络单元的输出；可选的，将首个第一网络单元的输出和中间的第一网络单元的输出共同作为最后一个第一网络单元的输入，以加深第一卷积神经网络的网络的深度。

本实施例的第一网络单元可以包括卷积层、批量标准化层和非线性激活层中的至少一个，其中，卷积层、批量标准化层和非线性激活层均选择常规操作，本实施例对此不作具体说明。当然，第一网络单元也可以包括其他网络层，不限于卷积层、批量标准化层和/或非线性激活层。

此外，请再次参见图2c，在某些实施例中，在根据双目图像，确定目标场景的深度信息之前，所述图像处理方法还可以包括：对双目图像进行预处理，使得构成双目图像的两幅单目图像尺寸一致，使得上述两幅单目图像上对应的像点匹配；在某些实施例中，在根据双目图像，确定目标场景的深度信息之前，所述图像处理方法还可以包括：通过双目校正来消除双目图像的两幅单目图像的畸变。通过上述预处理，提高双目图像的匹配度，从而提高深度信息的精度。

S103：根据深度信息以及双目图像中的一个单目图像的语义分割图，获得目标场景中各目标的语义信息和位置信息。

同时结合目标场景的深度信息与目标场景的单目图像的语义分割图进行目标识别，获得更加精确的目标场景中各目标的语义信息和位置信息的精度，实现了对目标场景中距离缺失、纹理相近的类别的区分。

本实施例中，语义信息至少包括用于表示目标所在的类别的信息，如目标为车辆、行人、道路或天空等表示目标所在的类别的信息。

步骤S103的实现方式可以包括多种，可选的，参见图3，在某些实施例中，根据深度信息以及双目图像中的一个单目图像的语义分割图，获得目标场景中各目标的语义信息和位置信息的实现过程可以包括但不限于如下步骤：

S301：对双目图像中的一个单目图像进行语义分割，获得单目图像的语义分割图；

该单目图像可以为左目图像，也可以为右目图像；由于双目图像获取时，通常以左目图像作为拍摄时的基准，故本实施例选择对左目图像进行语义分割，获得上述左目图像的语义分割图。

可以采用现有语义分割算法来实现步骤S301，本实施例中，将双目图像中的一个单目图像输入第二卷积神经网络，由第二卷积神经网络根据预设的目标分类规则以及单目图像的图像信息，确定单目图像的语义分割图，对于第二卷积神经网络，请参见后续描述。

S302：根据深度信息和语义分割图，确定目标场景中各目标的语义信息和位置信息。

其中，根据深度信息和语义分割图，确定目标场景中各目标的语义信息和位置信息的实现过程可以包括但不限于如下步骤：

(1)根据深度信息以及语义分割图中各目标的初始语义信息，对语义分割图中目标类别相同或相近的、位置相邻的多个目标进行区分；

对于语义分割图中目标类别相同或相近的、位置相邻的多个目标，初始语义信息可能将这些目标识别成同一个目标，导致目标识别不准确。该步骤中的多个目标可以为目标场景中的草丛和地面、前后车辆、相邻墙壁等，也可以为其他目标类别相同或相近的、位置相邻的多个目标。

(2)获得多个目标的语义信息和边界信息。

当然，根据深度信息和语义分割图，确定目标场景中各目标的位置信息也可以为对应目标的其他位置信息，不限于边界信息。

下述实施例中，基于深度图表示上述深度信息。

本实施例提供的图像处理方法，可应用于对于存在遮挡的图像进行语义分割，如图4a所示的俯视图，当车A和车B处于如图所示的位置时，双目相机(包括摄像头a和摄像头b)从箭头方向的观察视角看，车A被车B遮挡了一部分，双目相机沿观察视角拍摄后，可得到如图4b下图所示的单目图像a(由摄像头a采集)和单目图像b(摄像头b采集)，根据单目图像a和单目图像b，可得到如图4b上图所示的深度图(其中不同的填充图案表示不同的深度)，通过将深度图与单目图像a的语义分割图中各目标的初始语义信息结合，或通过将深度图与单目图像b的语义分割图中各目标的初始语义信息结合，即可分辨出前方为距离不同的两辆车，也可进一步分辨出车辆的类型(也即目标类别)。

当然本实施例也可分辨出更复杂的遮挡的情况，如图5a所示的俯视图，双目相机从箭头方向的观察视角看，车C遮挡了部分车B和车A，车B遮挡了部分车A，双目相机沿观察视角拍摄后，可得到如图5b下图所示的单目图像a(由摄像头a采集)和单目图像b(摄像头b采集)，根据单目图像a和单目图像b，可得到图5b上图所示的深度图，通过将深度图与单目图像a的语义分割图中各目标的初始语义信息结合，或通过将深度图与单目图像b的语义分割图中各目标的初始语义信息结合，即可分辨出前方不同的遮挡关系，也可进一步分辨出车辆的类型(也即目标类别)。

本实施例提供的图像处理方法，也可应用于对于存在纹理相近物体的图像进行语义分割，例如如图6a所示的俯视图，双目相机前方为存在转角的墙面，墙面D相对于墙面E更靠近双目相机，且墙面D和墙面E具有相近的纹理，双目相机沿观察视角拍摄后，可得到如图6b下图所示的单目图像a(由摄像头a采集)和单目图像b(摄像头b采集)，根据单目图像a和单目图像b，可得到图6b上图所示的深度图，通过将深度图与单目图像a的语义分割图中各目标的初始语义信息结合，或通过将深度图与单目图像b的语义分割图中各目标的初始语义信息结合，即可分辨出墙面D与墙面E的前后关系，也可进一步分辨出边界信息为存在转角的墙面。

参见图7，在某些实施例中，根据深度信息以及双目图像中的一个单目图像的语义分割图，获得目标场景中各目标的语义信息和位置信息的实现过程可以包括但不限于如下步骤：

S701：将深度信息和双目图像中的一个单目图像的图像信息输入预先训练的第二卷积神经网络中，获得目标场景中各目标的语义信息和位置信息；

其中，第二卷积神经网络用于根据预设的目标分类规则以及单目图像的图像信息，确定单目图像的语义分割图；并基于深度信息和语义分割图获得目标场景中各目标的语义信息和位置信息。

本实施例中，为更精确地实现目标分类，训练第二卷积神经网络所使用的图像训练集包括多个目标类别的图像训练集，每个类别的图像训练集包括至少一个子类别图像训练集；可选的，目标类别包括如下至少两种：车辆、天空、道路、静态障碍物和动态障碍物；当然，目标类别不限于上述列举的类别，还可以设置成其他类别。此外，车辆的子类别具体可分为轿车、卡车、公交、火车、房车等，静态障碍物的子类别具体可分为建筑物、墙、护栏、电线杆、交通灯、交通标志等，动态障碍物的子类别可包括行人、自行车、摩托车等。

本实施例的目标分类规则与目标类别相对应，也即，第二卷积神经网络能够识别出单目图像中属于上述目标类别的目标。

第二卷积神经网络的网络结构可根据需要设计，例如，在一个可行的实现方式中，第二卷积神经网络包括多个依次连接的第二网络单元，第二网络单元用于对各自的输入进行目标分类；可选的，第二卷积神经网络包括三个依次连接的第二网络单元，首个第二网络单元的输入深度信息和双目图像中的一个单目图像的图像信息，中间的第二网络单元的输入为第一网络单元的输出，最后一个第二网络单元的输入为中间的第二网络单元的输出；可选的，将首个第二网络单元的输出和中间的第二网络单元的输出共同作为最后一个第二网络单元的输入，以加深第二卷积神经网络的网络的深度。

本实施例的第二网络层包括卷积层、批量标准化层和非线性激活层中的至少一个，其中，卷积层、批量标准化层和非线性激活层均选择常规操作，本实施例对此不作具体说明。当然，第二网络单元也可以包括其他网络层，不限于卷积层、批量标准化层和/或非线性激活层。

此外，步骤S701中的位置信息可以为目标场景中各目标的边界信息，也可以为目标场景中各目标的其他位置信息。

在某些实施例中，步骤S301和步骤S302均在上述第二卷积神经网络中实现。

参见图8，在某些实施例中，将双目图像预处理后的图像信息输入第一卷积神经网络，确定目标场景的深度信息；再将目标场景的深度信息和双目图像中的一幅单目图像的图像信息输入第二卷积神经网络，获得目标场景中各目标的语义信息和位置信息。

可选的，在一些实施例中，语义信息可以包括：识别结果和对应的识别置信度。其中，识别结果用于表示目标所在的类别的信息，识别置信度用于表示该识别结果的准确性，通过置信度可以去除误识别的目标，提高目标识别的准确度。

进一步地，参见图8，在一些实施例中，获得目标场景中各目标的语义信息和位置信息之后，所述图像处理方法还可以包括：根据识别结果、对应的识别置信度以及位置信息，生成目标场景的语义图，从而基于语义图直观呈现目标识别结果。其中，根据识别结果、对应的识别置信度以及位置信息，生成目标场景的语义图的实现过程可以包括但不限于如下步骤：

(1)、根据识别结果以及位置信息，确定语义分割图中识别结果对应的目标；

可根据识别结果以及位置信息，在语义分割图中显示识别结果对应的目标的轮廓。

(3)、若识别结果对应的识别置信度大于预设置信度阈值，则在语义分割图中将识别结果对应的目标标注为预设的识别结果所在目标类别的标注。

标注后的语义分割图即为目标场景的语义图，本实施例通过标注，将目标识别结果所在的目标类别直观呈现在语义分割图中。

本实施例中，各目标类别的标注预先设定，目标类别的标注可以通过颜色、图案等来表示，其中，不同目标类别对应的标注不同。可选的，不同目标类别对应的颜色不同，例如，天空对应的颜色为蓝色，地面对应的颜色为褐色，草丛对应的颜色为绿色等；可选的，同一目标类别下的不同子类别对应的颜色为同一颜色，但同一目标类别下的不同子类别对应的颜色具有不同的深度。

此外，若识别结果对应的识别置信度小于或等于预设置信度阈值，则确定该识别结果存在误识别的可能，而对于存在误识别的目标，可直接忽略该目标的目标类别信息，以避免对语义分割结果造成影响。

对应于上述实施例的图像处理方法，本发明实施例还提供一种图像处理装置，参见图9，所述图像处理装置100包括：第一存储装置110和一个或多个第一处理器120。

其中，第一存储装置110，用于存储程序指令；一个或多个第一处理器120，调用第一存储装置110中存储的程序指令，当程序指令被执行时，一个或多个第一处理器120单独地或共同地被配置成用于：获取目标场景的双目图像；根据双目图像，确定目标场景的深度信息；根据深度信息以及双目图像中的一个单目图像的语义分割图，获得目标场景中各目标的语义信息和位置信息。

第一处理器120可以实现如本发明图1、图2c、图3、图7以及图8所示实施例的图像处理方法，可参见上述实施例的图像处理方法对本实施例的图像处理装置100进行说明。

需要说明的是，本实施例的图像处理装置100可以为电脑等具备图像处理能力的设备，也可以为带有摄像功能的拍摄装置，如照相机，摄像机，智能手机，智能终端，拍摄稳定器，无人飞行器等等。

对应于上述实施例的图像处理方法，本发明实施例还提供一种拍摄装置，参见图10，该拍摄装置200包括：第一图像采集模块210、第二存储装置220和一个或多个第二处理器230。

其中，第一图像采集模块210，用于采集目标场景的双目图像；第二存储装置220，用于存储程序指令；一个或多个第二处理器230，调用第二存储装置220中存储的程序指令，当程序指令被执行时，一个或多个第二处理器230单独地或共同地被配置成用于：获取第一图像采集模块210采集的目标场景的双目图像；根据双目图像，确定目标场景的深度信息；根据深度信息以及双目图像中的一个单目图像的语义分割图，获得目标场景中各目标的语义信息和位置信息。

可选的，第一图像采集模块210包括镜头和与镜头相配合的成像传感器，如CCD、CMOS等图像传感器。

第二处理器230可以实现如本发明图1、图2c、图3、图7以及图8所示实施例的图像处理方法，可参见上述实施例的图像处理方法对本实施例的拍摄装置200进行说明。

该拍摄装置200可为带有摄像功能的照相机，摄像机，智能手机，智能终端，拍摄稳定器(如手持云台)，无人飞行器(如无人机)等等。

本发明实施例提供一种可移动平台，参见图11，所述可移动平台300包括：第二图像采集模块310、第三存储装置320和一个或多个第三处理器330。

其中，第二图像采集模块310，用于采集目标场景的双目图像；第三存储装置320，用于存储程序指令；一个或多个第三处理器330，调用第三存储装置320中存储的程序指令，当程序指令被执行时，一个或多个第三处理器330单独地或共同地被配置成用于：获取第二图像采集模块310采集的目标场景的双目图像；根据双目图像，确定目标场景的深度信息；根据深度信息以及双目图像中的一个单目图像的语义分割图，获得目标场景中各目标的语义信息和位置信息。

本实施例的第二图像采集模块310可以为相机，也可以为镜头和成像传感器(如CCD、CMOS等)组合形成的具有拍摄功能的结构。

第三处理器330可以实现如本发明图1、图2c、图3、图7以及图8所示实施例的图像处理方法，可参见上述实施例的图像处理方法对本实施例的可移动平台300进行说明。

在一可行的实现方式中，所述可移动平台300为无人机，可以理解地，该无人机为航拍无人机，其他不具有摄像功能的无人机不属于本实施例的保护主体。所述无人机可为多旋翼无人机，也可为固定翼无人机，本发明实施例对无人机的类型不作具体限定。进一步的，所述第二图像采集模块310可通过云台(未标出)搭载在机身(未标出)，通过云台对第二图像采集模块310进行增稳，其中，该云台可为两轴云台，也可为三轴云台，本发明实施例对此不作具体限定。

上述存储装置可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储装置也可以包括非易失性存储器(non-volatile memory)，例如快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；存储装置110还可以包括上述种类的存储器的组合。

上述处理器可以是中央处理器(central processing unit，CPU)。该处理器还可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(application-specific integrated circuit，ASIC)、现场可编程逻辑门阵列(field-programmable gate array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

此外，本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述实施例的图像处理方法的步骤。

所述计算机可读存储介质可以是前述任一实施例所述的云台的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是云台的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括云台的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述云台所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本发明部分实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

一种图像处理方法，其特征在于，所述方法包括：

获取目标场景的双目图像；

根据所述双目图像，确定所述目标场景的深度信息；

根据所述深度信息以及所述双目图像中的一个单目图像的语义分割图，获得所述目标场景中各目标的语义信息和位置信息。
根据权利要求1所述的方法，其特征在于，所述深度信息包括：所述目标场景中的各目标在预设坐标系下的相对距离信息。
根据权利要求2所述的方法，其特征在于，所述深度信息包括：所述目标场景中的各目标相对拍摄所述目标场景的拍摄装置的距离信息。
根据权利要求1至3任一项所述的方法，其特征在于，所述根据所述双目图像，确定所述目标场景的深度信息，包括：

将所述双目图像的图像信息输入预先训练的第一卷积神经网络中，确定所述目标场景的深度信息。
根据权利要求4所述的方法，其特征在于，所述第一卷积神经网络包括多个依次连接的第一网络单元，所述第一网络单元用于对各自的输入进行特征提取；

所述第一网络单元包括卷积层、批量标准化层和非线性激活层中的至少一个。
根据权利要求1所述的方法，其特征在于，所述根据所述双目图像，确定所述目标场景的深度信息之前，还包括：

对所述双目图像进行预处理，使得构成所述双目图像的两幅单目图像尺寸一致。
根据权利要求1所述的方法，其特征在于，所述根据所述深度信息以及所述双目图像中的一个单目图像的语义分割图，获得所述目标场景中各目标的语义信息和位置信息，包括：

对所述双目图像中的一个单目图像进行语义分割，获得所述单目图像的语义分割图；

根据所述深度信息和所述语义分割图，确定所述目标场景中各目标的语义信息和位置信息。
根据权利要求7所述的方法，其特征在于，所述根据所述深度信息和所述语义分割图，确定所述目标场景中各目标的语义信息和位置信息，包括：

根据所述深度信息以及所述语义分割图中各目标的初始语义信息，对所述语义分割图中目标类别相同或相近的、位置相邻的多个目标进行区分；

获得所述多个目标的语义信息和边界信息。
根据权利要求1或7所述的方法，其特征在于，所述根据所述深度信息以及所述双目图像中的一个单目图像的语义分割图，获得所述目标场景中各目标的语义信息和位置信息，包括：

将所述深度信息和所述双目图像中的一个单目图像的图像信息输入预先训练的第二卷积神经网络中，获得所述目标场景中各目标的语义信息和位置信息；

其中，所述第二卷积神经网络用于，根据预设的目标分类规则以及所述单目图像的图像信息，确定所述单目图像的语义分割图；并基于所述深度信息和所述语义分割图获得所述目标场景中各目标的语义信息和位置信息。
根据权利要求9所述的方法，其特征在于，训练所述第二卷积神经网络所使用的图像训练集包括多个目标类别的图像训练集，每个类别的图像训练集包括至少一个子类别图像训练集；

所述目标分类规则与所述目标类别相对应。
根据权利要求10所述的方法，其特征在于，所述目标类别包括如下至少两种：

车辆、天空、道路、静态障碍物和动态障碍物。
根据权利要求9所述的方法，其特征在于，所述第二卷积神经网络包括多个依次连接的第二网络单元，所述第二网络单元用于对各自的输入进行目标分类；

所述第二网络层包括卷积层、批量标准化层和非线性激活层中的至少一个。
根据权利要求1所述的方法，其特征在于，所述语义信息包括：识别结果和对应的识别置信度。
根据权利要求13所述的方法，其特征在于，所述获得所述目标场景中各目标的语义信息和位置信息之后，还包括：

根据所述识别结果、对应的识别置信度以及所述位置信息，生成所述目标场景的语义图。
根据权利要求14所述的方法，其特征在于，所述根据所述识别结果、对应的识别置信度以及所述位置信息，生成所述目标场景的语义图，包括：

根据所述识别结果以及所述位置信息，确定所述语义分割图中所述识别结果对应的目标；

若所述识别结果对应的识别置信度大于预设置信度阈值，则在所述语义分割图中将所述识别结果对应的目标标注为预设的所述识别结果所在目标类别的标注。
一种图像处理装置，其特征在于，所述装置包括：

存储装置，用于存储程序指令；

一个或多个处理器，调用所述存储装置中存储的程序指令，当所述程序指令被执行时，所述一个或多个处理器单独地或共同地被配置成用于：

获取目标场景的双目图像；

根据所述双目图像，确定所述目标场景的深度信息；

根据所述深度信息以及所述双目图像中的一个单目图像的语义分割图，获得所述目标场景中各目标的语义信息和位置信息。
根据权利要求16所述的图像处理装置，其特征在于，所述深度信息包括：所述目标场景中的各目标在预设坐标系下的相对距离信息。
根据权利要求17所述的图像处理装置，其特征在于，所述深度信息包括：所述目标场景中的各目标相对拍摄所述目标场景的拍摄装置的距离信息。
根据权利要求16至18任一项所述的图像处理装置，其特征在于，所述一个或多个处理器单独地或共同地进一步被配置成用于：

将所述双目图像的图像信息输入预先训练的第一卷积神经网络中，确定所述目标场景的深度信息。
根据权利要求19所述的图像处理装置，其特征在于，所述第一卷积神经网络包括多个依次连接的第一网络单元，所述第一网络单元用于对各自的输入进行特征提取；

所述第一网络单元包括卷积层、批量标准化层和非线性激活层中的至少一个。
根据权利要求16所述的图像处理装置，其特征在于，所述一个或多个处理器在根据所述双目图像，确定所述目标场景的深度信息之前，还单独地或共同地进一步被配置成用于：

对所述双目图像进行预处理，使得构成所述双目图像的两幅单目图像尺寸一致。
根据权利要求16所述的图像处理装置，其特征在于，所述一个或多个处理器单独地或共同地进一步被配置成用于：

对所述双目图像中的一个单目图像进行语义分割，获得所述单目图像的语义分割图；

根据所述深度信息和所述语义分割图，确定所述目标场景中各目标的语义信息和位置信息。
根据权利要求22所述的图像处理装置，其特征在于，所述一个或多个处理器单独地或共同地进一步被配置成用于：

根据所述深度信息以及所述语义分割图中各目标的初始语义信息，对所述语义分割图中目标类别相同或相近的、位置相邻的多个目标进行区分；

获得所述多个目标的语义信息和边界信息。
根据权利要求16或22所述的图像处理装置，其特征在于，所述一个或多个处理器单独地或共同地进一步被配置成用于：

将所述深度信息和所述双目图像中的一个单目图像的图像信息输入预先训练的第二卷积神经网络中，获得所述目标场景中各目标的语义信息和位置信息；

其中，所述第二卷积神经网络用于，根据预设的目标分类规则以及所述单目图像的图像信息，确定所述单目图像的语义分割图；并基于所述深度信息和所述语义分割图获得所述目标场景中各目标的语义信息和位置信息。
根据权利要求24所述的图像处理装置，其特征在于，训练所述第二卷积神经网络所使用的图像训练集包括多个目标类别的图像训练集，每个类别的图像训练集包括至少一个子类别图像训练集；

所述目标分类规则与所述目标类别相对应。
根据权利要求25所述的图像处理装置，其特征在于，所述目标类别包括如下至少两种：

车辆、天空、道路、静态障碍物和动态障碍物。
根据权利要求24所述的图像处理装置，其特征在于，所述第二卷积神经网络包括多个依次连接的第二网络单元，所述第二网络单元用于对各自的输入进行目标分类；

所述第二网络层包括卷积层、批量标准化层和非线性激活层中的至少一个。
根据权利要求16所述的图像处理装置，其特征在于，所述语义信息包括：识别结果和对应的识别置信度。
根据权利要求28所述的图像处理装置，其特征在于，所述一个或多个处理器在获得所述目标场景中各目标的语义信息和位置信息之后，还单独地或共同地进一步被配置成用于：

根据所述识别结果、对应的识别置信度以及所述位置信息，生成所述目标场景的语义图。
根据权利要求29所述的图像处理装置，其特征在于，所述一个或多个处理器单独地或共同地进一步被配置成用于：

根据所述识别结果以及所述位置信息，确定所述语义分割图中所述识别结果对应的目标；

若所述识别结果对应的识别置信度大于预设置信度阈值，则在所述语义分割图中将所述识别结果对应的目标标注为预设的所述识别结果所在目标类别的标注。
一种拍摄装置，其特征在于，所述拍摄装置包括：

图像采集模块，用于获得目标场景的双目图像；

存储装置，用于存储程序指令；

一个或多个处理器，调用所述存储装置中存储的程序指令，当所述程序指令被执行时，所述一个或多个处理器单独地或共同地被配置成用于实施权利要求1-15之一所述的方法。
一种可移动平台，其特征在于，所述可移动平台包括：

图像采集模块，用于获得目标场景的双目图像；

存储装置，用于存储程序指令；

一个或多个处理器，调用所述存储装置中存储的程序指令，当所述程序指令被执行时，所述一个或多个处理器单独地或共同地被配置成用于实施权利要求1-15之一所述的方法。
根据权利要求32所述的可移动平台，其特征在于，所述可移动平台为无人飞行器和车辆中的至少一种。