WO2021127947A1

WO2021127947A1 - 一种图像中物体的空间维度测量方法及装置

Info

Publication number: WO2021127947A1
Application number: PCT/CN2019/127677
Authority: WO
Inventors: 邓清珊; 陈平; 马超群; 方晓鑫
Original assignee: 华为技术有限公司
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2021-07-01
Also published as: CN113302654A

Abstract

一种图像中物体的空间维度测量方法及装置，用以自动测量图形中物体的空间维度。该方法包括：对第一图像进行识别得到N个对象，将N个对象转换为N个对象的N个三维对象，每个三维对象包括一三维点云、且是该第一图像所在的三维环境空间中一物体的至少一部分，然后根据三维环境空间中的第一参考平面和N个三维对象，确定N个物体的空间维度，该N个物体中每个物体的空间维度包括如下至少一项：物体的至少一个表面到第一参考平面的距离、或物体的三维尺寸。

Description

一种图像中物体的空间维度测量方法及装置

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种图像中物体的空间维度测量方法及装置。

背景技术

目前测量物体的空间维度的方式主要有以下几种：

1)通过直尺、卷尺等传统测量工具进行手工测量。在这种方式下，如果被测物体的体积较大，则需要多人参与进行测量，过程较为复杂。且当被测物体的高度较高(例如10米)时，无法进行直接测量，需要借助梯子等工具才能完成测量。可见，这种方式的测量过程较为不便、且存在安全隐患。

2)使用红外或激光测量工具，通过从不同的角度向被测物体发送信号、接收被测物体反射的反射信号，并多次计算发送信号和反射信号所耗费的时长，可以分别计算被测物体的长宽高，以得到被测物体的空间维度。该种方式需要从不同的角度进行多次测量才能得到物体的空间维度，测量效率较低。

3)使用增强现实(augmented reality，AR)测量工具，通过AR技术建立三维环境空间的三维信息，再结合人工交互，可以得到被测物体的空间维度。例如，用户从不同角度选取被测物体的测量的起点位置和终点位置，以得到多个最小外接包围盒等。这种方式需要用户的参与方可进行，操作较为不便，同样也需要从不同的角度进行多次测量才能得到物体的空间维度，测量效率较低。

由此可知，目前在测量物体的空间维度时，通常需要用户的参与方可进行，操作较为不便，而且需要从不同角度进行多次测量才能得到物体的空间维度，测量效率较低。

发明内容

本申请实施例提供一种图像中物体的空间维度测量方法及装置，用于自动测量图像中物体的空间维度。

第一方面，本申请实施例提供一种图像中的物体的空间维度测量方法，该方法包括：对第一图像进行识别，以得到第一图像中的N个对象，N个对象中每个对象包括一像素点集合，一个像素点集合包括多个像素点，其中，N为大于或等于1的整数。再将N个对象转换为对应该N个对象的N个三维对象，每个三维对象包括一三维点云、且是该第一图像所在的三维环境空间中一物体的至少一部分。之后，根据三维环境空间中的第一参考平面和N个三维对象，确定N个物体的空间维度，该N个物体中每个物体的空间维度包括如下至少一项：物体的至少一个表面到第一参考平面的距离、或物体的三维尺寸，其中，至少一个表面与所述第一参考平面平行。

相较于现有技术中通常需要用户的参与才能完成对物体的测量的方式，本申请实施例提供的方案可以对第一图像识别得到的N个对象转换为该N个对象对应的N个三维对象，每个三维对象包括一三维点云、且是该第一图像所在的三维环境空间中一物体的至少一部分，然后以第一参考平面为参考可以确定出N个三维对象的空间维度，进而得到N个物体的空间维度。在本申请实施例提供的方案中可自动测量出物体的空间维度，无需用户参与能够完成一些用户难以完成的测量任务，可适用于各种测量环境。例如，可以测量天花板距离地面的高度，再例如，可以测量一个体积较大的物体的长宽高。并且相较于现有技术中需要从不同角度进行多次测量的方法，本申请提供的方案可确定出图像中物体的空间维度，操作便捷，可以提高测量效率。

在一种可能的设计中，N个对象包括第一对象，第一对象对应于包括第一三维点云的第一三维对象，该第一三维对象是所述三维环境空间中的第一物体；所述根据所述三维环境空间中的第一参考平面和所述N个三维对象，确定所述N个物体的空间维度，包括：将所述第一三维点云投影到所述第一参考平面上，以得到所述第一三维点云在所述第一参考平面的第一投影区域；确定所述第一三维点云中多个第一三维点到所述第一参考平面的多个第一距离；根据所述第一投影区域和所述多个第一距离，确定所述第一物体的三维尺寸。

在上述设计中，通过将第一三维点云投影到第一参考平面上，可以得到第一三维点云在第一参考平面的第一投影区域，然后确定第一三维点云中多个第一三维点到第一参考平面的多个第一距离，再根据第一投影区域和该多个第一距离可以确定出第一三维点云对应的第一物体的长宽高。在此过程中参考平面无需用户手动选择，根据第一物体对应的第一三维点云在第一参考平面的第一投影区域以及多个第一距离，可以直接得出第一图像中第一物体的长宽高，从而能够提高用户体验。

在一种可能的设计中，所述N个对象包括第二对象，所述第二对象对应于包括第二三维点云的第二三维对象，所述第二三维对象是所述三维环境空间中的第二物体；所述根据所述三维环境空间中的第一参考平面和所述N个三维对象，确定所述N个物体的空间维度，包括：在所述第二三维点云中确定与所述第二物体的第一表面所对应的第三三维点云，所述第一表面与所述第一参考平面平行；确定所述第三三维点云中多个第二三维点到所述第一参考平面的多个第二距离；根据所述多个第二距离，确定所述第一表面到所述第一参考平面的距离。

在上述设计中，通过从第二三维点云中确定与第二物体的第一表面所对应的第三三维点云，该第一表面与第一参考平面平行，然后确定出第三三维点云中多个第二三维点到第一参考平面的多个第二距离，再根据该多个第二距离可以确定出第一表面到第一参考平面的距离。意味着，参考平面无需用户手段选择，可以根据多个第二距离直接得出第二物体的第一表面与第一参考平面的距离，从而能够提高用户体验。

在一种可能的设计中，所述N个对象包括第三对象，所述第三对象对应于包括第四三维点云的第三三维对象，所述第三三维对象是所述三维环境空间中的第三物体的一部分；所述根据所述三维环境空间中的第一参考平面和所述N个三维对象，确定所述N个物体的空间维度，包括：获取语义地图，所述语义地图为包括所述三维环境空间的三维图像；根据所述语义地图以及所述第四三维点云，确定所述第三物体对应的第五三维点云；将所述第五三维点云投影到所述第一参考平面上，以得到所述第五三维点云在所述第一参考平面的第二投影区域；确定所述第五三维点云中多个第三三维点到所述第一参考平面的多个第三距离；根据所述第二投影区域和所述多个第三距离，确定所述第三物体的三维尺寸。

在上述设计中，第三对象对应的第三三维对象是三维环境空间中的第三物体的一部分时，通过语义地图和第三三维对象包括的第四三维点云，确定第三物体的第五三维点云，然后再根据第五三维点云投影到第一参考平面的第二投影区域，以及第五三维点中多个第三三维点到第一参考平面的多个第三距离，得出第三物体的三维尺寸。尽管第一图像仅包括第三物体的部分内容，但可以通过三维环境空间的三维图像以及第四三维点云，得到第三物体对应的第五三维点云，进而可以根据该第五三维点云以及第一参考平面，自动测量出第三物体的长宽高，从而完成对第一图像中物体的空间维度的测量。

在一种可能的设计中，所述对第一图像进行识别，以得到所述第一图像中的N个对象，包括：对所述第一图像进行语义分割，以得到针对所述N个对象的N个备选像素点集合、不针对特定对象的第一像素点集合；根据所述N个备选像素点集合中的每个备选像素点集合中的多个第一像素点的第一信息，以及所述第一像素点集合中的多个第二像素点的第一信息，在所述每个备选像素点集合中添加所述多个第二像素点中的至少一个第二像素点，以得到所述N个对象中的一个对象，该对象包括的像素点集合中包括该对象的备选像素点集合和所述至少一个第二像素点；其中，所述第一信息包括如下至少一项：深度信息或彩色信息。

在上述设计中，通过对第一图像进行语义分割，可以得到语义分割结果，该语义分割结果中包括针对N个对象的N个备选像素点集合和不针对特定对象的第一像素点集合，之后，根据每个备选像素点集合中的多个第一像素点的第一信息，以及第一像素点集合中的多个第二像素点的第一信息，将该多个第二像素点中的至少一个第二像素点添加至每个备选像素点集合中。这样就可以对语义分割结果进行优化，以使得原本不针对特定对象的至少一个第二像素点，重新分割为针对N个对象中一对象的像素点，也就是对第一图像中未能成功识别的像素点进行再次识别，以提高语义分割的精度，从而能够提高后续测量的空间维度的精确率。

在一种可能的设计中，所述至少一个第二像素点中的每个第二像素点、与所述对象的备选像素点集合中的至少一个第一像素点之间的相似度距离小于或等于第一预设阈值，任一第二像素点与任一第一像素点的相似度距离由所述任一第二像素点的第一信息和所述任一第一像素点的第一信息得到。

在上述设计中，在每个备选像素点集合中添加该至少一个第二像素点，该至少一个第二像素点中的每个第二像素点、与对象的备选像素点集合中的至少一个像素点之间的相似度距离小于或等于第一预设阈值。其中，相似度距离是由深度信息、和/或彩色信息得到的，也就是将第一像素点集合中的第二像素点，添加至与该第二像素点颜色相近、和/或深度值相近第一像素点所在的备选像素点集合中。这意味着通过深度信息、和/或彩色信息将原本不针对特定对象的第一像素点集合中的第二像素点，添加至针对N个对象的N个备选像素点集合中的一个备选像素点集合中，可以提高语义分割的精确度，进而可以使得后续测量的空间维度更加精确。

在一种可能的设计中，所述至少一个第二像素点中的所述每个第二像素点在所述第一图像中的位置、与所述对象的备选像素点集合中的至少一个第一像素点在所述第一图像中的位置之间的距离小于或等于第二预设阈值。

在上述设计中，在每个备选像素点集合中添加该至少一个第二像素点，该至少一个第二像素点中的每个第二像素点在第一图像中的位置、与对象的备选像素点集合中的至少一个第一像素点在第一图像中的位置之间的距离小于或等于第二预设阈值。这样，就可以避免因颜色相近、和/或深度值相近而将原本属于一个对象的像素点错分割给另一个对象的情况，提高语义分割的精确度，进而可以使得后续测量的空间维度更加精确。

在一种可能的设计中，所述第一参考平面为地面。在上述设计中，由于地面是一个很大的区域，很容易被识别出来，且三维环境空间中的大多数物体位于地面之上，意味着大多数物体的高度是指物体的一个表面与地面的距离，故将地面作为参考平面来测量物体的空间维度，可以准确地测量出物体的一个表面与地面的距离，也就是物体的高度，且不需要用户通过人工交互来选择参考平面，操作便捷，可以提高用户体验。

第二方面，本申请实施例提供一种图像中物体的空间维度测量装置，所述装置包括识别单元，转换单元以及处理单元；其中，所述识别单元，用于对第一图像进行识别，以得到所述第一图像中的N个对象，所述N为大于或等于1的整数，N个对象中每个对象包括一像素点集合，所述像素点集合包括多个像素点；所述转换单元，用于将N个对象转换为对应所述N个对象的N个三维对象，每个三维对象包括一三维点云、且是所述第一图像所在的三维环境空间中一物体的至少一部分；所述处理单元，用于根据所述三维环境空间中的第一参考平面和所述N个三维对象，确定N个物体的空间维度，所述N个物体中每个物体的空间维度包括如下至少一项：所述物体的至少一个表面到所述第一参考平面的距离、或所述物体的三维尺寸，所述至少一个表面与所述第一参考平面平行。

在一种可能的设计中，所述N个对象包括第一对象，所述第一对象对应于包括第一三维点云的第一三维对象，所述第一三维对象是所述三维环境空间中的第一物体；所述处理单元，具体用于：将所述第一三维点云投影到所述第一参考平面上，以得到所述第一三维点云在所述第一参考平面的第一投影区域；确定所述第一三维点云中多个第一三维点到所述第一参考平面的多个第一距离；根据所述第一投影区域和所述多个第一距离，确定所述第一物体的三维尺寸。

在一种可能的设计中，所述N个对象包括第二对象，所述第二对象对应于包括第二三维点云的第二三维对象，所述第二三维对象是所述三维环境空间中的第二物体；所述处理单元，具体用于：在所述第二三维点云中确定与所述第二物体的第一表面所对应的第三三维点云，所述第一表面与所述第一参考平面平行；确定所述第三三维点云中多个第二三维点到所述第一参考平面的多个第二距离；根据所述多个第二距离，确定所述第一表面到所述第一参考平面的距离。

在一种可能的设计中，所述N个对象包括第三对象，所述第三对象对应于包括第四三维点云的第三三维对象，所述第三三维对象是所述三维环境空间中的第三物体的一部分；所述处理单元，具体用于：获取语义地图，所述语义地图为包括所述三维环境空间的三维图像；根据所述语义地图以及所述第四三维点云，确定所述第三物体对应的第五三维点云；将所述第五三维点云投影到所述第一参考平面上，以得到所述第五三维点云在所述第一参考平面的第二投影区域；确定所述第五三维点云中多个第三三维点到所述第一参考平面的多个第三距离；根据所述第二投影区域和所述多个第三距离，确定所述第三物体的三维尺寸。

在一种可能的设计中，所述识别单元，具体用于：对所述第一图像进行语义分割，以得到针对所述N个对象的N个备选像素点集合、不针对特定对象的第一像素点集合；根据所述N个备选像素点集合中的每个备选像素点集合中的多个第一像素点的第一信息，以及所述第一像素点集合中的多个第二像素点的第一信息，在所述每个备选像素点集合中添加所述多个第二像素点中的至少一个第二像素点，以得到所述N个对象中的一个对象，该对象包括的像素点集合中包括该对象的备选像素点集合和所述至少一个第二像素点；其中，所述第一信息包括如下至少一项：深度信息或彩色信息。

在一种可能的设计中，所述第一参考平面为地面。

第三方面，本申请实施例提供又一种图像中物体的空间维度测量装置，该装置包括至少一个处理器；所述至少一个处理器，用于运行计算机程序或指令，以使得所述装置执行上述第一方面描述的方法。

在一种可能的设计中，该至少一个处理器在运行计算机程序或指令时，执行如下步骤：对第一图像进行识别，以得到所述第一图像中的N个对象，所述N为大于或等于1的整数，N个对象中每个对象包括一像素点集合，所述像素点集合包括多个像素点；将N个对象转换为对应所述N个对象的N个三维对象，每个三维对象包括一三维点云、且是所述第一图像所在的三维环境空间中一物体的至少一部分；根据所述三维环境空间中的第一参考平面和所述N个三维对象，确定N个物体的空间维度，所述N个物体中每个物体的空间维度包括如下至少一项：所述物体的至少一个表面到所述第一参考平面的距离、或所述物体的三维尺寸，所述至少一个表面与所述第一参考平面平行。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机指令，当所述计算机指令在计算机上运行时，使得所述计算机执行上述第一方面或任意一种可能的设计所述的方法。

第五方面，本申请实施例提供一种计算机程序产品，所述计算机程序产品用于存储计算机指令，当所述计算机指令在计算机上运行时，使得所述计算机执行上述第一方面或任意一种可能的设计所述的方法。

第六方面，本申请实施例提供一种芯片系统，该芯片系统包括处理器，还可以包括存储器，用于实现第一方面或任意一种可能的设计所述的方法。该芯片系统可以由芯片构成，也可以包含芯片和其他分立器件。

上述第二方面至第六方面及其实现方式的有益效果可以参考对第一方面的方法及其实现方式的有益效果的描述。

附图说明

图1为本申请实施例提供的一种电子设备的结构图；

图2为本申请实施例提供的一种图像中物体的空间维度测量方法的数据流程示意图；

图3为本申请实施例提供的一种区域生长的数据流程示意图；

图4为本申请实施例提供的一种物体的空间维度的确定方法的数据流程示意图；

图5为本申请实施例提供的另一种物体的空间维度的确定方法的数据流程示意图；

图6为本申请实施例提供的再一种物体的空间维度的确定方法的数据流程示意图；

图7a为本申请实施例提供的一种图像中物体的空间维度测量结果的示意图；

图7b为本申请实施例提供的另一种图像中物体的空间维度测量结果的示意图；

图7c为本申请实施例提供的再一种图像中物体的空间维度测量结果的示意图；

图8为本申请实施例提供的一种图像中物体的空间维度测量装置的结构图；

图9为本申请实施例提供的多个像素点的一种示意图；

图10为本申请实施例提供的多个像素点的另一种示意图；

图11为本申请实施例提供的多个像素点的再一种示意图；

图12为本申请实施例提供的三维点云投影到第一参考平面的示意图；

图13为本申请实施例提供的第二三维点云的一种示意图；

图14为本申请实施例提供的第三三维点云的一种示意图；

图15为本申请实施例提供的第四三维点云的一种示意图；

图16为本申请实施例提供的第五三维点云的一种示意图。

具体实施方式

为了使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例作进一步地详细描述。为便于技术人员理解，首先对本申请实施例所涉及的技术术语进行说明。

本申请实施例中“多个”是指两个或两个以上，鉴于此，本申请实施例中也可以将“多个”理解为“至少两个”。“至少一个”，可理解为一个或多个，例如理解为一个、两个或更多个。例如，包括至少一个，是指包括一个、两个或更多个，而且不限制包括的是哪几个，例如，包括A、B和C中的至少一个，那么包括的可以是A、B、C、A和B、A和C、B和C、或A和B和C。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，字符“/”，如无特殊说明，一般表示前后关联对象是一种“或”的关系。除非有相反的说明，本申请实施例提及“第一”、“第二”等序数词用于对多个对象进行区分，不用于限定多个对象的顺序、时序、优先级或者重要程度。

下面，对本申请实施例所涉及的技术特征进行说明。现有技术中，采用AR测量工具执行测量，需要用户的参与方可进行，操作较为不便，用户体验较差。鉴于此，本申请实施例提供一种图像中物体的空间维度测量方法。该方法中，以第一参考平面为参考，可以自动测量物体的空间维度，无需用户的参与即可完成对物体的空间维度的测量，操作便捷，测量效率较高，且适用于各种测量环境下对物体的空间维度的测量，可以提高用户体验。

本申请实施例提供的图像中物体的空间维度测量方案可通过各种计算设备执行，该计算设备可以是电子设备。其中电子设备可以包括但不限于个人计算机、服务器计算机、手持式或膝上型设备、移动设备(比如手机、移动电话、平板电脑、个人数字助理、媒体播放器等)、消费型电子设备、小型计算机、大型计算机、移动机器人、无人机等。

以下实施例中，以计算设备是电子设备为例，对本申请实施例中提供的图像中物体的空间维度测量方法进行介绍。本申请实施例提供的一种图像中物体的空间维度测量方法，适用于如图1所示的电子设备，下面先简单介绍电子设备的具体结构。参考图1所示，为本申请实施例提供的一种电子设备的硬件结构示意图。如图1所示，电子设备100可以包括处理器110以及采集装置120。处理器110对采集装置120获取的数据进行处理。

处理器110是电子设备100的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器内的软件程序和/或数据，执行电子设备100的各种功能和处理数据。处理器110可以包括一个或多个处理单元，例如：处理器110包括的处理单元可以是中央处理器(central processing unit，CPU)，应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processing unit，GPU)，图像信号处理器(image signal processor,ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor,DSP)，基带处理器，神经网络处理器(neural-network processing unit,NPU)等中的一项或多项。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。其中，NPU为神经网络(neural-network,NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

采集装置120可以包括用于拍摄图像或视频的摄像头121。摄像头121可以是普通摄像头，也可以是对焦摄像头。进一步地，摄像头121可以用于采集RGB图像。采集装置120还可以包括一个或多个传感器122，例如图像传感器、红外传感器、激光传感器、压力传感器、陀螺仪传感器、气压传感器、磁传感器、加速度传感器、速度传感器、距离传感器、接近光传感器、环境光传感器、指纹传感器、触摸传感器、温度传感器、或骨传导传感器等传感器中的一种或多种。其中，图像传感器例如为飞行时间(time of flight，TOF)传感器或结构光传感器等。加速度传感器和速度传感器可以组成一个惯性测量单元(Inertial measurement unit，IMU)，IMU可以测量物体三轴姿态角(或角速率)以及加速度。在本申请实施例中，IMU主要用于测量电子设备100的位姿，以确定电子设备100是处于静止状态还是处于运动状态。

电子设备还可以包括存储器130。其中，存储器130可用于存储软件程序以及数据，处理器110可以通过运行存储在存储器130的软件程序以及数据，执行电子设备100的各种功能应用以及数据处理。存储器130可以主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如图像采集功能、图像识别功能等)等；存储数据区可存储根据电子设备100的使用所创建的数据(比如音频数据、文本信息、图像数据、语义地图等)等。此外，存储器130可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

电子设备还可以包括显示设备140，显示设备140，包括的显示面板141，用于显示由用户输入的信息、提供给用户的信息或电子设备100的各种菜单界面中的一项或多项。在本申请实施例中，显示设备140主要用于显示电子设备100中摄像头121或者传感器122获取的图像。可选的，显示面板141可以包括液晶显示器(liquid crystal display，LCD)或有机发光二极管(organic light-emitting diode，OLED)等。

电子设备100还可以包括输入设备150，用于接收输入的数字信息、字符信息或接触式触摸操作/非接触式手势，以及产生与电子设备100的用户设置以及功能控制有关的信号输入等。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purpose input/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

MIPI接口可以被用于连接处理器110与显示设备140、摄像头121等外围器件。MIPI接口包括摄像头121串行接口(camera serial interface,CSI)，显示屏串行接口(display serial interface,DSI)等。在一些实施例中，处理器110和摄像头121通过CSI接口通信，实现电子设备100的拍摄功能。处理器110和显示设备140通过DSI接口通信，实现电子设备100的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器110与摄像头121，显示设备140，传感器122等。

USB接口是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口可以用于连接充电器为电子设备100充电，也可以用于电子设备100与外围设备之间传输数据。该接口可以用于连接其他电子设备，例如增强现实(augmented reality，AR)设备等。

可以理解的是，本发明实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

尽管并未在图1中示出，电子设备100还可以包括无线射频(radio frequency，RF)电路、电源、闪光灯、外部接口、按键、马达等其他可能的功能模块，在此不再赘述。

基于上述介绍，本申请实施例提供一种图像中物体的空间维度测量方法及装置，其中的方法可以测量图像中物体的空间维度。本申请实施例中，方法和装置是基于同一发明构思的，由于方法及装置解决问题的原理相似，因此装置与方法的实施例可以相互参见，重复之处不再赘述。

在本申请实施例中，以计算设备是电子设备100为例进行描述，但是并不限制本申请实施例通过其他类型的计算设备执行。请参见图2，为本申请实施例提供的一种图像中物体的空间维度测量方法的流程图，该方法可以由图1所示的终端设备100执行，例如可以通过电子设备100中的处理器110来执行。如图2所示，为该方法的流程。

S201：处理器110获取第一图像。处理器110可以通过摄像头121获取第一图像。例如，用户在拍摄图像时，可以按下拍摄按键，则电子设备100相当于接收了拍摄指令。响应于该拍摄指令，摄像头121可以得到第一图像。在得到第一图像后，摄像头121可以将第一图像发送给处理器110。处理器110可以对第一图像进行进一步图像处理或图像优化，例如进行噪声消除、白平衡、色彩较准或锐化等处理。

S202：处理器110对第一图像进行识别，以得到第一图像中的N个对象。N个对象中的每个对象可以包括一个像素点集合，则N个对象共包括N个像素点集合。这N个像素点集合中的每个像素点集合可以包括多个像素点。被识别的第一图像可以是被处理器执行图像处理或图像优化后的图像。

第一图像中可以包括N个对象，N个对象中的一个对象可以是桌子、也可以是椅子、还可以是树等，本申请实施例对每个对象的类型不作限定。N个对象中的一个对象对应的三维对象可以是第一图像所在的三维环境空间中的一个物体的至少一部分。例如，摄像头 121仅采集到一个桌子的一部分，则在第一图像中该桌子(三维)对应的对象(二维)所对应的三维对象就是该桌子的一部分而不是全部。又例如，摄像头121采集到了一个桌子的全部，则在第一图像中该桌子对应的对象所对应的三维对象就是该桌子的全部。其中，N为大于或等于1的整数。

例如，处理器110可以利用深度神经网络模型对第一图像进行语义分割，以得到第一图像中的N个对象。具体地，处理器110利用深度神经网络对第一图像进行语义分割，得到第一图像的初始的语义分割结果，该初始的语义分割结果包括针对N个对象的N个备选像素点集合以及不针对特定对象的第一像素点集合。其中，一个备选像素点集合针对一个对象，每个备选像素点集合中包括多个第一像素点，第一像素点集合中包括多个第二像素点。

其中，一个备选像素点集合针对一个对象是指，该备选像素点集合所包括的多个第一像素点的语义标签为该对象，例如，一个备选像素点集合针对桌子，那么该备选像素点集合所包括的多个第一像素点的语义标签皆为桌子。不针对特点对象的第一像素点集合是指，第一像素点集合所包括的多个第二像素点未能被有效分割，即对于任一个第二像素点，该第二像素点的语义标签不是N个对象中的任一个。

处理器110得到的初始的语义分割结果的正确率与深度神经网络模块的收敛程度、以及学习样本的数量等有关；收敛程度越高，第一图像的初始的语义分割结果的正确率越高，相应地计算量就越大；学习样本越多，第一图像的初始的语义分割结果的正确率越高，相应地计算量就越大。

需要说明的是，深度神经网络模型可以是深度残差网络(deep residual network,ResNet)模型、可以是视觉几何群网络(visual geometry group network，VGG)模型、还可以是AlexNet等卷积神经网络模型，本申请实施例对此不作限定。

在实际应用中，计算量越大意味着对硬件条件的要求也就越高，相应地制造成本也就越高，因此受限于硬件条件、制造成本等因素，深度神经网络模型的收敛程度不能一味地提高，学习样本也不能一味地增多，这就意味着，通过深度神经网络模型得到的初始的语义分割结果中往往存在错分割、和/或未分割的情况。其中，错分割是指将原本属于第一备选像素点集合中的像素点分割到第二备选像素点集合中，第一备选像素点集合与第二备选像素点集合为N个备选像素点集合中的任意两个备选像素点集合；未分割是指将原本属于N个备选像素点集合中的像素点分割到第一像素点集合中。

进一步地，处理器110在得到第一图像的初始的语义分割结果后，受限于深度神经网的收敛程度、以及学习样本的数量，初始的语义分割结果中可能存在错分割、和/或未分割的情况，处理器110可以对初始的语义分割结果进行优化，以得到优化后的语义分割结果，该优化后的语义分割结果中错分割、和/或未分割的像素点的数量减少，从而能够增大语义分割结果的正确率，以提高后续测量得到的物体的空间维度的精确率。

在一个示例中，处理器110可以使用滤波的方式对初始的语义分割结果进行优化。处理器110对初始的语义分割结果进行滤波，得到滤波后的语义分割结果，通过滤波后可以去除语义分割结果中明显的噪声和异常像素点，也就是说该滤波后的语义分割结果中错分割的像素点的数量减少。其中，异常像素点是指，语义分割后第一图像中一个语义标注为第一类别的像素点位于多个语义标注为第二类别的像素点中。例如，第一图像包括第一对象和第二对象，第一对象对应于桌子，第二对象对应于椅子，经过语义分割后，在第一图像中一个语义标注为椅子的像素点位于多个语义标注为桌子的像素点中，通过对桌子对应的备选像素点集合以及椅子对应的备选像素点集合进行滤波，可将该一个语义标注为椅子的像素点重新分割至桌子对应的备选像素点集合中，即将该一个像素点的语义标注由椅子修改为桌子。需要说明的是，对初始的语义分割结果进行滤波可以使用现有技术实现，在此不再赘述。

在另一个示例中，处理器110可以使用区域生长的方式对初始的语义分割结果进行优化，也就是处理器110可以对初始的语义分割结果中的N个备选像素点集合进行区域生长，区域生长后的N个备选像素点集合中的每个备选像素点集合中，添加第一像素点集合中的多个第二像素点的至少一个第二像素点。

下面结合图3对N个备选像素点集合进行区域生长的过程进行详细的描述。S301：处理器110获取第i个备选像素点集合中的第j个像素点。其中，i为大于1且小于N的整数，j为大于1且小于M _i的整数，M _i为第i个备选像素点集合中第一像素点的数量。

可选的，处理器110可以对N个备选像素集合进行优先级排序，优先级越高序列号越靠前，意味着优先级最高的一个备选像素点集合为N个备选像素点集合中第一个进行区域生长的备选像素点集合。例如，处理器110可以根据每个备选像素点集合中第一像素点的数量来确定优先级，第一像素点的数量越多，对应的备选像素点集合在N个备选像素点集合中的优先级就越高，第一像素点的数量越少，对应的备选像素点集合在N个备选像素点集合中的优先级就越低。

S302：处理器110获取在第一图像中的位置与第j个像素点在第一图像中的位置之间的距离小于或等于第二预设阈值的多个像素点。例如，当第二预设阈值取1，表明获取的像素点与第j个像素点相邻。例如，处理器110可以获取位于第j个像素点的上、下、左、右、左上角、右上角、左下角以及右下角的8个像素点，如图9所示，第j个像素点为像素点A，在第一图像中的位置与像素点A在第一图像中的位置之间的距离小于或等于第二预设阈值的多个像素点分别为像素点B1、像素点B2、像素点B3、像素点B4、像素点B5、像素点B6、像素点B7以及像素点B8。再例如，处理器110可以获取位于第j个像素点在第一图像中的位置的上、下、左以及右的4个像素点，如图10所示，第j个像素点为像素点A，在第一图像中的位置与像素点A在第一图像中的位置之间的距离小于或等于第二预设阈值的多个像素点分别为像素点B2、像素点B4、像素点B6以及像素点B8。

S303：处理器110确定多个像素点中是否有至少一个像素点是第二像素点。如果多个像素点中有至少一个像素点是第二像素点，则执行S304；如果多个像素点中没有第二像素点，则执行S307。

处理器110确定多个像素点中是否有至少一个像素点是第二像素点，换而言之，处理器110确定多个像素点中是否有至少一个像素点属于第一像素点集合。如果多个像素点中有至少一个像素点是第二像素点，则执行S306。如果多个像素点中没有第二像素点，则执行S305。

在下文中，以多个像素点中有一个像素点(记为第k个像素点)是第二像素点为例进行描述。k为大于1且小于或等于M ₁的整数，M ₁为第一像素点集合中第二像素点的数量。

应理解的是，在该多个像素点中至少有两个像素点皆属于第一像素点集合时，处理器110可以确定该至少两个像素点中每个像素点与第j个像素点之间的相似度距离，再分别执行S305所示的步骤。例如，位于第j个像素点左上角的像素点以及右下角的像素点皆属于第一像素点集合，处理器110分别确定第j个像素点与左上角的像素点之间的相似度距离，以及第j个像素点与右下角的像素点之间的相似度距离，再根据确定出的两个相似度距离执行S305所示的步骤。例如，如图11所示，多个像素点包括像素点B1、像素点B2、像素点B3、像素点B4、像素点B5、像素点B6、像素点B7以及像素点B8，该多个像素点中的像素点B2、像素点B3、像素点B4、像素点B6、像素点B7以及像素点B8为第一像素点，像素点B1以及像素点B5为第二像素点，处理器110可以分别确定像素点A与，像素点B1以及像素点B5之间的相似度距离，再根据确定出的两个相似度距离执行S305所示的步骤。

在S302与S303中，处理器110根据第j个像素点在第一图像中位置，确定与该位置小于或等于第二预设阈值的多个像素点中是否有至少有一个像素点属于第一像素点集合。这样，就可以避免因颜色相近、和/或深度值相近而将原本属于一个对象的像素点错分割给另一个对象的情况，从而提高语义分割的精确度，可以使得后续测量的空间维度更加精确。

S304：处理器110确定第j个像素点与第k个像素点之间的相似度距离。其中，相似度距离可以用于指示两个像素点之间的色差，或者相似度距离可以用于指示两个像素点之间的深度值差，或者相似度距离可以用于指示两个像素点之间的色差和深度值差。深度值用于指示电子设备100与被拍摄对象之间的距离。

例如，处理器110可以根据第j个像素点的第一信息以及第k个像素点的第一信息，确定第j个像素点与第k个像素点之间的相似度距离。其中，第一信息包括深度信息，或者第一信息包括彩色信息，或者第一信息包括深度信息以及彩色信息。其中，彩色信息用于指示被拍摄对象的颜色，处理器110可以摄像头121采集的RGB图像获取第一图像中各像素点的彩色信息。深度信息用于指示电子设备100与被拍摄对象之间的距离，处理器110可以通过TOF传感器获取第一图像中各像素点的深度信息。

本申请实施例中，处理器110可以通过TOF传感器，也可以通过结构光传感器，还可以通过激光传感器等方式来获取第一图像中各像素点的深度信息，进而还可以得到第一图像对应的深度图像。应理解，本申请实施例中也可以采用其它任何可以获得深度信息的方式(或相机)来实现获取深度信息，本申请实施例对此不作限定。

在一种示例中，第j个像素点与第k个像素点之间的相似度距离满足以下公式：

D＝α∑ _j＝x,y,zabs(p _j-p _k)+(1-α)∑ _j＝r,g,babs(p _j-p _k) (公式1)

其中，D表示相似度距离，α为常数，p _j表示第j个像素点，p _k表示第k个像素点，∑ _j＝x,y,z(·)表示空间距离累加和运算，∑ _j＝r,g,b(·)表示颜色距离累加和运算，abs(·)表示绝对值运算。

S305：处理器110确定第j个像素点与第k个像素点之间的相似度距离是否小于或等于第一预设阈值。如果第j个像素点与第k个像素点之间的相似度距离小于或等于第一预设阈值，则执行S306；如果第j个像素点与第k个像素点之间的相似度距离大于第一预设阈值，则执行S307。

S306：处理器110将第k个像素点添加至第i个备选像素点集合中。在S304～S306中，处理器110可以根据第j个像素点的第一信息以及第k个像素点的第一信息，确定第j个像素点与第k个像素点之间的相似度距离，并在确定出相似度距离小于或等于第一预设阈值时，将第k个像素点添加至第i个备选像素点集合中，意味着通过深度信息、和/或彩色信息将原本不针对特定对象的第一像素点集合中的第二像素点，添加至针对N个对象的N 个备选像素点集合中的一个备选像素点集合中，以提高语义分割的精确度，进而可以使得后续测量的空间维度更加精确。

S307：处理器110将j赋值为(j+1)。S308：处理器确定赋值后的j是否大于M _i。如果赋值后的j大于M _i，则执行S309；如果赋值后的j小于或等于M _i，则执行S301。S309：处理器110将i赋值为(i+1)。S310：处理器110确定赋值后的i是否大于N。如果赋值后的i大于N，则流程结束；如果赋值后的i小于或等于N，则执行S301。

在图3所示的流程中，处理器110根据N个备选像素点集合中的每个备选像素点集合中的多个第一像素点的第一信息，以及第一像素点集合中的至少一个第二像素点，以得到N个对象中的一个对象，该对象包括的像素点集合中包括该对象的备选像素点集合和至少一个第二像素点。这样就可以对初始的语义分割结果得到的N个备选像素点集合进行区域生长，以使得原本不针对特定对象的至少一个第二像素点，重新分割为针对N个对象中一对象的像素点，也就是对第一图像中未能成功识别的像素点进行再次识别，从而可以提高语义分割结果的正确率，进而能够提高后续测量得到物体的空间维度的精度。

需要说明的是，处理器110可以通过滤波的方式对初始的语义分割结果中进行优化，也可以通过区域生长的方式对初始的语义分割结果进行优化，还可以通过滤波和区域生长的方式对初始的语义分割结果进行优化，本申请实施例对此不作限定。

作为一个示例，处理器110在得到第一图像的初始的语义分割结果之后，可以先对初始的语义分割结果中的N个备选像素点集合进行滤波，以得到滤波后的N个备选像素点集合，然后再对滤波后的N个备选像素点集合进行区域生长。

作为一个示例，处理器110在得到第一图像的初始的语义分割结果之后，可以先对初始的语义分割结果中N个备选像素点集合进行区域生长，以得到区域生长后的N个备选像素点集合，然后再对区域生长后的N个备选像素点集合进行滤波。

作为另一个示例，处理器110在得到第一图像的初始的语义分割结果之后，可以同时采用滤波和区域生长的方式对初始的语义分割结果进行优化。例如，处理器110可以采用滤波的方式对初始的语义分割结果中的N个备选像素点集合中的部分像素点集合进行优化，同时，处理器110还可以采用区域生长的方式对初始的语义分割结果中的N个备选像素点集合中的剩余部分像素点集合进行优化。

S203：处理器110将N个对象转换为对应该N个对象的N个三维对象。其中，每个三维对象包括一三维点云，每个三维对象是第一图像所在的三维环境空间中一物体的至少一部分。处理器110可以根据N个对象的N个备选像素点集合中各像素点的深度信息，将该N个对象转为对应该N个对象的N个三维对象。

需要说明的是，虽然三维点云是三维概念，第一图像中的N个对象的像素点是二维概念，但是已知二维图像中某个像素点的深度值的情况下，可以将该像素点的二维坐标转换成三维空间中的世界坐标(即三维坐标)，所以，根据深度信息可以得到第一图像中N个对象对应的N个三维点云。例如，处理器110可以采用多视几何算法可以完成将图像的二维坐标转换成世界坐标，具体转换方式和过程不作限定。

S204：处理器110根据三维环境空间中的第一参考平面和N个三维对象，确定N个物体的空间维度，N个物体中每个物体的空间维度包括如下至少一项：物体的至少一个表面到第一参考平面的距离、或物体的三维尺寸，该至少一个表面与第一参考平面平行。处理器110以第一参考平面为参考，确定第一图像中N个对象对应的N个物体的空间维度。其中，处理器110可以从存储器130中获取第一参考平面对应的平面方程。

作为一个示例，第一参考平面可以是地面所在的平面。由于地面区域很大，容易被识别出来，且三维环境空间中的大多数物体是位于地面之上的，意味着大多数物体的高度可以通过物体的一个表面与地面的距离来确定，故将地面作为参考平面来测量物体的空间维度，可以准确地测量出物体的一个表面与地面的距离，也就是物体的高度，且不需要用户通过人工交互来选择参考平面，操作便捷，可以提高用户体验。

以第一参考平面为地面为例，处理器110在获取第一图像之前获取到包括地面的第二图像，对第二图像进行语义分割，得到地面的像素点集合，基于深度信息获取地面对应的三维点云，再基于随机采样一致性估计方法获取地面对应的平面方程。需要说明的是，根据一个图像中得到一个平面方程可以采用现有技术实现，其实现方法以及过程，在此不再赘述。

在下文介绍中，以第一参考平面满足Ax+By+Cz＝1为例进行说明，其中A、B以及C为已知常数。处理器110确定N个物体中一个物体的空间维度，每个物体的空间维度包括如下至少一项：物体的三维尺寸，或物体的至少一个表面到第一参考平面的距离。下面结合图4、图5以及图6对如何确定图像中一物体的空间维度进行介绍。

实施例1：N个对象包括第一对象，第一对象对应于包括第一三维点云的第一三维对象，第一三维对象是三维环境空间中的第一物体。第一物体的空间维度的确定过程，请参考图4。

S41：处理器110将第一三维点云投影到第一参考平面上，得到第一三维点云在第一参考平面的第一投影区域。

作为一种示例，第一三维点云包括两个第一三维点，处理器110将该两个第一三维点投影到第一参考平面后，得到该两个第一三维点在第一参考平面中的第一投影区域，如图12所示，其中，一个立方体表示一个三维点。

以第一三维点云中的一个第一三维点为例，处理器110确定第一三维点(记为p)到第一参考平面的第一距离d。可选的，第一距离可以满足以下公式：

其中，d表示第一距离，n表示第一参考平面的法向量，即n＝[A B C]，p表示第一三维点在世界坐标系的三维坐标。

处理器110根据第一三维点p到第一参考平面的第一距离，可以确定出第一三维点p在第一参考平面上的投影点(记为p ¹)。可选的，投影点p ¹可以满足以下公式：

其中，p ¹表示第一三维点p在第一参考平面上的投影点在世界坐标的三维坐标，d表示第一距离，n表示第一参考平面的法向量，即n＝[A B C]，p表示第一三维点在世界坐标系的三维坐标。

处理器110将三维的第一参考平面进行降维处理，得到二维平面。以将三维的第一参考平面转换为二维平面，该二维平面为X轴与Y轴构成的平面(记为X0Y平面)为例，其中，X0Y平面表示垂直于Z轴的二维平面。

具体地，处理器110可以根据三维的第一参考平面的法向量以及X0Y平面的法向量，确定三维的第一参考平面与X0Y平面的旋转向量和旋转角。

可选的，三维的第一参考平面与X0Y平面的旋转向量可以满足以下公式：

其中，n _r表示旋转向量，n表示第一参考平面的法向量，即n＝[A B C]，n _y表示X0Z平面的法向量，即n _y＝[1 0 0]，n _x表示Y0Z平面的法向量，即n _x＝[1 0 0]，其中，X0Z平面为X轴与Z轴构成的平面、且垂直于Y轴，Y0Z平面为Y轴与Z轴构成的平面、且垂直于X轴。

可选的，三维的第一参考平面与X0Y平面的旋转角可以满足以下公式：

其中，θ表示旋转角，n _z表示X0Y平面的法向量，即n _z＝[1 0 0]，n _x表示Y0Z平面的法向量，即n _x＝[1 0 0]，n表示第一参考平面的法向量，即n＝[A B C]。

进一步地，处理器110可以根据三维的第一参考平面与X0Y平面的旋转向量和旋转角，确定三维的第一参考平面变换为X0Y平面的变换矩阵。

可选的，该变换矩阵可以满足以下公式：

其中，

H表示变换矩阵，C ₁表示常数。

在得到变换矩阵后，处理器110可以根据该变换矩阵，确定投影点在X0Y平面的变换点(记为p ²)。

可选的，该变换点可以满足以下公式：

p ²＝Hp ¹ (公式7)

其中，p ²表示变换点，H表示变换矩阵，p ¹表示投影点。

处理器110根据公式2～公式7，可以确定出第一三维点云中多个第一三维点在X0Y平面的多个变换点，再利用最小外接矩形(minAreaRect)函数确定包含该多个变换点的第一最小外接矩形，将该第一最小外接矩形的四个顶点分别记为

以及

处理器110根据该第一最小外接矩形的四个顶点，可以确定出包含第一投影区域的第二最小外接矩形的四个顶点。

可选的，第二外接矩形的顶点可以满足以下公式：

q ¹＝H ^-1q ² (公式8)

其中，H ^-1表示变换矩阵的逆矩阵，q ¹表示第二外接矩形的顶点，q ²表示第一外接矩形的顶点。

S42：处理器110确定第一三维点云中多个第一三维点到第一参考品平面的多个第一距离。具体地，处理器110可以根据公式2确定第一三维点云中多个第一三维点到第一参考平面的多个第一距离。

S43：处理器110根据第一投影区域以及多个第一距离，确定第一物体的三维尺寸。

具体地，处理器110从多个第一距离中确定最大距离，并根据最大距离以及包含第一投影区域的第二外接矩形，确定包含第一三维点云的第一最小外接包围盒，然后根据该第一最小外接包围盒即可确定出第一物体的长、宽、高以及体积等。

处理器110可以根据第二外接矩形的四个顶点以及最大距离，确定第一最小外接包围盒顶面的四个顶点。其中，顶面是指该第一最小外接包围盒中平行与第一参考平面的上表面。

可选的，第一最小外接包围盒的顶面的顶点可以满足以下公式：

其中，q表示第一最小外接包围的顶面的顶点，d _max表示最大距离，q ¹表示第二外接矩形的顶点，n表示第一参考平面的法向量，即n＝[A B C]。

在上述实施1中，处理器110通过将第一三维点云投影到第一参考平面上，可以得到第一三维点云在第一参考平面的第一投影区域，然后确定第一三维点云中多个第一三维点到第一参考平面的多个第一距离，再根据第一投影区域和该多个第一距离可以确定出第一三维点云对应的第一物体的长宽高。参考平面可以从存储器130中获取，无需用户手动选择，处理器110根据第一物体对应的第一三维点云在第一参考平面的第一投影区域以及多个第一距离，就可以得出第一图像中第一物体的长宽高，从而能够提高测量效率，提高用户体验。

实施例2：N个对象包括第二对象，第二对象对应于包括第二三维点云的第二三维对象，第二三维对象是三维环境空间中的第二物体。第二物体的空间维度的确定过程，请参考图5。

S51：处理器110在第二三维点云中确定与第二物体的第一表面所对应的第三三维点云，该第一表面与第一参考平面平行。

处理器110在得到第二对象对应的第二三维点云后，从该第二三维点云中确定与第二物体的第一表面所对应的第三三维点云，也就是说，处理器110可以从第二三维点云中识别出一个平面点云。

作为一种示例，第二物体的形状为长方体，处理器110对第二对象进行三维点云转换后，得到第二对象对应的第二三维点云，如图13所示，一个立方体为一个三维点，第二三维点云包括18个第二三维点；第一表面为第二物体中平行于第一参考平面的上表面，处理器110从第二三维点云中识别出第一表面所对应的第三三维点云，如图14所示，第三三维点云平行于第一参考平面，且第三三维点云包括6个第二三维点。

需要说明的是，从一个三维点云中识别出一个平面点云可以使用现有技术实现，本申请实施例对此不作限定。

S52：处理器110确定第三三维点云中多个第二三维点到第一参考平面的多个第二距离。具体地，处理器110可以通过公式2，确定第三三维点云中多个第二三维点到第一参考平面的多个第二距离。

S53：处理器110根据多个第二距离，确定第一表面到第一参考平面的距离。处理器110可以对多个第二距离进行算术平均计算，得到该多个第二距离的平均值，该平均值即为第一表面到第一参考平面的距离；或者，处理器110可以对多个第二距离进行加权平均，得到该多个第二距离的加权平均值，该加权平均值即为第一表面到第一参考平面的距离；本申请实施例对此不作限定。

在上述实施2中，处理器110通过从第二三维点云中确定出与第二物体的第一表面所对应的第三三维点云，该第一表面与第一参考平面平行，然后确定出第三三维点云中多个第二三维点到第一参考平面的多个第二距离，再根据该多个第二距离可以确定出第一表面到第一参考平面的距离。参考平面可以从存储器130中获取，无需用户手段选择，处理器110可以根据多个第二距离得出第二物体的第一表面与第一参考平面的距离，从而能够提高用户体验。

实施例3：N个对象包括第三对象，第三对象对应于包括第四三维点云的第三三维对象，第三三维对象是三维环境空间中的第三物体的一部分。第三物体的空间维度的确定过程，请参考图6。

S61：处理器110获取语义地图，该语义地图为包括三维环境空间的三维图像。处理器110可以根据语义即时定位与地图构建(simultaneous localization and mapping，SLAM)技术，获取三维环境空间的语义地图并存储。

作为一个示例，处理器110可以从存储器130中获取第一图像所在的三维环境空间对应的语义地图。需要说明的是，处理器110可以根据语义SLAM技术获取语义地图，也可以使用其它现有技术获取语义地图，本申请实施例对此不作限定。

S62：处理器110根据语义地图以及第四三维点云，确定第三物体对应的第五三维点云。在S62中，处理器110可以集合语义相关性，根据第四三维点云的语义，在语义地图中确定第三物体所对应的第五三维点云。例如，处理器110可以采用语义聚类的方法，根据第四三维点云的语义，在语义地图中确定出第三物体所对应的第五三维点云，其中，语义聚类方法的具体实现过程可采用现有技术实现，本申请实施例对此不作限定。作为一个示例，第三物体为一个形状为正方体的物体，摄像头140仅采集到第三物体的一部分，该一部分记为第三三维对象，处理器110对第一图像中的对象进行三维点云转换后，得到第三三维对象对应的第四三维点云，如图15所示，一个立方体表示一个第三三维点，第四三维点云中包括18个第三三维点、且该第四三维点云的形状为长方体；然后处理器110根据第四三维点云从语义地图中获取第三物体所对应的第五三维点云，如图16所示，第五三维点云中包括27个第三三维点、且该第五三维点云的形状为正方体。

S63：处理器110将第五三维点云投影到第一参考平面，得到第五三维点云在第一参考平面的第二投影区域。处理器110可以通过公式2～公式7，得到第五三维点云在第一参考平面的第二投影区域，具体实施方式可参见实施例1中获取第一投影区域的实施方式，在此不再赘述。

S64：处理器110确定第五三维点云中多个第三三维点到第一参考平面的多个第三距离。处理器110可以通过公式2确定第五三维点云中多个第三三维点云到第一参考平面的多个第三距离。

S65：处理器110根据第二投影区域以及多个第三距离，确定第三物体的三维尺寸。在上述实施3中，第三对象对应的第三三维对象是三维环境空间中的第三物体的一部分时，处理器110通过语义地图和第三三维对象包括的第四三维点云，确定第三物体的第五三维点云，然后再根据第五三维点云投影到第一参考平面的第二投影区域，以及第五三维点中多个第三三维点到第一参考平面的多个第三距离，得出第三物体的三维尺寸。尽管第一图像仅包括第三物体的部分内容，但可以通过三维环境空间的三维图像以及第四三维点云，得到第三物体对应的第五三维点云，进而可以根据该第五三维点云以及第一参考平面，自动测量出第三物体的长宽高，从而完成对第一图像中物体的空间维度的测量。

S205：处理器110将N个物体的空间维度发送给显示设备140，以使显示设备140在显示面板141中显示该N个物体的空间维度。处理器110可以将N个物体的空间维度发送给显示设备140，以使显示设备140在显示面板141中显示该N个物体的空间维度；或者，处理器110可以将N个物体中的一个物体的空间维度发送给显示设备140，以使显示设备140在显示面板141中显示该物体的空间维度；或者，响应于用户发送的焦点指令，该焦点指令用于指示仅显示第一图像中的焦点物体的空间维度，处理器110可以将焦点物体的空间维度发送给显示设备140，以使显示设备140在显示面板141中显示该焦点物体空间维度。

以显示面板141仅显示N个物体中的一个物体的空间维度，第一参考平面为地面以及N个物体包括椅子为例，处理器110可以根据上述实施例1中所述的方法流程，或者处理器110可以根据图4所示的方法流程，确定出椅子的三维尺寸，即高为0.45米，长为0.76米以及宽为0.56米，具体的实施方式可参见前述实施例1或图4所示的流程，在此不再赘述；然后处理器110将确定出的椅子的三维尺寸发送给显示设备140；显示设备140在显示面板141显示椅子的三维尺寸，如图7a所示。

以显示面板141仅显示N个物体中的一个物体的空间维度，第一参考平面为地面以及N个物体包括天花板为例，处理器110可以根据上述实施例2中所示的方法流程，或者处理器110可以根据图5所示的方法流程，确定出天花板中与地面平行的下表面到地面的距离为3.22米，具体的实施方式可参见前述实施例2或图5所示的流程，在此不再赘述；然后处理器110将确定出的距离发送给显示设备140；显示设备140在显示面板141显示天花板的下表面到地面的距离，如图7b所示。

以显示面板141仅显示N个物体中的一个物体的空间维度，第一参考平面为地面以及N个物体包括椅子为例，第一图像中所对应的三维对象为椅子的一部分，处理器110可以根据上述实施例3中所述的方法流程，或者处理器110可以根据图6所示的方法流程，确定出椅子的三维尺寸，即高为0.45米，长为0.76米以及宽为0.56米，具体的实施方式可参见前述实施例3或图6所示的流程，在此不再赘述；然后处理器110将确定出的椅子的三维尺寸发送给显示设备140；显示设备140在显示面板141显示椅子的三维尺寸，如图7c所示。

在一种可能的实施方式中，处理器110在获取到第一图像后，可以确定摄像头121采集第一图像的第一位姿与摄像头121采集第三图像的第二位姿的差值；如果差值大于或等于第四预设阈值，则确定电子设备100处于运动状态；如果差值小于第四预设阈值，则确定电子设备100处于静止状态。其中，第三图像为第一图像的上一帧图像，位姿可以通过SLAM技术确定，也可以通过传感器122确定，本申请实施例对此不作限定。

进一步地，在电子设备100处于静止状态时，处理器110执行图2所示的流程，以获取第一图像中N个对象对应的N个物体的空间维度。在电子设备100处于运动状态时，处理器110对第一图像进行语义分割，然后根据语义分割的结果重建语义地图。应理解的是，语义地图的重建可以采用现有技术实现，本申请实施例对此不作限定。

在上述实施方式中，在电子设备100处于静止状态时，处理器110仅确定第一图像中物体的空间维度，由于静止状态下获取的图像的质量要好于运动状态下的图像，因此静止状态下测量图像中物体的空间维度的精确率更高。例如，运动状态下获取的图像可能存在拖尾、模糊的问题，会降低语义分割结果的正确率，从而降低了测量物体的空间维度的精确率。并且静止状态下第一图像所在的三维环境空间未发生变化，故可以不用重复进行语义地图重建，可以减少运算量。在电子设备100处于运动状态时，处理器110仅根据第一图像进行语义地图重建，为静止状态下的物体的空间维度的测量做准备，可以提高测量效率以及测量的精确率。

本申请上述实施例中，通过对第一图像进行识别，得到N个对象，再将该N个对象转换为N个三维对象，每个三维对象是第一图像所在的三维环境空间中一个物体的至少一部分，之后以第一参考平面为参考，测量出N个物体的空间维度。相较于现有技术中通常需要用户的参与才能完成对物体的测量的方式，本申请实施例可以对第一图像识别得到的N个对象，然后以第一参考平面为参考可以自动测量第一图像中N个对象对应的N个物体的空间维度，无需用户参与，能够完成一些用户难以完成的测量任务。并且，本申请实施例中通过采集的图像即可确定出图像中物体的空间维度，相较于现有技术中需要从不同角度多次进行测量的方案，本申请实施例可以提高测量效率。

针对上述方法流程，本申请实施例还提供一种图像中物体的空间维度测量装置，该装置的具体实现可参见上述方法流程。基于相同发明构思，本申请实施例还提供一种图像中物体的空间维度测量装置，该装置可以为图1所示的处理器110，该装置可以用于执行图2-图6所示的流程。参见图8，该装置800包括识别单元801，转换单元802以及处理单元803。

其中，所述识别单元801，用于对第一图像进行识别，以得到所述第一图像中的N个对象，所述N为大于或等于1的整数，N个对象中每个对象包括一像素点集合，所述像素点集合包括多个像素点。

所述转换单元802，用于将N个对象转换为对应所述N个对象的N个三维对象，每个三维对象包括一三维点云、且是所述第一图像所在的三维环境空间中一物体的至少一部分；

所述处理单元803，用于根据所述三维环境空间中的第一参考平面和所述N个三维对象，确定N个物体的空间维度，所述N个物体中每个物体的空间维度包括如下至少一项：所述物体的至少一个表面到所述第一参考平面的距离、或所述物体的三维尺寸，所述至少一个表面与所述第一参考平面平行。

在一种可能的设计中，所述N个对象包括第一对象，所述第一对象对应于包括第一三维点云的第一三维对象，所述第一三维对象是所述三维环境空间中的第一物体；所述处理单元803，具体用于：将所述第一三维点云投影到所述第一参考平面上，以得到所述第一三维点云在所述第一参考平面的第一投影区域；确定所述第一三维点云中多个第一三维点到所述第一参考平面的多个第一距离；根据所述第一投影区域和所述多个第一距离，确定所述第一物体的三维尺寸。

在一种可能的设计中，所述N个对象包括第二对象，所述第二对象对应于包括第二三维点云的第二三维对象，所述第二三维对象是所述三维环境空间中的第二物体；所述处理单元803，具体用于：在所述第二三维点云中确定与所述第二物体的第一表面所对应的第三三维点云，所述第一表面与所述第一参考平面平行；确定所述第三三维点云中多个第二三维点到所述第一参考平面的多个第二距离；根据所述多个第二距离，确定所述第一表面到所述第一参考平面的距离。

在一种可能的设计中，所述N个对象包括第三对象，所述第三对象对应于包括第四三维点云的第三三维对象，所述第三三维对象是所述三维环境空间中的第三物体的一部分；所述处理单元803，具体用于：获取语义地图，所述语义地图为包括所述三维环境空间的三维图像；根据所述语义地图以及所述第四三维点云，确定所述第三物体对应的第五三维点云；将所述第五三维点云投影到所述第一参考平面上，以得到所述第五三维点云在所述第一参考平面的第二投影区域；确定所述第五三维点云中多个第三三维点到所述第一参考平面的多个第三距离；根据所述第二投影区域和所述多个第三距离，确定所述第三物体的三维尺寸。

在一种可能的设计中，所述识别单元801，具体用于：对所述第一图像进行语义分割，以得到针对所述N个对象的N个备选像素点集合、不针对特定对象的第一像素点集合；根据所述N个备选像素点集合中的每个备选像素点集合中的多个第一像素点的第一信息，以及所述第一像素点集合中的多个第二像素点的第一信息，在所述每个备选像素点集合中添加所述多个第二像素点中的至少一个第二像素点，以得到所述N个对象中的一个对象，该对象包括的像素点集合中包括该对象的备选像素点集合和所述至少一个第二像素点；其中，所述第一信息包括如下至少一项：深度信息或彩色信息。

在一种可能的设计中，所述第一参考平面为地面。

需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。在本申请的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现，或者采用软件和硬件结合的形式实现。

本领域内的技术人员应明白，本发明实施例可提供为方法、系统、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

以上所述，仅为本申请的具体实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请实施例的保护范围应所述以权利要求的保护范围为准。

Claims

一种图像中物体的空间维度测量方法，其特征在于，包括：

对第一图像进行识别，以得到所述第一图像中的N个对象，所述N为大于或等于1的整数，N个对象中每个对象包括一像素点集合，所述像素点集合包括多个像素点；

将N个对象转换为对应所述N个对象的N个三维对象，每个三维对象包括一三维点云、且是所述第一图像所在的三维环境空间中一物体的至少一部分；

根据所述三维环境空间中的第一参考平面和所述N个三维对象，确定N个物体的空间维度，所述N个物体中每个物体的空间维度包括如下至少一项：所述物体的至少一个表面到所述第一参考平面的距离、或所述物体的三维尺寸，所述至少一个表面与所述第一参考平面平行。
根据权利要求1所述的方法，其特征在于，所述N个对象包括第一对象，所述第一对象对应于包括第一三维点云的第一三维对象，所述第一三维对象是所述三维环境空间中的第一物体；

所述根据所述三维环境空间中的第一参考平面和所述N个三维对象，确定所述N个物体的空间维度，包括：

将所述第一三维点云投影到所述第一参考平面上，以得到所述第一三维点云在所述第一参考平面的第一投影区域；

确定所述第一三维点云中多个第一三维点到所述第一参考平面的多个第一距离；

根据所述第一投影区域和所述多个第一距离，确定所述第一物体的三维尺寸。
根据权利要求1或2所述的方法，其特征在于，所述N个对象包括第二对象，所述第二对象对应于包括第二三维点云的第二三维对象，所述第二三维对象是所述三维环境空间中的第二物体；

所述根据所述三维环境空间中的第一参考平面和所述N个三维对象，确定所述N个物体的空间维度，包括：

在所述第二三维点云中确定与所述第二物体的第一表面所对应的第三三维点云，所述第一表面与所述第一参考平面平行；

确定所述第三三维点云中多个第二三维点到所述第一参考平面的多个第二距离；

根据所述多个第二距离，确定所述第一表面到所述第一参考平面的距离。
根据权利要求1-3中任一项所述的方法，其特征在于，所述N个对象包括第三对象，所述第三对象对应于包括第四三维点云的第三三维对象，所述第三三维对象是所述三维环境空间中的第三物体的一部分；

所述根据所述三维环境空间中的第一参考平面和所述N个三维对象，确定所述N个物体的空间维度，包括：

获取语义地图，所述语义地图为包括所述三维环境空间的三维图像；

根据所述语义地图以及所述第四三维点云，确定所述第三物体对应的第五三维点云；

将所述第五三维点云投影到所述第一参考平面上，以得到所述第五三维点云在所述第一参考平面的第二投影区域；

确定所述第五三维点云中多个第三三维点到所述第一参考平面的多个第三距离；

根据所述第二投影区域和所述多个第三距离，确定所述第三物体的三维尺寸。
根据权利要求1-4中任一项所述的方法，其特征在于，所述对第一图像进行识别，以得到所述第一图像中的N个对象，包括：

对所述第一图像进行语义分割，以得到针对所述N个对象的N个备选像素点集合、不针对特定对象的第一像素点集合；

根据所述N个备选像素点集合中的每个备选像素点集合中的多个第一像素点的第一信息，以及所述第一像素点集合中的多个第二像素点的第一信息，在所述每个备选像素点集合中添加所述多个第二像素点中的至少一个第二像素点，以得到所述N个对象中的一个对象，该对象包括的像素点集合中包括该对象的备选像素点集合和所述至少一个第二像素点；

其中，所述第一信息包括如下至少一项：深度信息或彩色信息。
根据权利要求5所述的方法，其特征在于，所述至少一个第二像素点中的每个第二像素点、与所述对象的备选像素点集合中的至少一个第一像素点之间的相似度距离小于或等于第一预设阈值，任一第二像素点与任一第一像素点的相似度距离由所述任一第二像素点的第一信息和所述任一第一像素点的第一信息得到。
根据权利要求5或6所述的方法，其特征在于，所述至少一个第二像素点中的所述每个第二像素点在所述第一图像中的位置、与所述对象的备选像素点集合中的至少一个第一像素点在所述第一图像中的位置之间的距离小于或等于第二预设阈值。
根据权利要求1-7中任一项所述的方法，其特征在于，所述第一参考平面为地面。
一种图像中物体的空间维度测量装置，其特征在于，所述装置包括识别单元，转换单元以及处理单元；

其中，所述识别单元，用于对第一图像进行识别，以得到所述第一图像中的N个对象，所述N为大于或等于1的整数，N个对象中每个对象包括一像素点集合，所述像素点集合包括多个像素点；

所述转换单元，用于将N个对象转换为对应所述N个对象的N个三维对象，每个三维对象包括一三维点云、且是所述第一图像所在的三维环境空间中一物体的至少一部分；

所述处理单元，用于根据所述三维环境空间中的第一参考平面和所述N个三维对象，确定N个物体的空间维度，所述N个物体中每个物体的空间维度包括如下至少一项：所述物体的至少一个表面到所述第一参考平面的距离、或所述物体的三维尺寸，所述至少一个表面与所述第一参考平面平行。
根据权利要求9所述的装置，其特征在于，所述N个对象包括第一对象，所述第一对象对应于包括第一三维点云的第一三维对象，所述第一三维对象是所述三维环境空间中的第一物体；

所述处理单元，具体用于：

将所述第一三维点云投影到所述第一参考平面上，以得到所述第一三维点云在所述第一参考平面的第一投影区域；

确定所述第一三维点云中多个第一三维点到所述第一参考平面的多个第一距离；

根据所述第一投影区域和所述多个第一距离，确定所述第一物体的三维尺寸。
根据权利要求9或10所述的装置，其特征在于，所述N个对象包括第二对象，所述第二对象对应于包括第二三维点云的第二三维对象，所述第二三维对象是所述三维环境空间中的第二物体；

所述处理单元，具体用于：

在所述第二三维点云中确定与所述第二物体的第一表面所对应的第三三维点云，所述第一表面与所述第一参考平面平行；

确定所述第三三维点云中多个第二三维点到所述第一参考平面的多个第二距离；

根据所述多个第二距离，确定所述第一表面到所述第一参考平面的距离。
根据权利要求9-11中任一项所述的转置，其特征在于，所述N个对象包括第三对象，所述第三对象对应于包括第四三维点云的第三三维对象，所述第三三维对象是所述三维环境空间中的第三物体的一部分；

所述处理单元，具体用于：

获取语义地图，所述语义地图为包括所述三维环境空间的三维图像；

根据所述语义地图以及所述第四三维点云，确定所述第三物体对应的第五三维点云；

将所述第五三维点云投影到所述第一参考平面上，以得到所述第五三维点云在所述第一参考平面的第二投影区域；

确定所述第五三维点云中多个第三三维点到所述第一参考平面的多个第三距离；

根据所述第二投影区域和所述多个第三距离，确定所述第三物体的三维尺寸。
根据权利要求9-12中任一项所述的装置，其特征在于，所述识别单元，具体用于：

对所述第一图像进行语义分割，以得到针对所述N个对象的N个备选像素点集合、不针对特定对象的第一像素点集合；

根据所述N个备选像素点集合中的每个备选像素点集合中的多个第一像素点的第一信息，以及所述第一像素点集合中的多个第二像素点的第一信息，在所述每个备选像素点集合中添加所述多个第二像素点中的至少一个第二像素点，以得到所述N个对象中的一个对象，该对象包括的像素点集合中包括该对象的备选像素点集合和所述至少一个第二像素点；

其中，所述第一信息包括如下至少一项：深度信息或彩色信息。
根据权利要求13所述的装置，其特征在于，所述至少一个第二像素点中的每个第二像素点、与所述对象的备选像素点集合中的至少一个第一像素点之间的相似度距离小于或等于第一预设阈值，任一第二像素点与任一第一像素点的相似度距离由所述任一第二像素点的第一信息和所述任一第一像素点的第一信息得到。
根据权利要求13或14所述的装置，其特征在于，所述至少一个第二像素点中的所述每个第二像素点在所述第一图像中的位置、与所述对象的备选像素点集合中的至少一个第一像素点在所述第一图像中的位置之间的距离小于或等于第二预设阈值。
根据权利要求9-15中任一项所述的装置，其特征在于，所述第一参考平面为地面。
一种图像中物体的空间维度测量装置，其特征在于，所述装置包括存储器和处理器；

其中，所述存储器，用于存储软件程序；

处理器，用于读取所述存储器中的软件程序并执行权利要求1至权利要求8中任一项所述的方法。
一种计算机存储介质，其特征在于，所述存储介质中存储软件程序，该软件程序在被一个或多个处理器读取并执行时实现权利要求1至权利要求8中任一项所述的方法。
一种计算机程序产品，其特征在于，所述计算机程序产品包含的程序代码在计算机上运行时，使得所述计算机执行如权利要求1至权利要求8中任一项所述的方法。