WO2023005922A1

WO2023005922A1 - 人-物体场景识别方法、装置及计算机可读存储介质

Info

Publication number: WO2023005922A1
Application number: PCT/CN2022/107908
Authority: WO
Inventors: 董初桥; 邵丹; 修震; 郭德骏; 谭欢
Original assignee: 深圳市优必选科技股份有限公司
Priority date: 2021-07-27
Filing date: 2022-07-26
Publication date: 2023-02-02
Also published as: US11854255B2; US20230030837A1; CN115777117A

Abstract

本发明提供了人-物体场景识别方法、装置及计算机可读存储介质，该方法包括：获取输入RGB图像和与该RGB图像对应的深度图像；使用基于样本数据库的分割分类算法检测该RGB图像中的物体和人；响应于检测到物体和/或人，基于该RGB图像和该深度图像对每个检测到的物体和/或人进行片段检测，并获取该片段检测的结果；根据该片段检测的结果为每个检测到的物体和/或人计算3D边界框；和根据该3D边界框确定每个检测到的物体和/或人的位置。该方法允许机器人在避免碰撞的同时自动设置目标位置和导航。该方法还可以提供目标物体是否在场景中、目标物体的位置以及人/其他人是否在目标物体附近的语义信息等应用场景。

Description

人-物体场景识别方法、装置及计算机可读存储介质

技术领域

本发明涉及物体识别领域，尤其涉及一种人-物体场景识别方法、装置及计算机可读存储介质。

背景技术

场景理解是基于图像分析的更深层次的物体检测、识别和推理。在图像理解的基础上，对图像数据进行处理，以获得对图像所反映的场景内容的理解。

常规的图像资源利用通常分析低级视觉特征，例如颜色、形状和纹理。然而，低级视觉特征仅代表视觉信息。在忽略图像内容中包含的语义信息的情况下，物体和/或人的定位误差较大，对图像中场景的理解存在偏差。

因此，需要提供一种方法和装置来克服上述问题。

发明内容

因此，本发明提供一种人-物体场景识别方法来克服上述问题。

为了解决上述技术问题，本发明提供了一种由一个或多个处理器执行的计算机实现的人-物场景识别方法，该方法包括：获取输入RGB图像和与该RGB图像对应的深度图像；使用基于样本数据库的分割分类算法检测该RGB图像中的物体和人；响应于检测到物体和/或人，基于该RGB图像和该深度图像对每个检测到的物体和/或人进行片段检测，并获取该片段检测的结果；根据该片段检测的结果为每个检测到的物体和/或人计算3D边界框；和根据该3D边界框确定每个检测到的物体和/或人的位置。

可选的，在获取输入RGB图像和与该RGB图像对应的深度图像之前，该方法还包括：将一兴趣物设置为目标物体。

可选的，在根据该3D边界框确定每个检测到的物体和/或人的位置之后，该方法还包括：根据该3D边界框确定该RGB图像中检测到的物体是否包括该目标物体；响应于检测到该目标物体，获取检测到的物体和/或人和检测到的目标物体的具有最小体积的3D边界框的三维位置和方向；和根据该三维位置和方位确定检测到的物体和/或人中的一个或多个与检测到的目标物体之间的位置关系。

可选的，使用基于样本数据库的分割分类算法检测该RGB图像中的物体和人包括：为该RGB图像中的物体和人生成分割掩模，以获取该RGB图像中每个物体和人对应的像素坐标。

可选的，基于该RGB图像和该深度图像对每个检测到的物体和/或人进行片段检测包括：使用腐蚀算法向内收缩该RGB图像和该深度图像的每个片段中的物体和/或人的轮廓，以获得该RGB图像和该深度图像的每个片段中的物体和/或人的置信片段；和使用Convex Hull算法计算与收缩数据相对应的3D边界框，以补偿该RGB图像和该深度图像中的每个片段中的物体和/或人的体积。

可选的，根据该片段检测的结果为每个检测到的物体和/或人计算3D边界框之后，该方法还包括：确定是否需要将同一物体类别的两个或多个段合并为所述物体或人之一。

可选的，确定是否需要将同一物体类别的两个或多个段合并为所述物体或人之一包括：根据所述两个或多个片段的3D边界框的三维位置、方向、大小和公差阈值距离确定所述两个或多个片段是否是所述物体或人之一的一部分；响应于所述两个或多个片段是所述物体或人之一的一部分，将所述两个或多个片段合并为所述物体或人之一；和响应于所述两个或多个片段不是所述物体或人之一的一部分，确定不将所述两个或多个片段合并为所述物体或人之一。

可选的，根据该三维位置和方位确定检测到的物体和/或人中的一个或多个与检测到的目标物体之间的位置关系包括：基于所述目标物体和检测到的物体和/或人中的一个或多个的的3D边界框的信息，通过执行基于立体的计算来确定所述检测到的物体和/或人中的一个或多个是否在所述检测到的目标物体附近。

可选的，基于所述目标物体和检测到的物体和/或人中的一个或多个的的3D边界框的信息，通过执行基于立体的计算来确定所述检测到的物体和/或人中的一个或多个是否在所述检测到的目标物体附近，包括：将所述检测到的物体或人的3D边界框在一支撑面上的投影形成的第一2D边界框的位置与所述目标物体的3D边界框在该支撑面上的投影形成的第二2D边界框的位置进行比较；响应于所述第一2D边界框的位置与所述第二2D边界框的位置重叠，确定所述检测到的物体和/或人中的一个或多个在所述检测到的目标物体附近；响应于所述第一2D边界框的位置不与所述第二2D边界框的位置重叠，确定所述第一2D边界框和所述第二2D边界框旋转后所述第一2D边界框的位置是否与所述第二2D边界框的位置重叠；响应于在所述第一2D边界框和第二2D边界框旋转后所述第一2D边界框的位置与所述第二2D边界框的位置重叠，确定所述检测到的物体和/或人中的一个或多个靠近所述检测到的目标物体；响应于所述第一2D边界框和所述第二2D边界框旋转后所述第一2D边界框的位置不与所述第二2D边界框的位置重叠，确定所述第一2D边界框和所述第二2D边界框的位置之间的最短距离是否小于一可变阈值；响应于所述第一2D边界框和所述第二2D边界框的位置之间的最短距离小于所述可变阈值，确定所述检测到的物体和/或人中的一个或多个在所述检测到的目标物体附近。

可选的，在根据该三维位置和方位确定检测到的物体和/或人中的一个或多个与检测到的目标物体之间的位置关系之后，所述方法还包括：输出所述检测到的物体或人和目标物体。

可选的，在通过基于该RGB图像和该深度图像对每个所述检测到的物体和/或人执行片段检测以及对每个所述检测到的物体和/或人执行3D边界框计算确定每个所述检测到的物体和/或人的位置之后，该方法还包括：输出具有相应分类名称的所述每个检测到的物体和/或人，以及所述检测到的物体和/或人的3D边界框。

可选的，在根据该3D边界框确定每个检测到的物体和/或人的位置之后，该方法还包括：根据所述检测到的物体和/或人的确定的位置控制一机器人执行预定任务。

可选的，在根据该三维位置和方位确定检测到的物体和/或人中的一个或多个与检测到的目标物体之间的位置关系之后，该方法还包括：确定与该位置关系对应的任务；和控制一机器人执行该任务。

本发明还提供人-物体识别装置，包括：一个或多个处理器；存储器；和一个或多个程序，其中，所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括：获取输入RGB图像和与该RGB图像对应的深度图像的指令；使用基于样本数据库的分割分类算法检测该RGB图像中的物体和人的指令；响应于检测到物体和/或人，基于该RGB图像和该深度图像对每个检测到的物体和/或人进行片段检测并获取该片段检测的结果的指令；根据该片段检测的结果为每个检测到的物体和/或人计算3D边界框的指令；和根据该3D边界框确定每个检测到的物体和/或人的位置的指令。

本发明还提供一种非暂时性计算机可读存储介质，其存储要由一人-物体识别装置的一个或多个处理器执行的一个或多个程序，该一个或多个程序在由所述一个或多个处理器执行时，使该人-物体识别装置执行处理，包括：获取输入RGB图像和与该RGB图像对应的深度图像；使用基于样本数据库的分割分类算法检测该RGB图像中的物体和人；响应于检测到物体和/或人，基于该RGB图像和该深度图像对每个检测到的物体和/或人进行片段检测，并获取该片段检测的结果；根据该片段检测的结果为每个检测到的物体和/或人计算3D边界框；和根据该3D边界框确定每个检测到的物体和/或人的位置。

本发明技术方案，具有如下优点：根据本公开的实施例的机器人识别人-物场景的方法允许机器人在避免碰撞的同时自动设置目标位置和导航。此外，该方法还可以提供目标物体是否在场景中、目标物体的位置以及人/其他人是否在目标物体附近的语义信息等应用场景。

附图说明

并入本文并形成说明书的一部分的附图说明了本公开的实施例，并且与描述一起进一步用于解释本公开的原理并使相关领域的技术人员能够制作和使用本公开。为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是一实施方式的机器人的示意图。

图2是一实施方式的机器人的示意性框图。

图3示出了包括远离椅子站立的人的示例性场景的图像。

图4示出了包括坐在椅子上的人的示例性场景的图像。

图5示出了包括床和远离床站立的椅子的示例性场景的图像。

图6示出了包括床和靠近床的床头柜的示例性场景的图像。

图7示出了包括一张桌子和两把椅子的示例性场景的图像。

图8是根据一个实施例的人-物场景识别方法的示例性流程图。

图9是根据另一实施例的人-物场景识别方法的示例性流程图。

图10是图9的方法的步骤S98的示例性流程图。

图11是机器人识别人-物场景的方法中的计算机程序的处理逻辑流程图。

图12是根据一个实施例的人-物识别装置的示意框图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现在将详细参考示例性实施例，其示例在附图中示出。在可能的情况下，将在整个附图中使用相同的附图标记来指代相同或相似的部分。

尽管讨论了具体的配置和布置，但应该理解，这样做只是为了说明的目的。相关领域的技术人员将认识到，在不背离本公开的精神和范围的情况下，可以使用其他配置和布置。对于相关领域的技术人员显而易见的是，本公开还可以用于各种其他应用中。

需要注意的是，说明书中对“一个实施例”、“示例实施例”、“一些实施例”、“某些实施例”等的提及表明所描述的实施例可以包括特定的特征(feature)、结构或特性(characteristic)，但每个实施例可能不一定包括特定特征、结构或特性。此外，这些短语不一定指相同的实施例。此外，当结合一实施例描述特定特征、结构或特性时，实现与其他实施例相关的这种特征、结构或特性，是在相关领域的技术人员的知识范围内的，无论是否明确描述。

一般而言，术语可以至少部分地从上下文中的使用来理解。例如，至少部分取决于上下文，如本文所用的术语“一个或多个”可用于以单数意义描述任何特征、结构或特性，或者可用于以复数意义描述特征、结构或特性的组合。类似地，至少部分地取决于上下文，诸如“一个”或“该”之类的术语也可以被理解为传达单数用法或传达复数用法。此外，术语“基于”可以被理解为不一定旨在传达一组排他的因素，并且可以相反地允许存在不一定明确描述的附加因素，这再次至少部分地取决于上下文。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

图1是根据一实施例的机器人10的示意图。图2根据是一实施例的机器人10的示意性框图。机器人10可以是移动机器人(例如，轮式机器人)。机器人10可以在各种应用环境中工作，例如医院、工厂、仓库、商场、街道、机场、家庭、养老中心、博物馆、餐厅、酒店、甚至野外等。图1仅是说明性示例。机器人10可以是其他类型的机器人。

在一个实施例中，机器人10可以包括摄像头101、致动器102、移动机构103、处理器104、存储器105和通信接口模块106。摄像头101可以例如是设置在机器人10的机体上的RGB-D三维传感器。摄像头101与处理器104电连接，用于将拍摄的图像数据传输给处理器104。致动器102可以是电机或舵机。移动机构103可以包括一个或多个轮子和/或轨道，轮子作为示例在图1中示出。致动器102与移动机构103和处理器104电连接，其可根据处理器104的指令驱动移动机构103的运动。

存储器105可以包括非暂时性计算机可读存储介质。存储器105中存储有一个或多个可执行计算机程序107。处理器104与存储器105电连接，并通过执行存储器105中存储的可执行计算机程序来执行相应的操作。通信接口模块106可以包括无线发送器、无线接收器和可由处理器104执行的计算机程序。通信接口模块106电连接到处理器104并且被配置用于处理器104和外部设备之间的通信。在一个实施例中，相机101、致动器102、移动机构103、处理器104、存储器105和通信接口模块106可以通过总线相互连接。

当处理器104执行计算机程序107时，控制机器人10的方法的实施例中的步骤，例如图1中的步骤S81至S86、图8中的步骤S91至S98、图9中的步骤S981至S987被执行。

处理104可以是中央处理单元(CPU)、通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、可编程逻辑器件、分立门、晶体管逻辑器件或分立硬件组件。通用处理器可以是微处理器或任何常规处理器等。

存储器105可以是机器人10的内部存储单元，例如硬盘或存储器。存储器105也可以是机器人10的外部存储设备，例如插入式硬盘、智能存储卡(SMC)和安全数字(SD)卡、或任何合适的闪存卡。此外，存储器105还可以同时包括内部存储单元和外部存储设备。存储器105用于存储机器人所需的计算机程序、其他程序和数据。存储器105还可以用于临时存储已经输出或即将输出的数据。

示例性地，一个或多个计算机程序107可以被划分为一个或多个模块/单元，并且所述一个或多个模块/单元存储在存储器105中并且可由处理器104执行。所述一个或多个模块/单元可以是一系列能够执行特定功能的计算机程序指令段，所述指令段用于描述机器人10中的一个或多个计算机程序107的执行过程。例如，一个或多个计算机程序112可以分为获取单元、检测单元、识别单元和控制单元。获取单元，用于获取输入的RGB图像和与RGB图像对应的深度图像。检测模块用于利用基于样本数据库的分割分类算法检测RGB图像中的物体和人。识别单元用于响应于检测到物体和/或人，通过基于RGB图像和深度图像对每个检测到的物体和/或人进行片段检测并通过对每个检测到的物体和/或人类执行3D边界框计算来确定每个检测到的物体和/或人的位置。控制单元用于根据检测到的物体和/或人的确定的位置控制一机器人执行预定任务。

根据本公开的实施例的机器人识别人-物场景的方法允许机器人在避免碰撞的同时自动设置目标位置和导航。此外，该方法还可以提供目标物体是否在场景中、目标物体的位置以及人/其他人是否在目标物体附近的语义信息等应用场景。具体来说，参照图11，RGB图像和对应的深度图像被输入。该RGB图像将首先经过分割分类算法，用于检测场景中的常见物体和人类。在生成最终的3D边界框之前，需要检测是否应该将单独的片段合并为一个物体。每个检测到的物体/人的3D边界框的最终信息被生成并将其设置为独立输出，这可直接用于机器人目标位置设置和/或在需要的情况下在导航过程中避免碰撞。客户指定的兴趣物(object(s)of interest)可以作为目标物体，用于计算人-物体或物体-物体关系。仅当场景中存在目标物体(以及人，如果仅定义一个物体)时，才能执行检测到的物体/人是否在目标物体附近的分析。利用目标物体和人的3D边界框的信息，基于立体的计算步骤被执行以进行“近”检查。人是否靠近目标物体或者两个或更多目标物体是否彼此靠近的输出被生成。借助这种人/物-环境交互信息，可以实现对机器人-人-环境交互的指导。

对人物关系场景的理解的代表性结果示于图3和图4中。具体来说，图3 和4示出了包含人和椅子的图像，这些图像由包含的机器人的照相机101拍摄。在图3中，人站在远离椅子的位置，而在图4中，人站在椅子后面。在每幅图像中，左上角显示了场景中存在的目标物体(即椅子)的识别结果，以及人是否靠近目标物体的信息。物体-物体关系场景的理解的代表性结果示于图5-7中。具体来说，图5显示了远离床的椅子。图6显示了与床接触的床头柜。图7显示了靠近桌子的两把椅子。在每幅图像中，左上角显示了目标物体的识别结果以及目标物体是否彼此靠近的信息。

在一个实施例中，每个图像中识别的人/物体被3D边界框包围。例如，图图3和5-7中识别的人和椅子被3D边界框301、302、501、502、601、602、701、702和703包围。应该注意的是，图4中识别的人/椅子周围的2D边界框仅用于代表目的。

机器人在移动的同时通过摄像头101拍摄图像，并将拍摄的图像发送给处理器104。处理器104通过执行可执行的计算机程序107对拍摄的图像进行处理，以完成人-物场景的识别。具体地，处理过程为：获取输入RGB图像和RGB图像对应的深度图像；使用基于样本数据库的分割分类算法检测该RGB图像中的物体和人；响应于检测到物体和/或人，通过基于RGB图像和深度图像对每个检测到的物体和/或人执行片段检测，并且通过对每个检测到的物体和/或人执行3D边界框计算，确定每个检测到的物体和/或人的位置。

图8示出了根据一个实施例的识别人-物场景的方法的示例性流程图。可以执行该方法来控制如图1和2中所示的机器人10的运动。具体可以通过图2所示的机器人10或者其他电连接到机器人10的控制装置来执行。控制装置可以包括但不限于：台式电脑、平板电脑、膝上型电脑、多媒体播放器、服务器、智能移动设备(如智能手机、手持电话等)和智能穿戴设备(如智能手表、智能眼镜、智能相机、智能手环等)和其他具有计算和控制能力的计算设备。在一个实施例中，该方法可以包括步骤S81至S86。

步骤S81：获取输入RGB图像和RGB图像对应的深度图像。

在一个实施例中，机器人10上配备的RGB-D三维传感器采集机器人前方的场景图像，以获得该RGB图像和RGB图像对应的深度图像。

步骤S82：使用基于样本数据库的分割分类算法检测该RGB图像中的物体和人。

在一个实施例中，图像的分割检测是利用深度学习方法检测输入的单个RGB图像中的物体和人。需要注意的是，RGB图像中可能只有物体，RGB图像中可能只有人，或者RGB图像中有人和物体。在一实施例中，物体与人是指常见的物体与人，即为通常意义上的物体与人，并不特指特定的人或特定的物体。每个场景中可能出现的各种常见物体和人的图像特征被预先存储，这可以作为图像检测中确定常见物体和人的特征的依据。

步骤S83：响应于检测到物体和/或人，基于该RGB图像和该深度图像对每个检测到的物体和/或人进行片段检测，并获取该片段检测的结果。

在检测到的物体和/或人的每个片段中，在考虑摄像头参数的情况下，可以将每个片段的像素的深度值用于三维坐标计算。深度值可以从RGB图像对应的深度图像中获得。

步骤S84：根据该片段检测的结果为每个检测到的物体和/或人计算3D边界框。

步骤S85：根据该3D边界框确定每个检测到的物体和/或人的位置。

步骤S86：根据检测到的物体和/或人的确定的位置控制一机器人执行预定任务。

预定任务对应于检测到的对象和人的位置。机器人可以根据识别场景中物体和人的位置分布，选择与检测到的物体和人的位置对应的预设任务。预定任务可以包括绕过障碍物、缓慢移动、交互等。

需要说明的是，图8所示的方法可以由其他设备执行，例如配备有深度相机的计算机。在这种情况下，计算机可以在步骤S83之后将检测到的物体和/或人的确定的位置输出给用户。

图9示出了根据一个实施例的机器人识别人-物体场景的方法的示例性流程图。可以执行该方法来控制图1和2中所示的机器人10的运动。具体可以由图2所示的机器人10或其他电连接到机器人10的控制装置来执行。

在一个实施例中，该方法可以包括步骤S91至S98。

步骤S91：将兴趣物(object of interest)设置为目标物体。

在一个实施例中，用户可以通过机器人或计算机输入物体的名称、形状、轮廓、尺寸和其他数据来定义兴趣物。用户输入的一个或多个物体作为兴趣物，作为确定人-物或物-物关系的依据。如图3所示，椅子被设为目标物体，在每一帧图像中确定人是否靠近椅子。

在一个实施例中，“靠近”是指一个或多个兴趣物与另一物体或人的至少一个表面接触。当一个或多个兴趣物没有与物体或人的任何表面接触时，确定为“不在附近”。在一个实施例中，只有当目标物体存在于场景中时(如果只定义一个目标物体，则为人)，才能分析目标物体是否靠近另一个物体或人。可以预设距离阈值作为“靠近”的标准。

步骤S92：获取输入RGB图像和RGB图像对应的深度图像。

步骤S93：使用基于样本数据库的分割分类算法检测该RGB图像中的物体和人。

在一个实施例中，分割分类算法用于检测场景中的常见物体和人。可以使用深度学习方法(例如，Mask-RCNN算法)来执行图像的分割检测。该算法对RGB图像中的物体和人进行检测，检测的结果是为RGB图像中的常见物体和人生成分割掩模(segmentation mask)，得到每个常见物体和人的像素坐标。可以检测到图像中的全部或部分物体和人。

步骤S94：响应于没有检测到物体和人，输出检测结果。

步骤S95：响应于检测到物体和人，基于RGB图像和深度图像对检测到的每个物体和/或人进行片段检测，并对每个检测到的物体和/或人进行3D边界框计算。

在检测到的物体和/或人的每个片段中，在考虑摄像头参数的情况下，可以将每个片段的像素的深度值用于三维坐标计算。

在一实施例中，基于该RGB图像和该深度图像对每个检测到的物体和/或人进行片段检测可以包括：使用腐蚀算法(erode algorithm)向内收缩该RGB图像和该深度图像的每个片段中的物体和/或人的轮廓，以获得该RGB图像和该深度图像的每个片段中的物体和/或人的置信片段；以及使用Convex Hull算法计算与收缩数据相对应的3D边界框，以补偿该RGB图像和该深度图像中的每个片段中的物体和/或人的体积。

每个片段中的轮廓像素，例如图4中的人与背景片段之间的像素，具有最高的误分类可能性。为了消除这种错误分类问题并提高鲁棒性，需要一种方法来缩小片段的轮廓并补偿体积。该方法是利用腐蚀算法向内收缩检测到的物体/人的轮廓，通过定义迭代次数来改变收缩次数。值得注意的是，迭代次数是一个可调整的参数，并且对于不同的物体/人可以是不同的。收缩导致物体/人的可靠分割。然后使用Convex Hull算法计算收缩后的数据对应的3D边界框。作为可调节变量的3D边界框的值会增加一定量。这个过程称为体积补偿。需要注意的是，上述计算是针对每个段进行的。稍后，将根据相同物体/人的相对位置来确定是否进行合并操作。

沿着片段的轮廓收缩的像素和要添加的体积值是可以调整以达到最佳平衡的参数。具体来说，根据摄像头安装高度和量子信息(quantronium information)，可以使用基架X-、Y-和Z-坐标来表示每个片段的点群，其中X-Y平面是现实世界中的地面，Z-代表高度。假设这里讨论的所有物体(尤其是家具)和人类在基架(base frame)中都是动态稳定的，那么后面讨论的所有3D边界框都至少有一个平行于X-Y平面的平面。

为了保持每个计算步骤的最小内存/CPU成本，对每个片段的点群应用 Convex Hull计算。Convex Hull计算是保存数据最少的目标物体的形状数据，目标物体是指当前正在分析的物体。Convex Hull计算方法具体是指基于物体最外轮廓的顶点坐标的方法。在算法层面，Convex Hull可以计算每个点是否包含在其余点形成的封闭图(closed graph)中。如果它包含在封闭图中，则该点将被丢弃。如果不包含在闭合图中，则将该点作为新的贡献点以形成一封闭图，直到没有一个点可以被其余点形成的封闭图包围。

应当注意，Convex Hull仅适用于投影坐标到每个点群的X-Y平面，并且对于Z值，仅需要最小/最大值。不是最初在每个片段的点群中使用数千个点，可以提取30个点作为Convex Hull点，这些点保留所有用于3D边界框计算的有用信息。这里，有用的信息是指正在处理的物体/人的坐标、形状、大小和姿势。Convex Hull点是Convex Hull算法的输出结果。这些Convex Hull点在地平面上的投影是物体/人在地平面上投影的外边界的顶点。Convex Hull点的高度为物体/人上下平面的高度值，这里随机选择上表面高度或下表面高度。

步骤S96：确定同一物体类别的两个或多个片段是否需要合并为物体或人之一。

在一个实施例中，首先根据图像的3D边界框的三维位置、方向、大小和公差阈值距离确定两个或多个片段是否是物体或人之一的一部分。由于遮挡，一个物体/人可能包括多个不连续的片段。因此，有必要确定两个或多个片段是否是一个物体/人的一部分。响应于两个或多个片段是物体或人之一的一部分，将两个或多个片段合并为物体或人之一。响应于两个或多个片段不是物体或人之一的一部分，确定不将两个或更多个片段合并为物体或人之一。

具体地，由于遮挡，同一物体类别的片段可能是同一物体的多个片段。例如，由于椅子的存在，图7中的桌子被分成三个片段1、2和3。因此，在生成最终的3D边界框之前，执行额外的步骤来检查两个或更多片段是否需要合并为一个物体/人。计算是基于每个片段的边界框的三维位置、方向和大小。公差阈值距离也被设置为可调整的参数以获得最佳性能。

步骤S97：输出每个检测到的物体和/或人的对应分类名称，以及检测到的物体和/或人的3D边界框。

在步骤S96之后，生成每个物体/人的3D边界框的信息并设置为独立的输出，这可以直接用于机器人在需要的情况下在导航过程中自动设置目标位置和/或避免碰撞。

步骤S98：根据3D边界框确定RGB图像中检测到的物体是否包括目标物体；响应于检测到目标物体，获取检测到的物体和/或人和检测到的目标物体的具有最小体积的3D边界框的三维位置和方向；根据三维位置和方位确定检测到的物体和/或人中的一个或多个与检测到的目标物体之间的位置关系，并且根据位置关系确定预定任务。

在一个实施例中，根据三维位置和方位确定检测到的物体和/或人中的一个或多个与检测到的目标物体之间的位置关系可以包括：通过基于检测到的物体和检测到的物体和/或人中的一个或多个的3D边界框的信息执行基于立体的计算确定检测到的物体和/或人中的一个或多个是否在检测到的目标物体附近。

在一实施例中，根据三维位置和方位确定检测到的物体和/或人中的一个或多个与检测到的目标物体之间的位置关系可以包括：通过基于检测到的物体和一个或多个检测到的物体的3D边界框的信息执行基于立体的计算来确定检测到的物体和/或人中的一个或多个是否在检测到的目标物体附近。参照图10，步骤S98可以包括以下步骤。

步骤S981：将所述检测到的物体或人的3D边界框在一支撑面上(例如，地板、地面等)的投影形成的第一2D边界框的位置与所述目标物体的3D边界框在该支撑面上的投影形成的第二2D边界框的位置进行比较。

具体地，将一个目标物体之外的物体或人与目标物体进行比较，以确定物体或人与目标物体之间的位置关系。位置关系包括“近”和“不近”。

步骤S982：响应于所述第一2D边界框的位置与所述第二2D边界框的位置重叠，确定所述检测到的物体和/或人中的一个或多个在所述检测到的目标物体附近。

步骤S983：响应于所述第一2D边界框的位置不与所述第二2D边界框的位置重叠，确定所述第一2D边界框和所述第二2D边界框旋转后所述第一2D边界框的位置是否与所述第二2D边界框的位置重叠。

步骤S984：响应于在所述第一2D边界框和第二2D边界框旋转后所述第一2D边界框的位置与所述第二2D边界框的位置重叠，确定所述检测到的物体和/或人中的一个或多个靠近所述检测到的目标物体。

步骤S985：响应于所述第一2D边界框和所述第二2D边界框旋转后所述第一2D边界框的位置不与所述第二2D边界框的位置重叠，确定所述第一2D边界框和所述第二2D边界框的位置之间的最短距离是否小于一可变阈值。

步骤S986：响应于所述第一2D边界框和所述第二2D边界框的位置之间的最短距离小于所述可变阈值，确定所述检测到的物体和/或人中的一个或多个在所述检测到的目标物体附近。

步骤S987：响应于所述第一2D边界框和所述第二2D边界框的位置之间的最短距离大于所述可变阈值，确定所述检测到的物体和/或人中的一个或多个不在所述检测到的目标物体附近。

通过输出物体或人是否靠近目标物体，或者多个目标物体(例如，两个目标物体)是否彼此靠近，可以实现机器人-人-环境交互的引导。

当由机器人实施时，根据前述实施例的方法可以基于RGB图像中机器人与物体/人之间的关系提供场景理解信息。场景理解信息可以包括目标物体与其他检测到的物体和/或人之间的位置关系，作为下一步进行操作的依据。这在人类到达目标物体的各种日常情况下可能至关重要，机器人将能够快速做出反应并相应地执行协助。例如，当老人坐在椅子上时，机器人会检测到这一场景并接近老人并根据需要提供水/食物/其他帮助。

根据前述实施例的方法具有如下优点。通过将分割分类结果与深度信息相结合，检测出物体和人在三维空间中的位置和方向，可以确定所有自定义输入物体的位置，并根据它们在当前场景中的存在来确定方向。这可以进一步用于机器人目标位置设置以及通过导航避免遮挡。请注意，可以根据机器人的位置变化动态更新位置和方向。引入收缩轮廓和补偿体积以消除误分类值。Convex Hull用于最小化内存/CPU成本，同时保留所有有用信息。引入了基于立体的计算方法，将遮挡导致的分割片段合并为一个物体。语义场景理解系统被开发并允许用户设置目标物体。该系统易于应用于任何场景或兴趣物。

根据前述实施例的方法可以用于对象立体信息计算，在当前场景中寻找目标物体，以及人-物和物-物关系的场景理解。RGBD相机传感器经济实惠，可以以不同的量子角(quantronium angle)布置在机器人的不同位置。借助知悉摄像头安装高度和量子值，可以生成机器人附近每个物体的相对位置/方位角和物体关系。

图12是根据一个实施例的人-物体识别装置的示意框图。人-物体识别装置可以包括但不限于：蜂窝电话、智能手机、其他无线通信设备、个人数字助理、音频播放器、其他媒体播放器、音乐录音机、录像机、相机、其他媒体记录器、收音机、车辆运输设备、笔记本电脑、台式电脑、上网本电脑、个人数字助理(PDA)、便携式多媒体播放器(PMP)、运动图像专家组(MPEG-1或MPEG-2)音频层3(MP3)播放器，便携式游戏设备(例如任天堂DS TM、PlayStation Portable TM)、Gameboy Advance TM、iPhone TM)、便携式互联网设备、数据存储设备、智能可穿戴设备(例如，头戴式设备(HMD)，例如智能眼镜、智能衣服、智能手环、智能项链或智能手表)、数码相机及其组合。根据实际需要，该设备可以安装在机器人上，也可以是机器人本身。在某些情况下，该装置可以执行多种功能，例如播放音乐、显示视频、存储图片以及接听和发送电话。

在一个实施例中，该装置可以包括处理器110、存储器111以及存储在存储器111中并且可由处理器110执行的一个或多个可执行计算机程序112。当处理器110执行计算机程序112时，机器人10的控制方法实施例中的步骤，例如图8中的步骤S81至S86，被执行。

示例性地，一个或多个计算机程序112可以被划分为一个或多个模块/单元，并且一个或多个模块/单元存储在存储器111中并且可由处理器110执行。一个或多个模块/单元可以是能够执行特定功能的一系列计算机程序指令段，指令段用于描述装置中的一个或多个计算机程序112的执行过程。例如，一个或多个计算机程序112可以被划分为获取单元、检测单元、识别单元和控制单元。

获取单元用于用于获取输入的RGB图像和与RGB图像对应的深度图像。检测模块用于利用基于样本数据库的分割分类算法检测RGB图像中的物体和人。识别单元用于响应于检测到物体和/或人，通过基于RGB图像和深度图像对每个检测到的物体和/或人进行片段检测并通过对每个检测到的物体和/或人类执行3D边界框计算来确定每个检测到的物体和/或人的位置。控制单元用于根据检测到的物体和/或人的确定的位置控制一机器人执行预定任务。

本领域技术人员可以理解，图12只是装置11的一个示例，并不构成对装置11的限制。在实际应用中，可以包括更多或更少的部件，或者某些部件的组合，或者不同的部件。例如，设备11还可以包括：输入/输出设备(如键盘、麦克风、摄像头、扬声器、显示屏等)、网络连接接入设备、总线、传感器等。

处理器110可以是中央处理单元(CPU)、通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、可编程逻辑器件、分立门、晶体管逻辑器件或分立硬件组件。通用处理器可以是微处理器或任何常规处理器等。

存储器111可以是内部存储单元，例如硬盘或存储器。存储器111也可以是外部存储设备，例如插入式硬盘、智能存储卡(SMC)和安全数字(SD)卡，或任何合适的闪存卡。此外，存储器111还可以同时包括内部存储单元和外部存储设备。存储器111用于存储机器人所需的计算机程序、其他程序和数据。存储器111还可以用于临时存储已经输出或即将输出的数据。

在一个实施例中，提供了一种非暂时性计算机可读存储介质。非暂时性计算机可读存储介质可以配置在图1所示的机器人10中或图12所示的装置中，非暂态计算机可读存储介质存储可执行的计算机程序，当程序由机器人10的一个或多个处理器执行时，上述实施例中描述的人物场景识别方法被执行。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

为了解释的目的，以上描述已经参照特定实施例进行了描述。然而，上述说明性讨论并不旨在穷举或将本公开限制为所公开的精确形式。鉴于上述教示，许多修改和变化都是可能的。选择和描述实施例是为了最好地解释本公开的原理及其实际应用，从而使本领域的其他技术人员能够最好地利用本公开和具有适合预期特定用途的各种修改的各种实施例。

Claims

一种由一个或多个处理器执行的计算机实现的人-物场景识别方法，该方法包括：

获取输入RGB图像和与该RGB图像对应的深度图像；

使用基于样本数据库的分割分类算法检测该RGB图像中的物体和人；

响应于检测到物体和/或人，基于该RGB图像和该深度图像对每个检测到的物体和/或人进行片段检测，并获取该片段检测的结果；

根据该片段检测的结果为每个检测到的物体和/或人计算3D边界框；和

根据该3D边界框确定每个检测到的物体和/或人的位置。
根据权利要求1所述的方法，其特征在于，在获取输入RGB图像和与该RGB图像对应的深度图像之前，该方法还包括：

将一兴趣物设置为目标物体。
根据权利要求2所述的方法，其特征在于，在根据该3D边界框确定每个检测到的物体和/或人的位置之后，该方法还包括：

根据该3D边界框确定该RGB图像中检测到的物体是否包括该目标物体；

响应于检测到该目标物体，获取检测到的物体和/或人和检测到的目标物体的具有最小体积的3D边界框的三维位置和方向；和

根据该三维位置和方位确定检测到的物体和/或人中的一个或多个与检测到的目标物体之间的位置关系。
根据权利要求1所述的方法，其特征在于，使用基于样本数据库的分割分类算法检测该RGB图像中的物体和人包括：

为该RGB图像中的物体和人生成分割掩模，以获取该RGB图像中每个物体和人对应的像素坐标。
根据权利要求4所述的方法，其特征在于，基于该RGB图像和该深度图像对每个检测到的物体和/或人进行片段检测包括：

使用腐蚀算法向内收缩该RGB图像和该深度图像的每个片段中的物体和/ 或人的轮廓，以获得该RGB图像和该深度图像的每个片段中的物体和/或人的置信片段；和

使用Convex Hull算法计算与收缩数据相对应的3D边界框，以补偿该RGB图像和该深度图像中的每个片段中的物体和/或人的体积。
根据权利要求1所述的方法，其特征在于，根据该片段检测的结果为每个检测到的物体和/或人计算3D边界框之后，该方法还包括：

确定是否需要将同一物体类别的两个或多个段合并为所述物体或人之一。
根据权利要求6所述的方法，其特征在于，确定是否需要将同一物体类别的两个或多个段合并为所述物体或人之一包括：

根据所述两个或多个片段的3D边界框的三维位置、方向、大小和公差阈值距离确定所述两个或多个片段是否是所述物体或人之一的一部分；

响应于所述两个或多个片段是所述物体或人之一的一部分，将所述两个或多个片段合并为所述物体或人之一；和

响应于所述两个或多个片段不是所述物体或人之一的一部分，确定不将所述两个或多个片段合并为所述物体或人之一。
根据权利要求3所述的方法，其特征在于，根据该三维位置和方位确定检测到的物体和/或人中的一个或多个与检测到的目标物体之间的位置关系包括：

基于所述目标物体和检测到的物体和/或人中的一个或多个的的3D边界框的信息，通过执行基于立体的计算来确定所述检测到的物体和/或人中的一个或多个是否在所述检测到的目标物体附近。
根据权利要求8所述的方法，其特征在于，基于所述目标物体和检测到的物体和/或人中的一个或多个的的3D边界框的信息，通过执行基于立体的计算来确定所述检测到的物体和/或人中的一个或多个是否在所述检测到的目标物体附近，包括：

将所述检测到的物体或人的3D边界框在一支撑面上的投影形成的第一2D 边界框的位置与所述目标物体的3D边界框在该支撑面上的投影形成的第二2D边界框的位置进行比较；

响应于所述第一2D边界框的位置与所述第二2D边界框的位置重叠，确定所述检测到的物体和/或人中的一个或多个在所述检测到的目标物体附近；

响应于所述第一2D边界框的位置不与所述第二2D边界框的位置重叠，确定所述第一2D边界框和所述第二2D边界框旋转后所述第一2D边界框的位置是否与所述第二2D边界框的位置重叠；

响应于在所述第一2D边界框和第二2D边界框旋转后所述第一2D边界框的位置与所述第二2D边界框的位置重叠，确定所述检测到的物体和/或人中的一个或多个靠近所述检测到的目标物体；

响应于所述第一2D边界框和所述第二2D边界框旋转后所述第一2D边界框的位置不与所述第二2D边界框的位置重叠，确定所述第一2D边界框和所述第二2D边界框的位置之间的最短距离是否小于一可变阈值；

响应于所述第一2D边界框和所述第二2D边界框的位置之间的最短距离小于所述可变阈值，确定所述检测到的物体和/或人中的一个或多个在所述检测到的目标物体附近。
根据权利要求3所述的方法，其特征在于，在根据该三维位置和方位确定检测到的物体和/或人中的一个或多个与检测到的目标物体之间的位置关系之后，所述方法还包括：

输出所述检测到的物体或人和目标物体。
根据权利要求1所述的方法，其特征在于，在通过基于该RGB图像和该深度图像对每个所述检测到的物体和/或人执行片段检测以及对每个所述检测到的物体和/或人执行3D边界框计算确定每个所述检测到的物体和/或人的位置之后，该方法还包括：

输出具有相应分类名称的所述每个检测到的物体和/或人，以及所述检测到的物体和/或人的3D边界框。
根据权利要求1所述的方法，其特征在于，在根据该3D边界框确定每个检测到的物体和/或人的位置之后，该方法还包括：

根据所述检测到的物体和/或人的确定的位置控制一机器人执行预定任务。
根据权利要求3所述的方法，其特征在于，在根据该三维位置和方位确定检测到的物体和/或人中的一个或多个与检测到的目标物体之间的位置关系之后，该方法还包括：

确定与该位置关系对应的任务；和

控制一机器人执行该任务。
一种人-物体识别装置，包括：

一个或多个处理器；

存储器；和

一个或多个程序，其中，所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括：

获取输入RGB图像和与该RGB图像对应的深度图像的指令；

使用基于样本数据库的分割分类算法检测该RGB图像中的物体和人的指令；

响应于检测到物体和/或人，基于该RGB图像和该深度图像对每个检测到的物体和/或人进行片段检测并获取该片段检测的结果的指令；

根据该片段检测的结果为每个检测到的物体和/或人计算3D边界框的指令；和

根据该3D边界框确定每个检测到的物体和/或人的位置的指令。
根据权利要求14所述的装置，其特征在于，还包括在获取输入RGB图像和与该RGB图像对应的深度图像之前将一兴趣物设置为目标物体的指令。
根据权利要求15所述的装置，其特征在于，在根据该3D边界框确定每个检测到的物体和/或人的位置之后，还包括：

根据该3D边界框确定该RGB图像中检测到的物体是否包括该目标物体的指令；

响应于检测到该目标物体，获取检测到的物体和/或人和检测到的目标物体的具有最小体积的3D边界框的三维位置和方向的指令；和

根据该三维位置和方位确定检测到的物体和/或人中的一个或多个与检测到的目标物体之间的位置关系的指令。
根据权利要求14所述的装置，其特征在于，所述使用基于样本数据库的分割分类算法检测该RGB图像中的物体和人的指令包括：

为该RGB图像中的物体和人生成分割掩模以获取该RGB图像中每个物体和人对应的像素坐标的指令。
根据权利要求16所述的装置，其特征在于，所述根据该三维位置和方位确定检测到的物体和/或人中的一个或多个与检测到的目标物体之间的位置关系的指令包括：

基于所述目标物体和检测到的物体和/或人中的一个或多个的的3D边界框的信息，通过执行基于立体的计算来确定所述检测到的物体和/或人中的一个或多个是否在所述检测到的目标物体附近的指令。
根据权利要求18所述的装置，其特征在于，所述基于所述目标物体和检测到的物体和/或人中的一个或多个的的3D边界框的信息，通过执行基于立体的计算来确定所述检测到的物体和/或人中的一个或多个是否在所述检测到的目标物体附近的指令包括：

将所述检测到的物体或人的3D边界框在一支撑面上的投影形成的第一2D边界框的位置与所述目标物体的3D边界框在该支撑面上的投影形成的第二2D边界框的位置进行比较的指令；

响应于所述第一2D边界框的位置与所述第二2D边界框的位置重叠，确定所述检测到的物体和/或人中的一个或多个在所述检测到的目标物体附近的指令；

响应于所述第一2D边界框的位置不与所述第二2D边界框的位置重叠，确定所述第一2D边界框和所述第二2D边界框旋转后所述第一2D边界框的位置是否与所述第二2D边界框的位置重叠的指令；

响应于在所述第一2D边界框和第二2D边界框旋转后所述第一2D边界框的位置与所述第二2D边界框的位置重叠，确定所述检测到的物体和/或人中的一个或多个靠近所述检测到的目标物体的指令；

响应于所述第一2D边界框和所述第二2D边界框旋转后所述第一2D边界框的位置不与所述第二2D边界框的位置重叠，确定所述第一2D边界框和所述第二2D边界框的位置之间的最短距离是否小于一可变阈值的指令；

响应于所述第一2D边界框和所述第二2D边界框的位置之间的最短距离小于所述可变阈值，确定所述检测到的物体和/或人中的一个或多个在所述检测到的目标物体附近的指令。
一种非暂时性计算机可读存储介质，其存储要由一人-物体识别装置的一个或多个处理器执行的一个或多个程序，该一个或多个程序在由所述一个或多个处理器执行时，使该人-物体识别装置执行处理，包括：

获取输入RGB图像和与该RGB图像对应的深度图像；

使用基于样本数据库的分割分类算法检测该RGB图像中的物体和人；

响应于检测到物体和/或人，基于该RGB图像和该深度图像对每个检测到的物体和/或人进行片段检测，并获取该片段检测的结果；

根据该片段检测的结果为每个检测到的物体和/或人计算3D边界框；和

根据该3D边界框确定每个检测到的物体和/或人的位置。