WO2019205727A1

WO2019205727A1 - 对象识别方法和对象识别设备

Info

Publication number: WO2019205727A1
Application number: PCT/CN2019/070027
Authority: WO
Inventors: 刘童; 刘向阳; 张治国; 饶晖
Original assignee: 京东方科技集团股份有限公司
Priority date: 2018-04-28
Filing date: 2019-01-02
Publication date: 2019-10-31
Also published as: US20210334533A1; CN108596128A; US11341740B2; CN108596128B

Abstract

描述了一种对象识别方法及对象识别设备。该对象识别方法包括：采集对齐的彩色图像和深度图像；对所采集的彩色图像和深度图像进行运动检测以获取运动起始帧和运动结束帧；在彩色图像中将运动结束帧与运动起始帧进行比较以获取运动像素集合；对所获取的运动像素集合进行连通区域分析以得到至少一个连通区域；识别所述至少一个连通区域中的对象。

Description

对象识别方法和对象识别设备

技术领域

本公开涉及识别技术，尤其涉及一种对象识别方法及对象识别设备。

背景技术

在一些应用场合，需要通过对图像进行识别来确定图像中的对象。例如，在智能购物车的应用场景下，可以通过采集图像来获得图像中的商品进而实现自动结账。在一些监控场景下，可以通过采集图像来确定监控画面中的人或物是否存在异常情况。

现有的对象识别方法通常仅限于灰度、彩色图像本身。由于图像易受到光照、视角、噪声等因素的影响，因此在复杂场景下识别的可靠性难以得到保证。而且，在复杂环境下，基于单帧图像的彩色图像分割是非常困难的，而分割不准会降低后续的对象识别的精度。

发明内容

针对相关技术存在的问题，本公开提供一种对象识别方法和对象识别设备，用于提高对象识别的精度。

根据本公开的一个方面，提供一种对象识别方法，包括：

采集对齐的彩色图像和深度图像；

对所采集的彩色图像和深度图像进行运动检测以获取运动起始帧和运动结束帧；

在彩色图像中将运动结束帧与运动起始帧进行比较以获取运动像素集合；

对所获取的运动像素集合进行连通区域分析以得到至少一个连通区域；以及

识别所述至少一个连通区域中的对象。

在根据本公开的对象识别方法的一些实施例中，该方法进一步包括基于所述深度图像中运动结束帧的深度信息，将所述至少一个连通区域分割成至少一个对象区域；并且所述识别所述至少一个连通区域中的对象的步骤包括识别所述至少一个对象区域中的对象。

在根据本公开的对象识别方法的一些实施例中，所述对所采集的彩色图像和深度图像进行运动检测以获取运动起始帧和运动结束帧的步骤包括：

针对所采集的彩色图像，确定第i帧与第i-1帧之间像素值的差大于第一阈值的像素数量是否超过第二阈值，其中i是大于1的正整数；

针对所采集的深度图像，确定第i帧与第i-1帧之间像素值的差大于第三阈值的像素数量是否超过第四阈值；

响应于以下条件至少之一，将所述第i帧确定为运动帧，否则确定为静止帧：

(1)所述彩色图像第i帧与第i-1帧之间像素值的差大于第一阈值的像素数量超过第二阈值；以及

(2)所述深度图像的第i帧与第i-1帧之间像素值的差大于第三阈值的像素数量超过第四阈值；

根据运动帧和静止帧确定彩色图像和深度图像中运动起始帧和运动结束帧。

针对所采集的彩色图像，确定第i帧与第i-1帧之间像素值的差大于第一阈值的像素数量X1，其中i是大于1的正整数；

针对所采集的深度图像，确定第i帧与第i-1帧之间像素值的差大于第三阈值的像素数量X2；

判定X1与X2的和是否大于第五阈值，若是，则确定所述第i帧为运动帧，否则确定为静止帧；

在根据本公开的对象识别方法的一些实施例中，所述根据运动帧和静止帧确定彩色图像和深度图像中运动起始帧和运动结束帧的步骤包括：

将所检测的第一个运动帧的前一帧确定为运动起始帧，且将第一个运动帧之后的第N个连续的静止帧确定为运动结束帧，N为预设的正整数。

在根据本公开的对象识别方法的一些实施例中，所述在彩色图像中将运动结束帧与运动起始帧进行比较以获取运动像素集合的步骤包括：

在彩色图像中将运动结束帧与运动起始帧进行逐像素对比以获取像素差值大于第六阈值的像素集合，

将所述像素集合定义为运动像素集合。

在根据本公开的对象识别方法的一些实施例中，所述基于所述深度图像中运动结束帧的深度信息将所述至少一个连通区域分割成至少一个对象区域的步骤包括：

确定深度图像中运动结束帧中深度值为零的像素点；

沿着深度为零的像素点将所述至少一个连通区域分割成至少一个对象区域。

在根据本公开的对象识别方法的一些实施例中，所述识别所述至少一个对象区域中的对象的步骤包括：基于深度神经网络识别所述至少一个对象区域中的对象。

在根据本公开的对象识别方法的一些实施例中，所述对所获取的像素集合进行连通区域分析以得到至少一个所述连通区域的步骤包括：

对所获取的像素集合进行连通区域分析以得到初始连通区域；以及

在所述初始连通区域中去除面积不符合预设条件、长宽比不符合预设条件或者位于其他连通区域内部的连通区域以得到所述至少一个连通区域。

在根据本公开的对象识别方法的一些实施例中，所述N的值是根据对齐的图像和深度图像的采集频率动态设置的。

根据本公开的另一方面，提供了另一种对象识别方法，包括：

采集对齐的彩色图像和深度图像；

获取所采集的彩色图像和深度图像中的起始帧和结束帧；

在彩色图像中将结束帧与起始帧进行比较以获取运动像素集合；

对所获取的运动像素集合进行连通区域分析以得到至少一个连通区域；

基于所述深度图像中结束帧的深度信息，将所述至少一个连通区域分割成至少一个对象区域；

识别所述至少一个对象区域中的对象。

在根据本公开一些实施例的另一种对象识别方法中，所述在彩色图像中将结束帧与起始帧进行比较以获取运动像素集合的步骤包括：

在彩色图像中将结束帧与起始帧进行逐像素对比以获取像素差值大于第六阈值的像素集合，

将所述像素集合定义为运动像素集合。

在根据本公开一些实施例的另一种对象识别方法中，所述基于所述深度图像中结束帧的深度信息将所述至少一个连通区域分割成至少一个对象区域的步骤包括：

确定深度图像中结束帧中深度值为零的像素点；

根据本公开的又一方面，提供一种对象识别设备，包括：

采集装置，用于采集对齐的彩色图像和深度图像；

检测装置，用于对所采集的彩色图像和深度图像进行运动检测以获取运动起始帧和运动结束帧，

获取装置，用于在彩色图像中将运动结束帧与运动起始帧进行比较以获取运动像素集合，

分析装置，用于对所获取的运动像素集合进行连通区域分析以得到至少一个连通区域，

分割装置，用于基于所述深度图像中运动结束帧的深度信息，将所述至少一个连通区域分割成至少一个对象区域，

识别装置，用于识别所述至少一个对象区域中的对象。

在根据本公开一些实施例的对象识别设备中，所述采集装置包括RGBD摄像头。

根据本公开的另外一个方面，提供包括根据本公开一些实施例的对象识别设备的购物车。

根据本公开的另外一个方面，提供一种计算机可读存储介质，其上存储计算机可读指令，该计算机可读指令在被执行时执行根据本公开一些实施例所述的对象识别方法。

附图说明

通过参照附图来详细描述其示例性实施例，本公开的上述和其它特征及优点将变得更加明显。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出根据本公开一些实施例的对象识别方法的流程图，

图2示出根据本公开另一些实施例的对象识别方法的流程图，

图3a和3b分别示出根据本公开对象识别方法的一些实施例和另一些实施例的运动检测步骤的流程图，

图4示出根据本公开又一些实施例的对象识别方法的流程图，

图5示出根据本公开一些实施例的对象识别设备的结构框图，以及

图6示出包括根据本公开一些实施例的对象识别设备的智能购物车的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本公开将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有所述特定细节中的一个或更多，或者可以采用其它的方法、组元、材料、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免模糊本公开的各方面。

此外，附图仅为本公开的示意性图解，并非一定是按照比例绘制。图中相同的附图标记标识相同或相似的部分，因而将省略对它们的重复描述。

图1示出了根据本公开一些实施例的对象识别方法的流程图。根据本公开一些实施例的对象识别方法可以利用商店或超市中的智能购物车上的对象识别设备来实现，其中对象是指想要在图像或视频中识别的目标实体，例如人、物体(比如商品、车牌号)等。对象识别可以理解为利用图像处理等领域的理论和方法从图像或视频中识别或标识出有一定意义的目标实体-对象，如人、物体等。下面将详细说明图1a所示的根据本公开一些实施例的对象识别方法。

S101，图像采集步骤：采集对齐的彩色图像和深度图像。

根据本公开一些实施例的对象识别方法从图像采集开始，例如，可以利用RGBD摄像头之类的图像采集器来执行图像采集步骤S101。RGBD摄像头可以同时获取彩色图像和深度图像，其中深度图像(depth image)也被称为距离影像(range image)，是指将从图像采集器到场景中各点的距离(深度)作为像素值的图像，它直接反映了景物可见表面的几何形状。深度图像中的深度可以通过下述方式计算：首先发射红外结构光并接收其被物体或对象反射回的光束，从而通过检测光束的飞行(往返)时间来计算摄像头到对象的距离，即深度。RGBD摄像头可以在“对齐”模式下工作以得到“对齐”的彩色图像和深度图像，其中“对齐”是指彩色图像和深度图像的宽高相同，且像素值一一对应。

S102，运动检测步骤：对所采集的彩色图像和深度图像进行运动检测以获取运动起始帧和运动结束帧。

在图像采集步骤之后，需要对彩色图像和深度图像进行运动检测以获取运动起始帧和运动结束帧，从而通过比较获得图像中的对象所在的运动像素或区域。一般地，可以利用摄像头拍摄的视频中相邻帧图像(例如彩色图像和深度图像)之间各个像素值的变化程度以及达到特定变化程度的像素(即运动或变化的像素)数量来判断是否存在运动(或者摄像头视野中场景是否发生变化)。可以首先设定像素值变化程度的阈值以及达到该变化程度阈值的像素数量阈值，然后根据是否超过阈值来判定是否存在运动。例如，分别在彩色图像和深度图像中统计相邻帧之间像素值的差大于预定的第一阈值的像素数目是否大于预定的第二阈值来判断摄像头视野内是否存在运动或变化：若大于该第二阈值，则当前帧为运动帧，否则为静止帧。像素差阈值和像素数阈值可以通过实验确定。

对于彩色图像而言，像素点的像素值可以用RGB分量来表示，或者也可以用灰度值表示。彩色图像中的某一像素点在两个相邻帧之间的像素差可以指当前帧中该像素点的RGB分量或灰度值与前一帧中该像素点的RGB分量或灰度值的差。当然，彩色图像中的像素值也可以用其他单位来度量。对于深度图像而言，深度图像的像素点的像素值可以用灰度值表示，因而深度图像中的像素差可以指当前帧中该像素点的灰度值与前一帧中该像素点的灰度值的差。当然，深度图像中的像素值也可以用其他单位来度量。

当检测到运动帧之后，可以确定存在运动，于是第一个运动帧的前一阵可以被设定为运动起始帧。接下来要获取运动结束帧，即摄像头视野中的对象进入后的帧图像，以便在后续步骤中获得对象所在的区域。更具体地，在检测到运动帧之后，继续检测下一帧，直到连续检测到N个静止帧为止，这时第N个连续的静止帧可以被认为是运动结束帧。这里之所以要在检测N个静止帧之后才确定运动结束，主要是考虑一个较复杂运动或动作中间可能有短暂间歇的情况，在该间歇期间尽管被识别为静止帧但运动并未完成，因此为了避免错误判断，可以在经过检测到若干(例如N个)连续静止帧之后才确定动作完成。

在根据本公开的一些实施例中，N可以是预设值，例如可以根据所使用的图像采集器的帧率、所要检测的运动或动作的速率和实验结果等进行设置。如果N设置得过小，则可能导致错误地将未完成的动作判断为要检测的动作；若N设置得过大，则可能导致将两次单独动作判断为一个动作，因为N个连续静止帧还未被检测到，下一次动作就开始了。因此，为了使得N的取值能够实时地适应当前的用户行为，可以动态地设置N的值。例如可以动态获取摄像头的帧率、或运动规律等，进而确定当前比较合适的N的值。例如，在安装有商品识别设备的智能购物车中，用户放入或取出商品的动作时间通常是0.5s，商品识别设备中的摄像头的帧率例如是20帧/秒，可以考虑将N设置为10。当然，也可以根据实际情况或要求的检测精度，将N设置为其他值。

S103，运动像素集合获取步骤，在彩色图像中将运动结束帧与运动起始帧进行比较以获取运动像素集合。

在运动检测之后，通过在彩色图像中将运动结束帧与运动起始帧进行逐像素对比，获取像素差值大于预定的第六阈值的像素集合，其中第六阈值。这样的像素集合可以被认为是发生运动的像素集合。获取运动像素集合的目的在于，确定新进入摄像头视野的对象在图像中的位置以利于后续对其进行有效识别。

S104，连通区域分析步骤，对所获取的运动像素集合进行连通区域分析以得到至少一个连通区域。

连通区域(Connected Component)一般是指具有相同像素值的相邻像素组成像素集合。连通区域分析(Connected Component Analysis)是指将图像中的各个连通区域找出并标记，识别连通区域。连通区域分析是一种在图像分析处理的众多应用领域中较为常用和基本的方法。例如：OCR识别中字符提取(车牌识别、文本识别、字幕识别等)、视觉跟踪中的运动前景目标提取(行人入侵检测、遗留物体检测、基于视觉的车辆检测与跟踪等)、医学图像处理(感兴趣目标区域提取)等等。这里，可以利用连通区域分析方法，从所获取的运动像素集合中提取或识别对象所在的至少一个连通区域。

在根据本公开的一些实施例中，在连通区域分析步骤S104中，可以在对运动像素集合进行分析得到初始连通区域之后，去除初始连通区域中那些明显异常的区域，例如面积不符合预设条件(例如，面积过小的区域)、长宽比不符合预设条件(例如长宽比过大)或者位于其他连通区域内部的连通区域(这可能是由于噪声造成的误检测)，从而得到对象所在的所述至少一个连通区域。这样有效减少了可能的连通区域的数量，即减少后续的分割、识别等步骤所针对的区域的数量，降低了处理复杂度。

S106，对象识别步骤：识别所述至少一个连通区域中的对象。

在经过连通区域分析获得了对象所在的连通区域之后，可以在彩色图像中识别所获得的连通区域中的对象。例如，可以基于深度神经网络(DNN)来识别对象区域中的对象。具体地，可以利用卷积神经网络学习框架(Caffe)对VGG16网络模型进行训练，得到的对象识别模型，从而用于对彩色图像的对象区域中的对象进行识别。

在智能购物车的应用场景中，可以持续执行上述对象识别方法，以识别出每次运动(比如取/放物品)之后新加入或减少的商品，并将所有新增的物品添加到物品列表中且将减少的物品从物品列表中移出，最后在购物结束(或图像采集结束)时可以通过物品列表来获得用户所购的商品。

在根据公开的一些实施例中，各个阈值，例如第一至第六阈值，可以基于具体的应用场景以及实际需求来设置。

可替换地，如图1，根据本公开一些实施例的对象识别方法还可以在分析步骤S104与识别步骤S106之间进一步包括步分割骤S105：

基于所述深度图像中运动结束帧的深度信息，将所述至少一个连通区域分割成至少一个对象区域。

为了使得步骤S104所得出的对象所在区域更加精确，可以在获取了对象所在的连通区域之后，通过图像分割方法进一步精细化对象区域，即可以根据深度图像中运动结束帧的深度信息，将对象所在的连通区域分割成至少一个对象区域。

在图1所示的步骤S106中，由于通过新增步骤S105在深度图像中已经将至少一个连通区域进行了分割，在识别时可以在彩色图像中识别分割后得到的各个对象区域中的对象。具体地，仍然可以利用卷积神经网络学习框架(Caffe)对VGG16网络模型进行训练，得到的对象识别模型，从而用于对彩色图像的对象区域中的对象进行识别。

在根据本公开的一些实施例中，步骤S105可以包括：确定深度图像中运动结束帧中深度值为零的像素点；沿着深度为零的像素点将所述至少一个连通区域分割成至少一个对象区域(即对象所在的区域，或可能存在对象的区域)。由于在深度图像中，深度为零的像素点通常对应于对象或物体的边缘，因此沿着这些像素点进行分割可以等效于沿着对象的边缘进行分割，从而可以更精确地获得在彩色图像或深度图像中对象所在区域。

在本公开的一些实施例中，由于彩色图像和深度图像是对齐的，即彩色图像中的像素点的坐标和深度图像中的像素点的坐标是一一对应的，因此在进行深度图像的分析时，可以直接基于彩色图像中所确定的连通区域的坐标来确定深度图像中的连通区域。也就是说，虽然彩色图像和深度图像是两种图像，但是由于二者对齐，因此一旦在彩色图像中确定了连通区域，则无需在深度图像中再次确定连通区域，而是可以直接通过深度为零的像素点来将连通区域进行分割。

在包括步骤S105的对象识别方法中，由于基于深度图像分割得到了更精确的对象区域，从而相比单独基于彩色图像的识别(尤其是区域分割)方法，对象识别更准确，识别精度更高；另外，在分割之后，基于分割出的区域在彩色图像中进行对象识别，因此改善了识别精度。

图2示出了根据本公开另一些实施例的对象识别方法的流程图。与图2相比，图2所示的对象识别方法进一步包括步骤：

S107，重复步骤S102-S106；以及

S108，将S106和S107的对象识别结果进行比较。

在智能购物车的应用场景中，在识别出所述当前运动结束帧中的对象之后，重复执行运动检测、运动像素集合获取、连通区域分析、区域分割、商品识别等步骤，从而识别处下一个运动结束帧中的对象。随后，可以将这两个相邻运动结束帧中的对象进行比较，以确定当前新增或减少的物品；将所述当前新增的物品添加到物品列表中，或者将减少的物品从物品列表中移出。通过该比较步骤，可以确定用户在某段时间内向购物车内放入了哪些物品，或者从购物车中取出了哪些物品。基于比较结果，并结合历史信息中购物车内商品列表，可以确定当前物品列表中包括的物品。

图3a示出了根据本公开对象识别方法的一些实施例中运动检测步骤的流程图。如图3a所示，图1所示的运动检测步骤S102包括以下步骤：

S1021，针对所采集的彩色图像，确定第i帧与第i-1帧之间像素值的差大于第一阈值的像素数量是否超过第二阈值，其中i是大于1的正整数；

S1022，针对所采集的深度图像，确定第i帧与第i-1帧之间像素值的差大于第三阈值的像素数量是否超过第四阈值；

S1023，响应于以下条件至少之一，将所述第i帧确定为运动帧，否则确定为静止帧：

在图3a所示的步骤S1023所示，只有在彩色图像第i帧与第i-1帧之间像素值的差大于第一阈值的像素数量不超过第二阈值并且深度图像的第i帧与第i-1帧之间像素值的差大于第三阈值的像素数量不超过所述第四阈值的情况下，才可以确定所述第i帧为静止帧。

S1024，根据运动帧和静止帧确定彩色图像和深度图像中运动起始帧和运动结束帧，即将所检测的第一个运动帧的前一帧确定为运动起始帧，且将第一个运动帧之后的第N个连续的静止帧确定为运动结束帧。

图3b示出了根据本公开另一些实施例的对象识别方法中运动检测步骤的流程图。如图3b所示，图1所示的运动检测步骤S102也可以包括步骤S1021’-S1024’。比较可知，图3b中的运动帧和静止帧检测的步骤S1021’-S1023’不同于图3a，其余步骤与图3a相同。作为另一种替代方式，图3b采用了通过判断彩色和深度图像像素差大于阈值的像素数之和是否大于另一阈值来确定运动帧和静止帧。

具体而言，图3b所示的根据本公开另一些实施例的对象识别方法中运动检测步骤包括：

S1021’，针对所采集的彩色图像，确定第i帧与第i-1帧之间像素值的差大于第一阈值的像素数量X1，其中i是大于1的正整数；

S1022’所采集的深度图像的第i帧，确定第i帧与第i-1帧之间像素值的差大于第三阈值的像素数量X2；

S1023’判定X1与X2的和是否大于第五阈值，若是，则确定所述第i帧为运动帧，否则确定为静止帧；

S1024’，根据运动帧和静止帧确定彩色图像和深度图像中运动起始帧和运动结束帧，即将所检测的第一个运动帧的前一帧确定为运动起始帧，且将第一个运动帧之后的第N个连续的静止帧确定为运动结束帧。

根据本公开一些实施例的对象识别方法不仅可以用于智能购物车的应用场景，也可以应用到其他的对象识别场景，例如监控场景等。在监控场景中通过设置RGBD摄像头，同样可以采用本公开提供的识别方法，进而实现高精度的对象识别。

本公开中提出的方法利用深度图像信息与二维图像信息相结合，构建一种表达更丰富信息的联合特征，弥补了仅用图像特征的不足，改善了识别精度。具体而言，在本公开中，不是单纯基于彩色图像进行识别，而是基于深度图像和彩色图像的结合通过运动像素集合的确定、连通区域分析、基于深度图像分割等得到更精确的对象区域，从而相比单独基于彩色图像的识别(包括运动检测、区域分割)方法，对象识别更准确，识别精度更高。另外，在分割之后，本公开基于分割出的区域在彩色图像中进行对象识别，因此改善了识别精度。

图4示出了根据本公开又一些实施例的对象识别方法的流程图。如图4所示，该对象识别方法包括：

S401，采集对齐的彩色图像和深度图像；

S402，获取所采集的彩色图像和深度图像中的起始帧和结束帧；

S403，在彩色图像中将结束帧与起始帧进行比较以获取运动像素集合；

S404，对所获取的运动像素集合进行连通区域分析以得到至少一个连通区域；

S405，基于所述深度图像中结束帧的深度信息，将所述至少一个连通区域分割成至少一个对象区域；

S406，识别所述至少一个对象区域中的对象。

通过与图1比较可知，除了步骤S402和S403之外，图4所示的对象识别方法与图1的相同。如上文所述，图1所示的对象识别方法主要用于通过对所采集的图像(包括深度图像和彩色图像)逐帧进行比较来获取运动(每一次单独的运动，例如每一次将商品放入购物车)像素以实现对新进入摄像头视野中的对象(例如智能购物车中新加入的商品)的识别。而图4所示的对象识别方法，如步骤S404和S405所示，主要通过对所采集的图像的起始帧和结束帧(例如购物开始和结束时刻的图像帧)的比较，来实现整个运动过程(整个购物过程，而非单次取放商品)结束之后的所有对象的识别。换言之，图4与图1相比在识别的原理上是基本相同的，不同之处在于图4的方法着眼于整个运动结果的识别，因而只需比较采集开始时的第一帧图像与采集结束时的最后一帧图像，而不必像图1那样进行帧比较。如上所述，图4所示的根据本公开一些实施例的对象识别方法仅通过两帧的比较就能实现整个运动过程之后所有对象的识别。例如在智能购物车场景下，针对自动识别一次购物结束时购物车内所有商品的问题，如上文所述，采用图1的方法需要通过逐帧对比每次取放的商品，最后通过合计方式获得商品列表；与此相比，在图4的方法中，对象识别设备仅需采集购物开始与结束时刻的图像就可以通过比较二者来获取购物者所取得的商品，从而可以以显著减少的计算量实现商品的自动识别和结算。

图5示出根据本公开一些实施例的对象识别设备的结构框图。如上文所述，根据本发明一些实施例的对象识别方法可以通过类似图5所示的对象识别设备完成。如图5所示，该识别设备500包括：

采集装置501，用于采集对齐的彩色图像和深度图像；

检测装置502，用于对彩色图像和深度图像进行运动以获取运动起始帧和运动结束帧，

获取装置503，用于在彩色图像中将运动结束帧与运动起始帧进行比较以获取运动像素集合，

分析装置504，用于对所获取的运动像素集合进行连通区域分析，得到至少一个连通区域，

分割装置505，用于基于所述深度图像中运动结束帧的深度信息，将所述至少一个连通区域分割成至少一个对象区域，

识别装置506，用于识别所述至少一个对象区域中的对象。

图6示出包括根据本公开一些实施例的对象识别设备的智能购物车的示意性结构图。

智能购物车是在无人超市中用到的一种购物车。由于在无人超市中没有人工收银员，需要通过智能购物车对用户放入购物车中的物品(即本公开中“对象”的一个例子)进行识别，以便用户在出超市之前能够通过识别出的物品确定用户需要付的金额。尽管并未示出，购物车还可以包括购物篮、购物袋、购物结账设备或其他购物设备。

如图6所示，该购物车可以包括车体60和设置在车体60上的根据本公开一些实施例的对象识别设备611-616。车体60可以包括底面601和四个侧面，即第一侧面602、第二侧面603、第三侧面604和第四侧面605。第一侧面602和第三侧面604彼此相对，第二侧面603和第四侧面605彼此相对。

如图6所示，对象识别设备611-616可以包括至少一个摄像头611-614以及存储器615和处理器616。如图所示，第一摄像头611设置在第一侧面602靠近第三侧面604的一侧上，第二摄像头置612设置在第二侧面603靠近第四侧面605的一侧上，第三摄像头613设置在第三侧面604靠近第一侧面602的一侧上，第四摄像头614设置在第四侧面605靠近第二侧面603的一侧上。四个摄像头可以从不同拍摄角度获取待识别对象或商品的深度图像和彩色图像。本领域技术人员应该理解的是，对象识别设备中包含的摄像头的数量不限于4个，而是可以根据识别的精度以及具体的应用场景来选择合适的数量。摄像头611-614可以为RGBD摄像头611-614，以用于同时获取彩色图像和深度图像。在智能购物车中，RGBD摄像头611-614的位置和角度通常是可调节的，使其能够拍摄到整个购物车内的场景。

如图6所示，存储器615和处理器616可以一体设置且设置在车体601的一个侧面上。另外，存储器615和处理器616也可以设置在车体60的底面601上，尽管未示出。存储器615上存储有可在处理器上运行的计算机程序指令。该处理器616可以例如是具有数据分析和处理、计算能力的嵌入式系统，用于执行存储器中存储计算机程序指令以实现本文描述的对象识别方法。

尽管未示出，该对象识别设备还可以包括各种输入设备(例如用户界面、键盘等)、各种输出设备(例如扬声器等)、以及显示设备。

事实上，在图6中所示对象识别设备中，摄像头611-614相当于图5所示的采集装置501，而存储器615和处理器616相当于图5所示的其余装置502-506。摄像头611-614负责采集购物车内的对象(商品)的彩色图像和深度图像，而存储器615和处理器616在基于采集的图像通过运动检测、运动像素获取、连通区域分析、连通区域分割、对象区域识别等步骤等一系列数据分析、处理、计算操作实现图像中的对象识别。

存储器可以是各种由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

本公开的一些实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被执行时实现根据本公开一些实施例的对象识别方法。

在本说明书的描述中，术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点被包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个、三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序(包括根据所涉及的功能按基本同时的方式或按相反的顺序)来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例可以例如包括以下各项：具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(Random Access Memory)、只读存储器(Read Only Memory)，可擦除可编辑只读存储器(Erasable Programmable Read Only Memory)或闪速存储器、光纤装置、以及便携式光盘只读存储器(Compact Disc Read Only Memory)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，则可用本领域公知的下列技术中的任一项或它们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路、具有合适的组合逻辑门电路的专用集成电路、可编程门阵列(Programmable Gate Array)、现场可编程门阵列(Field Programmable Gate Array)等。

本技术领域的普通技术人员可以理解上述实施例方法的全部或部分步骤可以通过程序指令相关的硬件完成，所述程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括执行方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

应当注意，在权利要求书中，动词“包括/包含”及其变体的使用并没有排除存在权利要求中未陈述的元件或步骤。措词“一”或“一个”并没有排除多个。

尽管已经示出和描述了本发明的特定实施例，但是对于本领域技术人员显然的是，可以在不脱离发明的情况下在其更宽的方面做出若干改变和修改，因此，所附权利要求书应当在其范围内包含所有这样的改变和修改，如同落入本发明的真实精神和范围之内。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

Claims

一种对象识别方法，包括：

采集对齐的彩色图像和深度图像；

对所采集的彩色图像和深度图像进行运动检测以获取运动起始帧和运动结束帧；

在彩色图像中将运动结束帧与运动起始帧进行比较以获取运动像素集合；

对所获取的运动像素集合进行连通区域分析以得到至少一个连通区域；以及

识别所述至少一个连通区域中的对象。
根据权利要求1所述的方法，进一步包括基于所述深度图像中运动结束帧的深度信息，将所述至少一个连通区域分割成至少一个对象区域；并且所述识别所述至少一个连通区域中的对象的步骤包括识别所述至少一个对象区域中的对象。
根据权利要求2所述的方法，其中所述对所采集的彩色图像和深度图像进行运动检测以获取运动起始帧和运动结束帧的步骤包括：

针对所采集的彩色图像，确定第i帧与第i-1帧之间像素值的差大于第一阈值的像素数量是否超过第二阈值，其中i是大于1的正整数；

针对所采集的深度图像，确定第i帧与第i-1帧之间像素值的差大于第三阈值的像素数量是否超过第四阈值；

响应于以下条件至少之一，将所述第i帧确定为运动帧，否则确定为静止帧：

(1)所述彩色图像第i帧与第i-1帧之间像素值的差大于第一阈值的像素数量超过第二阈值；以及

(2)所述深度图像的第i帧与第i-1帧之间像素值的差大于第三阈值的像素数量超过第四阈值；

根据运动帧和静止帧确定彩色图像和深度图像中运动起始帧和运动结束帧。
根据权利要求2所述的方法，其中所述对所采集的彩色图像和深度图像进行运动检测以获取运动起始帧和运动结束帧的步骤包括：

针对所采集的彩色图像，确定第i帧与第i-1帧之间像素值的差大于第一阈值的像素数量X1，其中i是大于1的正整数；

针对所采集的深度图像，确定第i帧与第i-1帧之间像素值的差大于第三阈值的像素数量X2；

判定X1与X2的和是否大于第五阈值，若是，则确定所述第i帧为运动帧，否则确定为静止帧；

根据运动帧和静止帧确定彩色图像和深度图像中运动起始帧和运动结束帧。
根据权利要求3或4所述的方法，其中所述根据运动帧和静止帧确定彩色图像和深度图像中运动起始帧和运动结束帧的步骤包括：

将所检测的第一个运动帧的前一帧确定为运动起始帧，且将第一个运动帧之后的第N个连续的静止帧确定为运动结束帧，N为预设的正整数。
根据权利要求1至4中任一项所述的方法，其中所述在彩色图像中将运动结束帧与运动起始帧进行比较以获取运动像素集合的步骤包括：

在彩色图像中将运动结束帧与运动起始帧进行逐像素对比以获取像素差值大于第六阈值的像素集合，

将所述像素集合定义为运动像素集合。
根据权利要求2至4中任一项所述的方法，其中所述基于所述深度图像中运动结束帧的深度信息将所述至少一个连通区域分割成至少一个对象区域的步骤包括：

确定深度图像中运动结束帧中深度值为零的像素点；

沿着深度为零的像素点将所述至少一个连通区域分割成至少一个对象区域。
根据权利要求2至4中任一项所述的方法，其中所述识别所述至少一个对象区域中的对象的步骤包括：基于深度神经网络识别所述至少一个对象区域中的对象。
根据权利要求1至4中任一项所述的方法，其中所述对所获取的像素集合进行连通区域分析以得到至少一个所述连通区域的步骤包括：

对所获取的像素集合进行连通区域分析以得到初始连通区域；以及

在所述初始连通区域中去除面积不符合预设条件、长宽比不符合预设条件或者位于其他连通区域内部的连通区域以得到所述至少一个连通区域。
根据权利要求4所述的方法，其中所述N的值是根据对齐的图像和深度图像的采集频率动态设置的。
一种对象识别方法，包括：

采集对齐的彩色图像和深度图像；

获取所采集的彩色图像和深度图像中的起始帧和结束帧；

在彩色图像中将结束帧与起始帧进行比较以获取运动像素集合；

对所获取的运动像素集合进行连通区域分析以得到至少一个连通区域；

基于所述深度图像中结束帧的深度信息，将所述至少一个连通区域分割成至少一个对象区域；

识别所述至少一个对象区域中的对象。
根据权利要求11所述的方法，其中所述在彩色图像中将结束帧与起始帧进行比较以获取运动像素集合的步骤包括：

在彩色图像中将结束帧与起始帧进行逐像素对比以获取像素差值大于第六阈值的像素集合，

将所述像素集合定义为运动像素集合。
根据权利要求12所述的方法，其中所述基于所述深度图像中结束帧的深度信息将所述至少一个连通区域分割成至少一个对象区域的步骤包括：

确定深度图像中结束帧中深度值为零的像素点；

沿着深度为零的像素点将所述至少一个连通区域分割成至少一个对象区域。
一种对象识别设备，包括：

采集装置，用于采集对齐的彩色图像和深度图像；

检测装置，用于对所采集的彩色图像和深度图像进行运动检测以获取运动起始帧和运动结束帧，

获取装置，用于在彩色图像中将运动结束帧与运动起始帧进行比较以获取运动像素集合，

分析装置，用于对所获取的运动像素集合进行连通区域分析以得到至少一个连通区域，

分割装置，用于基于所述深度图像中运动结束帧的深度信息，将所述至少一个连通区域分割成至少一个对象区域，

识别装置，用于识别所述至少一个对象区域中的对象。
根据权利要求14所述的对象识别设备，其中所述采集装置包括RGBD摄像头。
一种购物车，包括根据权利要求14或15所述的对象识别设备。
一种计算机可读存储介质，其上存储计算机可读指令，该计算机可读指令在被执行时执行根据权利要求1-13中任一项所述的方法。