WO2017000115A1

WO2017000115A1 - 行人再识别方法及设备

Info

Publication number: WO2017000115A1
Application number: PCT/CN2015/082639
Authority: WO
Inventors: 俞刚; 李超; 尚泽远; 何奇正
Original assignee: 北京旷视科技有限公司; 北京小孔科技有限公司
Priority date: 2015-06-29
Filing date: 2015-06-29
Publication date: 2017-01-05
Also published as: CN105518744A; CN105518744B

Abstract

公开了行人再识别方法、设备和计算机程序产品。所述方法包括：在深度视频的每一帧深度图像中检测行人；对于每一帧深度图像中的每个行人，进行骨架关节点提取；根据提取的骨架关节点，将每一帧深度图像中的每个行人的姿态正规化为预定视角下的姿态；对于每一帧深度图像中的每个行人，提取姿态正规化后该行人的属性特征；以及基于所述属性特征与目标行人的对应属性特征的相似度，从所述深度视频中识别目标行人。利用所述方法、设备和计算机程序产品，提高了在不同的背景环境以及多摄像头设置的情况下行人再识别的准确度。

Description

行人再识别方法及设备

技术领域

本公开涉及图像处理，并且具体涉及行人再识别方法、设备和计算机程序产品。

背景技术

行人再识别(Person re-identification)是指从来源于非交叠的多个摄像机视场的行人图像库或视频流中识别出目标行人。不同于单摄像头下普通的行人跟踪，行人再识别可以在不同的背景环境以及多摄像头设置下实现对特定行人的长期跟踪与监视，因此其在监控领域有着非常大的应用前景。比如，对于商场消费者的行人再识别使得可以跟踪该行人在多个摄像头下的运动轨迹，进而可以对其可能的消费行为进行分析和统计。再比如，在智能视频监控系统中，通过行人再识别技术能够自动识别出目标行人并向监控系统操作人员进行报告，从而使得操作人员无需进行费时费力的人工观察和识别。

目前，行人再识别通常是依据来自图像或视频中的行人的颜色、纹理等底层信息来进行的，其效果往往并不理想，主要原因在于：行人在不同摄像头下的视角可能差别很大；不同摄像头所覆盖的区域往往并不交叠；不同摄像头所在位置处的光照条件可能不同，从而导致同一物体在不同摄像头下的外貌可能相差很大；行人可能背对或侧面朝向摄像头行走，导致无法捕捉到人脸信息，或者即使能捕捉到人脸信息，由于监控摄像头的分辨率通常较低，也无法清晰的看到人脸。

发明内容

根据本公开的一个方面，提供一种行人再识别方法，包括：在深度视频的每一帧深度图像中检测行人；对于每一帧深度图像中的每个行人，进行骨架关节点提取；根据提取的骨架关节点，将每一帧深度图像中的每个行人的姿态正规化为预定视角下的姿态；对于每一帧深度图像中的每个行人，提取姿态正规化后该行人的属性特征；以及基于所述属性特征与目标行人的对应属性特征的相似度，从所述深度视频中识别目标行人。

根据本公开的另一方面，提供一种行人再识别设备，包括：处理器；存储器；和存储在所述存储器中的计算机程序指令。所述计算机程序指令在被所述处理器运行时执行以下步骤：在深度视频的每一帧深度图像中检测行人；对于每一帧深度图像中的每个行人，进行骨架关节点提取；根据提取的骨架关节点，将每一帧深度图像中的每个行人的姿态正规化为预定视角下的姿态；对于每一帧深度图像中的每个行人，提取姿态正规化后该行人的属性特征；以及基于所述属性特征与目标行人的对应属性特征的相似度，从所述深度视频中识别目标行人。

根据本公开的另一方面，提供了一种用于行人再识别的计算机程序产品，包括计算机可读存储介质，在所述计算机可读存储介质上存储了计算机程序指令，所述计算机程序指令可由处理器执行以使得所述处理器：在深度视频的每一帧深度图像中检测行人；对于每一帧深度图像中的每个行人，进行骨架关节点提取；根据提取的骨架关节点，将每一帧深度图像中的每个行人的姿态正规化为预定视角下的姿态；对于每一帧深度图像中的每个行人，提取姿态正规化后该行人的属性特征；以及基于所述属性特征与目标行人的对应属性特征的相似度，从所述深度视频中识别目标行人。

根据本公开的另一方面，提供了一种行人再识别设备，包括：检测装置，配置为在深度视频的每一帧深度图像中检测行人；骨架提取装置，配置为对于每一帧深度图像中的每个行人，进行骨架关节点提取；正规化装置，配置为根据提取的骨架关节点，将每一帧深度图像中的每个行人的姿态正规化为预定视角下的姿态；特征提取装置，配置为对于每一帧深度图像中的每个行人，提取姿态正规化后该行人的属性特征；以及识别装置，配置为基于所述属性特征与目标行人的对应属性特征的相似度，从所述深度视频中识别目标行人。

根据本公开的上述方面的方法、设备和计算机程序产品有效利用图像和视频中行人的深度信息，大大提高了在不同的背景环境以及多摄像头设置的情况下行人再识别的准确度。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出了根据本公开实施例的行人再识别方法的示意性流程图。

图2例示了对前景区域进行分割之后得到的一个示例性的子图像区域。

图3示出了某个行人的示意性的骨架关节点分布。

图4示出了在对于某一帧深度图像中的某个行人进行骨架关节点提取处理时、对于该帧深度图像中对应于该行人的子图像区域中的每个像素执行的处理。

图5例示了一个拍摄的预定视角的示例性示意图。

图6示出了根据本公开实施例的行人再识别设备的示例性结构框图。

图7示出了用于实现本公开的实施例的示例性计算设备的框图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

如前所述，目前依据来自图像或视频中的行人的颜色、纹理等底层信息进行行人再识别的效果往往并不理想。针对这一情况，在本公开中，将有效地利用图像或视频中行人的深度信息来进行行人的再识别。更明确的说，在本公开中将利用深度图像来进行行人的再识别。本领域中公知，深度图像是图像中每一像素的值表示场景中某一点与摄像机之间的距离的图像。相比于灰度图像(彩色图像)，深度图像具有物体的深度(距离)信息，并且不受光照条件的影响，因此适合于需要立体信息或场景变换的各种应用。

下面，参照图1来描述根据本公开实施例的行人再识别方法。

如图1所示，在步骤S110，在深度视频的每一帧深度图像中检测行人。

如上文中提到的，不同于单摄像头下普通的行人跟踪识别，根据本公开的行人再识别技术可以应用于背景环境不同以及采用多个摄像头进行拍摄的情形。更明确的说，根据本公开的行人再识别技术，包含作为识别对象的目标行人的目标深度视频与需要从中识别该目标行人的待分析深度视频可以由不同的摄像头拍摄，或者由单个摄像头在不同时刻(不同背景环境下)拍摄。

该步骤中所述的深度视频即需要从中识别目标行人的待分析深度视频，其是由与拍摄目标行人的深度摄像头不同的单个深度摄像头在某一时刻拍摄的。可选的，拍摄所述待分析深度视频的深度摄像头与拍摄目标行人的深度摄像头以相同的方式进行配置。例如，深度摄像头均安装在高于2米的高度，并且以俯视的角度进行拍摄。

在该步骤中，可以采用本领域中任何适当的图像检测技术从待分析深度视频的各帧深度图像中检测行人，本公开对此不做限制。下面，仅仅是为了说明的完整性，对一种可能的检测方式进行简要的描述。

具体的，在该步骤中，对于每一帧深度图像，首先根据该图像中各像素的值确定其中的前景区域。所谓前景区域即深度不同于通过背景建模得到的场景深度的区域。该获取前景区域的处理过程是本领域中公知的，此处省略其详细描述。随后，基于深度信息对该前景区域进行分割，得到多个子图像区域。此处，可以采用连通区域分析法(CCA)和行人身体检测方法(例如：P.Dollar,Z.Tu,P.Perona和S.Belongie等人在BMVC 2009上发表的“Integral Channel Features”等)等本领域中的常用方法对前景区域进行分割，以得到每一个中都包含一个行人的多个子图像区域，由此确定当前帧深度图像中每个行人的具体位置。图2例示了对前景区域进行分割之后得到的一个示例性的子图像区域。如图2所例示的，该子图像区域用外接于检测到的行人的身体轮廓的矩形框来表示。

可选的，可以对于每一帧深度图像中检测出的每个行人进行跟踪，以确定该行人在所述待分析深度视频的其他哪些帧中出现了，并确定该行人在这些帧中的位置。如前所述，所述待分析深度视频是由单个深度摄像头在某一时刻拍摄的，因此此处的跟踪是单摄像头下的跟踪，可以采用诸如匈牙利算法(Hungarian algorithm)、A Milan,S Roth,K Schindler在IEEE Transaction on Pattern Recognition and Machine Intelligence,2014发表的“Continuous energy minimization for multitarget tracking”的方法等本领域中的各种常用方法进行所述跟踪，以获得每个行人的跟踪片段，所述跟踪片段至少包括描述该行人在待分析深度视频中的哪些帧深度图像中出现以及在各帧深度图像中的位置的数据。

回到图1，在步骤S120，对于每一帧深度图像中的每个行人，进行骨架关节点提取。

骨架关节点可以很好地描述行人的姿态，其具体数量可以根据需要来设定。例如，可以设定为Microsoft Kinect中定义的20个，也可以设定为Openni中定义的15个等等。此处为了简便起见，如图3所示，设定骨架关节点为6个，分别代表头部、左手、右手、胸部中心、左脚和右脚。

下面，将参考图4对该步骤S120中的骨架关节点提取处理进行详细描述。图4示出了在对于某一帧深度图像(例如第N帧)中的某个行人(例如行人A)进行骨架关节点提取处理时、对于该帧深度图像(第N帧)中对应于该行人(行人A)的子图像区域中的每个像素执行的处理。

如图4所述，在步骤S1201，确定预先建立的训练集中与当前像素(例如像素a)匹配的匹配像素，所述训练集中包含有多张行人深度图像，并且每张行人深度图像中预先标明了行人的骨架关节点。

可以基于像素的特征描述及像素在子图像区域中的相对位置，确定所述匹配像素。具体的，可以采用诸如随机森林算法、哈希算法等本领域中各种常规方法将该像素a的特征描述及其在子图像区域中的位置与训练集中各像素的对应特征进行比较，由此找到训练集中的匹配像素。

所述特征描述可以是用于描述像素的任何适当的特征。例如，可以将该像素a周围3×3范围内的每个邻近像素与像素a的深度值进行比较，大于则为该邻近像素分配数值1，否则为该邻近像素分配数值0，然后将该3×3范围内的每个邻近像素被分配的数值组合形成的向量作为所述像素a的特征描述。再比如，也可以简单的将像素a的特征作为其特征描述。

在步骤S1202，提取该匹配像素的标记数据，所述标记数据包括该匹配像素相对于其所在的行人深度图像中行人的骨架关节点的偏移量。

所述标记数据是在建立训练集时预先标明的，其中的偏移量可以是空间中的三维位置偏移量，并且对于行人的每个骨架关节点都包括一个对应的偏移量。

在步骤S1203，基于所述标记数据及该像素在该子图像区域中的相对位置，对该行人的各骨架关节点进行投票。

具体的，在该步骤中将匹配像素的标记数据作为像素a的标记数据，由于标记数据中包含有像素相对于行人的骨架关节点的偏移量，因此可以基于像素a在子图像区域中的相对位置及所述标记数据，推测行人A的各骨架关节点的位置。这一过程实际就是一个投票的过程，投票是图像处理领域中的一种常用方法(例如在经典的霍夫变换中就采用了投票的方式)，此处不再对其进行详细介绍。

需要说明的是，在步骤S1201中确定的匹配像素可能有多个。此时，可以基于该多个匹配像素的标记数据及该像素a在该子图像区域中的相对位置，对该行人的各骨架关节点进行投票。更明确的说，可以将该多个匹配像素的标记数据的例如平均值作为像素a的标记数据，进而推测行人A的各骨架关节点的位置。

以上，结合图4描述了在对于例如第N帧深度图像中的例如行人A进行骨架关节点提取处理时、对于该帧深度图像中对应于该行人的子图像区域中的例如像素a执行的处理。在如上所述对该子图像区域中的每个像素执行了相同的处理之后，针对该行人A的每一个待提取的骨架关节点，可以对各个像素的投票进行累计，并通过诸如均值漂移(means-shift)等算法确定投票次数最多的点作为该骨架关节点。由此，可以提取出该行人A的各个骨架关节点。

以上以第N帧深度图像中的行人A为例描述了行人骨架关节点的提取处理。在所述步骤S120中，对于每一帧深度图像中的每个行人，均执行上述的处理，以提取其骨架关节点。

可选的，可以对如上所述提取的骨架关节点进行优化，以消除由于投票过程中可能存在的误差所带来的影响。例如，对于每一帧深度图像中的每个行人，可以通过平滑操作来优化所提取的骨架关节点。仍然以第N帧深度图像中的行人A为例，在如上提取出其骨架关节点后，可以基于该行人A的跟踪片段，确定该第N帧深度图像的前m帧包含有该行人A的深度图像和后n帧包含有该行人A的深度图像，然后基于所述前m帧深度图像和后n帧深度图像中的该行人A的各骨架关节点，通过例如平滑操作来对第N帧深度图像的行人A的骨架关节点进行优化。

回到图1，在步骤S130，根据提取的骨架关节点，将每一帧深度图像中的每个行人的姿态正规化为预定视角下的姿态。

如上文中提到的，在多摄像头的情况下，行人在不同摄像头下的视角可能差别很大，另外在不同的时刻行人可能会有正对、背对或侧面朝向摄像头等不同的姿态，这一方面会导致由于视角和姿态的差异造成的图像的可比性的降低，另一方面会导致无法获取有用的行人属性信息，从而影响再识别的准确性。因此，在该步骤中，将利用提取到的骨架关节点，将每一帧深度图像中的每个行人的姿态正规化为预定视角下的姿态，由此增强图像之间的可比性、增加可获取的有用的属性信息，进而提高再识别的准确性。

仍然以第N帧深度图像中的行人A为例，在该步骤中可以通过以下处理(S1)和(S2)将该行人A的姿态正规化为预定视角下的姿态：

(S1)确定该行人的运动方向，作为其朝向。

在该处理中，可以通过计算该行人A的各骨架关节点在前一帧中的位置与在当前帧中的相应位置的差，确定该行人A的运动方向，并将该运动方向作为行人A的朝向。

(S2)根据所述朝向，通过对该行人的骨架关节点的位置坐标进行空间坐标变换以得到正规化后的骨架关节点的位置坐标，将行人的姿态正规化为预定视角下的姿态。

所述预定视角可以根据具体需要预先设定。例如，在本实施例中，所述预定视角包括第一视角和第二视角，其中第一视角为行人的正面正对摄像头、并且摄像头水平对齐行人正面预定位置，第二视角为行人的背面正对摄像头、并且摄像头水平对齐行人背面预定位置。图5例示了所述第一视角的示例性示意图。如图5所示，摄像头垂直于行人所在的平面，即该行人的正面正对摄像头，并且摄像头水平对齐行人脸部的鼻尖处。

在该处理中，根据在处理(S1)中确定的行人的朝向，确定行人的姿态应当被正规化为哪种预定视角下的姿态。具体的，如果在处理(S1)中确定行人的朝向在从正面正对摄像头向左侧偏转90°到从正面正对摄像头向右侧偏转90°的范围内，则行人的姿态应正规化为第一视角下的姿态；如果确定行人的朝向在从背面正对摄像头向左侧偏转90°到从背面正对摄像头向右侧偏转90°的范围内，则行人的姿态应正规化为第二视角下的姿态。

上述姿态正规化可以通过对行人的骨架关节点的位置坐标进行空间坐标变换来实现。具体的，在该处理中，首先将行人的骨架关节点的位置坐标从图像坐标系变换到世界坐标系，然后对该世界坐标系中的坐标位置进行正规化处理，最后将该正规化后的世界坐标系中的坐标位置变换回图像坐标系。上述空间坐标变换过程可以采用本领域中任何适当的方式来实现，本公开对此不做限制。下面，仅仅是为了说明的完整性，对一种可能的空间坐标变换过程进行概要的描述。

将行人的骨架关节点的位置坐标从图像坐标系变换到世界坐标系可以通过标定摄像机的内参和外参以得到进行坐标变换的旋转矩阵和平移矩阵来实现，这是本领域的公知技术，此处省略对其的详细描述。

对该世界坐标系中的坐标位置进行正规化处理可以通过利用最小二乘法构造正规化变换矩阵来实现。以图3所示的6个骨架关节点为例，将胸部中心的关节点作为正规化参考点(当然也可以选择其他关节点)，并且假设该胸部中心的关节点正规化之前和之后的坐标分别用x_2和y_2表示，则

由此根据图3所示的各个骨架关节点之间的位置关系可以推知：头部关节点正规化之后的坐标为

左手关节点正规化之后的坐标为

右手关节点正规化之后的坐标为y_4＝

左脚关节点正规化之后的坐标为

右脚关节点正规化之后的坐标为

其中α_1，α_2，α_3，β_1，β_2是基于人体身体比例预先设定的参数。这样，可以通过最小二乘法求解如表达式(1)所示的目标方程，得到正规化变换矩阵的近似解。

其中，A是3×3的正规化变换矩阵，x_i和y_i分别表示各骨架关节点在正规化之前和之后的坐标，其中x_i和y_i均为三维向量。

在构造所述正规化变换矩阵A后，通过对各骨架关节点在世界坐标系中的坐标位置应用该变换矩阵A进行变换，即可得到正规化之后的世界坐标系中的坐标位置。

此后，将各骨架关节点的正规化之后的世界坐标系中的坐标位置变换回图像坐标系同样可以通过上文中提到的旋转矩阵和平移矩阵来实现，这同样是本领域的公知技术，此处省略对其的详细描述。

由此，完成了行人的骨架关节点的位置坐标的空间坐标变换，得到了正规化后的骨架关节点的位置坐标，实现了行人姿态的正规化。

需要说明的是，虽然以上通过骨架关节点的位置坐标的空间坐标转换实现了行人姿态的正规化，但是实际上仅根据正规化后的骨架关节点坐标并不能确定行人到底被正规化为哪种姿态了，而是需要结合处理(S1)中确定的行人朝向确定该行人正规化后的姿态到底是哪种姿态。

能够理解，尽管以上以预定视角包括第一视角和第二视角为例进行了描述，但这仅仅是一个示例，而并非是对本公开的限制，本领域技术人员可以根据具体情况设置不同的预定视角。例如，可以设定预定视角包括四个视角，除了前述第一视角和第二视角之外，还包括右侧面部正对摄像头的第三视角和左侧面部正对摄像头的第四视角。再比如，可以设定预定视角包括六个视角，除了前述第一至第四视角之外，还可以包括45°面向摄像头的第五视角和45°背向摄像头的第六视角。

回到图1，在步骤S140，对于每一帧深度图像中的每个行人，提取姿态正规化后该行人的属性特征。

本领域中公知，图像的语义是层次化的，并且可以具体划分为低层语义、中层语义和高层语义。低层语义用于描述图像的视觉特征，如颜色、纹理、形状等，其带有客观性，可以直接从图像中得到，不需要任何外部知识；高层语义是按人的认知方式对图像进行高层抽象而得到的语义，包括场景语义、行为语义和情感语义等；中层语义特征是为了减小低层和高层语义特征之间的语义鸿沟而提出的，通常可在低层语义特征分析的基础上产生，对应于视觉词包和语义主题。

在该步骤中，可选的，对于每一帧深度图像中的每个行人，可以提取姿态正规化后的该行人的各种中层语义属性特征，并且其中至少包括该行人在现实世界的高度。

另外，可选的，在该步骤中，还可以提取行人的底层语义特征、人脸特征和运动特征中的一个或多个。所述底层语义特征如上所述可以包括颜色特征、纹理特征和梯度特征等。在本实施例中，作为示例，颜色特征采用RGB,LUV,YCbCr三种不同的颜色通道，并采用直方图的形式来表示；纹理特征采用局部二值模式，并且也采用直方图的形式来表示；梯度特征则通过对于图像应用sobel算子来求取梯度，并且同样采用直方图形式来表示。所述人脸特征只有当行人正规化为第一视角下的姿态(即行人的正面正对摄像头)时采用，可以采用各种人脸检测算法来确定人脸的具体位置，并找到人脸中的各个标记点。所述运动特征可以通过行人在当前帧深度图像中的姿态正规化后的骨架关节点的位置坐标与其在前若干帧(例如前10帧)深度图像中的姿态正规化后的骨架关节点的位置坐标的变化来表示。

在步骤S150，基于所述属性特征与目标行人的对应属性特征的相似度，从所述深度视频中识别目标行人。

在前面的步骤中，已经对于每一帧深度图像中的每个行人提取了姿态正规化后该行人的属性特征，因而在该步骤中可以通过将各个行人的所述属性特征与目标行人的对应属性特征进行比较，来识别其中的目标行人。需要说明的是，所述目标行人的对应属性特征是指对该目标行人进行了上述骨架关节点提取、和姿态正规化处理之后提取的该目标行人的对应属性特征。

能够理解，在一个待分析的深度视频中，同一个行人可能出现在该视频中的多帧深度图像中，因而在该步骤中，并不需要将每一帧中的每个行人的属性特征都与目标行人的对应属性特征进行比较，而是只需将该深度视频中的各个不同的行人的属性特征与目标行人的对应属性特征进行比较即可。具体的，如前文所述，跟踪片段至少包括描述行人在待分析深度视频中的哪些帧深度图像中出现以及在各帧深度图像中的位置的数据，因此在该步骤中，可以根据每一帧深度图像中的每个行人的跟踪片段，确定所述深度视频中出现的所有不同行人。

在确定了深度视频中出现的所有不同行人后，可以判断其中是否包括有目标行人。具体的，对于深度视频中出现的某个行人(其可能在该深度视频的多帧深度图像中出现)，如果从包含有该行人的至少T帧深度图像中提取的、姿态正规化后的该行人的属性特征与目标行人的对应属性特征的相似度大于预定阈值，则确定该行人为目标行人。T的值可以根据具体需要来设定。例如，如果希望减少进行相似度比较的计算量，以便快速确定视频中是否包含有目标行人，则可以将T值设定为1，这样对于某个行人，只要有一帧包含该行人的深度图像中提取的属性特征与目标行人的对应属性特征的相似度大于预定阈值，就可以确定该行人为目标行人，从而不必再对其他包含有该行人的深度图像与目标行人进行相似度的比较。当然，如果相比于减少相似度比较的计算量更关注于行人再识别的准确性，则可以相应地增大T的值。

可选的，在进行对应属性特征的相似度比较时，可以仅将与目标行人具有相同正规化姿态的行人与目标行人进行相似度比较。具体来说，如果目标行人正规化之后的姿态为第一视角下的姿态，可以仅将待分析深度视频中经过正规化之后的姿态同样为第一视角下的姿态的行人与该目标行人进行相似度比较，由此可以减少相似度比较的计算量。

如前所述，从深度图像中提取的行人的属性特征可能是多个，因此在与目标行人的对应属性特征进行相似度比较时，可以将该行人的每个属性特征与目标行人的对应属性特征分别进行比较，得到各自对应的相似度，然后通过求取加权平均值等方式来确定总体的相似度。各个特征的权重可以根据具体情况来设定，例如可选的，可以设定人脸特征的权重最大、底层语义特征的权重次之、中层语义特征再次之、行人运动特征的权重最小。

在如上确定了某个行人是目标行人之后，可以基于该行人的跟踪片段，确定待分析深度视频中包含有该某个行人的各帧深度图像，由此实现目标行人的再识别。

可选的，在确定待分析深度视频中包含目标行人并从中识别出该目标行人之后，可以再进行时空域上的连续性验证，以验证再识别结果。所述时空域上的连续性验证可以采取各种适当的检验方式。例如，一个行人的各个特征在相邻两帧间通常应当是相似的，如果在最终确定包含有目标行人的相邻帧深度图像中该行人的特征差别太大，则认为该再识别结果可能是有问题的，可能需要重新进行再识别处理。

以上结合附图描述了根据本公开实施例的行人再识别方法，通过该方法可以从来自于某个摄像头的一个待分析深度视频中识别目标行人。当存在来自多个不同的摄像头的大量待分析深度视频时，通过针对每个待分析深度视频执行该再识别方法，可以从所述大量待分析深度视频中识别目标行人。

可选的，当存在来自多个不同的摄像头的大量待分析深度视频时，可以事先进行时空域分析，以减少行人再识别的计算量，从而快速在多个视频中定位出目标行人。可以采取各种适当的方式进行所述时空域分析。例如，如果确定在来自于某个摄像头的一个待分析深度视频中存在目标行人，则根据时空域连续性可知该目标行人接下来应该在该摄像头附近的区域中出现，因此接下来可以仅在来自于该摄像头附近的摄像头的待分析深度视频中进行目标行人的再识别。

如上文中所描述的，根据本公开实施例的行人再识别方法利用深度视频进行目标行人的识别，其有效利用了图像和视频中行人的深度信息从而减小了光照条件的影响，并且通过对行人的姿态进行正规化减小了不同摄像头的视角不同、以及行人背对或侧面朝向摄像头所导致的信息不全的影响，进而提高了行人再识别的准确度。

下面，将参照图6来描述根据本公开的实施例的行人再识别设备的框图。图6示出了根据本公开实施例的行人再识别设备600的示例性结构框图。如图6所示，该行人再识别设备可以包括检测装置610、骨架提取装置620、正规化装置630、特征提取装置640以及识别装置650，所述各个装置可分别执行上文中结合图1描述的行人再识别方法的各个步骤/功能。以下仅对该行人再识别设备600的各装置的主要功能进行描述，而省略以上已经描述过的细节内容。

检测装置610可以在深度视频的每一帧深度图像中检测行人。所述深度视频即需要从中识别目标行人的待分析深度视频，其是由与拍摄目标行人的深度摄像头不同的单个深度摄像头在某一时刻拍摄的。检测装置610可以采用本领域中任何适当的图像检测技术从待分析深度视频的各帧深度图像中检测行人，本公开对此不做限制。

可选的，所述检测装置610可以对于每一帧深度图像中检测出的每个行人进行跟踪，以确定该行人在所述待分析深度视频的其他哪些帧中出现了，并确定该行人在这些帧中的位置。

骨架提取装置620可以对于每一帧深度图像中的每个行人进行骨架关节点提取。骨架关节点可以很好地描述行人的姿态，其具体数量可以根据需要来设定。如前所述，此处设定骨架关节点为6个，分别代表头部、左手、右手、胸部中心、左脚和右脚。

具体的，骨架提取装置620可以进一步包括匹配单元、标记提取单元、投票单元和关节点提取单元。下面，以对深度视频的第N帧中的行人A进行骨架关节点提取为例，对骨架提取装置620执行的操作进行描述。

匹配单元对于第N帧对应于行人A的子图像区域中的每个像素确定预先建立的训练集中与其匹配的匹配像素，所述训练集中包含有多张行人深度图像，并且每张行人深度图像中预先标明了行人的骨架关节点。可以基于像素的特征描述及像素在子图像区域中的相对位置，确定所述匹配像素，其中所述特征描述可以是用于描述像素的任何适当的特征。

标记提取单元对于所述每个像素提取与之匹配的匹配像素的标记数据，所述标记数据包括该匹配像素相对于其所在的行人深度图像中行人的骨架关节点的偏移量。所述标记数据是在建立训练集时预先标明的，其中的偏移量可以是空间中的三维位置偏移量，并且对于行人的每个骨架关节点都包括一个对应的偏移量。

投票单元针对所述每个像素进行投票。具体的，以针对像素a进行投票为例，该投票单元基于与像素a对应的匹配像素的标记数据及像素a在所述子图像区域中的相对位置，对该行人的各骨架关节点进行投票。更明确的说，投票单元将匹配像素的标记数据作为像素a的标记数据，由于标记数据中包含有像素相对于行人的骨架关节点的偏移量，因此可以基于像素a在子图像区域中的相对位置及所述标记数据，推测行人A的各骨架关节点的位置。这一过程实际就是一个投票的过程。需要说明的是，匹配单元所确定的匹配像素可能有多个，此时，投票单元可以将该多个匹配像素的标记数据的例如平均值作为像素a的标记数据，进而推测行人A的各骨架关节点的位置。

关节点提取单元可以针对该行人A的每一个待提取的骨架关节点，对由投票单元针对各个像素进行的投票进行累计，并确定投票次数最多的点作为该骨架关节点。由此，可以提取出该行人A的各个骨架关节点。

以上以第N帧深度图像中的行人A为例描述了行人骨架关节点的提取操作，所述骨架提取装置620对于每一帧深度图像中的每个行人，均执行上述操作，以提取其骨架关节点。

可选的，骨架提取装置620可以进一步包括平滑单元，用于对于每一帧深度图像中的每个行人的所提取的骨架关节点进行平滑操作，以消除由于投票过程中可能存在的误差所带来的影响。

正规化装置630可以根据提取的骨架关节点，将每一帧深度图像中的每个行人的姿态正规化为预定视角下的姿态。具体的，正规化装置630可以进一步包括朝向确定单元和正规化单元。下面，仍然以第N帧深度图像中的行人A为例，对正规化装置630执行的处理进行描述。

朝向确定单元确定行人A的运动方向，作为其朝向。具体的，朝向确定单元可以通过计算该行人A的各骨架关节点在前一帧中的位置与在当前帧中的位置的差，确定该行人A的运动方向，并将该运动方向作为行人A的朝向。

正规化单元根据由朝向确定单元确定的朝向，通过对该行人A的骨架关节点的位置坐标进行空间坐标变换以得到正规化后的骨架关节点的位置坐标，将行人的姿态正规化为预定视角下的姿态。

所述预定视角可以根据具体需要预先设定。例如，在本实施例中，所述预定视角包括第一视角和第二视角，其中第一视角为行人的正面正对摄像头、并且摄像头水平对齐行人正面预定位置，第二视角为行人的背面正对摄像头、并且摄像头水平对齐行人背面预定位置。正规化单元根据由朝向确定单元确定的朝向，确定行人的姿态应当被正规化为哪种预定视角下的姿态。具体的，如果朝向确定单元确定行人的朝向在从正面正对摄像头向左侧偏转90°到从正面正对摄像头向右侧偏转90°的范围内，则行人的姿态应正规化为第一视角下的姿态；如果朝向确定单元确定行人的朝向在从背面正对摄像头向左侧偏转90°到从背面正对摄像头向右侧偏转90°的范围内，则行人的姿态应正规化为第二视角下的姿态。

上述姿态正规化可以通过对行人的骨架关节点的位置坐标进行空间坐标变换来实现。具体的，正规化单元首先将行人的骨架关节点的位置坐标从图像坐标系变换到世界坐标系，然后对该世界坐标系中的坐标位置进行正规化处理，最后将该正规化后的世界坐标系中的坐标位置变换回图像坐标系。上述空间坐标变换过程可以采用本领域中任何适当的方式来实现，此处不再详细描述。

需要说明的是，虽然以上通过骨架关节点的位置坐标的空间坐标转换实现了行人姿态的正规化，但是实际上仅根据正规化后的骨架关节点坐标并不能确定行人到底被正规化为哪种姿态了，而是需要结合朝向确定单元确定的行人朝向确定该行人正规化后的姿态到底是哪种姿态。

能够理解，尽管以上以预定视角包括第一视角和第二视角为例进行了描述，但这仅仅是一个示例，而并非是对本公开的限制，本领域技术人员可以根据具体情况设置不同的预定视角。

特征提取装置640可对于每一帧深度图像中的每个行人，提取姿态正规化后该行人的属性特征。可选的，对于每一帧深度图像中的每个行人，特征提取装置640可以提取姿态正规化后的该行人的各种中层语义属性特征，并且其中至少包括该行人在现实世界的高度。可选的，特征提取装置640还可以提取行人的底层语义特征、人脸特征和运动特征中的一个或多个。

识别装置650可以基于所述属性特征与目标行人的对应属性特征的相似度，从所述深度视频中识别目标行人。由于特征提取装置640已经对于每一帧深度图像中的每个行人提取了姿态正规化后该行人的属性特征，因而识别装置650可以通过将各个行人的所述属性特征与目标行人的对应属性特征进行比较，来识别其中的目标行人。需要说明的是，所述目标行人的对应属性特征是指对该目标行人进行了上述骨架关节点提取、和姿态正规化处理之后提取的该目标行人的属性特征。

能够理解，在一个待分析的深度视频中，同一个行人可能出现在该视频中的多帧深度图像中，因而识别装置650并不需要将每一帧中的每个行人的属性特征都与目标行人的对应属性特征进行比较，而是只需将该深度视频中的各个不同的行人的属性特征与目标行人的对应属性特征进行比较即可。具体的，识别装置650可以根据每一帧深度图像中的每个行人的跟踪片段，确定所述深度视频中出现的所有不同行人。

在确定了深度视频中出现的所有不同行人后，识别装置650判断其中是否包括有目标行人。具体的，对于深度视频中出现的某个行人(其可能在该深度视频的多帧深度图像中出现)，如果从包含有该行人的至少T帧深度图像中提取的、姿态正规化后的该行人的属性特征与目标行人的对应属性特征的相似度大于预定阈值，则识别装置650确定该行人为目标行人。T的值可以根据具体需要来设定。

可选的，在进行对应属性特征的相似度比较时，识别装置650可以仅将与目标行人具有相同正规化姿态的行人与目标行人进行相似度比较。具体来说，如果目标行人正规化之后的姿态为第一视角下的姿态，可以仅将待分析深度视频中经过正规化之后的姿态同样为第一视角下的姿态的行人与该目标行人进行相似度比较，由此可以减少相似度比较的计算量。

如前所述，从深度图像中提取的行人的属性特征可能是多个，因此在与目标行人的对应属性特征进行相似度比较时，识别装置650可以将该行人的每个属性特征与目标行人的对应属性特征分别进行比较，得到各自对应的相似度，然后通过求取加权平均值等方式来确定总体的相似度。各个特征的权重可以根据具体情况来设定。

在如上确定了某个行人是目标行人之后，识别装置650可以基于该行人的跟踪片段，确定待分析深度视频中包含有该某个行人的各帧深度图像，由此实现目标行人的再识别。

以上结合附图描述了根据本公开实施例的行人再识别设备600，通过该设备可以从来自于某个摄像头的一个待分析深度视频中识别目标行人。当存在来自多个不同的摄像头的大量待分析深度视频时，通过应用该行人再识别设备针对每个待分析深度视频进行再识别，可以从所述大量待分析深度视频中识别目标行人。

可选的，当存在来自多个不同的摄像头的大量待分析深度视频时，所述行人再识别设备600可以事先进行时空域分析，以减少行人再识别的计算量，从而快速在多个视频中定位出目标行人。

如上文中所描述的，根据本公开实施例的行人再识别设备600利用深度视频进行目标行人的识别，其有效利用了图像和视频中行人的深度信息从而减小了光照条件的影响，并且通过对行人的姿态进行正规化减小了不同摄像头的视角不同、以及行人背对或侧面朝向摄像头所导致的信息不全的影响，进而提高了行人再识别的准确度。

下面，参照图7来描述可用于实现本公开的实施例的示例性计算设备的框图。该计算设备可以是配备有深度摄像头的计算机或服务器。

如图7所示，计算设备700包括一个或多个处理器702、存储装置704、深度摄像头706和输出装置708，这些组件通过总线系统710和/或其它形式的连接机构(未示出)互连。应当注意，图7所示的计算设备700的组件和结构只是示例性的，而非限制性的，根据需要，计算设备700也可以具有其他组件和结构。

处理器702可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制计算设备700中的其它组件以执行期望的功能。

存储装置704可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器702可以运行所述程序指令，以实现上文所述的本公开的实施例的功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如深度视频、每帧深度图像中检测出的每个行人的位置信息、行人的跟踪片段、对于每一帧深度图像中的每个行人提取的骨架关节点、各个像素的匹配像素、预先建立的训练集、每个像素点投票结果、每一帧深度图像中的每个行人的朝向、骨架关节点正规化后的位置坐标、针对每一帧深度图像中的每个行人提取的属性特征、目标行人的骨架关节点、目标行人的书香特征等等。

深度摄像头706用于拍摄待分析的深度视频，并且将所拍摄的深度视频存储在存储装置704中以供其它组件使用。当然，也可以利用其他拍摄设备拍摄所述深度视频，并且将拍摄的深度视频发送给行人再识别设备700。在这种情况下，可以省略深度摄像头706。

输出装置708可以向外部(例如用户)输出各种信息，例如图像信息、声音信息、行人再识别结果，并且可以包括显示器、扬声器等中的一个或多个。

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，用于进行行人的再识别。该计算机程序产品包括计算机可读存储介质，在所述计算机可读存储介质上存储了计算机程序指令，所述计算机程序指令可由处理器执行以使得所述处理器在深度视频的每一帧深度图像中检测行人；对于每一帧深度图像中的每个行人，进行骨架关节点提取；根据提取的骨架关节点，将每一帧深度图像中的每个行人的姿态正规化为预定视角下的姿态；对于每一帧深度图像中的每个行人，提取姿态正规化后该行人的属性特征；以及基于所述属性特征与目标行人的对应属性特征的相似度，从所述深度视频中识别目标行人。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本公开的设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

一种行人再识别方法，包括：

在深度视频的每一帧深度图像中检测行人；

对于每一帧深度图像中的每个行人，进行骨架关节点提取；

根据提取的骨架关节点，将每一帧深度图像中的每个行人的姿态正规化为预定视角下的姿态；

对于每一帧深度图像中的每个行人，提取姿态正规化后该行人的属性特征；以及

基于所述属性特征与目标行人的对应属性特征的相似度，从所述深度视频中识别目标行人。
如权利要求1所述的行人再识别方法，其中所述目标行人包含在由深度摄像头拍摄的目标深度视频中，并且所述目标深度视频和所述深度视频是由不同的深度摄像头拍摄的，或者所述目标深度视频和所述深度视频是单个深度摄像头在不同时刻拍摄的。
如权利要求1所述的行人再识别方法，还包括：

对每一帧深度图像中检测出的每个行人进行跟踪，以获得该行人的跟踪片段，所述跟踪片段包括描述该行人在所述深度视频中的哪些帧深度图像中出现以及该行人在各帧深度图像中的位置的数据。
如权利要求3所述的行人再识别方法，其中对于每一帧深度图像中的每个行人进行骨架关节点提取包括：

对于该帧深度图像中对应于该行人的子图像区域中的每个像素：

确定预先建立的训练集中与其匹配的匹配像素，所述训练集中包含有多张行人深度图像，并且每张行人深度图像中预先标明了行人的骨架关节点；

提取该匹配像素的标记数据，所述标记数据包括该匹配像素相对于其所在的行人深度图像中行人的骨架关节点的偏移量；

基于所述标记数据及该像素在该子图像区域中的相对位置，对该行人的各骨架关节点进行投票；

对于该行人的每一个待提取的骨架关节点，确定所述子图像区域中的各个像素投票次数最多的点作为该骨架关节点。
如权利要求4所述的行人再识别方法，其中对于该帧深度图像中对应于该行人的子图像区域中的每个像素确定预先建立的训练集中与其匹配的匹配像素包括：

对于所述每个像素，基于该像素的特征描述及该像素在该子图像区域中的相对位置，确定所述匹配像素。
如权利要求4所述的行人再识别方法，其中对于每一帧深度图像中的每个行人进行骨架关节点提取还包括：

基于该行人的跟踪片段，确定该帧深度图像的前m帧包含有该行人的深度图像和后n帧包含有该行人的深度图像；

对于所确定的该帧深度图像中的该行人的各骨架关节点，基于所述前m帧深度图像和后n帧深度图像中的该行人的各骨架关节点进行优化。
如权利要求1所述的行人再识别方法，其中根据提取的骨架关节点将每一帧深度图像中的每个行人的姿态正规化为预定视角下的姿态包括：

确定该行人的运动方向，作为其朝向；

根据所述朝向，通过对该行人的骨架关节点的位置坐标进行空间坐标变换以得到正规化后的骨架关节点的位置坐标，将行人的姿态正规化为预定视角下的姿态。
如权利要求7所述的行人再识别方法，其中所述预定视角包括第一视角和第二视角，所述第一视角为行人的正面正对摄像头，并且摄像头水平对齐行人正面预定位置，所述第二视角为行人的背面正对摄像头，并且摄像头水平对齐行人背面预定位置。
如权利要求7所述的行人再识别方法，其中对于每一帧深度图像中的每个行人提取姿态正规化后该行人的属性特征包括：提取该行人的中层语义特征，该中层语义特征至少包括该行人在现实世界的高度。
如权利要求9所述的行人再识别方法，其中对于每一帧深度图像中的每个行人提取姿态正规化后该行人的属性特征还包括：提取该行人的底层语义特征、人脸特征和运动特征中的一个或多个。
如权利要求10所述的行人再识别方法，其中该行人的运动特征通过其在当前帧深度图像中的姿态正规化后的骨架关节点的位置坐标与其在前若干帧深度图像中的姿态正规化后的骨架关节点的位置坐标的变化来表示。
如权利要求3所述的行人再识别方法，其中基于所述属性特征与目标行人的对应属性特征的相似度，从所述深度视频中识别目标行人包括：

根据每一帧深度图像中的每个行人的跟踪片段，确定所述深度视频中出现的所有不同行人；

判断所述深度视频中出现的各个行人中是否包括目标行人，其中对于深度视频中出现的某个行人，如果从包含该某个行人的至少一帧深度图像中提取的、姿态正规化后的该行人的属性特征与目标行人的对应属性特征的相似度大于预定阈值，则确定该某个行人为目标行人；

基于该某个行人的跟踪片段，确定所述视频中包含有该某个行人的各帧深度图像。
一种行人再识别设备，包括：

处理器；

存储器；和

存储在所述存储器中的计算机程序指令，在所述计算机程序指令被所述处理器运行时执行以下步骤：

在深度视频的每一帧深度图像中检测行人；

对于每一帧深度图像中的每个行人，进行骨架关节点提取；

根据提取的骨架关节点，将每一帧深度图像中的每个行人的姿态正规化为预定视角下的姿态；

对于每一帧深度图像中的每个行人，提取姿态正规化后该行人的属性特征；以及

基于所述属性特征与目标行人的对应属性特征的相似度，从所述深度视频中识别目标行人。
如权利要求13所述的行人再识别设备，还包括：

深度摄像头，配置为拍摄所述深度视频。
如权利要求13所述的行人再识别设备，还包括：

对每一帧深度图像中检测出的每个行人进行跟踪，以获得该行人的跟踪片段，所述跟踪片段包括描述该行人在所述深度视频中的哪些帧深度图像中出现以及该行人在各帧深度图像中的位置的数据。
如权利要求13所述的行人再识别设备，其中对于每一帧深度图像中的每个行人进行骨架关节点提取包括：

对于该帧深度图像中对应于该行人的子图像区域中的每个像素：

确定预先建立的训练集中与其匹配的匹配像素，所述训练集中包含有多张行人深度图像，并且每张行人深度图像中预先标明了行人的骨架关节点；

提取该匹配像素的标记数据，所述标记数据包括该匹配像素相对于其所在的行人深度图像中行人的骨架关节点的偏移量；

基于所述标记数据及该像素在该子图像区域中的相对位置，对该行人的各骨架关节点进行投票；

对于该行人的每一个待提取的骨架关节点，确定所述子图像区域中的各个像素投票次数最多的点作为该骨架关节点。
如权利要求13所述的行人再识别设备，其中根据提取的骨架关节点将每一帧深度图像中的每个行人的姿态正规化为预定视角下的姿态包括：

确定该行人的运动方向，作为其朝向；

基于所述朝向，通过对该行人的骨架关节点的位置坐标进行空间坐标变换以得到正规化后的骨架关节点的位置坐标，将行人的姿态正规化为预定视角下的姿态。
如权利要求17所述的行人再识别设备，其中所述预定视角包括第一视角和第二视角，所述第一视角为行人的正面正对摄像头，并且摄像头水平对齐行人正面预定位置，所述第二视角为行人的背面正对摄像头，并且摄像头水平对齐行人背面预定位置。
如权利要求15所述的行人再识别设备，其中基于所述属性特征与目标行人的对应属性特征的相似度，从所述深度视频中识别目标行人包括：

根据每一帧深度图像中的每个行人的跟踪片段，确定所述深度视频中出现的所有不同行人；

判断所述深度视频中出现的各个行人中是否包括目标行人，其中对于深度视频中出现的某个行人，如果从包含该某个行人的至少一帧深度图像中提取的、姿态正规化后的该行人的属性特征与目标行人的对应属性特征的相似度大于预定阈值，则确定该某个行人为目标行人；

基于该某个行人的跟踪片段，确定所述视频中包含有该某个行人的各帧深度图像。
一种用于行人再识别的计算机程序产品，包括计算机可读存储介质，在所述计算机可读存储介质上存储了计算机程序指令，所述计算机程序指令可由处理器执行以使得所述处理器：

在深度视频的每一帧深度图像中检测行人；

对于每一帧深度图像中的每个行人，进行骨架关节点提取；

根据提取的骨架关节点，将每一帧深度图像中的每个行人的姿态正规化为预定视角下的姿态；

对于每一帧深度图像中的每个行人，提取姿态正规化后该行人的属性特征；以及

基于所述属性特征与目标行人的对应属性特征的相似度，从所述深度视频中识别目标行人。