WO2022206744A1

WO2022206744A1 - 信息关联方法、系统、装置、服务器及存储介质

Info

Publication number: WO2022206744A1
Application number: PCT/CN2022/083610
Authority: WO
Inventors: 张俊力; 唐政; 陈韬
Original assignee: 杭州海康威视数字技术股份有限公司
Priority date: 2021-03-29
Filing date: 2022-03-29
Publication date: 2022-10-06
Also published as: CN112949577B; CN112949577A

Abstract

本申请实施例公开了一种信息关联方法、系统、装置、服务器及存储介质，属于安防监管领域。包括：通过双目相机采集的第一视频对目标用户进行检测和跟踪，确定目标用户的用户标识以及目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标，基于用户标识以及人体骨骼关键点在双目相机坐标系中的三维坐标，确定放包时刻和可见光包裹图像，基于放包时刻，通过安检机确定包裹处于X光探测区域的X光包裹图像，基于人体骨骼关键点在双目相机坐标系中的三维坐标，通过人脸抓拍机确定目标用户的人脸图像，关联可见光包裹图像、X光包裹图像和人脸图像。本申请实施例通过双目相机、人脸抓拍机和安检机等简单设备即可实现信息的关联，硬件环境搭建简单。

Description

信息关联方法、系统、装置、服务器及存储介质

本申请要求于2021年03月29日提交中国专利局、申请号为20211033656 7.6发明名称为“信息关联方法、装置、服务器及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及安防监管领域，特别涉及一种信息关联方法、系统、装置、服务器及存储介质。

背景技术

在安检机对包裹进行安检的场景中，将包裹图像以及在安检机上放置包裹的用户的人脸图像进行关联，从而利用关联信息在危险品报警、问题包裹追溯、重点人群管控等领域具有重要的应用前景。因此，如何进行信息关联成为目前亟待解决的问题。

相关技术提出了一种信息关联方法，在该方法中，用户需要按顺序排队进入放包区域，将包裹放置在收纳托盘中。而且还需要上下架设两个人脸抓拍机，处于上方的人脸抓拍机正对用户人脸，用于抓拍人脸图像，处于下方的人脸抓拍机正对人体部位，用于确定用户双手推送收纳托盘到安检机传送带上这一动作，以及抓拍包裹未进入安检机的可见光包裹图像。之后，将处于下方的人脸抓拍机确定上述动作的时刻作为起始时刻，结合传送带速度，确定收纳托盘到达安检机内的X光探测器下的X光包裹图像。通过上下两个人脸抓拍机的同步，完成放置包裹的用户的人脸图像、可见光包裹图像和X光包裹图像的关联。

然而，上述方案对场地要求比较高，而且需要部署托盘传送通道等较为复杂的硬件结构，部署困难。

发明内容

本申请实施例提供了一种信息关联方法、系统、装置、服务器及存储介质，可以解决相关技术的硬件结构复杂，部署困难的问题。所述技术方案如下：

一方面，提供了一种信息关联方法，安检机的上方部署有双目相机，上述安检机的X光探测区域的上方部署有人脸抓拍机，上述方法包括：

通过上述双目相机采集的第一视频对目标用户进行检测和跟踪，确定上述目标用户的用户标识，以及上述第一视频的视频帧图像中上述目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标；基于上述用户标识，以及上述第一视频的视频帧图像中上述人体骨骼关键点在上述双目相机坐标系中的三维坐标，确定上述目标用户在上述安检机上放置包裹的放包时刻和上述包裹的可见光包裹图像；基于上述放包时刻，通过上述安检机确定上述包裹处于上述X光探测区域的X光包裹图像；基于上述第一视频的视频帧图像中上述人体骨骼关键点在上述双目相机坐标系中的三维坐标，通过上述人脸抓拍机确定上述目标用户的人脸图像；关联上述可见光包裹图像、上述X光包裹图像和上述人脸图像。

另一方面，提供了一种信息关联系统，上述信息关联系统包括：服务器、安检机的上方部署有双目相机，以及安检机的X光探测区域的上方部署有人脸抓拍机；其中，

上述双目相机，设置于采集包含目标用户的第一视频；

上述服务器，设置于通过上述第一视频对上述目标用户进行检测和跟踪，确定上述目标用户的用户标识，以及上述第一视频的视频帧图像中上述目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标；基于上述用户标识，以及上述第一视频的视频帧图像中上述人体骨骼关键点在上述双目相机坐标系中的三维坐标，确定上述目标用户在上述安检机上放置包裹的放包时刻和上述包裹的可见光包裹图像；基于上述放包时刻，通过上述安检机确定上述包裹处于上述X光探测区域的X光包裹图像；基于上述第一视频的视频帧图像中上述人体骨骼关键点在上述双目相机坐标系中的三维坐标，通过上述人脸抓拍机确定上述目标用户的人脸图像；

上述人脸抓拍机，设置于采集上述目标用户的人脸图像。

另一方面，提供了一种信息关联装置，安检机的上方部署有双目相机，上述安检机的X光探测区域的上方部署有人脸抓拍机，上述装置包括：

检测跟踪模块，设置于通过上述双目相机采集的第一视频对目标用户进行检测和跟踪，确定上述目标用户的用户标识，以及上述第一视频的视频帧图像中上述目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标；

第一确定模块，设置于基于上述用户标识，以及上述第一视频的视频帧图像中上述人体骨骼关键点在上述双目相机坐标系中的三维坐标，确定上述目标用户在上述安检机上放置包裹的放包时刻和上述包裹的可见光包裹图像；

第二确定模块，设置于基于上述放包时刻，通过上述安检机确定上述包裹处于上述X光探测区域的X光包裹图像；

第三确定模块，设置于基于上述第一视频的视频帧图像中上述人体骨骼关键点在上述双目相机坐标系中的三维坐标，通过上述人脸抓拍机确定上述目标用户的人脸图像；

关联模块，用于关联上述可见光包裹图像、上述X光包裹图像和上述人脸图像。

另一方面，提供了一种服务器，上述服务器包括处理器、通信接口、存储器和通信总线，上述处理器、上述通信接口和上述存储器通过上述通信总线完成相互间的通信，上述存储器用于存放计算机程序，上述处理器用于执行上述存储器上所存放的程序，以实现上述上述信息关联方法的步骤。

另一方面，提供了一种计算机可读存储介质，上述存储介质内存储有计算机程序，上述计算机程序被处理器执行时实现上述上述信息关联方法的步骤。

另一方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述上述的信息关联方法的步骤。

另一方面，提供了一种包含指令的计算机程序，上述计算机程序在计算机上运行时，使得计算机执行上述上述的信息关联方法的步骤。

本申请实施例提供的技术方案至少可以带来以下有益效果：

本申请实施例采用双目相机、人脸抓拍机和安检机等硬件设备即可实现可见光包裹图像、X光包裹图像以及目标用户的人脸图像的关联，硬件环境搭建简单，设备需求简单。

附图说明

为了更清楚地说明本申请实施例和现有技术的技术方案，下面对实施例和现有技术中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的结构示意图；

图2是本申请实施例提供的一种实施环境的俯视图；

图3是本申请实施例提供的一种实施环境的俯视图；

图4是本申请实施例提供的一种信息关联方法的流程图；

图5是本申请实施例提供的一种计算视差图的原理示意图；

图6是本申请实施例提供的一种信息关联系统的结构示意图；

图7是本申请实施例提供的一种信息关联装置的结构示意图；

图8是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案、及优点更加清楚明白，以下参照附图并举实施例，对本申请进一步详细说明。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在对本申请实施例提供的信息关联方法进行详细的解释说明之前，先对本申请实施例提供的应用场景和实施环境进行介绍。

请参考图1，图1是根据一示例性实施例示出的一种实施环境的示意图。该实施环境包括安检机101、双目相机102、人脸抓拍机103和服务器104，安检机101、双目相机102和人脸抓拍机103均与服务器104进行通信连接。该通信连接为有线或者无线连接，本申请实施例对此不做限定。

其中，安检机101是一种借助于传送带将被检查包裹送入X光检查通道而完成检查的电子设备。包裹进入X光检查通道，将阻挡包裹检测传感器从而产生检测信号，检测信号被送往安检机101的控制器，由控制器产生X光触发信号并发送给安检机101的X射线源，以触发X射线源发射X光。X光穿过传送带上的被检包裹，X光被被检包裹吸收并轰击安装在X光检查通道内的双能量半导体探测器。双能量半导体探测器把X光转变为电信号，从而被处理器处理为X光包裹图像。

双目相机102部署在安检机101的上方，且双目相机102的拍摄视场包括安检机101所在的区域以及用户在安检机101附近的行走路径。比如，请参考图2，图2中的相机俯视区域为双目相机102的拍摄视场，其中行人路径表示用户在安检机101附近的行走路径。

人脸抓拍机103部署在安检机101的X光探测区域的上方，正对人员安检通道，用于抓拍用户的正脸图像。比如，请参考图3，人脸抓拍机103部署在安检机101的X光探测区域的上方且靠近X光探测区域的左边，这样，在用户通过人员安检通道时，人脸抓拍机103即可拍摄到用户的正脸图像。换句话说，人脸抓拍机103的拍摄视场包括图3中的人员安检通道所处的区域。

服务器104是一台服务器或者是由多台服务器组成的服务器集群，当然也可以是一个云计算服务中心。

在关联信息的过程中，在一种实现方式中，双目相机102的两个摄像头用于采集拍摄视场内的视频，得到第一视频和第二视频，将第一视频和第二视频发送给服务器104。服务器104基于第一视频和第二视频，对目标用户进行检测和跟踪，从而确定目标用户的用户标识和第一视频的视频帧图像中目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标，基于目标用户的用户标识，以及第一视频的视频帧图像中目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标，确定目标用户在安检机上放置包裹的放包时刻和包裹的可见光包裹图像。

当然，在另一种实现方式中，在拍摄到第一视频和第二视频之后，双目相机102基于第一视频和第二视频，对目标用户进行检测和跟踪，从而确定目标用户的用户标识，以及第一视频的视频帧图像中目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标，并基于目标用户的用户标识，以及第一视频的视频帧图像中目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标，确定目标用户在安检机上放置包裹的放包时刻和包裹的可见光包裹图像。之后，双目相机102将放包时刻和可见光包裹图像发送给服务器104。同时，在双目相机102确定出目标用户的用户标识，以及第一视频的视频帧图像中目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标之后，为了便于人脸抓拍机103抓拍目标用户的人脸图像，双目相机102还需要将第一视频的视频帧图像中目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标发送给服务器104，以使服务器104控制人脸抓拍机103抓拍目标用户的人脸图像。

无论是上述两种实现方式中的哪种实现方式，一方面，在服务器104获取到放包时刻和可见光包裹图像之后，服务器104基于放包时刻以及安检机101传送包裹的传送速度，确定目标用户放置的包裹处于X光探测区域的时刻，进而触发安检机101拍摄X光包裹图像。当然，服务器104也可以将目标用户的放包时刻发送给安检机101，由安检机101基于放包时刻以及安检机101传送包裹的传送速度，确定目标用户放置的包裹处于X光探测区域的时刻，进而拍摄X光包裹图像，并将X光包裹图像发送给服务器104。

另一方面，在服务器104获取到第一视频的视频帧图像中目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标之后，服务器104基于第一视频的视频帧图像中目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标，以及人脸抓拍机103抓拍到的各个人脸图像，确定目标用户的人脸图像。当然，服务器104也可以将第一视频的视频帧图像中目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标发送给人脸抓拍机103，由人脸抓拍机103基于目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标，以及人脸抓拍机103抓拍到的各个人脸图像，确定目标用户的人脸图像。之后，人脸抓拍机103将目标用户的人脸图像发送给服务器104。

在服务器104获取到目标用户的可见光包裹图像、X光包裹图像和目标用户的人脸图像之后，服务器104即可关联可见光包裹图像、X光包裹图像和目标用户的人脸图像。

需要说明的是，可见光包裹图像是指包裹在可见光下拍摄到的图像，X光包裹图像是指包裹在X光下拍摄到的图像。人体骨骼关键点包括人体的头顶、肩膀、手肘、手腕等关节点。

另外，上述内容仅列出了部分实现方式，在实际应用中，上述处理过程也可以一部分由服务器104处理，另一部分由相应的设备处理，而且上述各种实现方式可以任意组合，本申请实施例对此不做限制。

另外，上述实施环境是通过服务器104来实现各个设备之间的通信，进而实现信息关联的。在某些情况下，本申请实施例提供的信息关联方法也可以不需要通过服务器104来实现各个设备的通信。在这种实施环境中，安检机101能够与双目相机102进行通信连接，双目相机102还能够与人脸抓拍机103进行通信连接，双目相机102用于确定放包时刻与可见光包裹图像，并将放包时刻发送给安检机101，安检机101用于基于放包时刻确定X光包裹图像，人脸抓拍机103用于确定目标用户的人脸图像。最后，由双目相机102关联可见光包裹图像、X光包裹图像和目标用户的人脸图像。当然，双目相机102也可以将可见光包裹图像发送给服务器104，安检机101将X光包裹图像发送给服务器104，人脸抓拍机103将目标用户的人脸图像发送给服务器104，由服务器104关联可见光包裹图像、X光包裹图像和目标用户的人脸图像。

基于上述描述，信息关联的处理过程的组合方式有很多，接下来以其中的一种方式为例，对本申请实施例提供的信息关联方法进行详细的解释说明。

图4是本申请实施例提供的一种信息关联方法的流程图，以应用于服务器为例进行说明，在该方法中，安检机的上方部署有双目相机，安检机的X光探测区域的上方部署有人脸抓拍机。请参考图4，该方法包括如下步骤。

步骤401：服务器通过双目相机采集的第一视频对目标用户进行检测和跟踪，确定目标用户的用户标识，以及第一视频的视频帧图像中目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标。

也就是说，服务器可以获取双目相机采集的第一视频，进而通过第一视频对目标用户进行检测和跟踪，确定目标用户的用户标识，以及通过第一视频对目标用户进行检测和跟踪，确定第一视频的视频帧图像中目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标。其中，上述第一视频只双目相机采集的两个视频中的一个。上述目标用户为第一视频的视频帧图像中包含的用户。

在一些实施例中，服务器基于第一视频和双目相机采集的第二视频，确定第一视频中每个视频帧图像对应的深度图像。基于第一视频，对目标用户进行检测和跟踪，确定目标用户的用户标识，以及目标用户的人体骨骼关键点在第一视频的视频帧图像中的坐标，基于第一视频中的视频帧图像对应的深度图像，以及目标用户的人体骨骼关键点在第一视频的视频帧图像中的坐标，确定第一视频的视频帧图像中目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标。

由于双目相机的两个摄像头同时在拍摄同一场景，且第一视频中每个视频帧图像对应的深度图像的确定过程相同。因此，接下来以第一视频中的一个视频帧图像为例，对服务器确定对应的深度图像的实现过程进行介绍。由于深度图像通常是通过同时拍摄同一场景的左右两张视频帧图像来确定，因此，为了便于描述，将第一视频和第二视频中同时拍摄的左右两张视频帧图像分别称为第一视频帧图像和第二视频帧图像。也即是，第一视频帧图像和第二视频帧图像分别为双目相机的两个摄像头同时针对同一场景拍摄得到的。

其中，服务器确定第一视频帧图像对应的深度图像的实现过程包括：根据第一视频帧图像和第二视频帧图像，确定第一视差图，基于第一视差图，按照如下公式(1)确定第一视差图中的每个像素点对应的深度值，从而得到第一视频帧图像对应的深度图像。

depth＝(f*baseline)/disp (1)

其中，在上述公式(1)中，depth是指第一视频帧图像对应的深度图像中像素点的深度值，f是指归一化的焦距，也就是双目相机的内参矩阵中的焦距，baseline是指双目相机的两个摄像头的光心之间的距离，也称为基线距离，disp是指第一视差图中像素点的视差值。

作为一种示例，服务器根据第一视频帧图像和第二视频帧图像确定第一视差图的实现过程包括：将第二视频帧图像中的像素点与第一视频帧图像中同Y坐标上的像素点进行匹配，并计算每两个匹配的像素点之间的横坐标之差，该横坐标之差即为两个像素点之间的视差值。将该视差值作为第一视频帧图像中该像素点对应的像素值，从而得到与第一视频帧图像相同大小的视差图像。

图5是本申请实施例示出的一种计算视差图的原理示意图。其中，假设图5中的左图为第一视频帧图像，右图为第二视频帧图像。其中，为了便于说明，可以将图5中每个小方格看作一个像素点。对于第二视频帧图像中的像素点A，当在第一视频帧图像中寻找该像素点A的匹配像素点，即确定与像素点A相匹配的像素点时。首先，以该像素点A为中心像素点，形成一个W×H的像素矩阵，如可以形成一个9×9的像素矩阵。之后，在第一视频帧图像中确定与该中心像素点具有相同Y坐标的像素点，也即是，在第一视频帧图像中得到与该中心像素点同Y坐标的一行像素点，如图5左图中的实线框所示。在将该中心像素点与这一行上的像素点逐个进行匹配时，计算该中心像素点所在的像素矩阵中的每个像素点与第一视频帧图像中对应位置上的像素点的像素差，将计算得到的多个像素差加和，得到像素差和。也即是，如图5中左图中的虚线框所示，假设以像素点A为中心像素点形成9×9的像素矩阵A，当该像素点A与第一视频帧图像中的像素点B进行匹配计算时，形成以像素点B为中心像素点的同样大小9×9的像素矩阵B，如图5中右图虚线框所示。之后，计算像素矩阵A中的每个像素点和像素矩阵B中对应位置处的像素点之间的像素差，并将多个像素差加和，得到像素差和。对于第一视频帧图像中与像素点A同Y坐标的其他像素点，通过上述方法与像素点A进行匹配计算，最终对应得到多个像素差和。从该多个像素差和中选择最小的像素差和，并将该最小的像素差和对应的像素点确定为像素点A的匹配点。假设像素点A在第一视频帧图像中的匹配点为像素点B，此时，计算像素点A和像素点B之间的横坐标之差，并将该横坐标之差作为两个像素点之间的视差值，并将该视差值作为与第一视频帧图像相同大小的视差图中像素点B的像素值，其中，视差图中像素点B为：视差图中像素位置与第一视频帧图像中像素点B的坐标位置相同的像素点。

其中，在第一视频中对目标用户进行检测和跟踪的方法包括多种，也就是说通过双目相机采集的第一视频对目标用户进行检测和跟踪的方法包括多种，比如，采用深度学习的方式，在第一视频的每个视频帧图像中检测目标用户的人体骨骼关键点，本申请实施例对此不做限制，也不进行详细阐述。但是需要说明的是，目标用户的用户标识是在第一视频中对目标用户进行检测和跟踪的过程中为目标用户分配的，例如，服务器第一次从第一视频的视频帧图像中检测到目标用户的人体骨骼关键点时，生成新的用户标识，作为目标用户的用户标识。

由于第一视频的每个视频帧图像中目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标的确定过程相同。因此，接下来仍以第一视频帧图像为例，对服务器确定目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标的实现过程进行介绍。

其中，服务器基于第一视频帧图像对应的深度图像，以及目标用户的人体骨骼关键点在第一视频帧图像中的坐标，确定第一视频帧图像中目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标的实现过程包括：获取双目相机的内参矩阵，将目标用户的人体骨骼关键点在第一视频帧图像中的坐标(x，y)与双目相机的内参矩阵的逆矩阵相乘，得到目标用户的人体骨骼关键点在双目相机坐标系中的坐标(x’，y’)。然后从第一视频帧图像对应的深度图像中获取坐标(x，y)对应的深度值，其中，坐标(x，y)对应的深度值为：深度图像中像素坐标为(x，y)的像素点的深度值。将获取的深度值作为z，与坐标(x’，y’)组合，得到第一视频帧图像中目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标(x’，y’，z)。

需要说明的是，上述是以第一视频为例，确定深度图像、对目标用户进行检测和跟踪，以及确定目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标，当然也可以基于第二视频确定深度图像、对目标用户进行检测和跟踪，以及确定目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标，本申请实施例对此不做限定。

本申请实施例通过结合深度图像，确定目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标，相比二维坐标来说，提高了对目标用户进行检测和跟踪的准确性。

步骤402：服务器基于目标用户的用户标识，以及第一视频的视频帧图像中目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标，确定目标用户在安检机上放置包裹的放包时刻和该包裹的可见光包裹图像。

在一些实施例中，服务器基于第一视频的视频帧图像中目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标，确定放包时刻。基于目标用户的用户标识和该放包时刻，从第一视频中，获取该包裹的可见光包裹图像。

作为一种示例，服务器确定放包时刻的实现过程包括：基于第一视频的视频帧图像中目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标，确定目标用户的人体骨骼关键点与包裹放置区域的位置关系满足第一包裹放置条件时，确定目标用户处于放包状态，将目标用户处于放包状态的时刻确定为放包时刻。

其中，第一包裹放置条件是指目标用户的人体骨骼关键点中的一处或多处在连续的N个视频帧图像中处于包裹放置区域内，N为大于1的整数。

也即是，服务器基于第一视频的视频帧图像中目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标，确定目标用户的人体骨骼关键点中的一处或多处是否位于包裹放置区域内。如果确定目标用户的人体骨骼关键点中的一处或多处在连续的N个视频帧图像中处于包裹放置区域内，则确定目标用户的人体骨骼关键点与包裹放置区域的位置关系满足第一包裹放置条件，并确定放包时刻。

比如，第一视频的第i个视频帧图像中目标用户的人体骨骼关键点中的一处或多处位于包裹放置区域内，且在接下来的连续N个视频帧图像中都处于包裹放置区域，那么服务器确定目标用户正在处于放包状态，并将第i+N个视频帧图像的拍摄时刻确定为放包时刻。

其中，包裹放置区域是指对安检机的传送带区域外扩后得到的，比如请参考图2，区域T即为包裹放置区域，是对安检机的传送带区域外扩后得到的。在安检机和双目相机的位置固定之后，服务器可以获取到包裹放置区域在双目相机坐标系中的三维坐标。这样，服务器确定放包时刻时，将第一视频的视频帧图像中目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标与包裹放置区域在双目相机坐标系中的三维坐标进行比较，从而能够确定目标用户的人体骨骼关键点中的一处或多处是否位于包裹放置区域内。

作为另一种示例，服务器确定放包时刻的实现过程包括：基于第一视频的视频帧图像中目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标，确定目标用户的动作变化情况满足第二包裹放置条件时，确定目标用户处于放包状态，将目标用户处于放包状态的时刻确定为放包时刻。

其中，第二包裹放置条件是指目标用户的人体骨骼关键点中的一处或多处在连续的M个视频帧图像中存在起伏，且起伏幅度大于幅度阈值，M为大于1的整数。或者，第二包裹放置条件是指目标用户的动作变化趋势为拿起包裹到放下包裹的趋势。

也即是，服务器基于第一视频的视频帧图像中目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标，确定目标用户的人体骨骼关键点中的一处或多处在连续的M个视频帧图像中是否存在起伏。如果确定目标用户的人体骨骼关键点中的一处或多处在连续的M个视频帧图像中存在起伏，且起伏幅度大于幅度阈值，则确定目标用户的动作变化情况满足第二包裹放置条件，并确定放包时刻。

比如，第一视频的第i个视频帧图像中目标用户的人体骨骼关键点中的一处或多处存在起伏，且在接下来的连续M个视频帧图像中都存在起伏，而且目标用户的人体骨骼关键点在这M个视频帧图像中的起伏幅度均大于幅度阈值，那么服务器确定目标用户正在处于放包状态，并将第i+M个视频帧图像的拍摄时刻确定为放包时刻。

需要说明的是，第一视频包括多个视频帧图像，目标用户的人体骨骼关键点的位置会随着该多个视频帧图像的拍摄时间的变化而变化，这样，目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标也会随着该多个视频帧图像的拍摄时间的变化而变化。因此，服务器可以基于目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标，确定目标用户的人体骨骼关键点是否存在起伏，以及确定目标用户的动作变化趋势。

在目标用户未放置包裹的情况下，目标用户的人体骨骼关键点基本是不存在起伏，但是在目标用户放置包裹的过程中，目标用户的人体骨骼关键点通常是存在起伏的，所以，在本申请实施例中，可以确定前后相邻的两张视频帧图像中目标用户的同一人体骨骼关键点在双目相机坐标系中的三维坐标之间的距离，得到与多个人体骨骼关键点一一对应的多个距离。如果该多个距离中的每个距离均小于距离阈值，那么认为后一张视频帧图像中目标用户的人体骨骼关键点不存在起伏。如果该多个距离中存在大于距离阈值的距离，那么认为后一张视频帧图像中目标用户的人体骨骼关键点存在起伏，并将该多个距离中的最大距离确定为后一张视频帧图像中目标用户的人体骨骼关键点的起伏幅度。

在目标用户未放置包裹的情况下，目标用户基本不会作出拿起包裹、放下包裹的动作，但是在目标用户放置包裹的过程中，目标用户通常会作出拿起包裹、放下包裹的动作，而且动作变化趋势通常也是拿起包裹到放下包裹的趋势。并且，目标用户的动作通常可以通过目标用户的人体骨骼关键点的位置来确定，比如，胳膊上的骨骼关键点的位置。所以，在本申请实施例中，可以根据目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标，采用深度学习等方式，确定目标用户的动作变化趋势。具体实现方式本申请实施例不做过多介绍。

其中，服务器基于放包时刻，从第一视频中获取该包裹的可见光包裹图像的实现过程包括：服务器从第一视频中获取拍摄时间为放包时刻的视频帧图像，基于目标用户的用户标识，从获取的视频帧图像中确定包括目标用户以及目标用户正在放置的包裹的图像区域，从该图像区域中获取目标用户的可见光包裹图像。

基于上述描述，服务器基于第一视频对目标用户进行检测和跟踪的过程中，能够从第一视频的视频帧图像中识别出目标用户，还可以为目标用户分配用户标识，而且第一视频中拍摄时间为放包时刻的视频帧图像中不仅包括目标用户，还包括目标用户正在放置的包裹。因此，在服务器从第一视频中获取到拍摄时间为放包时刻的视频帧图像之后，能够基于目标用户的用户标识，从获取的视频帧图像中确定目标用户的可见光包裹图像。

可选的，在确定出放包时刻之后，可以先基于放包时刻确定目标用户的放包时间段，例如将放包时刻的前后预设时长的时间段作为放包时间段，进而获取第一视频中放包时间段内的各视频帧图像，进一步的从所获取的各视频帧图像中确定出包含目标用户的用户标识的视频帧图像，作为目标用户的可见光包裹图像。

示例性的，放包时刻为17时31分29秒，则放包时间段为：17时31分28秒-17时31分30秒，进而从第一视频中选择时间戳位于17时31分28秒-17时31分30秒内的多张视频帧图像，并从所选择的多张视频帧图像中包含目标用户的用户标识的视频帧图像，作为目标用户的可见光包裹图像。

需要说明的是，上述是以第一视频为例，对服务器获取可见光包裹图像的实现方式进行介绍，实际应用中，也可以从第二视频中获取可见光包裹图像，本申请实施例对此不做限定。

步骤403：服务器基于放包时刻，通过安检机确定该包裹处于X光探测区域的X光包裹图像。

在一些实施例中，以该放包时刻为起始时间点，根据安检机传送包裹的传送速度，确定目标用户放置的包裹处于安检机的X光探测区域的时刻，得到X光探测时刻。基于X光探测时刻，通过安检机确定该包裹处于安检机的X光探测区域的X光包裹图像。

通常情况下，安检机的传送带的速度是固定且匀速的，而且传送带的中心点与X光探测区域的距离是固定的，因此，可以将传送带的中心点与X光探测区域的距离除以安检机传送包裹的传送速度，得到第一时长。然后，在放包时刻的基础上增加第一时长，得到X光探测时刻。接下来服务器将X光探测时刻发送给安检机，由安检机在X光探测时刻采集该包裹的图像，从而得到X光包裹图像。或者，服务器可以从安检机采集的各X光包裹图像中，确定采集时刻为X光探测时刻一致或相差小于指定阈值的X光包裹图像，作为包裹处于X光探测区域的X光包裹图像。

在一些实施例中，双目相机垂直部署在安检机的上方，用于拍摄可见光包裹图像。这样，可见光包裹图像与X光包裹图像的视角基本一致，在出现危险品报警、问题包裹追溯、重点人群管控时，便于比对确认，从而提高效率。

步骤404：服务器基于第一视频的视频帧图像中目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标，通过人脸抓拍机确定目标用户的人脸图像。

在一些实施例中，服务器将第一视频的视频帧图像中目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标转换到人脸抓拍图像坐标系中。基于目标用户的人体骨骼关键点在人脸抓拍图像坐标系中的坐标，通过人脸抓拍机确定目标用户的人脸图像。

其中，服务器确定目标用户的人体骨骼关键点在人脸抓拍图像坐标系中的坐标的实现过程包括：服务器获取双目相机坐标系到人脸抓拍机坐标系的旋转矩阵和平移矩阵，以及人脸抓拍机的内参矩阵。然后，将第一视频的视频帧图像中目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标与获取的旋转矩阵、平移矩阵相乘，得到目标用户的人体骨骼关键点在人脸抓拍机坐标系中的三维坐标。之后，将目标用户的人体骨骼关键点在人脸抓拍机坐标系中的三维坐标与人脸抓拍机的内参矩阵相乘，得到目标用户的人体骨骼关键点在人脸抓拍图像坐标系中的坐标。

双目相机坐标系到人脸抓拍机坐标系的旋转矩阵和平移矩阵需要事先标定得到。标定过程包括：将14*11的黑白方格板放置在双目相机和人脸抓拍机的共同视场中，计算双目相机和人脸抓拍机相对于黑白格板世界坐标系的旋转矩阵R1、R0和偏移矩阵T1、T0。基于旋转矩阵R1、R0和偏移矩阵T1、T0，按照如下公式(2)和公式(3)计算双目相机坐标系到人脸抓拍机坐标系的旋转矩阵R和偏移矩阵T。

其中，在上述公式(2)和公式(3)中，

是指旋转矩阵R1的逆矩阵。

其中，服务器基于第一视频的视频帧图像中目标用户的人体骨骼关键点在人脸抓拍图像坐标系中的坐标，通过人脸抓拍机确定目标用户的人脸图像的实现过程包括：服务器从第一视频的视频帧图像中目标用户的人体骨骼关键点在人脸抓拍图像坐标系中的坐标中，选择目标用户的头部和肩部的关键点在人脸抓拍图像坐标系中的坐标。基于目标用户的头部和肩部的关键点在人脸抓拍图像坐标系中的坐标，预测目标用户的人脸在人脸抓拍图像坐标系中的区域，得到目标用户的预测人脸区域。基于目标用户的预测人脸区域，以及人脸抓拍机拍摄的图像中各个真实人脸区域，确定目标用户的人脸图像。其中，每一图像中的真实人脸区域指该图像中包含的人脸区域，例如通过对该图像进行人脸识别所确定的人脸区域。

也即是，服务器将第一视频的视频帧图像中目标用户的人体骨骼关键点从双目相机坐标系转换到人脸抓拍图像坐标系中，得到目标用户的人体骨骼关键点在人脸抓拍图像坐标系中的坐标。然后，基于目标用户的人体骨骼关键点中的头部和肩部的关键点在人脸抓拍图像坐标系中的坐标，预测目标用户的人脸在人脸抓拍机图像坐标系中的区域，得到目标用户的预测人脸区域。将目标用户的预测人脸区域与人脸抓拍机拍摄的图像中的各个真实人脸区域进行比较，将与预测人脸区域存在重叠且重叠面积最大的一个真实人脸区域确定为目标用户的人脸图像。

比如，基于第一视频的视频帧图像中目标用户的头部和肩部的关键点在人脸抓拍图像坐标系中的坐标，预测目标用户的人脸在人脸抓拍图像坐标系中的区域为区域1。人脸抓拍机拍摄的图像中包括三个真实人脸区域，这三个真实人脸区域分别为区域2、区域3和区域4。其中，区域1与区域3存在重叠，且区域1与区域4也存在重叠，但是区域3与区域1的重叠面积最大，此时将区域3对应的真实人脸区域确定为目标用户的人脸图像。

在本申请实施例中，第一视频的多张视频帧图像中可能都包括目标用户的人体骨骼关键点，这样，通过该多张视频帧图像能够预测得到目标用户的多个人脸区域，而且人脸抓拍机拍摄到的多张图像中可能都包括目标用户的真实人脸区域。为了便于后期应用，服务器可以基于人脸抓拍图像坐标系中目标用户的多个预测人脸区域，以及人脸抓拍机拍摄的多张图像中各个真实人脸区域，从人脸抓拍机拍摄的多张图像中分别确定目标用户的人脸图像，得到目标用户的多张人脸图像。从该多张人脸图像中确定最优人脸图像。

需要说明的是，第一视频包括多个视频帧图像，人脸抓拍机也会抓拍到多张图像，且双目相机与人脸抓拍机存在共同的拍摄视场，因此，目标用户可能会同时出现在第一视频的视频帧图像和人脸抓拍机拍摄的图像中。这样，服务器能够基于双目相机和人脸抓拍机同一时刻采集的图像，确定目标用户的一张人脸图像。相应地，服务器也能够基于双目相机和人脸抓拍机在多个时刻采集的图像，确定目标用户的多张人脸图像。

比如，双目相机和人脸抓拍机在同一时刻采集的图像分别为图像1和图像2，服务器将图像1中目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标转换到人脸抓拍图像坐标系中，基于图像1中目标用户的头部和肩部的关键点在人脸抓拍图像坐标系中的坐标，预测目标用户的人脸区域。基于目标用户的预测人脸区域，以及图像2中各个真实人脸区域，从图像2中确定目标用户的人脸图像。

其中，从该多张人脸图像中确定最优人脸图像的方法包括多种，比如对多张人脸图像进行评分，选择评分最高的人脸图像作为最优人脸图像。本申请实施例对确定最优人脸图像的方法不做限定。

需要说明的是，上述方案中的人脸抓拍机为单目，但是在实际应用中也可以使用双目相机。当人脸抓拍机为双目相机时，可以确定人脸抓拍机拍摄的图像中的各个真实人脸区域在人脸抓拍机坐标系中的三维坐标。这样，服务器基于第一视频的视频帧图像中目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标，通过人脸抓拍机确定目标用户的人脸图像的实现过程包括：服务器将第一视频的视频帧图像中目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标转换到人脸抓拍机坐标系中，得到第一视频的视频帧图像中目标用户的人体骨骼关键点在人脸抓拍机坐标系中的三维坐标。基于第一视频的视频帧图像中目标用户的头部和肩部的关键点在人脸抓拍机坐标系中的三维坐标，通过人脸抓拍机确定目标用户的人脸图像。

由于人脸抓拍机为双目相机，因此可以确定人脸抓拍机拍摄的图像中的各个真实人脸区域在人脸抓拍机坐标系中的三维坐标，进而得到对应的各个三维真实人脸区域。然后，基于第一视频的视频帧图像中目标用户的头部和肩部的关键点在人脸抓拍机坐标系中的三维坐标，预测目标用户在人脸抓拍机坐标系中的三维人脸区域，得到目标用户的三维预测人脸区域。将目标用户的三维预测人脸区域与人脸抓拍机拍摄的图像中的各个真实人脸区域所对应的三维真实人脸区域进行比较，将存在重叠且重叠体积最大的三维真实人脸区域在人脸抓拍机拍摄的图像中对应的真实人脸区域确定为目标用户的人脸图像。

其中，相比单目的人脸抓拍机来说，双目的人脸抓拍机通过三维坐标来定位目标用户的人脸图像，从而提高了确定目标用户的人脸图像的准确率。也即是，通过借助空间位置坐标，能够更加精准地确定目标用户的人脸图像。

步骤405：服务器关联可见光包裹图像、X光包裹图像和目标用户的人脸图像。

在服务器确定出可见光包裹图像、X光包裹图像和目标用户的人脸图像之后，可以关联可见光包裹图像、X光包裹图像和目标用户的人脸图像。

实际应用中，可能会出现多个用户需要进行包裹的安检，为了提高信息关联的准确性，在服务器确定出目标用户的可见光包裹之后，可以关联目标用户的用户标识与目标用户的可见光包裹图像，得到第一关联关系。在确定出目标用户的X光包裹图像之后，关联可见光包裹图像和X光包裹图像，得到第二关联关系。在确定出目标用户的人脸图像之后，关联目标用户的用户标识和目标用户的人脸图像，得到第三关联关系。然后，基于第一关联关系、第二关联关系和第三关联关系，关联目标用户的可见光包裹图像、X光包裹图像和人脸图像。

基于上述描述，服务器还可以从目标用户的多张人脸图像中确定最优人脸图像。这样，在服务器关联目标用户的可见光包裹图像、X光包裹图像和人脸图像时，可以将目标用户的可见光包裹图像、X光包裹图像和最优人脸图像进行关联。

在关联得到可见光包裹图像、X光包裹图像和目标用户的人脸图像之后，存储三者之间的关联关系，这样，便于用户观看、管理和后期问题追溯。

本申请实施例采用双目相机、人脸抓拍机和安检机等即可实现可见光包裹图像、X光包裹图像以及目标用户的人脸图像的关联，硬件环境搭建简单，设备需求简单。而且引入深度图像，能够实现目标用户的精准定位和跟踪，无需用户配合，基本也不受人流量的影响，在用户较多、相互穿插、交错场景下也能实现信息的关联。另外，将目标用户的可见光包裹图像、X光包裹图像和最优人脸图像进行关联，便于后期人脸比对等多种场景的应用。

图6是本申请实施例提供的一种信息关联系统的结构示意图，该信息关联系统包括：服务器601、安检机的上方部署有双目相机602，以及安检机的X光探测区域的上方部署有人脸抓拍机603；其中，

所述双目相机601，设置于采集包含目标用户的第一视频；

所述服务器601，设置于通过所述第一视频对所述目标用户进行检测和跟踪，确定所述目标用户的用户标识，以及所述第一视频的视频帧图像中所述目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标；基于所述用户标识，以及所述第一视频的视频帧图像中所述人体骨骼关键点在所述双目相机坐标系中的三维坐标，确定所述目标用户在所述安检机上放置包裹的放包时刻和所述包裹的可见光包裹图像；基于所述放包时刻，通过所述安检机确定所述包裹处于所述X光探测区域的X光包裹图像；基于所述第一视频的视频帧图像中所述人体骨骼关键点在所述双目相机坐标系中的三维坐标，通过所述人脸抓拍机603确定所述目标用户的人脸图像；

所述人脸抓拍机603，设置于采集所述目标用户的人脸图像。

可选地，服务器601通过所述双目相机602采集的第一视频对目标用户进行检测和跟踪，确定所述目标用户的用户标识，以及所述第一视频的视频帧图像中所述目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标，可以包括：基于所述第一视频和所述双目相机602采集的第二视频，确定所述第一视频中的视频帧图像对应的深度图像；基于所述第一视频，对所述目标用户进行检测和跟踪，确定所述目标用户的用户标识，以及所述人体骨骼关键点在所述第一视频的视频帧图像中的坐标；基于所述第一视频中的视频帧图像对应的深度图像，以及所述人体骨骼关键点在所述第一视频的视频帧图像中的坐标，确定所述第一视频的视频帧图像中所述人体骨骼关键点在所述双目相机坐标系中的三维坐标。

可选地，服务器601基于所述用户标识，以及所述第一视频的视频帧图像中所述人体骨骼关键点在所述双目相机坐标系中的三维坐标，确定所述目标用户在所述安检机上放置包裹的放包时刻和所述包裹的可见光包裹图像，可以包括：基于所述第一视频的视频帧图像中所述人体骨骼关键点在所述双目相机坐标系中的三维坐标，确定所述放包时刻；基于所述用户标识和所述放包时刻，从所述第一视频中，获取所述包裹的可见光包裹图像。

可选地，服务器601基于所述第一视频的视频帧图像中所述人体骨骼关键点在所述双目相机坐标系中的三维坐标，确定所述放包时刻，可以包括：基于所述第一视频的视频帧图像中所述人体骨骼关键点在所述双目相机坐标系中的三维坐标，确定所述人体骨骼关键点与包裹放置区域的位置关系满足第一包裹放置条件时，确定所述目标用户处于放包状态，将所述目标用户处于放包状态的时刻确定为所述放包时刻；或者基于所述第一视频的视频帧图像中所述人体骨骼关键点在所述双目相机坐标系中的三维坐标，确定所述目标用户的动作变化情况满足第二包裹放置条件时，确定所述目标用户处于放包状态，将所述目标用户处于放包状态的时刻确定为所述放包时刻。

可选地，所述第一包裹放置条件是指所述人体骨骼关键点中的一处或多处在连续的N个视频帧图像中处于所述包裹放置区域内，所述N为大于1的整数；所述第二包裹放置条件是指所述人体骨骼关键点中的一处或多处在连续的M个视频帧图像中存在起伏，且起伏幅度大于幅度阈值，所述M为大于1的整数；或者，所述第二包裹放置条件是指所述目标用户的动作变化趋势为拿起包裹到放下包裹的趋势。

可选地，服务器601基于所述放包时刻，通过所述安检机确定所述包裹处于所述X光探测区域的X光包裹图像，可以包括：以所述放包时刻为起始时间点，根据所述安检机传送包裹的传送速度，确定所述目标用户放置的包裹处于所述X光探测区域的时刻，得到X光探测时刻；基于所述X光探测时刻，通过所述安检机确定所述包裹处于所述X光探测区域的X光包裹图像。

可选地，服务器601基于所述第一视频的视频帧图像中所述人体骨骼关键点在所述双目相机坐标系中的三维坐标，通过所述人脸抓拍机603确定所述目标用户的人脸图像，可以包括：将所述第一视频的视频帧图像中所述人体骨骼关键点在所述双目相机坐标系中的三维坐标转换到人脸抓拍图像坐标系中，所述人脸抓拍图像坐标系是指所述人脸抓拍机603拍摄的图像的坐标系；基于所述第一视频的视频帧图像中所述人体骨骼关键点在所述人脸抓拍图像坐标系中的坐标，通过所述人脸抓拍机603确定所述目标用户的人脸图像。

可选地，服务器601基于所述第一视频的视频帧图像中所述人体骨骼关键点在所述人脸抓拍图像坐标系中的坐标，通过所述人脸抓拍机603确定所述目标用户的人脸图像，可以包括：从所述第一视频的视频帧图像中所述人体骨骼关键点在所述人脸抓拍图像坐标系的坐标中，选择所述目标用户的头部和肩部的关键点在所述人脸抓拍图像坐标系中的坐标；基于所述目标用户的头部和肩部的关键点在所述人脸抓拍图像坐标系中的坐标，预测所述目标用户的人脸在所述人脸抓拍图像坐标系中的区域，得到所述目标用户的预测人脸区域；基于所述目标用户的预测人脸区域，以及所述人脸抓拍机603拍摄的图像中各个真实人脸区域，确定所述目标用户的人脸图像。

可选地，第一视频的多张视频帧图像中包括所述人体骨骼关键点，所述人脸抓拍机603拍摄的多张图像中包括所述目标用户的真实人脸区域；

此时，服务器601基于所述目标用户的预测人脸区域，以及所述人脸抓拍机603拍摄的图像中各个真实人脸区域，确定所述目标用户的人脸图像，包括：基于所述目标用户的多个预测人脸区域，以及所述人脸抓拍机603拍摄的所述多张图像中各个真实人脸区域，从所述人脸抓拍机603拍摄的多张图像中确定所述目标用户的多张人脸图像，所述多个预测人脸区域是指通过所述多张视频帧图像预测得到的人脸区域；从所述多张人脸图像中确定最优人脸图像；

服务器601关联所述可见光包裹图像、所述X光包裹图像和所述人脸图像，包括：关联所述可见光包裹图像、所述X光包裹图像和所述最优人脸图像。

图7是本申请实施例提供的一种信息关联装置的结构示意图，该信息关联装置可以由软件、硬件或者两者的结合实现成为服务器的部分或者全部。在本申请实施例中，安检机的上方部署有双目相机，安检机的X光探测区域的上方部署有人脸抓拍机。请参考图7，该装置包括：检测跟踪模块701、第一确定模块702、第二确定模块703、第三确定模块704和关联模块705。

检测跟踪模块701，设置于通过双目相机采集的第一视频对目标用户进行检测和跟踪，确定目标用户的用户标识，以及第一视频的视频帧图像中目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标；

第一确定模块702，设置于基于用户标识，以及第一视频的视频帧图像中人体骨骼关键点在双目相机坐标系中的三维坐标，确定目标用户在安检机上放置包裹的放包时刻和包裹的可见光包裹图像；

第二确定模块703，设置于基于放包时刻，通过安检机确定包裹处于X光探测区域的X光包裹图像；

第三确定模块704，设置于基于第一视频的视频帧图像中人体骨骼关键点在双目相机坐标系中的三维坐标，通过人脸抓拍机确定目标用户的人脸图像；

关联模块705，设置于关联可见光包裹图像、X光包裹图像和人脸图像。

可选地，检测跟踪模块701包括：

第一确定子模块，设置于基于第一视频和双目相机采集的第二视频，确定第一视频中的视频帧图像对应的深度图像；

第二确定子模块，设置于基于第一视频，对目标用户进行检测和跟踪，确定目标用户的用户标识，以及人体骨骼关键点在第一视频的视频帧图像中的坐标；

第三确定子模块，设置于基于第一视频中的视频帧图像对应的深度图像，以及人体骨骼关键点在第一视频的视频帧图像中的坐标，确定第一视频的视频帧图像中人体骨骼关键点在双目相机坐标系中的三维坐标。

可选地，第一确定模块702包括：

第四确定子模块，设置于基于第一视频的视频帧图像中人体骨骼关键点在双目相机坐标系中的三维坐标，确定放包时刻；

获取子模块，设置于基于用户标识和放包时刻，从第一视频中，获取包裹的可见光包裹图像。

可选地，第四确定子模块，具体设置于：

基于第一视频的视频帧图像中人体骨骼关键点在双目相机坐标系中的三维坐标，确定人体骨骼关键点与包裹放置区域的位置关系满足第一包裹放置条件时，确定目标用户处于放包状态，将目标用户处于放包状态的时刻确定为放包时刻；或者

基于第一视频的视频帧图像中人体骨骼关键点在双目相机坐标系中的三维坐标，确定目标用户的动作变化情况满足第二包裹放置条件时，确定目标用户处于放包状态，将目标用户处于放包状态的时刻确定为放包时刻。

可选地，第一包裹放置条件是指人体骨骼关键点中的一处或多处在连续的N个视频帧图像中处于包裹放置区域内，N为大于1的整数；

第二包裹放置条件是指人体骨骼关键点中的一处或多处在连续的M个视频帧图像中存在起伏，且起伏幅度大于幅度阈值，M为大于1的整数；或者，第二包裹放置条件是指目标用户的动作变化趋势为拿起包裹到放下包裹的趋势。

可选地，第二确定模块703包括：

第五确定子模块，设置于以放包时刻为起始时间点，根据安检机传送包裹的传送速度，确定目标用户放置的包裹处于X光探测区域的时刻，得到X光探测时刻；

第六确定子模块，设置于基于X光探测时刻，通过安检机确定包裹处于X光探测区域的X光包裹图像。

可选地，第三确定模块704包括：

转换子模块，设置于将第一视频的视频帧图像中人体骨骼关键点在双目相机坐标系中的三维坐标转换到人脸抓拍图像坐标系中，人脸抓拍图像坐标系是指人脸抓拍机拍摄的图像的坐标系；

第七确定子模块，设置于基于第一视频的视频帧图像中人体骨骼关键点在人脸抓拍图像坐标系中的坐标，通过人脸抓拍机确定目标用户的人脸图像。

可选地，第七确定子模块包括：

第一确定单元，设置于从第一视频的视频帧图像中人体骨骼关键点在人脸抓拍图像坐标系的坐标中，选择目标用户的头部和肩部的关键点在人脸抓拍图像坐标系中的坐标；

预测单元，设置于基于目标用户的头部和肩部的关键点在人脸抓拍图像坐标系中的坐标，预测目标用户的人脸在人脸抓拍图像坐标系中的区域，得到目标用户的预测人脸区域；

第二确定单元，设置于基于目标用户的预测人脸区域，以及人脸抓拍机拍摄的图像中各个真实人脸区域，确定目标用户的人脸图像。

可选地，第一视频的多张视频帧图像中包括目标用户的人体骨骼关键点，人脸抓拍机拍摄的多张图像中包括目标用户的真实人脸区域；

第三确定单元具体设置于：

基于目标用户的多个预测人脸区域，以及人脸抓拍机拍摄的多张图像中各个真实人脸区域，从人脸抓拍机拍摄的多张图像中确定目标用户的多张人脸图像，该多个预测人脸区域是指通过第一视频的多张视频帧图像预测得到的人脸区域；

从多张人脸图像中确定最优人脸图像；

关联模块705具体设置于：

关联可见光包裹图像、X光包裹图像和最优人脸图像。

需要说明的是：上述实施例提供的信息关联装置在关联信息时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的信息关联装置与信息关联方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8是本申请实施例提供的一种服务器的结构示意图。服务器800包括中央处理单元(CPU)801、包括随机存取存储器(RAM)802和只读存储器(ROM)803的系统存储器804，以及连接系统存储器804和中央处理单元801的系统总线805。服务器800还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)806，和用于存储操作系统813、应用程序814和其他程序模块815的大容量存储设备807。

基本输入/输出系统806包括有用于显示信息的显示器808和用于用户输入信息的诸如鼠标、键盘之类的输入设备809。其中显示器808和输入设备809都通过连接到系统总线805的输入输出控制器810连接到中央处理单元801。基本输入/输出系统807还可以包括输入输出控制器810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器810还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备807通过连接到系统总线805的大容量存储控制器(未示出)连接到中央处理单元801。大容量存储设备807及其相关联的计算机可读介质为服务器800提供非易失性存储。也就是说，大容量存储设备807可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器804和大容量存储设备807可以统称为存储器。

根据本申请的各种实施例，服务器800还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器800可以通过连接在系统总线805上的网络接口单元811连接到网络812，或者说，也可以使用网络接口单元811来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

在一些实施例中，还提供了一种计算机可读存储介质，该存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中信息关联方法的步骤。例如，所述计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。

值得注意的是，本申请实施例提到的计算机可读存储介质可以为非易失性存储介质，换句话说，可以是非瞬时性存储介质。

应当理解的是，实现上述实施例的全部或部分步骤可以通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。所述计算机指令可以存储在上述计算机可读存储介质中。

也即是，在一些实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述所述的信息关联方法的步骤。

在一些实施例中，还提供了一种包含指令的计算机程序，所述计算机程序在计算机上运行时，使得计算机执行上述所述的信息关联方法的步骤。

应当理解的是，本文提及的“至少一个”是指一个或多个，“多个”是指两个或两个以上。在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

一种信息关联方法，其中，安检机的上方部署有双目相机，所述安检机的X光探测区域的上方部署有人脸抓拍机，所述方法包括：

通过所述双目相机采集的第一视频对目标用户进行检测和跟踪，确定所述目标用户的用户标识，以及所述第一视频的视频帧图像中所述目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标；

基于所述用户标识，以及所述第一视频的视频帧图像中所述人体骨骼关键点在所述双目相机坐标系中的三维坐标，确定所述目标用户在所述安检机上放置包裹的放包时刻和所述包裹的可见光包裹图像；

基于所述放包时刻，通过所述安检机确定所述包裹处于所述X光探测区域的X光包裹图像；

基于所述第一视频的视频帧图像中所述人体骨骼关键点在所述双目相机坐标系中的三维坐标，通过所述人脸抓拍机确定所述目标用户的人脸图像；

关联所述可见光包裹图像、所述X光包裹图像和所述人脸图像。
如权利要求1所述的方法，所述通过所述双目相机采集的第一视频对目标用户进行检测和跟踪，确定所述目标用户的用户标识，以及所述第一视频的视频帧图像中所述目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标，包括：

基于所述第一视频和所述双目相机采集的第二视频，确定所述第一视频中的视频帧图像对应的深度图像；

基于所述第一视频，对所述目标用户进行检测和跟踪，确定所述目标用户的用户标识，以及所述人体骨骼关键点在所述第一视频的视频帧图像中的坐标；

基于所述第一视频中的视频帧图像对应的深度图像，以及所述人体骨骼关键点在所述第一视频的视频帧图像中的坐标，确定所述第一视频的视频帧图像中所述人体骨骼关键点在所述双目相机坐标系中的三维坐标。
如权利要求1所述的方法，所述基于所述用户标识，以及所述第一视频的视频帧图像中所述人体骨骼关键点在所述双目相机坐标系中的三维坐标，确定所述目标用户在所述安检机上放置包裹的放包时刻和所述包裹的可见光包裹图像，包括：

基于所述第一视频的视频帧图像中所述人体骨骼关键点在所述双目相机坐标系中的三维坐标，确定所述放包时刻；

基于所述用户标识和所述放包时刻，从所述第一视频中，获取所述包裹的可见光包裹图像。
如权利要求3所述的方法，所述基于所述第一视频的视频帧图像中所述人体骨骼关键点在所述双目相机坐标系中的三维坐标，确定所述放包时刻，包括：

基于所述第一视频的视频帧图像中所述人体骨骼关键点在所述双目相机坐标系中的三维坐标，确定所述人体骨骼关键点与包裹放置区域的位置关系满足第一包裹放置条件时，确定所述目标用户处于放包状态，将所述目标用户处于放包状态的时刻确定为所述放包时刻；或者

基于所述第一视频的视频帧图像中所述人体骨骼关键点在所述双目相机坐标系中的三维坐标，确定所述目标用户的动作变化情况满足第二包裹放置条件时，确定所述目标用户处于放包状态，将所述目标用户处于放包状态的时刻确定为所述放包时刻。
如权利要求4所述的方法，所述第一包裹放置条件是指所述人体骨骼关键点中的一处或多处在连续的N个视频帧图像中处于所述包裹放置区域内，所述N为大于1的整数；

所述第二包裹放置条件是指所述人体骨骼关键点中的一处或多处在连续的M个视频帧图像中存在起伏，且起伏幅度大于幅度阈值，所述M为大于1的整数；或者，所述第二包裹放置条件是指所述目标用户的动作变化趋势为拿起包裹到放下包裹的趋势。
如权利要求1所述的方法，所述基于所述放包时刻，通过所述安检机确定所述包裹处于所述X光探测区域的X光包裹图像，包括：

以所述放包时刻为起始时间点，根据所述安检机传送包裹的传送速度，确定所述目标用户放置的包裹处于所述X光探测区域的时刻，得到X光探测时刻；

基于所述X光探测时刻，通过所述安检机确定所述包裹处于所述X光探测区域的X光包裹图像。
如权利要求1所述的方法，所述基于所述第一视频的视频帧图像中所述人体骨骼关键点在所述双目相机坐标系中的三维坐标，通过所述人脸抓拍机确定所述目标用户的人脸图像，包括：

将所述第一视频的视频帧图像中所述人体骨骼关键点在所述双目相机坐标系中的三维坐标转换到人脸抓拍图像坐标系中，所述人脸抓拍图像坐标系是指所述人脸抓拍机拍摄的图像的坐标系；

基于所述第一视频的视频帧图像中所述人体骨骼关键点在所述人脸抓拍图像坐标系中的坐标，通过所述人脸抓拍机确定所述目标用户的人脸图像。
如权利要求7所述的方法，所述基于所述第一视频的视频帧图像中所述人体骨骼关键点在所述人脸抓拍图像坐标系中的坐标，通过所述人脸抓拍机确定所述目标用户的人脸图像，包括：

从所述第一视频的视频帧图像中所述人体骨骼关键点在所述人脸抓拍图像坐标系的坐标中，选择所述目标用户的头部和肩部的关键点在所述人脸抓拍图像坐标系中的坐标；

基于所述目标用户的头部和肩部的关键点在所述人脸抓拍图像坐标系中的坐标，预测所述目标用户的人脸在所述人脸抓拍图像坐标系中的区域，得到所述目标用户的预测人脸区域；

基于所述目标用户的预测人脸区域，以及所述人脸抓拍机拍摄的图像中各个真实人脸区域，确定所述目标用户的人脸图像。
如权利要求8所述的方法，所述第一视频的多张视频帧图像中包括所述人体骨骼关键点，所述人脸抓拍机拍摄的多张图像中包括所述目标用户的真实人脸区域；

所述基于所述目标用户的预测人脸区域，以及所述人脸抓拍机拍摄的图像中各个真实人脸区域，确定所述目标用户的人脸图像，包括：

基于所述目标用户的多个预测人脸区域，以及所述人脸抓拍机拍摄的所述多张图像中各个真实人脸区域，从所述人脸抓拍机拍摄的多张图像中确定所述目标用户的多张人脸图像，所述多个预测人脸区域是指通过所述多张视频帧图像预测得到的人脸区域；

从所述多张人脸图像中确定最优人脸图像；

所述关联所述可见光包裹图像、所述X光包裹图像和所述人脸图像，包括：

关联所述可见光包裹图像、所述X光包裹图像和所述最优人脸图像。
一种信息关联系统，其中，所述信息关联系统包括：服务器、安检机的上方部署有双目相机，以及安检机的X光探测区域的上方部署有人脸抓拍机；其中，

所述双目相机，设置于采集包含目标用户的第一视频；

所述服务器，设置于通过所述第一视频对所述目标用户进行检测和跟踪，确定所述目标用户的用户标识，以及所述第一视频的视频帧图像中所述目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标；基于所述用户标识，以及所述第一视频的视频帧图像中所述人体骨骼关键点在所述双目相机坐标系中的三维坐标，确定所述目标用户在所述安检机上放置包裹的放包时刻和所述包裹的可见光包裹图像；基于所述放包时刻，通过所述安检机确定所述包裹处于所述X光探测区域的X光包裹图像；基于所述第一视频的视频帧图像中所述人体骨骼关键点在所述双目相机坐标系中的三维坐标，通过所述人脸抓拍机确定所述目标用户的人脸图像；

所述人脸抓拍机，设置于采集所述目标用户的人脸图像。
一种信息关联装置，其中，，安检机的上方部署有双目相机，所述安检机的X光探测区域的上方部署有人脸抓拍机，所述装置包括：

检测跟踪模块，设置于通过所述双目相机采集的第一视频对目标用户进行检测和跟踪，确定所述目标用户的用户标识，以及所述第一视频的视频帧图像中所述目标用户的人体骨骼关键点在双目相机坐标系中的三维坐标；

第一确定模块，设置于基于所述用户标识，以及所述第一视频的视频帧图像中所述人体骨骼关键点在所述双目相机坐标系中的三维坐标，确定所述目标用户在所述安检机上放置包裹的放包时刻和所述包裹的可见光包裹图像；

第二确定模块，设置于基于所述放包时刻，通过所述安检机确定所述包裹处于所述X光探测区域的X光包裹图像；

第三确定模块，设置于基于所述第一视频的视频帧图像中所述人体骨骼关键点在所述双目相机坐标系中的三维坐标，通过所述人脸抓拍机确定所述目标用户的人脸图像；

关联模块，设置于关联所述可见光包裹图像、所述X光包裹图像和所述人脸图像。
一种服务器，其中，所述服务器包括处理器、通信接口、存储器和通信总线，所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信，所述存储器用于存放计算机程序，所述处理器用于执行所述存储器上所存放的程序，以实现权利要求1-9任一所述方法的步骤。
一种计算机可读存储介质，其中，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-9任一所述方法的步骤。
一种包含指令的计算机程序产品，所述包含指令的计算机程序产品在计算机上运行时，使得计算机执行权利要求1-9任一所述的方法步骤。
一种计算机程序，所述计算机程序在计算机上运行时，使得计算机执行权利要求1-9任一所述的方法步骤。