WO2021169924A1

WO2021169924A1 - 行为预测方法及装置、步态识别方法及装置、电子设备和计算机可读存储介质

Info

Publication number: WO2021169924A1
Application number: PCT/CN2021/077297
Authority: WO
Inventors: 邱丰; 汪旻; 刘文韬; 钱晨; 马利庄
Original assignee: 上海商汤智能科技有限公司
Priority date: 2020-02-28
Filing date: 2021-02-22
Publication date: 2021-09-02
Also published as: TW202133036A; US20220114839A1; JP7311640B2; EP3979122A1; EP3979122A4; CN111291718A; JP2022536354A; CN111291718B; KR20220008843A

Abstract

本公开提供了一种行为预测方法及装置、步态识别方法及装置、电子设备和计算机可读存储介质。本公开首先获取多个目标视频片段，每个目标视频片段中包括目标图像和目标图像的前N帧图像，其中，N为正整数；之后，基于在每个目标视频片段中目标对象的多个二维关键点信息，确定目标对象在目标图像中的步态数据和目标重心坐标；最后，基于步态数据和目标重心坐标，预测目标对象在预设时间段内的行为特征信息。

Description

行为预测方法及装置、步态识别方法及装置、电子设备和计算机可读存储介质

相关申请的交叉引用

本公开要求于2020年2月28日提交的、申请号为202010129936.X、发明名称为“行为预测方法及装置、步态识别方法及装置”的中国专利申请的优先权，该中国专利申请公开的全部内容以引用的方式并入本文中。

技术领域

本公开涉及计算机视觉技术领域，具体而言，涉及一种行为预测方法及装置、步态识别方法及装置、电子设备和计算机可读存储介质。

背景技术

对对象进行行为分析和识别是人工智能领域中的一种基本需求。在进行行为分析和识别时，一般采用多阶段三维人体姿态识别，并且需要依赖拍摄对象视频的相机的参数或限制相机的拍摄视角等。

发明内容

第一方面，本公开提供了一种行为预测方法，包括：获取多个目标视频片段，每个目标视频片段中包括目标图像和所述目标图像的前N帧图像，其中，N为正整数；基于在每个目标视频片段中目标对象的多个二维关键点信息，确定所述目标对象在所述目标图像中的步态数据和目标重心坐标；基于所述步态数据和所述目标重心坐标，预测所述目标对象在预设时间段内的行为特征信息。

本方面中，基于目标视频片段中目标对象的二维关键点信息，能够提高预测得到的步态数据和目标重心坐标的准确度；基于较为准确的步态数据和目标重心坐标，能够提高预测得到的行为特征信息的准确性，从而能够有效保障目标对象的安全。

在一种可能的实施方式中，上述行为预测方法还包括：基于所述行为特征信息，确定所述目标对象在所述预设时间段内的安全特征信息以及与所述安全特征信息匹配的安全处置策略。

在一种可能的实施方式中，所述基于在每个目标视频片段中目标对象的多个二维关键点信息，确定所述目标对象在所述目标图像中的步态数据，包括：基于所述目标对象在每个目标视频片段的每帧图像中的多个二维关键点信息，确定所述目标对象在所述目标图像中的多个三维关键点信息；基于所述多个三维关键点信息，确定所述目标对象的前进方向；基于所述多个三维关键点信息和所述前进方向，识别所述目标对象在所述目标图像中的步态数据。

本实施方式中，利用目标对象在视频片段的每帧图像中的多个二维关键点信息，来确定目标对象在视频片段的最后一帧图像中的三维关键点信息，能够避免确定的每个三维关键点信息出现多值歧义的问题，从而能够提高基于三维关键点信息进行步态分析和识别的成功率和准确率；另外，在确定了目标对象的多个三维关键点信息之后，利用三维关键点信息来确定目标对象的前进方向，并基于确定的前进方向和三维关键点信息来确定目标对象的步态数据，对目标对象进行步态分析和识别，并未依赖拍摄视频片段所使用的相机的相机参数，克服了步态分析和识别中存在的对其他数据或设备依赖性较强、泛化能力较差的缺陷。

在一种可能的实施方式中，所述基于在每个目标视频片段中目标对象的多个二维关键点信息，确定所述目标对象在所述目标图像中的目标重心坐标，包括：基于所述目标对象在每个目标视频片段的每帧图像中的多个二维关键点信息，确定所述目标对象的第一重心坐标以及确定所述目标对象在所述目标图像中的多个三维关键点信息；基于所述目标对象在所述目标图像中的多个二维关键点信息和所述多个三维关键点信息，确定所述目标对象的第二重心坐标；基于所述第一重心坐标和所述第二重心坐标，确定所述目标对象在所述目标图像中的目标重心坐标。

本实施方式中，结合使用确定的两个重心坐标，能够更加准确的确定目标对象的最终的目标重心坐标。

在一种可能的实施方式中，所述确定所述目标对象在所述目标图像中的多个三维关键点信息，包括：针对每个目标视频片段中的每帧图像，基于所述目标对象在该帧图像中的多个二维关键点信息，确定所述目标对象在该帧图像中的检测框；基于所述检测框的尺寸信息、所述检测框的中心点的坐标，对该帧图像中的每个二维关键点信息对应的坐标信息进行归一化处理，得到目标对象在该帧图像中的多个目标二维关键点信息；基于所述目标对象在所述每帧图像中的多个目标二维关键点信息，确定所述目标对象在所述目标图像中的多个三维关键点信息。

本实施方式中，首先利用目标对象在图像中的二维关键点信息确定目标对象的检测框，之后利用检测框的尺寸信息和中心点坐标等来对二维关键点信息对应的坐标信息进行归一化处理，不依赖于拍摄视频片段的相机的相机参数或原始图像的尺寸信息，摆脱了对相机参数的依赖，对于经裁切的图像依然具有较好的泛用性。

在一种可能的实施方式中，所述基于所述目标对象在所述每帧图像中的多个目标二维关键点信息，确定所述目标对象在所述目标图像中的多个三维关键点信息，包括：将所述目标对象在所述每帧图像中的多个目标二维关键点信息，输入训练好的第一神经网络，经过所述第一神经网络对输入的多个目标二维关键点信息进行处理，确定所述目标对象在所述目标图像中的多个三维关键点信息。

本实施方式中，利用训练好的神经网络来确定三维关键点信息，能够提高信息处理和确定的自动化程度，提高信息处理和确定的准确度。

在一种可能的实施方式中，上述行为预测方法还包括训练所述第一神经网络的步骤：获取包括第一样本图像的第一样本视频片段，和第一样本对象在所述第一样本图像中的多个标准三维关键点信息，其中，所述第一样本视频片段还包括所述第一样本图像的前N帧图像；基于所述多个标准三维关键点信息，确定所述第一样本对象在所述第一样本视频片段的每帧图像中的多个样本二维关键点信息；将确定的所述多个样本二维关键点信息输入待训练的第一初始神经网络，经过所述第一初始神经网络对输入的多个样本二维关键点信息进行处理，确定所述第一样本对象在所述第一样本图像中的多个预测三维关键点信息；基于所述多个预测三维关键点信息与所述多个标准三维关键点信息之间的误差信息，调整所述第一初始神经网络的网络参数；在所述第一初始神经网络训练完成后得到所述第一神经网络。

本实施方式中，基于多个标准三维关键点信息反投影确定多个样本二维关键点信息，能够提高确定的样本二维关键点信息的准确度。

在一种可能的实施方式中，所述确定所述第一样本对象在所述第一样本视频片段的每帧图像中的多个样本二维关键点信息，包括：获取拍摄所述第一样本视频片段的拍摄设备的设备参数信息，以及所述第一样本视频片段的每帧图像的RGB画面；基于所述设备参数信息、所述每帧图像的RGB画面和所述多个标准三维关键点信息，确定所述第一样本对象在所述第一样本视频片段的每帧图像中的多个样本二维关键点信息。

本实施方式中，结合拍摄设备的设备参数信息和多个标准三维关键点信息，能够较为准确的确定多个样本二维关键点信息。

在一种可能的实施方式中，所述基于所述多个预测三维关键点信息与所述多个标准三维关键点信息之间的误差信息，调整所述第一初始神经网络的网络参数，包括：获取所述第一样本对象的物理尺寸信息；基于所述第一样本对象的物理尺寸信息，确定每个标准三维关键点信息对应于网络尺度空间的目标标准三维关键点信息；基于所述多个预测三维关键点信息与多个所述目标标准三维关键点信息之间的误差信息，调整所述第一初始神经网络的网络参数。

本实施方式中，利用样本对象的物理尺寸信息，将物理尺度空间的标准三维关键点信息转换为网络尺度空间的目标标准三维关键点信息，基于网络尺度空间的目标标准三维关键点信息训练得到的神经网络能够确定网络尺度空间的三维关键点信息，即，能够克服目标对象大小对确定三维关键点信息的影响，有利于提高步态识别的准确度。

在一种可能的实施方式中，所述基于所述多个三维关键点信息，确定所述目标对象的前进方向，包括：基于所述多个三维关键点信息，确定所述目标对象的左胯部与右胯部之间的第一连线和所述目标对象的左肩部与右肩部之间的第二连线；确定所述第一连线和所述第二连线之间的最小误差平面；基于所述最小误差平面和水平面之间的相交线，确定所述目标对象的前进方向；或者，基于所述多个三维关键点信息，确定所述目标对象的左胯部与右胯部之间的第三连线、所述目标对象的左肩部与右肩部之间的第四连线和所述目标对象的骨盆点与颈椎点之间的第五连线，其中，所述第三连线为所述第一连线，所述第四连线为所述第二连线；基于所述第三连线和所述第四连线，确定所述目标对象相对于水平面的第一躯干方向；基于所述第五连线，确定所述目标对象相对于竖直面的第二躯干方向；基于所述第一躯干方向和所述第二躯干方向，确定所述目标对象的前进方向。

本实施方式中，仅利用三维关键点信息来确定第一连线、第二连线以及第一连线和第二连线之间的最小误差平面，进而利用最小误差平面和水平面之间的相交线来确定目标对象的前进方向，并未基于拍摄设备的设备参数来确定前进方向，即未基于拍摄设备的设备参数来进行步态分析和识别，克服了步态分析和识别中存在的对其他数据或设备依赖性较强、泛化能力较差的缺陷。

另外，本实施方式中，仅利用三维关键点信息来确定多条连线，之后，利用确定的各个连线确定目标对象相对于水平面的第一躯干方向、目标对象相对于竖直面的第二躯干方向，最后利用第一躯干方向和第二躯干方向来确定目标对象的前进方向，并未基于拍摄设备的设备参数来确定前进方向，即未基于拍摄设备的设备参数来进行步态分析和识别，克服了步态分析和识别中存在的对其他数据或设备依赖性较强、泛化能力较差的缺陷。

在一种可能的实施方式中，所述步态数据包括所述目标对象的步长信息；所述基于所述多个三维关键点信息和所述前进方向，识别所述目标对象在所述目标图像中的步态数据，包括：基于所述多个三维关键点信息，确定所述目标对象的两脚之间的连线在所述前进方向上的第一投影；基于所述第一投影的长度信息，确定所述目标对象的步长信息；和/或，所述步态数据包括所述目标对象的步宽信息；所述基于所述多个三维关键点信息和所述前进方向，识别所述目标对象在所述目标图像中的步态数据，包括：基于所述多个三维关键点信息，确定所述目标对象的两脚之间的连线在与所述前进方向相垂直的方向上的第二投影；基于所述第二投影的长度信息，确定所述目标对象的步宽信息。

上述两种实施方式中，仅利用三维关键点信息确定的目标对象的两脚之间的连线和三维关键点信息确定的目标对象的前进方向来确定目标对象的步长信息和步宽信息，而不依赖拍摄设备的设备参数来确定上述步长信息和步宽信息，克服了步态分析和识别中存在的对其他数据或设备依赖性较强、泛化能力较差的缺陷。

在一种可能的实施方式中，所述基于所述目标对象在每个目标视频片段的每帧图像中的多个二维关键点信息，确定所述目标对象的第一重心坐标，包括：将所述目标对象在每个目标视频片段的每帧图像中的多个二维关键点信息，输入训练好的第二神经网络，经过所述第二神经网络对输入的多个二维关键点信息进行处理，确定所述目标对象的第一重心坐标。

本实施方式中，利用训练好的神经网络来确定重心坐标，能够提高信息处理和确定的自动化程度，提高信息处理和确定的准确度。

在一种可能的实施方式中，上述行为预测方法还包括训练所述第二神经网络的步骤：获取包括第二样本图像的第二样本视频片段，和第二样本对象在所述第二样本图像中的多个标准三维关键点信息，其中，所述第二样本视频片段还包括所述第二样本图像的前N帧图像；基于所述多个标准三维关键点信息，确定所述第二样本对象在所述第二样本视频片段的每帧图像中的多个样本二维关键点信息；基于所述多个标准三维关键点信息，确定所述第二样本对象的标准重心坐标；将确定的所述多个样本二维关键点信息输入待训练的第二初始神经网络，经过所述第二初始神经网络对输入的多个样本二维关键点信息进行处理，输出所述第二样本对象在所述第二样本图像中的预测重心坐标；基于所述预测重心坐标与所述标准重心坐标之间的误差信息，调整所述第二初始神经网络的网络参数；在所述第二初始神经网络训练完成后得到所述第二神经网络。

第二方面，本公开提供了一种步态识别方法，包括：获取多个目标视频片段，每个目标视频片段中包括目标图像和所述目标图像的前N帧图像，其中，N为正整数；基于在每个目标视频片段中目标对象的多个二维关键点信息，确定所述目标对象在所述目标图像中的多个三维关键点信息；基于所述多个三维关键点信息，确定所述目标对象的前进方向；基于所述多个三维关键点信息和所述前进方向，识别所述目标对象在所述目标图像中的步态数据。

在一种可能的实施方式中，在所述多个三维关键点信息是网络尺度空间的三维关键点信息的情况下，在基于所述多个三维关键点信息，确定所述目标对象的前进方向之前，上述步态识别方法还包括：获取所述目标对象的物理尺寸信息；基于所述目标对象的物理尺寸信息，将网络尺度空间的三维关键点信息更新为物理尺度空间的三维关键点信息。

本实施方式中，在确定了网络尺度空间的三维关键点信息之后，为了准确的确定目标对象在物理尺度空间中的步态数据，需要将网络尺度空间的三维关键点信息更新为物理尺度空间的三维关键点信息。

在一种可能的实施方式中，所述基于所述多个三维关键点信息，确定所述目标对象的前进方向，包括：基于所述多个三维关键点信息，确定所述目标对象的左胯部与右胯部之间的第一连线和所述目标对象的左肩部与右肩部之间的第二连线；确定所述第一连线和所述第二连线之间的最小误差平面；基于所述最小误差平面和水平面之间的相交线，确定所述目标对象的前进方向；或者，基于所述多个三维关键点信息，确定所述目标对象的左胯部与右胯部之间的第三连线、所述目标对象的左肩部与右肩部之间的第四连线和所述目标对象的骨盆点与颈椎点之间的第五连线；基于所述第三连线和所述第四连线，确定所述目标对象相对于水平面的第一躯干方向；基于所述第五连线，确定所述目标对象相对于竖直面的第二躯干方向；基于所述第一躯干方向和所述第二躯干方向，确定所述目标对象的前进方向。

第三方面，本公开提供了一种步态识别装置，包括：

视频获取模块，用于获取多个目标视频片段，每个目标视频片段中包括目标图像和所述目标图像的前N帧图像，其中，N为正整数；

关键点处理模块，用于基于在每个目标视频片段中目标对象的多个二维关键点信息，确定所述目标对象在所述目标图像中的多个三维关键点信息；

前进方向确定模块，用于基于所述多个三维关键点信息，确定所述目标对象的前进方向；

步态识别模块，用于基于所述多个三维关键点信息和所述前进方向，识别所述目标对象在所述目标图像中的步态数据。

第四方面，本公开提供了一种行为预测装置，包括：

图像获取模块，用于获取多个目标视频片段，每个目标视频片段中包括目标图像和所述目标图像的前N帧图像，其中，N为正整数；

图像处理模块，用于基于在每个目标视频片段中目标对象的多个二维关键点信息，确定所述目标对象在所述目标图像中的步态数据和目标重心坐标；

预测模块，用于基于所述步态数据和所述目标重心坐标，预测所述目标对象在预设时间段内的行为特征信息。

第五方面，本公开提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储器之间通过所述总线通信，所述机器可读指令被所述处理器执行时使所述处理器执行上述步态识别方法或行为预测方法。

第六方面，本公开还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时使所述处理器执行上述步态识别方法或行为预测方法。

本公开上述装置、电子设备、和计算机可读存储介质，至少包含与本公开上述方法的任一方面或任一方面的任一实施方式的技术特征实质相同或相似的技术特征，因此关于上述装置、电子设备、和计算机可读存储介质的效果描述，可以参见上述方法内容的效果描述，这里不再赘述。

附图说明

为了更清楚地说明本公开实施例，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例提供的一种行为预测方法的流程图；

图2示出了本公开实施例提供的另一种行为预测方法中确定目标对象在目标图像中的多个三维关键点信息的流程图；

图3示出了本公开实施例提供的再一种行为预测方法中检测框的示意图；

图4示出了本公开实施例提供的再一种行为预测方法中确定前进方向的示意图；

图5示出了本公开实施例提供的一种重心预测方法的流程图；

图6A示出了现有技术中的时序空洞卷积神经网络的结构示意图；

图6B示出了简化后的时序空洞卷积神经网络的结构示意图；

图7示出了本公开实施例提供的一种步态识别方法的流程图；

图8示出了本公开实施例提供的一种行为预测装置的结构示意图；

图9示出了本公开实施例提供的一种步态识别装置的结构示意图；

图10示出了本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本公开实施例的目的、特征和优点更加清楚，下面将结合附图，对本公开实施例进行清楚、完整地描述，应当理解，本公开中附图仅起到说明和描述的目的，并不用于限定本公开的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本公开中使用的流程图示出了根据本公开的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本公开内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的特定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，本公开实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

如上所述，在进行行为分析和识别时，一般采用多阶段三维人体姿态识别，并且需要依赖拍摄对象视频的相机的参数或限制相机的拍摄视角等。上述行为分析和识别的方式存在识别准确度和成功率均较低，并且限制性较强、泛化能力较差的缺陷。

本公开提供了一种行为预测方法及装置。其中，本公开基于视频片段中目标对象的二维关键点信息，能够提高预测得到的步态数据和目标重心坐标的准确度；基于较为准确的步态数据和目标重心坐标能够提高预测得到的行为特征信息的准确性，从而能够有效保障目标对象的安全。

另外，本公开还提供了一种步态识别方法及装置。其中，本公开利用视频片段中目标对象的多个二维关键点信息，来确定目标对象在视频片段的最后一帧图像中的三维关键点信息，能够避免确定的三维关键点信息出现多值歧义的问题，从而能够提高基于三维关键点信息进行步态分析和识别的成功率和准确率；另外，本公开利用三维关键点信息来确定目标对象的前进方向，并基于确定的前进方向和三维关键点信息来确定目标对象的步态数据，对目标对象进行步态分析和识别，并未依赖拍摄视频片段所使用的相机的相机参数，克服了步态分析和识别中存在的对其他数据或设备依赖性较强、泛化能力较差的缺陷。

下面通过具体的实施例对本公开的行为预测方法及装置、步态识别方法及装置、电子设备、计算机可读存储介质进行说明。

本公开实施例提供了一种行为预测方法，该方法应用于对目标对象进行行为预测的终端设备或服务器等。具体地，如图1所示，本公开实施例提供的行为预测方法包括如下步骤：

S110、获取多个目标视频片段，每个目标视频片段中包括目标图像和所述目标图像的前N帧图像，其中，N为正整数。

这里，目标图像，可以为目标视频片段的最后一帧图像，是待进行行为预测的图像，本实施例可以确定目标对象在目标图像中的行为特征信息、安全特征信息等。

目标视频片段可以是进行行为预测的终端设备利用其自身的摄像头等拍摄设备拍摄的，也可以是其他拍摄设备拍摄的，其他拍摄设备拍摄后，将目标视频片段传递给进行行为预测的终端设备或服务器即可。

S120、基于在每个目标视频片段中目标对象的多个二维关键点信息，确定所述目标对象在所述目标图像中的步态数据和目标重心坐标。

这里，可以首先利用目标对象在目标视频片段的每帧图像中的多个二维关键点信息预测所述目标对象在所述目标图像中的多个三维关键点信息，之后，利用目标对象在所述目标图像中的多个三维关键点信息确定目标对象在所述目标图像中的步态数据；利用目标对象在目标视频片段的每帧图像中的多个二维关键点信息和所述目标对象在所述目标图像中的多个三维关键点信息，确定所述目标对象在所述目标图像中的目标重心坐标。

在一些实施例中，上述步态数据可以包括目标对象的步长(gait-length)信息和/或步宽(gait-width)信息。

S130、基于所述步态数据和所述目标重心坐标，预测所述目标对象在预设时间段内的行为特征信息。

这里，目标视频可包括多个目标视频片段，每个目标视频片段中包括目标图像，通过确定目标对象在每个目标视频片段的目标图像中的步态数据和目标重心坐标，可以得到目标对象在多个连续的时刻的步态数据和目标重心坐标。在得到了目标对象在多个连续的时刻的步态数据之后，可以基于得到的步态数据监控和预测目标对象在预设时间段内的行为。在得到了目标对象在多个连续的时刻的目标重心坐标之后，可以预测目标对象在预设时间段内的运动轨迹。之后综合预测得到的目标对象的行为和运动轨迹，确定目标对象在预设时间段内的行为特征信息。

在一些实施例中，上述行为特征信息包括目标对象在预设时间段内的轨迹特征和行为特征，例如，行为特征信息具体包括目标对象在预设时间段内的运动轨迹坐标、目标对象在预设时间段内的运动的步长和步宽等。

在一些实施例中，可以利用得到的步态数据和目标重心坐标远程监控和预测儿童或患有认知障碍的老人的行为和运动轨迹，以保障儿童或患有认知障碍的老人的人身安全。另外，综合目前预测的儿童或患有认知障碍的老人的行为和运动轨迹，能够预测儿童或患有认知障碍的老人接下来的行为的行为特征信息，该行为特征信息能够指示或用于确定儿童或患有认知障碍的老人接下来的行为是否会发生危险，以便实施相匹配的安全处置策略。

S140、基于所述行为特征信息，确定所述目标对象在所述预设时间段内的安全特征信息以及与所述安全特征信息匹配的安全处置策略。

上述安全特征信息用于指示目标对象在预设时间段内的运动是否会发生危险以及发生何种危险等。例如，安全特征信息指示目标对象在预设时间段内的运动步伐太大、会碰撞其他物体、发生摔倒等危险状况。

上述安全处置策略是预先设定的，并且与安全特征信息存在映射关系。基于该映射关系和确定的安全特征信息，能够确定对目标对象实施的安全处置策略。该安全处置策略可以是对目标对象或目标对象的监护人发出提醒等。例如，在目标对象由于步伐过大而可能发生摔倒的状况下，向目标对象或目标对象的监护人发出预防摔倒的提醒(alert)；在目标对象可能发生碰撞的状况下，向目标对象或目标对象的监护人发出预防碰撞的提醒。

本实施例中，基于目标视频片段中目标对象的二维关键点信息，能够提高预测得到的步态数据和目标重心坐标的准确度；基于较为准确的步态数据和目标重心坐标，能够提高预测得到的行为特征信息的准确性，从而能够有效保障目标对象的安全。

在一些实施例中，所述目标对象在所述目标图像中的步态数据的确定过程可以包括如下步骤：

步骤一、基于所述目标对象在目标视频片段的每帧图像中的多个二维关键点信息，确定所述目标对象在所述目标图像中的多个三维关键点信息。

在执行此步骤一之前，首先需要确定目标对象在目标视频片段的每帧图像中的多个二维关键点信息，在具体实施时，可以利用二维关键点检测网络对每帧图像进行检测，确定每帧图像中的多个二维关键点信息。

在确定了目标对象在每帧图像中的多个二维关键点信息之后，例如可以利用时序空洞卷积神经网络，基于确定的多个二维关键点信息，确定目标对象在目标图像中的多个三维关键点信息。

利用目标对象在目标视频片段的每帧图像中的多个二维关键点信息，来确定目标对象在目标图像，即，目标视频片段的最后一帧图像，中的三维关键点信息，能够避免利用单帧图像的二维关键点信息确定三维关键点信息时容易出现的多值歧义的问题，获得了更好的时序连贯性和预测三维关键点信息的稳定性，从而能够提高基于三维关键点信息进行步态分析和识别的成功率和准确率。

步骤二、基于所述多个三维关键点信息，确定所述目标对象的前进方向。

在一些实施例中，可以利用三维关键点信息中目标对象的胯部、肩部、骨盆、颈椎等对应的三维关键点信息来确定目标对象的前进方向，而不必依赖拍摄目标视频片段的拍摄设备的设备参数。

上述前进方向是目标对象在物理尺度空间中的前进方向；三维关键点信息既可以是目标对象在网络尺度空间中的信息，也可以是目标对象在物理尺度空间中的信息，如果三维关键点信息是目标对象在网络尺度空间中的信息，则首先需要将网络尺度空间中的三维关键点信息转换到物理尺度空间中。

其中，上述物理尺度空间即为真实世界中的物理尺度，单位可以是国际单位制中的长度标准单位“米”。网络尺度空间即为人为定义的一个算术尺度，单位是1，目的是去除对象自身尺寸对相关计算的影响，简化计算。两者的量纲不同。

步骤三、基于所述多个三维关键点信息和所述前进方向，识别所述目标对象在所述目标图像中的步态数据。

在确定了目标对象的前进方向之后，可以利用三维关键点信息中目标对象的脚部对应的三维关键点信息来确定目标对象的步态数据。

这里，上述步态数据可以包括目标对象的步长信息和/或步宽信息。

在具体实施时，可以利用如下子步骤来确定目标对象在目标图像中的步长信息：

基于所述多个三维关键点信息，确定所述目标对象的两脚之间的连线在所述前进方向上的第一投影；基于所述第一投影的长度信息，确定所述目标对象的步长信息。

在具体实施时，可以利用如下子步骤来确定目标对象在目标图像中的步宽信息：基于所述多个三维关键点信息，确定所述目标对象的两脚之间的连线在与所述前进方向相垂直的方向上的第二投影；基于所述第二投影的长度信息，确定所述目标对象的步宽信息。

上述是将两脚之间的连线投影到目标对象的前进方向上以及与前进方向相垂直的方向上，之后基于投影的长度确定目标对象的步长信息和步宽信息。具体地，在三维关键点信息为物理尺度空间中的信息时，可以直接将第一投影的长度信息，作为所述目标对象的步长信息，将第二投影的长度信息，作为所述目标对象的步宽信息。另外，在三维关键点信息不为物理尺度空间中的信息时，在得到第一投影和第二投影后，需要将第一投影的长度信息和第二投影的长度信息转换到物理尺度空间，并将物理尺度空间中第一投影的长度信息和第二投影的长度信息分别作为步长信息和步宽信息。在空间转换的过程中，可以将直接确定的第一投影的长度信息与空间转换的预设比例进行相乘，得到转换后的物理尺度空间中的步长信息，将直接确定的第二投影的长度信息与空间转换的预设比例进行相乘，得到转换后的物理尺度空间中的步宽信息。

上述仅利用三维关键点信息确定的目标对象的两脚之间的连线和三维关键点信息确定的目标对象的前进方向来确定目标对象的步长信息和步宽信息，而不依赖拍摄设备的设备参数来确定上述步长信息和步宽信息，克服了步态分析和识别中存在的对其他数据或设备依赖性较强、泛化能力较差的缺陷。

本实施例中，在确定了目标对象的多个三维关键点信息之后，利用三维关键点信息来确定目标对象的前进方向，并基于确定的前进方向和三维关键点信息来确定目标对象的步态数据，对目标对象进行步态分析和识别，并未依赖拍摄视频片段所使用的相机的相机参数，克服了步态分析和识别中存在的对其他数据或设备依赖性较强、泛化能力较差的缺陷。

在一些实施例中，如图2所示，上述基于目标对象在目标视频片段的每帧图像中的多个二维关键点信息，确定所述目标对象在所述目标图像中的多个三维关键点信息，具体可以包括如下步骤：

S210、针对目标视频片段中的每帧图像，基于所述目标对象在该帧图像中的多个二维关键点信息，确定所述目标对象在该帧图像中的检测框。

这里，首先可以利用二维关键点检测网络，确定目标对象在每帧图像中的多个二维关键点信息。

基于多个二维关键点信息中的关键点坐标，可以确定一个包围目标对象的检测框，如图3中的检测框31，图中，w ^d表示检测框的宽度，h ^d表示检测框的高度。

S220、基于所述检测框的尺寸信息、所述检测框的中心点的坐标，对该帧图像中的每个二维关键点信息对应的坐标信息进行归一化处理，得到目标对象在该帧图像中的多个目标二维关键点信息。

在归一化处理时，可以基于检测框的尺寸信息，即，检测框的宽度和检测框的高度，确定一个较大的正方形框32，之后利用该正方形框32进行归一化处理，该正方形框32的边长为m×max{w ^d，h ^d}。m根据实际应用场景取值，例如可以取值为1.2。其中，正方形框32的中心和检测框31的中心重合。

在具体实施时，可以利用如下公式进行归一化处理：

式中，K _x，y表示归一化处理后的二维关键点信息，即为上述目标二维关键点信息对应的坐标，

表示二维关键点信息对应的坐标，

表示检测框的中心点的坐标。

S230、基于目标对象在所述每帧图像中的多个目标二维关键点信息，确定所述目标对象在所述目标图像中的多个三维关键点信息。

本实施例中，首先利用目标对象在图像中的二维关键点信息确定目标对象的检测框，之后利用检测框的尺寸信息和中心点坐标等来对二维关键点信息对应的坐标信息进行归一化处理，不依赖于拍摄视频片段的相机的相机参数或原始图像的尺寸信息，摆脱了对相机参数的依赖，对于经裁切的图像依然具有较好的泛用性。

上述，在对二维关键点信息进行归一化处理之后，可以将归一化处理之后的二维关键点信息输入训练好的第一神经网络，例如训练好的时序空洞卷积神经网络，来确定三维关键点信息。

利用训练好的第一神经网络来确定三维关键点信息，能够提高信息处理和确定的自动化程度，提高信息处理和确定的准确度。

在具体实施时，可以利用如下步骤训练上述第一神经网络：

步骤一、获取包括第一样本图像的第一样本视频片段，和第一样本对象在所述第一样本图像中的多个标准三维关键点信息，其中，所述第一样本视频片段还包括所述第一样本图像的前N帧图像。

这里，第一样本图像是待进行步态识别的图像。上述标准三维关键点信息作为样本标注信息使用。

在具体实施时，可以利用神经网络确定第一样本对象在所述第一样本图像中的多个标准三维关键点信息。该多个标准三维关键点信息例如可以是包括十七个关键点的信息的对象骨架。

步骤二、基于所述多个标准三维关键点信息，确定所述第一样本对象在所述第一样本视频片段的每帧图像中的多个样本二维关键点信息。

这里，可以是利用标准三维关键点信息反投影得到样本二维关键点信息。例如可以利用如下步骤进行反投影处理：

获取拍摄所述第一样本视频片段的拍摄设备的设备参数信息，以及第一样本视频片段中每帧图像的RGB画面；基于所述设备参数信息、每帧图像的RGB画面和所述多个标准三维关键点信息，确定所述第一样本对象在所述第一样本视频片段的每帧图像中的多个样本二维关键点信息。

基于多个标准三维关键点信息反投影确定多个样本二维关键点信息，能够提高确定的样本二维关键点信息的准确度。

另外，在具体实施时，也可以不利用反投影处理得到样本二维关键点信息，例如，可以直接利用二维关键点检测网络来对每帧图像中的第一样本对象进行检测，得到第一样本对象在所述第一样本视频片段的每帧图像中的多个样本二维关键点信息。

在得到样本二维关键点信息之后，并且在利用样本二维关键点信息进行第一初始神经网络的训练之前，需要对样本二维关键点信息对应的坐标信息进行归一化处理，该归一化处理的方法与上述实施例中的对二维关键点信息对应的坐标信息进行归一化处理的方法相同，同样是：针对所述第一样本视频片段中的每帧图像，基于所述第一样本对象在该帧图像中的多个样本二维关键点信息，确定所述第一样本对象在该帧图像中的样本检测框；基于所述样本检测框的尺寸信息、所述样本检测框的中心点的坐标，对该帧图像中的每个样本二维关键点信息对应的坐标信息进行归一化处理。

步骤三、将上述多个样本二维关键点信息输入待训练的第一初始神经网络，经过所述第一初始神经网络对输入的多个样本二维关键点信息进行处理，确定所述第一样本对象在所述第一样本图像中的多个预测三维关键点信息。

步骤四、基于所述多个预测三维关键点信息与所述多个标准三维关键点信息之间的误差信息，调整所述第一初始神经网络的网络参数，在训练完成后得到所述第一神经网络。

上述，步骤一中的多个标准三维关键点信息是物理尺度空间的信息，在获取到该物理尺度空间的标准三维关键点信息之后，可以直接利用该物理尺度空间的标准三维关键点信息与所述多个预测三维关键点信息之间的误差信息，调整所述第一初始神经网络的网络参数。这样训练好的第一神经网络在使用时，直接预测得到的三维关键点信息也是物理尺度空间的信息。那么在利用预测得到的三维关键点信息确定目标对象的步态数据的时候，不必进行物理尺度空间的转换。

当然，还可以将步骤一中的物理尺度空间的标准三维关键点信息转换为网络尺度空间中的信息，之后，利用网络尺度空间的标准三维关键点信息与多个预测三维关键点信息之间的误差信息，调整所述第一初始神经网络的网络参数。这样训练好的第一神经网络在使用时，直接预测得到的三维关键点信息也是网络尺度空间的信息。那么在利用预测得到的三维关键点信息确定目标对象的步态数据的时候，需要将网络尺度空间的三维关键点信息转换为物理尺度空间中的三维关键点信息。

在具体实施时，可以利用如下步骤将物理尺度空间的多个标准三维关键点信息转换为网络尺度空间中的信息：获取所述第一样本对象的物理尺寸信息；基于所述第一样本对象的物理尺寸信息，分别将物理尺度空间的多个标准三维关键点信息转换为网络尺度空间中的信息。

在获取到第一样本对象的物理尺寸信息之后，可以将物理尺度空间的标准三维关键点信息中的坐标信息除以该物理尺寸信息，得到物理尺度空间的标准三维关键点信息转换后的在网络尺度空间中的信息。

在一些实施例中，上述物理尺寸信息可以是第一样本对象(例如，一个人物)的身高信息等。

上述利用样本对象的物理尺寸信息，将物理尺度空间的标准三维关键点信息转换为网络尺度空间的信息，基于网络尺度空间的信息训练得到的神经网络能够确定网络尺度空间的三维关键点信息，即，能够消除尺度多样性，克服目标对象大小对确定三维关键点信息的影响，有利于提高步态识别的准确度。

若第一神经网络预测得到的三维关键点信息为网络尺度空间中的信息，那么在利用预测得到的三维关键点信息进行步态分析，即确定前进方向和步态数据之前，需要将网络尺度空间中的三维关键点信息转换为物理尺度空间中的信息，具体可以利用如下步骤进行转换：

获取所述目标对象的物理尺寸信息；基于所述目标对象的物理尺寸信息，将网络尺度空间的三维关键点信息更新为物理尺度空间的三维关键点信息。

上述在获取到目标对象的物理尺寸信息之后，可以将网络尺度空间的三维关键点信息中的坐标信息乘以该物理尺寸信息，得到网络尺度空间的三维关键点信息转换后的在物理尺度空间中的信息。

在一些实施例中，上述物理尺寸信息可以是目标对象(例如，一个人物)的身高信息等。

在一些实施例中，上述基于所述多个三维关键点信息，确定所述目标对象的前进方向，具体可以包括如下步骤：

基于所述多个三维关键点信息，确定所述目标对象的左胯部与右胯部之间的第一连线和所述目标对象的左肩部与右肩部之间的第二连线；确定所述第一连线和所述第二连线之间的最小误差平面；基于所述最小误差平面和水平面之间的相交线，确定所述目标对象的前进方向。

上述确定第一连线和第二连线所使用的三维关键点信息为物理尺度空间中的三维关键点信息。

如图4所示，在具体实施时，确定第一连线L2和第二连线L1之间的最小误差平面之后，确定最小误差平面和水平面(XZ平面)之间的相交线L0，并将该相交线L0的处于水平面内的垂线C0作为目标对象的前进方向。

上述仅利用三维关键点信息来确定第一连线、第二连线以及第一连线和第二连线之间的最小误差平面，进而利用最小误差平面和水平面之间的相交线来确定目标对象的前进方向，并未基于拍摄设备的设备参数来确定前进方向，即未基于拍摄设备的设备参数来进行步态分析和识别，克服了步态分析和识别中存在的对其他数据或设备依赖性较强、泛化能力较差的缺陷。

在一些实施例中，上述基于所述多个三维关键点信息，确定所述目标对象的前进方向，具体还可以包括如下步骤：

基于所述多个三维关键点信息，确定所述目标对象的左胯部与右胯部之间的第三连线、所述目标对象的左肩部与右肩部之间的第四连线和所述目标对象的骨盆点与颈椎点之间的第五连线；基于所述第三连线和所述第四连线，确定所述目标对象相对于水平面的第一躯干方向；基于所述第五连线，确定所述目标对象相对于竖直面的第二躯干方向；基于所述第一躯干方向和所述第二躯干方向，确定所述目标对象的前进方向。

上述确定第三连线、第四连线和第五连线所使用的三维关键点信息为物理尺度空间中的信息。

在具体实施时，可以将上述第三连线和第四连线形成的角的平分线的方向作为目标对象的左右方向，即上述第一躯干方向，将第五连线的方向作为目标对象的上下方向，即上述第二躯干方向。之后将第一躯干方向和第二躯干方向的叉乘作为目标对象的前进方向。

上述仅利用三维关键点信息来确定多条连线，之后，利用确定的各个连线确定目标对象相对于水平面的第一躯干方向、目标对象相对于竖直面的第二躯干方向，最后利用第一躯干方向和第二躯干方向来确定目标对象的前进方向，并未基于拍摄设备的设备参数来确定前进方向，即未基于拍摄设备的设备参数来进行步态分析和识别，克服了步态分析和识别中存在的对其他数据或设备依赖性较强、泛化能力较差的缺陷。

基于上述实施例，可以识别得到目标对象在多个连续的时刻的步态数据，在识别得到目标对象在多个连续的时刻的步态数据之后，可以基于识别得到的步态数据监控和预测目标对象的行为，在具体应用中，可以利用识别得到的步态数据远程监控和预测儿童或患有认知障碍的老人的行为，以保障儿童或患有认知障碍的老人的人身安全。

本公开还提供了一种重心预测方法，该方法可以应用于对目标对象进行重心预测的单独的终端设备或服务器上，当然也可以应用于上述进行行为预测的终端设备或服务器上。如图5所示，本公开提供的重心预测方法可以包括如下步骤：

S510、基于目标对象在目标视频片段的每帧图像中的多个二维关键点信息，确定所述目标对象的第一重心坐标以及确定所述目标对象在所述目标图像中的多个三维关键点信息。

这里，基于目标对象在目标视频片段的每帧图像中的多个二维关键点信息，确定所述目标对象在所述目标图像中的多个三维关键点信息，与上述实施例中的方法相同，这里不再进行赘述。

这里，具体可以利用训练好的时序空洞卷积神经网络来确定第一重心坐标。这里的时序空洞卷积神经网络与上述确定三维关键点信息的时序空洞卷积神经网络不同，需要重新训练。

在利用时序空洞卷积神经网络来确定第一重心坐标时，不需要对输入的二维关键点信息进行归一化处理。同样，在训练该时序空洞卷积神经网络的时候，不需要对样本二维关键点信息进行归一化处理。

本步骤利用训练好的神经网络来确定重心坐标，能够提高信息处理和确定的自动化程度，提高信息处理和确定的准确度。

由于上述时序空洞卷积神经网络确定的第一重心坐标在深度方向(Z方向)上较为准确，因此，在基于第一重心坐标确定目标重心坐标时，可以只取第一重心坐标在深度方向上的坐标。

S520、基于所述目标对象在目标图像中的多个二维关键点信息和所述多个三维关键点信息，确定所述目标对象的第二重心坐标。

这里，可以利用例如SolvePnP算法或类似的优化方法基于二维关键点信息和三维关键点信息确定第二重心坐标。由于上述算法确定的第二重心坐标在水平方向(X方向)和竖直方向(Y方向)上较为准确，因此，在基于第二重心坐标确定目标重心坐标时，可以只取第二重心坐标在水平方向和竖直方向上的坐标。

上述三维关键点信息为物理尺度空间中的信息。

S530、基于所述第一重心坐标和所述第二重心坐标，确定所述目标对象在所述目标图像中的目标重心坐标。

这里，具体地可以取第一重心坐标在深度方向上的坐标、第二重心坐标在水平方向和竖直方向上的坐标作为目标对象在所述目标图像中的目标重心坐标。

本实施例中，结合使用确定的两个重心坐标，能够更加准确的确定目标对象的最终的目标重心坐标。

基于上述实施例，可以得到目标对象在多个连续的时刻上的目标重心坐标，在得到了目标对象在多个连续的时刻上的目标重心坐标之后，可以基于得到的多个目标重心坐标，确定目标对象在该多个连续的时刻上的位移估计结果(运动轨迹)。

在确定了目标对象的位移估计结果之后，可以基于该位移估计结果预测目标对象的后续的运动轨迹。例如，在具体应用中，可以利用篮球运动员当前的运动轨迹，预测该篮球运动员后续的运动轨迹，以制定对抗战术。或者，可以在篮球比赛之后，分析某一位篮球运动员的运动轨迹，利用该运动轨迹对该篮球运动员的战术进行分析、总结，以及制定对抗战术等。

另外，利用上述实施例得到的目标对象的步态数据预测了目标对象的行为，利用上述实施例得到的目标对象的目标重心坐标预测了目标对象的运动轨迹之后，可以综合预测的目标对象的行为和运动轨迹，预测目标对象接下来的行为是否会发生危险。例如，综合目前预测的儿童的行为和运动轨迹，预测儿童接下来的行为的行为特征信息，并根据该行为特征信息确定儿童接下来的行为是否会发生危险，以便实施相匹配的安全处置策略。

上述用于确定目标对象的重心坐标的神经网络可以作为第二神经网络，在具体实施时，可以利用如下步骤训练所述第二神经网络：

步骤一、获取包括第二样本图像的第二样本视频片段，和第二样本对象在所述第二样本图像中的多个标准三维关键点信息，其中，所述第二样本视频片段还包括所述第二样本图像的前N帧图像。

这里，第二样本图像是要确定重心坐标的图像。上述标准三维关键点信息作为样本标注信息使用。

在具体实施时，可以利用神经网络确定第二样本对象在所述第二样本图像中的多个标准三维关键点信息。该多个标准三维关键点信息例如可以是包括十七个关键点的信息的对象骨架，是物理尺度空间中的信息。

步骤二、基于所述多个标准三维关键点信息，确定所述第二样本对象在所述第二样本视频片段的每帧图像中的多个样本二维关键点信息。

这里，可以是利用上述标准三维关键点信息反投影得到样本二维关键点信息。例如可以利用如下步骤进行反投影处理：

获取拍摄所述第二样本视频片段的拍摄设备的设备参数信息，以及第二样本视频片段中每帧图像的RGB画面；基于所述设备参数信息、每个RGB画面和所述多个标准三维关键点信息，分别确定所述第二样本对象在所述第二样本视频片段的每帧图像中的多个样本二维关键点信息。

另外，在具体实施时，也可以不利用反投影处理得到样本二维关键点信息，例如，可以直接利用二维关键点检测网络来对每帧图像中的第二样本对象进行检测，得到第二样本对象在所述第二样本视频片段的每帧图像中的多个样本二维关键点信息。

步骤三、基于所述多个标准三维关键点信息，确定所述第二样本对象的标准重心坐标。

步骤四、将确定的所述多个样本二维关键点信息输入待训练的第二初始神经网络，经过所述第二初始神经网络对输入的多个样本二维关键点信息进行处理，输出所述第二样本对象在所述第二样本图像中的预测重心坐标。

步骤五、基于所述预测重心坐标与所述标准重心坐标之间的误差信息，调整所述第二初始神经网络的网络参数，在训练完成后得到所述第二神经网络。

上述，步骤一中的多个标准三维关键点信息是物理尺度空间的信息，在获取到该物理尺度空间的标准三维关键点信息之后，可以直接利用该物理尺度空间的标准三维关键点信息确定物理尺度空间的标准重心坐标，并利用所述预测重心坐标与物理尺度空间的标准重心坐标之间的误差信息，调整所述第二初始神经网络的网络参数。这样训练好的第二神经网络在使用时，直接预测得到的重心坐标也是物理尺度空间的信息。

在一些实施例中，上述第一神经网络可以包括时序空洞卷积神经网络；所述第一神经网络中去除了不用于确定目标图像中的所述三维关键点信息的神经元。

利用时序空洞卷积神经网络来确定三维关键点信息，能够克服单帧图像检测中从二维关键点信息转换为三维关键点信息时容易出现的多值歧义的缺陷，并且本实施例中，对时序空洞卷积神经网络进行了简化，去除了其中不用于确定目标图像中的三维关键点信息的神经元，能够克服从二维关键点信息转换为三维关键点信息时存在的耗时久、实时性差的缺陷，有利于提高步态分析和识别的效率。具体地，本公开中的简化后的时序空洞卷积神经网络在家用型计算机上，对于720P的每帧图像，可以在10毫秒内完成从二维关键点信息到三维关键点信息的转换。

另外，上述第二神经网络可以包括时序空洞卷积神经网络；所述第二神经网络中去除了不用于确定目标图像中的重心坐标的神经元。

上述对时序空洞卷积神经网络进行了简化，去除了其中不用于确定目标图像中的重心坐标的神经元，能够克服确定重心坐标过程中存在的耗时久、实时性差的缺陷。

另外，还可以不去除第一神经网络和第二神经网络中的神经元，只是利用其中用于确定三维关键点信息和重心坐标的神经元进行数据处理，其他神经元并不使用。如图6A所示的时序空洞卷积神经网络利用了所有的神经元来确定三维关键点信息，如图6B所示的时序空洞卷积神经网络只利用了用于确定目标图像中的所述三维关键点信息的神经元来确定三维关键点信息。

本公开实施例还提供了一种步态识别方法，该方法应用于对目标对象进行步态识别的终端设备或服务器。具体地，如图7所示，本公开实施例提供的步态识别方法包括如下步骤：

S710、获取多个目标视频片段，每个目标视频片段中包括目标图像和所述目标图像的前N帧图像，其中，N为正整数。

这里，目标图像，可以是目标视频片段的最后一帧图像，是待进行步态识别的图像，即本实施例可以确定目标对象在目标图像中的步态数据。

目标视频片段可以是进行步态识别的终端设备利用其自身的摄像头等拍摄设备拍摄的，也可以是其他拍摄设备拍摄的，其他拍摄设备拍摄后，将目标视频片段传递给进行步态识别的终端设备或服务器即可。

上述N可以基于具体的应用场景灵活设定，例如可以设置为27。

S720、基于在每个目标视频片段中目标对象的多个二维关键点信息，确定所述目标对象在所述目标图像中的多个三维关键点信息。

在执行此步骤之前，首先需要确定目标对象在目标视频片段的每帧图像中的多个二维关键点信息，在具体实施时，可以利用二维关键点检测网络对每帧图像进行检测，确定每帧图像中的多个二维关键点信息。

S730、基于所述多个三维关键点信息，确定所述目标对象的前进方向。

S740、基于所述多个三维关键点信息和所述前进方向，识别所述目标对象在所述目标图像中的步态数据。

在一些实施例中，在所述多个三维关键点信息是网络尺度空间的三维关键点信息的情况下，在基于所述多个三维关键点信息，确定所述目标对象的前进方向之前，上述步态识别方法还可包括如下步骤：获取所述目标对象的物理尺寸信息；基于所述目标对象的物理尺寸信息，将网络尺度空间的三维关键点信息更新为物理尺度空间的三维关键点信息。

上述步态识别方法的实施例中，多个三维关键点信息、目标对象的前进方向、步态数据等的实现方案与上述行为预测方法实施例中的对应的实现方案相同，取得的技术效果也相同，这里不再进行赘述。

对应于上述行为预测方法，本公开还提供了一种行为预测装置，该装置应用于进行行为预测的终端设备或服务器上，并且各个模块能够实现与上述方法中相同的方法步骤以及取得相同的有益效果，因此对于其中相同的部分，本公开不再进行赘述。

如图8所示，本公开提供的一种行为预测装置可以包括：

图像获取模块810，用于获取多个目标视频片段，每个目标视频片段中包括目标图像和所述目标图像的前N帧图像，其中，N为正整数。

图像处理模块820，用于基于在每个目标视频片段中目标对象的多个二维关键点信息，确定所述目标对象在所述目标图像中的步态数据和目标重心坐标。

预测模块830，用于基于所述步态数据和所述目标重心坐标，预测所述目标对象在预设时间段内的行为特征信息。

信息处理模块840，用于基于所述行为特征信息，确定所述目标对象在所述预设时间段内的安全特征信息以及与所述安全特征信息匹配的安全处置策略。

对应于上述步态识别方法，本公开还提供了一种步态识别装置，该装置应用于进行步态识别的终端设备或服务器上，并且各个模块能够实现与上述方法中相同的方法步骤以及取得相同的有益效果，因此对于其中相同的部分，本公开不再进行赘述。

具体的，如图9所示，本公开提供的一种步态识别装置可以包括：

视频获取模块910，用于获取多个目标视频片段，每个目标视频片段中包括目标图像和所述目标图像的前N帧图像，其中，N为正整数。

关键点处理模块920，用于基于在每个目标视频片段中目标对象的多个二维关键点信息，确定所述目标对象在所述目标图像中的多个三维关键点信息。

前进方向确定模块930，用于基于所述多个三维关键点信息，确定所述目标对象的前进方向。

步态识别模块940，用于基于所述多个三维关键点信息和所述前进方向，识别所述目标对象在所述目标图像中的步态数据。

本公开实施例提供了一种电子设备，如图10所示，所述电子设备包括：处理器1001、存储器1002和总线1003，所述存储器1002存储有所述处理器1001可执行的机器可读指令，当电子设备运行时，所述处理器1001与所述存储器1002之间通过总线1003通信。

所述机器可读指令被所述处理器1001执行时使所述处理器1001执行以下行为预测方法：

获取多个目标视频片段，每个目标视频片段中包括目标图像和所述目标图像的前N帧图像，其中，N为正整数；

基于在每个目标视频片段中目标对象的多个二维关键点信息，确定所述目标对象在所述目标图像中的步态数据和目标重心坐标；

基于所述步态数据和所述目标重心坐标，预测所述目标对象在预设时间段内的行为特征信息；

基于所述行为特征信息，确定所述目标对象在所述预设时间段内的安全特征信息以及与所述安全特征信息匹配的安全处置策略。

或者，所述机器可读指令被所述处理器1001执行时使所述处理器1001执行以下步态识别方法：

基于在每个目标视频片段中目标对象的多个二维关键点信息，确定所述目标对象在所述目标图像中的多个三维关键点信息；

基于所述多个三维关键点信息，确定所述目标对象的前进方向；

基于所述多个三维关键点信息和所述前进方向，识别所述目标对象在所述目标图像中的步态数据。

除此之外，机器可读指令被处理器1001执行时，还可以使所述处理器1001执行上述方法部分描述的任一实施方式中的方法内容，这里不再赘述。

本公开实施例还提供了一种对应于上述方法及装置的计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行前面方法实施例中的方法，具体实现可参见方法实施例，在此不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，本文不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考方法实施例中的对应过程，本公开中不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块之间的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本公开实施例的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失性计算机可读存储介质中。基于这样的理解，本公开实施例本质上或者本公开实施例的全部或部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

Claims

一种行为预测方法，包括：

获取多个目标视频片段，每个目标视频片段中包括目标图像和所述目标图像的前N帧图像，其中，N为正整数；

基于在每个目标视频片段中目标对象的多个二维关键点信息，确定所述目标对象在所述目标图像中的步态数据和目标重心坐标；

基于所述步态数据和所述目标重心坐标，预测所述目标对象在预设时间段内的行为特征信息。
根据权利要求1所述的行为预测方法，还包括：基于所述行为特征信息，确定所述目标对象在所述预设时间段内的安全特征信息以及与所述安全特征信息匹配的安全处置策略。
根据权利要求1所述的行为预测方法，其中，所述基于在每个目标视频片段中目标对象的多个二维关键点信息，确定所述目标对象在所述目标图像中的步态数据，包括：

基于所述目标对象在每个目标视频片段的每帧图像中的多个二维关键点信息，确定所述目标对象在所述目标图像中的多个三维关键点信息；

基于所述多个三维关键点信息，确定所述目标对象的前进方向；

基于所述多个三维关键点信息和所述前进方向，识别所述目标对象在所述目标图像中的步态数据。
根据权利要求1所述的行为预测方法，其中，所述基于在每个目标视频片段中目标对象的多个二维关键点信息，确定所述目标对象在所述目标图像中的目标重心坐标，包括：

基于所述目标对象在每个目标视频片段的每帧图像中的多个二维关键点信息，确定所述目标对象的第一重心坐标以及确定所述目标对象在所述目标图像中的多个三维关键点信息；

基于所述目标对象在所述目标图像中的多个二维关键点信息和所述多个三维关键点信息，确定所述目标对象的第二重心坐标；

基于所述第一重心坐标和所述第二重心坐标，确定所述目标对象在所述目标图像中的目标重心坐标。
根据权利要求3或4所述的行为预测方法，其中，所述确定所述目标对象在所述目标图像中的多个三维关键点信息，包括：

针对每个目标视频片段中的每帧图像，基于所述目标对象在该帧图像中的多个二维关键点信息，确定所述目标对象在该帧图像中的检测框；

基于所述检测框的尺寸信息、所述检测框的中心点的坐标，对该帧图像中的每个二维关键点信息对应的坐标信息进行归一化处理，得到目标对象在该帧图像中的多个目标二维关键点信息；

基于所述目标对象在所述每帧图像中的多个目标二维关键点信息，确定所述目标对象在所述目标图像中的多个三维关键点信息。
根据权利要求5所述的行为预测方法，其中，所述基于所述目标对象在所述每帧图像中的多个目标二维关键点信息，确定所述目标对象在所述目标图像中的多个三维关键点信息，包括：

将所述目标对象在所述每帧图像中的多个目标二维关键点信息，输入训练好的第一神经网络，经过所述第一神经网络对输入的多个目标二维关键点信息进行处理，确定所述目标对象在所述目标图像中的多个三维关键点信息。
根据权利要求6所述的行为预测方法，还包括训练所述第一神经网络的步骤：

获取包括第一样本图像的第一样本视频片段，和第一样本对象在所述第一样本图像中的多个标准三维关键点信息，其中，所述第一样本视频片段还包括所述第一样本图像的前N帧图像；

基于所述多个标准三维关键点信息，确定所述第一样本对象在所述第一样本视频片段的每帧图像中的多个样本二维关键点信息；

将确定的所述多个样本二维关键点信息输入待训练的第一初始神经网络，经过所述第一初始神经网络对输入的多个样本二维关键点信息进行处理，确定所述第一样本对象在所述第一样本图像中的多个预测三维关键点信息；

基于所述多个预测三维关键点信息与所述多个标准三维关键点信息之间的误差信息，调整所述第一初始神经网络的网络参数；

在所述第一初始神经网络训练完成后得到所述第一神经网络。
根据权利要求7所述的行为预测方法，其中，所述确定所述第一样本对象在所述第一样本视频片段的每帧图像中的多个样本二维关键点信息，包括：

获取拍摄所述第一样本视频片段的拍摄设备的设备参数信息，以及所述第一样本视频片段的每帧图像的RGB画面；

基于所述设备参数信息、所述每帧图像的RGB画面和所述多个标准三维关键点信息，确定所述第一样本对象在所述第一样本视频片段的每帧图像中的多个样本二维关键点信息。
根据权利要求7所述的行为预测方法，其中，所述基于所述多个预测三维关键点信息与所述多个标准三维关键点信息之间的误差信息，调整所述第一初始神经网络的网络参数，包括：

获取所述第一样本对象的物理尺寸信息；

基于所述第一样本对象的物理尺寸信息，确定每个标准三维关键点信息对应于网络尺度空间的目标标准三维关键点信息；

基于所述多个预测三维关键点信息与多个所述目标标准三维关键点信息之间的误差信息，调整所述第一初始神经网络的网络参数。
根据权利要求3所述的行为预测方法，其中，所述基于所述多个三维关键点信息，确定所述目标对象的前进方向，包括：

基于所述多个三维关键点信息，确定所述目标对象的左胯部与右胯部之间的第一连线和所述目标对象的左肩部与右肩部之间的第二连线；确定所述第一连线和所述第二连线之间的最小误差平面；基于所述最小误差平面和水平面之间的相交线，确定所述目标对象的前进方向；或者，

基于所述多个三维关键点信息，确定所述目标对象的左胯部与右胯部之间的第三连线、所述目标对象的左肩部与右肩部之间的第四连线和所述目标对象的骨盆点与颈椎点之间的第五连线，其中，所述第三连线为所述第一连线，所述第四连线为所述第二连线；基于所述第三连线和所述第四连线，确定所述目标对象相对于水平面的第一躯干方向；基于所述第五连线，确定所述目标对象相对于竖直面的第二躯干方向；基于所述第一躯干方向和所述第二躯干方向，确定所述目标对象的前进方向。
根据权利要求3或10所述的行为预测方法，其中，所述步态数据包括所述目标对象的步长信息；

所述基于所述多个三维关键点信息和所述前进方向，识别所述目标对象在所述目标图像中的步态数据，包括：基于所述多个三维关键点信息，确定所述目标对象的两脚之间的连线在所述前进方向上的第一投影；基于所述第一投影的长度信息，确定所述目标对象的步长信息；

和/或，所述步态数据包括所述目标对象的步宽信息；

所述基于所述多个三维关键点信息和所述前进方向，识别所述目标对象在所述目标图像中的步态数据，包括：基于所述多个三维关键点信息，确定所述目标对象的两脚之间的连线在与所述前进方向相垂直的方向上的第二投影；基于所述第二投影的长度信息，确定所述目标对象的步宽信息。
根据权利要求4所述的行为预测方法，其中，所述基于所述目标对象在每个目标视频片段的每帧图像中的多个二维关键点信息，确定所述目标对象的第一重心坐标，包括：

将所述目标对象在每个目标视频片段的每帧图像中的多个二维关键点信息，输入训练好的第二神经网络，经过所述第二神经网络对输入的多个二维关键点信息进行处理，确定所述目标对象的第一重心坐标。
根据权利要求12所述的行为预测方法，还包括训练所述第二神经网络的步骤：

获取包括第二样本图像的第二样本视频片段，和第二样本对象在所述第二样本图像中的多个标准三维关键点信息，其中，所述第二样本视频片段还包括所述第二样本图像的前N帧图像；

基于所述多个标准三维关键点信息，确定所述第二样本对象在所述第二样本视频片段的每帧图像中的多个样本二维关键点信息；

基于所述多个标准三维关键点信息，确定所述第二样本对象的标准重心坐标；

将确定的所述多个样本二维关键点信息输入待训练的第二初始神经网络，经过所述第二初始神经网络对输入的多个样本二维关键点信息进行处理，输出所述第二样本对象在所述第二样本图像中的预测重心坐标；

基于所述预测重心坐标与所述标准重心坐标之间的误差信息，调整所述第二初始神经网络的网络参数；

在所述第二初始神经网络训练完成后得到所述第二神经网络。
一种步态识别方法，包括：

获取多个目标视频片段，每个目标视频片段中包括目标图像和所述目标图像的前N帧图像，其中，N为正整数；

基于在每个目标视频片段中目标对象的多个二维关键点信息，确定所述目标对象在所述目标图像中的多个三维关键点信息；

基于所述多个三维关键点信息，确定所述目标对象的前进方向；

基于所述多个三维关键点信息和所述前进方向，识别所述目标对象在所述目标图像中的步态数据。
根据权利要求14所述的步态识别方法，其中，在所述多个三维关键点信息是网络尺度空间的三维关键点信息的情况下，在基于所述多个三维关键点信息，确定所述目标对象的前进方向之前，所述方法还包括：

获取所述目标对象的物理尺寸信息；

基于所述目标对象的物理尺寸信息，将网络尺度空间的三维关键点信息更新为物理尺度空间的三维关键点信息。
根据权利要求14或15所述的步态识别方法，其中，所述基于所述多个三维关键点信息，确定所述目标对象的前进方向，包括：

基于所述多个三维关键点信息，确定所述目标对象的左胯部与右胯部之间的第一连线和所述目标对象的左肩部与右肩部之间的第二连线；确定所述第一连线和所述第二连线之间的最小误差平面；基于所述最小误差平面和水平面之间的相交线，确定所述目标对象的前进方向；或者，

基于所述多个三维关键点信息，确定所述目标对象的左胯部与右胯部之间的第三连线、所述目标对象的左肩部与右肩部之间的第四连线和所述目标对象的骨盆点与颈椎点之间的第五连线；基于所述第三连线和所述第四连线，确定所述目标对象相对于水平面的第一躯干方向；基于所述第五连线，确定所述目标对象相对于竖直面的第二躯干方向；基于所述第一躯干方向和所述第二躯干方向，确定所述目标对象的前进方向。
根据权利要求14至16任一所述的步态识别方法，其中，所述步态数据包括所述目标对象的步长信息；

所述基于所述多个三维关键点信息和所述前进方向，识别所述目标对象在所述目标图像中的步态数据，包括：基于所述多个三维关键点信息，确定所述目标对象的两脚之间的连线在所述前进方向上的第一投影；基于所述第一投影的长度信息，确定所述目标对象的步长信息；

和/或，所述步态数据包括所述目标对象的步宽信息；

所述基于所述多个三维关键点信息和所述前进方向，识别所述目标对象在所述目标图像中的步态数据，包括：基于所述多个三维关键点信息，确定所述目标对象的两脚之间的连线在与所述前进方向相垂直的方向上的第二投影；基于所述第二投影的长度信息，确定所述目标对象的步宽信息。
一种步态识别装置，包括：

视频获取模块，用于获取多个目标视频片段，每个目标视频片段中包括目标图像和所述目标图像的前N帧图像，其中，N为正整数；

关键点处理模块，用于基于在每个目标视频片段中目标对象的多个二维关键点信息，确定所述目标对象在所述目标图像中的多个三维关键点信息；

前进方向确定模块，用于基于所述多个三维关键点信息，确定所述目标对象的前进方向；

步态识别模块，用于基于所述多个三维关键点信息和所述前进方向，识别所述目标对象在所述目标图像中的步态数据。
一种行为预测装置，包括：

图像获取模块，用于获取多个目标视频片段，每个目标视频片段中包括目标图像和所述目标图像的前N帧图像，其中，N为正整数；

图像处理模块，用于基于在每个目标视频片段中目标对象的多个二维关键点信息，确定所述目标对象在所述目标图像中的步态数据和目标重心坐标；

预测模块，用于基于所述步态数据和所述目标重心坐标，预测所述目标对象在预设时间段内的行为特征信息。
一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储器之间通过所述总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1-13任一所述的行为预测方法或如权利要求14-17任一所述的步态识别方法。
一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时使所述处理器执行如权利要求1-13任一所述的行为预测方法或如权利要求14-17任一所述的步态识别方法。