WO2021143103A1

WO2021143103A1 - 视频数据处理方法、装置、设备及计算机可读存储介质

Info

Publication number: WO2021143103A1
Application number: PCT/CN2020/105904
Authority: WO
Inventors: 姜沛; 曹锋铭
Original assignee: 平安国际智慧城市科技股份有限公司
Priority date: 2020-01-13
Filing date: 2020-07-30
Publication date: 2021-07-22
Also published as: CN111242030A

Abstract

本申请提供一种视频数据处理方法、装置、设备及计算机可读存储介质，该方法包括：获取视频数据，并通过预设的目标检测网络，从所述视频数据中提取多个人物图像，其中，所述视频数据包括目标人物的行走情况信息；通过预设的骨骼关键点检测网络，对每个所述人物图像进行检测，得到每个所述人物图像中的多个骨骼关键点；根据每个所述人物图像中的多个骨骼关键点，确定所述目标人物的行走信息，其中，所述行走信息包括行走状态、行走时长、行走距离和行走速度中的至少一种；根据所述行走信息，确定所述目标人物的行走能力指数。本申请涉及数据分析，在整个视频数据处理过程中不需要人为干预，极大的提高了人的行走能力评估的准确性和速度。

Description

视频数据处理方法、装置、设备及计算机可读存储介质

本申请要求于2020年1月13日提交中国专利局、申请号为CN202010032164.8，发明名称为“视频数据处理方法、装置、设备及计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及数据分析的技术领域，尤其涉及一种视频数据处理方法、装置、设备及计算机可读存储介质。

背景技术

在保险和医疗等领域，存在需要对人的行走能力进行评估的情况，例如，在购买保险时，需要对被投保人的行走能力进行评估，只有在被投保人的行走能力满足投保条件的情况下，才能投保，又例如，在进行健康复健时，通过对复健人物的行走能力进行评估，便于医生和复健人物知晓复健进度和效果。

然而，现有的对人的行走能力的评估，发明人意识到主要是由专业的评估人物按照一套复杂的流程进行，需要评估人物全程陪护，人力成本较高，评估的速度较慢，且评估的准确性也有待考量。因此，如何准确且快速的评估人的行走能力是目前亟待解决的问题。

发明内容

一种视频数据处理方法，所述视频数据处理方法包括以下步骤：

获取视频数据，并通过预设的目标检测网络，从所述视频数据中提取多个人物图像，其中，所述视频数据包括目标人物的行走情况信息；

通过预设的骨骼关键点检测网络，对每个所述人物图像进行检测，得到每个所述人物图像中的多个骨骼关键点；

根据每个所述人物图像中的多个骨骼关键点，确定所述目标人物的行走信息，其中，所述行走信息包括行走状态、行走时长、行走距离和行走速度中的至少一种；

根据所述行走信息，确定所述目标人物的行走能力指数。

一种视频数据处理装置，所述视频数据处理装置包括：

提取模块，用于获取视频数据，并通过预设的目标检测网络，从所述视频数据中提取多个人物图像，其中，所述视频数据包括目标人物的行走情况信息；

检测模块，用于通过预设的骨骼关键点检测网络，对每个所述人物图像进行检测，得到每个所述人物图像中的多个骨骼关键点；

第一确定模块，用于根据每个所述人物图像中的多个骨骼关键点，确定所述目标人物的行走信息，其中，所述行走信息包括行走状态、行走时长、行走距离和行走速度中的至少一种；

第二确定模块，用于根据所述行走信息，确定所述目标人物的行走能力指数。

一种计算机设备，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如下步骤：

根据所述行走信息，确定所述目标人物的行走能力指数。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如下步骤：

根据所述行走信息，确定所述目标人物的行走能力指数。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人物来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种视频数据处理方法的流程示意图；

图2为本申请实施例中矩形框的示意图；

图3为图1中的视频数据处理方法的子步骤流程示意图；

图4为实施本实施例提供的视频数据处理方法的一场景示意图；

图5为本申请实施例提供的另一种视频数据处理方法的流程示意图；

图6为本申请实施例提供的一种视频数据处理装置的示意性框图；

图7为图5中的视频数据处理装置的子模块的示意性框图；

图8为本申请实施例提供的另一种视频数据处理装置的示意性框图；

图9为本申请一实施例涉及的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人物在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。另外，虽然在装置示意图中进行了功能模块的划分，但是在某些情况下，可以以不同于装置示意图中的模块划分。

本申请实施例提供一种视频数据处理方法、装置、设备及计算机可读存储介质。其中，该视频数据处理方法可应用于电子设备或服务器中，该电子设备可以为手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等；该服务器可以为单台的服务器，也可以为由多台服务器组成的服务器集群。以下以该视频数据处理方法应用于服务器为例进行解释说明。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，图1为本申请的实施例提供的一种视频数据处理方法的流程示意图。

如图1所示，该视频数据处理方法包括步骤S101至步骤S104。

步骤S101、获取视频数据，并通过预设的目标检测网络，从所述视频数据中提取多个人物图像，其中，所述视频数据包括目标人物的行走情况信息。

当需要获取目标人物的视频数据时，用户可通过电子设备对目标人物的行走过程进行录制，从而得到包括目标人物的行走情况信息的视频数据。用户可通过服务器与电子设备直连，或者将电子设备录制得到的视频数据传输至服务器，以供服务器对该视频数据中的目标人物进行行走能力评估。其中，目标人物为待评估行走能力的人物，需要说明的是，该电子设备包括但不限于录像机、摄像机、数码相机等拥有录像功能的电子设备。

在一实施例中，用户通过电子设备对目标人物的行走过程进行录制，并将录制得到的视频数据存储至数据库，当服务器检测到用户触发的行走能力评估请求时，服务器根据行走能力评估请求中的视频标识符从数据库中提取该视频数据，视频标识符与视频数据唯一对应。或者，电子设备将录制得到的视频数据直接发送至服务器，服务器实时或定时地进行接收，该视频数据也可包含在行走能力评估请求中，服务器对接收到的视频数据进行实时的评估分析，并输出该评估分析的结果。需要说明的是，上述电子设备包括但不限于手机、平板电脑、笔记本电脑等，数据库可以为本地数据库或者云端数据库。

其中，在通过电子设备对目标人物的行走过程进行录制时，电子设备显示视频录制页面，该视频录制页面显示有提醒信息，该提醒信息用于提醒用户拍摄的目标人物均处于视频录制页面中。用户应当注意调整拍摄的角度及拍摄的距离，使得拍摄得到的视频数据中的目标人物保持完整。当用户基于该视频录制页面触发录制指令时，电子设备监测到该录制指令时，基于该录制指令对目标人物的行走过程进行录制，得到包括目标人物的行走情况信息的视频数据。

在服务器获取视频数据之后，通过预设的目标检测网络，从视频数据中提取多个人物图像。其中，该视频数据由若干帧图像组成，若干帧图像中包括目标人物的行走情况信息，该行走情况信息记录了目标人物的行走过程，该人物图像包括从若干帧图像中提取到的人物的图像。需要说明的是，预设的目标检测网络能自动地检测到视频数据的每帧图像中存在的人物，通过预设的目标检测网络可从存在人物的每帧图像之中提取至少一个人物图像。

其中，上述预设的目标检测网络为改进的目标检测网络，改进的目标检测网络通过对传统的目标检测网络进行迁移学习得到，该改进的目标检测网络进行迁移学习的模型样本数据集为标注有大数据量的人的数据集，可选的，从标注有大数据量的人的数据集的MSCOCO数据库中获取。

具体地，对目标检测网络进行迁移学习的过程为：在模型设计阶段，保留传统的目标检测网络的卷积层参数，将除卷积层以外的模型层对应的模型参数作为待训练的模型参数；通过获取到的模型样本数据集，对除卷积层以外的模型层对应的模型参数进行迭代训练，直到模型收敛，模型收敛即可得到改进的目标检测网络。由于改进的目标检测网络是基于标注人的数据集训练得到的，使得改进的目标检测网络仅包括检测人的能力，可以准确且快速的从图像中检测到人的位置，极大的提高了提取人物图像的效率。

在一实施例中，目标检测网络包括第一目标检测子网络和第二目标检测子网络，从视频数据中提取多个人物图像的具体方式为：将视频数据中的每帧图像分别输入至第一目标检测子网络和第二目标检测子网络，得到每帧图像的第一矩形框和第二矩形框；根据每帧图像的第一矩形框和第二矩形框，确定每帧图像的目标矩形框；根据每帧图像的目标矩形框，从每帧图像中提取出至少一个人物图像。其中，第一矩形框和第二矩形框用于框选视频数据的每帧图像中的人物，目标矩形框用于框选视频数据的每帧图像中的人物图像，若每帧图像中均存在人物，则每帧图像中均存在至少一个目标矩形框。

需要说明的是，第一目标检测子网络和第二目标检测子网络为两个改进的目标检测子网络，且均是通过对传统的目标检测网络进行迁移学习得到的，具体的迁移学习过程参照上述描述，此处不做赘述。通过第一目标检测子网络和第二目标检测子网络，使得从视频数据中提取的人物图像更加准确。

进一步地，确定每帧图像的目标矩形框的具体方式为：分别获取每帧图像的第一矩形框的位置信息和第二矩形框的位置信息；将每帧图像的第一矩形框的位置信息与对应的第二矩形框的位置信息进行比较，得到每帧图像的矩形框比较结果；根据每帧图像的矩形框比较结果、第一矩形框的位置信息和第二矩形框的位置信息，确定每帧图像的目标矩形框。

其中，第一矩形框的位置信息包括第一矩形框的四个角点的四个第一位置坐标，以及第二矩形框的位置信息包括第二矩形框的四个角点的四个第二位置坐标，每帧图像中的第一矩形框的四个角点与第二矩形框的四个角点一一对应，四个第一位置坐标与四个第二位置坐标一一对应。

具体地，获取第一矩形框的四个角点的四个第一位置坐标，以及获取第二矩形框的四个角点的四个第二位置坐标；在每帧图像中将每个第一位置坐标与对应的第二位置坐标进行比较，得到每帧图像的四个比较结果；根据每帧图像的四个比较结果分别确定各自对应的四个目标位置坐标，并通过四个目标位置坐标确定每帧图像中的目标矩形框。其中，该比较结果包括横坐标和纵坐标的比较结果，比较结果与目标位置坐标唯一对应，需要说明的是，确定一个目标位置坐标的方式可以为：在一个比较结果中分别确定较大的横坐标和较小的纵坐标，并将该较大的横坐标和较小的纵坐标作为对应的目标位置坐标的横坐标和纵坐标，使得选定的目标位置坐标确定的目标矩形框面积较大，以致该目标矩形框包含第一矩形框和第二矩形框。

示例性地，如图2所示，以视频数据中的每帧图像的左下角点为原点建立直角坐标系，且第一矩形框K1的四个角点的分别为A1、A2、A3和A4，第二矩形框K2的四个角点分别为B1、B2、B3和B4；将A1的位置坐标与B1的位置坐标进行比较、将A2的位置坐标与B2的位置坐标进行比较、将A3的位置坐标与B3的位置坐标进行比较以及将A4的位置坐标与B4的位置坐标进行比较，得到四个包括横坐标和纵坐标的比较结果；选择A1的横坐标以及B1的纵坐标作为第一个目标位置坐标，即图2中的C1，选择A4的纵坐标以及B4的横坐标作为第二个目标位置坐标即图2中的C2，选择A2的位置坐标为第三个目标位置坐标，选择B3的位置坐标为第四个目标位置坐标，通过C1、C2、A2和B3即可确定目标矩形框K3。

步骤S102、通过预设的骨骼关键点检测网络，对每个所述人物图像进行检测，得到每个所述人物图像中的多个骨骼关键点。

在通过改进的目标检测网络得到多个人物图像之后，服务器通过预设的骨骼关键点检测网络，对每个人物图像进行检测，得到每个人物图像中的多个骨骼关键点。其中，该骨骼关键点为人体骨骼关键点，用于表示人体骨骼结构，该骨骼关键点检测网络基于神经网络实现。

需要说明的是，骨骼关键点检测网络的实现方式为：从标注有大数据量的人的数据集的数据库中收集骨骼关键点数据作为模型样本数据集，其中，该数据库可选为MSCOCO数据库；基于神经网络设计骨骼关键点检测网络，其中，该神经网络可选为高分辨率网络(HRNet)；通过模型样本数据集对骨骼关键点检测网络进行迭代训练至收敛，即可得到骨骼关键点检测网络。

进一步地，该多个骨骼关键点为改进的多个骨骼关键点，即在MSCOCO数据库中的鼻子、眼睛、耳朵、肩膀、肘、手、髋、膝盖、脚踝等十七个骨骼关键点的基础上，增加了一个脖子的骨骼关键点，使检测到的人体骨骼结构更加准确。

在一实施例中，得到每个人物图像中的多个骨骼关键点时，需要对每个骨骼关键点进行跟踪，以保证后续的每个人物图像中的目标人物的骨骼关键点不会丢失。以对人物图像中的一个骨骼关键点进行跟踪为例，其跟踪方式具体为：对人体不同位置的每个骨骼关键点进行编号，其中，该编号包括每个人物图像的编号以及每个人物图像中的每个骨骼关键点的编号；选定一人物图像中的一骨骼关键点作为目标骨骼关键点，并获取该人物图像的下一帧人物图像中的每个骨骼关键点；基于预设的稀疏光流算法，根据目标骨骼关键点和下一帧人物图像中的每个骨骼关键点，计算目标骨骼关键点与下一帧人物图像中的每个骨骼关键点之间的关键点相似度；确定目标骨骼关键点与下一帧人物图像中的每个骨骼关键点之间的最大关键点相似度，并将该最大关键点相似度对应的下一帧人物图像中的骨骼关键点作为待跟踪的目标骨骼关键点；继续获取下一帧人物图像中的每个骨骼关键点，以跟踪该待跟踪的目标骨骼关键点，直至跟踪至最后一帧人物图像。

需要说明的是，选定一人物图像中的一骨骼关键点可选为第一个人物图像中的任意一个骨骼关键点，便于跟踪目标人物的全部行走过程。预设的稀疏光流算法可根据实际情况进行设置，本申请在此不做具体限定，选定最大关键点相似度对应的下一帧人物图像中的骨骼关键点作为待跟踪的目标骨骼关键点，可以确保选定的下一帧人物图像中的骨骼关键点无误，将其作为待跟踪的目标骨骼关键点可以继续对该目标骨骼关键点的下一帧人物图像中的每个骨骼关键点进行跟踪，保证跟踪该位置的骨骼关键点的连续性。

其中，关键点相似度的计算公式为：

其中，OKS _p表示在人物图像中的编号为i的骨骼关键点与下一帧人物图像中的一个骨骼关键点之间(以下称为两骨骼关键点之间)的关键点相似度，d _pi表示人物图像中编号为i的骨骼关键点的欧式距离，

代表目标人物在该人物图像中所占的面积，σ _i为两骨骼关键点之间的标准偏差，v _pi为骨骼关键点的属性，δ(v _pi＝1)为两骨骼关键点之间的克罗内克函数。骨骼关键点的属性包括不可见和可见。

步骤S103、根据每个所述人物图像中的多个骨骼关键点，确定所述目标人物的行走信息，其中，所述行走信息包括行走状态、行走时长、行走距离和行走速度中的至少一种。

得到每个人物图像中的多个骨骼关键点之后，服务器对目标人物在每个人物图像中的多个骨骼关键点进行分析，能够确定目标人物的行走信息。其中，该行走信息包括行走状态、行走时长、行走距离和行走速度中的至少一种。

在一实施例中，如图3所示，步骤S103包括：子步骤S1031至子步骤S1032。

子步骤S1031、根据每个所述人物图像中的多个骨骼关键点，确定所述目标人物的多个骨骼关键点。

得到每个人物图像中的多个骨骼关键点之后，从每个人物图像中的多个骨骼关键点中筛选出目标人物在每个人物图像中的骨骼关键点，并根据目标人物的多个骨骼关键点，确定目标人物的行走信息。

子步骤S1032、根据所述目标人物的多个骨骼关键点，确定所述目标人物的行走信息。

在得到目标人物的多个骨骼关键点后，基于目标人物的多个骨骼关键点，可以确定目标人物的行走信息。具体地，选定目标人物的任意一个骨骼关键点作为目标骨骼关键点，并获取目标骨骼关键点在每个人物图像中的位置信息；根据目标骨骼关键点在每个人物图像中的位置信息，确定目标人物的行走距离；计算行走距离达到预设的距离阈值所需的时长，将行走距离达到预设的距离阈值所需的时长作为所述目标人物的行走时长。其中，该位置信息包括目标骨骼关键点的坐标信息，目标骨骼关键点可选为人在行走过程中位置变化幅度小的骨骼关键点，例如脖子或肩膀位置的骨骼关键点。

需要说明的是，预设的距离阈值可根据实际情况进行设置，本申请在此不做具体限定，可选为45米，在一些场景下，视频数据处理场地的空间大小达不到预设的距离阈值，此时，可通过目标人物来回折返的路程来计算其行走距离。通过将行走距离达到预设的距离阈值所需的时长作为所述目标人物的行走时长，并利用目标人物的行走时长评估目标人物的行走能力，使得评估的结果更加准确，排除目标人物在行走过程的速度不稳定的影响。

可以理解的，确定目标人物的行走信息的具体方式也可以为：选定目标人物的多个骨骼关键点作为骨骼关键点集，并获取骨骼关键点集中的每个骨骼关键点在每个人物图像中的位置；根据每个骨骼关键点在每个人物图像中的位置，确定每个骨骼关键点对应的目标人物的行走距离；计算每个行走距离达到预设的距离阈值对应的目标行走时长，并求取目标行走时长的均值，作为目标人物的行走时长。通过选取多个骨骼关键点并求取每个骨骼关键点对应的目标人物的平均行走时长，可以使得确定的目标人物的行走时长更加准确，间接提高对评估目标人物的行走能力指数的准确性。

在一实施例中，根据每个所述人物图像中的多个骨骼关键点，确定所述目标人物的多个骨骼关键点和除所述目标人物之外的人物的多个骨骼关键点，根据目标人物的多个骨骼关键点和除目标人物之外的人物的多个骨骼关键点，确定目标人物的行走状态，其中，行走状态包括辅助行走状态和独立行走状态。通过判断目标人物的行走状态，确定目标人物在行走情况信息中是否存在其余人物的辅助，如果目标人物在行走情况信息中有其余人物的辅助，则相应的降低后续目标人物的行走能力指数，可以进一步提高视频数据处理的准确性。

进一步地，目标人物在行走过程中的行走状态的确定方式具体为：在每个人物图像中确定目标人物的骨骼关键点是否与除目标人物之外的人物的骨骼关键点交叠；如果目标人物的骨骼关键点与除目标人物之外的人物的骨骼关键点交叠，则确定目标人物在行走过程中的行走状态为辅助行走状态，如果目标人物的骨骼关键点与除目标人物之外的人物的骨骼关键点不交叠，则确定目标人物在行走过程中的行走状态为独立行走状态。

步骤S104、根据所述行走信息，确定所述目标人物的行走能力指数。

在得到目标人物的行走信息之后，根据目标人物的行走信息可以确定目标人物的行走能力指数。需要说明的是，上述行走能力指数可以通过数字或等级进行表示，以行走能力指数设置为数字的形式进行表示为例，可选地，行走能力指数的数值范围设置为0～100，可以理解的是，行走能力指数的数值越大，则表示目标人物的行走能力越好，行走能力指数的数值越小，则表示目标人物的行走能力越差。

具体地，基于目标人物的行走信息，通过包含有行走信息与行走能力指数之间的映射关系表，可以确定目标人物的行走能力指数。其中，行走信息与行走能力指数之间的映射关系表，可根据实际情况进行设置，本申请在此不做具体限定。

在一实施例中，基于行走信息中的目标人物的行走状态，确定目标人物的辅助行走状态时长和独立行走状态时长；获取目标人物的总行走时长，并分别计算辅助行走状态时长和独立行走状态时长占总行走时长的比例；根据总行走时长和辅助行走状态时长占总行走时长的比例，确定目标人物的行走能力指数。需要说明的是，该总行走时长为目标人物的行走距离达到预设的距离阈值所需的时长，该预设的距离阈值可选为45，辅助行走状态时长为总行走时长中辅助行走状态占据的时长，独立行走状态时长为总行走时长中独立行走状态占据的时长。相应的，总行走时长越长，目标人物的行走能力指数越低，辅助行走状态时长总行走时长的比例越大，目标人物的行走能力指数越低，通过目标人物的行走状态可以直接且快速的得到目标人物的行走能力指数。

具体地，获取总行走时长对应的初始行走能力指数以及辅助行走状态时长占总行走时长的比例对应的权重系数，并计算该初始行走能力指数与该权重系数的乘积，且将该初始行走能力指数与该权重系数的乘积作为目标人物的行走能力指数。需要说明的是，总行走时长对应的初始行走能力指数以及辅助行走状态时长占总行走时长的比例对应的权重系数可基于实际情况进行设置，本申请对此不作具体限定。例如，目标人物的辅助行走状态时长和独立行走状态时长分别为20s和40s，目标人物的总行走时长为60s，则辅助行走状态时长和独立行走状态时长占总行走时长的比例分别为33.3％和66.7％。当目标人物的总行走时长处于58s至63s时，目标人物的初始行走能力指数为80，当辅助行走状态时长占总行走时长的比例处于30％至35％时，上述权重系数为0.82，即目标人物的行走能力指数为初始行走能力指数80与权重系数0.82的乘积，故而目标人物的行走能力指数为65.6。

在一实施例中，根据行走信息中的目标人物达到预设的行走距离阈值对应的行走时长，确定目标人物的行走能力指数，即查询预存的行走时长与行走能力指数之间的映射关系表，将该行走时长对应的行走能力指数作为目标人物的行走能力指数。可以理解的是，也可以根据行走信息中的目标人物达到预设的行走距离阈值对应的行走速度，确定目标人物的行走能力指数，即查询预存的行走速度与行走能力指数之间的映射关系表，将该行走速度对应的行走能力指数作为目标人物的行走能力指数。

请参照图4，图4为实施本实施例提供的视频数据处理方法的一场景示意图。

如图4所示，用户可通过电子设备对目标人物的行走过程进行录制，从而得到包括目标人物的行走情况信息的视频数据，电子设备也可直接获取视频数据，用户再通过电子设备将视频数据发送至服务器，服务器对视频数据中的目标人物进行行走能力评估。

上述实施例提供的视频数据处理方法，通过目标检测网络可以准确地从视频数据中提取多个人物图像，并通过骨骼关键点检测网络，准确地得到每个人物图像中的多个骨骼关键点，然后根据每个人物图像中的多个骨骼关键确定目标人物的行走信息，并根据行走信息能够准确且快速的确定目标人物的行走能力指数，整个视频数据处理过程不需要人为干预，极大的提高了人的行走能力评估的准确性和速度。

请参照图5，图5为本申请实施例提供的另一种视频数据处理方法的流程示意图。

如图5所示，该视频数据处理方法包括步骤S201至S206。

步骤S201、获取视频数据，并通过预设的目标检测网络，从所述视频数据中提取多个人物图像，其中，所述视频数据包括目标人物的行走情况信息。

在一实施例中，目标检测网络包括第一目标检测子网络、第二目标检测子网络和边框校验层，从视频数据中提取多个人物图像的具体方式为：将视频数据中的每帧图像分别输入至第一目标检测子网络和第二目标检测子网络，得到每帧图像的第一矩形框和第二矩形框；基于边框校验层，通过第二矩形框对第一矩形框进行校验，并判断第一矩形框是否通过校验；若第一矩形框通过校验，则根据第一矩形框和第二矩形框之间的位置关系，确定目标边框；根据该目标边框，从每帧图像中提取人物图像。需要说明的是，上述校验结果包括通过和不通过，上述边框校验层用于对第一矩形框进行校验。

其中，通过第二矩形框对第一矩形框进行校验方式具体为：获取第一矩形框的四个角点的位置坐标，记为四个第一角点的第一位置坐标，以及获取第二矩形框的四个角点的第二位置坐标，记为四个第二角点的第二位置坐标，第一角点与第二角点一一对应，第一位置坐标与第二位置坐标一一对应；计算每个第一位置坐标与对应的第二位置坐标的坐标差值，得到四个坐标差值，并判断这四个坐标差值是否小于或等于预设阈值，如果这四个坐标差值小于或等于预设阈值，则确定第一矩形框通过校验，如果这四个坐标差值中至少一个坐标差值大于预设阈值，则确定第一矩形框未通过校验。需要说明的是，上述预设阈值可基于实际情况进行设置，本方案对此不作具体限定。

进一步地，根据第一矩形框和第二矩形框之间的位置关系，确定目标矩形框的方式具体为：若第一矩形框通过校验，则确定第一矩形框和第二矩形框之间的位置关系，其中，该位置关系包括相交关系、重合关系、包含关系和不相关关系；如果第一矩形框和第二矩形框之间的位置关系为相交关系，则将第一矩形框与第二矩形框组合而成的边框作为目标边框；如果第一矩形框和第二矩形框之间的位置关系为包含关系，则将包含一方的第一矩形框或第二矩形框作为目标边框；如果第一矩形框和第二矩形框之间的位置关系为重合关系，则将第一矩形框或第二矩形框作为目标边框；如果第一矩形框和第二矩形框之间的位置不存在交叠，即第一矩形框和第二矩形框之间的位置关系为不相关关系，则比较第一矩形框和第二矩形框的面积，并将面积较大的第一矩形框或第二矩形框作为目标边框。需要说明的是，输出面积较大的第一矩形框或第二矩形框中包括待评估目标人物的图像，通过确定第一矩形框和第二矩形框之间的位置关系确定目标边框，避免其他背景的干扰，使得提取出的人物图像更加准确。

在一实施例中，若第一矩形框未通过校验，则重新将对应的人物图像经过第一目标检测子网络和第二目标检测子网络，并基于边框校验层再次进行校验，直到该第一矩形框通过校验，保证能够从视频数据中的每帧图像中提取出人物图像。

步骤S202、通过预设的骨骼关键点检测网络，对每个所述人物图像进行检测，得到每个所述人物图像中的多个骨骼关键点。

步骤S203、根据每个所述人物图像中的多个骨骼关键点，确定所述目标人物的行走信息。

得到每个人物图像中的多个骨骼关键点之后，从每个人物图像中的多个骨骼关键点中筛选出目标人物在每个人物图像中的骨骼关键点，并根据目标人物的多个骨骼关键点，确定目标人物的行走信息。其中，该目标人物的行走信息包括目标人物的行走状态、行走时长、行走速度和行走距离中的至少一种。

在一实施例中，目标人物的行走信息包括目标人物的站立状态，该站立状态包括目标人物的直立状态和非直立状态，通过目标人物的骨骼关键点计算出目标人物的躯干宽高比，当躯干宽高比小于预设躯干宽高比时，认为目标人物处于直立状态，当躯干宽高比大于或等于预设躯干宽高比时，认为目标人物处于非直立状态。需要说明的是，预设躯干宽高比可根据实际情况进行设置，本申请在此不做具体限定，可选为0.4。评估过程同时会记录每帧图像的骨骼关键点数据，整个评估过程的骨骼关键点运动变化情况可形成回放视频，目标人物的站立状态为直立状态或非直立状态等信息可在评估后的回放视频中进行显示。通过确定目标人物的站立状态，能够进一步了解目标人物的行走情况。

在一实施例中，目标人物的行走信息包括目标人物的人体姿态数据，并根据该人体姿态数据，确定被评估者的身体弯曲程度C、步幅W和行走速度V；根据被评估者的身体弯曲程度C、步幅W和行走速度V，确定被评估者的跌倒指数Fe。其中，身体弯曲程度C，由脖子和大腿关节构成的直线和腿部关节的直线的夹角，在评估过程中是一个动态的值，取检测到的最大夹角作为身体弯曲程度C，步幅W表示行走时被评估者的左右脚之间的最大距离。

跌倒指数Fe的计算公式为：

其中，

为矫正系数，一般取100左右，当身体弯曲程度V和步幅W的值越大时跌倒指数Fe越小，当身体弯曲程度C越大时跌倒指数Fe越大，且该公式可以将影响跌倒的各种数据经过计算后映射到0～1的区间。需要说明的是，跌倒指数表示目标人物容易跌倒的程度，在后续确定目标人物的行走能力指数时，可将跌倒指数作为目标人物的行走能力指数的一个影响因子。可以理解的是，跌倒指数越高，目标人物越容易跌倒，行走能力指数越低，跌倒指数越低，目标人物越不容易跌倒，行走能力指数越高。

步骤S204、根据所述行走信息中的行走状态，确定所述目标人物的第一行走能力指数。

根据目标人物的行走信息中的行走状态，确定与所述行走状态对应的所述目标人物的第一行走能力指数。即确定每个人物图像中的目标人物的行走状态为辅助行走状态或独立行走状态，并根据目标人物的行走信息中的辅助行走状态和/或独立行走状态，确定对应的目标人物的第一行走能力指数，其中，第一行走能力指数为初步确定的行走能力指数。

在一实施例中，根据目标人物的多个骨骼关键点和除目标人物之外的人物的多个骨骼关键点，确定目标人物在行走信息中是否存在辅助行走状态；如果目标人物在行走信息中存在辅助行走状态，则根据目标人物在每个人物图像中的骨骼关键点和除目标人物之外的人物在每个人物图像中的骨骼关键点，确定目标人物在行走信息中的辅助行走时长；根据目标人物在行走信息中的辅助行走时长，确定目标人物的第一行走能力指数。

具体地，获取该行走信息的视频数据的总行走时长，并计算该辅助行走时长占该总行走时长的百分比，且将1与该百分比的差值乘以预设的行走指数即可得到目标人物的第一行走能力指数。其中，预设的行走指数可根据实际情况进行设置，本申请在此不做具体限定，可选为100。

示例性的，目标人物在行走信息中的辅助行走时长为20秒，该行走过程中视频数据的总行走时长为30秒，该辅助行走时长占该总行走时长的百分比为60％，百分百与该百分比的差值绝对值为40％，预设的行走指数为100，故第一行走能力指数为该差值绝对值乘以预设的行走指数等于40。

在一实施例中，如果目标人物在行走信息中不存在辅助行走状态，即行走情况信息均处于独立行走状态，即不存在辅助行走能力指数，则目标人物的第一行走能力指数为预设的行走指数。该行走指数可根据实际情况进行设置，本申请在此不做具体限定，可选为100。

在一实施例中，如果目标人物在行走状态完全为辅助行走状态，可以理解的，则目标人物的第一行走能力指数为零。

步骤S205、根据所述行走信息中的行走速度，确定所述目标人物的第二行走能力指数。

确定目标人物的第一行走能力指数之后，根据目标人物在每个人物图像中的骨骼关键点，确定目标人物的平均行走速度，并根据目标人物的平均行走速度，确定目标人物的第二行走能力指数。即获取预存的行走速度与行走能力指数之间的映射关系表，并查询该映射关系表，将该平均行走速度对应的行走能力指数与作为目标人物的第二行走能力指数。需要说明的是，上述行走速度与行走能力指数之间的映射关系表可基于实际情况进行设置，本申请对此不作具体限定。求取目标人物的平均行走速度能够减小不同大小的行走速度带来的不稳定性，使得确定的目标人物的第二行走能力指数更加准确。

示例性的，目标人物的平均行走速度为0.5m/s，按照预设的映射关系表，该平均行走速度对应的第二行走能力指数75，则本次行走能力评估中该目标人物的第二行走能力指数为75。

其中，目标人物的平均行走速度的确定方式具体为：选定任意一个骨骼关键点作为目标骨骼关键点，并任意选择两个不同帧的人物图像，且从选择的两个不同帧的人物图像中分别获取该目标骨骼关键点的位置，经过加权平均处理得到两个位置坐标；计算选择的两个人物图像的时间差值，并根据获取到的两个位置坐标，确定目标人物在该时间差值内的行走距离；根据该行走距离和该时间差值，计算目标人物的平均行走速度。通过确定目标人物的平均行走速度，使得行走能力评估的结果更加准确。

步骤S206、根据所述第一行走能力指数和所述第二行走能力指数，确定所述目标人物的行走能力指数。

根据第一行走能力指数和第二行走能力指数，可以综合确定目标人物的行走能力指数。具体地，基于预设的第一权重系数和第二权重系数，对第一行走能力指数和第二行走能力指数求取加权平均值，得到目标人物的行走能力指数。求取上述加权平均值的具体方法为：将第一权重系数与第一行走能力指数的乘积加上第二权重系数与第二行走能力指数，即可得到目标人物的行走能力指数。需要说明的是，该预设的第一权重系数和第二权重系数可根据具体情况进行设置，本申请在此不做具体限定，可选的，第一权重系数和第二权重系数分别为0.4和0.6。

示例性地，第一权重系数和第二权重系数分别为0.4和0.6，第一行走能力指数为40，第二行走能力指数为75，通过对第一行走能力指数和第二行走能力指数进行加权平均，即将第一权重系数0.4与第一行走能力指数40的乘积加上第二权重系数0.6与第二行走能力指数75，可以得到目标人物的行走能力指数为61。

上述实施例提供的视频数据处理方法，通过目标检测网络和骨骼关键点检测网络，准确地得到每个人物图像中的多个骨骼关键点，根据每个人物图像中的多个骨骼关键点确定目标人物的行走信息，并根据行走信息中的行走状态确定第一行走能力指数，可提高后续得到行走能力指数的准确性，基于预设的映射关系表和行走信息中的行走速度，能够确定对应的第二行走能力指数，根据第一行走能力指数和第二行走能力指数，能够准确地确定目标人物的行走能力指数，极大的提高了人的行走能力评估的准确性。

请参照图6，图6为本申请实施例提供的一种视频数据处理装置的示意性框图。

如图6所示，该视频数据处理装置300，包括：提取模块301、检测模块302、第一确定模块303和第二确定模块304。

提取模块301，用于获取视频数据，并通过预设的目标检测网络，从所述视频数据中提取多个人物图像，其中，所述视频数据包括目标人物的行走情况信息；

检测模块302，用于通过预设的骨骼关键点检测网络，对每个所述人物图像进行检测，得到每个所述人物图像中的多个骨骼关键点；

第一确定模块303，用于根据每个所述人物图像中的多个骨骼关键点，确定所述目标人物的行走信息，其中，所述行走信息包括行走状态、行走时长、行走距离和行走速度中的至少一种；

第二确定模块304，用于根据所述行走信息，确定所述目标人物的行走能力指数。

在一个实施例中，所述提取模块301还用于：

将所述视频数据中的每帧图像分别输入至所述第一目标检测子网络和所述第二目标检测子网络，得到每帧图像的第一矩形框和第二矩形框；

根据每帧图像的第一矩形框和第二矩形框，确定每帧图像的目标矩形框；

根据每帧图像的目标矩形框，从每帧图像中提取出至少一个人物图像。

在一个实施例中，所述提取模块301还用于：

分别获取每帧图像的所述第一矩形框的位置信息和所述第二矩形框的位置信息；

将每帧图像的所述第一矩形框的位置信息与对应的所述第二矩形框的位置信息进行比较，得到每帧图像的矩形框比较结果；

根据每帧图像的矩形框比较结果、第一矩形框的位置信息和第二矩形框的位置信息，确定每帧图像的目标矩形框。

在一个实施例中，所述第一确定模块303还用于：

根据每个所述人物图像中的多个骨骼关键点，确定所述目标人物的多个骨骼关键点和除所述目标人物之外的人物的多个骨骼关键点；

根据所述目标人物的多个骨骼关键点和除所述目标人物之外的人物的多个骨骼关键点，确定所述目标人物的行走状态。

在一个实施例中，如图7所示，所述第一确定模块303包括：

第一确定子模块3031，用于根据每个所述人物图像中的多个骨骼关键点，确定所述目标人物的多个骨骼关键点；

第二确定子模块3032，用于根据所述目标人物的多个骨骼关键点，确定所述目标人物的行走信息。

在一个实施例中，所述第二确定子模块3032还用于：

选定所述目标人物的任意一个骨骼关键点作为目标骨骼关键点，并获取所述目标骨骼关键点在每个所述人物图像中的位置信息；

根据所述目标骨骼关键点在每个所述人物图像中的位置信息，确定所述目标人物的行走距离；

计算所述行走距离达到预设的距离阈值所需的时长，将所述行走距离达到预设的距离阈值所需的时长作为所述目标人物的行走时长。

请参照图8，图8为本申请实施例提供的另一种视频数据处理装置的示意性框图。

如图8所示，该视频数据处理装置400，包括：

提取模块401，用于获取视频数据，并通过预设的目标检测网络，从所述视频数据中提取多个人物图像，其中，所述视频数据包括目标人物的行走情况信息。

检测模块402，用于通过预设的骨骼关键点检测网络，对每个所述人物图像进行检测，得到每个所述人物图像中的多个骨骼关键点。

第一确定模块403，用于根据每个所述人物图像中的多个骨骼关键点，确定所述目标人物的行走信息。

第二确定模块404，用于根据所述行走信息中的行走状态，确定所述目标人物的第一行走能力指数。

第三确定模块405，用于根据所述行走信息中的行走速度，确定所述目标人物的第二行走能力指数。

第四确定模块406，用于根据所述第一行走能力指数和所述第二行走能力指数，确定所述目标人物的行走能力指数。

需要说明的是，所属领域的技术人物可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块及单元的具体工作过程，可以参考前述视频数据处理方法实施例中的对应过程，在此不再赘述。

上述实施例提供的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图9所示的计算机设备上运行。

请参阅图9，图9为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以为服务器或电子设备。

如图9所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种视频数据处理方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种视频数据处理方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人物可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

根据所述行走信息，确定所述目标人物的行走能力指数。

在一个实施例中，所述处理器在实现所述根据每个所述人物图像中的多个骨骼关键点，确定所述目标人物的行走信息时，用于实现：

根据每个所述人物图像中的多个骨骼关键点，确定所述目标人物的多个骨骼关键点；

根据所述目标人物的多个骨骼关键点，确定所述目标人物的行走信息。

根据所述目标人物的多个骨骼关键点和所述除所述目标人物之外的人物的多个骨骼关键点，确定所述目标人物的行走状态。

在一个实施例中，所述处理器在实现所述根据所述目标人物的多个骨骼关键点，确定所述目标人物的行走信息时，用于实现：

在一个实施例中，所述处理器在实现所述根据所述行走信息和预设的映射关系表，确定所述目标人物的行走能力指数时，用于实现：

根据所述行走信息中的行走状态，确定所述目标人物的第一行走能力指数；

根据所述行走信息中的行走速度，确定所述目标人物的第二行走能力指数；

根据所述第一行走能力指数和所述第二行走能力指数，确定所述目标人物的行走能力指数。

在一个实施例中，所述处理器在实现所述目标检测网络包括第一目标检测子网络和第二目标检测子网络；所述通过预设的目标检测网络，从所述视频数据中提取多个人物图像时，用于实现：

根据每帧图像的第一矩形框和第二矩形框，确定每帧图像的目标矩形框；根据每帧图像的目标矩形框，从每帧图像中提取出至少一个人物图像。

在一个实施例中，所述处理器在实现所述根据每帧图像的第一矩形框和第二矩形框，确定每帧图像的目标矩形框时，用于实现：

需要说明的是，所属领域的技术人物可以清楚地了解到，为了描述的方便和简洁，上述描述计算机设备的具体工作过程，可以参考前述文本处理方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序中包括程序指令，所述程序指令被执行时所实现的方法可参照本申请视频数据处理方法的各个实施例。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，所述计算机可读存储介质可以是非易失性，也可以是易失性，例如所述计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

在一个实施例中，为进一步保证上述视频数据的私密和安全性，上述视频数据还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人物在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种视频数据处理方法，其中，包括：

获取视频数据，并通过预设的目标检测网络，从所述视频数据中提取多个人物图像，其中，所述视频数据包括目标人物的行走情况信息；

通过预设的骨骼关键点检测网络，对每个所述人物图像进行检测，得到每个所述人物图像中的多个骨骼关键点；

根据每个所述人物图像中的多个骨骼关键点，确定所述目标人物的行走信息，其中，所述行走信息包括行走状态、行走时长、行走距离和行走速度中的至少一种；

根据所述行走信息，确定所述目标人物的行走能力指数。
如权利要求1所述的视频数据处理方法，其中，所述根据每个所述人物图像中的多个骨骼关键点，确定所述目标人物的行走信息，包括：

根据每个所述人物图像中的多个骨骼关键点，确定所述目标人物的多个骨骼关键点；

根据所述目标人物的多个骨骼关键点，确定所述目标人物的行走信息。
如权利要求1所述的视频数据处理方法，其中，所述根据每个所述人物图像中的多个骨骼关键点，确定所述目标人物的行走信息，包括：

根据每个所述人物图像中的多个骨骼关键点，确定所述目标人物的多个骨骼关键点和除所述目标人物之外的人物的多个骨骼关键点；

根据所述目标人物的多个骨骼关键点和除所述目标人物之外的人物的多个骨骼关键点，确定所述目标人物的行走状态。
如权利要求2所述的视频数据处理方法，其中，所述根据所述目标人物的多个骨骼关键点，确定所述目标人物的行走信息，包括：

选定所述目标人物的任意一个骨骼关键点作为目标骨骼关键点，并获取所述目标骨骼关键点在每个所述人物图像中的位置信息；

根据所述目标骨骼关键点在每个所述人物图像中的位置信息，确定所述目标人物的行走距离；

计算所述行走距离达到预设的距离阈值所需的时长，将所述行走距离达到预设的距离阈值所需的时长作为所述目标人物的行走时长。
如权利要求1所述的视频数据处理方法，其中，所述根据所述行走信息，确定所述目标人物的行走能力指数，包括：

根据所述行走信息中的行走状态，确定所述目标人物的第一行走能力指数；

根据所述行走信息中的行走速度，确定所述目标人物的第二行走能力指数；

根据所述第一行走能力指数和所述第二行走能力指数，确定所述目标人物的行走能力指数。
如权利要求1-5中任一项所述的视频数据处理方法，其中，所述目标检测网络包括第一目标检测子网络和第二目标检测子网络；所述通过预设的目标检测网络，从所述视频数据中提取多个人物图像，包括：

将所述视频数据中的每帧图像分别输入至所述第一目标检测子网络和所述第二目标检测子网络，得到每帧图像的第一矩形框和第二矩形框；

根据每帧图像的第一矩形框和第二矩形框，确定每帧图像的目标矩形框；

根据每帧图像的目标矩形框，从每帧图像中提取出至少一个人物图像。
如权利要求6所述的视频数据处理方法，其中，所述根据每帧图像的第一矩形框和第二矩形框，确定每帧图像的目标矩形框，包括：

分别获取每帧图像的所述第一矩形框的位置信息和所述第二矩形框的位置信息；

将每帧图像的所述第一矩形框的位置信息与对应的所述第二矩形框的位置信息进行比较，得到每帧图像的矩形框比较结果；

根据每帧图像的矩形框比较结果、第一矩形框的位置信息和第二矩形框的位置信息，确定每帧图像的目标矩形框。
一种视频数据处理装置，其中，所述视频数据处理装置包括：

提取模块，用于获取视频数据，并通过预设的目标检测网络，从所述视频数据中提取多个人物图像，其中，所述视频数据包括目标人物的行走情况信息；

检测模块，用于通过预设的骨骼关键点检测网络，对每个所述人物图像进行检测，得到每个所述人物图像中的多个骨骼关键点；

第一确定模块，用于根据每个所述人物图像中的多个骨骼关键点，确定所述目标人物的行走信息，其中，所述行走信息包括行走状态、行走时长、行走距离和行走速度中的至少一种；

第二确定模块，用于根据所述行走信息，确定所述目标人物的行走能力指数。
一种计算机设备，其中，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如下的步骤：

获取视频数据，并通过预设的目标检测网络，从所述视频数据中提取多个人物图像，其中，所述视频数据包括目标人物的行走情况信息；

通过预设的骨骼关键点检测网络，对每个所述人物图像进行检测，得到每个所述人物图像中的多个骨骼关键点；

根据每个所述人物图像中的多个骨骼关键点，确定所述目标人物的行走信息，其中，所述行走信息包括行走状态、行走时长、行走距离和行走速度中的至少一种；

根据所述行走信息，确定所述目标人物的行走能力指数。
如权利要求9所述的计算机设备，其中，所述根据每个所述人物图像中的多个骨骼关键点，确定所述目标人物的行走信息，包括：

根据每个所述人物图像中的多个骨骼关键点，确定所述目标人物的多个骨骼关键点；

根据所述目标人物的多个骨骼关键点，确定所述目标人物的行走信息。
如权利要求9所述的计算机设备，其中，所述根据每个所述人物图像中的多个骨骼关键点，确定所述目标人物的行走信息，包括：

根据每个所述人物图像中的多个骨骼关键点，确定所述目标人物的多个骨骼关键点和除所述目标人物之外的人物的多个骨骼关键点；

根据所述目标人物的多个骨骼关键点和除所述目标人物之外的人物的多个骨骼关键点，确定所述目标人物的行走状态。
如权利要求10所述的计算机设备，其中，所述根据所述目标人物的多个骨骼关键点，确定所述目标人物的行走信息，包括：

选定所述目标人物的任意一个骨骼关键点作为目标骨骼关键点，并获取所述目标骨骼关键点在每个所述人物图像中的位置信息；

根据所述目标骨骼关键点在每个所述人物图像中的位置信息，确定所述目标人物的行走距离；

计算所述行走距离达到预设的距离阈值所需的时长，将所述行走距离达到预设的距离阈值所需的时长作为所述目标人物的行走时长。
如权利要求9所述的计算机设备，其中，所述根据所述行走信息，确定所述目标人物的行走能力指数，包括：

根据所述行走信息中的行走状态，确定所述目标人物的第一行走能力指数；

根据所述行走信息中的行走速度，确定所述目标人物的第二行走能力指数；

根据所述第一行走能力指数和所述第二行走能力指数，确定所述目标人物的行走能力指数。
如权利要求9-13中任一项所述的计算机设备，其中，所述目标检测网络包括第一目标检测子网络和第二目标检测子网络；所述通过预设的目标检测网络，从所述视频数据中提取多个人物图像，包括：

将所述视频数据中的每帧图像分别输入至所述第一目标检测子网络和所述第二目标检测子网络，得到每帧图像的第一矩形框和第二矩形框；

根据每帧图像的第一矩形框和第二矩形框，确定每帧图像的目标矩形框；

根据每帧图像的目标矩形框，从每帧图像中提取出至少一个人物图像。
如权利要求14所述的计算机设备，其中，所述根据每帧图像的第一矩形框和第二矩形框，确定每帧图像的目标矩形框，包括：

分别获取每帧图像的所述第一矩形框的位置信息和所述第二矩形框的位置信息；

将每帧图像的所述第一矩形框的位置信息与对应的所述第二矩形框的位置信息进行比较，得到每帧图像的矩形框比较结果；

根据每帧图像的矩形框比较结果、第一矩形框的位置信息和第二矩形框的位置信息，确定每帧图像的目标矩形框。
一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如下步骤：

获取视频数据，并通过预设的目标检测网络，从所述视频数据中提取多个人物图像，其中，所述视频数据包括目标人物的行走情况信息；

通过预设的骨骼关键点检测网络，对每个所述人物图像进行检测，得到每个所述人物图像中的多个骨骼关键点；

根据每个所述人物图像中的多个骨骼关键点，确定所述目标人物的行走信息，其中，所述行走信息包括行走状态、行走时长、行走距离和行走速度中的至少一种；

根据所述行走信息，确定所述目标人物的行走能力指数。
如权利要求16所述的计算机可读存储介质，其中，所述根据每个所述人物图像中的多个骨骼关键点，确定所述目标人物的行走信息，包括：

根据每个所述人物图像中的多个骨骼关键点，确定所述目标人物的多个骨骼关键点；

根据所述目标人物的多个骨骼关键点，确定所述目标人物的行走信息。
如权利要求16所述的计算机可读存储介质，其中，所述根据每个所述人物图像中的多个骨骼关键点，确定所述目标人物的行走信息，包括：

根据每个所述人物图像中的多个骨骼关键点，确定所述目标人物的多个骨骼关键点和除所述目标人物之外的人物的多个骨骼关键点；

根据所述目标人物的多个骨骼关键点和除所述目标人物之外的人物的多个骨骼关键点，确定所述目标人物的行走状态。
如权利要求17所述的计算机可读存储介质，其中，所述根据所述目标人物的多个骨骼关键点，确定所述目标人物的行走信息，包括：

选定所述目标人物的任意一个骨骼关键点作为目标骨骼关键点，并获取所述目标骨骼关键点在每个所述人物图像中的位置信息；

根据所述目标骨骼关键点在每个所述人物图像中的位置信息，确定所述目标人物的行走距离；

计算所述行走距离达到预设的距离阈值所需的时长，将所述行走距离达到预设的距离阈值所需的时长作为所述目标人物的行走时长。
如权利要求16所述的计算机可读存储介质，其中，所述根据所述行走信息，确定所述目标人物的行走能力指数，包括：

根据所述行走信息中的行走状态，确定所述目标人物的第一行走能力指数；

根据所述行走信息中的行走速度，确定所述目标人物的第二行走能力指数；

根据所述第一行走能力指数和所述第二行走能力指数，确定所述目标人物的行走能力指数。