WO2023082882A1

WO2023082882A1 - 一种基于姿态估计的行人摔倒动作识别方法及设备

Info

Publication number: WO2023082882A1
Application number: PCT/CN2022/121935
Authority: WO
Inventors: 张富凯; 贺天成; 张海燕
Original assignee: 河南理工大学
Priority date: 2021-11-15
Filing date: 2022-09-28
Publication date: 2023-05-19
Also published as: CN113963445A; CN113963445B

Abstract

本申请提供一种基于姿态估计的行人摔倒动作识别方法及设备，本申请采用多尺度的邻接矩阵实现信息的聚合，并在相同结构的上下时空联合模块间引入残差连接，分别提取姿态在双流（关键点流、骨骼边流）上的时空联合特征，最终合并双流结果做出摔倒动作判断，减少了背景对识别效果的影响从而提高动作识别准确率，并且减少了计算量。

Description

一种基于姿态估计的行人摔倒动作识别方法及设备

本申请要求于2021年11月15日提交中国专利局、申请号为202111345550.3、发明名称为“一种基于姿态估计的行人摔倒动作识别方法及设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及计算机领域，尤其涉及一种基于姿态估计的行人摔倒动作识别方法及设备。

背景技术

现有技术中，目前行为识别领域常用的数据模态主要分为原始RGB视频和一系列的人体姿态关键点。原始RGB视频中不仅包含人体的行为运动信息，而且也拥有许多对识别精度产生影响的背景信息，例如光照、杂乱的周边环境。然而当今智能硬件水平飞速提升，获取人体关键点的姿态估计算法在实时性方面也越来越优秀，可以借助于高鲁棒性的行人检测网络提取出视频中每个人的姿态信息，最后把姿态输出结果封装成所需数据形式。

摔倒动作识别方法中需要把从视频中提取的人体姿态坐标组成图数据，利用图卷积网络进行特征学习。早期有学者提出基于骨架的时空图卷积网络ST-GCN做特征提取，在一帧图像上(空间维度)对人体的关键点自然连接图做图卷积，在时间维度上做时间卷积或用LSTM网络进行特征融合，它很好地利用了人体结构的自然连接和动作事件本身各相关关节的联动关系，考虑了空间和时间上的相邻关节，但它只考虑了局部关节连接性，未考虑近邻关键点和远方关键点的同等影响力，没有把全局中此关键点的远方关键点和前后多帧中的相关关键点考虑进来，时间和空间交错进行的方式对于捕获复杂的时空联合关系鲁棒性不够。2020年有学者提出了一种G3D时空图卷积算子，把时空信息联系在一起做三维卷积，并考虑了远距离邻居的重要性，能稳定准确提取到动作本身在立体空间的高级语义特性，对动作分类精度有很大提升。但是，复杂背景和动作特征提取不充分对动作识别准确率的影响较大。

因此，解决RGB视频中复杂背景和动作特征提取不充分对摔倒动作识别准确率产生的影响仍是本领域需要研究的方向。

发明内容

本申请的一个目的是提供一种基于姿态估计的行人摔倒动作识别方法及设备，以解决现有技术中如何在摔倒识别过程中减少背景对识别效果的影响提高准确率，同时减少计算量的问题。

根据本申请的一个方面，提供了一种基于姿态估计的行人摔倒动作识别方法，包括：

获取原始视频流中多帧图像，对每一帧所述图像进行行人检测和跟踪，姿态估计得到人体跟踪编号和关键点信息，并采用多尺度的邻接矩阵将每个关键点前后多帧图像的所述关键点信息进行聚合，得到姿态图数据；

将所述姿态图数据输入图卷积神经网络中，在所述图卷积神经网络中的多个时空合并图卷积模块之间引入残差连接，并依次经过多个所述时空合并图卷积模块进行特征提取得到姿态时空联合特征；

结合摔倒动作变化特性，对所述姿态时空联合特征进行动作识别得到动作识别分类结果。

进一步地，上述基于姿态估计的行人摔倒动作识别方法中，所述图卷积神经网络中包括第一时空合并图卷积模块、第二时空合并图卷积模块和第三时空合并图卷积模块；

每个所述时空合并图卷积模块内包括多窗口多尺度的3D图卷积层和序列化组件层，所述序列化组件包括多尺度图卷积和连续两个多尺度时间卷积。

进一步地，上述基于姿态估计的行人摔倒动作识别方法中，将所述姿态图数据输入图卷积神经网络中，在所述图卷积神经网络中的多个时空合并图卷积模块之间引入残差连接，并依次经过多个所述时空合并图卷积模块进行特征提取得到姿态时空联合特征，包括：

将所述姿态图数据输入所述图卷积神经网络中，对所述姿态图数据进行归一化处理调整所述姿态图数据的数组形状；

将调整后的姿态图数据输入所述第一时空合并图卷积模块进行特征提取，得到第一姿态时空特征；

将所述第一姿态时空特征输入所述第二时空合并图卷积模块进行特征提取，得到第二姿态时空特征；

所述第一姿态时空特征残差连接所述第二姿态时空特征后，输入所述第三时空合并图卷积模块进行特征提取，得到所述姿态时空联合特征。

进一步地，上述基于姿态估计的行人摔倒动作识别方法中，所述将调整后的姿态图数据输入所述第一时空合并图卷积模块进行特征提取，得到第一姿态时空特征，包括：

分别将所述调整后的姿态图数据输入所述第一时空合并图卷积模块中的所述多窗口多尺度3D图卷积层和所述序列化组件层中；

所述调整后的姿态图数据依次通过所述序列化组件层中的所述多尺度图卷积和连续两个所述多尺度时间卷积进行特征提取；

所述调整后的姿态图数据通过所述多窗口多尺度3D图卷积层进行特征提取；

将通过所述多窗口多尺度3D图卷积层和所述序列化组件层后输出的特征相加后，输入激活函数，再进行一次多尺度时间卷积特征提取，得到第一姿态时空特征；

在所述第二时空合并图卷积模块和第三时空合并图卷积模块中，以所述第一时空合并图卷积模块进行特征提取同样的方法，分别得到所述第二姿态时空特征和所述姿态时空联合特征。

进一步地，上述基于姿态估计的行人摔倒动作识别方法中，所述姿态图数据包括人体关键点集和骨骼边集，所述姿态图数据的k-邻接矩阵表示如下：

其中，k代表关键点的不同邻居阶数，(i，j)是第i和j号关键点，d(v _i,v _j) 代表关键点i和j之间的距离。

进一步地，上述基于姿态估计的行人摔倒动作识别方法中，所述获取原始视频流中多帧图像，对每一帧图像进行行人检测和跟踪，姿态估计得到人体跟踪编号和关键点信息，包括：

获取所述原始视频流中多帧所述图像，确定待跟踪目标；

基于DeepSort的行人跟踪算法通过计算前后两帧所述图像间所述待跟踪目标的行人边界框特征信息的相似度进行匹配，并为每一个所述待跟踪目标分配一个ID，得到跟踪结果；

基于所述跟踪结果，利用区域多人姿态估计算法对每个所述待跟踪目标提取关键点坐标，输出关键点信息和人体跟踪编号。

进一步地，上述基于姿态估计的行人摔倒动作识别方法中，所述结合摔倒动作变化特性，对所述姿态时空联合特征进行动作识别得到动作识别分类结果，包括：

对所述姿态时空联合特征做全局平均池化处理，将得到的池化结果输入全连接线性层；

结合摔倒动作变化特性，通过分类器输出所述姿态时空联合特征对应的得分最高的类别，得到分类结果。

根据本申请的另一方面，还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理执行时，使所述处理器实现如上述摔倒动作识别方法。

根据本申请的另一方面，还提供了基于姿态估计的行人摔倒动作识别设备，该设备包括：

一个或多个处理器；

计算机可读介质，用于存储一个或多个计算机可读指令，

当所述一个或多个计算机可读指令被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述摔倒动作识别方法。

与现有技术相比，本申请通过获取原始视频流中多帧图像，对每一帧所述图像进行行人检测和跟踪，姿态估计得到人体跟踪编号和关键点信息，并采用多尺度的邻接矩阵将每个关键点前后多帧图像的所述关键点信息进行聚合，得到姿态图数据；将所述姿态图数据输入图卷积神经网络中，在所述图卷积神经网络中的多个时空合并图卷积模块之间引入残差连接，并依次经过多个所述时空合并图卷积模块进行特征提取得到姿态时空联合特征；结合摔倒动作变化特性，对所述姿态时空联合特征进行动作识别得到动作识别分类结果，即本申请采用多尺度的邻接矩阵实现信息的聚合，并在相同结构的上下时空联合模块间引入残差连接，分别提取姿态在双流(关键点流、骨骼边流)上的时空联合特征，最终合并双流结果做出摔倒动作判断，减少了背景对识别效果的影响从而提高动作识别准确率，并且减少了计算量。

说明书附图

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出根据本申请一个方面的一种基于姿态估计的行人摔倒动作识别方法的流程示意图；

图2示出根据本申请一个方面的一种基于姿态估计的行人摔倒动作识别方法中连续帧关键点空间信息示意图；

图3示出根据本申请一个方面的一种基于姿态估计的行人摔倒动作识别方法中人体摔倒过程中关键点位置变化示意图；

图4(a)示出根据本申请一个方面的一种基于姿态估计的行人摔倒动作识别方法中关键点特征提取后的嵌入表示示意图；

图4(b)示出根据本申请一个方面的一种基于姿态估计的行人摔倒动作识别方法中一实施例聚合邻居信息更新6号关键点示意图；

图5示出根据本申请一个方面的一种基于姿态估计的行人摔倒动作识别方法的中图卷积神经网络特征提取的数据计算过程示意图；

图6示出根据本申请一个方面的一种基于姿态估计的行人摔倒动作识别方法的姿态估计工作过程示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(例如中央处理器(Central Processing Unit，CPU)、图形处理器(GraphicsProcessing Unit，GPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RandomAccess Memory，RAM)和/或非易失性内存等形式，如只读存储器(Read Only Memory，ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(Phase-Change RAM，PRAM)、静态随机存取存储器(Static Random Access Memory，SRAM)、动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-OnlyMemory，EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、数字多功能光盘(Digital Versatile Disk，DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

图1示出根据本申请一个方面的一种基于姿态估计的行人摔倒动作识别方法的流程示意图，该方法适用于各种人类日常生活场景，包括但不限于办公室、家庭、咖啡室和演讲室，该方法可以用于识别各种人类动作，比如行走、站立、坐下、站起来等，该方法包括步骤S11、步骤S12及步骤S13，其中，具体包括：

步骤S11，获取原始视频流中多帧图像，对每一帧所述图像进行行人检测和跟踪，姿态估计得到人体跟踪编号和关键点信息，并采用多尺度的邻接矩阵将每个关键点前后多帧图像的所述关键点信息进行聚合，得到姿态图数据；在此，实际生活中摔倒动作发生前总依赖一些其他行为，如行走、站立等；摔倒动作发生后依赖平躺等一些行为，所以需要建立一个长期多帧间关键点之间的关联，把此帧该关键点前后多帧之间的信息进行聚合，如图2所示。如图3所示，人在站立时摔倒各关键点的位置变化，关键点的邻居阶数是指两点间经过的跳数，比如11号关节的k阶邻居，k∈[1,2,3]，1阶邻居[1,12]和2阶邻居[0,2,5,13]对该行为的判断有同样的影响力。利用人体的姿态信息构造姿态图数据来进行摔倒识别，不仅大大减少了背景对识别效果的影响，而且也减少了计算量。

步骤S12，将所述姿态图数据输入图卷积神经网络中，在所述图卷积神经网络中的多个时空合并图卷积模块之间引入残差连接，并依次经过多个所述时空合并图卷积模块进行特征提取得到姿态时空联合特征；在此，所述图卷积神经网络(Graph ConvolutionalNetwork，GCN)的本质是基于附近的网络邻居，通过卷积聚合的方式生成关键点的嵌入表示，如图4(a)所示。关键点在每一层都有嵌入表示，在图4(b)中第0层的嵌入表示就是输入关键点特征X，第K层关键点的嵌入表示是聚合第K-1层邻居的信息计算得到的。邻居关键点到该关键点的方向线是消息传递，中间的聚合是采用神经网络的方式，在邻居消息传送后先进行平均化再聚合。关键点的完整聚合过程表示如下公式所示：

首先初始化第0层的嵌入表示

表示先前一层关键点v的嵌入表示σ是非线性激活函数sigmoid或relu，邻居特征聚合经K层神经网络后结果

表示对前一层嵌入表示进行平均。

GCN的另一种通用向量表示如下所示：

其中，

是邻接矩阵A和单位矩阵E的和，

表示对

的归一化操作。

步骤S13，结合摔倒动作变化特性，对所述姿态时空联合特征进行动作识别得到动作识别分类结果。在此，较早使用图卷积模型(ST-GCN)获取骨架动作特征未能将时空表征联合考虑，对于对时空结合信息依赖大的动作并不能做到很好的识别。本申请在G3D卷积算子的基础上提取姿态时空特征，并结合摔倒动作变化的特性，融合多种算法来解决现实生活中的摔倒检测问题。

上述步骤S11至步骤S13，首先，通过获取原始视频流中多帧图像，对每一帧所述图像进行行人检测和跟踪，姿态估计得到人体跟踪编号和关键点信息，并采用多尺度的邻接矩阵将每个关键点前后多帧图像的所述关键点信息进行聚合，得到姿态图数据；然后，将所述姿态图数据输入图卷积神经网络中，在所述图卷积神经网络中的多个时空合并图卷积模块之间引入残差连接，并依次经过多个所述时空合并图卷积模块进行特征提取得到姿态时空联合特征；最后，结合摔倒动作变化特性，对所述姿态时空联合特征进行动作识别得到动作识别分类结果，即本申请采用多尺度的邻接矩阵实现信息的聚合，并在相同结构的上下时空联合模块间引入残差连接，分别提取姿态在双流(关键点流、骨骼边流)上的时空联合特征，最终合并双流结果做出摔倒动作判断，减少了背景对识别效果的影响从而提高动作识别准确率，并且减少了计算量。

例如，在Le2i Fall Detection(LFD)和UR Fall Detection(URFD)两个摔倒检测数据集上进行实验。LFD包括191个人类活动视频，分为4个场景：办公室、家庭、咖啡室和演讲室，视频中存在假摔且没有人的帧数，视频的格式是320ⅹ240，25帧/秒。URFD包含70个(30个跌倒+40个日常生活活动)序列，使用2台Microsoft Kinect相机和相应的加速度计数据记录跌倒事件。

在训练时利用opencv和视频编辑工具预处理LFD的原始视频，分辨率为640ⅹ480，帧率为30FPS，根据滑窗大小选择视频样本时长在3～9秒，原始视频中包含有部分除摔倒外的动作，需要把摔倒动作视频当作一组，其他(行走、站立、坐下、站起来)当作另一组对它们重新标注，共计有26100帧被选择。由于URFD中的40个日常活动视频彼此间差别较大，需要把它们重新标注为行走、坐下、弯腰三种动作，统一归为非摔倒组。

对每一帧所述图像P1、P2、P3.......Pn用预训练微调模型yolov4做行人检测，同时适当扩大输出边界框；根据当前帧输出用卡尔曼滤波算法预测下一帧轨迹跟踪结果，之后将检测和预测结果进行合并，利用RMPE 算法做姿态估计，将结果存入对象列表中，最后更新轨迹状态。设定DeepSort算法的匹配阈值为30，RMPE的骨干网络为resnet50。即对每一帧所述图像P1、P2、P3.......Pn进行行人检测和跟踪，姿态估计得到人体跟踪编号ID和关键点信息X1、X2、X3......Xn，并采用多尺度的邻接矩阵将每个关键点前后多帧图像的所述关键点信息进行聚合，得到姿态图数据。

接着，将所述姿态图数据输入图卷积神经网络中，在所述图卷积神经网络中的多个时空合并图卷积模块B1、B2、B3......Bn之间引入残差连接，并依次经过多个所述时空合并图卷积模块B1、B2、B3......Bn进行特征提取得到姿态时空联合特征。在数据集上训练时为避免过拟合，权重衰减值为0.0005，模型学习使用随机梯度下降(SGD)优化器，初始学习率为0.05，训练80个epochs，batchsize为8，分别在第35和45个epoch做0.1倍学习率衰减。

最后，结合摔倒动作变化特性，对所述姿态时空联合特征进行动作识别得到动作识别分类结果，即本文算法采用多尺度的邻接矩阵实现信息的聚合，并在相同结构的上下时空联合模块间引入残差连接，分别提取姿态在双流(关键点流、骨骼边流)上的时空联合特征，最终合并双流结果做出摔倒动作判断，减少了背景对识别效果的影响从而提高动作识别准确率，并且减少了计算量。

另外，为体现姿态数据的优势和时空三维图卷积提取特征的强泛化能力，把流行的视频动作分类算法SlowFast，时空图卷积模型2s-AGCN和其他一些在UR Fall Detection数据集上表现良好的算法和本申请所用的算法进行对比。利用本申请方法与使用SlowFast、2s-AGCN和Harrou et al方法进行行人摔倒动作识别相比，本申请很大程度减少背景对识别精度的影响，动作识别结果精确度更高。

接着上述实施例，所述方法中，所述图卷积神经网络中包括第一时空合并图卷积模块B1、第二时空合并图卷积模块B2和第三时空合并图卷积模块B3。

每个所述时空合并图卷积模块内包括多窗口多尺度3D图卷积层和序列化组件层，所述序列化组件包括多尺度图卷积和连续两个多尺度时间卷积。在此，所述多窗口多尺度3D图卷积层是在不同窗口大小下做时间和空间维度联合的3D卷积，目的在于将动作在两个维度下的内在关系进行表达。所述序列化组件中依次是多尺度图卷积，能够利用关节点间的最大距离对骨架进行建模；连续2个多尺度时间卷积，用来捕捉长期的或扩展的时间帧上下文信息。

接着上述实施例，所述方法中，所述将所述姿态图数据输入图卷积神经网络中，在所述图卷积神经网络中的多个时空合并图卷积模块之间引入残差连接，并依次经过多个所述时空合并图卷积模块进行特征提取得到姿态时空联合特征，包括：

将所述姿态图数据输入所述图卷积神经网络中，对所述姿态图数据进行归一化处理调整所述姿态图数据的数组形状。例如，输入是一个5维数组(N,C,T,V,M)，其中N代表一个前向batch中视频的数量；C代表节点的特征信息通道数，即(x,y,acc)3个；T代表视频关键帧的数量；V代表关节的数量；M代表一帧中置信度最高的人数。经过批归一化层数组形状被调整为3维(N,CⅹVⅹM,T)。

将调整后的姿态图数据输入所述第一时空合并图卷积模块进行特征提取，得到第一姿态时空特征。

将所述第一姿态时空特征输入所述第二时空合并图卷积模块进行特征提取，得到第二姿态时空特征。

所述第一姿态时空特征残差连接所述第二姿态时空特征后，输入所述第三时空合并图卷积模块进行特征提取，得到所述姿态时空联合特征。如图5所示，为防止层数增加造成特征损失，将时空合并图卷积模块B1的输出经卷积转换后残差连接到模块B2，其中每个子块括号内数字分别是计算前后的输入和输出通道数。

接着上述实施例，所述方法中，所述将调整后的姿态图数据输入所述第一时空合并图卷积模块进行特征提取，得到第一姿态时空特征，包括：

分别将所述调整后的姿态图数据输入所述第一时空合并图卷积模块中的所述多窗口多尺度3D图卷积层和所述序列化组件层中。

所述调整后的姿态图数据依次通过所述序列化组件层中的所述多尺度图卷积和连续两个所述多尺度时间卷积进行特征提取。

所述调整后的姿态图数据通过所述多窗口多尺度3D图卷积层进行特征提取。

将通过所述多窗口多尺度3D图卷积层和所述序列化组件层后输出的特征相加后，输入激活函数，再进行一次多尺度时间卷积特征提取，得到第一姿态时空特征。

在所述第二时空合并图卷积模块和第三时空合并图卷积模块中，以所述第一时空合并图卷积模块进行特征提取同样的方法，分别得到所述第二姿态时空特征和所述姿态时空联合特征。在此，经过多窗口多尺度3D图卷积层和序列化组件层后，将输出特征相加，送入relu()激活函数，再进行一次多尺度时间卷积特征提取，结果被输入到具有同样逻辑处理结构的下一个时空合并图卷积模块，最终是将特征进行分类和输出，本申请在逐层信息聚合中将高阶邻居节点的权重均衡化，有利于而提高动作识别准确率。

本申请的又一实施例，所述方法中，所述姿态图数据包括人体关键点集和骨骼边集，为了体现前后多帧关节点和远方邻居的重要性，所述姿态图数据的k-邻接矩阵表示如下：

其中，k代表关键点的不同邻居阶数，(i，j)是第i和j号关键点，d(v _i,v _j)代表关键点i和j之间的距离。在此，骨骼边指两关键点之间的连线。本申请使用姿态图数据比原始视频更有优势，很大程度减少背景对识别精度的影响，即利用人体的姿态信息构造姿态图数据来进行摔倒识别，不仅大大减少了背景对识别效果的影响，而且也减少了计算量。

本申请的又一实施例，所述方法中，获取原始视频流中多帧图像，对每一帧图像进行行人检测和跟踪，姿态估计得到人体跟踪编号和关键点信息，包括：

获取所述原始视频流中多帧所述图像，确定待跟踪目标。

基于DeepSort的行人跟踪算法通过计算前后两帧所述图像间所述待跟踪目标的行人边界框特征信息的相似度进行匹配，并为每一个所述待跟踪目标分配一个ID，得到跟踪结果。

例如，目标检测技术主要是对图像中出现的物体进行定位和分类，目前主流目标检测方法中yolo网络凭借其高实时性普遍应用在实际生活场景中。本申请使用基于yolov4的行人检测器，它先由特征提取网络将输入图像分成多种尺度的SⅹS网格，以每一个网格中心为中心再生成一系列锚框，对这些锚框进行分类和边界微调，最终预测出图像中的行人边界框位置。

摔倒动作视频中一般会有很多行人且带有时序信息，检测出行人的位置并逐帧跟踪是组建姿态图数据的首要条件。基于DeepSort的行人跟踪算法是通过计算前后两帧间行人边界框特征信息的相似度来进行匹配，时为每一个待跟踪目标分配一个ID(对每帧中轨迹为确认态的“person”赋予编号)。DeepSort中主要使用卡尔曼滤波和匈牙利算法保证跟踪准确性，其中卡尔曼滤波算法是对行人运动轨迹进行预测和更新，匈牙利算法是对行人检测器输出结果和跟踪预测结果进行IOU最优化分配，同时还引入级联匹配和新轨迹确认机制，级联匹配是指使用行人运动信息和外观信息相结合的方式进行数据关联，卡尔曼滤波预测结果和行人检测器结果中运动信息的匹配度使用马氏距离进行评估，计算如下公式所示：

d ⁽¹⁾(i,j)＝(d _j-y _i) ^TS _i ^-1(d _j-y _i)

其中，d ⁽¹⁾(i,j)表示匹配度，d _j表示第j个检测框的位置，y _i表示第i个追踪器对目标的预测位置，S _i表示检测位置与平均追踪位置之间的协方差矩阵，主要是将状态不确定性考虑在内，行人外观信息匹配使用余弦距离度量方法，如果某次关联的马氏距离小于指定的阈值t ⁽¹⁾，则设置运动状态的关联成功，使用的函数如下所示：

其中，b _i,j ⁽¹⁾作为是否关联成功的标记。新轨迹确认是指将轨迹分为确认态和不确认态，新产生的轨迹默认是不确认状态，必须和行人检测器检测结果连续匹配一定的次数才可以转化为确认态，确认态轨迹需和检测结果失配一定次数才会被删除。

固定时间帧窗口大小中的行人被准确跟踪并赋予编号，根据跟踪结果对每个行人个体提取关键点坐标。RMPE(Regional Multi-Person Pose Estimation)算法思想是检测环境中的每一个人体检测框，然后独立地去检测每一个人体区域的姿态，输出结果中包含人体跟踪编号和人体18个关键点三维信息(x，y，c)，其中(x，y)表示坐标，c表示置信度。

姿态估计流程如图6所示，首先空间变换网络负责接收人体建议框，可把行人检测结果中不准确的建议框输出为高质量的人体建议框，使建议框更精准。截取行人边界框输入单人姿态估计算法中得到人体姿态关键点，空间逆变换网络输出在原图中的人体候选姿态，对每个行人的冗余姿态信息采用姿态非极大值抑制方法过滤掉。并行-单人姿态估计算法只在训练阶段使用，输出直接和人体姿态标签的真实值进行对比，目的是将姿态定位后产生的误差反向传播到空间变换网络中，帮助空间变换网络产生高质量的区域位置。

接着本申请的上述实施例，结合摔倒动作变化特性，对所述姿态时空联合特征进行动作识别得到动作识别分类结果，包括：

对所述姿态时空联合特征做全局平均池化处理，将得到的池化结果输入全连接线性层。

结合摔倒动作变化特性，通过softmax分类器输出所述姿态时空联合特征对应的得分最高的类别，得到分类结果。

例如：图卷积神经网络输出特征通道为384，之后依次在时空维度、行人个体上对输出特征做全局平均池化，池化结果输入全连接线性层(输入通道384，输出通道为类别数)，最后通过softmax分类器输出得分最高的类别。

根据本申请的另一个方面，还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行时，使所述处理器实现如上述行人摔倒动作识别方法。

根据本申请的另一个方面，还提供了一种基于姿态估计的行人摔倒动作识别设备，其特征在于，该设备包括：

一个或多个处理器，包括CPU和GPU；

计算机可读介质，用于存储一个或多个计算机可读指令，

当所述一个或多个计算机可读指令被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述行人摔倒动作识别方法。

在此，所述设备的各实施例的详细内容，具体可参见上述设备端的控制用户对垒方法实施例的对应部分，在此，不再赘述。

综上所述，本申请通过获取原始视频流中多帧图像，对每一帧所述图像进行行人检测和跟踪，姿态估计得到人体跟踪编号和关键点信息，并采用多尺度的邻接矩阵将每个关键点前后多帧图像的所述关键点信息进行聚合，得到姿态图数据；将所述姿态图数据输入图卷积神经网络中，在所述图卷积神经网络中的多个时空合并图卷积模块之间引入残差连接，并依次经过多个所述时空合并图卷积模块进行特征提取得到姿态时空联合特征；结合摔倒动作变化特性，对所述姿态时空联合特征进行动作识别得到动作识别分类结果，即本申请采用多尺度的邻接矩阵实现信息的聚合，并在相同结构的上下时空联合模块间引入残差连接，分别提取姿态在双流(关键点流、骨骼边流)上的时空联合特征，最终合并双流结果做出摔倒动作判断，减少了背景对识别效果的影响从而提高动作识别准确率，并且减少了计算量。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本申请的一个实施例，包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

一种基于姿态估计的行人摔倒动作识别方法，其特征在于，所述方法包括：

获取原始视频流中多帧图像，对每一帧所述图像进行行人检测和跟踪，姿态估计得到人体跟踪编号和关键点信息，并采用多尺度的邻接矩阵将每个关键点前后多帧图像的所述关键点信息进行聚合，得到姿态图数据；

将所述姿态图数据输入图卷积神经网络中，在所述图卷积神经网络中的多个时空合并图卷积模块之间引入残差连接，并依次经过多个所述时空合并图卷积模块进行特征提取得到姿态时空联合特征；

结合摔倒动作变化特性，对所述姿态时空联合特征进行动作识别得到动作识别分类结果。
根据权利要求1所述的方法，其特征在于，所述图卷积神经网络中包括第一时空合并图卷积模块、第二时空合并图卷积模块和第三时空合并图卷积模块；

每个所述时空合并图卷积模块内包括多窗口多尺度3D图卷积层和序列化组件层，所述序列化组件包括多尺度图卷积和连续两个多尺度时间卷积。
根据权利要求2所述的方法，其特征在于，所述将所述姿态图数据输入图卷积神经网络中，在所述图卷积神经网络中的多个时空合并图卷积模块之间引入残差连接，并依次经过多个所述时空合并图卷积模块进行特征提取得到姿态时空联合特征，包括：

将所述姿态图数据输入所述图卷积神经网络中，对所述姿态图数据进行归一化处理调整所述姿态图数据的数组形状；

将调整后的姿态图数据输入所述第一时空合并图卷积模块进行特征提取，得到第一姿态时空特征；

将所述第一姿态时空特征输入所述第二时空合并图卷积模块进行特征提取，得到第二姿态时空特征；

所述第一姿态时空特征残差连接所述第二姿态时空特征后，输入所述第三时空合并图卷积模块进行特征提取，得到所述姿态时空联合特征。
根据权利要求3所述的方法，其特征在于，所述将调整后的姿态图数据输入所述第一时空合并图卷积模块进行特征提取，得到第一姿态时空特征，包括：

分别将所述调整后的姿态图数据输入所述第一时空合并图卷积模块中的所述多窗口多尺度3D图卷积层和所述序列化组件层中；

所述调整后的姿态图数据依次通过所述序列化组件层中的所述多尺度图卷积和连续两个所述多尺度时间卷积进行特征提取；

所述调整后的姿态图数据通过所述多窗口多尺度3D图卷积层进行特征提取；

将通过所述多窗口多尺度3D图卷积层和所述序列化组件层后输出的特征相加后，输入激活函数，再进行一次多尺度时间卷积特征提取，得到第一姿态时空特征；

在所述第二时空合并图卷积模块和第三时空合并图卷积模块中，以所述第一时空合并图卷积模块进行特征提取同样的方法，分别得到所述第二姿态时空特征和所述姿态时空联合特征。
根据权利要求4所述的方法，其特征在于，所述姿态图数据包括人体关键点集和骨骼边集，所述姿态图数据的k-邻接矩阵表示如下：

其中，k代表关键点的不同邻居阶数，(i，j)是第i和j号关键点，d(v _i,v _j)代表关键点i和j之间的距离。
根据权利要求1-5任一项所述的方法，其特征在于，步骤A中获取原始视频流中多帧图像，对每一帧图像进行行人检测和跟踪，姿态估计得到人体跟踪编号和关键点信息，包括：

获取所述原始视频流中多帧所述图像，确定待跟踪目标；

基于DeepSort的行人跟踪算法通过计算前后两帧所述图像间所述待跟踪目标的行人边界框特征信息的相似度进行匹配，并为每一个所述待跟踪目标分配一个ID，得到跟踪结果；

基于所述跟踪结果，利用区域多人姿态估计算法对每个所述待跟踪目标提取关键点坐标，输出关键点信息和人体跟踪编号。
根据权利要求6所述的方法，其特征在于，所述结合摔倒动作变化特性，对所述姿态时空联合特征进行动作识别得到动作识别分类结果，包括：

对所述姿态时空联合特征做全局平均池化处理，将得到的池化结果输入全连接线性层；

结合摔倒动作变化特性，通过分类器输出所述姿态时空联合特征对应的得分最高的类别，得到分类结果。
一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行时，使所述处理器实现如权利要求1至7中任一项所述的方法。
一种基于姿态估计的行人摔倒动作识别设备，其特征在于，该设备包括：

一个或多个处理器；

计算机可读介质，用于存储一个或多个计算机可读指令，

当所述一个或多个计算机可读指令被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至7中任一项所述的方法。