WO2021051545A1

WO2021051545A1 - 基于行为识别模型的摔倒动作判定方法、装置、计算机设备及存储介质

Info

Publication number: WO2021051545A1
Application number: PCT/CN2019/117328
Authority: WO
Inventors: 罗郑楠; 周俊琨; 许扬
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-09-16
Filing date: 2019-11-12
Publication date: 2021-03-25
Also published as: CN110765860B; CN110765860A

Abstract

一种基于行为识别模型的摔倒动作判定方法、装置、计算机设备及存储介质，涉及人工智能技术领域。该方法包括：获取摄像头拍摄的目标视频（S10）；从目标视频中得到目标待分析视频（S20）；将目标待分析视频分为N个片段，并从每个片段中随机抽取一帧图像作为待识别图像，其中，N为大于1的整数（S30）；将待识别图像输入到预先训练的行为识别模型中，通过行为识别模型输出目标视频中有人摔倒的第一概率，以及出现倒地伴随动作的第二概率（S40）；根据第一概率和第二概率得到综合期望概率（S50）；当综合期望概率大于预设阈值时，判定在目标视频中出现有人摔倒的情况（S60）。采用该基于行为识别模型的摔倒动作判定方法能够实现准确的摔倒行为判定。

Description

基于行为识别模型的摔倒动作判定方法、装置、计算机设备及存储介质

本申请以2019年9月16日提交的申请号为201910869615.0，名称为“摔倒判定方法、装置、计算机设备及存储介质”的中国发明专利申请为基础，并要求其优先权。

【技术领域】

本申请涉及人工智能技术领域，尤其涉及一种基于行为识别模型的摔倒动作判定方法、装置、计算机设备及存储介质。

【背景技术】

在传统的摔倒判定方式中，主要有基于传感器的判定方式和基于单张图片的判定方式。基于传感器的判定方式成本较高，而且需要个人携带配备有相应传感器的设备；基于图片的判定方式有很多场景的限制，准确率不高。目前无法准确对摔倒行为进行判定。

【发明内容】

有鉴于此，本申请实施例提供了一种基于行为识别模型的摔倒动作判定方法、装置、计算机设备及存储介质，用以解决无法准确判定摔倒行为的问题。

第一方面，本申请实施例提供了一种基于行为识别模型的摔倒动作判定方法，包括：

获取摄像头拍摄的目标视频；

从所述目标视频中得到目标待分析视频；

将所述目标待分析视频分为N个片段，并从每个所述片段中随机抽取一帧图像作为待识别图像，其中，N为大于1的整数；

将所述待识别图像输入到预先训练的行为识别模型中，通过所述行为识别模型输出所述目标视频中有人摔倒的第一概率，以及出现倒地伴随动作的第二概率；

根据所述第一概率和所述第二概率得到综合期望概率；

当所述综合期望概率大于预设阈值时，判定在所述目标视频中出现有人摔倒的情况。

第二方面，本申请实施例提供了一种基于行为识别模型的摔倒动作判定装置，包括：

第一获取模块，用于获取摄像头拍摄的目标视频；

第二获取模块，用于从所述目标视频中得到目标待分析视频；

第三获取模块，用于将所述目标待分析视频分为N个片段，并从每个所述片段中随机抽取一帧图像作为待识别图像，其中，N为大于1的整数；

概率输出模块，用于将所述待识别图像输入到预先训练的行为识别模型中，通过所述行为识别模型输出所述目标视频中有人摔倒的第一概率，以及出现倒地伴随动作的第二概率；

第四获取模块，用于根据所述第一概率和所述第二概率得到综合期望概率；

判定模块，用于当所述综合期望概率大于预设阈值时，判定在所述目标视频中出现有人摔倒的情况。

第三方面，一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现上述基于行为识别模型的摔倒动作判定方法的步骤。

第四方面，本申请实施例提供了一种计算机非易失性可读存储介质，包括：计算机可读指令，所述计算机可读指令被处理器执行时实现上述基于行为识别模型的摔倒动作判定方法的步骤。

在本申请实施例中，首先获取摄像头拍摄的目标视频，并从目标视频中得到目标待分析视频，可针对性地对拍摄的视频进行分析，提高分析的效率和效果；接着将目标待分析视频分为N个片段，并从每个片段中随机抽取一帧图像作为待识别图像，可以在减少计算量的前提下仍保留图像的时空关系，保证摔倒判定的准确度，然后将待识别图像输入到预先训练的行为识别模型中，通过行为识别模型输出目标视频中有人摔倒的第一概率，以及出现倒地伴随动作的第二概率，通过该行为识别模型可以提高摔倒判定的准确度，最后根据第一概率和第二概率得到综合期望概率，且当综合期望概率大于预设阈值时，判定在目标视频中出现有人摔倒的情况，能够实现准确的摔倒行为判定。

【附图说明】

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本申请一实施例中基于行为识别模型的摔倒动作判定方法的一流程图；

图2是本申请一实施例中基于行为识别模型的摔倒动作判定装置的一示意图；

图3是本申请一实施例中计算机设备的一示意图。

【具体实施方式】

为了更好的理解本申请的技术方案，下面结合附图对本申请实施例进行详细描述。

应当明确，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的相同的字段，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本申请实施例中可能采用术语第一、第二、第三等来描述预设范围等，但这些预设范围不应限于这些术语。这些术语仅用来将预设范围彼此区分开。例如，在不脱离本申请实施例范围的情况下，第一预设范围也可以被称为第二预设范围，类似地，第二预设范围也可以被称为第一预设范围。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

图1示出本实施例中基于行为识别模型的摔倒动作判定方法的一流程图。该基于行为识别模型的摔倒动作判定方法可应用在摔倒判定系统上，在进行摔倒判定时可采用该摔倒判定系统进行判定。该摔倒判定系统具体可应用在计算机设备上，其中，该计算机设备是可与用户进行人机交互的设备，包括但不限于电脑、智能手机和平板等设备。如图1所示，该基于行为识别模型的摔倒动作判定方法包括如下步骤：

S10：获取摄像头拍摄的目标视频。

可以理解地，摔倒判定系统所在的计算机设备可以自带摄像头，也可以采用连接外部设备的方式调用外部设备的摄像头，通过摄像头拍摄获取目标视频。

S20：从目标视频中得到目标待分析视频。

可以理解地，在实际拍摄中目标视频会随着拍摄时长而变长，显然，对于一个时长较长的目标视频进行摔倒判定不仅计算量大，且也不符合实际判定的需求。用户期望可以实现准实时的摔倒判定分析。因此，在本实施例中，可从目标视频中得到目标待分析视频，以根据目标待分析视频实现准实时的摔倒判定。

进一步地，目标待分析视频的时长具体可以是用户预设时长，在步骤S20中，从目标视频中得到目标待分析视频，具体包括：

S21：确定新旧图像临界时刻，其中，新旧图像临界时刻用于将目标视频分为第一图像组和第二图像组，第一图像组中任一图像获取的时刻小于第二图像组中任一图像获取的时刻。

可以理解地，视频由一定数量帧的图像组成。

可以理解地，摔倒判定系统所在的计算机设备中维护了两个图像组，分别用于存放相对于新旧图像临界时刻较旧的第一图像组和相对于新旧图像临界时刻较新的第二图像组。新旧图像临界时刻具体可以是根据用户的预设定所确定，例如新旧图像临界时刻具体可以是当前拍摄时刻的前2秒所对应的时刻。此时新旧图像临界时刻的意义在于，连接近2秒内发生的视频和近2-4秒内发生的视频的联系。采用新旧图像临界时刻将目标视频分为第一图像组和第二图像组，可以保存较长时程的信息，在进行摔倒判定时，可以有效避免长程语义的缺失，并且，随时间的变化实时更新第一图像组和第二图像组，使得摔倒判定系统具有近实时判定的能力，提高了摔倒判定的实用性。

S22：从第一图像组中获取第一目标视频，其中，第一目标视频中最后一帧所对应的图像对应的时刻为新旧图像临界时刻，第一目标视频的长度为用户预设时长的一半。

S23：从第二图像组中获取第二目标视频，其中，第二目标视频中第一帧所对应的图像对应的时刻为新旧图像临界时刻，第二目标视频的长度为用户预设时长的一半。

S24：按照时间的先后顺序组合第一目标视频和第二目标视频，得到目标待分析视频。

步骤S22-S24中，在第一目标视频和第二目标视频中各取一半时长的视频组合成目标待分析视频。该目标待分析视频能够体现出在时序上的联系，有利于提高摔倒判定的准确度。

在步骤S21-S24的步骤中，提供了一种从目标视频中得到目标待分析视频的具体实施方式，通过新旧图像临界时刻在目标视频中截取与实时关系较大、且仍保留有时空关系的视频段作为目标待分析视频，有助于提高后续摔倒判定的准确度。

S30：将目标待分析视频分为N个片段，并从每个片段中随机抽取一帧图像作为待识别图像，其中，N为大于1的整数。

可以理解地，目标待分析视频中仍包括大量帧的图像，直接进行计算的计算量较大。因此，在一实施例中，可将目标待分析视频分为N个片段，并从每个片段中随机抽取一帧图像作为待识别图像，可以在减少计算量的前提下仍保留图像的时空关系，能够保证后续进行摔倒判定时的准确度。

S40：将待识别图像输入到预先训练的行为识别模型中，通过行为识别模型输出目标视频中有人摔倒的第一概率，以及出现倒地伴随动作的第二概率。

其中，倒地伴随动作是指人在摔倒瞬间伴随出现的动作，如用手支撑地面，用背部落地等伴随性动作。

其中，该预先训练的行为识别模型的作用为根据输入的待识别图像，输出目标视频中有人摔倒的第一概率以及出现倒地伴随动作的第二概率。该行为识别模型将摔倒动作和倒地伴随动作进行了结合，综合判定是否有人摔倒，相对于单独根据摔倒动作进行判定，准确度更高。可以理解地，一般单独根据摔倒动作进行判定或者单独对倒地伴随动作进行判定仅是根据单张图片进行判定，本实施是对以视频为基础进行摔倒判定的，结合了时序信息，具有较高的准确度。

进一步地，在步骤S40中，行为识别模型，可采用以下步骤预先训练得到：

S411：获取预设数量的摔倒视频作为样本视频，其中，摔倒视频的时长预先处理为等长，且摔倒视频的时长与目标待分析视频的时长相同。

S412：将每个样本视频分为N个样本片段，并从每个样本片段中随机抽取一帧图像作为待训练图像，其中，N为大于1的整数。

S413：采用2D卷积神经网络分别提取每个待训练图像的特征，得到每个待训练图像的特征图像。其中，2D卷积神经网络即2维卷积神经网络，可以理解地，待训练图像是二维的，采用该2D卷积神经网络能够有效提取静态图像的空间特征。该2D卷积神经网络包括输入层、卷积层和池化层。其中，卷积层和池化层在网络中设置有多层(如16层卷积层+16层池化层)。在该2D卷积神经网络中，卷积层用于对输入层输入的待训练图像进行卷积运算，卷积运算时具体采用步长为2,尺寸为7×7的卷积核；池化层用于对卷积层中输出的值进行池化操作，其中，池化操作包括最大池化操作和最小池化操作等，当采用最大池化操作时，将会采用池化窗口(如大小为3，步长为1的池化窗口)中最大的值作为该池化窗口的输出值。该2D卷积神经网络用于对待训练图像进行特征提取，而不对待训练图像进行进一步地分类。

本实施例中，该2D卷积神经网络可以是每个待训练图像共享的，能够有效提高运算效率。

S414：根据N个样本片段对应的特征图像得到时空关系特征图组。

在一实施例中，可对样本片段得到的特征图像进行关于时序上的组合，得到具备时空关系特征的特征图组，也即时空关系特征图组。

进一步地，在步骤S414中，第N个特征图像的大小表示为K×A×B，K为特征图像经过卷积处理得到的通道数，A×B为特征图像像素面积，第N个特征图像表示为

其中，

表示第N个样本视频中在K通道数中的第一个特征图像。进一步地，根据N个样本片段对应的特征图像得到时空关系特征图组，包括：将N个样本片段对应的特征图像进行堆叠，得到表示为{M ¹，M ²，……，M ^N-1，M ^N}的时空关系特征图组，该时空关系特征图组由N个元素组成，大小表示为N×K×A×B，其中，如堆叠后的元素

需要说明的是，在步骤S412中，每个样本视频分为N个样本片段，分别按顺序从第一个样本视频到第N个样本视频，在步骤S412中从每个样本片段中随机抽取一帧图像作为待训练图像，待训练图像也是按照第一个到第N个的排列顺序。在本实施中，组成时空关系特征图组时则利用了从N到1的顺序进行组合，具体地，从时空关系特征图组中的第一个元素

中可以看出，

表示第一个样本片段中在K通道数中的第一个特征图像，

表示第二个样本片段中在K通道数中的第一个特征图像，在M ¹的表达式中，

是排在最后一个，与按顺序从第一个样本视频到第N个样本视频的顺序相反，表示在图组中的元素是从N到1的顺序进行组合的，可以理解为每个时空关系特征图组中的元素，在进行组合时是倒序进行结合的。

可以理解地，该堆叠过程是对特征图像进行关于时序上的堆叠组合，将不同样本片段中相同索引号的特征图像进行堆叠组合，重新得到一个新的特征图组。该特征图组即时空关系特征图组，时空关系特征图组结合了时序的正向信息和反向信息，以及待训练图像的特征，有助于在进行摔倒判定时提高判定的准确率。

S415：采用3D卷积神经网络提取时空关系特征图组的时空特征。

其中，3D卷积神经网络是相对于2D卷积神经网络进行改进的卷积神经网络。可以理解地，2D卷积神经网络对于提取静态图像的空间特征，在图像的分类、检测等任务上有较高的优势，但是对于视频(多了时间序列上的维度)等3维对象，由于2D卷积神经网络没有考虑到图像之间的时间维度上物体的运动信息，在提取时序特征上的效果一般。因此，对于提取具有3维度的对象如视频，可采用3D卷积神经3网络进行特征提取。

具体地，3D卷积神经网络中采用的卷积核相比于2D卷积神经网络中采用的卷积核会多出一个维度，如2D卷积神经网络采用的卷积核是7×7的卷积核，则3D卷积神经网络采用的卷积核具体可以是7×7×64的卷积核。

可以理解地，在步骤S414中，根据N个样本片段对应的特征图像得到时空关系特征图组是具有时间序列维度的特征图组，具有3个维度，因此，可采用3D卷积神经网络对时空关系特征图像的时空特征进行提取。具体地，该3D卷积神经网络包括输入层、卷积层和池化层。在该3D卷积神经网络中，卷积层用于对输入层输入的时空关系特征图组进行卷积运算，卷积运算时具体采用步长为2,尺寸为7×7×64的卷积核；池化层用于对卷积层中输出的值进行池化操作，具体可以采用窗口大小为3×3×64，步长为2的池化窗口进行池化操作。

在本实施例中，经步骤S414得到的时空特征关系图是具有时空特征的，该时空特征具体采用可3D卷积神经网络进行提取。

S416：采用2D卷积神经网络提取时空关系特征图组的深层特征。

需要说明的是，该步骤是对具有时序特征的时空关系特征图组作的2D卷积操作，该采用2D卷积神经网络对时空关系特征图组进行的特征提取，能够提取到时空关系特征图组的深层特征，该深层特征是在二维图像空间上的特征，对行为识别的分类同样是有价值的，可以将采用3D卷积神经网络提取时空关系特征图组的时空特征和采用2D卷积神经网络提取时空关系特征图组的深层特征作为分类的输入特征，从而提高行为识别模型的识别准确率。

S417：将时空特征和深层特征接入预设的分类器。

其中，时空特征和深层特征通过向量的形式表示，向量中的元素，及元素之间的排列顺序，体现的是待训练图像的时空特征和深层特征。

可以理解地，3D卷积神经网络主要作用是提取时空上的特征，2D卷积神经网络主要作用是提取空间上的深层特征，本实施例中可综合两种不同的卷积神经网络提取的重点和提取的效果，使得采用分类器输出的结果更加可靠。

具体地，时空特征和深层特征在接入分类器时可采用级联操作对时空特征和深层特征表示的向量进行拼接，并通过全连接层接入分类器。其中，全连接层中的每个神经元与其前一层的所有神经元进行全连接，整合卷积层或者池化层中具有类别区分性的局部信息。在全连接层中，最后一层全连接层的输出值被传递给一个输出，接入预设的分类器，该分类器可以采用softmax分类器，通过softmax分类器对接入的时空特征和深层特征映射到(0,1)区间内实现分类。

S418：通过分类器输出样本视频中有人摔倒的第一概率以及出现倒地伴随动作的第二概率。

可以理解地，在步骤S412得到的待训练图像预先做好了标签分类处理，将待训练图像分为摔倒图像、倒地伴随动作图像和常规(非摔倒非倒地伴随动作)图像。在训练过程中，将会根据预先标签分类处理好的待训练图像，通过softmax分类器输出样本视频中有人摔倒的第一概率以及出现倒地伴随动作的第二概率。

S419：采用预定义的损失函数，根据样本视频的标签值、以及第一概率和第二概率得到在模型训练过程中产生的损失值。

可以理解地，在行为识别模型训练过程中将产生损失值，也即表示训练过程中出现了误差，将影响模型的识别精度，对于此，可采用数学方法中计算损失值的方法预先定义、建立损失函数。通过损失函数，根据样本视频的标签值、以及第一概率和第二概率在模型训练过程中计算产生的损失值，能够根据该损失值更新网络参数，得到识别精确度较高的行为识别模型。

S41-10：根据损失值，采用反向传播算法更新模型的网络参数，得到行为识别模型。

可以理解地，对于已知的损失值，可采用数学方法中的反向传播算法根据损失值对模型的网络参数进行更新，直至更新次数到达预设更新次数阈值或更新过程中梯度不再下降时结束更新过程，从而得到行为识别模型。

在步骤S411至S41-10中，提供了一种训练行为识别模型的具体实施方式，在训练过程中将不同样本片段在时间上和空间上的特征提取出来，使得提取的特征更能体现样本片段的空间分布特点以及样本片段之间的时间联系，使得训练得到的行为识别模型具备识别摔倒事件的能力，具有较高的准确率。

进一步地，在步骤S40中，通过行为识别模型输出目标视频中有人摔倒的第一概率，以及出现倒地伴随动作的第二概率，具体包括：

S421：采用2D卷积神经网络分别提取每个待识别图像的特征，得到每个待识别图像的特征图像。

S422：根据N个片段对应的特征图像得到目标时空关系特征图组。

S423：采用3D卷积神经网络提取目标时空关系特征图组的目标时空特征。

S424：采用2D卷积神经网络提取目标时空关系特征图组的目标深层特征。

S425：将目标时空特征和目标深层特征接入预设的分类器。

S426：通过分类器输出目标视频中有人摔倒的第一概率，以及出现倒地伴随动作的第二概率。

在步骤S421-S426中，提供了一种通过行为识别模型输出目标视频中有人摔倒的第一概率，以及出现倒地伴随动作的第二概率的具体实施方式，能够在判定摔倒事件的过程中，充分地提取待识别图像在空间以及时间上的特征，使得输出的第一概率和第二概率的准确性较高。

可以理解地，步骤S421-S426是采用行为识别模型识别行为的过程，与训练行为识别模型的步骤中有类似的步骤，可参考步骤S411-S41-10，在此不再赘述。

S50：根据第一概率和第二概率得到综合期望概率。

具体地，综合期望概率可以采用加权的计算方式得到，也可以采用基于贝叶斯定理的方式得到，在此不作限定。综合期望概率还考虑了摔倒后人的伴随动作，相比只采用第一概率进行摔倒判定，采用综合期望概率进行摔倒判定的准确率更高。

S60：当综合期望概率大于预设阈值时，判定在目标视频中出现有人摔倒的情况。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

基于实施例中所提供的基于行为识别模型的摔倒动作判定方法，本申请实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。

图2示出与实施例中基于行为识别模型的摔倒动作判定方法一一对应的基于行为识别模型的摔倒动作判定装置的原理框图。如图2所示，该基于行为识别模型的摔倒动作判定装置包括第一获取模块10、第二获取模块20、第三获取模块30、概率输出模块40、第四获取模块50和判定模块60。其中，第一获取模块10、第二获取模块20、第三获取模块30、概率输出模块40、第四获取模块50和判定模块60的实现功能与实施例中基于行为识别模型的摔倒动作判定方法对应的步骤一一对应，为避免赘述，本实施例不一一详述。

第一获取模块10，用于获取摄像头拍摄的目标视频。

第二获取模块20，用于从目标视频中得到目标待分析视频。

第三获取模块30，用于将目标待分析视频分为N个片段，并从每个片段中随机抽取一帧图像作为待识别图像，其中，N为大于1的整数。

概率输出模块40，用于将待识别图像输入到预先训练的行为识别模型中，通过行为识别模型输出目标视频中有人摔倒的第一概率，以及出现倒地伴随动作的第二概率。

第四获取模块50，用于根据第一概率和第二概率得到综合期望概率。

判定模块60，用于当综合期望概率大于预设阈值时，判定在目标视频中出现有人摔倒的情况。

可选地，第二获取模块20具体用于：

确定新旧图像临界时刻，其中，新旧图像临界时刻用于将目标视频分为第一图像组和第二图像组，第一图像组中任一图像获取的时刻小于第二图像组中任一图像获取的时刻。

从第一图像组中获取第一目标视频，其中，第一目标视频中最后一帧所对应的图像对应的时刻为新旧图像临界时刻，第一目标视频的长度为用户预设时长的一半。

从第二图像组中获取第二目标视频，其中，第二目标视频中第一帧所对应的图像对应的时刻为新旧图像临界时刻，第二目标视频的长度为用户预设时长的一半。

按照时间的先后顺序组合第一目标视频和第二目标视频，得到目标待分析视频。

可选地，行为识别模型采用训练模块得到，该训练模块具体用于：

获取预设数量的摔倒视频作为样本视频，其中，摔倒视频的时长预先处理为等长，且摔倒视频的时长与目标待分析视频的时长相同。

将每个样本视频分为N个样本片段，并从每个样本片段中随机抽取一帧图像作为待训练图像，其中，N为大于1的整数。

采用2D卷积神经网络分别提取每个待训练图像的特征，得到每个待训练图像的特征图像。

根据N个样本片段对应的特征图像得到时空关系特征图组。

采用3D卷积神经网络提取时空关系特征图组的时空特征。

采用2D卷积神经网络提取时空关系特征图组的深层特征。

将时空特征和深层特征接入预设的分类器。

通过分类器输出样本视频中有人摔倒的第一概率以及出现倒地伴随动作的第二概率。

采用预定义的损失函数，根据样本视频的标签值、以及第一概率和第二概率得到在模型训练过程中产生的损失值。

根据损失值，采用反向传播算法更新模型的网络参数，得到行为识别模型。

可选地，第N个特征图像的大小表示为K×A×B，K为特征图像通道数，A×B为特征图像像素面积，第N个特征图像表示为

根据N个样本片段对应的特征图像得到时空关系特征图组，包括：将N个样本片段对应的特征图像进行堆叠，得到表示为{M ¹，M ²，......，M ^N-1，M ^N}的时空关系特征图组，其中，堆叠后的

可选地，概率输出模块40具体用于：

采用2D卷积神经网络分别提取每个待识别图像的特征，得到每个待识别图像的特征图像。

根据N个片段对应的特征图像得到目标时空关系特征图组。

采用3D卷积神经网络提取目标时空关系特征图组的目标时空特征。

采用2D卷积神经网络提取目标时空关系特征图组的目标深层特征。

将目标时空特征和目标深层特征接入预设的分类器。

通过分类器输出目标视频中有人摔倒的第一概率，以及出现倒地伴随动作的第二概率。

本实施例提供一计算机非易失性可读存储介质，该计算机非易失性可读存储介质上存储有计算机可读指令，该计算机可读指令被处理器执行时实现实施例中基于行为识别模型的摔倒动作判定方法，为避免重复，此处不一一赘述。或者，该计算机可读指令被处理器执行时实现实施例中基于行为识别模型的摔倒动作判定装置中各模块/单元的功能，为避免重复，此处不一一赘述。

图3是本申请一实施例提供的计算机设备的示意图。如图3所示，该实施例的计算机设备70包括：处理器71、存储器72以及存储在存储器72中并可在处理器71上运行的计算机可读指令73，该计算机可读指令73被处理器71执行时实现实施例中的基于行为识别模型的摔倒动作判定方法，为避免重复，此处不一一赘述。或者，该计算机可读指令73被处理器71执行时实现实施例中基于行为识别模型的摔倒动作判定装置中各模型/单元的功能，为避免重复，此处不一一赘述。

计算机设备70可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备70可包括，但不仅限于，处理器71、存储器72。本领域技术人员可以理解，图3仅仅是计算机设备70的示例，并不构成对计算机设备70的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器71可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器72可以是计算机设备70的内部存储单元，例如计算机设备70的硬盘或内存。存储器72也可以是计算机设备70的外部存储设备，例如计算机设备70上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器72还可以既包括计算机设备70的内部存储单元也包括外部存储设备。存储器72用于存储计算机可读指令以及计算机设备所需的其他程序和数据。存储器72还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种基于行为识别模型的摔倒动作判定方法，其特征在于，所述方法包括：

获取摄像头拍摄的目标视频；

从所述目标视频中得到目标待分析视频；

将所述目标待分析视频分为N个片段，并从每个所述片段中随机抽取一帧图像作为待识别图像，其中，N为大于1的整数；

将所述待识别图像输入到预先训练的行为识别模型中，通过所述行为识别模型输出所述目标视频中有人摔倒的第一概率，以及出现倒地伴随动作的第二概率；

根据所述第一概率和所述第二概率得到综合期望概率；

当所述综合期望概率大于预设阈值时，判定在所述目标视频中出现有人摔倒的情况。
根据权利要求1所述的方法，其特征在于，所述目标待分析视频的时长为用户预设时长，所述从所述目标视频中得到目标待分析视频，包括：

确定新旧图像临界时刻，其中，所述新旧图像临界时刻用于将所述目标视频分为第一图像组和第二图像组，所述第一图像组中任一图像获取的时刻小于所述第二图像组中任一图像获取的时刻；

从所述第一图像组中获取第一目标视频，其中，所述第一目标视频中最后一帧所对应的图像对应的时刻为所述新旧图像临界时刻，所述第一目标视频的长度为所述用户预设时长的一半；

从所述第二图像组中获取第二目标视频，其中，所述第二目标视频中第一帧所对应的图像对应的时刻为所述新旧图像临界时刻，所述第二目标视频的长度为所述用户预设时长的一半；

按照时间的先后顺序组合所述第一目标视频和所述第二目标视频，得到所述目标待分析视频。
根据权利要求1所述的方法，其特征在于，所述行为识别模型采用以下步骤训练得到：

获取预设数量的摔倒视频作为样本视频，其中，所述摔倒视频的时长预先处理为等长，且所述摔倒视频的时长与所述目标待分析视频的时长相同；

将每个样本视频分为N个样本片段，并从每个所述样本片段中随机抽取一帧图像作为待训练图像，其中，N为大于1的整数；

采用2D卷积神经网络分别提取每个所述待训练图像的特征，得到每个所述待训练图像的特征图像；

根据N个所述样本片段对应的所述特征图像得到时空关系特征图组；

采用3D卷积神经网络提取所述时空关系特征图组的时空特征；

采用2D卷积神经网络提取所述时空关系特征图组的深层特征；

将所述时空特征和所述深层特征接入预设的分类器；

通过所述分类器输出所述样本视频中有人摔倒的第一概率以及出现倒地伴随动作的第二概率；

采用预定义的损失函数，根据所述样本视频的标签值、以及所述第一概率和所述第二概率得到在模型训练过程中产生的损失值；

根据所述损失值，采用反向传播算法更新模型的网络参数，得到所述行为识别模型。
根据权利要求3所述的方法，其特征在于，所述第N个特征图像的大小表示为K×A×B，所述K为特征图像通道数，所述A×B为特征图像像素面积，所述第N个特征图像表示为

所述根据N个所述样本片段对应的所述特征图像得到时空关系特征图组，包括：

将N个所述样本片段对应的所述特征图像进行堆叠，得到表示为{M ¹，M ²，……，M ^N-1，M ^N}的所述时空关系特征图组，其中，堆叠后的
根据权利要求1-4任意一项所述的方法，其特征在于，所述通过所述行为识别模型输出所述目标视频中有人摔倒的第一概率，以及出现倒地伴随动作的第二概率，包括如下步骤：

采用2D卷积神经网络分别提取每个所述待识别图像的特征，得到每个所述待识别图像的特征图像；

根据N个所述片段对应的所述特征图像得到目标时空关系特征图组；

采用3D卷积神经网络提取所述目标时空关系特征图组的目标时空特征；

采用2D卷积神经网络提取所述目标时空关系特征图组的目标深层特征；

将所述目标时空特征和目标深层特征接入预设的分类器；

通过所述分类器输出所述目标视频中有人摔倒的第一概率，以及出现倒地伴随动作的第二概率。
一种基于行为识别模型的摔倒动作判定装置，其特征在于，所述装置包括：

第一获取模块，用于获取摄像头拍摄的目标视频；

第二获取模块，用于从所述目标视频中得到目标待分析视频；

第三获取模块，用于将所述目标待分析视频分为N个片段，并从每个所述片段中随机抽取一帧图像作为待识别图像，其中，N为大于1的整数；

概率输出模块，用于将所述待识别图像输入到预先训练的行为识别模型中，通过所述行为识别模型输出所述目标视频中有人摔倒的第一概率，以及出现倒地伴随动作的第二概率；

第四获取模块，用于根据所述第一概率和所述第二概率得到综合期望概率；

判定模块，用于当所述综合期望概率大于预设阈值时，判定在所述目标视频中出现有人摔倒的情况。
根据权利要求6所述的装置，其特征在于，所述目标待分析视频的时长为用户预设时长，所述第二获取模块具体用于：

确定新旧图像临界时刻，其中，所述新旧图像临界时刻用于将所述目标视频分为第一图像组和第二图像组，所述第一图像组中任一图像获取的时刻小于所述第二图像组中任一图像获取的时刻；

从所述第一图像组中获取第一目标视频，其中，所述第一目标视频中最后一帧所对应的图像对应的时刻为所述新旧图像临界时刻，所述第一目标视频的长度为所述用户预设时长的一半；

从所述第二图像组中获取第二目标视频，其中，所述第二目标视频中第一帧所对应的图像对应的时刻为所述新旧图像临界时刻，所述第二目标视频的长度为所述用户预设时长的一半；

按照时间的先后顺序组合所述第一目标视频和所述第二目标视频，得到所述目标待分析视频。
根据权利要求6所述的装置，其特征在于，所述行为识别模型采用训练模块得到，所述训练模块具体用于：

获取预设数量的摔倒视频作为样本视频，其中，所述摔倒视频的时长预先处理为等长，且所述摔倒视频的时长与所述目标待分析视频的时长相同；

将每个样本视频分为N个样本片段，并从每个所述样本片段中随机抽取一帧图像作为待训练图像，其中，N为大于1的整数；

采用2D卷积神经网络分别提取每个所述待训练图像的特征，得到每个所述待训练图像的特征图像；

根据N个所述样本片段对应的所述特征图像得到时空关系特征图组；

采用3D卷积神经网络提取所述时空关系特征图组的时空特征；

采用2D卷积神经网络提取所述时空关系特征图组的深层特征；

将所述时空特征和所述深层特征接入预设的分类器；

通过所述分类器输出所述样本视频中有人摔倒的第一概率以及出现倒地伴随动作的第二概率；

采用预定义的损失函数，根据所述样本视频的标签值、以及所述第一概率和所述第二概率得到在模型训练过程中产生的损失值；

根据所述损失值，采用反向传播算法更新模型的网络参数，得到所述行为识别模型。
根据权利要求8所述的装置，其特征在于，所述第N个特征图像的大小表示为K×A×B，所述K为特征图像通道数，所述A×B为特征图像像素面积，所述第N个特征图像表示为

所述根据N个所述样本片段对应的所述特征图像得到时空关系特征图组，包括：

将N个所述样本片段对应的所述特征图像进行堆叠，得到表示为{M ¹，M ²，……，M ^N-1，M ^N}的所述时空关系特征图组，其中，堆叠后的
根据权利要求6-9任意一项所述的装置，其特征在于，所述概率输出模块具体用于：

采用2D卷积神经网络分别提取每个所述待识别图像的特征，得到每个所述待识别图像的特征图像；

根据N个所述片段对应的所述特征图像得到目标时空关系特征图组；

采用3D卷积神经网络提取所述目标时空关系特征图组的目标时空特征；

采用2D卷积神经网络提取所述目标时空关系特征图组的目标深层特征；

将所述目标时空特征和目标深层特征接入预设的分类器；

通过所述分类器输出所述目标视频中有人摔倒的第一概率，以及出现倒地伴随动作的第二概率。
一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如下步骤：

获取摄像头拍摄的目标视频；

从所述目标视频中得到目标待分析视频；

将所述目标待分析视频分为N个片段，并从每个所述片段中随机抽取一帧图像作为待识别图像，其中，N为大于1的整数；

将所述待识别图像输入到预先训练的行为识别模型中，通过所述行为识别模型输出所述目标视频中有人摔倒的第一概率，以及出现倒地伴随动作的第二概率；

根据所述第一概率和所述第二概率得到综合期望概率；

当所述综合期望概率大于预设阈值时，判定在所述目标视频中出现有人摔倒的情况。
根据权利要求11所述的计算机设备，其特征在于，所述目标待分析视频的时长为用户预设时长，所述处理器执行所述计算机可读指令实现从所述目标视频中得到目标待分析视频时，包括如下步骤：

确定新旧图像临界时刻，其中，所述新旧图像临界时刻用于将所述目标视频分为第一图像组和第二图像组，所述第一图像组中任一图像获取的时刻小于所述第二图像组中任一图像获取的时刻；

从所述第一图像组中获取第一目标视频，其中，所述第一目标视频中最后一帧所对应的图像对应的时刻为所述新旧图像临界时刻，所述第一目标视频的长度为所述用户预设时长的一半；

从所述第二图像组中获取第二目标视频，其中，所述第二目标视频中第一帧所对应的图像对应的时刻为所述新旧图像临界时刻，所述第二目标视频的长度为所述用户预设时长的一半；

按照时间的先后顺序组合所述第一目标视频和所述第二目标视频，得到所述目标待分析视频。
根据权利要求11所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令还实现如下步骤：

在预先训练行为识别模型时，获取预设数量的摔倒视频作为样本视频，其中，所述摔倒视频的时长预先处理为等长，且所述摔倒视频的时长与所述目标待分析视频的时长相同；

将每个样本视频分为N个样本片段，并从每个所述样本片段中随机抽取一帧图像作为待训练图像，其中，N为大于1的整数；

采用2D卷积神经网络分别提取每个所述待训练图像的特征，得到每个所述待训练图像的特征图像；

根据N个所述样本片段对应的所述特征图像得到时空关系特征图组；

采用3D卷积神经网络提取所述时空关系特征图组的时空特征；

采用2D卷积神经网络提取所述时空关系特征图组的深层特征；

将所述时空特征和所述深层特征接入预设的分类器；

通过所述分类器输出所述样本视频中有人摔倒的第一概率以及出现倒地伴随动作的第二概率；

采用预定义的损失函数，根据所述样本视频的标签值、以及所述第一概率和所述第二概率得到在模型训练过程中产生的损失值；

根据所述损失值，采用反向传播算法更新模型的网络参数，得到所述行为识别模型。
根据权利要求13所述的计算机设备，其特征在于，所述第N个特征图像的大小表示为K×A×B，所述K为特征图像通道数，所述A×B为特征图像像素面积，所述第N个特征图像表示为
所述根据N个所述样本片段对应的所述特征图像得到时空关系特征图组，包括：

将N个所述样本片段对应的所述特征图像进行堆叠，得到表示为{M ¹，M ²，……，M ^N-1，M ^N}的所述时空关系特征图组，其中，堆叠后的
根据权利要求11-14任意一项所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令实现通过所述行为识别模型输出所述目标视频中有人摔倒的第一概率，以及出现倒地伴随动作的第二概率时，包括如下步骤：

采用2D卷积神经网络分别提取每个所述待识别图像的特征，得到每个所述待识别图像的特征图像；

根据N个所述片段对应的所述特征图像得到目标时空关系特征图组；

采用3D卷积神经网络提取所述目标时空关系特征图组的目标时空特征；

采用2D卷积神经网络提取所述目标时空关系特征图组的目标深层特征；

将所述目标时空特征和目标深层特征接入预设的分类器；

通过所述分类器输出所述目标视频中有人摔倒的第一概率，以及出现倒地伴随动作的第二概率。
一种计算机非易失性可读存储介质，所述计算机非易失性可读存储介质存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现如下步骤：

获取摄像头拍摄的目标视频；

从所述目标视频中得到目标待分析视频；

将所述目标待分析视频分为N个片段，并从每个所述片段中随机抽取一帧图像作为待识别图像，其中，N为大于1的整数；

将所述待识别图像输入到预先训练的行为识别模型中，通过所述行为识别模型输出所述目标视频中有人摔倒的第一概率，以及出现倒地伴随动作的第二概率；

根据所述第一概率和所述第二概率得到综合期望概率；

当所述综合期望概率大于预设阈值时，判定在所述目标视频中出现有人摔倒的情况。
根据权利要求16所述的计算机非易失性可读存储介质，其特征在于，所述目标待分析视频的时长为用户预设时长，所述计算机可读指令被一个或多个处理器执行实现从所述目标视频中得到目标待分析视频时，包括如下步骤：

确定新旧图像临界时刻，其中，所述新旧图像临界时刻用于将所述目标视频分为第一图像组和第二图像组，所述第一图像组中任一图像获取的时刻小于所述第二图像组中任一图像获取的时刻；

从所述第一图像组中获取第一目标视频，其中，所述第一目标视频中最后一帧所对应的图像对应的时刻为所述新旧图像临界时刻，所述第一目标视频的长度为所述用户预设时长的一半；

从所述第二图像组中获取第二目标视频，其中，所述第二目标视频中第一帧所对应的图像对应的时刻为所述新旧图像临界时刻，所述第二目标视频的长度为所述用户预设时长的一半；

按照时间的先后顺序组合所述第一目标视频和所述第二目标视频，得到所述目标待分析视频。
根据权利要求16所述的计算机非易失性可读存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行还实现如下步骤：

在预先训练行为识别模型时，获取预设数量的摔倒视频作为样本视频，其中，所述摔倒视频的时长预先处理为等长，且所述摔倒视频的时长与所述目标待分析视频的时长相同；

将每个样本视频分为N个样本片段，并从每个所述样本片段中随机抽取一帧图像作为待训练图像，其中，N为大于1的整数；

采用2D卷积神经网络分别提取每个所述待训练图像的特征，得到每个所述待训练图像的特征图像；

根据N个所述样本片段对应的所述特征图像得到时空关系特征图组；

采用3D卷积神经网络提取所述时空关系特征图组的时空特征；

采用2D卷积神经网络提取所述时空关系特征图组的深层特征；

将所述时空特征和所述深层特征接入预设的分类器；

通过所述分类器输出所述样本视频中有人摔倒的第一概率以及出现倒地伴随动作的第二概率；

采用预定义的损失函数，根据所述样本视频的标签值、以及所述第一概率和所述第二概率得到在模型训练过程中产生的损失值；

根据所述损失值，采用反向传播算法更新模型的网络参数，得到所述行为识别模型。
根据权利要求18所述的计算机非易失性可读存储介质，其特征在于，所述第N个特征图像的大小表示为K×A×B，所述K为特征图像通道数，所述A×B为特征图像像素面积，所述第N个特征图像表示为
所述根据N个所述样本片段对应的所述特征图像得到时空关系特征图组，包括：

将N个所述样本片段对应的所述特征图像进行堆叠，得到表示为{M ¹，M ²，……，M ^N-1，M ^N}的所述时空关系特征图组，其中，堆叠后的
根据权利要求16-19任意一项所述的计算机非易失性可读存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行实现通过所述行为识别模型输出所述目标视频中有人摔倒的第一概率，以及出现倒地伴随动作的第二概率时，包括如下步骤：

采用2D卷积神经网络分别提取每个所述待识别图像的特征，得到每个所述待识别图像的特征图像；

根据N个所述片段对应的所述特征图像得到目标时空关系特征图组；

采用3D卷积神经网络提取所述目标时空关系特征图组的目标时空特征；

采用2D卷积神经网络提取所述目标时空关系特征图组的目标深层特征；

将所述目标时空特征和目标深层特征接入预设的分类器；

通过所述分类器输出所述目标视频中有人摔倒的第一概率，以及出现倒地伴随动作的第二概率。