WO2020211242A1

WO2020211242A1 - 一种基于行为识别的方法、装置及存储介质

Info

Publication number: WO2020211242A1
Application number: PCT/CN2019/102980
Authority: WO
Inventors: 李岩山; 郭天宇; 夏荣杰; 刘星; 徐健杰
Original assignee: 深圳大学
Priority date: 2019-04-15
Filing date: 2019-08-28
Publication date: 2020-10-22
Also published as: CN110197116A; CN110197116B

Abstract

本发明公开了一种行为识别的方法、装置及存储介质，其中，本发明能够使用骨架序列空间金字塔模型来建模骨架序列的空间信息，该模型有效地表示了骨架序列帧内的空间信息。其次，本发明融入帧间信息形成骨架序列的时空信息，从而本发明可以更好地将骨架序列的时空信息送入深度神经网络进行学习和分类，因此，本发明能够基于空间金字塔的思想，使用坐标系分层次地表示骨架序列的潜在空间关系并形成骨架序列的时空特征，再将时空特征送入神经网络分析，从而实现人体行为的识别。

Description

一种基于行为识别的方法、装置及存储介质

技术领域

本发明涉及图像识别技术领域，尤其涉及一种基于行为识别的方法、装置及存储介质。

背景技术

近年来，行为识别在智能监控、人机交互、虚拟现实等方面有着广泛应用。在现有技术中，行为识别主要依赖于手工特征，这样由原始关节点的坐标提取出来的特征有着很强的物理意义，能够很直观而且有效地表示骨架的空间信息和时间信息，但也具有相对的局限性，无法表征出更深层次的关系，而且相关的复杂数学计算拖慢了计算速度。另一方面，一些端到端的深度学习网络从原始的数据出发，在行为识别任务上具有更好的表现，比如常用的CNN(Convolutional Neural Networks，卷积神经网络)和LSTM(Long Short-Term Memory，长短期记忆网络)，但同样面临着计算量大以及表征意义不明确等挑战。

发明内容

本发明所要解决的技术问题在于，提供一种基于行为识别的方法、装置及存储介质一种基于行为识别的方法、装置及存储介质，用于识别人体行为。

本发明第一方面公开了一种人体行为识别方法，该方法包括：

基于骨架样本，按照预设的建模规则建立人体行为识别模型，所述识别模型包括若个子骨架关节点及每个子骨架关节点对应的权重；

获取目标骨架的图像信息，其中，所述图像信息包括若干帧图像；

使用所述识别模型分析所述若干帧图像，并生成所述若干帧图像中每一帧图像对应的空间特征；

按照预设的图像处理规则对所述每一帧图像对应的所述空间特征进行处理，并生成所述每一帧图像对应的RGB像素信息；

按照时间先后顺序对所述若干帧图像中的所述每一帧图像对应的所述RGB像素信息进行排列，并将排列结果标记为所述目标骨架的时空特征；

使用预设的神经网络对所述时空特征进行分析，并根据分析结果确定所述目标骨架对应的行为标签。

在本发明第一方面中，可选地，所述按照预设的建模规则建立人体行为识别模型，包括：

按照预设的划分尺度将所述骨架样本划分为若干层子骨架样本，其中，所述若干层子骨架样本中的每一层子骨架样本均包括至少一个子骨架关节点；

按照预设的权重匹配规则设置所述每一层子骨架样本对应的权重，其中，层级越高的子骨架样本的权重越高；

加权所述每一层子骨架样本对应的权重，并根据加权结果确定所述识别模型。

在本发明第一方面中，可选地，所述按照预设的图像处理规则对所述每一帧图像对应的所述空间特征进行处理，包括：

建立正交平面坐标系，其中，所述平面坐标系中的x轴都表示R通道，所述平面坐标系中的y轴都表示G通道,所述平面坐标系中的z轴表示B通道；

获取所述每一帧图像在所述正交平面坐标系上形成的投影，其中，所述投影包括所述每一帧图像在所述R通道上的像素值、所述每一帧图像在所述G通道上的像素值和所述每一帧图像在所述B通道上的像素值；

基于所述每一帧图像在所述R通道上的像素值、所述每一帧图像在所述G通道上的像素值和所述每一帧图像在所述B通道上的像素值，生成所述RGB像素信息。

在本发明第一方面中，可选地，所述神经网络包括卷积器、完全连接器、过滤器。

在本发明第一方面中，可选地，所述预设的神经网络对所述时空特征进行分析，包括：

使用卷积器对所述时空特征进行卷积计算并生成卷积结果；

将所述卷积结果输入所述完全连接层，以使得所述完全连接层对所述卷积结果进行处理；

使用过滤器对所述完全连接层的处理结果进行过滤。

在本发明第一方面中，可选地，所述卷积器的数量为5个，所述完全连接层的数量为3个。

在本发明第一方面中，可选地，所述完全连接层包括4096个神经元。

在本发明第一方面中，可选地，在所述使用识别模型分析所述若干帧图像之前，所述方法还包括：

按照预设的图像调整规则调整所述若干帧图像的规格。

本发明第二方面公开了一种人体行为识别装置，该装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如本发明第一方面所述的人体识别方法。

本发明第三方面公开了一种计算机可读存储介质，所述计算机可读存储介质中存储有批处理日志查询程序，所述批处理日志查询程序被处理器执行时，执行本发明第一方面所述的人体识别方法。

与现有技术相比，本发明具有如下有益效果：

本发明将空间金字塔的思想运用到骨架行为识别上，首先，本发明使用骨架序列空间金字塔模型来建模骨架序列的空间信息，该模型有效地表示了骨架序列帧内的空间信息。其次，本发明融入帧间信息形成骨架序列的时空信息，从而本发明可以更好地将骨架序列的时空信息送入深度神经网络进行学习和分类，因此，本发明能够基于空间金字塔的思想，使用坐标系分层次地表示骨架序列的潜在空间关系并形成骨架序列的时空特征，再将时空特征送入神经网络分析，从而实现人体行为的识别。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种人体行为识别方法的流程示意图；

图2是本发明实施例公开的识别模型的示意图；

图3是本发明实施例公开的正交平面坐标系的示意图；

图4是本发明实施例公开的神经网络的结构示意图；

图5是本发明实施例公开的一种人体行为识别装置的结构示意图。

具体实施方式

为了更好地理解和实施，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

请参阅图1，图1是本发明实施例公开的一种人体行为识别方法的流程示意图，如图1所示，该人体行为识别方法包括以下步骤：

101、基于骨架样本，按照预设的建模规则建立人体行为识别模型，识别模型包括若个子骨架关节点及每个子骨架关节点对应的权重。

示例性地，请参阅图2，图2是识别模型的示意图。基于图2，骨架样本用S表示，且基于空间金字塔的思想确定尺度集{0,1,...,L}，然后使用尺度集{0,1,...,L}将S进行划分成若干个子骨架；用F ^l表示骨架S在l层的特征，且尺度l下的特征权重w _l可由公式(1)得到：

进而，根据公式(1)，骨架样本S在一帧内的空间特征F可以用公式(2)表示，即：

其中，公式(2)可以作为识别目标骨架的识别模型，且该识别模型能够将目标骨架在不同层次的空间特征加权聚集在一起，进而，目标骨架的细节特征被放大，从而通过识别目标骨架的特征识别人体行为。

102、获取目标骨架的图像信息，其中，图像信息包括若干帧图像。

103、使用识别模型分析若干帧图像，并生成若干帧图像中每一帧图像对应的空间特征。

104、按照预设的图像处理规则对每一帧图像对应的空间特征进行处理，并生成每一帧图像对应的RGB像素信息。

105、按照时间先后顺序对若干帧图像中的每一帧图像对应的RGB像素信息进行排列，并将排列结果标记为目标骨架的时空特征。

在一些实施方式中，可选地，按照预设的图像处理规则对每一帧图像对应的空间特征进行处理，包括：

建立正交平面坐标系，其中，平面坐标系中的x轴都表示R通道，平面坐标系中的y轴都表示G通道,平面坐标系中的z轴表示B通道；

获取每一帧图像在正交平面坐标系上形成的投影，其中，投影包括每一帧图像在R通道上的像素值、每一帧图像在G通道上的像素值和每一帧图像在B通道上的像素值；

基于每一帧图像在R通道上的像素值、每一帧图像在G通道上的像素值和每一帧图像在B通道上的像素值，生成RGB像素信息。

示例性地，请参阅图3，图3是正交平面坐标的示意图，其中，平面坐标系中的x轴都表示R通道，平面坐标系中的y轴都表示G通道,平面坐标系中的z轴表示B通。另一方面，用P _R表示每一帧图像在R通道上的像素值，P _G表示每一帧图像在G通道上的像素值，P _B表示每一帧图像在B通道上的像素值，且P _R、P _G、P _B可以通过公式(3)、公式(4)、公式(5)计算确定，即:

106、使用预设的神经网络对时空特征进行分析，并根据分析结果确定目标骨架对应的行为标签。

在一些实施方式中，可选地，按照预设的建模规则建立人体行为识别模型，包括：

按照预设的划分尺度将骨架样本划分为若干层子骨架样本，其中，若干层子骨架样本中的每一层子骨架样本均包括至少一个子骨架关节点；

按照预设的权重匹配规则设置每一层子骨架样本对应的权重，其中，层级越高的子骨架样本的权重越高；

加权每一层子骨架样本对应的权重，并根据加权结果确定识别模型。

如图4所示，在一些实施方式中，可选地，神经网络包括卷积器、完全连接器、过滤器。

在一些实施方式中，可选地，使用预设的神经网络对时空特征进行分析，包括：

使用卷积器对时空特征进行卷积计算并生成卷积结果；

将卷积结果输入完全连接层，以使得完全连接层对卷积结果进行处理；

使用过滤器对完全连接层的处理结果进行过滤。

在一些实施方式中，可选地，卷积器的数量为5个，完全连接层的数量为3个。

在一些实施方式中，可选地，完全连接层包括4096个神经元。

在一些实施方式中，可选地，在使用识别模型分析若干帧图像之前，一种人体行为识别方法还包括:

按照预设的图像调整规则调整若干帧图像的规格。

可见，本发明实施例的一种人体识别装置将空间金字塔的思想运用到骨架行为识别上，首先，本发明使用骨架序列空间金字塔模型来建模骨架序列的空间信息，该模型有效地表示了骨架序列帧内的空间信息。其次，本发明实施例融入帧间信息形成骨架序列的时空信息，从而本发明实施例可以更好地将骨架序列的时空信息送入深度神经网络进行学习和分类，因此，本发明实施例能够基于空间金字塔的思想，使用坐标系分层次地表示骨架序列的潜在空间关系并形成骨架序列的时空特征，再将时空特征送入神经网络分析，从而实现人体行为的识别。

实施例二

请参阅图5，图5是本发明实施例公开了一种人体识别装置的结构示意图，其中，该装置包括构建模块201、获取模块202、第一分析模块203、图像处理模块204、排序模块205、第二分析模块206，其中：

构建模块201，用于基于骨架样本，按照预设的建模规则建立人体行为识别模型，识别模型包括若个子骨架关节点及每个子骨架关节点对应的权重。

获取模块202，用于在构建模块201按照预设的建模规则建立人体行为识别模型之后，获取目标骨架的图像信息，其中，图像信息包括若干帧图像。

第一分析模块203，用于使用识别模型分析若干帧图像，并生成若干帧图像中每一帧图像对应的空间特征。

图像处理模块204，用于按照预设的图像处理规则对每一帧图像对应的空间特征进行处理，并生成每一帧图像对应的RGB像素信息。

排序模块205，用于按照时间先后顺序对若干帧图像中的每一帧图像对应的RGB像素信息进行排列，并将排列结果标记为目标骨架的时空特征。

在一些实施方式中，可选地，图像处理模块204执行按照预设的图像处理规则对每一帧图像对应的空间特征进行处理，包括以下子步骤：

第二分析模块206，用于使用预设的神经网络对时空特征进行分析，并根据分析结果确定目标骨架对应的行为标签。

在一些实施方式中，可选地，构建模块201执行按照预设的建模规则建立人体行为识别模型，包括以下子步骤：

在一些实施方式中，可选地，第二分析模块206执行使用预设的神经网络对时空特征进行分析，包括以下操作：

使用卷积器对时空特征进行卷积计算并生成卷积结果；

使用过滤器对完全连接层的处理结果进行过滤。

在一些实施方式中，可选地，完全连接层包括4096个神经元。

在一些实施方式中，可选地，一种人体行为识别装置还包括预处理模块，其中，预处理模块用于在第一分析模块203使用识别模型分析若干帧图像之前，按照预设的图像调整规则调整若干帧图像的规格。

实施例三

本发明实施例公开的一种人体行为识别装置的结构示意图，该装置可以包括：

存储有可执行程序代码的存储器；

与存储器耦合的处理器；

处理器调用存储器中存储的可执行程序代码，执行实施例一所描述的一种人体行为识别方法中的步骤。

本发明实施例的一种人体识别装置将空间金字塔的思想运用到骨架行为识别上，首先，本发明使用骨架序列空间金字塔模型来建模骨架序列的空间信息，该模型有效地表示了骨架序列帧内的空间信息。其次，本发明实施例融入帧间信息形成骨架序列的时空信息，从而本发明实施例可以更好地将骨架序列的时空信息送入深度神经网络进行学习和分类，因此，本发明实施例能够基于空间金字塔的思想，使用坐标系分层次地表示骨架序列的潜在空间关系并形成骨架序列的时空特征，再将时空特征送入神经网络分析，从而实现人体行为的识别。

实施例四

本发明实施例公开了一种计算机可读存储介质，其存储用于电子数据交换的计算机程序，其中，该计算机程序使得计算机执行实施例一所描述的一种人体行为识别方法中的步骤。

本发明实施例的一种计算机可读存储介质通过执行一种人体行为识别方法，将空间金字塔的思想运用到骨架行为识别上，首先，本发明实施例使用骨架序列空间金字塔模型来建模骨架序列的空间信息，该模型有效地表示了骨架序列帧内的空间信息。其次，本发明实施例融入帧间信息形成骨架序列的时空信息，从而本发明实施例可以更好地将骨架序列的时空信息送入深度神经网络进行学习和分类，因此，本发明能够基于空间金字塔的思想，使用坐标系分层次地表示骨架序列的潜在空间关系并形成骨架序列的时空特征，再将时空特征送入神经网络分析，从而实现人体行为的识别。

实施例五

本发明实施例公开了一种计算机程序产品，该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，且该计算机程序可操作来使计算机执行实施例一所描述的一种人体行为识别方法中的步骤。

以上所描述的装置实施例仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施例的具体描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

最后应说明的是：本发明实施例公开的一种人体行为识别方法及装置所揭露的仅为本发明较佳实施例而已，仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各项实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims

一种人体行为识别方法，其特征在于，所述方法包括：

基于骨架样本，按照预设的建模规则建立人体行为识别模型，所述识别模型包括若干层子骨架关节点及每层子骨架关节点对应的权重；

获取目标骨架的图像信息，其中，所述图像信息包括若干帧图像；

使用所述识别模型分析所述若干帧图像，并生成所述若干帧图像中每一帧图像对应的空间特征；

按照预设的图像处理规则对所述每一帧图像对应的所述空间特征进行处理，并生成所述每一帧图像对应的RGB像素信息；

按照时间先后顺序对所述若干帧图像中的所述每一帧图像对应的所述RGB像素信息进行排列，并将排列结果标记为所述目标骨架的时空特征；

使用预设的神经网络对所述时空特征进行分析，并根据分析结果确定所述目标骨架对应的行为标签。
如权利要求1所述的方法，其特征在于，所述按照预设的建模规则建立人体行为识别模型，包括：

按照预设的划分尺度将所述骨架样本划分为若干层子骨架样本，其中，所述若干层子骨架样本中的每一层子骨架样本均包括至少一个子骨架关节点；

按照预设的权重匹配规则设置所述每一层子骨架样本对应的权重，其中，层级越高的子骨架样本的权重越高；

加权所述每一层子骨架样本对应的权重，并根据加权结果确定所述识别模型。
如权利要求1所述的方法，其特征在于，所述按照预设的图像处理规则对所述每一帧图像对应的所述空间特征进行处理，包括：

建立正交平面坐标系，其中，所述平面坐标系中的x轴都表示R通道，所述平面坐标系中的y轴都表示G通道,所述平面坐标系中的z轴表示B通道；

获取所述每一帧图像在所述正交平面坐标系上形成的投影，其中，所述投影包括所述每一帧图像在所述R通道上的像素值、所述每一帧图像在所述G通道上的像素值和所述每一帧图像在所述B通道上的像素值；

基于所述每一帧图像在所述R通道上的像素值、所述每一帧图像在所述G通道上的像素值和所述每一帧图像在所述B通道上的像素值，生成所述RGB像素信息。
如权利要求1所述的方法，其特征在于，所述神经网络包括卷积器、完全连接器、过滤器。
如权利要求4所述的方法，其特征在于，所述使用预设的神经网络对所述时空特征进行分析，包括：

使用卷积器对所述时空特征进行卷积计算并生成卷积结果；

将所述卷积结果输入所述完全连接层，以使得所述完全连接层对所述卷积结果进行处理；

使用过滤器对所述完全连接层的处理结果进行过滤。
如权利要求4所述的方法，其特征在于，所述卷积器的数量为5个，所述完全连接层的数量为3个。
如权利要求4所述的方法，其特征在于，所述完全连接层包括4096个神经元。
如权利要求1所述的方法，其特征在于，在所述使用识别模型分析所述若干帧图像之前，所述方法还包括:

按照预设的图像调整规则调整所述若干帧图像的规格。
一种人体行为识别装置，其特征在于，所述装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如权利要求1-8任一项所述的人体识别方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有批处理日志查询程序，所述批处理日志查询程序被处理器执行时，执行如权利要求1-8任一项所述的人体识别方法。