WO2022000420A1 - 人体动作识别方法、人体动作识别系统及设备 - Google Patents

人体动作识别方法、人体动作识别系统及设备 Download PDF

Info

Publication number
WO2022000420A1
WO2022000420A1 PCT/CN2020/099920 CN2020099920W WO2022000420A1 WO 2022000420 A1 WO2022000420 A1 WO 2022000420A1 CN 2020099920 W CN2020099920 W CN 2020099920W WO 2022000420 A1 WO2022000420 A1 WO 2022000420A1
Authority
WO
WIPO (PCT)
Prior art keywords
human
human body
joint point
vector
graph
Prior art date
Application number
PCT/CN2020/099920
Other languages
English (en)
French (fr)
Inventor
周泓
杨诚
Original Assignee
浙江大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 浙江大学 filed Critical 浙江大学
Priority to CN202080006320.1A priority Critical patent/CN113196289B/zh
Priority to PCT/CN2020/099920 priority patent/WO2022000420A1/zh
Publication of WO2022000420A1 publication Critical patent/WO2022000420A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Definitions

  • the present invention relates to the technical field of image processing, in particular to a human body action recognition method, a human body action recognition system, and a human body action recognition method and equipment.
  • the action recognition methods in the field of human body recognition mainly include human action recognition based on RGB images and human action recognition based on human bones.
  • RGB image sequences takes RGB image sequences as input
  • the best method now usually uses convolutional neural networks for end-to-end training and learning, that is, feature extraction and action classification are completed at the same time.
  • the advantage of this method is that it extracts the features of the entire environment and provides more complete information for accurate human action recognition.
  • this method extracts the features of the entire environment that it is difficult to extract features for the human body itself.
  • the accuracy of human action recognition is greatly affected by the environment, such as illumination changes, occlusions and other factors, which lack robustness.
  • Action learning based on human skeleton takes the sequence of human joint points as input. These inputs only contain more abstract information such as 2D or 3D coordinates of key points of the human body, which reduces the influence of environmental noise and can build a more robust action algorithm.
  • the recognition accuracy of some human actions that require environmental information is poor. Because the meaning of action is not entirely defined by the movement of the human body. In the real world, actions may have different meanings in different environments. In order to achieve accurate human action recognition, we need environmental information as auxiliary information, and human action recognition based on human bones lacks all the environment. information.
  • the present invention provides a human action recognition method, a human action recognition system, equipment and a readable storage medium.
  • the model is constructed based on the human action recognition of the human skeleton, and the environmental information is encoded in a suitable manner. In the model, it is robust to environmental changes and can make full use of environmental information for human action recognition.
  • an embodiment of the present invention provides a method for human action recognition, including:
  • the specific steps of acquiring the action category include:
  • the third vector is input into the classifier to obtain the predicted action category.
  • the specific steps of using the human body joint point sequence to construct a human body joint point map include:
  • E 1 and the state of the joints between the different frames connected state E D E 1 is the physical connection between the various joints of the frame image, E D is connected between a joint point different frames of the same, in order to facilitate subsequent A virtual physical connection defined by capturing timing features; in the implementation process, an N ⁇ N adjacency matrix A is used to represent the connection state of joint points in the same frame. If there is a physical connection between joint point i and joint point j, Aij is 1, otherwise 0.
  • the specific steps of generating the second vector include:
  • a graph convolutional neural network consists of a stack of graph convolutional layers, each of which performs the same operation;
  • each graph convolution layer two different dimensions of operations are performed, one is to perform a graph convolution operation in the spatial dimension, and the other is to perform an ordinary convolution operation in the time dimension;
  • the specific steps of performing the graph convolution operation in the spatial dimension include:
  • I represents the identity matrix
  • A is the adjacency matrix
  • D is the degree matrix
  • D ii ⁇ i (A ij +I ij )
  • Xin is the input, which is an N ⁇ U tensor
  • W is the graph convolution layer The weight parameter used to transform the feature.
  • the specific steps of performing ordinary convolution operations in the time dimension include:
  • a general convolution operation is performed on the same joint between adjacent frames to capture the changes of each joint over time.
  • the specific steps of obtaining the first vector include:
  • the present invention also provides a human action recognition system, comprising:
  • the video frame acquisition module is used to acquire the video containing human action behavior, and resample and preprocess the video frame;
  • the image feature extraction module is used to extract the image features of the video frame
  • the human body joint point sequence extraction module is used to obtain the human body joint point sequence corresponding to the video frame based on the human skeleton information
  • the action category acquisition module inputs the image feature and the human body joint point sequence into the deep neural network to acquire the action category.
  • An embodiment of the present invention further provides a human motion recognition device, the human motion recognition device includes: a memory, a processor, and a human motion recognition program stored in the memory and executable on the processor, the When the human action recognition program is executed by the processor, the steps of the above-mentioned human action recognition method are implemented.
  • An embodiment of the present invention further provides a computer-readable storage medium, where a human motion recognition program is stored on the computer-readable storage medium, and when the human motion recognition program is executed by a processor, the steps of the above-mentioned method for human motion recognition are implemented. .
  • the image features and the human body joint point sequence are input into the graph convolutional neural network to predict the action category.
  • the point sequence builds a model, which is robust to environmental changes and can make full use of environmental information for human action recognition with high accuracy.
  • FIG. 1 is a schematic flowchart of a human motion recognition method provided by an embodiment of the present invention
  • FIG. 2 is a schematic flowchart of a specific method for obtaining an action category provided by an embodiment of the present invention
  • FIG. 3 shows a human body joint point diagram constructed by an embodiment of the present invention
  • FIG. 4 is a structural block diagram of a human motion recognition system provided by an embodiment of the present invention.
  • the embodiment of the present invention mainly builds a model based on human action recognition of human skeleton, encodes environmental information into the model in an appropriate manner, and realizes human action recognition that is robust to environmental changes and can fully utilize environmental information.
  • FIG. 1 is a schematic flowchart of a human motion recognition method according to an embodiment of the present invention, which specifically includes:
  • Step S10 acquiring a video containing human action behaviors, and performing resampling and preprocessing on the video frame;
  • Step S20 extracting the image feature of the video frame
  • Step S30 obtaining the human body joint point sequence corresponding to the video frame based on the human skeleton information
  • Step S40 inputting the image feature and the human body joint point sequence into a graph convolutional neural network to obtain an action category.
  • step S10 is performed, and video frame resampling and preprocessing are performed on the video including the human action behavior.
  • the image library of opencv is used to sample the video, 25 frames are sampled per second, and the video frame image sequence is obtained by arranging in chronological order. Handle scaling so that all images have a resolution of 224*224.
  • image libraries can also be used to sample the video, and the resolution can also be set to other values.
  • Step S20 is performed, and n pictures are randomly selected from the video frame image sequence obtained in step S101, and image features of the video frames are extracted respectively.
  • 3 pictures are selected to extract image features, and in other embodiments, there may also be 4 pictures, 5 pictures, 6 pictures, and so on. However, if the number is too large, too much calculation amount will be introduced, which is not very necessary. Therefore, in this embodiment, three pictures are selected for extraction.
  • the image features of the extracted video frames specifically include:
  • the ResNet-50 residual network is used for image feature extraction.
  • other traditional feature descriptions such as SIFT algorithm, can also be used to extract features, and other pre-trained deep models such as Extract features such as VGG-19 and ResNet-152.
  • the environment vector X con is input to an encoder composed of two fully connected layers, and a K-dimensional first vector X C is output.
  • Step S30 is executed to obtain the human body joint point sequence corresponding to the video frame based on the human body skeleton information.
  • an openpose algorithm is used to obtain a sequence of human joint points from the selected pictures, and each picture detects 15 joint points.
  • the openpose algorithm is an open source algorithm for human pose estimation proposed by Carnegie Mellon University, which is used for Detect human joint points and output the 2D or 3D coordinates of human joint points.
  • Step S40 is performed, and the image features and the human body joint point sequence are input into a graph convolutional neural network to obtain an action category.
  • Step S41 Obtain a first vector, where the first vector represents an image feature of the video frame.
  • the environment vector X con is input to an encoder composed of two fully connected layers, and a K-dimensional first vector X c is output.
  • the subsequent feature fusion will be difficult to learn. Since it is difficult to accurately map features from two different spaces to the same space, learnable encoders are used to learn from the data how to map features extracted by two different networks into the same latent space.
  • the acquisition of the first vector and the second vector is in no order, and can be performed simultaneously or in any order.
  • Step S42 using the human body joint point sequence to construct a human body joint point graph.
  • Step S43 inputting the human body joint point graph into a graph convolutional neural network to generate a second vector.
  • the graph convolutional neural network is formed by stacking graph convolutional layers, and each graph convolutional layer performs the same operation; in each graph convolutional layer, two operations of different dimensions are performed, one is in the space The graph convolution operation is performed in the dimension, and the ordinary convolution operation is performed in the time dimension;
  • the specific steps of performing the graph convolution operation in the spatial dimension include:
  • I represents the unit matrix, that is, the diagonal element is a matrix with 1 and the other elements are 0.
  • the specific steps of performing ordinary convolution operations in the time dimension include:
  • a general convolution operation is performed on the same joint between adjacent frames to capture the changes of each joint over time.
  • the reason why different convolution operations are performed in two different dimensions is because the main purpose of performing the convolution operation in the spatial dimension is to capture the connection between different joint points, and the purpose of performing the convolution operation in the time dimension is to capture the joint points. moving with time. Doing two different convolutions in two dimensions is because the action is a dynamic process, which consists of the relationship between the joints in space and the changes in time, and different convolutions are used because the input of the convolution is different, and the The convolution input above is different joint points at the same time, and the joint points are connected in the form of graphs, using graph convolution; in the time dimension, the input is the same joint point at different times, using conventional convolution.
  • Dimensional transformation is performed on the output of the graph neural network module to obtain a K-dimensional second vector X k .
  • the subsequent feature fusion will be difficult to learn. Since it is difficult to accurately map features from two different spaces to the same space, using a learnable encoder from the data can learn how to extract two different networks by transforming into a second vector of the same dimension as the first vector. The features are mapped into the same latent space.
  • Step S44 the first vector and the second vector are connected and input into the fully connected layer to generate a third vector.
  • the first vector X c and the second vector X k are connected and input to a fully connected layer with Q neurons, and a Q-dimensional third vector X q is output.
  • Step S45 the third vector is input into the classifier to obtain the predicted action category.
  • the present invention utilizes both environmental information and human skeleton information, thereby ensuring that the model is robust to environmental changes and can fully Use environmental information.
  • the present invention also provides a human action recognition system, please refer to FIG. 4 , including:
  • the video frame acquisition module 10 is used for acquiring the video containing human action behavior, and resampling and preprocessing the video frame;
  • the image feature extraction module 20 is used to extract the image feature of the video frame
  • the human body joint point sequence extraction module 30 is used to obtain the human body joint point sequence corresponding to the video frame based on the human skeleton information;
  • the action category acquisition module 40 inputs the image feature and the human body joint point sequence into the deep neural network to acquire the action category.
  • An embodiment of the present invention further provides a human motion recognition device, the human motion recognition device includes: a memory, a processor, and a human motion recognition program stored in the memory and executable on the processor, the When the human action recognition program is executed by the processor, the steps of the above-mentioned human action recognition method are implemented.
  • An embodiment of the present invention further provides a computer-readable storage medium, where a human motion recognition program is stored thereon, and when the human motion recognition program is executed by a processor, the steps of the above-mentioned method for human motion recognition are implemented. .

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种人体动作识别方法、人体动作识别系统、设备,所述人体动作识别方法,包括:获取包含人体动作行为的视频,对视频帧进行重采样和预处理;提取视频帧的图像特征;基于人体骨骼信息获得视频帧对应人体关节点序列;将所述图像特征与所述人体关节点序列输入图卷积神经网络,获取动作类别。通过将包含有环境信息的图像特征和人体关节点序列构建模型,对环境变化鲁棒且能充分利用环境信息进行人体动作识别,准确率高。

Description

人体动作识别方法、人体动作识别系统及设备 技术领域
本发明涉及图像处理技术领域,其特别涉及一种人体动作识别方法、人体动作识别系统及人体动作识别方法设备。
背景技术
目前,人体识别领域中的动作识别方法主要包括基于RGB图像的人体动作识别和基于人体骨骼的人体动作识别。
其中,基于RGB图像的人体动作识别以RGB图像序列作为输入,现在效果最好的方法通常使用卷积神经网络进行端到端的训练与学习,即特征的提取与动作的分类同时完成。这种方法的好处在于提取了整个环境中的特征,为准确的人体动作识别提供了更加完备的信息,但是也正是由于这种方法提取的是整个环境的特征,难以针对人体本身提取特征,人体动作识别的准确率受环境的影响较大,例如受光照变化、遮挡等因素影响较大,缺乏鲁棒性。
基于人体骨骼的动作学习以人体关节点序列作为输入,这些输入仅仅包含人体关键点的2D或者3D坐标这样更加抽象的信息,减少了环境噪声的影响,可以构建鲁棒性更强的动作算法,但是缺失了环境信息,对于一些需要环境信息的人体动作识别准确率较差。因为动作的含义并不能完全由人体的运动来定义。在现实世界中,动作在不同的环境下做出可能会有不同的含义,为了做到准确的人体动作识别,我们需要环境信息作为辅助信息,而基于人体骨骼的人体动作识别缺失了所有的环境信息。
发明内容
本发明为了克服现有技术的不足,提供一种人体动作识别方法、人体动作识别系统、设备及可读存储介质,以人体骨骼的人体动作识别为主构建模型,用合适的方式将环境信息编码到模型中,实现对环境变化鲁棒且能充分利用环境信息进行人体动作识别。
为了实现上述目的,本发明实施例提供了一种人体动作识别方法,包括:
获取包含人体动作行为的视频,对视频帧进行重采样和预处理;
提取视频帧的图像特征;
基于人体骨骼信息获得视频帧对应人体关节点序列;
将所述图像特征与所述人体关节点序列输入图卷积神经网络,获取动作类别。
可选的,获取动作类别的具体步骤包括:
获取第一向量,所述第一向量表征视频帧的图像特征;
利用所述人体关节点序列构建人体关节点图;
将所述人体关节点图输入图卷积神经网络,生成第二向量;
将第一向量和第二向量进行连接并输入全连接层,生成第三向量;
将所述第三向量输入分类器,获取预测的动作类别。
可选的,利用所述人体关节点序列构建人体关节点图的具体步骤包括:
将构建的人体关节点图记为G=(V,E),其中V表示图的顶点集合,V={V ti|t=1,…,T,i=1,…,N},T表示骨骼序列的数量,N表示一张图片检测的关节点数目;V ti表示第t张图片第i个关节点,E表示图的边,由两部分组成,分别是一帧图像内关节点的连接状态E 1以及不同帧之间关节点的连接状态E D,E 1是一帧图像的不同关节点之间的物理连接状态,E D是不同帧之间同一个关节点的连接,为了方便后续捕捉时序特征而定义的一个虚拟物理连接;在实现过程中,利用一个N×N的邻接矩阵A来表示同一帧内关节点的连接状态,如果关节点i和关节点j存在物理连接则Aij为1,否则为0。
可选的,生成第二向量的具体步骤包括:
图卷积神经网络由图卷积层堆叠而成,每一层图卷积层都执行相同的操作;
在每一个图卷积层中,执行两个不同维度的操作,一个是在空间维度上执行图卷积操作,一个是在时间维度上执行普通卷积操作;
对所述图神经网络模块的输出进行变换得到第二向量。
可选的,在空间维度上执行图卷积操作的具体步骤包括:
在空间维度上,对于每一帧人体关节点图执行图卷积操作以捕获不同关节点之间的联系,具体实现如下式所示:
Figure PCTCN2020099920-appb-000001
上式中I表示单位矩阵,A是邻接矩阵,D是度矩阵,D ii=∑ i(A ij+I ij),Xin是输入,是一个N×U的张量;W是图卷积层的权重参数,用于对特征进行变换。
可选的,在时间维度上执行普通卷积操作的具体步骤包括:
在时间维度上,针对相邻帧之间的同一个关节点执行通用卷积操作以捕捉每一个关节点随着时间发生的变化。
可选的,获取第一向量的具体步骤包括:
从视频帧中选取若干图片,将所述若干图片分别输入在Imagenet图像数据集上预训练的ResNet-50残差网络,将最后一个全连接层的输出作为图片的特征,获得若干初始向量,对所述若干初始向量取平均值,得到第一向量。
本发明实施了还提供了一种人体动作识别系统,包括:
视频帧获取模块,用于获取包含人体动作行为的视频,对视频帧进行重采样和预处理;
图像特征提取模块,用于提取视频帧的图像特征;
人体关节点序列提取模块,用于基于人体骨骼信息获得视频帧对应人体关节点序列;
动作类别获取模块,将所述图像特征与所述人体关节点序列输入深度神经网络,获取动作类别。
本发明实施例还提供了一种人体动作识别设备,所述人体动作识别设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的人体动作识别程序,所述人体动作识别程序被所述处理器执行时实现上述的人体动作识别方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有人体动作识别程序,所述人体动作识别程序被处理器执行时实现上述的人体动作识别方法的步骤。
本发明有益效果:
通过提取视频帧的图像特征和人体关节点序列,将所述图像特征与所述人体关节点序列输入图卷积神经网络,进行动作类别的预测,通过将包含有环境信息的图像特征和人体关节点序列构建模型,对环境变化鲁棒且能充分利用环境信息进行人体动作识别,准确率高。
为让本发明的上述和其它目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合附图,作详细说明如下。
附图说明
图1所示为本发明一实施例提供的人体动作识别方法的流程示意图;
图2所示为本发明一实施例提供的获取动作类别具体方法的流程示意图;
图3所示为本发明一实施例所构建的人体关节点图;
图4所示为本发明一实施例提供的人体动作识别系统的结构框图。
具体实施方式
由于现有技术基于RGB图像的人体动作识别提取的是整个环境的特征,难以针对人体本身提取特征,人体动作识别的准确率受环境的影响较大,缺乏鲁棒性。而基于人体骨骼的动作学习虽然可以构建鲁棒性更强的动作算法,但是缺失了环境信息,对于一些需要环境信息的人体动作识别准确率较差。
因此,本发明实施例基于人体骨骼的人体动作识别为主构建模型,用合适的方式将环境信息编码到模型中,实现对环境变化鲁棒且能充分利用环境信息的人体动作识别。
请参考图1,为本发明实施例的人体动作识别方法的流程示意图,具体包括:
步骤S10,获取包含人体动作行为的视频,对视频帧进行重采样和预处理;
步骤S20,提取视频帧的图像特征;
步骤S30,基于人体骨骼信息获得视频帧对应人体关节点序列;
步骤S40,将所述图像特征与所述人体关节点序列输入图卷积神经网络,获取动作类别。
具体的,首先,执行步骤S10,对包含人体动作行为的视频,进行视频帧重采样和预处理。
在本实施例中,对于一段包含人体动作行为视频,使用opencv的图像库对视频进行采样,每一秒采样25帧,按时间顺序进行排列得到视频帧图像序列,同时使用opencv对所有图像进行预处理缩放,使所有图像的分辨率为224*224。
在其他实施例中,也可以采用其他图像库对视频进行采样,分辨率也可以设置为其他值。
执行步骤S20,在步骤S101中获得的视频帧图像序列中随机选择n张图片,分别提取视频帧的图像特征。在本实施例中,选择3张图片进行图像特征的提取,在其他实施例中,还可以为4张、5张、6张等。但是数量过多的话会引入过多的计算量,不是非常必要,因此本实施例选择3张图片进行提取。
在本实施例中,所述提取视频帧的图像特征具体包括:
将所述3张图片分别输入在Imagenet图像数据集上预训练的ResNet-50残差网络,将最后一个全连接层的输出作为图像特征,获得三个2048维的向量,对这三个向量取平均值,得到一个2048维的向量,将其记为环境向量X con
在本实施例中,采用ResNet-50残差网络进行图像特征提取,在其他实施例中,也可以采用其他传统的特征描述,例如SIFT算法等提取特征,也可以使用其他的预训练深度模型如VGG-19和ResNet-152等提取特征。
将所述环境向量X con输入到两层全连接层组成的编码器,输出一个K维的第一向量X C
由于提取的图像特征和图卷积网络提取的人体骨骼特征可能存在非常大的空间不匹配,会导致之后的特征融合出现难以学习的情况。由于难以准确地将两个不同空间的特征映射到同一个空间,因此使用可学习的编码器从数据中学习如何将两个不同网络提取的特征映射到同一个隐空间之中。
执行步骤S30,基于人体骨骼信息获得视频帧对应人体关节点序列。
在本实施例中,使用openpose算法从选取的图片中获得人体关节点序列,每一张图片检测15个关节点,所述openpose算法为卡耐基梅隆大学提出的一个人体姿态估计开源算法,用于检测人体关节点并输出人体关节点的2D或者3D坐标。
在其他实施例中,也可以使用其他算法获取人体关节点序列。
其中,步骤S20和步骤S30不分先后,可以互换。
执行步骤S40,将所述图像特征与所述人体关节点序列输入图卷积神经网络,获取动作类别。
获取动作类别具体步骤请参考图2,包括:
步骤S41,获取第一向量,所述第一向量表征视频帧的图像特征。
将所述环境向量X con输入到两层全连接层组成的编码器,输出一个K维的第一向量X c
由于提取的图像特征和图卷积网络提取的特征可能存在非常大的空间不匹配,会导致之后的特征融合出现难以学习的情况。由于难以准确地将两个不同空间的特征映射到同一个空间,因此使用可学习的编码器从数据中学习如何将两个不同网络提取的特征映射到同一个隐空间之中。其中获取第一向量和第二向量没有先后顺序,可以同时进行也可以任意先后。
步骤S42,利用所述人体关节点序列构建人体关节点图。
请参考图3,为所述构建的人体关节点图,将所构建的人体关节点图记为G=(V,E),其中V表示图的顶点集合,V={V ti|t=1,…,T,i=1,…,N},T表示骨骼序列的数量,N表示一张图片检测的关节点数目;V ti表示第t张图片第i个关节点;E表示图的边,由两部分组成,分别是一帧图像内关节点的连接状态E 1以及不同帧之间关节点的连接状态E D,E 1是一帧图像的不同关节点之间的物理连接状态,E D是不同帧之间同一个关节点的连接,为了方便后续捕捉时序特征而定义的一个虚拟物理连接;在实现过程中,利用一个N×N的邻接矩阵A来表示连接状态,如果关节点i和关节点j存在物理连接则Aij为1,否则为0。
步骤S43,将所述人体关节点图输入图卷积神经网络,生成第二向量。
所述图卷积神经网络由图卷积层堆叠而成,每一层图卷积层都执行相同的操作;在每一个图卷积层中,执行两个不同维度的操作,一个是在空间维度上执行图卷积操作,一个是在时间维度上执行普通卷积操作;
其中,在空间维度上执行图卷积操作的具体步骤包括:
在空间维度上,对于每一帧人体关节点图执行图卷积操作以捕获不同关节点之间的联系,具体实现如下式所示:
Figure PCTCN2020099920-appb-000002
上式中I表示单位矩阵,即对角线元素是1其他元素为0的矩阵,在这里就表示一个自连接矩阵,即每一个顶点和自身有连接,A是邻接矩阵,表示连接状态,如果关节点i和关节点j存在物理连接则A ij为1,否则为0;D是度矩阵,即描述每一个顶点连接的边有多少条,只有对角线元素不为0,其他元素都为0,D ii=∑ i(A ij+I ij),X in是输入,是一个N×U的张量;W是图卷积层的权重参数,用于对特征进行变换。
其中,在时间维度上执行普通卷积操作的具体步骤包括:
在时间维度上,针对相邻帧之间的同一个关节点执行通用卷积操作以捕捉每一个关节点随着时间发生的变化。
之所以在两个不同的维度执行不同的卷积操作,因为在空间维度上执行卷积操作主要目的是捕捉不同关节点之间的联系,在时间维度上执行卷积操作目的是捕捉关节点随着时间的移动。在两个维度做不同的两次卷积是因为动作是一个动态过程,由关节点在空间上的关系以及时间上的变化共同组成,且使用不同的卷积是因为卷积的输入不同,空间上的卷积输入是同一个时刻不同关节点,且关节点之间以图的形式连接,使用图卷积;在时间维度上,输入是不同时刻的同一个关节点,使用常规卷积。
对所述图神经网络模块的输出进行维度转换得到一个K维的第二向量X k
由于提取的图像特征和图卷积网络提取的特征可能存在非常大的空间不匹配,会导致之后的特征融合出现难以学习的情况。由于难以准确地将两个不同空间的特征映射到同一个空间,因此通过转化为与第一向量相同维度的第二向量,使用可学习的编码器从数据中能够学习如何将两个不同网络提取的特征映射到同一个隐空间之中。
步骤S44,将第一向量和第二向量进行连接并输入全连接层,生成第三向量。
将第一向量X c和第二向量X k进行连接并输入到一个有Q个神经元的全连接层,输出一个Q维第三向量X q
步骤S45,将所述第三向量输入分类器,获取预测的动作类别。
本发明通过将一种将环境信息的图像特征编码到现有的基于骨骼的人体动作识别模型之中,从而同时利用了环境信息和人体骨骼信息,进而保证了模型对环境变化鲁棒且能充分利用环境信息。
本发明实施了还提供了一种人体动作识别系统,请参考图4,包括:
视频帧获取模块10,用于获取包含人体动作行为的视频,对视频帧进行重采样和预处理;
图像特征提取模块20,用于提取视频帧的图像特征;
人体关节点序列提取模块30,用于基于人体骨骼信息获得视频帧对应人体关节点序列;
动作类别获取模块40,将所述图像特征与所述人体关节点序列输入深度神经网络,获取动作类别。
本发明实施例还提供了一种人体动作识别设备,所述人体动作识别设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的人体动作识别程序,所述人体动作识别程序被所述处理器执行时实现上述的人体动作识别方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有人体动作识别程序,所述人体动作识别程序被处理器执行时实现上述的人体动作识别方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、 方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
虽然本发明已由较佳实施例揭露如上,然而并非用以限定本发明,任何熟知此技艺者,在不脱离本发明的精神和范围内,可作些许的更动与润饰,因此本发明的保护范围当视权利要求书所要求保护的范围为准。

Claims (10)

  1. 一种人体动作识别方法,其特征在于,包括:
    获取包含人体动作行为的视频,对视频帧进行重采样和预处理;
    提取视频帧的图像特征;
    基于人体骨骼信息获得视频帧对应人体关节点序列;
    将所述图像特征与所述人体关节点序列输入图卷积神经网络,获取动作类别。
  2. 根据权利要求1所述的人体动作识别方法,其特征在于,获取动作类别的具体步骤包括:
    获取第一向量,所述第一向量表征视频帧的图像特征;
    利用所述人体关节点序列构建人体关节点图;
    将所述人体关节点图输入图卷积神经网络,生成第二向量;
    将第一向量和第二向量进行连接并输入全连接层,生成第三向量;
    将所述第三向量输入分类器,获取预测的动作类别。
  3. 根据权利要求2所述的人体动作识别方法,其特征在于,利用所述人体关节点序列构建人体关节点图的具体步骤包括:
    将构建的人体关节点图记为G=(V,E),其中V表示图的顶点集合,V={V ti|t=1,…,T,i=1,…,N},T表示骨骼序列的数量,N表示一张图片检测的关节点数目;V ti表示第t张图片第i个关节点,E表示图的边,由两部分组成,分别是一帧图像内关节点的连接状态E 1以及不同帧之间关节点的连接状态E D,E 1是一帧图像的不同关节点之间的物理连接状态,E D是不同帧之间同一个关节点的连接,为了方便后续捕捉时序特征而定义的一个虚拟物理连接;在实现过程中,利用一个N×N的邻接矩阵A来表示同一帧内关节点的连接状态,如果关节点i和关节点j存在物理连接则Aij为1,否则为0。
  4. 根据权利要求2所述的人体动作识别方法,其特征在于,生成第二向量的具体步骤包括:
    图卷积神经网络由图卷积层堆叠而成,每一层图卷积层都执行相同的操作;
    在每一个图卷积层中,执行两个不同维度的操作,一个是在空间维度上执行图卷积操作,一个是在时间维度上执行普通卷积操作;
    对所述图神经网络模块的输出进行变换得到第二向量。
  5. 根据权利要求4所述的人体动作识别方法,其特征在于,在空间维度上执行图卷积操作的具体步骤包括:
    在空间维度上,对于每一帧人体关节点图执行图卷积操作以捕获不同关节点之间的联系,具体实现如下式所示:
    Figure PCTCN2020099920-appb-100001
    上式中I表示单位矩阵,A是邻接矩阵,D是度矩阵,D ii=∑ i(A ij+I ij),Xin是输入,是一个N×U的张量;W是图卷积层的权重参数,用于对特征进行变换。
  6. 根据权利要求4所述的人体动作识别方法,其特征在于,在时间维度上执行普通卷积操作的具体步骤包括:
    在时间维度上,针对相邻帧之间的同一个关节点执行通用卷积操作以捕捉每一个关节点随着时间发生的变化。
  7. 根据权利要求1所述的人体动作识别方法,其特征在于,获取第一向量的具体步骤包括:
    从视频帧中选取若干图片,将所述若干图片分别输入在Imagenet上预训练的ResNet-50残差网络,将最后一个全连接层的输出作为图片的特征,获得若干初始向量,对所述若干初始向量取平均值,得到第一向量。
  8. 一种人体动作识别系统,其特征在于,包括:
    视频帧获取模块,用于获取包含人体动作行为的视频,对视频帧进行重采样和预处理;
    图像特征提取模块,用于提取视频帧的图像特征;
    人体关节点序列提取模块,用于基于人体骨骼信息获得视频帧对应人体关节点序列;
    动作类别获取模块,将所述图像特征与所述人体关节点序列输入深度神经网络,获取动作类别。
  9. 一种人体动作识别设备,其特征在于,所述人体动作识别设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的人体动作识别程序,所述人体动作识别程序被所述处理器执行时实现如权利要求1至7中任一项所述的人体动作识别方法的步骤。
  10. 一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有人体动作识别程序,所述人体动作识别程序被处理器执行时实现如权利要求1至7中任一项所述的人体动作识别方法的步骤。
PCT/CN2020/099920 2020-07-02 2020-07-02 人体动作识别方法、人体动作识别系统及设备 WO2022000420A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202080006320.1A CN113196289B (zh) 2020-07-02 2020-07-02 人体动作识别方法、人体动作识别系统及设备
PCT/CN2020/099920 WO2022000420A1 (zh) 2020-07-02 2020-07-02 人体动作识别方法、人体动作识别系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2020/099920 WO2022000420A1 (zh) 2020-07-02 2020-07-02 人体动作识别方法、人体动作识别系统及设备

Publications (1)

Publication Number Publication Date
WO2022000420A1 true WO2022000420A1 (zh) 2022-01-06

Family

ID=76973873

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/099920 WO2022000420A1 (zh) 2020-07-02 2020-07-02 人体动作识别方法、人体动作识别系统及设备

Country Status (2)

Country Link
CN (1) CN113196289B (zh)
WO (1) WO2022000420A1 (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114582030A (zh) * 2022-05-06 2022-06-03 湖北工业大学 一种基于服务机器人的行为识别方法
CN114663593A (zh) * 2022-03-25 2022-06-24 清华大学 三维人体姿态估计方法、装置、设备及存储介质
CN114821799A (zh) * 2022-05-10 2022-07-29 清华大学 基于时空图卷积网络的动作识别方法、装置和设备
CN114821640A (zh) * 2022-04-12 2022-07-29 杭州电子科技大学 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法
CN114863556A (zh) * 2022-04-13 2022-08-05 上海大学 一种基于骨骼姿态的多神经网络融合连续动作识别方法
CN115035596A (zh) * 2022-06-05 2022-09-09 东北石油大学 行为检测的方法及装置、电子设备和存储介质
CN115294228A (zh) * 2022-07-29 2022-11-04 北京邮电大学 基于模态引导的多图人体姿态生成方法及装置
CN115410137A (zh) * 2022-11-01 2022-11-29 杭州新中大科技股份有限公司 基于时空特征的双流工人劳动状态识别方法
CN115797841A (zh) * 2022-12-12 2023-03-14 南京林业大学 基于自适应时空图注意力Transformer网络的四足动物行为识别方法
CN116246338A (zh) * 2022-12-20 2023-06-09 西南交通大学 一种基于图卷积和Transformer复合神经网络的行为识别方法
CN116434335A (zh) * 2023-03-30 2023-07-14 东莞理工学院 动作序列识别和意图推断方法、装置、设备及存储介质
WO2023138154A1 (zh) * 2022-01-24 2023-07-27 上海商汤智能科技有限公司 对象识别方法、网络训练方法、装置、设备、介质及程序
CN117475518A (zh) * 2023-12-27 2024-01-30 华东交通大学 一种同步人体运动识别与预测方法及系统
CN117854155A (zh) * 2024-03-07 2024-04-09 华东交通大学 一种人体骨骼动作识别方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080152218A1 (en) * 2006-10-27 2008-06-26 Kabushiki Kaisha Toshiba Pose estimating device and pose estimating method
CN110532861A (zh) * 2019-07-18 2019-12-03 西安电子科技大学 基于骨架引导多模态融合神经网络的行为识别方法
CN110633736A (zh) * 2019-08-27 2019-12-31 电子科技大学 一种基于多源异构数据融合的人体跌倒检测方法
CN110751072A (zh) * 2019-10-12 2020-02-04 西安电子科技大学 基于知识嵌入图卷积网络的双人交互识别方法
CN111079578A (zh) * 2019-12-02 2020-04-28 海信集团有限公司 行为检测方法及装置
CN111160164A (zh) * 2019-12-18 2020-05-15 上海交通大学 基于人体骨架和图像融合的动作识别方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8345984B2 (en) * 2010-01-28 2013-01-01 Nec Laboratories America, Inc. 3D convolutional neural networks for automatic human action recognition
CN104156693B (zh) * 2014-07-15 2017-06-06 天津大学 一种基于多模态序列融合的动作识别方法
CN109726672B (zh) * 2018-12-27 2020-08-04 哈尔滨工业大学 一种基于人体骨架序列和卷积神经网络的摔倒检测方法
CN110096950B (zh) * 2019-03-20 2023-04-07 西北大学 一种基于关键帧的多特征融合行为识别方法
CN110222611B (zh) * 2019-05-27 2021-03-02 中国科学院自动化研究所 基于图卷积网络的人体骨架行为识别方法、系统、装置
CN110263720B (zh) * 2019-06-21 2022-12-27 中国民航大学 基于深度图像和骨骼信息的动作识别方法
CN111209861B (zh) * 2020-01-06 2022-03-18 浙江工业大学 一种基于深度学习的动态手势动作识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080152218A1 (en) * 2006-10-27 2008-06-26 Kabushiki Kaisha Toshiba Pose estimating device and pose estimating method
CN110532861A (zh) * 2019-07-18 2019-12-03 西安电子科技大学 基于骨架引导多模态融合神经网络的行为识别方法
CN110633736A (zh) * 2019-08-27 2019-12-31 电子科技大学 一种基于多源异构数据融合的人体跌倒检测方法
CN110751072A (zh) * 2019-10-12 2020-02-04 西安电子科技大学 基于知识嵌入图卷积网络的双人交互识别方法
CN111079578A (zh) * 2019-12-02 2020-04-28 海信集团有限公司 行为检测方法及装置
CN111160164A (zh) * 2019-12-18 2020-05-15 上海交通大学 基于人体骨架和图像融合的动作识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LUO HUILAN, KANG TONG, KONG FAN-SHENG: "The Progress of Human Action Recognition in Videos Based on Deep Learning: A Review", ACTA ELECTRONICA SINICA, ZHONGGUO DIANZI XUEHUI, CN, vol. 47, no. 5, 31 May 2019 (2019-05-31), CN , pages 1162 - 1173, XP055884335, ISSN: 0372-2112, DOI: 10.3969/j.issn.0372-2112.2019.05.025 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023138154A1 (zh) * 2022-01-24 2023-07-27 上海商汤智能科技有限公司 对象识别方法、网络训练方法、装置、设备、介质及程序
CN114663593A (zh) * 2022-03-25 2022-06-24 清华大学 三维人体姿态估计方法、装置、设备及存储介质
CN114821640A (zh) * 2022-04-12 2022-07-29 杭州电子科技大学 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法
CN114821640B (zh) * 2022-04-12 2023-07-18 杭州电子科技大学 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法
CN114863556A (zh) * 2022-04-13 2022-08-05 上海大学 一种基于骨骼姿态的多神经网络融合连续动作识别方法
CN114582030A (zh) * 2022-05-06 2022-06-03 湖北工业大学 一种基于服务机器人的行为识别方法
CN114582030B (zh) * 2022-05-06 2022-07-22 湖北工业大学 一种基于服务机器人的行为识别方法
CN114821799A (zh) * 2022-05-10 2022-07-29 清华大学 基于时空图卷积网络的动作识别方法、装置和设备
CN115035596A (zh) * 2022-06-05 2022-09-09 东北石油大学 行为检测的方法及装置、电子设备和存储介质
CN115035596B (zh) * 2022-06-05 2023-09-08 东北石油大学 行为检测的方法及装置、电子设备和存储介质
CN115294228B (zh) * 2022-07-29 2023-07-11 北京邮电大学 基于模态引导的多图人体姿态生成方法及装置
CN115294228A (zh) * 2022-07-29 2022-11-04 北京邮电大学 基于模态引导的多图人体姿态生成方法及装置
CN115410137A (zh) * 2022-11-01 2022-11-29 杭州新中大科技股份有限公司 基于时空特征的双流工人劳动状态识别方法
CN115410137B (zh) * 2022-11-01 2023-04-14 杭州新中大科技股份有限公司 基于时空特征的双流工人劳动状态识别方法
CN115797841A (zh) * 2022-12-12 2023-03-14 南京林业大学 基于自适应时空图注意力Transformer网络的四足动物行为识别方法
CN115797841B (zh) * 2022-12-12 2023-08-18 南京林业大学 基于自适应时空图注意力Transformer网络的四足动物行为识别方法
CN116246338A (zh) * 2022-12-20 2023-06-09 西南交通大学 一种基于图卷积和Transformer复合神经网络的行为识别方法
CN116246338B (zh) * 2022-12-20 2023-10-03 西南交通大学 一种基于图卷积和Transformer复合神经网络的行为识别方法
CN116434335A (zh) * 2023-03-30 2023-07-14 东莞理工学院 动作序列识别和意图推断方法、装置、设备及存储介质
CN116434335B (zh) * 2023-03-30 2024-04-30 东莞理工学院 动作序列识别和意图推断方法、装置、设备及存储介质
CN117475518A (zh) * 2023-12-27 2024-01-30 华东交通大学 一种同步人体运动识别与预测方法及系统
CN117475518B (zh) * 2023-12-27 2024-03-22 华东交通大学 一种同步人体运动识别与预测方法及系统
CN117854155A (zh) * 2024-03-07 2024-04-09 华东交通大学 一种人体骨骼动作识别方法及系统
CN117854155B (zh) * 2024-03-07 2024-05-14 华东交通大学 一种人体骨骼动作识别方法及系统

Also Published As

Publication number Publication date
CN113196289B (zh) 2023-05-26
CN113196289A (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
WO2022000420A1 (zh) 人体动作识别方法、人体动作识别系统及设备
CN109684924B (zh) 人脸活体检测方法及设备
CN111709409B (zh) 人脸活体检测方法、装置、设备及介质
Kumar et al. Object detection system based on convolution neural networks using single shot multi-box detector
Shi et al. Learning and refining of privileged information-based RNNs for action recognition from depth sequences
US20210158023A1 (en) System and Method for Generating Image Landmarks
CN110135249B (zh) 基于时间注意力机制和lstm的人体行为识别方法
WO2019227479A1 (zh) 人脸旋转图像的生成方法及装置
CN110728209A (zh) 一种姿态识别方法、装置、电子设备及存储介质
CN111985343A (zh) 一种行为识别深度网络模型的构建方法及行为识别方法
JP7439153B2 (ja) 全方位場所認識のためのリフトされたセマンティックグラフ埋め込み
WO2024061269A1 (zh) 一种三维重建方法及相关装置
CN112084952B (zh) 一种基于自监督训练的视频点位跟踪方法
CN115240121B (zh) 一种用于增强行人局部特征的联合建模方法和装置
CN112528902A (zh) 一种基于3d人脸模型的视频监控动态人脸识别方法及装置
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
CN112597847A (zh) 人脸姿态估计方法、装置、电子设备和存储介质
Yang et al. S3Net: A single stream structure for depth guided image relighting
KR20230081378A (ko) 3차원 휴먼 자세 추정을 위한 단시점 모델의 다시점 준지도 학습 시스템
WO2021217919A1 (zh) 人脸动作单元识别方法、装置、电子设备及存储介质
CN112949765A (zh) 融合局部和全局信息的图像匹配方法
WO2023178951A1 (zh) 图像分析方法、模型的训练方法、装置、设备、介质及程序
CN116311345A (zh) 一种基于Transformer的遮挡行人重识别方法
CN112613457B (zh) 图像采集方式检测方法、装置、计算机设备和存储介质
Huang et al. Temporally-aggregating multiple-discontinuous-image saliency prediction with transformer-based attention

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20942637

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20942637

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 20942637

Country of ref document: EP

Kind code of ref document: A1