WO2022116616A1 - 一种基于转换模块的行为识别方法 - Google Patents

一种基于转换模块的行为识别方法 Download PDF

Info

Publication number
WO2022116616A1
WO2022116616A1 PCT/CN2021/116770 CN2021116770W WO2022116616A1 WO 2022116616 A1 WO2022116616 A1 WO 2022116616A1 CN 2021116770 W CN2021116770 W CN 2021116770W WO 2022116616 A1 WO2022116616 A1 WO 2022116616A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
mask
linear
formula
dim
Prior art date
Application number
PCT/CN2021/116770
Other languages
English (en)
French (fr)
Inventor
高朋
井焜
许野平
刘辰飞
陈英鹏
席道亮
张朝瑞
Original Assignee
神思电子技术股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 神思电子技术股份有限公司 filed Critical 神思电子技术股份有限公司
Publication of WO2022116616A1 publication Critical patent/WO2022116616A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Definitions

  • the invention relates to the field of human action recognition, in particular to a behavior recognition method based on a conversion module.
  • Action recognition is a classification task that completes the analysis task of video action content and obtains action categories by extracting the action features of continuous video frames, which can help and improve the monitoring ability of dangerous behaviors in key areas and avoid the occurrence of possible dangerous behaviors. .
  • the Chinese patent with the patent number CN202010708119.X proposes an efficient unsupervised cross-domain action recognition method (CAFCCN) based on channel fusion and classifier confrontation, which is used to solve the problem of unlabeled training data set in the target data set.
  • CAFCCN channel fusion and classifier confrontation
  • the method of the invention has fast convergence speed and high identification accuracy, so that the target data set training data set is unlabeled.
  • the action recognition problem of is that four deep residual network models are required to extract the source light domain optical flow map features and the target domain optical flow map features respectively, and multiple fusion modules are required to complete the source light domain optical flow map features and target domain light.
  • the fusion of flow graph features results in a large number of model parameters for the entire algorithm and a large overall computational load.
  • the Chinese patent with the patent number 201810431650.X discloses a time-series action recognition method based on deep learning. Aiming at the problem that the expression of long action features is not effective enough in the process of boundary detection, the inter-frame information and intra-frame information are simultaneously extracted through a dual-stream network. , obtain the feature sequence of the video unit, and propose a multi-scale short-action segment selection scheme combined with context information, which effectively improves the subsequent regression accuracy, and uses the feature sequence to train the time boundary model, reducing the model training time and improving the computational efficiency.
  • the disadvantage of this method is that in the method, the interval frame image is directly input into the action recognition network for action recognition.
  • the method uses a dual-stream network to extract inter-frame information and intra-frame information at the same time.
  • 3D convolution is inevitably used, which increases the calculation amount of the model and leads to an increase in the model training period. Increased sample collection.
  • the Chinese patent with the patent number of CN202010840934.1 discloses a behavior recognition method for strong dynamic videos.
  • the optical flow branch in the traditional dual-flow model is used as a teaching model to assist in training the RGB branch;
  • RGB The branch inputs the global RGB image frame of the source video
  • the optical flow branch inputs the global optical flow image frame of the source video, in which the optical flow image frame is calculated from the RGB image frame through the optical flow;
  • the RGB branch and the optical flow branch are jointly inferred to realize the video in the video.
  • behavioral identification In the patent, the RGB branch and the optical flow branch are trained with different configurations. Compared with the traditional dual-stream algorithm, the configuration of dynamic recognition is highly adaptable.
  • the invention takes into account the properties of strong dynamic behavior videos, transmits optical flow information in multiple stages, obtains sufficient motion features, and improves the recognition accuracy.
  • the patent also uses dilated 3D convolution to obtain the temporal features of optical flow, and uses 2D convolution to obtain spatial features, which requires two different networks to complete the action recognition task, and does not solve the problem of the large amount of model calculation and the portability of 3D convolutional networks. worse problem.
  • the Chinese patent with patent number 201910064529.2 discloses a behavior recognition system based on an attention mechanism, which uses a channel attention module to extract inter-channel feature codes for action prediction.
  • the attention module of this patent still uses the method of three-dimensional convolution set and two-dimensional convolution, which does not solve the problem of many parameters of the 3D convolution model and a large amount of calculation.
  • the classic action recognition method based on 3D convolution and optical flow method, is used to extract the features of consecutive frames under the time series, obtain the dependencies of consecutive frames under the time axis, and improve the accuracy of action recognition.
  • 3D convolution needs to extract continuous frame features in three dimensions, which leads to an increase in the amount of parameters of the 3D convolution model, and increases the amount of model calculation, resulting in a longer training period for the model.
  • 3D as a new computing method, has poor support for 3D convolution under different deep learning frameworks, which affects the practical applicability of 3D convolution-based action recognition algorithms.
  • the optical flow method requires multiple 2D convolution models to cooperate with each other to extract temporal and spatial features, resulting in too large model parameters and a large amount of calculation. practical applicability.
  • the present invention proposes a behavior recognition method that uses the conversion module used in natural language understanding to extract spatiotemporal features of consecutive frame images, and at the same time, only uses the conversion module in the entire recognition process.
  • a behavior recognition method based on a conversion module comprising the following steps:
  • Step 1 read continuous frame images and construct masks
  • Step 2 constructing the conversion module input data, including obtaining the conversion module input data and the position mask matrix mask operation;
  • Step 3 the conversion module action recognition, including the data preprocessing operation, after the data processing after the continuous coding module, the action detection result is obtained;
  • Step 4 Calculate the cross entropy loss with the category detection result and the category label target, and optimize the network parameters.
  • reading consecutive frame images and constructing a mask includes the following processes:
  • continuous clip 16 frames of image data
  • continuous frame image data input is a four-dimensional matrix with dimension input ⁇ R 16 ⁇ 3 ⁇ H ⁇ W , where H, W represent the original height of the picture and width;
  • h, w are the height and width of the image after scaling
  • Keyframe target label information target including action labels
  • the position mask matrix mask which is a two-dimensional all-1 matrix with the dimension mask ⁇ R 4 ⁇ 4 , which is used to demarcate the position of the real picture in the input data.
  • obtaining the input data of the conversion module in step 2 includes the following processes:
  • the flattened continuous frame data is input, and the linear link layer is used to perform channel compression.
  • the number of input channels of the linear link layer is d, and the number of output channels is 1024.
  • the continuous frame data obtained after compression is shown in formula (2). :
  • Linear( ) is a linear link layer operation, and the obtained dimension is a two-dimensional matrix of clip_frame ⁇ R 16 ⁇ 1024 ;
  • Cat( ) represents the matrix splicing operation
  • the position mask matrix mask operation includes the following processes:
  • the mask matrix mask is tiled into a one-dimensional vector, and its dimension is changed to formula (4):
  • Pad( ) represents the padding operation
  • (1,0) represents adding 1 data in its first position
  • the added data value value 1
  • the output mask dimension transformation relationship is expressed as formula (6):
  • the data preprocessing operation in step 3 includes the following processes:
  • the calculation process of the basic coding module is as follows:
  • Norml( ) represents normalization processing; for the convenience of symbol marking, x_in and x_out represent the input and output data before and after processing;
  • Linear( ) is a linear link operation
  • x_in, x_out 1 represent the input and output data before and after processing
  • the data dimension change is expressed as formula (12):
  • T represents the matrix go to operation
  • Mask( ⁇ ) represents the mask operation
  • softmax( ⁇ ) is the softmax activation layer in the neural network
  • x_out 6 Tranf(x_out 5 ⁇ v), x_out 5 ⁇ R 8 ⁇ 17 ⁇ 17 , v ⁇ R 8 ⁇ 17 ⁇ 128 , x_out 6 ⁇ R 17 ⁇ 1024 (16)
  • Tranf( ) represents the matrix dimension transformation
  • x_out x_in+x_out 7 , x_in ⁇ R 17 ⁇ 1024 , x_out 7 ⁇ R 17 ⁇ 1024 , x_out ⁇ R 17 ⁇ 1024 ( 17);
  • Feedforward network data processing perform related operations on the data obtained after parallel attention operations, this part of the input data is x_in ⁇ R 17 ⁇ 1024 , and undergoes the following numerical sequence processing:
  • the activation function layer is shown in formula (19):
  • x_out 2 GELU(x_out 1 ), x_out 2 ⁇ R 17 ⁇ 1024 (19)
  • GELU( ) represents the GELU activation function
  • the neuron activation layer operation is shown in formula (20):
  • the neuron activation layer operation is shown in formula (22):
  • x_out x_in+x_out 5 , x_in ⁇ R 17 ⁇ 1024 , x_out 7 ⁇ R 17 ⁇ 1024 , x_out ⁇ R 17 ⁇ 1024 (23);
  • x_out x_in[0], x_in ⁇ R 17 ⁇ 1024 , x_out ⁇ R 1 ⁇ 1024 (24)
  • x_out 1 Norml(x_out), x_out 1 ⁇ R 1 ⁇ 1024 (25)
  • Norml( ) represents normalization processing
  • Linear( ) represents linear transformation
  • the activation function layer is shown in formula (27):
  • x_out 3 GELU(x_out 2 ), x_out 3 ⁇ R 1 ⁇ 2048 (27)
  • GELU( ) represents the GELU activation function
  • Linear( ) represents linear transformation
  • the input channel mlp_dim 2048
  • the output channel num_class is the number of categories
  • the activation function layer is formula (30):
  • x_out 6 softmax(x_out 5 ), x_out 6 ⁇ R 1 ⁇ num_class (30)
  • softmax( ) represents the softmax activation function to obtain the final action recognition result.
  • the method realizes action recognition of continuous frame images.
  • the conversion model extraction module is used to replace the 3D convolutional network, which solves the problem of the large amount of calculation of the 3D convolutional network model, and improves the parallel computing capability of the model on the GPU.
  • the conversion model is composed of the most basic operators. , which improves the migration and deployment performance of the model, and solves the problem of weak compatibility during model conversion or deployment.
  • Fig. 1 is the flow chart of the behavior recognition method based on conversion module
  • Figure 2 is a structural diagram of a conversion module
  • Figure 3 is a structural diagram of a basic encoding module.
  • the behavior recognition method based on the conversion module includes the following steps:
  • Step 1 reading continuous frame images and constructing masks, reading continuous frame images and constructing masks includes the following processes:
  • continuous clip 16 frames of image data
  • continuous frame image data input is a four-dimensional matrix with dimension input ⁇ R 16 ⁇ 3 ⁇ H ⁇ W , where H, W represent the original height of the picture and width;
  • h, w are the height and width of the image after scaling
  • Keyframe target label information target including action labels
  • the position mask matrix mask which is a two-dimensional all-1 matrix with the dimension mask ⁇ R 4 ⁇ 4 , which is used to demarcate the position of the real picture in the input data.
  • Step 2 constructing the input data of the conversion module, including the operation of obtaining the input data of the conversion module and the position mask matrix mask, and obtaining the input data of the conversion module includes the following processes:
  • the flattened continuous frame data is input, and the linear link layer is used to perform channel compression.
  • the number of input channels of the linear link layer is d, and the number of output channels is 1024.
  • the continuous frame data obtained after compression is shown in formula (2). :
  • Linear( ) is a linear link layer operation, and the obtained dimension is a two-dimensional matrix of clip_frame ⁇ R 16 ⁇ 1024 ;
  • Cat( ) represents the matrix splicing operation
  • the position mask matrix mask operation includes the following processes:
  • the mask matrix mask is tiled into a one-dimensional vector, and its dimension is changed to formula (4):
  • Pad( ) represents the padding operation
  • (1,0) represents adding 1 data in its first position
  • the added data value value 1
  • the output mask dimension transformation relationship is expressed as formula (6):
  • Step 3 the action recognition of the conversion module, including data preprocessing operations, after the data processing by the continuous coding module, the action detection results are obtained;
  • the data preprocessing operations include the following processes:
  • the calculation process of the basic coding module is as follows:
  • Norml( ) represents normalization processing; for the convenience of symbol marking, x_in and x_out represent the input and output data before and after processing;
  • Linear( ) is a linear link operation
  • x_in, x_out 1 represent the input and output data before and after processing
  • the data dimension change is expressed as formula (12):
  • T represents the matrix go to operation
  • Mask( ⁇ ) represents the mask operation
  • softmax( ⁇ ) is the softmax activation layer in the neural network
  • x_out 5 The output result x_out 5 is multiplied by the data v, and the output is obtained after the data is deformed, as shown in formula (16):
  • x_out 6 Tranf(x_out 5 v), x_out 5 ⁇ R 8 ⁇ 17 ⁇ 17 , v ⁇ R 8 ⁇ 17 ⁇ 128 , x_out 6 ⁇ R 17 ⁇ 1024 (16)
  • Tranf( ) represents the matrix dimension transformation
  • x_out x_in+x_out 7 , x_in ⁇ R 17 ⁇ 1024 , x_out 7 ⁇ R 17 ⁇ 1024 , x_out ⁇ R 17 ⁇ 1024 (17);
  • Feedforward network data processing perform related operations on the data obtained after parallel attention operations, this part of the input data is x_in ⁇ R 17 ⁇ 1024 , and undergoes the following numerical sequence processing:
  • the activation function layer is shown in formula (19):
  • x_out 2 GELU(x_out 1 ), x_out 2 ⁇ R 17 ⁇ 1024 (19)
  • GELU( ) represents the GELU activation function
  • the neuron activation layer operation is shown in formula (20):
  • the neuron activation layer operation is shown in formula (22):
  • x_out x_in+x_out 5 , x_in ⁇ R 17 ⁇ 1024 , x_out 7 ⁇ R 17 ⁇ 1024 , x_out ⁇ R 17 ⁇ 1024 (23);
  • x_out x_in[0], x_in ⁇ R 17 ⁇ 1024 , x_out ⁇ R 1 ⁇ 1024 (24)
  • x_out 1 Norml(x_out), x_out 1 ⁇ R 1 ⁇ 1024 (25)
  • Norml( ) represents normalization processing
  • Linear( ) represents linear transformation
  • the activation function layer is shown in formula (27):
  • x_out 3 GELU(x_out 2 ), x_out 3 ⁇ R 1 ⁇ 2048 (27)
  • GELU( ) represents the GELU activation function
  • Linear( ) represents linear transformation
  • the input channel mlp_dim 2048
  • the output channel num_class is the number of categories
  • the activation function layer is formula (30):
  • x_out 6 softmax(x_out 5 ), x_out 6 ⁇ R 1 ⁇ num_class (30)
  • softmax( ) represents the softmax activation function to obtain the final action recognition result.
  • Step 4 Calculate the cross entropy loss with the category detection result and the category label target, and optimize the network parameters.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

一种基于转换模块的行为识别方法,涉及人体动作识别领域。基于转换模块的行为识别方法首先读取连续帧图像及构建掩码;然后构建转换模块输入数据,包括获取转换模块输入数据和位置掩码矩阵mask操作;再转换模块动作识别,包括数据预处理操作,经过连续编码模块后的数据处理,获得动作检测结果;最后将类别检测结果,与类别标签target计算交叉熵损失,优化网络参数。该方法使用自然语言理解中使用的转换模块用于提取连续帧图像的时空特征,同时,整个识别过程中仅使用转换模块,进而降低了方法的参数量、降低了整体计算量、提高了动作识别频率。

Description

一种基于转换模块的行为识别方法 技术领域
本发明涉及人体动作识别领域,具体的说,是涉及一种基于转换模块的行为识别方法。
背景技术
这里的陈述仅提供与本发明相关的背景技术,而不必然地构成现有技术。
动作识别通过提取连续视频帧的动作特征,完成视频动作内容的分析任务并获取动作类别的一种分类任务,可有助与提高重点区域下危险行为的监控能力,避免可能存在的危险行为的发生。
专利号为CN202010708119.X的中国专利,提出了一种高效的基于通道融合和分类器对抗的无监督跨域动作识别方法(CAFCCN),用于解决目标数据集训练数据集无标签的问题,通过使用源域数据集的信息和目标域无标签训练集的信息,实现了对目标域测试集的准确识别,本发明方法收敛速度快,识别精度高,从而为目标数据集训练数据集无标签上的动作识别问题提供了帮助。该方法不足之处在于,需要四个深度残差网络模型分别提取源光域光流图特征及目标域光流图特征,同时需要多个融合模块完成源光域光流图特征及目标域光流图特征的融合,从而导致整个算法的模型参数较多,整体计算量较大。
专利号为201810431650.X的中国专利,公开了一种基于深度学习的时序动作识别方法,针对边界检测过程中长动作特征表达有效性不够的问题,通过双流网络同时提取帧间信息和帧内信息,得到视频单元的特征序列,并提出结合上下文信息的多尺度短动作段截选方案,有效地提高后续回归准确率,利用特征序列训练时间边界模型,减小模型训练时间,提高计算效率。该方法不足之处在于,方法中使用间隔帧图像直接输入动作识别网络进行动作识别,当设备处于复杂环境、多目标时,不同目标不同的动作,会影响整个图像的动作检测结果,无法对每一个目标进行动作识别。同时,方法采用双流网络同时提取帧间信息和帧内信息,为了获得时序下连续帧图像特征不可避免的用到了3D卷积,这样的就增加了模型的计算量,导致模型训练周期增加,也增加了样本的搜集量。
专利号为CN202010840934.1的中国专利,公开了一种强动态视频的行为识别方法,根据数据集上的数据分布特征,将传统双流模型中的光流分支作为教导模型,辅助训练RGB分支;RGB分支输入源视频全局的RGB图像帧,光流分支输入源视频全局的光流图像帧,其中光流图像帧由RGB图像帧通过光流计算得到;进行RGB分支和光流分支联合推断,实现视频中行为的 识别。专利中,分别以不同配置训练RGB分支及光流分支,相对于传统的双流算法,配置动态识别,可适应性强。本发明通过强化光流特征学习,考虑了强动态行为视频的性质,多阶段传递光流信息,获取充分的运动特征,提高了识别准确度。该专利还是以膨胀3D卷积用于获取光流的时间特征,以2D卷积获取空间特征,需要两个不同网络完成动作识别任务,并没有解决模型计算量较大、3D卷积网络移植性较差的问题。
专利号为201910064529.2的中国专利,公开了一种基于注意力机制的行为识别系统,利用通道注意模块提取通道间特征码,用于动作预测。但是该专利的注意模块,使用的还是三维卷积集合二维卷积的方式,并没有解决3D卷积模型参数多计算量大的问题。
经典的动作识别方法,以3D卷积和光流法为基础,用于提取时间序列下的连续帧特征,获取连续帧在时间轴下的依赖关系,提高了动作识别精度。
相对于2D卷积而言,3D卷积需要在三个维度上提取连续帧特征,导致3D卷积模型的参数量增加,并增加了模型计算量,导致模型的训练周期较长。同时,3D作为一种新的计算方式,在不同深度学习框架下,对3D卷积的支持程度较差,影响了基于3D卷积的动作识别算法的实际应用性。
而光流法,需要多个2D卷积模型相互配合,用于提取时间特征及空间特征,导致模型参数过大、计算量较大,对实际应用中的硬件设备提出较高要求,降低了方法的实际应用性。
发明内容
针对现有技术存在的不足,本发明提出了一种使用自然语言理解中使用的转换模块用于提取连续帧图像的时空特征,同时,整个识别过程中仅使用转换模块的行为识别方法。
为了实现上述目的,本发明是通过如下的技术方案来实现:
一种基于转换模块的行为识别方法,包括以下步骤:
步骤一,读取连续帧图像及构建掩码;
步骤二,构建转换模块输入数据,包括获取转换模块输入数据和位置掩码矩阵mask操作;
步骤三,转换模块动作识别,包括数据预处理操作,经过连续编码模块后的数据处理,获得动作检测结果;
步骤四,将类别检测结果,与类别标签target计算交叉熵损失,优化网络参数。
优选地,读取连续帧图像及构建掩码包括以下过程:
按时间顺序,连续clip=16帧的图像数据,构建输入数据input,连续帧图像数据input是维度为input∈R 16×3×H×W的四维矩阵,其中H,W表示图片的原始高度和宽度;
对连续帧输入数据input的每一张图片,采用等比例缩放方法,进行图片大小变换,经过上述操作后,获得的数据维度为式(1)所示:
input∈R 16×3×h×w     (1)
其中,h,w为缩放后图片高度及宽度;
关键帧目标标签信息target,包含动作标签,
并构建位置掩码矩阵mask,是维度为mask∈R 4×4的二维全1矩阵,用以标定输入数据中,真实图片的位置。
优选地,步骤二中获取转换模块输入数据包括以下过程:
将clip=16的连续帧图像数据input,平铺成二维矩阵,维度变化为:input∈R 16×d,其中:d=3×h×w;
将铺平后的连续帧数据input,采用线性链接层,进行通道压缩,线性链接层输入通道数为d,输出通道数为1024,则经过压缩后获取的连续帧数据为式(2)所示:
clip_fram=Linear(input)     (2)
其中,Linear(·)为线性链接层操作,获得的维度为clip_frame∈R 16×1024的二维矩阵;
构建随机可训练参数矩阵cls_token,维度为cls_token∈R 1×1024
将数据cls_token与数据clip_frame,按照第一个维度进行矩阵拼接,获取转换模块输入数据in_data,为式(3)所示:
in_data=Cat(cls_token,clip_frame),cls_token∈R 1×1024,clip_frame∈R 16×1024   (3)
其中,Cat(·)表示矩阵拼接操作,获得的in_data数据是维度为in_data=R 17×1024的二维矩阵;
位置掩码矩阵mask操作包括以下过程:
将掩码矩阵mask,平铺成以为一维向量,并在其维度变化为式(4):
Figure PCTCN2021116770-appb-000001
对mask矩阵进行填充操作,获得变换后的mask矩阵表示为式(5):
mask=Pad(mask,(1,0),value=1)    (5)
其中,Pad(·)表示填充操作,(1,0)表述在其第一个位置添加1个数据,添加数据数值 value=1,输出的mask维度变换关系表示为式(6):
Figure PCTCN2021116770-appb-000002
对数据mask进行维度变换,获取两个新矩阵为shift(7)所示:
Figure PCTCN2021116770-appb-000003
获取新的掩码输入矩阵为shift(8):
in_mask=mask 1×mask 2       (8)
其维度为:in_mask∈R 17×17的二维矩阵。
优选地,步骤三中的数据预处理操作包括以下过程:
构建随机可训练参数矩阵,pos_embedding,维度为pos_embedding∈R 17×1024,与输入数据in_data相加,并进行神经元激活层操作,输出结果x表示为式(9):
x=Dropout(pos_embedding+in_data,dropout=0.1),x∈R 17×1024    (9)
其中,Dropout(·)表示激活层操作,激活层因子dropout=0.1;
连续编码模块有depth=6个结构相同的基础编码模块串联组成,基础编码模块的计算过程为:
基础编码模块的基本设计参数为,输入数据通道数dim=1024,中间层数据通道数mlp_dim=2048,并行深度heads=8,激活层系数prodout=0.1;
1)数据归一化处理
对输入数据x进行归一化处理,获取的新数据表示为式(10):
x_out=Norml(x_in),x_out∈R 17×1024    (10)
其中,Norml(·)表示归一化处理;为方便符号标记,用x_in,x_out代表处理前后的输入、输出数据;
2)并行关注操作
a.线性链接层数据通道扩充:
输入数据通道dim=1024,扩充后数据通道out_dim=dim×3=3072,其变换过程表示为式(11):
x_out 1=Linear(x_in,dim=1024,out_dim=3072)    (11)
其中,Linear(·)为线性链接操作,x_in,x_out 1代表处理前后的输入、输出数据,数据维度变化表示为式(12):
Figure PCTCN2021116770-appb-000004
b.构建q,k,v数据:
矩阵变形
Figure PCTCN2021116770-appb-000005
则为式(13):
Figure PCTCN2021116770-appb-000006
矩阵q,k相乘得到式(14):
Figure PCTCN2021116770-appb-000007
其中,T表示矩阵转至操作;
掩码替换操作:
根据输入掩码矩阵in_mask∈R 17×17,矩阵q,k相乘后结果x_out∈R 8×17×17中,掩码结果为0的位置用value=1e -9进行替换,计算过程表示为式(15):
x_out 5=softmax(Mask(x_out 4,value=1e -9)),x_out 5∈R 8×17×17  (15)
其中,Mask(·)表示掩码操作,softmax(·)为神经网络中softmax激活层;
将输出结果x_out 5与数据v相乘,并进数据变形后获取输出,为式(16)所示:
x_out 6=Tranf(x_out 5·v),x_out 5∈R 8×17×17,v∈R 8×17×128,x_out 6∈R 17×1024  (16)
其中,Tranf(·)表示矩阵维度变换;
c.数据线性变换及激活处理:
x_out 7=Dropout(Linear(x_out 6,dim=1024,dim=1024),dropout=0.1),x_out 7∈R 17×1024其中,Linear(·)表示线性变换,输入通道dim=1024,输出通道dim=1024;Droput(·)表示神经元激活层处理,激活因子dropout=0.1;
经过并行关注操作后,经过残差操作,获取的模块输出为式(17):x_out=x_in+x_out 7,x_in∈R 17×1024,x_out 7∈R 17×1024,x_out∈R 17×1024  (17);
3)前馈网络数据处理
前馈网络数据处理,针对并行关注操作后获得的数据进行相关操作,该部分输入数据为x_in∈R 17×1024,经过下列数序处理过程:
线性处理成式(18):
x_out 1=Linear(x_in,dim=1024,mlp_dim=2048),x_out 1∈R 17×1024  (18)
其中,Linear(·)表示线性变换,输入通道dim=1024,输出通道mlp_dim=2048;
激活函数层为式(19)所示:
x_out 2=GELU(x_out 1),x_out 2∈R 17×1024   (19)
其中,GELU(·)表示GELU激活函数;
神经元激活层操作为式(20)所示:
x_out 3=Dropout(x_out 2,dropout=0.1),x_out 3∈R 17×1024   (20)
其中,Droput(·)表示激活层处理,激活因子dropout=0.1;
线性处理成式(21)所示:
x_out 4=Linear(x_out 3,mlp_dim=2048,dim=1024),x_out 4∈R 17×1024  (21)
其中,Linear(·)表示线性变换,输入通道mlp_dim=2048,输出通道dim=1024;
神经元激活层操作为式(22)所示:
x_out 5=Dropout(x_out 4,dropout=0.1),x_out 5∈R 17×1024  (22)
其中,Droput(·)表示激活层处理,激活因子dropout=0.1;
经过前馈网络数据处理后,采用残差操作,获得的最终输出数据为式(23)所示:
x_out=x_in+x_out 5,x_in∈R 17×1024,x_out 7∈R 17×1024,x_out∈R 17×1024  (23);
经过连续编码模块后的数据,进行数据处理,获得动作检测结果,该过程表示为式(24):
x_out=x_in[0],x_in∈R 17×1024,x_out∈R 1×1024  (24)
对上述输出数据,进行如式(25)顺序操作:
归一化:
x_out 1=Norml(x_out),x_out 1∈R 1×1024   (25)
其中,Norml(·)表示归一化处理;
线性处理成如式(26):
x_out 2=Linear(x_out 1,dim=1024,mlp_dim=2048,),x_out 2∈R 17×1024  (26)
其中Linear(·)表示线性变换,输入通道dim=1024,输出通道mlp_dim=2048;
激活函数层为式(27)所示:
x_out 3=GELU(x_out 2),x_out 3∈R 1×2048  (27)
其中,GELU(·)表示GELU激活函数;
神经元激活层操作如式(28):
x_out 4=Dropout(x_out 3,dropout=0.1),x_out 4∈R 1×2048  (28)
其中,Droput(·)表示激活层处理,激活因子dropout=0.1;
线性处理成式(29):
x_out 5=Linear(x_out 4,mlp_dim=2048,num_class),x_out 5∈R 17×num_class  (29)
其中,Linear(·)表示线性变换,输入通道mlp_dim=2048,输出通道num_class为类别数;激活函数层为式(30):
x_out 6=softmax(x_out 5),x_out 6∈R 1×num_class  (30)
其中,softmax(·)表示softmax激活函数,获取最终的动作识别结果。
本发明具有如下有益效果:
本方法基于连续特征提取,实现连续帧图像动作识别。方法中以转换模型提取模块代替3D卷积网络,解决了3D卷积网络模型计算量较大的问题,并提高了模型在GPU上的并行计算能力,同时转换模型均已最基础的算子组成,提高了模型的迁移部署性能,解决了模型转换或部署时兼容性较弱的问题。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为基于转换模块的行为识别方法的流程框图;
图2为转换模块结构图;
图3为基础编码模块结构图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本发明使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非本发明另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
下面结合附图和具体实施例对本发明的具体实施方式做进一步说明:
结合图1-3,基于转换模块的行为识别方法,包括以下步骤:
步骤一,读取连续帧图像及构建掩码,读取连续帧图像及构建掩码包括以下过程:
按时间顺序,连续clip=16帧的图像数据,构建输入数据input,连续帧图像数据input是维度为input∈R 16×3×H×W的四维矩阵,其中H,W表示图片的原始高度和宽度;
对连续帧输入数据input的每一张图片,采用等比例缩放方法,进行图片大小变换,经过上述操作后,获得的数据维度为式(1)所示:
input∈R 16×3×h×w     (1)
其中,h,w为缩放后图片高度及宽度;
关键帧目标标签信息target,包含动作标签,
并构建位置掩码矩阵mask,是维度为mask∈R 4×4的二维全1矩阵,用以标定输入数据中,真实图片的位置。
步骤二,构建转换模块输入数据,包括获取转换模块输入数据和位置掩码矩阵mask操作,获取转换模块输入数据包括以下过程:
将clip=16的连续帧图像数据input,平铺成二维矩阵,维度变化为:input∈R 16×d,其中:d=3×h×w;
将铺平后的连续帧数据input,采用线性链接层,进行通道压缩,线性链接层输入通道数 为d,输出通道数为1024,则经过压缩后获取的连续帧数据为式(2)所示:
clip_fram=Linear(input)    (2)
其中,Linear(·)为线性链接层操作,获得的维度为clip_frame∈R 16×1024的二维矩阵;
构建随机可训练参数矩阵cls_token,维度为cls_token∈R 1×1024
将数据cls_token与数据clip_frame,按照第一个维度进行矩阵拼接,获取转换模块输入数据in_data,为式(3)所示:
in_data=Cat(cls_token,clip_frame),cls_token∈R 1×1024,clip_frame∈R 16×1024   (3)
其中,Cat(·)表示矩阵拼接操作,获得的in_data数据是维度为in_data=R 17×1024的二维矩阵;
位置掩码矩阵mask操作包括以下过程:
将掩码矩阵mask,平铺成以为一维向量,并在其维度变化为式(4):
Figure PCTCN2021116770-appb-000008
对mask矩阵进行填充操作,获得变换后的mask矩阵表示为式(5):
mask=Pad(mask,(1,0),value=1)   (5)
其中,Pad(·)表示填充操作,(1,0)表述在其第一个位置添加1个数据,添加数据数值value=1,输出的mask维度变换关系表示为式(6):
Figure PCTCN2021116770-appb-000009
对数据mask进行维度变换,获取两个新矩阵为shift(7)所示:
Figure PCTCN2021116770-appb-000010
获取新的掩码输入矩阵为shift(8):
in_mask=mask 1×mask 2    (8)
其维度为:in_mask∈R 17×17的二维矩阵。
步骤三,转换模块动作识别,包括数据预处理操作,经过连续编码模块后的数据处理,获得动作检测结果;数据预处理操作包括以下过程:
构建随机可训练参数矩阵,pos_embedding,维度为pos_embedding∈R 17×1024,与输入数据in_data相加,并进行神经元激活层操作,输出结果x表示为式(9):
x=Dropout(pos_embedding+in_data,dropout=0.1),x∈R 17×1024   (9)
其中,Dropout(·)表示激活层操作,激活层因子dropout=0.1;
连续编码模块有depth=6个结构相同的基础编码模块串联组成,基础编码模块的计算过程为:
基础编码模块的基本设计参数为,输入数据通道数dim=1024,中间层数据通道数mlp_dim=2048,并行深度heads=8,激活层系数prodout=0.1;
1)数据归一化处理
对输入数据x进行归一化处理,获取的新数据表示为式(10):
x_out=Norml(x_in),x_out∈R 17×1024    (10)
其中,Norml(·)表示归一化处理;为方便符号标记,用x_in,x_out代表处理前后的输入、输出数据;
2)并行关注操作
a.线性链接层数据通道扩充:
输入数据通道dim=1024,扩充后数据通道out_dim=dim×3=3072,其变换过程表示为式(11):
x_out 1=Linear(x_in,dim=1024,out_dim=3072)   (11)
其中,Linear(·)为线性链接操作,x_in,x_out 1代表处理前后的输入、输出数据,数据维度变化表示为式(12):
Figure PCTCN2021116770-appb-000011
b.构建q,k,v数据:
矩阵变形
Figure PCTCN2021116770-appb-000012
则为式(13):
Figure PCTCN2021116770-appb-000013
矩阵q,k相乘得到式(14):
Figure PCTCN2021116770-appb-000014
其中,T表示矩阵转至操作;
掩码替换操作:
根据输入掩码矩阵in_mask∈R 17×17,矩阵q,k相乘后结果x_out∈R 8×17×17中,掩码结果为0的位置用value=1e -9进行替换,计算过程表示为式(15):
x_out 5=softmax(Mask(x_out 4,value=1e -9)),x_out 5∈R 8×17×17   (15)
其中,Mask(·)表示掩码操作,softmax(·)为神经网络中softmax激活层;
将输出结果x_out 5与数据v相乘,并进数据变形后获取输出,为式(16)所示:x_out 6=Tranf(x_out 5·v),x_out 5∈R 8×17×17,v∈R 8×17×128,x_out 6∈R 17×1024    (16)
其中,Tranf(·)表示矩阵维度变换;
c.数据线性变换及激活处理:x_out 7=Dropout(Linear(x_out 6,dim=1024,dim=1024),dropout=0.1),x_out 7∈R 17×1024其中,Linear(·)表示线性变换,输入通道dim=1024,输出通道dim=1024;Droput(·)表示神经元激活层处理,激活因子dropout=0.1;
经过并行关注操作后,经过残差操作,获取的模块输出为式(17):
x_out=x_in+x_out 7,x_in∈R 17×1024,x_out 7∈R 17×1024,x_out∈R 17×1024   (17);
3)前馈网络数据处理
前馈网络数据处理,针对并行关注操作后获得的数据进行相关操作,该部分输入数据为x_in∈R 17×1024,经过下列数序处理过程:
线性处理成式(18):
x_out 1=Linear(x_in,dim=1024,mlp_dim=2048),x_out 1∈R 17×1024   (18)
其中,Linear(·)表示线性变换,输入通道dim=1024,输出通道mlp_dim=2048;
激活函数层为式(19)所示:
x_out 2=GELU(x_out 1),x_out 2∈R 17×1024   (19)
其中,GELU(·)表示GELU激活函数;
神经元激活层操作为式(20)所示:
x_out 3=Dropout(x_out 2,dropout=0.1),x_out 3∈R 17×1024   (20)
其中,Droput(·)表示激活层处理,激活因子dropout=0.1;
线性处理成式(21)所示:
x_out 4=Linear(x_out 3,mlp_dim=2048,dim=1024),x_out 4∈R 17×1024  (21)
其中,Linear(·)表示线性变换,输入通道mlp_dim=2048,输出通道dim=1024;
神经元激活层操作为式(22)所示:
x_out 5=Dropout(x_out 4,dropout=0.1),x_out 5∈R 17×1024   (22)
其中,Droput(·)表示激活层处理,激活因子dropout=0.1;
经过前馈网络数据处理后,采用残差操作,获得的最终输出数据为式(23)所示:
x_out=x_in+x_out 5,x_in∈R 17×1024,x_out 7∈R 17×1024,x_out∈R 17×1024   (23);
经过连续编码模块后的数据,进行数据处理,获得动作检测结果,该过程表示为式(24):
x_out=x_in[0],x_in∈R 17×1024,x_out∈R 1×1024   (24)
对上述输出数据,进行如式(25)顺序操作:
归一化:
x_out 1=Norml(x_out),x_out 1∈R 1×1024   (25)
其中,Norml(·)表示归一化处理;
线性处理成如式(26):
x_out 2=Linear(x_out 1,dim=1024,mlp_dim=2048,),x_out 2∈R 17×1024  (26)
其中Linear(·)表示线性变换,输入通道dim=1024,输出通道mlp_dim=2048;
激活函数层为式(27)所示:
x_out 3=GELU(x_out 2),x_out 3∈R 1×2048    (27)
其中,GELU(·)表示GELU激活函数;
神经元激活层操作如式(28):
x_out 4=Dropout(x_out 3,dropout=0.1),x_out 4∈R 1×2048   (28)
其中,Droput(·)表示激活层处理,激活因子dropout=0.1;
线性处理成式(29):
x_out 5=Linear(x_out 4,mlp_dim=2048,num_class),x_out 5∈R 17×num_class   (29)
其中,Linear(·)表示线性变换,输入通道mlp_dim=2048,输出通道num_class为类别数;激活函数层为式(30):
x_out 6=softmax(x_out 5),x_out 6∈R 1×num_class   (30)
其中,softmax(·)表示softmax激活函数,获取最终的动作识别结果。
步骤四,将类别检测结果,与类别标签target计算交叉熵损失,优化网络参数。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

  1. 一种基于转换模块的行为识别方法,其特征在于,包括以下步骤:
    步骤一,读取连续帧图像及构建掩码;
    步骤二,构建转换模块输入数据,包括获取转换模块输入数据和位置掩码矩阵mask操作;
    步骤三,转换模块动作识别,包括数据预处理操作,经过连续编码模块后的数据处理,获得动作检测结果;
    步骤四,将类别检测结果,与类别标签target计算交叉熵损失,优化网络参数。
  2. 如权利要求1所述的一种基于转换模块的行为识别方法,其特征在于,读取连续帧图像及构建掩码包括以下过程:
    按时间顺序,连续clip=16帧的图像数据,构建输入数据input,连续帧图像数据input是维度为input∈R 16×3×H×W的四维矩阵,其中H,W表示图片的原始高度和宽度;
    对连续帧输入数据input的每一张图片,采用等比例缩放方法,进行图片大小变换,经过上述操作后,获得的数据维度为式(1)所示:
    input∈R 16×3×h×w  (1)
    其中,h,w为缩放后图片高度及宽度;
    关键帧目标标签信息target,包含动作标签,
    并构建位置掩码矩阵mask,是维度为mask∈R 4×4的二维全1矩阵,用以标定输入数据中,真实图片的位置。
  3. 如权利要求1所述的一种基于转换模块的行为识别方法,其特征在于,步骤二中获取转换模块输入数据包括以下过程:
    将clip=16的连续帧图像数据input,平铺成二维矩阵,维度变化为:input∈R 16×d,其中:d=3×h×w;
    将铺平后的连续帧数据input,采用线性链接层,进行通道压缩,线性链接层输入通道数为d,输出通道数为1024,则经过压缩后获取的连续帧数据为式(2)所示:
    clip_fram=Linear(input)  (2)
    其中,Linear(·)为线性链接层操作,获得的维度为clip_frame∈R 16×1024的二维矩阵;
    构建随机可训练参数矩阵cls_token,维度为cls_token∈R 1×1024
    将数据cls_token与数据clip_frame,按照第一个维度进行矩阵拼接,获取转换模块输入数据in_data,为式(3)所示:
    in_data=Cat(cls_token,clip_frame),cls_token∈R 1×1024,clip_frame∈R 16×1024  (3)
    其中,Cat(·)表示矩阵拼接操作,获得的in_data数据是维度为in_data=R 17×1024的二维矩阵;
    位置掩码矩阵mask操作包括以下过程:
    将掩码矩阵mask,平铺成以为一维向量,并在其维度变化为式(4):
    Figure PCTCN2021116770-appb-100001
    对mask矩阵进行填充操作,获得变换后的mask矩阵表示为式(5):
    mask=Pad(mask,(1,0),value=1)  (5)
    其中,Pad(·)表示填充操作,(1,0)表述在其第一个位置添加1个数据,添加数据数值value=1,输出的mask维度变换关系表示为式(6):
    Figure PCTCN2021116770-appb-100002
    对数据mask进行维度变换,获取两个新矩阵为shift(7)所示:
    Figure PCTCN2021116770-appb-100003
    获取新的掩码输入矩阵为shift(8):
    in_mask=mask 1×mask 2  (8)
    其维度为:in_mask∈R 17×17的二维矩阵。
  4. 如权利要求1所述的一种基于转换模块的行为识别方法,其特征在于,步骤三中的数据预处理操作包括以下过程:
    构建随机可训练参数矩阵,pos_embedding,维度为pos_embedding∈R 17×1024,与输入数据in_data相加,并进行神经元激活层操作,输出结果x表示为式(9):
    x=Dropout(pos_embedding+in_data,dropout=0.1),x∈R 17×1024  (9)
    其中,Dropout(·)表示激活层操作,激活层因子dropout=0.1;
    连续编码模块有depth=6个结构相同的基础编码模块串联组成,基础编码模块的计算过程为:
    基础编码模块的基本设计参数为,输入数据通道数dim=1024,中间层数据通道数mlp_dim=2048,并行深度heads=8,激活层系数prodout=0.1;
    1)数据归一化处理
    对输入数据x进行归一化处理,获取的新数据表示为式(10):
    x_out=Norml(x_in),x_out∈R 17×1024  (10)
    其中,Norml(·)表示归一化处理;为方便符号标记,用x_in,x_out代表处理前后的输入、输出数据;
    2)并行关注操作
    a.线性链接层数据通道扩充:
    输入数据通道dim=1024,扩充后数据通道out_dim=dim×3=3072,其变换过程表示为式(11):
    x_out 1=Linear(x_in,dim=1024,out_dim=3072)  (11)
    其中,Linear(·)为线性链接操作,x_in,x_out 1代表处理前后的输入、输出数据,数据维度变化表示为式(12):
    Figure PCTCN2021116770-appb-100004
    b.构建q,k,v数据:
    矩阵变形
    Figure PCTCN2021116770-appb-100005
    则为式(13):
    Figure PCTCN2021116770-appb-100006
    矩阵q,k相乘得到式(14):
    Figure PCTCN2021116770-appb-100007
    其中,T表示矩阵转至操作;
    掩码替换操作:
    根据输入掩码矩阵in_mask∈R 17×17,矩阵q,k相乘后结果x_out∈R 8×17×17中,掩码结果为0的位置用value=1e -9进行替换,计算过程表示为式(15):
    x_out 5=softmax(Mask(x_out 4,value=1e -9)),x_out 5∈R 8×17×17  (15)
    其中,Mask(·)表示掩码操作,softmax(·)为神经网络中softmax激活层;
    将输出结果x_out 5与数据v相乘,并进数据变形后获取输出,为式(16)所示:
    x_out 6=Tranf(x_out 5·v),x_out 5∈R 8×17×17,v∈R 8×17×128,x_out 6∈R 17×1024  (16)
    其中,Tranf(·)表示矩阵维度变换;
    c.数据线性变换及激活处理:
    x_out 7=Dropout(Linear(x_out 6,dim=1024,dim=1024),dropout=0.1),x_out 7∈R 17×1024其中Linear(·)表示线性变换,输入通道dim=1024,输出通道dim=1024;Droput(·)表示神经元激活层处理,激活因子dropout=0.1;
    经过并行关注操作后,经过残差操作,获取的模块输出为式(17):
    x_out=x_in+x_out 7,x_in∈R 17×1024,x_out 7∈R 17×1024,x_out∈R 17×1024  (17);
    3)前馈网络数据处理
    前馈网络数据处理,针对并行关注操作后获得的数据进行相关操作,输入数据为x_in∈R 17×1024,经过下列数序处理过程:
    线性处理成式(18):
    x_out 1=Linear(x_in,dim=1024,mlp_dim=2048),x_out 1∈R 17×1024  (18)
    其中,Linear(·)表示线性变换,输入通道dim=1024,输出通道mlp_dim=2048;
    激活函数层为式(19)所示:
    x_out 2=GELU(x_out 1),x_out 2∈R 17×1024  (19)
    其中,GELU(·)表示GELU激活函数;
    神经元激活层操作为式(20)所示:
    x_out 3=Dropout(x_out 2,dropout=0.1),x_out 3∈R 17×1024  (20)
    其中,Droput(·)表示激活层处理,激活因子dropout=0.1;
    线性处理成式(21)所示:
    x_out 4=Linear(x_out 3,mlp_dim=2048,dim=1024),x_out 4∈R 17×1024  (21)
    其中,Linear(·)表示线性变换,输入通道mlp_dim=2048,输出通道dim=1024;
    神经元激活层操作为式(22)所示:
    x_out 5=Dropout(x_out 4,dropout=0.1),x_out 5∈R 17×1024  (22)
    其中,Droput(·)表示激活层处理,激活因子dropout=0.1;
    经过前馈网络数据处理后,采用残差操作,获得的最终输出数据为式(23)所示:
    x_out=x_in+x_out 5,x_in∈R 17×1024,x_out 7∈R 17×1024,x_out∈R 17×1024  (23);
    经过连续编码模块后的数据,进行数据处理,获得动作检测结果,该过程表示为式(24):
    x_out=x_in[0],x_in∈R 17×1024,x_out∈R 1×1024  (24)
    对上述输出数据,进行如式(25)顺序操作:
    归一化:
    x_out 1=Norml(x_out),x_out 1∈R 1×1024  (25)
    其中,Norml(·)表示归一化处理;
    线性处理成如式(26):
    x_out 2=Linear(x_out 1,dim=1024,mlp_dim=2048,),x_out 2∈R 17×1024  (26)
    其中Linear(·)表示线性变换,输入通道dim=1024,输出通道mlp_dim=2048;
    激活函数层为式(27)所示:
    x_out 3=GELU(x_out 2),x_out 3∈R 1×2048  (27)
    其中,GELU(·)表示GELU激活函数;
    神经元激活层操作如式(28):
    x_out 4=Dropout(x_out 3,dropout=0.1),x_out 4∈R 1×2048  (28)
    其中,Droput(·)表示激活层处理,激活因子dropout=0.1;
    线性处理成式(29):
    x_out 5=Linear(x_out 4,mlp_dim=2048,num_class),x_out 5∈R 17×num_class  (29)
    其中,Linear(·)表示线性变换,输入通道mlp_dim=2048,输出通道num_class为类别数;
    激活函数层为式(30):
    x_out 6=softmax(x_out 5),x_out 6∈R 1×num_class  (30)
    其中,softmax(·)表示softmax激活函数,获取最终的动作识别结果。
PCT/CN2021/116770 2020-12-01 2021-09-06 一种基于转换模块的行为识别方法 WO2022116616A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011383635.6 2020-12-01
CN202011383635.6A CN113033276B (zh) 2020-12-01 2020-12-01 一种基于转换模块的行为识别方法

Publications (1)

Publication Number Publication Date
WO2022116616A1 true WO2022116616A1 (zh) 2022-06-09

Family

ID=76459191

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/116770 WO2022116616A1 (zh) 2020-12-01 2021-09-06 一种基于转换模块的行为识别方法

Country Status (2)

Country Link
CN (1) CN113033276B (zh)
WO (1) WO2022116616A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115065567A (zh) * 2022-08-19 2022-09-16 北京金睛云华科技有限公司 用于dga域名研判推理机的插件化执行方法
CN116246338A (zh) * 2022-12-20 2023-06-09 西南交通大学 一种基于图卷积和Transformer复合神经网络的行为识别方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033276B (zh) * 2020-12-01 2022-05-17 神思电子技术股份有限公司 一种基于转换模块的行为识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543627A (zh) * 2018-11-27 2019-03-29 西安电子科技大学 一种判断驾驶行为类别的方法、装置、及计算机设备
US20190156275A1 (en) * 2017-08-07 2019-05-23 Standard Cognition, Corp Systems and methods for deep learning-based notifications
CN109829443A (zh) * 2019-02-23 2019-05-31 重庆邮电大学 基于图像增强与3d卷积神经网络的视频行为识别方法
CN111008567A (zh) * 2019-11-07 2020-04-14 郑州大学 一种驾驶员行为识别方法
CN113033276A (zh) * 2020-12-01 2021-06-25 神思电子技术股份有限公司 一种基于转换模块的行为识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107909005A (zh) * 2017-10-26 2018-04-13 西安电子科技大学 基于深度学习的监控场景下人物姿态识别方法
CN108830157B (zh) * 2018-05-15 2021-01-22 华北电力大学(保定) 基于注意力机制和3d卷积神经网络的人体行为识别方法
CN109726671B (zh) * 2018-12-27 2020-08-04 上海交通大学 从全局到类别特征表达学习的动作识别方法和系统
US10977355B2 (en) * 2019-09-11 2021-04-13 Lg Electronics Inc. Authentication method and device through face recognition

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190156275A1 (en) * 2017-08-07 2019-05-23 Standard Cognition, Corp Systems and methods for deep learning-based notifications
CN109543627A (zh) * 2018-11-27 2019-03-29 西安电子科技大学 一种判断驾驶行为类别的方法、装置、及计算机设备
CN109829443A (zh) * 2019-02-23 2019-05-31 重庆邮电大学 基于图像增强与3d卷积神经网络的视频行为识别方法
CN111008567A (zh) * 2019-11-07 2020-04-14 郑州大学 一种驾驶员行为识别方法
CN113033276A (zh) * 2020-12-01 2021-06-25 神思电子技术股份有限公司 一种基于转换模块的行为识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115065567A (zh) * 2022-08-19 2022-09-16 北京金睛云华科技有限公司 用于dga域名研判推理机的插件化执行方法
CN116246338A (zh) * 2022-12-20 2023-06-09 西南交通大学 一种基于图卷积和Transformer复合神经网络的行为识别方法
CN116246338B (zh) * 2022-12-20 2023-10-03 西南交通大学 一种基于图卷积和Transformer复合神经网络的行为识别方法

Also Published As

Publication number Publication date
CN113033276A (zh) 2021-06-25
CN113033276B (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
WO2022116616A1 (zh) 一种基于转换模块的行为识别方法
CN110458844B (zh) 一种低光照场景的语义分割方法
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN113936339B (zh) 基于双通道交叉注意力机制的打架识别方法和装置
CN109948475B (zh) 一种基于骨架特征和深度学习的人体动作识别方法
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN113627266B (zh) 基于Transformer时空建模的视频行人重识别方法
CN114596520A (zh) 一种第一视角视频动作识别方法及装置
CN110378233B (zh) 一种基于人群行为先验知识的双分支异常检测方法
CN112434655A (zh) 一种基于自适应置信度图卷积网络的步态识别方法
CN109919032A (zh) 一种基于动作预测的视频异常行为检测方法
CN111488805B (zh) 一种基于显著性特征提取的视频行为识别方法
CN112183240B (zh) 一种基于3d时间流和并行空间流的双流卷积行为识别方法
CN110390308B (zh) 一种基于时空对抗生成网络的视频行为识别方法
CN106650617A (zh) 一种基于概率潜在语义分析的行人异常识别方法
CN109614896A (zh) 一种基于递归卷积神经网络的视频内容语义理解的方法
CN111126155B (zh) 一种基于语义约束生成对抗网络的行人再识别方法
Tallec et al. Multi-label transformer for action unit detection
CN116246338B (zh) 一种基于图卷积和Transformer复合神经网络的行为识别方法
CN117238019A (zh) 基于时空相对变换的视频人脸表情类别识别方法和系统
CN113283393B (zh) 基于图像组与两流网络的Deepfake视频检测方法
Zhu et al. Micro-expression recognition convolutional network based on dual-stream temporal-domain information interaction
CN115995051A (zh) 基于最小残差平方和法的变电站设备故障期识别方法
CN115830707A (zh) 一种基于超图学习的多视角人体行为识别方法
Zhang et al. Short-term temporal convolutional networks for dynamic hand gesture recognition

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21899652

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21899652

Country of ref document: EP

Kind code of ref document: A1

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 29.11.2023)