WO2022116616A1

WO2022116616A1 - 一种基于转换模块的行为识别方法

Info

Publication number: WO2022116616A1
Application number: PCT/CN2021/116770
Authority: WO
Inventors: 高朋; 井焜; 许野平; 刘辰飞; 陈英鹏; 席道亮; 张朝瑞
Original assignee: 神思电子技术股份有限公司
Priority date: 2020-12-01
Filing date: 2021-09-06
Publication date: 2022-06-09
Also published as: CN113033276A; CN113033276B

Abstract

一种基于转换模块的行为识别方法，涉及人体动作识别领域。基于转换模块的行为识别方法首先读取连续帧图像及构建掩码；然后构建转换模块输入数据，包括获取转换模块输入数据和位置掩码矩阵mask操作；再转换模块动作识别，包括数据预处理操作，经过连续编码模块后的数据处理，获得动作检测结果；最后将类别检测结果，与类别标签target计算交叉熵损失，优化网络参数。该方法使用自然语言理解中使用的转换模块用于提取连续帧图像的时空特征，同时，整个识别过程中仅使用转换模块，进而降低了方法的参数量、降低了整体计算量、提高了动作识别频率。

Description

一种基于转换模块的行为识别方法

技术领域

本发明涉及人体动作识别领域，具体的说，是涉及一种基于转换模块的行为识别方法。

背景技术

这里的陈述仅提供与本发明相关的背景技术，而不必然地构成现有技术。

动作识别通过提取连续视频帧的动作特征，完成视频动作内容的分析任务并获取动作类别的一种分类任务，可有助与提高重点区域下危险行为的监控能力，避免可能存在的危险行为的发生。

专利号为CN202010708119.X的中国专利，提出了一种高效的基于通道融合和分类器对抗的无监督跨域动作识别方法(CAFCCN)，用于解决目标数据集训练数据集无标签的问题，通过使用源域数据集的信息和目标域无标签训练集的信息，实现了对目标域测试集的准确识别，本发明方法收敛速度快，识别精度高，从而为目标数据集训练数据集无标签上的动作识别问题提供了帮助。该方法不足之处在于，需要四个深度残差网络模型分别提取源光域光流图特征及目标域光流图特征，同时需要多个融合模块完成源光域光流图特征及目标域光流图特征的融合，从而导致整个算法的模型参数较多，整体计算量较大。

专利号为201810431650.X的中国专利，公开了一种基于深度学习的时序动作识别方法，针对边界检测过程中长动作特征表达有效性不够的问题，通过双流网络同时提取帧间信息和帧内信息，得到视频单元的特征序列，并提出结合上下文信息的多尺度短动作段截选方案，有效地提高后续回归准确率，利用特征序列训练时间边界模型，减小模型训练时间，提高计算效率。该方法不足之处在于，方法中使用间隔帧图像直接输入动作识别网络进行动作识别，当设备处于复杂环境、多目标时，不同目标不同的动作，会影响整个图像的动作检测结果，无法对每一个目标进行动作识别。同时，方法采用双流网络同时提取帧间信息和帧内信息，为了获得时序下连续帧图像特征不可避免的用到了3D卷积，这样的就增加了模型的计算量，导致模型训练周期增加，也增加了样本的搜集量。

专利号为CN202010840934.1的中国专利，公开了一种强动态视频的行为识别方法，根据数据集上的数据分布特征，将传统双流模型中的光流分支作为教导模型，辅助训练RGB分支；RGB分支输入源视频全局的RGB图像帧，光流分支输入源视频全局的光流图像帧，其中光流图像帧由RGB图像帧通过光流计算得到；进行RGB分支和光流分支联合推断，实现视频中行为的识别。专利中，分别以不同配置训练RGB分支及光流分支，相对于传统的双流算法，配置动态识别，可适应性强。本发明通过强化光流特征学习，考虑了强动态行为视频的性质，多阶段传递光流信息，获取充分的运动特征，提高了识别准确度。该专利还是以膨胀3D卷积用于获取光流的时间特征，以2D卷积获取空间特征，需要两个不同网络完成动作识别任务，并没有解决模型计算量较大、3D卷积网络移植性较差的问题。

专利号为201910064529.2的中国专利，公开了一种基于注意力机制的行为识别系统，利用通道注意模块提取通道间特征码，用于动作预测。但是该专利的注意模块，使用的还是三维卷积集合二维卷积的方式，并没有解决3D卷积模型参数多计算量大的问题。

经典的动作识别方法，以3D卷积和光流法为基础，用于提取时间序列下的连续帧特征，获取连续帧在时间轴下的依赖关系，提高了动作识别精度。

相对于2D卷积而言，3D卷积需要在三个维度上提取连续帧特征，导致3D卷积模型的参数量增加，并增加了模型计算量，导致模型的训练周期较长。同时，3D作为一种新的计算方式，在不同深度学习框架下，对3D卷积的支持程度较差，影响了基于3D卷积的动作识别算法的实际应用性。

而光流法，需要多个2D卷积模型相互配合，用于提取时间特征及空间特征，导致模型参数过大、计算量较大，对实际应用中的硬件设备提出较高要求，降低了方法的实际应用性。

发明内容

针对现有技术存在的不足，本发明提出了一种使用自然语言理解中使用的转换模块用于提取连续帧图像的时空特征，同时，整个识别过程中仅使用转换模块的行为识别方法。

为了实现上述目的，本发明是通过如下的技术方案来实现：

一种基于转换模块的行为识别方法，包括以下步骤：

步骤一，读取连续帧图像及构建掩码；

步骤二，构建转换模块输入数据，包括获取转换模块输入数据和位置掩码矩阵mask操作；

步骤三，转换模块动作识别，包括数据预处理操作，经过连续编码模块后的数据处理，获得动作检测结果；

步骤四，将类别检测结果，与类别标签target计算交叉熵损失，优化网络参数。

优选地，读取连续帧图像及构建掩码包括以下过程：

按时间顺序，连续clip＝16帧的图像数据，构建输入数据input，连续帧图像数据input是维度为input∈R ^16×3×H×W的四维矩阵，其中H,W表示图片的原始高度和宽度；

对连续帧输入数据input的每一张图片，采用等比例缩放方法，进行图片大小变换，经过上述操作后，获得的数据维度为式(1)所示：

input∈R ^16×3×h×w (1)

其中，h,w为缩放后图片高度及宽度；

关键帧目标标签信息target，包含动作标签，

并构建位置掩码矩阵mask，是维度为mask∈R ^4×4的二维全1矩阵，用以标定输入数据中，真实图片的位置。

优选地，步骤二中获取转换模块输入数据包括以下过程：

将clip＝16的连续帧图像数据input，平铺成二维矩阵，维度变化为：input∈R ^16×d，其中：d＝3×h×w；

将铺平后的连续帧数据input，采用线性链接层，进行通道压缩，线性链接层输入通道数为d，输出通道数为1024，则经过压缩后获取的连续帧数据为式(2)所示：

clip_fram＝Linear(input) (2)

其中，Linear(·)为线性链接层操作，获得的维度为clip_frame∈R ^16×1024的二维矩阵；

构建随机可训练参数矩阵cls_token，维度为cls_token∈R ^1×1024；

将数据cls_token与数据clip_frame，按照第一个维度进行矩阵拼接，获取转换模块输入数据in_data，为式(3)所示：

in_data＝Cat(cls_token,clip_frame),cls_token∈R ^1×1024,clip_frame∈R ^16×1024 (3)

其中，Cat(·)表示矩阵拼接操作，获得的in_data数据是维度为in_data＝R ^17×1024的二维矩阵；

位置掩码矩阵mask操作包括以下过程：

将掩码矩阵mask，平铺成以为一维向量，并在其维度变化为式(4)：

对mask矩阵进行填充操作，获得变换后的mask矩阵表示为式(5)：

mask＝Pad(mask,(1,0),value＝1) (5)

其中，Pad(·)表示填充操作，(1,0)表述在其第一个位置添加1个数据，添加数据数值 value＝1，输出的mask维度变换关系表示为式(6)：

对数据mask进行维度变换，获取两个新矩阵为shift(7)所示：

获取新的掩码输入矩阵为shift(8)：

in_mask＝mask ₁×mask ₂ (8)

其维度为：in_mask∈R ^17×17的二维矩阵。

优选地，步骤三中的数据预处理操作包括以下过程：

构建随机可训练参数矩阵，pos_embedding，维度为pos_embedding∈R ^17×1024，与输入数据in_data相加，并进行神经元激活层操作，输出结果x表示为式(9)：

x＝Dropout(pos_embedding+in_data,dropout＝0.1),x∈R ^17×1024 (9)

其中，Dropout(·)表示激活层操作，激活层因子dropout＝0.1；

连续编码模块有depth＝6个结构相同的基础编码模块串联组成，基础编码模块的计算过程为：

基础编码模块的基本设计参数为，输入数据通道数dim＝1024，中间层数据通道数mlp_dim＝2048，并行深度heads＝8，激活层系数prodout＝0.1；

1)数据归一化处理

对输入数据x进行归一化处理，获取的新数据表示为式(10)：

x_out＝Norml(x_in),x_out∈R ^17×1024 (10)

其中，Norml(·)表示归一化处理；为方便符号标记，用x_in，x_out代表处理前后的输入、输出数据；

2)并行关注操作

a.线性链接层数据通道扩充：

输入数据通道dim＝1024，扩充后数据通道out_dim＝dim×3＝3072，其变换过程表示为式(11)：

x_out ₁＝Linear(x_in,dim＝1024,out_dim＝3072) (11)

其中，Linear(·)为线性链接操作，x_in，x_out ₁代表处理前后的输入、输出数据，数据维度变化表示为式(12)：

b.构建q,k,v数据：

矩阵变形

则为式(13)：

矩阵q,k相乘得到式(14)：

其中，T表示矩阵转至操作；

掩码替换操作：

根据输入掩码矩阵in_mask∈R ^17×17，矩阵q,k相乘后结果x_out∈R ^8×17×17中，掩码结果为0的位置用value＝1e ^-9进行替换，计算过程表示为式(15)：

x_out ₅＝softmax(Mask(x_out ₄,value＝1e ^-9)),x_out ₅∈R ^8×17×17 (15)

其中，Mask(·)表示掩码操作，softmax(·)为神经网络中softmax激活层；

将输出结果x_out ₅与数据v相乘，并进数据变形后获取输出，为式(16)所示：

x_out ₆＝Tranf(x_out ₅·v),x_out ₅∈R ^8×17×17,v∈R ^8×17×128,x_out ₆∈R ^17×1024 (16)

其中，Tranf(·)表示矩阵维度变换；

c.数据线性变换及激活处理：

x_out ₇＝Dropout(Linear(x_out ₆,dim＝1024,dim＝1024),dropout＝0.1),x_out ₇∈R ^17×1024其中，Linear(·)表示线性变换，输入通道dim＝1024，输出通道dim＝1024；Droput(·)表示神经元激活层处理，激活因子dropout＝0.1；

经过并行关注操作后，经过残差操作，获取的模块输出为式(17)：x_out＝x_in+x_out ₇,x_in∈R ^17×1024,x_out ₇∈R ^17×1024,x_out∈R ^17×1024 (17)；

3)前馈网络数据处理

前馈网络数据处理，针对并行关注操作后获得的数据进行相关操作，该部分输入数据为x_in∈R ^17×1024，经过下列数序处理过程：

线性处理成式(18)：

x_out ₁＝Linear(x_in,dim＝1024,mlp_dim＝2048),x_out ₁∈R ^17×1024 (18)

其中，Linear(·)表示线性变换，输入通道dim＝1024，输出通道mlp_dim＝2048；

激活函数层为式(19)所示：

x_out ₂＝GELU(x_out ₁),x_out ₂∈R ^17×1024 (19)

其中，GELU(·)表示GELU激活函数；

神经元激活层操作为式(20)所示：

x_out ₃＝Dropout(x_out ₂,dropout＝0.1),x_out ₃∈R ^17×1024 (20)

其中，Droput(·)表示激活层处理，激活因子dropout＝0.1；

线性处理成式(21)所示：

x_out ₄＝Linear(x_out ₃,mlp_dim＝2048,dim＝1024),x_out ₄∈R ^17×1024 (21)

其中，Linear(·)表示线性变换，输入通道mlp_dim＝2048，输出通道dim＝1024；

神经元激活层操作为式(22)所示：

x_out ₅＝Dropout(x_out ₄,dropout＝0.1),x_out ₅∈R ^17×1024 (22)

其中，Droput(·)表示激活层处理，激活因子dropout＝0.1；

经过前馈网络数据处理后，采用残差操作，获得的最终输出数据为式(23)所示：

x_out＝x_in+x_out ₅,x_in∈R ^17×1024,x_out ₇∈R ^17×1024,x_out∈R ^17×1024 (23)；

经过连续编码模块后的数据，进行数据处理，获得动作检测结果，该过程表示为式(24)：

x_out＝x_in[0],x_in∈R ^17×1024,x_out∈R ^1×1024 (24)

对上述输出数据，进行如式(25)顺序操作：

归一化：

x_out ₁＝Norml(x_out),x_out ₁∈R ^1×1024 (25)

其中，Norml(·)表示归一化处理；

线性处理成如式(26)：

x_out ₂＝Linear(x_out ₁,dim＝1024,mlp_dim＝2048,),x_out ₂∈R ^17×1024 (26)

其中Linear(·)表示线性变换，输入通道dim＝1024，输出通道mlp_dim＝2048；

激活函数层为式(27)所示：

x_out ₃＝GELU(x_out ₂),x_out ₃∈R ^1×2048 (27)

其中，GELU(·)表示GELU激活函数；

神经元激活层操作如式(28)：

x_out ₄＝Dropout(x_out ₃,dropout＝0.1),x_out ₄∈R ^1×2048 (28)

其中，Droput(·)表示激活层处理，激活因子dropout＝0.1；

线性处理成式(29)：

x_out ₅＝Linear(x_out ₄,mlp_dim＝2048,num_class),x_out ₅∈R ^{17×num_class} (29)

其中，Linear(·)表示线性变换，输入通道mlp_dim＝2048，输出通道num_class为类别数；激活函数层为式(30)：

x_out ₆＝softmax(x_out ₅),x_out ₆∈R ^1×num_class (30)

其中，softmax(·)表示softmax激活函数，获取最终的动作识别结果。

本发明具有如下有益效果：

本方法基于连续特征提取，实现连续帧图像动作识别。方法中以转换模型提取模块代替3D卷积网络，解决了3D卷积网络模型计算量较大的问题，并提高了模型在GPU上的并行计算能力，同时转换模型均已最基础的算子组成，提高了模型的迁移部署性能，解决了模型转换或部署时兼容性较弱的问题。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为基于转换模块的行为识别方法的流程框图；

图2为转换模块结构图；

图3为基础编码模块结构图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非本发明另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

下面结合附图和具体实施例对本发明的具体实施方式做进一步说明：

结合图1-3，基于转换模块的行为识别方法，包括以下步骤：

步骤一，读取连续帧图像及构建掩码，读取连续帧图像及构建掩码包括以下过程：

input∈R ^16×3×h×w (1)

其中，h,w为缩放后图片高度及宽度；

关键帧目标标签信息target，包含动作标签，

步骤二，构建转换模块输入数据，包括获取转换模块输入数据和位置掩码矩阵mask操作，获取转换模块输入数据包括以下过程：

clip_fram＝Linear(input) (2)

构建随机可训练参数矩阵cls_token，维度为cls_token∈R ^1×1024；

位置掩码矩阵mask操作包括以下过程：

mask＝Pad(mask,(1,0),value＝1) (5)

其中，Pad(·)表示填充操作，(1,0)表述在其第一个位置添加1个数据，添加数据数值value＝1，输出的mask维度变换关系表示为式(6)：

对数据mask进行维度变换，获取两个新矩阵为shift(7)所示：

获取新的掩码输入矩阵为shift(8)：

in_mask＝mask ₁×mask ₂ (8)

其维度为：in_mask∈R ^17×17的二维矩阵。

步骤三，转换模块动作识别，包括数据预处理操作，经过连续编码模块后的数据处理，获得动作检测结果；数据预处理操作包括以下过程：

x＝Dropout(pos_embedding+in_data,dropout＝0.1),x∈R ^17×1024 (9)

其中，Dropout(·)表示激活层操作，激活层因子dropout＝0.1；

1)数据归一化处理

对输入数据x进行归一化处理，获取的新数据表示为式(10)：

x_out＝Norml(x_in),x_out∈R ^17×1024 (10)

2)并行关注操作

a.线性链接层数据通道扩充：

x_out ₁＝Linear(x_in,dim＝1024,out_dim＝3072) (11)

b.构建q,k,v数据：

矩阵变形

则为式(13)：

矩阵q,k相乘得到式(14)：

其中，T表示矩阵转至操作；

掩码替换操作：

将输出结果x_out ₅与数据v相乘，并进数据变形后获取输出，为式(16)所示：x_out ₆＝Tranf(x_out ₅·v),x_out ₅∈R ^8×17×17,v∈R ^8×17×128,x_out ₆∈R ^17×1024 (16)

其中，Tranf(·)表示矩阵维度变换；

c.数据线性变换及激活处理：x_out ₇＝Dropout(Linear(x_out ₆,dim＝1024,dim＝1024),dropout＝0.1),x_out ₇∈R ^17×1024其中，Linear(·)表示线性变换，输入通道dim＝1024，输出通道dim＝1024；Droput(·)表示神经元激活层处理，激活因子dropout＝0.1；

经过并行关注操作后，经过残差操作，获取的模块输出为式(17)：

x_out＝x_in+x_out ₇,x_in∈R ^17×1024,x_out ₇∈R ^17×1024,x_out∈R ^17×1024 (17)；

3)前馈网络数据处理

线性处理成式(18)：

x_out ₁＝Linear(x_in,dim＝1024,mlp_dim＝2048),x_out ₁∈R ^17×1024 (18)

激活函数层为式(19)所示：

x_out ₂＝GELU(x_out ₁),x_out ₂∈R ^17×1024 (19)

其中，GELU(·)表示GELU激活函数；

神经元激活层操作为式(20)所示：

x_out ₃＝Dropout(x_out ₂,dropout＝0.1),x_out ₃∈R ^17×1024 (20)

其中，Droput(·)表示激活层处理，激活因子dropout＝0.1；

线性处理成式(21)所示：

神经元激活层操作为式(22)所示：

x_out ₅＝Dropout(x_out ₄,dropout＝0.1),x_out ₅∈R ^17×1024 (22)

其中，Droput(·)表示激活层处理，激活因子dropout＝0.1；

x_out＝x_in[0],x_in∈R ^17×1024,x_out∈R ^1×1024 (24)

对上述输出数据，进行如式(25)顺序操作：

归一化：

x_out ₁＝Norml(x_out),x_out ₁∈R ^1×1024 (25)

其中，Norml(·)表示归一化处理；

线性处理成如式(26)：

激活函数层为式(27)所示：

x_out ₃＝GELU(x_out ₂),x_out ₃∈R ^1×2048 (27)

其中，GELU(·)表示GELU激活函数；

神经元激活层操作如式(28)：

x_out ₄＝Dropout(x_out ₃,dropout＝0.1),x_out ₄∈R ^1×2048 (28)

其中，Droput(·)表示激活层处理，激活因子dropout＝0.1；

线性处理成式(29)：

x_out ₆＝softmax(x_out ₅),x_out ₆∈R ^1×num_class (30)

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种基于转换模块的行为识别方法，其特征在于，包括以下步骤：

步骤一，读取连续帧图像及构建掩码；

步骤二，构建转换模块输入数据，包括获取转换模块输入数据和位置掩码矩阵mask操作；

步骤三，转换模块动作识别，包括数据预处理操作，经过连续编码模块后的数据处理，获得动作检测结果；

步骤四，将类别检测结果，与类别标签target计算交叉熵损失，优化网络参数。
如权利要求1所述的一种基于转换模块的行为识别方法，其特征在于，读取连续帧图像及构建掩码包括以下过程：

按时间顺序，连续clip＝16帧的图像数据，构建输入数据input，连续帧图像数据input是维度为input∈R ^16×3×H×W的四维矩阵，其中H,W表示图片的原始高度和宽度；

对连续帧输入数据input的每一张图片，采用等比例缩放方法，进行图片大小变换，经过上述操作后，获得的数据维度为式(1)所示：

input∈R ^16×3×h×w (1)

其中，h,w为缩放后图片高度及宽度；

关键帧目标标签信息target，包含动作标签，

并构建位置掩码矩阵mask，是维度为mask∈R ^4×4的二维全1矩阵，用以标定输入数据中，真实图片的位置。
如权利要求1所述的一种基于转换模块的行为识别方法，其特征在于，步骤二中获取转换模块输入数据包括以下过程：

将clip＝16的连续帧图像数据input，平铺成二维矩阵，维度变化为：input∈R ^16×d，其中：d＝3×h×w；

将铺平后的连续帧数据input，采用线性链接层，进行通道压缩，线性链接层输入通道数为d，输出通道数为1024，则经过压缩后获取的连续帧数据为式(2)所示：

clip_fram＝Linear(input)  (2)

其中，Linear(·)为线性链接层操作，获得的维度为clip_frame∈R ^16×1024的二维矩阵；

构建随机可训练参数矩阵cls_token，维度为cls_token∈R ^1×1024；

将数据cls_token与数据clip_frame，按照第一个维度进行矩阵拼接，获取转换模块输入数据in_data，为式(3)所示：

in_data＝Cat(cls_token,clip_frame),cls_token∈R ^1×1024,clip_frame∈R ^16×1024  (3)

其中，Cat(·)表示矩阵拼接操作，获得的in_data数据是维度为in_data＝R ^17×1024的二维矩阵；

位置掩码矩阵mask操作包括以下过程：

将掩码矩阵mask，平铺成以为一维向量，并在其维度变化为式(4)：

对mask矩阵进行填充操作，获得变换后的mask矩阵表示为式(5)：

mask＝Pad(mask,(1,0),value＝1)  (5)

其中，Pad(·)表示填充操作，(1,0)表述在其第一个位置添加1个数据，添加数据数值value＝1，输出的mask维度变换关系表示为式(6)：

对数据mask进行维度变换，获取两个新矩阵为shift(7)所示：

获取新的掩码输入矩阵为shift(8)：

in_mask＝mask ₁×mask ₂  (8)

其维度为：in_mask∈R ^17×17的二维矩阵。
如权利要求1所述的一种基于转换模块的行为识别方法，其特征在于，步骤三中的数据预处理操作包括以下过程：

构建随机可训练参数矩阵，pos_embedding，维度为pos_embedding∈R ^17×1024，与输入数据in_data相加，并进行神经元激活层操作，输出结果x表示为式(9)：

x＝Dropout(pos_embedding+in_data,dropout＝0.1),x∈R ^17×1024  (9)

其中，Dropout(·)表示激活层操作，激活层因子dropout＝0.1；

连续编码模块有depth＝6个结构相同的基础编码模块串联组成，基础编码模块的计算过程为：

基础编码模块的基本设计参数为，输入数据通道数dim＝1024，中间层数据通道数mlp_dim＝2048，并行深度heads＝8，激活层系数prodout＝0.1；

1)数据归一化处理

对输入数据x进行归一化处理，获取的新数据表示为式(10)：

x_out＝Norml(x_in),x_out∈R ^17×1024  (10)

其中，Norml(·)表示归一化处理；为方便符号标记，用x_in，x_out代表处理前后的输入、输出数据；

2)并行关注操作

a.线性链接层数据通道扩充：

输入数据通道dim＝1024，扩充后数据通道out_dim＝dim×3＝3072，其变换过程表示为式(11)：

x_out ₁＝Linear(x_in,dim＝1024,out_dim＝3072)  (11)

其中，Linear(·)为线性链接操作，x_in，x_out ₁代表处理前后的输入、输出数据，数据维度变化表示为式(12)：

b.构建q,k,v数据：

矩阵变形
则为式(13)：

矩阵q,k相乘得到式(14)：

其中，T表示矩阵转至操作；

掩码替换操作：

根据输入掩码矩阵in_mask∈R ^17×17，矩阵q,k相乘后结果x_out∈R ^8×17×17中，掩码结果为0的位置用value＝1e ^-9进行替换，计算过程表示为式(15)：

x_out ₅＝softmax(Mask(x_out ₄,value＝1e ^-9)),x_out ₅∈R ^8×17×17  (15)

其中，Mask(·)表示掩码操作，softmax(·)为神经网络中softmax激活层；

将输出结果x_out ₅与数据v相乘，并进数据变形后获取输出，为式(16)所示：

x_out ₆＝Tranf(x_out ₅·v),x_out ₅∈R ^8×17×17,v∈R ^8×17×128,x_out ₆∈R ^17×1024  (16)

其中，Tranf(·)表示矩阵维度变换；

c.数据线性变换及激活处理：

x_out ₇＝Dropout(Linear(x_out ₆,dim＝1024,dim＝1024),dropout＝0.1),x_out ₇∈R ^17×1024其中Linear(·)表示线性变换，输入通道dim＝1024，输出通道dim＝1024；Droput(·)表示神经元激活层处理，激活因子dropout＝0.1；

经过并行关注操作后，经过残差操作，获取的模块输出为式(17)：

x_out＝x_in+x_out ₇,x_in∈R ^17×1024,x_out ₇∈R ^17×1024,x_out∈R ^17×1024  (17)；

3)前馈网络数据处理

前馈网络数据处理，针对并行关注操作后获得的数据进行相关操作，输入数据为x_in∈R ^17×1024，经过下列数序处理过程：

线性处理成式(18)：

x_out ₁＝Linear(x_in,dim＝1024,mlp_dim＝2048),x_out ₁∈R ^17×1024  (18)

其中，Linear(·)表示线性变换，输入通道dim＝1024，输出通道mlp_dim＝2048；

激活函数层为式(19)所示：

x_out ₂＝GELU(x_out ₁),x_out ₂∈R ^17×1024  (19)

其中，GELU(·)表示GELU激活函数；

神经元激活层操作为式(20)所示：

x_out ₃＝Dropout(x_out ₂,dropout＝0.1),x_out ₃∈R ^17×1024  (20)

其中，Droput(·)表示激活层处理，激活因子dropout＝0.1；

线性处理成式(21)所示：

x_out ₄＝Linear(x_out ₃,mlp_dim＝2048,dim＝1024),x_out ₄∈R ^17×1024  (21)

其中，Linear(·)表示线性变换，输入通道mlp_dim＝2048，输出通道dim＝1024；

神经元激活层操作为式(22)所示：

x_out ₅＝Dropout(x_out ₄,dropout＝0.1),x_out ₅∈R ^17×1024  (22)

其中，Droput(·)表示激活层处理，激活因子dropout＝0.1；

经过前馈网络数据处理后，采用残差操作，获得的最终输出数据为式(23)所示：

x_out＝x_in+x_out ₅,x_in∈R ^17×1024,x_out ₇∈R ^17×1024,x_out∈R ^17×1024  (23)；

经过连续编码模块后的数据，进行数据处理，获得动作检测结果，该过程表示为式(24)：

x_out＝x_in[0],x_in∈R ^17×1024,x_out∈R ^1×1024  (24)

对上述输出数据，进行如式(25)顺序操作：

归一化：

x_out ₁＝Norml(x_out),x_out ₁∈R ^1×1024  (25)

其中，Norml(·)表示归一化处理；

线性处理成如式(26)：

x_out ₂＝Linear(x_out ₁,dim＝1024,mlp_dim＝2048,),x_out ₂∈R ^17×1024  (26)

其中Linear(·)表示线性变换，输入通道dim＝1024，输出通道mlp_dim＝2048；

激活函数层为式(27)所示：

x_out ₃＝GELU(x_out ₂),x_out ₃∈R ^1×2048  (27)

其中，GELU(·)表示GELU激活函数；

神经元激活层操作如式(28)：

x_out ₄＝Dropout(x_out ₃,dropout＝0.1),x_out ₄∈R ^1×2048  (28)

其中，Droput(·)表示激活层处理，激活因子dropout＝0.1；

线性处理成式(29)：

x_out ₅＝Linear(x_out ₄,mlp_dim＝2048,num_class),x_out ₅∈R ^{17×num_class}  (29)

其中，Linear(·)表示线性变换，输入通道mlp_dim＝2048，输出通道num_class为类别数；

激活函数层为式(30)：

x_out ₆＝softmax(x_out ₅),x_out ₆∈R ^1×num_class  (30)

其中，softmax(·)表示softmax激活函数，获取最终的动作识别结果。