WO2020113886A1

WO2020113886A1 - 基于时空频域混合学习的行为特征提取方法、系统、装置

Info

Publication number: WO2020113886A1
Application number: PCT/CN2019/083357
Authority: WO
Inventors: 胡古月; 崔波; 余山
Original assignee: 中国科学院自动化研究所
Priority date: 2018-12-07
Filing date: 2019-04-19
Publication date: 2020-06-11
Also published as: CN109711277A; CN109711277B

Abstract

一种基于时空频域混合学习的行为特征提取方法、系统、装置，方法包括：获取基于骨架的视频行为序列，通过变换网络提取时空域行为特征图；输入频域注意网络进行频率选择后逆变回时空域，与时空域行为特征图相加；同步进行局部和非局部推理，并进行高层局部推理；将推理得到的时空域行为特征图全局池化，得到视频行为序列的行为特征向量。

Description

基于时空频域混合学习的行为特征提取方法、系统、装置

技术领域

本发明属于行为识别领域，具体涉及一种基于时空频域混合学习的行为特征提取方法、系统、装置。

背景技术

行为识别在智能监控、人机交互和自动驾驶等领域有着广泛的应用，行为识别包括行为分类和行为检测，具体来说就是用专用采集设备采集的基于RGB、深度、骨架等信息的行为视频，对其进行分类、定位和检测。基于骨架的行为识别由于计算开销小，表示简洁，且对环境、外貌等变化较为鲁棒，近年来引起学术界和产业界的广泛兴趣。具体地，骨架行为识别就是根据目标物体在环境中的关节点的2D或者3D坐标构成的视频序列，来实现对行为的识别。

现有的骨架行为识别方法主要采用在时空域堆叠只具有局部亲和场的局部网络来分层地提取行为序列的时空特征，进而对行为进行识别和检测。像拍手、刷牙、握手等这些行为富含内在的有区分性的频率特征，而现有的方法局限于挖掘时空模式，忽略了行为中内在的频域模式，并且先前在时空域的层级式堆叠局部网络，使得语义信息只能在高层提取，细节信息又主要在底层提取，细节信息和语义信息不能同步提取和融合，不利于挖掘有效的行为特征，使得骨架行为识别精度低，无法满足要求。

发明内容

为了解决现有技术中的上述问题，即为了解决行为特征提取精度低的问题，本发明提供了一种基于时空频域混合学习的行为特征提取方法，包括：

步骤S1，获取基于骨架的视频行为序列，作为原始视频行为序列，进行时空域自适应变换，得到第一时空域行为特征图；

步骤S2，将第一时空域行为特征图送入频域进行频率选择后逆变换回时空域，与第一时空域行为特征图以残差的方式相加，得到第二时空域行为特征图；

步骤S3，对第二时空域行为特征图同步进行局部和非局部推理，并与第一时空域行为特征图以残差的方式相加，得到第三时空域行为特征图；

步骤S4，对第三时空域行为特征图进行高层局部推理，得到第四时空域行为特征图；

步骤S5，将第四时空域行为特征图全局池化，得到行为特征向量。

在一些优选的实施例中，步骤S1中“时空域自适应变换”，其步骤为：

步骤S11，采用核为1的卷积网络或全连接网络对所述原始视频行为序列在K个斜坐标系下进行坐标系统的自适应增广，得到K个坐标系统下的增广视频行为序列，K为超参数。

步骤S12，利用采用核为1的卷积网络或全连接网络对所述增广视频行为序列中的骨架进行关节数目和关节排列顺序进行变换，得到包含结构信息的增广优化视频行为序列的特征图，为第一时空域行为特征图。

在一些优选的实施例中，步骤S2中“将第一时空域行为特征图送入频域进行频率选择后逆变换回时空域，与第一时空域行为特征图以残差的方式相加”，其步骤为：

步骤S21，利用二维离散傅立叶变换将每个通道的特征图分别变换到频域，包含正弦频域特征图和余弦频域特征图；

考虑到计算效率，可采用二维离散快速傅立叶变换实现特征图变换。

步骤S22，分别将所述正弦频域特征图和余弦频域特征图通过注意网络，学习出正弦成分注意力权重和余弦成分注意力权重；

其中，注意网络，包括一个通道平均层、两个全连接层、一个softmax函数和一个通道复制层。

步骤S23，用学习到的正弦成分注意力权重和正弦频域特征图进行点乘，余弦成分注意力权重和余弦频域特征图进行点乘，得到频率选择后的正弦和余弦频域特征图。

步骤S24，利用二维离散傅立叶逆变换将正弦和余弦频域特征图变换到时空域，以残差的方式与第一时空域行为特征图相加，得到第二时空域行为特征图；

考虑到计算效率，可采用二维离散快速傅立叶逆变换实现特征图逆变换。

在一些优选的实施例中，步骤S3中“对第二时空域行为特征图同步进行局部和非局部推理”，其步骤为：

步骤S31，构建具有局部亲和场的神经网络子模块y _i，具有非局部亲和场的神经网络子模块y′ _i：

其中，x _i代表当前层网络的时空域特征图的特征向量；y _i和y′ _i分别代表下一层网络的局部和非局部亲和场的时空域特征图的特征向量；A(x _i,x _j)是计算位置i和j之间的亲和度的二元变换矩阵；g(x _i)是计算x _j的特征嵌入的一元变换函数，由卷积核为1或1×1的卷积层实现；Z _i(X)为归一化因子，Ω枚举所有的特征位置，δ _i为局部领域。

将局部和非局部亲和场神经网络子模块提取的特征有权叠加得到特征图，并对所述特征图进行批归一化减小特征漂移，引入非线性单元，再进行下采样降低特征图的分辨率；

步骤S32，采用M1个所述局部和非局部亲和场神经网络子模块计算位置i与局部领域δ _i内的邻居之间的亲和度以及i与Ω中所有可能位置的亲和度，M1为大于或等于1的自然数；

步骤S33，将经过M1个局部和非局部亲和场神经网络子模块推理的特征图与第一时空域特征图以残差的方式相加，得到第三时空域行为特征图。

在一些优选的实施例中，步骤S4中“对第三时空域行为特征图进行高层局部推理”，其方法为：

采用M2个构建的局部亲和场神经网络子模块计算所述第三时空域行为特征图组位置i与局部领域δ _i内的邻居之间的亲和度，M2为大于或等于1的自然数；推理后的特征图为第四时空域行为特征图。

本发明的另一方面，提出了一种基于时空频域混合学习的行为特征提取方法，包括：

对原始基于骨架的视频行为序列在时间维度上差分得到速度信息，构造包含位置和速度的行为序列；

分别对包含位置和速度的行为序列采用权利要求1-5任一项所述的步骤S1-步骤S5进行处理，得到对应速度的特征向量和对应位置的特征向量；

将所述特征向量拼接得到拼接特征向量，提取的行为特征向量为速度特征向量、位置特征向量和拼接特征向量。

本发明第三方面，提出了一种基于时空频域混合学习的行为特征提取系统，包括视频序列获取模块、自适应变换模块、频率选择模块、局部和非局部同步推理模块、高层局部推理模块、全局池化模块、拼接模块、输出模块；

所述视频序列获取模块，配置为获取基于骨架的视频行为序列，作为原始视频行为序列；

所述自适应变换模块，配置为在时空域通过增广优化的方式，提取第一时空域行为特征图；

所述频率选择模块，配置为将第一时空域行为特征图送入频域注意网络进行频率选择，将获得的频域行为特征图变换到时空域与第一时空域行为特征图以残差的方式相加，得到第二时空域行为特征图；

所述局部和非局部同步推理模块，配置为对第二时空域行为特征图同步进行局部和非局部推理，并与第一时空域行为特征图以残差的方式相加得到第三时空域行为特征图；

所述高层局部推理模块，配置为对第三时空域行为特征图进行高层局部推理，得到第四时空域行为特征图；

所述全局池化模块，配置为将第四时空域行为特征图组全局池化，得到对应的行为特征向量；

所述拼接模块，配置为将多通道特征拼接，得到相应的拼接特征向量；

所述输出模块，配置为将提取的行为特征向量输出。

本发明第四方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于时空频域混合学习的行为特征提取方法。

本发明第五方面，提出了一种处理装置，包括处理器，适于执行各条程序；以及存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于时空频域混合学习的行为特征提取方法。

本发明的有益效果：

(1)本发明突破以前只用深度网络挖掘行为骨架序列的时空模式的局限，充分挖掘行为内在的有判别力的频率模式，利用注意机制，在频域对频域特征图进行频域特征的注意力分配，通过端到端的学习，最终学会对有效的频率模式进行自适应地选择。

(2)相比以前的局部网络只能在低层和高层网络分别异步地提取细节信息和语义信息，本发明提出的同步具有局部和非局部亲和场的网络模块在每一层都能同步的提取和融合局部细节和全局语义，相对传统的局部网络，可以有效降低网络的层数和参数。

(3)本发明提出的自适应变换网络，其坐标变换网络能够将原始在单一直角坐标系下表示的骨架通过学习变换到多个斜坐标系下，得到更丰富的表示；同时骨架变换网络还能重新学习最优的关节数目和关节排列顺序，相比于先前无结构的表示，可以学到更结构化的特征，进而提高特征提取精度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明基于时空频域混合学习的行为特征提取方法的流程示意图；

图2是本发明基于时空频域混合学习的行为特征提取方法实施例的总体框架示意图；

图3是本发明基于时空频域混合学习的行为特征提取方法实施例的频域注意网络结构示意图；

图4是本发明基于时空频域混合学习的行为特征提取方法实施例的二维时空非局部网络插件示意图；

图5是本发明基于时空频域混合学习的行为特征提取方法实施例的局部网络模块示意图；

图6是本发明基于时空频域混合学习的行为特征提取方法实施例的局部和非局部同步模块示意图；

图7是本发明基于时空频域混合学习的行为特征提取方法实施例的局部和非局部同步模块的亲和场示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

现有行为识别方法主要采用在时空域堆叠只具有局部亲和场的局部网络来分层地提取行为序列的时空特征，进而对行为进行识别和检测，局限于挖掘时空模式，忽略了行为中内在的频域模式，并且在时空域的层级式堆叠局部网络，使得语义信息只能在高层提取，细节信息又主要在底层提取，细节信息和语义信息不能同步融合，不利于挖掘有效的行为特征。本发明的技术方案在频域采用注意机制自适应的选择有效的频率模式，在时空域采用同时具有局部和非局部亲和场的网络进行时空推理，使网络在各层模块均能同步挖掘局部细节和非局部语义信息，从而有效的提高了骨架行为特征提取的精度。

本发明的一种基于时空频域混合学习的行为特征提取方法，包括：

步骤S2，将所述第一时空域行为特征图送入频域进行频率选择后逆变换回时空域，与所述第一时空域行为特征图以残差的方式相加，得到第二时空域行为特征图；

步骤S3，对所述第二时空域行为特征图同步进行局部和非局部推理，并与所述第一时空域行为特征图以残差的方式相加，得到第三时空域行为特征图；

步骤S4，对所述第三时空域行为特征图进行高层局部推理，得到第四时空域行为特征图；

步骤S5将所述第四时空域行为特征图全局池化，得到行为特征向量。

为了更清晰地对本发明基于时空频域混合学习的行为识别方法进行说明，下面结合图1-图7对本方发明方法一种实施例中各步骤进行展开详述。

本方发明一种实施例的基于时空频域混合学习的行为特征提取方法，包括步骤S1-步骤S5，各步骤详细描述如下：

步骤S1，获取基于骨架的视频行为序列，作为原始视频行为序列，进行时空域自适应变换，得到第一时空域行为特征图。

步骤S11，记原始视频行为序列为X，维度为C0*T0*N0，C0为通道数，T0为时间维度，N0为空间关节点数目；

采用核为1的卷积网络或全连接网络对所述原始视频行为序列在K个斜坐标系下进行坐标系统的自适应增广，得到K个坐标系统下的增广视频行为序列，K为超参数；

步骤S12，利用多层全连接网络对所述增广视频行为序列中的骨架进行关节数目和关节排列顺序进行变换，得到包含结构信息的增广优化视频行为序列的特征图，为第一时空域行为特征图X'，维度为C'*T'*N'，C'为通道数，T'为时间维度，N'为空间关节点数目。

步骤S2，将所述第一时空域行为特征图送入频域进行频率选择后逆变换回时空域，与所述第一时空域行为特征图以残差的方式相加，得到第二时空域行为特征图。

步骤S21，利用二维离散傅立叶变换(2D-DFT，2D-Discrete Fourier Transform)将每个通道的特征图分别变换到频域，记为Y，如式(1)所示：

其中，c,u,v代表频域特征图的通道，时间频率维度，空间频率维度；c,t,n代表时空域特征图的通道，时间维度，空间维度；T为第一时空域特征图的通道数；N为频域特征图空间维度总点数。

考虑到计算效率，可采用二维离散快速傅立叶变换(2D-FFT，2D-Fast Fourier Transformation)实现特征图变换。

最终得到的频域特征图Y共包含两个成分，一个正弦频域特征图F _sin，一个余弦频域特征图F _cos。

步骤S22，构建频域注意网络，如图3所示，包括一个通道平均层、两个全连接层、一个softmax函数和一个通道复制层。

分别将正弦频域特征图F _sin和余弦频域特征图F _cos通过注意网络，学习出正弦成分注意力权重M _sin和余弦成分注意力权重M _cos。

步骤S23，用学习到的正弦注意权重M _sin和正弦频域特征图F _sin进行点乘，余弦成分注意力权重M _cos和余弦频域特征图F _cos进行点乘，选出有判别力的频率分量，记为F′ _i，如式(2)所示：

F _i'＝F _i⊙M _i，i∈{sin,cos} 式(2)

步骤S24，利用二维离散傅立叶逆变换(2D-IDFT，2D-Inverse Discrete Fourier Transform)将正弦和余弦频域特征图变换回时空域，得到时空域特征图X”，如式(3)所示：

X”＝X'+iift2(F′ _sin+F′ _cos)，X”∈R ^{C”×T”×N”} 式(3)

其中，C”、T”和N”分别为时空域特征图X”的通道数，时间维度总点数和空间维度总点数。

考虑到计算效率，可采用二维离散快速傅立叶逆变换(2D-IFFT，2D-Inverse Fast Fourier Transformation)实现特征图逆变换。

以残差的方式将X”与第一时空域行为特征图相加，得到第二时空域行为特征图。

步骤S3，对所述第二时空域行为特征图同步进行局部和非局部推理，并与所述第一时空域行为特征图以残差的方式相加，得到第三时空域行为特征图。

步骤S31，构建具有局部亲和场的神经网络子模块y _i，具有非局部亲和场的神经网络子模块y′ _i，如式(4)和式(5)所示：

将局部和非局部亲和场神经网络子模块提取的特征有权叠加，如式(6)所示：

O＝wo _non-local+o _local 式(6)

其中，O为叠加后的特征图；o _non-local和o _local为同一层局部和非局部亲和场神经网络子模块的输出；w为线性变换函数，由卷积核为1或1×1的卷积层实现，用于衡量非局部成分相对局部成分的重要程度。

将得到的特征图进行批归一化减小特征漂移，引入非线性单元，再进行下采样降低特征图的分辨率。

步骤S32，采用M1个所述局部和非局部亲和场神经网络子模块计算位置i与局部领域δ _i内的邻居之间的亲和度以及i与Ω中所有可能位置的亲和度，M1为大于或等于1的自然数。

本实施例的局部网络原型为三个卷积神经网络，亲和度矩阵A(x _i,x _j)＝1，g(x _i)函数为线性变换函数。局部网络模块如图5所示，包含时间局部插件(tLocal)、空间局部插件(sLocal)和时空局部插件(stLocal)3个插件，三个插件的卷积核大小分别为k×1，1×k，k×k。类似地，非局部网络也包含3个插件，分别为，时间非局部插件(tNon-Local)、空间非局部插件(sNon-Local)和时空非局部插件(stNon-Local)；其中，二维的时空非局部插件(stNon-Local)具体完成方式如图4所示，图中

ψ、g，w均为不同的核为1×1的卷积层，

ψ完成亲和度计算的功能，g完成线性变换的功能，w衡量非局部成分的相对重要性；一维的时间非局部插件(tNon-Local)和一维的空间非局部插件(sNon-Local)可采用相似的完成方式。由局部网络模块的3个插件和非局部网络模块的3个插件组合即可得到如图6所示局部和非局部同步模块(SLnL)，其对应的亲和场图如图7所示。

经过M1个局部和非局部同步时空网络模块进行时空域推理后，其局部子模块的亲和场不断增大，特征图分辨率不断降低，语义信息已经得到了很好地提取。接下来仅需要采用局部时空网络模块进行高层时空模式特征的挖掘。

步骤S4，对所述第三时空域行为特征图进行高层局部推理，得到第四时空域行为特征图，其方法为：

采用M2个构建的局部亲和场神经子模块计算所述第三时空域行为特征图位置i与局部领域δ _i内的邻居之间的亲和度，M2为大于或等于1的自然数；推理后的特征图为第四时空域行为特征图。

采用了M1个局部和非局部同步时空网络模块以及M2个局部亲和场神经子模块，C×T×N为维度示意，代表网络的输入是由通道C，时间T和空间N三个维度构成的三维张量，C×TN、TN×TN代表维度为C×TN、TN×TN的二维矩阵，各个子模块中C、T、N的取值并不相同。

步骤S5，将所述第四时空域行为特征图全局池化，得到特征向量f ^p。

本发明第二实施例的基于时空频域混合学习的行为特征提取方法，包括：

对原始基于骨架的视频行为序列在时间维度上差分得到速度信息，构造包含位置和速度的行为序列。

分别对位置和速度的行为序列通道采用权利要求1-5任一项所述的步骤S1-步骤S5进行处理，得到对应速度的特征向量f ^p和对应位置的特征向量f ^v。

将所述特征向量拼接得到拼接特征向量f ^c，提取的行为特征向量为速度特征向量f ^p、位置特征向量f ^v和拼接特征向量f ^c。

为了进一步说明本发明基于时空频域混合学习的行为特征提取方法，下面结合特征向量在行为分类方面的应用，对本发明做进一步的说明：

将所述特征向量f ^p、f ^v和f ^c通过虚拟多任务网络中的速度、位置、拼接特征分支，得到行为属于每个类别的预测概率p ^p、p ^v和p ^c。训练阶段，利用预测概率和真实的行为类别，计算三个分支各自的预测的损失L _p、L _v和L _c。本实施例采用交叉熵损失函数计算，如式(7)所示：

其中，b为行为真实的one-hot类别标签，N _C为总的行为类别数目。

多任务网络的总损失如式(8)所示：

L＝λ _pL _p+λ _vL _v+λ _cL _c 式(8)

其中，λ _p、λ _v和λ _c为三个超参数，控制每个信息通道的权重。利用总的损失优化整个网络直到达到最优。

测试(应用)阶段仅根据拼接通道的预测概率p ^c得到分类结果，即直接取p ^c中具有最大预测概率的类别作为对该视频行为输出的行为分类结果。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的第二实施例的基于时空频域混合学习的行为特征提取方法的步骤S1-步骤S5的具体工作过程及有关说明，可以参考前述第一实施例的基于时空频域混合学习的行为特征提取方法步骤对应过程，在此不再赘述。

本发明的第三实施例的基于时空频域混合学习的行为特征提取系统，包括视频序列获取模块、自适应变换模块、频率选择模块、局部和非局部同步推理模块、高层局部推理模块、全局池化模块、拼接模块、多任务网络模块、输出模块；

所述输出模块，配置为将提取的行为特征向量输出。

需要说明的是，上述实施例提供的基于时空频域混合学习的行为特征提取系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明的第四实例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于时空频域混合学习的行为特征提取方法。

本发明的第五实例的一种处理装置，包括处理器、存储装置；所述处理器，适于执行各条程序；所述存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于时空频域混合学习的行为特征提取方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“时空频域”为“时空域”和“频域”，“时空域”是描述数学函数或物理信号对纯时间、纯空间或时空间的关系的一种坐标系，“频域”是描述信号在频率方面特性时用到的一种坐标系。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

一种基于时空频域混合学习的行为特征提取方法，其特征在于，包括：

步骤S1，获取基于骨架的视频行为序列，作为原始视频行为序列，进行时空域自适应变换，得到第一时空域行为特征图；

步骤S2，将所述第一时空域行为特征图送入频域进行频率选择后逆变换回时空域，与所述第一时空域行为特征图以残差的方式相加，得到第二时空域行为特征图；

步骤S3，对所述第二时空域行为特征图同步进行局部和非局部推理，并与所述第一时空域行为特征图以残差的方式相加，得到第三时空域行为特征图；

步骤S4，对所述第三时空域行为特征图进行高层局部推理，得到第四时空域行为特征图；

步骤S5，将所述第四时空域行为特征图全局池化，得到行为特征向量。
根据权利要求1所述的基于时空频域混合学习的行为特征提取方法，其特征在于，步骤S1中“时空域自适应变换”，其步骤为：

步骤S11，采用卷积网络或全连接网络对所述原始视频行为序列在K个斜坐标系下进行坐标系统的自适应增广，得到K个坐标系统下的增广视频行为序列，K为超参数；

步骤S12，利用多层全连接网络对所述增广视频行为序列中的骨架进行关节数目和关节排列顺序进行变换，得到包含结构信息的增广优化视频行为序列的特征图，为第一时空域行为特征图。
根据权利要求1所述的基于时空频域混合学习的行为特征提取方法，其特征在于，步骤S2中“将第一时空域行为特征图送入频域进行频率选择后逆变换回时空域，与第一时空域行为特征图以残差的方式相加”，其方法为：

步骤S21，利用二维离散傅立叶变换将每个通道的特征图分别变换到频域，包含正弦频域特征图和余弦频域特征图；

步骤S22，分别将所述正弦频域特征图和余弦频域特征图通过注意网络，学习出正弦成分注意力权重和余弦成分注意力权重；

所述注意网络，包括一个通道平均层、两个全连接层、一个softmax函数和一个通道复制层；

步骤S23，用学习到的正弦成分注意力权重和正弦频域特征图进行点乘，余弦成分注意力权重和余弦频域特征图进行点乘，得到频率选择后的正弦和余弦频域特征图；

步骤S24，利用二维离散傅立叶逆变换将正弦和余弦频域特征图变换到时空域，以残差的方式与第一时空域行为特征图相加，得到第二时空域行为特征图。
根据权利要求1所述的基于时空频域混合学习的特征提取识别方法，其特征在于，步骤S3中“对第二时空域行为特征图同步进行局部和非局部推理”，其步骤为：

步骤S31，构建具有局部亲和场的神经网络子模块y _i，具有非局部亲和场的神经网络子模块y′ _i：

其中，x _i代表当前层网络的时空域特征图的特征向量；y _i和y′ _i分别代表下一层网络的局部和非局部亲和场的时空域特征图的特征向量；A(x _i,x _j)是计算位置i和j之间的亲和度的二元变换矩阵；g(x _i)是计算x _j的特征嵌入的一元变换函数，由卷积核为1或1×1的卷积层实现；Z _i(X)为归一化因子，Ω枚举所有的特征位置，δ _i为局部领域；

将局部和非局部亲和场神经网络子模块提取的特征有权叠加得到特征图，并对所述特征图进行批归一化减小特征漂移，引入非线性单元，再进行下采样降低特征图的分辨率；

步骤S32，采用M1个所述局部和非局部亲和场神经网络子模块计算位置i与局部领域δ _i内的邻居之间的亲和度以及i与Ω中所有可能位置的亲和度，M1为大于或等于1的自然数；

步骤S33，将经过M1个局部和非局部亲和场神经网络子模块推理的特征图与第一时空域特征图以残差的方式相加，得到第三时空域行为特征图。
根据权利要求4所述的基于时空频域混合学习的行为特征提取方法，其特征在于，步骤S4中“对第三时空域行为特征图进行高层局部推理”，其方法为：

采用M2个构建的局部亲和场神经子模块计算所述第三时空域行为特征图组位置i与局部领域δ _i内的邻居之间的亲和度，M2为大于或等于1的自然数；推理后的特征图为第四时空域行为特征图。
一种基于时空频域混合学习的行为特征提取方法，其特征在于，包括：

对原始基于骨架的视频行为序列在时间维度上差分得到速度信息，构造包含位置和速度的行为序列；

分别对位置和速度的行为序列通道采用权利要求1-5任一项所述的步骤S1-步骤S5进行处理，得到对应速度的特征向量和对应位置的特征向量；

将所述特征向量拼接得到拼接特征向量，提取的行为特征向量为速度特征向量、位置特征向量和拼接特征向量。
一种基于时空频域混合学习的行为特征提取系统，其特征在于，包括视频序列获取模块、自适应变换模块、频率选择模块、局部和非局部同步推理模块、高层局部推理模块、全局池化模块、拼接模块、输出模块；

所述视频序列获取模块，配置为获取基于骨架的视频行为序列，作为原始视频行为序列；

所述自适应变换模块，配置为在时空域通过增广优化的方式，提取第一时空域行为特征图；

所述频率选择模块，配置为将第一时空域行为特征图送入频域注意网络进行频率选择，将获得的频域行为特征图变换到时空域与第一时空域行为特征图相加，得到第二时空域行为特征图；

所述局部和非局部同步推理模块，配置为对第二时空域行为特征图同步进行局部和非局部推理，并与第一时空域行为特征图以残差的方式相加得到第三时空域行为特征图；

所述高层局部推理模块，配置为对第三时空域行为特征图进行高层局部推理，得到第四时空域行为特征图；

所述全局池化模块，配置为将第四时空域行为特征图组全局池化，得到对应的行为特征向量；

所述拼接模块，配置为将多通道特征拼接，得到相应的拼接特征向量；

所述输出模块，配置为将提取的行为特征向量输出。
一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-6任一项所述的基于时空频域混合学习的行为特征提取方法。
一种处理装置，包括

处理器，适于执行各条程序；以及

存储装置，适于存储多条程序；

其特征在于，所述程序适于由处理器加载并执行以实现：

权利要求1-6任一项所述的基于时空频域混合学习的行为特征提取方法。