WO2022083335A1 - 一种基于自我注意力机制的行为识别方法 - Google Patents

一种基于自我注意力机制的行为识别方法 Download PDF

Info

Publication number
WO2022083335A1
WO2022083335A1 PCT/CN2021/117027 CN2021117027W WO2022083335A1 WO 2022083335 A1 WO2022083335 A1 WO 2022083335A1 CN 2021117027 W CN2021117027 W CN 2021117027W WO 2022083335 A1 WO2022083335 A1 WO 2022083335A1
Authority
WO
WIPO (PCT)
Prior art keywords
frame
key
attention mechanism
module
continuous
Prior art date
Application number
PCT/CN2021/117027
Other languages
English (en)
French (fr)
Inventor
刘辰飞
高朋
井焜
许野平
陈英鹏
席道亮
张朝瑞
Original Assignee
神思电子技术股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 神思电子技术股份有限公司 filed Critical 神思电子技术股份有限公司
Publication of WO2022083335A1 publication Critical patent/WO2022083335A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/32Indexing scheme for image data processing or generation, in general involving image mosaicing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Definitions

  • the invention relates to a behavior recognition method based on a self-attention mechanism, which belongs to the field of human action recognition.
  • Action recognition realizes the task of action classification and classification by extracting the action features of continuous video frames, avoiding the occurrence of possible dangerous behaviors in practice, and has a wide range of practical application scenarios.
  • the existing action recognition methods are all based on 3D convolution, which are used to extract continuous frame features under time series, improve the algorithm's ability to extract image features under time series, and increase the accuracy of action recognition.
  • 3D convolution needs to consider the time axis features, resulting in a large increase in kernel parameters.
  • 3D as a new computing method, has poor support for 3D convolution under different deep learning frameworks, which affects the practical applicability of 3D convolution-based action recognition algorithms.
  • the present invention provides a behavior recognition algorithm based on a self-attention mechanism.
  • the method uses the self-attention mechanism to replace the original 3D convolution operation, and is used for the time series feature extraction of continuous frame images. Frame motion detection and object localization tasks.
  • the technical solution adopted in the present invention is: a behavior recognition method based on self-attention mechanism, comprising the following steps:
  • the position encoding matrix is an all-one matrix with dimension [H, W], where H and W represent the height and width of the read image;
  • each frame of the read continuous frame image data into the 2D convolution backbone network obtain the image features of each frame, and splicing the feature pictures of each frame to obtain the continuous frame feature map, and the key frame image is continuous.
  • the key frame feature map after channel compression and the key frame position coding matrix after width and height compression are input into the key frame image target prediction module, and the key frame image target prediction module carries out the key frame image target position prediction;
  • the continuous frame feature map after channel compression and the continuous frame position coding matrix after width and height compression are input into the continuous frame image action category detection module, and the continuous frame image action category detection module carries out the connection frame action category prediction;
  • the key frame image target prediction module in step S04 has the same structure as the continuous frame image action category detection module in step S05, and both include an encoding module and a decoding module;
  • the coding module includes M serial coding units, each coding unit includes a multi-angle attention mechanism module and a data processing module, the input of the first coding unit is the key frame/continuous frame feature map after channel compression, width The highly compressed key frame/continuous frame position coding matrix, the input of the subsequent coding unit is the output of the previous coding unit;
  • the decoding module includes K serially connected decoding units and a pre-multi-angle attention mechanism module.
  • Each decoding unit includes a multi-angle attention mechanism module and a data processing module.
  • the input of the pre-multi-angle attention mechanism module is wide. High-compressed key frame/continuous frame position encoding matrix, output encoding initialization value, the input of the first decoding unit is the output of the pre-multi-angle attention mechanism module and the output of the encoding module, and the input of the subsequent decoding unit is the previous decoding unit the output of the unit;
  • the above-mentioned multi-angle attention mechanism module uses multiple parallel attention layers to jointly pay attention to the information from different representation spaces at different positions, that is, the input is processed by the multi-angle attention mechanism, and then the data processed by the multi-angle attention mechanism is processed by the data processing module. Residual connection and normalization processing;
  • the output of the final decoder is the predicted target position of the key frame image or the action category of the continuous frame image.
  • Q, K, V are equal to the output of the previous coding unit
  • Q and K are equal, equal to the sum of the output encoding initialization value and the position encoding matrix after width and height compression, and V is equal to the output encoding initialization value, that is
  • Q and K are equal to the output of the encoding module
  • V is equal to the output of the pre-multi-angle attention mechanism module
  • Q, K, V are equal to the previous decoding the output of the unit
  • key_in represents the key frame feature map after channel compression
  • key_mask_in represents the key frame position coding matrix after width and height compression
  • clip_in represents the continuous frame feature map after channel compression
  • clip_mask_in represents the width and height compressed continuous frame position coding matrix
  • key_frame_c represents the encoding initialization value of the key frame feature map
  • clip_frame_c represents the encoding initialization value of the continuous frame feature map
  • dmodel represents the number of channels of the position encoding matrix.
  • calculation process of the data processing module is:
  • y represents the output of each coding unit or decoding unit
  • Sublayer( ) is a fully connected feed-forward network to construct a forward data processing module
  • LayerNorm( ) represents layer normalization processing
  • x is the input data, that is, after The data y MultiHead processed by the multi-angle self-attention mechanism;
  • Sublayer(x) max(0,xW 1 +b 1 )W 2 +b 2 ,
  • W 1 , W 2 are training weights
  • b 1 , b 2 are biases, which are input data, that is, the data y MultiHead processed by the multi-angle self-attention mechanism.
  • dim_t is a continuous sequence of [0,128)
  • d model represents the number of channels of the position encoding matrix
  • the dimensions of PE x_embed and PE y_embed are Splicing PE x_embed and PE y_embed according to the third dimension, and transforming the dimensions in order, the final position encoding matrix dimension is [d model ,H,W].
  • the dimension of the output class of the connected frame image action class prediction module is [100, nuclass+1], that is, up to 100 target positions can be predicted, and numclass is the number of action classes.
  • step S01 16 frames of image data are continuously read, and the dimensions of the continuous frame image data are [16, 3, H, W], 3 indicates that the read frame image is a 3-channel RGB image, and H, W indicate the network input image. height and width.
  • the present invention introduces a behavior recognition method based on a self-attention mechanism.
  • the method adopts the key frame target position prediction and continuous frame action category prediction module based on the multi-angle attention mechanism, and after completing the continuous frame action detection At the same time, the target positioning function can be realized.
  • the 3D convolutional network is replaced by the key frame target position prediction and continuous frame action category prediction module based on the multi-angle attention mechanism, which solves the problem of the large amount of calculation of the 3D convolutional network model and improves the parallelism of the model on the GPU.
  • the key frame target position prediction and continuous frame action category prediction module based on the multi-angle attention mechanism can avoid the problem of weak compatibility in model conversion or deployment due to 3D convolution under different deep learning frameworks.
  • Fig. 1 is the flow chart of this method
  • Figure 2 is a flow chart of an encoding module and a decoding module.
  • This embodiment discloses a behavior recognition method based on a self-attention mechanism, as shown in FIG. 1 , including the following steps:
  • the dimension of continuous frame image data input is [16, 3, H, W], where H, W represent the height and width of the network input image, and 3 means that the read frame image is a 3-channel RGB image.
  • the target label information target includes target position information and action category information of the image key frame.
  • each frame of the read continuous 16 frames of image data into the 2D convolution backbone network obtain the image features of each frame, and splicing the feature pictures of each frame to obtain the continuous frame feature map clip_frame.
  • the key frame image is the first frame in the continuous frame image data
  • key_frame represents the key frame feature map
  • clip_frame represents the continuous frame feature picture
  • the input data dimension of the 2D convolutional backbone network is [16, 3, H, W]
  • the obtained continuous frame feature map clip_frame dimension is
  • the dimension of the key frame feature map is
  • the model does not contain repetitions and 3D convolutions, in order for the model to take advantage of the order of the sequence, we have to inject some information about the relative or absolute position of the markers in the sequence. To do this, we add positional encoding matrices to the inputs at the bottom of the encoder and decoder stacks.
  • the input data of this step is the initial position coding matrix mask constructed in step S01.
  • the initial matrix of position coding in step S01 is accumulated column by column in the column direction to obtain the matrix x_embed, that is, for the jth column data in x_embed, it can be expressed as:
  • mask[:,n] represents the nth column in the position coding initial matrix mask
  • x_embed[:,j] represents the jth column of the output data, 0 ⁇ j ⁇ W.
  • step S01 the position encoding matrix in step S01 is accumulated column by column in the column direction to obtain the matrix y_embed, that is, for the i-th row data in y_embed, it can be expressed as:
  • mask m represents the mth row of the position mask mask, 0 ⁇ i ⁇ H.
  • the mask matrix is an all-1 matrix with dimension [5,5], that is:
  • the mask matrix is an all-1 matrix with dimension [5,5], that is:
  • Line 1 output of y_embed is:
  • dim_t is a continuous sequence of [0, 128)
  • d model represents the number of channels of the position coding matrix.
  • d model 256
  • the dimensions of the output data PE x_embed and PE y_embed are
  • the key frame data position coding matrix is set to be the same as the continuous frame position coding matrix, namely:
  • key_mask clip_mask
  • key_mask represents the key frame position coding matrix
  • clip_mask represents the continuous frame position coding matrix
  • the continuous feature extraction module (a) is adopted, and the key frame image key_frame is used as input data to predict the target frame.
  • the specific steps are:
  • the dimension of the key frame position coding matrix key_mask is [256, H, W], after the transformation, the dimension of the output position coding matrix key_mask_in becomes
  • the key frame feature map after channel compression and the key frame position coding matrix after width and height compression are input into the key frame image target prediction module, and the key frame image target prediction module carries out the key frame image target position prediction;
  • the dimension of the continuous frame position coding clip_mask is [256, H, W], after the transformation, the dimension of the output position coding clip_mask_in becomes
  • the key frame image target prediction module in step S04 and the continuous frame image action category detection module in step S05 have the same structure, and both include an encoding module and a decoding module;
  • the encoding module includes M serially connected encoding units, each encoding unit includes a multi-angle attention mechanism module and a data processing module, and the input of the first encoding unit is the channel-compressed key frame/ The continuous frame feature map, the key frame/continuous frame position coding matrix after width and height compression, and the input of the subsequent coding unit is the output of the previous coding unit;
  • the decoding module includes K series decoding units and a pre-multi-angle attention mechanism module, each decoding unit includes a multi-angle attention mechanism module and a data processing module, the pre-multi-angle attention mechanism module
  • the input of the mechanism module is the key frame/continuous frame position encoding matrix after width and height compression, and the output encoding initialization value.
  • the input of the first decoding unit is the output of the pre-multi-angle attention mechanism module and the output of the encoding module.
  • the subsequent decoding unit The input of is the output of the previous decoding unit;
  • the above-mentioned multi-angle attention mechanism module uses multiple parallel attention layers to jointly pay attention to the information from different representation spaces at different positions, that is, the input is processed by the multi-angle attention mechanism, and then the data processed by the multi-angle attention mechanism is processed by the data processing module. Residual connection and normalization processing;
  • the output of the final decoder is the predicted target position of the key frame image or the action category of the continuous frame image.
  • the calculation process of the multi-angle attention mechanism module is:
  • Head 1 , Head 2 ,...Head h are h parallel attention layers, are trainable weights, d model represents the number of channels of the position coding matrix, Concat( ) represents the splicing operation, Q, K, V are the input data, for the first coding unit in the encoder, Q and K are equal, equal to the frame feature map after channel compression
  • Q, K, V are equal to the output of the previous coding unit.
  • Q and K are equal, equal to the sum of the output encoding initialization value and the position encoding matrix after width and height compression, and V is equal to the output encoding initialization value, that is
  • Q and K are equal to the output of the encoding module
  • V is equal to the output of the pre-multi-angle attention mechanism module
  • Q, K, V are equal to the previous decoding the output of the unit
  • key_in represents the key frame feature map after channel compression
  • key_mask_in represents the key frame position coding matrix after width and height compression
  • clip_in represents the continuous frame feature map after channel compression
  • clip_mask_in represents the width and height compressed continuous frame position coding matrix
  • key_frame_c represents the encoding initialization value of the key frame feature map
  • clip_frame_c represents the encoding initialization value of the continuous frame feature map.
  • dmodel represents the number of channels of the position encoding matrix.
  • the calculation process of the data processing module is:
  • y represents the output of each coding unit or decoding unit
  • Sublayer( ) is a fully connected feed-forward network to construct a forward data processing module
  • LayerNorm( ) represents layer normalization processing
  • x is the input data, that is, after The data y MultiHead processed by the multi-angle self-attention mechanism;
  • Sublayer(x) max(0,xW 1 +b 1 )W 2 +b 2 ,
  • W 1 , W 2 are training weights
  • b 1 , b 2 are biases, which are input data, that is, the data y MultiHead processed by the multi-angle self-attention mechanism.
  • the dimension of the output class of the connected frame image action class prediction module is [100, nuclass+1], that is, up to 100 target positions can be predicted, and numclass is the number of action classes.
  • M and K may also take other values.
  • the method described in this embodiment solves the problem that the 3D convolutional network model has many parameters and a large amount of calculation, and the GPU parallelism of the two prediction modules is strong, which can reduce the model operation time.
  • the two prediction modules are already composed of operators, and have strong compatibility in different deep learning frameworks.
  • the invention takes two prediction modules as the core, and constructs a new continuous frame action recognition method to realize the task of action detection and target positioning for continuous frames.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一种基于自我注意力机制的行为识别方法,该方法采用基于多角度注意机制的关键帧目标位置预测和连续帧动作类别预测模块,在完成连续帧动作检测的同时,可以实现目标定位功能。方法中以基于多角度注意机制的关键帧目标位置预测和连续帧动作类别预测模块代替3D卷积网络,解决了3D卷积网络模型计算量较大的问题,并提高了模型在GPU上的并行计算能力,同时,基于多角度注意机制的关键帧目标位置预测和连续帧动作类别预测模块,可避免因为3D卷积在不同深度学习框架下,模型转换或部署时兼容性较弱的问题。

Description

一种基于自我注意力机制的行为识别方法 技术领域
本发明涉及一种基于自我注意力机制的行为识别方法,属于人体动作识别领域。
背景技术
动作识别通过提取连续视频帧的动作特征,实现动作分类分类任务,在实际中避免可能存在的危险行为的发生,实际应用场景广泛。
现有的动作识别方法,均以3D卷积为基础,用于提取时间序列下的连续帧特征,提高算法对时间序列下图像特征的提取能力,增加动作识别精度。相对于2D卷积而言,3D卷积需要考虑时间轴特征,导致核参数大为增加。同时,3D作为一种新的计算方式,在不同深度学习框架下,对3D卷积的支持程度较差,影响了基于3D卷积的动作识别算法的实际应用性。
发明内容
针对现有技术的缺陷,本发明提供一种基于自我注意力机制的行为识别算法,该方法使用自我注意力机制替代原用3D卷积操作,用于连续帧图像的时序特征提取,实现对于连续帧的动作检测及目标定位任务。
为了解决所述技术问题,本发明采用的技术方案是:一种基于自我注意力机制的行为识别方法,包括以下步骤:
S01)、连续帧图像读取:
以关键帧为首帧图像,读取连续时间序列下的连续帧图像数据,并构建位置编码矩阵;
位置编码矩阵是一个维度为[H,W]的全1矩阵,其中H、W表示读取图像的高度和宽度;
S02)、基于2D卷积骨干网络进行图像特征提取:
将读取的连续帧图像数据的每一帧输入2D卷积骨干网络,获取每一帧的图像特征,并将每一帧的特征图片进行拼接,从而获取连续帧特征图,关键帧图像为连续帧图像数据中的第一帧,则关键帧的特征图取连续帧特征图的第一帧,即 key_frame=clip_frame[0],key_frame表示关键帧特征图,clip_frame表示连续帧特征图;
S03)、位置编码:
将步骤S01的位置编码矩阵按列方向进行逐列累加,获得矩阵x_embed;
将步骤S01的位置编码矩阵按列方向进行逐列累加,获得矩阵y_embed;
对矩阵x_embed、y_embed进行优化,获得优化后的结果PE x_embed,PE y_embed,将PE x_embed,PE y_embed按第3维度进行拼接,并进行维度顺序变换,获得最终的位置编码矩阵;
由于关键帧数据与连续帧数据用在相同的图像处理过程,因此设定关键帧位置编码矩阵与连续帧位置编码矩阵相同,即key_mask=clip_mask,key_mask表示关键帧位置编码矩阵,clip_mask表示连续帧位置编码矩阵;
S04)、关键帧图像目标位置预测:
S41)、使用单层2D卷积网络对关键帧特征图进行通道压缩,使用线性连接层对关键帧位置编码矩阵进行宽高压缩,通道压缩后的关键帧特征图与宽高压缩后的关键帧位置编码矩阵具有相同的维度;
S42)、将通道压缩后的关键帧特征图与宽高压缩后的关键帧位置编码矩阵输入关键帧图像目标预测模块,关键帧图像目标预测模块进行关键帧图像目标位置预测;
S05)、连续帧动作预测:
S51)、使用多层2D卷积网络对连续帧特征图进行通道压缩,使用线性连接层对连续帧位置编码矩阵进行宽高压缩,通道压缩后的连续帧特征图与宽高压缩后的连续帧位置编码矩阵具有相同的维度;
S52)、将通道压缩后的连续帧特征图与宽高压缩后的连续帧位置编码矩阵输入连续帧图像动作类别检测模块,连续帧图像动作类别检测模块进行连接帧动作类别预测;
步骤S04的关键帧图像目标预测模块与步骤S05的连续帧图像动作类别检测模块具有相同的结构,均包括编码模块和解码模块;
编码模块包括M个串联的编码单元,每个编码单元包括1个多角度注意机制模块和1个数据处理模块,第一个编码单元的输入为通道压缩后的关键帧/连续帧特征图、宽高压缩后的关键帧/连续帧位置编码矩阵,后续编码单元的输入为前一个编码单元的输出;
解码模块包括K个串联的解码单元和1个前置多角度注意机制模块,每个解码单元包括1个多角度注意机制模块和1个数据处理模块,前置多角度注意机制模块的输入为宽高压缩后的关键帧/连续帧位置编码矩阵、输出编码初始化值,第一个解码单元的输入为前置多角度注意机制模块的输出和编码模块的输出,后续解码单元的输入为前一个解码单元的输出;
上述多角度注意机制模块采用多个平行注意层共同关注来自不同位置的不同表示空间的信息,即对其输入进行多角度注意机制处理,然后通过数据处理模块对多角度注意机制处理后的数据进行残余连接和归一化处理;
最终解码器的输出即为预测的关键帧图像目标位置或连续帧图像动作类别。
进一步的,多角度注意机制模块的计算过程为:
A)、y MultiHead=MultiHead(Q,K,V)=Concat(head 1,head 2,…,Head h)W O
其中,Head 1,Head 2,…Head h为h个平行注意层,
Figure PCTCN2021117027-appb-000001
为可训练权重,
Figure PCTCN2021117027-appb-000002
d model表示位置编码矩阵的通道数,Concat(·)表示拼接操作,Q,K,V为输入数据,对于编码器中第一个编码单元,Q和K相等,等于通道压缩后的帧特征图与宽高压缩后的位置编码矩阵的和,V等于通道压缩后的帧特征图,即Q=K=key_frame_in+key_mask_in
或者Q=K=clip_frame_in+clip_mask_in,
V=key_frame_in或者V=clip_frame_in,
对于编码器的其他编码单元,Q、K、V等于前一个编码单元的输出;
对于编码器的前置多角度注意机制模块,Q和K相等,等于输出编码初始化值与宽高压缩后的位置编码矩阵的和,V等于输出编码初始化值,即
Q=K=key_frame_c+key_mask_in,
或者Q=K=clip_frame_c+clip_mask_in,
V=key_frame_c或者V=clip_frame_c,
对于解码模块的第一个解码单元,Q和K相等,等于编码模块的输出,V等于前置多角度注意机制模块的输出,对于解码模块的其他解码单元,Q、K、V等于前一个解码单元的输出;
其中,key_in表示通道压缩后的关键帧特征图,key_mask_in表示宽高压缩后的关键帧位置编码矩阵,clip_in表示通道压缩后的连续帧特征图,clip_mask_in表示宽高压缩后的连续帧位置编码矩阵,key_frame_c表示关键帧特征图的编码初始化值,clip_frame_c表示连续帧特征图的编码初始化值;
B)、每个平行注意层Head i的计算过程为:
Figure PCTCN2021117027-appb-000003
其中
Figure PCTCN2021117027-appb-000004
为可训练权重参数,
Figure PCTCN2021117027-appb-000005
d model表示位置编码矩阵的通道数。
进一步的,数据处理模块的计算过程为:
y=LayerNorm(x+Sublayer(x)),
y表示每个编码单元或解码单元的输出,Sublayer(·)是一个完全连接的前馈网络,构建前向数据处理模块,LayerNorm(·)表示层归一化处理,x为输入数据,即经过多角度自注意机制处理后的数据y MultiHead
Sublayer(·)计算过程表示为:
Sublayer(x)=max(0,xW 1+b 1)W 2+b 2
其中,W 1,W 2为训练权重,b 1,b 2为偏置,为输入数据,即经过多角度自注意机制处理后的数据y MultiHead
进一步的,对矩阵x_embed、y_embed进行优化的过程为:
Figure PCTCN2021117027-appb-000006
其中dim_t是[0,128)的连续序列,d model表示位置编码矩阵的通道数,PE x_embed,PE y_embed的维度是
Figure PCTCN2021117027-appb-000007
将PE x_embed,PE y_embed按第3维度进行拼接,并进行维度顺序变换,获得最终的位置编码矩阵维度为[d model,H,W]。
进一步的,本方法模型训练过程中的损失函数由三部分组成,分别为loss giou目标GIOU面积损失、目标框位置1范数损失loss box、loss class类别损失,则整体损失函数可以表示为:Loss=w giou×loss giou+w box×loss box+w class×loss class,其中w giou,w box,w class为相应损失权重,基于整体损失函数对模型进行优化。
进一步的,关键帧图像目标位置预测模块的输出box的维度为[100,4],即最多可以预测100个目标位置,其中box i=[cx i,cy i,h i,w i],0≤i<100为第i个目标的中中心点坐标、目标框高度、目标框宽度。
进一步的,连接帧图像动作类别预测模块的输出class的维度为[100,nuclass+1],即最多可以预测100个目标位置,numclass为动作类别数。
进一步的,M=6。
进一步的,K=6。
进一步的,步骤S01中连续读取16帧图像数据,连续帧图像数据的维度为[16,3,H,W],3表示读取帧图像为3通道RGB图像,H,W表示网络输入图像的高度和宽度。
本发明的有益效果:本发明介绍了一种基于自我注意力机制的行为识别方法,该方法采用基于多角度注意机制的关键帧目标位置预测和连续帧动作类别预测模块,在完成连续帧动作检测的同时,可以实现目标定位功能。
方法中以基于多角度注意机制的关键帧目标位置预测和连续帧动作类别预 测模块代替3D卷积网络,解决了3D卷积网络模型计算量较大的问题,并提高了模型在GPU上的并行计算能力,同时,基于多角度注意机制的关键帧目标位置预测和连续帧动作类别预测模块,可避免因为3D卷积在不同深度学习框架下,模型转换或部署时兼容性较弱的问题。
附图说明
图1为本方法的流程图;
图2为编码模块和解码模块的流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的说明。
实施例1
本实施例公开一种基于自我注意力机制的行为识别方法,如图1所示,包括以下步骤:
S01)、连续帧图像读取
以关键帧为首帧图像,在连续时间序列下连续读取16帧图像数据input,同时读取关键帧目标标签信息target,并构建位置编码初始矩阵mask。
连续帧图像数据input的维度为[16,3,H,W],其中H,W表示网络输入图像的高度和宽度,3表示读取帧图像为3通道RGB图像。
目标标签信息target,包含图像关键帧的目标位置信息和动作类别信息。
对连续16帧图像,采用相同的数据预处理操作,因此对于16帧连续图片,可以采用一个二维的[H,W]的全1矩阵mask作为位置编码初始矩阵,其中H,W表示网络输入图像的高度和宽度。
S02)、基于2D卷积骨干网络进行图像特征提取
将读取的连续16帧图像数据的每一帧输入2D卷积骨干网络,获取每一帧的图像特征,并将每一帧的特征图片进行拼接,从而获取连续帧特征图clip_frame。
关键帧图像为连续帧图像数据中的第一帧,则关键帧的特征图取连续帧特征图的第一帧,即key_frame=clip_frame[0],key_frame表示关键帧特征图, clip_frame表示连续帧特征图。
2D卷积骨干网络的输入数据维度为[16,3,H,W],获取的连续帧特征图clip_frame维度为
Figure PCTCN2021117027-appb-000008
其中关键帧特征图的维度为
Figure PCTCN2021117027-appb-000009
S03)、位置编码
由于模型不包含重复性和3D卷积,因此为了使模型能够利用序列的顺序,我们必须注入一些有关标记在序列中的相对或绝对位置的信息。为此,我们在编码器和解码器堆栈底部的输入中添加位置编码矩阵。
本步骤的输入数据为步骤S01中构建的位置编码初始矩阵mask。
首先将步骤S01的位置编码初始矩阵按列方向进行逐列累加,获得矩阵x_embed,即:对于x_embed中第j列数据,可以表示为:
Figure PCTCN2021117027-appb-000010
其中,mask[:,n]表示位置编码初始矩阵mask中的第n列,x_embed[:,j]表示输出数据的第j列,0≤j≤W。
然后将步骤S01的位置编码矩阵按列方向进行逐列累加,获得矩阵y_embed,即:对于y_embed中第i行数据,可以表示为:
Figure PCTCN2021117027-appb-000011
其中,mask m表示位置掩码mask,中的第m行,0≤i≤H。
下面对按列累加过程进行解释说明。假设mask矩阵是一个维度是[5,5]的全1矩阵,即:
Figure PCTCN2021117027-appb-000012
对上述mask进行按列累加操作获取输出矩阵x_embed,则:
x_embed的第0列为:
Figure PCTCN2021117027-appb-000013
x_embed的第1列输出为:
Figure PCTCN2021117027-appb-000014
x_embed的第2列输出为:
Figure PCTCN2021117027-appb-000015
x_embed的第4列输出为:
Figure PCTCN2021117027-appb-000016
最终获得的x_embed的最终输出为:
Figure PCTCN2021117027-appb-000017
下面对按行累加过程进行解释说明。假设mask矩阵是一个维度是[5,5]的全1矩阵,即:
Figure PCTCN2021117027-appb-000018
对上述mask进行按列累加操作获取输出矩阵y_embed,则:
y_embed的第0行为:
y_embed[0,:]=mask[0,:]=[1 1 1 1 1]
y_embed的第1行输出为:
y_embed[0,:]=mask[0,:]+mask[1,:]=[1 1 1 1 1]+[1 1 1 1 1]=[2 2 2 2 2]y_embed的第2行输出为:
y_embed[2,:]=mask[0,:]+mask[1,:]+mask[2,:]=[1 1 1 1 1]+[1 1 1 1 1]+[1 1 1 1 1]=[3 3 3 3 3]最终获得的y_embed的最终输出为:
Figure PCTCN2021117027-appb-000019
然后使用不同频率的正弦和余弦函数,对生成的x_embed和y_embed进行优化处理,优化过程为:
Figure PCTCN2021117027-appb-000020
其中,dim_t是[0,128)的连续序列,d model表示位置编码矩阵的通道数,本实施例中,d model=256,输出数据PE x_embed、PE y_embed的维度是
Figure PCTCN2021117027-appb-000021
将PE x_embed,PE y_embed按第3维度进行拼接,获得[H,W,d model]的矩 阵,并进行维度顺序变换,获得最终的位置编码矩阵clip_mask,其维度为[d model,H,W]。
由于关键帧数据与连续帧数据均在用相同的图像处理过程,因此,设定关键帧数据位置编码矩阵与连续帧位置编码矩阵相同,即:
key_mask=clip_mask,key_mask表示关键帧位置编码矩阵,clip_mask表示连续帧位置编码矩阵。
S04)、关键帧图像目标位置预测
采用连续特征提取模块(a),以关键帧图像key_frame为输入数据,用于预测目标框,具体步骤为:
S41)、使用单层2D卷积网络对关键帧特征图进行通道压缩,关键帧key_frame为:key_frame=clip_frame[0,:,:,:],维度为
Figure PCTCN2021117027-appb-000022
经过变换后,输出特征key_in的维度为
Figure PCTCN2021117027-appb-000023
S42)、使用线性连接层对关键帧位置编码矩阵进行宽高压缩,关键帧位置编码矩阵key_mask的维度为[256,H,W],经过变换后输出位置编码矩阵key_mask_in的维度变为
Figure PCTCN2021117027-appb-000024
S43)、将通道压缩后的关键帧特征图与宽高压缩后的关键帧位置编码矩阵输入关键帧图像目标预测模块,关键帧图像目标预测模块进行关键帧图像目标位置预测;
S05)、连续帧动作预测:
S51)、使用多层2D卷积网络对连续帧特征图进行通道压缩,连续帧特征图clip_frame的维度
Figure PCTCN2021117027-appb-000025
融合后维度为
Figure PCTCN2021117027-appb-000026
经通道压缩后,获取的clip_in的维度为
Figure PCTCN2021117027-appb-000027
S52)、使用线性连接层对连续帧位置编码矩阵进行宽高压缩,连续帧位置编 码clip_mask的维度为[256,H,W],经过变换后输出位置编码clip_mask_in的维度变为
Figure PCTCN2021117027-appb-000028
S53)、将通道压缩后的连续帧特征图与宽高压缩后的连续帧位置编码矩阵输入连续帧图像动作类别检测模块,连续帧图像动作类别检测模块进行连接帧动作类别预测。
本实施例中,步骤S04的关键帧图像目标预测模块与步骤S05的连续帧图像动作类别检测模块具有相同的结构,均包括编码模块和解码模块;
如图2所示,编码模块包括M个串联的编码单元,每个编码单元包括1个多角度注意机制模块和1个数据处理模块,第一个编码单元的输入为通道压缩后的关键帧/连续帧特征图、宽高压缩后的关键帧/连续帧位置编码矩阵,后续编码单元的输入为前一个编码单元的输出;
如图2所示,解码模块包括K个串联的解码单元和1个前置多角度注意机制模块,每个解码单元包括1个多角度注意机制模块和1个数据处理模块,前置多角度注意机制模块的输入为宽高压缩后的关键帧/连续帧位置编码矩阵、输出编码初始化值,第一个解码单元的输入为前置多角度注意机制模块的输出和编码模块的输出,后续解码单元的输入为前一个解码单元的输出;
上述多角度注意机制模块采用多个平行注意层共同关注来自不同位置的不同表示空间的信息,即对其输入进行多角度注意机制处理,然后通过数据处理模块对多角度注意机制处理后的数据进行残余连接和归一化处理;
最终解码器的输出即为预测的关键帧图像目标位置或连续帧图像动作类别。
本实施例中,多角度注意机制模块的计算过程为:
A)、y MultiHead=MultiHead(Q,K,V)=Concat(head 1,head 2,…,Head h)W O
其中,Head 1,Head 2,…Head h为h个平行注意层,
Figure PCTCN2021117027-appb-000029
为可训练权重,
Figure PCTCN2021117027-appb-000030
d model表示位置编码矩阵的通道数,Concat(·)表示拼接操作,Q,K,V为输入数据,对于编码器中第一个编码单元,Q和K相等,等于通道压缩后的帧特征图与宽高压缩后的位置编码矩阵的和,V等于通道压缩后的帧特征图,即Q=K=key_frame_in+key_mask_in(关键帧计算时)
或者Q=K=clip_frame_in+clip_mask_in(连续帧计算时),
V=key_frame_in(关键帧计算是)或者V=clip_frame_in(连续帧计算时),
对于编码器的其他编码单元,Q、K、V等于前一个编码单元的输出。
对于编码器的前置多角度注意机制模块,Q和K相等,等于输出编码初始化值与宽高压缩后的位置编码矩阵的和,V等于输出编码初始化值,即
Q=K=key_frame_c+key_mask_in(关键帧计算时),
或者Q=K=clip_frame_c+clip_mask_in(连续帧计算时),
V=key_frame_c(关键帧计算时)或者V=clip_frame_c(连续帧计算时),
对于解码模块的第一个解码单元,Q和K相等,等于编码模块的输出,V等于前置多角度注意机制模块的输出,对于解码模块的其他解码单元,Q、K、V等于前一个解码单元的输出;
其中,key_in表示通道压缩后的关键帧特征图,key_mask_in表示宽高压缩后的关键帧位置编码矩阵,clip_in表示通道压缩后的连续帧特征图,clip_mask_in表示宽高压缩后的连续帧位置编码矩阵,key_frame_c表示关键帧特征图的编码初始化值,clip_frame_c表示连续帧特征图的编码初始化值。
B)、每个平行注意层Head i的计算过程为:
Figure PCTCN2021117027-appb-000031
其中
Figure PCTCN2021117027-appb-000032
为可训练权重参数,
Figure PCTCN2021117027-appb-000033
d model表示位置编码矩阵的通道数。
本实施例中,数据处理模块的计算过程为:
y=LayerNorm(x+Sublayer(x)),
y表示每个编码单元或解码单元的输出,Sublayer(·)是一个完全连接的前馈网络,构建前向数据处理模块,LayerNorm(·)表示层归一化处理,x为输入数据,即经过多角度自注意机制处理后的数据y MultiHead
Sublayer(·)计算过程表示为:
Sublayer(x)=max(0,xW 1+b 1)W 2+b 2
其中,W 1,W 2为训练权重,b 1,b 2为偏置,为输入数据,即经过多角度自注意机制处理后的数据y MultiHead
本实施例中,本方法模型训练过程中的损失函数由三部分组成,分别为loss giou目标GIOU面积损失、目标框位置1范数损失loss box、loss class类别损失,则整体损失函数可以表示为:Loss=w giou×loss giou+w box×loss box+w class×loss class,其中w giou,w box,w class为相应损失权重,基于整体损失函数对模型进行优化。
本实施例中,关键帧图像目标位置预测模块的输出box的维度为[100,4],即最多可以预测100个目标位置,其中box i=[cx i,cy i,h i,w i],0≤i<100为第i个目标的中中心点坐标、目标框高度、目标框宽度。
本实施例中,连接帧图像动作类别预测模块的输出class的维度为[100,nuclass+1],即最多可以预测100个目标位置,numclass为动作类别数。
本实施例中,M=K=6,当然,M和K也可以取其他的值。
本实施例所述方法解决了3D卷积网络模型参数较多、计算量较大的问题,两个预测模块的GPU并行能力较强,可降低模型运算时间。两个预测模块已已有算子为基础组成而成,在不同深度学习框架兼容性较强。本发明以两个预测模块为核心,构建了以一种新的连续帧动作识别方法,实现对于连续帧的动作检测及目标定位任务。
以上描述的仅是本发明的基本原理和优选实施例,本领域技术人员根据本发明做出的改进和替换,属于本发明的保护范围。

Claims (10)

  1. 一种基于自我注意力机制的行为识别方法,其特征在于:包括以下步骤:
    S01)、连续帧图像读取:
    以关键帧为首帧图像,读取连续时间序列下的连续帧图像数据,并构建位置编码矩阵;
    位置编码矩阵是一个维度为[H,W]的全1矩阵,其中H、W表示读取图像的高度和宽度;
    S02)、基于2D卷积骨干网络进行图像特征提取:
    将读取的连续帧图像数据的每一帧输入2D卷积骨干网络,获取每一帧的图像特征,并将每一帧的特征图片进行拼接,从而获取连续帧特征图,关键帧图像为连续帧图像数据中的第一帧,则关键帧的特征图取连续帧特征图的第一帧,即key_frame=clip_frame[0],key_frame表示关键帧特征图,clip_frame表示连续帧特征图;
    S03)、位置编码:
    将步骤S01的位置编码矩阵按列方向进行逐列累加,获得矩阵x_embed;
    将步骤S01的位置编码矩阵按列方向进行逐列累加,获得矩阵y_embed;
    对矩阵x_embed、y_embed进行优化,获得优化后的结果PE x_embed,PE y_embed,将PE x_embed,PE y_embed按第3维度进行拼接,并进行维度顺序变换,获得最终的位置编码矩阵;
    由于关键帧数据与连续帧数据用在相同的图像处理过程,因此设定关键帧位置编码矩阵与连续帧位置编码矩阵相同,即key_mask=clip_mask,key_mask表示关键帧位置编码矩阵,clip_mask表示连续帧位置编码矩阵;
    S04)、关键帧图像目标位置预测:
    S41)、使用单层2D卷积网络对关键帧特征图进行通道压缩,使用线性连接层对关键帧位置编码矩阵进行宽高压缩,通道压缩后的关键帧特征图与宽高压缩后的关键帧位置编码矩阵具有相同的维度;
    S42)、将通道压缩后的关键帧特征图与宽高压缩后的关键帧位置编码矩阵输入关键帧图像目标预测模块,关键帧图像目标预测模块进行关键帧图像目标位置 预测;
    S05)、连续帧动作预测:
    S51)、使用多层2D卷积网络对连续帧特征图进行通道压缩,使用线性连接层对连续帧位置编码矩阵进行宽高压缩,通道压缩后的连续帧特征图与宽高压缩后的连续帧位置编码矩阵具有相同的维度;
    S52)、将通道压缩后的连续帧特征图与宽高压缩后的连续帧位置编码矩阵输入连续帧图像动作类别检测模块,连续帧图像动作类别检测模块进行连接帧动作类别预测;
    步骤S04的关键帧图像目标预测模块与步骤S05的连续帧图像动作类别检测模块具有相同的结构,均包括编码模块和解码模块;
    编码模块包括M个串联的编码单元,每个编码单元包括1个多角度注意机制模块和1个数据处理模块,第一个编码单元的输入为通道压缩后的关键帧/连续帧特征图、宽高压缩后的关键帧/连续帧位置编码矩阵,后续编码单元的输入为前一个编码单元的输出;
    解码模块包括K个串联的解码单元和1个前置多角度注意机制模块,每个解码单元包括1个多角度注意机制模块和1个数据处理模块,前置多角度注意机制模块的输入为宽高压缩后的关键帧/连续帧位置编码矩阵、输出编码初始化值,第一个解码单元的输入为前置多角度注意机制模块的输出和编码模块的输出,后续解码单元的输入为前一个解码单元的输出;
    上述多角度注意机制模块采用多个平行注意层共同关注来自不同位置的不同表示空间的信息,即对其输入进行多角度注意机制处理,然后通过数据处理模块对多角度注意机制处理后的数据进行残余连接和归一化处理;
    最终解码器的输出即为预测的关键帧图像目标位置或连续帧图像动作类别。
  2. 根据权利要求1所述的基于自我注意力机制的行为识别方法,其特征在于:
    多角度注意机制模块的计算过程为:
    A)、y MultiHead=MultiHead(Q,K,V)=Concat(head 1,head 2,…,Head h)W O
    其中,Head 1,Head 2,…Head h为h个平行注意层,
    Figure PCTCN2021117027-appb-100001
    为可训练权 重,
    Figure PCTCN2021117027-appb-100002
    d model表示位置编码矩阵的通道数,Concat(·)表示拼接操作,Q,K,V为输入数据,对于编码器中第一个编码单元,Q和K相等,等于通道压缩后的帧特征图与宽高压缩后的位置编码矩阵的和,V等于通道压缩后的帧特征图,即Q=K=key_frame_in+key_mask_in
    或者Q=K=clip_frame_in+clip_mask_in,
    V=key_frame_in或者V=clip_frame_in,
    对于编码器的其他编码单元,Q、K、V等于前一个编码单元的输出;
    对于编码器的前置多角度注意机制模块,Q和K相等,等于输出编码初始化值与宽高压缩后的位置编码矩阵的和,V等于输出编码初始化值,即
    Q=K=key_frame_c+key_mask_in,
    或者Q=K=clip_frame_c+clip_mask_in,
    V=key_frame_c或者V=clip_frame_c,
    对于解码模块的第一个解码单元,Q和K相等,等于编码模块的输出,V等于前置多角度注意机制模块的输出,对于解码模块的其他解码单元,Q、K、V等于前一个解码单元的输出;
    其中,key_in表示通道压缩后的关键帧特征图,key_mask_in表示宽高压缩后的关键帧位置编码矩阵,clip_in表示通道压缩后的连续帧特征图,clip_mask_in表示宽高压缩后的连续帧位置编码矩阵,key_frame_c表示关键帧特征图的编码初始化值,clip_frame_c表示连续帧特征图的编码初始化值;
    B)、每个平行注意层Head i的计算过程为:
    Figure PCTCN2021117027-appb-100003
    其中
    Figure PCTCN2021117027-appb-100004
    为可训练权重参数,
    Figure PCTCN2021117027-appb-100005
    d model表示位置编码矩阵的通道数。
  3. 根据权利要求2所述的基于自我注意力机制的行为识别方法,其特征在于:数据处理模块的计算过程为:
    y=LayerNorm(x+Sublayer(x)),
    y表示每个编码单元或解码单元的输出,Sublayer(·)是一个完全连接的前馈网络,构建前向数据处理模块,LayerNorm(·)表示层归一化处理,x为输入数据,即经过多角度自注意机制处理后的数据y MultiHead
    Sublayer(·)计算过程表示为:
    Sublayer(x)=max(0,xW 1+b 1)W 2+b 2
    其中,W 1,W 2为训练权重,b 1,b 2为偏置,为输入数据,即经过多角度自注意机制处理后的数据y MultiHead
  4. 根据权利要求1所述的基于自我注意力机制的行为识别方法,其特征在于:对矩阵x_embed、y_embed进行优化的过程为:
    Figure PCTCN2021117027-appb-100006
    其中dim_t是[0,128)的连续序列,d model表示位置编码矩阵的通道数,PE x_embed,PE y_embed的维度是
    Figure PCTCN2021117027-appb-100007
    将PE x_embed,PE y_embed按第3维度进行拼接,并进行维度顺序变换,获得最终的位置编码矩阵维度为[d model,H,W]。
  5. 根据权利要求1所述的基于自我注意力机制的行为识别方法,其特征在于:本方法模型训练过程中的损失函数由三部分组成,分别为loss giou目标GIOU面积损失、目标框位置1范数损失loss box、loss class类别损失,则整体损失函数可以表示为:Loss=w giou×loss giou+w box×loss box+w class×loss class
    其中w giou,w box,w class为相应损失权重,基于整体损失函数对模型进行优化。
  6. 根据权利要求1所述的基于自我注意力机制的行为识别方法,其特征在 于:关键帧图像目标位置预测模块的输出box的维度为[100,4],即最多可以预测100个目标位置,其中box i=[cx i,cy i,h i,w i],0≤i<100为第i个目标的中中心点坐标、目标框高度、目标框宽度。
  7. 根据权利要求1所述的基于自我注意力机制的行为识别方法,其特征在于:连接帧图像动作类别预测模块的输出class的维度为[100,nuclass+1],即最多可以预测100个目标位置,numclass为动作类别数。
  8. 根据权利要求1所述的基于自我注意力机制的行为识别方法,其特征在于:M=6。
  9. 根据权利要求1所述的基于自我注意力机制的行为识别方法,其特征在于:K=6。
  10. 根据权利要求1所述的基于自我注意力机制的行为识别方法,其特征在于:步骤S01中连续读取16帧图像数据,连续帧图像数据的维度为[16,3,H,W],3表示读取帧图像为3通道RGB图像,H,W表示网络输入图像的高度和宽度。
PCT/CN2021/117027 2020-10-20 2021-09-07 一种基于自我注意力机制的行为识别方法 WO2022083335A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011128771.0A CN112257572B (zh) 2020-10-20 2020-10-20 一种基于自我注意力机制的行为识别方法
CN202011128771.0 2020-10-20

Publications (1)

Publication Number Publication Date
WO2022083335A1 true WO2022083335A1 (zh) 2022-04-28

Family

ID=74244194

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/117027 WO2022083335A1 (zh) 2020-10-20 2021-09-07 一种基于自我注意力机制的行为识别方法

Country Status (2)

Country Link
CN (1) CN112257572B (zh)
WO (1) WO2022083335A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115620303A (zh) * 2022-10-13 2023-01-17 杭州京胜航星科技有限公司 人事档案智慧管理系统
CN116778346A (zh) * 2023-08-23 2023-09-19 济南大学 一种基于改进自注意力机制的管线识别方法及系统
CN117612071A (zh) * 2024-01-23 2024-02-27 中国科学技术大学 一种基于迁移学习的视频动作识别方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257572B (zh) * 2020-10-20 2022-02-01 神思电子技术股份有限公司 一种基于自我注意力机制的行为识别方法
CN113112577B (zh) * 2021-04-20 2022-06-14 网易(杭州)网络有限公司 过渡帧预测模型的训练方法以及过渡帧预测方法
CN113420681A (zh) * 2021-06-28 2021-09-21 北京百度网讯科技有限公司 行为识别及模型训练的方法、设备、存储介质和程序产品
CN117994753B (zh) * 2024-04-03 2024-06-07 浙江浙能数字科技有限公司 基于视觉的翻车机入口轨道异常检测装置及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110175580A (zh) * 2019-05-29 2019-08-27 复旦大学 一种基于时序因果卷积网络的视频行为识别方法
US20190354567A1 (en) * 2018-05-18 2019-11-21 Google Llc Universal transformers
CN111526434A (zh) * 2020-04-24 2020-08-11 西北工业大学 基于转换器的视频摘要方法
CN111652066A (zh) * 2020-04-30 2020-09-11 北京航空航天大学 基于多自注意力机制深度学习的医疗行为识别方法
CN111721535A (zh) * 2020-06-23 2020-09-29 中国人民解放军战略支援部队航天工程大学 一种基于卷积多头自注意力机制的轴承故障检测方法
CN112257572A (zh) * 2020-10-20 2021-01-22 神思电子技术股份有限公司 一种基于自我注意力机制的行为识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830157B (zh) * 2018-05-15 2021-01-22 华北电力大学(保定) 基于注意力机制和3d卷积神经网络的人体行为识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190354567A1 (en) * 2018-05-18 2019-11-21 Google Llc Universal transformers
CN110175580A (zh) * 2019-05-29 2019-08-27 复旦大学 一种基于时序因果卷积网络的视频行为识别方法
CN111526434A (zh) * 2020-04-24 2020-08-11 西北工业大学 基于转换器的视频摘要方法
CN111652066A (zh) * 2020-04-30 2020-09-11 北京航空航天大学 基于多自注意力机制深度学习的医疗行为识别方法
CN111721535A (zh) * 2020-06-23 2020-09-29 中国人民解放军战略支援部队航天工程大学 一种基于卷积多头自注意力机制的轴承故障检测方法
CN112257572A (zh) * 2020-10-20 2021-01-22 神思电子技术股份有限公司 一种基于自我注意力机制的行为识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JEAN-BAPTISTE CORDONNIER; ANDREAS LOUKAS; MARTIN JAGGI: "On the Relationship between Self-Attention and Convolutional Layers", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 9 November 2019 (2019-11-09), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081575893 *
TAN HONGCHEN, LIU XIUPING, YIN BAOCAI, LI XIN: "MHSA-Net: Multihead Self-Attention Network for Occluded Person Re-Identification", ARXIV.ORG - CORNELL UNIVERSITY LIBRARY, 10 August 2020 (2020-08-10), pages 1 - 13, XP055924016 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115620303A (zh) * 2022-10-13 2023-01-17 杭州京胜航星科技有限公司 人事档案智慧管理系统
CN116778346A (zh) * 2023-08-23 2023-09-19 济南大学 一种基于改进自注意力机制的管线识别方法及系统
CN116778346B (zh) * 2023-08-23 2023-12-08 蓝茵建筑数据科技(上海)有限公司 一种基于改进自注意力机制的管线识别方法及系统
CN117612071A (zh) * 2024-01-23 2024-02-27 中国科学技术大学 一种基于迁移学习的视频动作识别方法
CN117612071B (zh) * 2024-01-23 2024-04-19 中国科学技术大学 一种基于迁移学习的视频动作识别方法

Also Published As

Publication number Publication date
CN112257572A (zh) 2021-01-22
CN112257572B (zh) 2022-02-01

Similar Documents

Publication Publication Date Title
WO2022083335A1 (zh) 一种基于自我注意力机制的行为识别方法
CN108805015B (zh) 加权卷积自编码长短期记忆网络人群异常检测方法
CN113052210B (zh) 一种基于卷积神经网络的快速低光照目标检测方法
CN112329760B (zh) 基于空间变换网络端到端印刷体蒙古文识别翻译的方法
CN111639692A (zh) 一种基于注意力机制的阴影检测方法
CN113591968A (zh) 一种基于非对称注意力特征融合的红外弱小目标检测方法
CN113191489B (zh) 二值神经网络模型的训练方法、图像处理方法和装置
CN114882222B (zh) 改进YOLOv5目标检测模型构建方法及用于茶嫩芽识别与采摘点定位方法
US20220383525A1 (en) Method for depth estimation for a variable focus camera
CN109492610B (zh) 一种行人重识别方法、装置及可读存储介质
CN115294563A (zh) 一种基于Transformer的增强了局部语义学习能力的3D点云分析方法及装置
CN114676776A (zh) 一种基于Transformer的细粒度图像分类方法
CN116363535A (zh) 基于卷积神经网络的无人机航拍影像中的船舶检测方法
CN117475216A (zh) 一种基于aglt网络的高光谱与激光雷达数据融合分类方法
CN115205233A (zh) 一种基于端对端架构的光伏表面缺陷识别方法及系统
CN117197727B (zh) 一种基于全局时空特征学习的行为检测方法与系统
CN115240121B (zh) 一种用于增强行人局部特征的联合建模方法和装置
CN116433911A (zh) 基于多尺度池化建模的伪装物体实例分割方法、装置及系统
CN115171029B (zh) 基于无人驾驶的城市场景下的实例分割方法及系统
CN116664952A (zh) 一种融合卷积与ViT的图像方向识别方法
CN116168394A (zh) 图像文本识别方法和装置
CN114332447B (zh) 一种车牌矫正方法、车牌矫正装置和计算机可读存储介质
CN115471901A (zh) 基于生成对抗网络的多姿态人脸正面化方法及系统
CN115311632A (zh) 一种基于多摄像头的车辆重识别方法和设备
CN114782995A (zh) 一种基于自注意力机制的人交互行为检测方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21881754

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21881754

Country of ref document: EP

Kind code of ref document: A1

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 27.10.2023)