WO2021180030A1 - 行为识别方法及系统、电子设备和计算机可读存储介质 - Google Patents
行为识别方法及系统、电子设备和计算机可读存储介质 Download PDFInfo
- Publication number
- WO2021180030A1 WO2021180030A1 PCT/CN2021/079530 CN2021079530W WO2021180030A1 WO 2021180030 A1 WO2021180030 A1 WO 2021180030A1 CN 2021079530 W CN2021079530 W CN 2021079530W WO 2021180030 A1 WO2021180030 A1 WO 2021180030A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- time
- vector
- layer
- feature
- series convolution
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000012545 processing Methods 0.000 claims abstract description 215
- 230000003287 optical effect Effects 0.000 claims abstract description 208
- 230000004927 fusion Effects 0.000 claims abstract description 89
- 238000000605 extraction Methods 0.000 claims abstract description 78
- 230000008569 process Effects 0.000 claims abstract description 27
- 239000013598 vector Substances 0.000 claims description 543
- 238000011176 pooling Methods 0.000 claims description 190
- 239000012528 membrane Substances 0.000 claims description 102
- 230000006399 behavior Effects 0.000 claims description 71
- 230000002123 temporal effect Effects 0.000 claims description 53
- 238000013528 artificial neural network Methods 0.000 claims description 39
- 239000000284 extract Substances 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000010606 normalization Methods 0.000 claims description 16
- 230000009466 transformation Effects 0.000 claims description 16
- 238000007781 pre-processing Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 239000012634 fragment Substances 0.000 claims description 4
- 230000009977 dual effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 8
- 230000006872 improvement Effects 0.000 description 30
- 230000009471 action Effects 0.000 description 10
- 238000007500 overflow downdraw method Methods 0.000 description 8
- 230000003993 interaction Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 101150083127 brox gene Proteins 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005086 pumping Methods 0.000 description 1
- 125000006850 spacer group Chemical group 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
一种行为识别方法和系统,将视频数据截取成多个视频片段,对每个视频片段抽帧处理得到帧图像,并对帧图像提取光流得到光流图像;分别对每个视频片段的帧图像和光流图像进行特征提取,得到每个视频片段的帧图像和光流图像的特征图;分别对帧图像和光流图像的特征图进行时空卷积处理,确定每个视频片段的空间预测结果和时间预测结果;对所有视频片段的空间预测结果进行融合,得到空间融合结果,并对所有视频片段的时间预测结果进行融合,得到时间融合结果;对空间融合结果和时间融合结果进行双流融合,得到行为识别结果。既能保证卷积效果,也能降低计算量和权重量,还可联系多张图片,处理图片之间的时序信息,提高识别准确率。
Description
本发明涉及行为识别技术领域,具体而言,涉及一种行为识别方法、一种行为识别系统、一种电子设备和一种计算机可读存储介质。
基于视频数据的行为识别被广泛应用在各个领域。然而,相关技术中,针对视频数据的行为识别具有计算量较大,权重量也较大,识别准确率较低等问题。
发明内容
为解决上述问题,本发明的目的在于提供一种行为识别方法、一种行为识别系统、一种电子设备和一种计算机可读存储介质,既可以做到人工神经网络(ANN,Artificial Neural Network)中的卷积效果,也能降低计算量和权重量,还可以联系多张图片,处理图片之间的时序信息,提高了识别的准确率。
本发明提供了一种行为识别方法,包括:将视频数据截取成多个视频片段,对每个视频片段抽帧处理,得到多个帧图像,并对每个视频片段抽帧后的得到所述帧图像提取光流,得到每个视频片段的光流图像;分别对每个视频片段的帧图像和光流图像进行特征提取,得到每个视频片段的帧图像的特征图和光流图像的特征图;分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时空卷积处理,确定每个视频片段的空间预测结果和时间预测结果;对所有视频片段的空间预测结果进行融合,得到空间融合结果,并对所有视频片段的时间预测结果进行融合,得到时间融合结果;对所述空间融合结果和所述时间融合结果进行双流融合,得到行为识别结果。
作为本发明进一步的改进,所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时空卷积处理,确定每个视频片段的空间预测结果和时间预测结果,包括:分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取,得到第一特征向量,其中,n其中,n为正整数;对所述第一特征向量进行矩阵变换处理,得到第二特征向量;对所述第二特征向量进行时序全连接处理,得到第三特征向量;根据所述第三特征向量,确定每个视频片段的空间预测结果和时间预测结果。
作为本发明进一步的改进,当n=1时,所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取,得到第一特征向量,包括:分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量;对所述第一时序卷积向量进行池化处理,得到第一中间特征向量;将所述第一中间特征向量确定为第一特征向量;
当n=2时,所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取,得到第一特征向量,包括:分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量;对第一时序卷积向量进行时序卷积处理,得到第二时序卷积向量;对所述第二时序卷积向量进行池化处理,得到第二中间特征向量;将所述第二中间特征向量确定为所述第一特征向量;
当n>2时,所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特 征提取,得到第一特征向量,包括:分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理,得到第1时序卷积向量;对所述第1时序卷积向量进行时序卷积处理,得到第2时序卷积向量;对所述第i时序卷积向量进行池化处理,得到第i中间特征向量;对第i中间特征向量进行时序卷积处理,得到第i+1时序卷积向量;对第i+1时序卷积向量进行池化处理,得到第i+1中间特征向量,其中,i为依次取自2至n-1的正整数,直至得到第n中间特征量;将第n中间特征向量确定为第一特征向量。
作为本发明进一步的改进,所述对每个视频片段抽帧处理,包括:将所述每个视频片段按照一定间隔抽取帧,得到N
1帧图像,其中,间隔为每个视频片段的总帧数除以N
1,N
1为大于1的整数。
作为本发明进一步的改进,对每个所述视频片段的多个所述帧图像提取光流,包括:对抽取出的N
1帧图像,分别根据两两相邻的两帧图像提取光流计算得到N
1-1个光流;复制第二帧与第一帧的光流作为第一个光流,与所述N
1-1个光流合并为N
1个光流。
作为本发明进一步的改进,所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时空卷积处理通过神经网络实现,所述方法还包括:根据训练集训练所述神经网络。
作为本发明进一步的改进,所述神经网络包括:n个Block块、Reshape层、LIF层、全连接层和Softmax层;其中,所述Block块包括级联的ConvLIF层和池化层,n为正整数,且n≥1,当n>1时,n个Block块级联。
作为本发明进一步的改进,通过所述神经网络分别对每个视频片段的帧图像和光流图像的特征图进行时空卷积处理,包括:通过所述n个Block块对每个视频片段的帧图像和光流图像进行n次时序特征提取,得到第一特征向量;通过所述Reshape层对所述第一特征向量进行矩阵变换处理,得到第二特征向量;通过LIF层和所述全连接层对所述第二特征向量进行时序全连接处理,得到第三特征向量;根据所述第三特征向量,通过所述Softmax层确定每个视频片段的空间预测结果和时间预测结果。
作为本发明进一步的改进,当n=1时,通过所述n个Block块对每个视频片段的帧图像和光流图像进行n次时序特征提取,得到第一特征向量,包括:通过所述ConvLIF层分别对帧图像和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量;通过所述池化层对所述第一时序卷积向量进行池化处理,得到第一中间特征向量;将所述第一中间特征向量确定为第一特征向量;
当n=2时,通过所述n个Block块对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取,得到第一特征向量,包括:通过所述ConvLIF层分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量;通过所述池化层对所述第一时序卷积向量进行池化处理,得到第一中间特征向量;通过ConvLIF层对所述第一中间特征向量进行时序卷积处理,得到第二时序卷积向量,通过池化层对所述第二时序卷积向量进行池化处理,得到第二中间特征向量;将所述第二中间特征向量作为所述第一特征向量;
当n>2时,通过所述n个Block块对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取,得到第一特征向量,包括:通过所述ConvLIF层分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理,得到第1时序卷积向量;通过所述池化层对所述第1时序卷积向量进行池化处理,得到第1中间特征向量;通过所述池化层对所述第1时序卷积 向量进行时序卷积处理,得到第2时序卷积向量;通过所述ConvLIF层对所述第i时序卷积向量进行池化处理,得到i中间特征向量;通过所述池化层对第i中间特征向量进行时序卷积处理,得到第i+1时序卷积向量;通过所述ConvLIF层对第i+1时序卷积向量进行池化处理,得到第i+1中间特征向量,其中,i为依次取自2至n-1的正整数,直至得到第n中间特征量;将第n中间特征向量确定为第一特征向量。
作为本发明进一步的改进,所述Block块还包括级联于ConvLIF层和池化层之间的BN层。
当n=1或n=2时,通过所述池化层对所述第一时序卷积向量进行池化处理,得到第一中间特征向量,包括:对所述第一时序卷积向量进行标准化处理;利用池化层将标准化处理后的第一时序卷积向量进行池化处理;
当n=2时,通过池化层对所述第二时序卷积向量进行池化处理,得到第二中间特征向量,包括:通过所述BN层对所述第二时序卷积向量进行标准化处理;利用池化层将标准化处理后的第二时序卷积向量进行池化处理;
当n>2时,通过所述池化层对所述第1时序卷积向量进行时序卷积处理,得到第2时序卷积向量,包括:通过所述BN层对所述第1时序卷积向量进行标准化处理;利用池化层将标准化处理后的第1时序卷积向量进行池化处理,以得到第2时序卷积向量;
当n>2时,通过所述池化层对第i中间特征向量进行时序卷积处理,得到第i+1时序卷积向量,包括:通过所述BN层对所述第i时序卷积向量进行标准化处理;利用池化层将标准化处理后的第i时序卷积向量进行池化处理,以得到第i+1时序卷积向量。
作为本发明进一步的改进,所述LIF层用于:根据t时刻的输入值X
t经过全连接运算后得到的值I
t,与t-1时刻的生物电压值
确定t时刻的膜电位值
根据t时刻的膜电位值
与发射阈值V
th,确定t时刻的输出值F
t;根据t时刻的输出值F
t确定是否重置膜电位,并根据重置的电压值V
reset确定重置的膜电位值
根据重置的膜电位值
确定t时刻的生物电压值
其中,所述t时刻的输出值F
t作为与所述LIF层级联的下一层的输入,所述t时刻的生物电压值
作为计算t+1时刻的膜电位值的输入。
作为本发明进一步的改进,所述ConvLIF层用于:根据t时刻的输入值X
t经过卷积运算或全连接运算后得到的值I
t,与t-1时刻的生物电压值
确定t时刻的膜电位值
根据t时刻的膜电位值
与发射阈值V
th,确定t时刻的输出值F
t;根据t时刻的输出值F
t确定是否重置膜电位,并根据重置的电压值V
reset确定重置的膜电位值
根据重置的膜电位值
确定t时刻的生物电压值
其中,所述t时刻的输出值F
t作为与所述ConvLIF层级联的下一层的输入,所述t时刻的生物电压值
作为计算t+1时刻的膜电位值的输入。
作为本发明进一步的改进,所述根据t时刻的膜电位值和发射阈值V
th,确定时刻t的输出值,包括:若t时刻的膜电位值
大于或等于发射阈值V
th,则确定所述t时刻的输出值为1;若t时刻的膜电位值
小于发射阈值V
th,则确定所述t时刻的输出值为0。
作为本发明进一步的改进,对所有视频片段的空间预测结果和所有视频片段的时间预测结果进 行融合时,对所有视频片段的预测结果采用直接平均、线性加权、直接取最大值和TOP-K加权中的一种。
作为本发明进一步的改进,在双流融合时,所述空间融合结果和所述时间融合结果在双流融合时,将所述空间融合结果和所述时间融合结果采用加权融合。
本发明还提供了一种行为识别系统,采用所述行为识别方法,包括:数据预处理模块,其用于将视频数据截取成多个视频片段,对每个视频片段抽帧处理,得到多个帧图像,并对每个视频片段的多个所述帧图像提取光流,分别得到每个视频片段的多个光流图像;特征提取模块,其用于分别对每个视频片段的帧图像和光流图像进行图像特征提取,得到每个视频片段的帧图像的特征图和光流图像的特征图;网络识别模块,其分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时空卷积处理,确定每个视频片段的空间预测结果和时间预测结果;网络融合模块,其对所有视频片段的空间预测结果进行融合,得到空间融合结果,并对所有视频片段的时间预测结果进行融合,得到时间融合结果;双流融合模块,其用于对所述空间融合结果和所述时间融合结果进行双流融合,得到行为识别结果。
作为本发明进一步的改进,所述网络识别模块分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时空卷积处理,确定每个视频片段的空间预测结果和时间预测结果,包括:分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取,得到第一特征向量,其中,n其中,且n为正整数;对所述第一特征向量进行矩阵变换处理,得到第二特征向量;对所述第二特征向量进行时序全连接处理,得到第三特征向量;根据所述第三特征向量,确定每个视频片段的空间预测结果和时间预测结果。
作为本发明进一步的改进,当n=1时,所述网络识别模块分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取,得到第一特征向量,包括:分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量;对所述第一时序卷积向量进行池化处理,得到第一中间特征向量;将所述第一中间特征向量确定为第一特征向量;
当n=2时,所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取,得到第一特征向量,包括:分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量;对第一时序卷积向量进行时序卷积处理,得到第二时序卷积向量;对所述第二时序卷积向量进行池化处理,得到第二中间特征向量;将所述第二中间特征向量确定为所述第一特征向量;
当n>2时,所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取,得到第一特征向量,包括:分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理,得到第1时序卷积向量;对所述第1时序卷积向量进行时序卷积处理,得到第2时序卷积向量;对所述第i时序卷积向量进行池化处理,得到第i中间特征向量;对第i中间特征向量进行时序卷积处理,得到第i+1时序卷积向量;对第i+1时序卷积向量进行池化处理,得到第i+1中间特征向量,其中,i为依次取自2至n-1的正整数,直至得到第n中间特征量;将第n中间特征向量确定为第一特征向量。
作为本发明进一步的改进,所述数据预处理模块对每个视频片段抽帧处理,包括:将所述每个 视频片段按照一定间隔抽取帧,得到N
1帧图像,其中,间隔为视频片段的总帧数除以N
1,N
1为大于1的整数。
作为本发明进一步的改进,所述数据预处理模块对每个所述视频片段的多个抽帧后的帧图像提取光流,包括:对抽取出的N
1帧图像,分别根据两两相邻的两帧图像提取光流计算得到N
1-1个光流;复制第二帧与第一帧的光流作为第一个光流,与所述N
1-1个光流合并为N
1个光流。作为本发明进一步的改进,所述网络识别模块分别对帧图像和光流图像的特征图进行时空卷积处理通过神经网络实现,所述系统还包括:根据训练集训练所述神经网络。
作为本发明进一步的改进,所述神经网络包括:n个Block块、Reshape层、LIF层、全连接层和Softmax层;其中,所述Block块包括级联的ConvLIF层和池化层,n为正整数,且n≥1,当n>1时,n个Block块级联。
作为本发明进一步的改进,通过所述神经网络分别对每个视频片段的帧图像和光流图像的特征图进行时空卷积处理,包括:通过所述n个Block块对每个视频片段的帧图像和光流图像进行n次时序特征提取,得到第一特征向量;通过所述Reshape层对所述第一特征向量进行矩阵变换处理,得到第二特征向量;通过LIF层和所述全连接层对所述第二特征向量进行时序全连接处理,得到第三特征向量;根据所述第三特征向量,通过所述Softmax层确定每个视频片段的空间预测结果和时间预测结果。
作为本发明进一步的改进,当n=1时,通过所述n个Block块对每个视频片段的帧图像和光流图像进行n次时序特征提取,得到第一特征向量,包括:通过所述ConvLIF层分别对帧图像和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量;通过所述池化层对所述第一时序卷积向量进行池化处理,得到第一中间特征向量;将所述第一中间特征向量确定为第一特征向量;
当n=2是,通过所述n个Block块对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取,得到第一特征向量,包括:通过所述ConvLIF层分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量;通过所述池化层对所述第一时序卷积向量进行池化处理,得到第一中间特征向量;通过ConvLIF层对所述第一中间特征向量进行时序卷积处理,得到第二时序卷积向量,通过池化层对所述第二时序卷积向量进行池化处理,得到第二中间特征向量;将所述第二中间特征向量作为所述第一特征向量;
当n>2时,通过所述n个Block块对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取,得到第一特征向量,包括:通过所述ConvLIF层分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理,得到第1时序卷积向量;通过所述池化层对所述第1时序卷积向量进行池化处理,得到第1中间特征向量;通过所述池化层对所述第1时序卷积向量进行时序卷积处理,得到第2时序卷积向量;通过所述ConvLIF层对所述第i时序卷积向量进行池化处理,得到i中间特征向量;通过所述池化层对第i中间特征向量进行时序卷积处理,得到第i+1时序卷积向量;通过所述ConvLIF层对第i+1时序卷积向量进行池化处理,得到第i+1中间特征向量,其中,i为依次取自2至n-1的正整数,直至得到第n中间特征量;将第n中间特征向量确定为第一特征向量。
作为本发明进一步的改进,所述Block块还包括级联于ConvLIF层和池化层之间的BN层。
当n=1或n=2时,通过所述池化层对所述第一时序卷积向量进行池化处理,得到第一中间特征向量,包括:通过所述BN层对所述第一时序卷积向量进行标准化处理;利用池化层将标准化处理后的第一时序卷积向量进行池化处理;
当n=2时,通过池化层对所述第二时序卷积向量进行池化处理,得到第二中间特征向量,包括:通过所述BN层对所述第二时序卷积向量进行标准化处理;利用池化层将标准化处理后的第二时序卷积向量进行池化处理;
当n>2时,通过所述池化层对所述第1时序卷积向量进行时序卷积处理,得到第2时序卷积向量,包括:通过所述BN层对所述第1时序卷积向量进行标准化处理;利用池化层将标准化处理后的第1时序卷积向量进行池化处理,以得到第2时序卷积向量;
当n>2时,通过所述池化层对第i中间特征向量进行时序卷积处理,得到第i+1时序卷积向量,包括:通过所述BN层对所述第i时序卷积向量进行标准化处理;利用池化层将标准化处理后的第i时序卷积向量进行池化处理,以得到第i+1时序卷积向量。
作为本发明进一步的改进,所述LIF层用于:
根据t时刻的输入值X
t经过全连接运算后得到的值I
t,与t-1时刻的生物电压值
确定t时刻的膜电位值
根据t时刻的膜电位值
与发射阈值V
th,确定t时刻的输出值F
t;根据t时刻的输出值F
t确定是否重置膜电位,并根据重置的电压值V
reset确定重置的膜电位值
根据重置的膜电位值
确定t时刻的生物电压值
其中,所述t时刻的输出值F
t作为与所述LIF层级联的下一层的输入,所述t时刻的生物电压值
作为计算t+1时刻的膜电位值的输入。
作为本发明进一步的改进,所述ConvLIF层用于:根据t时刻的输入值X
t经过卷积运算或全连接运算后得到的值I
t,与t-1时刻的生物电压值
确定t时刻的膜电位值
根据t时刻的膜电位值
与发射阈值V
th,确定t时刻的输出值F
t;根据t时刻的输出值F
t确定是否重置膜电位,并根据重置的电压值V
reset确定重置的膜电位值
根据重置的膜电位值
确定t时刻的生物电压值
其中,所述t时刻的输出值F
t作为与所述ConvLIF层级联的下一层的输入,所述t时刻的生物电压值
作为计算t+1时刻的膜电位值的输入。
作为本发明进一步的改进,所述根据t时刻的膜电位值和发射阈值V
th,确定时刻t的输出值,包括:若t时刻的膜电位值
大于或等于发射阈值V
th,则确定所述t时刻的输出值为1;若t时刻的膜电位值
小于发射阈值V
th,则确定所述t时刻的输出值为0。
作为本发明进一步的改进,所述网络融合模块对所有视频片段的空间预测结果和所有视频片段的时间预测结果进行融合时,对所有视频片段的预测结果采用直接平均、线性加权、直接取最大值和TOP-K加权中的一种。
作为本发明进一步的改进,所述双流融合模块对所述空间融合结果和所述时间融合结果进行双流融合时,将所述空间融合结果和所述时间融合结果采用加权融合。
本发明还提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被处理器执行以实现所述的行为识别方法。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,、所述计算机程序被处理器执行以实现所述的行为识别方法。
本发明的有益效果为:
即可以做到ANN中的卷积效果,也能降低计算量和权重量,大大降低了计算量,降低对计算设备的要求,也相应减小网络的大小,减少存储空间。还可以联系多张图片,处理图片之间的时序信息,提高了识别的准确率。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开一示例性实施例所述的一种行为识别方法的流程示意图;
图2是本公开一示例性实施例所提供的行为识别方法的流程框图;
图3为本公开一示例性实施例所述的神经网络的结构图;
图4为本公开一示例性实施例所述的神经网络中ConvLIF层和LIF层的工作流程图;
图5是本公开一示例性实施例所述的行为识别系统的模块图。
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明,若本公开实施例中有涉及方向性指示(诸如上、下、左、右、前、后……),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本公开的描述中,所用术语仅用于说明目的,并非旨在限制本公开的范围。术语“包括”和/或“包含”用于指定所述元件、步骤、操作和/或组件的存在,但并不排除存在或添加一个或多个其他元件、步骤、操作和/或组件的情况。术语“第一”、“第二”等可能用于描述各种元件,不代表顺序,且不对这些元件起限定作用。此外,在本公开的描述中,除非另有说明,“多个”的含义是两个及两个以上。这些术语仅用于区分一个元素和另一个元素。结合以下附图,这些和/或其他方面变得显而易见,并且,本领域普通技术人员更容易理解关于本公开所述实施例的说明。附图仅出于说明的目的用来描绘本公开所述实施例。本领域技术人员将很容易地从以下说明中认识到,在不背离本公开所述原理的情况下,可以采用本公开所示结构和方法的替代实施例。
本公开实施例的一种行为识别方法,从整个视频中稀疏地采样一系列短片段,每个视频片段都将给出其本身对于行为类别的初步预测,从这些片段的融合来得到视频级的预测结果,之后对所有模式(空间和时间)的预测融合产生最终的预测结果,如图1所示,包括:
S1,将视频数据截取成多个视频片段,对每个视频片段抽帧处理,得到多个帧图像,并对每个 视频片段抽帧后得到的多个所述帧图像提取光流,得到每个视频片段的光流图像。
在一种可选的实施方式中,如图2所示,将视频数据均分成N个视频片段。例如,平均分为4段。
在一种可选的实施方式中,对每个视频片段抽帧处理,包括:将每个视频片段按照一定间隔抽取帧,得到N
1(例如40)帧大小为[320,240,3]的图像,其中,间隔为视频片段的总帧数除以N
1(例如40,按照舍掉余数的方法)。其中,N
1为大于1的整数,本公开对N
1的取值不做限制。
光流是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。在一种可选的实施方式中,对抽帧后的帧图像提取光流,包括:对抽取出的N
1(例如40)帧图像,分别根据两两相邻的两帧图像提取光流计算得到N
1-1(例如39)个光流;复制第二帧与第一帧的光流作为第一个光流,与N
1-1(例如39)个光流合并为N
1(例如40)个光流。在一种可选的实施方式中,在计算光流时,采用Brox算法。
S2,分别对每个视频片段的帧图像和光流图像进行特征提取,得到每个视频片段的帧图像的特征图和光流图像的特征图。
在一种可选的实施方式中,采用ImageNet训练的Inception V3模型对帧图像和光流图像进行图像分类,提取图像特征,得到每个视频片段的帧图像的特征图和光流图像的特征图。
S3,分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时空卷积处理,确定每个视频片段的空间预测结果(即空间流的类别概率分布)和时间预测结果(即时间流的类别概率分布)。
在一种可选的实施方式中,分别对帧图像和光流图像的特征图进行时空卷积处理,确定每个视频片段的空间预测结果和时间预测结果,包括:
分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取,得到第一特征向量,其中,n≥1,n为正整数;
对第一特征向量进行矩阵变换处理,得到第二特征向量;
对第二特征向量进行时序全连接处理,得到第三特征向量;
根据第三特征向量,确定每个视频片段的空间预测结果和时间预测结果。
其中,时序特征提取可以是指对特征图进行带时序的特征提取处理。矩阵变换处理是指将一个矩阵后几个维度展开的过程。时序全连接处理是指带时序处理的全连接处理。这样,一次可以处理多张图片,不仅可以保证特征提取效果,还可以联系多张图片,处理图片之间的时序信息,从而提高识别准确率。
在本公开中,对n的取值不做特殊的限定。
在一种可选的实施方式中,n=1,分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取,得到第一特征向量,包括:
分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量;
对第一时序卷积向量进行池化处理,得到第一中间特征向量;
将所述第一中间特征向量确定为第一特征向量。
在一种实施方式中,n=2,相应地,所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取,得到第一特征向量,包括:
分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量;
对第一时序卷积向量进行时序卷积处理,得到第二时序卷积向量;
对所述第二时序卷积向量进行池化处理,得到第二中间特征向量;
将所述第二中间特征向量确定为所述第一特征向量。
在一种实施方式中,n>2,所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取,得到第一特征向量,包括:
分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理,得到第1时序卷积向量;
对所述第1时序卷积向量进行时序卷积处理,得到第2时序卷积向量;
对所述第i时序卷积向量进行池化处理,得到第i中间特征向量;
对第i中间特征向量进行时序卷积处理,得到第i+1时序卷积向量;
对第i+1时序卷积向量进行池化处理,得到第i+1中间特征向量,其中,i为依次取自2至n-1的正整数,直至得到第n中间特征量;
将第n中间特征向量确定为第一特征向量。
其中,时序卷积处理可以是指对特征图进行带时序信息的卷积处理,例如,可以通过带时序信息的卷积层对特征图进行卷积处理。这样,能够联系多张图片,处理图片之间的时序信息。时序卷积向量包含了时间维度,因此需要将池化层进行封装,以使能对时序卷积向量进行池化处理。
下面以n=3为例,对所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取,得到第一特征向量的步骤进行简单介绍。
相应地,所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取,得到第一特征向量,包括:
分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理,得到第1时序卷积向量;
对所述第1时序卷积向量进行时序卷积处理,得到第2时序卷积向量;
对所述第2时序卷积向量进行池化处理,得到第2中间特征向量;
对第2中间特征向量进行时序卷积处理,得到第3时序卷积向量;
对第3时序卷积向量进行池化处理,得到第3中间特征向量;
将第3中间特征向量确定为第一特征向量。
在一种可选的实施方式中,分别对帧图像和光流图像的特征图进行时空卷积处理通过神经网络实现,所述方法还包括:根据训练集训练所述神经网络。
本公开可以采用例如UCF101数据集,其拥有来自101个动作类别的13320个视频,在动作方面具有最大的多样性,并且在摄像机运动、物体外观和姿势、物体比例、视点、杂乱的背景、照明条件等方面存在很大的差异。101个动作类别的视频分为25个组,每个组可以包含4至7个动作的 视频。来自同一组的视频可能具有一些共同的特征,例如相似的背景、相似的视点等。动作类别可以分为五种类型:1)人与物体的互动2)仅身体动作3)人与人的互动4)演奏乐器5)运动。
将UCF101数据集中的视频数据进行抽帧处理,包括:将每个视频片段分解成帧图像并将帧数保存在csv文件中;从分解后的帧图像中选取多个帧数大于N
1(例如40)且小于N2(例如900)的样本;将选取的样本的帧数平均分为4份;将每份样本按照一定间隔抽取帧,其中,间隔为视频片段的总帧数除以N
1(例如40,按照舍掉余数的方法),得到N
1帧(例如40)大小为[320,240,3]的图像。这种方式的采样片段只包含一小部分帧,与使用密集采样帧的方法相比,这种方法大大降低计算开销。同样,UCF101数据集中的视频数据在抽帧后,采用上述提取光流的方式提取光流,得到神经网络所需要的数据集。数据集按照ucfTrainTestlist分为训练集Train和测试集Test。通过训练集对神经网络进行训练,训练后的神经网络作为获取视频片段的时间预测结果和空间预测结果的预测模型。例如,将帧图像和光流图像的特征图输入训练后的神经网络中进行处理,训练后的神经网络输出每个视频片段的空间预测结果(即空间流的类别概率分布)和时间预测结果(即时间流的类别概率分布)。
在一种可选的实施方式中,如图3所示,神经网络包括:n个Block块(图3中的net Block)、Reshape层(图3中的Reshape Layer)、LIF层(图3中的LIF Layer)、全连接层(图3中的FC Layer)和Softmax层(图3中的Softmax Layer)。其中,Block块包括级联的ConvLIF层(图3中的ConvLIF2D Layer)和池化层(图3中的Time Distribution MaxPooling2D Layer)。n为正整数,且n≥1,当n>1时,n个Block块级联。
在一种可选的实施方式中,通过神经网络分别对每个视频片段的帧图像和光流图像的特征图进行时空卷积处理,包括:
通过n个Block块对每个视频片段的帧图像和光流图像进行n次时序特征提取,得到第一特征向量;
通过Reshape层对第一特征向量进行矩阵变换处理,得到第二特征向量;
通过LIF层和全连接层对第二特征向量进行时序全连接处理,得到第三特征向量;
根据第三特征向量,通过Softmax层确定每个视频片段的空间预测结果和时间预测结果。
在本公开中,对n的具体数值不做特殊的限定。例如,在一种可选的实施方式中,n=1,通过n个Block块对每个视频片段的帧图像和光流图像进行至少一次时序特征提取,得到第一特征向量,包括:
通过ConvLIF层分别对帧图像和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量;
通过池化层对第一时序卷积向量进行池化处理,得到第一中间特征向量;
将第一中间特征向量确定为第一特征向量。
作为另一种实施方式,n=2,相应地,通过所述n个Block块对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取,得到第一特征向量,包括:
通过所述ConvLIF层分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量;
通过所述池化层对所述第一时序卷积向量进行池化处理,得到第一中间特征向量;
通过ConvLIF层对所述第一中间特征向量进行时序卷积处理,得到第二时序卷积向量,通过池化层对所述第二时序卷积向量进行池化处理,得到第二中间特征向量;
将所述第二中间特征向量作为所述第一特征向量。
作为另一种可选实施方式,当n>2时,通过所述n个Block块对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取,得到第一特征向量,包括:
通过所述ConvLIF层分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理,得到第1时序卷积向量;
通过所述池化层对所述第1时序卷积向量进行池化处理,得到第1中间特征向量;
通过所述池化层对所述第1时序卷积向量进行时序卷积处理,得到第2时序卷积向量;
通过所述ConvLIF层对所述第i时序卷积向量进行池化处理,得到i中间特征向量;
通过所述池化层对第i中间特征向量进行时序卷积处理,得到第i+1时序卷积向量;
通过所述ConvLIF层对第i+1时序卷积向量进行池化处理,得到第i+1中间特征向量,其中,i为依次取自2至n-1的正整数,直至得到第n中间特征量;
将第n中间特征向量确定为第一特征向量。
举例来说,包括三个Block块,在进行三次时序特征提取时,可以通过第一个Block块的ConvLIF层分别对帧图像和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量,并通过第一个Block块的池化层对第一时序卷积向量进行池化处理,得到第一中间特征向量。通过第2个Block块的ConvLIF层对所述第一中间特征向量进行时序卷积处理,得到第2时序卷积向量,通过第2个Block块的池化层对所述第二时序卷积向量进行池化处理,得到第二中间特征向量,通过第3个Block块的ConvLIF层对所述第2中间特征向量进行时序卷积处理,得到第3时序卷积向量,通过第3个Block块的池化层对所述第3时序卷积向量进行池化处理,得到第3中间特征向量,将第3中间特征向量确定为第一特征向量。本公开对Block块的数量不做限制。
在一种可选的实施方式中,Block块还包括:级联于ConvLIF层和池化层之间的BN(Batch Normalization)层,通过所述BN层对所述时序卷积向量进行标准化处理,并将标准化处理后的时序卷积向量进行池化处理。
具体地,当n=1或n=2时,通过所述池化层对所述第一时序卷积向量进行池化处理,得到第一中间特征向量,包括:
通过所述BN层对所述第一时序卷积向量进行标准化处理;
利用池化层将标准化处理后的第一时序卷积向量进行池化处理;
当n=2时,通过池化层对所述第二时序卷积向量进行池化处理,得到第二中间特征向量,包括:
通过所述BN层对所述第二时序卷积向量进行标准化处理;
利用池化层将标准化处理后的第二时序卷积向量进行池化处理;
当n>2时,通过所述池化层对所述第1时序卷积向量进行时序卷积处理,得到第2时序卷积向量,包括:
通过所述BN层对所述第1时序卷积向量进行标准化处理;
利用池化层将标准化处理后的第1时序卷积向量进行池化处理,以得到第2时序卷积向量;
当n>2时,通过所述池化层对第i中间特征向量进行时序卷积处理,得到第i+1时序卷积向量,包括:
通过所述BN层对所述第i时序卷积向量进行标准化处理;
利用池化层将标准化处理后的第i时序卷积向量进行池化处理,以得到第i+1时序卷积向量。
由于Block块输出数据的维度不适用于作为LIF层的输入,可以加入Reshape层对Block块的输出数据进行处理,将数据的维度展开后作为LIF层的输入。例如,Block块的输出shape为(10,2,2,1024),加入reshape层,对输出数据进行处理,将后面三个维度直接展开,得到shape为(10,4096)的数据。级联于ConvLIF层和池化层之间的BN(Batch Normalization)层,对数据进行批量标准化,可以加速网络收敛速度,提升训练的稳定性。
在一种可选的实施方式中,全连接层采用FC全连接层,池化层采用MaxPooling池化层。
在一种可选的实施方式中,如图4所示,LIF层用于:
在一种可选的实施方式中,如图3所示,ConvLIF层用于:
在一种可选的实施方式中,根据t时刻的膜电位值和发射阈值V
th,确定时刻t的输出值,包括:
在一种可选的实施方式中,由于ConvLIF层比Conv层多出时间维度,故在ConvLIF与池化层连接时,需要将池化层封装起来,使其能够处理ConvLIF的输出结果。例如,采用TimeDistribution 层将池化层MaxPooling2D进行封装,使MaxPooling2D层能处理ConvLIF的输出结果。
本公开所述的神经网络使用ANN和SNN融合的网络,即ConvLIF层和LIF层与归一化层和池化层的融合。其中LIF层是带有时序的全连接层,可以处理带有时序的信息,其作用类似于ANN中的LSTM,但权重量明显低于LSTM(本公开的卷积网络的LIF的计算量只有LSTM的四分之一,只有GRU的三分之一),大大降低了计算量,降低对计算设备的要求,也相应减小了网络的大小,减少了存储空间。ConvLIF层是带有时序信息的卷积层,可以处理带有时序的卷积,在ANN的卷积中,只能处理一张图片,且与前后的图片都没有关联,而ConvLIF层则一次可以处理多张图片,即可以做到ANN中的卷积效果,还可以联系多张图片,处理图片之间的时序信息,另外ConvLIF层的权重量也明显低于Conv3D层(本公开的卷积网络的ConvLIF2D层的权重量和计算量只有Conv3D层的二分之一),进一步降低了计算量,降低对计算设备的要求,也减小了网络的大小,减少了存储空间。
S4,对所有视频片段的空间预测结果进行融合,得到空间融合结果,并对所有视频片段的时间预测结果进行融合,得到时间融合结果。
在一种可选的实施方式中,对所有视频片段的空间预测结果和所有视频片段的时间预测结果进行融合时,对所有视频片段的空间预测结果采用直接平均、线性加权、直接取最大值和TOP-K加权中的一种,对所有视频片段的时间预测结果采用直接平均、线性加权、直接取最大值和TOP-K加权中的一种。在一种可选的实施方式中,空间预测结果和时间预测结果均采用直接平均的融合方法,这种融合方法可以联合建模多个视频片段,并从整个视频中捕获视觉信息,提高识别效果。本公开的行为识别方法对空间预测结果和时间预测结果的融合方法不作限制。
S5,对空间融合结果和时间融合结果进行双流融合,得到行为识别结果。
在一种可选的实施方式中,空间融合结果和时间融合结果采用加权融合进行双流融合,例如设置空间流融合结果的权重为0.6,时间流融合结果的权重为0.4。本公开的行为识别方法对双流融合的方法不作限制。
本公开实施方式所述的一种行为识别系统,采用前述的行为识别方法,如图5所示,所述行为识别系统包括数据预处理模块510、特征提取模块520、网络识别模块530、网络融合模块540、双流融合模块550。
数据预处理模块510用于将视频数据截取成多个视频片段,对每个视频片段抽帧处理,得到多个帧图像,并对每个视频片段的多个所述帧图像提取光流,分别得到每个视频片段的多个光流图像。
在一种可选的实施方式中,数据预处理模块510将视频数据均分成N个视频片段。例如,平均分为4段。
在一种可选的实施方式中,数据预处理模块510对每个视频片段抽帧处理时,包括:将每个视频片段按照一定间隔抽取帧,其中,间隔为视频片段的总帧数除以N
1(例如40,40,按照舍掉余数的方法),得到N
1(例如40)帧大小为[320,240,3]的图像。这种方式的采样片段只包含一小部分帧,与使用密集采样帧的方法相比,这种方法大大降低计算开销。本公开对N
1的取值不做限制。
在一种可选的实施方式中,数据预处理模块510对抽帧后的帧图像提取光流,包括:对抽取出的N
1(例如40)帧图像,将后一帧与前一帧提取光流计算得到N
1-1(例如39)个光流;复制第二 帧与第一帧的光流作为第一个光流,与N
1-1(例如39)个光流合并为N
1(例如40)个光流。在一种可选的实施方式中,在计算光流时,采用Brox算法。
特征提取模块520用于分别对每个视频片段的帧图像的特征图和光流图像进行特征提取,得到每个视频片段的帧图像和光流图像的特征图。
在一种可选的实施方式中,特征提取模块520采用ImageNet训练的Inception V3模型对帧图像和光流图像进行图像分类,提取图像特征,得到每个视频片段的帧图像的特征图和光流图像的特征图。
网络识别模块530用于分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时空卷积处理,确定每个视频片段的空间预测结果(即空间流的类别概率分布)和时间预测结果(即时间流的类别概率分布)。
在一种可选的实施方式中,网络识别模块530在分别对帧图像和光流图像的特征图进行时空卷积处理,确定每个视频片段的空间预测结果和时间预测结果时,包括:
分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取,得到第一特征向量,其中,n≥1,且n为正整数;
对第一特征向量进行矩阵变换处理,得到第二特征向量;
对第二特征向量进行时序全连接处理,得到第三特征向量;
根据第三特征向量,确定每个视频片段的空间预测结果和时间预测结果。
其中,时序特征提取可以是指对特征图进行带时序的特征提取处理。矩阵变换处理是指将一个矩阵后几个维度展开的过程。时序全连接处理是指带时序处理的全连接处理。这样,一次可以处理多张图片,不仅可以保证特征提取效果,还可以联系多张图片,处理图片之间的时序信息,从而提高识别准确率。
在一种可选的实施方式中,n=1,网络识别模块530在分别对帧图像和光流图像的特征图进行n次时序特征提取,得到第一特征向量时,包括:
分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量;
对第一时序卷积向量进行池化处理,得到第一中间特征向量;
将所述第一中间特征向量确定为第一特征向量。
当n=2时,所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取,得到第一特征向量,包括:
分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量;
对第一时序卷积向量进行时序卷积处理,得到第二时序卷积向量;
对所述第二时序卷积向量进行池化处理,得到第二中间特征向量;
将所述第二中间特征向量确定为所述第一特征向量;
当n>2时,所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取,得到第一特征向量,包括:
分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理,得到第1时序卷积向量;
对所述第1时序卷积向量进行时序卷积处理,得到第2时序卷积向量;
对所述第i时序卷积向量进行池化处理,得到第i中间特征向量;
对第i中间特征向量进行时序卷积处理,得到第i+1时序卷积向量;
对第i+1时序卷积向量进行池化处理,得到第i+1中间特征向量,其中,i为依次取自2至n-1的正整数,直至得到第n中间特征量;
将第n中间特征向量确定为第一特征向量。
其中,时序卷积处理可以是指对特征图进行带时序信息的卷积处理,例如,可以通过带时序信息的卷积层对特征图进行卷积处理。这样,能够联系多张图片,处理图片之间的时序信息。时序卷积向量包含了时间维度,因此需要将池化层进行封装,以使能对时序卷积向量进行池化处理。
所述数据预处理模块对每个视频片段抽帧处理,包括:将所述每个视频片段按照一定间隔抽取帧,得到N
1帧图像,其中,间隔为视频片段的总帧数除以N
1,N
1为大于1的整数。
所述数据预处理模块对每个所述视频片段的多个抽帧后的帧图像提取光流,包括:
对抽取出的N
1帧图像,分别根据两两相邻的两帧图像提取光流计算得到N
1-1个光流;
复制第二帧与第一帧的光流作为第一个光流,与所述N
1-1个光流合并为N
1个光流。
在一种可选的实施方式中,网络识别模块530分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时空卷积处理通过神经网络实现,所述系统还包括:根据训练集训练所述神经网络。
本公开可以采用例如UCF101数据集,其拥有来自101个动作类别的13320个视频,在动作方面具有最大的多样性,并且在摄像机运动,物体外观和姿势,物体比例,视点,杂乱的背景,照明条件等方面存在很大的差异。101个动作类别的视频分为25个组,每个组可以包含4-7个动作的视频。来自同一组的视频可能具有一些共同的特征,例如相似的背景,相似的视点等。动作类别可以分为五种类型:1)人与物体的互动2)仅身体动作3)人与人的互动4)演奏乐器5)运动。
将UCF101数据集中的视频数据进行抽帧处理,包括:将每个视频片段分解成帧图像并将帧数保存在csv文件中;从分解后的帧图像中选取多个帧数大于N
1(例如40)且小于N
2(例如900)的样本;将选取的样本的帧数平均分为4份;将每份样本按照一定间隔抽取帧,其中,间隔为视频片段的总帧数除以N
1(例如40,按照舍掉余数的方法),得到N
1帧(例如40)大小为[320,240,3]的图像。这种方式的采样片段只包含一小部分帧,与使用密集采样帧的方法相比,这种方法大大降低计算开销。同样,UCF101数据集中的视频数据在抽帧后,采用上述提取光流的方式提取光流,得到神经网络所需要的数据集。数据集按照ucfTrainTestlist分为训练集Train和测试集Test。通过训练集对神经网络进行训练,训练后的神经网络作为获取视频片段的时间预测结果和空间预测结果的预测模型。例如,将帧图像和光流图像的特征图输入训练后的神经网络中进行处理,训练后的神经网络输出每个视频片段的空间预测结果(即空间流的类别概率分布)和时间预测结果(即时间流的类别概率分布)。
在一种可选的实施方式中,如图3所示,神经网络包括:n个Block块、Reshape层、LIF层、全连接层和Softmax层;其中,Block块包括:级联的ConvLIF层和池化层。n为正整数,且n≥1, 当n>1时,n个Block块级联。
在一种可选的实施方式中,通过神经网络分别对每个视频片段的帧图像和光流图像的特征图进行时空卷积处理,包括:
通过n个Block块对每个视频片段的帧图像和光流图像进行n次时序特征提取,得到第一特征向量;
通过Reshape层对第一特征向量进行矩阵变换处理,得到第二特征向量;
通过LIF层和全连接层对第二特征向量进行时序全连接处理,得到第三特征向量;
根据第三特征向量,通过Softmax层确定每个视频片段的空间预测结果和时间预测结果。
在一种可选的实施方式中,当n=1时,通过n个Block块对每个视频片段的帧图像和光流图像进行n次时序特征提取,得到第一特征向量,包括:
通过ConvLIF层分别对帧图像和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量;
通过池化层对第一时序卷积向量进行池化处理,得到第一中间特征向量;
将第一中间特征向量确定为第一特征向量。
当n=2时,通过所述n个Block块对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取,得到第一特征向量,包括:
通过所述ConvLIF层分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量;
通过所述池化层对所述第一时序卷积向量进行池化处理,得到第一中间特征向量;
通过ConvLIF层对所述第一中间特征向量进行时序卷积处理,得到第二时序卷积向量,通过池化层对所述第二时序卷积向量进行池化处理,得到第二中间特征向量;
将所述第二中间特征向量作为所述第一特征向量;
当n>2时,通过所述n个Block块对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取,得到第一特征向量,包括:
通过所述ConvLIF层分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理,得到第1时序卷积向量;
通过所述池化层对所述第1时序卷积向量进行池化处理,得到第1中间特征向量;
通过所述池化层对所述第1时序卷积向量进行时序卷积处理,得到第2时序卷积向量;
通过所述ConvLIF层对所述第i时序卷积向量进行池化处理,得到i中间特征向量;
通过所述池化层对第i中间特征向量进行时序卷积处理,得到第i+1时序卷积向量;
通过所述ConvLIF层对第i+1时序卷积向量进行池化处理,得到第i+1中间特征向量,其中,i为依次取自2至n-1的正整数,直至得到第n中间特征量;
将第n中间特征向量确定为第一特征向量。
举例来说,包括两个Block块,在进行两次时序特征提取时,可以通过第一个Block块的ConvLIF层分别对帧图像和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量,并通过第一个Block块的池化层对第一时序卷积向量进行池化处理,得到第一中间特征向量。通过第二个Block块的ConvLIF层对所述第一中间特征向量进行时序卷积处理,得到第二时序卷积向量,通过第二个 Block块的池化层对所述第二时序卷积向量进行池化处理,得到第二中间特征向量,将第二中间特征向量确定为第一特征向量。
在一种可选的实施方式中,Block块还包括:级联于ConvLIF层和池化层之间的BN(Batch Normalization)层,通过所述BN层对所述时序卷积向量进行标准化处理,并将标准化处理后的时序卷积向量进行池化处理。
具体地,当n=1或n=2时,通过所述池化层对所述第一时序卷积向量进行池化处理,得到第一中间特征向量,包括:
通过所述BN层对所述第一时序卷积向量进行标准化处理;
利用池化层将标准化处理后的第一时序卷积向量进行池化处理;
当n=2时,通过池化层对所述第二时序卷积向量进行池化处理,得到第二中间特征向量,包括:
通过所述BN层对所述第二时序卷积向量进行标准化处理;
利用池化层将标准化处理后的第二时序卷积向量进行池化处理;
当n>2时,通过所述池化层对所述第1时序卷积向量进行时序卷积处理,得到第2时序卷积向量,包括:
通过所述BN层对所述第1时序卷积向量进行标准化处理;
利用池化层将标准化处理后的第1时序卷积向量进行池化处理,以得到第2时序卷积向量;
当n>2时,通过所述池化层对第i中间特征向量进行时序卷积处理,得到第i+1时序卷积向量,包括:
通过所述BN层对所述第i时序卷积向量进行标准化处理;
利用池化层将标准化处理后的第i时序卷积向量进行池化处理,以得到第i+1时序卷积向量。
由于Block块输出数据的维度不适用于作为LIF层的输入,加入Reshape层对Block块的输出数据进行处理,将数据的维度展开后作为LIF层的输入。例如,Block块的输出shape为(10,2,2,1024),加入reshape层,对输出数据进行处理,将后面三个维度直接展开,得到shape为(10,4096)的数据。级联于ConvLIF层和池化层之间的BN(Batch Normalization)层,对数据进行批量标准化,可以加速网络收敛速度,提升训练的稳定性。
在一种可选的实施方式中,全连接层采用FC全连接层,池化层采用MaxPooling池化层。
在一种可选的实施方式中,如图4所示,LIF层用于:
在一种可选的实施方式中,如图4所示,ConvLIF层用于:
在一种可选的实施方式中,根据t时刻的膜电位值和发射阈值V
th,确定时刻t的输出值,包括:
在一种可选的实施方式中,由于ConvLIF层比Conv层多出时间维度,故在ConvLIF与池化层连接时,需要将池化层封装起来,使其能够处理ConvLIF的输出结果。例如,采用TimeDistribution层将池化层MaxPooling2D进行封装,使MaxPooling2D层能处理ConvLIF的输出结果。
网络融合模块540其用于对所有视频片段的空间预测结果进行融合,得到空间融合结果,并对所有视频片段的时间预测结果进行融合,得到时间融合结果。
在一种可选的实施方式中,对所有视频片段的空间预测结果和所有视频片段的时间预测结果进行融合时,对所有视频片段的空间预测结果采用直接平均、线性加权、直接取最大值和TOP-K加权中的一种,对所有视频片段的时间预测结果采用直接平均、线性加权、直接取最大值和TOP-K加权中的一种。在一种可选的实施方式中,空间预测结果和时间预测结果均采用直接平均的融合方法,这种融合方法可以联合建模多个视频片段,并从整个视频中捕获视觉信息,提高识别效果。本公开的行为识别系统对空间预测结果和时间预测结果的融合方法不作限制。
双流融合模块550用于空间融合结果和时间融合结果进行双流融合,得到行为识别结果。
在一种可选的实施方式中,空间融合结果和时间融合结果采用加权融合进行双流融合,例如设置空间流融合结果的权重为0.6,时间流融合结果的权重为0.4。本公开的行为识别系统对双流融合的方法不作限制。
本公开还涉及一种电子设备,包括服务器、终端等。该电子设备包括:至少一个处理器;与至少一个处理器通信连接的存储器;以及与存储介质通信连接的通信组件,所述通信组件在处理器的控制下接收和发送数据;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行以实现上述实施例中的行为识别方法。
在一种可选的实施方式中,存储器作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器通过运行存储在存储器中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述行为识别方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储选项列表等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器中,当被一个或者多个处理器执行时,执行上述任意方法实施例中的行为识别方法。
上述产品可执行本申请实施例所提供的行为识别方法,具备执行方法相应的功能模块和有益效果,未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的行为识别方法。
本公开还涉及一种计算机可读存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的行为识别方法的实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本公开的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
此外,本领域普通技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本领域技术人员应理解,尽管已经参考示例性实施例描述了本公开,但是在不脱离本公开的范围的情况下,可进行各种改变并可用等同物替换其元件。另外,在不脱离本公开的实质范围的情况下,可进行许多修改以使特定情况或材料适应本公开的教导。因此,本公开不限于所公开的特定实施例,而是本公开将包括落入所附权利要求范围内的所有实施例。
Claims (34)
- 一种行为识别方法,其特征在于,包括:将视频数据截取成多个视频片段,对每个视频片段抽帧处理,得到多个帧图像,并对每个视频片段抽帧后得到的多个所述帧图像提取光流,得到每个视频片段的光流图像;分别对每个视频片段的帧图像和光流图像进行特征提取,得到每个视频片段的帧图像的特征图和光流图像的特征图;分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时空卷积处理,确定每个视频片段的空间预测结果和时间预测结果;对所有视频片段的空间预测结果进行融合,得到空间融合结果,并对所有视频片段的时间预测结果进行融合,得到时间融合结果;对所述空间融合结果和所述时间融合结果进行双流融合,得到行为识别结果。
- 根据权利要求1所述的行为识别方法,其特征在于,所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时空卷积处理,确定每个视频片段的空间预测结果和时间预测结果,包括:分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取,得到第一特征向量,其中,n其中,n为正整数;对所述第一特征向量进行矩阵变换处理,得到第二特征向量;对所述第二特征向量进行时序全连接处理,得到第三特征向量;根据所述第三特征向量,确定每个视频片段的空间预测结果和时间预测结果。
- 根据权利要求2所述的行为识别方法,其特征在于,当n=1时,所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取,得到第一特征向量,包括:分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量;对所述第一时序卷积向量进行池化处理,得到第一中间特征向量;将所述第一中间特征向量确定为第一特征向量;当n=2时,所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取,得到第一特征向量,包括:分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量;对第一时序卷积向量进行时序卷积处理,得到第二时序卷积向量;对所述第二时序卷积向量进行池化处理,得到第二中间特征向量;将所述第二中间特征向量确定为所述第一特征向量;当n>2时,所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取,得到第一特征向量,包括:分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理,得到第1时序 卷积向量;对所述第1时序卷积向量进行时序卷积处理,得到第2时序卷积向量;对所述第i时序卷积向量进行池化处理,得到第i中间特征向量;对第i中间特征向量进行时序卷积处理,得到第i+1时序卷积向量;对第i+1时序卷积向量进行池化处理,得到第i+1中间特征向量,其中,i为依次取自2至n-1的正整数,直至得到第n中间特征量;将第n中间特征向量确定为第一特征向量。
- 根据权利要求1所述的行为识别方法,其特征在于,所述对每个视频片段抽帧处理,包括:将所述每个视频片段按照一定间隔抽取帧,得到N 1帧图像,其中,间隔为每个视频片段的总帧数除以N 1,N 1为大于1的整数。
- 根据权利要求4所述的行为识别方法,其特征在于,对每个所述视频片段的多个所述帧图像提取光流,包括:对抽取出的N 1帧图像,分别根据两两相邻的两帧图像提取光流计算得到N 1-1个光流;复制第二帧与第一帧的光流作为第一个光流,与所述N 1-1个光流合并为N 1个光流。
- 根据权利要求1-5中任意一项所述的行为识别方法,其特征在于,所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时空卷积处理通过神经网络实现,所述方法还包括:根据训练集训练所述神经网络。
- 根据权利要求6所述的行为识别方法,其特征在于,所述神经网络包括:n个Block块、Reshape层、LIF层、全连接层和Softmax层;其中,所述Block块包括级联的ConvLIF层和池化层,n为正整数,且n≥1,当n>1时,n个Block块级联。
- 根据权利要求7所述的行为识别方法,其特征在于,通过所述神经网络分别对每个视频片段的帧图像和光流图像的特征图进行时空卷积处理,包括:通过所述n个Block块对每个视频片段的帧图像和光流图像进行n次时序特征提取,得到第一特征向量;通过所述Reshape层对所述第一特征向量进行矩阵变换处理,得到第二特征向量;通过LIF层和所述全连接层对所述第二特征向量进行时序全连接处理,得到第三特征向量;根据所述第三特征向量,通过所述Softmax层确定每个视频片段的空间预测结果和时间预测结果。
- 根据权利要求8所述的行为识别方法,其特征在于,当n=1时,通过所述n个Block块对每个视频片段的帧图像和光流图像进行n次时序特征提取,得到第一特征向量,包括:通过所述ConvLIF层分别对帧图像和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量;通过所述池化层对所述第一时序卷积向量进行池化处理,得到第一中间特征向量;将所述第一中间特征向量确定为第一特征向量;当n=2时,通过所述n个Block块对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取,得到第一特征向量,包括:通过所述ConvLIF层分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量;通过所述池化层对所述第一时序卷积向量进行池化处理,得到第一中间特征向量;通过ConvLIF层对所述第一中间特征向量进行时序卷积处理,得到第二时序卷积向量,通过池化层对所述第二时序卷积向量进行池化处理,得到第二中间特征向量;将所述第二中间特征向量作为所述第一特征向量;当n>2时,通过所述n个Block块对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取,得到第一特征向量,包括:通过所述ConvLIF层分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理,得到第1时序卷积向量;通过所述池化层对所述第1时序卷积向量进行池化处理,得到第1中间特征向量;通过所述池化层对所述第1时序卷积向量进行时序卷积处理,得到第2时序卷积向量;通过所述ConvLIF层对所述第i时序卷积向量进行池化处理,得到i中间特征向量;通过所述池化层对第i中间特征向量进行时序卷积处理,得到第i+1时序卷积向量;通过所述ConvLIF层对第i+1时序卷积向量进行池化处理,得到第i+1中间特征向量,其中,i为依次取自2至n-1的正整数,直至得到第n中间特征量;将第n中间特征向量确定为第一特征向量。
- 根据权利要求9所述的行为识别方法,其特征在于,所述Block块还包括级联于ConvLIF层和池化层之间的BN层,当n=1或n=2时,通过所述池化层对所述第一时序卷积向量进行池化处理,得到第一中间特征向量,包括:通过所述BN层对所述第一时序卷积向量进行标准化处理;利用池化层将标准化处理后的第一时序卷积向量进行池化处理;当n=2时,通过池化层对所述第二时序卷积向量进行池化处理,得到第二中间特征向量,包括:通过所述BN层对所述第二时序卷积向量进行标准化处理;利用池化层将标准化处理后的第二时序卷积向量进行池化处理;当n>2时,通过所述池化层对所述第1时序卷积向量进行时序卷积处理,得到第2时序卷积向量,包括:通过所述BN层对所述第1时序卷积向量进行标准化处理;利用池化层将标准化处理后的第1时序卷积向量进行池化处理,以得到第2时序卷积向量;当n>2时,通过所述池化层对第i中间特征向量进行时序卷积处理,得到第i+1时序卷积向量,包括:通过所述BN层对所述第i时序卷积向量进行标准化处理;利用池化层将标准化处理后的第i时序卷积向量进行池化处理,以得到第i+1时序卷积向量。
- 根据权利要求1至5中任意一项所述的行为识别方法,其特征在于,对所有视频片段的空间预测结果和所有视频片段的时间预测结果进行融合时,对所有视频片段的预测结果采用直接平均、线性加权、直接取最大值和TOP-K加权中的一种。
- 根据权利要求1至5中任意一项所述的行为识别方法,其特征在于,所述空间融合结果和所述时间融合结果在双流融合时,将所述空间融合结果和所述时间融合结果采用加权融合。
- 一种行为识别系统,其特征在于,采用如权利要求1-16中任意一项所述的行为识别方法,包括:数据预处理模块,其用于将视频数据截取成多个视频片段,对每个视频片段抽帧处理,得到多个帧图像,并对每个视频片段的多个所述帧图像提取光流,分别得到每个视频片段的多个光流图像;特征提取模块,其用于分别对每个视频片段的帧图像和光流图像进行图像特征提取,得到每个视频片段的帧图像的特征图和光流图像的特征图;网络识别模块,其分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时空卷积处理,确定每个视频片段的空间预测结果和时间预测结果;网络融合模块,其对所有视频片段的空间预测结果进行融合,得到空间融合结果,并对所有视频片段的时间预测结果进行融合,得到时间融合结果;双流融合模块,其用于对所述空间融合结果和所述时间融合结果进行双流融合,得到行为识别结果。
- 根据权利要求17所述的行为识别系统,其特征在于,所述网络识别模块分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时空卷积处理,确定每个视频片段的空间预测结果和时间预测结果,包括:分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取,得到第一特征向量,其中,n其中,且n为正整数;对所述第一特征向量进行矩阵变换处理,得到第二特征向量;对所述第二特征向量进行时序全连接处理,得到第三特征向量;根据所述第三特征向量,确定每个视频片段的空间预测结果和时间预测结果。
- 根据权利要求18所述的行为识别系统,其特征在于,当n=1时,所述网络识别模块分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取,得到第一特征向量,包括:分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量;对所述第一时序卷积向量进行池化处理,得到第一中间特征向量;将所述第一中间特征向量确定为第一特征向量;当n=2时,所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取,得到第一特征向量,包括:分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量;对第一时序卷积向量进行时序卷积处理,得到第二时序卷积向量;对所述第二时序卷积向量进行池化处理,得到第二中间特征向量;将所述第二中间特征向量确定为所述第一特征向量;当n>2时,所述分别对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取,得到第一特征向量,包括:分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理,得到第1时序卷积向量;对所述第1时序卷积向量进行时序卷积处理,得到第2时序卷积向量;对所述第i时序卷积向量进行池化处理,得到第i中间特征向量;对第i中间特征向量进行时序卷积处理,得到第i+1时序卷积向量;对第i+1时序卷积向量进行池化处理,得到第i+1中间特征向量,其中,i为依次取自2至n-1的正整数,直至得到第n中间特征量;将第n中间特征向量确定为第一特征向量。
- 根据权利要求17所述的行为识别系统,其特征在于,所述数据预处理模块对每个视频片段抽帧处理,包括:将所述每个视频片段按照一定间隔抽取帧,得到N 1帧图像,其中,间隔为视频 片段的总帧数除以N 1,N 1为大于1的整数。
- 根据权利要求20所述的行为识别系统,其特征在于,所述数据预处理模块对每个所述视频片段的多个抽帧后的帧图像提取光流,包括:对抽取出的N 1帧图像,分别根据两两相邻的两帧图像提取光流计算得到N 1-1个光流;复制第二帧与第一帧的光流作为第一个光流,与所述N 1-1个光流合并为N 1个光流。
- 根据权利要求17-21中任意一项所述的行为识别系统,其特征在于,所述网络识别模块分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时空卷积处理通过神经网络实现,所述系统还包括:根据训练集训练所述神经网络。
- 根据权利要求22所述的行为识别系统,其特征在于,所述神经网络包括:n个Block块、Reshape层、LIF层、全连接层和Softmax层;其中,所述Block块包括级联的ConvLIF层和池化层,n为正整数,且n≥1,当n>1时,n个Block块级联。
- 根据权利要求23所述的行为识别系统,其特征在于,通过所述神经网络分别对每个视频片段的帧图像和光流图像的特征图进行时空卷积处理,包括:通过所述n个Block块对每个视频片段的帧图像和光流图像进行n次时序特征提取,得到第一特征向量;通过所述Reshape层对所述第一特征向量进行矩阵变换处理,得到第二特征向量;通过LIF层和所述全连接层对所述第二特征向量进行时序全连接处理,得到第三特征向量;根据所述第三特征向量,通过所述Softmax层确定每个视频片段的空间预测结果和时间预测结果。
- 根据权利要求24所述的行为识别系统,其特征在于,当n=1时,通过所述n个Block块对每个视频片段的帧图像和光流图像进行n次时序特征提取,得到第一特征向量,包括:通过所述ConvLIF层分别对帧图像和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量;通过所述池化层对所述第一时序卷积向量进行池化处理,得到第一中间特征向量;将所述第一中间特征向量确定为第一特征向量;当n=2时,通过所述n个Block块对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取,得到第一特征向量,包括:通过所述ConvLIF层分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷积处理,得到第一时序卷积向量;通过所述池化层对所述第一时序卷积向量进行池化处理,得到第一中间特征向量;通过ConvLIF层对所述第一中间特征向量进行时序卷积处理,得到第二时序卷积向量,通过池化层对所述第二时序卷积向量进行池化处理,得到第二中间特征向量;将所述第二中间特征向量作为所述第一特征向量;当n>2时,通过所述n个Block块对每个视频片段的帧图像的特征图和光流图像的特征图进行n次时序特征提取,得到第一特征向量,包括:通过所述ConvLIF层分别对每个视频片段的帧图像的特征图和光流图像的特征图进行时序卷 积处理,得到第1时序卷积向量;通过所述池化层对所述第1时序卷积向量进行池化处理,得到第1中间特征向量;通过所述池化层对所述第1时序卷积向量进行时序卷积处理,得到第2时序卷积向量;通过所述ConvLIF层对所述第i时序卷积向量进行池化处理,得到i中间特征向量;通过所述池化层对第i中间特征向量进行时序卷积处理,得到第i+1时序卷积向量;通过所述ConvLIF层对第i+1时序卷积向量进行池化处理,得到第i+1中间特征向量,其中,i为依次取自2至n-1的正整数,直至得到第n中间特征量;将第n中间特征向量确定为第一特征向量。
- 根据权利要求25所述的行为识别系统,其特征在于,所述Block块还包括级联于ConvLIF层和池化层之间的BN层,当n=1或n=2时,通过所述池化层对所述第一时序卷积向量进行池化处理,得到第一中间特征向量,包括:通过所述BN层对所述第一时序卷积向量进行标准化处理;利用池化层将标准化处理后的第一时序卷积向量进行池化处理;当n=2时,通过池化层对所述第二时序卷积向量进行池化处理,得到第二中间特征向量,包括:通过所述BN层对所述第二时序卷积向量进行标准化处理;利用池化层将标准化处理后的第二时序卷积向量进行池化处理;当n>2时,通过所述池化层对所述第1时序卷积向量进行时序卷积处理,得到第2时序卷积向量,包括:通过所述BN层对所述第1时序卷积向量进行标准化处理;利用池化层将标准化处理后的第1时序卷积向量进行池化处理,以得到第2时序卷积向量;当n>2时,通过所述池化层对第i中间特征向量进行时序卷积处理,得到第i+1时序卷积向量,包括:通过所述BN层对所述第i时序卷积向量进行标准化处理;利用池化层将标准化处理后的第i时序卷积向量进行池化处理,以得到第i+1时序卷积向量。
- 根据权利要求17所述的行为识别系统,其特征在于,所述网络融合模块对所有视频片段的空间预测结果和所有视频片段的时间预测结果进行融合时,对所有视频片段的预测结果采用直接平均、线性加权、直接取最大值和TOP-K加权中的一种。
- 根据权利要求17所述的行为识别系统,其特征在于,所述双流融合模块对所述空间融合结果和所述时间融合结果进行双流融合时,将所述空间融合结果和所述时间融合结果采用加权融合。
- 一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被处理器执行以实现如权利要求1-16中任一项所述的行为识别方法。
- 一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行以实现如权利要求1-16中任一项所述的行为识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/790,694 US20230042187A1 (en) | 2020-03-09 | 2021-03-08 | Behavior recognition method and system, electronic device and computer-readable storage medium |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010157538.9A CN113378600B (zh) | 2020-03-09 | 2020-03-09 | 一种行为识别方法及系统 |
CN202010157538.9 | 2020-03-09 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021180030A1 true WO2021180030A1 (zh) | 2021-09-16 |
Family
ID=77568439
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2021/079530 WO2021180030A1 (zh) | 2020-03-09 | 2021-03-08 | 行为识别方法及系统、电子设备和计算机可读存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230042187A1 (zh) |
CN (1) | CN113378600B (zh) |
WO (1) | WO2021180030A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114339403A (zh) * | 2021-12-31 | 2022-04-12 | 西安交通大学 | 一种视频动作片段生成方法、系统、设备及可读存储介质 |
CN114842554A (zh) * | 2022-04-22 | 2022-08-02 | 北京昭衍新药研究中心股份有限公司 | 一种基于局部和全局时空特征的群体猴子动作识别方法 |
CN114973120A (zh) * | 2022-04-14 | 2022-08-30 | 山东大学 | 一种基于多维传感数据与监控视频多模异构融合的行为识别方法及系统 |
CN115862151A (zh) * | 2023-02-14 | 2023-03-28 | 福建中医药大学 | 基于游戏预测老年人反应能力的数据处理系统及方法 |
CN114677704B (zh) * | 2022-02-23 | 2024-03-26 | 西北大学 | 一种基于三维卷积的时空特征多层次融合的行为识别方法 |
CN114842554B (zh) * | 2022-04-22 | 2024-05-14 | 北京昭衍新药研究中心股份有限公司 | 一种基于局部和全局时空特征的群体猴子动作识别方法 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114332670A (zh) * | 2021-10-15 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 视频行为识别方法、装置、计算机设备和存储介质 |
CN115171221B (zh) * | 2022-09-06 | 2022-12-06 | 上海齐感电子信息科技有限公司 | 动作识别方法及动作识别系统 |
CN117523669A (zh) * | 2023-11-17 | 2024-02-06 | 中国科学院自动化研究所 | 手势识别方法、装置、电子设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108492319A (zh) * | 2018-03-09 | 2018-09-04 | 西安电子科技大学 | 基于深度全卷积神经网络的运动目标检测方法 |
CN109377555A (zh) * | 2018-11-14 | 2019-02-22 | 江苏科技大学 | 自主水下机器人前景视场三维重建目标特征提取识别方法 |
CN109711338A (zh) * | 2018-12-26 | 2019-05-03 | 上海交通大学 | 利用光流指导特征融合的物体实例分割方法 |
CN110826447A (zh) * | 2019-10-29 | 2020-02-21 | 北京工商大学 | 一种基于注意力机制的餐厅后厨人员行为识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170132785A1 (en) * | 2015-11-09 | 2017-05-11 | Xerox Corporation | Method and system for evaluating the quality of a surgical procedure from in-vivo video |
-
2020
- 2020-03-09 CN CN202010157538.9A patent/CN113378600B/zh active Active
-
2021
- 2021-03-08 US US17/790,694 patent/US20230042187A1/en active Pending
- 2021-03-08 WO PCT/CN2021/079530 patent/WO2021180030A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108492319A (zh) * | 2018-03-09 | 2018-09-04 | 西安电子科技大学 | 基于深度全卷积神经网络的运动目标检测方法 |
CN109377555A (zh) * | 2018-11-14 | 2019-02-22 | 江苏科技大学 | 自主水下机器人前景视场三维重建目标特征提取识别方法 |
CN109711338A (zh) * | 2018-12-26 | 2019-05-03 | 上海交通大学 | 利用光流指导特征融合的物体实例分割方法 |
CN110826447A (zh) * | 2019-10-29 | 2020-02-21 | 北京工商大学 | 一种基于注意力机制的餐厅后厨人员行为识别方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114339403A (zh) * | 2021-12-31 | 2022-04-12 | 西安交通大学 | 一种视频动作片段生成方法、系统、设备及可读存储介质 |
CN114339403B (zh) * | 2021-12-31 | 2023-03-28 | 西安交通大学 | 一种视频动作片段生成方法、系统、设备及可读存储介质 |
CN114677704B (zh) * | 2022-02-23 | 2024-03-26 | 西北大学 | 一种基于三维卷积的时空特征多层次融合的行为识别方法 |
CN114973120A (zh) * | 2022-04-14 | 2022-08-30 | 山东大学 | 一种基于多维传感数据与监控视频多模异构融合的行为识别方法及系统 |
CN114973120B (zh) * | 2022-04-14 | 2024-03-12 | 山东大学 | 一种基于多维传感数据与监控视频多模异构融合的行为识别方法及系统 |
CN114842554A (zh) * | 2022-04-22 | 2022-08-02 | 北京昭衍新药研究中心股份有限公司 | 一种基于局部和全局时空特征的群体猴子动作识别方法 |
CN114842554B (zh) * | 2022-04-22 | 2024-05-14 | 北京昭衍新药研究中心股份有限公司 | 一种基于局部和全局时空特征的群体猴子动作识别方法 |
CN115862151A (zh) * | 2023-02-14 | 2023-03-28 | 福建中医药大学 | 基于游戏预测老年人反应能力的数据处理系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
US20230042187A1 (en) | 2023-02-09 |
CN113378600B (zh) | 2023-12-29 |
CN113378600A (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021180030A1 (zh) | 行为识别方法及系统、电子设备和计算机可读存储介质 | |
Xiong et al. | From open set to closed set: Counting objects by spatial divide-and-conquer | |
Liu et al. | Teinet: Towards an efficient architecture for video recognition | |
Jia et al. | Segment, magnify and reiterate: Detecting camouflaged objects the hard way | |
Li et al. | Unsupervised learning of view-invariant action representations | |
Wan et al. | Residual regression with semantic prior for crowd counting | |
WO2022111506A1 (zh) | 视频动作识别方法、装置、电子设备和存储介质 | |
CN110555387B (zh) | 骨架序列中基于局部关节点轨迹时空卷的行为识别方法 | |
CN110717411A (zh) | 一种基于深层特征融合的行人重识别方法 | |
CN111639564B (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
CN113688723A (zh) | 一种基于改进YOLOv5的红外图像行人目标检测方法 | |
CN109902601B (zh) | 一种结合卷积网络和递归网络的视频目标检测方法 | |
CN112070044B (zh) | 一种视频物体分类方法及装置 | |
CN112149459A (zh) | 一种基于交叉注意力机制的视频显著性物体检测模型及系统 | |
CN114494981B (zh) | 一种基于多层次运动建模的动作视频分类方法及系统 | |
CN113239869B (zh) | 基于关键帧序列和行为信息的两阶段行为识别方法及系统 | |
CN111310609B (zh) | 基于时序信息和局部特征相似性的视频目标检测方法 | |
CN112801019B (zh) | 基于合成数据消除无监督车辆再识别偏差的方法及系统 | |
CN111079507B (zh) | 一种行为识别方法及装置、计算机装置及可读存储介质 | |
Yang et al. | Counting crowds using a scale-distribution-aware network and adaptive human-shaped kernel | |
Zhang et al. | Modeling long-and short-term temporal context for video object detection | |
CN115311504A (zh) | 一种基于注意力重定位的弱监督定位方法和装置 | |
CN111553337A (zh) | 一种基于改进锚框的高光谱多目标检测方法 | |
CN115410030A (zh) | 目标检测方法、装置、计算机设备及存储介质 | |
Jiang et al. | LigMSANet: Lightweight multi-scale adaptive convolutional neural network for dense crowd counting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21768285 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 21768285 Country of ref document: EP Kind code of ref document: A1 |