WO2023024658A1 - 一种基于深度视频联动特征的行为识别方法 - Google Patents
一种基于深度视频联动特征的行为识别方法 Download PDFInfo
- Publication number
- WO2023024658A1 WO2023024658A1 PCT/CN2022/098508 CN2022098508W WO2023024658A1 WO 2023024658 A1 WO2023024658 A1 WO 2023024658A1 CN 2022098508 W CN2022098508 W CN 2022098508W WO 2023024658 A1 WO2023024658 A1 WO 2023024658A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- projection
- feature
- depth
- convolution
- value
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000011176 pooling Methods 0.000 claims abstract description 73
- 238000000605 extraction Methods 0.000 claims abstract description 61
- 238000012549 training Methods 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 78
- 238000004364 calculation method Methods 0.000 claims description 53
- 230000004927 fusion Effects 0.000 claims description 28
- 230000004913 activation Effects 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 15
- 210000002569 neuron Anatomy 0.000 claims description 14
- 238000012886 linear function Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 11
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 230000003542 behavioural effect Effects 0.000 claims description 2
- 230000000717 retained effect Effects 0.000 claims description 2
- 230000017105 transposition Effects 0.000 claims description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Definitions
- V top projection sequence acquisition method V top projection sequence acquisition method
- Convolution unit 3 includes 3 convolutional layers and 1 maximum pooling layer. Each convolutional layer has 256 convolution kernels. The size of each convolution kernel is 3 ⁇ 3. The pooling kernel of the maximum pooling layer The size of is 2 ⁇ 2, the input of convolution unit 3 is C 2 , and the output is C 3 ;
- Convolution unit 5 includes 3 convolutional layers and 1 maximum pooling layer. Each convolutional layer has 512 convolution kernels. The size of each convolution kernel is 3 ⁇ 3. The pooling kernel of the maximum pooling layer The size of is 2 ⁇ 2, the input of convolution unit 5 is C 4 , and the output is C 5 ;
- the output C 3 of the convolution unit 3 is input to the convolution layer 3 in the multi-feature fusion unit, the convolution layer 3 has 512 convolution kernels, the size of the convolution kernel is 1 ⁇ 1, and the output of the convolution layer 3 is M 3 ;
- the linkage feature extraction method of each projection combination in step 4) is to combine the features extracted by each feature extraction module in step 3) every two, every three, and four , to get multiple projection combinations;
- said step 5 performs feature connection of the linkage features of all projection combinations according to the channel, and inputs the average pooling layer, and the output ⁇ of the average pooling layer is input into the fully connected layer 2, and the individual neurons of the fully connected layer 2
- the number is D 2
- the calculation method of the output S 2 of the fully connected layer 2 is as follows:
- Q a, h, w represent the element values of the combined feature Q's ath channel, the hth row, the wth column;
- the calculation steps of the implicit linkage feature of each projection combination are as follows:
- the features in the projection combination are connected by channels to obtain the combination feature Q ⁇ H ⁇ W ⁇ J , where H and W represent the height and width of each feature in the projection combination, J represents the channel number of each feature in the projection combination, and ⁇ Indicates the number of features in the projection combination.
- Q b represents the feature of the bth channel of the combined feature Q.
- Step 6) Construct a behavior recognition network based on deep video linkage features, as shown in Figure 4, the input of the network is the depth video of the behavior sample, and the output is the probability that the corresponding behavior sample belongs to each behavior category, that is, the output of the fully connected layer 3 Q3 .
- the loss function L of the network is:
- V left ⁇ L t
- L t ⁇ 240 ⁇ 240 represents the projection image obtained by the left side projection of the depth image of the tth frame. Similar to obtaining the right side projection, when there are multiple points projected to the same position in the left side projection, the point farthest from the projection plane should be kept. To do this, start from the column with the largest abscissa x on the depth image and traverse the points in the depth image column by column in the direction of decreasing x, and project it onto the left side projection map.
- the abscissa value of point p i in the depth image is x i , the ordinate value y i , and the depth value d i respectively determine the abscissa value of the point projected to the projected map O t Pixel values
- u is a vector with dimension 57600.
- u T means to transpose the vector u;
- u T v t means to calculate the dot product of the vector obtained after transposing the vector u and the eigenvector v t ;
- Convolution unit 3 consists of 3 convolutional layers and 1 max pooling layer. Each convolution layer has 256 convolution kernels, and the size of each convolution kernel is 3 ⁇ 3, and the size of the pooling kernel of the maximum pooling layer is 2 ⁇ 2.
- the input of the convolution unit 3 is C 2 , and the output is C 3 .
- Convolution unit 4 consists of 3 convolutional layers and 1 max pooling layer. Each convolution layer has 512 convolution kernels, and the size of each convolution kernel is 3 ⁇ 3, and the size of the pooling kernel of the maximum pooling layer is 2 ⁇ 2.
- the input of the convolution unit 4 is C 3 , and the output is C 4 .
- each feature extraction module is input into the multi-projection linkage feature extraction module, and the linkage features of each projection combination are extracted.
- the dynamic images of the four projection sequences are input into the respective feature extraction modules, and the features extracted are combined every two, every three, and four, and a total of 11 projection combinations are obtained.
- the combination of the feature extracted from the dynamic image of the front projection sequence and the feature extracted from the dynamic image of the left side projection sequence is the combination of projection 1-2
- the feature extracted from the dynamic image of the front projection sequence and the dynamic image extraction of the right side projection sequence is the combination of projection 1-3
- the combination of the features extracted from the dynamic image of the front projection sequence and the feature extracted from the dynamic image of the top projection sequence is the combination of projection 1-4
- the combination of features extracted from dynamic images of the right side projection sequence is projection 2-3
- the combination of features extracted from dynamic images of the left side projection sequence and features extracted from top projection sequences is projection 2-3.
- ⁇ softmax represents the softmax activation function
- W 3 is the weight of the fully connected layer 3
- ⁇ 3 is the bias vector of the fully connected layer 3.
- l g is the expected output of the g-th behavior sample
- p-th dimension data of l g is defined as:
- the sigmoid activation function whose formula is The input of this function is x and the output is Among them, x represents the input of the sigmoid activation function, and f(x) represents the output of the sigmoid activation function.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于深度视频联动特征的行为识别方法,包括以下步骤:将每个行为样本的深度视频进行正面、右侧面、左侧面和顶面投影,获得相应的投影序列;通过计算每个投影序列的动态图像,获得每个行为样本的动态图像;将每个行为样本的动态图像输入各自的特征提取模块并提取特征;将提取的特征输入多投影联动特征提取模块并提取各投影组合的联动特征;按通道连接提取到的所有联动特征,并将连接后的特征输入平均池化层和全连接层;构造基于深度视频联动特征的行为识别网络;将每个训练行为样本的深度视频输入基于深度视频联动特征的行为识别网络,训练网络至收敛;将每个待测试行为样本的深度视频输入训练好的行为识别网络,实现行为识别。
Description
本发明涉及计算机视觉技术领域,具体涉及一种基于深度视频联动特征的行为识别方法。
目前,行为识别是计算机视觉领域的一个研究热点。它在视频监控、行为分析等领域有着广泛的应用。
随着深度相机的发展,人们可以便捷的获取深度视频,其中包含了大量的运动信息。一部分学者获取深度视频中的人体骨骼关节点位置,利用关节点数据进行识别。另有一部分学者直接将深度视频输入网络进行行为识别。然而,基于骨骼关节点的行为识别,容易受到获取骨骼关节点的精度的影响,而且容易受到行为的类内差异、骨骼关节点的遮挡的影响。直接将深度视频输入网络,未能很好的利用深度视频包含的三维信息,以及行为在不同维度之间的特征的关系。
因此,针对上述行为识别算法问题,提出一种基于深度视频联动特征的行为识别方法。
发明内容
本发明是为解决现有技术中的问题而提出的,其目的在于,提供一种基于深度视频联动特征的行为识别方法,解决了现有识别方法提取的深层特征未能充分利用深度行为视频中的三维信息的问题。
一种基于深度视频联动特征的行为识别方法,包括以下步骤:
1)将每个行为样本的深度视频进行正面、右侧面、左侧面和顶面投影,获得相应的投影序列;
2)通过计算每个投影序列的动态图像,获得每个行为样本的动态图像;
3)将每个行为样本的动态图像输入各自的特征提取模块并提取特征;
4)将提取的特征输入多投影联动特征提取模块并提取各个投影组合的联动特征;
5)按通道连接提取到的所有投影组合的联动特征,并将连接后的特征输入平均 池化层和全连接层;
6)构造基于深度视频联动特征的行为识别网络;
7)将每个训练行为样本的深度视频输入基于深度视频联动特征的行为识别网络,训练网络至收敛;
8)将每个待测试行为样本的深度视频输入训练好的基于深度视频联动特征的行为识别网络,实现行为识别。
优选的是,所述步骤1)中投影序列的获得方式为:
每个行为样本由该样本的深度视频中的所有帧组成,获取任一行为样本的深度视频,
V={I
t|t∈[1,N]},
其中,t表示时间索引,N为行为样本的深度视频V的总帧数;I
t∈
R×C为行为样本的深度视频V的第t帧深度图像的矩阵表示,R、C分别对应第t帧深度图像的矩阵表示的行数、列数,表示矩阵为实数矩阵;I
t(x
i,y
i)=d
i,表示第t帧深度图像上坐标为(x
i,y
i)的点p
i的深度值,即点p
i与深度相机的距离,d
i∈[0,D],D表示深度相机可以探测到的最远的距离;
行为样本的深度视频V可以表示成投影序列的集合,用公式表达如下:
V={V
front,V
right,V
left,V
top},
其中,V
front表示行为样本的深度视频V进行正面投影得到的投影序列,V
right表示行为样本的深度视频V进行右侧面投影得到的投影序列,V
left表示行为样本的深度视频V进行左侧面投影得到的投影序列,V
top表示行为样本的深度视频V进行顶面投影得到的投影序列;
V
front投影序列获取方式:
V
front={F
t|t∈[1,N]},其中,F
t∈
R×C表示将行为样本的深度视频V的第t帧深度图像正面投影得到的投影图,深度图像中的点p
i的横坐标值x
i、纵坐标值y
i、深度值d
i分别决定该点投影到投影图F
t中的点的横坐标值
纵坐标值
像素值
可用公式表示为:
其中f
1为将深度值d
i映射到[0,255]区间的线性函数,使得深度值越小的点在投影图上的像素值越大,即离深度相机越近的点,在正面投影图上越亮;
V
right投影序列获取方式:
V
right={R
t|t∈[1,N]},其中,R
t∈
R×D表示将第t帧深度图像进行右侧面投影得到的投影图;在对深度图像进行右侧面投影时,存在至少一个点被投影到投影图上的同一位置;而从右侧面观察行为,能看到的为距离观察者最近的点,即离投影平面最远的点;保留距离投影平面最远的点在深度图像上的横坐标值,以该横坐标值计算投影图该位置的点的像素值;从深度图像上横坐标x最小的一列开始向x增大的方向逐列遍历深度图像中的点,将其投影到投影图上,深度图像中的点p
i的横坐标值x
i、纵坐标值y
i、深度值d
i,分别决定投影图R
t中的点的像素值
纵坐标值
横坐标值
用公式表示为:
其中f
2为将横坐标值x
i映射到[0,255]区间的线性函数;当x不断增大,若新的点与之前被投影的点被投影到投影图的同一位置,则保留最新的点,即用横坐标值最大的点的横坐标值计算投影图该位置的像素值,即
其中x
m=max x
i,x
i∈X
R,X
R为深度图像中所有纵坐标值为
深度值为
的点的横坐标的集合,max x
i,x
i∈X
R表示集合X
R中的横坐标的最大值;
V
left投影序列获取方式:
V
left={L
t|t∈[1,N]},其中,L
t∈
R×D表示第t帧深度图像进行左侧面投影得到的投影图;当有多个点投影到左侧面投影图的同一位置时,保留距离投影平面最远的点;从深度图像上横坐标x最大的一列开始向x减小的方向逐列遍历深度图像中的点,将其投影到左侧面投影图上,深度图像中的点p
i的横坐标值x
i、纵坐标值y
i、深度值d
i分别决定投影图L
t中的点的像素值
纵坐标值
横坐标值
对于投影到左侧面投影图上同一坐标
处的点,选择横坐标最小的点的横坐标值计算投影图该坐标处的像素值, 用公式表示为:
其中,f
3为将横坐标值x
n映射到[0,255]区间的线性函数,x
n=min x
i,x
i∈X
L,X
L为深度图像中所有纵坐标值为
深度值为
的点的横坐标的集合,min x
i,x
i∈X
L表示集合X
L中横坐标最小值;
V
top投影序列获取方式:
V
top={T
t|t∈[1,N]},其中,O
t∈
D×C表示第t帧深度图像从顶面投影得到的投影图;多个点投影到顶面投影图的同一位置时,保留距离投影平面最远的点;从深度图像上纵坐标y最小的一行开始往y增大的方向逐行遍历深度图像中的点,将其投影到顶面投影图上,深度图像中的点p
i的横坐标值x
i、纵坐标值y
i、深度值d
i分别决定该点投影到投影图O
t中的点的横坐标值
像素值
纵坐标值
对于投影到投影图上同一坐标
处的点,选择纵坐标最大的点的纵坐标值作为投影图该坐标处的像素值,用公式表示为:
其中,f
4为将纵坐标值y
q映射到[0,255]区间的线性函数,y
q=max y
i,y
i∈Y
O,其中Y
O为深度图像中所有横坐标值为
深度值为
的点的纵坐标的集合,max y
i,y
i∈Y
O表示集合Y
O中纵坐标的最大值。
优选的是,所述步骤2)中的动态图像的计算方式为:
以行为样本的深度视频V的正面投影序列V
front={F
t|t∈[1,N]}为例,首先对F
t进行向量化,即将F
t的行向量连接成新的行向量i
t;
对行向量i
t中的每个元素求算术平方根,得到新的向量w
t,即:
计算行为样本的深度视频V的正面投影序列V
front的第t帧图像的特征向量v
t,计算方式如下:
计算行为样本的深度视频V的正面投影序列V
front第t帧图像F
t的得分B
t,计算公式如下:
B
t=u
T·v
t,
其中,u为维度为A的向量,A=R×C;u
T表示对向量u转置;u
T·v
t表示计算对向量u转置后得到的向量与特征向量v
t的点积;
计算u的值,使正面投影序列V
front中帧图像的排序由前到后,得分递增,即t越大,得分B
t越高;u的计算可以使用RankSVM计算,计算方法如下:
其中,
表示使E(u)的值最小的u,λ为常数,||u||
2表示计算向量u中每个元素的平方之和;B
c、B
j分别表示行为样本的深度视频V的正面投影序列V
front第c帧图像的得分、第j帧图像的得分,max{0,1-B
c+B
j}表示选取0和1-B
c+B
j中较大的值;
使用RankSVM计算出向量u后,将向量u排列成与F
t相同尺寸的图像形式,得到u′∈
R×C,u′为行为样本的深度视频V的正面投影序列V
front的动态图像。
优选的是,所述特征提取模块包括卷积单元1、卷积单元2、卷积单元3、卷积单元4、卷积单元5、多特征融合单元;其中首先将卷积单元1、卷积单元2、卷积单元3、卷 积单元4、卷积单元5的输出依次输入至多特征融合单元,最终多特征融合单元输出M
6;
卷积单元1包含2个卷积层和1个最大池化层,每个卷积层有64个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元1的输出为C
1;
卷积单元2包含2个卷积层和1个最大池化层,每个卷积层有128个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元2的输入为C
1,输出为C
2;
卷积单元3包含3个卷积层和1个最大池化层,每个卷积层有256个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元3的输入为C
2,输出为C
3;
卷积单元4包含3个卷积层和1个最大池化层,每个卷积层有512个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元4的输入为C
3,输出为C
4;
卷积单元5包含3个卷积层和1个最大池化层,每个卷积层有512个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元5的输入为C
4,输出为C
5;
多特征融合单元的输入为卷积单元1的输出C
1、卷积单元2的输出C
2、卷积单元3的输出C
3、卷积单元4的输出C
4、卷积单元5的输出C
5。卷积单元1的输出C
1输入多特征融合单元中的最大池化层1和卷积层1,最大池化层1的池化核的大小为4×4,卷积层1有512个卷积核,卷积核的大小为1×1,卷积层1的输出为M
1;
卷积单元2的输出C
2输入多特征融合单元中的最大池化层2和卷积层2,最大池化层2的池化核的大小为2×2,卷积层2有512个卷积核,卷积核的大小为1×1,卷积层2的输出为M
2;
卷积单元3的输出C
3输入多特征融合单元中的卷积层3,卷积层3有512个卷积核,卷积核的大小为1×1,卷积层3的输出为M
3;
卷积单元4的输出C
4输入多特征融合单元中的上采样层1和卷积层4,卷积层4有512个卷积核,卷积核的大小为1×1,卷积层4的输出为M
4;
卷积单元5的输出C
5输入多特征融合单元中的上采样层2和卷积层5,卷积层5有512个卷积核,卷积核的大小为1×1,卷积层5的输出为M
5,将卷积层1的输出M
1、卷积层2的输出M
2、卷积层3的输出M
3、卷积层4的输出M
4、卷积层5的输出M
5按通道连接,输入卷积层6,卷积层6有256个卷积核,卷积核的大小为1×1,卷积层6的输出为M
6,多特征融合单元的输出为卷积层6的输出为M
6;
将行为样本的深度视频V的正面、右侧面、左侧面、顶面投影序列的动态图像分别输入各自的特征提取模块,即正面投影特征提取模块、右侧面投影特征提取模块、左侧面投影特征提取模块、顶面投影特征提取模块,在网络训练时,上述模块之间不共享参数,上述特征提取模块分别输出特征Q
f、Q
r、Q
l、Q
t;
其中,Q
f表示行为样本的深度视频V的正面投影序列的动态图像输入正面投影特征提取模块提取到的特征,Q
r表示右侧面投影序列的动态图像输入右侧面投影特征提取模块提取到的特征,Q
l表示左侧面投影序列的动态图像输入左侧面投影特征提取模块提取到的特征,Q
t表示顶面投影序列的动态图像输入顶面投影特征提取模块提取到的特征。
优选的是,所述步骤4)中各个投影组合的联动特征的提取方式为,将步骤3)中各个特征提取模块提取到的特征每两个进行组合、每三个进行组合、四个进行组合,得到多个投影组合;
计算每个投影组合的联动特征,计算方式如下:
将投影组合中的特征按通道连接,得到组合特征Q∈
H×W×γJ,其中H、W表示投影组合中每个特征的高和宽,J表示投影组合中每个特征的通道数,γ表示投影组合中特征的个数;分别计算每个投影组合的显式联动特征Z
α和每个投影组合的隐式联动特征Z
β;计算投影组合的联动特征Z,计算公式为:
优选的是,所述步骤5)将所有投影组合的联动特征按通道进行特征连接,输入平均池化层,平均池化层的输出Γ输入全连接层2,全连接层2的神经元的个数为D
2,全连接层2的输出S
2的计算方式如下:
S
2=φ
relu(W
2·Γ+θ
2),
其中,φ
relu是relu激活函数,W
2是全连接层2的权重,θ
2是全连接层2的偏置向量;
将全连接层2的输出S
2输入激活函数为softmax的全连接层3,全连接层3的神经元个数为K,输出S
3的计算方式如下:
S
3=φ
softmax(W
3·S
2+θ
3),
其中,φ
softmax表示softmax激活函数,W
3是全连接层3的权重,θ
3是全连接层3的偏置向量。
优选的是,所述步骤6)中基于深度视频联动特征的行为识别网络的输入为行为样本的深度视频,输出为相应行为样本属于各个行为类别的概率,即全连接层3的输出Q
3,网络的损失函数L为:
其中,l
g是第g个样本的标签值。
优选的是,所述步骤8)中行为识别为:将每个测试行为样本的深度视频输入训练好的基于深度视频联动特征的行为识别网络,得到对当前测试行为视频样本预测的属于各个行为类别的概率值,概率值最大的行为类别为最终预测的当前测试行为视频样本所属行为类别,从而实现行为识别。
优选的是,所述每个投影组合的显式联动特征的计算步骤如下:
1)计算组合特征Q的每个通道的特征的平均值,第a个通道的特征的平均值Q
a,计算公式如下:
其中,Q
a,h,w表示组合特征Q第a个通道第h行第w列的元素值;
2)计算组合特征Q不同通道之间的特征的显式相关程度P∈
γJ×γJ,第a个通道与第b个通道的特征的显式相关程度P
a,b计算公式如下:
其中,Q
b表示组合特征Q第b个通道的特征;
优选的是,所述每个投影组合的隐式联动特征的计算步骤如下:
2)将向量
输入全连接层1,全连接层1的神经元的个数为γJ,全连接层1的输出
其中φ
sigmoid表示sigmoid激活函数,W
1∈
γJ×γJ表示全连接层1的权重,θ
1∈
γJ×1表示全连接层1的偏置向量;
本发明具有以下有益效果:1)基于深度视频的行为识别不会获取人的外观等信息,保护人的隐私;同时深度视频不易受到光照的影响,而且能够提供更加丰富的关于行为的三维信息;
2)将深度视频投影到不同的平面,能够获取行为不同维度的信息,将这些信息结合起来,能够使人体行为识别更加容易;学得的深度视频在不同维度的联动特征,对于行为识别更具有区分度。
图1为本发明的流程图
图2为特征提取模块的流程图。
图3为各个投影组合的联动特征提取的流程图。
图4为基于深度视频联动特征的行为识别网络的流程图。
图5为实施例中挥手行为的平面投影示意图。
图6为实施例中挥手行为正面投影动态图像。
以下将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的实施方式,参见图1-6,一种基于深度视频联动特征的行为识别方法,包括以下步骤:
1)将每个行为样本的深度视频进行正面、右侧面、左侧面和顶面投影,得到4个投影序列;
2)计算每个行为样本的4个投影序列的动态图像,得到每个行为样本的4张动态图像;
3)将4张动态图像分别输入各自的特征提取模块提取特征;
4)将4个投影序列的动态图像提取到的特征输入多投影联动特征提取模块,提取各个投影组合的联动特征;
5)将提取的所有投影组合的联动特征按通道进行特征连接,输入平均池化层以及两层全连接层;
6)构造基于深度视频联动特征的行为识别网络;
7)将每个训练行为样本的深度视频输入基于深度视频联动特征的行为识别网络,训练网络至收敛;
8)将每个测试行为样本的深度视频输入训练好的基于深度视频联动特征的行为识别网络,实现行为识别。
步骤2)中动态图像的获取:
以行为样本的深度视频V的正面投影序列V
front={F
t|t∈[1,N]}为例,其动态图像的计算方式如下:
首先对F
t进行向量化,即将F
t的行向量连接成新的行向量i
t;
对行向量i
t中的每个元素求算术平方根,得到新的向量w
t,即:
计算行为样本的深度视频V的正面投影序列V
front的第t帧图像的特征向量v
t,计算方式如下:
计算行为样本的深度视频V的正面投影序列V
front第t帧图像F
t的得分B
t,计算公式如下:
B
t=u
T·v
t,
其中,u为维度为A的向量,A=R×C。u
T表示对向量u转置;u
T·v
t表示计算对向量u转置后得到的向量与特征向量v
t的点积;
计算u的值,使正面投影序列V
front中越排在后面的帧图像,得分越高,即t越大,得分B
t越高;u的计算可以使用RankSVM计算,计算方法如下:
其中,
表示使E(u)的值最小的u,λ为常数,||u||
2表示计算向量u中每个元素的平方之和;B
c、B
j分别表示行为样本的深度视频V的正面投影序列V
front第c帧图像的得分、第j帧图像的得分,max{0,1-B
c+B
j}表示选取0和1-B
c+B
j中较大的那个值;
使用RankSVM计算出向量u后,将向量u排列成与F
t相同尺寸的图像形式,得到u′∈
R×C,称u′为行为样本的深度视频V的正面投影序列V
front的动态图像。
行为样本的深度视频V的右侧面、左侧面、顶面投影序列的动态图像的计算方式与正面投影序列的动态图像的计算方式相同。
步骤4)中提取各个投影组合的联动特征:
如图3所示,将四个投影序列的动态图像输入各自的特征提取模块提取到的特征每两个进行组合、每三个进行组合、四个进行组合,共得到11个投影组合。记正面投影序列的动态图像提取的特征与左侧面投影序列的动态图像提取的特征的组合为投影1-2组 合,正面投影序列的动态图像提取的特征与右侧面投影序列的动态图像提取的特征的组合为投影1-3组合,正面投影序列的动态图像提取的特征与顶面投影序列的动态图像提取的特征的组合为投影1-4组合,左侧面投影序列的动态图像提取的特征与右侧面投影序列的动态图像提取的特征的组合为投影2-3组合,左侧面投影序列的动态图像提取的特征与顶面投影序列的动态图像提取的特征的组合为投影2-4组合,右侧面投影序列的动态图像提取的特征与顶面投影序列的动态图像提取的特征的组合为投影3-4组合,正面投影序列的动态图像提取的特征、左侧面投影序列的动态图像提取的特征、右侧面投影序列的动态图像提取的特征的组合为投影1-2-3组合,正面投影序列的动态图像提取的特征、左侧面投影序列的动态图像提取的特征、顶面投影序列的动态图像提取的特征的组合为投影1-2-4组合,正面投影序列的动态图像提取的特征、右侧面投影序列的动态图像提取的特征、顶面投影序列的动态图像提取的特征的组合为投影1-3-4组合,左侧面投影序列的动态图像提取的特征、右侧面投影序列的动态图像提取的特征、顶面投影序列的动态图像提取的特征的组合为投影2-3-4组合,正面投影序列的动态图像提取的特征、左侧面投影序列的动态图像提取的特征、右侧面投影序列的动态图像提取的特征、顶面投影序列的动态图像提取的特征的组合为投影1-2-3-4组合。
计算每个投影组合的联动特征,计算方式如下:
将投影组合中的特征按通道连接,得到组合特征Q∈
H×W×γJ,其中H、W表示投影组合中每个特征的高和宽,J表示投影组合中每个特征的通道数,γ表示投影组合中特征的个数。
首先计算每个投影组合的显式联动特征,计算步骤如下:
其中,Q
a,h,w表示组合特征Q第a个通道第h行第w列的元素值。
(2)计算组合特征Q不同通道之间的特征的显式相关程度P∈
γJ×γJ,第a个通道与第b个通道的特征的显式相关程度P
a,b计算公式如下:
其中,Q
b表示组合特征Q第b个通道的特征。
然后计算每个投影组合的隐式联动特征,计算步骤如下:
(2)将向量
输入全连接层1,全连接层1的神经元的个数为γJ,全连接层1的输出
其中φ
sigmoid表示sigmoid激活函数,W
1∈
γJ×γJ表示全连接层1的权重,θ
1∈
γJ×1表示全连接层1的偏置向量。
最终,每个投影组合的联动特征Z的计算公式为:
一共11个投影组合,可得11个联动特征。
步骤6)构造基于深度视频联动特征的行为识别网络,如图4所示,该网络的输入为行为样本的深度视频,输出为对应行为样本属于各个行为类别的概率,即全连接层3的输出Q
3。网络的损失函数L为:
其中,l
g是第g个样本的标签值。
步骤7)将每个训练行为样本的深度视频输入基于深度视频联动特征的行为识别网络,训练网络至收敛。
步骤8)将每个测试行为样本的深度视频输入训练好的基于深度视频联动特征的行为识别网络,得到对当前测试行为视频样本预测的属于各个行为类别的概率值,概率值最大的行为类别为最终预测的当前测试行为视频样本所属行为类别,从而实现行为识别。
实施例:
如图5-6所示,
1)行为样本集总样本数为2400,共8个行为类别,每个行为类别有300个样本。每个行为类别中随机选取三分之二的样本划入训练集,剩下的三分之一划入测试集,得到共1600个训练样本,800个测试样本。每一个行为样本由该样本深度视频中的所有帧组成。以任一行为样本的深度视频V为例:
V={I
t|t∈[1,50]},
其中,t表示时间索引,该行为样本共有50帧。I
t∈
240×240为行为样本的深度视频V的第t帧深度图像的矩阵表示,该帧深度图像的行数、列数均为240。表示矩阵为实数矩阵。I
t(x
i,y
i)=d
i,表示第t帧深度图像上坐标为(x
i,y
i)的点p
i的深度值,即点p
i与深 度相机的距离。
行为样本的深度视频V分别投影到正面、右侧面、左侧面、顶面四个平面。此时,行为样本的深度视频V可以表示成四个投影图序列的集合,用公式表达如下:
V={V
front,V
right,V
left,V
top},
其中,V
front表示行为样本的深度视频V进行正面投影得到的投影序列,V
right表示行为样本的深度视频V进行右侧面投影得到的投影序列,V
left表示行为样本的深度视频V进行左侧面投影得到的投影序列,V
top表示行为样本的深度视频V投影到顶面得到的投影序列。
V
front={F
t|t∈[1,50]},其中,F
t∈
240×240表示将行为样本的深度视频V的第t帧深度图像进行正面投影得到的投影图。深度图像中的点p
i的横坐标值x
i、纵坐标值y
i、深度值d
i分别决定该点投影到投影图F
t中的点的横坐标值
纵坐标值
像素值
可用公式表示为:
其中f
1为将深度值d
i映射到[0,255]区间的线性函数,使得深度值越小的点在投影图上的像素值越大,即离深度相机越近的点,在正面投影图上越亮。
V
right={R
t|t∈[1,50]},其中,R
t∈
240×240表示将第t帧深度图像进行右侧面投影得到的投影图。在对深度图像进行右侧面投影时,可能存在不止一个点被投影到投影图上的同一位置。而从右侧面观察行为,能看到的为距离观察者最近的点,即离投影平面最远的点。因此,应该保留距离投影平面最远的点在深度图像上的横坐标值,以该横坐标值计算投影图该位置的点的像素值。为此,从深度图像上横坐标x最小的一列开始往x增大的方向逐列遍历深度图像中的点,将其投影到投影图上,深度图像中的点p
i的横坐标值x
i、纵坐标值y
i、深度值d
i,分别决定投影图R
t中的点的像素值
纵坐标值
横坐标值
用公式表示为:
其中f
2为将横坐标值x
i映射到[0,255]区间的线性函数。当x不断增大,可能会有新的点与之前已经被投影的点被投影到投影图的同一位置,应当保留最新的点,即用横坐标值最大的点的横坐标值计算投影图该位置的像素值,即
其中x
m=max x
i,x
i∈X
R,X
R为深度图像中所有纵坐标值为
深度值为
的点的横坐标的集合,max x
i,x
i∈X
R表示集合X
R中的横坐标的最大值。
V
left={L
t|t∈[1,50]},其中,L
t∈
240×240表示第t帧深度图像进行左侧面投影得到的投影图。与获取右侧面投影图相似,当有多个点投影到左侧面投影图的同一位置时,应该保留距离投影平面最远的点。为此,从深度图像上横坐标x最大的一列开始往x减小的方向逐列遍历深度图像中的点,将其投影到左侧面投影图上,深度图像中的点p
i的横坐标值x
i、纵坐标值y
i、深度值d
i分别决定投影图L
t中的点的像素值
纵坐标值
横坐标值
对于投影到左侧面投影图上同一坐标
处的点,选择横坐标最小的点的横坐标值计算投影图该坐标处的像素值,用公式表示为:
其中,f
3为将横坐标值x
n映射到[0,255]区间的线性函数,x
n=min x
i,x
i∈X
L,X
L为深度图像中所有纵坐标值为
深度值为
的点的横坐标的集合,min x
i,x
i∈X
L表示集合X
L中横坐标最小值。
V
top={T
t|t∈[1,50]},其中,O
t∈
240×240表示第t帧深度图像从顶面投影得到的投影图。当有多个点投影到顶面投影图的同一位置时,应该保留距离投影平面最远的点。为此,从深度图像上纵坐标y最小的一行开始往y增大的方向逐行遍历深度图像中的点,将其投影到顶面投影图上,深度图像中的点p
i的横坐标值x
i、纵坐标值y
i、深度值d
i分别决定该点投影到投影图O
t中的点的横坐标值
像素值
纵坐标值
对于投影到投影图上同一坐标
处的点,选择纵坐标最大的点的纵坐标值作为投影图该坐标处的像素值,用公式表示为:
其中,f
4为将纵坐标值y
q映射到[0,255]区间的线性函数,y
q=max y
i,y
i∈Y
O,其中Y
O为深度图像中所有横坐标值为
深度值为
的点的纵坐标的集合,max y
i,y
i∈Y
O表示集合Y
O中纵坐标的最大值。
2)计算每个行为样本的深度视频的4个投影序列的动态图像,得到每个行为样本的4张动态图像。以行为样本的深度视频V的正面投影序列V
front={F
t|t∈[1,50]}为例,其动态图像的计算方式如下:
首先对F
t进行向量化,即将F
t的行向量连接成新的行向量i
t。
对行向量i
t中的每个元素求算术平方根,得到新的向量w
t,即:
计算行为样本的深度视频V的正面投影序列V
front的第t帧图像的特征向量v
t,计算方式如下:
计算行为样本的深度视频V的正面投影序列V
front第t帧图像F
t的得分B
t,计算公式如下:
B
t=u
T·v
t,
其中,u为维度为57600的向量。u
T表示对向量u转置;u
T·v
t表示计算对向量u转置后得到的向量与特征向量v
t的点积;
计算u的值,使正面投影序列V
front中越排在后面的帧图像,得分越高,即t越大,得分B
t越高;u的计算可以使用RankSVM计算,计算方法如下:
其中,
表示使E(u)的值最小的u,λ为常数,||u||
2表示计算向量u中每个元素的平方之和;B
c、B
j分别表示行为样本的深度视频V的正面投影序列V
front第c帧图像的得分、第j帧图像的得分,max{0,1-B
c+B
j}表示选取0和1-B
c+B
j中较大的那个值;
使用RankSVM计算出向量u后,将向量u排列成与F
t相同尺寸的图像形式,得到u′∈
240×240,称u′为行为样本的深度视频V的正面投影序列V
front的动态图像。图5为挥手行为正面投影动态图像。
行为样本的深度视频V的右侧面、左侧面、顶面投影序列的动态图像的计算方式与正面投影序列的动态图像的计算方式相同。
3)将行为样本的深度视频的正面、右侧面、左侧面、顶面投影序列的动态图像分别输入各自的特征提取模块提取特征。特征提取模块包括卷积单元1、卷积单元2、卷积单元3、卷积单元4、卷积单元5、多特征融合单元。
卷积单元1包含2个卷积层和1个最大池化层。每个卷积层有64个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2。卷积单元1的输出为C
1。
卷积单元2包含2个卷积层和1个最大池化层。每个卷积层有128个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2。卷积单元2的输入为C
1,输出为C
2。
卷积单元3包含3个卷积层和1个最大池化层。每个卷积层有256个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2。卷积单元3的输入为C
2,输出为C
3。
卷积单元4包含3个卷积层和1个最大池化层。每个卷积层有512个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2。卷积单元4的输入为C
3,输 出为C
4。
卷积单元5包含3个卷积层和1个最大池化层。每个卷积层有512个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2。卷积单元5的输入为C
4,输出为C
5。
多特征融合单元的输入为卷积单元1的输出C
1、卷积单元2的输出C
2、卷积单元3的输出C
3、卷积单元4的输出C
4、卷积单元5的输出C
5。卷积单元1的输出C
1输入多特征融合单元中的最大池化层1和卷积层1,最大池化层1的池化核的大小为4×4,卷积层1有512个卷积核,卷积核的大小为1×1,卷积层1的输出为M
1。
卷积单元2的输出C
2输入多特征融合单元中的最大池化层2和卷积层2,最大池化层2的池化核的大小为2×2,卷积层2有512个卷积核,卷积核的大小为1×1,卷积层2的输出为M
2。
卷积单元3的输出C
3输入多特征融合单元中的卷积层3,卷积层3有512个卷积核,卷积核的大小为1×1,卷积层3的输出为M
3。
卷积单元4的输出C
4输入多特征融合单元中的上采样层1和卷积层4,卷积层4有512个卷积核,卷积核的大小为1×1,卷积层4的输出为M
4。
卷积单元5的输出C
5输入多特征融合单元中的上采样层2和卷积层5,卷积层5有512个卷积核,卷积核的大小为1×1,卷积层5的输出为M
5。将卷积层1的输出M
1、卷积层2的输出M
2、卷积层3的输出M
3、卷积层4的输出M
4、卷积层5的输出M
5按通道连接,输入卷积层6,卷积层6有256个卷积核,卷积核的大小为1×1,卷积层6的输出为M
6。多特征融合单元的输出为卷积层6的输出为M
6。
将行为样本的深度视频V的正面、右侧面、左侧面、顶面投影序列的动态图像分别输入各自的特征提取模块,即正面投影特征提取模块、右侧面投影特征提取模块、左侧面投影特征提取模块、顶面投影特征提取模块。这四个特征提取模块的结构都相同,即特征提取模块的结构,但是在网络训练时,这四个模块之间不共享参数。这四个特征提 取模块分别输出特征Q
f、Q
r、Q
l、Q
t,分别表示行为样本的深度视频V的正面投影序列的动态图像输入正面投影特征提取模块提取到的特征、右侧面投影序列的动态图像输入右侧面投影特征提取模块提取到的特征、左侧面投影序列的动态图像输入左侧面投影特征提取模块提取到的特征、顶面投影序列的动态图像输入顶面投影特征提取模块提取到的特征。
4)将各个特征提取模块提取到的特征输入多投影联动特征提取模块,提取各个投影组合的联动特征。将四个投影序列的动态图像输入各自的特征提取模块提取到的特征每两个进行组合、每三个进行组合、四个进行组合,共得到11个投影组合。记正面投影序列的动态图像提取的特征与左侧面投影序列的动态图像提取的特征的组合为投影1-2组合,正面投影序列的动态图像提取的特征与右侧面投影序列的动态图像提取的特征的组合为投影1-3组合,正面投影序列的动态图像提取的特征与顶面投影序列的动态图像提取的特征的组合为投影1-4组合,左侧面投影序列的动态图像提取的特征与右侧面投影序列的动态图像提取的特征的组合为投影2-3组合,左侧面投影序列的动态图像提取的特征与顶面投影序列的动态图像提取的特征的组合为投影2-4组合,右侧面投影序列的动态图像提取的特征与顶面投影序列的动态图像提取的特征的组合为投影3-4组合,正面投影序列的动态图像提取的特征、左侧面投影序列的动态图像提取的特征、右侧面投影序列的动态图像提取的特征的组合为投影1-2-3组合,正面投影序列的动态图像提取的特征、左侧面投影序列的动态图像提取的特征、顶面投影序列的动态图像提取的特征的组合为投影1-2-4组合,正面投影序列的动态图像提取的特征、右侧面投影序列的动态图像提取的特征、顶面投影序列的动态图像提取的特征的组合为投影1-3-4组合,左侧面投影序列的动态图像提取的特征、右侧面投影序列的动态图像提取的特征、顶面投影序列的动态图像提取的特征的组合为投影2-3-4组合,正面投影序列的动态图像提取的特征、左侧面投影序列的动态图像提取的特征、右侧面投影序列的动态图像提取的特征、顶面投影序列的动态图像提取的特征的组合为投影1-2-3-4组合。
计算每个投影组合的联动特征,以投影1-2组合为例,计算方式如下:
将投影1-2组合中的特征Q
f、Q
l按通道连接,得到组合特征Q∈
H×W×512,其中H、W表示Q
f、Q
l的高和宽。
首先计算该投影组合的显式联动特征,计算步骤如下:
其中,Q
a,h,w表示组合特征Q第a个通道第h行第w列的元素值。
(2)计算组合特征Q不同通道之间的特征的显式相关程度P∈
512×512,第a个通道与第b个通道的特征的显式相关程度P
a,b计算公式如下:
其中,Q
b表示组合特征Q第b个通道的特征。
然后计算该投影组合的隐式联动特征,计算步骤如下:
(2)将向量
输入全连接层1,全连接层1的神经元的个数为512,全连接层1的输出
其中φ
sigmoid表示sigmoid激活函数,W
1∈
512×512表示全连接层1的权重,θ
1∈
512×1表示全连接层1的偏置向量。
最终,投影1-2组合的联动特征Z的计算公式为:
一共11个投影组合,按照上述计算方式可得11个联动特征。
5)将得到的11个联动特征按通道进行特征连接,输入平均池化层,平均池化层的输出Γ输入全连接层2,全连接层2的神经元的个数为1024,全连接层2的输出S
2的计算方式如下:
S
2=φ
relu(W
2·Γ+θ
2),
其中,φ
relu是relu激活函数,W
2是全连接层2的权重,θ
2是全连接层2的偏置向量。
将全连接层2的输出S
2输入激活函数为softmax的全连接层3,全连接层3的神经元的个数为8,全连接层3的输出S
3的计算方式如下:
S
3=φ
softmax(W
3·S
2+θ
3),
其中,φ
softmax表示softmax激活函数,W
3是全连接层3的权重,θ
3是全连接层3的偏置向量。
6)构造基于深度视频联动特征的行为识别网络,该网络的输入为行为样本的深度视频,输出为对应行为样本属于各个行为类别的概率,即全连接层3的输出S
3。网络的损失函数L为:
其中,l
g是第g个样本的标签值。
7)将每个训练行为样本的深度视频输入基于深度视频联动特征的行为识别网络,训练网络至收敛.
8)将每个测试行为样本的深度视频输入训练好的基于深度视频联动特征的行为识别网络,得到对当前测试行为视频样本预测的属于各个行为类别的概率值,概率值最大的行为类别为最终预测的当前测试行为视频样本所属行为类别,从而实现行为识别。
relu激活函数,其公式为f(x)=max(0,x),该函数的输入是x,输出是x和0中较大的那个数。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (10)
- 一种基于深度视频联动特征的行为识别方法,其特征在于,包括以下步骤:1)将每个行为样本的深度视频进行正面、右侧面、左侧面和顶面投影,获得相应的投影序列;2)通过计算每个投影序列的动态图像,获得每个行为样本的动态图像;3)将每个行为样本的动态图像输入各自的特征提取模块并提取特征;4)将提取的特征输入多投影联动特征提取模块并提取各投影组合的联动特征;5)按通道连接提取到的所有投影组合的联动特征,并将连接后的特征输入平均池化层和全连接层;6)构造基于深度视频联动特征的行为识别网络;7)将每个训练行为样本的深度视频输入基于深度视频联动特征的行为识别网络,训练网络至收敛;8)将每个待测试行为样本的深度视频输入训练好的基于深度视频联动特征的行为识别网络,实现行为识别。
- 根据权利要求1所述的一种基于深度视频联动特征的行为识别方法,其特征在于,所述步骤1)中投影序列的获得方式为:每个行为样本由该样本的深度视频中的所有帧组成,获取任一行为样本的深度视频,V={I t|t∈[1,N]},其中,t表示时间索引,N为行为样本的深度视频V的总帧数;I t∈ R×C为行为样本的深度视频V的第t帧深度图像的矩阵表示,R、C分别对应第t帧深度图像的矩阵表示的行数、列数,表示矩阵为实数矩阵;I t(x i,y i)=d i,表示第t帧深度图像上坐标为(x i,y i)的点p i的深度值,即点p i与深度相机的距离,d i∈[0,D],D表示深度相机可以探测到的最远的距离;行为样本的深度视频V可以表示成投影序列的集合,用公式表达如下:V={V front,V right,V left,V top},其中,V front表示行为样本的深度视频V进行正面投影得到的投影序列,V right表示行为样本的深度视频V进行右侧面投影得到的投影序列,V left表示行为样本的深度视频V进行左侧面投影得到的投影序列,V top表示行为样本的深度视频V进行顶面投影得到的投影序列;V front投影序列获取方式:V front={F t|t∈[1,N]},其中,F t∈ R×C表示将行为样本的深度视频V的第t帧深度图像正面投影得到的投影图,深度图像中的点p i的横坐标值x i、纵坐标值y i、深度值d i分别决定该点投影到投影图F t中的点的横坐标值 纵坐标值 像素值 可用公式表示为:其中f 1为将深度值d i映射到[0,255]区间的线性函数,使得深度值越小的点在投影图上的像素值越大,即离深度相机越近的点,在正面投影图上越亮;V right投影序列获取方式:V right={R t|t∈[1,N]},其中,R t∈ R×D表示将第t帧深度图像进行右侧面投影得到的投影图;在对深度图像进行右侧面投影时,存在至少一个点被投影到投影图上的同一位置;而从右侧面观察行为,能看到的为距离观察者最近的点,即离投影平面最远的点;保留距离投影平面最远的点在深度图像上的横坐标值,以该横坐标值计算投影图该位置的点的像素值;从深度图像上横坐标x最小的一列开始向x增大的方向逐列遍历深度图像中的点,将其投影到投影图上,深度图像中的点p i的横坐标值x i、纵坐标值y i、深度值d i,分别决定投影图R t中的点的像素值 纵坐标值 横坐标值 用公式表示为:其中f 2为将横坐标值x i映射到[0,255]区间的线性函数;当x不断增大,若新的点与之前被投影的点被投影到投影图的同一位置,则保留最新的点,即用横坐标值最大的点 的横坐标值计算投影图该位置的像素值,即 其中x m=max x i,x i∈X R,X R为深度图像中所有纵坐标值为 深度值为 的点的横坐标的集合,max x i,x i∈X R表示集合X R中的横坐标的最大值;V left投影序列获取方式:V left={L t|t∈[1,N]},其中,L t∈ R×D表示第t帧深度图像进行左侧面投影得到的投影图;当有多个点投影到左侧面投影图的同一位置时,保留距离投影平面最远的点;从深度图像上横坐标x最大的一列开始向x减小的方向逐列遍历深度图像中的点,将其投影到左侧面投影图上,深度图像中的点p i的横坐标值x i、纵坐标值y i、深度值d i分别决定投影图L t中的点的像素值 纵坐标值 横坐标值 对于投影到左侧面投影图上同一坐标 处的点,选择横坐标最小的点的横坐标值计算投影图该坐标处的像素值,用公式表示为:其中,f 3为将横坐标值x n映射到[0,255]区间的线性函数,x n=min x i,x i∈X L,X L为深度图像中所有纵坐标值为 深度值为 的点的横坐标的集合,min x i,x i∈X L表示集合X L中横坐标最小值;V top投影序列获取方式:V top={T t|t∈[1,N]},其中,O t∈ D×C表示第t帧深度图像从顶面投影得到的投影图;多个点投影到顶面投影图的同一位置时,保留距离投影平面最远的点;从深度图像上纵坐标y最小的一行开始往y增大的方向逐行遍历深度图像中的点,将其投影到顶面投影图上,深度图像中的点p i的横坐标值x i、纵坐标值y i、深度值d i分别决定该点投影到投影图O t中的点的横坐标值 像素值 纵坐标值 对于投影到投影图上同一坐标 处的点,选择纵坐标最大的点的纵坐标值作为投影图该坐标处的像素值,用公式表示为:
- 根据权利要求1所述的一种基于深度视频联动特征的行为识别方法,其特征在于,所述步骤2)中的动态图像的计算方式为:以行为样本的深度视频V的正面投影序列V front={F t|t∈[1,N]}为例,首先对F t进行向量化,即将F t的行向量连接成新的行向量i t;对行向量i t中的每个元素求算术平方根,得到新的向量w t,即:计算行为样本的深度视频V的正面投影序列V front的第t帧图像的特征向量v t,计算方式如下:计算行为样本的深度视频V的正面投影序列V front第t帧图像F t的得分B t,计算公式如下:B t=u T·v t,其中,u为维度为A的向量,A=R×C;u T表示对向量u转置;u T·v t表示计算对向量u转置后得到的向量与特征向量v t的点积;计算u的值,使正面投影序列V front中帧图像的排序由前到后,得分递增,即t越大,得分B t越高;u的计算可以使用RankSVM计算,计算方法如下:其中, 表示使E(u)的值最小的u,λ为常数,||u|| 2表示计算向量u中每个元素的平方之和;B c、B j分别表示行为样本的深度视频V的正面投影序列V front第c帧图像的得分、第j帧图像的得分,max{0,1-B c+B j}表示选取0和1-B c+B j中较大的值;使用RankSVM计算出向量u后,将向量u排列成与F t相同尺寸的图像形式,得到u′∈ R×C,u′为行为样本的深度视频V的正面投影序列V front的动态图像。
- 根据权利要求1所述的一种基于深度视频联动特征的行为识别方法,其特征在于,所述特征提取模块包括卷积单元1、卷积单元2、卷积单元3、卷积单元4、卷积单元5、多特征融合单元;其中将卷积单元1、卷积单元2、卷积单元3、卷积单元4、卷积单元5的输出依次输入至多特征融合单元,最终多特征融合单元输出M 6;卷积单元1包含2个卷积层和1个最大池化层,每个卷积层有64个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元1的输出为C 1;卷积单元2包含2个卷积层和1个最大池化层,每个卷积层有128个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元2的输入为C 1,输出为C 2;卷积单元3包含3个卷积层和1个最大池化层,每个卷积层有256个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元3的输入为C 2,输出为C 3;卷积单元4包含3个卷积层和1个最大池化层,每个卷积层有512个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元4的输入为C 3,输出为C 4;卷积单元5包含3个卷积层和1个最大池化层,每个卷积层有512个卷积核,每个卷积核的大小为3×3,最大池化层的池化核的大小为2×2,卷积单元5的输入为C 4,输 出为C 5;多特征融合单元的输入为卷积单元1的输出C 1、卷积单元2的输出C 2、卷积单元3的输出C 3、卷积单元4的输出C 4、卷积单元5的输出C 5。卷积单元1的输出C 1输入多特征融合单元中的最大池化层1和卷积层1,最大池化层1的池化核的大小为4×4,卷积层1有512个卷积核,卷积核的大小为1×1,卷积层1的输出为M 1;卷积单元2的输出C 2输入多特征融合单元中的最大池化层2和卷积层2,最大池化层2的池化核的大小为2×2,卷积层2有512个卷积核,卷积核的大小为1×1,卷积层2的输出为M 2;卷积单元3的输出C 3输入多特征融合单元中的卷积层3,卷积层3有512个卷积核,卷积核的大小为1×1,卷积层3的输出为M 3;卷积单元4的输出C 4输入多特征融合单元中的上采样层1和卷积层4,卷积层4有512个卷积核,卷积核的大小为1×1,卷积层4的输出为M 4;卷积单元5的输出C 5输入多特征融合单元中的上采样层2和卷积层5,卷积层5有512个卷积核,卷积核的大小为1×1,卷积层5的输出为M 5,将卷积层1的输出M 1、卷积层2的输出M 2、卷积层3的输出M 3、卷积层4的输出M 4、卷积层5的输出M 5按通道连接,输入卷积层6,卷积层6有256个卷积核,卷积核的大小为1×1,卷积层6的输出为M 6,多特征融合单元的输出为卷积层6的输出为M 6;将行为样本的深度视频V的正面、右侧面、左侧面、顶面投影序列的动态图像分别输入各自的特征提取模块,即正面投影特征提取模块、右侧面投影特征提取模块、左侧面投影特征提取模块、顶面投影特征提取模块,在网络训练时,上述模块之间不共享参数,上述特征提取模块分别输出特征Q f、Q r、Q l、Q t;其中,Q f表示行为样本的深度视频V的正面投影序列的动态图像输入正面投影特征提取模块提取到的特征,Q r表示右侧面投影序列的动态图像输入右侧面投影特征提取模块提取到的特征,Q l表示左侧面投影序列的动态图像输入左侧面投影特征提取模块提取 到的特征,Q t表示顶面投影序列的动态图像输入顶面投影特征提取模块提取到的特征。
- 根据权利要求1所述的一种基于深度视频联动特征的行为识别方法,其特征在于,所述步骤5)将所有投影组合的联动特征按通道进行特征连接,输入平均池化层,平均池化层的输出Γ输入全连接层2,全连接层2的神经元的个数为D 2,全连接层2的输出S 2的计算方式如下:S 2=φ relu(W 2·Γ+θ 2),其中,φ relu是relu激活函数,W 2是全连接层2的权重,θ 2是全连接层2的偏置向量;将全连接层2的输出S 2输入激活函数为softmax的全连接层3,全连接层3的神经元个数为K,输出S 3的计算方式如下:S 3=φ softmax(W 3·S 2+θ 3),其中,φ softmax表示softmax激活函数,W 3是全连接层3的权重,θ 3是全连接层3的偏置向量。
- 根据权利要求1所述的一种基于深度视频联动特征的行为识别方法,其特征在于,所述步骤8)中行为识别为:将每个测试行为样本的深度视频输入训练好的基于深度视频联动特征的行为识别网络,得到对当前测试行为视频样本预测的属于各个行为类别的概率值,概率值最大的行为类别为最终预测的当前测试行为视频样本所属行为类别,从而实现行为识别。
- 根据权利要求5所述的一种基于深度视频联动特征的行为识别方法,其特征在于,所述每个投影组合的显式联动特征的计算步骤如下:其中,Q a,h,w表示组合特征Q第a个通道第h行第w列的元素值;2)计算组合特征Q不同通道之间的特征的显式相关程度P∈ γJ×γJ,第a个通道与第b个通道的特征的显式相关程度P a,b计算公式如下:其中,Q b表示组合特征Q第b个通道的特征。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110968288.1 | 2021-08-23 | ||
CN202110968288.1A CN113610046B (zh) | 2021-08-23 | 2021-08-23 | 一种基于深度视频联动特征的行为识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023024658A1 true WO2023024658A1 (zh) | 2023-03-02 |
Family
ID=78309170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2022/098508 WO2023024658A1 (zh) | 2021-08-23 | 2022-06-14 | 一种基于深度视频联动特征的行为识别方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113610046B (zh) |
WO (1) | WO2023024658A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116109630A (zh) * | 2023-04-10 | 2023-05-12 | 创域智能(常熟)网联科技有限公司 | 基于传感器采集和人工智能的图像分析方法及系统 |
CN117073586A (zh) * | 2023-10-17 | 2023-11-17 | 青岛迈朗格智能制造有限公司 | 一种同轴双轴转台机械轴平行度检测装置及方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113610046B (zh) * | 2021-08-23 | 2023-09-26 | 苏州大学 | 一种基于深度视频联动特征的行为识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038420A (zh) * | 2017-11-21 | 2018-05-15 | 华中科技大学 | 一种基于深度视频的人体行为识别方法 |
CN109460734A (zh) * | 2018-11-08 | 2019-03-12 | 山东大学 | 基于层次动态深度投影差值图像表示的视频行为识别方法及系统 |
US20210073563A1 (en) * | 2019-09-10 | 2021-03-11 | Microsoft Technology Licensing, Llc | Depth-based object re-identification |
CN113591797A (zh) * | 2021-08-23 | 2021-11-02 | 苏州大学 | 一种深度视频行为识别方法 |
CN113610046A (zh) * | 2021-08-23 | 2021-11-05 | 苏州大学 | 一种基于深度视频联动特征的行为识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280421B (zh) * | 2018-01-22 | 2020-06-30 | 湘潭大学 | 基于多特征深度运动图的人体行为识别方法 |
CN113221694B (zh) * | 2021-04-29 | 2023-08-01 | 苏州大学 | 一种动作识别方法 |
-
2021
- 2021-08-23 CN CN202110968288.1A patent/CN113610046B/zh active Active
-
2022
- 2022-06-14 WO PCT/CN2022/098508 patent/WO2023024658A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038420A (zh) * | 2017-11-21 | 2018-05-15 | 华中科技大学 | 一种基于深度视频的人体行为识别方法 |
CN109460734A (zh) * | 2018-11-08 | 2019-03-12 | 山东大学 | 基于层次动态深度投影差值图像表示的视频行为识别方法及系统 |
US20210073563A1 (en) * | 2019-09-10 | 2021-03-11 | Microsoft Technology Licensing, Llc | Depth-based object re-identification |
CN113591797A (zh) * | 2021-08-23 | 2021-11-02 | 苏州大学 | 一种深度视频行为识别方法 |
CN113610046A (zh) * | 2021-08-23 | 2021-11-05 | 苏州大学 | 一种基于深度视频联动特征的行为识别方法 |
Non-Patent Citations (1)
Title |
---|
HUANG YAO; YANG JIANYU; SHAO ZHANPENG; LI YOUFU: "Learning Motion Features from Dynamic Images of Depth Video for Human Action Recognition", 2021 27TH INTERNATIONAL CONFERENCE ON MECHATRONICS AND MACHINE VISION IN PRACTICE (M2VIP), IEEE, 26 November 2021 (2021-11-26), pages 258 - 263, XP033998823, DOI: 10.1109/M2VIP49856.2021.9665132 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116109630A (zh) * | 2023-04-10 | 2023-05-12 | 创域智能(常熟)网联科技有限公司 | 基于传感器采集和人工智能的图像分析方法及系统 |
CN117073586A (zh) * | 2023-10-17 | 2023-11-17 | 青岛迈朗格智能制造有限公司 | 一种同轴双轴转台机械轴平行度检测装置及方法 |
CN117073586B (zh) * | 2023-10-17 | 2024-01-09 | 青岛迈朗格智能制造有限公司 | 一种同轴双轴转台机械轴平行度检测装置及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113610046B (zh) | 2023-09-26 |
CN113610046A (zh) | 2021-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2023024658A1 (zh) | 一种基于深度视频联动特征的行为识别方法 | |
WO2022111236A1 (zh) | 一种结合注意力机制的面部表情识别方法及系统 | |
CN110555434B (zh) | 一种局部对比和全局指导的立体图像视觉显著性检测方法 | |
CN105631861B (zh) | 结合高度图从无标记单目图像中恢复三维人体姿态的方法 | |
WO2019227479A1 (zh) | 人脸旋转图像的生成方法及装置 | |
CN107463920A (zh) | 一种消除局部遮挡物影响的人脸识别方法 | |
CN107832672A (zh) | 一种利用姿态信息设计多损失函数的行人重识别方法 | |
CN110619638A (zh) | 一种基于卷积块注意模块的多模态融合显著性检测方法 | |
CN112801015B (zh) | 一种基于注意力机制的多模态人脸识别方法 | |
CN107203745B (zh) | 一种基于跨域学习的跨视角动作识别方法 | |
CN106204779A (zh) | 基于多人脸数据采集策略和深度学习的课堂考勤方法 | |
US20230118864A1 (en) | Lifted semantic graph embedding for omnidirectional place recognition | |
CN112766186B (zh) | 一种基于多任务学习的实时人脸检测及头部姿态估计方法 | |
JP2018055470A (ja) | 表情認識方法、表情認識装置、コンピュータプログラム及び広告管理システム | |
CN113221625A (zh) | 一种利用深度学习的局部特征对齐行人重识别方法 | |
CN113762009B (zh) | 一种基于多尺度特征融合及双注意力机制的人群计数方法 | |
WO2022227292A1 (zh) | 一种动作识别方法 | |
CN111488951B (zh) | 一种用于rgb-d图像分类的对抗度量学习模型生成方法 | |
CN113449691A (zh) | 一种基于非局部注意力机制的人形识别系统及方法 | |
CN106408009B (zh) | 基于深度置信网络的邻域加权平均高光谱图像分类方法 | |
CN111401113A (zh) | 一种基于人体姿态估计的行人重识别方法 | |
CN118351410A (zh) | 一种基于稀疏代理注意力的多模态三维检测方法 | |
CN114492634A (zh) | 一种细粒度装备图片分类识别方法及系统 | |
CN114663880A (zh) | 基于多层级跨模态自注意力机制的三维目标检测方法 | |
CN112508863B (zh) | 一种基于rgb图像和msr图像双通道的目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WWE | Wipo information: entry into national phase |
Ref document number: 18685227 Country of ref document: US |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 22860005 Country of ref document: EP Kind code of ref document: A1 |