WO2014146463A1

WO2014146463A1 - 一种基于隐结构推理的行为识别方法

Info

Publication number: WO2014146463A1
Application number: PCT/CN2013/089374
Authority: WO
Inventors: 黄凯奇; 张彰; 康运锋; 单言虎
Original assignee: 中国科学院自动化研究所
Priority date: 2013-03-19
Filing date: 2013-12-13
Publication date: 2014-09-25
Also published as: CN103136540A; CN103136540B

Abstract

本发明公开了一种基于隐结构推理的行为识别方法，包括以下歩骤：提取训练数据的局部特征并聚类，构建一个码本词袋，利用局部特征的时空分布建立码本之间的共生关系图，结合局部特征在人体上的分布特性推理出共生关系图中的隐结构并将其反馈到共生关系图中得到一个具有多层结构信息的图模型；利用图模型获取训练数据中局部特征的稳定性系数并构建训练数据的特征向量，训练分类器模型；提取未知视频中的局部特征，利用图模型计算其稳定性系数，构建视频的特征向量，用分类器进行分类。该方法通过研究人体结构特征来学习局部特征之间的结构信息，可以更好的对主体的行为进行描述。本方法可以用于公共安全领域，如异常行为检测等；也可用于人机交互。

Description

一种基于隐结构推理的行为识别方法技术领域本发明涉及模式识别和智能监控技术领域，特别涉及一种基于隐结构推理的行为识别方法。

背景技术近年来，随着科技的发展，越来越多的监控设备出现在我们周围。在一些公共场合，如机场、银行、广场等，监控设备的增多对公共安全的保障是显而易见的。但同时，大量的设备和海量的数据已经是不可能靠人力去控制的了，利用计算机去帮助我们自动分析和检测视频中出现的感兴趣内容并自动报警是科技进歩的标志，更是科技发展的必然。因此，对于真实场景中的行为进行理解对人工智能的发展具有重要的意义，为计算机视觉领域的一大热门研究方向。

行为识别方法就是利用计算机视觉技术自动的识别出视频中的行为主体在 "干什么"。虽然在近些年出现了很多行为识别方法，在一些简单的场景中，识别率可以达到接近百分之百，但这些方法对于真实场景下的数据的识别率一直受限，主要是因为真实场景数据存在着大量的光照变化、视角变化以及视频来源的不确定性，这些原因成为了行为识别方法从理论到应用的一个障碍。因此，怎样使运动主体的局部特征更加显著成为对真实场景中的行为进行识别的关键。

一些近期的研究表明，局部特征之间存在着多层的结构信息，这些结构信息可以从更全局的角度去对研究对象进行描述。基于结构的特征描述方法也在其它领域得到成功的应用，如部件模型在物体分类和检测上已经做了很多的工作。一些基于结构的行为识别方法也被提出，但识别结果不是很高，究其原因是结构缺少明确的物理含义。因此，基于结构的行为识别方法需要对行为主体的运动形式进行分析，这样才能更好的对主体的运动进行有效的表达。发明内容为了解决现有技术存在的问题，本发明提出了一种基于隐结构推理的行为识别方法。本方法受人体的结构特征启发，能够将运动主体的局部特征与来自背景的干扰特征分开，有效的提高了行为的表达能力和识别率。

本发明提出一种基于隐结构推理的行为识别方法，该方法包括以下歩骤：

一种基于隐结构推理的行为识别方法，其特征在于，该方法包括以下歩骤：

歩骤 1，提取训练视频数据中每一行为类别的所有视频的局部特征; 歩骤 2，对所述歩骤 1得到的每一行为类别的局部特征分别进行聚类，得到 n个聚类中心，所述 n个聚类中心作为特征码本构成一个词袋，并且用距离一局部特征最近的码本作为该局部特征的标记；

歩骤 3，利用每一行为类别所对应的词袋中不同的特征码本在训练数据中的时空分布，构建一个描述各个特征码本之间联系的共生关系图 G;

歩骤 4，对每一行为类别所对应的共生关系图 G，找出所述共生关系图 G中隐藏的结构信息；

歩骤 5，将得到的隐藏的结构信息反馈到每一个共生关系图 G中，以使之优化成一个具有多层结构信息的结构化共生关系图模型

歩骤 6，利用所述结构化共生关系图模型 ^计算每个局部特征点的稳定性系数；

歩骤 7，基于具有同一码本标识的所有局部特征点的稳定性系数得到所述训练视频数据最终的行为特征；

歩骤 8，利用所有训练视频数据的行为特征学习得到一个分类器模型；

歩骤 9，提取每一测试视频的局部特征，并根据所述歩骤 6、 7提取得到所述测试视频的行为特征，将提取得到的行为特征送入所述歩骤 8 得到的分类器模型中进行分类识别，得到分类识别结果。

根据本发明的方法，可以对复杂场景中的行为进行识别分类，具有很好的鲁棒性。本发明中的方法以人体的结构特征为指导，提出的隐结构可以很好的将背景和行为主体上的局部特征分开，有效的提高了特征对行为主体的行为表达能力。

附图说明图 1是本发明基于隐结构推理的行为识别方法流程图；

图 2是局部特征点在人体的分布示意图；

图 3是根据本发明一实施例的子图示意图；

图 4是反应部件与部件以及部件之间联系的两种极端结构示意图。

具体实施方式为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一歩详细说明。

图 1为本发明基于隐结构推理的行为识别方法流程图，如图 1所示，本发明所提出的基于隐结构推理的行为识别方法包括以下歩骤：

歩骤 1，提取训练视频数据中每一行为类别的所有视频的局部特征; 所述局部特征是指描述对象局部信息的特征。在基于图像序列的行为识别领域里，有很多对局部时空特征进行检测和描述的现有技术，比如：

首先，利用局部特征检测子检测图像序列中能够反应行为变化的兴趣点，常用的检测子有 Harris3D检测子、 Cuboid检测子等；

接着，利用局部特征描述子对检测到的兴趣点进行特征描述，常用的描述子有 HOG/HOF描述子和 HOG3D描述子等。歩骤 2，对所述歩骤 1得到的每一行为类别的局部特征分别进行聚类，得到 n个聚类中心，将这 n个聚类中心作为特征码本，这些码本在一起构成了一个词袋，对于每一个局部特征，用距离其最近的码本作为该局部特征的标记，这样所有的行为类别都可以得到相应的词袋；

该歩骤中，可使用现有技术中的 K-means聚类方法对局部特征进行聚类。 K-means聚类方法的基本过程如下所描述：首先从 n个数据样本点中任意选择 k个对象作为初始聚类中心；对于 -剩下的其它对象，根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）类;然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到新的聚类中心与老的聚类中心之间的差异收敛为止。歩骤 3，对于每一行为类别所对应的词袋，利用其不同的特征码本在训练数据中的时空分布，构建一个描述各个特征码本之间联系的图，即共生关系图；

所述歩骤 3进一歩包括以下歩骤：

歩骤 3.1，对于所述歩骤 2 中每一个带有标记的局部特征，找到时空上距离其最近的 M个局部特征点（比如 10个）作为其共生点，该局部特征点与与其邻近的 M个局部特征点在它们所对应的码本之间构成了 M个码本共生点对；

其中，局部特征点之间的时空距离定义为： = ^7^，其中， d_u ^s = ^( . - x . + {_Yl - y . 为两个特征点在 X 空间上的距离， =1 t_i - t . I为两个特征点在时间空间上的距离， (x_t, y_h 、 Cxj, y_p φ 分别为两个局部特征点的空间和时间位置， 7为空间和时间的尺度平衡系数，在本发明一实施例中，该平衡系数取为 3。

歩骤 3.2，计算所有局部特征点所对应的共生点对集；

歩骤 3.3，利用所述歩骤 3.2得到的共生点对集，统计不同码本之间共生的频率，即每个共生点对出现的个数；

歩骤 3.4，以所有码本作为节点，不同码本之间的共生频率作为对应节点之间的边的权重，构建一个图；

歩骤 3.5，对所述歩骤 3.4中得到的图中所有边的权重归一化，并只保留与每一个节点连接的权重最大的预定数量（比如 10 条）边，从而构成最终的共生关系图。歩骤 4，对每一行为类别所对应的共生关系图，找出所述共生关系图中隐藏的结构信息；

所述歩骤 4中，利用基于香农熵的结构推理方法找出所述共生关系图 G中隐藏的结构信息。

所述歩骤 4进一歩包括以下歩骤：

本发明提出了一种基于香农熵的结构推理方法同时找到所述共生关系图中两种互补的结构，所述两种互补的结构是以局部特征在人体上的分布特点为先验来定义的，其更能反映运动主体的物理特性。

图 2a、图 2b为局部特征点在人体的分布示意图，其中，每个局部特征点能够表示局部的运动信息。在这些特征点中，可以看到有两种结构：第一种是人体部件与部件之间的结构信息，如图 2b 中的粗线连接了人体的两个不同部件；第二种是每个部件内部的结构信息，如图 2b 中的细线连接了一个部件内部局部特征点。这两种结构信息从不同的层次上描述了人体的行为特性。因此，本发明试图从所述共生关系图中找出这两种结构。

对于一个给定的图 G, 可以对图中的每一条边构建一个子图 g (如图 3所示），该子图是由边上的两个节点 ( u， v) 以及与 ( u， v)相连的所有的节点和所有的边所组成的。图 3中，除《和1外的其它节点可分为三个部分：只与 _M连接的节点集 S_u，只与 V连接的节点集 5，以及与 u 和 _V同时连接的节点集 5_e。本发明定义连接每个边的两个节点的两种不同的路径来描述上述两种不同的结构。第一种路径是从 u经过 ^到 V，这种路径可以反映 v)在图中所包含的部件内部的连接关系，该种路径的条数记为 E。第二种路径是从 5_U经过 u, v)到达 5，如 ( a, u, v， e ) 等，这种路径能够描述 u, v)在图中所包含的部件与部件之间的连接关系，这里将子图中所符合此类路径的路径条数记为 N。不难发现，当 N 很大，很小的时候，可以对应到图 4a所显示的结构；当 N很小，很大的时候，可以对应到图 4b所显示的结构。这两种结构是与前面提到的两种结构对应的两种极限。设定某一条路径属于第一种路径的概率为 P, 为了从图 G中找到符合这两种结构的子图，本发明定义了一个结构

R(g) = max p^E(l - p)^N (1) 该结构变量可用来描述子图包含所述两种结构信息的强弱。

通过求导可知，当具有定值的 p，即 = £/(£ + Λ 时， / )可以达到最大。通过对 / )达到最大值时的表达式取对数可得：

\ogR(g) = -(E + N)H(p) (2) 其中，

H(p) = - log( ) - (1 - ) log(l - ) (3) 为香农熵，其特征是当接近于 0或 1时， )可以达到最小。结合公式（2 ) 可知，当接近于 0或 1时，即 N很大很小，或者 N很小很大时， log/ ^)可以达到最大值，即/ 达到最大值。因此，可以利用/ 来描述子图 g属于前面提到的两种结构的程度。

由于图 G中的每条边都可以对应一个子图，因此，每一个子图的结构变量值也可以表示对应边周围的结构信息。本发明方法称通过这种结构变量来描述的结构为隐结构。

本发明将/ )进一歩定义为：

R(g) = max p^E (1 - _Py^w(u'^{v) N} , (4) 其中，为对应边在共生关系图中的权重。

对公式 1进行改进的原因将在歩骤 5中阐明。歩骤 5，对于每一个共生关系图，将得到的隐结构反馈到所述共生关系图中，以使之优化成一个具有多层结构信息的结构化共生关系图模型 G_{i ;}

对于一个共生关系图，其每条边都有一个权重，同时，通过所述歩骤 4可以得到每条边所对应子图的结构变量值。本发明将所述歩骤 4中得到的每条边所对应的结构变量反馈到每条边上，用于优化原共生关系图中每条边的权重。定义共生关系图中连接节点 a 和 V 的边的权重为

W(U, V) , 其对应的结构变量为 /? (U, 17)，则优化后的权重为

w' (u, v) = w(u, v)(l + R(u, v)). (5) 如果按公式 1进行定义，会出现一种情况：当一条边在的本身很高，同时该边所对应的子图又符合要找的两种结构，即/ ?0)比较大，这样，就会很大。如果最后对所有的权重归一化，那些只包含一种信息（即共生关系信息或者结构信息）的边就会变的很小。为了避免这种情况，本发明在所述歩骤 4中采用公式 4所描述的结构变量。公式 4 的特点是：当很大的时候，即使子图结构信息比较强，结构变量的值也不会很大。这样，拥有共生关系信息和结构信息的边的权重将和拥有一种信息的边的权重保持在一个水平上，通过最终的归一化操作，可以与那些不包含任何信息的边的权重明显的区分开。

本发明称优化以后的图为结构化的共生关系图模型。歩骤 6，利用所述结构化共生关系图模型 ^来计算每个局部特征点的稳定性系数；

通过前面 5个歩骤，可以得到不同行为类别对应的词袋 ( 和结构化的共生关系图模型 ^。接下来需要利用所述结构化共生关系图模型^ 来计算每个局部特征点的稳定性系数。

所述歩骤 6进一歩包括以下歩骤：

歩骤 61，提取训练视频数据和测试视频数据中每一行为类别的所有视频的局部特征；

歩骤 62，对所述歩骤 61得到的局部特征分别进行聚类，将得到的 n个聚类中心作为特征码本构成一个词袋，并且用距离一局部特征最近的码本作为该局部特征的标记；

歩骤 63，对于每一个带有标记的局部特征点，找到时空上距离其最近的 M'个局部特征点作为其共生点，其中 M'可以等于 M也可以不等于 M，该局部特征点与与其邻近的所述 M'个局部特征点在它们所对应的码本之间构成了 M'个码本共生点对；

歩骤 64，将所得到的共生点对在所述结构化共生关系图模型^上所对应的边的权重进行加和，得到描述相应局部特征点的稳定性系数。

通过这种方式，每个局部特征点在 ^：和^下都可以得到一个稳定性系数。歩骤 7，基于具有同一码本标识的所有局部特征点的稳定性系数得到所述训练视频数据最终的行为特征，所述歩骤 7具体为：基于所述歩骤 6 中每个局部特征点在任一类行为的词袋和结构化的共生关系图 ^中得到的稳定性系数，将具有同一码本标识的所有局部特征点的稳定性系数进行累加，得到各个码本的分布直方图，视频中的局部特征点在不同类别的词袋和结构化共生关系图模型下可以得到不同的码本分布直方图，将所有得到的分布直方图首尾连接起来，构成一个直方图链，作为所述训练视频数据最终的行为特征；歩骤 8，利用所述歩骤 7得到的所有训练视频数据的行为特征学习得到一个分类器模型；

通过所述歩骤 7，可以得到所有训练视频数据的行为特征，将这些行为特征送入基于径向基（RBF) 核的支持向量机（SVM) 中学习可以得到一个多类的分类器。

支持向量机（Support Vector Machines) 是在统计学习理论上发展起来的一种新的方法。支持向量机的基本思想是通过非线性映射，把样本空间映射到一个高维乃至无穷维的特征空间，使得在特征空间中可以应用线性学习机的方法解决样本空间中的高度非线性的分类和回归问题。支持向量机能较好地解决小样本、非线性、高维数和局部极小点等实际问题。

使用支持向量机的关键歩骤是选择核函数，有多种核函数可以选择，比如线性、多项式、径向基函数和 sigmod等。通过比较实验，发现径向基函数（RBF) 具有最好的识别率，因此本发明选用径向基函数进行训练和识别。歩骤 9，对于每一个测试视频，提取其局部特征，并利用所述歩骤 6、 7的方法提取得到所述测试视频的行为特征，将提取得到的行为特征送入所述歩骤 8得到的分类器模型中进行分类识别，得到分类识别结果。

为了验证本发明方法的有效性，使用当前最大的两个真实场景数据库 HMDB和 UCF50对本发明方法进行了测试，实验表明，本发明方法可以有效的将行为主体上的局部特征从背景中区分出来，具有很强的鲁棒性。

综上，本发明提出了一种基于隐结构推理的识别方案。本发明结合了人体的结构特性，能够有效的解决真实场景下行为数据的复杂性问题，对于行为识别技术从理论发展到实际应用具有重要的意义。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一歩详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

权利要求

1、一种基于隐结构推理的行为识别方法，其特征在于，该方法包括以下歩骤：

2、根据权利要求 1所述的方法，其特征在于，所述歩骤 1进一歩包括以下歩骤：

歩骤 11，利用局部特征检测子检测图像序列中能够反应行为变化的兴趣点；

歩骤 12，利用局部特征描述子对检测到的兴趣点进行特征描述。歩骤 3.1，对于每一个带有标记的局部特征点，找到时空上距离其最近的 M个局部特征点作为其共生点，该局部特征点与与其邻近的所述 M个局部特征点在它们所对应的码本之间构成了 M个码本共生点对；歩骤 3.2，计算所有局部特征点所对应的共生点对集；

歩骤 3.

3，利用所述歩骤 3.2得到的共生点对集，统计不同码本之间共生的频率，即每个共生点对出现的个数；

歩骤 3.5，对所述歩骤 3.4中得到的图中所有边的权重归一化，并只保留与每一个节点连接的权重最大的预定数量边，从而构成最终的共生关系图。

4、根据权利要求 3 所述的方法，其特征在于，局部特征点之间的时空距离定义为：

其中， = - x + ( , - 为两个特征点在 X 空间上的距离， =1 t_i - t . I为两个特征点在时间空间上的距离， (x_t, y_h 、 Cxj, y_p φ 分别为两个局部特征点的空间和时间位置， 7为空间和时间的尺度平衡

5、根据权利要求 1所述的方法，其特征在于，所述歩骤 4中，利用基于香农熵的结构推理方法找出所述共生关系图 G 中隐藏的结构信息，所述基于香农熵的结构推理方法中，利用结构变量的值来表示共生关系图 G中对应边周围的隐结构信息，所述结构变量表示为：

R (g) = max (1― p)

其中， g表示对共生关系图 G中每一条边构建得到的子图， E、 N分别为连接每个边的两个节点 ( u, v) 的两种不同的路径的条数， p表示某一条路径属于第一种路径的概率。

6、根据权利要求 5 所述的方法，其特征在于，所述子图由共生关系图 G中对应边上的两个节点（_M，V ) 以及与（_M，V ) 相连的所有的节点和所有的边组成。

7、根据权利要求 5所述的方法，其特征在于，所述结构变量进一歩表示为：

R(g) = max _V ^E {1 - _Vy^{wM N} ,

其中，为连接节点 U和 V的边在共生关系图 G中的权重。

8、根据权利要求 7 所述的方法，其特征在于，所述结构化共生关系图模型^中，优化后的权重表示为：

w'(u, v) = w(u, v)(l + R(g))。

9、根据权利要求 1所述的方法，其特征在于，所述歩骤 6进一歩包括以下歩骤：

歩骤 63，对于每一个带有标记的局部特征点，找到时空上距离其最近的 M'个局部特征点作为其共生点，该局部特征点与与其邻近的所述 M'个局部特征点在它们所对应的码本之间构成了 M'个码本共生点对；歩骤 64，将所得到的共生点对在所述结构化共生关系图模型^上所对应的边的权重进行加和，得到描述相应局部特征点的稳定性系数。

10、根据权利要求 1所述的方法，其特征在于，所述歩骤 7具体为：将具有同一码本标识的所有局部特征点的稳定性系数进行累加，得到各个码本的分布直方图，将所有分布直方图首尾连接起来构成一个直方图链，作为所述训练视频数据最终的行为特征。