WO2014146463A1 - 一种基于隐结构推理的行为识别方法 - Google Patents

一种基于隐结构推理的行为识别方法 Download PDF

Info

Publication number
WO2014146463A1
WO2014146463A1 PCT/CN2013/089374 CN2013089374W WO2014146463A1 WO 2014146463 A1 WO2014146463 A1 WO 2014146463A1 CN 2013089374 W CN2013089374 W CN 2013089374W WO 2014146463 A1 WO2014146463 A1 WO 2014146463A1
Authority
WO
WIPO (PCT)
Prior art keywords
local feature
relationship graph
symbiotic relationship
symbiotic
local
Prior art date
Application number
PCT/CN2013/089374
Other languages
English (en)
French (fr)
Inventor
黄凯奇
张彰
康运锋
单言虎
Original Assignee
中国科学院自动化研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中国科学院自动化研究所 filed Critical 中国科学院自动化研究所
Publication of WO2014146463A1 publication Critical patent/WO2014146463A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • G06V10/426Graphical representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations

Definitions

  • the present invention relates to the field of pattern recognition and intelligent monitoring technologies, and in particular to a behavior recognition method based on implicit structure reasoning.
  • the behavior recognition method is to use computer vision technology to automatically recognize the behavior of the subject in the video.
  • many behavior recognition methods have appeared in recent years, in some simple scenarios, the recognition rate can reach nearly 100%, but the recognition rate of data in real scenes has been limited, mainly because the real scene data exists.
  • a large number of illumination changes, changes in viewing angles, and uncertainty in video sources have become an obstacle to the theory and application of behavioral recognition methods. Therefore, how to make the local features of the moving subject more prominent becomes the key to identifying the behavior in the real scene.
  • the present invention proposes a behavior recognition method based on implicit structure inference.
  • the method is inspired by the structural features of the human body, and can separate the local features of the moving subject from the interference features from the background, effectively improving the expression ability and recognition rate of the behavior.
  • the invention provides a behavior recognition method based on implicit structure inference, the method comprising the following steps:
  • a behavior recognition method based on implicit structure inference characterized in that the method comprises the following steps:
  • Step 1 extract local features of all videos of each behavior category in the training video data.
  • Step 2 respectively cluster local features of each behavior category obtained in the step 1 to obtain n cluster centers The n cluster centers form a word bag as a feature codebook, and use a codebook closest to a local feature as a mark of the local feature;
  • Step 3 construct a symbiotic relationship graph G describing the relationship between the respective feature codebooks by using the spatio-temporal distribution of different feature codebooks in the word bag corresponding to each behavior category in the training data;
  • Step 4 Find the hidden structural information in the symbiotic relationship graph G for the symbiotic relationship graph G corresponding to each behavior category;
  • Step 5 Feeding the obtained hidden structure information into each symbiotic relationship graph G to optimize it into a structured symbiotic relationship graph model with multi-layer structure information
  • Step 6 using the structured symbiotic relationship graph model ⁇ to calculate the stability coefficient of each local feature point;
  • Step 7 obtaining a final behavior characteristic of the training video data based on stability coefficients of all local feature points having the same codebook identifier
  • Step 8 Learning a behavior model of all training video data to obtain a classifier model
  • Step 9 extracting local features of each test video, and extracting according to the steps 6, 7 Obtaining the behavior characteristic of the test video, and sending the extracted behavior feature into the classifier model obtained in step 8 for classification and identification, and obtaining the classification recognition result.
  • the behaviors in complex scenes can be classified and classified, which is very robust.
  • the method of the present invention is guided by the structural characteristics of the human body, and the proposed implicit structure can well separate the local features of the background and the behavior subject, and effectively improve the behavioral expression ability of the feature to the behavior subject.
  • FIG. 1 is a flow chart of a behavior recognition method based on implicit structure inference according to the present invention
  • FIG. 2 is a schematic view showing the distribution of local feature points in the human body
  • FIG. 3 is a schematic diagram of a sub-picture according to an embodiment of the invention.
  • Figure 4 is a schematic illustration of two extreme structures of the relationship between the reactive components and the components and components.
  • FIG. 1 is a flowchart of a behavior recognition method based on implicit structure inference according to the present invention. As shown in FIG. 1 , the behavior recognition method based on implicit structure inference proposed by the present invention includes the following steps:
  • Step 1 Extract local features of all videos of each behavior category in the training video data; the local features refer to features describing local information of the object.
  • the local features refer to features describing local information of the object.
  • the local feature detector is used to detect the interest points in the image sequence that can reflect the change of the behavior.
  • the commonly used detectors include a Harris3D detector, a Cuboid detector, and the like;
  • Step 2 clustering the local features of each behavior category obtained in the step 1 to obtain n cluster centers, and using the n cluster centers as feature codebooks, the codebooks are formed together a word bag, for each local feature, the nearest codebook is used as the mark of the local feature, so that all the action categories can get the corresponding word bag;
  • Step 3 For each word bag corresponding to the behavior category, use the spatio-temporal distribution of the different feature codebooks in the training data to construct a graph describing the relationship between the respective feature codebooks, that is, the symbiotic relationship diagram;
  • the step 3 further includes the following steps:
  • Step 3.1 for each of the marked local features in the step 2, find the nearest M local feature points (such as 10) in time and space as their symbiotic points, and the local feature points are adjacent to the same M local feature points form M codebook symbiotic point pairs between their corresponding codebooks;
  • M local feature points such as 10
  • Step 3.2 Calculate a set of symbiotic point pairs corresponding to all local feature points
  • Step 3.3 using the symbiotic point pair set obtained in step 3.2, counting the frequency of symbiosis between different codebooks, that is, the number of occurrences of each symbiotic point pair;
  • Step 3.4 using all codebooks as nodes, the symbiosis frequency between different codebooks as a pair Construct a graph based on the weight of the edges between the nodes;
  • Step 3.5 normalizing the weights of all the edges in the graph obtained in step 3.4, and retaining only a predetermined number (for example, 10) of edges with the largest weight connected to each node, thereby forming a final symbiotic relationship Figure.
  • Step 4 Find the hidden structural information in the symbiotic relationship graph for the symbiotic relationship map corresponding to each behavior category;
  • the structural reasoning method based on Shannon entropy is used to find the hidden structure information in the symbiotic relationship graph G.
  • the step 4 further includes the following steps:
  • the invention proposes a structure inference method based on Shannon entropy and simultaneously finds two complementary structures in the symbiotic relationship diagram, the two complementary structures are defined by a priori distribution of local features on the human body. , it can better reflect the physical characteristics of the moving subject.
  • FIGS. 2a and 2b are schematic diagrams showing the distribution of local feature points in the human body, wherein each local feature point can represent local motion information.
  • the first one is the structural information between the human body parts and the parts, the thick line in Figure 2b connects the two different parts of the human body; the second is each The structural information inside the part, as shown by the thin line in Figure 2b, connects a local feature point inside the part.
  • These two structural information describe the behavioral characteristics of the human body from different levels. Accordingly, the present invention seeks to find both structures from the symbiotic relationship map.
  • a subgraph g (shown in Figure 3) can be constructed for each edge of the graph, which is represented by two nodes (u, v) and (u, v) All nodes connected and all sides are connected.
  • other nodes except "and 1" can be divided into three parts: a node set S u connected only to M , a node set 5 connected only to V, and a node set 5 e connected simultaneously with u and V .
  • the present invention defines two different paths connecting the two nodes of each side to describe the two different structures described above. The first path is from u through V to a path that reflects v) the internal connection of the components contained in the figure. The number of such paths is denoted as E.
  • the second path is from 5 U through u, v) to 5, such as ( a, u, v, e ), etc., such a path can describe u, v) the connection between the components and components included in the figure turn off Department, here the number of paths in the subgraph that match such a path is denoted as N. It is not difficult to find that when N is large and small, it can correspond to the structure shown in Figure 4a; when N is small and large, it can correspond to the structure shown in Figure 4b. These two structures are the two limits corresponding to the two structures mentioned above.
  • the probability that a certain path belongs to the first path is P.
  • the present invention defines a structure.
  • each edge in the graph G can correspond to a subgraph
  • the value of the structure variable of each subgraph can also represent the structural information around the corresponding edge.
  • the method of the present invention refers to a structure described by such a structural variable as a hidden structure.
  • the present invention defines /) as:
  • R(g) max p E (1 - P y w(u ' v) N , (4) where is the weight of the corresponding edge in the symbiotic relationship graph.
  • Step 5 For each symbiotic relationship graph, the obtained implicit structure is fed back into the symbiotic relationship graph to optimize it into a structured symbiotic relationship graph model G i having multi-layer structure information ;
  • each side has a weight, and at the same time, through the ⁇ Step 4 can get the value of the structure variable of the subgraph corresponding to each edge.
  • the invention feeds back the structural variables corresponding to each edge obtained in the step 4 to each edge, and optimizes the weight of each edge in the original symbiotic relationship diagram. Define the weight of the edges connecting nodes a and V in the symbiotic relationship diagram to
  • Equation 4 The characteristic of Equation 4 is: When it is very large, even if the subgraph structure information is strong, the value of the structure variable will not be large.
  • the weight of the edge with symbiotic relationship information and structural information will be kept at a level with the weight of the edge that holds the information.
  • the weights of the edges that do not contain any information can be significantly weighted. differentiate.
  • the invention is referred to as a structured symbiotic relationship graph model after optimization. Step 6, using the structured symbiotic relationship graph model ⁇ to calculate a stability coefficient of each local feature point;
  • the step 6 further includes the following steps:
  • Step 61 Extract local features of all videos of each behavior category in the training video data and the test video data;
  • Step 62 Perform clustering on the local features obtained in the step 61, and use the obtained n cluster centers as a feature codebook to form a word bag, and use the codebook closest to the local feature as the local feature. Mark
  • Step 63 For each local feature point with a mark, find the nearest M' local feature points in time and space as its symbiotic point, where M' may be equal to M or not equal to M, the local feature point and the M' local feature points adjacent thereto form an M' codebook symbiotic point pair between their corresponding codebooks;
  • Step 64 The obtained symbiotic points are added to the weights of the edges corresponding to the structured symbiotic relationship graph model ⁇ , and the stability coefficients describing the corresponding local feature points are obtained.
  • each local feature point can get a stability factor under ⁇ : and ⁇ .
  • Step 7 Obtain a final behavior characteristic of the training video data based on a stability coefficient of all local feature points having the same codebook identifier, where the step 7 is specifically: based on each local feature point in the step 6
  • the stability coefficient obtained in the word bag of any type of behavior and the structured symbiotic relationship graph ⁇ , the stability coefficients of all local feature points having the same codebook identifier are accumulated, and the distribution histogram of each codebook is obtained, video
  • the local feature points in the different categories of word pouches and structured symbiosis diagram models can get different codebook distribution histograms, and all the obtained distribution histograms are connected end to end to form a histogram chain as the training.
  • Step 8 learning a behavioral feature of all the training video data obtained in the step 7 to obtain a classifier model;
  • the behavior characteristics of all training video data can be obtained, and the behavior characteristics are fed into a radial basis (RBF) kernel-based support vector machine (SVM) to obtain a multi-class classifier.
  • RBF radial basis
  • SVM support vector machine
  • Support Vector Machines is a new approach to the development of statistical learning theory.
  • the basic idea of SVM is to map the sample space to a feature space of high-dimensional or even infinite dimension through nonlinear mapping, so that the linear learning machine can be applied to the feature space to solve the highly nonlinear classification in the sample space.
  • Support vector machines can better solve practical problems such as small samples, nonlinearities, high dimensionality and local minimum points.
  • the key step in using a support vector machine is to choose a kernel function.
  • kernel functions there are a variety of kernel functions to choose from, such as linear, polynomial, radial basis functions, and sigmod.
  • the basis function (RBF) has the best recognition rate, so the present invention selects the radial basis function for training and recognition.
  • Step 9 for each test video, extract its local features, and extract the behavior characteristics of the test video by using the methods of steps 6, 7, and send the extracted behavior features to the step 8 to obtain
  • the classification function is performed in the classifier model to obtain the classification recognition result.
  • the method of the present invention is tested using two current real scene databases HMDB and UCF50.
  • HMDB current real scene databases
  • UCF50 current real scene databases
  • the present invention proposes an identification scheme based on implicit structure inference.
  • the invention combines the structural characteristics of the human body and can effectively solve the complexity problem of the behavior data in the real scene, and has important significance for the behavior recognition technology from theoretical development to practical application.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于隐结构推理的行为识别方法,包括以下歩骤:提取训练数据的局部特征并聚类,构建一个码本词袋,利用局部特征的时空分布建立码本之间的共生关系图,结合局部特征在人体上的分布特性推理出共生关系图中的隐结构并将其反馈到共生关系图中得到一个具有多层结构信息的图模型;利用图模型获取训练数据中局部特征的稳定性系数并构建训练数据的特征向量,训练分类器模型;提取未知视频中的局部特征,利用图模型计算其稳定性系数,构建视频的特征向量,用分类器进行分类。该方法通过研究人体结构特征来学习局部特征之间的结构信息,可以更好的对主体的行为进行描述。本方法可以用于公共安全领域,如异常行为检测等;也可用于人机交互。

Description

一种基于隐结构推理的行为识别方法 技术领域 本发明涉及模式识别和智能监控技术领域, 特别涉及一种基于隐结 构推理的行为识别方法。
背景技术 近年来, 随着科技的发展, 越来越多的监控设备出现在我们周围。 在一些公共场合, 如机场、 银行、 广场等, 监控设备的增多对公共安全 的保障是显而易见的。 但同时, 大量的设备和海量的数据已经是不可能 靠人力去控制的了, 利用计算机去帮助我们自动分析和检测视频中出现 的感兴趣内容并自动报警是科技进歩的标志, 更是科技发展的必然。 因 此, 对于真实场景中的行为进行理解对人工智能的发展具有重要的意义, 为计算机视觉领域的一大热门研究方向。
行为识别方法就是利用计算机视觉技术自动的识别出视频中的行 为主体在 "干什么"。 虽然在近些年出现了很多行为识别方法, 在一些 简单的场景中, 识别率可以达到接近百分之百, 但这些方法对于真实场 景下的数据的识别率一直受限, 主要是因为真实场景数据存在着大量的 光照变化、 视角变化以及视频来源的不确定性, 这些原因成为了行为识 别方法从理论到应用的一个障碍。 因此, 怎样使运动主体的局部特征更 加显著成为对真实场景中的行为进行识别的关键。
一些近期的研究表明, 局部特征之间存在着多层的结构信息, 这些 结构信息可以从更全局的角度去对研究对象进行描述。 基于结构的特征 描述方法也在其它领域得到成功的应用, 如部件模型在物体分类和检测 上已经做了很多的工作。 一些基于结构的行为识别方法也被提出, 但识 别结果不是很高, 究其原因是结构缺少明确的物理含义。 因此, 基于结 构的行为识别方法需要对行为主体的运动形式进行分析, 这样才能更好 的对主体的运动进行有效的表达。 发明内容 为了解决现有技术存在的问题, 本发明提出了一种基于隐结构推理 的行为识别方法。 本方法受人体的结构特征启发, 能够将运动主体的局 部特征与来自背景的干扰特征分开, 有效的提高了行为的表达能力和识 别率。
本发明提出一种基于隐结构推理的行为识别方法, 该方法包括以下 歩骤:
一种基于隐结构推理的行为识别方法, 其特征在于, 该方法包括以 下歩骤:
歩骤 1,提取训练视频数据中每一行为类别的所有视频的局部特征; 歩骤 2, 对所述歩骤 1得到的每一行为类别的局部特征分别进行聚 类,得到 n个聚类中心,所述 n个聚类中心作为特征码本构成一个词袋, 并且用距离一局部特征最近的码本作为该局部特征的标记;
歩骤 3, 利用每一行为类别所对应的词袋中不同的特征码本在训练 数据中的时空分布, 构建一个描述各个特征码本之间联系的共生关系图 G;
歩骤 4, 对每一行为类别所对应的共生关系图 G, 找出所述共生关 系图 G中隐藏的结构信息;
歩骤 5, 将得到的隐藏的结构信息反馈到每一个共生关系图 G中, 以使之优化成一个具有多层结构信息的结构化共生关系图模型
歩骤 6, 利用所述结构化共生关系图模型 ^计算每个局部特征点的 稳定性系数;
歩骤 7, 基于具有同一码本标识的所有局部特征点的稳定性系数得 到所述训练视频数据最终的行为特征;
歩骤 8, 利用所有训练视频数据的行为特征学习得到一个分类器模 型;
歩骤 9, 提取每一测试视频的局部特征, 并根据所述歩骤 6、 7提取 得到所述测试视频的行为特征, 将提取得到的行为特征送入所述歩骤 8 得到的分类器模型中进行分类识别, 得到分类识别结果。
根据本发明的方法, 可以对复杂场景中的行为进行识别分类, 具有 很好的鲁棒性。 本发明中的方法以人体的结构特征为指导, 提出的隐结 构可以很好的将背景和行为主体上的局部特征分开, 有效的提高了特征 对行为主体的行为表达能力。
附图说明 图 1是本发明基于隐结构推理的行为识别方法流程图;
图 2是局部特征点在人体的分布示意图;
图 3是根据本发明一实施例的子图示意图;
图 4是反应部件与部件以及部件之间联系的两种极端结构示意图。
具体实施方式 为使本发明的目的、 技术方案和优点更加清楚明白, 以下结合具体 实施例, 并参照附图, 对本发明进一歩详细说明。
图 1为本发明基于隐结构推理的行为识别方法流程图,如图 1所示, 本发明所提出的基于隐结构推理的行为识别方法包括以下歩骤:
歩骤 1,提取训练视频数据中每一行为类别的所有视频的局部特征; 所述局部特征是指描述对象局部信息的特征。 在基于图像序列的行 为识别领域里, 有很多对局部时空特征进行检测和描述的现有技术, 比 如:
首先, 利用局部特征检测子检测图像序列中能够反应行为变化的兴 趣点, 常用的检测子有 Harris3D检测子、 Cuboid检测子等;
接着, 利用局部特征描述子对检测到的兴趣点进行特征描述, 常用 的描述子有 HOG/HOF描述子和 HOG3D描述子等。 歩骤 2, 对所述歩骤 1得到的每一行为类别的局部特征分别进行聚 类, 得到 n个聚类中心, 将这 n个聚类中心作为特征码本, 这些码本在 一起构成了一个词袋, 对于每一个局部特征, 用距离其最近的码本作为 该局部特征的标记, 这样所有的行为类别都可以得到相应的词袋;
该歩骤中, 可使用现有技术中的 K-means聚类方法对局部特征进行 聚类。 K-means聚类方法的基本过程如下所描述: 首先从 n个数据样本 点中任意选择 k个对象作为初始聚类中心; 对于 -剩下的其它对象, 根据 它们与这些聚类中心的相似度 (距离), 分别将它们分配给与其最相似 的(聚类中心所代表的)类;然后再计算每个所获新聚类的聚类中心(该 聚类中所有对象的均值); 不断重复这一过程直到新的聚类中心与老的 聚类中心之间的差异收敛为止。 歩骤 3, 对于每一行为类别所对应的词袋, 利用其不同的特征码本 在训练数据中的时空分布, 构建一个描述各个特征码本之间联系的图, 即共生关系图;
所述歩骤 3进一歩包括以下歩骤:
歩骤 3.1, 对于所述歩骤 2 中每一个带有标记的局部特征, 找到时 空上距离其最近的 M个局部特征点 (比如 10个) 作为其共生点, 该局 部特征点与与其邻近的 M个局部特征点在它们所对应的码本之间构成 了 M个码本共生点对;
其中,局部特征点之间的时空距离定义为: = ^7^,其中, du s = ^( . - x . + {Yl - y . 为两个特征点在 X 空间上的距离, =1 ti - t . I为两个特征点在时间空间上的距离, (xt, yh 、 Cxj, yp φ 分别为两个局部特征点的空间和时间位置, 7为空间和时间的尺度平衡 系数, 在本发明一实施例中, 该平衡系数取为 3。
歩骤 3.2, 计算所有局部特征点所对应的共生点对集;
歩骤 3.3, 利用所述歩骤 3.2得到的共生点对集, 统计不同码本之间 共生的频率, 即每个共生点对出现的个数;
歩骤 3.4, 以所有码本作为节点, 不同码本之间的共生频率作为对 应节点之间的边的权重, 构建一个图;
歩骤 3.5, 对所述歩骤 3.4中得到的图中所有边的权重归一化, 并只 保留与每一个节点连接的权重最大的预定数量 (比如 10 条) 边, 从而 构成最终的共生关系图。 歩骤 4, 对每一行为类别所对应的共生关系图, 找出所述共生关系 图中隐藏的结构信息;
所述歩骤 4中, 利用基于香农熵的结构推理方法找出所述共生关系 图 G中隐藏的结构信息。
所述歩骤 4进一歩包括以下歩骤:
本发明提出了一种基于香农熵的结构推理方法同时找到所述共生 关系图中两种互补的结构, 所述两种互补的结构是以局部特征在人体上 的分布特点为先验来定义的, 其更能反映运动主体的物理特性。
图 2a、 图 2b为局部特征点在人体的分布示意图, 其中, 每个局部 特征点能够表示局部的运动信息。 在这些特征点中, 可以看到有两种结 构: 第一种是人体部件与部件之间的结构信息, 如图 2b 中的粗线连接 了人体的两个不同部件; 第二种是每个部件内部的结构信息, 如图 2b 中的细线连接了一个部件内部局部特征点。 这两种结构信息从不同的层 次上描述了人体的行为特性。 因此, 本发明试图从所述共生关系图中找 出这两种结构。
对于一个给定的图 G, 可以对图中的每一条边构建一个子图 g (如 图 3所示), 该子图是由边上的两个节点 ( u, v) 以及与 ( u, v)相连的所 有的节点和所有的边所组成的。 图 3中, 除《和1外的其它节点可分为 三个部分: 只与 M连接的节点集 Su, 只与 V连接的节点集 5, 以及与 u 和 V同时连接的节点集 5e。 本发明定义连接每个边的两个节点的两种不 同的路径来描述上述两种不同的结构。 第一种路径是从 u经过 ^到 V, 这种路径可以反映 v)在图中所包含的部件内部的连接关系, 该种路 径的条数记为 E。第二种路径是从 5U经过 u, v)到达 5, 如 ( a, u, v, e ) 等, 这种路径能够描述 u, v)在图中所包含的部件与部件之间的连接关 系, 这里将子图中所符合此类路径的路径条数记为 N。 不难发现, 当 N 很大, 很小的时候, 可以对应到图 4a所显示的结构; 当 N很小, 很 大的时候, 可以对应到图 4b所显示的结构。 这两种结构是与前面提到 的两种结构对应的两种极限。 设定某一条路径属于第一种路径的概率为 P, 为了从图 G中找到符合这两种结构的子图, 本发明定义了一个结构
R(g) = max pE(l - p)N (1) 该结构变量可用来描述子图包含所述两种结构信息的强弱。
通过求导可知, 当具有定值的 p, 即 = £/(£ + Λ 时, / )可以达 到最大。 通过对 / )达到最大值时的表达式取对数可得:
\ogR(g) = -(E + N)H(p) (2) 其中,
H(p) = - log( ) - (1 - ) log(l - ) (3) 为香农熵, 其特征是当 接近于 0或 1时, )可以达到最小。 结合公 式 (2 ) 可知, 当 接近于 0或 1时, 即 N很大 很小, 或者 N很小 很大时, log/ ^)可以达到最大值, 即/ 达到最大值。 因此, 可以利 用/ 来描述子图 g属于前面提到的两种结构的程度。
由于图 G中的每条边都可以对应一个子图, 因此, 每一个子图的结 构变量值也可以表示对应边周围的结构信息。 本发明方法称通过这种结 构变量来描述的结构为隐结构。
本发明将/ )进一歩定义为:
R(g) = max pE (1 - Pyw(u'v) N , (4) 其中, 为对应边在共生关系图中的权重。
对公式 1进行改进的原因将在歩骤 5中阐明。 歩骤 5, 对于每一个共生关系图, 将得到的隐结构反馈到所述共生 关系图中, 以使之优化成一个具有多层结构信息的结构化共生关系图模 型 Gi ;
对于一个共生关系图, 其每条边都有一个权重, 同时, 通过所述歩 骤 4可以得到每条边所对应子图的结构变量值。 本发明将所述歩骤 4中 得到的每条边所对应的结构变量反馈到每条边上, 用于优化原共生关系 图中每条边的权重。 定义共生关系图中连接节点 a 和 V 的边的权重为
W(U, V) , 其对应的结构变量为 /? (U, 17), 则优化后的权重为
w' (u, v) = w(u, v)(l + R(u, v)). (5) 如果 按公式 1进行定义,会出现一种情况:当一条边在的 本 身很高, 同时该边所对应的子图又符合要找的两种结构,即/ ?0)比较大, 这样, 就会很大。如果最后对所有的权重归一化, 那些只包含一种 信息 (即共生关系信息或者结构信息) 的边就会变的很小。 为了避免这 种情况, 本发明在所述歩骤 4中采用公式 4所描述的结构变量。 公式 4 的特点是: 当 很大的时候, 即使子图结构信息比较强, 结构变量 的值也不会很大。 这样, 拥有共生关系信息和结构信息的边的权重将和 拥有一种信息的边的权重保持在一个水平上, 通过最终的归一化操作, 可以与那些不包含任何信息的边的权重明显的区分开。
本发明称优化以后的图为结构化的共生关系图模型。 歩骤 6, 利用所述结构化共生关系图模型 ^来计算每个局部特征点 的稳定性系数;
通过前面 5个歩骤, 可以得到不同行为类别对应的词袋 ( 和结构 化的共生关系图模型 ^。 接下来需要利用所述结构化共生关系图模型^ 来计算每个局部特征点的稳定性系数。
所述歩骤 6进一歩包括以下歩骤:
歩骤 61,提取训练视频数据和测试视频数据中每一行为类别的所有 视频的局部特征;
歩骤 62, 对所述歩骤 61得到的局部特征分别进行聚类, 将得到的 n个聚类中心作为特征码本构成一个词袋, 并且用距离一局部特征最近 的码本作为该局部特征的标记;
歩骤 63, 对于每一个带有标记的局部特征点, 找到时空上距离其最 近的 M'个局部特征点作为其共生点,其中 M'可以等于 M也可以不等于 M,该局部特征点与与其邻近的所述 M'个局部特征点在它们所对应的码 本之间构成了 M'个码本共生点对;
歩骤 64,将所得到的共生点对在所述结构化共生关系图模型^上所 对应的边的权重进行加和, 得到描述相应局部特征点的稳定性系数。
通过这种方式,每个局部特征点在 ^: 和^下都可以得到一个稳定性 系数。 歩骤 7, 基于具有同一码本标识的所有局部特征点的稳定性系数得 到所述训练视频数据最终的行为特征, 所述歩骤 7具体为: 基于所述歩 骤 6 中每个局部特征点在任一类行为的词袋 和结构化的共生关系图 ^中得到的稳定性系数, 将具有同一码本标识的所有局部特征点的稳定 性系数进行累加, 得到各个码本的分布直方图 , 视频中的局部特征点 在不同类别的词袋和结构化共生关系图模型下可以得到不同的码本分 布直方图,将所有得到的分布直方图首尾连接起来,构成一个直方图链, 作为所述训练视频数据最终的行为特征; 歩骤 8, 利用所述歩骤 7得到的所有训练视频数据的行为特征学习 得到一个分类器模型;
通过所述歩骤 7, 可以得到所有训练视频数据的行为特征, 将这些 行为特征送入基于径向基 (RBF) 核的支持向量机 (SVM) 中学习可以 得到一个多类的分类器。
支持向量机 (Support Vector Machines) 是在统计学习理论上发展起 来的一种新的方法。 支持向量机的基本思想是通过非线性映射, 把样本 空间映射到一个高维乃至无穷维的特征空间, 使得在特征空间中可以应 用线性学习机的方法解决样本空间中的高度非线性的分类和回归问题。 支持向量机能较好地解决小样本、 非线性、 高维数和局部极小点等实际 问题。
使用支持向量机的关键歩骤是选择核函数, 有多种核函数可以选择, 比如线性、 多项式、 径向基函数和 sigmod等。通过比较实验, 发现径向 基函数 (RBF) 具有最好的识别率, 因此本发明选用径向基函数进行训 练和识别。 歩骤 9, 对于每一个测试视频, 提取其局部特征, 并利用所述歩骤 6、 7的方法提取得到所述测试视频的行为特征, 将提取得到的行为特征 送入所述歩骤 8得到的分类器模型中进行分类识别,得到分类识别结果。
为了验证本发明方法的有效性, 使用当前最大的两个真实场景数据 库 HMDB和 UCF50对本发明方法进行了测试, 实验表明, 本发明方法 可以有效的将行为主体上的局部特征从背景中区分出来, 具有很强的鲁 棒性。
综上, 本发明提出了一种基于隐结构推理的识别方案。 本发明结合 了人体的结构特性, 能够有效的解决真实场景下行为数据的复杂性问题, 对于行为识别技术从理论发展到实际应用具有重要的意义。
以上所述的具体实施例, 对本发明的目的、 技术方案和有益效果进 行了进一歩详细说明, 所应理解的是, 以上所述仅为本发明的具体实施 例而已, 并不用于限制本发明, 凡在本发明的精神和原则之内, 所做的 任何修改、 等同替换、 改进等, 均应包含在本发明的保护范围之内。

Claims

权 利 要 求
1、 一种基于隐结构推理的行为识别方法, 其特征在于, 该方法包 括以下歩骤:
歩骤 1,提取训练视频数据中每一行为类别的所有视频的局部特征; 歩骤 2, 对所述歩骤 1得到的每一行为类别的局部特征分别进行聚 类,得到 n个聚类中心,所述 n个聚类中心作为特征码本构成一个词袋, 并且用距离一局部特征最近的码本作为该局部特征的标记;
歩骤 3, 利用每一行为类别所对应的词袋中不同的特征码本在训练 数据中的时空分布, 构建一个描述各个特征码本之间联系的共生关系图 G;
歩骤 4, 对每一行为类别所对应的共生关系图 G, 找出所述共生关 系图 G中隐藏的结构信息;
歩骤 5, 将得到的隐藏的结构信息反馈到每一个共生关系图 G中, 以使之优化成一个具有多层结构信息的结构化共生关系图模型
歩骤 6, 利用所述结构化共生关系图模型 ^计算每个局部特征点的 稳定性系数;
歩骤 7, 基于具有同一码本标识的所有局部特征点的稳定性系数得 到所述训练视频数据最终的行为特征;
歩骤 8, 利用所有训练视频数据的行为特征学习得到一个分类器模 型;
歩骤 9, 提取每一测试视频的局部特征, 并根据所述歩骤 6、 7提取 得到所述测试视频的行为特征, 将提取得到的行为特征送入所述歩骤 8 得到的分类器模型中进行分类识别, 得到分类识别结果。
2、 根据权利要求 1所述的方法, 其特征在于, 所述歩骤 1进一歩 包括以下歩骤:
歩骤 11,利用局部特征检测子检测图像序列中能够反应行为变化的 兴趣点;
歩骤 12, 利用局部特征描述子对检测到的兴趣点进行特征描述。 歩骤 3.1, 对于每一个带有标记的局部特征点, 找到时空上距离其 最近的 M个局部特征点作为其共生点,该局部特征点与与其邻近的所述 M个局部特征点在它们所对应的码本之间构成了 M个码本共生点对; 歩骤 3.2, 计算所有局部特征点所对应的共生点对集;
歩骤 3.
3, 利用所述歩骤 3.2得到的共生点对集, 统计不同码本之间 共生的频率, 即每个共生点对出现的个数;
歩骤 3.4, 以所有码本作为节点, 不同码本之间的共生频率作为对 应节点之间的边的权重, 构建一个图;
歩骤 3.5, 对所述歩骤 3.4中得到的图中所有边的权重归一化, 并只 保留与每一个节点连接的权重最大的预定数量边, 从而构成最终的共生 关系图。
4、 根据权利要求 3 所述的方法, 其特征在于, 局部特征点之间的 时空距离定义为:
Figure imgf000013_0001
其中, = - x + ( , - 为两个特征点在 X 空间上的距离, =1 ti - t . I为两个特征点在时间空间上的距离, (xt, yh 、 Cxj, yp φ 分别为两个局部特征点的空间和时间位置, 7为空间和时间的尺度平衡
5、 根据权利要求 1所述的方法, 其特征在于, 所述歩骤 4中, 利 用基于香农熵的结构推理方法找出所述共生关系图 G 中隐藏的结构信 息, 所述基于香农熵的结构推理方法中, 利用结构变量 的值来表示 共生关系图 G中对应边周围的隐结构信息, 所述结构变量 表示为:
R (g) = max (1― p)
其中, g表示对共生关系图 G中每一条边构建得到的子图, E、 N分别 为连接每个边的两个节点 ( u, v) 的两种不同的路径的条数, p表示某一 条路径属于第一种路径的概率。
6、 根据权利要求 5 所述的方法, 其特征在于, 所述子图由共生关 系图 G中对应边上的两个节点 (M,V ) 以及与 (M,V ) 相连的所有的节点 和所有的边组成。
7、根据权利要求 5所述的方法,其特征在于,所述结构变量 进 一歩表示为:
R(g) = max V E {1 - VywM N ,
其中, 为连接节点 U和 V的边在共生关系图 G中的权重。
8、 根据权利要求 7 所述的方法, 其特征在于, 所述结构化共生关 系图模型^中, 优化后的权重表示为:
w'(u, v) = w(u, v)(l + R(g))。
9、 根据权利要求 1所述的方法, 其特征在于, 所述歩骤 6进一歩 包括以下歩骤:
歩骤 61,提取训练视频数据和测试视频数据中每一行为类别的所有 视频的局部特征;
歩骤 62, 对所述歩骤 61得到的局部特征分别进行聚类, 将得到的 n个聚类中心作为特征码本构成一个词袋, 并且用距离一局部特征最近 的码本作为该局部特征的标记;
歩骤 63, 对于每一个带有标记的局部特征点, 找到时空上距离其最 近的 M'个局部特征点作为其共生点, 该局部特征点与与其邻近的所述 M'个局部特征点在它们所对应的码本之间构成了 M'个码本共生点对; 歩骤 64,将所得到的共生点对在所述结构化共生关系图模型^上所 对应的边的权重进行加和, 得到描述相应局部特征点的稳定性系数。
10、根据权利要求 1所述的方法,其特征在于,所述歩骤 7具体为: 将具有同一码本标识的所有局部特征点的稳定性系数进行累加, 得到各 个码本的分布直方图 , 将所有分布直方图首尾连接起来构成一个直方 图链, 作为所述训练视频数据最终的行为特征。
PCT/CN2013/089374 2013-03-19 2013-12-13 一种基于隐结构推理的行为识别方法 WO2014146463A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310087343.1A CN103136540B (zh) 2013-03-19 2013-03-19 一种基于隐结构推理的行为识别方法
CN201310087343.1 2013-03-19

Publications (1)

Publication Number Publication Date
WO2014146463A1 true WO2014146463A1 (zh) 2014-09-25

Family

ID=48496347

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2013/089374 WO2014146463A1 (zh) 2013-03-19 2013-12-13 一种基于隐结构推理的行为识别方法

Country Status (2)

Country Link
CN (1) CN103136540B (zh)
WO (1) WO2014146463A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899248A (zh) * 2015-04-24 2015-09-09 济南大学 一种通用的运动捕获数据检索方法
CN107122780A (zh) * 2017-02-28 2017-09-01 青岛科技大学 基于时空特征点的互信息与时空分布熵的行为识别方法
CN112396184A (zh) * 2020-12-01 2021-02-23 中山大学 一种基于图结构数据的关系挖掘方法及系统

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136540B (zh) * 2013-03-19 2015-10-28 中国科学院自动化研究所 一种基于隐结构推理的行为识别方法
CN107832688B (zh) * 2017-10-27 2020-08-11 浙江农林大学 一种交通路口视频监控的交通模式和异常行为的检测方法
CN109086737B (zh) * 2018-08-21 2021-11-02 武汉恒视途安科技有限公司 基于卷积神经网络的航运货物监控视频识别方法及系统
CN113254468B (zh) * 2021-04-20 2023-03-31 西安交通大学 一种装备的故障查询及推理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923653A (zh) * 2010-08-17 2010-12-22 北京大学 一种基于多层次内容描述的图像分类方法
CN102222101A (zh) * 2011-06-22 2011-10-19 北方工业大学 一种视频语义挖掘方法
CN102930302A (zh) * 2012-10-18 2013-02-13 山东大学 基于在线序贯极限学习机的递增式人体行为识别方法
CN103136540A (zh) * 2013-03-19 2013-06-05 中国科学院自动化研究所 一种基于隐结构推理的行为识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6441846B1 (en) * 1998-06-22 2002-08-27 Lucent Technologies Inc. Method and apparatus for deriving novel sports statistics from real time tracking of sporting events
CN102163290B (zh) * 2011-05-16 2012-08-01 天津大学 基于时空关联信息的多视角视频监控中异常事件建模方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923653A (zh) * 2010-08-17 2010-12-22 北京大学 一种基于多层次内容描述的图像分类方法
CN102222101A (zh) * 2011-06-22 2011-10-19 北方工业大学 一种视频语义挖掘方法
CN102930302A (zh) * 2012-10-18 2013-02-13 山东大学 基于在线序贯极限学习机的递增式人体行为识别方法
CN103136540A (zh) * 2013-03-19 2013-06-05 中国科学院自动化研究所 一种基于隐结构推理的行为识别方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899248A (zh) * 2015-04-24 2015-09-09 济南大学 一种通用的运动捕获数据检索方法
CN107122780A (zh) * 2017-02-28 2017-09-01 青岛科技大学 基于时空特征点的互信息与时空分布熵的行为识别方法
CN107122780B (zh) * 2017-02-28 2022-12-20 青岛科技大学 基于时空特征点的互信息与时空分布熵的行为识别方法
CN112396184A (zh) * 2020-12-01 2021-02-23 中山大学 一种基于图结构数据的关系挖掘方法及系统
CN112396184B (zh) * 2020-12-01 2023-09-05 中山大学 一种基于图结构数据的关系挖掘方法及系统

Also Published As

Publication number Publication date
CN103136540A (zh) 2013-06-05
CN103136540B (zh) 2015-10-28

Similar Documents

Publication Publication Date Title
Zhang et al. MoWLD: a robust motion image descriptor for violence detection
WO2014146463A1 (zh) 一种基于隐结构推理的行为识别方法
Isola et al. Learning visual groups from co-occurrences in space and time
US10642891B2 (en) Graph matching by sub-graph grouping and indexing
Cong et al. Video anomaly search in crowded scenes via spatio-temporal motion context
Soomro et al. Action localization in videos through context walk
Zhang et al. Cross-modal correlation learning for clustering on image-audio dataset
US20220174089A1 (en) Automatic identification and classification of adversarial attacks
Chen et al. Discriminative soft bag-of-visual phrase for mobile landmark recognition
US20210357648A1 (en) Image processing neural network systems and methods with scene understanding
WO2023179429A1 (zh) 一种视频数据的处理方法、装置、电子设备及存储介质
Li et al. Learning to learn relation for important people detection in still images
CN113553906A (zh) 基于类中心域对齐的判别无监督跨域行人重识别方法
CN116662817B (zh) 物联网设备的资产识别方法及系统
Olaode et al. Unsupervised image classification by probabilistic latent semantic analysis for the annotation of images
CN113343123B (zh) 一种生成对抗多关系图网络的训练方法和检测方法
KR102110375B1 (ko) 학습 전이 기반의 비디오 감시 방법
Roy et al. Sparsity-inducing dictionaries for effective action classification
CN108960013B (zh) 一种行人再识别方法及装置
CN117033956A (zh) 基于数据驱动的数据处理方法、系统、电子设备及介质
Khalid Motion-based behaviour learning, profiling and classification in the presence of anomalies
Liu et al. Unsupervised video anomaly detection in UAVs: a new approach based on learning and inference
Ma et al. Motion feature retrieval in basketball match video based on multisource motion feature fusion
Pryor et al. Deepfake detection analyzing hybrid dataset utilizing CNN and SVM
Zhang et al. Hierarchical multi-feature fusion for multimodal data analysis

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13879037

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13879037

Country of ref document: EP

Kind code of ref document: A1