WO2015078134A1

WO2015078134A1 - 视频分类的方法和装置

Info

Publication number: WO2015078134A1
Application number: PCT/CN2014/075510
Authority: WO
Inventors: 王利民; 乔宇; 黎伟; 许春景; 汤晓鸥
Original assignee: 华为技术有限公司
Priority date: 2013-11-29
Filing date: 2014-04-16
Publication date: 2015-06-04
Also published as: CN104679779B; CN104679779A; US10002296B2; US20160275355A1; EP3067831A1; EP3067831A4

Abstract

一种视频分类的方法和装置，涉及电子信息技术领域，能够提高视频分类的精确度。该方法包括：按照时间顺序对样本视频库中的视频进行分段并得到分段结果，并生成运动原子集合；利用所述运动原子集合和所述分段结果，生成能够表达复杂运动模式的运动短语集合，并生成基于所述运动短语集合的所述样本视频库中的视频的描述向量；利用所述描述向量，确定与所述样本视频库中的视频的类型相同的待检测视频。该方法适用于视频分类的场景中。

Description

视频分类的方法和装置本申请要求于 2 01 3 年 1 1 月 29 日提交中国专利局、申请号为 2 01 31 06 3 1 9 01. 6 , 发明名称为 "视频分类的方法和装置" 的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及电子信息技术领域，尤其涉及一种视频分类的方法和装置。

背景技术

随着视频数据的大量增加，用户逐个浏览视频，根据视频中人物的运动信息对视频进行分类需要耗费大量的时间和精力。虽然现在已经可以针对视频中一些如行走、跑步等简单的运动对视频进行分类，但是视频中的运动往往比较复杂，如体育活动等，针对简单运动对视频分类已经不能满足用户的需要了。为了能够针对这些视频中较为复杂且连续的运动对视频进行分类，现有技术从视频中提取一些局部区域的特征，如 HOG ( Histogram of Oriented Gradients , 方向梯度直方图）等特征，根据这些特征进行类聚，形成运动原子，运动原子是具有某些共性的简单运动模式，之后计算待检测视频与这些运动原子的响应，将得到的响应组成向量，再根据得到的向量对待检测视频进行分类。

但是，视频中总是会出现具有较强时序关系的复杂运动，通过由运动原子得到的向量对待检测视频进行分类，难以保证分类的精确度。因此，在现有技术采用了另一种方法，将视频中的较复杂运动按时间分解成一些由简单运动组成的片段，每一个片段都对应一个时间点，在进行分类时，按照时间顺序将每一个片段与样本分解出的片段进行比对，得到每一个片段各自的比对得分，将这些比对得分进行加权求和得到最终的比对得分，根据最终的比对得分对视频进行分类。但是，对于较连续且持续时间较长的复杂运动，现有技术很难将这样的复杂运动恰当的分解成由简单运动组成的片段，而且当视频中复杂运动的分解时间点设置不同时，与样本分解出的片段进行比对后得到的比对得分也不同，从而导致视频分类产生多个不同的结果，难以统一，视频分类的精确度也比较低。

发明内容

本发明的实施例提供一种视频分类的方法和装置，能够提高视频分类的精确度。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，本发明实施例提供一种视频分类的方法，包括：成运动原子集合，所述样本视频库包括至少一个视频，所述运动原子集合利用所述运动原子集合和所述分段结果，生成对应于所述样本视频库中的视频的描述向量；

利用所述描述向量，确定与所述样本视频库中的视频的类型相同的待检测视频。

结合第一方面，在第一种可能的实现方式中，所述利用所述运动原子集合和所述分段结果，生成对应于所述样本视频库中的视频的描述向量，包括：

根据所述运动原子集合和所述分段结果，生成对应于所述样本视频库中的视频的运动短语集合，所述运动短语集合包括至少二个运动短语，一个运动短语包括了按照一定的先后顺序在时间点附近发生的运动原子；筛选所述运动短语，并得到选结果；

根据所述选结果，结合第一方面和第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述样本视频库包括至少二个视频，并且所述样本视频库中的视频的类型相同。

结合第一方面的第二种可能的实现方式，在第三种可能的实现方式中，还包括：

获取运动原子单元 π(Α,ζσ) , 并根据所述运动原子单元获取一个运动

∑ r{V,P_x)

短语的代表性参数 Rep( ,c), Rep( ₁,c)= '^^c^ 、，， A为运动原子， t为所述样本视频库中视频中的时间点，（7为高斯分布的标准差， V为所述样本视频库中的视频，？为所述一个运动短语， r( , )为所述一个运动短语 Pi 对所述样本视频库中的视频的响应， r(F,^)=min π)Άχν(ν,π) , v(V, π) = max Score( (V, t') ,A)-N{t'\ t, σ) , OR_t指计算所述样本视频库中的视频与时间相邻的所述运动原子单元的响应， S( ，c)表示和所述一个运动短语响应最大的所述样本视频库中的视频的集合， c为所述样本视频库中的视频的类型的标识， Φ( )为所述样本视频库中视频中以开始的所述分段结果的视频特征， &。 Γβ(Φ(

A)是将 Φ( ， t')输入到支持向量机

SVM分类器得到的得分， N(i'|i, )是指以 t为均值， σ为标准差的高斯分布，

Ω(0指以 t为中心的一个邻域;

获取所述一个运动短语的覆盖性参数 RepSet(C),并根据所述一个运动短语的覆盖性参数 RepSet(r ，c),得到所述一个运动短语对所述覆盖性参数的贡献值 ARepSet( ，c) , ,

ARepSet(^ , c) - RepSet (r^ , c) - RepSet (r^ - { ^ } , c) , 7；为所述样本视频库中标识为 c的视频分段得到的片段的数量，为所述运动短语集合，且所述一个运动短语包含的所述运动原子所属视频类型的标识为 c；针对所述运动短语集合中的每一个运动短语，执行上述过程，并得到所述运动短语集合中的每一个运动短语的代表性参数和贡献值；

所述选所述运动短语，得到选结果，包括：

根据所述运动短语集合中的每一个运动短语的代表性参数和贡献值，按照 Rep( ，c) + ARepSet( ，c)的值由大到小的顺序对所述运动短语集合中的运动短语进行排序，并将前个运动短语作为第 1 选结果，！^为大于等于 1的正整数；

从所述运动原子集合中提取一个运动原子加入所述第 1筛选结果中的运动短语，使得所述第 1筛选结果中的运动短语具有 2个运动原子；

重复上述过程，直至得到第 n- 1筛选结果，再从所述运动原子集合中提取一个运动原子加入所述第 n- 1 选结果中的运动短语，使得所述第 n- 1 筛选结果中的运动短语具有 n个运动原子，再根据所述第 n- 1筛选结果中的运动短语得到第 n 筛选结果，所述第 n 筛选结果为按照 Rep(„， c) + ARepSet(„， c)的值由大到 d、的顺序排列的前 m_n个运动短语， m_n为大于等于 1的正整数，第 n筛选结果中的运动短语具有 n个运动原子， n为大于等于 1的正整数；

根据所述第 1至第 n筛选结果，生成所述描述向量。

结合第一方面的第三种可能的实现方式，在第四种可能的实现方式中，所述样本视频库包括至少二个视频，并且所述样本视频库包括至少二种类型的视频；所述根据选结果，生成与所述样本视频库中的视频对应的描述向量，包括：

根据所述样本视频库中不同类型的视频对应的所述运动短语的筛选结果，得到筛选结果集合；

根据所述选结果集合，生成所述样本视频库中的视频对应的描述向量。

结合第一方面的第四种可能的实现方式，在第五种可能的实现方式中，所述利用所述描述向量，确定与所述样本视频库中的视频的类型相同的待检测视频，包括：

生成所述待检测视频对应的响应向量；

获取所述样本视频库中各个不同类型的视频对应的所述描述向量，并根据所述描述向量，得到第一分类规则，所述第一分类规则用于确定所述待检测视频的所属类型；

根据所述第一分类规则和所述响应向量，确定所述待检测视频的类型与所述样本视频库包括的视频的类型中的一种类型相同，并将所述待检测视频分类。

结合第一方面和第一方面的第二种可能的实现方式，在第六种可能的实现方式中，所述利用所述描述向量，确定与所述样本视频库中的视频的类型相同的待检测视频，包括：

生成所述待检测视频对应的响应向量。；则，所述第二分类规则用于检测所述待检测视频是否与所述样本视频库中的视频的类型相同；

检测所述待检测视频的响应向量是否符合所述第二分类规则；同。

结合第一方面，在第七种可能的实现方式中，还包括：

获取所述待检测视频的响应向量中的至少一个分量，并根据所述至少一个分量得到主要运动短语，所述主要运动短语为与所述至少一个分量对应的运动短语；

获取并显示所述待检测视频的关键帧，所述关键帧与所述主要运动短语中的每个运动原子单元的响应最大。

第二方面，本发明实施例提供一种视频分类的装置，包括：得到分段结果，并生成运动原子集合，所述样本视频库包括至少一个视频，第二生成模块，用于利用所述运动原子集合和所述分段结果，生成对应于所述样本视频库中的视频的描述向量；

分类模块，用于利用所述描述向量，确定与所述样本视频库中的视频的类型相同的待检测视频。

结合第二方面，在第一种可能的实现方式中，所述第二生成模块，包括：

第一生成单元，用于根据所述运动原子集合和所述分段结果，生成对应于所述样本视频库中的视频的运动短语集合，所述运动短语集合包括至少二个运动短语，一个运动短语包括了按照一定的先后顺序在时间点附近发生的运动原子；

筛选单元，用于选所述运动短语，并得到选结果；

第二生成单元，用于根据所述选结果，生成与所述样本视频库中的视频对应的描述向量。

结合第二方面和第二方面的第一种可能的实现方式，在第二种可能的实现方式中，所述样本视频库包括至少二个视频，并且所述样本视频库中的视频的类型相同。

结合第二方面的第二种可能的实现方式，在第三种可能的实现方式中，所述运动短语集合中的运动短语包括一个所述运动原子集合中的运动原子；所述第二生成模块，还包括：

第一获取单元，用于获取运动原子单元 π(Α,ζσ) , 并根据所述运动原

∑ ν, ρ) 子单元获取一个运动短语的代表性参数 Rep( , c) , Rep( ， c) = ^i≡S(^ ，

A为运动原子， t为所述样本视频库中视频中的时间点， σ为高斯分布的标准差， V为所述样本视频库中的视频，？₁为所述一个运动短语， r( , )为所述一个运动短语 _Ρι对所述样本视频库中的视频的响应， r(F, ?) = min π)Άχν(ν, π) , v(V, π) = max Score( (V, t') , A) - N(t' \ t, σ) , 指 S ， C)表示和所述一个运动短语响应最大的所述样本视频库中的视频的集合， c为所述样本视频库中的视频的类型的标识，为所述样本视频库中视频中以 t'开始的所述分段结果的视频特征， &。 Γβ(Φ( ，

A)是将 (ν, t')输入到支持向量机 S VM分类器得到的得分， N{f I σ)是指以 t为均值， σ为标准差的高斯分布， Ω (0指以 t为中心的一个邻域；

第二获取单元，用于获取所述一个运动短语的覆盖性参数 RepSet( ,c) , 并根据所述一个运动短语的覆盖性参数 RepSet(r ，c) , 得到所述一个运动短语对所述覆盖性参数的贡献值 ARepSet( ， c) ,

RepSet(r^_C) = ^|U^_rS(^, c)

ARepSet(^ , c) - RepSet (r^ , c) - RepSet (r^ - { ^ } , c) , 7；为所述样本视频库中标识为 c的视频分段得到的片段的数量，为所述运动短语集合，且所述一个运动短语包含的所述运动原子所属视频类型的标识为 c；

针对所述运动短语集合中的每一个运动短语，执行上述过程，并得到所述运动短语集合中的每一个运动短语的代表性参数和贡献值；

所述选单元，包括：

筛选子单元，用于根据所述运动短语集合中的每一个运动短语的代表性参数和贡献值，按照 Rep( ， c) + ARepSet(^， c)的值由大到 d、的顺序对所述运动短语集合中的运动短语进行排序，并将前个运动短语作为第 1筛选结果，为大于等于 1的正整数；

添加子单元，用于从所述运动原子集合中提取一个运动原子加入所述第 1筛选结果中的运动短语，使得所述第 1 选结果中的运动短语具有 2个运动原子；

连续运行所述选子单元和所述添加子单元，直至得到第 n- 1 选结果，再从所述运动原子集合中提取一个运动原子加入所述第 n- 1 选结果中的运动短语，使得所述第 n- 1筛选结果中的运动短语具有 n个运动原子，再根据所述第 n- 1筛选结果中的运动短语得到第 n筛选结果，所述第 n筛选结果为按照 Rep(„， c) + ARepSet (尸"， c)的值由大到 'J、的顺序排列的前 m_n个运动短语， m_n为大于等于 1的正整数，第 n筛选结果中的运动短语具有 n个运动原子， n为大于等于 1的正整数；

第一生成子单元，用于根据所述第 1至第 n筛选结果，生成所述描述向量。

结合第二方面的第三种可能的实现方式，在第四种可能的实现方式中，所述样本视频库包括至少二个视频，并且所述样本视频库包括至少二种类型的视频；

所述第二生成单元，包括：

集合子单元，用于根据所述样本视频库中不同类型的视频对应的所述运动短语的筛选结果，得到筛选结果集合；

第二生成子单元，用于根据所述选结果集合，生成所述样本视频库中的视频对应的描述向量。

结合第二方面的第四种可能的实现方式，在第五种可能的实现方式中，所述分类模块，包括：

第三生成单元，用于生成所述待检测视频对应的响应向量；第三获取单元，用于获取所述样本视频库中各个不同类型的视频对应的所述描述向量，并根据所述描述向量，得到第一分类规则，所述第一分类规则用于确定所述待检测视频的所属类型；

第一分类单元，用于根据所述第一分类规则和所述响应向量，确定所述待检测视频的类型与所述样本视频库包括的视频的类型中的一种类型相同，并将所述待检测视频分类。

结合第二方面和第二方面的第二种可能的实现方式，在第六种可能的实现方式中，所述分类模块，包括：

第四生成单元，用于生成所述待检测视频对应的响应向量；量，得到第二分类规则，所述第二分类规则用于检测所述待检测视频是否与所述样本视频库中的视频的类型相同；

检测单元，用于检测所述待检测视频的响应向量是否符合所述第二分类规则；

第二分类单元，用于当符合时，确定所述待检测视频与所述样本视频库中的视频的类型相同。

结合第二方面，在第七种可能的实现方式中，还包括：

获取模块，用于获取所述待检测视频的响应向量中的至少一个分量，并根据所述至少一个分量得到主要运动短语，所述主要运动短语为与所述至少一个分量对应的运动短语；

显示模块，用于获取并显示所述待检测视频的关键帧，所述关键帧与所述主要运动短语中的每个运动原子单元的响应最大。

本发明实施例提供的一种视频分类的方法和装置，能够将样本视频库中的视频分段，生成运动原子，并利用分段结果和运动原子生成样本视频库中的视频的描述向量，利用描述向量，确定与样本视频库中视频类型相同的待检测视频，从而达到视频分类的目的。而现有技术中根据运动原子得到待检测视频对应的向量的方案如图 la所示，由于运动原子不含有时间因素，无法体现连续复杂运动的运动原子之间的时序关系。而本发明根据运动原子，生成了运动短语，又根据运动短语生成了描述向量，运动短语包括了按照一定的先后顺序在时间点附近发生的运动原子，用于描述连续复杂运动的运动原子之间的时序关系，例如：采用 SVM分类器将待检测视频分类，本发明的方案如图 lb所示。现有技术中将视频按时间分解成简单片段的方案，由于分解片段的时间设置点选择不同，会导致视频分类结果也不同，因此难以恰当的将连续复杂运动分解成简单运动组成的片段，从而导致分类结果不精确。与现有技术相比，本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量，使得描述向量以量化数据的形式反映出在连续复杂运动中，在时间点附近按照时序关系排列的运动原子，并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程，实现了在分类过程中既包括了视频的时间因素，也包括了用于表示视频中具体动作、内容的运动原子，并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语，以及根据运动短语生成的描述向量，从而能够对包括长时间的连续复杂运动的视频进行准确分类。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图 l a为现有技术中的一种视频分类的方法的举例流程图；

图 lb为本发明提供的一种视频分类的方法的举例流程图；

图 l c为本发明实施例提供的一种视频分类的方法的流程图；图 2为本发明实施例提供的一种视频分类的方法的一种具体实现方式的流程图；

图 3a为本发明实施例提供的一种视频分类的方法的另一种具体实现方式的流程图；

图 3b为本发明实施例提供的一种视频分类的方法的又一种具体实现方式的流程图；

图 3c为本发明实施例提供的或操作和与操作的举例说明示意图；图 4a为本发明实施例提供的一种视频分类的方法的再一种具体实现方式的流程图；

图 4b为本发明实施例提供的显示视频中的主要信息的举例说明示意图；

图 5本发明实施例提供的一种视频分类的装置的结构示意图；图 6为本发明实施例提供的一种视频分类的装置的一种具体实现方式的结构示意图；

图 7为本发明实施例提供的另一种视频分类的装置的结构示意图；图 8为本发明实施例提供的另一种视频分类的装置的一种具体实现方式的结构示意图；

图 9为本发明实施例提供的另一种视频分类的装置的另一种具体实现方式的结构示意图；

图 10为本发明实施例提供的另一种视频分类的装置的又一种具体实现方式的结构示意图；

图 11为本发明实施例提供的又一种视频分类的装置的结构示意图；图 12为本发明实施例提供的一种视频分类系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例提供的技术方案能够根据待检测视频中的运动信息，生成运动原子集合，最终得到样本视频库中的视频的描述向量，利用描述向量对待检测视频进行分类。在实际应用中，本方案可以将待检测视频粗略分为大类，如音乐视频、体育视频或舞蹈视频等；视频也可以将待检测视频详细分为小类，如短跑视频、跳高视频或跳远视频等。

本发明实施例提供了一种视频分类的方法，如图 l c所示，包括：并生成运动原子集合。

其中，样本视频库中的视频可以根据用户分类的需求来选择，比如：用户想要将待检测视频分为舞蹈视频、话剧视频、体育视频三大类型，那么可以选择舞蹈视频、话剧视频、体育视频这三大类型的视频放入样本视频库，作为样本视频库中的视频。再比如：用户想要将待检测的体育类视频分为跳高视频、游泳视频、体操视频三个较小的类型，那么可以选择跳高视频、游泳视频、体操视频三个较小的类型的视频放入样本视频库，作为样本视频库中的视频。

其中，样本视频库包括至少一个视频，运动原子集合中的运动原子是根据样本视频库中的视频生成的。系统将样本视频库中的每个视频分成长度相等的视频片段，相邻视频片段之间有一定的时间重叠，比如：视频片段 1是视频中 00:00:00-00:01 :00的片段，与视频片段 1相邻的视频片段 2是视频中 00： 00： 30-00： 01： 30的片段。系统对每一个视频片段提取低层视频特征，低层视频特征可以是 HOG ( Histogram of Oriented Gradients , 方向梯度直方图）特征、稠密轨迹特征等，得到低层视频特征的集合，低层视频特征的集合可以表示为 = ft }il , N为样本视频库中的视频数， k为每个视频分解成的视频片段数， k 是一个 d维的向量， d由具体的低层视频特征决定，根据公式 Sim(Jii , ) = exp 得到低层视频特征的相似

度参数 d Z^) , 为所有向量两两之间欧式距离的均值，表示的第 K维分量。系统再根据低层视频特征的相似度参数，利用聚类算法形成运动原子，聚类算法可以是近邻传播算法等。由运动原子得到运动原子集合。

102 , 利用所述运动原子集合和所述分段结果，生成对应于所述样本视频库中的视频的描述向量。

其中，运动原子集合中的运动原子按照一定时间顺序发生，可以形成运动短语，利用运动短语与样本视频库中的视频计算响应，将得到的响应的值组成样本视频库中的视频的描述向量，从而达到将视频的内容量化的目的。

103 , 利用所述描述向量，确定与所述样本视频库中的视频的类型相同的待检测视频。其中，利用样本视频库中的视频的描述向量，可以形成视频分类的规则，通过确定待检测视频与样本视频库中哪一种视频的类型相同，将待检测视频分类。

本发明实施例提供的一种视频分类的方法，能够将样本视频库中的视频分段，生成运动原子，并利用分段结果和运动原子生成样本视频库中的视频的描述向量，利用描述向量，确定与样本视频库中视频类型相同的待检测视频，从而达到视频分类的目的。与现有技术相比，本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量，使得描述向量以量化数据的形式反映出在连续复杂运动中，在时间点附近按照时序关系排列的运动原子，并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程，实现了在分类过程中既包括了视频的时间因素，也包括了用于表示视频中具体动作、内容的运动原子，并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语，以及根据运动短语生成的描述向量，从而能够对包括长时间的连续复杂运动的视频进行准确分类。

可选的，在图 1所示的方案的基础上，本发明实施例还提供了一种视频分类的方法的具体方案，对图 1中的 102的执行过程进一步细化，其中， 102可以具体实现为 1021 - 1023 , 如图 2所示，包括：

1021 , 根据所述运动原子集合和所述分段结果，生成对应于所述样本视频库中的视频的运动短语集合。

其中，运动短语集合包括至少二个运动短语，一个运动短语包括了按照一定的先后顺序在时间点附近发生的运动原子，运动短语可以表示运动原子之间的时序关系。

1022 , 筛选所述运动短语，并得到筛选结果。

其中，如果在运动原子集合中共有 M个运动原子，样本视频库中的每个视频被分解为 k个片段，那么可能生成 2^Mxk个运动短语，大量的运动短语使得分类过程中的计算量增大，此时通过选出具有良好的代表性、覆盖性和判别性的运动短语作为选结果，进行之后的流程。

1023 , 根据所述选结果，生成与所述样本视频库中的视频对应的描述向量。

其中，利用筛选结果中的运动短语与样本视频库中的视频计算响应，将得到的响应的值组成样本视频库中的视频的描述向量，从而达到将视频的内容量化的目的。

本发明实施例提供的一种视频分类的方法，能够将样本视频库中的视频分段，生成运动原子，并利用分段结果和运动原子生成样本视频库中的视频的运动短语，并对运动短语进行选，根据选结果，生成描述向量，利用描述向量，确定与样本视频库中视频类型相同的待检测视频，从而达到视频分类的目的。与现有技术相比，本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量，使得描述向量以量化数据的形式反映出在连续复杂运动中，在时间, 附近按照时序关系排列的运动原子，并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程，实现了在分类过程中既包括了视频的时间因素，也包括了用于表示视频中具体动作、内容的运动原子，并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语，对运动短语进行选，选结果中的运动短语具有良好的代表性、覆盖性和判别性，减少了生成描述向量需要的运动短语的数量，使得得到的描述向量更加精简，并减少了生成描述向量的时间，并且能够对包括长时间的连续复杂运动的视频进行准确分类。

可选的，在图 2所示的方案的基础上，本发明实施例还提供了一种视频分类的方法的具体方案，在图 2中的 1022细化的执行过程中增加了 1024- 1025 , 并对图 2中的 1022和 103的执行过程进一步细化，其中， 1022 可以具体实现为 10221 - 10224 , 103可以具体实现为 103 l a- 1034a , 如图 3a 所示，包括：

1024 , 获取运动原子单元 π(Α,ζσ) , 并根据所述运动原子单元获取一个运动短语的代表性参数 Rep( , c) 其中， Rep( ，c) ， A为运动原子， t为样本视频库中视频

中的时间点， σ为高斯分布的标准差， V为样本视频库中的视频，为一个运动短语，而且这一个运动短语 Pi包括运动原子集合中的 1个运动原子； r( , )为一个运动短语样本视频库中的视频的响应，

max v(7, r)表示运动短语中的或操作，或操作指计算样本视频库中的同种类型的视频与时间位于邻近区域的运动短语中的运动原子单元的响应，并选取时间位于邻近区域的响应最大的运动原子单元的响应值； min maxv(7, r)表示运动短语中的与操作，与操作指在或操作中选取的响应最大的运动原子单元的响应中取最小值，当这个最小值大于预设的阔值时，表示运动短语与样本视频库中的视频匹配度高，例如：如图 3c所示， OR为或操作， AND为与操作，运动原子单元 1与运动原子单元 2的时间位于相邻区域，运动原子单元 3与运动原子单元 4的时间位于相邻区域，对运动原子单元 1与运动原子单元 2进行或操作，运动原子单元 1的响应大于运动原子单元 2的响应，选取运动原子单元 1的响应值，同时对运动原子单元 3与运动原子单元 3进行或操作，运动原子单元 4的响应大于运动原子单元 3 的响应，选取运动原子单元 4的响应值，再对比运动原子单元 1的响应与运动原子单元 4的响应，选取运动原子单元 1的响应与运动原子单元 4的响应中最小的响应值； S( ，c)表示和一个运动短语响应最大的样本视频库中的视频的集合， c为样本视频库中的视频的类型的标识，为样本视频库中视频中以开始的分段结果的视频特征， &。 Γβ(Φ( ，

^是将 Φ( ， t')输入到支持向量机 SVM分类器得到的得分， N(Z' , )是指以 t为均值， σ为标准差的高斯分布， Ω (0指以 t为中心的一个邻域。

其中，代表性参数要求运动短语对某一类型的视频有尽可能大的反应，表示该运动短语对于这一类型的视频具有代表性。

进一步的，运动短语 P对某一种类型的视频的判别性参数 Disil， c)表示运动短语对某一种类型的视频的代表性与其他类型的视频的差异，判别性参数越大，表示运动短语的判别性能越好，

Dis(P_x , c) = Rep(i^ , c) - max Rep(i^ , ς. ) , C表示样本视频库中的所有的视频的类型。

1025 , 获取所述一个运动短语的覆盖性参数 RepSet( ，c) , 并根据所述一个运动短语的覆盖性参数 RepSet(C) ,得到所述一个运动短语对所述覆盖性参数的贡献值 ARepSet( ， c)。其中， RepSet(r ，c) = |U

△RepSet( ， c) = RepSet (r^， c) - RepSet (τ^ - {^ } , c) , 为样本视频库中标识为 _c 的视频分段得到的片段的数量，为运动短语集合，且一个运动短语包含的运动原子所属视频类型的标识为 c。

其中，覆盖性要求筛选出的运动短语生成的运动短语集合能够尽量覆盖各个类型的视频。

其中，针对所述运动短语集合中的每一个运动短语执行 104- 105 , 并得到所述运动短语集合中的每一个运动短语的代表性参数和贡献值。

1022 1 , 根据所述运动短语集合中的每一个运动短语的代表性参数和贡献值，按照 Rep( ，c) + ARepSet( ，c)的值由大到小的顺序对所述运动短语集合中的运动短语进行排序，并将前个运动短语作为第 1 选结果。

其中，为大于等于 1的正整数，可以是系统根据样本视频库中的视频的类型和数量设定的值，也可以由用户设定并输入。

10222 ,从所述运动原子集合中提取一个运动原子加入所述第 1筛选结果中的运动短语，使得所述第 1筛选结果中的运动短语具有 2个运动原子。

其中，系统可以从运动原子集合中提取的运动原子加入第 1筛选结果中的运动短语，运用遍历的方法生成具有 2个运动原子的新的运动短语，在生成的新的运动短语中的这 2个运动原子不在同一时间点发生。

10223 , 重复上述过程，直至得到第 n- 1筛选结果，再从所述运动原子集合中提取一个运动原子加入所述第 n- 1筛选结果中的运动短语，使得所述第 n- 1筛选结果中的运动短语具有 n个运动原子，再根据所述第 n- 1筛选结果中的运动短语得到第 n筛选结果。

其中，比如：运动短语集合中的运动短语包括运动原子集合中的 1个运动原子，通过 10221 , 得到第 1筛选结果，再通过 10222 , 得到具有 2个运动原子的新的运动短语，再通过 10221的过程对具有 2个运动原子的新的运动短语进行选，得到第 2 选结果，再通过 10222的过程得到具有 3个运动原子的新的运动短语，以此类推，直至得到第 n筛选结果。

其中，第 n筛选结果为按照 Rep( ， c) + ARepSet( ， c)的值由大到 d、的顺序排列的前1¾个运动短语， m_n为大于等于 1的正整数，第 n筛选结果中的运动短语具有 n个运动原子， n为大于等于 1的正整数， n可以是系统根据样本视频库中的视频的类型和数量设定的值，也可以由用户设定并输入。

10224 , 根据所述第 1至第 n筛选结果，生成所述描述向量。

其中，第 1筛选结果中的运动短语包括运动原子集合中的 1个运动原子，第 2筛选结果中的运动短语包括运动原子集合中的 2个运动原子，以此类推，第 n筛选结果中的运动短语包括运动原子集合中的 n个运动原子。

其中，根据第 1至第 n筛选结果中的运动短语，生成筛选出的运动短语的集合，将筛选出的运动短语的集合作为基底，得到样本视频库中的视频的描述向量，样本视频库中的每一个视频都有对应的描述向量，描述向量中的每一个分量都是第 1至第 n 选结果中的运动短语对样本视频库中的视频的响应。

1031 a, 生成所述待检测视频对应的响应向量。

其中，将 10224中得到的筛选出的运动短语的集合作为基底，生成待检测视频对应的响应向量，响应向量中的分量是第 1至第 n筛选结果中的运动短语对待检测视频的响应。

1032a, 根据所述样本视频库中各个视频对应的描述向量，得到第二分类规则。

其中，样本视频库包括至少二个视频，并且样本视频库中的视频的类型相同。根据描述向量，可以生成第二分类规则，比如：使用 SVM ( Support Vector Machine , 支持向量机）分类器进行分类，将得到的样本视频库中的视频的描述向量加入 SVM分类器， SVM分类器会生成分类规则，分类规则可以是第二分类规则，第二分类规则用于检测待检测视频是否与样本视频库中的视频的类型相同。

1033a,检测所述待检测视频的响应向量是否符合所述第二分类规则。其中，利用 1032a中生成的第二分类规则检测待检测视频的响应向量，从而确定待检测视频是否与样本库中的视频的类型相同。的类型相同。

其中，样本视频库包括至少二个视频，并且样本视频库中的视频的类型相同，如果待检测视频的响应向量符合第二分类规则，则确定待检测视频的类型与样本视频库中的视频的类型相同；如果待检测视频的响应向量不符合第二分类规则，则确定待检测视频的类型与样本视频库中的视频的类型不同，从而对检测视频进行分类。比如：样本视频库包括五个视频，且五个视频的类型均为舞蹈类视频，检测待检测视频的种类是否为舞蹈类，对待检测视频进行分类，可以将待检测视频分为舞蹈类视频和非舞蹈类视频两个类型。

本发明实施例提供的一种视频分类的方法，能够将样本视频库中的视频分段，生成运动原子，并利用分段结果和运动原子生成样本视频库中的视频的运动短语，对每一个运动短语计算代表性参数和覆盖性参数的贡献值，首先生成包括一个运动原子的运动短语，根据代表性参数和覆盖性参数的贡献值，选出具有良好代表性和覆盖性的运动短语，得到第 1筛选结果，再将一个运动原子加入第 1筛选结果中的运动短语，得到新的运动短语，再根据代表性参数和覆盖性参数的贡献值在得到的新的运动短语中进行筛选，得到第 2筛选结果，以此类推，重复该过程，直至得到第 n筛选结果，根据第 1至第 n筛选结果，生成描述向量，利用描述向量，生成第二分类规则，得到待检测视频的响应向量，检测待检测视频的类型是否与样本视频库中的视频的类型相同，从而达到视频分类的目的。与现有技术相比，本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量，使得描述向量以量化数据的形式反映出在连续复杂运动中，在时间点附近按照时序关系排列的运动原子，并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程，实现了在分类过程中既包括了视频的时间因素，也包括了用于表示视频中具体动作、内容的运动原子，并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语，对运动短语进行筛选，筛选结果中的运动短语具有良好的代表性、覆盖性和判别性，减少了生成描述向量需要的运动短语的数量，使得得到的描述向量更加精简，减少了生成描述向量的时间，并且能够对包括长时间的连续复杂运动的视频进行准确分类。

进一步的，在图 2和图 3a所示的方案的基础上，本发明实施例还提供了一种视频分类的方法的具体方案，对图 2中的 1023和 103的执行过程进一步细化，其中， 1023可以具体实现为 10231 - 10232 , 103可以具体实现为 1031b- 1033b , 如图 3b所示，包括：

10231 , 根据所述样本视频库中不同类型的视频对应的所述运动短语的筛选结果，得到筛选结果集合。

其中，样本视频库包括至少二个视频，并且样本视频库包括至少二种类型的视频。样本视频库中的每一个类型的视频都具有对应的第 1至第 n 筛选结果，将样本视频库中不同类型的视频对应的第 1至第 n筛选结果合并，得到筛选结果集合，该筛选结果集合包括样本视频库中所有不同类型的视频对应的运动短语。

10232 , 根据所述选结果集合，生成所述样本视频库中的视频对应的描述向量。

其中，将筛选结果集合中的运动短语作为基底，生成样本视频库中的视频对应的描述向量，样本视频库中的每一个视频都有对应的描述向量，描述向量中的每一个分量都是样本视频库中不同类型的视频对应的第 1至第 n筛选结果中的运动短语对样本视频库中的视频的响应。

1031b , 生成所述待检测视频对应的响应向量。

其中，将 10232中得到的筛选结果集合中的运动短语作为基底，生成待检测视频对应的响应向量，响应向量中的分量是样本视频库中不同类型的视频对应的第 1至第 n筛选结果中的运动短语对待检测视频的响应。

1032b , 获取所述样本视频库中各个不同类型的视频对应的所述描述向量，并根据所述描述向量，得到第一分类规则。

其中，样本视频库包括至少二个视频，并且样本视频库包括至少二种类型的视频。根据样本视频库中各个不同类型的视频对应的所述描述向量，生成第一分类规则，比如：使用 SVM ( Support Vector Machine , 支持向量机）分类器进行分类，将得到的样本视频库中不同类型的视频的描述向量加入 SVM分类器， SVM分类器会生成分类规则，分类规则可以是第一分类规则，第一分类规则用于确定待检测视频的所属类型。

1033b , 根据所述第一分类规则和所述响应向量，确定所述待检测视频的类型与所述样本视频库包括的视频的类型中的一种类型相同，并将所述待检测视频分类。

其中，样本视频库包括至少二种类型的视频，第一分类规则用于确定待检测视频的所属类型，比如：样本视频库中包括三种类型的视频，分别是舞蹈类视频、体育类视频、杂技类视频，使用 SVM ( Support Vector Machine , 支持向量机）分类器对待检测视频进行分类，在 1032b中生成了第一分类规则，将 103 lb中得到的待检测视频的响应向量加入 SVM分类器，根据第一分类规则， SVM分类器将待检测视频分为舞蹈类视频、体育类视频、杂技类视频三类中的其中一类。

本发明实施例提供的一种视频分类的方法，能够将样本视频库中的视频分段，生成运动原子，并利用分段结果和运动原子生成样本视频库中的视频的运动短语，对每一个运动短语计算代表性参数和覆盖性参数的贡献值，首先生成包括一个运动原子的运动短语，根据代表性参数和覆盖性参数的贡献值，选出具有良好代表性和覆盖性的运动短语，得到第 1筛选结果，再将一个运动原子加入第 1筛选结果中的运动短语，得到新的运动短语，再根据代表性参数和覆盖性参数的贡献值在得到的新的运动短语中进行筛选，得到第 2筛选结果，以此类推，重复该过程，直至得到第 n筛选结果，将样本库中不同类型的视频对应的第 1至第 n筛选结果合并，得到筛选结果集合，并根据选结果集合生成描述向量，利用描述向量，生成第一分类规则，得到待检测视频的响应向量，确定待检测视频的类型与样本视频库包括的视频的类型中的一种类型相同，从而达到视频分类的目的。与现有技术相比，本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量，使得描述向量以量化数据的形式反映出在连续复杂运动中，在时间点附近按照时序关系排列的运动原子，并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程，实现了在分类过程中既包括了视频的时间因素，也包括了用于表示视频中具体动作、内容的运动原子，并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语，对运动短语进行筛选，筛选结果中的运动短语具有良好的代表性、覆盖性和判别性，减少了生成描述向量需要的运动短语的数量，使得得到的描述向量更加精简，减少了生成描述向量的时间，并且能够对多个不同类型的包括长时间的连续复杂运动的视频进行准确分类。

可选的，在图 2所示的方案的基础上，本发明实施例还提供了一种视频分类的方法的具体方案，增加了 104- 105 , 能够提取并显示待检测视频的主要信息，如图 4a所示，包括：

104 , 获取所述待检测视频的响应向量中的至少一个分量，并根据所述至少一个分量得到主要运动短语。

其中，待检测视频的响应向量中的分量可以是筛选出的运动短语对待检测视频的响应，分量越大，表示待检测视频与该分量对应的运动短语的匹配程度越高。

其中，主要运动短语为与至少一个分量对应的运动短语，比如：待检测视频的响应向量具有 10个分量，将 10个分量按照由大到小的顺序排列，获取前 3个分量，并得到这前三个分量对应的运动短语，这前三个分量对应的运动短语尤是主要运动短语。

105 , 获取并显示所述待检测视频的关键帧。

其中，关键帧与主要运动短语中的每个运动原子单元的响应最大，所以关键帧能够表示待检测视频中的最主要的信息，系统除了显示待检测视频的关键帧，还可以显示关键帧附近的帧，从而将待检测视频中的包括运动的主要内容呈现出来，例如：如图 4b所示，在一个视频中的跳远动作的连续的 9帧中，通过 104- 105的过程，可以得知关键帧为第 2帧与第 6帧，显示关键帧和关键帧附近的帧，所以显示第 1 - 3帧和第 5 - 7帧。

本发明实施例提供的一种视频分类的方法，能够将样本视频库中的视频分段，生成运动原子，并利用分段结果和运动原子生成样本视频库中的视频的运动短语，并对运动短语进行选，根据选结果，生成描述向量，利用描述向量，确定与样本视频库中视频类型相同的待检测视频，从而达到视频分类的目的，还可以根据待检测视频的响应向量中的分量，得到主要运动短语，从而得到并显示关键帧。与现有技术相比，本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量，使得描述向量以量化数据的形式反映出在连续复杂运动中，在时间点附近按照时序关系排列的运动原子，并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程，实现了在分类过程中既包括了视频的时间因素，也包括了用于表示视频中具体动作、内容的运动原子，并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语，对运动短语进行选，选结果中的运动短语具有良好的代表性、覆盖性和判别性，减少了生成描述向量需要的运动短语的数量，使得得到的描述向量更加精简，并减少了生成描述向量的时间，并且能够对包括长时间的连续复杂运动的视频进行准确分类；同时，还可以利用待检测视频的响应向量中的分量，得到并显示待检测视频的关键帧，将待检测视频的主要内容清楚简要的呈现出来，使得用户能够快速了解视频的主要内容。

本发明实施例还提供了一种视频分类的装置 200 , 如图 5所示，包括：第一生成模块 201 , 用于按照时间顺序对样本视频库中的视频进行分段并得到分段结果，并生成运动原子集合。

其中，样本视频库包括至少一个视频，运动原子集合中的运动原子是根据样本视频库中的视频生成的。

第二生成模块 202 , 用于利用所述运动原子集合和所述分段结果，生成对应于所述样本视频库中的视频的描述向量。

分类模块 203 , 用于利用所述描述向量，确定与所述样本视频库中的视频的类型相同的待检测视频。

本发明实施例提供的一种视频分类的装置，能够将样本视频库中的视频分段，生成运动原子，并利用分段结果和运动原子生成样本视频库中的视频的描述向量，利用描述向量，确定与样本视频库中视频类型相同的待检测视频，从而达到视频分类的目的。与现有技术相比，本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量，使得描述向量以量化数据的形式反映出在连续复杂运动中，在时间点附近按照时序关系排列的运动原子，并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程，实现了在分类过程中既包括了视频的时间因素，也包括了用于表示视频中具体动作、内容的运动原子，并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语，以及根据运动短语生成的描述向量，从而能够对包括长时间的连续复杂运动的视频进行准确分类。

可选的，如图 6所示，所述第二生成模块 202 , 包括：

第一生成单元 2021 , 用于根据所述运动原子集合和所述分段结果，生成对应于所述样本视频库中的视频的运动短语集合。

其中，运动短语集合包括至少二个运动短语，一个运动短语包括了按照一定的先后顺序在时间点附近发生的运动原子。

可选的，样本视频库包括至少二个视频，并且样本视频库中的视频的类型相同。

筛选单元 2022 , 用于筛选所述运动短语，并得到筛选结果。

第二生成单元 2023 , 用于根据所述选结果，生成与所述样本视频库中的视频对应的描述向量。

本发明实施例提供的一种视频分类的装置，能够将样本视频库中的视频分段，生成运动原子，并利用分段结果和运动原子生成样本视频库中的视频的运动短语，并对运动短语进行选，根据选结果，生成描述向量，利用描述向量，确定与样本视频库中视频类型相同的待检测视频，从而达到视频分类的目的。与现有技术相比，本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量，使得描述向量以量化数据的形式反映出在连续复杂运动中，在时间点附近按照时序关系排列的运动原子，并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程，实现了在分类过程中既包括了视频的时间因素，也包括了用于表示视频中具体动作、内容的运动原子，并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语，对运动短语进行选，选结果中的运动短语具有良好的代表性、覆盖性和判别性，减少了生成描述向量需要的运动短语的数量，使得得到的描述向量更加精简，并减少了生成描述向量的时间，并且能够对包括长时间的连续复杂运动的视频进行准确分类。

可选的，如图 7所示，所述第二生成模块 202, 还包括：

第一获取单元 2024, 用于获取运动原子单元 π(Α,ζσ) , 并根据所述运动原子单元获取一个运动短语的代表性参数 Rep , c )。

∑ ν,ρ)

其中， Rep( ，_C) = (^) ， A为运动原子, t为样本视频库中视频中的时间点， σ为高斯分布的标准差， V为样本视频库中的视频，为一个运动短语， r( , )为一个运动短语样本视频库中的视频的响应， r(F, ?) = min π)Άχν(ν,π) , v(V, π) = max Score( (V, t') ,A)-N(t'\ t, σ) , 指和一个运动短语响应最大的样本视频库中的视频的集合， c为样本视频库中的视频的类型的标识， Φ(^ ')为样本视频库中视频中以开始的分段结果的视频特征， &。 re(D( t'; )是将 Φ( ，ί')输入到支持向量机 SVM分类器得到的得分， N 'l^ )是指以 t为均值， σ为标准差的高斯分布， Ω(0指以 t为中心的一个邻域。

其中，运动短语集合中的运动短语包括一个运动原子集合中的运动原子。

第二获取单元 2025 , 用于获取所述一个运动短语的覆盖性参数 RepSet( ,c), 并根据所述一个运动短语的覆盖性参数 RepSet(r ，c) , 得到所述一个运动短语对所述覆盖性参数的贡献值 ARepSet( ， c)。其中，

△RepSet( ， c) = RepSet (Γ^， c) - RepSet ( — }， c) , 为样本视频库中标识为 _c 的视频分段得到的片段的数量，为运动短语集合，且一个运动短语包含的运动原子所属视频类型的标识为 c。

针对所述运动短语集合中的每一个运动短语，运行上述单元，并得到运动短语集合中的每一个运动短语的代表性参数和贡献值。

所述筛选单元 2022 , 包括：

筛选子单元 20221 , 用于根据所述运动短语集合中的每一个运动短语的代表性参数和贡献值，按照 Rep( ，c) + ARepSet( ，c)的值由大到小的顺序对所述运动短语集合中的运动短语进行排序，并将前个运动短语作为第 1筛选结果，为大于等于 1的正整数。

添加子单元 20222 , 用于从所述运动原子集合中提取一个运动原子加入所述第 1 选结果中的运动短语，使得所述第 1 选结果中的运动短语具有 2个运动原子。

连续运行所述选子单元和所述添加子单元，直至得到第 n- 1 选结果，再从所述运动原子集合中提取一个运动原子加入所述第 n- 1 选结果中的运动短语，使得所述第 n- 1筛选结果中的运动短语具有 n个运动原子，再根据所述第 n- 1筛选结果中的运动短语得到第 n筛选结果，所述第 n筛选结果为按照 Rep(„， c) + ARepSet (尸"， c)的值由大到 'J、的顺序排列的前 m_n个运动短语， m_n为大于等于 1的正整数，第 n筛选结果中的运动短语具有 n个运动原子， n为大于等于 1的正整数。

第一生成子单元 20223 , 用于根据所述第 1至第 n筛选结果，生成所述描述向量。

本发明实施例提供的一种视频分类的装置，能够将样本视频库中的视频分段，生成运动原子，并利用分段结果和运动原子生成样本视频库中的视频的运动短语，对每一个运动短语计算代表性参数和覆盖性参数的贡献值，首先生成包括一个运动原子的运动短语，根据代表性参数和覆盖性参数的贡献值，选出具有良好代表性和覆盖性的运动短语，得到第 1筛选结果，再将一个运动原子加入第 1筛选结果中的运动短语，得到新的运动短语，再根据代表性参数和覆盖性参数的贡献值在得到的新的运动短语中进行筛选，得到第 2筛选结果，以此类推，重复该过程，直至得到第 n筛选结果，根据第 1至第 n筛选结果，生成描述向量，利用描述向量，生成第二分类规则，得到待检测视频的响应向量，检测待检测视频的类型是否与样本视频库中的视频的类型相同，从而达到视频分类的目的。与现有技术相比，本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量，使得描述向量以量化数据的形式反映出在连续复杂运动中，在时间点附近按照时序关系排列的运动原子，并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程，实现了在分类过程中既包括了视频的时间因素，也包括了用于表示视频中具体动作、内容的运动原子，并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语，对运动短语进行筛选，筛选结果中的运动短语具有良好的代表性、覆盖性和判别性，减少了生成描述向量需要的运动短语的数量，使得得到的描述向量更加精简，减少了生成描述向量的时间，并且能够对包括长时间的连续复杂运动的视频进行准确分类。

可选的，如图 8所示，所述第二生成单元 2023 , 包括：

集合子单元 20231 , 用于根据所述样本视频库中不同类型的视频对应的所述运动短语的筛选结果，得到筛选结果集合。

其中，样本视频库包括至少二个视频，并且样本视频库包括至少二种类型的视频。

第二生成子单元 20232 , 用于根据所述筛选结果集合，生成所述样本视频库中的视频对应的描述向量。

本发明实施例提供的一种视频分类的装置，能够将样本视频库中的视频分段，生成运动原子，并利用分段结果和运动原子生成样本视频库中的视频的运动短语，对每一个运动短语计算代表性参数和覆盖性参数的贡献值，首先生成包括一个运动原子的运动短语，根据代表性参数和覆盖性参数的贡献值，选出具有良好代表性和覆盖性的运动短语，得到第 1筛选结果，再将一个运动原子加入第 1筛选结果中的运动短语，得到新的运动短语，再根据代表性参数和覆盖性参数的贡献值在得到的新的运动短语中进行筛选，得到第 2筛选结果，以此类推，重复该过程，直至得到第 n筛选结果，将样本库中不同类型的视频对应的第 1至第 n筛选结果合并，得到筛选结果集合，并根据选结果集合生成描述向量，利用描述向量，生成第一分类规则，得到待检测视频的响应向量，确定待检测视频的类型与样本视频库包括的视频的类型中的一种类型相同，从而达到视频分类的目的。与现有技术相比，本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量，使得描述向量以量化数据的形式反映出在连续复杂运动中，在时间点附近按照时序关系排列的运动原子，并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程，实现了在分类过程中既包括了视频的时间因素，也包括了用于表示视频中具体动作、内容的运动原子，并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语，对运动短语进行筛选，筛选结果中的运动短语具有良好的代表性、覆盖性和判别性，减少了生成描述向量需要的运动短语的数量，使得得到的描述向量更加精简，减少了生成描述向量的时间，并且能够对多个不同类型的包括长时间的连续复杂运动的视频进行准确分类。

可选的，如图 9所示，所述分类模块 203 , 包括：

第三生成单元 2031 , 用于生成所述待检测视频对应的响应向量。

第三获取单元 2032 ,用于获取所述样本视频库中各个不同类型的视频对应的所述描述向量，并根据所述描述向量，得到第一分类规则。

其中，第一分类规则用于确定待检测视频的所属类型。

第一分类单元 2033 , 用于根据所述第一分类规则和所述响应向量，确定所述待检测视频的类型与所述样本视频库包括的视频的类型中的一种类型相同，并将所述待检测视频分类。

可选的，如图 10所示，所述分类模块 203 , 包括：

第四生成单元 2034 , 用于生成所述待检测视频对应的响应向量。向量，得到第二分类规则。

其中，第二分类规则用于检测待检测视频是否与样本视频库中的视频的类型相同。

检测单元 2036 ,用于检测所述待检测视频的响应向量是否符合所述第二分类规则。

第二分类单元 2037 , 用于当符合时，确定所述待检测视频与所述样本视频库中的视频的类型相同。

可选的，如图 11所示，所述装置 200 , 还包括：

获取模块 204 , 用于获取所述待检测视频的响应向量中的至少一个分量，并根据所述至少一个分量得到主要运动短语。

其中，主要运动短语为与至少一个分量对应的运动短语。

显示模块 205 , 用于获取并显示所述待检测视频的关键帧。

其中，关键帧与主要运动短语中的每个运动原子单元的响应最大。本发明实施例提供的一种视频分类的装置，能够将样本视频库中的视频分段，生成运动原子，并利用分段结果和运动原子生成样本视频库中的视频的运动短语，并对运动短语进行选，根据选结果，生成描述向量，利用描述向量，确定与样本视频库中视频类型相同的待检测视频，从而达到视频分类的目的，还可以根据待检测视频的响应向量中的分量，得到主要运动短语，从而得到并显示关键帧。与现有技术相比，本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量，使得描述向量以量化数据的形式反映出在连续复杂运动中，在时间点附近按照时序关系排列的运动原子，并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程，实现了在分类过程中既包括了视频的时间因素，也包括了用于表示视频中具体动作、内容的运动原子，并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语，对运动短语进行选，选结果中的运动短语具有良好的代表性、覆盖性和判别性，减少了生成描述向量需要的运动短语的数量，使得得到的描述向量更加精简，并减少了生成描述向量的时间，并且能够对包括长时间的连续复杂运动的视频进行准确分类；同时，还可以利用待检测视频的响应向量中的分量，得到并显示待检测视频的关键帧，将待检测视频的主要内容清楚简要的呈现出来，使得用户能够快速了解视频的主要内容。

本发明实施例还提供了一种视频分类系统 300 , 如图 12所示，包括：至少一个处理器 301 , 例如 CPU , 至少一个通信总线 302 , 存储器 303 , 至少一个网络接口 304或者用户接口 305。通信总线 302用于实现这些组件之间的连接通信。可选的，用户接口 305包括显示器、键盘、鼠标、触摸屏等设备。存储器 303可能包含高速 RAM存储器，也可能还包括非不稳定的存者器（ non- volatile memory ), 例如至少一个磁盘存 4诸器。

具体的，存储器 303可以用于存储样本视频库和样本视频库中的视频的分段结果，还可以用于存储运动原子集合、样本视频库中的视频的描述向量和运动短语集合，还可以用于存储运动短语的选结果、样本视频库中的视频的类型和待检测视频的响应向量，还可以用于存储运动短语的代表性参数、覆盖性参数和覆盖性参数的贡献值等等，还可以用于存储生成的第一分类规则和第二分类规则。

具体的，处理器 301可以用于按照时间顺序对样本视频库中的视频进行分段并得到分段结果，并生成运动原子集合；以及，用于利用所述运动原子集合和所述分段结果，生成对应于所述样本视频库中的视频的描述向量；以及，用于利用所述描述向量，确定与所述样本视频库中的视频的类型相同的待检测视频。

具体的，处理器 301还可以用于根据所述运动原子集合和所述分段结果，生成对应于所述样本视频库中的视频的运动短语集合；以及，用于筛选所述运动短语，并得到筛选结果；以及，用于根据所述筛选结果，生成与所述样本视频库中的视频对应的描述向量。

具体的，处理器 301还可以用于获取运动原子单元 π(Α,ζσ) , 并根据所述运动原子单元获取一个运动短语的代表性参数 Rep( , c) ; 以及，用于获取所述一个运动短语的覆盖性参数 RepSet(C) ,并根据所述一个运动短语的覆盖性参数 RepSet(J ，c) ,得到所述一个运动短语对所述覆盖性参数的贡献值 ARepSet( ，c) , RepSet(n, c) 以及，用于针对所述运动

短语集合中的每一个运动短语，执行上述过程，并得到所述运动短语集合中的每一个运动短语的代表性参数和贡献值。

其中， Rep(0 (^) ， A为运动原子, t为样本视频库中视频

|S( ，c)|

中的时间点， σ为高斯分布的标准差， V为样本视频库中的视频，为一个运动短语， r( , )为一个运动短语样本视频库中的视频的响应， r(F, ?) = min π)Άχν(ν,π) , v(V, π) = max Score( (V, t') ,A)-N(t'\ t, σ) , 指

OR^ TteORi ί'≡Ω(ί) / \ ' ¹ 和一个运动短语响应最大的样本视频库中的视频的集合， C为样本视频库中的视频的类型的标识，为样本视频库中视频中以开始的分段结果的视频特征， &。 re(D( t'; )是将 Φ( ，ί')输入到支持向量机 SVM分类器得到的得分， N 'l^ )是指以 t为均值， σ为标准差的高斯分布， Ω(0指以 t为中心的一个邻域。

其中， ARepSet( ，c) = RepSet(r，c)— RepSet(r— }，， 7；为样本视频库中标识为 c的视频分段得到的片段的数量，为运动短语集合，且一个运动短语包含的运动原子所属视频类型的标识为 C。

其中，样本视频库包括至少二个视频，并且样本视频库中的视频的类型相同。运动短语集合中的运动短语包括一个运动原子集合中的运动原子。

具体的，处理器 301还可以用于根据所述运动短语集合中的每一个运动短语的代表性参数和贡献值，按照 Rep( ， c) + ARepSet(^， c)的值由大到 d、的顺序对所述运动短语集合中的运动短语进行排序，并将前个运动短语作为第 1筛选结果；以及，用于从所述运动原子集合中提取一个运动原子加入所述第 1筛选结果中的运动短语，使得所述第 1筛选结果中的运动短语具有 2个运动原子；以及，用于重复上述过程，直至得到第 n-1筛选结果，再从所述运动原子集合中提取一个运动原子加入所述第 n-1筛选结果中的运动短语，使得所述第 n- 1筛选结果中的运动短语具有 n个运动原子，再根据所述第 n- 1筛选结果中的运动短语得到第 n筛选结果，所述第 n筛选结果为按照 Rep(„ , c) + ARepSet(„ , c)的值由大到小的顺序排列的前 m_n个运动短语， m_n为大于等于 1的正整数，第 n筛选结果中的运动短语具有 n个运动原子；以及，用于根据所述第 1至第 n筛选结果，生成所述描述向量。

其中，为大于等于 1的正整数， n为大于等于 1的正整数。

具体的，处理器 301还可以用于根据所述样本视频库中不同类型的视频对应的所述运动短语的筛选结果，得到筛选结果集合；以及，用于根据所述选结果集合，生成所述样本视频库中的视频对应的描述向量。

具体的，处理器 301还可以用于生成所述待检测视频对应的响应向量；以及，用于获取所述样本视频库中各个不同类型的视频对应的所述描述向量，并根据所述描述向量，得到第一分类规则；以及，用于根据所述第一分类规则和所述响应向量，确定所述待检测视频的类型与所述样本视频库包括的视频的类型中的一种类型相同，并将所述待检测视频分类。

其中，第一分类规则用于确定待检测视频的所属类型。

具体的，处理器 301还可以用于生成所述待检测视频对应的响应向量；类规则；以及，用于检测所述待检测视频的响应向量是否符合所述第二分类规则；以及，用于当符合时，确定所述待检测视频与所述样本视频库中的视频的类型相同。

具体的，处理器 301还可以用于获取所述待检测视频的响应向量中的至少一个分量，并根据所述至少一个分量得到主要运动短语；以及，用于获取并显示所述待检测视频的关键帧。其中，主要运动短语为与至少一个分量对应的运动短语。关键帧与主要运动短语中的每个运动原子单元的响应最大。

本发明实施例提供的一种视频分类系统，能够将样本视频库中的视频分段，生成运动原子，并利用分段结果和运动原子生成样本视频库中的视频的运动短语，并对运动短语进行选，根据选结果，生成描述向量，利用描述向量，确定与样本视频库中视频类型相同的待检测视频，从而达到视频分类的目的，还可以根据待检测视频的响应向量中的分量，得到主要运动短语，从而得到并显示关键帧。与现有技术相比，本发明根据用于描述连续复杂运动的运动原子之间的时序关系的运动短语得到描述向量，使得描述向量以量化数据的形式反映出在连续复杂运动中，在时间点附近按照时序关系排列的运动原子，并以此检测运动短语与样本视频库中视频匹配程度的高低。因此利用描述向量进行分类的过程，实现了在分类过程中既包括了视频的时间因素，也包括了用于表示视频中具体动作、内容的运动原子，并且结合二者生成了用于描述连续复杂运动的运动原子之间的时序关系的运动短语，对运动短语进行选，选结果中的运动短语具有良好的代表性、覆盖性和判别性，减少了生成描述向量需要的运动短语的数量，使得得到的描述向量更加精简，并减少了生成描述向量的时间，并且能够对包括长时间的连续复杂运动的视频进行准确分类；同时，还可以利用待检测视频的响应向量中的分量，得到并显示待检测视频的关键帧，将待检测视频的主要内容清楚简要的呈现出来，使得用户能够快速了解视频的主要内容。同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体 ( Read-Only Memory , ROM ) 或随机存者 i己忆体 ( Random Access Memory, RAM ) 等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

权利要求书

1、一种视频分类的方法，其特征在于，包括：

按照时间顺序对样本视频库中的视频进行分段并得到分段结果，并生成运动原子集合，所述样本视频库包括至少一个视频，所述运动原子集合利用所述运动原子集合和所述分段结果，生成对应于所述样本视频库中的视频的描述向量；

2、根据权利要求 1所述的方法，其特征在于，所述利用所述运动原子集合和所述分段结果，生成对应于所述样本视频库中的视频的描述向量，包括：

根据所述选结果，生成与所述样本视频库中的视频对应的描述向量。

3、根据权利要求 1或 2所述的方法，其特征在于，所述样本视频库包括至少二个视频，并且所述样本视频库中的视频的类型相同。

4、根据权利要求 3所述的视频分类的方法，其特征在于，所述运动短语集合中的运动短语包括一个所述运动原子集合中的运动原子；所述方法还包括：

获取运动原子单元 π(Α,ζσ) ,并根据所述运动原子单元获取一个运动短

∑ r(V, P_x)

语的代表性参数 Rep( ,c) , Rep(^,c) = ^i≡S( ^ ， A为运动原子 , t为所述样本视频库中视频中的时间点， σ为高斯分布的标准差， V为所述样本视频库中的视频，？₁为所述一个运动短语， r( , )为所述一个运动短语 Pi对所述样本视频库中的视频的响应， r(F,^)=min ΐΏΆχν(¥,π) , v(V, π) = max Score (Φ (V,t'),A)-N(t'\t,a), ( .指计算所述样本视频库中的视频与时间相邻的所述运动原子单元的响应， S( ， c)表示和所述一个运动短语响应最大的所述样本视频库中的视频的集合， c为所述样本视频库中的视频的类型的标识， Φ( )为所述样本视频库中视频中以开始的所述分段结果的视频特征， &。 re(D( t'; )是将 Φ( )输入到支持向量机 SVM分类器得到的得分， N 'l^ )是指以 t为均值， σ为标准差的高斯分布， Ω(0指以 t为中心的一个邻域；

获取所述一个运动短语的覆盖性参数 RepSet(r ，c), 并根据所述一个运动短语的覆盖性参数 RepSet(r^c), 得到所述一个运动短语对所述覆盖性参数的贡献值 ARepSet( ，c) , RepSet(r» |U _rS( ，c)

所述选所述运动短语，得到选结果，包括：

重复上述过程，直至得到第 n-1筛选结果，再从所述运动原子集合中提取一个运动原子加入所述第 n-1筛选结果中的运动短语，使得所述第 n-1筛选结果中的运动短语具有 n个运动原子，再根据所述第 n-1筛选结果中的运动短语得到第 n筛选结果，所述第 n筛选结果为按照 Rep(P„， c) + ARepSet(„， c) 的值由大到小的顺序排列的前 m_n个运动短语， m_n为大于等于 1的正整数，第 n筛选结果中的运动短语具有 n个运动原子， n为大于等于 1的正整数；根据所述第 1至第 n筛选结果，生成所述描述向量。

5、根据权利要求 4所述的视频分类的方法，其特征在于，所述样本视频库包括至少二个视频，并且所述样本视频库包括至少二种类型的视频；所述根据选结果，生成与所述样本视频库中的视频对应的描述向量，包括：

根据所述样本视频库中不同类型的视频对应的所述运动短语的选结果，得到筛选结果集合；

6、根据权利要求 5所述的方法，其特征在于，所述利用所述描述向量，确定与所述样本视频库中的视频的类型相同的待检测视频，包括：

生成所述待检测视频对应的响应向量；

7、根据权利要求 1或 3所述的视频分类的方法，其特征在于，所述利用所述描述向量，确定与所述样本视频库中的视频的类型相同的待检测视频 , 包括：

生成所述待检测视频对应的响应向量；

根据所述样本视频库中各个视频对应的描述向量，得到第二分类规则，所述第二分类规则用于检测所述待检测视频是否与所述样本视频库中的视频的类型相同；

8、根据权利要求 1所述的视频分类的方法，其特征在于，还包括：获取所述待检测视频的响应向量中的至少一个分量，并根据所述至少一个分量得到主要运动短语，所述主要运动短语为与所述至少一个分量对应的运动短语；

9、一种视频分类的装置，其特征在于，包括：

第一生成模块，用于按照时间顺序对样本视频库中的视频进行分段并得到分段结果，并生成运动原子集合，所述样本视频库包括至少一个视频，第二生成模块，用于利用所述运动原子集合和所述分段结果，生成对应于所述样本视频库中的视频的描述向量；

10、根据权利要求 9所述的装置，其特征在于，所述第二生成模块，包括：

第一生成单元，用于根据所述运动原子集合和所述分段结果，生成对应于所述样本视频库中的视频的运动短语集合，所述运动短语集合包括至少二个运动短语，一个运动短语包括了按照一定的先后顺序在时间 , 附近发生的运动原子；

筛选单元，用于选所述运动短语，并得到选结果；

11、根据权利要求 9或 10所述的装置，其特征在于，所述样本视频库包括至少二个视频，并且所述样本视频库中的视频的类型相同。

12、根据权利要求 11所述的装置，其特征在于，所述运动短语集合中的运动短语包括一个所述运动原子集合中的运动原子；所述第二生成模块，还包括：

第一获取单元，用于获取运动原子单元 π(Α,ζσ), 并根据所述运动原子单元获取一个运动短语的代表性参数 Rep( ,c), Rep( ，c)=' ) ， A 为运动原子， t为所述样本视频库中视频中的时间点， σ为高斯分布的标准差， V为所述样本视频库中的视频，？为所述一个运动短语， r( , ）为所述一个运动短语 Pi对所述样本视频库中的视频的响应，

r(F, ?) = min π)Άχν(ν,π) , v(V, π) = max Score (φ(¥, t') ,A)-N(t'\ t, σ) , 指

¹ OR^ eOR_t t' (t) , ) ' ¹

S( ，C)表示和所述一个运动短语响应最大的所述样本视频库中的视频的集合， c为所述样本视频库中的视频的类型的标识，为所述样本视频库中视频中以 f开始的所述分段结果的视频特征， &。 Γβ(Φ( ，

^是将 Φ( ， t') 输入到支持向量机 SVM分类器得到的得分， N(Z'^ )是指以 t为均值， σ为标准差的高斯分布， Ω(0指以 t为中心的一个邻域；

第二获取单元，用于获取所述一个运动短语的覆盖性参数 RepSet(r c), 并根据所述一个运动短语的覆盖性参数 RepSet(r，c), 得到所述一个运动短语对所述覆盖性参数的贡献值 ARepSet( ，c) ,

所述选单元，包括：

筛选子单元，用于根据所述运动短语集合中的每一个运动短语的代表性参数和贡献值，按照 Rep( ，c) + A epSet( ，c)的值由大到小的顺序对所述运动短语集合中的运动短语进行排序，并将前个运动短语作为第 1 选结果，为大于等于 1的正整数；

连续运行所述选子单元和所述添加子单元，直至得到第 n-1 选结果，再从所述运动原子集合中提取一个运动原子加入所述第 n- 1筛选结果中的运动短语，使得所述第 n-1筛选结果中的运动短语具有 n个运动原子，再根据所述第 n-1筛选结果中的运动短语得到第 n筛选结果，所述第 n筛选结果为按照 Rep(„ , c) + ARepSet(„ , c)的值由大到小的顺序排列的前 m_n个运动短语， m_n为大于等于 1的正整数，第 n筛选结果中的运动短语具有 n个运动原子， n为大于等于 1的正整数；

13、根据权利要求 12所述的视频分类的装置，其特征在于，所述样本视频库包括至少二个视频，并且所述样本视频库包括至少二种类型的视频；所述第二生成单元，包括：

14、根据权利要求 13所述的装置，其特征在于，所述分类模块，包括：第三生成单元，用于生成所述待检测视频对应的响应向量；第三获取单元，用于获取所述样本视频库中各个不同类型的视频对应的所述描述向量，并根据所述描述向量，得到第一分类规则，所述第一分类规则用于确定所述待检测视频的所属类型；

15、根据权利要求 9或 11所述的装置，其特征在于，所述分类模块，包括：

第四生成单元，用于生成所述待检测视频对应的响应向量；得到第二分类规则，所述第二分类规则用于检测所述待检测视频是否与所述样本视频库中的视频的类型相同；

16、根据权利要求 9所述的装置，其特征在于，还包括：