WO2015003341A1

WO2015003341A1 - 基于质量元数据的视频分类器构造方法

Info

Publication number: WO2015003341A1
Application number: PCT/CN2013/079118
Authority: WO
Inventors: 吴偶; 胡卫明; 游强
Original assignee: 中国科学院自动化研究所
Priority date: 2013-07-10
Filing date: 2013-07-10
Publication date: 2015-01-15

Abstract

一种基于质量元数据的视频分类器构造方法，包括：提取视频样本集中每个视频样本的视频特征，以得到视频特征集；对每个视频样本赋予标签，以表示该视频样本属于第一类别或第二类别；针对每个视频样本进行质量评估以得到该视频样本的质量元数据，所有视频样本的质量元数据组成质量元数据集；通过对质量元数据集进行聚类，将视频特征集分成多个视频特征子集；以及针对每个视频特征子集，基于属于该视频特征子集的视频特征和相应视频样本的标签，利用基于聚类的多任务学习算法得到对应于该视频特征子集的视频分类器。

Description

基于质量元数据的视频分类器构造方法技术领域

本发明涉及计算机应用技术领域，特别涉及一种基于质量元数据的视频分类器构造方法。背景技术

图片、视频及音频等多媒体已经逐渐成为信息传播所采取的主要方式之一。而在这些多媒体信息中，视频由于其内容丰富、动态性强等特点而被越来越多的人使用。然而，由于视频信息包含的数据量大，内容庞杂，因此难以从大量视频中识别出属于特定类别的视频，从而实现高效的信息分类和监管。因此，需要有效的视频识别技术以解决这一问题。

现有的视频识别技术主要通过构造分类器来对视频进行分类。构造分类器的方法主要有两种：（1) 基于单模态特征的分类器构造方法。这类方法主要是提取视频的视觉或听觉特征，根据这些特征来构造分类器。（2)基于多模态特征融合的分类器构造方法，这类方法主要是提取视频的多个模态的特征，将其融合以构造分类器。例如，除了视觉特征外，还可以提取音频特征等。有些方法还考虑网络视频周围的文本，从这些文本里面继续提取一些特征用于融合。大量研究与实践表明基于多模态特征融合构造的分类器的性能要优于基于单模态特征构造的分类器。但是，视频数据通常比较复杂，从文本、视觉以及音频这三个模态来看，有些视频周围的文本很丰富，而有的很少；有的视频的视觉质量很高，而有的很低；有的视频的音频信号非常清晰，有的则噪声很大。从质量不好的模态提取的特征由于可靠性不高而通常无法真实地反映视频的特性。目前的基于多模态特征构造分类器的方法均没有考虑到特征质量的问题，导致无法实现准确的视频识别。发明内容

有鉴于此，本发明的主要目的是提供一种基于质量元数据的视频分类器构造方法。

根据本发明的一个方面提供了一种基于质量元数据的视频分类器构造方法，包括：提取视频样本集中每个视频样本的视频特征，以得到视频特征集；对每个视频样本赋予标签，以表示该视频样本属于第一类别或第二类别；针对每个视频样本进行质量评估以得到该视频样本的质量元数据，所有视频样本的质量元数据组成质量元数据集；通过对质量元数据集进行聚类，将视频特征集分成多个视频特征子集；以及针对每个视频特征子集，基于属于该视频特征子集的视频特征和相应视频样本的标签，利用基于聚类的多任务学习算法得到对应于该视频特征子集的视频分类器。

根据本发明的方法根据视频的各个模态（视觉、音频以及文本）信息所呈现的质量不均衡的实际特点来将视频样本集合分为不同子集，对每个子集分别构造分类器，对于待分类视频，根据其质量元数据对应的子集来调用相应的分类器以进行分类，从而实现优化的分类效果。

此外，本发明通过基于聚类的多任务学习方法来构造分类器，既能够针对不同质量的视频样本子集构造不同的分类器，又能够避免使用单一视频样本子集时训练样本规模较小的问题。附图说明

图 1示意性示出了根据本发明实施例的基于质量元数据的视频分类器构造方法的流程图；以及

图 2示意性示出了根据本发明实施例的视频分类方法的工作过程。具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明的执行环境采用一台具有 3.0G赫兹中央处理器和 2G字节内存的奔腾 4计算机并用 C++语言编制了视频分类器构造程序，实现了本发明的基于质量元数据的视频分类器构造方法，还可以采用其他执行环境实现本发明，在此不再赘述。

图 1示出了根据本发明实施例的基于质量元数据的视频分类器构造方法的流程图，其步骤如下：

在步骤 101，提取视频样本集中每个视频样本的视频特征，以得到视频特征集。可选地，每个视频样本包括视频以及该视频周围的文本。可以利用计算机收集网络视频以及每个网络视频周围的文本以构成网络视频样本集。也可以通过其他方式提供该视频样本集。

根据本发明的实施例，视频特征可以包括视觉特征、音频特征和文本特征。关于具体选取哪些特征，主要依据视频的具体类别来定。下面分别以暴力视频和色情视频为例来说明提取哪些特征。

根据本发明的实施例，对于暴力视频的识别，在视觉特征提取上，主要提取能体现暴力内容的特征，例如运动矢量、颜色、纹理、形状等。在音频特征提取上，主要提取和暴力相关的音频特征，例如短时能量，过零率，基音周期等。在文本特征提取上，主要利用常规的文本特征提取算法，如文档频率，信息增益以及互信息等方法来提取。

根据本发明的实施例，对于色情视频的识别，在视觉特征提取上，主要提取能体现色情内容的特征，例如关键帧平均肤色像素比例、关键帧平均最大肤色联通区域比例等。在音频特征提取上，主要提取和色情相关的音频特征，例如 MFCC系数、短时能量、能量方差等。在文本特征提取上，主要利用常规的文本特征提取算法，如文档频率，信息增益以及互信息等方法来提取。

在步骤 102:对每个视频样本赋予与其类别相对应的标签，以表示该视频样本属于第一类别或第二类别。例如，第一类别可以是有害（例如包含暴力或色情内容）类别，第二类别可以是正常类别。根据本发明的实施例，可以人工识别视频是否有害，然后相应地对视频样本赋予标签。备选地，也可以利用已有的有害视频样本集和正常视频样本集，并以批处理方式对其赋予标签。

在步骤 103，针对每个视频样本进行质量评估以得到该视频样本的质量元数据，所有视频样本的质量元数据组成质量元数据集。根据本发明的实施例，分别对视频样本集中的每个视频样本的视觉特征，音频特征以及文本特征进行质量元数据提取，得到视觉、音频以及文本质量元数据，三种质量元数据联合构成了每个视频样本的质量元数据。所有视频样本的质量元数据构成了质量元数据集。

根据本发明的实施例，通过对每个视频样本的视觉信息进行质量评估以得到该视频样本的视觉质量元数据。例如，可以利用一种或多种无参考视频客观质量评估方法对视觉信息进行评估。所述无参考视频客观质量评估方法例如包括，基于指标峰值信噪比的方法、基于块效应的测量算法等。

根据本发明的实施例，通过对每个视频样本的音频信息进行质量评估以得到该视频样本的音频质量元数据。例如，可以利用一种或多种无参考音频客观质量评估方法对音频信息进行评估。所述无参考音频客观质量评估方法例如包括扩展的巴克谱失真测度，归一化块测度，感知分析测度等。

根据本发明的实施例，通过对每个视频样本的文本进行字数统计以得到该视频样本的文本质量元数据。例如，针对每个视频样本，统计文本的总字数 (L 以及平均句子字数 ₂)，那么其文本质量元数据为 _l J₂)。

在步骤 104，通过对质量元数据集进行聚类，将视频特征集分成多个视频特征子集。根据本发明的实施例，对步骤 103中得到的质量元数据集进行聚类，以得到 c个聚类团。然后，针对每个聚类团，根据质量元数据集中的质量元数据与视频特征集中的视频特征的对应关系，将视频特征集分成与 c个聚类团相对应的 c个视频特征子集。

根据本发明的实施例，可以选用常规的聚类方法如 K-me_anS、谱聚类等对质量元数据集进行聚类。可选地， C的取值范围是 [5,20]，并且 C优选地大于 10。

在步骤 105，针对每个视频特征子集，基于属于该视频特征子集的视频特征和相应视频样本的标签，利用基于聚类的多任务学习算法得到对应于该视频特征子集的视频分类器。

根据本发明的实施例，可以将视频特征集表示为; ^= ^₁ ..., _; ,..., ^，其中 X 是第 i个视频样本的视频特征，可以表示为 X = (x_V x_ah x_tI , 1≤ i≤ iV。其中， x_w为第个视频样本的视觉特征， x_∞为第个视频样本的音频特征， ^为第个视频样本的文本特征， N是视频样本集中的视频样本总数。第个视频样本的标签用表示，当第个视频样本属于第一类别时， = 1，否则 =-1。第个视频样本对应的三种模态的质量元数据分别用^, q_a φ,表示，其中^表示视觉质量元数据， _∞表示音频质量元数据，表示文本质量元数据。第个视频样本对应的质量元数据用表示， = (g_Vh g_ah g_tI). 视频样本集的所有视频样本的质量元数据构成的质量元数据集表示为 ρ= ..., q_h..., q_N}₀

利用聚类算法对质量元数据集 Q进行聚类之后，将质量元数据集 Q分成 C 个聚类团，其中 C为预先设置的聚类团个数。根据本发明的实施例， C的值选取范围为 [5, 20], 并优选地大于 10。根据视频特征集; r与质量元数据集 ρ之间的对应关系，将视频特征集; Γ分成 C个视频特征子集;^ ..., ,...,」， 1≤ c≤ ί：。然后，建立以下目标优化函数： P _{w b}™ⁿ _{= 1} c (^yi - (^WcXi + ^bc))² + «(tr(V ^rV ) - tr(F^TW^TWF)) + (W^TW) c ° c=i xiex_c

s. t. F^TF = Ip

其中：

和是对应于第 c个视频特征子集的视频分类器的参数；

W = [νν₁₍ w_c, ... w_c] ;

α和是平衡因子， F是聚类矩阵， /_p是单位矩阵，在求解过程中通过交叉验证的方法对 α、 β、 F和 /_Ρ进行选择。根据本发明的实施例， 3≤ Ρ≤ ί：。

这样，可以计算每个视频特征子集对应的分类器的参数，从而得到分类器。应当注意，以上对各步骤的编号仅为说明目的，而并不限定各步骤的执行顺序。在不脱离本发明精神和范围的情况下，可以改变步骤的执行顺序和 /或将单个步骤拆分为多个步骤、将多个步骤组合为单个步骤、或将某个步骤的一部分与其他步骤或其他步骤的一部分组合为单个步骤来执行。本发明明确考虑这些情况并将其包含在本发明的范围内。

根据本发明的实施例，可以使用得到的针对每个视频特征子集的分类器对待分类视频进行分类。具体地，对于待分类视频，首先分别提取视觉特征 (x_v)、音频特征 (x。)以及文本特征 (x_f)，并且提取其视觉、音频以及文本的质量元数据 q_v, q_a, qt, 以得到该待分类视频的质量元数据 = 计算该质量元数据 ^与上述得到的 C个聚类团的聚类中心的距离，假定与质量元数据 q之间距离最小的聚类中心为第 z个聚类团的聚类中心，那么利用与第 z个聚类团相对应的第 z个视频特征子集所对应的分类器来对该待分类视频分类。具体地，通过计算以下等式来对所述待分类视频进行分类： / = < vv_z, (x_i;, x_a, x_t) > +b_z，其中v^Pb_z是所述第 z个视频特征子集所对应的视频分类器的参数，如果 / > 0，则所述待分类视频属于第一类别，否则，所述待分类视频属于第二类别。

图 2示意性示出了根据本发明实施例的视频分类方法的工作过程。如图 2 所示，提供视频样本集 201 : 视频样本 1、视频样本 2、 …视频样本、 …视频样本 N， N是视频样本的总数， l≤ i≤ N。

从每个视频样本分别提取视频特征，得到视频特征集 202: X= {x . . . , χ, ΧΛ^，其中 x, 是第 i个视频样本的视频特征。根据本发明的实施例，x_; =(x_w, x_ah x_tI , 其中， x_w为第个视频样本的视觉特征， x_∞为第个视频样本的音频特征， ^为第个视频样本的文本特征。

对每个视频样本赋予与其类别相对应的标签 203: y ...,y, ,...,y_N, 以表示该视频样本属于第一类别或第二类别。例如，第个视频样本的标签用表示，当第个视频样本属于第一类别时， = 1，否则 =-1。

针对每个视频样本进行质量评估以得到该视频样本的质量元数据，所有视频样本的质量元数据组成质量元数据集 204: Q = {q_h q_h..., q_N}, 其中 q_t 是第个视频样本的质量元数据。根据本发明的实施例， φ= (q_V q_a q_tI , 其中^ 表示视觉质量元数据， _∞表示音频质量元数据，表示文本质量元数据。

对质量元数据集 204进行聚类，得到 C个聚类团 205，每个聚类团具有一个聚类中心。根据本发明的实施例， C的值选取范围为 [5, 20],并优选地大于 10。

根据视频特征集 r与质量元数据集 Q之间的对应关系，将视频特征集; Γ分成 C个视频特征子集 206: X_h ...,X_c,...,Xc, l≤ c≤ C。

针对每个视频特征子集，基于属于该视频特征子集的视频特征和相应视频样本的标签，利用基于聚类的多任务学习算法 207得到对应于该视频特征子集的视频分类器 208。根据本发明的实施例，通过求解以下目标优化函数得到与每个视频特征子集相对应的视频分类器 208:

c

P _{w b}™^Π _{= 1} c (^yi - (^WcXi + ^bc))² + «(tr(V ^rV ) - tr(F^TW^TWF)) + (W^TW) c ° c=i xiex_c

s. t. F^TF = Ip

其中：

和是对应于第 c个视频特征子集的视频分类器的参数；

W = [νν₁₍ w_c, ... w_c];

对于待分类视频 209，分别提取视觉特征 (χ_ν)、音频特征 (χ_α)以及文本特征 (x_f)，并且提取其视觉、音频以及文本的质量元数据以得到该待分类视频的质量元数据 q= (q_v, q_a, q 执行视频分类器选择 209，计算该质量元数据 q与上述得到的 C个聚类团的聚类中心的距离，选择与距离最小的聚类中心相对应的视频分类器。假设距离最小的聚类中心为第 z个聚类团的聚类中心，那么选择与第 z个聚类团相对应的第 z个视频特征子集所对应的分类器来对该待分类视频分类。具体地，通过计算以下等式来对所述待分类视频进行分类，以得到视频类别 211： = < w_z, (x_v, x_a, x_t) > +b_z , 其中 ^和是所述第 z个视频特征子集所对应的视频分类器的参数，如果 / > 0，则所述待分类视频属于第一类别，否则，所述待分类视频属于第二类别。

此外，本发明通过基于聚类的多任务学习方法来构造分类器，既能够针对不同质量的视频样本子集构造不同的分类器，又能够避免使用单一视频样本子集时训练样本规模较小的问题。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

权利要求

1、一种基于质量元数据的视频分类器构造方法，包括：

提取视频样本集中每个视频样本的视频特征，以得到视频特征集；对每个视频样本赋予标签，以表示该视频样本属于第一类别或第二类别；针对每个视频样本进行质量评估以得到该视频样本的质量元数据，所有视频样本的质量元数据组成质量元数据集；

通过对质量元数据集进行聚类，将视频特征集分成多个视频特征子集；以及针对每个视频特征子集，基于属于该视频特征子集的视频特征和相应视频样本的标签，利用基于聚类的多任务学习算法得到对应于该视频特征子集的视频分类器。

2、根据权利要求 1所述的方法，其中每个视频样本包括视频以及该视频周围的文本。

3、根据权利要求 2所述的方法，其中视频特征包括视觉特征、音频特征和文本特征。

4、根据权利要求 3所述的方法，其中每个视频样本的质量元数据包括：视觉质量元数据，通过对该视频样本的视觉信息进行质量评估以得到所述视觉质量元数据；

音频质量元数据，通过对该视频样本的音频信息进行质量评估以得到所述音频质量元数据；以及

文本质量元数据，通过对该视频样本的文本进行字数统计以得到所述文本质量元数据。

5、根据权利要求 1所述的方法，其中第一类别是有害视频，第二类别是正常视频。

6、根据权利要求 4所述的方法，其中对视觉信息进行质量评估包括利用一种或多种无参考视频客观质量评估方法对视觉信息进行评估。

7、根据权利要求 6所述的方法，其中所述一种或多种无参考视频客观质量评估方法包括基于指标峰值信噪比的方法和基于块效应的测量算法中的至少一种。

8、根据权利要求 4所述的方法，其中对音频信息进行评估包括利用一种或多种无参考音频客观质量评估方法对音频信息进行评估。

9、根据权利要求 8所述的方法，其中所述一种或多种无参考音频客观质量评估方法包括扩展的巴克谱失真测度、归一化测度和感知分析测度中的至少一种。

10、根据权利要求 4所述的方法，其中对该视频样本的文本进行字数统计包括对所述文本的总字数进行统计和对所述文本的平均句子字数进行统计。

11、根据权利要求 1所述的方法，其中通过对质量元数据集进行聚类，将视频特征集分成多个视频特征子集包括：

对质量元数据集进行聚类，以得到 C个聚类团；以及

针对每个聚类团，根据质量元数据集中的质量元数据与视频特征集中的视频特征的对应关系，将视频特征集分成与 C个聚类团相对应的 C个视频特征子集。

12、根据权利要求 11所述的方法，其中：

通过 K-means或谱聚类对质量元数据集进行聚类；并且 /或者

C的取值范围是 [5,20]。

13、根据权利要求 11所述的方法，其中针对每个视频特征子集，基于属于该视频特征子集的视频特征和相应视频样本的标签，利用基于聚类的多任务学习算法得到对应于该视频特征子集的视频分类器包括：

利用以下目标优化函数求解对应于第 c个视频特征子集的视频分类器参数，其中 1≤ c≤ C:

c

s. t. F^TF = Ip

其中：

和是对应于第 c个视频特征子集的视频分类器的参数；

W = [νν₁₍ w_c, ... w_c] ;

cc和 β是平衡因子， F是聚类矩阵， /_p是单位矩阵，在求解过程中通过交叉验证的方法对 cc、 β、 F和 /_Ρ进行选择；

是第 i个视频样本的视频特征， = (x_Vh x_a x )， x_vl是第 i个视频样本的视觉特征， χ_∞是第 i个视频样本的音频特征， X_fi是第 i个视频样本的文本特征， l≤ i≤ N , N是视频样本总数；并且

是第个视频样本的标签，其中当第个视频样本为第一类别时， = 1，当第个视频样本为第二类别时， = -1。

14、根据权利要求 1所述的方法，还包括：

提取待分类视频的视频特征；

对所述待分类视频的视频特征进行质量评估以得到该待分类视频的质量元数据；

基于所述待分类视频的质量元数据与通过对质量元数据集进行聚类而得到的聚类团的聚类中心之间的距离，确定用于对所述待分类视频进行分类的视频分类器；以及

使用所确定的视频分类器对所述待分类视频进行分类。

15、根据权利要求 14所述的方法，其中：

所述待分类视频的视频特征包括所述待分类视频的视觉特征、音频特征和文本特征；

所述待分类视频的质量元数据包括所述待分类视频的视觉质量元数据、音频质量元数据和文本质量元数据。

16、根据权利要求 14所述的方法，其中确定用于对所述待分类视频进行分类的视频分类器包括：

确定与所述待分类视频的质量元数据的距离最近的聚类中心；

确定与所述距离最近的聚类中心相对应的聚类团；

确定与所确定的聚类团相对应的视频特征子集；以及

确定对应于所确定的视频特征子集的视频分类器，用于对所述待分类视频进行分类。

17、根据权利要求 13所述的方法，还包括：

对于待分类视频，提取视觉特征 x_v、音频特征 X。和文本特征 x_f，并计算质量元数据 = q_a, q_t);

确定与所述质量元数据 q最接近的聚类团 z的聚类中心；

使用与聚类团 z相对应的第 z个视频特征子集所对应的视频分类器，通过计算以下等式来对所述待分类视频进行分类： / = < vv_z, (x_i;, x_a, x_t) > +b_z，其中v Pb_z 是所述第 z个视频特征子集所对应的视频分类器的参数，如果 / > 0，则所述待分类视频属于第一类别，否则，所述待分类视频属于第二类别。