WO2015003341A1 - 基于质量元数据的视频分类器构造方法 - Google Patents

基于质量元数据的视频分类器构造方法 Download PDF

Info

Publication number
WO2015003341A1
WO2015003341A1 PCT/CN2013/079118 CN2013079118W WO2015003341A1 WO 2015003341 A1 WO2015003341 A1 WO 2015003341A1 CN 2013079118 W CN2013079118 W CN 2013079118W WO 2015003341 A1 WO2015003341 A1 WO 2015003341A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
features
quality
sample
classified
Prior art date
Application number
PCT/CN2013/079118
Other languages
English (en)
French (fr)
Inventor
吴偶
胡卫明
游强
Original Assignee
中国科学院自动化研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中国科学院自动化研究所 filed Critical 中国科学院自动化研究所
Priority to PCT/CN2013/079118 priority Critical patent/WO2015003341A1/zh
Publication of WO2015003341A1 publication Critical patent/WO2015003341A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Definitions

  • the present invention relates to the field of computer application technologies, and in particular, to a video classifier construction method based on quality metadata. Background technique
  • Multimedia such as pictures, video and audio has gradually become one of the main ways of information dissemination.
  • video is used by more and more people due to its rich content and dynamic nature.
  • the video information contains a large amount of data and a large amount of content, it is difficult to identify a video belonging to a specific category from a large number of videos, thereby achieving efficient information classification and supervision. Therefore, effective video recognition technology is needed to solve this problem.
  • a classifier construction method based on single-modal features This type of method primarily extracts visual or auditory features of the video and constructs a classifier based on these features.
  • a classifier construction method based on multimodal feature fusion This method mainly extracts features of multiple modalities of a video and fuses them to construct a classifier. For example, in addition to visual features, audio features and the like can also be extracted. Some methods also consider text around the network video, and continue to extract features from these texts for fusion.
  • a quality classifier-based video classifier construction method includes: extracting video features of each video sample in a video sample set to obtain a video feature set;
  • the video sample is assigned a label to indicate that the video sample belongs to the first category or the second category; quality assessment is performed for each video sample to obtain quality metadata of the video sample, and quality metadata of all video samples constitutes a quality metadata set;
  • the video feature set is divided into a plurality of video feature subsets by clustering the quality metadata set; and for each video feature subset, based on the video features belonging to the video feature subset and the tags of the corresponding video samples,
  • the clustered multitasking learning algorithm obtains a video classifier corresponding to the subset of video features.
  • the method according to the invention divides the video sample set into different subsets according to the actual characteristics of the quality imbalance presented by the various modal (visual, audio and text) information of the video, constructing a classifier for each subset separately, for The classified video is called according to a subset corresponding to its quality metadata to classify the corresponding classifier, thereby achieving an optimized classification effect.
  • the present invention constructs a classifier through a cluster-based multi-task learning method, which can construct different classifiers for different quality video sample subsets, and can avoid training sample size when using a single video sample subset. problem.
  • FIG. 1 is a flow chart schematically showing a quality metadata based video classifier construction method according to an embodiment of the present invention
  • FIG. 2 schematically shows the operation of a video classification method according to an embodiment of the present invention. detailed description
  • the execution environment of the present invention implements a video classifier construction method based on quality metadata of the present invention by using a Pentium 4 computer with a 3.0 GHz central processing unit and 2 Gbytes of memory and programming a video classifier in C++ language.
  • the present invention may also be implemented in other execution environments, and details are not described herein again.
  • FIG. 1 is a flow chart showing a method of constructing a video classifier based on quality metadata according to an embodiment of the present invention, the steps of which are as follows:
  • each video sample in the video sample set includes a video and text surrounding the video.
  • the network video and the text surrounding each network video can be collected by a computer to form a network video sample set. Can also pass it He provides the video sample set in his way.
  • the video features may include visual features, audio features, and text features. Which features are selected specifically depends on the specific category of the video. Let's take a violent video and porn video as examples to illustrate which features are extracted.
  • features that can embody violent content such as motion vectors, colors, textures, shapes, and the like, are mainly extracted.
  • audio feature extraction audio features related to violence, such as short-term energy, zero-crossing rate, pitch period, etc., are mainly extracted.
  • text feature extraction it is mainly extracted by conventional text feature extraction algorithms such as document frequency, information gain and mutual information.
  • features that can reflect pornographic content are mainly extracted, such as a key frame average skin color pixel ratio, a key frame average maximum skin color communication region ratio, and the like.
  • audio feature extraction audio features related to pornography are mainly extracted, such as MFCC coefficients, short-term energy, energy variance, and the like.
  • text feature extraction it is mainly extracted by conventional text feature extraction algorithms such as document frequency, information gain and mutual information.
  • each video sample is assigned a label corresponding to its category to indicate that the video sample belongs to the first category or the second category.
  • the first category can be a harmful (e.g., containing violent or pornographic content) category
  • the second category can be a normal category.
  • existing sets of harmful video samples and normal video samples can also be utilized and tagged in batch mode.
  • a quality assessment is performed for each video sample to obtain quality metadata for the video samples, and the quality metadata for all of the video samples constitutes a quality metadata set.
  • quality attributes, audio features, and text features of each video sample in the video sample set are respectively extracted by quality metadata to obtain visual, audio, and text quality metadata, and the three quality metadata are combined to form Quality metadata for each video sample.
  • the quality metadata for all video samples constitutes a quality metadata set.
  • the visual quality metadata of the video sample is obtained by quality assessment of the visual information of each video sample.
  • visual information can be evaluated using one or more non-reference video objective quality assessment methods.
  • the non-reference video objective quality evaluation method includes, for example, a method based on an index peak signal to noise ratio, a block effect based measurement algorithm, and the like.
  • audio quality metadata of the video sample is obtained by performing quality evaluation on the audio information of each video sample.
  • the evaluation method evaluates the audio information.
  • the non-reference audio objective quality assessment method includes, for example, an extended Bark spectral distortion measure, a normalized block measure, a perceptual analysis measure, and the like.
  • the text quality metadata of the video sample is obtained by performing word count on the text of each video sample. For example, for each video sample, the total number of words of the text (L and the average number of sentences in the sentence 2 ), then the text quality metadata is l J 2 ).
  • the video feature set is divided into a plurality of video feature subsets by clustering the quality metadata set.
  • the quality metadata set obtained in step 103 is clustered to obtain c clusters.
  • the video feature set is divided into c video feature subsets corresponding to c cluster groups according to the correspondence between the quality metadata in the quality metadata set and the video features in the video feature set.
  • the quality metadata set may be clustered using a conventional clustering method such as K-me anS , spectral clustering, or the like.
  • a conventional clustering method such as K-me anS , spectral clustering, or the like.
  • the value range of C is [5, 20], and C is preferably greater than 10.
  • a cluster-based multi-task learning algorithm is used to obtain a video classifier corresponding to the video feature subset.
  • the quality metadata of the three modals corresponding to the first video sample are used separately.
  • the quality metadata set Q is divided into C cluster groups, where C is a preset number of cluster groups.
  • C is a preset number of cluster groups.
  • the value of C is selected in the range [5, 20], and preferably greater than 10.
  • the video feature set is divided into C video feature subsets; ⁇ ..., ,...,", 1 ⁇ c ⁇ ⁇ : .
  • W [ ⁇ 1( w c , ... w c ] ;
  • ⁇ and ⁇ are the balance factors
  • F is the clustering matrix
  • / p is the identity matrix.
  • ⁇ , ⁇ , F and / ⁇ are selected by cross-validation. According to an embodiment of the invention, 3 ⁇ ⁇ ⁇ ⁇ :.
  • the parameters of the classifier corresponding to each subset of video features can be calculated, thereby obtaining a classifier.
  • the above numbering of steps is for illustrative purposes only, and does not limit the order of execution of the steps.
  • the order of execution of the steps may be changed and/or the individual steps may be separated into multiple steps, the multiple steps being combined into a single step, or a portion of a certain step and other steps, without departing from the spirit and scope of the invention. Or a combination of some of the other steps is performed in a single step.
  • the present invention explicitly contemplates these circumstances and is included in the scope of the present invention.
  • the obtained classifier for each video feature subset may be classified using the class to be classified. Specifically, for the video to be classified, the visual feature (x v ), the audio feature (x.), and the text feature (x f ) are first extracted, respectively, and the quality metadata q v , q a of the visual, audio, and text are extracted.
  • the video classifier corresponding to the video feature subset if /> 0, the video to be classified belongs to the first category, otherwise, the video to be classified belongs to the second category.
  • FIG. 2 schematically shows the operation of a video classification method according to an embodiment of the present invention.
  • a video sample set 201 is provided: video sample 1, video sample 2, ... video sample, ... video sample N, N is the total number of video samples, l ⁇ i ⁇ N.
  • the video features are separately extracted from each video sample to obtain a video feature set 202:
  • X ⁇ x . . . , ⁇ , ⁇ , where x is the video feature of the ith video sample.
  • x ; (x w , x ah x tI , where x w is the visual feature of the first video sample, x ⁇ is the audio feature of the first video sample, ⁇ is The text characteristics of the first video sample.
  • Each video sample is given a tag 203 corresponding to its category: y ..., y, , ..., y N to indicate that the video sample belongs to the first category or the second category.
  • a quality assessment is performed for each video sample to obtain quality metadata for the video samples, and the quality metadata of all video samples constitutes a quality metadata set 204:
  • Q ⁇ q h q h ..., q N ⁇ , where q t Is the quality metadata for the first video sample.
  • (q V q a q tI , where ⁇ represents visual quality metadata, ⁇ represents audio quality metadata, and represents text quality metadata.
  • the quality metadata set 204 is clustered to obtain C clusters 205, each of which has a cluster center.
  • the value of C is selected in the range [5, 20], and preferably greater than 10.
  • the video feature set is divided into C video feature subsets 206: X h ..., X c , ..., Xc, l ⁇ c ⁇ C.
  • a video classifier 208 corresponding to the subset of video features is obtained using a cluster-based multitasking learning algorithm 207 based on the video features belonging to the subset of video features and the tags of the respective video samples.
  • a video classifier 208 corresponding to each subset of video features is obtained by solving the following target optimization function:
  • ⁇ and ⁇ are the balance factors
  • F is the clustering matrix
  • / p is the identity matrix.
  • ⁇ , ⁇ , F and / ⁇ are selected by cross-validation. According to an embodiment of the invention, 3 ⁇ ⁇ ⁇ ⁇ :.
  • the visual feature ( ⁇ ⁇ ), the audio feature ( ⁇ ⁇ ), and the text feature (x f ) are respectively extracted, and the quality metadata of the visual, audio and text are extracted to obtain the quality element of the video to be classified.
  • Video classifier Assuming that the cluster center with the smallest distance is the cluster center of the z-th cluster group, then the classifier corresponding to the z-th video feature subset corresponding to the z-th cluster group is selected.
  • the method according to the invention divides the video sample set into different subsets according to the actual characteristics of the quality imbalance presented by the various modal (visual, audio and text) information of the video, constructing a classifier for each subset separately, for The classified video is called according to a subset corresponding to its quality metadata to classify the corresponding classifier, thereby achieving an optimized classification effect.
  • the present invention constructs a classifier through a cluster-based multi-task learning method, which can construct different classifiers for different quality video sample subsets, and can avoid training sample size when using a single video sample subset. problem.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

一种基于质量元数据的视频分类器构造方法,包括:提取视频样本集中每个视频样本的视频特征,以得到视频特征集;对每个视频样本赋予标签,以表示该视频样本属于第一类别或第二类别;针对每个视频样本进行质量评估以得到该视频样本的质量元数据,所有视频样本的质量元数据组成质量元数据集;通过对质量元数据集进行聚类,将视频特征集分成多个视频特征子集;以及针对每个视频特征子集,基于属于该视频特征子集的视频特征和相应视频样本的标签,利用基于聚类的多任务学习算法得到对应于该视频特征子集的视频分类器。

Description

基于质量元数据的视频分类器构造方法 技术领域
本发明涉及计算机应用技术领域, 特别涉及一种基于质量元数据的视频分 类器构造方法。 背景技术
图片、视频及音频等多媒体已经逐渐成为信息传播所采取的主要方式之一。 而在这些多媒体信息中,视频由于其内容丰富、动态性强等特点而被越来越多的 人使用。 然而, 由于视频信息包含的数据量大, 内容庞杂, 因此难以从大量视频 中识别出属于特定类别的视频, 从而实现高效的信息分类和监管。 因此, 需要有 效的视频识别技术以解决这一问题。
现有的视频识别技术主要通过构造分类器来对视频进行分类。 构造分类器 的方法主要有两种: (1) 基于单模态特征的分类器构造方法。 这类方法主要是提 取视频的视觉或听觉特征, 根据这些特征来构造分类器。 (2)基于多模态特征融 合的分类器构造方法,这类方法主要是提取视频的多个模态的特征,将其融合以 构造分类器。 例如, 除了视觉特征外, 还可以提取音频特征等。 有些方法还考虑 网络视频周围的文本, 从这些文本里面继续提取一些特征用于融合。大量研究与 实践表明基于多模态特征融合构造的分类器的性能要优于基于单模态特征构造 的分类器。 但是, 视频数据通常比较复杂, 从文本、 视觉以及音频这三个模态来 看, 有些视频周围的文本很丰富, 而有的很少; 有的视频的视觉质量很高, 而有 的很低; 有的视频的音频信号非常清晰, 有的则噪声很大。从质量不好的模态提 取的特征由于可靠性不高而通常无法真实地反映视频的特性。目前的基于多模态 特征构造分类器的方法均没有考虑到特征质量的问题,导致无法实现准确的视频 识别。 发明内容
有鉴于此, 本发明的主要目的是提供一种基于质量元数据的视频分类器构 造方法。
根据本发明的一个方面提供了一种基于质量元数据的视频分类器构造方法, 包括: 提取视频样本集中每个视频样本的视频特征, 以得到视频特征集; 对每个 视频样本赋予标签, 以表示该视频样本属于第一类别或第二类别; 针对每个视频 样本进行质量评估以得到该视频样本的质量元数据,所有视频样本的质量元数据 组成质量元数据集; 通过对质量元数据集进行聚类,将视频特征集分成多个视频 特征子集; 以及针对每个视频特征子集,基于属于该视频特征子集的视频特征和 相应视频样本的标签,利用基于聚类的多任务学习算法得到对应于该视频特征子 集的视频分类器。
根据本发明的方法根据视频的各个模态 (视觉、 音频以及文本) 信息所呈 现的质量不均衡的实际特点来将视频样本集合分为不同子集,对每个子集分别构 造分类器,对于待分类视频,根据其质量元数据对应的子集来调用相应的分类器 以进行分类, 从而实现优化的分类效果。
此外, 本发明通过基于聚类的多任务学习方法来构造分类器, 既能够针对 不同质量的视频样本子集构造不同的分类器,又能够避免使用单一视频样本子集 时训练样本规模较小的问题。 附图说明
图 1示意性示出了根据本发明实施例的基于质量元数据的视频分类器构造 方法的流程图; 以及
图 2示意性示出了根据本发明实施例的视频分类方法的工作过程。 具体实施方式
为使本发明的目的、 技术方案和优点更加清楚明白, 以下结合具体实施例, 并参照附图, 对本发明进一步详细说明。
本发明的执行环境采用一台具有 3.0G赫兹中央处理器和 2G字节内存的奔 腾 4计算机并用 C++语言编制了视频分类器构造程序,实现了本发明的基于质量 元数据的视频分类器构造方法,还可以采用其他执行环境实现本发明,在此不再 赘述。
图 1示出了根据本发明实施例的基于质量元数据的视频分类器构造方法的 流程图, 其步骤如下:
在步骤 101,提取视频样本集中每个视频样本的视频特征, 以得到视频特征 集。可选地, 每个视频样本包括视频以及该视频周围的文本。可以利用计算机收 集网络视频以及每个网络视频周围的文本以构成网络视频样本集。也可以通过其 他方式提供该视频样本集。
根据本发明的实施例,视频特征可以包括视觉特征、音频特征和文本特征。 关于具体选取哪些特征, 主要依据视频的具体类别来定。下面分别以暴力视频和 色情视频为例来说明提取哪些特征。
根据本发明的实施例, 对于暴力视频的识别, 在视觉特征提取上, 主要提 取能体现暴力内容的特征, 例如运动矢量、 颜色、 纹理、 形状等。 在音频特征提 取上, 主要提取和暴力相关的音频特征, 例如短时能量, 过零率, 基音周期等。 在文本特征提取上, 主要利用常规的文本特征提取算法, 如文档频率, 信息增益 以及互信息等方法来提取。
根据本发明的实施例, 对于色情视频的识别, 在视觉特征提取上, 主要提 取能体现色情内容的特征,例如关键帧平均肤色像素比例、关键帧平均最大肤色 联通区域比例等。 在音频特征提取上, 主要提取和色情相关的音频特征, 例如 MFCC系数、 短时能量、 能量方差等。 在文本特征提取上, 主要利用常规的文本 特征提取算法, 如文档频率, 信息增益以及互信息等方法来提取。
在步骤 102:对每个视频样本赋予与其类别相对应的标签, 以表示该视频样 本属于第一类别或第二类别。例如, 第一类别可以是有害(例如包含暴力或色情 内容)类别, 第二类别可以是正常类别。 根据本发明的实施例, 可以人工识别视 频是否有害, 然后相应地对视频样本赋予标签。备选地, 也可以利用已有的有害 视频样本集和正常视频样本集, 并以批处理方式对其赋予标签。
在步骤 103,针对每个视频样本进行质量评估以得到该视频样本的质量元数 据, 所有视频样本的质量元数据组成质量元数据集。根据本发明的实施例, 分别 对视频样本集中的每个视频样本的视觉特征,音频特征以及文本特征进行质量元 数据提取, 得到视觉、音频以及文本质量元数据, 三种质量元数据联合构成了每 个视频样本的质量元数据。 所有视频样本的质量元数据构成了质量元数据集。
根据本发明的实施例,通过对每个视频样本的视觉信息进行质量评估以得到 该视频样本的视觉质量元数据。例如,可以利用一种或多种无参考视频客观质量 评估方法对视觉信息进行评估。所述无参考视频客观质量评估方法例如包括,基 于指标峰值信噪比的方法、 基于块效应的测量算法等。
根据本发明的实施例,通过对每个视频样本的音频信息进行质量评估以得到 该视频样本的音频质量元数据。例如,可以利用一种或多种无参考音频客观质量 评估方法对音频信息进行评估。所述无参考音频客观质量评估方法例如包括扩展 的巴克谱失真测度, 归一化块测度, 感知分析测度等。
根据本发明的实施例,通过对每个视频样本的文本进行字数统计以得到该视 频样本的文本质量元数据。 例如, 针对每个视频样本, 统计文本的总字数 (L 以及平均句子字数 2), 那么其文本质量元数据为 l J2)。
在步骤 104, 通过对质量元数据集进行聚类, 将视频特征集分成多个视频特 征子集。根据本发明的实施例, 对步骤 103中得到的质量元数据集进行聚类, 以 得到 c个聚类团。 然后, 针对每个聚类团, 根据质量元数据集中的质量元数据 与视频特征集中的视频特征的对应关系, 将视频特征集分成与 c个聚类团相对 应的 c个视频特征子集。
根据本发明的实施例, 可以选用常规的聚类方法如 K-meanS、谱聚类等对质 量元数据集进行聚类。 可选地, C的取值范围是 [5,20], 并且 C优选地大于 10。
在步骤 105,针对每个视频特征子集,基于属于该视频特征子集的视频特征 和相应视频样本的标签,利用基于聚类的多任务学习算法得到对应于该视频特征 子集的视频分类器。
根据本发明的实施例, 可以将视频特征集表示为; ^= ^1 ..., ; ,..., ^, 其 中 X 是第 i个视频样本的视频特征, 可以表示为 X = (xV xah xtI , 1≤ i≤ iV。 其中, xw为第 个视频样本的视觉特征, x为第 个视频样本的音频特征, ^为 第 个视频样本的文本特征, N是视频样本集中的视频样本总数。 第 个视频样 本的标签用 表示, 当第 个视频样本属于第一类别时, = 1, 否则 =-1。 第 个视频样本对应的三种模态的质量元数据分别用^, qa φ,表示, 其中^表示 视觉质量元数据, 表示音频质量元数据, 表示文本质量元数据。第 个视频 样本对应的质量元数据用 表示, = (gVh gah gtI). 视频样本集的所有视频样本 的质量元数据构成的质量元数据集表示为 ρ= ..., qh..., qN}0
利用聚类算法对质量元数据集 Q进行聚类之后, 将质量元数据集 Q分成 C 个聚类团, 其中 C为预先设置的聚类团个数。根据本发明的实施例, C的值选取 范围为 [5, 20], 并优选地大于 10。 根据视频特征集; r与质量元数据集 ρ之间的 对应关系,将视频特征集; Γ分成 C个视频特征子集;^ ..., ,...,」 , 1≤ c≤ ί:。 然后, 建立以下目标优化函数: P w bn = 1 c (yi - (WcXi + bc))2 + «(tr(V rV ) - tr(FTWTWF)) + (WTW) c ° c=i xiexc
s. t. FTF = Ip
其中:
和 是对应于第 c个视频特征子集的视频分类器的参数;
W = [νν1( wc, ... wc] ;
α和 是平衡因子, F是聚类矩阵, /p是单位矩阵, 在求解过程中通过交叉验 证的方法对 α、 β、 F和 /Ρ进行选择。 根据本发明的实施例, 3≤ Ρ≤ ί:。
这样, 可以计算每个视频特征子集对应的分类器的参数, 从而得到分类器。 应当注意, 以上对各步骤的编号仅为说明目的, 而并不限定各步骤的执行顺 序。 在不脱离本发明精神和范围的情况下, 可以改变步骤的执行顺序和 /或将单 个步骤拆分为多个步骤、将多个步骤组合为单个步骤、或将某个步骤的一部分与 其他步骤或其他步骤的一部分组合为单个步骤来执行。本发明明确考虑这些情况 并将其包含在本发明的范围内。
根据本发明的实施例,可以使用得到的针对每个视频特征子集的分类器对待 分类视频进行分类。 具体地, 对于待分类视频, 首先分别提取视觉特征 (xv)、 音 频特征 (x。)以及文本特征 (xf),并且提取其视觉、音频以及文本的质量元数据 qv, qa, qt, 以得到该待分类视频的质量元数据 = 计算该质量元数据 ^与上 述得到的 C个聚类团的聚类中心的距离, 假定与质量元数据 q之间距离最小的 聚类中心为第 z个聚类团的聚类中心, 那么利用与第 z个聚类团相对应的第 z个 视频特征子集所对应的分类器来对该待分类视频分类。具体地,通过计算以下等 式来对所述待分类视频进行分类: / = < vvz, (xi;, xa, xt) > +bz, 其中v^Pbz是所 述第 z个视频特征子集所对应的视频分类器的参数, 如果 / > 0, 则所述待分类 视频属于第一类别, 否则, 所述待分类视频属于第二类别。
图 2示意性示出了根据本发明实施例的视频分类方法的工作过程。 如图 2 所示, 提供视频样本集 201 : 视频样本 1、 视频样本 2、 …视频样本 、 …视频样 本 N, N是视频样本的总数, l≤ i≤ N。
从每个视频样本分别提取视频特征,得到视频特征集 202: X= {x . . . , χ, ΧΛ^,其中 x, 是第 i个视频样本的视频特征。根据本发明的实施例,x; =(xw, xah xtI , 其中, xw为第 个视频样本的视觉特征, x为第 个视频样本的音频特征, ^为 第 个视频样本的文本特征。
对每个视频样本赋予与其类别相对应的标签 203: y ...,y, ,...,yN, 以表示 该视频样本属于第一类别或第二类别。 例如, 第 个视频样本的标签用 表示, 当第 个视频样本属于第一类别时, = 1, 否则 =-1。
针对每个视频样本进行质量评估以得到该视频样本的质量元数据, 所有视 频样本的质量元数据组成质量元数据集 204: Q = {qh qh..., qN}, 其中 qt 是 第 个视频样本的质量元数据。 根据本发明的实施例, φ= (qV qa qtI , 其中^ 表示视觉质量元数据, 表示音频质量元数据, 表示文本质量元数据。
对质量元数据集 204进行聚类, 得到 C个聚类团 205, 每个聚类团具有一 个聚类中心。根据本发明的实施例, C的值选取范围为 [5, 20],并优选地大于 10。
根据视频特征集 r与质量元数据集 Q之间的对应关系, 将视频特征集; Γ分 成 C个视频特征子集 206: Xh ...,Xc,...,Xc, l≤ c≤ C。
针对每个视频特征子集,基于属于该视频特征子集的视频特征和相应视频样 本的标签,利用基于聚类的多任务学习算法 207得到对应于该视频特征子集的视 频分类器 208。 根据本发明的实施例, 通过求解以下目标优化函数得到与每个视 频特征子集相对应的视频分类器 208:
c
P w bΠ = 1 c (yi - (WcXi + bc))2 + «(tr(V rV ) - tr(FTWTWF)) + (WTW) c ° c=i xiexc
s. t. FTF = Ip
其中:
和 是对应于第 c个视频特征子集的视频分类器的参数;
W = [νν1( wc, ... wc];
α和 是平衡因子, F是聚类矩阵, /p是单位矩阵, 在求解过程中通过交叉 验证的方法对 α、 β、 F和 /Ρ进行选择。 根据本发明的实施例, 3≤ Ρ≤ ί:。
对于待分类视频 209,分别提取视觉特征 (χν)、音频特征 (χα)以及文本特征 (xf), 并且提取其视觉、 音频以及文本的质量元数据 以得到该待分类视频的 质量元数据 q= (qv, qa, q 执行视频分类器选择 209, 计算该质量元数据 q与上 述得到的 C个聚类团的聚类中心的距离, 选择与距离最小的聚类中心相对应的 视频分类器。假设距离最小的聚类中心为第 z个聚类团的聚类中心, 那么选择与 第 z个聚类团相对应的第 z个视频特征子集所对应的分类器来对该待分类视频分 类。具体地, 通过计算以下等式来对所述待分类视频进行分类, 以得到视频类别 211: = < wz, (xv, xa, xt) > +bz , 其中 ^和 是所述第 z个视频特征子集所对 应的视频分类器的参数, 如果 / > 0, 则所述待分类视频属于第一类别, 否则, 所述待分类视频属于第二类别。
根据本发明的方法根据视频的各个模态 (视觉、 音频以及文本) 信息所呈 现的质量不均衡的实际特点来将视频样本集合分为不同子集,对每个子集分别构 造分类器,对于待分类视频,根据其质量元数据对应的子集来调用相应的分类器 以进行分类, 从而实现优化的分类效果。
此外, 本发明通过基于聚类的多任务学习方法来构造分类器, 既能够针对 不同质量的视频样本子集构造不同的分类器,又能够避免使用单一视频样本子集 时训练样本规模较小的问题。
以上所述, 仅为本发明中的具体实施方式, 但本发明的保护范围并不局限 于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或 替换, 都应涵盖在本发明的包含范围之内, 因此, 本发明的保护范围应该以权利 要求书的保护范围为准。

Claims

权 利 要 求
1、 一种基于质量元数据的视频分类器构造方法, 包括:
提取视频样本集中每个视频样本的视频特征, 以得到视频特征集; 对每个视频样本赋予标签, 以表示该视频样本属于第一类别或第二类别; 针对每个视频样本进行质量评估以得到该视频样本的质量元数据,所有视频 样本的质量元数据组成质量元数据集;
通过对质量元数据集进行聚类,将视频特征集分成多个视频特征子集; 以及 针对每个视频特征子集,基于属于该视频特征子集的视频特征和相应视频样 本的标签,利用基于聚类的多任务学习算法得到对应于该视频特征子集的视频分 类器。
2、 根据权利要求 1所述的方法, 其中每个视频样本包括视频以及该视频周 围的文本。
3、 根据权利要求 2所述的方法, 其中视频特征包括视觉特征、 音频特征和 文本特征。
4、 根据权利要求 3所述的方法, 其中每个视频样本的质量元数据包括: 视觉质量元数据,通过对该视频样本的视觉信息进行质量评估以得到所述视 觉质量元数据;
音频质量元数据,通过对该视频样本的音频信息进行质量评估以得到所述音 频质量元数据; 以及
文本质量元数据,通过对该视频样本的文本进行字数统计以得到所述文本质 量元数据。
5、 根据权利要求 1所述的方法, 其中第一类别是有害视频, 第二类别是正 常视频。
6、 根据权利要求 4所述的方法, 其中对视觉信息进行质量评估包括利用一 种或多种无参考视频客观质量评估方法对视觉信息进行评估。
7、 根据权利要求 6所述的方法, 其中所述一种或多种无参考视频客观质量 评估方法包括基于指标峰值信噪比的方法和基于块效应的测量算法中的至少一 种。
8、 根据权利要求 4所述的方法, 其中对音频信息进行评估包括利用一种或 多种无参考音频客观质量评估方法对音频信息进行评估。
9、 根据权利要求 8所述的方法, 其中所述一种或多种无参考音频客观质量 评估方法包括扩展的巴克谱失真测度、归一化测度和感知分析测度中的至少一种。
10、根据权利要求 4所述的方法,其中对该视频样本的文本进行字数统计包 括对所述文本的总字数进行统计和对所述文本的平均句子字数进行统计。
11、根据权利要求 1所述的方法, 其中通过对质量元数据集进行聚类, 将视 频特征集分成多个视频特征子集包括:
对质量元数据集进行聚类, 以得到 C个聚类团; 以及
针对每个聚类团,根据质量元数据集中的质量元数据与视频特征集中的视频 特征的对应关系,将视频特征集分成与 C个聚类团相对应的 C个视频特征子集。
12、 根据权利要求 11所述的方法, 其中:
通过 K-means或谱聚类对质量元数据集进行聚类; 并且 /或者
C的取值范围是 [5,20]。
13、 根据权利要求 11所述的方法, 其中针对每个视频特征子集, 基于属于 该视频特征子集的视频特征和相应视频样本的标签,利用基于聚类的多任务学习 算法得到对应于该视频特征子集的视频分类器包括:
利用以下目标优化函数求解对应于第 c个视频特征子集的视频分类器参数, 其中 1≤ c≤ C:
c
P w bΠ = 1 c (yi - (WcXi + bc))2 + «(tr(V rV ) - tr(FTWTWF)) + (WTW) c ° c=i xiexc
s. t. FTF = Ip
其中:
和 是对应于第 c个视频特征子集的视频分类器的参数;
W = [νν1( wc, ... wc] ;
cc和 β是平衡因子, F是聚类矩阵, /p是单位矩阵, 在求解过程中通过交叉验 证的方法对 cc、 β、 F和 /Ρ进行选择;
是第 i个视频样本的视频特征, = (xVh xa x ), xvl是第 i个视频样本的视 觉特征, χ是第 i个视频样本的音频特征, Xfi是第 i个视频样本的文本特征, l≤ i≤ N , N是视频样本总数; 并且
是第 个视频样本的标签, 其中当第 个视频样本为第一类别时, = 1, 当第 个视频样本为第二类别时, = -1。
14、 根据权利要求 1所述的方法, 还包括:
提取待分类视频的视频特征;
对所述待分类视频的视频特征进行质量评估以得到该待分类视频的质量元 数据;
基于所述待分类视频的质量元数据与通过对质量元数据集进行聚类而得到 的聚类团的聚类中心之间的距离,确定用于对所述待分类视频进行分类的视频分 类器; 以及
使用所确定的视频分类器对所述待分类视频进行分类。
15、 根据权利要求 14所述的方法, 其中:
所述待分类视频的视频特征包括所述待分类视频的视觉特征、音频特征和文 本特征;
所述待分类视频的质量元数据包括所述待分类视频的视觉质量元数据、音频 质量元数据和文本质量元数据。
16、 根据权利要求 14所述的方法, 其中确定用于对所述待分类视频进行分 类的视频分类器包括:
确定与所述待分类视频的质量元数据的距离最近的聚类中心;
确定与所述距离最近的聚类中心相对应的聚类团;
确定与所确定的聚类团相对应的视频特征子集; 以及
确定对应于所确定的视频特征子集的视频分类器,用于对所述待分类视频进 行分类。
17、 根据权利要求 13所述的方法, 还包括:
对于待分类视频, 提取视觉特征 xv、音频特征 X。和文本特征 xf, 并计算质量 元数据 = qa, qt);
确定与所述质量元数据 q最接近的聚类团 z的聚类中心;
使用与聚类团 z相对应的第 z个视频特征子集所对应的视频分类器, 通过计算以 下等式来对所述待分类视频进行分类: / = < vvz, (xi;, xa, xt) > +bz, 其中v Pbz 是所述第 z个视频特征子集所对应的视频分类器的参数, 如果 / > 0, 则所述待 分类视频属于第一类别, 否则, 所述待分类视频属于第二类别。
PCT/CN2013/079118 2013-07-10 2013-07-10 基于质量元数据的视频分类器构造方法 WO2015003341A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/CN2013/079118 WO2015003341A1 (zh) 2013-07-10 2013-07-10 基于质量元数据的视频分类器构造方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2013/079118 WO2015003341A1 (zh) 2013-07-10 2013-07-10 基于质量元数据的视频分类器构造方法

Publications (1)

Publication Number Publication Date
WO2015003341A1 true WO2015003341A1 (zh) 2015-01-15

Family

ID=52279305

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2013/079118 WO2015003341A1 (zh) 2013-07-10 2013-07-10 基于质量元数据的视频分类器构造方法

Country Status (1)

Country Link
WO (1) WO2015003341A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112651356A (zh) * 2020-12-30 2021-04-13 杭州菲助科技有限公司 视频难度定级模型获取方法及视频难度定级方法
CN113298338A (zh) * 2020-10-19 2021-08-24 阿里巴巴集团控股有限公司 一种质量评价方法和装置
CN113688951A (zh) * 2021-10-25 2021-11-23 腾讯科技(深圳)有限公司 视频数据处理方法以及装置
CN116843643A (zh) * 2023-07-03 2023-10-03 北京语言大学 一种视频美学质量评价数据集构造方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101834982A (zh) * 2010-05-28 2010-09-15 上海交通大学 基于多模态的暴力视频分层筛选方法
US20100316131A1 (en) * 2009-06-12 2010-12-16 Motorola, Inc. Macroblock level no-reference objective quality estimation of video
CN102509084A (zh) * 2011-11-18 2012-06-20 中国科学院自动化研究所 一种基于多示例学习的恐怖视频场景识别方法
CN102567512A (zh) * 2011-12-27 2012-07-11 深信服网络科技(深圳)有限公司 网页视频分类控制的方法和装置
CN103336832A (zh) * 2013-07-10 2013-10-02 中国科学院自动化研究所 基于质量元数据的视频分类器构造方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100316131A1 (en) * 2009-06-12 2010-12-16 Motorola, Inc. Macroblock level no-reference objective quality estimation of video
CN101834982A (zh) * 2010-05-28 2010-09-15 上海交通大学 基于多模态的暴力视频分层筛选方法
CN102509084A (zh) * 2011-11-18 2012-06-20 中国科学院自动化研究所 一种基于多示例学习的恐怖视频场景识别方法
CN102567512A (zh) * 2011-12-27 2012-07-11 深信服网络科技(深圳)有限公司 网页视频分类控制的方法和装置
CN103336832A (zh) * 2013-07-10 2013-10-02 中国科学院自动化研究所 基于质量元数据的视频分类器构造方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113298338A (zh) * 2020-10-19 2021-08-24 阿里巴巴集团控股有限公司 一种质量评价方法和装置
CN112651356A (zh) * 2020-12-30 2021-04-13 杭州菲助科技有限公司 视频难度定级模型获取方法及视频难度定级方法
CN112651356B (zh) * 2020-12-30 2024-01-23 杭州菲助科技有限公司 视频难度定级模型获取方法及视频难度定级方法
CN113688951A (zh) * 2021-10-25 2021-11-23 腾讯科技(深圳)有限公司 视频数据处理方法以及装置
CN116843643A (zh) * 2023-07-03 2023-10-03 北京语言大学 一种视频美学质量评价数据集构造方法
CN116843643B (zh) * 2023-07-03 2024-01-16 北京语言大学 一种视频美学质量评价数据集构造方法

Similar Documents

Publication Publication Date Title
US9230547B2 (en) Metadata extraction of non-transcribed video and audio streams
CN104834686B (zh) 一种基于混合语义矩阵的视频推荐方法
CN105022835B (zh) 一种群智感知大数据公共安全识别方法及系统
Dhanalakshmi et al. Classification of audio signals using SVM and RBFNN
US8510252B1 (en) Classification of inappropriate video content using multi-scale features
WO2020238053A1 (zh) 基于神经网格模型的文本数据类别的识别方法及装置、非易失性可读存储介质、计算机设备
Lovato et al. Faved! biometrics: Tell me which image you like and I'll tell you who you are
CN103793447B (zh) 音乐与图像间语义相似度的估计方法和估计系统
JP6928206B2 (ja) 連合クラスタリング深層学習ニューラルネットワークに基づくデータ識別方法
JP5502703B2 (ja) フロー分類方法、システム、およびプログラム
US7401062B2 (en) Method for resource allocation among classifiers in classification systems
CN108615532B (zh) 一种应用于声场景的分类方法及装置
CN107145778B (zh) 一种入侵检测方法及装置
CN111866196B (zh) 一种域名流量特征提取方法、装置、设备及可读存储介质
CN106250925B (zh) 一种基于改进的典型相关分析的零样本视频分类方法
CN110232331B (zh) 一种在线人脸聚类的方法及系统
CN103336832A (zh) 基于质量元数据的视频分类器构造方法
WO2015003341A1 (zh) 基于质量元数据的视频分类器构造方法
CN111326139B (zh) 一种语种识别方法、装置、设备及存储介质
Shaker et al. Human Gender and Age Detection Based on Attributes of Face.
Kishi et al. Correlation based feature fusion for the temporal video scene segmentation task
EP3816996A1 (en) Information processing device, control method, and program
Ramakrishna et al. An Expectation Maximization Approach to Joint Modeling of Multidimensional Ratings Derived from Multiple Annotators.
CN110413985B (zh) 一种相关文本片段搜索方法及装置
CN116166771A (zh) 一种基于行为文本处理的语音服务内容识别方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13889184

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13889184

Country of ref document: EP

Kind code of ref document: A1