WO2017067400A1

WO2017067400A1 - 一种视频文件识别方法及装置

Info

Publication number: WO2017067400A1
Application number: PCT/CN2016/101733
Authority: WO
Inventors: 谷长信
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2015-10-20
Filing date: 2016-10-11
Publication date: 2017-04-27
Also published as: CN106601243B; CN106601243A

Abstract

一种视频文件识别方法，该方法首先从待识别视频文件中获取音频信息（S1），将获取的音频信息进行分段，对分段后的音频分段进行指纹提取，得到音频分段的音频指纹（S2），将得到的音频分段的音频指纹与已经训练好的训练样本进行音频匹配，记录音频匹配结果（S3），根据音频匹配结果，判断待识别视频文件是否是目标视频，当判断为目标视频或判断为不是目标视频时，终止识别，当判断为可疑视频文件时，进入下一步继续识别（S4）。一种视频文件识别装置，包括音频预处理模块、音频指纹匹配模块、音频判断模块、图像预处理模块、图像预处理模块和综合判断模块。

Description

一种视频文件识别方法及装置

本申请要求2015年10月20日递交的申请号为201510683009.1、发明名称为“一种视频文件识别方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明属于计算机数据处理技术领域，尤其涉及一种视频文件识别方法及装置。

背景技术

随着互联网的普及，越来越多用户开始利用互联网服务提供商提供的云服务器来存储个人的视频文件，一些互联网服务提供商还允许用户上传视频文件用来共享给网络中的其他用户。但是法律对于网上传播的视频文件有严格的审查要求，不能涉黄涉暴。因此互联网服务提供商有责任和义务对用户上传及服务商自己提供的视频文件按国家规范进行审核和监管。

现有技术对于视频文件的审核都是基于视频图像，通过抓取视频图像中的图片帧进行审核，存在如下问题：

处理效率低：视频图像抓帧范围无法有效定位，若想全面审核，抓帧量极大，处理效率低下；

识别手段单一，识别率不高：单一借助图片识别，存在漏识别和错误识别概率很高。

发明内容

本发明的目的是提供一种视频文件识别方法及装置，借助音频指纹识别和采用视频图像抓帧技术进一步进行图片识别，最终给出识别结果，有效提高处理效率。

为了实现上述目的，本发明技术方案如下：

一种视频文件识别方法，用于审核待识别视频文件，所述方法包括：

从待识别视频文件中获取音频信息；

将获取的音频信息进行分段，对分段后的音频分段进行指纹提取，得到音频分段的音频指纹；

将得到的音频分段的音频指纹与已经训练好的训练样本进行音频匹配，记录音频匹配结果；

根据音频匹配结果，判断待识别视频文件是否是目标视频，当判断为目标视频或判断为不是目标视频时，终止识别，当判断为可疑视频文件时，进入下一步继续识别；

根据音频匹配结果，从匹配成功的音频分段的起始时间开始对视频文件进行抓帧，抓取视频图像，对抓取的视频图像进行图像匹配，记录图片匹配结果；

根据图像匹配结果、或根据图像匹配结果与音频匹配结果，判断待识别视频文件是否是目标视频。

本发明将获取的音频信息进行分段的一种实现方式，包括：

对音频信息在时域上找出超出指定阀值的所有音量峰值点；

依次从各峰值点开始按固定时长进行采样得到各音频分段。

本发明将获取的音频信息进行分段的另一种实现方式，包括：

对音频信息按固定时长进行采样得到各音频分段。

进一步第，所述音频匹配结果包括：匹配成功的次数、匹配成功的音频分段的起始时间、以及与匹配成功的音频分段匹配的训练样本的标注信息；所述标注信息包括：样本时长、内容等级以及人工分类标签。

进一步地，所述根据音频匹配结果，判断待识别视频文件是否是目标视频，包括：

当匹配成功的次数大于第一阈值，判断待识别视频文件是目标视频；

当匹配成功的次数小于第二阈值，判断待识别视频文件不是目标视频；

当匹配成功的次数在第一阈值与第二阈值之间时，计算本次匹配结果对应的音频匹配概率，当计算得到的匹配概率大于设定的第三阈值，判断待识别视频文件是目标视频，否则将待识别视频文件视为可疑视频文件。

其中，所述计算本次匹配结果对应的音频匹配概率，包括：

根据匹配成功的次数X与所有音频分段的总数Z，计算两者的比值P1为：

计算本次匹配结果对应的音频匹配概率R1，计算公式如下：

R₁＝P₁*P(Y)

其中，R1为本次匹配结果对应的音频匹配概率，P(Y)为所有与音频分段的音频指纹匹配的训练样本的内容等级对应的权重之和。

进一步地，所述根据图像匹配结果、或根据图像匹配结果与音频匹配结果，判断待识别视频文件是否是目标视频，包括：

根据图像匹配结果，计算图像匹配概率R2，R2为抓取的视频图像匹配成功的次数与所有抓取的视频图像的总数的比值；

根据视频匹配概率R2和音频匹配概率R1计算本次匹配的综合匹配概率R′，如果综合匹配概率超过第四阈值，则判断待识别视频文件为目标视频，否则判定为正常视频；

其中，综合匹配概率R′的计算公式如下：

R′＝R₁*α+R₂*β

其中，α和β分别为音频匹配概率和视频匹配概率的权重。

本发明还提出了一种视频文件识别装置，用于审核待识别视频文件，所述装置包括：

音频预处理模块，用于从待识别视频文件中获取音频信息，将获取的音频信息进行分段，对分段后的音频分段进行指纹提取，得到音频分段的音频指纹；

音频指纹匹配模块，用于将得到的音频分段的音频指纹与已经训练好的训练样本进行音频匹配，记录音频匹配结果；

音频判断模块，用于根据音频匹配结果，判断待识别视频文件是否是目标视频，当判断为目标视频或判断为不是目标视频时，终止识别，当判断为可疑视频文件时，由图像预处理模块继续处理；

图像预处理模块，用于根据音频匹配结果，从匹配成功的音频分段的起始时间开始对视频文件进行抓帧，抓取视频图像；

图像匹配模块，用于对抓取的视频图像进行图像匹配，记录图像匹配结果；

综合判断模块，用于根据图像匹配结果、或根据图像匹配结果与音频匹配结果，判断待识别视频文件是否是目标视频。

本发明提出的一种视频文件识别方法及装置，借助音频指纹识别将视频文件的语音快速识别出来，并记录匹配上的起始时间点，然后在该起始时间点范围内间隔抓帧进一步进行图片识别，最终给出识别结果。具有处理效率高，识别率高的特点。

附图说明

图1为本发明视频文件识别方法流程图；

图2为本发明视频文件识别装置的结构示意图。

具体实施方式

下面结合附图和实施例对本发明技术方案做进一步详细说明，以下实施例不构成对本发明的限定。

视频文件目前流行的格式很多，包括AVI格式、MOV格式、MPEG模式、RM格式、ASF 格式等，一个完整的视频文件包括视频图像和音频信息两部分。本发明的总体思路是从视频文件中提取出音频信息，对提取的音频信息进行识别，然后根据识别结果再进行视频图像的抓帧，对抓取的视频图像进行进一步的识别。

以下以识别涉黄涉暴的视频为例来进行说明，对于其他类型的视频文件同样适用。如图1所示，一种视频文件识别方法，包括如下步骤：

步骤S1、从待识别视频文件中获取音频信息。

本实施例从待识别视频文件中获取音频信息，可以直接对视频文件进行解码，提取出音频信息。也可以直接通过其他第三方软件进行音频信息的提取。对于音频信息的提取，已经是比较成熟的技术，这里不再赘述。

步骤S2、将获取的音频信息进行分段，对分段后的音频分段进行指纹提取，得到音频分段的音频指纹。

将获取的音频信息分段，并对每一个音频分段进行指纹提取，获得每个音频分段对应的音频指纹。

本发明对音频信息的识别基于音频指纹(Audio fingerprinting technology)，音频指纹是指可以代表一段声音重要声学特征的基于内容的紧致数字签名，其主要目的是建立一种有效机制来比较两个音频文件的感知听觉质量，可用在音频识别、内容完整性校验等应用中。

将音频信息从视频文件中剥离出来后，可以获得该音频信息播放的总时长T(毫秒)，以及提取出来的音频信息的总长度L(bytes)。然后将音频信息切分为多个音频分段，对每一个音频分段进行指纹提取，将提取的音频指纹与训练样本进行比对。训练样本也是按照同样的方法进行音频分段，通过训练得到。

以下通过两个实施例来阐述具体的音频信息切分方法：

方法一：根据时域上音量高低切分。

音频信息在时域上沿时间轴音量高低不同，表现为有起有伏的波形，设定一个音量的阈值，可以对音频信息在时域上找出超出指定阀值的所有音量峰值点，记为(k1，k2，k3，….，kn)，并记录下各峰值点对应的时间轴上坐标，该时间轴上的坐标就是峰值点在音频信息中的时间偏移量p。

然后依次从各峰值点开始按固定时长w进行采样得到音频分段，并提取音频指纹，提取到n个音频指纹，以便与训练样本进行比对。

容易理解的是，每个音频分段的起点为峰值点对应的时间，可计算出该峰值点对应的音频分段的时间起始点为：T*(p/L)。

方法二：固定间隔切分。

对音频信息按固定时长w进行采样，得到f1，f2，f3，….，fm个音频分段，并提取音频指纹，以便与训练样本进行比对。

容易理解的是，每个音频分段的起点可根据固定时长来进行计算，音频分段的时间起始点为：T*(fi-1)/L，其中i属于(1～m)。

容易理解的是，固定时长w与训练样本库中的训练样本的时长一致，如1秒钟。对应涉黄涉暴的视频文件，较高音量对应的视频图像往往是需要重点关注的对象，因此优选地，采用方法一更容易快速地对视频文件进行识别，将峰值点按照音量高低排序，先比对高峰值的音频分段即可。

具体地，对音频分段进行指纹提取，提取的算法例如快速傅立叶变换方法，这里不再赘述。从而获取到音频分段对应的音频指纹，以便后续步骤与已经训练出的训练样本进行比对。

步骤S3、将得到的音频分段的音频指纹与已经训练好的训练样本进行音频匹配，记录音频匹配结果。

本实施例通过对大量各类涉黄涉暴视频音频进行训练得到训练样本，并对每个训练样本添加标注信息，训练样本的标注信息主要包含样本时长、内容等级以及人工分类标签等，内容等级在本实施例中为涉黄涉暴的等级。

将音频分段的音频指纹与训练样本进行音频匹配，如果音频分段的音频指纹与训练样本的识别相似度大于设定的音频相似度阈值，则视为匹配成功。遍历所有音频分段，记录音频匹配结果，音频匹配结果包括：匹配成功的次数、匹配成功的音频分段的起始时间、以及与匹配成功的音频分段匹配的训练样本的标注信息。

步骤S4、根据音频匹配结果，判断待识别视频文件是否是目标视频，当判断为目标视频或判断为不是目标视频时，终止识别，当判断为可疑视频文件时，进入下一步继续识别。

具体地，本实施例通过如下步骤判断待识别视频文件是否是目标视频：

当匹配成功的次数大于第一阈值(例如20次)，判断待识别视频文件是目标视频，终止识别；

当匹配成功的次数小于第二阈值(例如2次)，判断待识别视频文件不是目标视频，终止识别；

当匹配成功的次数在第一阈值与第二阈值之间时，计算本次匹配结果对应的音频匹配概率，当计算得到的匹配概率大于设定的第三阈值(例如T，T为一具体数值)，判断待识别视频文件是目标视频，否则将待识别视频文件视为可疑视频文件，需要进入下一步继续识别。

假设匹配成功的次数为X，而进行匹配的音频分段的总数为Z，则匹配成功的次数与所有音频分段的总数的比值P1为：

本实施例计算本次匹配结果对应的音频匹配概率R1，计算公式如下：

R₁＝P₁*P(Y)

其中，R1为本次匹配结果对应的音频匹配概率，P1为匹配成功的次数与音频分段的总数的比值，P(Y)为所有与音频分段的音频指纹匹配的训练样本的内容等级对应的权重之和。

具体地，对于一个音频分段，其匹配的训练样本对应有一个涉黄涉暴等级Yi，则其对应的权重为P(Yi)，并有P(Y)＝∑P(Y_i)。

在计算得到本次匹配结果对应的音频匹配概率R1后，将音频匹配概率R1与设定的第三阈值进行比对判定，如果高于第三阈值，则判定为目标视频，否则需要对视频图像做进一步的判断。

上述判断步骤仅为一具体的实施例，其中第一阈值、第二阈值、第三阈值可以进行调整，以使判断结果更准确。还可以在第一阈值与第二阈值中间进一步设定一个中间阈值，例如10次，在匹配成功的次数大于这个中间阈值时，才计算本次匹配结果对应的音频匹配概率，根据计算得到的音频匹配概率进行判断；如果匹配成功的次数小于这个中间阈值，并大于第二阈值，则不计算本次匹配结果对应的音频匹配概率，直接进入下一步，需要对视频图像做进一步的判断。本发明不限于具体的判断步骤，以下不再赘述。

步骤S5、根据音频分段的匹配结果，从匹配成功的音频分段的起始时间开始对视频文件进行抓帧，抓取视频图像，对抓取的视频图像进行图像匹配，记录图片匹配结果。

通过步骤S3的匹配，已经知道哪些音频分段匹配成功，根据记录的匹配结果中匹配成功的音频分段的起始时间定位到视频文件中对应的时间点，从该时间点开始对视频文件进行抓帧，抓帧的时间间隔可以根据实际情况来确定，抓取到视频图像。

对抓取到的视频图像进行识别，在本实施例中就是识别抓取的视频图像是否是涉黄涉暴的图像，可以通过人眼识别也可以通过计算机识别。如果通过计算机识别，则也需要对大量各类涉黄涉暴视频图像进行训练得到训练样本，将抓取的视频图像与训练样本进行匹配，获得视频图像的识别相似度，如果识别相似度大于设定的图像相似度阈值，则视为匹配成功，记录图像匹配结果，即图像匹配成功的次数。

步骤S6、根据图像匹配结果、或根据图像匹配结果与音频匹配结果，判断待识别视频文件是否是目标视频。

在图像匹配结束后，可以根据匹配成功的次数计算视频匹配概率R2，R2为抓取的视频图像匹配成功的次数与所有抓取的视频图像的总数的比值。

根据视频匹配概率R2和音频匹配概率R1计算本次匹配的综合匹配概率R′，如果综合匹配概率超过第四阈值，则判断待识别视频文件为目标视频，否则判定为正常视频。

综合匹配概率R′的计算公式如下：

R′＝R₁*α+R₂*β

其中，α和β分别为音频匹配概率和视频匹配概率的权重。

从而根据得到的综合匹配概率进行判断，如果综合匹配概率超过识别阈值，则判断待识别视频文件为目标视频，否则判定为正常视频。

也可以直接根据图像匹配成功的次数来判断待识别视频文件是否为涉黄涉暴的视频文件，或根据视频匹配概率R2来判断待识别视频文件是否为涉黄涉暴的视频文件，例如图像匹配成功的次数或视频匹配概率R2大于设定的阈值则判断为涉黄涉暴的视频文件。本发明对具体的判断条件不做限制。

需要说明的是，将音频分段的音频指纹与训练样本进行匹配，计算他们的识别相似度，或将视频图像与训练样本进行匹配，计算他们的识别相似度，均为目前较为成熟的技术，例如可以通过最大似然估计方法来计算，这里不再赘述。

图2示出了对应于上述方法的一种视频文件识别装置，包括：

其中，音频预处理模块将获取的音频信息进行分段，可以根据时域上音量高低切分，或按照固定间隔切分，与方法中所述具体音频分段方法对应，这里不再赘述。

同样，音频判断模块、综合判断模块在做具体判别时执行的操作，对应于步骤S4和步骤S6的具体步骤，这里不再赘述。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

一种视频文件识别方法，用于审核待识别视频文件，其特征在于，所述方法包括：

从待识别视频文件中获取音频信息；

将获取的音频信息进行分段，对分段后的音频分段进行指纹提取，得到音频分段的音频指纹；

将得到的音频分段的音频指纹与已经训练好的训练样本进行音频匹配，记录音频匹配结果；

根据音频匹配结果，判断待识别视频文件是否是目标视频，当判断为目标视频或判断为不是目标视频时，终止识别，当判断为可疑视频文件时，进入下一步继续识别；

根据音频匹配结果，从匹配成功的音频分段的起始时间开始对视频文件进行抓帧，抓取视频图像，对抓取的视频图像进行图像匹配，记录图片匹配结果；

根据图像匹配结果、或根据图像匹配结果与音频匹配结果，判断待识别视频文件是否是目标视频。
根据权利要求1所述的视频文件识别方法，其特征在于，所述将获取的音频信息进行分段，包括：

对音频信息在时域上找出超出指定阀值的所有音量峰值点；

依次从各峰值点开始按固定时长进行采样得到各音频分段。
根据权利要求1所述的视频文件识别方法，其特征在于，所述将获取的音频信息进行分段，包括：

对音频信息按固定时长进行采样得到各音频分段。
根据权利要求1所述的视频文件识别方法，其特征在于，所述音频匹配结果包括：匹配成功的次数、匹配成功的音频分段的起始时间、以及与匹配成功的音频分段匹配的训练样本的标注信息；

所述标注信息包括：样本时长、内容等级以及人工分类标签。
根据权利要求4所述的视频文件识别方法，其特征在于，所述根据音频匹配结果，判断待识别视频文件是否是目标视频，包括：

当匹配成功的次数大于第一阈值，判断待识别视频文件是目标视频；

当匹配成功的次数小于第二阈值，判断待识别视频文件不是目标视频；

当匹配成功的次数在第一阈值与第二阈值之间时，计算本次匹配结果对应的音频匹配概率，当计算得到的匹配概率大于设定的第三阈值，判断待识别视频文件是目标视频，否则将待识别视频文件视为可疑视频文件。
根据权利要求5所述的视频文件识别方法，其特征在于，所述计算本次匹配结果对应的音频匹配概率，包括：

根据匹配成功的次数X与所有音频分段的总数Z，计算两者的比值P1为：

计算本次匹配结果对应的音频匹配概率R1，计算公式如下：

R₁＝P₁*P(Y)

其中，R1为本次匹配结果对应的音频匹配概率，P(Y)为所有与音频分段的音频指纹匹配的训练样本的内容等级对应的权重之和。
根据权利要求6所述的视频文件识别方法，其特征在于，所述根据图像匹配结果、或根据图像匹配结果与音频匹配结果，判断待识别视频文件是否是目标视频，包括：

根据图像匹配结果，计算图像匹配概率R2，R2为抓取的视频图像匹配成功的次数与所有抓取的视频图像的总数的比值；

根据视频匹配概率R2和音频匹配概率R1计算本次匹配的综合匹配概率R′，如果综合匹配概率超过第四阈值，则判断待识别视频文件为目标视频，否则判定为正常视频；

其中，综合匹配概率R′的计算公式如下：

R′＝R₁*α+R₂*β

其中，α和β分别为音频匹配概率和视频匹配概率的权重。
一种视频文件识别装置，用于审核待识别视频文件，其特征在于，所述装置包括：

音频预处理模块，用于从待识别视频文件中获取音频信息，将获取的音频信息进行分段，对分段后的音频分段进行指纹提取，得到音频分段的音频指纹；

音频指纹匹配模块，用于将得到的音频分段的音频指纹与已经训练好的训练样本进行音频匹配，记录音频匹配结果；

音频判断模块，用于根据音频匹配结果，判断待识别视频文件是否是目标视频，当判断为目标视频或判断为不是目标视频时，终止识别，当判断为可疑视频文件时，由图像预处理模块继续处理；

图像预处理模块，用于根据音频匹配结果，从匹配成功的音频分段的起始时间开始对视频文件进行抓帧，抓取视频图像；

图像匹配模块，用于对抓取的视频图像进行图像匹配，记录图像匹配结果；

综合判断模块，用于根据图像匹配结果、或根据图像匹配结果与音频匹配结果，判断待识别视频文件是否是目标视频。
根据权利要求8所述的视频文件识别装置，其特征在于，所述音频预处理模块将获取的音频信息进行分段，具体执行如下操作：

对音频信息在时域上找出超出指定阀值的所有音量峰值点；

依次从各峰值点开始按固定时长进行采样得到各音频分段。
根据权利要求8所述的视频文件识别装置，其特征在于，所述音频预处理模块将获取的音频信息进行分段，具体执行如下操作：

对音频信息按固定时长进行采样得到各音频分段。
根据权利要求8所述的视频文件识别装置，其特征在于，所述音频匹配结果包括：匹配成功的次数、匹配成功的音频分段的起始时间、以及与匹配成功的音频分段匹配的训练样本的标注信息；所述标注信息包括：样本时长、内容等级以及人工分类标签。
根据权利要求11所述的视频文件识别装置，其特征在于，所述音频判断模块根据音频匹配结果，判断待识别视频文件是否是目标视频，执行如下操作：

当匹配成功的次数大于第一阈值，判断待识别视频文件是目标视频；

当匹配成功的次数小于第二阈值，判断待识别视频文件不是目标视频；

当匹配成功的次数在第一阈值与第二阈值之间时，计算本次匹配结果对应的音频匹配概率，当计算得到的匹配概率大于设定的第三阈值，判断待识别视频文件是目标视频，否则将待识别视频文件视为可疑视频文件。
根据权利要求12所述的视频文件识别装置，其特征在于，所述计算本次匹配结果对应的音频匹配概率，包括：

根据匹配成功的次数X与所有音频分段的总数Z，计算两者的比值P1为：

计算本次匹配结果对应的音频匹配概率R1，计算公式如下：

R₁＝P₁*P(Y)

其中，R1为本次匹配结果对应的音频匹配概率，P(Y)为所有与音频分段的音频指纹匹配的训练样本的内容等级对应的权重之和。
根据权利要求13所述的视频文件识别装置，其特征在于，所述综合判断模块根据图像匹配结果、或根据图像匹配结果与音频匹配结果，判断待识别视频文件是否是目标视频，执行如下操作：

根据图像匹配结果，计算图像匹配概率R2，R2为抓取的视频图像匹配成功的次数与所有抓取的视频图像的总数的比值；

根据视频匹配概率R2和音频匹配概率R1计算本次匹配的综合匹配概率R′，如果综合匹配概率超过第四阈值，则判断待识别视频文件为目标视频，否则判定为正常视频；

其中，综合匹配概率R′的计算公式如下：

R′＝R₁*α+R₂*β

其中，α和β分别为音频匹配概率和视频匹配概率的权重。