WO2015124006A1

WO2015124006A1 - 一种具有自定义功能的音频检测分类方法

Info

Publication number: WO2015124006A1
Application number: PCT/CN2014/091959
Authority: WO
Inventors: 杨毅
Original assignee: 清华大学
Priority date: 2014-02-19
Filing date: 2014-11-22
Publication date: 2015-08-27
Also published as: CN103824557B; CN103824557A

Abstract

一种具有自定义功能的音频检测分类方法，对音频数据进行音频激活检测，通过将部分原始训练样本首先按照类型分为若干类训练样本（101，102，103），针对每类训练样本（101，102，103）进行特征提取（104），并训练与其对应的高斯混合模型（105，106，107）及其参数，得到一个全局高斯混合模型（202）；进一步将其他训练样本（201）作为新的训练样本，对全局高斯混合模型（202）进行参数更新得到一个局部模型（204）；最后对测试样本（301）提取特征（302），输入局部模型分类器（303），并对结果进行平滑（304）和输出。本方法通过全局及局部高斯混合模型的训练，可以使高斯混合模型的类别和参数随着样本的增加而更新，与分类器的结合进一步提高了系统性能，最终实现音频检测分类，可广泛应用于涉及音频检测分类的说话人识别、语音识别、人机交互等多种机器学习领域。

Description

一种具有自定义功能的音频检测分类方法

技术领域

本发明属于音频处理技术领域，特别涉及一种具有自定义功能的音频检测分类方法。

背景技术

在音频识别和说话人识别等系统中，音频激活检测(Voice activity detection，VAD)技术被广泛应用，主要用于排除连续音频信号中与说话人无关的静音和噪声信号，确定音频段的起点以及终点位置，提高语音识别和说话人识别系统的性能。有效而准确的音频激活检测，通过去除噪声段或是无声段的信号，减少系统的数据处理量及对后续音频分析处理的干扰，可以达到提高系统识别性能的目的。对音频激活检测算法的研究已经进行了多年，传统的音频激活检测方法基本上针对安静环境下获得的音频信号进行处理，如基于短时平均能量的方法、基于短时平均过零率的算法和基于倒谱特征的方法。

基于短时平均能量的激活检测算法根据清音能量与浊音能量的差别，利用短时平均能量特征来区分安静环境下的静音段及音频段的清浊音。三者按短时能量顺序排列依次为：浊音>清音>静音，据此可来区分安静环境下的静音段和音频段及音频段信号的清音与浊音。

双门限音频信号的激活检测算法是基于短时平均过零率与短时平均能量相结合的音频激活检测算法，它结合了两种音频信号的特征参数。这种方法首先使用短时平均能量来区分音频段\非音频段，进一步用过零率再次区分音频段\非音频段。相比较于基于短时平均能量的激活检测算法，能够更好的避免以清辅音开头的音频信号被误判成非音频段。

在噪声环境下，短时能量与其它特征参数都不能很好地区分音频段与非音频段。倒谱能很好表示音频的特征，因此在大多数音频识别系统中选择倒谱系数作为输入特征矢量，因此将倒谱系数作为端点检测的参数。基于倒谱特征的激活检测算法将音频信号在频域上分为高、低频带两个信号，频带间可重叠，将得到的两个信号进行预处理后就提取线性预测编码(linear predictive coding，LPC)倒谱参数，进一步用美尔尺度进行非线性变换得到LPC美尔倒谱系数。随后用倒谱距离法，将倒谱距离代替短时能量作为门限。首先假定前几帧音频信号为背景噪声，计算这些帧的倒谱系数矢量，利用前几帧倒谱矢量的平均值可估计背景噪声的倒谱矢量并不断更新，计算所有测试帧与背景噪声之间的倒谱距离可得到倒谱距离轨迹，利用倒谱距离轨迹可实现激活检测。

隐马尔柯夫模型(Hidden Markov Model，HMM)也可以像倒谱系数那样作为音频特征的统计模型。在HMM音频检测器中，一个为词作标记的连续HMM和一个为背景噪声作标记的连续HMM被训练来分别表示一般音频与噪声的特征，训练采用基于Baum-Welch算法的倒谱向量来进行。HMM与一个语法模型相连接，在端点检测阶段对带噪音频进行预处理以得到输入特征矢量，每一矢量由倒谱系数，倒谱系数的增量或时间导数以及当前帧的短时能量增量等组成，然后引入维特比解码，按照模型参数与输入音频特征流得到与正发生的音频非常相似的音频，维特比解码器给出音频的端点，这种方法的基本系统结构与通常的音频识别器相同。

基于子带能量特征的音频激活检测算法借鉴了图像处理领域中使用的边缘检测方法。边缘检测是一个在图像处理领域中的经典问题，其中较为常用的方法是根据某种优化的准则推导出的线性滤波器，例如指数滤波器、高斯函数一阶差分滤波器等。子带选取主要目标是去除噪声信号能量比较集中的部分，同时尽量保留音频信号的绝大部分能量，据此将音频信号分为高、低频两个子带进行音频段\非音频段的判决。在得到两个子带的起点和结束点后，需要进行子带的融合即综合的判决。最终的音频段起点选取两个子带的起点中靠前的点，终点选取两个子带中比较靠后的结束点作为最终的结束点。

基于熵函数的判决方法设语音信号s(n)的帧长为N，在一帧语音中最大和最小的幅度分别为M和-M，则这一帧的熵定义为：

构造出了熵函数之后就可以计算出每帧语音信号的信息熵，根据背景噪声信号的熵值小而浊音信号的熵值大的原理，定义一个门限h，然后对每帧语音的熵值进行比较，大于门限h为语音帧，小于门限h则为无声帧。

上述各种算法在安静环境下性能较好，但在实际的复杂背景噪声环境下系统性能下降明显，在背景噪声较大或者存在大能量突发噪声的情况下就会失效。由于语音识别和说话人识别的应用非常广泛灵活，因此设计一个固定的分类器进行音频激活检测没有通用性。

目前大多数使用的音频激活检测方法在安静的环境下具有很好的性能，但在背景噪声较大，或者存在大能量突发噪声的情况下就会失效。由于语音识别和说话人识别的应用非常广泛灵活，因此设计一个固定的分类器进行噪声探测没有通用性，不具有实际意义。例如，如果安装在一个空调旁边，那么空调的发出的声音应该被定义为主要噪声；而安装在门旁边，那么开门、关门和敲门所产生的声音则应该被定义为主要噪声。例如，在语音识别系统中，环境背景声音和低能量的人声可被定义为主要噪声；在另一些说话人识别系统里，类似尖叫声、爆炸声等突发信号被定义为是噪声，而人声、汽车声等则并不定义为噪声。因此，VAD应该被设计成一个可以自定义的分类器，同时可以用新的音频数据来更新分类器，提高分类器的环境适应性。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种具有自定义功能的音频检测分类方法，将部分原始训练集首先按照类型分为若干类训练集，针对每类训练集进行特征提取，并训练与其对应的高斯混合模型及其参数，得到一个全局高斯混合模型；进一步将其他训练集作为新的训练样本，对全局高斯混合模型进行参数更新得到一个局部模型；最后对测试集提取特征，输入局部模型分类器，并对结果进行平滑和输出，其主要优点在于克服了原有的音频激活检测无法自定义多个类别并进行判决的问题。

为了实现上述目的，本发明采用的技术方案是：

一种具有自定义功能的音频检测分类方法，包括以下步骤：

第一步，不同类别训练样本的特征提取

训练样本包括不同类别的音频信号，对这些训练样本提取声学特征作为说话人识别的训练特征；

第二步，训练全局高斯混合模型参数

在完成对训练样本的特征提取后，对第一类训练样本进行高斯混合模型参数训练，输出第一类训练样本对应的高斯混合模型参数；以此类推，对第m类训练样本进行高斯混合模型参数训练，输出第m类训练样本对应的高斯混合模型参数；

第三步，训练局部高斯混合模型参数

假设在第二步骤得到一系列高斯混合模型参数，当获得新的训练样本，则对全局高斯混合模型进行更新得到局部高斯混合模型参数，将新的训练样本结合全局高斯混合模型进一步训练高斯混合模型参数得到局部高斯混合模型；

第四步，测试分类器

在第三步得到了局部高斯混合模型参数后，构造基于局部高斯混合模型的贝叶斯分类器

并对所有测试样本进行音频检测分类。

所述第一步中的声学特征包括人说话声、背景噪声、关门声以及闹市噪声。

所述第一步中，全局模型训练的目的是训练出最基本且最广泛的模型，例如人说话声、背景噪声、关门声、闹市噪声(Babble Noise)等，这些声音几乎在所有的应用里都是需要定义的对象。因此需要对这几种数据预先进行模型训练，得到它们的概率密度分布，从而训练得到全局模型。类似于说话人识别中的通用背景模型(Universal Background Model，UBM)，全局模型得到的输出是多个高斯混合模型参数

n＝1,2,...,N_m,m＝1,2,...,M，其中π表示混合模型的混合比例，μ和Σ对应着每一个高斯分布的均值向量和协方差矩阵。N_m表示第m个混合模型高斯分布的个数，n表示类别数量。

所述第三步中局部高斯混合模型训练主要将新的训练数据结合全局模型进一步训练高斯混合模型参数得到局部模型，包括两种情况：一种是新的训练样本属于已有音频类型，则将其加入到已有的训练样本中，更新高斯混合模型参数；另一种是新的训练样本不属于已有音频类型，需要增加高斯混合模型的类别并更新高斯混合模型参数；

在第一种情况中，高斯混合模型参数通常用期望最大化(Expectation Maximization,EM)的方法来求解，即给定训练数据

其中l是样本数目，求出所有的未知参数。在建立高斯混合模型的过程中，如果保存所有的训练样本，需要消耗的资源非常大，可以采用增量学习的思想来用已有的高斯混合模型参数以及新的训练样本来更新高斯混合模型参数。其方法如下：

假设某类高斯混合模型参数为π_j,μ_j,Σ_j,j＝1,2,...,g，其中g是混合模型的个数，其训练的样本为x₁,x₂,...,x_N，而新的训练样本为

需要重新估计高斯混合模型的参数π′_j,μ′_j,Σ′_j,j＝1,2,...,g。则其总的期望Q为：

其中θ＝{π_j,μ_j,Σ_j},j＝1,2,...,g，θ′＝{π′_j,μ′_j,Σ′_j},j＝1,2,...,g，

用数学期望来代替训练样本，估计π′_j，μ′_j,Σ′_j,j＝1,2,...,g：

其中N和K分别为训练样本x_i和新的训练样本

的个数。

在第二种情况中，当需要增加一类或者几类新的音频类型并进行判别时，已知当前某类的高斯混合模型参数为π_j,μ_j,Σ_j,j＝1,2,...,g，其中g是混合模型的个数，原来训练的样本数是N个。同时，我们得到了一些新的训练样本

但并不属于现有的高斯混合模型。为了重新估计高斯混合模型的参数，假设新增了h个高斯混合模型参数为π_j,μ_j,Σ_j,j＝g+1,g+2,...,g+h，则全部g+h个高斯混合模型参数为π′_j,μ_j,Σ_j,j＝1,2,...,g+h。

与现有技术相比，本发明通过建立全局模型和局部模型，对不同类型的训练样本细化分类，结合全局高斯混合模型训练得到局部高斯混合模型，最终实现具有自定义功能的音频激活检测。本发明方法可以看作一种在机器学习中用局部学习替代全局学习、对不同类型的数据进行建模的方法，通过该方法，可有效地解决无法对音频自定义类型并进行区分的问题。在一些音频激活检测的数据集上采用这种方法，可以获得比基于音频能量或其他特征进行检测的方法更好的性能。

附图说明

图1是本发明的音频检测分类的全局模型训练模块流程图。

图2是本发明的音频检测分类的局部模型训练模块流程图。

图3是本发明的音频检测分类的分类器测试方法流程图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

图1为本发明的音频检测分类的全局模型训练流程图，包括以下内容：

本发明提出一种基于音频检测分类的全局模型训练方法和装置，特别地，用于音频激活检测分类的场景下。这些方法和装置不局限于音频激活检测分类，也可以是任何与音频分类有关的方法和装置。

图1描述了一种基于音频检测分类的全局模型训练实例。

如图1所示的第一类训练样本101包括全部第一类用于训练的音频信号，第二类训练样本102包括全部第二类用于训练的音频信号，以此类推，第M类训练样本103包括全部第M类用于训练的音频信号。

特征提取104指的是，在利用第一步获得音频信号后，提取声学特征作为检测信息，这些声学特征可以为Mel频率倒谱系数(Mel Frequency Cepstral Coefficients，MFCC)或线性预测倒谱系数(Linear Frequency Cepstral Coefficients，LPCC)等多种声学特征；

第一类高斯混合模型105首先对第一类训练样本101进行模型训练，得到它们的概率密度分布，输出是第一类训练样本对应的高斯混合模型参数

m＝1,2,...,M，其中π表示混合模型的混合比例，μ和Σ对应着每一个高斯分布的均值向量和协方差矩阵。m表示混合模型高斯分布的个数；以此类推，第二类高斯混合模型106输出是第二类训练样本对应的高斯混合模型参数

m＝1,2,...,M；第N_m类高斯混合模型107输出是第N_m类训练样本对应的高斯混合模型参数

图2为本发明的音频检测分类的局部模型训练流程图，包括以下内容：

已知当前全局模型202的参数为π_j,μ_j,Σ_j,j＝1,2,...,g，其中g是混合模型的个数，原来训练的样本数是N个。当获得新的训练样本201后，其参数更新203方法如下：

局部模型训练包括两种情况：一种是新的训练样本属于已有音频类型，则需要将其加入到已有的训练样本中，更新高斯混合模型参数；另一种是新的训练样本不属于已有音频类型，需要增加高斯混合模型的类别并更新高斯混合模型参数。

在第一种情况中，高斯混合模型参数通常用期望最大化(Expectation Maximization，EM)的方法来求解，即给定训练数据

用数学期望来代替训练样本，估计π′_j,μ′_j,Σ′_j,j＝1,2,...,g：

其中N和K分别为训练样本x_i和新的训练样本

的个数。

图3为本发明的音频检测分类的分类器测试流程图，包括以下内容：

测试样本301包括全部第一类用于测试的音频信号；

特征提取302指的是，在利用第一步获得音频信号后，提取声学特征作为检测信息，这些声学特征可以为Mel频率倒谱系数(Mel Frequency Cepstral Coefficients，MFCC)或线性预测倒谱系数(Linear Frequency Cepstral Coefficients，LPCC)等多种声学特征；

局部分类器303为基于高斯混合模型的贝叶斯分类器，分类器定义如下：

其中l＝g+h是全部高斯混合模型个数，π_j表示第j个混合模型的百分比，p_j(x；μ_j,Σ_j)是第j个多维高斯分布，其定义如下：

Claims

一种具有自定义功能的音频检测分类方法，其特征在于，包括以下步骤：

第一步，不同类别训练样本的特征提取

训练样本包括不同类别的音频信号，对这些训练样本提取声学特征作为说话人识别的训练特征；

第二步，训练全局高斯混合模型参数

在完成对训练样本的特征提取后，对第一类训练样本进行高斯混合模型参数训练，输出第一类训练样本对应的高斯混合模型参数；以此类推，对第m类训练样本进行高斯混合模型参数训练，输出第m类训练样本对应的高斯混合模型参数；

第三步，训练局部高斯混合模型参数

假设在第二步骤得到一系列高斯混合模型参数，当获得新的训练样本，则对全局高斯混合模型进行更新得到局部高斯混合模型参数，将新的训练样本结合全局高斯混合模型进一步训练高斯混合模型参数得到局部高斯混合模型；

第四步，测试分类器

在第三步得到了局部高斯混合模型参数后，构造基于局部高斯混合模型的贝叶斯分类器
并对所有测试样本进行音频检测分类。
根据权利要求1所述的具有自定义功能的音频检测分类方法，其特征在于，所述第一步中的声学特征包括人说话声、背景噪声、关门声以及闹市噪声。
根据权利要求1所述的具有自定义功能的音频检测分类方法，其特征在于，所述第三步中局部高斯混合模型训练包括两种情况：一种是新的训练样本属于已有音频类型，则将其加入到已有的训练样本中，更新高斯混合模型参数；另一种是新的训练样本不属于已有音频类型，需要增加高斯混合模型的类别并更新高斯混合模型参数；

在第一种情况中，假设已知某类高斯混合模型参数为π_j,μ_j,Σ_j,j＝1,2,...,g，其中π表示高斯混合模型的混合比例，μ对应每一个高斯分布的均值向量，Σ对应每一个高斯分布的协方差矩阵，g是混合模型的个数，其训练的样本为x₁,x₂,...,x_N，新的训练样本为
重新估计高斯混合模型的参数π′_j,μ′_j,Σ′_j,j＝1,2,...,g如下：

其中N和K分别为训练样本x_i和新的训练样本
的个数；

在第二种情况中，当需要增加一类或者几类新的音频类型并进行判别时，已知当前某类的高斯混合模型参数为π_j,μ_j,Σ_j,j＝1,2,...,g，其中π表示混合模型的混合比例，μ对应每一个高斯分布的均值向量，Σ对应每一个高斯分布的协方差矩阵，g是混合模型的个数，原来训练的样本数是N个；而新的训练样本
不属于现有的高斯混合模型，为了重新估计高斯混合模型的参数，假设新增了h个高斯混合模型参数为π_j,μ_j,Σ_j,j＝g+1,g+2,...,g+h，则全部g+h个高斯混合模型参数为π′_j,μ_j,Σ_j,j＝1,2,...,g+h。