WO2014153800A1

WO2014153800A1 - 语音识别系统

Info

Publication number: WO2014153800A1
Application number: PCT/CN2013/074831
Authority: WO
Inventors: 王健铭
Original assignee: 京东方科技集团股份有限公司; 北京京东方显示技术有限公司
Priority date: 2013-03-29
Filing date: 2013-04-26
Publication date: 2014-10-02
Also published as: CN103236260B; US20150340027A1; CN103236260A

Abstract

一种语音识别系统，包括：存储单元（10），用于存储至少一个用户的语音模型；语音采集及预处理单元（20），用于采集待识别语音信号，对所述待识别语音信号进行格式转换及编码；特征提取单元（30），用于从编码后的所述待识别语音信号中提取语音特征参数；模式匹配单元（40），用于将所提取的所述语音特征参数与至少一个所述语音模型进行匹配，确定所述待识别语音信号所属的用户。所述语音识别系统从语音的产生原理开始分析语音的特性，并使用频率倒谱系数MFCC参数，建立说话人的语音特征模型，实现说话人的特征识别算法，能够达到提高说话人检测的可靠性，使得最终能够在电子产品上实现说话人识别的功能。

Description

语音识别系统技术领域

本发明涉及语音检测技术领域，尤其涉及一种语音识别系统。背景技术

目前，在电信、服务业和工业生产线的电子产品开发中，许多产品上使用了语音识别技术，并创造出一批新颖的语音产品，如语音记事本、声控玩具、语音摇控器及家用服务器等，从而极大地减轻了劳动强度、提高了工作效率，并日益改变着人们的日常生活。因此，目前语音识别技术被视为本世纪最有挑战性、最具市场前景的应用技术之一。

语音识别包含说话人识别和说话人语义识别两种，前者利用的是语音信号中说话人的个性特征，不考虑包含在语音中的字词的含义，强调的是说话人的个性；而后者的目的是识别出语音信号中的语义内容，并不考虑说话人的个性，强调的是语音的共性。

然而，现有技术识别说话人的技术可靠性不高，因此使得采用说话人检测的语音产品不能被广泛应用。发明内容

据此，本发明技术方案要解决的技术问题是如何提供一种能够提高说话人检测的可靠性的语音识别系统，使语音产品能够得到更广泛的应用。

为了解决上述技术问题，按照本发明的一个方面，提供一种语音识别系统。该语音识别系统包括：

存储单元，用于存储至少一个用户的语音模型；

语音采集及预处理单元，用于采集待识别语音信号，对所述待识别语音信号进行格式转换及编码；

特征提取单元，用于从编码后的所述待识别语音信号中提取语音特征参数; 模式匹配单元，用于将所提取的所述语音特征参数与至少一个所述语音模型进行匹配，确定所述待识别语音信号所属的用户。可选地，在上述语音识别系统中，在采集所述待识别语音信号后，所述语音采集及预处理单元还用于依次对所述待识别语音信号进行放大、增益控制、滤波及采样，之后对所述待识别语音信号进行格式转换及编码，使所述待识别语音信号被分割为由多帧组合而成的短时信号。

可选地，在上述语音识别系统中，所述语音采集及预处理单元还用于对进行格式转换及编码后的所述待识别语音信号采用窗函数进行预加重处理。

可选地，上述语音识别系统，还包括：

端点检测单元，用于计算进行格式转换及编码后的所述待识别语音信号的语音起点及语音终点，去除所述待识别语音信号中的静音信号，获得所述待识别语音信号中语音的时域范围；以及用于对所述待识别语音信号中的语音频谱进行快速傅里叶变换 FFT分析，根据分析结果计算所述待识别语音信号中的元音信号、浊音信号及轻辅音信号。

可选地，在上述语音识别系统中，所述特征提取单元通过从编码后的所述待识别语音信号中提取频率倒谱系数 MFCC特征，获得所述语音特征参数。

可选地，上述语音识别系统还包括：语音建模单元，用于利用所述语音特征参数，采用频率倒谱系数 MFCC建立与文本无关的高斯混合模型为语音的声学模型。

可选地，在上述语音识别系统中，所述模式匹配单元利用高斯混合模型，使用最大后验概率算法 MAP将所提取的所述语音特征参数与至少一个所述语音模型进行匹配，计算所述待识别语音信号与每一个所述语音模型的似然度。

可选地，在上述语音识别系统中，采用最大后验概率算法 MAP将所提取的所述语音特征参数与至少一个所述语音模型进行匹配，确定所述待识别语音信号所属的用户的方式具体采用以下公式：

_ Ρ( Ύ \ Θ、ρ(β

Oi = arg_e max Ρ(θ I χ) = arg_e max — ~ '―

' ' P(z) 其中：表示存储单元所存储的第 i个人语音的模型参数，为待识别语音信号的特征参数； ρω、 Ρ( ）分别为、的先验概率；为所述待识别语音信号的特征参数相对于第 i 个说话人的似然估计。

可选地，在上述语音识别系统中，利用高斯混合模型，所述待识别语音信号的特征参数由一组参数 { _Wi、 μ一唯一确定，其中 ^、 μ一 ς分别为说话人语音特征参数的混合加权值、平均值向量及协方差矩阵。

可选地，上述语音识别系统还包括判决单元，用于将与所述待识别语音信号具有最高似然度的所述语音模型与预设识别门限进行比对，确定所述待识别语音信号所属的用户。

本发明示例性实施例的技术方案至少具有以下有益效果：

从语音的产生原理开始分析语音的特性，并使用 MFCC参数，建立说话人的语音特征模型，实现说话人的特征识别算法，能够达到提高说话人检测可靠性的目的，使得最终能够在电子产品上实现说话人识别的功能。

附图说明

图 1表示本发明示例性实施例的语音识别系统的结构示意图；

图 2表示采用本发明示例性实施例的语音识别系统，在语音采集及预处理阶段的处理过程示意图；

图 3 表示本发明示例性实施例的语音识别系统进行语音识别的原理示意图；

图 4表示采用 MEL滤波器的语音输出频率示意图。具体实施方式

为使本发明实施例要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

图 1为本发明示例性实施例的语音识别系统的结构示意图。如图 1所示，所述语音识别系统包括：

存储单元 10, 用于存储至少一个用户的语音模型；

语音采集及预处理单元 20, 用于采集待识别语音信号，对待识别语音信号进行格式转换及编码；

特征提取单元 30, 用于从编码后的待识别语音信号中提取语音特征参数；模式匹配单元 40, 用于将所提取的语音特征参数与至少一个语音模型进行匹配，确定待识别语音信号所属的用户。图 2 示出采用该语音识别系统在语音采集及预处理阶段的处理过程的示意图如图 2所示，在采集待识别语音信号后，语音采集及预处理单元 20依次对待识别语音信号进行放大、增益控制、滤波及采样，之后对待识别信号进行格式转换及编码，使待识别语音信号被分割为由多帧组合而成的短时信号。可选择地，还可对进行格式转换及编码后的待识别语音信号采用窗函数进行预加重处理。

在说话人识别技术中，语音采集实际上是语音信号的数字化过程，通过放大及增益控制、反混叠滤波、采样、 A/D (模拟 /数字）变换及编码 (一般为脉沖编码调制（PCM )码)过程，对待识别语音信号进行滤波和放大，并将滤波和放大后的模拟语音信号转变为数字语音信号。

在上述过程中，通过进行滤波处理，达到抑制输入信号各频域分量中频率超出 fs/2的所有分量（ fs为采样频率 ) , 以防止混叠干扰，同时达到抑制 50Hz 的电源工频干扰的目的。

此外，如图 2所示，语音采集及预处理单元 20还可用于对编码后的待识别语音信号进行数字化的反过程处理，以从数字化语音中重构语音波形，也即进行 D/A (数字 /模拟）变换。此外，还需要在 D/A变换之后进行平滑滤波，对重构的语音波形的高次谐波进行平滑处理，以去除高次谐波失真。

通过上面介绍的处理过程，语音信号就已经被分割成一帧一帧的短时信号, 然后再把每一个短时语音帧看成平稳的随机信号，利用数字信号处理技术来提取语音特征参数。在进行处理时，按帧从数据区中取出数据，处理完成后再取下一帧，等等，最后得到由每一帧参数组成的语音特征参数的时间序列。

此外，语音采集及预处理单元 20还可用于对进行格式转换及编码后的所述待识别语音信号采用窗函数进行预加重处理。

其中，预处理一般包括预加重、加窗和分帧等，由于语音信号的平均功率谱受声门激励和口鼻辐射影响，高频端大约在 800Hz以上按 6dB/倍频程跌落，即 6dB/oct ( 2倍频）， 20dB/dec ( 10倍频），通常是频率越高幅值越小，在语音信号的功率降低二分之一时，其功率谱的幅度就会有半个量级的下降。因此，在对语音信号进行分析之前，一般要对语音信号加以一定的提升。

在语音信号处理中常用的窗函数是矩形窗和汉明窗等，用于对采样的语音信号进行加窗分割成一帧一帧的短时语音序列，表达式分别如下：（其中 N为帧长)：

此外，参阅图 1所示，所述语音识别系统还可包括：端点检测单元 50, 用于计算进行格式转换及编码后的待识别语音信号的语音起点及语音终点，去除待识别语音信号中的静音信号，获得待识别语音信号中语音的时域范围；以及用于对待识别语音信号中的语音频谱进行快速傅里叶变换 FFT分析，根据分析结果计算待识别语音信号中的元音信号、浊音信号及轻辅音信号。

所述语音识别系统通过端点检测单元 50, 从包含语音的一段待识别语音信号中确定出语音的起点以及终点，其作用是使处理的时间减到最小，而且能排除无声段的噪声干扰，从而使语音识别系统具有良好的识别性能。

本发明示例性实施例的语音识别系统，基于相关性的语音端点检测算法：语音信号具有相关性，而背景噪声则无相关性。因而利用相关性的不同，可以检测出语音，尤其是可以将清音从噪声中检测出来。第一级对输入语音信号，根据其能量和过零率的变化，进行一次筒单的实时端点检测，以便去掉静音，得到输入语音的时域范围，并且在此基础上进行频谱特征提取工作。第二级根据输入语音频谱的 FFT分析结果，分别计算出高频、中频和低频段的能量分布特性，用来判别轻辅音、浊辅音和元音；在确定了元音、浊音段后，再向前后两端扩展搜索包含语音端点的帧。

特征提取单元 30从待识别语音信号中进行语音特征参数提取，包括线性预测参数及其派生参数 ( LPCC )、语音频谱直接导出的参数、混合参数及 Mel 频率倒谱系数（MFCC )等。对于线性预测参数及其派生参数：

通过对线性预测参数进行正交变换得到的参量，其中阶数较高的几个方差较小，这说明它们实质上与语句的内容相关性小，而反映了说话人的信息。另夕卜，由于这些参数是对整个语句平均得到的，所以不需要进行时间上的归一化，因此可用于与文本无关的说话人识别。对于语音频谱直接导出的参数：

语音短时谱中包含有激励源和声道的特性，因而可以反映说话人生理上的差别。而短时谱随时间变化，又在一定程度上反映了说话人的发音习惯，因此，由语音短时谱中导出的参数可以有效地用于说话人识别中。已经使用的参数包括功率谱、基音轮廓、共振峰及其带宽、语音强度及其变化等。对于混合参数

为了提高系统的识别率，部分原因也许是因为对究竟哪些参量是关键把握不够，相当多的系统采用了混合参量构成的矢量。如将 "动态" 参量（对数面积比与基频随时间的变化）与 "统计" 分量（由长时间平均谱导出）相结合，还有将逆滤波器谱与带通滤波器谱结合，或者将线性预测参数与基音轮廓结合等参量组合方法。如果组成矢量的各个参量之间的相关性不大，则效果会 ^艮好，因为这些参量分别反映了语音信号中不同的特征。对于其他鲁棒性参数：

包括 Mel 频率倒谱系数，以及经过噪声谱减或者信道语减的去噪倒谱系数。

其中， MFCC参数具有如下优点（与 LPCC参数相比）：

语音信息大多集中在低频部分，而高频部分易受环境噪音干扰； MFCC参数将线性频标转化为 Mel频标，强调语音的低频信息，从而除了具有 LPCC 的优点之外，还突出了有利于识别的信息，屏蔽了噪音的干扰。 LPCC参数是基于线性频标的，所以没有这样的特点。

MFCC参数没有任何前提假设，在各种情况下都可使用。而 LPCC参数假设所处理的信号是 AR信号，对于动态特性较强的辅音，该假设并不严格成立，所以 MFCC参数在说话人识别中优于 LPCC参数。

MFCC参数提取过程中需要 FFT 变换，可以以此获得语音信号频域上的所有信息。

图 3示出本发明示例性实施例的语音识别系统进行语音识别的原理。如图 3所示，利用特征提取单元 30,通过从编码后的待识别语音信号中提取频率倒谱系数 MFCC特征，获得语音特征参数。

此外，语音识别系统还可包括：语音建模单元 60, 用于利用所述语音特征参数，采用频率倒谱系数 MFCC建立与文本无关的高斯混合模型为语音的声学模型。

模式匹配单元 40利用高斯混合模型，使用最大后验概率算法（MAP)将所提取的语音特征参数与至少一个语音模型进行匹配，使判决单元 70根据匹配结果确定待识别语音信号所属的用户。这样通过将提取出的语音特征参数与存储单元 10中所保存的语音模型相比对，得出识别结果。

具体采用高斯混合模型进行语音建模和模式匹配的方式可以为如下：在采取高斯混合模型的说话人集合中，任一说话人的模型形式都是一致的 , 其个性特征由一组参数， = {^W'，A'，C,}唯一确定。其中 _Wi、 Α、 ς.分别为说话人语音特征参数的混合加权值、平均值向量及协方差矩阵。因此，说话人的训练是从已知说话人的语音中得到这样的一组参数，使得其产生训练语音的概率密度最大。而说活人识别就是依靠最大概率原则选出识别语音概率最大的那一组参数代表的说话人，即参阅公式（ 1 ):

λ = arg max P(X I λ) ( 1 )

其中表示长度为 τ的训练序歹 'Κτ个特征参数） χ= ^,χ₂,···, ^}关于高斯混合模型（GMM) 的似然度：

具体地： (2)

下面是 MAP算法过程：

在说话人识别系统中，设为训练样本，是第 i 个说话人的模型参数，则根据最大后验概率原则及公式 1, 由 MAP训练方法准则所确定的语音声学模型为如下公式（3 ): θ_ί = arg_e max Ρ(θ I χ) = arg_e max

p(x) ( 3 )

上式公式（3) 中： P ( 、 Ρ( ）分别为、的先验概率； P^^ 为该待识别语音信号的特征参数相对于第 i 个说话人的似然估计。

对于上述公式 2中的 GMM的似然度计算，由于上式 2是参数的非线性函数，很难直接求出上式的最大值。因此，常常采用最大期望值（Expectation Maximization, 筒称为 EM )算法估计参数。 EM算法的计算是从参数的一个初值开始，采用 EM算法估计出一个新的参数 , 使得新的模型参数下的似然度^^ ^^^ ）。新的模型; 直到模型收敛。每一次迭代运算，下面的重估公式保证了模型似然度的单调递增。

(1) 混合权值的重估公式：

(2) 均值的重估公式:

(3) 方差的重估公式:

其中，分量 i的后验概率为:

Ρ{ϊΙΧ λ)

∑ o_kb_k(X_t) 在使用 EM算法训练 GMM时， GMM的模型的高斯分量的个数 M和模型的初始参数必须首先确定。如果 M取值太小，则训练出的 GMM模型不能有效地刻画说话人的特征，从而使整个系统性能下降。如果 M取值过大，贝' J 模型参数会很多，从有效的训练数据中可能得不到收敛的模型参数，同时，训练得到的模型参数误差会很大。而且，太多的模型参数要求更多的存贮空间，而且训练和识别的运算复杂度大大增加。高斯分量 M的大小，艮难从理论上推导出来，可以根据不同的识别系统，由实验确定。

一般， M取值可以是 4、 8、 16等。可以采用两种初始化模型参数的方法：第一种方法使用一个与说话人无关的 HMM模型对训练数据进行自动分段。训练数据语音帧根据其特征分为 M个不同的类（M为混合数的个数），与初始的 M个高斯分量相对应。每个类的均值和方差作为模型的初始化参数。尽管有实验证明 EM算法对于初始化参数的选择并不敏感，但是显然第一种方法训练要优于第二种方法。也可以首先采用聚类的方法将特征矢量归于混合数相等的各个类中，然后分别计算各个类的方差和均值，作为初始矩阵和均值，权值是各个类中所包含的特征矢量的个数占总的特征矢量的百分比。建立的模型中，方差矩阵可以为全矩阵，也可以为对角矩阵。

本发明的语音识别系统，利用高斯混合模型 (GMM)采用最大后验概率算法（MAP )将所提取的语音特征参数与至少一个语音模型进行匹配，确定待识别语音信号所属的用户的方式。

使用最大后验概率算法（MAP ), 就是利用 Bayes学习方法对参数进行修改，先从一个给定得初始模型开始，计算训练语料中每个特征向量在每个高斯分布的统计几率，再利用这些统计几率来计算每个高斯分布的期望值，然后以这些期望值反过来最大化高斯混合模型得参数值，得到 ^。重复上面得步骤，直到 R(X U)收敛为止。当训练语料足够多时， MAP算法有理论上的最优性。

当设为训练样本，是第 i 个说话人得模型参数，根据最大后验概率原则及公式 1 ,由 MAP训练方法准则所确定的语音声学模型为如上公式（3 )后，当考虑 ^P ( 和 (W是词条数）无关得情况：

在渐进的自适应方式中，训练样本是逐个输入的。设 ^ ， ^ ^，²，…，^为训练样本序列，则渐进 MAP方法准则如下：

θ^¹⁾ = arg_e_ maxP(_Zn+11 θ_ι)Ρ(θ_ι I χ") 其中为第一次训练的模型参数估计值。根据上述计算过程，以更筒化形式举例说明：

本发明示例性实施例的语音识别系统，说话人辨认的目的是要用于确定待识别语音信号属于 Ν个说话人中的哪一个。在一个封闭的说话人集合里，只需要确认该语音属于语音库中的哪一个说话人。在辨认任务中，目的是找到一个说话者^其对应的模型使得待识别语音特征矢量组 X具有最大后验概率 Ρ ( ^7Χ )。根据 Bayes理论及上述公式 3, 最大后验概率可表示为：

Ρ(1,Χ) = ^{Ρ(Χ /λ}^

Ρ(Χ)

在这里，参阅上述公式 2:

其对数形式为：因为 ^PW)的先验概率未知，假定该所述待识别语音信号出自封闭集里的每个人的可能性相等，也即为：

Ρ{λ) =—,\<ί<Ν

Ν 对于一个确定的观察值矢量 X, Ρ (X)是一个确定的常数值，对所有说话人都相等。因此，求取后验概率的最大值可以通过求取^^^获得。因此，辨认该语音属于语音库中的哪一个说话人可以表示为：

C = arg max P(X I 上述公式对应公式 (3)/即为所识别出的说话人。

进一步地，利用上述方式，只是识别出模型库中最接近的用户。通过上述在匹配时计算要识别的说话人与语音库中所有说话人信息的似然度之后，还需要通过判决单元将与待识别语音信号具有最高似然度的用户的语音模型配合识别门限的限制，确定待识别语音信号所属的用户，从而达到对说话人身份进行认证的目的。

上述语音识别系统还包括判决单元，用于将与待识别语音信号具有最高似然度的语音模型与预设识别门限进行比对，确定待识别语音信号所属的用户。

图 4表示采用 MEL滤波器的语音输出频率示意图，人耳所听到的声音的高低与声音的频率并不成线性正比关系，而用 Mel 频率尺度则更符合人耳的听觉特性。所谓 Mel 频率尺度，它的值大体上对应于实际频率的对数分布关系。 Mel 频率与实际频率的具体关系可用式： Mel(f)=25951g(l+f/700), 这里，实际频率 f 的单位是 Hz。临界频率带宽随着频率的变化而变化，并与 Mel频率的增长一致，在 1000Hz 以下，大致呈线性分布，带宽为 100Hz左右；在 1000Hz 以上呈对数增长。类似于临界频带的划分，可以将语音频率划分成一系列三角形的滤波器序列，即 Mel滤波器组。三角滤波器的输出则为： ^k:^ ^Fi _^F" ^k:^ ^F「^Fi , i =l,2,— ,P 其中为第 i 个滤波器的输出。

用离散余弦变换（DCT )将滤波器输出变换到倒谱域：

Q =∑log(F.)cos[^ - -i)^-]

2²⁴ , k=l,2,...,P

其中 P为 MFCC参数的阶数，实际软件算法中选取 P=12, (dim即为所求的 MFCC参数。

本发明示例性实施例的语音识别系统，从语音的产生原理开始分析语音的特性，并使用 MFCC参数，建立说话人的语音特征模型，实现说话人的特征识别的算法，能够达到提高说话人检测可靠性的目的，使得最终能够在电子产品上实现说话人识别的功能。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰, 这些改进和润饰也应视为本发明的保护范围。

Claims

权利要求书

1. 一种语音识别系统，包括：

存储单元，用于存储至少一个用户的语音模型；

特征提取单元，用于从编码后的所述待识别语音信号中提取语音特征参数; 模式匹配单元，用于将所提取的所述语音特征参数与至少一个所述语音模型进行匹配，确定所述待识别语音信号所属的用户。

2. 如权利要求 1 所述的语音识别系统，其中，在采集所述待识别语音信号后，所述语音采集及预处理单元还用于依次对所述待识别语音信号进行放大、增益控制、滤波及采样，之后对所述待识别语音信号进行格式转换及编码，使所述待识别语音信号被分割为由多帧组合而成的短时信号。

3. 如权利要求 2所述的语音识别系统，其中，所述语音采集及预处理单元还用于对进行格式转换及编码后的所述待识别语音信号采用窗函数进行预加重处理。

4. 如权利要求 1所述的语音识别系统，其中，所述语音识别系统还包括：端点检测单元，用于计算进行格式转换及编码后的所述待识别语音信号的语音起点及语音终点，去除所述待识别语音信号中的静音信号，获得所述待识别语音信号中语音的时域范围；以及用于对所述待识别语音信号中的语音频谱进行快速傅里叶变换 FFT分析，根据分析结果计算所述待识别语音信号中的元音信号、浊音信号及轻辅音信号。

5. 如权利要求 1 所述的语音识别系统，其中，所述特征提取单元通过从编码后的所述待识别语音信号中提取频率倒谱系数 MFCC特征，获得所述语音特征参数。

6. 如权利要求 5所述的语音识别系统，其中，所述语音识别系统还包括：语音建模单元，用于利用所述语音特征参数，采用频率倒谱系数 MFCC建立与文本无关的高斯混合模型为语音的声学模型。

7. 如权利要求 1 所述的语音识别系统，其中，所述模式匹配单元利用高斯混合模型，使用最大后验概率算法 MAP将所提取的所述语音特征参数与至少一个所述语音模型进行匹配，计算所述待识别语音信号与每一个所述语音模型的似然度。

8. 如权利要求 7所述的语音识别系统，其中，采用最大后验概率算法 MAP 将所提取的所述语音特征参数与至少一个所述语音模型进行匹配，确定所述待识别语音信号所属的用户的方式采用以下公式：

_ Ρ( Ύ \ Θ、ρ(β

= arg_e max Ρ(θ I χ) = arg_e max - ~ '―

' ' P(z) 其中：表示存储单元所存储的第 i个人语音的模型参数，为待识别语音信号的特征参数； ρω、 Ρ( ）分别为、的先验概率； ^{P( /} 为所述待识别语音信号的特征参数相对于第 i 个说话人得似然估计。

9. 如权利要求 8所述的语音识别系统，其中，利用高斯混合模型，所述待识别语音信号的特征参数由一组参数 { _Wi、唯一确定，其中 w_;、 μ— ς 分别为说话人语音特征参数的混合加权值、平均值向量及协方差矩阵。

10. 如权利要求 7所述的语音识别系统，其中，所述语音识别系统还包括判决单元，用于将与所述待识别语音信号具有最高似然度的所述语音模型与预设识别门限进行比对，确定所述待识别语音信号所属的用户。