WO2014114049A1

WO2014114049A1 - 一种语音识别的方法、装置

Info

Publication number: WO2014114049A1
Application number: PCT/CN2013/077529
Authority: WO
Inventors: 蒋洪睿; 王细勇; 梁俊斌; 郑伟军; 周均扬
Original assignee: 华为终端有限公司
Priority date: 2013-01-24
Filing date: 2013-06-20
Publication date: 2014-07-31
Also published as: JP6099556B2; CN103065631B; CN103065631A; US9607619B2; EP2760018A1; JP2014142627A; EP2760018B1; US20140207460A1

Abstract

一种语音识别的方法，包括：获取语音数据（S100）；根据所述语音数据，获取第一置信度值（S101）；根据所述语音数据，获取噪声场景（S102）；根据所述第一置信度值，获取与所述噪声场景对应的第二置信度值（S103）；如果所述第二置信度值大于或者等于预先存储的置信度阈值，则处理所述语音数据（S104）。以及一种装置。这种根据噪声场景，灵活调整置信度值的方法和装置，大大提升了噪声环境下的语音识别率。

Description

一种语音识别的方法、装置技术领域本发明实施例涉及语音处理技术领域，尤其涉及一种语音识別的方法及装置。

背景技术用户在手机等终端设备上一般使用语音助手软件用来进行语音识別。用语音助手等软件进行语音识別的过程为，用户开启语音助手软件，获取语音数据；语音数据送到降噪模块进行降噪处理；降噪处理后的语音数据送给语音识別引擎；语音识別引擎返回识別结果给语音助手；语音助手为减少误判，根据置信度阈值判断识別结果的正确性，然后呈现。目前，语音助手类软件通常是在办公室等安静环境下使用效果相对较好，但在噪声环境下（如：车载环境下）的使用效果不佳；业界普遍采用软件降噪的方法来提升语音识別率，但提升效果并不明显，有时甚至会降低识別率。发明内容本技术方案提供一种语音识別的方法和装置，用以提升语音识別率，同时提升用户感受。第一方面，提供一种语音识別的方法：所述方法包括：获取语音数据；根据所述语音数据，获取第一置信度值；根据所述语音数据，获取噪声场景；根据所述第一置信度值，获取与所述噪声场景对应的第二置信度值；如果所述第二置信度值大于或者等于预先存储的置信度阈值，则处理所述语音数据。

结合第一方面，在第一方面的第一种可能的实现方式中，所述噪声场景具体包括：噪声类型；噪声大小。结合第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述噪声场景包括噪声类型，所述根据语音数据获取噪声场景，具体包括：根据所述语音数据，获取所述语音数据中的噪声的频率倒谱系数；根据所述噪声的频率倒谱系数和预先建立的噪声类型模型，获取所述语音数据的噪声类型。结合第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，所述噪声类型模型的建立方法具体包括：获取噪声数据；根据所述噪声数据，获取所述噪声数据的频率倒谱系数；根据 EM算法处理所述频率倒谱系数，建立所述噪声类型模型。

结合第一方面的第三种可能的实现方式或者第一方面的第二种可能的实现方式，在第一方面的第四种可能的实现方式中，所述噪声类型模型是，高斯混合模型。

结合第一方面的第一种可能的实现方式，在第一方面的第六种可能的实现方式中，所述噪声场景包括噪声大小，所述根据语音数据获取噪声场景，具体包括：根据所述语音数据，获取所述语音数据的特征参数；根据所述特征参数，进行语音激活检测；根据所述语音激活检测的结果，获取所述噪声大小。结合第一方面的第一种可能的实现方式或者第一方面的第二种可能的实现方式或者第一方面的第三种可能的实现方式或者第一方面的第四种可能的实现方式或者第一方面的第五种可能的实现方式或者，在第一方面的第六种可能的实现方式中，所述噪声大小具体包括：信噪比；述噪声能量水平。

结合第一方面或者第一方面的第一种可能的实现方式或者第一方面的第二种可能的实现方式或者第一方面的第三种可能的实现方式或者第一方面的第四种可能的实现方式或者第一方面的第五种可能的实现方式或者第一方面的第六种可能的实现方式或者，在第一方面的第七种可能的实现方式中，所述根据第一置信度值，获取与所述噪声场景对应的第二置信度值，具体包括：根据所述噪声场景和预先存储的置信度值调整值的经验数据的对应关系，获取与所述噪声场景对应的置信度值调整值；根据所述置信度值调整值，调整所述第一置信度值，获取所述第二置信度值；其中，所述调整包括：调大、调小、保持不变。

结合第一方面或者第一方面的第一种可能的实现方式或者第一方面的第二种可能的实现方式或者第一方面的第三种可能的实现方式或者第一方面的第四种可能的实现方式或者第一方面的第五种可能的实现方式或者第一方面的第六种可能的实现方式或者第一方面的第七种可能的实现方式或者，在第一方面的第八种可能的实现方式中，如果所述第二置信度值小于所述置信度阈值则提示用户。第二方面，提供一种语音识別装置，其特征在于，所述装置包括：获取单元，用于获取语音数据；并根据所述语音数据获取第一置信度值第一置信度值单元，用于接收所述获取单元获取的所述语音数据，并根据所述语音数据获取第一置信度值；噪声场景单元，用于接收所述获取单元获取的所述语音数据，并根据所述语音数据获取噪声场景；第二置信度值单元，用于接收所述噪声场景单元的所述噪声场景和所述第一置信度值单元的所述第一置信度值，并根据所述第一置信度值，获取与所述噪声场景对应的第二置信度值；处理单元，用于接收所述第二置信度值单元获取的所述第二置信度值，如果所述第二置信度值大于或者等于预先存储的置信度阈值，则处理所述语音数据。第二置信度值单元如果所述第二置信度值大于或者等于预先存储的置信度阈值

结合第二方面，在第二方面的第一种可能的实现方式中，所述装置还包括：建模单元，用于获取噪声数据，根据所述噪声数据，获取所述噪声数据的频率倒谱系数，根据 EM算法处理所述频率倒谱系数，建立噪声类型模型。

结合第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，所述噪声场景单元具体包括：噪声类型单元，用于根据所述获取单元的所述语音数据，获取所述语音数据中的噪声的频率倒谱系数，根据所述噪声的频率倒谱系数和所述建模单元的所述噪声类型模型，获取所述语音数据的噪声类型。

结合第二方面或者第二方面的第一种可能的实现方式或者第二方面的第二种可能的实现方式，在第二方面的第三种可能的实现方式中，所述噪声场景单元还包括：噪声大小单元，用于根据所述获取单元的语音数据，获取所述语音数据的特征参数，根据所述特征参数，进行语音激活检测；根据所述语音激活检测的结果，获取所述噪声大小。

结合第二方面或者第二方面的第一种可能的实现方式或者第二方面的第二种可能的实现方式或者第二方面的第三种可能的实现方式，在第二方面的第四种可能的实现方式中，所述装置还包括：存储单元，用于存储的置信度阈值和置信度值调整值的经验数据。。结合者第二方面的第四种可能的实现方式，在第二方面的第五种可能的实现方式中，所述第二置信度值单元，具体用于，

根据所述噪声场景和所述经验数据的对应关系，获取与所述噪声场景对应的置信度值调整值；

根据所述置信度值调整值，调整所述第一置信度值，获取所述第二置信度值；

其中，所述调整包括：调大、调小、保持不变。置信度值调整值的经验数据根据所述第一置信度值，获取与所述噪声场景对应的第二置信度值第三方面，提供移动终端，包括处理器、麦克风，其特征在于，所述麦克风，用于获取语音数据；所述处理器，用于根据所述语音数据，获取第一置信度值，根据所述语音数据，获取噪声场景，根据所述第一置信度值，获取与所述噪声场景对应的第二置信度值，如果所述第二置信度值大于或者等于预先存储的置信度阈值，则处理所述语音数据。

结合第三方面，在第二方面的第一种可能的实现方式中所述移动终端还包括：存储器，用于存储置信度值调整值的经验数据和所述置信度阈值。

结合第三方面的第一种可能的实现方式，在第三方面的第二种可能的实现方式中，所述处理器具体用于，根据所述语音数据，获取第一置信度值；根据所述语音数据，获取噪声场景；根据所述噪声场景和所述经验数据的对应关系，获取与所述噪声场景对应的置信度值调整值；根据所述置信度值调整值，调整所述第一置信度值，获取所述第二置信度值；如果所述第二置信度值大于或者等于所述置信度阈值，则处理所述语音数据。

本发明技术方案提供了一种语音识別的方法以及装置，该方法和装置，通过获取噪声场景，并根据预先存储的置信度值调整值的经验数据和所述噪声场景，获取第二置信度值。这种根据噪声场景，灵活调整置信度值的方法和装置，大大提升了噪声环境下的语音识別率

附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获取其他的附图。

图 1为本发明实施例 1提供的一种语音识別的方法流程图；

图 2为本发明实施例 1提供的一种语音识別的方法的另一种实现方式的流程图；

图 3为本发明实施例 2提供的一种语音识別的方法的另一种实现方式的流程图；

图 4为本发明实施例 2提供的一种语音识別的方法的另一种实现方式的流程图；

图 5为本发明实施例 4提供的一种语音识別装置的结构示意图；

图 6为本发明实施例 4提供的一种语音识別装置的另一种可能的结构示意图；

图 7为本发明实施例 4提供的一种语音识別装置的另一种可能的结构示意图；

图 8为本发明实施例 4提供的一种语音识別装置的另一种可能的结构示意图；

图 9为本发明实施例 5提供的一种移动终端的结构示意图；

图 10为本发明实施例 5提供的一种移动终端的另一种可能的结构示意图；图 11为本发明实施例提供的手机的结构示意图。具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获取的所有其他实施例，都属于本发明实施例保护的范围。在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的 "一种" 、 "所述 "和 "该"也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语 "和 /或" 是指并包含一个或多个相关联的列出项目的任何或所有可能组合。进一步应当理解，本文中采用的术语 "包括" 规定了所述的特征、整体、步骤、操作、元件和 /或部件的存在，而不排除一个或多个其他特征、整体、步骤、操作、元件、部件和 /或它们的组的存在或附加。在本发明实施例中，装置包括但不限于手机、个人数字助理（Personal Digital Assistant, PDA) 、平板电脑、便携设备（例如，便携式计算机）车载设备， ATM机（Automatic Teller Machine, 自动柜员机）等设备，本发明实施例并不限定。实施例 1

图 1为本发明实施例 1提供的一种语音识別的方法流程图。

如图 1所示，本发明实施例 1提供一种语音识別的方法具体可以包括： S100，获取语音数据; 用户开启装置上的语音助手等语音识別类软件，通过麦克风获取用户输入的语音数据。应当理解的是，所述语音数据也可以不是用户输入的，也可以是机器输入的，包括任何包含信息的数据。 S101, 根据所述语音数据，获取第一置信度值。该第一置信度值是指特定个体对待特定命题真实性相信的程度。在本发明实施例中，是装置等对该语音数据识別结果的真实性相信的程度。即，该第一置信度值用来表示语音识別结果的可信程度的数值。举例来说，用户输入的语音数据为 "给张三打电话" ，则在该语音数据识別过程中，返回的第一置信度值包含：句置信度 N1 ( "给张三打电话"的总体置信度），前置命令词置信度 N2 ( "给"为前置命令词，即 "给" 的置信度值为 N2) ，人名置信度 N3 ( "张三" 为人名，即 "张三" 的置信度值为 N3 ) ，后置命令词置信度 N4( "打电话 " 为后置命令词，即 "打电话" 的置信度为 N4)。通常，句置信度 N1是由 N2、 N3、 N4综合得到的。在某次实验中，经测试得到，用户输入 "给张三打电话" 该语音数据的第一置信度值分別为 N1 =62， N2=50， N3=48， N4=80。

应当理解，尽管在本发明实施例中可能采用术语第一、第二等来描述各种置信度值，但这些置信度值不应限于这些术语。这些术语仅用来将置信度值彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一置信度值也可以被称为第二置信度值，类似地，第二置信度值也可以被称为第一置信度值。并且该第一置信度值和第二置信度值都是置信度值。

5102, 根据所述语音数据，获取噪声场景；根据用户输入的语音数据，获取噪声场景。所述噪声场景是用户输入语音数据时所处的噪声状态。即可以理解为，用户是在马路上的噪声环境，还是在办公室的噪声环境或者是在车载的噪声环境中输入该语音数据，以及用户所处的相应环境中噪声是大还是小。

应当理解的是，所述步骤 S102可以在步骤 S101之前，所述步骤 S102也可以在步骤 S101之后，或者所述步骤 S102可以和步骤 S101同时执行，本发明实施例对此不做限制

5103,根据所述第一置信度值，获取与所述噪声场景对应的第二置信度值。该第二置信度值是根据所述获取的第一置信度值获取的。该第二置信度值不是根据用户输入的语音数据直接得到的，而是根据该第一置信度值获得的。在获取该语音数据所处的噪声场景之后，可以根据所述第一置信度值，获取与所述噪声场景对应的第二置信度值。

S104, 如果所述第二置信度值大于或者等于预先存储的置信度阈值，则处理所述语音数据；

该预先存储的置信度阈值作为第二置信度值是否可接受的评价指标，如第二置信度值大于此置信度阈值，则认为识別结果正确，如果第二置信度值小于此置信度阈值，则认为识別结果错误，结果是不可相信的。

如果所述第二置信度值大于或者等于预先存储的置信度阈值，则认为该语音数据识別的结果是正确的，即处理相应的语音数据。举例来说，如步骤 S103 中获取的第二置信度值 N3=48，步骤 S104中预先存储的置信度阈值步骤 S104 中预先存储的置信度阈值 =40，则所述第二置信度值大于所述置信度阈值，该语音数据识別结果是正确的。进一步举例说明，当该语音数据是"打电话给张三" "发短信给张三" "打开应用程序"等包含命令词的语音数据时，该语音识別属于命令词识別，则所述装置执行相应命令，如打电话、发短信、打开应用程序等操作。如果该语音数据识別属于文本听写识別，则显示识別结果文本。即如果所述第二置信度值大于或者等于预先存储的置信度阈值，则处理所述语音数据。

本发明技术方案提供了一种语音识別的方法,该方法通过获取噪声场景，并根据预先存储的置信度值调整值的经验数据和所述噪声场景，获取第二置信度值。这种根据噪声场景，灵活调整置信度值的方法，大大提升了噪声环境下的语音识別率。可选的，

图 2为本发明实施例 1提供的一种语音识別的方法的另一种实现方式的流程图。如图 2所示，所述方法还包括：

S1041 , 如果所述第二置信度值小于所述置信度阈值，则提示用户。

如果所述第二置信度值小于所述置信度阈值，则认为该语音数据识別结果是错误的，则提示用户。举例来说，如步骤 S 103中获取的第二置信度值 N3=48，步骤 S104中预先存储的置信度阈值 =50，则所述第二置信度值小于所述置信度阈值，所述语音数据识別结果是错误的。进一步举例说明，当该语音数据是"给张三打电话"时，则装置判断该语音数据的识別结果错误，系统提示用户重新说一遍和 /或者告知用户错误。即，如果所述第二置信度值小于所述置信度阈值，则提示用户重新输入或者纠正错误等。

本发明技术方案提供了一种语音识別的方法,该方法通过获取噪声场景，并根据预先存储的置信度值调整值的经验数据和所述噪声场景，获取第二置信度值。这种根据噪声场景，灵活调整置信度值的方法，大大提升了噪声环境下的语音识別率。

实施例 2 图 3为本发明实施例 2提供的一种语音识別的方法的另一种实现方式的流程图。本发明实施例 2是在本发明实施例 1的基础之上进行描述的。如图 3所示，在实施例 1中的步骤 S102中，所述噪声场景具体包括：噪声类型；噪声大小。该噪声类型是指用户输入语音数据时所处的噪声环境，即可以理解为用户是在马路上的噪声环境，还是在办公室的噪声环境或者是在车载的噪声环境。该噪声大小表示用户输入语音数据该时所处噪声环境中噪声的大小。可选的，该噪声大小包括：信噪比和噪声能量水平。该信噪比是语音数据与噪声数据功率的比值，常常用分贝数表示，一般信噪比越高表明噪声数据功率越小，否则则相反。该噪声能量水平是用来反应用户语音数据中噪声数据能量的大小。信噪比和噪声能量水平结合起来，表示该噪声大小。

所述噪声场景包括噪声类型，在实施例 1中的步骤 S102, 所述根据语音数据获取噪声场景，具体包括：

S1021 ,根据所述语音数据，获取所述语音数据中的噪声的频率倒谱系数；根据用户输入的语音数据，通过语音激活检测（Voice activity detection ， VAD) 判断语音数据帧和噪声数据帧，在获取噪声数据帧之后，获取该噪声数据帧的频率倒谱系数。 Mel (美尔）是主观音高的单位，而 Hz (赫兹）则是客观音高的单位， Mel频率是基于人耳听觉特性提出的，它与 Hz频率成非线性对应关系。频率倒谱系数（Mel Frequency Cepstrum Coefficient, MFCC) 是 Mel频率上的倒谱系数，具有良好的识別性能，被广泛应用于语音识別、声紋识別、语种识別等领域。

S1022, 根据所述噪声的频率倒谱系数和预先建立的噪声类型模型，获取所述语音数据的噪声类型。

将该频率倒谱系数分別代入预先建立的每一个噪声类型模型中进行计算，如果某一噪声类型模型的计算结果值最大，则认为用户输入该语音数据时处于该噪声类型的环境中，即获取该语音数据的噪声类型。

在步骤 S1022中的该预先建立的噪声类型模型是高斯混合模型。高斯密度函数估计是一种参数化模型，有单高斯模型（ Single GaussianModel, SGM) 和高斯混合模型（Gaussian mixture model, GMM) 两类。高斯模型是一种有效的聚类模型，它根据高斯概率密度函数参数的不同，每一个已经建立的高斯模型可以看作一种类別，输入一个样本 X ，即可通过高斯概率密度函数计算其值，然后通过一个阈值来判断该样本是否属于已经建立的该高斯模型。由于 GMM具有多个模型，划分更为精细，适用于复杂对象的划分，广泛应用于复杂对象建模，例如语音识別中利用 GMM对不同噪声类型的分类和建模。

在本发明实施例中，某一噪声类型的 GMM建立的过程可以是，输入多组同一类型噪声数据，根据所述噪声数据反复训练 GMM模型，并最终获得该噪声类型的 GMM。

高斯混合模型可用下式表达：

P(x) =∑Γ₌₁ Ν(χ_; μ_ί, Σ_ί) , 其中， ∑₌₁ = 1 其中，高斯模型 Ν(χ; μ,∑)可用下式表达：

^{Ν(χ; μ}'^{∑) =} ¾ ^exp卜 ^(x— ^μ)τ∑— ^{1 (x} - ^μ)]

其中， Ν为 GMM模型的混合度，即由 N个高斯模型组合而成，（^为第1个高斯模型的权值， μ为均值， ^Ε为协方差矩阵。理论上，空间中的任意开 ΐ状都可以使用一个 GMM模型来建模。由于高斯模型的输出是 1个 0~1之间的小数，为了便于计算，一般会对结果进行取自然对数 (In：)，从而变成小于 0的浮点数。

在步骤 S1022中的该预先建立的噪声类型模型的建立方法包括：获取噪声数据。获取多组同一类型噪声，如，车载噪声，街道噪声，办公室噪声等，的噪声数据。用于建立该种类型噪声数据的 GMM，即该种噪声数据的噪声类型模型。应当理解的是，本发明还可以获得其他种类的噪声数据，并针对每一种类型噪声数据建立相应的噪声类型模型，本发明实施例对此不做限制。

根据所述噪声数据，获取所述噪声数据的频率倒谱系数。从该噪声数据中，提取该噪声的频率倒谱系数。 Mel (美尔）是主观音高的单位，而 Hz (赫兹）则是客观音高的单位， Mel频率是基于人耳听觉特性提出的，它与 Hz频率成非线性对应关系。频率倒谱系数（Mel Frequency Cepstmm Coefficient, MFCC) 是 Mel频率上的倒谱系数，具有良好的识別性能，被广泛应用于语音识別、声紋识別、语种识別等领域。

根据 EM算法处理所述频率倒谱系数，建立所述噪声类型模型。 EM算法 ( Expectation-maximization algorithm, 最大期望算法) 在统计中被用于寻找，依赖于不可观察的隐性变量的概率模型中，参数的最大似然估计。在统计计算中，最大期望（EM) 算法是在 GMM中寻找参数最大似然估计或者最大后验估计的算法，其中 GMM依赖于无法观测的隐藏变量（Latent Variable) 。

EM算法经过两个步骤交替进行计算：第一步是计算期望（E) ，估计未知参数的期望值，给出当前的参数估计。；第二步是最大化（M) ，重新估计分布参数，以使得数据的似然性最大，给出未知变量的期望估计。总体来说， EM 的算法流程如下： 1，初始化分布参数； 2，重复直到收敛。简单说来 EM算法就是，假设我们估计知道 A和 B两个参数，在开始状态下二者都是未知的，并且知道了 A的信息就可以得到 B的信息，反过来知道了 B也就得到了 A。可以考虑首先赋予 A某种初值，以此得到 B的估计值，然后从 B的当前值出发，重新估计 A的取值，这个过程一直持续到收敛为止。 EM 算法可以从非完整数据集中对参数进行最大可能性估计，是一种非常简单实用的学习算法。通过交替使用 E和 M这两个个步骤， EM算法逐步改进模型的参数，使参数和训练样本的似然概率逐渐增大，最后终止于一个极大点。直观地理解 EM算法，它也可被看作为一个逐次逼近算法：事先并不知道模型的参数，可以随机的选择一套参数或者事先粗略地给定某个初始参数，确定出对应于这组参数的最可能的状态，计算每个训练样本的可能结果的概率，在当前的状态下再由样本对参数修正，重新估计参数，并在新的参数下重新确定模型的状态，这样，通过多次的迭代，循环直至某个收敛条件满足为止，就可以使得模型的参数逐渐逼近真实参数。将获取的频率倒谱系数代入 EM算法进行训练，通过训练过程，获取高斯混合模型中的 Ν、 α _ρ μ、 ∑等参数，根据这些参数和 ρ(χ) =∑_{= 1} 0^( ^∑ ，其中∑[i_{l C} = 1 ，建立高斯混合模型，即建立该种噪声类型相应的噪声类型模型。同时， X是频率倒谱系数。举例来说，在实施例 1中的步骤 S102, 所述根据语音数据获取噪声场景，具体为：

根据语音数据获取该语音数据噪声帧的频率倒谱系数，该频率倒谱系数即为高斯混合模型 p(x)

^,∑ 中的 x。假设，有两个噪声类型模型，一个是由车载噪声训练得到的车载噪声的噪声类型模型，另一个是由非车载类噪声（可以包含办公室噪声、街道噪声、超市噪声等:)训练得到的非车载噪声的噪声类型模型。假设当前用户输入的语音数据有 10帧噪声帧，将每个噪声帧的频率倒谱系数，即 X分別代入两个噪声类型模型 p(x)

₍¾^( ; ,∑ 中（其中， Ν、 α _ρ μ、 ∑等参数为已知），获取计算结果，将计算结果取对数，并进行累加平¹均，最后结果如下表一所示：

最终的结果显示，车载噪声的噪声类型模型的计算结果值大于非车载噪声的噪声类型模型的计算结果值（即， -41.9>-46.8) ，所以当前语音数据的噪声类型为车载噪声。

本发明技术方案提供了一种噪声环境下提升语音识別率的方法，该方法通过获取噪声场景，并根据预先存储的置信度值调整值的经验数据和所述噪声场景，获取第二置信度值。这种根据噪声场景，灵活调整置信度值的方法，大大提升了噪声环境下的语音识別率。可选的，

如图 3所示，所述噪声场景包括包括噪声大小，在实施例 1中的步骤 S102, 所述根据语音数据获取噪声场景，具体包括：

S1023 , 根据所述语音数据，获取所述语音数据的特征参数；

根据该语音数据，提取该语音数据的特征参数，所述特征参数包括：子带能量、基音、周期性因子。

子带能量，根据语音数据不同频带中有用成分的不同，将 0~8K频带分成 N 个子带，并分別计算各子带每帧语音的能量。子带能量计算公式为：

L- 1

ener = - ^ (χ[ϊ] ^Λ2)

i=0 其中， L为帧长，一帧语音数据为 x[0]x[l]~x[L-l]。

基音及周期性因子，反映了语音中的周期性成分。在语音中，静音段及轻声段周期性成分很差，在浊音段，周期性很好，基于此点可进行语音帧检测。

51024, 根据所述特征参数，进行语音激活检测；

根据用户输入的语音数据，通过语音激活检测（Voice activity detection ， VAD) 判断语音数据帧和噪声数据帧，将基音及周期性因子与子带能量相结合，进行语音帧、静音帧的判决。

VAD判断主要基于以下两个因素进行语音帧、噪声帧的判决：

1)语音帧的能量高于噪声帧的能量；

2)周期性强的一般是语音帧。

51025, 根据所述语音激活检测的结果，获取所述噪声大小。

根据 VAD判断结果，对语音帧、噪声帧分別求平均能量，得到语音能量水平 (speechLev)、噪声能量水平 (noiseLev), 然后计算得到信噪比 (SNR)，其公式为： noiseLev = 10 * logl0(l ener

speechLev = 10 * loglO (1 + ^∑】 ener[Sj]) SNR = speechLev― noiseLev 其中， Ln、 Ls分別表示噪声帧、语音帧总帧数， ener[Ni]表示第 i个噪声帧的能量， ener[Sj]表示第 j个语音帧的能量。本发明技术方案提供了一种噪声环境下提升语音识別率的方法，该方法通过获取噪声场景，并根据预先存储的置信度值调整值的经验数据和所述噪声场景，获取第二置信度值。这种根据噪声场景，灵活调整置信度值的方法，大大提升了噪声环境下的语音识別率。

实施例 3, 图 4为本发明实施例 3提供的一种语音识別的方法的另一种实现方式的流程图。本实施例是在实施例 1的基础上描述的，如图 4所示，实施例 1的步骤 S103 方法具体包括： S1031 , 根据所述噪声场景和预先存储的置信度值调整值的经验数据的对应关系，获取与所述噪声场景对应的置信度值调整值；

根据噪声场景中的噪声类型，噪声大小以及经大量仿真测量得到的置信度值调整值的经验数据，获取该噪声场景对应的置信度值调整值。该噪声类型表明用户进行语音识別时所处的环境类型，该噪声大小表明用户所处的环境类型的噪声大小。其中，结合噪声类型，当噪声偏大时，将置信度值相应的调大；结合噪声类型，噪声偏小时，将置信度值相应的调小。具体的置信度值调整值的经验数据通过仿真测量统计得到。举例说明：在噪声类型为车载环境，噪声偏大时（即，噪声水平小于 -30dB, 信噪比小于 10dB), 通过仿真测量统计得到此种噪声场景中，置信度值调整值为 +15~+5。因此，该噪声场景中，获取置信度值调整值为调大 15至 5中的某一值在噪声类型为车载环境，噪声偏小时 (噪声水平大于 -30小于 -40dB，信噪比大于 10dB小于 20dB)，通过仿真测量统计得到此种噪声场景中，置信度值调整值为 +10~+3。因此，该噪声场景中，获取置信度值调整值为调大 10至 3中的某一值。

在噪声类型为办公室环境，噪声偏小时 (噪声水平大于 -40dB，信噪比大于 20dB), 通过仿真测量统计得到此种噪声场景中，置信度值调整值为 +5~0。因此，该噪声场景中，获取置信度值调整值为调大 5至 0中的某一值。

S1032, 根据所述置信度值调整值，调整所述第一置信度值，获取所述第二置信度值；其中，所述调整包括：调大、调小、保持不变。根据该置信度值调整值，调整在步骤 S101中获取的第一置信度值。根据置信度调整值，调整该第一置信度值获取第二置信度值，该第一置信度值可能被调大调小或者保持不变。

本发明技术方案提供了一种噪声环境下提升语音识別率的方法，该方法通过获取噪声场景，并根据预先存储的置信度值调整值的经验数据和所述噪声场景，获取第二置信度值。这种根据噪声场景，灵活调整置信度值的方法，大大提升了噪声环境下的语音识另 'J率

实施例 4 图 5为本发明实施例 4提供的一种语音识別装置的结构示意图。如图 5所示，所述装置包括：获取单元 300，用于获取语音数据；

第一置信度值单元 301，用于接收所述获取单元 300获取的所述语音数据，并根据所述语音数据获取第一置信度值；

噪声场景单元 302，用于接收所述获取单元 300的获取的所述语音数据，并根据所述语音数据获取噪声场景；

第二置信度值单元 303，用于接收所述噪声场景单元 302的所述噪声场景和所述第一置信度值单元 301的所述第一置信度值，并根据所述第一置信度值，获取与所述噪声场景对应的第二置信度值；处理单元 304，用于接收第二置信度值单元 303获取的所述第二置信度值，如果所述第二置信度值大于或者等于预先存储的置信度阈值，则处理所述语音数据。

该获取单元 300获取语音数据；第一置信度值单元 301接收所述获取单元 300获取的所述语音数据，并根据所述语音数据获取第一置信度值；噪声场景单元 302接收所述获取单元 300的获取的所述语音数据，并根据所述语音数据获取噪声场景，所述噪声场景包括，噪声类型、噪声大小；第二置信度值单元 303 接收所述噪声场景单元 302的所述噪声场景和所述第一置信度值单元 301的所述第一置信度值，并根据所述第一置信度值，获取与所述噪声场景对应的第二置信度值；；处理单元 304接收所述所述第二置信度值单元 303获取的所述第二置信度值，如果所述第二置信度值大于或者等于预先存储的置信度阈值，则处理所述语音数据。

其中，获取单元 300、第一置信度值单元 301、噪声场景单元 302、第二置信度值单元 303、处理单元 304，可以用于执行实施例 1中步骤 S 100、 S 101、 S 102、 S103、 S104所述的方法，具体描述详见实施例 1对所述方法的描述，在此不再赘述。

本发明技术方案提供了一种语音识別装置,该装置通过获取噪声场景，并根据预先存储的置信度值调整值的经验数据和所述噪声场景，获取第二置信度值。这种根据噪声场景，灵活调整置信度值的装置，大大提升了噪声环境下的语音识別率。可选的，

图 6为本发明实施例 4提供的一种语音识別装置的另一种可能的结构示意图。如图 6所示，所述装置还包括：建模单元 305，用于获取噪声数据，根据所述噪声数据，获取所述噪声数据的频率倒谱系数，根据 EM算法处理所述频率倒谱系数，建立噪声类型模型其中，建模单元 305，可以用于执行实施例 2中在步骤 S1022中的预先建立的噪声类型模型的方法，具体描述详见实施例 2对所述方法的描述，在此不再赘述。

本发明技术方案提供了一种语音识別装置,该装置通过获取噪声场景，并根据预先存储的置信度值调整值的经验数据和所述噪声场景，获取第二置信度值。这种根据噪声场景，灵活调整置信度值的装置，大大提升了噪声环境下的语音识別率。可选的，图 7为本发明实施例 4提供的一种语音识別装置的另一种可能的结构示意图。如图 7所示，噪声场景单元具体包括：噪声类型单元 3021，用于根据所述获取单元的所述语音数据，获取所述语音数据中的噪声的频率倒谱系数，根据所述噪声的频率倒谱系数和所述建模单元的所述噪声类型模型，获取所述语音数据的噪声类型。其中，噪声类型单元 3021，可以用于执行实施例 2中在步骤 S1021、 SI 022 中所述的方法，具体描述详见实施例 2对所述方法的描述，在此不再赘述。噪声大小单元 3022，用于根据所述获取单元的语音数据，获取所述语音数据的特征参数，根据所述特征参数，进行语音激活检测；根据所述语音激活检测的结果，获取所述噪声大小。

其中，噪声大小单元 3022，可以用于执行实施例 2中在步骤 S1023、 S1024、

S 1025中所述的方法，具体描述详见实施例 2对所述方法的描述，在此不再赘述。

本发明技术方案提供了一种语音识別装置,该装置通过获取噪声场景，并根据预先存储的置信度值调整值的经验数据和所述噪声场景，获取第二置信度值。这种根据噪声场景，灵活调整置信度值的装置，大大提升了噪声环境下的语音识別率可选的图 8为本发明实施例 4提供的一种语音识別装置的另一种可能的结构示意图。如图 8所示，所述装置还包括：存储单元 306，用于存储的置信度阈值和置信度值调整值的经验数据。。所述第二置信度值单元 303，具体用于，根据所述存储单元 306预先存储的所述经验数据和所述噪声场景的对应关系，获取与所述噪声场景对应的置信度值调整值；根据所述置信度值调整值，调整所述第一置信度值，获取所述第二置信度值；其中，所述调整包括：调大、调小、保持不变。

其中，第二置信度值单元 303，可以用于执行实施例 3中在步骤 S1031、S1032 中所述的方法，具体描述详见实施例 3对所述方法的描述，在此不再赘述。

本发明技术方案提供了一种语音识別装置,该装置通过获取噪声场景，并根据预先存储的置信度值调整值的经验数据和所述噪声场景，获取第二置信度值。这种根据噪声场景，灵活调整置信度值的装置，大大提升了噪声环境下的语音识別率。

实施例 5

图 9为本发明实施例 5提供的一种移动终端的结构示意图。如图 9所示，该移动终端，包括处理器、麦克风，其特征在于，所述麦克风 501，用于获取语音数据；所述处理器 502，用于根据所述语音数据，获取第一置信度值，根据所述语音数据，获取噪声场景，根据所述第一置信度值，获取与所述噪声场景对应的第二置信度值，如果所述第二置信度值大于或者等于预先存储的置信度阈值则处理所述语音数据。其中，所述麦克风 501、所述处理器 502，可以用于执行实施例 1中步骤 S 100、 S10 S102、 S103、 S104所述的方法，具体描述详见实施例 1对所述方法的描述，在此不再赘述。本发明技术方案提供了一种移动终端,该移动终端通过获取噪声场景，并根据预先存储的置信度值调整值的经验数据和所述噪声场景，获取第二置信度值。这种根据噪声场景，灵活调整置信度值的移动终端，大大提升了噪声环境下的语音识別率。

可选的，如图 10所示，所述所述移动终端还包括：存储器 503，用于存储置信度值调整值的经验数据和所述置信度阈值。

所述处理器 502具体用于，根据所述语音数据，获取噪声场景；根据所述噪声场景和所述经验数据的对应关系，获取与所述噪声场景对应的置信度值调整值；根据所述置信度值调整值，调整所述第一置信度值，获取所述第二置信度值；如果所述第二置信度值大于或者等于所述置信度阈值，则处理所述语音数据。

上述结构可用于执行实施例 1、实施例 2、实施例 3中的方法，具体方法详见实施例 1、实施例 2、实施例 3中所述的方法，在此不再赘述。

本发明技术方案提供了一种移动终端,该装置通过获取噪声场景，并根据预先存储的置信度值调整值的经验数据和所述噪声场景，获取第二置信度值。这种根据噪声场景，灵活调整置信度值的移动终端，大大提升了噪声环境下的语音识別率。

实施例 6 如图 11所示，本实施例以手机为例对本发明实施例进行具体说明。应该理解的是，图示手机仅仅是手机的一个范例，并且手机可以具有比图中所示出的更过的或者更少的部件，可以组合两个或更多的部件，或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和 /或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。图 11为本发明实施例提供的手机的结构示意图。如图 11所示手机包括：触控屏 41，存储器 42， CPU43 , 电源管理芯片 44， RF电路 45，外设接口 46，音频电路 47，麦克风 48， I/O子系统 49。所述触控屏 41是手机与用户之间的输入接口和输出接口，除具有获取用户触摸信息和控制指令的功能外，还将可视输出呈现给用户，可视输出可以包括图形、文本、图标、视频等。所述存储器 42，可以用于存储置信度值调整值的经验数据和所述置信度阈值，以供 CPU43处理时使用。存储器 42可以被 CPU43、外设接口 46等访问，所述存储器 42可以包括高速随机存取存储器，还可以包括非易失性存储器，例如一个或多个磁盘存储器件、闪存器件、或其他易失性固态存储器件。所述 CPU43 , 可用于处理音频电路 47和麦克风 48获取的语音数据，并根据该语音数据获取噪声场景和第一置信度值；根据所述噪声场景和存储器 42预先存储的置信度值调整值的经验数据，调整第一置信度值，获取第二置信度阈值。

CPU43是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器 42内的软件程序和 /或模块，以及调用存储在存储器 42内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的， CPU43可包括一个或多个处理单元；优选的， CPU43可集成应用处理器和调制解调处理器，可选的，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到 CPU43中。还应当理解，上述功能只是 CPU43能够执行功能中的一种，对于其他功能本发明实施例不做限制。

所述电源管理芯片 44，可用于为 CPU43、 I/O子系统 49及外设接口 46所连接的硬件进行供电及电源管理。所述 RF电路 45，主要用于建立手机与无线网络（即网络侧）的通信，实现手机与无线网络的数据获取和发送。例如收发短信息、电子邮件等。具体地， RF电路 45获取并发送 RF信号， RF信号也称为电磁信号， RF电路 45将电信号转换为电磁信号或将电磁信号转换为电信号，并且通过该电磁信号与通信网络以及其他设备进行通信。 RF电路 45可以包括用于执行这些功能的已知电路，其包括但不限于天线系统、 RF收发机、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、 CODEC芯片组、用户标识模块 (Subscriber Identity Module, SIM)等等。

所述外设接口 46，所述外设接口可以将设备的输入和输出外设连接到 CPU 43和存储器 42。

所述音频电路 47，主要可用于从外设接口 46获取音频数据，将该音频数据转换为电信号。

所述麦克风 48，可用于获取语音数据.

所述 I/O子系统 49 :所述 I/O子系统 49可以控制设备上的输入输出外设， I/O 子系统 49可以包括显示控制器 491和用于控制其他输入 /控制设备的一个或多个输入控制器 492。可选的，一个或多个输入控制器 492从其他输入 /控制设备获取电信号或者向其他输入 /控制设备发送电信号，其他输入 /控制设备可以包括物理按钮（按压按钮、摇臂按钮等）、拨号盘、滑动开关、操級杆、点击滚轮。值得说明的是，输入控制器 492可以与以下任一个连接：键盘、红外端口、 USB接口以及诸如鼠标的指示设备。所述 I/O子系统 49中的显示控制器 491从触控屏 41获取电信号或者向触控屏 41发送电信号。触控屏 41获取触控屏上的接触显示控制器 491将获取到的接触转换为与呈现在触控屏 41上的用户界面对象的交互，即实现人机交互，呈现在触控屏 41上的用户界面对象可以是运行游戏的图标、联网到相应网络的图标、筛选模式等。值得说明的是，设备还可以包括光鼠，光鼠是不呈现可视输出的触摸敏感表面，或者是由触控屏形成的触摸敏感表面的延伸。

麦克风 48获取大屏设备的获取语音数据，通过所述外设接口 46和所述音频电路 47将所述语音数据送入 CUP43, CPU43可用于处理所述语音数据，并根据该语音数据获取噪声场景和第一置信度值；根据所述噪声场景和存储器 42 预先存储的置信度值调整值的经验数据，调整第一置信度值，获取第二置信度值，如果所述第二置信度值大于或者等于预先存储的置信度阈值，则处理所述语音数据。

本发明技术方案提供了一种语音识別的手机,该手机通过获取噪声场景，并根据预先存储的置信度值调整值的经验数据和所述噪声场景，获取第二置信度值。这种根据噪声场景，灵活调整置信度值的手机，大大提升了噪声环境下的语音识別率。通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明实施例可以用硬件实现，或固件实现，或它们的组合方式来实现。当使用软件实现时，可以将上述功能存储在装置可读介质中或作为装置可读介质上的一个或多个指令或代码进行传输。装置可读介质包括装置存储介质和通信介质，可选的通信介质包括便于从一个地方向另一个地方传送装置程序的任何介质。存储介质可以是装置能够存取的任何可用介质。以此为例但不限于：装置可读介质可以包括 RAM、 ROM, EEPROM、 CD-ROM或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由装置存取的任何其他介质。此外。任何连接可以适当的成为装置可读介质。例如，如果软件是使用同轴电缆、光纤光缆、双绞线、数字用户线（DSL) 或者诸如红外线、无线电和微波之类的无线技术从网站、服务器或者其他远程源传输的，那么同轴电缆、光纤光缆、双绞线、 DSL 或者诸如红外线、无线和微波之类的无线技术包括在所属介质的定影中。如本发明实施例所使用的，盘（Disk) 和碟（disc) 包括压缩光碟（CD)、激光碟、光碟、数字通用光碟（DVD)、软盘和蓝光光碟，可选的盘通常磁性的复制数据，而碟则用激光来光学的复制数据。上面的組合也应当包括在装置可读介质的保护范围之内。总之，以上所述仅为本发明技术方案的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

权利要求书

1，一种语音识別方法，其特征在于，所述方法包括：获取语音数据；

根据所述语音数据，获取第一置信度值；

根据所述语音数据，获取噪声场景；根据所述第一置信度值，获取与所述噪声场景对应的第二置信度值；如果所述第二置信度值大于或者等于预先存储的置信度阈值，则处理所述语音数据。

2, 根据权利要求 1所述的方法，其特征在于，所述噪声场景具体包括：噪声类型；

噪声大小。

3，根据权利要求 2所述的方法，其特征在于，所述噪声场景包括噪声类型，所述根据语音数据获取噪声场景，具体包括：

根据所述语音数据，获取所述语音数据中的噪声的频率倒谱系数；根据所述噪声的频率倒谱系数和预先建立的噪声类型模型，获取所述语音数据的噪声类型。

4，根据权利要求 3所述的方法，其特征在于，所述噪声类型模型的建立方法具体包括：

获取噪声数据；

根据所述噪声数据，获取所述噪声数据的频率倒谱系数；

根据 EM算法处理所述频率倒谱系数，建立所述噪声类型模型。

5，根据权利要求 3或 4所述的方法，其特征在于，所述噪声类型模型是，高斯混合模型。

6，根据权利要求 2所述的方法，其特征在于，所述噪声场景包括噪声大小，所述根据语音数据获取噪声场景，具体包括：

根据所述语音数据，获取所述语音数据的特征参数；根据所述特征参数，进行语音激活检测；

根据所述语音激活检测的结果，获取所述噪声大小。

7，根据权利要求 2或者 6所述的方法，其特征在于，所述噪声大小具体包括：

信噪比；噪声能量水平。

8，根据权利要求 1至 7任一项所述的方法，其特征在于，所述根据第一置信度值，获取与所述噪声场景对应的第二置信度值，具体包括：

根据所述噪声场景和预先存储的置信度值调整值的经验数据的对应关系，获取与所述噪声场景对应的置信度值调整值；

其中，所述调整包括：调大、调小、保持不变。

9，根据权利要求 1至 8任一项所述的方法，其特征在于，所述方法还包括：如果所述第二置信度值小于所述置信度阈值，则提示用户。

10，一种语音识別装置，其特征在于，所述装置包括：获取单元，用于获取语音数据；

第一置信度值单元，用于接收所述获取单元获取的所述语音数据，并根据所述语音数据获取第一置信度值；

噪声场景单元，用于接收所述获取单元获取的所述语音数据，并根据所述语音数据获取噪声场景；

第二置信度值单元，用于接收所述噪声场景单元的所述噪声场景和所述第一置信度值单元的所述第一置信度值，并根据所述第一置信度值，获取与所述噪声场景对应的第二置信度值；

处理单元，用于接收所述第二置信度值单元获取的所述第二置信度值，如果所述第二置信度值大于或者等于预先存储的置信度阈值，则处理所述语音数据。

11，根据权利要求 10所述的装置，其特征在于，所述装置还包括：建模单元，用于获取噪声数据，根据所述噪声数据，获取所述噪声数据的频率倒谱系数，根据 EM算法处理所述频率倒谱系数，建立噪声类型模型。

12，根据权利要求 11所述的装置，其特征在于，所述噪声场景单元具体包括：

噪声类型单元，用于根据所述获取单元的所述语音数据，获取所述语音数据中的噪声的频率倒谱系数，根据所述噪声的频率倒谱系数和所述建模单元的所述噪声类型模型，获取所述语音数据的噪声类型。

13，根据权利要求 10至 12任一项所述的方法，其特征在于，所述噪声场景单元还包括：

噪声大小单元，用于根据所述获取单元的语音数据，获取所述语音数据的特征参数，根据所述特征参数，进行语音激活检测，根据所述语音激活检测的结果，获取所述噪声大小。

14，根据权利要求 10至 13任一项所述的方法，其特征在于，所述装置还包括：

存储单元，用于存储的置信度阈值和置信度值调整值的经验数据。

15，根据权利要求 14所述的方法，其特征在于，所述第二置信度值单元具体用于，

其中，所述调整包括：调大、调小、保持不变。

16，一种移动终端，包括处理器、麦克风，其特征在于，所述麦克风，用于获取语音数据；

所述处理器，用于根据所述语音数据，获取第一置信度值，根据所述语音数据，获取噪声场景，根据所述第一置信度值，获取与所述噪声场景对应的第二置信度值，如果所述第二置信度值大于或者等于预先存储的置信度阈值，则处理所述语音数据。

17，根据权利要求 16所述的移动终端，其特征在于，所述移动终端还包括：存储器，用于存储置信度值调整值的经验数据和所述置信度阈值。

18，根据权利要求 17所述的移动终端，其特征在于，所述处理器具体用于，根据所述语音数据，获取第一置信度值；

根据所述语音数据，获取噪声场景；

如果所述第二置信度值大于或者等于所述置信度阈值，则处理所述语音数据。