WO2013075557A1

WO2013075557A1 - 实现语音智能索引的数据处理设备、系统及方法

Info

Publication number: WO2013075557A1
Application number: PCT/CN2012/082998
Authority: WO
Inventors: 高精鍊; 高杰; 陆华兴
Original assignee: 广东国笔科技股份有限公司
Priority date: 2011-11-21
Filing date: 2012-10-16
Publication date: 2013-05-30
Also published as: CN102521262A

Abstract

本发明提供了一种实现语音智能索引的数据处理设备。该数据处理设备根据用户自身的声音特点预先制定声音识别模型，并在声音识别模型和数字化的字、词、句之间建立映射联系，保证了声音识别的精确性，同时，实现了声音与数字化的字、词、句之间的精确转换联系，保证了从声音到索引结果呈现的自动性、精确性。本发明还提供一种实现语音智能索引的系统及方法。

Description

实现语音智能索引的数据处理设备、系统及方法技术领域

本发明涉及一种数据索引技术，尤其涉及一种实现语音智能索引的数据处理设备、系统及方法。

背景技术

目前，人们已经注意到将声音识别技术运用到诸如手机、计算机、导航仪器等电子设备中的必要性。例如，当人们在做某一件无法完全解放双手的事情时，其很可能同时需要对手机、计算机、导航仪器等电子设备进行操作，依靠传统的手动操作显然不能满足需要。

比较先进的技术方案也已经提出，例如，很多公司提出了声音的 "云识别计算"概念，通过对海量样本人群的声音样本研究，利用云端服务器群的高存储容量，高处理速度，对云客户端提供语音识别服务。然而，即使是这种比较先进的声音云识别技术也无法克服不同的人、不同的语调、不同的音品音色、不同的语言习惯等因素的制约，也就是说，现有技术还不存在一种普遍适用的、识别精度高的、使用代价低的声音识别技术方案，尤其是无法克服自由移动的、用户群纷繁复杂的手机、平板电脑等的高精度、低代价的声音识别。

发明内容

鉴于以上内容，有必要提供一种实现语音智能索引的数据处理设备，以根据数据处理设备用户自身的声音特点进行特定化识别，进而保证声音识别的精确性，同时，实现声音与数字化的字、词、句之间的精确转换联系，保证从声音到索引结果呈现的自动性、精确性。

此外，还有必要提供一种实现语音智能索引的方法，以根据数据处理设备用户自身的声音特点进行特定化识别，进而保证声音识别的精确性，同时，实现声音与数字化的字、词、句之间的精确转换联系，保证从声音到索引结果呈现的自动性、精确性。

此外，还有必要提供一种实现语音智能索引的系统，以根据数据处理设备用户自身的声音特点进行特定化识别，进而保证声音识别的精确性，同时，实现声音与数字化的字、词、句之间的精确转换联系，保证从声音到索引结果呈现的自动性、精确性。

一种实现语音智能索引的数据处理设备，该数据处理设备包括声音接收单元、输入 /输出单元、存储单元、处理单元。该声音接收单元用于侦测和接收从一个或多个音源传来的声音。该输入 /输出单元用于提供人机交互界面，以供用户输入指令，且输出显示数据处理设备对用户指令的响应数据。该存储单元用于存储声音识别索引系统，及该声音识别索引系统的运行数据。该处理单元用于调用并执行该声音识别索引系统，以执行以下步骤： A、生成并储存声音匹配模型； B、控制声音接收单元侦测并接收指令声音，生成指令声音声学特征的观察值序列； C、在存储的声音匹配模型中，对观察值序列进行比对； D、找出与观察值序列最大相似度的声音匹配模型，根据找出的声音匹配模型确定观察值序列对应的字、词或句； E、根据确定的字、词或句进行本机检索或者网络检索，并将检索结果通过输入 /输出单元进行显示。

一种实现语音智能索引的方法，适用于数据处理设备，该数据处理设备提供声音接收单元、输入 /输出单元、存储单元、处理单元。该方法包括步骤： il、生成并储存声音匹配模型； i2、控制声音接收单元侦测并接收指令声音，生成指令声音声学特征的观察值序列； i3、在存储的声音匹配模型中，对观察值序列进行比对； i4、找出与观察值序列最大相似度的声音匹配模型，根据找出的声音匹配模型确定观察值序列对应的字、词或句； i5、根据确定的字、词或句进行本机检索或者网络检索，并将检索结果通过输入 /输出单元进行显示。

一种实现语音智能索引的系统，运行于数据处理设备，该数据处理设备提供声音接收单元、输入 /输出单元、存储单元、处理单元。该系统包括：声音匹配数据库；声音识别模块，用于生成声音匹配模型，并将生成的声音匹配模型存储进声音匹配数据库，控制声音接收单元侦测并接收指令声音，生成指令声音声学特征的观察值序列，在声音匹配数据库存储的声音匹配模型中，对观察值序列进行比对以找出与观察值序列最大相似度的声音匹配模型，根据找出的声音匹配模型确定观察值序列对应的字、词或句；目标索引模块，用于根据确定的字、词或句进行本机检索或者网络检索，并将检索结果通过输入 /输出单元进行显示。

相较现有技术，本发明根据数据处理设备用户自身的声音特点预先制定声音识别模型，并在声音识别模型和数字化的字、词、句之间建立映射联系，保证了声音识别的精确性，同时，实现了声音与数字化的字、词、句之间的精确转换联系，保证了从声音到索引结果呈现的自动性、精确性。

附图说明

图 1为本发明声音识别索引系统较佳实施例的运行环境图。

图 2为图 1中声音识别索引系统 101的功能模块图。

图 3为图 1中声音识别模块 1010的子功能模块例图。

图 4为本发明声音识别索引方法较佳实施例的具体实施流程图。

图 5为图 4中步骤 S10的细化流程图。

图 6为图 4中步骤 S10的字、词或句设置示例图。具体实》式

如图 1所示，为本发明声音识别索引系统较佳实施例的运行环境图。该声音识别索引系统 101运行于数据处理设备 10中。所述数据处理设备 10可以是手机、平板电脑、个人数字助理（Personal Digital Assistant, PDA) 或其他任意适用的数据处理设备。所述数据处理设备 10包括声音接收单元 105，输入 /输出单元 104，存储单元 103，及处理单元 102。

该声音接收单元 105，用于侦测和接收从一个或多个音源传来的声音。

该输入 /输出单元 104，用于提供人机交互界面，以供用户输入指令，且输出显示数据处理设备 10对用户指令的响应数据。该输入 /输出单元 105包括输入单元和输出单元。在本实施例中，所述输入单元为触控输入单元，用于在所述人机交互界面的触控感应区的触控式输入；所述输出单元为带触控面板的输出显示单元。在本发明的其他实施例中，所述输入单元可以为其他类型的输入部件（例如，键盘），所述输出单元可以为其他类型的输出部件（例如，不带触控面板的液晶输出显示屏）。

该存储单元 103，用于存储该声音识别索引系统 101，及该声音识别索引系统 101 的运行数据。

该处理单元 102，用于调用并执行该声音识别索引系统 101，以实现对数据处理设备 10 周边可感测声音的识别与字、词、句转化，并进而实现目标对象的索引。

如图 2所示，为图 1中声音识别索引系统 101的功能模块图。该声音识别索引系统 101 包括声音识别模块 1010，声音匹配数据库 1012，目标索引模块 1011 及语义关联数据库 1013。

该声音识别模块 1010，用于生成声音匹配模型，并将生成的声音匹配模型存储进声音匹配数据库 1012。

在本发明的第一个实施例中，该声音识别模块 1010 生成声音匹配模型的步骤包括： A、设置需匹配的字、词或句； B、控制声音接收单元 105 侦测并接收设置的字、词或句对应的声音； C、将接收的声音的声学特征反应到声学模型的参数上，以生成与设置的字、词或句映射的声音匹配模型。该步骤 A 的实现方式有多种，例如，一种方式是：提供一个参数设置界面 1006，以设置需匹配的字、词或句（如图 6例图所示，参数设置界面 1006包括需匹配的字、词或句设置选项 1007)。该步骤 C的实现方式有多种，例如，一种方式是：声学模型设为隐式马尔科夫模型（HMM); 将接收的声音划分成由固定范围毫秒（例如： 10— 20 msec) 组成的帧；倒频谱运算逐帧数据，以生成倒频谱的时间序列；将生成的倒频谱时间序列反应到 HMM模型的参数上，以生成与设置的字、词或句映射的声音匹配模型。

在本发明的第二个实施例中，该声音识别模块 1010生成声音匹配模型的步骤包括： a、设置练习次数，及练习的字、词或句； b、控制声音接收单元 105 侦测并接收练习的字、词或句对应的练习声音； c、将接收的练习声音的声学特征反应到声学模型的参数上，以生成与练习的字、词或句映射的声音练习模型； d、重复步骤 b 和 c，直到练习次数达到设置的练习次数； e、拟合生成的声音练习模型，以获得与练习的字、词或句映射的声音匹配模型。该步骤 a的实现方式有多种，例如，一种方式是：提供一个练习参数设置界面，以设置练习次数，及练习的字、词或句（如图 7例图所示，练习参数设置界面 1003包括练习次数设置选项 1004及练习的字、词或句设置选项 1005)。该步骤 c 的实现方式有多种，例如，一种方式是：声学模型设为隐式马尔科夫模型（HMM); 将接收的练习声音划分成由固定范围毫秒（例如： 10— 20 msec ) 组成的帧；倒频谱运算逐帧数据，以生成倒频谱的时间序列；将生成的倒频谱时间序列反应到 HMM模型的参数上，以生成与练习的字、词或句映射的声音练习模型。该步骤 e的实现方式有多种，例如，一种方式是：拟合方法设为曲线拟合法，将同一个特征参数的多个参考值取平均，最大和最小的参考值作为偏差。

上述第一个实施例和第二个实施例是非穷举性的，本领域技术人员当知，参照所述两个实施例能轻易想到的任何其他实施例都属于支持本技术方案的实施例。

该声音识别模块 1010，还用于控制声音接收单元 105 侦测并接收指令声音，生成指令声音声学特征的观察值序列，在声音匹配数据库 1012存储的声音匹配模型中，对观察值序列进行比对以找出与观察值序列最大相似度的声音匹配模型，根据找出的声音匹配模型确定观察值序列对应的字、词或句。在采用 HMM 模型时，所述观察值序列是倒频谱的时间序列。

该目标索引模块 1011，用于根据确定的字、词或句进行本机检索或者网络检索，并将检索结果通过输入 /输出单元 104进行显示。在本实施例中，该语义关联数据库 1013预先存储有字、词的关联组，例如，相同语义、相近语义的字、词组成的关联组；该目标索引模块 1011首先根据确定的字、词在该语义关联数据库 1013找出关联组，根据找出的关联组进行本机检索或者网络检索，若该语义关联数据库 1013 未找出关联组，则仅根据确定的字、词进行本机检索或者网络检索；该目标索引模块 1011 首先对确定的句进行字、词切分，然后根据切分的字、词在该语义关联数据库 1013 找出关联组，根据找出的关联组进行本机检索或者网络检索，若该语义关联数据库 1013 未找出关联组，则仅根据切分的字、词进行本机检索或者网络检索，现有技术存在多种对整句进行字、词切分的技术，在此，不做赘述。在本发明的其他实施例中，该语义关联数据库 1013 是非必要的技术特征，该目标索引模块 1011仅根据确定的字、词或句进行本机检索或者网络检索。

图 3为图 1 中声音识别模块 1010的子功能模块图。该子功能模块图适用于上述第一个实施例和第二个实施例中的 HMM模型。该声音识别模块 1010包括参数设置子模块 1017，逐帧分割子模块 1014，倒频谱运算子模块 1015，声音匹配子模块 1016。

该参数设置子模块 1017，用于设置声音识别参数，包括需匹配的字、词或句。在上述第一个实施例中，该参数设置子模块 1017提供一个参数设置界面（如图 6所示的参数设置界面 1006)，用于设置需匹配的字、词或句。在上述第二个实施例中，该参数设置子模块 1017提供一个练习参数设置界面（如图 7所示的练习参数设置界面 1003)。

该逐帧分割子模块 1014，用于控制声音接收单元 105 侦测并接收练习的字、词或句对应的练习声音，将接收的声音划分成由固定范围毫秒（例如： 10— 20 msec) 组成的帧。

该倒频谱运算子模块 1015，用于倒频谱运算逐帧数据以生成倒频谱的时间序列。

在上述第一个实施例中，该声音匹配子模块 1016，用于将生成的倒频谱时间序列反应到 HMM模型的参数上，以生成与需匹配的字、词或句映射的声音匹配模型。

在上述第二个实施例中，该声音匹配子模块 1016，用于将生成的倒频谱时间序列反应到 HMM模型的参数上，以生成与需匹配的字、词或句映射的声音练习模型，判断练习次数是否达到设定值，在练习次数达到设定值时，对生成的所有声音练习模型进行拟合以生成与需匹配的字、词或句映射的声音匹配模型，及判断是否重新设定声音识别参数。

该声音匹配子模块 1016，还用于在声音匹配数据库 1012存储的声音匹配模型中，对观察值序列进行比对以找出与观察值序列最大相似度的声音匹配模型，根据找出的声音匹配模型确定观察值序列对应的字、词或句。

如图 4所示，为本发明声音识别索引方法较佳实施例的具体实施流程图。该方法适用于数据处理设备 10。

以下是结合本实施例逐步实现声音识别，及数据处理设备 10 的本机检索或者网络检索。

步骤 S10，该声音识别模块 1010 生成声音匹配模型，并将生成的声音匹配模型存储进声音匹配数据库 1012。

在本发明的第一个实施例中，该声音识别模块 1010 生成声音匹配模型的步骤包括： A、设置需匹配的字、词或句； B、控制声音接收单元 105 侦测并接收设置的字、词或句对应的声音； C、将接收的声音的声学特征反应到声学模型的参数上，以生成与设置的字、词或句映射的声音匹配模型。

在本发明的第二个实施例中，该声音识别模块 1010生成声音匹配模型的步骤包括： a、设置练习次数，及练习的字、词或句； b、控制声音接收单元 105 侦测并接收练习的字、词或句对应的练习声音； c、将接收的练习声音的声学特征反应到声学模型的参数上，以生成与练习的字、词或句映射的声音练习模型； d、重复步骤 b 和 c，直到练习次数达到设置的练习次数； e、拟合生成的声音练习模型，以获得与练习的字、词或句映射的声音匹配模型。

步骤 Sll，该声音识别模块 1010控制声音接收单元 105侦测并接收指令声音，生成指令声音声学特征的观察值序列。

步骤 S12，该声音识别模块 1010在声音匹配数据库 1012存储的声音匹配模型中，对观察值序列进行比对。

步骤 S13，该声音识别模块 1010 找出与观察值序列最大相似度的声音匹配模型，根据找出的声音匹配模型确定观察值序列对应的字、词或句。在采用 HMM模型时，所述观察值序列是倒频谱的时间序列。

步骤 S14，该目标索引模块 1011 根据确定的字、词或句进行本机检索或者网络检索，并将检索结果通过输入 /输出单元 104进行显示。

如图 5所示，为图 4中步骤 S10 的细化流程图。该细化流程图适用于上述第二个实施例。

步骤 S20，该参数设置子模块 1017 设置声音识别参数，包括练习次数，及练习的字、词或句。如图 7所示的练习参数设置界面 1003。

步骤 S21，该逐帧分割子模块 1014控制声音接收单元 105侦测并接收练习的字、词或句对应的练习声音。

步骤 S22，该逐帧分割子模块 1014将接收的声音划分成由固定范围毫秒（例如： 10— 20 msec) 组成的帧。该倒频谱运算子模块 1015倒频谱运算逐帧数据以生成倒频谱的时间序列。

步骤 S23，该声音匹配子模块 1016 生成的倒频谱时间序列反应到 HMM 模型的参数上，以生成与练习的字、词或句映射的声音练习模型。

步骤 S24，该声音匹配子模块 1016判断练习次数是否达到设定值。

在练习次数未达到设定值时，返回执行上述步骤 S21 , 或者，在练习次数达到设定值时，转入执行下述步骤 S25。

步骤 S25，该声音匹配子模块 1016 对生成的所有声音练习模型进行拟合以生成与练习的字、词或句映射的声音匹配模型。

步骤 S25，该声音匹配子模块 1016判断是否重新设定声音识别参数。

在需要重新设定声音识别参数时，返回执行上述步骤 S20，或者，在不需要重新设定声音识别参数时，流程结束。最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1. 一种实现语音智能索引的数据处理设备，其特征在于，该数据处理设备包括：声音接收单元，用于侦测和接收从一个或多个音源传来的声音；

输入 /输出单元，用于提供人机交互界面，以供用户输入指令，且输出显示数据处理设备对用户指令的响应数据；

存储单元，用于存储声音识别索引系统，及该声音识别索引系统的运行数据；

处理单元，用于调用并执行该声音识别索引系统，以执行以下步骤：

A、生成并储存声音匹配模型；

B、控制声音接收单元侦测并接收指令声音，生成指令声音声学特征的观察值序列；

C 在存储的声音匹配模型中，对观察值序列进行比对；

D、找出与观察值序列最大相似度的声音匹配模型，根据找出的声音匹配模型确定观察值序列对应的字、词或句；

E、根据确定的字、词或句进行本机检索或者网络检索，并将检索结果通过输入 /输出单元进行显示。

2. 如权利要求 1所述实现语音智能索引的数据处理设备，其特征在于，所述步骤 A包括： Al、设置声音识别参数，包括需匹配的字、词或句；

A2、控制声音接收单元侦测并接收设置的字、词或句对应的声音；

A3、将接收的声音的声学特征反应到声学模型的参数上，以生成与设置的字、词或句映射的声音匹配模型。

3. 如权利要求 1所述实现语音智能索引的数据处理设备，其特征在于，所述步骤 A包括： al、设置声音识别参数，包括练习次数，及练习的字、词或句；

a2、控制声音接收单元侦测并接收练习的字、词或句对应的练习声音；

a3、将接收的练习声音的声学特征反应到声学模型的参数上，以生成与练习的字、词或句映射的声音练习模型；

a4、重复步骤 a2和 a3，直到练习次数达到设置的练习次数；

a5、拟合生成的声音练习模型，以获得与练习的字、词或句映射的声音匹配模型； a6、分析是否重新设置声音识别参数；

a7、在重新设置声音识别参数时，重复执行上述步骤 al至步骤 a6。

4. 如权利要求 2或 3所述实现语音智能索引的数据处理设备，其特征在于，所述声学模型为隐式马尔科夫模型。

5. 如权利要求 3所述实现语音智能索引的数据处理设备，其特征在于，所述步骤 A3包括： A3K 将接收的声音划分成由固定范围毫秒组成的帧；

A32、倒频谱运算逐帧数据，以生成倒频谱的时间序列；

A33、将生成的倒频谱时间序列反应到声学模型的参数上，以生成与设置的字、词或句映射的声音匹配模型。

6. 权利要求 3所述实现语音智能索引的数据处理设备，其特征在于，所述步骤 a3包括： a3K 将接收的练习声音划分成由固定范围毫秒组成的帧；

a32、倒频谱运算逐帧数据，以生成倒频谱的时间序列；

a33、将生成的倒频谱时间序列反应到声学模型的参数上，以生成与练习的字、词或句映射的声音练习模型。

7. 一种实现语音智能索引的方法，适用于数据处理设备，该数据处理设备提供声音接收单元、输入 /输出单元、存储单元、处理单元，其特征在于，该方法包括步骤：

11、生成并储存声音匹配模型；

12、控制声音接收单元侦测并接收指令声音，生成指令声音声学特征的观察值序列；

13、在存储的声音匹配模型中，对观察值序列进行比对；

14、找出与观察值序列最大相似度的声音匹配模型，根据找出的声音匹配模型确定观察值序列对应的字、词或句；

15、根据确定的字、词或句进行本机检索或者网络检索，并将检索结果通过输入 /输出单元进行显示。

8. 如权利要求 7所述实现语音智能索引的方法，其特征在于，所述步骤 i l包括：

111、设置声音识别参数，包括需匹配的字、词或句；

112、控制声音接收单元侦测并接收设置的字、词或句对应的声音；

113、将接收的声音的声学特征反应到声学模型的参数上，以生成与设置的字、词或句映射的声音匹配模型。

9. 如权利要求 7所述实现语音智能索引的方法，其特征在于，所述步骤 i l包括：

Ϊ2Κ 设置声音识别参数，包括练习次数，及练习的字、词或句；

122、控制声音接收单元侦测并接收练习的字、词或句对应的练习声音；

123、将接收的练习声音的声学特征反应到声学模型的参数上，以生成与练习的字、词或句映射的声音练习模型；

124、重复步骤 i22和 i23，直到练习次数达到设置的练习次数；

125、拟合生成的声音练习模型，以获得与练习的字、词或句映射的声音匹配模型； 126、分析是否重新设置声音识别参数；

127、在重新设置声音识别参数时，重复执行上述步骤 i21至步骤 i26。

10. 如权利要求 8或 9所述实现语音智能索引的方法，其特征在于，所述声学模型为隐式马尔科夫模型。

11. 如权利要求 10所述实现语音智能索引的方法，其特征在于，所述步骤 i l3包括：

1131、将接收的声音划分成由固定范围毫秒组成的帧；

1132、倒频谱运算逐帧数据，以生成倒频谱的时间序列；

1133、将生成的倒频谱时间序列反应到声学模型的参数上，以生成与设置的字、词或句映射的声音匹配模型。

12. 如权利要求 10所述实现语音智能索引的方法，其特征在于，所述步骤 i23包括： Ϊ23Κ 将接收的练习声音划分成由固定范围毫秒组成的帧；

1232、倒频谱运算逐帧数据，以生成倒频谱的时间序列；

1233、将生成的倒频谱时间序列反应到声学模型的参数上，以生成与练习的字、词或句映射的声音练习模型。

13. 种实现语音智能索引的系统，运行于数据处理设备，该数据处理设备提供声音接收单元、输入 /输出单元、存储单元、处理单元，特征在于，该系统包括：

声音匹配数据库；

声音识别模块，用于生成声音匹配模型，并将生成的声音匹配模型存储进声音匹配数据库，控制声音接收单元侦测并接收指令声音，生成指令声音声学特征的观察值序列，在声音匹配数据库存储的声音匹配模型中，对观察值序列进行比对以找出与观察值序列最大相似度的声音匹配模型，根据找出的声音匹配模型确定观察值序列对应的字、词或句；

目标索引模块，用于根据确定的字、词或句进行本机检索或者网络检索，并将检索结果通过输入 /输出单元进行显示。

14. 如权利要求 13 所述实现语音智能索引的系统，其特征在于，所述声音识别模块生成声音匹配模型的步骤包括：

设置声音识别参数，包括需匹配的字、词或句；

控制声音接收单元侦测并接收设置的字、词或句对应的声音；

将接收的声音的声学特征反应到声学模型的参数上，以生成与设置的字、词或句映射的声音匹配模型。

15. 如权利要求 13 所述实现语音智能索引的系统，其特征在于，所述声音识别模块生成声音匹配模型的步骤包括： Hl、设置声音识别参数，包括练习次数，及练习的字、词或句；

H2、控制声音接收单元侦测并接收练习的字、词或句对应的练习声音；

H3、将接收的练习声音的声学特征反应到声学模型的参数上，以生成与练习的字、词或句映射的声音练习模型；

H4、重复步骤 H2和 H3，直到练习次数达到设置的练习次数；

H5、拟合生成的声音练习模型，以获得与练习的字、词或句映射的声音匹配模型；

H6、分析是否重新设置声音识别参数；

H7、在重新设置声音识别参数时，重复执行上述步骤 i21至步骤 i26。