WO2013075557A1 - 实现语音智能索引的数据处理设备、系统及方法 - Google Patents

实现语音智能索引的数据处理设备、系统及方法 Download PDF

Info

Publication number
WO2013075557A1
WO2013075557A1 PCT/CN2012/082998 CN2012082998W WO2013075557A1 WO 2013075557 A1 WO2013075557 A1 WO 2013075557A1 CN 2012082998 W CN2012082998 W CN 2012082998W WO 2013075557 A1 WO2013075557 A1 WO 2013075557A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
word
sentence
model
voice
Prior art date
Application number
PCT/CN2012/082998
Other languages
English (en)
French (fr)
Inventor
高精鍊
高杰
陆华兴
Original Assignee
广东国笔科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 广东国笔科技股份有限公司 filed Critical 广东国笔科技股份有限公司
Publication of WO2013075557A1 publication Critical patent/WO2013075557A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Abstract

本发明提供了一种实现语音智能索引的数据处理设备。该数据处理设备根据用户自身的声音特点预先制定声音识别模型,并在声音识别模型和数字化的字、词、句之间建立映射联系,保证了声音识别的精确性,同时,实现了声音与数字化的字、词、句之间的精确转换联系,保证了从声音到索引结果呈现的自动性、精确性。本发明还提供一种实现语音智能索引的系统及方法。

Description

实现语音智能索引的数据处理设备、 系统及方法 技术领域
本发明涉及一种数据索引技术, 尤其涉及一种实现语音智能索引的数据处理设备、 系统 及方法。
背景技术
目前, 人们已经注意到将声音识别技术运用到诸如手机、 计算机、 导航仪器等电子设备 中的必要性。 例如, 当人们在做某一件无法完全解放双手的事情时, 其很可能同时需要对手 机、 计算机、 导航仪器等电子设备进行操作, 依靠传统的手动操作显然不能满足需要。
比较先进的技术方案也已经提出, 例如, 很多公司提出了声音的 "云识别计算"概念, 通过对海量样本人群的声音样本研究, 利用云端服务器群的高存储容量, 高处理速度, 对云 客户端提供语音识别服务。 然而, 即使是这种比较先进的声音云识别技术也无法克服不同的 人、 不同的语调、 不同的音品音色、 不同的语言习惯等因素的制约, 也就是说, 现有技术还 不存在一种普遍适用的、 识别精度高的、 使用代价低的声音识别技术方案, 尤其是无法克服 自由移动的、 用户群纷繁复杂的手机、 平板电脑等的高精度、 低代价的声音识别。
发明内容
鉴于以上内容, 有必要提供一种实现语音智能索引的数据处理设备, 以根据数据处理设 备用户自身的声音特点进行特定化识别, 进而保证声音识别的精确性, 同时, 实现声音与数 字化的字、 词、 句之间的精确转换联系, 保证从声音到索引结果呈现的自动性、 精确性。
此外, 还有必要提供一种实现语音智能索引的方法, 以根据数据处理设备用户自身的声 音特点进行特定化识别, 进而保证声音识别的精确性, 同时, 实现声音与数字化的字、 词、 句之间的精确转换联系, 保证从声音到索引结果呈现的自动性、 精确性。
此外, 还有必要提供一种实现语音智能索引的系统, 以根据数据处理设备用户自身的声 音特点进行特定化识别, 进而保证声音识别的精确性, 同时, 实现声音与数字化的字、 词、 句之间的精确转换联系, 保证从声音到索引结果呈现的自动性、 精确性。
一种实现语音智能索引的数据处理设备, 该数据处理设备包括声音接收单元、 输入 /输 出单元、 存储单元、 处理单元。 该声音接收单元用于侦测和接收从一个或多个音源传来的声 音。 该输入 /输出单元用于提供人机交互界面, 以供用户输入指令, 且输出显示数据处理设 备对用户指令的响应数据。 该存储单元用于存储声音识别索引系统, 及该声音识别索引系统 的运行数据。 该处理单元用于调用并执行该声音识别索引系统, 以执行以下步骤: A、 生成 并储存声音匹配模型; B、 控制声音接收单元侦测并接收指令声音, 生成指令声音声学特征 的观察值序列; C、 在存储的声音匹配模型中, 对观察值序列进行比对; D、 找出与观察值 序列最大相似度的声音匹配模型, 根据找出的声音匹配模型确定观察值序列对应的字、 词或 句; E、 根据确定的字、 词或句进行本机检索或者网络检索, 并将检索结果通过输入 /输出单 元进行显示。
一种实现语音智能索引的方法, 适用于数据处理设备, 该数据处理设备提供声音接收单 元、 输入 /输出单元、 存储单元、 处理单元。 该方法包括步骤: il、 生成并储存声音匹配模 型; i2、 控制声音接收单元侦测并接收指令声音, 生成指令声音声学特征的观察值序列; i3、 在存储的声音匹配模型中, 对观察值序列进行比对; i4、 找出与观察值序列最大相似度 的声音匹配模型, 根据找出的声音匹配模型确定观察值序列对应的字、 词或句; i5、 根据确 定的字、 词或句进行本机检索或者网络检索, 并将检索结果通过输入 /输出单元进行显示。
一种实现语音智能索引的系统, 运行于数据处理设备, 该数据处理设备提供声音接收单 元、 输入 /输出单元、 存储单元、 处理单元。 该系统包括: 声音匹配数据库; 声音识别模 块, 用于生成声音匹配模型, 并将生成的声音匹配模型存储进声音匹配数据库, 控制声音接 收单元侦测并接收指令声音, 生成指令声音声学特征的观察值序列, 在声音匹配数据库存储 的声音匹配模型中, 对观察值序列进行比对以找出与观察值序列最大相似度的声音匹配模 型, 根据找出的声音匹配模型确定观察值序列对应的字、 词或句; 目标索引模块, 用于根据 确定的字、 词或句进行本机检索或者网络检索, 并将检索结果通过输入 /输出单元进行显 示。
相较现有技术, 本发明根据数据处理设备用户自身的声音特点预先制定声音识别模型, 并在声音识别模型和数字化的字、 词、 句之间建立映射联系, 保证了声音识别的精确性, 同 时, 实现了声音与数字化的字、 词、 句之间的精确转换联系, 保证了从声音到索引结果呈现 的自动性、 精确性。
附图说明
图 1为本发明声音识别索引系统较佳实施例的运行环境图。
图 2为图 1中声音识别索引系统 101的功能模块图。
图 3为图 1中声音识别模块 1010的子功能模块例图。
图 4为本发明声音识别索引方法较佳实施例的具体实施流程图。
图 5为图 4中步骤 S10的细化流程图。
图 6为图 4中步骤 S10的字、 词或句设置示例图。 具体实》式
如图 1所示, 为本发明声音识别索引系统较佳实施例的运行环境图。 该声音识别索引系 统 101运行于数据处理设备 10中。 所述数据处理设备 10可以是手机、 平板电脑、 个人数字 助理 (Personal Digital Assistant, PDA) 或其他任意适用的数据处理设备。 所述数据处理设 备 10包括声音接收单元 105, 输入 /输出单元 104, 存储单元 103, 及处理单元 102。
该声音接收单元 105, 用于侦测和接收从一个或多个音源传来的声音。
该输入 /输出单元 104, 用于提供人机交互界面, 以供用户输入指令, 且输出显示数据处 理设备 10对用户指令的响应数据。 该输入 /输出单元 105包括输入单元和输出单元。 在本实 施例中, 所述输入单元为触控输入单元, 用于在所述人机交互界面的触控感应区的触控式输 入; 所述输出单元为带触控面板的输出显示单元。 在本发明的其他实施例中, 所述输入单元 可以为其他类型的输入部件 (例如, 键盘), 所述输出单元可以为其他类型的输出部件 (例 如, 不带触控面板的液晶输出显示屏)。
该存储单元 103, 用于存储该声音识别索引系统 101, 及该声音识别索引系统 101 的运 行数据。
该处理单元 102, 用于调用并执行该声音识别索引系统 101, 以实现对数据处理设备 10 周边可感测声音的识别与字、 词、 句转化, 并进而实现目标对象的索引。
如图 2所示, 为图 1中声音识别索引系统 101的功能模块图。 该声音识别索引系统 101 包括声音识别模块 1010, 声音匹配数据库 1012, 目标索引模块 1011 及语义关联数据库 1013。
该声音识别模块 1010, 用于生成声音匹配模型, 并将生成的声音匹配模型存储进声音 匹配数据库 1012。
在本发明的第一个实施例中, 该声音识别模块 1010 生成声音匹配模型的步骤包括: A、 设置需匹配的字、 词或句; B、 控制声音接收单元 105 侦测并接收设置的字、 词或句对 应的声音; C、 将接收的声音的声学特征反应到声学模型的参数上, 以生成与设置的字、 词 或句映射的声音匹配模型。 该步骤 A 的实现方式有多种, 例如, 一种方式是: 提供一个参 数设置界面 1006, 以设置需匹配的字、 词或句 (如图 6例图所示, 参数设置界面 1006包括 需匹配的字、 词或句设置选项 1007)。 该步骤 C的实现方式有多种, 例如, 一种方式是: 声 学模型设为隐式马尔科夫模型 (HMM); 将接收的声音划分成由固定范围毫秒 (例如: 10— 20 msec) 组成的帧; 倒频谱运算逐帧数据, 以生成倒频谱的时间序列; 将生成的倒频谱时 间序列反应到 HMM模型的参数上, 以生成与设置的字、 词或句映射的声音匹配模型。
在本发明的第二个实施例中, 该声音识别模块 1010生成声音匹配模型的步骤包括: a、 设置练习次数, 及练习的字、 词或句; b、 控制声音接收单元 105 侦测并接收练习的字、 词 或句对应的练习声音; c、 将接收的练习声音的声学特征反应到声学模型的参数上, 以生成 与练习的字、 词或句映射的声音练习模型; d、 重复步骤 b 和 c, 直到练习次数达到设置的 练习次数; e、 拟合生成的声音练习模型, 以获得与练习的字、 词或句映射的声音匹配模 型。 该步骤 a的实现方式有多种, 例如, 一种方式是: 提供一个练习参数设置界面, 以设置 练习次数, 及练习的字、 词或句 (如图 7例图所示, 练习参数设置界面 1003包括练习次数 设置选项 1004及练习的字、 词或句设置选项 1005)。 该步骤 c 的实现方式有多种, 例如, 一种方式是: 声学模型设为隐式马尔科夫模型 (HMM); 将接收的练习声音划分成由固定范 围毫秒 (例如: 10— 20 msec ) 组成的帧; 倒频谱运算逐帧数据, 以生成倒频谱的时间序 列; 将生成的倒频谱时间序列反应到 HMM模型的参数上, 以生成与练习的字、 词或句映射 的声音练习模型。 该步骤 e的实现方式有多种, 例如, 一种方式是: 拟合方法设为曲线拟合 法, 将同一个特征参数的多个参考值取平均, 最大和最小的参考值作为偏差。
上述第一个实施例和第二个实施例是非穷举性的, 本领域技术人员当知, 参照所述两个 实施例能轻易想到的任何其他实施例都属于支持本技术方案的实施例。
该声音识别模块 1010, 还用于控制声音接收单元 105 侦测并接收指令声音, 生成指令 声音声学特征的观察值序列, 在声音匹配数据库 1012存储的声音匹配模型中, 对观察值序 列进行比对以找出与观察值序列最大相似度的声音匹配模型, 根据找出的声音匹配模型确定 观察值序列对应的字、 词或句。 在采用 HMM 模型时, 所述观察值序列是倒频谱的时间序 列。
该目标索引模块 1011, 用于根据确定的字、 词或句进行本机检索或者网络检索, 并将 检索结果通过输入 /输出单元 104进行显示。 在本实施例中, 该语义关联数据库 1013预先存 储有字、 词的关联组, 例如, 相同语义、 相近语义的字、 词组成的关联组; 该目标索引模块 1011首先根据确定的字、 词在该语义关联数据库 1013找出关联组, 根据找出的关联组进行 本机检索或者网络检索, 若该语义关联数据库 1013 未找出关联组, 则仅根据确定的字、 词 进行本机检索或者网络检索; 该目标索引模块 1011 首先对确定的句进行字、 词切分, 然后 根据切分的字、 词在该语义关联数据库 1013 找出关联组, 根据找出的关联组进行本机检索 或者网络检索, 若该语义关联数据库 1013 未找出关联组, 则仅根据切分的字、 词进行本机 检索或者网络检索, 现有技术存在多种对整句进行字、 词切分的技术, 在此, 不做赘述。 在 本发明的其他实施例中, 该语义关联数据库 1013 是非必要的技术特征, 该目标索引模块 1011仅根据确定的字、 词或句进行本机检索或者网络检索。
图 3为图 1 中声音识别模块 1010的子功能模块图。 该子功能模块图适用于上述第一个 实施例和第二个实施例中的 HMM模型。 该声音识别模块 1010包括参数设置子模块 1017, 逐帧分割子模块 1014, 倒频谱运算子模块 1015, 声音匹配子模块 1016。
该参数设置子模块 1017, 用于设置声音识别参数, 包括需匹配的字、 词或句。 在上述 第一个实施例中, 该参数设置子模块 1017提供一个参数设置界面 (如图 6所示的参数设置 界面 1006), 用于设置需匹配的字、 词或句。 在上述第二个实施例中, 该参数设置子模块 1017提供一个练习参数设置界面 (如图 7所示的练习参数设置界面 1003)。
该逐帧分割子模块 1014, 用于控制声音接收单元 105 侦测并接收练习的字、 词或句对 应的练习声音, 将接收的声音划分成由固定范围毫秒 (例如: 10— 20 msec) 组成的帧。
该倒频谱运算子模块 1015, 用于倒频谱运算逐帧数据以生成倒频谱的时间序列。
在上述第一个实施例中, 该声音匹配子模块 1016, 用于将生成的倒频谱时间序列反应 到 HMM模型的参数上, 以生成与需匹配的字、 词或句映射的声音匹配模型。
在上述第二个实施例中, 该声音匹配子模块 1016, 用于将生成的倒频谱时间序列反应 到 HMM模型的参数上, 以生成与需匹配的字、 词或句映射的声音练习模型, 判断练习次数 是否达到设定值, 在练习次数达到设定值时, 对生成的所有声音练习模型进行拟合以生成与 需匹配的字、 词或句映射的声音匹配模型, 及判断是否重新设定声音识别参数。
该声音匹配子模块 1016, 还用于在声音匹配数据库 1012存储的声音匹配模型中, 对观 察值序列进行比对以找出与观察值序列最大相似度的声音匹配模型, 根据找出的声音匹配模 型确定观察值序列对应的字、 词或句。
如图 4所示, 为本发明声音识别索引方法较佳实施例的具体实施流程图。 该方法适用于 数据处理设备 10。
以下是结合本实施例逐步实现声音识别, 及数据处理设备 10 的本机检索或者网络检 索。
步骤 S10, 该声音识别模块 1010 生成声音匹配模型, 并将生成的声音匹配模型存储进 声音匹配数据库 1012。
在本发明的第一个实施例中, 该声音识别模块 1010 生成声音匹配模型的步骤包括: A、 设置需匹配的字、 词或句; B、 控制声音接收单元 105 侦测并接收设置的字、 词或句对 应的声音; C、 将接收的声音的声学特征反应到声学模型的参数上, 以生成与设置的字、 词 或句映射的声音匹配模型。
在本发明的第二个实施例中, 该声音识别模块 1010生成声音匹配模型的步骤包括: a、 设置练习次数, 及练习的字、 词或句; b、 控制声音接收单元 105 侦测并接收练习的字、 词 或句对应的练习声音; c、 将接收的练习声音的声学特征反应到声学模型的参数上, 以生成 与练习的字、 词或句映射的声音练习模型; d、 重复步骤 b 和 c, 直到练习次数达到设置的 练习次数; e、 拟合生成的声音练习模型, 以获得与练习的字、 词或句映射的声音匹配模 型。
步骤 Sll, 该声音识别模块 1010控制声音接收单元 105侦测并接收指令声音, 生成指 令声音声学特征的观察值序列。
步骤 S12, 该声音识别模块 1010在声音匹配数据库 1012存储的声音匹配模型中, 对观 察值序列进行比对。
步骤 S13, 该声音识别模块 1010 找出与观察值序列最大相似度的声音匹配模型, 根据 找出的声音匹配模型确定观察值序列对应的字、 词或句。 在采用 HMM模型时, 所述观察值 序列是倒频谱的时间序列。
步骤 S14, 该目标索引模块 1011 根据确定的字、 词或句进行本机检索或者网络检索, 并将检索结果通过输入 /输出单元 104进行显示。
如图 5所示, 为图 4中步骤 S10 的细化流程图。 该细化流程图适用于上述第二个实施 例。
步骤 S20, 该参数设置子模块 1017 设置声音识别参数, 包括练习次数, 及练习的字、 词或句。 如图 7所示的练习参数设置界面 1003。
步骤 S21, 该逐帧分割子模块 1014控制声音接收单元 105侦测并接收练习的字、 词或 句对应的练习声音。
步骤 S22, 该逐帧分割子模块 1014将接收的声音划分成由固定范围毫秒 (例如: 10— 20 msec) 组成的帧。 该倒频谱运算子模块 1015倒频谱运算逐帧数据以生成倒频谱的时间序 列。
步骤 S23, 该声音匹配子模块 1016 生成的倒频谱时间序列反应到 HMM 模型的参数 上, 以生成与练习的字、 词或句映射的声音练习模型。
步骤 S24, 该声音匹配子模块 1016判断练习次数是否达到设定值。
在练习次数未达到设定值时, 返回执行上述步骤 S21 , 或者, 在练习次数达到设定值 时, 转入执行下述步骤 S25。
步骤 S25, 该声音匹配子模块 1016 对生成的所有声音练习模型进行拟合以生成与练习 的字、 词或句映射的声音匹配模型。
步骤 S25, 该声音匹配子模块 1016判断是否重新设定声音识别参数。
在需要重新设定声音识别参数时, 返回执行上述步骤 S20, 或者, 在不需要重新设定声 音识别参数时, 流程结束。 最后所应说明的是, 以上实施例仅用以说明本发明的技术方案而非限制, 尽管参照较佳 实施例对本发明进行了详细说明, 本领域的普通技术人员应当理解, 可以对本发明的技术方 案进行修改或等同替换, 而不脱离本发明技术方案的精神和范围。

Claims

1. 一种实现语音智能索引的数据处理设备, 其特征在于, 该数据处理设备包括: 声音接收单元, 用于侦测和接收从一个或多个音源传来的声音;
输入 /输出单元, 用于提供人机交互界面, 以供用户输入指令, 且输出显示数据处理设备对 用户指令的响应数据;
存储单元, 用于存储声音识别索引系统, 及该声音识别索引系统的运行数据;
处理单元, 用于调用并执行该声音识别索引系统, 以执行以下步骤:
A、 生成并储存声音匹配模型;
B、 控制声音接收单元侦测并接收指令声音, 生成指令声音声学特征的观察值序列;
C 在存储的声音匹配模型中, 对观察值序列进行比对;
D、 找出与观察值序列最大相似度的声音匹配模型, 根据找出的声音匹配模型确定观察值序 列对应的字、 词或句;
E、 根据确定的字、 词或句进行本机检索或者网络检索, 并将检索结果通过输入 /输出单元进 行显示。
2. 如权利要求 1所述实现语音智能索引的数据处理设备, 其特征在于, 所述步骤 A包括: Al、 设置声音识别参数, 包括需匹配的字、 词或句;
A2、 控制声音接收单元侦测并接收设置的字、 词或句对应的声音;
A3、 将接收的声音的声学特征反应到声学模型的参数上, 以生成与设置的字、 词或句映射的 声音匹配模型。
3. 如权利要求 1所述实现语音智能索引的数据处理设备, 其特征在于, 所述步骤 A包括: al、 设置声音识别参数, 包括练习次数, 及练习的字、 词或句;
a2、 控制声音接收单元侦测并接收练习的字、 词或句对应的练习声音;
a3、 将接收的练习声音的声学特征反应到声学模型的参数上, 以生成与练习的字、 词或句映 射的声音练习模型;
a4、 重复步骤 a2和 a3, 直到练习次数达到设置的练习次数;
a5、 拟合生成的声音练习模型, 以获得与练习的字、 词或句映射的声音匹配模型; a6、 分析是否重新设置声音识别参数;
a7、 在重新设置声音识别参数时, 重复执行上述步骤 al至步骤 a6。
4. 如权利要求 2或 3所述实现语音智能索引的数据处理设备, 其特征在于, 所述声学模型 为隐式马尔科夫模型。
5. 如权利要求 3所述实现语音智能索引的数据处理设备, 其特征在于, 所述步骤 A3包括: A3K 将接收的声音划分成由固定范围毫秒组成的帧;
A32、 倒频谱运算逐帧数据, 以生成倒频谱的时间序列;
A33、 将生成的倒频谱时间序列反应到声学模型的参数上, 以生成与设置的字、 词或句映射 的声音匹配模型。
6. 权利要求 3所述实现语音智能索引的数据处理设备, 其特征在于, 所述步骤 a3包括: a3K 将接收的练习声音划分成由固定范围毫秒组成的帧;
a32、 倒频谱运算逐帧数据, 以生成倒频谱的时间序列;
a33、 将生成的倒频谱时间序列反应到声学模型的参数上, 以生成与练习的字、 词或句映射 的声音练习模型。
7. 一种实现语音智能索引的方法, 适用于数据处理设备, 该数据处理设备提供声音接收单 元、 输入 /输出单元、 存储单元、 处理单元, 其特征在于, 该方法包括步骤:
11、 生成并储存声音匹配模型;
12、 控制声音接收单元侦测并接收指令声音, 生成指令声音声学特征的观察值序列;
13、 在存储的声音匹配模型中, 对观察值序列进行比对;
14、 找出与观察值序列最大相似度的声音匹配模型, 根据找出的声音匹配模型确定观察值序 列对应的字、 词或句;
15、 根据确定的字、 词或句进行本机检索或者网络检索, 并将检索结果通过输入 /输出单元 进行显示。
8. 如权利要求 7所述实现语音智能索引的方法, 其特征在于, 所述步骤 i l包括:
111、 设置声音识别参数, 包括需匹配的字、 词或句;
112、 控制声音接收单元侦测并接收设置的字、 词或句对应的声音;
113、 将接收的声音的声学特征反应到声学模型的参数上, 以生成与设置的字、 词或句映射 的声音匹配模型。
9. 如权利要求 7所述实现语音智能索引的方法, 其特征在于, 所述步骤 i l包括:
Ϊ2Κ 设置声音识别参数, 包括练习次数, 及练习的字、 词或句;
122、 控制声音接收单元侦测并接收练习的字、 词或句对应的练习声音;
123、 将接收的练习声音的声学特征反应到声学模型的参数上, 以生成与练习的字、 词或句 映射的声音练习模型;
124、 重复步骤 i22和 i23, 直到练习次数达到设置的练习次数;
125、 拟合生成的声音练习模型, 以获得与练习的字、 词或句映射的声音匹配模型; 126、 分析是否重新设置声音识别参数;
127、 在重新设置声音识别参数时, 重复执行上述步骤 i21至步骤 i26。
10. 如权利要求 8或 9所述实现语音智能索引的方法, 其特征在于, 所述声学模型为隐式马 尔科夫模型。
11. 如权利要求 10所述实现语音智能索引的方法, 其特征在于, 所述步骤 i l3包括:
1131、 将接收的声音划分成由固定范围毫秒组成的帧;
1132、 倒频谱运算逐帧数据, 以生成倒频谱的时间序列;
1133、 将生成的倒频谱时间序列反应到声学模型的参数上, 以生成与设置的字、 词或句映射 的声音匹配模型。
12. 如权利要求 10所述实现语音智能索引的方法, 其特征在于, 所述步骤 i23包括: Ϊ23Κ 将接收的练习声音划分成由固定范围毫秒组成的帧;
1232、 倒频谱运算逐帧数据, 以生成倒频谱的时间序列;
1233、 将生成的倒频谱时间序列反应到声学模型的参数上, 以生成与练习的字、 词或句映射 的声音练习模型。
13. 种实现语音智能索引的系统, 运行于数据处理设备, 该数据处理设备提供声音接收单 元、 输入 /输出单元、 存储单元、 处理单元, 特征在于, 该系统包括:
声音匹配数据库;
声音识别模块, 用于生成声音匹配模型, 并将生成的声音匹配模型存储进声音匹配数据库, 控制声音接收单元侦测并接收指令声音, 生成指令声音声学特征的观察值序列, 在声音匹配 数据库存储的声音匹配模型中, 对观察值序列进行比对以找出与观察值序列最大相似度的声 音匹配模型, 根据找出的声音匹配模型确定观察值序列对应的字、 词或句;
目标索引模块, 用于根据确定的字、 词或句进行本机检索或者网络检索, 并将检索结果通过 输入 /输出单元进行显示。
14. 如权利要求 13 所述实现语音智能索引的系统, 其特征在于, 所述声音识别模块生成声 音匹配模型的步骤包括:
设置声音识别参数, 包括需匹配的字、 词或句;
控制声音接收单元侦测并接收设置的字、 词或句对应的声音;
将接收的声音的声学特征反应到声学模型的参数上, 以生成与设置的字、 词或句映射的声音 匹配模型。
15. 如权利要求 13 所述实现语音智能索引的系统, 其特征在于, 所述声音识别模块生成声 音匹配模型的步骤包括: Hl、 设置声音识别参数, 包括练习次数, 及练习的字、 词或句;
H2、 控制声音接收单元侦测并接收练习的字、 词或句对应的练习声音;
H3、 将接收的练习声音的声学特征反应到声学模型的参数上, 以生成与练习的字、 词或句映 射的声音练习模型;
H4、 重复步骤 H2和 H3, 直到练习次数达到设置的练习次数;
H5、 拟合生成的声音练习模型, 以获得与练习的字、 词或句映射的声音匹配模型;
H6、 分析是否重新设置声音识别参数;
H7、 在重新设置声音识别参数时, 重复执行上述步骤 i21至步骤 i26。
PCT/CN2012/082998 2011-11-21 2012-10-16 实现语音智能索引的数据处理设备、系统及方法 WO2013075557A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201110371082.7 2011-11-21
CN2011103710827A CN102521262A (zh) 2011-11-21 2011-11-21 实现语音智能索引的数据处理设备、系统及方法

Publications (1)

Publication Number Publication Date
WO2013075557A1 true WO2013075557A1 (zh) 2013-05-30

Family

ID=46292184

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2012/082998 WO2013075557A1 (zh) 2011-11-21 2012-10-16 实现语音智能索引的数据处理设备、系统及方法

Country Status (2)

Country Link
CN (1) CN102521262A (zh)
WO (1) WO2013075557A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521262A (zh) * 2011-11-21 2012-06-27 广东国笔科技股份有限公司 实现语音智能索引的数据处理设备、系统及方法
CN106530867A (zh) * 2016-11-02 2017-03-22 天津福威科技发展有限公司 一种智能化线上教育培训系统
CN106599284A (zh) * 2016-12-23 2017-04-26 陈勇 音到字的对应生成新原则

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008191581A (ja) * 2007-02-07 2008-08-21 Mitsubishi Electric Corp 音声入力支援方法および装置、ならびにナビゲーションシステム
CN101415259A (zh) * 2007-10-18 2009-04-22 三星电子株式会社 嵌入式设备上基于双语语音查询的信息检索系统及方法
CN102521262A (zh) * 2011-11-21 2012-06-27 广东国笔科技股份有限公司 实现语音智能索引的数据处理设备、系统及方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2137641B1 (en) * 2007-04-13 2015-11-04 Massachusetts Institute of Technology Speech data retrieval apparatus, speech data retrieval method, speech data retrieval program and computer usable medium having computer readable speech data retrieval program embodied therein
CN101510222B (zh) * 2009-02-20 2012-05-30 北京大学 一种多层索引语音文档检索方法
CN102023995B (zh) * 2009-09-22 2013-01-30 株式会社理光 语音检索设备和语音检索方法
US9208776B2 (en) * 2009-10-05 2015-12-08 At&T Intellectual Property I, L.P. System and method for speech-enabled access to media content by a ranked normalized weighted graph

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008191581A (ja) * 2007-02-07 2008-08-21 Mitsubishi Electric Corp 音声入力支援方法および装置、ならびにナビゲーションシステム
CN101415259A (zh) * 2007-10-18 2009-04-22 三星电子株式会社 嵌入式设备上基于双语语音查询的信息检索系统及方法
CN102521262A (zh) * 2011-11-21 2012-06-27 广东国笔科技股份有限公司 实现语音智能索引的数据处理设备、系统及方法

Also Published As

Publication number Publication date
CN102521262A (zh) 2012-06-27

Similar Documents

Publication Publication Date Title
US11132172B1 (en) Low latency audio data pipeline
US11755756B1 (en) Sensitive data management
US11915699B2 (en) Account association with device
US11450313B2 (en) Determining phonetic relationships
US11669300B1 (en) Wake word detection configuration
US9779730B2 (en) Method and apparatus for speech recognition and generation of speech recognition engine
CN109844740B (zh) 跟进话音查询预测
US8121837B2 (en) Adjusting a speech engine for a mobile computing device based on background noise
US9190056B2 (en) Method and apparatus for correcting a word in speech input text
EP4028932A1 (en) Reduced training intent recognition techniques
US20080208594A1 (en) Effecting Functions On A Multimodal Telephony Device
US9594744B2 (en) Speech transcription including written text
US20100228548A1 (en) Techniques for enhanced automatic speech recognition
JP2012037619A (ja) 話者適応化装置、話者適応化方法および話者適応化用プログラム
US11151996B2 (en) Vocal recognition using generally available speech-to-text systems and user-defined vocal training
JP2022531524A (ja) オンデバイスの音声認識モデルの訓練のためのテキストセグメントのオンデバイスの音声合成
US11403462B2 (en) Streamlining dialog processing using integrated shared resources
US11942091B2 (en) Alphanumeric sequence biasing for automatic speech recognition using a grammar and a speller finite state transducer
JP2018063271A (ja) 音声対話装置、音声対話システム、および、音声対話装置の制御方法
WO2013075557A1 (zh) 实现语音智能索引的数据处理设备、系统及方法
US11682318B2 (en) Methods and systems for assisting pronunciation correction
CN112069786A (zh) 文本信息处理方法、装置、电子设备及介质
US20240038251A1 (en) Audio data processing method and apparatus, electronic device, medium and program product
US11829516B1 (en) Automated actions for application policy violations
WO2022271555A1 (en) Early invocation for contextual data processing

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12851384

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12851384

Country of ref document: EP

Kind code of ref document: A1