Search tools Text Classification Chemistry Measure Numbers Full documents Title Abstract Claims All Any Exact Not Add AND condition These CPCs and their children These exact CPCs Add AND condition
Exact Exact Batch Similar Substructure Substructure (SMARTS) Full documents Claims only Add AND condition
Add AND condition
Application Numbers Publication Numbers Either Add AND condition

语音识别方法及装置

Abstract

一种语音识别方法及装置,包括:获取语音信号对应的候选词串(101);调用领域语言模型,确定所述候选词串在领域语言模型中对应的概率增强系数(102);调用基本语言模型,确定所述候选词串在基本语言模型中的基本匹配概率(103);将所述概率增强系数结合所述基本匹配概率获得所述候选词串的总匹配概率(104);根据各候选词串的总匹配概率,计算各候选词串组成的词序列的概率,并根据概率最高的词序列生成所述语音信号对应的语言文本(105)。上述语音识别方法及装置,综合考虑了基本语言模型中的通用说话习惯,又兼顾了领域语言模型中的特定用词习惯,从而可对语音信号提供更高的识别率。

Classifications

G10L15/06 Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
View 1 more classifications

Landscapes

Show more

WO2017166650A1

WIPO (PCT)

Other languages
English
French
Inventor
王育军

Worldwide applications
2016 CN WO

Application PCT/CN2016/096985 events

Description

语音识别方法及装置
本申请要求于2016年3月30日提交中国专利局、申请号为201610192862.8、发明名称为“语音识别方法及装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本发明涉及语音技术领域,尤其涉及一种语音识别方法及装置。
背景技术
语言模型(Language Model,LM)的目的是建立一个能够描述给定词序列在语言中的出现的概率的分布。在语音识别领域中,语言模型用于识别待识别语音信号对应的词序列。
现有的通过语言模型进行语音信号识别的方法主要有语言模型的插值法和并行解码法:
语言模型的插值法,通过将各个领域对应的领域语言模型插值到基本语言模型中,之后根据插值后的基本语言模型对语音信号进行识别,但是,插值需要时间,相当于需要不断地对整个基本语言模型进行重新训练,更新效率低,无法做到迅速迭代,因此,对语音信号的识别率较低。
并行解码法,基本语言模型和领域语言模型同步执行语音识别,针对用户输入的语音信号,通过比较基本语言模型和领域语言模型中该语音信号出现的概率,将概率较高的语言模型中匹配出的结果作为识别结果,但是,由于通信语言模型和领域语言模型中包含的词序列都不完善,导致用单种语言模型识别语音信号时的识别率较低。
因此,如何提高语言模型对语音信号的识别率成为亟待要解决的技术问题。
发明内容
本发明提供一种语音识别方法及装置,用以解决现有技术中对语音信号的识别率较低的问题。
本发明实施例提供一种语音识别方法,包括:
获取语音信号对应的候选词串;
调用领域语言模型,确定所述候选词串在领域语言模型中对应的增强系数;
调用基本语言模型,确定所述候选词串在基本语言模型中的基本匹配概率;
将所述增强系数结合所述基本匹配概率获得所述候选词串的总匹配概率;
根据各候选词串的总匹配概率,计算各候选词串组成的词序列的概率,并根据概率最高的词序列生成所述语音信号对应的语言文本。
本发明实施例提供一种语音识别装置,包括:
意向分析模块,用于获取语音信号对应的候选词串;
第一识别模块,用于调用领域语言模型,确定所述候选词串在领域语言模型中的增强系数;
第二识别模块,用于调用基本语言模型,确定所述候选词串在基本语言模型中的基本匹配概率;
加值模块,用于将所述增强系数结合所述基本匹配概率获得所述候选词串的总匹配概率;
识别结果生成模块,用于根据各候选词串的总匹配概率,计算各候 选词串组成的词序列的概率,并根据概率最高的词序列生成所述语音信号对应的语言文本。
本发明实施例还提供了一种非易失性计算机可读存储介质,其中,该非易失性计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于执行上述语音识别方法。
本发明实施例还提供了一种电子设备,包括:一个或多个处理器;以及,存储器;其中,所述存储器存储有可被所述一个或多个处理器执行的指令,所述指令被设置为用于执行上述语音识别方法。
本发明实施例还提供了一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述语音识别方法。
本发明实施例提供的语音识别方法及装置,综合考虑了基本语言模型中的通用说话习惯,又兼顾了领域语言模型中的特定用词习惯,从而可对既对应有通用词串又对应有特定词串的语音信号提供更高的识别率;另外,仅需更新领域语言模型即可提高新增词串在语言中的匹配概率,领域语言模型的更新范围小、更新速度快,因此可更快捷地满足用户的语音识别要求,而且,领域语言模型中的增强系数可有效修正基本语言模型对新增词串的识别率低的缺陷,从而提高了语音识别的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的语音识别方法流程图;
图2为本发明实施例提供的语音识别方法实施例流程图;
图3为本发明实施例提供的语音识别方法实施例流程图;
图4为本发明实施例提供的语音识别装置结构示意图;
图5为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的语音识别方法及装置,可应用于语音导航、语音播放控制等场景中。现有的语音识别方法中,通常采用语言模型插值法和并行解码法对语音信号进行词序列的概率估计。以用户输入一段“我要播放芈月传”的语音信号为例,其中,语言模型插值法是将多个领域对应的领域语言模型插值到基本语言模型中,可理解为将多个领域中的用户说话习惯训练到基本语言模型中,这导致基本语言模型变的异常庞大,而且即使对于单个领域内的新增词序也需要对整个基本语言模型进行重新训练,这使得插值训练花费的时间成本高,基本语言模型的更新迭代速度慢,对于新出现的词“芈月传”来说,语言模型插值法需要花费非常长的时间进行插值训练,在此之前其对上述语音信号的识别率会非常低;并行解码法则是通过并行的两条解码路径,分别在基本语言模型和领域语言模型中获取词序列的概率,两路解码路径比较后,将概率高路径识别出的词序列作为识别结果,但由于两类语言模型中包含的词序列都不完善,这就导致基本语言模型对特定词串“芈月传”的识别率低,而领域语言模型对基本的通用词串“我要播放”的识别率低,最终 导致并行解码法对上述语音信号的识别率低。
本发明实施例提供的语音识别方法及装置,正是要解决现有两种语音识别方法的缺陷,通过分别调用基本语言模型和领域语言模型,免去了插值训练所花费的时间成本,而通过综合考虑语音信号对应的候选词串在基本语言模型和领域语言模型中的匹配概率,实现了即兼顾基本语言模型中体现的通用说话习惯,又兼顾了领域语言模型中特定说话习惯,进而实现了对语音信号更优化、更全面、更精准的识别。
需要说明的是,本发明实施例提供的语音识别方法及装置还可应用于其它需要进行语音识别的场景中,本发明对此并不作具体限定。
下面通过具体实施例对本发明技术方案进行详细说明。
参考图1,本发明实施例提供一种语音识别方法,包括:
101,获取语音信号对应的候选词串;
102,调用领域语言模型,确定所述候选词串在领域语言模型中对应的增强系数;
103,调用基本语言模型,确定所述候选词串在基本语言模型中的基本匹配概率;
104,将所述增强系数结合所述基本匹配概率获得所述候选词串的总匹配概率;
105,根据各候选词串的总匹配概率,计算各候选词串组成的词序列的概率,并根据概率最高的词序列生成所述语音信号对应的语言文本。
本实施例提供一种语音识别方法,可由语音识别装置来执行,用以输出语音信号对应的语言文本作为识别结果,提高语音识别的准确率。
具体地,在监听用户输入的语音信号后,根据对该语音信号的声学分析,并在对语音信号的解码过程中进行词假设扩展,以获取到所述语音信号对应的一个或多个候选词串,步骤101可假设出与所述语音信号的 读音匹配概率较高的当前词,例如,用户输入语音“woxiang”后,步骤101可假设出与该语音有可能匹配的“我想”、“我像”、“我向”等等候选词串,而候选词串还可定义为用户接下来有可能说的词与其已经说的词组成的词串,例如,上述场景下,步骤101获取到的候选词串可以是“我想看”、“我想播放”、“我想听”等等;当然,所述候选词串还可通过其它方式或场景进行获取,例如,在用户输入完整的一句话后,对整句话进行解码及声学分析,并假设出该语音信号所对应的词序列,进而从所述词序列的起始符开始将该词序列拆分为多个候选词串,本发明对候选词串的获取方式不作具体限定。
针对步骤101假设出的所述语音信号对应的若干候选词串,步骤102将调用领域语言模型对所述候选词串进行分析。具体地,所述领域语言模型中预存有各候选词串对应的增强系数,步骤102可确定出所述候选词串在领域语言模型中对应的增强系数。
步骤103中,将调用基本语言模型对所述候选词串进行分析,具体地,本发明实施例中可假设所述基本语言模型中包含所有词串在语言中出现的匹配概率,也即任意候选词串均可在基本语言模型中获取到有效的基本匹配概率,对于符合和人类说话习惯或基本语言模型中未收录到的候选词串,也可从基本语言模型中获取到一个极低匹配概率作为有效的基本匹配概率。
步骤104以步骤102和步骤103获得的结果作为参数进行候选词串的总匹配概率的计算,由上文可知,步骤103中可获得所有候选词串的有效的基本匹配概率,而步骤102中通过调用领域语言模型对候选词串进行分析获得的概率增强系数将施加到基本匹配概率上,实质上是通过领域语言模型修正候选词串在基本语言模型中的基本匹配概率,从而获得所述候选词串的更加合理、准确的总匹配概率。
步骤101根据语音信号假设出的若干候选词串的不同组合将对应形成不同的词序列,所述词序列可以是短语、短句或长句,在此不作具体 限定,也就是通过基本语言模型和领域语言模型将获得对应所述语音信号的多种词序列,对于形成的多个词序列,每个词序列的概率都是通过组成该词序列的多个候选词串的总匹配概率的加值而计算获得的,因此,概率越高的词序列代表其与语音信号的匹配度越高,步骤105根据概率最高的词序列生成语言文本并作为语音识别的结果输出。
本发明实施例提供的语音信号识别方法,在进行语音识别时,综合考虑了基本语言模型中的通用说话习惯,又兼顾了领域语言模型中的特定用词习惯,从而可对既对应有通用词串又对应有特定词串的语音信号提供更高的识别率;另外,仅需更新领域语言模型即可提高新增词串在语言中的匹配概率,领域语言模型的更新范围小、更新速度快,因此可更快捷地满足用户的语音识别要求,而且,概率通过领域语言模型中的增强系数可有效修正基本语言模型对新增词串的识别率低的缺陷,从而提高了语音识别的准确率。
参考图2,在一可选实施例中,步骤102获取候选词串在领域语言模型中的增强系数的方式可采用:
1021,根据所述候选词串在所述基本语言模型中对应的一个或多个基本匹配概率,确定所述候选词串在所述基本语言模型中对应的第一匹配概率范围;
1022,根据所述候选词串在所述领域语言模型中对应的一个或多个匹配概率,确定所述候选词串在所述领域语言模型中对应的第二匹配概率范围;
1023,根据所述候选词串在所述基本语言模型中对应的第一匹配概率范围和所述领域语言模型中对应的第二匹配概率范围的分差比值,获得所述候选词串在所述领域语言模型中对应的增强系数。
具体地,针对用户输入的语音信号,步骤101中假设扩展出的一个或多个候选词串在领域语言模型中将分别对应一匹配概率,因此可获得所述领域语言模型的匹配概率范围。为便于计算,本实施例中,以将概率 转换为对数为例进行说明,例如针对用户输入的“bofangmiyue”语音信号,可获取到“播放芈月”的匹配对数为-2,“播放米月”的匹配对数为-3,“播放蜜月”的匹配对数为-5,以及其它候选词串的匹配对数,去掉最高分-1和最低分-6,可获得所述领域语言模型针对所述语音信号的第二匹配对数范围为[-5,-2],其分差为3。
承接上例,在基本语言模型中获取到的“播放米月”的基本匹配对数为-3,“播放蜜月”的基本匹配对数为-9,以及其它候选词串的基本匹配对数,去掉最高分-2和最低分-10,则可获得所述基本语言模型针对所述语音信号的第一匹配对数范围为[-9,-3],其分差为6。
上例中,所述基本语言模型中的基本匹配对数范围和所述领域语言模型中的匹配对数范围的分差比值即为2,将所述匹配对数范围的比值进行反对数运算后可获得一个大于1的增强系数,即为本实施例中最终获取到的所述候选词串在所述领域语言模型中对应的增强系数。当然,本发明实施例中也可直接根据所述候选词串在领域语言模型和基本语言模型中的匹配概率计算分差,并进而获得所述增强系数,本发明对此不作具体限定。
由于所述基本语言模型中可为任意候选词串提供一有效的基本匹配概率,因此,可认为基本语言模型为候选词串提供了一最低匹配概率,正如上文所述,为了实现领域语言模型对基本语言模型的修正作用,本实施例中,可将候选词串在领域语言模型中的大于1的增强系数施加到所述候选词串在基本语言模型中的基本匹配概率上,从而提高所述候选词串的总匹配概率。
例如,候选词串“我要播放芈”在基本语言模型中的基本匹配概率为50%,而其在领域语言模型中的对应的增强系数为1.2,此时,可根据预设规则,将基本匹配概率进行1.2倍的定向增强,从而将候选词串“我要播放芈”的总匹配概率提高为60%。可见,总匹配概率远高于基本匹配概率,从而提高了对该候选词串的识别率。
在此说明,本实施例不限定上述比例或权重的取值,可以根据应用场景适应性设置。
参考图3,在一可选的实施例中,所述确定所述候选词串在领域语言模型中对应的增强系数,可采用回退查询的方式获取所述候选词串在所述领域语言模型中的匹配概率,并根据回退方式查询到的所述匹配概率计算所述候选词串在领域语言模型中对应的增强系数,具体地:
201,查询所述候选词串包含的N元词组是否出现在所述领域语言模型中,如果未出现,则执行202,如果已出现,则执行205;
202,生成对应的惩罚概率,并查询所述候选词串包含的N-i元词组是否出现在所述领域语言模型中,如果所述N-i元词组出现在所述领域语言模型中,则执行203,否则执行204;
203,将所述N-i元词组在所述领域语言模型中的匹配概率与i倍的惩罚概率的差值作为所述候选词串在所述领域语言模型中的匹配概率,并执行205;
204,输入无效的所述候选词串在所述领域语言模型中的增强系数;
205,根据有效的所述候选词串在所述领域语言模型中的匹配概率获得所述候选词串在所述领域语言模型中对应的增强系数。
本实施例中,N、i均为整数,且i<N。
具体地,所述领域语言模型中预存有特定领域或特定场景下特定词串在语言中出现的匹配概率,例如,播放控制场景对应的领域语言模型中预存有“播放芈月传”、“观看甄嬛传”等等特定词串在语言中出现的匹配概率,即使不存在完整的特定词串在语言中出现的匹配概率,领域语言模型中还可预存经切词后的新增词在语言中出现的匹配概率,例如“芈”、“芈月”、“芈月传”等,而这些新增词在领域语言模型中的匹配概率将较高。
候选词串可根据用户输入的语音信号的长度设定为不同的词元数, 如用户输入的语音信号就对应一个单词,则候选词串的词元数可设置为1;用户输入的语音信号对应5个单词时,可将候选词串的词元数设置为最大5元,即最多由相邻的5个单词组成一个候选词串,考虑到语言模型的训练成本和查询匹配的效率,本发明实施例中以最大4元候选词串为例进行说明。
本实施例中,例如,候选词串为“我要播放芈”的4元词串,为方便表述,本实施例还是以将概率转换为对数为例进行计算过程的描述,首先在领域语言模型中搜索“我要播放芈”的匹配对数,但并未搜索到,则生成对应的惩罚对数-1,并继续搜索所述候选词串包含的3元词串“要播放芈”的匹配对数,依然未搜索到,则再次生成惩罚对数-1,并继续搜索所述候选词串包含的2元词串“播放芈”的匹配对数,此时,搜索到2元词串“播放芈”在所述领域语言模型中的匹配对数为-3分,则候选词串“我要播放芈”在领域语言模型中的第一匹配对数为-1+-1+-3=-5分。
又例如,上述候选词串包含的2元词串“播放芈”在领域语言模型中也未获取到对应的匹配对数,则再次生成惩罚对数-1,并继续搜索1元词串“芈”,获得所述1元词串“芈”的匹配对数为-4,则候选词串“我要播放芈”在领域语言模型中的匹配对数为-1+-1+-1+-4=-7分,将获得的对数进行反对数运算后获得候选词串“我要播放芈”在领域语言模型中的匹配概率,以及根据所述匹配概率获取到所述候选词串“我要播放芈”在领域语言模型中对应的增强系数。
需要说明的是,本实施例通过回退查询的方式获取所述候选词串在所述领域语言模型中的匹配概率,并根据回退方式查询到的所述匹配概率计算所述候选词串在领域语言模型中对应的增强系数的过程,可在进行领域语言模型训练时预先进行,即直接将所述候选词串在领域语言模型中对应的增强系数保存在所述领域语言模型中;也可在执行语音识别的过程中进行同步执行。本发明实施例对此不作限定。
进一步,如果所述候选词串包含的1~N元词组均未出现在所述领域语 言模型中,则将所述基本匹配概率作为所述候选词串的总匹配概率。
如上文所述,领域语言模型对基本语言模型起到修正的作用,而如果领域语言模型中不存在候选词串的任何相关信息,为避免领域语言模型对基本语言模型造成负面影响,本实施例中,可将候选词串在领域语言模型的增强系数设定为无效,以保持基本语言模型对候选词串的识别结果。
需要说明的,本实施例提供的回退查询以获得所述候选词串的在领域语言模型中的匹配概率及增强系数的方式,仅是提高识别率的一种较佳实施例,本发明并不对此处的获取方式做具体限定,其他获取方式也应属于本发明的保护范围内。
在一可选实施例中,步骤102中的调用领域语言模型,可采用如下方式实现:
识别语音信号携带的标识号;
根据所述标识号查找匹配的领域语言模型;
其中,所述标识号包括语音信号的来源产品标识号、通过语义解析获取的语音信号的领域标识号、用户的账号中的一种或多种。
具体地,本实施例中,语音信号传输时会携带一些有关语音描述的标识号,例如,语音信号是由车载导航采集并传送到云端服务器时,该语音信号中会携带车载导航的产品标识号,通过该标识号可判断该语音信号来自车载导航产品,步骤102可相应地调用导航相关的领域语言模型。
又例如,语音信号中包含了“视频”领域的标识号,则步骤102可直接调用视频相关的领域语言模型提高视频相关的特定词串的识别率。
又例如,用户通过账号登录本实施例提供的语音识别方法所应用的语音识别装置后,输入一段“我想打电话给张三”的语音信号时,步骤102可直接根据用户的账号调用为该用户设立的领域语言模型中,该领域 语言模型中预存有用户相关的特定词串在语言习惯中的匹配概率,例如其通讯录中的联系人姓名获取手机中的应用程序名称等特定词串。
参考图4,本发明实施例提供一种语音识别装置,包括:
意向分析模块11,用于获取语音信号对应的候选词串;
第一识别模块12,用于调用领域语言模型,确定所述候选词串在领域语言模型中的增强系数;
第二识别模块13,用于调用基本语言模型,确定所述候选词串在基本语言模型中的基本匹配概率;
加值模块14,用于将所述增强系数结合所述基本匹配概率获得所述候选词串的总匹配概率;
识别结果生成模块15,用于根据各候选词串的总匹配概率,计算各候选词串组成的词序列的概率,并根据概率最高的词序列生成所述语音信号对应的语言文本。
本发明实施例提供的语音识别装置,在进行语音识别时,综合考虑了基本语言模型中的通用说话习惯,又兼顾了领域语言模型中的特定用词习惯,从而可对既对应有通用词串又对应有特定词串的语音信号提供更高的识别率;另外,仅需更新领域语言模型即可提高新增词串在语言中的匹配概率,领域语言模型的更新范围小、更新速度快,因此可更快捷地满足用户的语音识别要求,而且,概率通过领域语言模型中的增强系数可有效修正基本语言模型对新增词串的识别率低的缺陷,从而提高了语音识别的准确率。
在一可选实施例中,所述第一识别模块12,用于:
根据所述候选词串在所述基本语言模型中对应的一个或多个基本匹配概率,确定所述候选词串在所述基本语言模型中对应的第一匹配概率范围;
根据所述候选词串在所述领域语言模型中对应的一个或多个匹配概 率,确定所述候选词串在所述领域语言模型中对应的第二匹配概率范围;
根据所述候选词串在所述基本语言模型中对应的第一匹配概率范围和所述领域语言模型中对应的第二匹配概率范围的分差比值,获得所述候选词串在所述领域语言模型中对应的增强系数。
在一可选实施例中,所述第一识别模块12,用于:
查询所述候选词串包含的N元词组是否出现在所述领域语言模型中,如果未出现,则
生成对应的惩罚概率,并查询所述候选词串包含的N-i元词组是否出现在所述领域语言模型中,如果所述N-i元词组出现在所述领域语言模型中,则
根据所述N-i元词组在所述领域语言模型中的匹配概率与i倍的惩罚概率获得所述候选词串在所述领域语言模型中的匹配概率。
候选词串可根据用户输入的语音信号的长度设定为不同的词元数,考虑到语言模型的训练成本和查询匹配的效率,优选地,本发明实施例中1≤N≤4,N为整数,i为小于N的整数。
在一可选实施例中,如果所述候选词串包含的1~N元词组均未出现在所述领域语言模型中,则所述加值模块14,用于:
将所述基本匹配概率作为所述候选词串的总匹配概率。
在一可选实施例中,所述第一识别模块12,用于:
识别语音信号携带的标识号;
根据所述标识号查找匹配的领域语言模型;
其中,所述标识号包括语音信号的来源产品标识号、通过语义解析获取的语音信号的领域标识号、用户的账号中的一种或多种。
具体地,本实施例中,语音信号传输时会携带一些有关语音描述的标识号,例如,语音信号是由车载导航采集并传送到云端服务器时,该 语音信号中会携带车载导航的产品标识号,通过该标识号可判断该语音信号来自车载导航产品,第一识别模块12可相应地调用导航相关的领域语言模型。
本申请实施例还提供了一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的语音识别方法。
图5是本申请实施例提供的执行语音识别方法的电子设备的硬件结构示意图,如图5所示,该设备包括:
一个或多个处理器510以及存储器520,图5中以一个处理器510为例。
执行语音识别方法的设备还可以包括:输入装置530和输出装置540。
处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接,图5中以通过总线连接为例。
存储器520作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的语音识别方法对应的程序指令/模块(例如,附图4所示的意向分析模块11、第一识别模块12、第二识别模块13、加值模块14和识别结果生成模块15)。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述方法实施例语音识别方法。
存储器520可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据语音识别装置的使用所创建的数据等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存 储器520可选包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至语音识别装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置530可接收输入的数字或字符信息,以及产生与语音识别装置的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器520中,当被所述一个或者多个处理器510执行时,执行上述任意方法实施例中的语音识别方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本发明实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的基本硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (13)
Hide Dependent

  1. 一种语音识别方法,其特征在于,应用于终端,包括:
    获取语音信号对应的候选词串;
    调用领域语言模型,确定所述候选词串在领域语言模型中对应的概率增强系数;
    调用基本语言模型,确定所述候选词串在基本语言模型中的基本匹配概率;
    将所述概率增强系数结合所述基本匹配概率获得所述候选词串的总匹配概率;
    根据各候选词串的总匹配概率,计算各候选词串组成的词序列的概率,并根据概率最高的词序列生成所述语音信号对应的语言文本。
  2. 根据权利要求1所述的方法,其特征在于,所述确定所述候选词串在领域语言模型中对应的增强系数,包括:
    根据所述候选词串在所述基本语言模型中对应的多个基本匹配概率,确定所述候选词串在所述基本语言模型中对应的第一匹配概率范围;
    根据所述候选词串在所述领域语言模型中对应的多个匹配概率,确定所述候选词串在所述领域语言模型中对应的第二匹配概率范围;
    根据所述候选词串在所述基本语言模型中对应的第一匹配概率范围和所述领域语言模型中对应的第二匹配概率范围的分差比值,获得所述候选词串在所述领域语言模型中对应的增强系数。
  3. 根据权利要求2所述的方法,其特征在于,所述确定所述候选词串在领域语言模型中概率对应的增强系数,包括:
    查询所述候选词串包含的N元词组是否出现在所述领域语言模型中,如果未出现,则
    生成对应的惩罚概率,并查询所述候选词串包含的N-i元词组是否出现在所述领域语言模型中,如果所述N-i元词组出现在所述领域语言模型中,则
    根据所述N-i元词组在所述领域语言模型中的匹配概率与i倍的惩罚概率获得所述候选词串在所述领域语言模型中的匹配概率,并根据所述候选词串在所述领域语言模型中的匹配概率获得所述候选词串在所述领域语言模型中对应的增强系数;
    其中,N和i为整数,且i<N。
  4. 根据权利要求1或2所述的方法,其特征在于,如果所述候选词串包含的1~N元词组均未出现在所述领域语言模型中,则
    将所述基本匹配概率作为所述候选词串的总匹配概率。
  5. 根据权利要求1所述的方法,其特征在于,所述调用领域语言模型,包括:
    识别语音信号携带的标识号;
    根据所述标识号查找匹配的领域语言模型;
    其中,所述标识号包括语音信号的来源产品标识号、通过语义解析获取的语音信号的领域标识号、用户的账号中的一种或多种。
  6. 一种语音识别装置,其特征在于,包括:
    意向分析模块,用于获取语音信号对应的候选词串;
    第一识别模块,用于调用领域语言模型,确定所述候选词串在领 域语言模型中对应的增强系数;
    第二识别模块,用于调用基本语言模型,确定所述候选词串在基本语言模型中的基本匹配概率;
    加值模块,用于将所述增强系数结合所述基本匹配概率获得所述候选词串的总匹配概率;
    识别结果生成模块,用于根据各候选词串的总匹配概率,计算各候选词串组成的词序列的概率,并根据概率最高的词序列生成所述语音信号对应的语言文本。
  7. 根据权利要求6所述的装置,其特征在于,所述第一识别模块,用于:
    根据所述候选词串在所述基本语言模型中对应的一个或多个基本匹配概率,确定所述候选词串在所述基本语言模型中对应的第一匹配概率范围;
    根据所述候选词串在所述领域语言模型中对应的一个或多个匹配概率,确定所述候选词串在所述领域语言模型中对应的第二匹配概率范围;
    根据所述候选词串在所述基本语言模型中对应的第一匹配概率范围和所述领域语言模型中对应的第二匹配概率范围的分差比值,获得所述候选词串在所述领域语言模型中对应的增强系数。
  8. 根据权利要求7所述的装置,其特征在于,所述第一识别模块,用于:
    查询所述候选词串包含的N元词组是否出现在所述领域语言模型中,如果未出现,则
    生成对应的惩罚概率,并查询所述候选词串包含的N-i元词组是 否出现在所述领域语言模型中,如果所述N-i元词组出现在所述领域语言模型中,则
    根据所述N-i元词组在所述领域语言模型中的匹配概率与i倍的惩罚概率获得所述候选词串在所述领域语言模型中的匹配概率,并根据所述候选词串在所述领域语言模型中的匹配概率获得所述候选词串在所述领域语言模型中对应的增强系数;
    其中,N和i为整数,且i<N。
  9. 根据权利要求7或8所述的装置,其特征在于,如果所述候选词串包含的1~N元词组均未出现在所述领域语言模型中,则所述加值模块,用于:
    将所述基本匹配概率作为所述候选词串的总匹配概率。
  10. 根据权利要求6所述的装置,其特征在于,所述第一识别模块,用于:
    识别语音信号携带的标识号;
    根据所述标识号查找匹配的领域语言模型;
    其中,所述标识号包括语音信号的来源产品标识号、通过语义解析获取的语音信号的领域标识号、用户的账号中的一种或多种。
  11. 一种非易失性计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
    获取语音信号对应的候选词串;
    调用领域语言模型,确定所述候选词串在领域语言模型中对应的概率增强系数;
    调用基本语言模型,确定所述候选词串在基本语言模型中的基本匹配概率;
    将所述概率增强系数结合所述基本匹配概率获得所述候选词串的总匹配概率;
    根据各候选词串的总匹配概率,计算各候选词串组成的词序列的概率,并根据概率最高的词序列生成所述语音信号对应的语言文本。
  12. 一种电子设备,包括:
    至少一个处理器;以及,
    与所述至少一个处理器通信连接的存储器;其中,
    所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
    获取语音信号对应的候选词串;
    调用领域语言模型,确定所述候选词串在领域语言模型中对应的概率增强系数;
    调用基本语言模型,确定所述候选词串在基本语言模型中的基本匹配概率;
    将所述概率增强系数结合所述基本匹配概率获得所述候选词串的总匹配概率;
    根据各候选词串的总匹配概率,计算各候选词串组成的词序列的概率,并根据概率最高的词序列生成所述语音信号对应的语言文本。
  13. 一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行权利要求 1至5任一项所述的方法。