WO2017114172A1

WO2017114172A1 - 一种发音词典的构建方法及装置

Info

Publication number: WO2017114172A1
Application number: PCT/CN2016/110125
Authority: WO
Inventors: 王志铭; 李晓辉; 李宏言
Original assignee: 阿里巴巴集团控股有限公司; 王志铭; 李晓辉; 李宏言
Priority date: 2015-12-29
Filing date: 2016-12-15
Publication date: 2017-07-06
Also published as: CN106935239A

Abstract

一种发音词典的构建方法及装置，用以解决按照现有技术构建的发音词典的质量较差问题。其中，该方法包括：将目标词汇的语音声学特征，输入语音识别解码器（12）；其中，语音识别解码器中的发音词典包括：目标词汇和目标词汇的候选发音音素序列；根据语音识别解码器输出的候选发音音素序列，确定目标词汇对应于输出的候选发音音素序列的概率分布；根据该概率分布，从输出的候选发音音素序列中，选择作为目标词汇的正确发音的发音音素序列（13）；根据正确发音的发音音素序列，构建发音词典（14）。

Description

一种发音词典的构建方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种发音词典的构建方法及装置。

背景技术

语音交互技术早在二十世纪中期就已经开始出现，近几年随着智能手机的普及，大量的语音交互产品相继出现，语音交互产品走进了普通用户的日常生活之中。例如，语音输入法就是通过接收并识别用户发出的语音，然后将用户的语音转换成文字，省去了打字的繁琐输入；来电报号功能可以将文字以语音的形式输出，在用户不看屏幕的情况下，即可获知来电方身份。

在语音交互技术中，发音词典是语音交互系统中重要的组成部分，是联接声学模型和语言模型之间的桥梁，其覆盖面和发音质量对系统的整体性能具有重大的影响。

发音词典中包含词和发音音素序列之间的映射关系，通常可以采用词转换为音素(Grapheme-to-Phoneme，G2P)方法建立该映射关系。一般情况下，发音词典经过语言学相关方面的专家审核校正，规模大小相对固定，因此其不可能覆盖所有的词汇，从而在实际应用中，有可能会根据需要，利用G2P方法确定新增词汇所匹配的发音音素序列，即确定新增词汇的正确发音，进而根据新增词汇和与其匹配的发音音素序列，对现有的发音词典进行扩充。

目前，采用G2P方法，基本能够准确确定常规词汇的正确发音。但是，对于一些特别的词汇，比如包含多音字的词汇，采用该方法确定出的词汇的正确发音的准确度往往较低，从而影响发音词典的质量。

发明内容

本申请实施例提供一种发音词典的构建方法，用以解决按照现有技术构建的发音词典的质量较差的问题。

本申请实施例还提供一种发音词典的构建装置，用以解决按照现有技术构建的发音词典的质量较差的问题。

本申请实施例采用下述技术方案：

一种发音词典的构建方法，包括：

将目标词汇的语音声学特征，输入语音识别解码器；其中，所述语音识别解码器中的发音词典包括：目标词汇和目标词汇的候选发音音素序列；

根据所述语音识别解码器以所述语音声学特征作为输入而输出的候选发音音素序列，确定所述目标词汇对应于输出的候选发音音素序列的概率分布；

根据所述概率分布，从所述输出的候选发音音素序列中，选择作为所述目标词汇的正确发音的发音音素序列；

根据所述正确发音的发音音素序列，构建发音词典。

一种发音词典的构建装置，包括：

解码单元：用于将目标词汇的语音声学特征，输入语音识别解码器中；其中，所述语音识别解码器中的发音词典包括：目标词汇和目标词汇的的候选发音音素序列；

发音确定单元：用于根据所述语音识别解码器以所述语音声学特征作为输入而输出的候选发音音素序列，确定所述目标词汇对应于输出的候选发音音素序列的概率分布；根据所述概率分布，从所述输出的候选发音音素序列中，选择作为所述目标词汇的正确发音的发音音素序列；

词典构建单元：用于根据所述正确发音的发音音素序列，构建发音词典。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：

由于引入了待预测发音的目标词的语音声学特征，作为预测词汇正确发音的依据之一，从而相对于仅依靠词汇和发音音素序列的映射关系来作为预测词汇正确发音依据的现有技术而言，可以更为准确地预测目标词汇正确发音，提升了基于确定出的正确发音构建的发音词典的质量。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种发音词典的构建方法的实现流程示意图；

图2为本实施例提供的一种发音词典的构建装置的具体结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

实施例1

现有的发音预测方法通常是基于G2P转换的方法，G2P方法通过建立词汇和发音音素之间的映射关系，将词汇转换为发音音素序列。采用G2P方法，基本能够准确得到与常规词汇匹配的发音音素序列，但是由于该方法只利用了词汇(字序列)和发音音素的映射关系，因此对于一些特别的词汇，比如包含多音字的词汇，采用该方法确定出的与词汇匹配的发音音素序列的准确度往往较低，从而影响发音词典的质量。

为解决由于现有技术不能准确预测词汇的正确发音从而影响发音词典的质量的问题，本申请实施例1提供了一种发音词典的构建方法。

本申请实施例提供的发音词典的构建方法的执行主体可以是服务器也可以是不同于服务器的其他设备，等等。所述的执行主体并不构成对本申请的限定，为了便于描述，本申请实施例均以执行主体是服务器为例进行说明。

为便于描述，在本实施例中，存在对应关系的词汇和语音声学特征可以用词汇-语音声学特征来表示。

类似的，存在对应关系的词汇(字序列)和音素序列，以及存在对应关系的语音声学特征和语音音素序列，也可用上述表示方式表示。例如，存在对应关系的词汇和音素序列，可以用词汇-语音音素序列来表示。

以下对本申请实施例提供该方法进行详细介绍。

该方法的实现流程示意图如图1所示，包括下述步骤：

步骤11：服务器将目标词汇的语音声学特征，输入到嵌入有发音词典、声学模型和语言模型的语音识别解码器；

本申请实施例中，所述的目标词汇，可以是任何词汇，比如中文词汇、英文词汇或者其他语言的词汇。若针对语音识别解码器中已有的发音词典而言，所述的目标词汇，可以是指该发音词典当前不包含的词汇，即相对于该发音词典的新增词汇。

本申请实施例中所述的目标词汇的语音声学特征，可以但不限于包括从说出该目标词汇所产生的语音信号中提取出的Filter Bank特征、MFCC(Mel Frequency Cepstrum Coefficient)特征以及PLP(Perceptual Linear Predictive)特征等等中的至少一种。

本申请实施例中，所述的语音信号，比如可以是根据目标词汇对应的音频样本。

目标词汇对应的音频样本，可以但不限于是采用下述方式中的至少一种获得的：

一、委托专业的语音数据供应商进行人工录音，从而获得目标词汇对应的音频样本；

二、采用众包的形式，以用户的真实使用感受和切身体验为出发点，将录音任务以自由自愿的形式委托给非特定的(而且通常是大型的)网络大众,从而获得目标词汇对应的音频样本；

三、分析用户反馈的记录日志，从而获得目标词汇对应的音频样本。例如，在语音搜索任务中，用户先通过语音输入目标词汇，如果语音识别系统识别错误，用户继续通过键盘输入正确的目标词汇，这一系列的行为可以通过日志的形式记录下来。

本申请实施例中，可以从目标词汇对应的音频样本中分别获得语音声学特征，进而将获得的各语音声学特征作为所述目标词汇的语音声学特征，分别输入所述语音识别解码器。

以下进一步介绍步骤11中提及的语音识别解码器的工作原理。

一般地，语音识别解码器，是用于针对输入的语音信号(或语音声学特征)，根据声学模型、语言模型及发音词典，寻找能够以最大概率发出该语音信号(或与该语音声学特征相匹配的语音信号)的词的虚拟或者实体设备。

在语音识别领域，对语音信号进行解码的目标，就是寻找字序列W^*(相当于上文所述的“词”)，使得对应的语音声学特征X似然概率最大化，实质上就是一个基于贝叶斯准则的机器学习问题，即利用贝叶斯公式来计算最佳字序列W^*，如公式[1.1]所示：

其中P(X|W_i)为声学模型，P(W_i)为语言模型。

声学模型，是字序列W_i的语音声学特征为X的概率。一般可以利用大量的数据(包括语音声学特征以及对应的标签序列)训练得到声学模型。

语言模型，是词汇对应的字序列W_i的出现概率。该出现概率的含义一般为：构成词汇的各个字依照所述各个字在该词汇中的排列顺序依次出现的概率。

考虑到字序列一般会对应的不同的发音音素序列，比如用带不同地方口音发出某个词汇(可由字序列表示)的发音可能对应不同的发音音素，又或者包含多音字的词汇也有可能对应不同的发音音素，因此，若假设

是字序列W_i对应的各发音音素序列，那么公式[1.1]可变为：

其中，W_i为字序列；

为声学模型；P(W_i)为语言模型；

为发音词典中的词汇(由字序列W_i表示)的发音音素序列为

的概率。

对于发音学习的问题，进一步假定字序列W_i和对应的语音声学特征X是已知的，则公式[1.2]的计算目标，可以转换是为了寻找字序列W_i对应的最佳发音音素序列Q^*。这样，公式[1.2]进一步可变为：

公式[1.3]中：

Q^*为使得公式[1.3]中等号右侧的值最大的发音音素序列，也即字序列W_i对应的候选发音音素序列的概率分布的最大值；

W_i为字序列，i为词汇的编号；

X表示W_i对应的语音声学特征；

Q表示发音音素序列；

j为发音音素序列的编号；

表示编号为i的词汇对应的语音音素序列中的、编号为j的发音音素序列。

为声学模型，即发音音素序列

对应的语音声学特征为X的概率。

目前，相关的语音识别技术中用到的声学模型一般是对隐马尔科夫-深度神经网络(Hidden Markov Model-Deep Neural Network，HMM-DNN) 的混合模型训练得到的，或者也可以是对DNN模型训练得到的。本申请实施例中，可以预先通过海量语音声学特征，对HMM-DNN的混合模型或DNN模型进行训练得到声学模型，并设置在本申请实施例所述的该语音识别解码器中。

P(W_i)为语言模型——本实施例中的语言模型可以是N-Gram模型，该模型基于这样一种假设，第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积，各个词出现的概率可以通过直接从语料中统计N个词同时出现的次数得到。本实施例中的语言模型也可以是基于条件随机场或者基于深度神经网络策略的语言模型。该语言模型可以预先生成并设置在本申请实施例所述的该语音识别解码器中。

为基于给定的发音词典中的词汇(由字序列W_i表示)的发音音素序列为

的概率。

这里所说的发音词典，比如可以为加入了目标词汇对应的各个候选发音音素序列的发音词典。

目标词汇的候选发音音素序列，是指可能作为目标词汇正确发音的发音音素序列。本申请实施例中，可以但不限于采用G2P方法，为目标词汇生成发音音素序列(本申请实施例中称“候选发音音素序列”)，并将所述目标词汇和生成的各候选发音音素序列，加入到发音词典中。

其中，将所述目标词汇和生成的各候选发音音素序列，加入到发音词典中，可以是指，将包含目标词汇-候选发音音素序列的词条，添加到发音词典中。

需要说明的是，当当前不存在发音词典时，将所述词条添加到发音词典中，可以是指根据所述词条构建发音词典；当当前已存在发音词典时，将所述词条添加到发音词典中，可以是指根据所述词条对该已有的发音词典进行更新，得到更新后的发音词典。

为便于描述，本申请实施例中假设当前已存在发音词典。在这样的场景下，所述目标词汇为相对于当前已存在的发音词典而言的新增词汇。

本实施例中，为目标词汇生成的对应的候选发音音素序列的个数视实际情况而定。

如，采用G2P方法，可以为目标词汇“阿里巴巴”生成十个以上候选的发音音素序列。以该些发音音素序列中的某一个发音音素序列为例，其可以表示为“a1/li3/ba1/ba1/”。该发音音素序列中，符号“/”用于区分不同发音音素，即“/”前后的符号表示不同的音素。比如，a1和li3为不同音素。音素中的数字代表声调，即1代表声调一声，2代表声调二声，3代表声调三声，4代表声调四声。

基于嵌入有上述发音词典、公式[1.3]中所示的声学模型

和语言模型P(W_i)的语音识别解码器，本申请实施例中，将目标词汇的语音声学特征输入到该语音识别解码器中，可以触发该语音识别解码器通过对语音样本声学特征的解码，输出该语音样本声学特征对应的发音音素序列。

以下进一步介绍本申请实施例提供的该方法包含的后续步骤。

步骤12：确定语音识别解码器以步骤11中所述的语音声学特征作为输入而输出的候选发音音素序列；并根据目标词汇对应于所述输出的候选发音音素序列的统计规律，确定目标词汇对应于输出的候选发音音素序列的概率分布；根据所述概率分布，从所述输出的候选发音音素序列中，选择作为目标词汇的正确发音的发音音素序列；

比如，若假定目标词汇T对应的候选发音音素序列有2个，分别为A1A2和B1B2，且它们被添加到语音识别解码器包含的发音词典中。进一步地，若假设采集到的T的音频样本有100个，从而可以获得这100个音频样本各自的语音声学特征(共100个语音声学特征)，通过执行步骤11，将这100个语音声学特征分别输入到嵌入发音词典、声学模型和语言模型的语音识别解码器中。

那么，语音识别解码器对这100个语音声学特征进行识别解码，可以输出候选发音音素序列，如输出A1、A2、B1、B2的组合。

进一步地，假设根据设置于该语音识别解码器中的发音词典，确定目标词汇对应于所述输出的候选发音音素序列的统计规律为：

这100个语音声学特征中：有75个语音声学特征是通过发音词典的词条“T-A1A2”映射到T，有25个语音声学特征是通过发音词典的词条“T-B1B2”映射到T。

那么，根据该统计规律，可以得到如下概率分布：

T对应于A1A2的概率为75/100＝0.75

T对应于B1B2的概率为25/100＝0.25

一般地，服务器可以将所述概率分布中的最大概率值对应的候选发音音素序列，确定为所述目标词汇正确的发音的发音音素序列。

沿用上例，则服务器可以将所述概率分布中的最大概率值0.75对应的候选发音音素序列A1A2，确定为T正确发音的发音音素序列。

步骤13：根据作为目标词汇正确发音的发音音素序列，构建发音词典。

具体地，服务器比如可以从加入了目标词汇对应的各个候选发音音素序列的发音词典中，删除除作为目标词汇正确发音的发音音素序列外的、与该目标词汇对应的其他候选发音音素序列。或者，服务器也可以根据作为目标词汇正确发音的发音音素序列，重新构建新的发音词典。

采用本申请实施例1提供的上述方法，由于引入了待预测发音的目标词的语音声学特征，作为预测词汇正确发音的依据之一，从而相对于仅依靠词汇和发音音素序列的映射关系来做为预测词汇正确发音依据的现有技术而言，可以更为准确地预测目标词汇正确发音，从而提升了语音词典的质量。

实施例2

为解决采用现有技术会导致与词汇匹配的发音音素序列的准确性较低的问题，本申请实施例提供一种发音词典的构建装置。该词汇发音预测装置的结构示意图如图3所示，主要包括下述功能单元：

解码单元21，用于将目标词汇的语音声学特征，输入语音识别解码器中；其中，语音识别解码器中的发音词典包括：目标词汇和目标词汇的的候选发音音素序列；

发音确定单元22，用于根据所述语音识别解码器以所述语音声学特征作为输入而输出的候选发音音素序列，确定所述目标词汇对应于输出的候选发音音素序列的概率分布；根据所述概率分布，从所述输出的候选发音音素序列中，选择作为所述目标词汇的正确发音的发音音素序列；

词典构建单元23，用于根据所述正确发音的发音音素序列，构建发音词典。

在一种实施方式中，本申请实施例提供的该装置还可以包括音素序列处理单元。该单元用于在于将目标词汇的语音声学特征，输入语音识别解码器中前，获得目标词汇的候选发音音素序列；并将目标词汇和获得的候选发音音素序列，加入到所述语音识别解码器中的发音词典中。

在一种实施方式中，音素序列处理单元，具体可以用于利用G2P方法，获得目标词汇的候选发音音素序列。

在一种实施方式中，所述解码单元21，具体可以用于采集目标词汇对应的音频样本；根据所述音频样本，获得所述语音声学特征；将获得的所述语音声学特征，输入所述语音识别解码器中。

在一种实施方式中，所述发音确定单元22，具体可以用于确定所述概率分布中的最大概率值；从所述输出的候选发音音素序列中，选择所述最大概率值对应的候选发音音素序列，作为所述目标词汇的正确发音的发音音素序列。

在一种实施方式中，所述词典构建单元23，具体可以用于根据作为所述目标词汇正确发音的发音音素序列，从加入了目标词汇和获得的候选发音音素序列的发音词典中，删除目标词汇对应的、除所述正确发音的发音音素序列外的其他候选发音音素序列。

采用本申请实施例2提供的上述装置，由于引入了待预测发音的目标词的语音声学特征，作为预测词汇正确发音的依据之一，从而相对于仅依靠词汇和发音音素序列的映射关系来做为预测词汇正确发音依据的现有技术而言，可以更为准确地预测目标词汇正确发音。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

一种发音词典的构建方法，其特征在于，所述方法包括：

将目标词汇的语音声学特征，输入语音识别解码器；其中，所述语音识别解码器中的发音词典包括：目标词汇和目标词汇的候选发音音素序列；

根据所述语音识别解码器以所述语音声学特征作为输入而输出的候选发音音素序列，确定所述目标词汇对应于输出的候选发音音素序列的概率分布；

根据所述概率分布，从所述输出的候选发音音素序列中，选择作为所述目标词汇的正确发音的发音音素序列；

根据所述正确发音的发音音素序列，构建发音词典。
如权利要求1所述的方法，其特征在于，将所述语音声学特征，输入所述语音识别解码器前，所述方法还包括：

获得目标词汇的候选发音音素序列；

将目标词汇和获得的候选发音音素序列，加入到所述语音识别解码器中的发音词典中。
如权利要求2所述的方法，其特征在于，获得目标词汇的候选发音音素序列，包括：

利用词转换为音素G2P方法，获得目标词汇的候选发音音素序列。
如权利要求1所述的方法，其特征在于，所述语音识别解码器中嵌入的声学模型，是对深度神经网络进行训练得到的。
如权利要求1所述的方法，其特征在于，将目标词汇的语音声学特征，输入所述语音识别解码器中，包括：

采集目标词汇对应的音频样本；

根据所述音频样本，获得所述语音声学特征；

将获得的所述语音声学特征，输入所述语音识别解码器中。
如权利要求1所述的方法，其特征在于，根据所述概率分布，从所述输出的候选发音音素序列中，选择作为所述目标词汇的正确发音的发音音素序列，包括：

确定所述概率分布中的最大概率值；

从所述输出的候选发音音素序列中，选择所述最大概率值对应的候选发音音素序列，作为所述目标词汇的正确发音的发音音素序列。
如权利要求1～6任一权项所述的方法，其特征在于，根据所述正确发音的发音音素序列，构建发音词典，包括：

根据作为所述目标词汇正确发音的发音音素序列，从加入了目标词汇和获得的候选发音音素序列的发音词典中，删除目标词汇对应的、除所述正确发音的发音音素序列外的其他候选发音音素序列。
一种发音词典的构建装置，其特征在于，所述装置包括：

解码单元：用于将目标词汇的语音声学特征，输入语音识别解码器中；其中，所述语音识别解码器中的发音词典包括：目标词汇和目标词汇的的候选发音音素序列；

发音确定单元：用于根据所述语音识别解码器以所述语音声学特征作为输入而输出的候选发音音素序列，确定所述目标词汇对应于输出的候选发音音素序列的概率分布；根据所述概率分布，从所述输出的候选发音音素序列中，选择作为所述目标词汇的正确发音的发音音素序列；

词典构建单元：用于根据所述正确发音的发音音素序列，构建发音词典。
如权利要求8所述的装置，其特征在于，所述装置还包括：

音素序列处理单元，用于在于将目标词汇的语音声学特征，输入语音识别解码器中前，获得目标词汇的候选发音音素序列；并将目标词汇和获得的候选发音音素序列，加入到所述语音识别解码器中的发音词典中。
如权利要求9所述的装置，其特征在于，所述音素序列处理单元，具体可以用于：

利用词转换为音素G2P方法，获得目标词汇的候选发音音素序列。
如权利要求8所述的装置，其特征在于，所述语音识别解码器中嵌入的声学模型，是对深度神经网络进行训练得到的。
如权利要求8所述的装置，其特征在于：

所述解码单元，具体用于采集目标词汇对应的音频样本；根据所述音频样本，获得所述语音声学特征；将获得的所述语音声学特征，输入所述语音识别解码器中。
如权利要求8所述的装置，其特征在于，所述发音确定单元，具体用于：

确定所述概率分布中的最大概率值；

从所述输出的候选发音音素序列中，选择所述最大概率值对应的候选发音音素序列，作为所述目标词汇的正确发音的发音音素序列。
如权利要求8～13任一权项所述的装置，其特征在于：

所述词典构建单元，具体用于根据作为所述目标词汇正确发音的发音音素序列，从加入了目标词汇和获得的候选发音音素序列的发音词典中，删除目标词汇对应的、除所述正确发音的发音音素序列外的其他候选发音音素序列。