WO2021127987A1

WO2021127987A1 - 多音字预测方法及消歧方法、装置、设备及计算机可读存储介质

Info

Publication number: WO2021127987A1
Application number: PCT/CN2019/127956
Authority: WO
Inventors: 白洛玉; 李贤�; 张皓; 黄东延; 丁万; 熊友军
Original assignee: 深圳市优必选科技股份有限公司
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2021-07-01
Also published as: CN113302683A; CN113302683B

Abstract

一种多音字预测方法及消歧方法、装置、设备及计算机可读存储介质，该多音字预测方法包括如下步骤：获取待预测文本中的多音字文本、以及多音字文本在待预测文本中的上文文本和/或下文文本（S20）；构建多音字文本、上文文本、下文文本各自对应的一个或多个特征向量（S30）；将上文文本的特征向量、多音字文本的特征向量、下文文本的特征向量输入多音字预测模型获得多音字预测结果；多音字预测模型包括第一神经网络模块、第二神经网络模块和第三神经网络模块；第一神经网络模块输入上文文本的特征向量并得到第一输出向量，第二神经网络模块输入多音字文本的特征向量并得到第二输出向量，第三神经网络模块输入下文文本的特征向量并得到第三输出向量；多音字预测结果包括多音字的每种读音的发音概率，通过将第一输出向量、第二输出向量和第三输出向量进行拼接来获得（S40）；基于多音字的每种读音的发音概率来确定多音字在待预测文本中的读音（S50）。有利于提高对多音字读音预测的准确度，有效避免分类干扰，编解码实现容易。

Description

多音字预测方法及消歧方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及语音合成技术领域，具体涉及一种多音字预测方法、多音字消歧方法、多音字预测装置、多音字消歧装置、计算机设备及计算机可读存储介质。

背景技术

多音字是指一个语言基本单元如汉字、单词等具有两个或两个以上的读音，例如，同形异音字、同形异音词。不同的读音通常表达不同的语义和用法。多音字现象在语料中较为普遍，并且音项繁多、成因广泛、现有语料覆盖有限，同时，多音字读音的差异直接影响多音字文本的理解度和准确度，因此，对多音字的预测和消歧尤为重要。多音字预测和消歧是在进行文本读音确定时，预测和获取多音字正确读音的技术。

技术问题

现有的多音字预测及消歧方式存在如下问题：

1、仅采集多音字前后的一两个字或词作为片段特征预测，不能更好的利用长距离的上下文信息，容易对多音字的读音预测不准确；

2、将非多音字作为预测类别，输出为多元素序列的预测结果，非多音字容易造成分类干扰，编解码复杂。

技术解决方案

本申请针对以上问题的提出，而研制一种能够利用长距离的多音字上下文信息、以及可以构建多元素序列至唯一预测结果的多音字预测方法及消歧方法，同时还提供了一种多音字预测装置及消歧装置，以及能够实现上述多音字消歧方法的计算机设备及计算机可读存储介质。

本申请采用的一个技术手段是：提供一种多音字预测方法，包括：

获取待预测文本中的多音字文本、以及所述多音字文本在所述待预测文本中的上文文本和/或下文文本；

构建所述多音字文本、所述上文文本、所述下文文本各自对应的一个或多个特征向量；

将所述上文文本的特征向量、所述多音字文本的特征向量、所述下文文本的特征向量输入多音字预测模型获得多音字预测结果；所述多音字预测模型包括第一神经网络模块、第二神经网络模块和第三神经网络模块；所述第一神经网络模块输入所述上文文本的特征向量并得到第一输出向量，所述第二神经网络模块输入所述多音字文本的特征向量并得到第二输出向量，所述第三神经网络模块输入所述下文文本的特征向量并得到第三输出向量；所述多音字预测结果通过将所述第一输出向量、所述第二输出向量和所述第三输出向量进行拼接来获得；

所述多音字预测结果包括所述多音字的每种读音的发音概率；基于所述多音字的每种读音的发音概率来确定所述多音字在所述待预测文本中的读音。

本申请采用的另一个技术手段是：提供一种多音字消歧方法，包括：

对待消歧文本进行分词得到多个分词结果；

判断各个所述分词结果中是否包含多音字；

确定多音字分词结果的词长是否大于预设词长；所述多音字分词结果是指包含有多音字的分词结果；

在所述多音字分词结果的词长大于预设词长的情况下，查询并判断预设词典中是否存有所述多音字分词结果；

在所述多音字分词结果未存在于所述预设词典中的情况下，在预设规则库中查找是否存在与所述多音字分词结果的特征信息相匹配的结果；

在所述预设规则库中未存在与所述多音字分词结果的特征信息相匹配的结果的情况下，将所述多音字分词结果作为待预测文本，通过所述的多音字预测方法对所述多音字分词结果进行预测。

本申请采用的另一个技术手段是：提供一种多音字预测装置，包括：

文本获取模块，用于获取待预测文本中的多音字文本、以及所述多音字文本在所述待预测文本中的上文文本和/或下文文本；

向量构建模块，用于构建所述多音字文本、所述上文文本、所述下文文本各自对应的一个或多个特征向量；

模型预测模块，用于将所述上文文本的特征向量、所述多音字文本的特征向量、所述下文文本的特征向量输入多音字预测模型获得多音字预测结果；所述多音字预测模型包括第一神经网络模块、第二神经网络模块和第三神经网络模块；所述第一神经网络模块输入所述上文文本的特征向量并得到第一输出向量，所述第二神经网络模块输入所述多音字文本的特征向量并得到第二输出向量，所述第三神经网络模块输入所述下文文本的特征向量并得到第三输出向量；所述多音字预测结果包括所述多音字的每种读音的发音概率，并通过将所述第一输出向量、所述第二输出向量和所述第三输出向量进行拼接来获得；和

读音确定模块，用于基于所述多音字的每种读音的发音概率来确定所述多音字在所述待预测文本中的读音。

本申请采用的另一个技术手段是：提供一种多音字消歧装置，包括：

文本分词模块，用于对待消歧文本进行分词得到多个分词结果；

多音字判断模块，用于判断各个所述分词结果中是否包含多音字；

词长确定模块，用于确定多音字分词结果的词长是否大于预设词长；所述多音字分词结果是指包含有多音字的分词结果；

词典查询模块，用于在所述多音字分词结果的词长大于预设词长的情况下，查询预设词典并判断所述预设词典中是否存有所述多音字分词结果；

规则库校验模块，用于在所述多音字分词结果未存在于所述预设词典中的情况下，在预设规则库中查找是否存在与所述多音字分词结果的特征信息相匹配的结果；和

所述的多音字预测装置，所述多音字预测装置用于在所述预设规则库中未存在与所述多音字分词结果的特征信息相匹配的结果的情况下，将所述多音字分词结果作为待预测文本，对所述多音字分词结果进行预测。

本申请采用的另一个技术手段是：提供一种计算机设备，包括：处理器和存储器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述多音字预测方法的步骤。

本申请采用的另一个技术手段是：提供一种计算机设备，包括：处理器和存储器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述多音字消歧方法的步骤。

本申请采用的另一个技术手段是：提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述多音字预测方法的步骤。

有益效果

实施本申请实施例，将具有如下有益效果：

本申请提供的多音字预测方法及消歧方法、装置、设备及计算机可读存储介质，所述多音字预测方法能够对多音字的长距离的上下文信息进行获取、特征利用和模型预测，有利于提高对多音字读音预测的准确度。预测结果为多音字每种读音的概率，未将非多音字作为预测类别，可以有效避免分类干扰，编解码实现容易。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1是本申请一个实施例中多音字预测方法的实现流程示意图；

图2是本申请一个实施例中多音字预测方法的实现示例图；

图3是本申请一个实施例中步骤S30的实现流程示意图；

图4是本申请一个实施例中步骤S302的实现流程示意图；

图5是本申请一个实施例中步骤S302的实现示例图；

图6是本申请一个实施例中多音字预测模型训练步骤的实现示例图；

图7是本申请一个实施例中多音字消歧方法的实现流程示意图；

图8是本申请一个实施例中多音字预测装置的结构框图；

图9是本申请一个实施例中多音字消歧装置的结构框图；

图10是本申请一个实施例中计算机设备的结构框图；

图11是本申请一个实施例中输出向量的示例图。

本发明的实施方式

为了使本申请的发明目的、技术方案及其技术效果更加清晰，以下结合附图和具体实施方式，对本申请进一步详细说明。应当理解的是，本说明书中描述的具体实施方式仅仅是为了解释本申请，并非为了限定本申请。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

在一个实施例中，提供了一种多音字预测方法，所述多音字预测方法的执行主体为能够实现所述多音字预测方法的设备，该设备可以包括但不限于终端和服务器，其中，终端可以包括但不限于台式终端和移动终端，台式终端包括台式电脑，移动终端包括但不限于手机、平板和笔记本电脑；服务器包括高性能计算机和高性能计算机集群。该多音字预测方法，如图1所示，具体可以包括如下步骤：

步骤S20，获取待预测文本中的多音字文本、以及所述多音字文本在所述待预测文本中的上文文本和/或下文文本。

所述待预测文本是指包含一个或多个多音字的文本，所述多音字可以具有两个或两个以上的读音。所述多音字可以为一个汉字如“传”，在“传说”中可以读“chuán”，在“传记”中可以读“zhuàn”，也可以是一个词语，如重创，在表示“受到重大伤亡、损害”时，可以读“Zhòng chuāng”，在表示“重新创办”时，可以读“Chóng chuàng”，还可以是具有两个或两个以上读音的英文单词或其他语言、词汇、语句等。

所述多音字文本是指多音字本身，例如“小明舍（shě）不得离开深圳”，这里的多音字文本为“舍”，上文文本是指在所述待预测文本中位于所述多音字文本前面的文本，这里的上文文本为“小明”，下文文本是指在所述待预测文本中位于所述多音字文本后面的文本，这里的下文文本为“不得离开深圳”。

针对多音字文本的预测和消歧，需要结合所述多音字文本的上下文语言学知识。现有技术中的多音字预测和消歧方式，通常只考量所述多音字文本的前后一、两词，而本实施例可以利用所述多音字文本的长距离的上文文本和/或下文文本。若多音字文本位于所述待预测文本的文本开头，则所述多音字文本只有下文文本，没有上文文本，此时步骤20获取的是多音字文本、以及多音字文本的下文文本。若多音字文本位于所述待预测文本的文本结尾，则所述多音字文本只有上文文本，没有下文文本，此时步骤20获取的是多音字文本、以及多音字文本的上文文本。当然，若多音字文本位于所述待预测文本的中间，则所述多音字文本前面具有上文文本，后面具有下文文本，此时步骤20获取的是多音字文本、多音字文本的上文文本和下文文本。

步骤S30，构建所述多音字文本、所述上文文本、所述下文文本各自对应的一个或多个特征向量。具体地，将所述多音字文本按字获取每个字的特征向量、将所述上文文本按字获取每个字的特征向量、将所述下文文本按字获取每个字的特征向量。所述多音字文本、所述上文文本或所述下文文本可以包含一个字，也可以包含多个字，例如“小明舍（shě）不得离开深圳”，这里的多音字文本“舍”包含一个字，则构建所述多音字文本对应的特征向量，即为构建“舍”的特征向量，上文文本为“小明”包含两个字，则构建所述上文文本对应的特征向量，即为构建“小”字的特征向量、“明”字的特征向量，下文文本为“不得离开深圳”包含六个字，则构建所述下文文本对应的特征向量，即为构建“不”字的特征向量、“得”字的特征向量、“离”字的特征向量、“开”字的特征向量、“深”字的特征向量、“圳”字的特征向量。如图2、图5所示，当一个字对应的特征向量有多个时，则将一个字对应的多个特征向量构成一个合成向量，则所述多音字文本、所述上文文本或所述下文文本包括多个字时，多个字的合成向量可以按照所述多音字文本、所述上文文本或所述下文文本在所述待预测文本中的前后顺序以向量矩阵的形式输入至多音字预测模型。所述特征向量可以为字向量、字的词性向量、字的前字或词的词性向量、字的后字或词的词性向量、所述字的位置向量等，当然也可以是多音字文本、上文文本或下文文本的其他特征向量。所述字向量可以为多音字文本、上文文本或下文文本包含的各字的字向量。所述词性向量可以为名词、形容词、动词等。所述字的位置向量可以为该字所在文本在所述待预测文本中的相对位置等。

在一个实施例中，如图3、图5所示，所述步骤30可以包括：

步骤S301，分别获得所述多音字文本、所述上文文本、所述下文文本的字特征信息；所述字特征信息包括字信息、字的词性信息、字的前字或词的词性信息、字的后字或词的词性信息、字的位置信息中的至少一种；

示例性地，如图5中的“words”表示字信息或词信息，可以为“优必选”、“好”、“厉害”，“优必选”因为包含有三个字，因此，在特征向量构建时，按照“优”、“必”、“选”逐字处理，“厉害”因为包含有两个字，因此，在特征向量构建时，按照“厉”、“害”逐字处理。“poses”表示词性信息，示例性地可以采用n、v、a表示。“Left poses”表示左词性信息，即该字或词的前字或词的词性，示例性地可以采用na_l、n、v表示。“right poses”表示右词性信息，即该字或词的后字或词的词性，示例性地可以采用v、a、na_r表示。“loc”表示字的位置信息，示例性地可以采用left、mid、right表示。

步骤S302，将所述多音字文本、所述上文文本、所述下文文本的字特征信息分别转换为相应的ID信息。示例性地，如图5所示，示例性地，上文文本包含的字“优”的特征信息包括：字信息“优”、字的词性信息“n”、字的前字词性信息“na_l”（表示没有前字）、字的后字词性信息“v”、字在所述待预测文本中的位置信息“left”。图5中示出的word2idx、pose2idx、loc2idx表示将特征信息向ID信息的转换。

在一个实施例中，如图4、图5所示，所述将所述多音字文本、所述上文文本、所述下文文本的字特征信息分别转换为相应的ID信息的步骤可以包括：

步骤S302A，预先建立所述字特征信息与所述ID信息之间的映射字典。

所述映射字典内存有所述字的特征信息与所述ID信息之间的对应关系和映射关系，当将所述字的特征信息输入至所述映射字典时，能够从所述映射字典中获取到与所述字的特征信息相对应的ID信息。

步骤S302B，基于所述映射字典获得不同所述字特征信息分别对应的ID信息。不同所述字特征信息具有不同的ID信息，均可以通过所述映射字典获得。

步骤S303，将所述ID信息进行向量化，得到所述多音字文本、所述上文文本、所述下文文本分别对应的一个或多个特征向量。进一步地，所述将所述ID信息进行向量化的步骤可以包括：所述字信息对应的ID信息通过Word2Vec转换为字向量，所述Word2Vecter为字转换成向量的手段；将所述字的词性信息、所述字的前字或词的词性信息、所述字的后字或词的词性信息、以及所述字的位置信息分别对应的ID信息通过独热编码转换为特征向量，所述独热编码即为图5中示出的“One-Hot”，是一种将特征信息转换为向量的编码手段。

步骤S40，将所述上文文本的特征向量、所述多音字文本的特征向量、所述下文文本的特征向量输入多音字预测模型获得多音字预测结果。所述多音字预测模型包括第一神经网络模块、第二神经网络模块和第三神经网络模块；所述第一神经网络模块输入所述上文文本的特征向量并得到第一输出向量，所述第二神经网络模块输入所述多音字文本的特征向量并得到第二输出向量，所述第三神经网络模块输入所述下文文本的特征向量并得到第三输出向量；所述多音字预测结果通过将所述第一输出向量、所述第二输出向量和所述第三输出向量进行拼接来获得。在一个实施例中，所述第一神经网络模块和所述第三神经网络模块可以为长短期记忆神经网络模块（LSTM）、所述第二神经网络模块可以为深度神经网络模块（DNN）。

步骤S50，基于所述多音字的每种读音的发音概率来确定所述多音字在所述待预测文本中的读音。

图2示出了本申请一个实施例中多音字预测方法的实现示例图，如图2所示，将所述待预测文本“优必选好厉害”依次经过所述多音字文本、所述上文文本和所述下文文本的获取和特征信息表达后，生成相应的特征向量输入至所述多音字预测模型，该多音字预测模型包括前向LSTM、DNN和后向LSTM，得到多音字预测结果。图11示出了本申请一个实施例中多音字预测结果的示例图，如图11所示，所述多音字预测结果表征所述多音字不同读音可能的概率大小，例如，表示“好”的读音为“hǎo”的概率为0.8、“好”的读音为“hào”的概率为0.2。进而可以选择发音概率最大的发音，即获得多音字“好”的读音“hao3”，作为多音字的发音标注，多音字的某个读音的概率比较高，采用该读音进行多音字的标注。

本实施例采用一种长距离、低干扰的网络结构。将多音字的上下文信息与自身信息拼接，完整的利用了待预测文本的整句信息，构建了多元素序列到唯一预测结果的网络，预测结果只有多音字读音，既保证了输出结果唯一，同时可以避免非多音字的分类干扰及编解码复杂度。多音字预测模型简化和高效。本实施例将神经网络模型作为统一的通用分类器，避免了采用过多分类器造成模型庞大，解码复杂度高的问题。

在一个实施例中，可以将多个包含多音字的训练文本作为输入，将所述训练文本包含的多音字的正确读音作为输出来对所述多音字预测模型进行训练。所述多音字预测模型可以通过大量的已有明确读音标注的训练样本对包括前向LSTM、DNN和后向LSTM的多音字预测模型进行训练获得。训练时，首先将所述多音字预测模型赋予一个初始化模型，将包含多音字的训练文本输入至所述多音字预测模型并获得多音字预测结果，将多音字预测结果与所述训练文本包含的多音字的正确读音进行误差计算，所述多音字预测结果可以通过交叉熵进行计算，所述训练文本包含的多音字的正确读音可以通过One-Hot方法进行标记，之后利用梯度下降方法，重新调节所述多音字预测模型内的参数，多次训练，直至所述多音字预测结果与训练文本包含的多音字的正确读音趋于一致。这里的交叉熵计算方法、One-Hot方法、梯度下降方法均可以采用神经网络模型训练有关的其他方法来替代。

在所述第一神经网络模块得到第一输出向量、所述第二神经网络模块得到第二输出向量、所述第三神经网络模块得到第三输出向量后，首先将所述第一输出向量、所述第二输出向量、所述第三输出向量拼接成一个向量，然后将拼接获得的向量做归一化处理，之后使用argmax函数解码向量，当然也可以采用其他向量解码方法来替代，该向量中概率最大位置对应的则为正确的读音。所述argmax函数的作用为获取向量中最大值所对应的索引。

在一个实施例中，如图6所示，所述多音字预测模型的训练步骤可以包括：

①通过文本迭代器获取多个训练文本，将所述训练文本作为待预测文本，依次执行所述多音字文本、所述上文文本、所述下文文本的获取步骤，以及所述多音字文本、所述上文文本、所述下文文本对应的特征向量的构建步骤，得到每一训练文本的特征向量数据；

②对各个所述训练文本的特征向量数据按照数据长度进行聚类划分；将每一聚类中的各所述训练文本的特征向量数据的数据长度调节一致；将每一聚类中的所述训练文本的特征向量数据批量输入至所述多音字预测模型；

所述步骤①与步骤②并行进行，并行进行处理的可以为不同的训练文本。

示例性地，图6中示出的“特征向量数据item”表示每一训练文本的特征向量数据，图6中示出的分桶操作表示对各个所述训练文本的特征向量数据按照数据长度进行聚类划分，具体地，属于较短数据长度的划分到一起，将属于较长数据长度的划分到一起，即将数据长度彼此差别不大的所述训练文本的特征向量数据划分到一起，具体地，将划分好的所述训练文本的特征向量数据添加至预设的特征队列，待所述特征队列被塞满时，将每一聚类中的各所述训练文本的特征向量数据的数据长度调节一致然后批量输入至所述多音字预测模型中，图6中的填充指的是数据长度调节操作，打包指的是批量输入操作。

本实施例将文本提取、向量构建等操作与向量批量输入多音字预测模型的操作并行处理，可以有效地提高效率，适用于大规模样本数据训练，有利于减小模型训练周期。本实施例的模型训练可靠性和效率均较高。

如图7所示，在一个实施例中，还提供了一种多音字消歧方法，可以包括如下步骤：

步骤S1，对待消歧文本进行分词得到多个分词结果；所述待消歧文本可能包含多音字，也可能不包含多音字，可以为一个语句、一个语言文本等。

步骤S2，判断各个所述分词结果中是否包含多音字。

在所述分词结果中不包含多音字的情况下，执行步骤S3，查询预设词典来获得所述分词结果的读音；所述预设词典可以为字、词、短语等与读音之间映射的词典、字词库等，即直接能够在所述预设词典中找到和确定所述字、词或短语的读音；

步骤S4，在所述分词结果中包含多音字的情况下，对多音字分词结果的词长进行确定，并将所述多音字分词结果的词长与预设词长进行比较。所述多音字分词结果是指包含有多音字的分词结果；所述预设词长可以为1，进而能够对所述多音字分词结果为单音节或多音节进行区分，大于预设词长的多音字分词结果为多音节，等于预设词长的多音字分词结果为单音节。当然所述预设词长可以根据具体需要来设定为其他长度。

步骤S5，在所述多音字分词结果的词长大于预设词长的情况下，即所述多音字分词结果为多音节，则查询并判断所述预设词典中是否存有所述多音字分词结果。

在所述多音字分词结果存在于所述预设词典中的情况下，执行步骤S7，查询所述预设词典来获得所述多音字分词结果的读音；即首先先查找预设词典中是否已存有该所述多音字分词结果的读音，如果在所述预设词典中能够查找得到，则直接使用该读音来对所述多音字分词结果进行标注。

步骤S8，在所述多音字分词结果未存在于所述预设词典中的情况下，则在预设规则库中查找是否存在与所述多音字分词结果的特征信息相匹配的结果。

所述预设规则库是指对多音字特征信息与多音字读音之间对应关系建立规则的库；具体地，可以通过统计提取多音字文本中的特征，并基于多音字文本的正确读音来建立对应规则。多音字特征信息可以为：多音字的字、多音字词性、前后字或词的词性、多音字在文本中相对位置、多音字长度等。当所述预设规则库的规则过多时，可以采用支持向量机（SVM）来解决之间冲突。若所述预设规则库中存在能够匹配所述多音字分词结果特征信息的多音字读音，则可以直接采用该多音字读音对所述多音字分词结果进行标注。

在所述预设规则库中存在与所述多音字分词结果的特征信息相匹配的结果的情况下，执行步骤S11，将所述预设规则库中与所述多音字分词结果的特征信息相匹配的结果作为所述多音词分词结果的读音；

步骤S12，在所述预设规则库中未存在与所述多音字分词结果的特征信息相匹配的结果的情况下，则说明所述预设规则库未对该多音字分词结果建立规则，则将所述多音字分词结果作为待预测文本，通过上述任一实施例的所述多音字预测方法对所述多音字分词结果进行预测。

本实施例将词典查询、规则库校验、利用深度学习和神经网络预测至少3种多音字预测和消歧方式，结合有效的逻辑进行融合使用，能够避免单一使用某一种方式在对某些特定字进行预测时的局限性。本实施例通过词典、规则库和神经网络的组合预测，形成了精确度高且易维护的多音字消歧方法。

在一个实施例中，在所述多音字分词结果的词长小于等于预设词长的情况下，即所述多音字分词结果为单音节，则执行步骤S6，在所述预设规则库中查找是否存在与所述多音字分词结果的特征信息相匹配的结果；

在所述预设规则库中存在与所述多音字分词结果的特征信息相匹配的结果的情况下，执行步骤S9，将所述预设规则库中与所述多音字分词结果的特征信息相匹配的结果作为所述多音词分词结果的读音；

在所述预设规则库中未存在与所述多音字分词结果的特征信息相匹配的结果的情况下，执行步骤S10，将所述多音字分词结果作为待预测文本，通过所述多音字预测方法对所述多音字分词结果进行预测。

本实施例是针对所述多音字分词结果的词长小于等于预设词长，即单音节多音字预测的实现过程。

在一个实施例中，在所述多音字预测方法未能得到正确读音的情况下，将对应所述多音字分词结果的正确读音补充至所述预设词典和所述预设规则库。

在一个实施例中，在所述多音字预测方法未能得到正确读音的情况下，利用对应所述多音字分词结果的正确读音作为样本以训练所述多音字预测模型。

在所述多音字预测方法未能有效进行多音字正确读音预测的情况下，可将对应所述多音字分词结果的正确读音作为新的多音字样本优先在预设词典和预设规则库中进行补充，以实现快速维护。同时，将对应所述多音字分词结果的正确读音作为新的多音字样本对多音字预测模型的迭代和训练以实现所述多音字预测模型的稳定改进。

如图8所示，在一个实施例中，还提供了一种多音字预测装置，可以包括：文本获取模块、向量构建模块、模型预测模块和读音确定模块；所述文本获取模块用于获取待预测文本中的多音字文本、以及所述多音字文本在所述待预测文本中的上文文本和/或下文文本；所述向量构建模块用于构建所述多音字文本、所述上文文本、所述下文文本各自对应的一个或多个特征向量；所述模型预测模块用于将所述上文文本的特征向量、所述多音字文本的特征向量、所述下文文本的特征向量输入多音字预测模型获得多音字预测结果；所述多音字预测模型包括第一神经网络模块、第二神经网络模块和第三神经网络模块；所述第一神经网络模块输入所述上文文本的特征向量并得到第一输出向量，所述第二神经网络模块输入所述多音字文本的特征向量并得到第二输出向量，所述第三神经网络模块输入所述下文文本的特征向量并得到第三输出向量；所述多音字预测结果包括所述多音字的每种读音的发音概率，并通过将所述第一输出向量、所述第二输出向量和所述第三输出向量进行拼接来获得；所述读音确定模块用于基于所述多音字的每种读音的发音概率来确定所述多音字在所述待预测文本中的读音。

如图9所示，在一个实施例中，还提供了一种多音字消歧装置，可以包括：文本分词模块、多音字判断模块、词长确定模块、词典查询模块、规则库校验模块和上述任一实施例所述的多音字预测装置；所述文本分词模块用于对待消歧文本进行分词得到多个分词结果；所述多音字判断模块用于判断各个所述分词结果中是否包含多音字；在所述分词结果中不包含多音字的情况下，可以利用所述词典查询模块查询预设词典来获得所述分词结果的读音；所述词长确定模块在所述分词结果中包含多音字的情况下，对多音字分词结果的词长进行确定；所述多音字分词结果是指该分词结果中包含多音字；所述词典查询模块用于在所述多音字分词结果的词长大于预设词长的情况下，查询预设词典并判断所述预设词典中是否存有所述多音字分词结果；在所述多音字分词结果存在于所述预设词典中的情况下，可以利用所述词典查询模块查询预设词典来获得所述多音字分词结果的读音；所述规则库校验模块用于在所述多音字分词结果未存在于所述预设词典中的情况下，在所述预设规则库中查找是否存在与所述多音字分词结果的特征信息相匹配的结果；在所述预设规则库中存在与所述多音字分词结果的特征信息相匹配的结果的情况下，所述规则库校验模块可以将所述预设规则库中与所述多音字分词结果的特征信息相匹配的结果作为所述多音词分词结果的读音；所述规则库校验模块还用于在所述多音字分词结果的词长小于等于预设词长的情况下，在所述预设规则库中查找是否存在与所述多音字分词结果的特征信息相匹配的结果；所述多音字预测装置用于在所述预设规则库中未存在与所述多音字分词结果的特征信息相匹配的结果的情况下，将所述多音字分词结果作为待预测文本，对所述多音字分词结果进行预测。

在一个实施例中，提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述任一实施例所述的多音字预测方法，也可以执行上述任一实施例所述的多音字消歧方法。图10示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端或服务器。如图10所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现多音字预测方法和/或多音字消歧方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行多音字预测方法和/或多音字消歧方法。本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提出了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述任一实施例所述多音字预测方法的步骤，也可以执行上述任一实施例所述多音字消歧方法的步骤。本申请提供的多音字预测方法和/或多音字消歧方法可以实现为一种计算机程序的形式，计算机程序可在如图10所示的计算机设备上运行。计算机设备的存储器中可存储组成多音字预测装置和/或多音字消歧装置的各个程序模板。比如，文本获取模块、向量构建模块、文本分词模块、词典查询模块、规则库校验模块等。

本申请可以应用于语音合成系统（text to speech）。

需要说明的是，上述多音字预测方法、多音字消歧方法、多音字预测装置、多音字消歧装置、计算机设备及计算机可读存储介质属于一个总的发明构思，多音字预测方法、多音字消歧方法、多音字预测装置、多音字消歧装置、计算机设备及计算机可读存储介质实施例中的内容可相互适用。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，根据本申请的技术方案及其发明构思加以等同替换或改变，都应涵盖在本申请的保护范围之内。此外，尽管本说明书中使用了一些特定的术语，但这些术语只是为了方便说明，并不对本申请构成任何限制。

Claims

一种多音字预测方法，其特征在于，所述多音字预测方法包括如下步骤：

获取待预测文本中的多音字文本、以及所述多音字文本在所述待预测文本中的上文文本和/或下文文本；

构建所述多音字文本、所述上文文本、所述下文文本各自对应的一个或多个特征向量；

将所述上文文本的特征向量、所述多音字文本的特征向量、所述下文文本的特征向量输入多音字预测模型获得多音字预测结果；所述多音字预测模型包括第一神经网络模块、第二神经网络模块和第三神经网络模块；所述第一神经网络模块输入所述上文文本的特征向量并得到第一输出向量，所述第二神经网络模块输入所述多音字文本的特征向量并得到第二输出向量，所述第三神经网络模块输入所述下文文本的特征向量并得到第三输出向量；所述多音字预测结果包括所述多音字的每种读音的发音概率，并通过将所述第一输出向量、所述第二输出向量和所述第三输出向量进行拼接来获得；

基于所述多音字的每种读音的发音概率来确定所述多音字在所述待预测文本中的读音。
根据权利要求1所述的多音字预测方法，其特征在于，所述第一神经网络模块和所述第三神经网络模块为长短期记忆神经网络模块、所述第二神经网络模块为深度神经网络模块。
根据权利要求1所述的多音字预测方法，其特征在于，所述构建所述多音字文本、所述上文文本、所述下文文本各自对应的一个或多个特征向量的步骤包括：

分别获得所述多音字文本、所述上文文本、所述下文文本的字特征信息；所述字特征信息包括字信息、字的词性信息、字的前字或词的词性信息、字的后字或词的词性信息、字的位置信息中的至少一种；

将所述多音字文本、所述上文文本、所述下文文本的字特征信息分别转换为相应的ID信息；

将所述ID信息进行向量化，得到所述多音字文本、所述上文文本、所述下文文本分别对应的一个或多个特征向量；在所述多音字文本、所述上文文本或所述下文文本对应有多个特征向量的情况下，将所述多个特征向量进行拼接得到合成的特征向量。
根据权利要求3所述的多音字预测方法，其特征在于，所述将所述多音字文本、所述上文文本、所述下文文本的字特征信息分别转换为相应的ID信息的步骤包括：

预先建立所述字特征信息与所述ID信息之间的映射字典；

基于所述映射字典获得不同所述字特征信息分别对应的ID信息。
根据权利要求3所述的多音字预测方法，其特征在于，所述将所述ID信息进行向量化的步骤包括：

所述字信息对应的ID信息通过Word2Vec转换为字向量；

所述字的词性信息、所述字的前字或词的词性信息、所述字的后字或词的词性信息、以及所述字的位置信息分别对应的ID信息通过独热编码转换为特征向量。
根据权利要求1所述的多音字预测方法，其特征在于，将多个包含多音字的训练文本作为输入，将所述训练文本包含的多音字的正确读音作为输出来对所述多音字预测模型进行训练。
根据权利要求6所述的多音字预测方法，其特征在于，所述多音字预测模型的训练步骤包括：

①通过文本迭代器获取多个训练文本，将所述训练文本作为待预测文本，依次执行所述多音字文本、所述上文文本、所述下文文本的获取步骤，以及所述多音字文本、所述上文文本、所述下文文本对应的特征向量的构建步骤，得到每一训练文本的特征向量数据；

②对各个所述训练文本的特征向量数据按照数据长度进行聚类划分；将每一聚类中的各所述训练文本的特征向量数据的数据长度调节一致；将每一聚类中的所述训练文本的特征向量数据批量输入至所述多音字预测模型；

所述步骤①与步骤②并行进行。
一种多音字消歧方法，其特征在于，所述多音字消歧方法包括：

对待消歧文本进行分词得到多个分词结果；

判断各个所述分词结果中是否包含多音字；

确定多音字分词结果的词长是否大于预设词长；所述多音字分词结果是指包含有多音字的分词结果；

在所述多音字分词结果的词长大于预设词长的情况下，查询并判断预设词典中是否存有所述多音字分词结果；

在所述多音字分词结果未存在于所述预设词典中的情况下，在预设规则库中查找是否存在与所述多音字分词结果的特征信息相匹配的结果；

在所述预设规则库中未存在与所述多音字分词结果的特征信息相匹配的结果的情况下，将所述多音字分词结果作为待预测文本，通过权利要求1至7任一项所述的多音字预测方法对所述多音字分词结果进行预测。
根据权利要求8所述的多音字消歧方法，其特征在于，在所述分词结果中不包含多音字的情况下，查询预设词典来获得所述分词结果的读音。
根据权利要求8所述的多音字消歧方法，其特征在于，

在所述多音字分词结果的词长小于等于预设词长的情况下，在所述预设规则库中查找是否存在与所述多音字分词结果的特征信息相匹配的结果；

在所述预设规则库中未存在与所述多音字分词结果的特征信息相匹配的结果的情况下，将所述多音字分词结果作为待预测文本，通过所述多音字预测方法对所述多音字分词结果进行预测。
根据权利要求8或10所述的多音字消歧方法，其特征在于，在所述多音字预测方法未能得到正确读音的情况下，将对应所述多音字分词结果的正确读音补充至所述预设词典和所述预设规则库。
根据权利要求8或10所述的多音字消歧方法，其特征在于，在所述多音字预测方法未能得到正确读音的情况下，利用对应所述多音字分词结果的正确读音作为样本以训练所述多音字预测模型。
一种多音字预测装置，其特征在于，所述多音字预测装置包括：

文本获取模块，用于获取待预测文本中的多音字文本、以及所述多音字文本在所述待预测文本中的上文文本和/或下文文本；

向量构建模块，用于构建所述多音字文本、所述上文文本、所述下文文本各自对应的一个或多个特征向量；

模型预测模块，用于将所述上文文本的特征向量、所述多音字文本的特征向量、所述下文文本的特征向量输入多音字预测模型获得多音字预测结果；所述多音字预测模型包括第一神经网络模块、第二神经网络模块和第三神经网络模块；所述第一神经网络模块输入所述上文文本的特征向量并得到第一输出向量，所述第二神经网络模块输入所述多音字文本的特征向量并得到第二输出向量，所述第三神经网络模块输入所述下文文本的特征向量并得到第三输出向量；所述多音字预测结果包括所述多音字的每种读音的发音概率，并通过将所述第一输出向量、所述第二输出向量和所述第三输出向量进行拼接来获得；和

读音确定模块，用于基于所述多音字的每种读音的发音概率来确定所述多音字在所述待预测文本中的读音。
一种多音字消歧装置，其特征在于，所述多音字消歧装置包括：

文本分词模块，用于对待消歧文本进行分词得到多个分词结果；

多音字判断模块，用于判断各个所述分词结果中是否包含多音字；

词长确定模块，用于确定多音字分词结果的词长是否大于预设词长；所述多音字分词结果是指包含有多音字的分词结果；

词典查询模块，用于在所述多音字分词结果的词长大于预设词长的情况下，查询预设词典并判断所述预设词典中是否存有所述多音字分词结果；

规则库校验模块，用于在所述多音字分词结果未存在于所述预设词典中的情况下，在预设规则库中查找是否存在与所述多音字分词结果的特征信息相匹配的结果；和

权利要求13所述的多音字预测装置，所述多音字预测装置用于在所述预设规则库中未存在与所述多音字分词结果的特征信息相匹配的结果的情况下，将所述多音字分词结果作为待预测文本，对所述多音字分词结果进行预测。
一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1至7中任一项所述多音字预测方法的步骤。
一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求8至12中任一项所述多音字消歧方法的步骤。
一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行权利要求1至7中任一项所述多音字预测方法的步骤。
一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行权利要求8至12中任一项所述多音字消歧方法的步骤。