WO2021134581A1

WO2021134581A1 - 基于韵律特征预测的语音合成方法、装置、终端及介质

Info

Publication number: WO2021134581A1
Application number: PCT/CN2019/130741
Authority: WO
Inventors: 李贤�; 黄东延; 丁万; 张皓; 熊友军
Original assignee: 深圳市优必选科技股份有限公司
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2021-07-08
Also published as: CN111226275A

Abstract

一种基于韵律特征预测的语音合成方法、语音合成装置、智能终端及计算机可读存储介质，方法包括：获取待合成文本（S102）；将待合成文本输入预设的韵律预测模型，获取待合成文本的韵律特征作为第一韵律特征，根据第一韵律特征确定目标韵律特征（S104），待合成文本的韵律特征包括韵律词特征、韵律短语特征、韵律语调短语特征；根据目标韵律特征进行语音合成，生成与待合成文本对应的目标语音（S106）。可以提高文本的韵律特征预测的准确性，提高语音合成的效果。

Description

基于韵律特征预测的语音合成方法、装置、终端及介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于韵律特征预测的语音合成方法、装置、智能终端及计算机可读存储介质。

背景技术

随着移动互联网和人工智能技术的快速发展，语音播报、听小说、听新闻、智能交互等一系列语音合成的场景越来越多。语音合成可以将文本、文字等转换成自然语音输出。

在语音合成的过程中，需要对文本进行韵律预测。韵律影响发音的自然度、流利度，一个好的韵律预测结果会使得合成得到的语音更像人说话的停顿方式，从而使得合成的语音更自然。

技术问题

但是，在现有的韵律预测的方案中，主要是根据汉语的音素等声学特征进行神经网络模型的训练和预测。但是，通过上述方案得到的韵律特征预测结果与真实的韵律特征之间存在一定的误差，导致了韵律预测的准确性有所不足，从而造成了语音合成的效果不足。

也就是说，上述语音合成的方案中，因为韵律预测的准确性不足导致了合成的语音的效果不足。

技术解决方案

基于此，有必要针对上述问题，提出了一种基于韵律特征预测的语音合成方法、装置、智能终端及计算机可读存储介质。

在本申请的第一方面，提出了一种基于韵律特征预测的语音合成方法。

一种基于韵律特征预测的语音合成方法，包括：

获取待合成文本；

将所述待合成文本输入预设的韵律预测模型，获取所述待合成文本的韵律特征作为第一韵律特征，根据所述第一韵律特征确定目标韵律特征，所述待合成文本的韵律特征包括韵律词特征、韵律短语特征、韵律语调短语特征；

根据所述目标韵律特征进行语音合成，生成与所述待合成文本对应的目标语音。

其中，所述将所述待合成文本输入预设的韵律预测模型，获取所述待合成文本的韵律特征作为第一韵律特征的步骤，还包括：

将所述待合成文本输入预设的韵律词预测模型，获取第一韵律词特征；

将所述待合成文本和/或所述第一韵律词特征和预设的韵律短语预测模型，获取第一韵律短语特征；

将所述待合成文本、第一韵律词特征和/或所述第一韵律短语特征输入预设的韵律语调短语预测模型，获取第一韵律语调短语特征；

将所述第一韵律词特征、第一韵律短语特征、第一韵律语调短语特征作为所述第一韵律特征。

在本申请的第二方面，提出了一种基于韵律特征预测的语音合成装置。

一种基于韵律特征预测的语音合成装置，包括：

文本获取模块，用于获取待合成文本；

韵律特征获取模块，用于将所述待合成文本输入预设的韵律预测模型，获取所述待合成文本的韵律特征作为第一韵律特征，根据所述第一韵律特征确定目标韵律特征，所述待合成文本的韵律特征包括韵律词特征、韵律短语特征、韵律语调短语特征；

语音合成模块，用于根据所述目标韵律特征进行语音合成，生成与所述待合成文本对应的目标语音。

在本申请的第三方面，提出了一种智能终端。

一种智能终端，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

获取待合成文本；

在本申请的第四方面，提出了一种计算机可读存储介质。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：

获取待合成文本；

有益效果

实施本申请实施例，将具有如下有益效果：

采用了上述基于韵律特征预测的语音合成方法、装置、智能终端及计算机可读存储介质之后，在语音合成的过程中，通过韵律预测模型对待合成文本的韵律特征进行预测，其中，预测的韵律特征包括韵律词特征、韵律短语特征、韵律语调短语特征等韵律层级特征，然后将该韵律特征作为语音合成的基础，然后根据韵律特征确定与待合成文本对应的目标语音，完成语音合成的过程。也就是说，在本实施例中，通过韵律预测模型可以对韵律词特征、韵律短语特征、韵律语调短语特征等韵律层级特征进行准确的预测，提高了韵律特征预测的准确性，从而提高了语音合成的效果，提升了用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为本申请的一个实施例的基于韵律特征预测的语音合成方法的应用环境图；

图2为本申请的一个实施例的一种基于韵律特征预测的语音合成方法的流程示意图；

图3为本申请的一个实施例中韵律特征结构示意图；

图4为本申请的一个实施例中第一韵律特征获取的流程示意图；

图5为本申请的一个实施例中第一韵律特征获取过程的示意图；

图6为本申请的一个实施例的一种基于韵律特征预测的语音合成方法的流程示意图；

图7为本申请的一个实施例中第二韵律特征获取的流程示意图；

图8为本申请的一个实施例中目标韵律特征获取的流程示意图；

图9为本申请的一个实施例中目标韵律特征获取过程的示意图；

图10为本申请的一个实施例中韵律预测模型训练的流程示意图；

图11为本申请的一个实施例中韵律预测模型训练的流程示意图；

图12为本申请的一个实施例中基于韵律特征预测的语音合成装置的结构示意图；

图13为本申请的一个实施例中基于韵律特征预测的语音合成装置的结构示意图；

图14为本申请的一个实施例中基于韵律特征预测的语音合成装置的结构示意图；

图15为本申请的一个实施例的运行上述基于韵律特征预测的语音合成方法的计算机设备的结构示意图。

本发明的实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为一个实施例中一种基于韵律特征预测的语音合成方法的应用环境图。参照图1，该基于韵律特征预测的语音合成方法可应用于语音合成系统。该语音合成系统包括终端110和服务器120。终端110和服务器120通过网络连接，终端110具体可以是台式终端或移动终端，移动终端具体可以是手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。其中，终端110用于对需要进行合成的文本进行分析处理，服务器120用于模型的训练与预测。

在另一个实施例中，上述基于韵律特征预测的语音合成方法所应用的语音合成系统还可以是基于终端110实现的。终端用于模型的训练与预测，并将需要进行合成的文本转换成语音。

如图2所示，在一个实施例中，提供了一种基于韵律特征预测的语音合成方法。该方法既可以应用于终端，也可以应用于服务器，本实施例以应用于终端举例说明。该基于韵律特征预测的语音合成方法具体包括如下步骤：

步骤S102：获取待合成文本。

待合成文本为需要进行语音合成的文本信息。例如，在语音聊天机器人、语音读报等场景下，需要转换成语音的文本信息。

示例性的，待合成文本可以是“自从那一刻起，她便不再妄自菲薄。”。

步骤S104：将所述待合成文本输入预设的韵律预测模型，获取所述待合成文本的韵律特征作为第一韵律特征，根据所述第一韵律特征确定目标韵律特征。

对待合成文本进行文本分析，确定人说与待合成文本对应的话时的时长、延续、停顿、停顿时长、能量等进行预测，为语音合成过程中韵律预测所需要达到的效果。在本实施例中，韵律预测模型指基于深度学习或神经网络模型对待合成文本的韵律特征进行预测，以使得预测得到的韵律特征能用于声学编码器来获得较好的语音合成效果。

韵律预设模型为预先训练完成的神经网络模型，模型训练的过程中采用训练文本以及与每一个训练文本对应的标注好的韵律特征结果对韵律预设模型进行训练，以使得韵律预设模型可以对待合成文本的韵律特征进行预测，预测得到得到韵律特征为第一韵律特征。根据第一韵律特征可以确定最终用于语音合成的目标韵律特征，例如，将第一韵律特征直接作为目标韵律特征。

在本实施例中，韵律特征包括韵律词特征（简称PW）、韵律短语特征（简称PPH）、韵律语调短语特征（简称IPH）。

如图3所示，给出了韵律特征包括的韵律词特征、韵律短语特征、韵律语调短语特征对应的韵律层级结构。其中，韵律语调短语特征基于韵律短语特征，韵律短语特征基于韵律词特征。

也就是说，在本实施例中，通过预设的韵律预测模型获取待合成文本的对应的韵律特征的过程中，还包括了与韵律特征对应的韵律层级结构下的韵律特征。

为了对待合成文本的韵律特征进行准确的预测，在本实施例中，输入预设的韵律预测模型的是与待合成文本对应的字向量，基于字粒度的基础上对韵律预测模型进行训练和韵律结构的预测，可以提高韵律预测和语音合成的准确性。

具体实施例中，上述获取待合成文本的步骤之后，还包括：确定与所述待合成文本对应的多个字向量。也就是说，对待合成文本进行处理，将待合成文本划分成多个字向量，然后将与待合成文本对应的多个字向量作为韵律预测模型的输入。在一个具体的实施例中，上述字向量的维度可以为200维的字向量。

在一个具体的实施例汇总，对包含韵律词特征、韵律短语特征、韵律语调短语特征的第一韵律特征的预测过程进行详细说明：

如图4所示，第一韵律特征的计算过程包括如图4所示的步骤S1041-S1044：

步骤S1041：将所述待合成文本输入预设的韵律词预测模型，获取第一韵律词特征；

步骤S1042：将所述待合成文本和/或所述第一韵律词特征和预设的韵律短语预测模型，获取第一韵律短语特征；

步骤S1043：将所述待合成文本、第一韵律词特征和/或所述第一韵律短语特征输入预设的韵律语调短语预测模型，获取第一韵律语调短语特征；

步骤S1044：将所述第一韵律词特征、第一韵律短语特征、第一韵律语调短语特征作为所述第一韵律特征。

如前所述，韵律特征包括韵律词特征、韵律短语特征、韵律语调短语特征，在通过韵律预测模型对韵律特征进行预测的过程中，需要分别通过韵律预测模型中与韵律词特征、韵律短语特征、韵律语调短语特征对应的模块进行韵律词特征、韵律短语特征、韵律语调短语特征的预测。

上述韵律预测模型包括韵律词预测模型、韵律短语预测模型、韵律语调短语预测模型，分别用于对韵律结构组成中的韵律词特征、韵律短语特征以及韵律语调短语特征的预测。

在步骤S102获取到待合成文本之后，首先将待合成文本输入韵律词预测模型，获取输出结果，其中，输出结果为第一韵律词特征。

在对韵律短语特征进行预测的过程中，将待合成文本、以及上述第一韵律词特征输入预设的韵律短语预测模型，获取输出结果，输出结果为第一韵律短语特征。

在对韵律语调短语特征进行预测的过程中，将待合成文本以及上述第一韵律词特征、第一韵律短语特征输入预设的韵律语调短语预测模型，获取输出结果，输出结果为第一韵律语调短语特征。

其中，第一韵律词特征、第一韵律短语特征、第一韵律语调短语特征组成第一韵律特征。

并且，上述输入韵律词预测模型、韵律短语预测模型、韵律语调短语预测模型中的待合成文本，可以是如前所述的对待合成文本进行处理之后获取的与所述待合成文本对应的字向量。

如图5所示，给出了上述步骤S1041-S1044中的第一韵律特征的生成过程的流程示意图。

上述韵律词预测模型、韵律短语预测模型、韵律语调短语预测模型，分别用于对韵律结构组成中的韵律词特征、韵律短语特征以及韵律语调短语特征等韵律层级结构下的韵律特征进行预测，提高了韵律特诊预测的准确性，以此作为后续语音合成过程中的输入，以提高语音合成的准确性。

步骤S106：根据所述目标韵律特征进行语音合成，生成与所述待合成文本对应的目标语音。

在语音合成的步骤中，将韵律特征作为输入，通过预设的声学编码器对待合成文本对应的韵律特征进行语音合成，输出对应的目标语音。

在一个实施例中，可以直接将第一韵律特征作为声学编码器的输入，确定对应的目标语音。在其它实施例中，还可以对第一韵律特征进行进一步的计算处理，确定对应的目标韵律特征，然后将目标韵律特征作为声学编码器的输入，进行目标语音的合成。

在另一个可选的实施例中，为了进一步的提高韵律特征预测的准确性，还可以通过优化算法对韵律特征进行进一步的优化。

具体的，如图6所示，上述基于韵律特征预测的语音合成方法还包括：

步骤S105：通过预设的优化算法对所述第一韵律特征进行处理，获取与所述第一韵律特征对应的第二韵律特征，对所述第一韵律特征和所述第二韵律特征进行拼接处理，获取目标韵律特征。

在本实施例中，在通过预设的韵律预测模型获取与待合成文本对应的第一韵律特征之后，还需要对第一韵律特征进行进一步的处理，以提高韵律预测和后续的语音合成的准确性。

在获取第一韵律特征之后，通过预设的优化算法对第一韵律特征进行优化处理，获取对应的第二韵律特征。其中，通过优化算法对第一韵律特征进行优化处理的过程是对第一韵律特征中包含的各个特征参数进行优化处理的过程。

在对优化算法对第一韵律特征进行优化处理之后，将第一韵律特征和第二韵律特征进行拼接处理，获取拼接完成的韵律特征作为目标韵律特征。具体的，将第二韵律特征拼接到第一韵律特征的后面，获取拼接后的特征特征向量作为目标韵律特征。

在后续的语音合成过程中，将经过优化算法处理和拼接处理后的目标韵律特征作为后续语音合成步骤中的输入，可以获取准确性更好的语音合成结果。

在本实施例中，在语音合成的过程中，通过韵律预测模型获取需要进行语音合成的待合成文本的韵律特征，并且通过优化算法对获取的韵律特征进行优化处理并拼接至韵律预测模型输出的韵律特征的后面，获取拼接完成的目标韵律特征；然后通过预设的声学编码器根据目标韵律特征进行语音合成，从而获取待合成文本对应的语音合成结果（即目标语音）。

在一个具体的实施例中，上述步骤S105中，第二韵律特征的计算过程可以如图7所示：

步骤S1051：通过所述预设的优化算法对所述第一韵律词特征进行处理，获取与所述第一韵律词特征对应的第二韵律词特征；

步骤S1052：通过所述预设的优化算法对所述第一韵律短语特征进行处理，获取与所述第一韵律短语特征对应的第二韵律短语特征；

步骤S1053：通过所述预设的优化算法对所述第一韵律语调短语特征进行处理，获取与所述韵律语调短语特征对应的第二韵律语调短语特征；

步骤S1054：将所述第二韵律词特征、第二韵律短语特征、第二韵律语调短语特征作为所述第二韵律特征。

也就是说，在步骤S102获取到待合成文本之后，首先将待合成文本输入韵律词预测模型，获取输出结果，其中，输出结果为第一韵律词特征。然后，为了对韵律词特征进行优化，还需要通过优化算法对第一韵律词特征进行优化处理，获取对应的第二韵律词特征。最终，将第二韵律词特征拼接到第一韵律词特征的后面，组成新的韵律词特征向量，作为目标韵律词特征。

在对韵律短语特征进行预测的过程中，将待合成文本、以及上述第一韵律词特征输入预设的韵律短语预测模型，获取输出结果，输出结果为第一韵律短语特征。然后，为了对韵律短语特征进行优化，通过优化算法对第一韵律短语特征进行优化处理，获取对应的第二韵律短语特征。最终，将第二韵律短语特征拼接到第一韵律短语特征的后面，组成新的韵律短语特征向量，作为目标韵律短语特征。

在对韵律语调短语特征进行预测的过程中，将待合成文本以及上述第一韵律词特征、第一韵律短语特征输入预设的韵律语调短语预测模型，获取输出结果，输出结果为第一韵律语调短语特征。然后，为了对韵律语调短语特征进行优化，通过优化算法对第一韵律语调短语特征进行优化处理，获取对应的第二韵律语调短语特征。最终，将第二韵律语调短语特征拼接到第一韵律语调短语特征的后面，组成新的韵律语调短语特征向量，作为目标韵律语调短语特征。

其中，第二韵律词特征、第二韵律短语特征、第二韵律语调短语特征组成第二韵律特征；目标韵律词特征、目标韵律短语特征、目标韵律语调短语特征组成目标韵律特征。

在一个具体的实施例中，上述对第一韵律特征进行处理的算法为Viterbi算法。

进一步的，在一个具体的实施例中，如图8所示，上述目标韵律特征的生成还可以是基于步骤S1041-S1044以及步骤S105中的优化算法（以Viterbi算法为例）的综合处理过程。

具体的，目标韵律特征的生成过程还包括：

步骤S211：将待合成文本输入预设的韵律词预测模型，获取第一韵律词特征；

步骤S212：通过Viterbi算法对第一韵律词特征进行处理，获取与第一韵律词特征对应的第二韵律词特征；

步骤S213：对第一韵律词特征与第二韵律词特征进行拼接，获取目标韵律词特征；

步骤S221：将待合成文本和/或目标韵律词特征输入预设的韵律短语预测模型，获取第一韵律短语特征；

步骤S222：通过Viterbi算法对第一韵律短语特征进行处理，获取与第一韵律短语特征对应的第二韵律短语特征；

步骤S223：对第一韵律短语特征与第二韵律短语特征进行拼接，获取目标韵律短语特征；

步骤S231：将待合成文本、目标韵律词特征和/或目标韵律短语特征输入预设的韵律语调短语预测模型，获取第一韵律语调短语特征；

步骤S232：通过Viterbi算法对第一韵律语调短语特征进行处理，获取与韵律语调短语特征对应的第二韵律语调短语特征；

步骤S233：对第一韵律语调短语特征与第二韵律语调短语特征进行拼接，获取目标韵律语调短语特征；

步骤S240：将目标韵律词特征、目标韵律短语特征、目标韵律语调短语特征作为目标韵律特征。

在步骤S102获取到待合成文本之后，首先将待合成文本输入韵律词预测模型，获取输出结果，其中，输出结果为第一韵律词特征。然后，为了对韵律词特征进行优化，还需要通过Viterbi算法对第一韵律词特征进行优化处理，获取对应的第二韵律词特征。最终，将第二韵律词特征拼接到第一韵律词特征的后面，组成新的韵律词特征向量，作为目标韵律词特征。

在对韵律短语特征进行预测的过程中，将待合成文本、以及上述目标韵律词特征输入预设的韵律短语预测模型，获取输出结果，输出结果为第一韵律短语特征。然后，为了对韵律短语特征进行优化，通过Viterbi算法对第一韵律短语特征进行优化处理，获取对应的第二韵律短语特征。最终，将第二韵律短语特征拼接到第一韵律短语特征的后面，组成新的韵律短语特征向量，作为目标韵律短语特征。

在对韵律语调短语特征进行预测的过程中，将待合成文本以及上述目标韵律词特征、目标韵律短语特征输入预设的韵律语调短语预测模型，获取输出结果，输出结果为第一韵律语调短语特征。然后，为了对韵律语调短语特征进行优化，通过Viterbi算法对第一韵律语调短语特征进行优化处理，获取对应的第二韵律语调短语特征。最终，将第二韵律语调短语特征拼接到第一韵律语调短语特征的后面，组成新的韵律语调短语特征向量，作为目标韵律语调短语特征。

如图9所示，给出了上述步骤S211-S240中的目标韵律特征的生成过程的流程示意图。

上述韵律词预测模型、韵律短语预测模型、韵律语调短语预测模型，分别用于对韵律结构组成中的韵律词特征、韵律短语特征以及韵律语调短语特征的预测，并且通过Viterbi算法对预测结果中的韵律词特征、韵律短语特征、韵律语调短语特征进行优化处理，然后拼接至模型输出结果的后面，将拼接成的韵律特征作为目标韵律特征，以此作为后续语音合成过程中的输入，以提高语音合成的准确性。

进一步的，上述韵律预测模型以及韵律词预测模型、韵律短语预测模型、韵律语调短语预测模型可以对待合成文本的韵律特征进行很好的预测，并且，在使用相应的模型进行预测之前，还需要根据训练数据对相应的模型进行训练。

具体的，如图10所示，给出了一种韵律预测模型训练过程的流程示意图。

如图10所述，上述韵律预测模型训练过程包括如图10所示的步骤S302-304：

步骤S302：获取训练数据集，所述训练数据集包括多个训练文本及对应的韵律特征参考值；

步骤S304：将所述训练文本作为输入、所述韵律特征参考值作为输出，对所述韵律预测模型进行训练。

在进行模型训练之前，首先需要对数据进行标识，确定文本对应的韵律特征。例如，对于一条训练文本，需要通过人工标注将训练文本处理成韵律词、韵律短语、韵律语调短语真实值的形式，即确定与该条训练文本对应的韵律特征参考值。

在一个具体的实施例中，韵律特征参考值对应的数据格式可以是：自从#1那#1一刻起#3，她便#1不再#2妄自菲薄#3，将会处理成韵律词（将#1、#2、#3都看作是韵律词标记）：01100101010001，韵律短语（#2、#3）：00000100010001，语调短语（#3）：00000100000001（其中，对应的训练文本为：自从那一刻起，她便不再妄自菲薄。）。

具体实施例中，对大量的训练文本进行人工标注，获取对应的韵律特征参考值，确定训练数据集。也就是说，训练数据集包括了多个训练文本以及与每一个训练文本对应的韵律特征参考值。

针对训练数据集包含的每一条训练文本，将训练文本作为输入，将对应的韵律特征参考值作为输出，对预设的韵律预测模型进行训练，以使韵律训练模型具备韵律特征预测的功能。

进一步的，在本实施例中，对韵律预测模型进行训练的过程，还包括了对韵律词预测模型、韵律短语预测模型、韵律语调短语预测模型分别进行训练的过程。

具体的，前述通过人工对训练文本进行人工标注确定的韵律特征参考值包括韵律词特征参考值、韵律短语特征参考值、韵律语调短语特征参考值。对韵律词预测模型、韵律短语预测模型、韵律语调短语预测模型分别进行训练的过程包括如图11所示的步骤S3041-S3042：

步骤S3041：将训练文本作为输入，韵律词特征参考值作为输出，对韵律词预测模型进行训练；

步骤S3042：将训练文本和/或韵律词特征参考值作为输入，韵律短语特征参考值作为输出，对韵律短语预测模型进行训练；

步骤S3043：将训练文本和韵律短语特征参考值作为输入，韵律语调短语特征参考值作为输出，对韵律语调短语预测模型模型进行训练。

也就是说，在对韵律词预测模型进行训练的过程中，以训练文本作为输入、韵律词特征参考值作为输出，对韵律词预测模型进行训练，以使韵律词预测模型具备对韵律词特征进行预测的能力。

在对韵律短语预测模型进行训练的过程中，以训练文本以及对应的韵律词特征参考值作为输入、韵律短语特征参考值作为输出，对韵律短语预测模型进行训练，以使韵律短语预测模型具备对韵律短语特征进行预测的能力。

在对韵律语调短语预测模型进行训练的过程中，以训练文本、韵律词特征参考值以及韵律短语特征参考值作为输入、韵律语调短语特征参考值作为输出，对韵律语调短语预测模型进行训练，以使韵律语调短语预测模型具备对韵律语调短语特征进行预存的能力。

在上述对韵律预测模型或韵律词预测模型、韵律短语预测模型、韵律语调短语预测模型进行训练的过程，作为模型输入的训练文本，还可以是与该训练文本对应的字向量。也就是说，在对模型进行训练之前，还需要确定与训练文本对应的多个字向量。然后，在对韵律预测模型或韵律词预测模型、韵律短语预测模型、韵律语调短语预测模型进行训练的过程中，将与训练文本对应的多个字向量作为输入、对应的韵律特征参考值作为输出，对韵律预测模型或韵律词预测模型、韵律短语预测模型、韵律语调短语预测模型模型进行训练，以使韵律预测模型或韵律词预测模型、韵律短语预测模型、韵律语调短语预测模型具备对韵律特征进行预测的能力。

在上述模型训练以及模型训练的过程中，韵律预测模型以及韵律词预测模型、韵律短语预测模型、韵律语调短语预测模型为神经网络模型，在一个具体的实施例中，为双向长短期记忆神经网络模型（BiLSTM模型）。BiLSTM模型属于时序数据（有时间依赖性），对数据的处理为全局化处理，可以通过数据中的前后数据等进行数据预测，获取更准确的预测结果。

在本实施例中，通过BiLSTM模型进行韵律特征的预测，可以更有效的获取上下文特征，可以提高韵律特征预测的准确性。

在另一个可选的实施例中，如图12所示，提供了一种基于韵律特征预测的语音合成装置。

如图12所示，上述基于韵律特征预测的语音合成装置包括：

文本获取模块402，用于获取待合成文本；

韵律特征获取模块404，用于获取所述待合成文本的韵律特征作为第一韵律特征，根据所述第一韵律特征确定目标韵律特征，所述待合成文本的韵律特征包括韵律词特征、韵律短语特征、韵律语调短语特征；

语音合成模块406，用于根据所述目标韵律特征进行语音合成，生成与所述待合成文本对应的目标语音。

在一个实施例中，所述韵律特征获取模块404还用于将所述待合成文本输入预设的韵律词预测模型，获取第一韵律词特征；将所述待合成文本和/或所述第一韵律词特征和预设的韵律短语预测模型，获取第一韵律短语特征；将所述待合成文本、第一韵律词特征和/或所述第一韵律短语特征输入预设的韵律语调短语预测模型，获取第一韵律语调短语特征；将所述第一韵律词特征、第一韵律短语特征、第一韵律语调短语特征作为所述第一韵律特征。

在一个实施例中，所述韵律特征获取模块404还用于通过预设的优化算法对所述第一韵律特征进行处理，获取与所述第一韵律特征对应的第二韵律特征；对所述第一韵律特征和所述第二韵律特征进行拼接处理，获取目标韵律特征。

在一个实施例中，所述韵律特征获取模块404还用于通过预设的Viterbi算法对所述第一韵律特征进行处理，获取与所述第一韵律特征对应的第二韵律特征。

在一个实施例中，所述韵律特征获取模块404还用于通过所述预设的优化算法对所述第一韵律词特征进行处理，获取与所述第一韵律词特征对应的第二韵律词特征；通过所述预设的优化算法对所述第一韵律短语特征进行处理，获取与所述第一韵律短语特征对应的第二韵律短语特征；通过所述预设的优化算法对所述第一韵律语调短语特征进行处理，获取与所述韵律语调短语特征对应的第二韵律语调短语特征；将所述第二韵律词特征、第二韵律短语特征、第二韵律语调短语特征作为所述第二韵律特征。

在一个实施例中，所述韵律特征获取模块404还用于通过预设的Viterbi算法，对所述第一韵律特征中包含的特征参数进行优化处理。

在一个实施例中，所述韵律特征获取模块404还用于对所述第一韵律词特征与第二韵律词特征进行拼接，获取目标韵律词特征；对所述第一韵律短语特征与第二韵律短语特征进行拼接，获取目标韵律短语特征；对所述第一韵律语调短语特征与第二韵律语调短语特征进行拼接，获取目标韵律语调短语特征；将所述目标韵律词特征、目标韵律短语特征、目标韵律语调短语特征作为所述目标韵律特征。

在一个实施例中，如图13所示，上述语音合成装置还包括文本处理模块403，用于确定与所述待合成文本对应的多个字向量。

在一个实施例中，所述韵律预测模型为BiLSTM模型。

在一个实施例中，如图14所示，上述基于韵律特征预测的语音合成装置还包括训练样本获取模块412和模型训练模块414，其中，所述训练样本获取模块412用于获取训练数据集，所述训练数据集包括多个训练文本及对应的韵律特征参考值；

所述模型训练模块414用于将所述训练文本作为输入、所述韵律特征参考值作为输出，对所述韵律预测模型进行训练。

在一个实施例中，所述训练样本获取模块412还用于确定与所述训练文本对应的多个字向量；

所述模型训练模块414还用于将所述与所述训练文本对应的多个字向量作为输入、所述韵律特征参考值作为输出，对所述韵律预测模型进行训练。

在一个实施例中，所述韵律特征参考值包括韵律词特征参考值、韵律短语特征参考值、韵律语调短语特征参考值；

所述模型训练模块414还用于将所述训练文本作为输入，所述韵律词特征参考值作为输出，对所述韵律词预测模型进行训练；将所述训练文本和/或所述韵律词特征参考值作为输入，所述韵律短语特征参考值作为输出，对所述韵律短语预测模型进行训练；将所述训练文本和所述韵律短语特征参考值作为输入，所述韵律语调短语特征参考值作为输出，对所述韵律语调短语预测模型模型进行训练。

图15示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端，也可以是服务器。如图15所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现基于韵律特征预测的语音合成方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行基于韵律特征预测的语音合成方法。本领域技术人员可以理解，图15中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提出了一种智能终端，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

获取待合成文本；

在一个实施例中，提出了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：

获取待合成文本；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

一种基于韵律特征预测的语音合成方法，其特征在于，包括：

获取待合成文本；

将所述待合成文本输入预设的韵律预测模型，获取所述待合成文本的韵律特征作为第一韵律特征，根据所述第一韵律特征确定目标韵律特征，所述待合成文本的韵律特征包括韵律词特征、韵律短语特征、韵律语调短语特征；

根据所述目标韵律特征进行语音合成，生成与所述待合成文本对应的目标语音。
根据权利要求1所述的方法，其特征在于，所述将所述待合成文本输入预设的韵律预测模型，获取所述待合成文本的韵律特征作为第一韵律特征的步骤，还包括：

将所述待合成文本输入预设的韵律词预测模型，获取第一韵律词特征；

将所述待合成文本和/或所述第一韵律词特征和预设的韵律短语预测模型，获取第一韵律短语特征；

将所述待合成文本、第一韵律词特征和/或所述第一韵律短语特征输入预设的韵律语调短语预测模型，获取第一韵律语调短语特征；

将所述第一韵律词特征、第一韵律短语特征、第一韵律语调短语特征作为所述第一韵律特征。
根据权利要求2所述的方法，其特征在于，所述根据所述第一韵律特征确定目标韵律特征的步骤，还包括：

通过预设的优化算法对所述第一韵律特征进行处理，获取与所述第一韵律特征对应的第二韵律特征；

对所述第一韵律特征和所述第二韵律特征进行拼接处理，获取目标韵律特征。
根据权利要求3所述的方法，其特征在于，所述通过预设的优化算法对所述第一韵律特征进行处理，获取与所述第一韵律特征对应的第二韵律特征的步骤，还包括：

通过预设的Viterbi算法对所述第一韵律特征进行处理，获取与所述第一韵律特征对应的第二韵律特征。
根据权利要求3所述的方法，其特征在于，所述通过预设的优化算法对所述第一韵律特征进行处理，获取与所述第一韵律特征对应的第二韵律特征的步骤，还包括：

通过所述预设的优化算法对所述第一韵律词特征进行处理，获取与所述第一韵律词特征对应的第二韵律词特征；

通过所述预设的优化算法对所述第一韵律短语特征进行处理，获取与所述第一韵律短语特征对应的第二韵律短语特征；

通过所述预设的优化算法对所述第一韵律语调短语特征进行处理，获取与所述韵律语调短语特征对应的第二韵律语调短语特征；

将所述第二韵律词特征、第二韵律短语特征、第二韵律语调短语特征作为所述第二韵律特征。
根据权利要求4所述的方法，其特征在于，所述通过预设的Viterbi算法对所述第一韵律特征进行处理，获取与所述第一韵律特征对应的第二韵律特征的步骤，还包括：

通过预设的Viterbi算法，对所述第一韵律特征中包含的特征参数进行优化处理。
根据权利要求5所述的方法，其特征在于，所述对所述第一韵律特征和所述第二韵律特征进行拼接处理，获取目标韵律预测结果的步骤，还包括：

对所述第一韵律词特征与第二韵律词特征进行拼接，获取目标韵律词特征；

对所述第一韵律短语特征与第二韵律短语特征进行拼接，获取目标韵律短语特征；

对所述第一韵律语调短语特征与第二韵律语调短语特征进行拼接，获取目标韵律语调短语特征；

将所述目标韵律词特征、目标韵律短语特征、目标韵律语调短语特征作为所述目标韵律特征。
根据权利要求1所述的方法，其特征在于，所述获取待合成文本的步骤之后，还包括：

确定与所述待合成文本对应的多个字向量。
根据权利要求1所述的方法，其特征在于，所述韵律预测模型为BiLSTM模型。
根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取训练数据集，所述训练数据集包括多个训练文本及对应的韵律特征参考值；

将所述训练文本作为输入、所述韵律特征参考值作为输出，对所述韵律预测模型进行训练。
根据权利要求10所述的方法，其特征在于，所述将所述训练文本作为输入、所述韵律特征参考值作为输出，对所述韵律预测模型进行训练的步骤，还包括：

确定与所述训练文本对应的多个字向量；

将所述与所述训练文本对应的多个字向量作为输入、所述韵律特征参考值作为输出，对所述韵律预测模型进行训练。
根据权利要求10所述的方法，其特征在于，所述韵律特征参考值包括韵律词特征参考值、韵律短语特征参考值、韵律语调短语特征参考值；

所述将所述训练文本作为输入、所述韵律特征参考值作为输出，对所述韵律预测模型进行训练的步骤，还包括：

将所述训练文本作为输入，所述韵律词特征参考值作为输出，对所述韵律词预测模型进行训练；

将所述训练文本和/或所述韵律词特征参考值作为输入，所述韵律短语特征参考值作为输出，对所述韵律短语预测模型进行训练；

将所述训练文本和所述韵律短语特征参考值作为输入，所述韵律语调短语特征参考值作为输出，对所述韵律语调短语预测模型模型进行训练。
一种基于韵律特征预测的语音合成装置，其特征在于，包括：

文本获取模块，用于获取待合成文本；

韵律特征获取模块，用于获取所述待合成文本的韵律特征作为第一韵律特征，根据所述第一韵律特征确定目标韵律特征，所述待合成文本的韵律特征包括韵律词特征、韵律短语特征、韵律语调短语特征；

语音合成模块，用于根据所述目标韵律特征进行语音合成，生成与所述待合成文本对应的目标语音。
根据权利要求13所述的装置，其特征在于，所述韵律特征获取模块还用于：

将所述待合成文本输入预设的韵律词预测模型，获取第一韵律词特征；

将所述待合成文本和/或所述第一韵律词特征和预设的韵律短语预测模型，获取第一韵律短语特征；

将所述待合成文本、第一韵律词特征和/或所述第一韵律短语特征输入预设的韵律语调短语预测模型，获取第一韵律语调短语特征；

将所述第一韵律词特征、第一韵律短语特征、第一韵律语调短语特征作为所述第一韵律特征。
根据权利要求14所述的装置，其特征在于，所述韵律特征获取模块还用于：

通过预设的优化算法对所述第一韵律特征进行处理，获取与所述第一韵律特征对应的第二韵律特征；

对所述第一韵律特征和所述第二韵律特征进行拼接处理，获取目标韵律特征。
根据权利要求15所述的装置，其特征在于，所述韵律特征获取模块还用于：

通过预设的Viterbi算法对所述第一韵律特征进行处理，获取与所述第一韵律特征对应的第二韵律特征。
根据权利要求15所述的装置，其特征在于，所述韵律特征获取模块还用于：

通过所述预设的优化算法对所述第一韵律词特征进行处理，获取与所述第一韵律词特征对应的第二韵律词特征；

通过所述预设的优化算法对所述第一韵律短语特征进行处理，获取与所述第一韵律短语特征对应的第二韵律短语特征；

通过所述预设的优化算法对所述第一韵律语调短语特征进行处理，获取与所述韵律语调短语特征对应的第二韵律语调短语特征；

将所述第二韵律词特征、第二韵律短语特征、第二韵律语调短语特征作为所述第二韵律特征。
根据权利要求16所述的装置，其特征在于，所述韵律特征获取模块还用于：

通过预设的Viterbi算法，对所述第一韵律特征中包含的特征参数进行优化处理。
根据权利要求17所述的装置，其特征在于，所述韵律特征获取模块还用于：

对所述第一韵律词特征与第二韵律词特征进行拼接，获取目标韵律词特征；

对所述第一韵律短语特征与第二韵律短语特征进行拼接，获取目标韵律短语特征；

对所述第一韵律语调短语特征与第二韵律语调短语特征进行拼接，获取目标韵律语调短语特征；

将所述目标韵律词特征、目标韵律短语特征、目标韵律语调短语特征作为所述目标韵律特征。
根据权利要求13所述的装置，其特征在于，所述装置还包括文本处理模块，用于确定与所述待合成文本对应的多个字向量。
根据权利要求13所述的装置，其特征在于，所述韵律预测模型为BiLSTM模型。
根据权利要求14所述的装置，其特征在于，所述装置还包括训练样本获取模块和模型训练模块，其中，所述训练样本获取模块用于获取训练数据集，所述训练数据集包括多个训练文本及对应的韵律特征参考值；

所述模型训练模块用于将所述训练文本作为输入、所述韵律特征参考值作为输出，对所述韵律预测模型进行训练。
根据权利要求22所述的装置，其特征在于，所述训练样本获取模块还用于确定与所述训练文本对应的多个字向量；

所述模型训练模块还用于将所述与所述训练文本对应的多个字向量作为输入、所述韵律特征参考值作为输出，对所述韵律预测模型进行训练。
根据权利要求22所述的装置，其特征在于，所述韵律特征参考值包括韵律词特征参考值、韵律短语特征参考值、韵律语调短语特征参考值；

所述模型训练模块还用于将所述训练文本作为输入，所述韵律词特征参考值作为输出，对所述韵律词预测模型进行训练；将所述训练文本和/或所述韵律词特征参考值作为输入，所述韵律短语特征参考值作为输出，对所述韵律短语预测模型进行训练；将所述训练文本和所述韵律短语特征参考值作为输入，所述韵律语调短语特征参考值作为输出，对所述韵律语调短语预测模型模型进行训练。
一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。
一种智能终端，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。