WO2021127817A1

WO2021127817A1 - 一种多语言文本合成语音方法、装置、设备及存储介质

Info

Publication number: WO2021127817A1
Application number: PCT/CN2019/127334
Authority: WO
Inventors: 黄东延; 盛乐园; 熊友军
Original assignee: 深圳市优必选科技股份有限公司
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2021-07-01
Also published as: CN111247581A; CN111247581B

Abstract

本发明公开了一种多语言文本的语音合成方法、装置、设备及存储介质。所述方法包括：获取待合成多语言文本；将所述待合成多语言文本分别输入至少两个编码规则不同的编码器中进行编码，得到与编码规则对应的文本编码；将所有所述编码规则对应的文本编码转换为联合文本编码；将所述联合文本编码、标准频谱特征数据输入解码器进行预测解码，得到预测频谱特征；将所述预测频谱特征输入声码器进行合成处理，得到与所述待合成多语言文本对应的目标语音。本发明有利于多语言文本的处理，降低了部署难度，降低了部署成本。

Description

一种多语言文本合成语音方法、装置、设备及存储介质

技术领域

本申请涉及语音技术领域，尤其涉及一种多语言文本的语音合成方法、装置、设备及存储介质。

背景技术

语音合成是语音交互中一个重要的任务，它的目标是将文本信息合成出自然的像真人发出来的声音。传统的语音合成系统包括两个部分：前端和后端。前端的作用是对文本进行分析和语言学信息的提取，比如：分词，词性标注，韵律结构预测等。后端是将从前端获取的语言学信息合成出语音。

技术问题

在过去十多年，语音拼接合成和参数合成被广泛的应用，并且取得了不错的效果。拼接合成需要大量的语料，从语料中选取语音片段合成所需要的语音。虽然合成出的每个片段的语音自然度比较高，但是语音内的连续性不够好。参数合成虽然相对拼接合成需要更少的语料，但是往往因为模型比较复杂，包含了大量的参数，修改起来很费时费力。

最近几年，随着深度学习的发展，端到端的语音合成系统被提出来，比如：Tacotron（端到端的深度学习语音合成模型）和Tacotron2,它们使用神经网络简化了传统语音合成的前端。Tacotron和Tacotron2首先直接从文本中生成频谱特征（Melspectrograms）然后使用声码器，比如：Griffin-Lim（采用Griffin-Lim算法音频生成模型）和WaveNet（原始音频生成模型）将频谱特征合成出语音。这种基于神经网络的端到端的模型很大程度上提高了合成的语音质量，其中，这里的端到端模型指的就是带有注意力机制的序列到序列的模型。将文本序列使用编码器映射到语义空间并生成一系列编码器隐藏状态，然后解码器使用注意力机制将这些语义空间的隐藏状态作为上下文信息，构造解码器隐藏状态，然后输出频谱特征帧。其中注意力机制中常常包括循环神经网络。循环神经网络可以由输入的序列生成输出的序列，输出的当前序列由之前所有的输出序列和当前的隐含状态共同决定。对于某一个特定的频谱帧，由于编码器的输入信息不足或者编码器的编码不充分，可能经过多次的循环之后，还是与实际有偏差。在合成的语音的表现上来看，听起来可能会是漏词或跳词。

同时虽然在大多数场景下这种单一语言的语音合成系统已经能够满足日常的需求，但是对于一些特定的场景，比如机器人，翻译机等需要多种语言的语音合成系统。如果针对每一种语言训练一个系统，会给模型的部署带来很大的消耗。因此，开发一种不会漏词或跳词、部署简单的多语言文本的语音合成方法显得尤为重要。

技术解决方案

基于此，有必要针对上述问题，提出了一种多语言文本的语音合成方法、装置、设备及存储介质，用于解决现有技术中漏词或跳词、部署复杂的技术问题。

第一方面，本发明一种多语言文本的语音合成方法，所述方法包括：

获取待合成多语言文本；

将所述待合成多语言文本分别输入至少两个编码规则不同的编码器中进行编码，得到与编码规则对应的文本编码；

将所有所述编码规则对应的文本编码转换为联合文本编码；

将所述联合文本编码、标准频谱特征数据输入解码器进行预测解码，得到预测频谱特征；

将所述预测频谱特征输入声码器进行合成处理，得到与所述待合成多语言文本对应的目标语音。

在一个实施例中，所述将所有所述编码规则对应的文本编码转换为联合文本编码，包括：

将所有所述编码规则对应的文本编码进行拼接，得到拼接文本编码；

将所述拼接文本编码进行线性仿射变换，得到联合文本编码。

在一个实施例中，所述将所述联合文本编码、标准频谱特征数据输入解码器进行预测解码，得到预测频谱特征，包括：

将所述联合文本编码进行高层特征提取得到联合文本编码高层特征；

将所述联合文本编码高层特征、所述标准频谱特征数据输入解码器进行预测解码，得到所述预测频谱特征。

在一个实施例中，所述将所述待合成多语言文本分别输入至少两个编码规则不同的编码器中进行编码，得到与编码规则对应的文本编码，包括：

将所述待合成多语言文本输入One-hot编码器进行编码，得到与One-hot编码器对应的One-hot文本编码；

将所述待合成多语言文本输入UTF-8编码器进行编码，得到与UTF-8编码器对应的UTF-8文本编码；

将所述待合成多语言文本输入音素编码器进行编码，得到与音素编码器对应的音素文本编码。

在一个实施例中，所述将所有所述编码规则对应的文本编码进行拼接，得到拼接文本编码，包括：

将所述One-hot文本编码、所述UTF-8文本编码、所述音素文本编码在通道维度上进行拼接，得到拼接文本编码，所述拼接文本编码包括三维数据；其中，第一维数据为所述One-hot文本编码，第二维数据为所述UTF-8文本编码，第三维数据为所述音素文本编码。

在一个实施例中，所述将所述拼接文本编码进行线性仿射变换，得到联合文本编码，包括：

将多维的所述拼接文本编码输入第一神经网络进行线性仿射变换对所述编码规则对应的文本编码进行选择，得到联合文本编码。

在一个实施例中，所述将所述联合文本编码进行高层特征提取，得到联合文本编码高层特征，包括：

将所述联合文本编码输入第二神经网络进行高层特征提取，得到联合文本编码高层特征。

在一个实施例中，所述第二神经网络包括依次设置的字符级卷积神经网络、三个卷积层及双向长短时记忆循环神经网络。

在一个实施例中，所述将所述联合文本编码高层特征、所述标准频谱特征数据输入解码器进行预测解码，得到所述预测频谱特征，包括：

获取标准频谱特征数据；

将所述联合文本编码高层特征、所述标准频谱特征数据输入解码器，所述解码器包括第三神经网络；

所述解码器的第三神经网络根据所述联合文本编码、所述标准频谱特征数据结合注意力机制进行频谱特征预测，得到预测频谱特征。

在一个实施例中，所述获取待合成多语言文本之前，还包括：

获取待处理多语言文本；

根据所述待处理多语言文本进行语言标准化处理，得到待合成多语言文本。

第二方面，本发明还提出了一种多语言文本的语音合成装置，所述装置包括：

联合编码模块，用于获取待合成多语言文本，将所述待合成多语言文本分别输入至少两个编码规则不同的编码器中进行编码，得到与编码规则对应的文本编码，将所有所述编码规则对应的文本编码转换为联合文本编码；

语音合成模块，用于将所述联合文本编码、标准频谱特征数据输入解码器进行预测解码，得到预测频谱特征，将所述预测频谱特征输入声码器进行合成处理，得到与所述待合成多语言文本对应的目标语音。

在一个实施例中，所述联合编码模块包括分别编码子模块、联合编码子模块；

所述分别编码子模块用于获取待合成多语言文本，将所述待合成多语言文本分别输入至少两个编码规则不同的编码器中进行编码，得到与编码规则对应的文本编码；

所述联合编码子模块用于将所有所述编码规则对应的文本编码进行拼接，得到拼接文本编码，将所述拼接文本编码进行线性仿射变换，得到联合文本编码。

在一个实施例中，所述语音合成模块包括高层特征提取子模块、频谱特征预测子模块；

所述高层特征提取子模块用于将所述联合文本编码进行高层特征提取得到联合文本编码高层特征；

所述频谱特征预测子模块用于将所述联合文本编码高层特征、所述标准频谱特征数据输入解码器进行预测解码，得到所述预测频谱特征。

第三方面，本发明还提出了一种存储介质，存储有计算机指令程序，所述计算机指令程序被处理器执行时，使得所述处理器执行第一方面任一项所述方法的步骤。

第四方面，本发明还提出了一种多语言文本的语音合成设备，包括至少一个存储器、至少一个处理器，所述存储器存储有计算机指令程序，所述计算机指令程序被所述处理器执行时，使得所述处理器执行第一方面任一项所述方法的步骤。

有益效果

综上所述，本发明的多语言文本的语音合成方法将所述待合成多语言文本分别输入至少两个编码规则不同的编码器中进行编码得到与编码规则对应的文本编码，再将所有所述编码规则对应的文本编码转换为联合文本编码；通过至少两个编码规则不同的编码器进行不同规则的编码，能更充分的保留文本的特征，也有利于多语言文本的处理；通过至少两个编码规则不同的编码器进行不同规则的编码后再经过转换得到联合文本编码，提高了文本合成语音的效果的稳定性，同时也降低了部署难度，降低了部署成本。因此，本发明能更充分的保留文本的特征，有利于多语言文本的处理，降低了部署难度，降低了部署成本。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为一个实施例中多语言文本的语音合成方法的流程图；

图2为图1的多语言文本的语音合成方法的确定联合文本编码的流程图；

图3为图1的多语言文本的语音合成方法的预测解码的流程图；

图4为另一个实施例中多语言文本的语音合成方法的流程图；

图5为一个实施例中多语言文本的语音合成装置的结构框图；

图6为图5的多语言文本的语音合成装置的联合编码模块的结构框图；

图7为图5的多语言文本的语音合成装置的语音合成模块的结构框图；

图8为一个实施例中计算机设备的结构框图。

本发明的实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示，在一个实施例中，提出了一种多语言文本的语音合成方法，所述方法包括：

S102、获取待合成多语言文本；

所述多语言文本是指文本中同时包含至少两个种类的语言，比如，多语言文本包括中文、英文、法文、阿拉伯数字混合而成，在此举例不作具体限定。

具体而言，从文本输入设备或数据库或网络中获取多语言文本，将所述多语言文本作为所述待合成多语言文本，以便对所述待合成多语言文本进行合成，并将其合成为语音的形式，在合成语音之前所述待合成多语言文本和合成语音之后的语音表达的内容不发生改变。

用户可以通过文本输入设备触发文本的输入，当用户开始输入时则文本输入设备开始采集文本，当用户停止输入时则文本输入设备停止采集文本，从而使文本输入设备可以采集一段文本。

S104、将所述待合成多语言文本分别输入至少两个编码规则不同的编码器中进行编码，得到与编码规则对应的文本编码；

具体而言，将所述待合成多语言文本的按阅读顺序依次分别输入至少两个编码规则不同的编码器中进行编码，得到与编码规则对应的文本编码。其中，编码规则不同的编码器可以是两个、三个、四个、五个、六个、七个，在此举例不作具体限定。可以理解的是，不同编码规则的编码器在编码时获取的语言特征的维度不同，通过至少两个编码规则不同的编码器进行编码，可以从多个维度充分获取了所述待合成多语言文本的语言特征，避免了单一编码器获取语言特征不充分或输出信息不充足的问题。

可以理解的是，每个编码器都需要对所述待合成多语言文本按阅读顺序单独进行编码。

可选的，将所述待合成多语言文本中的字符或字形分别输入至少两个编码规则不同的编码器中进行编码，得到与编码规则对应的文本编码。

所述编码器可以从现有技术中选择对文本进行编码获取语言特征，比如One-hot编码器、UTF-8编码器、音素编码器，在此举例不作具体限定。

其中，可以根据所述待合成多语言文本中的语言的种类选择编码器，也可以根据所述待合成多语言文本的内容涉及的领域选择编码器，在此举例不作具体限定。

S106、将所有所述编码规则对应的文本编码转换为联合文本编码；

具体而言，将至少两个编码规则不同的编码器编码得到的所有所述编码规则对应的文本编码进行联合编码转换，得到联合文本编码。

可选的，将至少两个编码规则不同的编码器编码进行拼接及线性仿射变换，得到联合文本编码，所述联合文本编码的维度为一维。

S108、将所述联合文本编码、标准频谱特征数据输入解码器进行预测解码，得到预测频谱特征；

具体而言，将所述标准频谱特征数据输入解码器供解码器学习，解码器通过对所述联合文本编码进行解码处理，得到与联合文本编码对应的频谱特征，将与联合文本编码对应的频谱特征作为预测频谱特征。

所述频谱特征可以实现为梅尔频谱，在此举例不作具体限定。

所述标准频谱特征数据是通过神经网络预训练出的标准的频谱特征数据库。

S110、将所述预测频谱特征输入声码器进行合成处理，得到与所述待合成多语言文本对应的目标语音。

可选的，将所述频谱特征实现为梅尔频谱，将梅尔频谱通过声码器进行语音合成处理，得到与所述预测频谱特征对应的目标语音，将与所述预测频谱特征对应的目标语音作为与所述待合成多语言文本对应的目标语音。

当所述频谱特征实现为梅尔频谱时，所述声码器可以从现有技术中选择Universal Vocoding声码器，在此举例不作具体限定。

本实施例的多语言文本的语音合成方法将所述待合成多语言文本分别输入至少两个编码规则不同的编码器中进行编码得到与编码规则对应的文本编码，再将所有所述编码规则对应的文本编码转换为联合文本编码；通过至少两个编码规则不同的编码器进行不同规则的编码，能更充分的保留文本的特征，也有利于多语言文本的处理；通过至少两个编码规则不同的编码器进行不同规则的编码后再经过转换得到联合文本编码，提高了文本合成语音的效果的稳定性，同时也降低了部署难度，降低了部署成本。

如图2所示，在一个实施例中，所述将所有所述编码规则对应的文本编码转换为联合文本编码，包括：

S202、将所有所述编码规则对应的文本编码进行拼接，得到拼接文本编码；

具体而言，将每个所述编码规则对应的文本编码作为一维数据，再将所有所述编码规则对应的文本编码的一维数据进行依次拼接，得到拼接文本编码。

可以理解的是，对齐所有所述编码规则对应的文本编码的一维数据的头端，将所有所述编码规则对应的文本编码的一维数据拼接成多维数据，得到拼接文本编码。

S204、将所述拼接文本编码进行线性仿射变换，得到联合文本编码。

具体而言，将多维的所述拼接文本编码进行线性仿射变换对用于所述编码规则对应的文本编码进行选择，得到联合文本编码，所述联合文本编码的维度为一维。

线性仿射变换用于针对每个文本单元选择其中一个所述编码规则对应的文本编码作为与文本单元对应的目标文本编码，将所有所述目标文本编码依次进行拼接，得到联合文本编码。

在一个实施例中，所述将所述待合成多语言文本分别输入至少两个编码规则不同的编码器中进行编码，得到与编码规则对应的文本编码，包括：将所述待合成多语言文本输入One-hot编码器进行编码，得到与One-hot编码器对应的One-hot文本编码；将所述待合成多语言文本输入UTF-8编码器进行编码，得到与UTF-8编码器对应的UTF-8文本编码；将所述待合成多语言文本输入音素编码器进行编码，得到与音素编码器对应的音素文本编码。

所述One-Hot 编码即独热编码，又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。One-Hot 编码可以将不同语言的字符或字形的集合放在一起作为输入的字典。

所述UTF-8（8位元，Universal Character Set/Unicode Transformation Format）是针对Unicode的一种可变长度字符编码，可以用来表示Unicode标准中的任何字符，由128个字符组成，包括大小写字母、数字0-9、标点符号、非打印字符（换行符、制表符等4个）以及控制字符（退格、响铃等）组成，能适应全球所有字符。

所述音素是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。

所述One-hot编码器是采用One-hot编码的方式采用神经网络训练得到，训练方法可以从现有技术中选择，在此不作赘述。

所述UTF-8编码器是采用UTF-8编码的方式采用神经网络训练得到，训练方法可以从现有技术中选择，在此不作赘述。用于可以将输入的字符或字形映射到一个具有256个可能值的词条进行编码器输入。

所述音素编码器是采用音素编码的方式采用神经网络训练得到，训练方法可以从现有技术中选择。音素编码器不需要学习复杂的发音规则，相同的音素可以在不同的语言中共享。

One-hot编码器、UTF-8编码器、音素编码器是目前应用比较广泛的提取文本编码的编码器，本方法通过采用这三种编码器，提高了保留的文本的语言特征，也更有利于多语言文本的处理。可以理解的是，本方法还可以采取其他提取文本编码的编码器，在此举例不作具体限定。

将多维的所述拼接文本编码输入第一神经网络进行线性仿射变换对所述编码规则对应的文本编码进行选择，得到联合文本编码，所述联合文本编码的维度为一维。

具体而言，以文本单元为独立单元通过已训练的所述第一神经网络从多维的所述拼接文本编码对所述编码规则对应的文本编码进行选择，选择其中一个所述编码规则对应的文本编码作为与文本单元对应的目标文本编码，将所有所述目标文本编码依次进行拼接，得到联合文本编码；其中，所述编码规则对应的文本编码选择的规则是所述第一神经网络经过训练得到的。比如，选择One-hot编码器、UTF-8编码器、音素编码器提取与编码规则对应的文本编码时，通过编码得到与One-hot编码器对应的One-hot文本编码、与UTF-8编码器对应的UTF-8文本编码、与音素编码器对应的音素文本编码，对每个文本单元从与One-hot编码器对应的One-hot文本编码、与UTF-8编码器对应的UTF-8文本编码、与音素编码器对应的音素文本编码中选择其中一种作为与文本单元对应的目标文本编码。

所述第一神经网络可以从现有技术中选择可以进行线性仿射变换的神经网络，在此不做赘述。

在一个实施例中，所述将所述联合文本编码、标准频谱特征数据输入解码器进行预测解码，得到预测频谱特征，包括：将所述联合文本编码进行高层特征提取得到联合文本编码高层特征；将所述联合文本编码高层特征、所述标准频谱特征数据输入解码器进行预测解码，得到所述预测频谱特征。

所述高层特征是指所述待合成多语言文本包含的与语言分类、语义信息等相关的特征。

高层特征是包含的与语言分类、语义信息等相关的特征，通过包含高层特征的所述联合文本编码预测解码得到预测频谱特征保留了待合成多语言文本的语言分类、语义信息，从而进一步提高了最终合成出的与所述待合成多语言文本对应的目标语音的准确性。

在一个实施例中，所述从所述联合文本编码进行高层特征提取得到联合文本编码高层特征，包括：

将所述联合文本编码输入第二神经网络进行高层特征提取，得到联合文本编码高层特征。对所述联合文本编码进行高层特征提取的规则，可以通过对所述第二神经网络经过训练得到的。

所述第二神经网络可以从现有技术中选择可以对文本编码进行高层特征提取的神经网络，在此不做赘述。

所述字符级卷积神经网络用于实现字符嵌入，详细结构可以从现有技术中选择，在此不做赘述。

所述三个卷积层用于实现高层特征提取，详细结构可以从现有技术中选择，在此不做赘述。

所述双向长短时记忆循环神经网络用于语义关系识别，利用循环神经网络直接从词学习问句的语义特征表示，详细结构可以从现有技术中选择，在此不做赘述。

如图3所示，在一个实施例中，所述将所述联合文本编码高层特征、所述标准频谱特征数据输入解码器进行预测解码，得到所述预测频谱特征，包括：

S302、获取标准频谱特征数据；

S304、将所述联合文本编码高层特征、所述标准频谱特征数据输入解码器，所述解码器包括第三神经网络；

S306、所述解码器的第三神经网络根据所述联合文本编码高层特征、所述标准频谱特征数据结合注意力机制进行频谱特征预测，得到预测频谱特征。

具体而言，将所述标准频谱特征数据输入第三神经网络进行学习，对第三神经网络进行学习训练得到解码器，解码器根据注意力机制将所述联合文本编码高层特征映射成频谱特征序列，将所述频谱特征序列作为预测频谱特征。通过对第三神经网络进行学习训练得到的解码器，可以捕捉单词的发音，还可以捕捉人类语音的各种细微变化，包括音量、语速和语调。

所述第三神经网络可以从现有技术中选择可以对文本编码进行提取的神经网络，在此不做赘述。

在一个实施例中，所述第三神经网络包括2层预处理神经网络、2层长短期记忆网络、线性仿射变换神经网络、5层卷积后处理神经网络。2层预处理神经网络、2层长短期记忆网络、线性仿射变换神经网络、5层卷积后处理神经网络的详细结构可以从现有技术中选择，在此不做赘述。

所述长短时记忆网络用于在输入和输出序列之间的映射过程中利用上下文相关信息。

如图4所示，在一个实施例中，还提出了一种多语言文本的语音合成方法，所述方法包括：

S402、获取待处理多语言文本；

所述多语言文本是指文本中同时包含多个种类的语言，比如，多语言文本包括中文、英文、法文、阿拉伯数字混合而成，在此举例不作具体限定。

所述待处理多语言文本是指从文本输入设备或数据库或网络中获取多语言文本。

S404、根据所述待处理多语言文本进行语言标准化处理，得到待合成多语言文本；

在语言的使用过程中，存在非标准化的使用，比如：英文单词的缩写、简写、多个单词通过连接符连接在一起等，这些非标准化的使用在从文本合成语音的时可能出现漏词或跳词的问题。

所述语言标准化处理包括把缩写还原、简写还原、连接在一起的多个单词拆开，在此举例不做具体限定。

S406、获取待合成多语言文本；

S408、将所述待合成多语言文本分别输入至少两个编码规则不同的编码器中进行编码，得到与编码规则对应的文本编码；

S410、将所有所述编码规则对应的文本编码转换为联合文本编码；

S412、将所述联合文本编码、标准频谱特征数据输入解码器进行预测解码，得到预测频谱特征；

S414、将所述预测频谱特征输入声码器进行合成处理，得到与所述待合成多语言文本对应的目标语音。

本实施例通过将所述待处理多语言文本进行语言标准化处理后得到待合成多语言文本，再把待合成多语言文本作为输入用于合成语音，进一步避免了漏词或跳词的现象，进一步提成合成语音的质量。

如图5所示，在一个实施例中，本发明提出了一种多语言文本的语音合成装置，所述装置包括：

联合编码模块502，用于获取待合成多语言文本，将所述待合成多语言文本分别输入至少两个编码规则不同的编码器中进行编码，得到与编码规则对应的文本编码，将所有所述编码规则对应的文本编码转换为联合文本编码；

语音合成模块504，用于将所述联合文本编码、标准频谱特征数据输入解码器进行预测解码，得到预测频谱特征，将所述预测频谱特征输入声码器进行合成处理，得到与所述待合成多语言文本对应的目标语音。

本实施例的多语言文本的语音合成装置将所述待合成多语言文本分别输入至少两个编码规则不同的编码器中进行编码得到与编码规则对应的文本编码，再将所有所述编码规则对应的文本编码转换为联合文本编码；通过至少两个编码规则不同的编码器进行不同规则的编码，能更充分的保留文本的特征，也有利于多语言文本的处理；通过至少两个编码规则不同的编码器进行不同规则的编码后再经过转换得到联合文本编码，提高了文本合成语音的效果的稳定性，同时也降低了部署难度，降低了部署成本。

如图6所示，在一个实施例中，所述联合编码模块包括分别编码子模块5022、编码联合转换子模块5024；

所述分别编码子模块5022用于获取待合成多语言文本，将所述待合成多语言文本分别输入至少两个编码规则不同的编码器中进行编码，得到与编码规则对应的文本编码；

所述联合编码子模块5024用于将所有所述编码规则对应的文本编码进行拼接，得到拼接文本编码，将所述拼接文本编码进行线性仿射变换，得到联合文本编码。

如图7所示，在一个实施例中，所述语音合成模块包括高层特征提取子模块5042、频谱特征预测子模块5044；

所述高层特征提取子模块5042用于将所述联合文本编码进行高层特征提取得到联合文本编码高层特征；

所述频谱特征预测子模块5044用于将所述联合文本编码高层特征、所述标准频谱特征数据输入解码器进行预测解码，得到所述预测频谱特征。

图8示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端，也可以是服务器。如图8所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现多语言文本的语音合成方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行多语言文本的语音合成方法。本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的一种多语言文本的语音合成方法可以实现为一种计算机程序的形式，计算机程序可在如图8所示的计算机设备上运行。计算机设备的存储器中可存储组成的一种多语言文本的语音合成装置的各个程序模板。比如，联合编码模块502、语音合成模块504。

在一个实施例中，本发明提出了一种存储介质，存储有计算机指令程序，所述计算机指令程序被处理器执行时，使得所述处理器执行时实现如下方法步骤：

获取待合成多语言文本；

将所有所述编码规则对应的文本编码转换为联合文本编码；

本实施例的方法步骤执行时将所述待合成多语言文本分别输入至少两个编码规则不同的编码器中进行编码得到与编码规则对应的文本编码，再将所有所述编码规则对应的文本编码转换为联合文本编码；通过至少两个编码规则不同的编码器进行不同规则的编码，能更充分的保留文本的特征，也有利于多语言文本的处理；通过至少两个编码规则不同的编码器进行不同规则的编码后再经过转换得到联合文本编码，提高了文本合成语音的效果的稳定性，同时也降低了部署难度，降低了部署成本。

在一个实施例中，所述将所有所述编码规则对应的文本编码转换为联合文本编码，包括：将所有所述编码规则对应的文本编码进行拼接，得到拼接文本编码；将所述拼接文本编码进行线性仿射变换，得到联合文本编码。

在一个实施例中，所述将所有所述编码规则对应的文本编码进行拼接，得到拼接文本编码，包括：将所述One-hot文本编码、所述UTF-8文本编码、所述音素文本编码在通道维度上进行拼接，得到拼接文本编码，所述拼接文本编码包括三维数据；其中，第一维数据为所述One-hot文本编码，第二维数据为所述UTF-8文本编码，第三维数据为所述音素文本编码。

在一个实施例中，所述将所述拼接文本编码进行线性仿射变换，得到联合文本编码，包括：将多维的所述拼接文本编码输入第一神经网络进行线性仿射变换对所述编码规则对应的文本编码进行选择，得到联合文本编码。

在一个实施例中，所述将所述联合文本编码进行高层特征提取，得到联合文本编码高层特征，包括：将所述联合文本编码输入第二神经网络进行高层特征提取，得到联合文本编码高层特征。

在一个实施例中，所述将所述联合文本编码高层特征、所述标准频谱特征数据输入解码器进行预测解码，得到所述预测频谱特征，包括：获取标准频谱特征数据；将所述联合文本编码高层特征、所述标准频谱特征数据输入解码器，所述解码器包括第三神经网络；所述解码器的第三神经网络根据所述联合文本编码、所述标准频谱特征数据结合注意力机制进行频谱特征预测，得到预测频谱特征。

在一个实施例中，所述获取待合成多语言文本之前，还包括：获取待处理多语言文本；根据所述待处理多语言文本进行语言标准化处理，得到待合成多语言文本。

在一个实施例中，本发明提出了一种多语言文本的语音合成设备，包括至少一个存储器、至少一个处理器，所述存储器存储有计算机指令程序，所述计算机指令程序被所述处理器执行时，使得所述处理器执行实现如下方法步骤：

获取待合成多语言文本；

将所有所述编码规则对应的文本编码转换为联合文本编码；

需要说明的是，上述一种多语言文本的语音合成方法、一种多语言文本的语音合成装置、存储介质及多语言文本的语音合成设备属于一个总的发明构思，一种多语言文本的语音合成方法、一种多语言文本的语音合成装置、存储介质及多语言文本的语音合成设备实施例中的内容可相互适用。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种多语言文本的语音合成方法，所述方法包括：

获取待合成多语言文本；

将所述待合成多语言文本分别输入至少两个编码规则不同的编码器中进行编码，得到与编码规则对应的文本编码；

将所有所述编码规则对应的文本编码转换为联合文本编码；

将所述联合文本编码、标准频谱特征数据输入解码器进行预测解码，得到预测频谱特征；

将所述预测频谱特征输入声码器进行合成处理，得到与所述待合成多语言文本对应的目标语音。
根据权利要求1所述的多语言文本的语音合成方法，其特征在于，所述将所有所述编码规则对应的文本编码转换为联合文本编码，包括：

将所有所述编码规则对应的文本编码进行拼接，得到拼接文本编码；

将所述拼接文本编码进行线性仿射变换，得到联合文本编码。
根据权利要求1所述的多语言文本的语音合成方法，其特征在于，所述将所述联合文本编码、标准频谱特征数据输入解码器进行预测解码，得到预测频谱特征，包括：

将所述联合文本编码进行高层特征提取得到联合文本编码高层特征；

将所述联合文本编码高层特征、所述标准频谱特征数据输入解码器进行预测解码，得到所述预测频谱特征。
根据权利要求2所述的多语言文本的语音合成方法，其特征在于，所述将所述待合成多语言文本分别输入至少两个编码规则不同的编码器中进行编码，得到与编码规则对应的文本编码，包括：

将所述待合成多语言文本输入One-hot编码器进行编码，得到与One-hot编码器对应的One-hot文本编码；

将所述待合成多语言文本输入UTF-8编码器进行编码，得到与UTF-8编码器对应的UTF-8文本编码；

将所述待合成多语言文本输入音素编码器进行编码，得到与音素编码器对应的音素文本编码。
根据权利要求4所述的多语言文本的语音合成方法，其特征在于，所述将所有所述编码规则对应的文本编码进行拼接，得到拼接文本编码，包括：

将所述One-hot文本编码、所述UTF-8文本编码、所述音素文本编码在通道维度上进行拼接，得到拼接文本编码，所述拼接文本编码包括三维数据；其中，第一维数据为所述One-hot文本编码，第二维数据为所述UTF-8文本编码，第三维数据为所述音素文本编码。
根据权利要求2所述的多语言文本的语音合成方法，其特征在于，所述将所述拼接文本编码进行线性仿射变换，得到联合文本编码，包括：

将多维的所述拼接文本编码输入第一神经网络进行线性仿射变换对所述编码规则对应的文本编码进行选择，得到联合文本编码。
根据权利要求3所述的多语言文本的语音合成方法，其特征在于，所述将所述联合文本编码进行高层特征提取，得到联合文本编码高层特征，包括：

将所述联合文本编码输入第二神经网络进行高层特征提取，得到联合文本编码高层特征。
根据权利要求7所述的多语言文本的语音合成方法，其特征在于，所述第二神经网络包括依次设置的字符级卷积神经网络、三个卷积层及双向长短时记忆循环神经网络。
根据权利要求3所述的多语言文本的语音合成方法，其特征在于，所述将所述联合文本编码高层特征、所述标准频谱特征数据输入解码器进行预测解码，得到所述预测频谱特征，包括：

获取标准频谱特征数据；

将所述联合文本编码高层特征、所述标准频谱特征数据输入解码器，所述解码器包括第三神经网络；

所述解码器的第三神经网络根据所述联合文本编码、所述标准频谱特征数据结合注意力机制进行频谱特征预测，得到预测频谱特征。
根据权利要求1至9任一项所述的多语言文本的语音合成方法，其特征在于，所述获取待合成多语言文本之前，还包括：

获取待处理多语言文本；

根据所述待处理多语言文本进行语言标准化处理，得到待合成多语言文本。
一种多语言文本的语音合成装置，其特征在于，所述装置包括：

联合编码模块，用于获取待合成多语言文本，将所述待合成多语言文本分别输入至少两个编码规则不同的编码器中进行编码，得到与编码规则对应的文本编码，将所有所述编码规则对应的文本编码转换为联合文本编码；

语音合成模块，用于将所述联合文本编码、标准频谱特征数据输入解码器进行预测解码，得到预测频谱特征，将所述预测频谱特征输入声码器进行合成处理，得到与所述待合成多语言文本对应的目标语音。
根据权利要求11所述的多语言文本的语音合成装置，其特征在于，所述联合编码模块包括分别编码子模块、联合编码子模块；

所述分别编码子模块用于获取待合成多语言文本，将所述待合成多语言文本分别输入至少两个编码规则不同的编码器中进行编码，得到与编码规则对应的文本编码；

所述联合编码子模块用于将所有所述编码规则对应的文本编码进行拼接，得到拼接文本编码，将所述拼接文本编码进行线性仿射变换，得到联合文本编码。
根据权利要求11所述的多语言文本的语音合成装置，其特征在于，所述语音合成模块包括高层特征提取子模块、频谱特征预测子模块；

所述高层特征提取子模块用于将所述联合文本编码进行高层特征提取得到联合文本编码高层特征；

所述频谱特征预测子模块用于将所述联合文本编码高层特征、所述标准频谱特征数据输入解码器进行预测解码，得到所述预测频谱特征。
一种存储介质，存储有计算机指令程序，其特征在于，所述计算机指令程序被处理器执行时，使得所述处理器执行如权利要求1至10中任一项所述方法的步骤。
一种多语言文本的语音合成设备，其特征在于，包括至少一个存储器、至少一个处理器，所述存储器存储有计算机指令程序，所述计算机指令程序被所述处理器执行时，使得所述处理器执行如权利要求1至10中任一项所述方法的步骤。