WO2020019885A1

WO2020019885A1 - 语音合成方法、模型训练方法、装置和计算机设备

Info

Publication number: WO2020019885A1
Application number: PCT/CN2019/090493
Authority: WO
Inventors: 吴锡欣; 王木; 康世胤; 苏丹; 俞栋
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2018-07-25
Filing date: 2019-06-10
Publication date: 2020-01-30
Also published as: TWI732225B; US12014720B2; EP3742436A4; CN109036375B; US20200380949A1; CN109036375A; TW202008348A; EP3742436A1

Abstract

本申请涉及一种语音合成方法、模型训练方法、装置和计算机设备，所述方法包括：获取待处理的语言学数据；对所述语言学数据编码，得到语言学编码数据；获取用于语音特征转换的嵌入向量；所述嵌入向量，根据对应相同参考语言学数据的参考合成语音数据和参考语音数据之间的残差生成；根据所述嵌入向量对所述语言学编码数据进行解码，获得经过语音特征转换的目标合成语音数据。本申请提供的方案可以避免因对数梅尔频谱中的语义特征影响合成语音的质量的问题。

Description

语音合成方法、模型训练方法、装置和计算机设备

本申请要求于2018年07月25日提交的申请号为201810828220.1、发明名称为“语音合成方法、模型训练方法、装置和计算机设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及语音合成技术领域，特别是涉及一种语音合成方法、模型训练方法、装置和计算机设备。

背景技术

随着语音合成技术和计算机技术的不断发展，语音交互的应用场景越来越广泛，用户可以很方便地通过数字产品获得各种语音相关的服务，如用户通过手机中的电子地图进行语音导航，通过阅读软件收听有声小说等。

对于合成的语音而言，若语音具有人的语音特征时，无疑会提高用户体验。使合成的语音具有人的语音特征，通常的做法是：以处理语音数据所得的对数梅尔频谱作为特征模型的输入变量，获得说话人的语音特征，然后端到端模型(Tacotron)根据所获得的语音特征和对应的文本特征合成语音数据，从而使合成的语音数据具有说话人的语音特征。然而，上述方案中，由于对数梅尔频谱中既包含话人的语音特征又包含语义特征，从而影响从对数梅尔频谱中提取语音特征，进而影响合成语音的质量。

发明内容

本申请提供了一种语音合成方法、模型训练方法、装置和计算机设备。

一种语音合成方法，包括：

获取待处理的语言学数据；对所述语言学数据编码，得到语言学编码数据；获取用于语音特征转换的嵌入向量；所述嵌入向量，根据对应相同参考语言学数据的参考合成语音数据和参考语音数据之间的残差生成；根据所述嵌入向量对所述语言学编码数据进行解码，获得经过语音特征转换的目标合成语音数据。

一种语音合成装置，包括：

语言学数据获取模块，用于获取待处理的语言学数据；

语言学数据编码模块，用于对所述语言学数据编码，得到语言学编码数据；

嵌入向量获取模块，用于获取用于语音特征转换的嵌入向量；所述嵌入向量，根据对应相同参考语言学数据的参考合成语音数据和参考语音数据之间的残差生成；

语言学编码数据解码模块，用于根据所述嵌入向量对所述语言学编码数据进行解码，获得经过语音特征转换的目标合成语音数据。

一种存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述语音合成方法的步骤。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述语音合成方法的步骤。

上述的语音合成方法、模型训练方法、装置和计算机设备中，获取待处理的语言学数据，对语言学数据进行编码，便可得到表征发音的语言学编码数据。获取用于语音特征转换的嵌入向量，由于嵌入向量是对应相同参考语言学数据的参考合成语音数据和参考语音数据之间的残差生成，因而所得到的嵌入向量为不包含语义特征的风格特征向量。根据嵌入向量对语言学编码数据进行解码，避免了语义特征对语言学编码数据处理的影响，因此所获得的目标合成语音数据的质量高，从而提高了合成语音的质量。

一种模型训练方法，包括：

获取训练语言学数据和相应的训练语音数据；通过第一编码器对训练语言学数据编码，得到第一训练语言学编码数据；获取用于语音特征转换的训练嵌入向量；所述训练嵌入向量，根据对应相同训练语言学数据的训练合成语音数据和训练语音数据之间的残差生成；通过第一解码器，根据所述训练嵌入向量对所述第一训练语言学编码数据进行解码，获得经过语音特征转换的预测目标合成语音数据；根据所述预测目标合成语音数据和训练语音数据间的差异，调整所述第一编码器和所述第一解码器，并继续训练，直至满足训练停止条件。

一种模型训练装置，包括：

训练语音数据获取模块，用于获取训练语言学数据和相应的训练语音数据；

训练语言学数据编码模块，用于通过第一编码器对训练语言学数据编码，得到第一训练语言学编码数据；

训练嵌入向量获取模块，用于获取用于语音特征转换的训练嵌入向量；所述训练嵌入向量，根据对应相同训练语言学数据的训练合成语音数据和训练语音数据之间的残差生成；

训练语言学编码数据解码模块，用于通过第一解码器，根据所述训练嵌入向量对所述第一训练语言学编码数据进行解码，获得经过语音特征转换的预测目标合成语音数据；

调整模块，用于根据所述预测目标合成语音数据和训练语音数据间的差异，调整所述第一编码器和所述第一解码器，并继续训练，直至满足训练停止条件。

一种存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述模型训练方法的步骤。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述模型训练方法的步骤。

上述的模型训练方法、装置、存储介质和计算机设备中，通过第一编码器和第一解码器处理训练语言学数据、训练语音数据和训练嵌入向量，得到预测目标合成语音数据，根据预测目标合成语音数据和训练语音数据间的差异调整第一编码器和第一解码器，使预测目标合成语音数据不断逼近训练语音数据，从而得到训练好的第一编码器和第一解码器。由于训练过程中采用了由训练合成语音数据和训练语音数据之间的残差生成的训练嵌入向量，该训练嵌入向量只包含语音特征，无需考虑语义特征对对训练模型的影响，从而降低了第一编码器和第一解码器的复杂度，提高了训练结果的准确性。

附图说明

图1为一个实施例中语音合成方法和模型训练方法的应用系统结构图；

图2为一个实施例中语音合成方法的流程示意图；

图3为一个实施例中语音合成阶段得到目标合成语音数据的示意图；

图4为一个实施例中根据参考语言学数据和参考语音数据获得嵌入向量的步骤的流程示意图；

图5为一个实施例中获得嵌入向量过程中数据流向的示意图；

图6为一个实施例中通过残差模型获得嵌入向量的步骤的流程示意图；

图7为一个实施例中残差模型结构和残差在残差模型中的处理过程的示意图；

图8为一个实施例中自适应阶段获得嵌入向量的示意图；

图9为一个实施例中对目标语音模型进行训练的步骤的流程示意图；

图10为一个实施例中模型训练阶段中训练目标语音模型时数据流向的示意图；

图11为一个实施例中对平均语音模型、残差模型和目标语音模型进行训练的步骤的流程示意图；

图12为一个实施例中模型训练阶段中训练平均语音模型、残差模型和目标语音模型时数据流向的示意图；

图13为一个实施例中对目标语音模型进行训练的步骤的流程示意图；

图14为一个实施例中对平均语音模型、残差模型和目标语音模型进行训练的步骤的流程示意图；

图15为一个实施例中语音合成装置的结构框图；

图16为另一个实施例中语音合成装置的结构框图；

图17为一个实施例中模型训练装置的结构框图；

图18为另一个实施例中模型训练装置的结构框图；

图19为一个实施例中计算机设备的结构框图；

图20为另一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中语音合成方法和模型训练方法的应用环境图。参照图1，该语音合成方法、模型训练方法应用于语音合成系统。该语音合成系统包括第一编码器、第一解码器、第二编码器、第二解码器、叠加器、残差模型和投影层等。语音合成系统中的各部分组成元素之间的内在关系及信号流向如图1所示。其中，第一编码器和第一解码器构成目标语音模型，在应用阶段用于合成语音。第二编码器和第二解码器构成平均语音模型，所构成的平均语音模型与叠加器、残差模型和投影层组合使用，在自适应阶段可用于获得用于表征风格特征的嵌入向量。该语音合成系统可以以应用程序或应用程序的组成部分运行在计算机设备上。该计算机设备可以为终端或服务器。终端可以是台式终端、移动终端、智能机器人。其中，移动终端可以是智能手机、平板电脑、笔记本电脑或可穿戴式设备等。

如图2所示，在一个实施例中，提供了一种语音合成方法。本实施例主要以该方法应用于上述图1中运行语音合成系统的终端来举例说明。参照图2，该语音合成方法可以包括如下步骤：

S202，获取待处理的语言学数据。

其中，语言学数据可以是文本或文本的特征或特征项。文本的特征可以是文本中的字、发音、字或词的韵律和重音等特征。特征项可以是字、词或短语等。特征项需要具备以下特性：能够确实标识文本内容，具有将目标文本与其他文本相区分的能力，特征项分离易实现。

在一个实施例中，在应用过程中，终端接收用户发出的语音交互信号，从预设的语言学库中查找与语音交互信号对应的语言学数据。例如，用户在与终端进行语音交互过程中，若终端接收到用户发出“西施与貂蝉谁更漂亮”的语音交互信号时，终端从预设的语言学库中查找与该语音交互信号对应的“西施与貂蝉都一样漂亮”的语言学数据。在该实例中，语言学数据为文本。

S204，对语言学数据编码，得到语言学编码数据。

在一个实施例中，终端通过第一编码器对语言学数据编码，得到语言学编码数据。例如，终端获取一段文本，通过第一编码器对文本进行编码，获得分布式表示，该分布式表示即为语言学编码数据。其中，该分布式表示可以是特征向量。一个特征向量与文本中的一个字或词相对应。

其中，第一编码器可以是语言学数据编码器或基于注意力的递归生成器。第一编码器可以由RNN(Recurrent Neural Network，递归神经网络)，或LSTM(Long Short-Term Memory，长短期记忆网络)，或闸控卷积神经网络，或时延网络所构成。

示例地，终端将表征语言学数据的向量输入第一编码器，将第一编码器最后一个单元状态作为输出，得到语言学编码数据。

S206，获取用于语音特征转换的嵌入向量；嵌入向量是根据对应相同参考语言学数据的参考合成语音数据和参考语音数据之间的残差生成。

其中，嵌入向量可以是具有参考对象说话风格特征的向量，而参考对象可以是说话具有特殊风格的人。风格特征包括但不限于：与时长和韵律起伏相关性高的韵律时长特征、基频特征和能量特征。韵律时长特征包括一个字或词的时长、停顿和重音等特征。终端将该嵌入向量与对应的语言学编码数据进行融合和处理，将得到具有参考对象说话风格的合成语音数据。当合成语音数据经过处理后通过扬声器播放出来，播放出来的合成语音将不再是机械化的语音，而是具有人的说话风格。

在一个实施例中，当用户在与终端进行语音交互之前，终端获取参考语言学数据和具有风格特征的参考语音数据，其中，参考语音数据的来源可以是与终端进行语音交互的用户，也可以是指定的参考用户。终端对参考语言学数据进行语音合成，得到不具有风格特征的参考合成语音数据。终端将参考合成语音数据与参考语音数据进行作差处理，得到表征风格特征的残差。终端对残差进行处理得到表征风格特征的嵌入向量。终端将得到的嵌入向量保存于风格特征向量库中。其中，风格特征向量库可以保存多个参考对象对应的嵌入向量。该表征风格特征的残差实质上可以是残差序列。

在一个实施例中，终端对残差进行处理得到表征风格特征的嵌入向量的步骤，可以包括：将残差输入残差模型的多个全连接层，将全连接层输出的结果分别输入前向门循环单元层和后向门循环单元层，将前向门循环单元层最后一个时间步的输出与后向门循环单元层第一个时间步的输出相加，得到用于语音特征转换的、能表征风格特征的嵌入向量。

例如，若用户在与终端进行语音交互时想要听到张曼玉的说话风格，那么在与终端进行语音交互之前，终端获取张曼玉的语音数据作为参考语音数据，并获取对应的语言学数据(例如说话的文字内容，文字内容如“西施与貂蝉谁更漂亮”)，其中，获取的参考语音数据具有张曼玉的说话风格。终端对语言学数据进行语音合成，得到不具有张曼玉说话风格的参考合成语音数据。终端将具有张曼玉说话风格的参考语音数据与不具有说话风格的参考合成语音数据作差，得到表征风格特征的残差。终端对得到的残差进行处理，获得能够表征张曼玉说话风格的嵌入向量。

在一个实施例中，终端将得到的用于语音特征转换的、能表征风格特征的嵌入向量，保存于嵌入向量库中。当终端接收到风格特征选择指令时，展示与嵌入向量对应的风格选择界面。

在一个实施例中，终端接收指定的风格特征指令，从风格特征向量库中获取与风格特征指令对应的嵌入向量。例如，用户想要听到某个电影或体育明星的声音，那么，用户在终端的风格选择界面中的各参考对象中选择目标的电影或体育明星，此时终端接收到对于该电影或体育明星的风格特征指令，根据风格特征指令选择表征该电影或体育明星说话风格的嵌入向量。

S208，根据嵌入向量对语言学编码数据进行解码，获得经过语音特征转换的目标合成语音数据。

在一个实施例中，终端通过第一解码器，按照嵌入向量对语言学编码数据进行解码，获得经过语音特征转换的、具有参考对象说话风格的目标合成语音数据。或者，终端将嵌入向量与语言学编码数据进行组合，对组合后的结果进行解码，获得经过语音特征转换的、具有参考对象说话风格的目标合成语音数据。

其中，第一解码器可以是语音数据解码器或基于注意力的递归生成器。第一解码器可以由RNN，或LSTM，或CNN(Convolutional Neural Network，卷积神经网络)，或闸控卷积神经网络，或时延网络所构成。

作为一个示例，如图3所示，当接收到用户发出的语音交互信号时，终端获取与语音交互信号对应的语言学数据，该语言学数据例如是“西施与貂蝉谁更漂亮”。终端将获取的语言学数据输入第一编码器，通过第一编码器的编码处理，得到语言学编码数据。终端获取可以表征参考对象(如张曼玉)说话风格的嵌入向量，通过第一解码器对嵌入向量和语言学编码数据进行处理，得到具有参考对象说话风格的目标合成语音数据。

上述实施例中，获取待处理的语言学数据，对语言学数据进行编码，便可得到表征发音的语言学编码数据。获取用于语音特征转换的嵌入向量，由于嵌入向量是对应相同参考语言学数据的参考合成语音数据和参考语音数据之间的残差生成，因而所得到的嵌入向量为不包含语义特征的风格特征向量。根据嵌入向量对语言学编码数据进行解码，避免了语义特征对语言学编码数据处理的影响，因此所获得的目标合成语音数据的质量高，从而提高了合成语音的质量。

在一个实施例中，如图4所示，该方法还可以包括：

S402，获取参考语言学数据和相应的参考语音数据。

其中，参考语音数据可以是采自于参考对象的语音数据。参考语言学数据与参考语音数据相对应。参考对象可以是与终端进行语音交互的用户，也可以是指定的参考用户。对应的，参考语音数据可以是参考对象发出的语音信号，而参考语言学数据可以是语音信号中所要表达的文字内容。

例如，若用户在与终端进行语音交互时想要听到用户本人的说话风格，那么在与终端进行语音交互之前，获取用户本人的语音数据作为参考语音数据，并获取对应的语言学数据，其中，获取的参考语音数据具有用户本人的说话风格。终端对语言学数据进行语音合成，得到不具有用户本人说话风格的参考合成语音数据。终端将具有用户本人说话风格的参考语音数据与不具有说话风格的参考合成语音数据作差，得到表征风格特征的残差。终端对得到的残差进行处理，获得能够表征用户本人说话风格的嵌入向量。

在一个实施例中，终端采集参考对象的语音，将采集的语音进行分帧、加窗和傅里叶变换，得到具有参考对象说话风格特征的、且为频域的语音数据。

S404，对参考语言学数据编码，得到参考语言学编码数据。

在一个实施例中，终端通过第一编码器对参考语言学数据编码，得到参考语言学编码数据。例如，终端获取一段文本，通过第一编码器对该段文本进行编码，获得分布式表示，该分布式表示即为参考语言学编码数据。其中，该分布式表示可以是特征向量。一个特征向量与文本中的一个字或词相对应。

其中，第二编码器可以是语言学数据编码器或基于注意力的递归生成器。第二编码器可以由RNN，或LSTM，或闸控卷积神经网络，或时延网络所构成。示例地，终端将表征语言学数据的向量输入第二编码器，将第二编码器最后一个单元状态作为输出，得到语言学编码数据。

S406，解码参考语言学编码数据，得到参考合成语音数据。

在一个实施例中，终端通过第二解码器对参考语言学数据进行解码，得到不具有风格特征的参考合成语音数据。

其中，第二解码器可以是语音数据解码器或基于注意力的递归生成器。第二解码器可以由RNN，或LSTM，或CNN(Convolutional Neural Network，卷积神经网络)，或闸控卷积神经网络，或时延网络所构成。

其中，S404和S406为合成不具有风格特征的参考合成语音数据的步骤。作为一个示例，如图5所示。终端获得参考语言学数据后，将获得的参考语言学数据输入第二编码器中，通过第二编码器对参考语言学数据进行处理，得到表示参考语言学数据的上下文的表示C。其中，上下文的表示C可以是概括了输入序列X＝{x(1),x(2)...x(n)}的向量，其中n为大于1的整数。终端将上下文的表示C输入第二解码器，以固定长度的向量作为条件，产生输出序列Y＝{y(1),y(2)...y(n)}，进而得到参考合成语音数据。需要说明的是，上述方法步骤只是用于理解如何得到参考合成语音数据，不作为本申请实施例的限定。

S408，根据参考语音数据和参考合成语音数据间的残差，确定用于语音特征转换的嵌入向量。

在一个实施例中，终端对参考语音数据和参考合成语音数据进行作差，得到表征风格特征的残差。终端对所得的具有风格特征的残差进行处理，得到用于语音特征转换的、且用于表征风格特征的嵌入向量。

上述实施例中，根据参考语音数据和参考合成语音数据间的残差，确定用于语音特征转换的嵌入向量，从而得到用于对语言学数据进行语音合成时进行风格控制的嵌入向量，以使合成的目标合成语音数据具有特定的风格特征，提高合成语音的质量。

在一个实施例中，如图6所示，S408可以包括：

S602，确定参考语音数据和参考合成语音数据间的残差。

在一个实施例中，终端对参考语音数据和参考合成语音数据进行作差，得到表征风格特征的残差。

S604，通过残差模型处理残差。

其中，残差模型可以由RNN所构建。残差模型可以包括4层：从下至上分别为两个全连接(Dense)层、一个前向GRU(Gated Recurrent Unit,门循环单元)层和一个后向GRU层。其中，每个Dense层包含128个以激活函数(如ReLU函数)激发的单元，丢失(Dropout)率为0.5，每个门循环单元层包含了32个记忆模块。

在一个实施例中，S604可以包括：将残差输入至残差模型，并通过残差模型中的全连接层、前向门循环单元层和后向门循环单元层对残差进行处理。

S606，根据残差模型中前向运算的结果和后向运算的结果，生成用于语音特征转换的嵌入向量。

其中，该嵌入向量也可以称为自适应嵌入向量。嵌入向量所具有的风格特征与参考语音数据相关。例如，假设参考语音数据是通过采集张曼玉的语音所得，则该嵌入向量所具有的风格特征与张曼玉的说话风格特征一致。又例如，假设参考语音数据是通过采集用户本人的语音所得，则该嵌入向量所具有的风格特征与用户本人的说话风格特征一致。

在一个实施例中，终端通过残差模型中前向门循环单元层对残差进行前向运算，得到前向运算的结果。终端通过残差模型中后向门循环单元层对残差进行后向运算，得到后向运算的结果。

在一个实施例中，S606可以包括：获取残差模型中前向门循环单元层进行前向运算时在最后一个时间步输出的第一向量；获取残差模型中后向门循环单元层进行后向运算时在第一个时间步输出的第二向量；将第一向量和第二向量叠加，获得用于语音特征转换的嵌入向量。

作为一个示例，如图7所示，假设所得到的残差为R＝{r(1),r(2),…,r(t)}，其中，t为大于1的整数。将所得到的残差R＝{r(1),r(2),…,r(t)}依次输入Dense层和GRU层。最后，将前向GRU层最后一个时间步的隐层状态与后向GRU层第一个时间步的隐层状态相加，得到用于表征风格特征的嵌入向量e。

S402-S408以及S602-S606为获取嵌入向量的步骤，作为一个示例，如图8所示，可以通过如下方法获得嵌入向量：终端获取参考语言学数据和具有风格特征(如张曼玉说话的风格特征)的参考语音数据，其中，该语言学数据例如是“西施与貂蝉谁更漂亮”。终端将获取的语言学数据输入第一编码器，通过第一编码器的编码处理，得到参考语言学编码数据。然后，终端对参考语言学编码数据进行解码获得参考合成语音数据，将参考合成语音数据与参考语音数据进行作差，得到表征风格特征的残差。终端通过残差模型对残差进行处理，得到可以表征说话风格的嵌入向量。

上述实施例中，通过残差模型处理参考语音数据和参考合成语音数据之间的残差，获得用于语音特征转换的嵌入向量，使得嵌入向量具有与参考语音数据相同的风格特征，具有自适应的效果。此外，得到用于对语言学数据进行语音合成时进行风格控制的嵌入向量，以使合成的目标合成语音数据具有特定的风格特征，提高合成语音的质量。

在一个实施例中，如图9所示，语言学编码数据通过第一编码器进行编码得到；目标合成语音数据通过第一解码器进行解码得到；该方法还包括：

S902，获取训练语言学数据和相应的训练语音数据。

其中，语言学数据可以是文本或文本的特征或特征项。训练语言学数据指的是在训练阶段所采用的语言学数据，用于对第一编码器和第一解码器进行训练。

在一个实施例中，在训练过程中，终端获取训练语言学数据和具有风格特征的训练语音数据。例如，在训练过程中，开发人员输入用于训练的训练语言学数据和具有风格特征的训练语音数据。其中，训练语言学数据可以是“我喜欢吃饭睡觉打豆豆”。其中，当训练“我喜欢吃饭睡觉打豆豆”这个语言学数据后，若用户在与终端进行语音交互时发出“小机器人，你平时喜欢干嘛呀？”的语音交互信号时，终端则输出“我喜欢吃饭睡觉打豆豆”作为回应。

S904，通过第一编码器对训练语言学数据编码，得到第一训练语言学编码数据。

在一个实施例中，终端通过第一编码器对训练语言学数据编码，得到第一训练语言学编码数据。例如，终端获取一段训练文本，通过第一编码器对训练文本进行编码，获得分布式表示，该分布式表示即为第一训练语言学编码数据。

S906，获取用于语音特征转换的训练嵌入向量；训练嵌入向量，根据对应相同训练语言学数据的训练合成语音数据和训练语音数据之间的残差生成。

其中，训练嵌入向量指的是用于训练第一编码器和第一解码器的向量。终端将该训练嵌入向量与对应的第一训练语言学编码数据进行融合和处理，将得到具有参考对象说话风格的训练合成语音数据。当训练合成语音数据经过处理后通过扬声器播放出来，播放出来的合成语音将不再是机械化的语音，而是具有人的说话风格。

在一个实施例中，当用户在与终端进行语音交互之前，终端获取训练语言学数据和具有风格特征的训练语音数据，其中，训练语音数据的来源可以由开发人员选取，可以是由开发人员自己的语音所得，也可以是由其它具有特定说话风格的语音所得。终端对训练语言学数据进行语音合成，得到不具有风格特征的训练合成语音数据。终端将训练合成语音数据与训练语音数据进行作差处理，得到表征风格特征的残差。终端对残差进行处理得到表征风格特征的训练嵌入向量。终端将得到的训练嵌入向量保存于风格特征向量库中。

在一个实施例中，终端对残差进行处理得到表征风格特征的训练嵌入向量的步骤，可以包括：通过残差模型的多个全连接层处理残差，将全连接层输出的结果分别输入前向门循环单元层和后向门循环单元层，将前向门循环单元层最后一个时间步的输出与后向门循环单元层第一个时间步的输出相加，得到用于语音特征转换的、能表征风格特征的训练嵌入向量。

例如，若开发人员想以张曼玉的语音数据作为训练语音数据，则获取张曼玉的语音进行处理得到训练语音数据，并获取对应的语言学数据(例如说话的文字内容，文字内容如“我喜欢吃饭睡觉打豆豆”)，其中，获取的训练语音数据具有张曼玉的说话风格。终端对语言学数据进行语音合成，得到不具有说话风格的训练合成语音数据。终端将具有张曼玉说话风格的训练语音数据与不具有说话风格的训练合成语音数据作差，得到表征风格特征的残差。终端对得到的残差进行处理，获得能够表征张曼玉说话风格的训练嵌入向量。

在一个实施例中，终端接收指定的风格特征选择指令，从风格特征向量库中获取与风格特征指令对应的训练嵌入向量。例如，开发人员在终端的风格选择界面中的各参考对象中选择目标的电影或体育明星，此时终端接收到对于该电影或体育明星的风格特征指令，根据风格特征指令选择表征该电影或体育明星说话风格的训练嵌入向量。

S908，通过第一解码器，根据训练嵌入向量对第一训练语言学编码数据进行解码，获得经过语音特征转换的预测目标合成语音数据。

在一个实施例中，终端通过第一解码器，按照训练嵌入向量对第一训练语言学编码数据进行解码，获得经过语音特征转换的、具有参考对象说话风格的预测目标合成语音数据。或者，终端将训练嵌入向量与第一训练语言学编码数据进行组合，对组合后的结果进行解码，获得经过语音特征转换的、具有参考对象说话风格的预测目标合成语音数据。

S910，根据预测目标合成语音数据和训练语音数据间的差异，调整第一编码器和第一解码器，并继续训练，直至满足训练停止条件。

在一个实施例中，终端根据预测目标合成语音数据和训练语音数据间的差异，调整第一编码器和第一解码器中的参数，并继续训练，直至预测目标合成语音数据对应的语音风格与训练语音数据对应的语音风格一致，则停止训练。

S902-S910为训练第一编码器和第一解码器的步骤，作为一个示例，如图10所示，可以通过如下方法训练第一编码器和第一解码器：获取训练语言学数据和具有风格特征(如张曼玉或开发者本人说话的风格特征)的训练语音数据，通过第一编码器对训练语言学数据编码得到第一训练语言学编码数据；获取用于表征风格特征的训练嵌入向量，通过第一解码器，根据训练嵌入向量对第一训练语言学编码数据进行解码，获得经过语音特征转换的预测目标合成语音数据；根据预测目标合成语音数据和训练语音数据间的差异，调整第一编码器和第一解码器，并继续训练，直至满足训练停止条件。

上述实施例中，通过第一编码器和第一解码器处理训练语言学数据、训练语音数据和训练嵌入向量，得到预测目标合成语音数据。根据预测目标合成语音数据和训练语音数据间的差异调整第一编码器和第一解码器，使预测目标合成语音数据不断逼近训练语音数据，从而得到训练好的第一编码器和第一解码器。由于训练过程中采用了由训练合成语音数据和训练语音数据之间的残差生成的训练嵌入向量，该训练嵌入向量只包含语音特征，无需考虑语义特征对对训练模型的影响，从而降低了第一编码器和第一解码器的复杂度，提高了训练结果的准确性。

在一个实施例中，语言学编码数据通过第一编码器进行编码得到；目标合成语音数据通过第一解码器进行解码得到；参考语言学编码数据通过第二编码器进行编码得到；参考合成语音数据通过第二解码器进行解码得到；嵌入向量通过残差模型得到。如图11所示，该方法还可以包括：

S1102，获取训练语言学数据和相应的训练语音数据。

其中，训练语言学数据指的是在训练阶段所采用的语言学数据，用于对第一编码器和第一解码器进行训练。

在一个实施例中，在训练过程中，终端获取训练语言学数据和具有风格特征的训练语音数据。例如，在训练过程中，开发人员输入用于训练的训练语言学数据和具有风格特征的训练语音数据。其中，训练语言学数据可以是“我喜欢吃饭睡觉打豆豆”。

S1104，通过第二编码器将训练语言学数据编码，得到第二训练语言学编码数据。

在一个实施例中，终端通过第二编码器对训练语言学数据编码，得到第二训练语言学编码数据。例如，终端获取一段文本，通过第一编码器对该段文本进行编码，获得分布式表示，该分布式表示即为第二训练语言学编码数据。其中，该分布式表示可以是特征向量。一个特征向量与文本中的一个字或词相对应。

S1106，通过第二解码器对第二训练语言学编码数据解码，得到训练合成语音数据。

S1108，通过残差模型，并根据训练合成语音数据和训练语音数据之间的残差生成训练嵌入向量。

在一个实施例中，终端通过残差模型，对训练合成语音数据和训练语音数据进行作差，得到表征风格特征的残差。终端对所得的具有风格特征的残差进行处理，得到用于语音特征转换的、且用于表征风格特征的训练嵌入向量。

对于获得训练嵌入向量的详细过程，可参考S402-S408和S602-S606，这里不再进行赘述。

S1110，通过第一解码器，根据训练嵌入向量对第一训练语言学编码数据进行解码，获得经过语音特征转换的预测目标合成语音数据。

其中，第一训练语言学编码数据由第一编码器编码训练语言学数据所得。

在一个实施例中，终端通过第二解码器，按照训练嵌入向量对第一训练语言学编码数据进行解码，获得经过语音特征转换的、具有参考对象说话风格的预测目标合成语音数据。或者，终端将训练嵌入向量与第一训练语言学编码数据进行组合，对组合后的结果进行解码，获得经过语音特征转换的、具有参考对象说话风格的预测目标合成语音数据。

S1112，根据预测目标合成语音数据和训练语音数据间的差异，调整第二编码器、第二解码器、残差模型、第一编码器和第一解码器，并继续训练，直至满足训练停止条件。

在一个实施例中，终端根据预测目标合成语音数据和训练语音数据间的差异，调整第二编码器、第二解码器、残差模型、第一编码器和第一解码器中的参数，并继续训练，直至预测目标合成语音数据对应的语音风格与训练语音数据对应的语音风格一致，则停止训练。

S1102-S1112为训练第二编码器、第二解码器、残差模型、第一编码器和第一解码器的步骤，作为一个示例，如图12所示，可以通过如下方法训练第二编码器、第二解码器、残差模型、第一编码器和第一解码器：获取训练语言学数据和具有风格特征(如张曼玉或开发者本人说话的风格特征)的训练语音数据，通过第二编码器将训练语言学数据编码得到第二训练语言学编码数据，通过第二解码器对第二训练语言学编码数据进行解码得到训练合成语音数据。终端通过残差模型对训练合成语音数据与训练语音数据之间的残差进行处理，获得用于表征风格特征的训练嵌入向量。通过第一编码器对训练语言学数据编码得到第一训练语言学编码数据后，通过第一解码器，根据训练嵌入向量对第一训练语言学编码数据进行解码，获得经过语音特征转换的预测目标合成语音数据。根据预测目标合成语音数据和训练语音数据间的差异，调整第二编码器、第二解码器、残差模型、第一编码器和第一解码器，并继续训练，直至满足训练停止条件。

上述实施例中，通过训练语言学数据和相应的训练语音数据，对第二编码器、第二解码器、残差模型、第一编码器和第一解码器进行训练。根据预测目标合成语音数据和训练语音数据间的差异调整第二编码器、第二解码器、残差模型、第一编码器和第一解码器，使预测目标合成语音数据不断逼近训练语音数据，从而得到训练好的第二编码器、第二解码器、残差模型、第一编码器和第一解码器。

此外，由于训练过程中采用了由训练合成语音数据和训练语音数据之间的残差生成的训练嵌入向量，该训练嵌入向量只包含语音特征，无需考虑语义特征对对训练模型的影响，从而降低了第二编码器、第二解码器、残差模型、第一编码器和第一解码器的复杂度，提高了训练结果的准确性。

最后，将用于获取用于表征风格特征的嵌入向量的第二编码器、第二解码器、残差模型，与用于合成语音的第一编码器和第一解码器结合在一起，降低了语音合成系统对数据的需求，提高建立语音合成系统的准确性。

在一个实施例中，S208可以包括：将语言学编码数据和嵌入向量拼接，得到拼接向量；对拼接向量进行解码，得到经过语音特征转换的目标合成语音数据。

在一个实施例中，嵌入向量包括：韵律时长特征、基频特征和能量特征。将语言学编码数据和嵌入向量拼接，得到拼接向量的步骤，可以包括：根据韵律时长特征确定与目标语音数据中韵律对应的目标时长；将音素序列与目标时长、基频特征和能量特征进行组合，获得组合特征。

上述实施例中，将语言学编码数据和嵌入向量拼接，对拼接后所得的向量进行解码，得到经过语音特征转换的目标合成语音数据。由于拼接后的向量没语义特征，避免了语义特征对语言学编码数据的处理，从而提高了合成语音的质量。

在一个实施例中，该方法还可以包括：确定与目标合成语音数据对应的语音幅度谱；将语音幅度谱转换为时域的语音波形信号；根据语音波形生成语音。

在一个实施例中，目标合成语音数据可以是频域的语音数据，终端从频域的目标合成语音数据中获取对应的语音幅度谱，通过Griffin-Lim算法将语音幅度谱转换为时域的语音波形信号。终端将语音波形信号通过world声码器，转换成带有风格的合成声音。

上述实施例中，将具有语音特征的目标合成语音数据转换为语音信号，从而获得具有风格的语音，从而可以提高合成语音的质量。

如图13所示，在一个实施例中，提供了一种模型训练方法。本实施例主要以该方法应用于上述图1中运行语音合成系统的终端来举例说明。参照图13，该模型训练方法可以包括如下步骤：

S1302，获取训练语言学数据和相应的训练语音数据。

S1304，通过第一编码器对训练语言学数据编码，得到第一训练语言学编码数据。

在一个实施例中，终端通过第一编码器对训练语言学数据编码，得到第一训练语言学编码数据。例如，终端获取一段训练文本，通过第一编码器对训练文本进行编码，获得分布式表示，该分布式表示即为第一训练语言学编码数据。其中，该分布式表示可以是特征向量。一个特征向量与文本中的一个字或词相对应。

S1306，获取用于语音特征转换的训练嵌入向量；训练嵌入向量，根据对应相同训练语言学数据的训练合成语音数据和训练语音数据之间的残差生成。

其中，嵌入向量可以是具有参考对象说话风格特征的向量，参考对象可以在训练过程中，由开发人员选择的说话具有特定风格的人。训练嵌入向量指的是用于训练第一编码器和第一解码器的向量。终端将该训练嵌入向量与对应的第一训练语言学编码数据进行融合和处理，将得到具有参考对象说话风格的训练合成语音数据。当训练合成语音数据经过处理后通过扬声器播放出来，播放出来的合成语音将不再是机械化的语音，而是具有人的说话风格。

在一个实施例中，当用户在与终端进行语音交互之前，终端获取训练语言学数据和具有风格特征的训练语音数据，其中，训练语音数据的来源可以由开发人员选取，可以是由开发人员自己的语音所得，也可以是由其它具有特定说话风格的语音所得。终端对训练语言学数据进行语音合成，得到不具有风格特征的训练合成语音数据。终端将训练合成语音数据与训练语音数据进行作差处理，得到表征风格特征的残差。终端对残差进行处理得到表征风格特征的训练嵌入向量。终端将得到的训练嵌入向量保存于风格特征向量库中。其中，风格特征向量库可以保存多个参考对象对应的训练嵌入向量，而参考对象可以是说话具有特殊风格的人。该表征风格特征的残差实质上可以是残差序列。

在一个实施例中，终端接收指定的风格特征选择指令，从风格特征向量库中获取与风格特征指令对应的训练嵌入向量。例如，开发人员想要听到某个电影或体育明星的声音，那么，用户在终端的风格选择界面中的各参考对象中选择目标的电影或体育明星，此时终端接收到对于该电影或体育明星的风格特征指令，根据风格特征指令选择表征该电影或体育明星说话风格的训练嵌入向量。

S1308，通过第一解码器，根据训练嵌入向量对第一训练语言学编码数据进行解码，获得经过语音特征转换的预测目标合成语音数据。

S1310，根据预测目标合成语音数据和训练语音数据间的差异，调整第一编码器和第一解码器，并继续训练，直至满足训练停止条件。

S1302-S1310为训练第一编码器和第一解码器的步骤，作为一个示例，如图10所示，可以通过如下方法训练第一编码器和第一解码器：获取训练语言学数据和具有风格特征(如张曼玉或开发者本人说话的风格特征)的训练语音数据，通过第一编码器对训练语言学数据编码得到第一训练语言学编码数据；获取用于表征风格特征的训练嵌入向量，通过第一解码器，根据训练嵌入向量对第一训练语言学编码数据进行解码，获得经过语音特征转换的预测目标合成语音数据；根据预测目标合成语音数据和训练语音数据间的差异，调整第一编码器和第一解码器，并继续训练，直至满足训练停止条件。

在一个实施例中，如图14所示，该方法还可以包括：

S1402，获取训练语言学数据和相应的训练语音数据。

S1404，通过第二编码器将训练语言学数据编码，得到第二训练语言学编码数据。

S1406，通过第二解码器对第二训练语言学编码数据解码，得到训练合成语音数据。

S1408，通过残差模型，并根据训练合成语音数据和训练语音数据之间的残差生成训练嵌入向量。

S1410，通过第一解码器，根据训练嵌入向量对第一训练语言学编码数据进行解码，获得经过语音特征转换的预测目标合成语音数据。

在一个实施例中，终端通过第二解码器，按照训练嵌入向量对第二训练语言学编码数据进行解码，获得经过语音特征转换的、具有参考对象说话风格的预测目标合成语音数据。或者，终端将训练嵌入向量与第二训练语言学编码数据进行组合，对组合后的结果进行解码，获得经过语音特征转换的、具有参考对象说话风格的预测目标合成语音数据。

S1412，根据预测目标合成语音数据和训练语音数据间的差异，调整第二编码器、第二解码器、残差模型、第一编码器和第一解码器，并继续训练，直至满足训练停止条件。

S1402-S1412为训练第二编码器、第二解码器、残差模型、第一编码器和第一解码器的步骤，作为一个示例，如图12所示，可以通过如下方法训练第二编码器、第二解码器、残差模型、第一编码器和第一解码器：获取训练语言学数据和具有风格特征(如张曼玉或开发者本人说话的风格特征)的训练语音数据，通过第二编码器将训练语言学数据编码得到第二训练语言学编码数据，通过第二解码器对第二训练语言学编码数据进行解码得到训练合成语音数据。终端通过残差模型对训练合成语音数据与训练语音数据之间的残差进行处理，获得用于表征风格特征的训练嵌入向量。通过第一编码器对训练语言学数据编码得到第一训练语言学编码数据后，通过第一解码器，根据训练嵌入向量对第一训练语言学编码数据进行解码，获得经过语音特征转换的预测目标合成语音数据。根据预测目标合成语音数据和训练语音数据间的差异，调整第二编码器、第二解码器、残差模型、第一编码器和第一解码器，并继续训练，直至满足训练停止条件。

对于传统的语音合成方案中，其整体的思路是：在训练阶段，训练编码器从参考音频的对数梅尔频谱中得到风格的嵌入向量，再利用这个嵌入向量指导Tacotron对风格数据进行建模。在语音合成阶段，给定一个参考音频的对数梅尔频谱，首先通过训练好的编码器获得表征风格的嵌入向量，然后利用该嵌入向量指导Tacotron生成对应风格的语音。

上述方案中，存在以下问题：1)依赖人工标注的风格特征，耗时耗力，同时不便于拓展到不同的风格特征；2)在语音合成阶段，需要有额外的风格向量模块预测风格特征，以将预测所得的风格特征输入语音合成模型合成具有风格的语音，增加了训练耗时；3)在获取风格特征时输入是对数梅尔频谱，而对数梅尔频谱包含风格特征和语义特征，因此语音合成模型建模复杂度较高；4)对数梅尔频谱中不仅包含了风格特征，还包含了语义特征，这些语义特征对风格特征的提取会产生一定的影响，从而影响了提取风格特征的准确率。

本申请实施例提供了一种解决方案，可以解决上述问题。其中，如图1所示，语音合成系统包括：平均语音模型，残差模型，投影层与目标语音模型。其中，目标语音模型包括第一编码器和第一解码器。第一编码器和第一解码器分别可以是语言学数据编码器和语音数据解码器。此外，第一编码器和第一解码器还可以是基于注意力的递归生成器。平均语音模型包括第二编码器和第二解码器。第二编码器和第二解码器分别可以是语言学数据编码器和语音数据解码器。此外，第二编码器和第二解码器还可以是基于注意力的递归生成器。

平均语音模型和目标语音模型都可以是基于Tacotron模型，包括解码器与编码器。平均语音模型对训练语言学数据进行训练，得到平均风格的语音数据。残差模型对预测的平均合成语音数据与目标语音数据之间的差进行编码得到风格特征的嵌入向量。投影层将嵌入向量投影到目标语音模型的第一解码器空间中。

获得合成的语音之前，需通过以下三个阶段：训练阶段，自适应阶段与测试阶段；其中：

1)在训练阶段。

如图12所示，输入的训练语言学数据先通过平均语音模型预测出平均的训练合成语音数据。平均语音模型包括：第二编码器(如语言学数据编码器)与第二解码器(如语音数据解码器)。第二编码器用于对训练语言学数据进行编码，获得隐层表示。第二解码器用于对隐层表示进行解码，获得训练合成语音数据。其中，隐层表示指的是本申请实施例所述的语言学编码数据。

所获得的训练合成语音数据与目标带风格特征的训练语音数据进行作差处理，获得两者之间的残差。将残差输入残差模型，得到用于表征风格特征的训练嵌入向量，该训练嵌入向量通过投影层映射到目标语音模型的第一解码器中。

在目标语音模型中，类似于平均语音模型，输入的是训练语言学数据，经过第一编码器编码得到隐层表示。第一解码器跟据隐层表示与投影层映射过来的训练嵌入向量，解码出具有风格的预测目标合成语音数据。

整个训练过程中，训练嵌入向量是由数据驱动，自动学习得到的。

根据预测目标合成语音数据和训练语音数据间的差异，调整平均语音模型、残差模型和目标语音模型，并继续训练，直至预测目标合成语音数据尽可能逼近训练语音数据，使最终输出的合成语音的风格与训练所采用的语音数据的风格一致，从而得到训练好的平均语音模型、残差模型和目标语音模型。

2)自适应阶段。

自适应阶段主要是通过训练好的平均语音模型、残差模型和目标语音模型，获得目标风格的嵌入向量。例如，如图8所示，用户在与终端进行语音交互时，若想要听到张曼玉的说话风格，那么，用户可以使用张曼玉的语音数据作为参考语音数据，并获取对应的参考语言学数据。将获得的参考语言学数据输入训练好的平均语音模型，从而得到参考合成语音数据。将参考合成语音数据与参考语音数据进行作差处理，得到表示风格特征的残差。将残差输入残差模型，便可得到用于表征风格特征的嵌入向量。

利用训练阶段训练得到的平均语音模型和残差模型，可以快速得到自适应的风格嵌入向量。这个过程由于不需要训练，因而极大提高自适应的速度，减少自适应的时间。

3)测试阶段。

在测试阶段，如图3所示，用户与终端进行语音交互时，首先将给定的语言学数据输入到目标语音模型的第一编码器中进行编码，得到隐层表示。利用自适应阶段得到的嵌入向量对第一解码器进行控制，得到与自适应参考样本相似的风格的目标合成语音数据。例如，自适应阶段所采用的参考语音数据的来源为张曼玉时，所得到的目标合成语音数据的风格即为张曼玉的说话风格。

输出的目标合成语音数据再经过Griffin-Lim算法恢复为语音波形信号。

通过实时本申请实施例，可以具有以下有益效果：不需要人工标注的风格特征，降低了构建语音合成系统的成本；以残差为控制条件，避免了使用对数梅尔频谱，降低模型建模复杂度，提高了风格特征提取的准确性；风格向量模块(即残差模型)和语音合成模型可以同时建模同时训练，避免了额外的风格向量模块，降低了训练耗时，而且还可以实现快速自适应得到合成语音所需的嵌入向量。

图2为一个实施例中语音合成方法的流程示意图，图13为一个实施例中模型训练方法的流程示意图。应该理解的是，虽然图2和图13的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2和图13中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图15所示，在一个实施例中，提供了一种语音合成装置，该语音合成装置可以包括：语言学数据获取模块1502、语言学数据编码模块1504、嵌入向量获取模块1506和语言学编码数据解码模块1508；其中：

语言学数据获取模块1502，用于获取待处理的语言学数据。

语言学数据编码模块1504，用于对语言学数据编码，得到语言学编码数据。

嵌入向量获取模块1506，用于获取用于语音特征转换的嵌入向量；嵌入向量，根据对应相同参考语言学数据的参考合成语音数据和参考语音数据之间的残差生成。

语言学编码数据解码模块1508，用于根据嵌入向量对语言学编码数据进行解码，获得经过语音特征转换的目标合成语音数据。

在一个实施例中，如图16所示，该装置还可以包括：嵌入向量确定模块1510。其中：

语言学数据获取模块1502还用于获取参考语言学数据和相应的参考语音数据。

语言学数据编码模块1504还用于对参考语言学数据编码，得到参考语言学编码数据。

语言学编码数据解码模块1508还用于解码参考语言学编码数据，得到参考合成语音数据。

嵌入向量确定模块1510，用于根据参考语音数据和参考合成语音数据间的残差，确定用于语音特征转换的嵌入向量。

在一个实施例中，嵌入向量确定模块1510还用于确定参考语音数据和参考合成语音数据间的残差；通过残差模型处理残差；根据残差模型中前向运算的结果和后向运算的结果，生成用于语音特征转换的嵌入向量。

在一个实施例中，嵌入向量确定模块1510还用于通过残差模型中的全连接层、前向门循环单元层和后向门循环单元层处理残差。

在一个实施例中，嵌入向量确定模块1510还用于获取残差模型中前向门循环单元层进行前向运算时在最后一个时间步输出的第一向量；获取残差模型中后向门循环单元层进行后向运算时在第一个时间步输出的第二向量；将第一向量和第二向量叠加，获得用于语音特征转换的嵌入向量。

在一个实施例中，语言学编码数据通过第一编码器进行编码得到；目标合成语音数据通过第一解码器进行解码得到；如图16所示，该装置还包括：第一调整模块1512。其中：

语言学数据获取模块1502还用于获取训练语言学数据和相应的训练语音数据。

语言学数据编码模块1504还用于通过第一编码器对训练语言学数据编码，得到第一训练语言学编码数据。

嵌入向量获取模块1506还用于获取用于语音特征转换的训练嵌入向量；训练嵌入向量，根据对应相同训练语言学数据的训练合成语音数据和训练语音数据之间的残差生成。

语言学编码数据解码模块1508还用于通过第一解码器，根据训练嵌入向量对第一训练语言学编码数据进行解码，获得经过语音特征转换的预测目标合成语音数据。

第一调整模块1512，用于根据预测目标合成语音数据和训练语音数据间的差异，调整第一编码器和第一解码器，并继续训练，直至满足训练停止条件。

上述实施例中，通过第一编码器和第一解码器处理训练语言学数据、训练语音数据和训练嵌入向量，得到预测目标合成语音数据，根据预测目标合成语音数据和训练语音数据间的差异调整第一编码器和第一解码器，使预测目标合成语音数据不断逼近训练语音数据，从而得到训练好的第一编码器和第一解码器。由于训练过程中采用了由训练合成语音数据和训练语音数据之间的残差生成的训练嵌入向量，该训练嵌入向量只包含语音特征，无需考虑语义特征对对训练模型的影响，从而降低了第一编码器和第一解码器的复杂度，提高了训练结果的准确性。

在一个实施例中，语言学编码数据通过第一编码器进行编码得到；目标合成语音数据通过第一解码器进行解码得到；参考语言学编码数据通过第二编码器进行编码得到；参考合成语音数据通过第二解码器进行解码得到；嵌入向量通过残差模型得到。

在一个实施例中，如图16所示，该装置还包括：嵌入向量生成模块1514和第二调整模块1516；其中：

语言学数据编码模块1504还用于通过第二编码器将训练语言学数据编码，得到第二训练语言学编码数据。

语言学编码数据解码模块1508还用于通过第二解码器对第二训练语言学编码数据解码，得到训练合成语音数据。

嵌入向量生成模块1514，用于通过残差模型，并根据训练合成语音数据和训练语音数据之间的残差生成训练嵌入向量。

语言学编码数据解码模块1508还用于通过第一解码器，根据训练嵌入向量对第一训练语言学编码数据进行解码，获得经过语音特征转换的预测目标合成语音数据；其中，第一训练语言学编码数据由第一编码器编码训练语言学数据所得。

第二调整模块1516，用于根据预测目标合成语音数据和训练语音数据间的差异，调整第二编码器、第二解码器、残差模型、第一编码器和第一解码器，并继续训练，直至满足训练停止条件。

上述实施例中，通过训练语言学数据和相应的训练语音数据，对第二编码器、第二解码器、残差模型、第一编码器和第一解码器进行训练，根据预测目标合成语音数据和训练语音数据间的差异调整第二编码器、第二解码器、残差模型、第一编码器和第一解码器，使预测目标合成语音数据不断逼近训练语音数据，从而得到训练好的第二编码器、第二解码器、残差模型、第一编码器和第一解码器。

在一个实施例中，语言学编码数据解码模块1508还用于将语言学编码数据和嵌入向量拼接，得到拼接向量；对拼接向量进行解码，得到经过语音特征转换的目标合成语音数据。

在一个实施例中，如图16所示，该装置还包括：合成模块1518、转换模块1520和语音生成模块1522。其中：

合成模块1518，用于确定与目标合成语音数据对应的语音幅度谱。

转换模块1520，用于将语音幅度谱转换为时域的语音波形信号。

语音生成模块1522，用于根据语音波形生成语音。

如图17所示，在一个实施例中，提供了一种模型训练装置，该模型训练装置可以包括：语音数据获取模块1702、语言学数据编码模块1704、嵌入向量获取模块1706、语言学编码数据解码模块1708和调整模块1710。其中：

语音数据获取模块1702，用于获取训练语言学数据和相应的训练语音数据。

语言学数据编码模块1704，用于通过第一编码器对训练语言学数据编码，得到第一训练语言学编码数据。

嵌入向量获取模块1706，用于获取用于语音特征转换的训练嵌入向量；训练嵌入向量，根据对应相同训练语言学数据的训练合成语音数据和训练语音数据之间的残差生成。

语言学编码数据解码模块1708，用于通过第一解码器，根据训练嵌入向量对第一训练语言学编码数据进行解码，获得经过语音特征转换的预测目标合成语音数据。

调整模块1710，用于根据预测目标合成语音数据和训练语音数据间的差异，调整第一编码器和第一解码器，并继续训练，直至满足训练停止条件。

在一个实施例中，如图18所示，该装置还包括：嵌入向量生成模块1712。其中：

语言学数据编码模块1704还用于通过第二编码器将训练语言学数据编码，得到第二训练语言学编码数据。

语言学编码数据解码模块1708还用于通过第二解码器对第二训练语言学编码数据解码，得到训练合成语音数据。

嵌入向量生成模块1712，用于通过残差模型，并根据训练合成语音数据和训练语音数据之间的残差生成训练嵌入向量。

调整模块1710还用于根据预测目标合成语音数据和训练语音数据间的差异，调整第二编码器、第二解码器、残差模型、第一编码器和第一解码器，并继续训练，直至满足训练停止条件。

图19示出了一个实施例中计算机设备的内部结构图。该计算机设备可以是图1中运行语音合成系统的终端。如图19所示，该计算机设备包括通过系统总线连接的处理器1901、存储器1902、网络接口1903、输入装置1904和显示屏1905。其中，存储器1902包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器1901执行时，可使得处理器1901实现语音合成方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器1901执行时，可使得处理器1901执行语音合成方法。计算机设备的显示屏1905可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置1904可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图19中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的15装置可以实现为一种计算机程序的形式，计算机程序可在如图19所示的计算机设备上运行。计算机设备的存储器1902中可存储组成该语音合成装置的各个程序模块，比如，图15所示的语言学数据获取模块1502、语言学数据编码模块1504、嵌入向量获取模块1506和语言学编码数据解码模块1508。各个程序模块构成的计算机程序使得处理器1901执行本说明书中描述的本申请各个实施例的语音合成方法中的步骤。

例如，图19所示的计算机设备可以通过如图15所示的语音合成装置中的语言学数据获取模块1502执行S202。计算机设备可通过语言学数据编码模块1504执行S204。计算机设备可通过嵌入向量获取模块1506执行S206。计算机设备可通过语言学编码数据解码模块1508执行S208。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：获取待处理的语言学数据；对语言学数据编码，得到语言学编码数据；获取用于语音特征转换的嵌入向量；嵌入向量，根据对应相同参考语言学数据的参考合成语音数据和参考语音数据之间的残差生成；根据嵌入向量对语言学编码数据进行解码，获得经过语音特征转换的目标合成语音数据。

在一个实施例中，计算机程序被处理器执行时，使得处理器还执行以下步骤：获取参考语言学数据和相应的参考语音数据；对参考语言学数据编码，得到参考语言学编码数据；解码参考语言学编码数据，得到参考合成语音数据；根据参考语音数据和参考合成语音数据间的残差，确定用于语音特征转换的嵌入向量。

在一个实施例中，计算机程序被处理器执行根据参考语音数据和参考合成语音数据间的残差，确定用于语音特征转换的嵌入向量的步骤时，使得处理器可以执行以下步骤：确定参考语音数据和参考合成语音数据间的残差；通过残差模型处理残差；根据残差模型中前向运算的结果和后向运算的结果，生成用于语音特征转换的嵌入向量。

在一个实施例中，计算机程序被处理器执行根据残差模型中前向运算的结果和后向运算的结果，生成用于语音特征转换的嵌入向量的步骤时，使得处理器可以执行以下步骤：获取残差模型中前向门循环单元层进行前向运算时在最后一个时间步输出的第一向量；获取残差模型中后向门循环单元层进行后向运算时在第一个时间步输出的第二向量；将第一向量和第二向量叠加，获得用于语音特征转换的嵌入向量。

在一个实施例中，计算机程序被处理器执行通过残差模型处理残差的步骤时，使得处理器可以执行以下步骤：通过残差模型中的全连接层、前向门循环单元层和后向门循环单元层处理残差。

在一个实施例中，语言学编码数据通过第一编码器进行编码得到；目标合成语音数据通过第一解码器进行解码得到；计算机程序被处理器执行时，使得处理器还执行以下步骤：获取训练语言学数据和相应的训练语音数据；通过第一编码器对训练语言学数据编码，得到第一训练语言学编码数据；获取用于语音特征转换的训练嵌入向量；训练嵌入向量，根据对应相同训练语言学数据的训练合成语音数据和训练语音数据之间的残差生成；通过第一解码器，根据训练嵌入向量对第一训练语言学编码数据进行解码，获得经过语音特征转换的预测目标合成语音数据；根据预测目标合成语音数据和训练语音数据间的差异，调整第一编码器和第一解码器，并继续训练，直至满足训练停止条件。

在一个实施例中，计算机程序被处理器执行时，使得处理器还执行以下步骤：获取训练语言学数据和相应的训练语音数据；通过第二编码器将训练语言学数据编码，得到第二训练语言学编码数据；通过第二解码器对第二训练语言学编码数据解码，得到训练合成语音数据；通过残差模型，并根据训练合成语音数据和训练语音数据之间的残差生成训练嵌入向量；通过第一解码器，根据训练嵌入向量对第一训练语言学编码数据进行解码，获得经过语音特征转换的预测目标合成语音数据；根据预测目标合成语音数据和训练语音数据间的差异，调整第二编码器、第二解码器、残差模型、第一编码器和第一解码器，并继续训练，直至满足训练停止条件。

在一个实施例中，计算机程序被处理器执行根据嵌入向量对语言学编码数据进行解码，获得经过语音特征转换的目标合成语音数据的步骤时，使得处理器可以执行以下步骤：将语言学编码数据和嵌入向量拼接，得到拼接向量；对拼接向量进行解码，得到经过语音特征转换的目标合成语音数据。

在一个实施例中，计算机程序被处理器执行时，使得处理器还执行以下步骤：确定与目标合成语音数据对应的语音幅度谱；将语音幅度谱转换为时域的语音波形信号；根据语音波形生成语音。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：获取待处理的语言学数据；对语言学数据编码，得到语言学编码数据；获取用于语音特征转换的嵌入向量；嵌入向量，根据对应相同参考语言学数据的参考合成语音数据和参考语音数据之间的残差生成；根据嵌入向量对语言学编码数据进行解码，获得经过语音特征转换的目标合成语音数据。

图20示出了一个实施例中计算机设备的内部结构图。该计算机设备可以是图1中运行模型训练系统的终端。如图20所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器2001、存储器2002、网络接口2003、输入装置2004和显示屏2005。其中，存储器2002包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器2001执行时，可使得处理器2001实现模型训练方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器2001执行时，可使得处理器2001执行模型训练方法。计算机设备的显示屏2005可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置2004可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图20中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的17装置可以实现为一种计算机程序的形式，计算机程序可在如图20所示的计算机设备上运行。计算机设备的存储器2002中可存储组成该模型训练装置的各个程序模块，比如，图17所示的语音数据获取模块1702、语言学数据编码模块1704、嵌入向量获取模块1706、语言学编码数据解码模块1708和调整模块1710。各个程序模块构成的计算机程序使得处理器2001执行本说明书中描述的本申请各个实施例的模型训练方法中的步骤。

例如，图20所示的计算机设备可以通过如图17所示的模型训练装置中的语音数据获取模块1702执行S1302。计算机设备可通过语言学数据编码模块1704执行S1304。计算机设备可通过嵌入向量获取模块1706执行S1306。计算机设备可通过语言学编码数据解码模块1708执行S1308。计算机设备可通过调整模块1710执行S1310。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：获取训练语言学数据和相应的训练语音数据；通过第一编码器对训练语言学数据编码，得到第一训练语言学编码数据；获取用于语音特征转换的训练嵌入向量；所述训练嵌入向量，根据对应相同训练语言学数据的训练合成语音数据和训练语音数据之间的残差生成；通过第一解码器，根据所述训练嵌入向量对所述第一训练语言学编码数据进行解码，获得经过语音特征转换的预测目标合成语音数据；根据所述预测目标合成语音数据和训练语音数据间的差异，调整所述第一编码器和所述第一解码器，并继续训练，直至满足训练停止条件。

在一个实施例中，计算机程序被处理器执行时，使得处理器还执行以下步骤：通过第二编码器将训练语言学数据编码，得到第二训练语言学编码数据；通过第二解码器对第二训练语言学编码数据解码，得到训练合成语音数据；通过残差模型，并根据训练合成语音数据和所述训练语音数据之间的残差生成训练嵌入向量；计算机程序被处理器执行根据所述预测目标合成语音数据和训练语音数据间的差异，调整所述第一编码器和所述第一解码器，并继续训练，直至满足训练停止条件的步骤时，使得处理器可以执行以下步骤：根据所述预测目标合成语音数据和训练语音数据间的差异，调整所述第二编码器、所述第二解码器、所述残差模型、所述第一编码器和所述第一解码器，并继续训练，直至满足训练停止条件。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：获取训练语言学数据和相应的训练语音数据；通过第一编码器对训练语言学数据编码，得到第一训练语言学编码数据；获取用于语音特征转换的训练嵌入向量；所述训练嵌入向量，根据对应相同训练语言学数据的训练合成语音数据和训练语音数据之间的残差生成；通过第一解码器，根据所述训练嵌入向量对所述第一训练语言学编码数据进行解码，获得经过语音特征转换的预测目标合成语音数据；根据所述预测目标合成语音数据和训练语音数据间的差异，调整所述第一编码器和所述第一解码器，并继续训练，直至满足训练停止条件。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种语音合成方法，包括：

获取待处理的语言学数据；

对所述语言学数据编码，得到语言学编码数据；

获取用于语音特征转换的嵌入向量；所述嵌入向量，根据对应相同参考语言学数据的参考合成语音数据和参考语音数据之间的残差生成；

根据所述嵌入向量对所述语言学编码数据进行解码，获得经过语音特征转换的目标合成语音数据。
根据权利要求1所述的方法，还包括：

获取参考语言学数据和相应的参考语音数据；

对所述参考语言学数据编码，得到参考语言学编码数据；

解码所述参考语言学编码数据，得到参考合成语音数据；

根据所述参考语音数据和所述参考合成语音数据间的残差，确定用于语音特征转换的嵌入向量。
根据权利要求2所述的方法，所述根据所述参考语音数据和所述参考合成语音数据间的残差，确定用于语音特征转换的嵌入向量包括：

确定所述参考语音数据和所述参考合成语音数据间的残差；

通过残差模型处理所述残差；

根据所述残差模型中前向运算的结果和后向运算的结果，生成用于语音特征转换的嵌入向量。
根据权利要求3所述的方法，所述根据所述残差模型中前向运算的结果和后向运算的结果，生成用于语音特征转换的嵌入向量包括：

获取所述残差模型中前向门循环单元层进行前向运算时在最后一个时间步输出的第一向量；

获取所述残差模型中后向门循环单元层进行后向运算时在第一个时间步输出的第二向量；

将所述第一向量和所述第二向量叠加，获得用于语音特征转换的嵌入向量。
根据权利要求3所述的方法，所述通过残差模型处理所述残差包括：

通过所述残差模型中的全连接层、前向门循环单元层和后向门循环单元层处理所述残差。
根据权利要求1至5中任一项所述的方法，其特征在于，所述语言学编码数据通过第一编码器进行编码得到；所述目标合成语音数据通过第一解码器进行解码得到；还包括：

获取训练语言学数据和相应的训练语音数据；

通过第一编码器对训练语言学数据编码，得到第一训练语言学编码数据；

获取用于语音特征转换的训练嵌入向量；所述训练嵌入向量，根据对应相同训练语言学数据的训练合成语音数据和训练语音数据之间的残差生成；

通过第一解码器，根据所述训练嵌入向量对所述第一训练语言学编码数据进行解码，获得经过语音特征转换的预测目标合成语音数据；

根据所述预测目标合成语音数据和训练语音数据间的差异，调整所述第一编码器和所述第一解码器，并继续训练，直至满足训练停止条件。
根据权利要求2至5任一项所述的方法，所述语言学编码数据通过第一编码器进行编码得到；所述目标合成语音数据通过第一解码器进行解码得到；所述参考语言学编码数据通过第二编码器进行编码得到；所述参考合成语音数据通过第二解码器进行解码得到；所述嵌入向量通过残差模型得到。
根据权利要求7所述的方法，还包括：

获取训练语言学数据和相应的训练语音数据；

通过第二编码器将训练语言学数据编码，得到第二训练语言学编码数据；

通过第二解码器对第二训练语言学编码数据解码，得到训练合成语音数据；

通过残差模型，并根据训练合成语音数据和所述训练语音数据之间的残差生成训练嵌入向量；

根据所述训练嵌入向量对第一训练语言学编码数据进行解码，获得经过语音特征转换的预测目标合成语音数据；

根据所述预测目标合成语音数据和训练语音数据间的差异，调整所述第二编码器、所述第二解码器、所述残差模型、所述第一编码器和所述第一解码器，并继续训练，直至满足训练停止条件。
根据权利要求1至5任一项所述的方法，所述根据所述嵌入向量对所述语言学编码数据进行解码，获得经过语音特征转换的目标合成语音数据包括：

将所述语言学编码数据和所述嵌入向量拼接，得到拼接向量；

对所述拼接向量进行解码，得到经过语音特征转换的目标合成语音数据。
根据权利要求1至5任一项所述的方法，还包括：

确定与所述目标合成语音数据对应的语音幅度谱；

将语音幅度谱转换为时域的语音波形信号；

根据所述语音波形生成语音。
一种模型训练方法，包括：

获取训练语言学数据和相应的训练语音数据；

通过第一编码器对训练语言学数据编码，得到第一训练语言学编码数据；

获取用于语音特征转换的训练嵌入向量；所述训练嵌入向量，根据对应相同训练语言学数据的训练合成语音数据和训练语音数据之间的残差生成；

通过第一解码器，根据所述训练嵌入向量对所述第一训练语言学编码数据进行解码，获得经过语音特征转换的预测目标合成语音数据；

根据所述预测目标合成语音数据和训练语音数据间的差异，调整所述第一编码器和所述第一解码器，并继续训练，直至满足训练停止条件。
根据权利要求11所述的方法，还包括：

通过第二编码器将训练语言学数据编码，得到第二训练语言学编码数据；

通过第二解码器对第二训练语言学编码数据解码，得到训练合成语音数据；

通过残差模型，并根据训练合成语音数据和所述训练语音数据之间的残差生成训练嵌入向量；

所述根据所述预测目标合成语音数据和训练语音数据间的差异，调整所述第一编码器和所述第一解码器，并继续训练，直至满足训练停止条件包括：

根据所述预测目标合成语音数据和训练语音数据间的差异，调整所述第二编码器、所述第二解码器、所述残差模型、所述第一编码器和所述第一解码器，并继续训练，直至满足训练停止条件。
一种语音合成装置，包括：

语言学数据获取模块，用于获取待处理的语言学数据；

语言学数据编码模块，用于对所述语言学数据编码，得到语言学编码数据；

嵌入向量获取模块，用于获取用于语音特征转换的嵌入向量；所述嵌入向量，根据对应相同参考语言学数据的参考合成语音数据和参考语音数据之间的残差生成；

语言学编码数据解码模块，用于根据所述嵌入向量对所述语言学编码数据进行解码，获得经过语音特征转换的目标合成语音数据。
一种模型训练装置，包括：

训练语音数据获取模块，用于获取训练语言学数据和相应的训练语音数据；

训练语言学数据编码模块，用于通过第一编码器对训练语言学数据编码，得到第一训练语言学编码数据；

训练嵌入向量获取模块，用于获取用于语音特征转换的训练嵌入向量；所述训练嵌入向量，根据对应相同训练语言学数据的训练合成语音数据和训练语音数据之间的残差生成；

训练语言学编码数据解码模块，用于通过第一解码器，根据所述训练嵌入向量对所述第一训练语言学编码数据进行解码，获得经过语音特征转换的预测目标合成语音数据；

调整模块，用于根据所述预测目标合成语音数据和训练语音数据间的差异，调整所述第一编码器和所述第一解码器，并继续训练，直至满足训练停止条件。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。
一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行如权利要求1至12中任一项所述方法的步骤。