WO2023279976A1

WO2023279976A1 - 语音合成方法、装置、设备及存储介质

Info

Publication number: WO2023279976A1
Application number: PCT/CN2022/100747
Authority: WO
Inventors: 方鹏; 刘恺; 陈伟
Original assignee: 北京搜狗科技发展有限公司
Priority date: 2021-07-07
Filing date: 2022-06-23
Publication date: 2023-01-12
Also published as: CN113488022A; US20230298564A1

Abstract

一种语音合成方法、装置、设备及存储介质，该方法包括：获取待合成文本(101)；生成待合成文本的隐层特征以及韵律特征，并预测待合成文本中字符的发音时长(102)；基于隐层特征、韵律特征以及发音时长，生成待合成文本对应的声学特征(103)；根据声学特征，生成待合成文本对应的文本语音(104)。采用该方法有助于降低语音合成的难度。

Description

语音合成方法、装置、设备及存储介质

本申请要求于2021年07月07日提交，申请号为202110769530.2、发明名称为“一种语音合成方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请实施例中。

技术领域

本申请涉及语音处理技术领域，特别是涉及一种语音合成方法、装置、设备及存储介质。

背景技术

语音合成是一种基于文本生成对应音频的技术，被广泛应用于视频配音等应用场景。

相关技术中，通常可以基于音素实现语音合成。基于音素的语音合成需要提前采集大量的单词以及单词对应的音素作为素材，实现文本至语音的转换；还需要提前采集大量的单词与单词对应的停顿信息作为素材，实现语音的韵律预测。

但是，单词、音素、停顿信息等素材的预处理需要花费较大工作量，且基于大量素材的语音合成通常对电子设备的处理能力具有较高要求，导致语音合成的难度较高。

发明内容

本申请实施例提供了一种语音合成方法、装置、设备及存储介质，能够降低语音合成的难度，方案包括：

本申请实施例公开了一种语音合成方法，所述方法由电子设备执行，所述方法包括：

获取待合成文本；

生成所述待合成文本的隐层特征以及韵律特征，并预测所述待合成文本中字符的发音时长；

基于所述隐层特征、所述韵律特征以及所述发音时长，生成所述待合成文本对应的声学特征；

根据所述声学特征，生成所述待合成文本对应的文本语音。

本申请实施例还公开一种语音合成合成装置，所述装置包括：

文本获取模块，用于获取待合成文本；

第一特征生成模块，用于生成所述待合成文本的隐层特征以及韵律特征，并预测所述待合成文本中字符的发音时长；

第二特征生成模块，用于基于所述待合成文本的隐层特征、所述韵律特征以及所述发音时长，生成所述待合成文本对应的声学特征；

语音合成模块，用于根据所述声学特征，生成所述待合成文本对应的文本语音。

本申请实施例还公开了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备执行如上述方面所述的语音合成方法。

本申请实施例还公开了一种电子设备，包括：

存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于所述存储器中，且经配置以由一个或者一个以上处理器执行如上述方面所述的语音合成方法

本申请实施例还公开了一种计算机程序产品，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中；电子设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述电子设备执行如上述方面所述的语音合成方法。

通过本申请实施例的语音合成方法，获取待合成文本，生成待合成文本的隐层特征以及韵律特征，以基于待合成文本提取与文本特性关联的特征信息以及与语音韵律关联的特征信息，并预测待合成文本中每一字符的时长，以便后续基于字符进行语音合成；基于待合成文本的隐层特征、韵律特征、以及待合成文本中每一字符的时长，生成合成语音所需要的待合成文本对应的声学特征；采用待合成文本对应的声学特征，生成待合成文本对应的文本语音，从而实现无需预处理大量素材，而通过提取文本中的隐层特征以及韵律特征，并基于字符预测语音时长，实现字符级别的语音合成。而且合成语音质量较好，同时可以降低语音合成的难度，以便用户可以根据实际需要应用于不同场景中，满足用户的个性化需求。

采用本申请实施例的语音合成方法，通过提取文本中的隐层特征以及韵律特征，并基于字符预测语音时长，实现字符级别的语音合成，在保证语音合成质量的情况下，相较于音素级别的语音合成方案无需预处理大量速度，有助于降低语音合成的难度。

附图说明

图1是本申请实施例提供的一种语音合成方法的步骤流程图；

图2是本申请实施例提供的另一种语音合成方法的步骤流程图；

图3是本申请实施例的另一种语音合成方法的步骤流程图；

图4是本申请实施例提供的声学模型的结构示意图；

图5是本申请实施例提供的声学模型的训练示意图；

图6是本申请实施例提供的语音合成装置实施例的结构框图；

图7是本申请一示例性实施例示出的电子设备的结构框图；

图8是本申请另一示例性实施例示出的电子设备的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

本申请实施例为了降低语音合成的难度，采用字符级别的语音合成方式，不需要获取音素输入，而可以直接预测待合成文本中每一字符的时长，生成待合成文本对应的韵律特征。其后基于待合成文本中每一字符的时长以及待合成文本的韵律特征，生成待合成文本对应的声学特征，并最终基于声学特征合成待合成文本对应的语音，可以使语音合成的流程更加简单，降低语音合成的难度。面对多种不同的个性化需求，也可以较为便利地实现对个性化需求的支持。

本申请实施例提供的语音合成方法，可以由具有语音合成需求的电子设备执行，该电子设备可以是智能手机、平板电脑、车载终端、智能电视、可穿戴式设备、便携式个人计算机等算力较弱的移动终端，也可以是个人计算机、服务器等算力较强的非移动终端。在一种可能的应用场景下，本申请实施例提供的语音合成方法可以应用于视频配音场景。在该场景下，视频编辑应用可以采用该方法实现视频自动配音。比如，视频编辑应用获取到视频对应的旁白文案后，对旁白文案进行语音合成，得到旁白语音，从而基于时间轴对视频和旁白语音进行合成，实现视频自动配音。

在另一种可能的应用场景下，本申请实施例提供的语音合成方法可以应用于无障碍场景。在该场景下，视力障碍人士使用的视障辅助设备(比如视障眼镜)可以集成语音合成功能。工作过程中，视障辅助设备通过摄像头进行环境图像采集，并对环境图像进行识别，得到描述当前所处环境的环境描述文本，从而进一步通过语音合成技术将环境描述文本转换为环境描述语音，进而通过视障辅助设备的扬声器进行播放，以实现对视障人士的提醒。

在其他可能的应用场景下，本申请实施例提供的语音合成方法还可以用于听书场景。在该场景下，服务器采用本申请实施例提供的方法对听书文本进行语音合成，得到听书音频，并将听书音频发布至听书应用，以便用户选择收听。其中，服务器在进行语音合成时，可以基于听书文本合成不同语种、不同音色、不同风格的听书音频，供用户选择播放。

当然，除了上述几种可能的应用场景外，本申请实施例提供的语音合成方法可以应用于其他需要将文本转换为语音的场景，本申请实施例并不对此构成限定。

参照图1，示出了本申请实施例提供的一种语音合成方法实施例的步骤流程图，可以包括如下步骤：

步骤101，获取待合成文本；

在本申请实施例中，在需要进行语音合成的情况下，用户可以提交待合成文本，电子设备从而可以获取需要进行语音合成的待合成文本。

其中，待合成文本可以为一种语言的单词、短句、长句、文章等，本申请对此不做限制。

步骤102，生成待合成文本的隐层特征以及韵律特征，并预测待合成文本中字符的发音时长；

在本申请实施例中，在获取待合成文本之后，电子设备可以提取待合成文本中的与语音合成相关的特征信息，生成待合成文本的隐层特征。其中，隐层特征可以与待合成文本中字符的字符词性、字符上下文关联、字符情感等文本特性存在关联，通常可以采用向量形式表达。

一般来说，在得到待合成文本的隐层特征之后，通常可以基于隐层特征中隐含的待合成文本的字符词性、字符上下文关联、字符情感等特征，确定文本中的字符的发音、时长、声调、语调、以及文本整体的发声节奏等，生成待合成文本对应的声音波形特征，得到声学特征。但是，仅采用隐层特征生成声学特征，通常无法获得效果较好的合成语音，合成语音可以仍然存在发声自然度不足、表现力不足的情况。

由此，电子设备可以进一步生成与声调、语调、重音、节奏等韵律特性存在关联的韵律特征，并预测待合成文本中字符的发音时长，以便在后续的语音合成过程中，可以得到更加自然、表现力更好的合成语音，同时字符的发声时长预测可以更加准确。

可选的，电子设备预测得到待合成文本中的每个字符的发音时长，或者，电子设备预测得到待合成文本中部分字符的发音时长，该部分字符可以包括关键字符。为了方便表述，下述实施例中以预测每个字符的发音时长为例进行示意性说明。

其中，字符可以为语言学中可以辨认的抽象图形符号，文字中最小的区别性单位。例如，英语中的字母“a、b、c”等，中文中的汉字“你、我、他”等，日语中的平假名“あ、い、う”等。

在一些实施例中，在文本中，根据词性、上下文、情感等因素，字符可以分别具有对应的发音时长。若存在字符不需要发音的情况，发音时长也可以为0。电子设备可以以字符为单位，预测其发音所需的时长，以便合成的语音可以具有更加准确的发音时长，使最终的合成语音具有较好的效果。

在一些实施例中，由于基于待合成文本提取得到的隐层特征可以与字符词性、字符上下文关联、字符情感等文本特性存在关联，因此在预测字符的发音时长时，可以基于隐层特征进行字符发音时长预测，以根据词性、上下文、情感等因素预测字符时长，得到较为准确的时长预测效果。

步骤103，基于隐层特征、韵律特征以及发音时长，生成待合成文本对应的声学特征；

在本申请实施例中，在得到待合成文本中字符的发音时长以及待合成文本的隐层特征以及韵律特征之后，可以基于待合成文本的隐层特征中隐含的文本相关特征、韵律特征中隐含的韵律相关特征、以及待合成文本中字符的发音时长，生成待合成文本对应的声音波形特征，得到声学特征。由于在语音合成的过程中在隐层特征的技术上进一步考虑了韵律特征以及字符的发音时长，因此生成的声音波形特征可以具有更加准确的韵律以及发音时长，使合成的语音可以具有较好的发音自然度以及表现力。

其中，声学特征可以为声音的波形特征信息，例如，随时间变化的响度、频率信息。声学特征可以采用频谱图表达，例如，梅尔顿谱、线性谱等。

步骤104，根据声学特征，生成待合成文本对应的文本语音。

在本申请实施例中，由于声音为物体振动产生的波，在得到声音的波形特征之后，即可以还原声音信号。由此，在得到待合成文本对应的声学特征之后，电子设备即可以采用待合成文本对应的声学特征还原声音信号，生成待合成文本对应的文本语音，完成待合成文本的语音合成。

由于语音合成过程中基于字符预测待合成文本的时长，同时生成隐层特征以及韵律特征，并最终基于待合成文本的隐层特征、韵律特征以及待合成文本中字符的发音时长，生成待合成文本对应的声学特征，完成基于字符级别的语音合成，可以无需提取大量的单词、音素、停顿等信息构建语音库，使语音合成的流程更加简单，降低语音合成的难度，且由于生成声学特征的过程中在隐层特征的基础上进一步参考了韵律特征以及字符的发音时长，可以使语音合成的质量进一步提高。此外，面对用户需要合成不同人物的语音等个性化需求时，也可以较为简单地完成语音合成的个性化支持。

综上所述，采用本申请实施例的语音合成方法，通过提取文本中的隐层特征以及韵律特征，并基于字符预测语音时长，实现字符级别的语音合成，在保证语音合成质量的情况下，相较于音素级别的语音合成方案无需预处理大量速度，有助于降低语音合成的难度。

参照图2，示出了本申请实施例提供的一种语音合成方法实施例的步骤流程图，可以包括如下步骤：

步骤201，获取待合成文本；

步骤202，采用待合成文本对应的声学模型，生成待合成文本的隐层特征以及韵律特征，并预测所述待合成文本中字符的发音时长；

在一种可能的实施方式中，声学模型中可以包含多个子模型，其中一个子模型可以用于预设待合成文本中字符的发音时长，一个子模型可以用于生成待合成文本的韵律特征、一个子模型可以用于生成待合成文本的隐层特征。

在模型训练过程中，用于预测字符时长的子模型可以将待合成文本作为输入，并将待合成文本中每一字符的发音时长作为输出。用于生成韵律特征的子模型将待合成文本作为输入，并将待合成文本的韵律特征作为输出。用于生成隐层特征的模型将待合成文本作为输入，并将待合成文本的隐层特征作为输出。

在本申请实施例中，根据训练过程中使用的语音样本的区别，声学模型可以具有多种类型。在一种可能的实施方式中，声学模型可以适配多种不同的语种，例如适用于中文的声学模型、适用于英语的声学模型、适用于日语的声学模型等。声学模型还可以具有个性化的语音风格，例如，女高音、男中音、女低音、男低音、儿童音、特定卡通人物的语音风格、特定明星的语音风格等。同时，由于声学模型基于字符进行语音合成，无需提取大量的单词、音素、停顿等信息构建语音库，因此声学模型的训练过程可以较为简单。由此，可以较为容易根据用户不同的需求，部署相应的声学模型，满足多语种、个性化风格语音的需求。

可选的，在获取待合成文本后，电子设备还可以根据待合成文本对应的语种和语音风格中的至少一种要求，选取适用于语种和/或语音风格的声学模型对待合成文本进行处理，生成待合成文本的隐层特征以及韵律特征，并预测待合成文本中字符的发音时长。后续在生成声学特征的过程中，也可以采用适用于语种和/或语音风格的声学模型进行处理，从而可以满足语音合成的个性化需求。

步骤203，采用声学模型，基于待合成文本的隐层特征、韵律特征以及待合成文本中字符的发音时长，生成待合成文本对应的声学特征；

在本申请实施例中，在得到待合成文本中字符的发音时长以及待合成文本的隐层特征以及韵律特征之后，可以采用声学模型，基于待合成文本的隐层特征、韵律特征以及发音时长，生成待合成文本对应的声学特征。声学特征可以为声音的波形特征信息，例如，随时间变化的响度、频率信息。声学特征可以采用频谱图表达，例如，梅尔顿谱、线性谱等。

在一种可能的实施方式中，声学模型还可以包含用于生成待合成文本对应声学特征的子模型。在模型训练过程中，用于合成待合成文本对应声学特征的子模型可以以待合成文本的隐层特征、韵律特征以及字符的发音时长作为输入，并将待合成文本对应的声学特征作为输出，从而可以得到用于合成待合成文本对应声学特征的子模型。

步骤204，根据声学特征，生成待合成文本对应的文本语音。

本步骤的实施方式可以参考上述步骤104，本实施例在此不作赘述。

在本申请的一种实施例中，声学模型采用如下方式训练得到：

S11，获取训练文本以及所述训练文本对应的训练音频，训练文本采用训练语种；

在本申请实施例中，在需要训练某一语种的声学模型的情况下，可以获取采用该语种的训练文本以及训练文本对应的训练音频。

其中，训练语种可以为不同地区使用的语言，例如，中文、英语、日语、韩语、法语等；也可以为某种语言分支下的地方方言，例如，客家语、粤语等。

S12，采用训练文本以及训练文本对应的训练音频，对待训练的声学模型进行训练，得到训练完成的训练语种的声学模型。

在本申请实施例中，电子设备可以采用训练语种对应的训练文本以及训练文本对应的训练音频，对待训练的声学模型进行训练，得到训练完成的训练语种的声学模型。其中，训练完成的声学模型可以适用于该训练语种的语音合成。

在一种可能的实施方式中，声学模型可以采用端到端模型的形式，声学模型中包含的子模型是相互联系而非独立的，子模型的输入可以为其他子模型的输出。同时声学模型在训练过程中，也可以整体地进行训练，在获取声学模型的最终输出的声学特征之后，基于声学模型的的最终输出，对声学模型中的各个子模型的进行调整，得到训练完成的训练语种的声学模型。

在一种可能的实施方式中，采用训练语种的训练文本以及训练文本对应的训练音频包括来自若干人的训练文本以及训练文本对应的训练音频，即训练文本和训练音频来自不同发音对象，以此提高训练得到的声学模型对同一语种下不同发音对象的泛化性；

可选的，采用训练文本以及训练文本对应的训练音频，对待训练的声学模型进行训练，得到训练完成的训练语种的声学模型，包括如下步骤：

S21，采用来自不同发音对象训练文本以及训练音频，对待训练的声学模型进行训练，得到训练完成的训练语种的声学模型；

在本申请实施例中，电子设备采用训练语种中若干发音对象的训练文本以及训练文本对应的训练音频，对待训练的声学模型进行训练，得到训练完成的训练语种的声学模型，可以使声学模型可以学习到训练语种普遍的发声规律，降低声学模型的错误率，提高声学模型输出的声学特征的特征质量。

S22，采用训练语种中目标语音风格的训练文本以及训练音频，对待训练的声学模型进行训练，得到训练完成的目标语音风格的声学模型。

在本申请实施例中，在基于采用若干发音对象的语音训练完成的声学模型的基础上，电子设备可以进一步采用训练语种中目标语音风格的训练文本以及该训练文本对应的训练音频，对声学模型进行训练，得到目标语音风格的声学模型。

由于目标语音风格的声学模型在采用若干发音对象的语音训练完成的声学模型的基础上进一步训练得到，因此，基于目标语音风格的声学模型合成的语音，在明显具有目标语音风格的同时，具有较高的发声准确率，同时发声音质也可以得到一定程度的提高。

本实施例中，电子设备首先基于来自不同发音对象的训练文本以及训练音频训练声学模型，然后在该声学模型的基础上，进一步基于不同语音风格的训练文本以及训练音频，训练该语音风格对应的声学模型，在保证语音合成质量的前提下，使合成语音具备特定的语音风格。

参照图3，示出了本申请实施例提供的一种语音合成方法实施例的步骤流程图，可以包括如下步骤：

步骤301，获取待合成文本；

在本申请实施例中，可以采用声学模型完成语音合成。该声学模型可以包括多个子模型。在一种可能的实施方式中，该声学模型可以包括编码器(encoder)、时长模型、变分自动编码器(VariationalAutoEncoder，VAE)以及解码器(decoder)。待合成文本需要经过编码器、时长模型、变分自动编码器以及解码器的处理，最终得到待合成文本对应的声学特征。

在一种可能的设计中，声学模型可以为端到端模型，声学模型中编码器、时长模型、变分自动编码器以及解码器的是相互联系而非独立的。编码器以及变分自动编码器可以不输出独立的结果，而是输出模型处理过程中产生的中间向量，中间向量再输入解码器中，得到待合成文本的声学特征。对于用户来说，其可以将待合成文本输入声学模型中，即可以直接获取声学模型输出的声学特征。通过采用端到端模型生成声学模型，可以进一步简化声学模型的结构，提高声学模型将待合成文本转换为声学特征的效率。

步骤302，通过编码器对待合成文本进行特征提取，得到待合成文本的隐层特征；

在本申请实施例中，编码器可以学习待合成文本的潜在信息，输出与字符词性、字符上下文关联、字符情感等文本特性存在关联的隐层特征，以便后续模型可以基于隐层特征做进一步处理。其中，编码器输出的隐层特征可以采用向量形式进行表达。由于编码器输出的待合成文本的隐层特征可以认为是模型中间处理过程中的输出，其可以不具备可解释性。

步骤303，基于隐层特征，通过时长模型预测待合成文本中字符的发音时长；

在一种可能的实施方式中，在获得待合成文本的隐层特征之后，即可以采用与编码器对应的解码器，根据隐层特征隐含的字符词性、字符上下文关联、字符情感、字符时长等文本特性，生成待合成文本对应的声学特征。

但是，仅采用编码器与解码器生成待合成文本对应的声学特征的情况下，通常无法获得效果较好的合成语音，合成语音可以仍然存在发声自然度不足、表现力不足的情况。

由此，为了提高合成语音的质量，在另一种可能的实施方式中，电子设备可以采用时长模型对字符的发音时长进行预测，以进一步提高合成语音中字符发音时长的准确率以提高发声自然度。在获取所述隐层特征之后，可以将隐层特征输入时长模型中，时长模型可以通过隐层特征隐含的与字符词性、字符上下文关联、字符情感等文本特性存在关联的信息，预测待合成文本中字符对应语音的持续时间，即字符的发音时长。

步骤304，基于隐层特征，通过变分自动编码器提取待合成文本的韵律特征；

在本申请实施例中，为了进一步提高合成语音的发声自然度和表现力，电子设备还可以进一步将隐层特征通过变分自动编码器输出韵律特征，从而在后续的语音合成的过程中，可以基于韵律特征提高合成语音的发声自然度和表现力。

在一种可能的实施方式中，在将隐层特征输入时长模型的同时，还可以将隐层特征输入变分自动编码器，变分自动编码器可以学习待合成文本中说话人状态的潜在表示，并输出与声调、语调、重音、节奏等韵律特性存在关联的韵律特征。韵律特征可以采用向量形式进行表达。

步骤305，基于字符的发音时长，调整隐层特征的特征长度；

在本申请实施例中，隐层特征的长度可以与语音中字符的发声时长存在关联。为了在生成声学特征的过程中，使解码器可以生成发声时长准确率高的声学特征，电子设备可以基于待合成文本中字符的发音时长，对隐层特征的长度进行调整。

在一种可能的实施方式中，隐层特征的特征长度与发音时长呈正相关关系，即发音时长越长，对应的隐层特征的特征长度越长。

例如，若隐层特征为“abc”，则可以基于待合成文本中字符的发音时长，将隐层特征调整为“aaabbbccc”。

步骤306，将调整后的隐层特征以及韵律特征输入解码器中，得到待合成文本对应的声学特征；

在本申请实施例中，可以将调整后的隐层特征以及待合成文本的韵律特征输入所述解码器中，解码器根据调整后的隐层特征隐含的字符词性、字符上下文关联、字符情感、字符时长等文本特性，以及韵律特征隐含的声调、语调、重音、节奏等韵律特性，生成待合成文本对应的声学特征，其中，解码器进行解码的过程即为特征还原过程。由于解码器在参考调整后的隐层特征的基础上，进一步参考了变分自编码输出韵律特征生成声学特征，可以使合成的语音的韵律特征更加准确，进一步提高了合成语音的质量。

步骤307，将声学特征输入声码器中，获取声码器输出的待合成文本对应的文本语音。

在本申请实施例中，在得到待合成文本对应的声学特征之后，电子设备可以将待合成文本对应的声学特征输入声码器(vocoder)中，由声码器基于声学特征生成文本语音，完成待合成文本的语音合成。

其中，声码器可以为经过训练的，用于将声学特征转换为语音的模型。声码器可以为循环神经网络、基于源-滤波器模型等，本申请实施例对此不做限制。

图4为本申请实施例提供的一种声学模型的结构示意图。声学模型可以包括编码器401、时长模型402、变分自动编码器403以及解码器404。电子设备将待合成文本输入编码器401中，并获取编码器401输出的隐层特征。其后，可以将隐层特征输入时长模型402中，获取时长模型402输出的待合成文本中每一字符的发音时长。同时，可以将编码器401输出的隐层特征输入变分自动编码器403中，并获取变分自动编码器403输出的韵律特征。其后，可以采用待合成文本中每一字符的发音时长对隐层特征进行调整，并将调整后的隐层特征以及待合成文本的韵律特征输入解码器404中，并获取解码器404输出的待合成文本对应的声学特征。其后，可以采用预先训练的声码器，对声学特征进行处理，得到待合成文本对应的文本语音。

S31，获取训练文本以及训练文本对应的训练音频；

在本申请实施例中，电子设备可以获取训练文本以及训练文本对应的训练音频，训练音频可以同一种语言中来自多个不同的人物或来自同一人物的音频。训练文本可以为一种语言的单词、短句、长句、文章等，本申请实施例对此不做限制。

S32，提取训练音频中的目标声学特征；

在本申请实施例中，电子设备可以提取训练音频中的目标声学特征，作为声学模型整体的训练目标。目标声学特征可以为声音的波形特征信息，例如，随时间变化的响度、频率信息。声学特征可以采用频谱图表达，例如，梅尔顿谱、线性谱等。

在一种可能的实施方式中，电子设备可以采用声学特征提取算法，在训练音频中提取训练音频中的目标声学特征。例如，可以采用MFCC(Mel Frequency Cepstrum Coefficient，梅尔导谱系数算法)、FBank(Filter Banks，滤波器组算法)、LogFBank(Log Filter Banks，对数滤波器组算法)等，本申请实施例对此不做限制。

S33，将训练文本输入待训练的声学模型中，获取待训练的声学模型输出的模型声学特征；

在本申请实施例中，电子设备可以将训练文本输入待训练的声学模型中，经过声学模型中编码器、时长模型、变分自动编码器、解码器的处理，模型可以输出一模型声学特征。对声学模型进行训练过程，即模型声学特征向目标声学特征逼近的过程。

在一种可能的实施方式中，对于变分自动编码器来说，其在训练中，可以将编码器输出的隐层特征以及目标声学特征皆作为输入。变分自动编码器可以将目标声学特征以及编码器输出的隐层特征通过其自身包含的两个神经网络拟合成一个值，变分值编码器可以学习该值，其后在应用阶段中，在获取编码器输出的隐层特征之后，即可基于隐层特征以及其自身学习到的值，相应地的输出待合成文本的韵律特征。

S34，确定模型声学特征与目标声学特征之间的特征相似度；

在本申请实施例中，电子设备可以通过计算模型声学特征与目标声学特征之间的特征相似度，以确定模型声学特征是否与目标声学特征接近，进而确定声学模型是否已经完成训练。

在一种可能的实施方式中，当声学特征采用向量化表示时，电子设备可以计算模型声学特征与目标声学特征之间的向量距离，从而将向量距离确定为特征相似度。

S35，基于特征相似度，调整待训练的声学模型中的模型参数，完成声学模型训练。

在本申请实施例中，电子设备可以基于模型声学特征以及目标声学特征之间的特征相似度(作为损失函数)，调整待训练的声学模型中的模型参数，使声学模型输出的模型声学特征可以不断接近目标声学特征。

在一种可能的实施方式中，电子设备可以采用梯度下降或反向传播算法，调整声学模型的模型参数。

其后，若模型声学特征以及目标声学特征之间的特征相似度满足预设条件，可以认为声学模型训练完成。

预设条件可以为模型声学特征以及目标声学特征之间的特征相似度高于预设阈值；模型声学特征以及目标声学特征之间的相似度基本不再变化等，本申请实施例对此不做限制。

为了进一步提高合成语音的真实度，在训练声学模型过程中，还可以引入对抗生成网络(Generative Adversarial Networks，GAN)的思想。在一种可能的实施方式中，通过声学模型得到模型声学特征后，电子设备将模型声学特征输入声码器中，获取声码器输出的合成音频。

进一步的，电子设备将合成音频以及训练音频输入判别器，得到合成音频对应的第一判别结果，以及训练音频对应的第二判别结果，其中，该判别器用于判别输入的音频为训练音频或合成音频，即用于判别真实音频和生成音频。

在模型训练过程中，电子设备除了以特征相似度作为损失的一部分外，还将判别器的判别损失作为损失的一部分，从而基于特征相似度、第一判别结果以及第二判别结果，调整待训练的声学模型中的模型参数以及判别器，完成声学模型训练。

在一种可能的实施方式中，在声学模型与判别器构成生成对抗网络的情况下，基于特征相似度损失对声学模型中的模型参数进行梯度更新，提高声学模型生成模型声学特征的准确度。同时，基于判别损失对判别器进行调整，提高自身区分模型声学特征以及目标声学特征的能力。声学模型以及判别器可以相互对抗，相互提高模型输出的准确率，最终可以得到具有较高准确率的声学模型。

在本申请实施例中，通过整体地训练声学模型中的子模型，基于声学模型的最终输出对声学模型中的子模型进行训练，可以使声学模型中每一子模型可以具有相同的训练目标，使声学模型中子模型之间可以具有更好的契合度，获得更好的语音合成效果。同时，采用生成对抗网络对声学模型进行训练，可以进一步提高声学模型的效果，使最终生成的合成语音更加真实。

在本申请的一种实施例中，上述时长模型采用如下方式训练得到：

S41，提取训练音频中字符的标准时长；

在本申请实施例中，电子设备可以在声学模型整体训练的基础上，进一步针对时长模型进行训练，以提高时长模型预测字符发音时长的准确性，使所述声学模型的输出可以更加准确。

其中，电子设备提取得到的训练音频中字符的标准时长，可以认为是字符正确的发音时长。训练音频中字符的标准时长的提取可以采用模型进行提取，也可以采用人工进行提取，本申请实施例对此不做限制。

S42，将训练文本输入编码器中，获取编码器输出的隐层特征；

在本申请实施例中，时长模型的输入可以为编码器的输出，由此，可以将训练文本输入编码器中，并获取编码器输出的隐层特征，以对时长模型进行训练。

S43，将隐层特征作为时长模型的输入，将训练音频中字符的标准时长作为训练目标，对时长模型进行训练。

在本申请实施例中，电子设备可以将隐层特征输入时长模型，得到时长模型输出的预测时长，从而将训练音频中字符的标准时长作预测时长的监督，对时长模型进行训练，得到训练完成的时长模型。通过对时长模型进一步进行训练，可以进一步提高时长模型输出的准确率，使最终合成的语音可以具有更好的质量。

在一种可能的实施方式中，电子设备可以将隐层特征输入时长模型中，时长模型可以输出训练文本中字符的预测时长。其后，电子设备可以确定时长模型输出的输出的预测时长与训练音频中字符的标准时长之间的时长差值，并根据时长差值对时长模型中的模型参数进行调整，直至时长模型的输出满足预设条件，时长模型训练完成。

预设条件可以为时长模型输出的输出的预测时长与标准时长之间的差值小于预设阈值，也可以为时长模型输出的预测时长与标准时长之间的差值基本不再变化等，本申请实施例对此不做限制。

在本申请的一种实施例中，提取训练音频中字符的标准时长，包括：

S51，基于训练音频以及隐层特征，通过切分模型标注训练音频中字符的发音起点与发音终点；

在本申请实施例中，在训练过程中，可以采用切分模型对时长模型进行训练。切分模型可以用于切分训练文本中的每一个字符，并相应地标注每一字符在训练音频中的发音起点以及发音终点，从而可以得知训练文本中每一字符对应的发音时长。可以认为切分模型输出的字符时长是正确的字符时长，从而可以基于切分模型的输出，对时长模型进行训练。

由此，电子设备可以将训练音频以及隐层特征输入切分模型中，以获取切分模型的输出。

在本申请实施例中，切分模型可以基于隐层特征，预测训练音频每一帧对应的字符。其后，可以将字符对应的最早一帧作为字符在训练音频中的发音起点，将字符对应的最晚一帧作为字符在训练音频中的发音终点，从而可以实现标注训练音频中每一字符的发音起点与发音终点。

可选的，目标声学特征可以记载有训练音频在连续时长中频度、响度的变化。由此，切分模型可以在目标声学特征的基础上，预测目标声学特征中每一帧对应的字符，对字符的起点与终点进行标注。

S52，基于训练音频中字符的发音起点与发音终点，确定训练音频中字符的标准时长。

在一种可能的实施方式中，电子设备可以将字符的发音起点与发音终点之间的时间差，作为字符对应的标准时长，从而可以得到训练音频中每一字符的标准时长。

可选的，在声学模型的训练过程中，同样可以基于模型声学特征以及目标声学特征之间的特征相似度，调整切分模型的模型参数。由此，在训练过程中，切分模型也可以不断提高自身切分训练文本中的每一个字符并确定每一字符时长的准确率。从而在训练过程中，时长模型也可以获得更加准确的训练目标，可以提高时长模型输出的准确率，并使声学模型最终输出的声学特征可以具有更高的准确率。

由此，声学模型可以实现端到端的学习，可以基于声学模型整体最终输出的声学特征，对声学模型中的每一子模型以及切分模型进行训练，得到具有较高准确率的声学模型。同时，训练过程中，由于采用对抗训练的方式对声学模型以及切分模型进行训练，同时采用切分模型的输出对时长模型进行训练，从而声学模型在训练过程中，可以在无人工监督或者较少人工监督的情况下完成模型的训练，便于声学模型可以较为简便地适配多种语种以及不同发音对象的需求。

图5为本申请应实施例提供的一种声学模型的训练示意图。在训练过程中，可以将训练文本输入编码器501中，并获取编码器501输出的隐层特征，其后，可以将隐层特征输入时长模型502中，获取时长模型502输出的每一字符的时长。还可以将隐层特征以及目标声学特征输入所述切分模型505中，以获取切分模型505输出的标准时长。可以将切分模型505输出的标准时长作为时长模型502的训练目标，将隐层特征作为时长模型502的输入，对时长模型502进行训练。

同时，还可以将隐层特征以及从训练音频提取得到的目标声学特征输入变分自动编码器503中，并获取变分自动编码器503输出的韵律特征。其后，解码器504可以基于隐层特征、每一字符的时长、以及韵律特征，输出模型声学特征。其后，可以采用判别器506对模型声学特征对应的合成音频以及训练音频进行判别，并确定模型声学特征与目标声学特征之间的特征相似度，同时调整待训练的声学模型每一子模型的模型参数以及判别器的参数，最终得到训练完成的声学特征。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

参照图6，示出了本申请实施例提供的一种语音合成装置的结构框图，该装置可以包括如下模块：

文本获取模块601，用于获取待合成文本；

第一特征生成模块602，用于生成所述待合成文本的隐层特征以及韵律特征，并预测所述待合成文本中字符的发音时长；

第二特征生成模块603，用于基于所述隐层特征、所述韵律特征以及所述发音时长，生成所述待合成文本对应的声学特征；

语音合成模块604，用于根据所述声学特征，生成所述待合成文本对应的文本语音。

在本申请一种实施例中，所述第一特征生成模块602，用于：

采用所述待合成文本对应的声学模型，生成所述隐层特征以及韵律特征，并预测所述发音时长，所述声学模型基于所述待合成文本对应的语种和语音风格中的至少一种确定得到

在本申请一种实施例中，所述声学模型包括编码器、时长模型和变分自动编码器，所述第一特征生成模块602，用于：

通过所述编码器对所述待合成文本进行特征提取，得到所述待合成文本的所述隐层特征；

基于所述隐层特征，通过所述时长模型预测所述待合成文本中字符的所述发音时长；

基于所述隐层特征，通过所述变分自动编码器提取所述待合成文本的所述韵律特征

在本申请一种实施例中，所述声学模型包括解码器；

所述第二特征生成块603，用于：

基于所述发音时长，调整所述隐层特征的特征长度；

将调整后的所述隐层特征以及所述韵律特征输入所述解码器，得到所述待合成文本对应的所述声学特征。

在本申请一种实施例中，所述语音合成模块604，用于：

将所述声学特征输入声码器中，获取所述声码器输出的所述待合成文本对应的所述文本语音。

在本申请一种实施例中，所述声学模型采用如下模块训练得到：

训练模块，用于获取训练文本以及所述训练文本对应的训练音频，所述训练文本采用训练语种；

采用所述训练文本以及所述训练音频，对待训练的所述声学模型进行训练，得到训练完成的所述训练语种的声学模型。

在本申请一种实施例中，所述训练文本和训练音频来自不同发音对象；

所述训练模块，用于：

采用来自不同发音对象的所述训练文本以及所述训练音频，对待训练的所述声学模型进行训练，得到训练完成的所述训练语种的声学模型；

采用所述训练语种中目标语音风格的所述训练文本以及所述训练音频，对待训练的所述声学模型进行训练，得到训练完成的所述目标语音风格的声学模型。

在本申请一种实施例中，所述训练模块，用于：

提取所述训练音频中的目标声学特征；

将所述训练文本输入待训练的声学模型中，获取所述待训练的声学模型输出的模型声学特征；

确定所述模型声学特征与所述目标声学特征之间的特征相似度；

基于所述特征相似度，调整所述待训练的声学模型中的模型参数，完成所述声学模型训练。

在本申请一种实施例中，所述训练模块，还用于：

将所述模型声学特征输入声码器中，获取所述声码器输出的合成音频；

将所述合成音频以及所述训练音频输入判别器，得到所述合成音频对应的第一判别结果，以及所述训练音频对应的第二判别结果，所述判别器用于判别输入的音频为训练音频或合成音频；

基于所述特征相似度、所述第一判别结果以及所述第二判别结果，调整所述待训练的声学模型中的模型参数以及所述判别器，完成所述声学模型训练。

在本申请一种实施例中，所述待训练的声学模型中包括编码器和时长模型；

所述训练模块，还用于：

提取所述训练音频中字符的标准时长；

将所述训练文本输入所述编码器中，获取所述编码器输出的所述训练文本的隐层特征；

将所述隐层特征作为所述时长模型的输入，将所述训练音频中字符的所述标准时长作为训练目标，对所述时长模型进行训练。

在本申请一种实施例中，所述训练模块还用于：

基于所述训练音频以及所述隐层特征，通过切分模型标注所述训练音频中字符的发音起点与发音终点；

基于所述训练音频中字符的所述发音起点与发音终点，确定所述训练音频中字符的所述标准时长。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

参照图7，电子设备700可以包括以下一个或多个组件：处理组件702，存储器704。

处理组件702通常控制电子设备700的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件702可以包括一个或多个处理器720来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件702可以包括一个或多个模块，便于处理组件702和其他组件之间的交互。例如，处理部件702可以包括多媒体模块，以方便多媒体组件708和处理组件702之间的交互。

存储器704被配置为存储各种类型的数据以支持在设备700的操作。这些数据的示例包括用于在电子设备700上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

在一些实施例中，该电子设备700还可以包括电力组件706，多媒体组件708，音频组件710，输入/输出(I/O)的接口712，传感器组件714，以及通信组件716，本实施例对此不作限定。

在示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器704，上述指令可由电子设备700的处理器720执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述各个实施例提供的语音合成方法

图8是本申请另一示例性实施例示出的一种的电子设备800的结构示意图。该电子设备800可以是服务器，该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)822(例如，一个或一个以上处理器)和存储器832，一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器822可以设置为与存储介质830通信，在服务器上执行存储介质830中的一系列指令操作。

服务器还可以包括一个或一个以上电源826，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口858，一个或一个以上键盘856，和/或，一个或一个以上操作系统841，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序，以实现上述各个实施例提供的语音合成方法。

以上对本申请所提供的语音合成方法和装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种语音合成方法，所述方法由电子设备执行，所述方法包括：

获取待合成文本；

生成所述待合成文本的隐层特征以及韵律特征，并预测所述待合成文本中字符的发音时长；

基于所述隐层特征、所述韵律特征以及所述发音时长，生成所述待合成文本对应的声学特征；

根据所述声学特征，生成所述待合成文本对应的文本语音。
根据权利要求1所述的方法，其中，所述生成所述待合成文本的隐层特征以及韵律特征，并预测所述待合成文本中字符的发音时长，包括：

采用所述待合成文本对应的声学模型，生成所述隐层特征以及韵律特征，并预测所述发音时长，所述声学模型基于所述待合成文本对应的语种和语音风格中的至少一种确定得到。
根据权利要求2所述的方法，其中，所述声学模型包括编码器、时长模型和变分自动编码器；

所述采用所述待合成文本对应的目标声学模型，生成所述隐层特征以及韵律特征，并预测所述发音时长，包括：

通过所述编码器对所述待合成文本进行特征提取，得到所述待合成文本的所述隐层特征；

基于所述隐层特征，通过所述时长模型预测所述待合成文本中字符的所述发音时长；

基于所述隐层特征，通过所述变分自动编码器提取所述待合成文本的所述韵律特征。
根据权利要求2所述的方法，其中，所述声学模型还包括解码器；

所述基于所述隐层特征、所述韵律特征以及所述发音时长，生成所述待合成文本对应的声学特征，包括：

基于所述发音时长，调整所述隐层特征的特征长度；

将调整后的所述隐层特征以及所述韵律特征输入所述解码器，得到所述待合成文本对应的所述声学特征。
根据权利要求1所述的方法，其中，所述根据所述声学特征，生成所述待合成文本对应的文本语音，包括：

将所述声学特征输入声码器中，获取所述声码器输出的所述待合成文本对应的所述文本语音。
根据权利要求2所述的方法，其中，所述声学模型采用如下方式训练得到：

获取训练文本以及所述训练文本对应的训练音频，所述训练文本采用训练语种；

采用所述训练文本以及所述训练音频，对待训练的所述声学模型进行训练，得到训练完成的所述训练语种的声学模型。
根据要求6所述的方法，其中，所述训练文本和训练音频来自不同发音对象；

所述采用所述训练文本以及所述训练音频，对待训练的所述声学模型进行训练，得到训练完成的所述训练语种的声学模型，包括：

采用来自不同发音对象的所述训练文本以及所述训练音频，对待训练的所述声学模型进行训练，得到训练完成的所述训练语种的声学模型；

采用所述训练语种中目标语音风格的所述训练文本以及所述训练音频，对待训练的所述声学模型进行训练，得到训练完成的所述目标语音风格的声学模型。
根据权利要求6所述的方法，其中，所述采用所述训练文本以及所述训练音频，对待训练的所述声学模型进行训练，得到训练完成的所述训练语种的声学模型，包括：

提取所述训练音频中的目标声学特征；

将所述训练文本输入待训练的声学模型中，获取所述待训练的声学模型输出的模型声学特征；

确定所述模型声学特征与所述目标声学特征之间的特征相似度；

基于所述特征相似度，调整所述待训练的声学模型中的模型参数，完成所述声学模型训练。
根据权利要求8所述的方法，其中，所述方法还包括：

将所述模型声学特征输入声码器中，获取所述声码器输出的合成音频；

将所述合成音频以及所述训练音频输入判别器，得到所述合成音频对应的第一判别结果，以及所述训练音频对应的第二判别结果，所述判别器用于判别输入的音频为训练音频或合成音频；

基于所述特征相似度、所述第一判别结果以及所述第二判别结果，调整所述待训练的声学模型中的模型参数以及所述判别器，完成所述声学模型训练。
根据权利要求8所述的方法，其中，所述待训练的声学模型中包括编码器和时长模型；

所述采用所述训练文本以及所述训练音频，对待训练的所述声学模型进行训练，得到训练完成的所述训练语种的声学模型，还包括：

提取所述训练音频中字符的标准时长；

将所述训练文本输入所述编码器中，获取所述编码器输出的所述训练文本的隐层特征；

将所述隐层特征作为所述时长模型的输入，将所述训练音频中字符的所述标准时长作为训练目标，对所述时长模型进行训练。
根据权利要求9所述的方法，其中，所述提取所述训练音频中字符的标准时长，包括：

基于所述训练音频以及所述隐层特征，通过切分模型标注所述训练音频中字符的发音起点与发音终点；

基于所述训练音频中字符的所述发音起点与发音终点，确定所述训练音频中字符的所述标准时长。
一种语音合成装置，所述装置包括：

文本获取模块，用于获取待合成文本；

第一特征生成模块，用于生成所述待合成文本的隐层特征以及韵律特征，并预测所述待合成文本中字符的发音时长；

第二特征生成模块，用于基于所述隐层特征、所述韵律特征以及所述发音时长，生成所述待合成文本对应的声学特征；

语音合成模块，用于根据所述声学特征，生成所述待合成文本对应的文本语音。
一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备执行如方法权利要求1-11任一所述的语音合成方法。
一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于所述存储器中，且经配置以由一个或者一个以上处理器执行如方法权利要求1-11任一所述的语音合成方法。
一种计算机程序产品，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中；电子设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述电子设备执行如权利要求1至11任一所述的语音合成方法。