WO2021127979A1

WO2021127979A1 - 语音合成方法、装置、计算机设备及计算机可读存储介质

Info

Publication number: WO2021127979A1
Application number: PCT/CN2019/127914
Authority: WO
Inventors: 黄东延; 盛乐园; 熊友军
Original assignee: 深圳市优必选科技股份有限公司
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2021-07-01
Also published as: CN111108549A; CN111108549B

Abstract

一种语音合成方法、装置、计算机设备及计算机可读存储介质。该方法包括：获取待合成频谱和预置频谱（202）；根据该待合成频谱和预置频谱得到叠加频谱（204）；对叠加频谱进行情感语义特征提取得到对应的情感语义特征（206）；对预置频谱进行基频提取，得到预置频谱对应的基频特征（208）；根据叠加频谱对应的情感语义特征和预置频谱对应的基频特征得到待合成频谱对应的情感韵律频谱，根据该情感韵律频谱生成语音（210）。该语音与待合成频谱具有相同的语义，并且与预置频谱的情感特征和韵律特征一致。该方法能够实现对语音的重音等韵律进行控制，最终使得合成的语音更加真实。

Description

语音合成方法、装置、计算机设备及计算机可读存储介质

技术领域

本申请涉及语言合成技术领域，尤其涉及一种语音合成方法、装置、计算机设备及计算机可读存储介质。

背景技术

语音合成是通过机械的、电子的方法产生人造语音的技术，具体是指将计算机自己产生的、或外部输入计算机的文字信息转变为可以听得懂的、流利的语音输出的技术。

技术问题

现有技术中，从参考的语音中提取情感特征，然后通过无监督的方式利用提取的情感特征来控制语音的风格，但是，语音中不止情感，还包括有重音等，需要对重音等韵律因素进行精细控制，从而使得合成的语音更加真实。

技术解决方案

基于此，有必要针对上述问题，提出了一种能够同时对情感和韵律进行控制的语音合成、装置、计算机设备及存储介质。

本申请实施例提供了一种语音合成方法，所述方法包括：

获取待合成频谱和预置频谱；

根据所述待合成频谱和所述预置频谱得到叠加频谱；

对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征；

对所述预置频谱进行基频提取，得到所述预置频谱对应的基频特征；

根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱，以根据所述情感韵律频谱生成语音。

一种语音合成装置，所述装置包括：

频谱获取模块，用于获取待合成频谱和预置频谱；

叠加频谱模块，用于根据所述待合成频谱和所述预置频谱得到叠加频谱；

情感语义模块，用于对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征；

基频提取模块，用于对所述预置频谱进行基频提取，得到所述预置频谱对应的基频特征；

情感韵律模块，用于根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱，以根据所述情感韵律频谱生成语音。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

获取待合成频谱和预置频谱；

根据所述待合成频谱和所述预置频谱得到叠加频谱；

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：

获取待合成频谱和预置频谱；

根据所述待合成频谱和所述预置频谱得到叠加频谱；

有益效果

实施本申请实施例，将具有如下有益效果：

上述语音合成方法、装置、计算机设备及计算机可读存储介质，首先获取待合成频谱和预置频谱；然后根据所述待合成频谱和所述预置频谱得到叠加频谱；同时对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征；并且对所述预置频谱进行基频提取，得到所述预置频谱对应的基频特征；最后根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱，以根据所述情感韵律频谱生成语音。上述语音合成方法，首先提取到了情感语义特征，赋予了语音情感，然后提取到了预置频谱的基频，而基频能够体现韵律，由此实现了对语音的重音等韵律进行控制，最终使得合成的语音更加真实。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为一个实施例中语音合成方法的应用环境图；

图2为一个实施例中语音合成方法的流程图；

图3为一个实施例中根据所述待合成频谱和所述预置频谱得到叠加频谱的流程图；

图4为一个实施例中根据所述预置频谱对应的情感特征和所述待合成频谱得到所述叠加频谱的流程图；

图5为一个实施例中语音合成装置的结构框图；

图6为一个实施例中计算机设备的结构框图。

本发明的实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为一个实施例中语音合成方法的应用环境图。参照图1，该语音合成方法应用于语音合成系统，该语音合成系统可设置于终端中，也可以设置于服务器中，其中，终端具体可以是台式终端或移动终端，移动终端具体可以是手机、机器人、平板电脑、笔记本电脑等中的至少一种，台式终端可以是台式电脑、车载电脑；服务器包括高性能计算机和高性能计算机集群。该语音合成系统包括用于获取待合成频谱和预置频谱的频谱获取模块；用于根据所述待合成频谱和所述预置频谱得到叠加频谱的叠加频谱模块；用于对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征的情感语义模块；用于对所述预置频谱进行基频提取，得到所述预置频谱对应的基频特征的基频提取模块；用于根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱，以根据所述情感韵律频谱生成语音的情感韵律模块。

如图2所示，在一个实施例中，提供了一种语音合成方法。该方法既可以应用于终端，也可以应用于服务器，还可以应用于其他语音合成装置中。该语音合成方法具体包括如下步骤：

步骤202：获取待合成频谱和预置频谱。

其中，待合成频谱是指不具有情感、韵律的待合成文本对应的频谱。示例性的，待合成频谱可以是待合成文本对应的梅尔频谱，还可以是待合成文本对应的梅尔倒谱。

其中，预置频谱，是指预先设置的具有一定的情感和韵律的目标语音对应的频谱，将预置频谱中的情感和韵律提取出来，并叠加到不具有情感、韵律的待合成频谱上，得到具有该一定的情感和韵律的情感韵律频谱，从而根据该情感韵律频谱生成具有该一定的情感和韵律的语音。示例性的，获取具有一定的情感和韵律的目标语音；根据所述目标语音得到所述目标语音对应的预置频谱。预置频谱可以预先设置于执行本发明实施例所述的语音合成方法的设备中，也可以在有语音合成需求的时候，从其他设备中获取到该预置频谱。

步骤204：根据所述待合成频谱和所述预置频谱得到叠加频谱。

其中，叠加频谱，同时包含有待合成频谱的特征和预置频谱的特征，具体的，叠加频谱可以同时包括所述待合成频谱和所述预置频谱的全部特征，也可以同时包括待合成频谱和所述预置频谱的部分特征，但需要说明的是，叠加频谱必须包括所述待合成频谱中的语义特征和预置频谱中的情感特征。

步骤206：对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征。

其中，情感语义特征包括情感特征和语义特征。情感特征反映语音或者文本所要表达的情感；语义特征反映语音或者文本的语义（例如，文本“今天几号？”，表达的语义就是想询问今天的日期）。

对所述叠加频谱进行情感语义特征提取，得到的情感语义特征中的情感特征与预置频谱所要表达的情感一致，语义特征与待合成频谱所要表达的语义一致。

通过对叠加频谱进行情感语义特征提取，使得最终生成的语音包含有情感，接近人真实的语音。

其中，情感，为整个语音或者文本的情感属性，例如，整个语音或者文本所要表达的情感为“高兴”、“伤心”或者为“生气”；韵律，反映整个语音或者文本中的部分汉字的情感属性，例如，部分汉字具有重音，“小明在商场”，重音可能在小明，也可能在商场，通过韵律对整个语音或者文本中的部分汉字的情感进行表达，使得合成的语音更加的抑扬顿挫，具备一定的语调、重音和节奏。

步骤208：对所述预置频谱进行基频提取，得到所述预置频谱对应的基频特征。

其中，基频，为预置频谱中的一组频率最低的正弦波。在声音中，基频是指一个复音中基音的频率。在构成一个复音的若干个音中，基音的频率最低，强度最大。音调是对基频的听觉心理感知量。声调高低变化取决于音调的高低变化，因此，声调的高低变化取决于基频的大小变化。声调的高低变化表现为目标语音的抑扬顿挫，因此目标语音对应的预置频谱的基频特征可以反映该目标语音的韵律。

通过对所述预置频谱进行基频提取，可以得到预置频谱中的基频特征，而基频特征能够表达韵律，使得最终得到的情感韵律频谱同时具备情感特征和韵律特征，从而使得最终合成的语音具备情感和韵律。

步骤210：根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱，以根据所述情感韵律频谱生成语音。

其中，情感韵律频谱是指同时包含待合成频谱的语义特征、预置频谱的情感特征和基频特征的频谱，根据所述情感韵律频谱生成的语音所要的语义与所述待合成频谱所要表达的语义相同，根据所述情感韵律频谱生成的语音所要表达的情感、韵律和所述预置频谱所要表达的情感、韵律相同。

上述语音合成方法，首先获取待合成频谱和预置频谱；然后根据所述待合成频谱和所述预置频谱得到叠加频谱；同时对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征；并且对所述预置频谱进行基频提取，得到所述预置频谱对应的基频特征；最后根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱，以根据所述情感韵律频谱生成语音。上述语音合成方法，首先提取到了情感语义特征，赋予了语音情感，然后提取到了预置频谱的基频，而基频能够体现韵律，由此实现了对语音的重音等韵律进行控制，最终使得合成的语音更加真实。

在一个实施例中，如图3所示，步骤204所述根据所述待合成频谱和所述预置频谱得到叠加频谱，包括：

步骤204A，将所述预置频谱作为情感编码器的输入，得到所述预置频谱对应的情感特征。

其中，情感编码器，用于提取所述预置频谱的情感特征。情感编码器包括情感提取部，情感选取部和情感压缩部。其中，情感提取部用于提取所述预置频谱中关于情感的特征，情感选取部对所述情感提取部提取得到的特征进行过滤和选取，情感压缩部将所述情感选取部选取过滤的特征进行压缩以获取所述预置频谱对应的情感特征。示例性的，情感编码器的情感提取部由六个块（Block）模块构成，每个Block模块均由三部分组成：一个二维卷积层，一个二维批标准化层和一个修正线性单元。情感提取部通过升维提取高频或者说是高维的特征。情感选取部由门控循环单元构成，用于将所述情感提取部提取的特征进行过滤和选取，如过滤掉提取高维的特征中的噪音特征，以保障情感选取部输出特征均为关于情感的特征。情感压缩部将所述情感选取部过滤和选取的特征经过线性仿射变换映射压缩得到一个一维（或者二维、三维，在此不做具体的限定）的潜在向量，即为所述预置频谱对应的情感特征。

步骤204B，根据所述预置频谱对应的情感特征和所述待合成频谱得到所述叠加频谱。

根据所述预置频谱对应的情感特征和所述待合成频谱得到所述叠加频谱，具体是将所述预置频谱对应的情感特征和所述待合成频谱直接叠加得到所述叠加频谱，还可以是提取所述待合成频谱对应的语义特征，将所述预置频谱对应的情感特征和所述待合成频谱对应的语义特征叠加得到所述叠加频谱。

如图4所示，在一个实施例中，步骤204B所述根据所述预置频谱对应的情感特征和所述待合成频谱得到所述叠加频谱，包括：

步骤204B1：获取所述待合成频谱对应的待合成维度。

其中，待合成维度是指待合成频谱对应的维度大小。

步骤204B2：将所述预置频谱对应的情感特征转换成维度和所述待合成维度一致的情感转换特征。

对情感特征进行维度转换得到情感转换特征，其中，情感转换特征的维度为待合成维度。

步骤204B3：根据所述待合成频谱和所述情感转换特征得到所述叠加频谱。

示例性的，待合成频谱为（A，B，C，D），情感转换特征为（a，b，c，d），将待合成频谱和情感转换特征相加，得到叠加频谱为（A+a，B+b，C+c，D+d）。

在一个实施例中，步骤206对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征，包括：

将所述叠加频谱作为情感语义编码器的输入，得到所述情感语义编码器输出的所述叠加频谱对应的情感语义特征。

其中，情感语义编码器用于提取所述叠加频谱的情感语义特征。情感语义编码器包括情感语义提取部，情感语义选取部和情感语义压缩部。其中，情感语义提取部用于提取所述叠加频谱中关于情感语义的特征，情感语义选取部用于对所述情感语义提取部提取得到的特征进行过滤和选取，情感语义压缩部将所述情感语义选取部选取过滤的特征进行压缩以获取所述叠加频谱对应的情感语义特征。示例性的，情感语义编码器的情感语义提取部由六个Block模块构成，每个Block模块均由三部分组成：一个二维卷积层，一个二维批标准化层和一个修正线性单元。情感语义提取部通过升维提取高频或者说是高维的特征。情感语义选取部由门控循环单元构成，用于将所述情感语义提取部提取的特征进行过滤和选取，如过滤掉提取高维的特征中的噪音特征，以保障情感语义选取部输出特征均为关于情感语义的特征。情感语义压缩部由线性仿射变换映射单元构成，将所述情感语义选取部过滤和选取的情感语义特征经过线性仿射变换映射压缩得到一个一维（或者二维、三维，在此不做具体的限定）的潜在向量，即为所述叠加频谱对应的情感语义特征。

在一个实施例中，步骤210根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱，包括：

将所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征进行组合，得到组合特征；将所述组合特征输入情感韵律解码器，得到所述情感韵律解码器输出的所述待合成频谱对应的情感韵律频谱。

其中，组合特征包括所述待合成频谱的语义特征、所述预置频谱的情感特征和基频特征。示例性的，所述叠加频谱对应的情感语义特征为一维向量A，所述预置频谱对应的基频特征为一维向量B，则所述组合特征为二维向量（A，B）。

其中，情感韵律解码器用于获取待合成频谱对应的情感韵律频谱。情感韵律解码器包括第一维度转换部、特征提取部、第二维度转换部和压缩部。第一维度转换部将所述组合特征的维度扩展后，特征提取部对维度扩展后的组合特征进行特征的再次提取，第二维度转换部对再次提取的特征进行扩展，扩展后经压缩部压缩，使其维度与组合特征的维度一样，即可获取所述待合成频谱对应的情感韵律频谱。示例性的，情感解码器的第一维度转换部由一个长短时记忆循环神经网络（Long Short-Term Memory，LSTM）构成，特征提取部由三个Block模块构成，每个Block模块均由一维卷积层、一维批标准化层和修正线性单元构成，第二维度转换部由一个LSTM构成，压缩部由线性仿射变换映射单元构成。组合特征的维度为80维，将组合特征输入情感解码器中，第一维度转换部将组合特征的维度升为256维，特征提取部将256维的组合特征进行特征的再次提取和转换，转换后的组合特征仍为256维，为保障有足够多的特征，第二维度转换部对转换后的组合特征进行升维，将其维度升为1024维。压缩部将1024维的特征进行线性仿射变换映射，压缩得到一个80维的数据，即为待合成频谱对应的情感韵律频谱。

在一个实施例中，所述情感编码器、所述情感语义编码器和所述情感韵律解码器集成在同一个语音合成神经网络中，根据训练语音的频谱训练得到。将训练语音的频谱输入到语音合成神经网络中，情感编码器提取训练语音的频谱对应的训练情感特征，训练情感特征和训练语音的频谱叠加得到训练叠加频谱，将训练叠加频谱输入到情感语义编码器中，情感语义编码器输出训练叠加频谱对应的训练情感语义特征，将训练语音的频谱对应的训练基频特征和训练叠加频谱对应的训练情感语义特征合并得到的训练组合特征，训练组合特征输入情感韵律解码器中输出训练情感韵律频谱，计算训练语音的频谱和训练情感韵律频谱之间的误差值，直至误差值小于预设误差值，该语音合成神经网络训练完成。

相应的，将待合成频谱和预置频谱输入训练完成的语音合成神经网络中，语音合成神经网络直接输出所述待合成频谱对应的情感韵律频谱。

在一个实施例中，步骤202获取待合成频谱，包括：

获取待合成文本；根据所述待合成文本得到所述待合成文本的待合成频谱。

其中，待合成文本是指待合成频谱对应的文本内容。

对待合成文本进行识别，得到多个文字内容，生成与所述多个文字内容对应的待合成语音，根据待合成语音可以确定所述待合成文本的待合成频谱（例如，使用傅里叶变换对待合成语音进行处理得到待合成频谱）。

如图5所示，在一个实施例中，提供了一种语音合成装置，该装置包括：

频谱获取模块502，用于获取待合成频谱和预置频谱；

叠加频谱模块504，用于根据所述待合成频谱和所述预置频谱得到叠加频谱；

情感语义模块506，用于对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征；

基频提取模块508，用于对所述预置频谱进行基频提取，得到所述预置频谱对应的基频特征；

情感韵律模块510，用于根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱，以根据所述情感韵律频谱生成语音。

上述语音合成装置，首先获取待合成频谱和预置频谱；然后根据所述待合成频谱和所述预置频谱得到叠加频谱；同时对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征；并且对所述预置频谱进行基频提取，得到所述预置频谱对应的基频特征；最后根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱，以根据所述情感韵律频谱生成语音。上述语音合成方法，首先提取到了情感语义特征，赋予了语音情感，然后提取到了预置频谱的基频，而基频能够体现韵律，由此实现了对语音的重音等韵律进行控制，最终使得合成的语音更加真实。

在一个实施例中，所述叠加频谱模块504，包括：提取情感特征模块，用于将所述预置频谱作为情感编码器的输入，得到所述预置频谱对应的情感特征；叠加模块，用于根据所述预置频谱对应的情感特征和所述待合成频谱得到所述叠加频谱。

在一个实施例中，所述叠加模块具体用于：获取所述待合成频谱对应的待合成维度；将所述预置频谱对应的情感特征转换成维度和所述待合成维度一致的情感转换特征；根据所述待合成频谱和所述情感转换特征得到所述叠加频谱。

在一个实施例中，所述情感语义模块506具体用于：将所述叠加频谱作为情感语义编码器的输入，得到所述情感语义编码器输出的所述叠加频谱对应的情感语义特征。

在一个实施例中，所述情感韵律模块510具体用于：将所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征进行组合，得到组合特征；将所述组合特征输入情感韵律解码器，得到所述情感韵律解码器输出的所述待合成频谱对应的情感韵律频谱。

在一个实施例中，所述频谱获取模块502用于：获取待合成文本；根据所述待合成文本得到所述待合成文本的待合成频谱。

图6示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端，也可以是服务器，还可以是语音合成装置。如图6所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现语音合成方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行语音合成方法。本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

获取待合成频谱和预置频谱；

根据所述待合成频谱和所述预置频谱得到叠加频谱；

上述计算机设备，首先获取待合成频谱和预置频谱；然后根据所述待合成频谱和所述预置频谱得到叠加频谱；同时对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征；并且对所述预置频谱进行基频提取，得到所述预置频谱对应的基频特征；最后根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱，以根据所述情感韵律频谱生成语音。上述语音合成方法，首先提取到了情感语义特征，赋予了语音情感，然后提取到了预置频谱的基频，而基频能够体现韵律，由此实现了对语音的重音等韵律进行控制，最终使得合成的语音更加真实。

在一个实施例中，所述根据所述待合成频谱和所述预置频谱得到叠加频谱，包括：将所述预置频谱作为情感编码器的输入，得到所述预置频谱对应的情感特征；根据所述预置频谱对应的情感特征和所述待合成频谱得到所述叠加频谱。

在一个实施例中，所述根据所述预置频谱对应的情感特征和所述待合成频谱得到所述叠加频谱，包括：获取所述待合成频谱对应的待合成维度；将所述预置频谱对应的情感特征转换成维度和所述待合成维度一致的情感转换特征；根据所述待合成频谱和所述情感转换特征得到所述叠加频谱。

在一个实施例中，所述对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征，包括：将所述叠加频谱作为情感语义编码器的输入，得到所述情感语义编码器输出的所述叠加频谱对应的情感语义特征。

在一个实施例中，所述根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱，包括：将所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征进行组合，得到组合特征；将所述组合特征输入情感韵律解码器，得到所述情感韵律解码器输出的所述待合成频谱对应的情感韵律频谱。

在一个实施例中，所述获取待合成频谱，包括：获取待合成文本；根据所述待合成文本得到所述待合成文本的待合成频谱。

在一个实施例中，提出了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：

获取待合成频谱和预置频谱；

根据所述待合成频谱和所述预置频谱得到叠加频谱；

上述计算机可读存储介质，首先获取待合成频谱和预置频谱；然后根据所述待合成频谱和所述预置频谱得到叠加频谱；同时对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征；并且对所述预置频谱进行基频提取，得到所述预置频谱对应的基频特征；最后根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱，以根据所述情感韵律频谱生成语音。上述语音合成方法，首先提取到了情感语义特征，赋予了语音情感，然后提取到了预置频谱的基频，而基频能够体现韵律，由此实现了对语音的重音等韵律进行控制，最终使得合成的语音更加真实。

需要说明的是，上述语音合成方法、语音合成装置、计算机设备及计算机可读存储介质属于一个总的发明构思，语音合成方法、语音合成装置、计算机设备及计算机可读存储介质实施例中的内容可相互适用。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种语音合成方法，其特征在于，所述方法包括：

获取待合成频谱和预置频谱；

根据所述待合成频谱和所述预置频谱得到叠加频谱；

对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征；

对所述预置频谱进行基频提取，得到所述预置频谱对应的基频特征；

根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱，以根据所述情感韵律频谱生成语音。
根据权利要求1所述的方法，其特征在于，所述根据所述待合成频谱和所述预置频谱得到叠加频谱，包括：

将所述预置频谱作为情感编码器的输入，得到所述预置频谱对应的情感特征；

根据所述预置频谱对应的情感特征和所述待合成频谱得到所述叠加频谱。
根据权利要求2所述的方法，其特征在于，所述根据所述预置频谱对应的情感特征和所述待合成频谱得到所述叠加频谱，包括：

获取所述待合成频谱对应的待合成维度；

将所述预置频谱对应的情感特征转换成维度和所述待合成维度一致的情感转换特征；

根据所述待合成频谱和所述情感转换特征得到所述叠加频谱。
根据权利要求1所述的方法，其特征在于，所述对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征，包括：

将所述叠加频谱作为情感语义编码器的输入，得到所述情感语义编码器输出的所述叠加频谱对应的情感语义特征。
根据权利要求4所述的方法，其特征在于，所述根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱，包括：

将所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征进行组合，得到组合特征；

将所述组合特征输入情感韵律解码器，得到所述情感韵律解码器输出的所述待合成频谱对应的情感韵律频谱。
根据权利要求1所述的方法，其特征在于，所述获取待合成频谱，包括：

获取待合成文本；

根据所述待合成文本得到所述待合成文本的待合成频谱。
一种语音合成装置，其特征在于，所述装置包括：

频谱获取模块，用于获取待合成频谱和预置频谱；

叠加频谱模块，用于根据所述待合成频谱和所述预置频谱得到叠加频谱；

情感语义模块，用于对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征；

基频提取模块，用于对所述预置频谱进行基频提取，得到所述预置频谱对应的基频特征；

情感韵律模块，用于根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱，以根据所述情感韵律频谱生成语音。
根据权利要求7所述的装置，其特征在于，所述叠加频谱模块，包括：

提取情感特征模块，用于将所述预置频谱作为情感编码器的输入，得到所述预置频谱对应的情感特征；

叠加模块，用于根据所述预置频谱对应的情感特征和所述待合成频谱得到所述叠加频谱。
一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至6中任一项所述语音合成方法的步骤。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至6中任一项所述语音合成方法的步骤。