WO2013020329A1

WO2013020329A1 - 参数语音合成方法和系统

Info

Publication number: WO2013020329A1
Application number: PCT/CN2011/081452
Authority: WO
Inventors: 吴凤梁; 职振华
Original assignee: 歌尔声学股份有限公司
Priority date: 2011-08-10
Filing date: 2011-10-27
Publication date: 2013-02-14
Also published as: KR101420557B1; DK2579249T3; US8977551B2; EP2579249A1; US20130066631A1; JP2013539558A; EP2579249B1; CN102270449A; CN102385859A; JP5685649B2; CN102385859B; EP2579249A4; KR20130042492A

Abstract

本发明提供了一种参数语音合成方法和系统，该方法包括：依次对输入文本的音素序列中每一音素的每一帧语音进行如下处理：对当前音素，从统计模型库中提取相应的统计模型，并将该统计模型在当前音素当前帧下相应的模型参数作为当前所预测语音参数的粗略值；利用粗略值以及当前时刻之前预定数目语音帧的信息，得到当前所预测语音参数的平滑值；根据统计得到的语音参数的全局均值和全局标准差比值，对语音参数的平滑值进行全局优化，生成所需的语音参数；对生成的所述语音参数进行合成，得到对当前音素当前帧所合成的一帧语音。利用本方案，能够使语音合成所需要的RAM不会随着合成语音长度的增加而增加，合成语音的时长不再受到RAM的限制。

Description

参数语音合成方法和系统技术领域

本发明涉及参数语音合成技术领域，更为具体地，涉及一种连续合成任意时长语音的参数语音合成方法和系统。

背景技术语音合成通过机械、电子的方法产生人造语音，其是使人机交互更加自然的一项重要技术。当前常见的语音合成技术有两类，一类是基于单元挑选和波形拼接的语音合成方法，另一类是基于声学统计模型的参数语音合成方法。由于参数语音合成方法对存储空间的要求相对较小，更适于应用在小型电子设备上。

在参数语音合成方法中，分为训练与合成两个阶段。在训练阶段，参见图 1，首先提取出语料库中所有语音的声学参数，这包括静态参数，如频谱包络参数、基因频率参数，和动态参数，如频谱包络参数和基音频率参数的一阶和二阶差分参数；然后为每个音素根据其上下文标注信息训练出对应的声学统计模型，同时训练出针对整个语料库的全局方差模型；最后由所有音素的声学统计模型及全局方差模型组成模型库。

在合成阶段，采用分层离线处理的方式，进行语音的合成。如图 1 所示，包括第一层：分析输入的整段文本得到所有带上下文信息的音素组成音素序列。第二层：从训练好的模型库中提取音素序列中每个音素对应的模型组成模型序列。第三层：使用最大似然算法从模型序列中预测出每一帧语音对应的声学参数组成语音参数序列。第四层：使用全局方差模型对语音参数序列进行整体优化。第五层：将所有优化后的语音参数序列输入到参数语音合成器生成最终的合成语音。

发明人在实现本发明的过程中，发现现有技术中至少存在如下缺陷：

现有的参数语音合成方法，在合成阶段的分层操作中采用一种横向的处理方式：取出所有统计模型的参数、以最大似然算法预测生成所有帧的平滑参数、以全局方差模型得到所有帧的优化参数，最后从参数合成器输出所有帧的语音，即在每一层都需要保存所有帧的相关参数，导致语音合成时所需的随机存储器（Random Access Memory , RAM ) 的容量随着合成语音时长的增长呈正比例增加，而芯片上 RAM 的大小是固定的，很多应用中芯片的 RAM小到不足 100K字节，现有的参数语音合成方法无法在具有较小 RAM的芯片上连续合成任意时长语音。

下面结合上述合成阶段中第三层和第四层的操作，进一歩详细说明造成上述问题的原因：

在上述合成阶段的第三层操作中，参见图 4，运用最大似然算法从模型序列中预测出语音参数序列的实施过程必须通过逐帧前向递推和后向递推两歩来实现。在第一歩递推过程结束后，会为每帧语音产生对应的临时参数。所有帧的临时参数再输入到第二歩的反向递推过程才能预测出所需的参数序列。当合成语音时长越长时，对应的语音帧数就越多，预测每帧语音参数时都会产生一帧对应的临时参数。所有帧的临时参数都必须保存在 RAM中，才能完成第二歩的递推预测过程，从而导致无法在具有较小 RAM的芯片上连续合成任意时长语音。

并且，第四层中的操作需要从第三层输出的所有帧语音参数中计算出均值与方差，再运用全局方差模型对语音参数的平滑值进行整体优化生成最终的语音参数。因此，也需要相应帧数的 RAM保存第三层输出的所有帧的语音参数，也导致无法在具有较小 RAM的芯片上连续合成任意时长语音。发明内容鉴于上述问题，本发明的目的是解决原有的语音合成过程中需要的 RAM大小随着合成语音长度呈正比例增加、进而无法在小 RAM的芯片上连续合成出任意时长语音的问题。

根据本发明的一个方面，提供了一种参数语音合成方法，包括训练阶段和合成阶段，其中所述合成阶段具体包括：

依次对输入文本的音素序列中每一音素的每一帧语音进行如下处理：

对输入文本的音素序列中的当前音素，从统计模型库中提取相应的统计模型，并将该统计模型在当前音素当前帧下相应的模型参数作为当前所预测语音参数的粗略值；

利用所述粗略值以及当前时刻之前预定数目语音帧的信息，对所述粗略值进行滤波，得到当前所预测语音参数的平滑值；

根据统计得到的所述语音参数的全局均值和全局标准差比值，对所述当前所预测语音参数的平滑值进行全局优化，生成所需的语音参数；

对生成的所述语音参数进行合成，得到对当前音素当前帧所合成的一帧语

、、其中，优选的方案是，利用所述粗略值以及上一时刻语音帧的信息，对所述粗略值进行滤波，得到当前所预测语音参数的平滑值，该上一时刻语音帧的信息为上一时刻所预测语音参数的平滑值。

此外，优选的方案是，利用如下公式，根据统计得到所述语音参数的全局均值和全局标准差比值，对所述当前所预测语音参数的平滑值进行全局优化，生成所需的语音参数：

= r - (y_t - m) + m

其中， Λ为 t时刻的语音参数在优化前的平滑值，为初歩优化后的值， W 为权重值，为全局优化后得到的所需的语音参数， r为统计得到的所预测语音参数的全局标准差比值， m为统计得到的所预测语音参数的全局均值， r和 m的取值为常数。

进一歩的，本方案还包括：利用子带浊音度参数构造浊音子带滤波器和清音子带滤波器；将由基音频率参数构造的准周期性脉冲序列，经过所述浊音子带滤波器得到语音信号的浊音成分；将由白噪声构造的随机序列，经过所述清音子带滤波器得到语音信号的清音成分；将所述浊音成分与清音成分相加得到混合激励信号；将所述混合激励信号通过由频谱包络参数构造的滤波器后输出一帧合成的语音波形。进一歩的，本方案在所述合成阶段之前，所述方法还包括训练阶段，

在训练阶段，从语料库中提取的声学参数仅包括静态参数，或者，从语料库中提取的声学参数包括静态参数和动态参数；训练后所得到的统计模型的模型参数中仅保留静态模型参数；

在合成阶段中，根据所述当前音素，将训练阶段中所得到所述统计模型在当前音素当前帧下相应的静态模型参数作为当前所预测语音参数的粗略值。

根据本发明的另一方面，提供了一种参数语音合成系统，包括：

循环合成装置，用于在合成阶段，依次对输入文本的音素序列中每一音素的每一帧语音进行语音合成；

所述循环合成装置包括：

粗略搜索单元，用于对输入文本的音素序列中的当前音素，从统计模型库中提取相应的统计模型，并将该统计模型在当前音素当前帧下相应的模型参数作为当前所预测语音参数的粗略值；

平滑滤波单元，用于利用所述粗略值以及当前时刻之前预定数目语音帧的信息，对所述粗略值进行滤波，得到当前所预测语音参数的平滑值；

全局优化单元，用于根据统计得到的所述语音参数的全局均值和全局标准差比值，对所述当前所预测语音参数的平滑值进行全局优化，生成所需的语音参数；

参数语音合成单元，用于对生成的所述语音参数进行合成，得到对当前音素当前帧所合成的一帧语音。进一歩的，所述平滑滤波单元包括低通滤波器组，用于利用所述粗略值以及上一时刻语音帧的信息，对所述粗略值进行滤波，得到当前所预测语音参数的平滑值，该上一时刻语音帧的信息为上一时刻所预测语音参数的平滑值。进一歩的，所述全局优化单元包括全局参数优化器，用于利用如下公式，根据统计得到所述语音参数的全局均值和全局标准差比值，对所述当前所预测语音参数的平滑值进行全局优化，生成所需的语音参数：

= r - (y_t - m) + m

其中， Λ为 t时刻的语音参数在优化前的平滑值，为初歩优化后的值， w为权重值，为全局优化后得到的所需的语音参数， r为统计得到的所预测语音参数的全局标准差比值， m为统计得到的所预测语音参数的全局均值， r和 m的取值为常数。进一歩的，所述参数语音合成单元，包括：

滤波器构造模块，用于利用子带浊音度参数构造浊音子带滤波器和清音子带滤波器；

所述浊音子带滤波器，用于对由基音频率参数构造的准周期性脉冲序列进行滤波，得到语音信号的浊音成分；

所述清音子带滤波器，用于对由白噪声构造的随机序列进行滤波，得到语音信号的清音成分；

加法器，用于将所述浊音成分与清音成分相加得到混合激励信号；合成滤波器，用于将所述混合激励信号通过由频谱包络参数构造的滤波器后输出一帧合成的语音波形。进一歩的，所述系统还包括训练装置，用于在训练阶段，从语料库中提取的声学参数仅包括静态参数，或者，从语料库中提取的声学参数包括静态参数和动态参数；以及，在训练后所得到的统计模型的模型参数中仅保留静态模型参数；

所述粗略搜索单元，具体用于在合成阶段中，根据所述当前音素，将训练阶段中所得到所述统计模型在当前音素当前帧下相应的静态模型参数作为当前所预测语音参数的粗略值。由上所述，本发明实施例的技术方案通过利用当前帧之前的语音帧的信息以及预先统计得到语音参数的全局均值和全局标准差比值等技术手段，提供了一种新型的参数语音合成方案。

本发明所提供的参数语音合成方法和系统，采用纵向处理的合成方法，即每一帧语音的合成都需要经过取出统计模型粗略值、滤波得平滑值、全局优化得优化值、参数语音合成得语音四个歩骤，之后每一帧语音的合成都再次重复这四个歩骤，从而在参数语音合成处理的过程中仅需要保存当前帧需要的固定存储容量的参数即可，使语音合成所需要的 RAM不会随着合成语音长度的增加而增加，合成语音的时长不再受到 RAM的限制。

另外，本发明中所采用的声学参数为静态参数，在模型库中也仅保存各模型的静态均值参数，从而能够有效减少统计模型库的大小。

再者，本发明在合成语音的过程中使用多子带清浊混合激励，使每个子带中清音与浊音按照浊音度进行混合，从而使清音和浊音在时间上不再有明确的硬边界，避免了语音合成后音质的明显畸变。

本方案能够合成出具有较高连续性、一致性和自然度的语音，有助于语音合成方法在小存储空间芯片上的推广和应用。为了实现上述以及相关目的，本发明的一个或多个方面包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而，这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外，本发明旨在包括所有这些方面以及它们的等同物。附图说明通过参考以下结合附图的说明及权利要求书的内容，并且随着对本发明的更全面理解，本发明的其它目的及结果将更加明白及易于理解。在附图中：图 1 为现有技术中基于动态参数及最大似然准则的参数语音合成方法分阶段示意图；

图 2为本发明一个实施例的参数语音合成方法的流程图；

图 3为本发明一个实施例的参数语音合成方法分阶段示意图；

图 4为现有技术中基于动态参数的最大似然参数预测示意图；

图 5为本发明一个实施例的基于静态参数的滤波平滑参数预测示意图；图 6为根据本发明一个实施例的基于混合激励的合成滤波器示意图;

图 7为现有技术中基于清 /浊判决的合成滤波示意图；

图 8为本发明另一个实施例的参数语音合成系统的方框示意图；

图 9为本发明另一个实施例的参数语音合成单元的逻辑结构示意图;

图 10为本发明又一个实施例的参数语音合成方法的流程图；

图 11为本发明又一个实施例的参数语音合成系统的结构示意图。

在所有附图中相同的标号指示相似或相应的特征或功能。具体实施方式以下将结合附图对本发明的具体实施例进行详细描述。

图 2示出了根据本发明一个实施例的参数语音合成方法的流程图。

如图 2所示，本发明所提供的能够连续合成任意时长语音的参数语音合成方法的实现包括如下歩骤：

S210: 分析输入文本，根据对输入文本的分析获取包含上下文信息的音素序列；

S220: 依次取出上述音素序列中的一个音素，在统计模型库中搜索所述音素的各声学参数对应的统计模型，按帧取出所述音素的各统计模型作为待合成语音参数的粗略值；

S230: 使用滤波器组对上述待合成语音参数的粗略值进行参数平滑，得到平滑后的语音参数；

S240: 使用全局参数优化器对所述平滑后的语音参数进行全局参数优化，得到优化后的语音参数；

S250: 利用参数语音合成器对所述优化后的语音参数进行合成，输出一帧合成语音；

S260: 判断所述音素的所有帧是否都处理完毕，如果没有，则对所述音素的下一帧重复歩骤 S220〜S250的语音合成处理，直至处理完所述音素序列中的所有音素的所有帧。

为了能够进一歩清楚的对本发明的参数语音合成技术进行说明，以突出本发明的技术特点，下面将分阶段、分歩骤与现有技术中的参数语音合成方法逐一进行对比说明。图 3为本发明实施例的参数语音合成方法分阶段示意图。如图 3所示，与现有技术中基于动态参数及最大似然准则的参数语音合成方法相类似，本发明的参数语音合成的实现也包括训练和合成两个阶段，其中，训练阶段用于通过语料库中的语音信息提取语音的声学参数，并根据所提取的声学参数训练出每个音素在每个上下文信息时对应的统计模型，形成合成阶段所需要的音素的统计模型库。歩骤 S210〜S260属于合成阶段，在合成阶段，主要包括文本分析、参数预测和语音合成三部分，其中参数预测部分又可以细分为目标模型搜索、参数生成和参数优化三个环节。

首先，在训练阶段提取训练语料库的声学参数的过程中，本发明与现有参数语音合成技术的主要区别在于：现有技术中所提取的声学参数中包含动态参数，而本发明中所提取的声学参数可以全部为静态参数，也可以包含表征前后帧参数变化的动态参数，如一阶或二阶差分参数，以提高模型训练后的精度。

具体地，本发明从语料库中提取的声学参数至少包括三种静态参数：频谱包络参数、基音频率参数、子带浊音度参数，还可以选择性地包括其它如共振峰频率等参数。

其中，频谱包络参数可以是线性预测系数（LPC)或其衍生参数，如线谱对参数（LSP), 也可以是倒谱类参数；还可以是前几个共振峰的参数（频率、带宽、幅值）或者离散傅立叶变换系数。另外，还可以使用这些频谱包络参数在美尔域的变种，以改善合成语音的音质。基音频率使用对数基音频率，子带浊音度为子带中浊音所占比重。

除了上述静态参数外，从语料库中提取的声学参数还可以包括表征前后帧声学参数变化的动态参数，如前后几帧基音频率间的一阶或二阶参数。训练时要将各音素自动对齐到语料库中大量的语音片段上，然后从这些语音片段中统计出该音素对应的声学参数模型。联合使用静态参数和动态参数进行自动对齐的精度略高于仅使用静态参数的情形，使得模型的参数更准确。但是，由于本发明在合成阶段并不需要模型中的动态参数，因此，本发明在最终训练出的模型库中仅保留静态参数。

在根据所提取的声学参数训练出每个音素在不同上下文信息时各声学参数对应的统计模型的过程中，采用隐马尔可夫模型（HMM, Hidden Markov Model) 对各声学参数进行建模。具体地，对于频谱包络参数与子带浊音度参数，使用连续概率分布的 HMM建模，而对于基音频率则采用多空间概率分布的 HMM 建模。这种建模方案为现有技术中已有的建模方案，因此在下面的表述中只对该建模方案作简单的说明。

HMM是一种典型的统计信号处理方法，由于其随机性、可以处理未知字长的字符串输入、可以有效的避开切分的问题以及具有大量快速有效的训练和识别算法等特点，被广泛应用于信号处理的各个领域。 HMM的结构为 5个状态左右型，每个状态上观察概率的分布为单高斯密度函数。而该函数由参数的均值和方差唯一确定。所述的均值由静态参数的均值、动态参数（一阶与二阶差分）的均值组成。所述的方差由静态参数的方差、动态参数（一阶与二阶差分）的方差组成。

训练时根据上下文信息为每个音素的各声学参数训练出一个模型，为了提高模型训练的稳健性，需要根据音素的上下文信息对相关的音素进行聚类，如采用基于决策树的聚类方法。在上述声学参数对应的模型训练完成之后，再使用这些模型对训练语料库中的语音进行帧到状态的强制对齐，然后利用对齐过程中产生的时长信息（即各状态对应的帧数），训练音素在不同上下文信息时采用决策树聚类后的状态时长模型，最终由每个音素在不同上下文信息时的各声学参数对应的统计模型形成统计模型库。

在训练完成后，本发明在模型库中仅保存各模型的静态均值参数。而现有的参数语音合成方法则需要保留静态均值参数、一阶差分参数、二阶差分的均值参数及这些参数所对应的方差参数，统计模型库较大。实践证明，在本发明中，仅保存各模型的静态均值参数的统计模型库的大小只有现有技术中形成的统计模型库的约 1/6，极大地减少了统计模型库的存储空间。其中，所减少的数据虽然在现有的参数语音合成技术中是必须的，但对于本发明提供的参数语音合成技术方案则是不需要的，因此，数据量的减少并不会影响本发明参数语音合成的实现。

在合成阶段，首先需要对输入的文本进行分析，以便从中提取出包含上下文信息的音素序列（歩骤 S210), 作为参数合成的基础。

在此，音素的上下文信息指的是与当前音素前后相邻的音素的信息，这些上下文信息可以是其前后一个或几个音素的名称，也可以包含其它语言层或音韵层的信息。比如，一个音素的上下文信息包括当前音素名、前后两个音素名、所在音节的音调或者重音，还可以选择性地包括所在词的词性等。

在确定了输入文本中包含上下文信息的音素序列之后，就可以依次取出序列中的一个音素，在统计模型库中搜索该音素的各声学参数对应的统计模型，然后按帧取出该音素的各统计模型作为待合成语音参数的粗略值（歩骤 S220)。

在目标统计模型的搜索过程中，将音素的上下文标注信息输入到聚类决策树中，即可搜索出频谱包络参数、基音频率参数、子带浊音度参数、状态时长参数对应的统计模型。其中的状态时长参数不是从原始语料库中提取的静态声学参数，它是在训练中作状态与帧的对齐时生成的新参数。从模型各状态中依次取出所保存的静态参数的均值即为各参数对应的静态均值参数。其中，状态时长均值参数被直接用于确定待合成的某个音素中各状态该持续多少帧，而频谱包络、基音频率、子带浊音度等静态均值参数就是待合成语音参数的粗略值。

在确定了待合成语音参数的粗略值之后，基于滤波器组对所确定的语音参数粗略值进行滤波，从而预测语音参数（歩骤 S230)。在这一歩骤中，利用一组专门的滤波器分别对频谱包络、基音频率和子带浊音度进行滤波，以预测合成效果更好的语音参数值。

本发明在歩骤 S230中所采用的滤波方法为基于静态参数的平滑滤波方法。图 5为本发明基于静态参数的滤波平滑参数预测示意图，如图 5所示，本发明用这组参数预测滤波器取代了现有的参数语音合成技术中的最大似然参数预测器，利用一组低通滤波器用以分别预测待合成语音参数的频谱包络参数、基音频率参数、子带浊音度参数。处理过程如公式（1 ) 所示： y_t=h_t * x_t ( i )

其中， t表示时间为第 t帧， ^是从模型中得到的某个语音参数在第 t帧时的粗略值，为经过滤波平滑后的值，运算符 *表示卷积，为预先设计好的滤波器的冲击响应。对于不同类型的声学参数，由于参数特性不同， ^可以被设计成不同的表示。

对于频谱包络参数、子带浊音度参数，可使用公式（2) 所示的滤波器进行

y_t = a - y_t__l + (\ - a) ' X_{t ( 2 )} 其中， "为预先设计好的固定的滤波器系数， "的选择可根据实际语音中频谱包络参数、子带浊音度随时间变化的快慢程度由实验确定。

对于基音频率参数，则可使用公式（3 ) 所示的滤波器进行参数的预测。

其中， ^为预先设计好的固定的滤波器系数，的选择可根据实际语音中基音频率参数随时间变化的快慢程度由实验确定。

可以看出，本发明所使用的这组滤波器在预测待合成语音参数的过程中所涉及的参数不会延及将来的参数，某一时刻的输出帧仅仅依赖于该时刻及之前的输入帧或该时刻的前一时刻的输出帧，而与将来的输入或输出帧无关，从而使滤波器组所需要的 RAM大小能够事先固定。也就是说，在本发明中，运用公式（2) 和（3 ) 预测语音的声学参数时，当前帧的输出参数仅依赖于当前帧的输入及前一帧的输出参数。

这样，整个参数的预测过程使用固定大小的 RAM缓存即可现实，不会随着待合成语音时长的增加而增加，从而就可以连续预测出任意时长的语音参数，解决了现有技术中运用最大似然准则预测参数过程中所需 RAM 随合成语音时长呈正比例增长的问题。

由上述公式（2) 和（3 ) 可以看出，本方案在使用滤波器组对当前时刻的待合成语音参数的粗略值进行参数平滑时，可以根据该时刻的粗略值以及上一时刻语音帧的信息，对该粗略值进行滤波，得到平滑后的语音参数。在此，上一时刻语音帧的信息为上一时刻所预测语音参数的平滑值。

在预测出语音参数的平滑值之后，就可以使用全局参数优化器对平滑后的各语音参数进行优化，进而确定优化后的语音参数（歩骤 S240)。

为了使合成语音参数的方差与训练语料库中语音参数的方差一致，改善合成语音的音质，本发明在优化语音参数的过程中，使用下面的公式（4) 对合成语音参数的变化范围进行调节。 y_t = r - (y_t - m) + m

其中， Λ为时刻的语音参数在优化前的平滑值，为初歩优化后的值，为最终优化后的值， w为合成语音的均值，是训练语音与合成语音标准差的比值， w为控制调节效果的一个固定权重。然而，现有的参数语音合成方法在确定 "^和时，需要利用到某个语音参数在所有帧对应的值来计算均值和方差，然后才能运用全局方差模型来调整所有帧的参数，使得调整后合成语音参数的方差与全局方差模型一致，达到提高音质的（5 ) 所示。

其中，表示待合成语音总时长为帧， ^σ为某个语音参数在训练语料库中所有语音上统计得到的标准差（由全局方差模型提供），为当前待合成语音参数的标准差，每合成一段文本，都需要重新计算。由于《和^的计算需要用到调整前合成语音所有帧的语音参数值，需要 RAM保存所有帧未优化时的参数，因此，所需要的 RAM会随着待合成语音时长的增加而增加，从而导致固定大小的 RAM无法满足连续合成任意时长语音的需要。

针对现有技术中存在的这种缺陷，本发明在对参数语音进行优化时，重新设计了全局参数优化器，使用如下的公式（6 ) 对参数语音进行优化。

m = M

r = R 其中， M和 R均为常数，其值为从大量合成语音中分别统计出来的某个参数的均值及标准差比。优选的确定方法是，在不加全局参数优化时，合成一段较长的语音，例如一小时左右的合成语音，然后使用公式（5 ) 计算出各声学参数对应的均值与标准差的比值，并将其作为固定值赋予各声学参数对应的 M和可以看出，本发明所设计的全局参数优化器包含全局均值及全局方差比，用全局均值表征合成语音各声学参数的均值，用全局方差比表征合成语音与训练语音的参数在方差上的比例。使用本发明中的全局参数优化器，在每次合成时，可以对输入的一帧语音参数直接进行优化，不再需要从所有合成语音帧中重新计算语音参数的均值及标准差比，因而不需要保存待合成语音参数所有帧的值。以固定的 RAM解决了现有的参数语音合成方法 RAM随合成语音时长呈正比例增长的问题。另外，本发明对每次合成的语音采用相同的 m和 r进行调节，而原方法在每次合成中使用新计算的 m和 r进行调节，因而本发明在合成不同文本时合成语音间的一致性比原方法要好。并且，可以明显看出本发明的计算复杂度低于原方法。

在确定了优化后的语音参数之后，就可以利用参数语音合成器对所述优化后的语音参数进行合成，合成出一帧语音波形（歩骤 S250)。

图 6为根据本发明实施例的基于混合激励的合成滤波器示意图，图 Ί为现有技术中基于清 /浊判决的合成滤波示意图。如图 6和图 7所示，本发明采用的基于混合激励的合成滤波器采用源-滤波器形式；而现有技术中的滤波激励为简单的二元激励。

现有的参数语音合成技术中，在运用参数合成器合成语音时所采用的技术是基于清 /浊判决的参数语音合成，需要使用一个预先设定的门限做清 /浊音的硬判决，将某帧合成语音要么判定为浊音，要么判定为清音。这就导致在合成出的某些浊音中间突然出现清音帧，听感上会有明显的音质畸变。在图 7所示的合成滤波示意图中，合成语音前先进行清 /浊音预测，然后分别进行激励，清音时采用白噪声作为激励，浊音时采用准周期性脉冲作为激励，最后将此激励通过合成滤波器得到合成语音的波形。不可避免地，这种激励合成方法会导致合成出的清音和浊音在时间上有明确的硬边界，从而使合成语音中存在音质明显畸变。

但在如图 6所示的采用本发明提供的基于混合激励的合成滤波示意图中，使用多子带清浊混合激励，不再进行清 /浊预测，而是将每个子带中清音与浊音按浊音度进行混合，因而清音和浊音在时间上不再有明确的硬边界，解决了原方法在某些浊音中间因突然出现清音而导致音质明显畸变的问题。可以通过下面的库的语音中提取某个子带当前帧的浊音度：

其中， &是某个子带当前帧第 t个语音样本的值， ^为和 t间隔为时的语音样本的值， τ为一帧的样本数，当取基音周期时，为就为当前子带当前帧的浊音度。

具体地，如图 6所示，经过全局优化后生成的语音参数，输入参数语音合成器中，首先根据语音参数中的基音频率参数构造准周期性脉冲序列，由白噪声构造随机序列；然后经过由浊音度构造的浊音子带滤波器产品从所构造的准周期脉冲序列中得到信号的浊音成分，经过由浊音度构造的清音子带滤波器从随机序列中得到信号的清音成分；将浊音成分与清音成分相加即可得到混合激励信号。最后将混合激励信号通过由频谱包络参数构造的合成滤波器后输出一帧合成语音波形。

当然，在确定了优化后的语音参数之后，也可以依然先作清 /浊音判决，浊音时使用混合激励，清音时仅使用白噪声。但此方案同样有硬边界致音质畸变的问题，因此，本发明优选上述不进行清 /浊预测、使用多子带清浊混合激励的实施方式。

由于本发明在连续合成任意时长语音方面的优势，因此，在完成一帧语音波形的输出之后，还可以继续循环处理下一帧语音。由于下一帧优化后的语音参数没有预先生成并存储在 RAM中，因此，在当前帧处理完之后，需要返回歩骤 S220,从模型中取出该音素的下一帧语音参数的粗略值，重复进行歩骤 S220〜 S250, 对该音素的下一帧进行语音合成处理，才能最终输出下一帧的语音波形。这样循环处理，直至所有音素模型的所有帧的参数都处理完成、合成出所有的语音。

本发明的上述参数语音合成方法，可以采用软件实现，也可以采用硬件实现，或采用软件和硬件组合的方式实现。图 8示出了根据本发明另一个实施例的参数语音合成系统 800的方框示意图。如图 8所示，参数语音合成系统 800包括输入文本分析单元 830、粗略搜索单元 840、平滑滤波单元 850、全局优化单元 860、参数语音合成单元 870和循环判断单元 880。其中，还可以包括用于语料训练的声学参数提取单元和统计模型训练单元（图中未示出）。

其中，声学参数提取单元用于提取训练语料库中语音的声学参数；统计模型训练单元用于根据声学参数提取单元所提取的声学参数训练出每个音素在不同上下文信息时各声学参数对应的统计模型，并将该统计模型保存在统计模型输入文本分析单元 830用于分析输入的文本，并根据对所述输入文本的分析获取包含上下文信息的音素序列；粗略搜索单元 840用于依次取出音素序列中的一个音素，并在统计模型库中搜索输入文本分析单元 830所获取的所述音素的各声学参数对应的统计模型，按帧取出该音素的各统计模型作为待合成语音参数的粗略值；平滑滤波单元 850用于使用滤波器组对待合成语音参数的粗略值进行滤波，得到平滑后的语音参数；全局优化单元 860用于使用全局参数优化器对平滑滤波单元 850所平滑后的各语音参数进行全局参数优化，得到优化后的语音参数；参数语音合成单元 870用于利用参数语音合成器对全局优化单元 860所优化后的语音参数进行合成，输出合成语音。

循环判断单元 880连接在参数语音合成单元 870和粗略搜索单元 840之间，用以在完成一帧语音波形的输出之后，判断音素中是否存在未处理的帧，如果存在，则对该音素的下一帧重复利用所述粗略搜索单元、平滑滤波单元、全局优化单元和参数语音合成单元继续进行搜索取得声学参数对应的统计模型粗略值、滤波得平滑值、全局优化、参数语音合成的循环处理，直至处理完所述音素序列中的所有音素的所有帧。

由于下一帧优化后的语音参数没有预先生成并存储在 RAM中，因此，在当前帧处理完之后，需要返回粗略搜索单元 840，从模型中取出该音素的下一帧，重复利用粗略搜索单元 840、平滑滤波单元 850、全局优化单元 860和参数语音合成单元 870进行语音合成处理，才能最终输出下一帧的语音波形。这样循环处理，直至所有音素序列中的所有音素的所有帧的参数都处理完成、合成出所有的语音。

其中，与上述方法相对应，在本发明的一个优选实施方式中，统计模型训练单元进一歩包括声学参数模型训练单元、聚类单元、强制对齐单元、状态时长模型训练单元以及模型统计单元（图中未示出），具体的：

声学参数模型训练单元，用于根据每个音素的上下文信息为每个音素的各声学参数训练出一个模型；

聚类单元，用于根据所述音素的上下文信息对相关的音素进行聚类；强制对齐单元，用于使用所述模型对训练语料库中的语音进行帧到状态的强制对齐；

状态时长模型训练单元，用于利用所述强制对齐单元在强制对齐过程中产生的时长信息训练音素在不同上下文信息时聚类后的状态时长模型；

模型统计单元，用于将每个音素在不同上下文信息时的各声学参数对应的统计模型形成统计模型库。

图 9示出了根据本发明一个优选实施例的参数语音合成单元的逻辑结构示意图。如图 9所示，参数语音合成单元 870进一歩包括准周期脉冲发生器 871、白噪声发生器 872、浊音子带滤波器 873、清音子带滤波器 874、加法器 875和合成滤波器 876，其中，准周期脉冲发生器 871用于根据语音参数中的基音频率参数构造准周期性脉冲序列；白噪声发生器 872用于通过白噪声构造随机序列；浊音子带滤波器 873 用于根据子带浊音度从所构造的准周期脉冲序列中确定信号的浊音成分；清音子带滤波器 874用于根据子带浊音度从随机序列中确定信号的清音成分；然后将浊音成分与清音成分通过加法器 875 相加即可得到混合激励信号。最后将混合激励信号通过由频谱包络参数构造的合成滤波器 876合成滤波后即可输出对应的一帧合成语音波形。可以看出，本发明采用的合成方法是纵向处理，即每一帧语音的合成，都需要经过取出统计模型粗略值、滤波得平滑值、全局优化得优化值、参数语音合成得语音这处理四个环节，之后每一帧语音的合成都再次重复这四个处理环节。而现有的参数语音合成方法采用的是横向离线处理，即取出所有模型的粗略参数、以最大似然算法生成所有帧的平滑参数、以全局方差模型得到所有帧的优化参数，最后从参数合成器输出所有帧的语音。与现有的参数语音合成方法中每一层都需要保存所有帧的参数相比，本发明的纵向处理方式仅需要保存当前帧需要的固定存储容量的参数即可，因此本发明的纵向处理方式也解决了原有方法采用横向处理方式所导致的合成语音时长有限的问题。

另外，本发明通过在合成阶段仅仅使用静态参数，不再使用动态参数及方差信息，将模型库的大小减小为原有方法的约 1/6。通过使用专门设计的滤波器组取代最大似然参数方法进行参数的平滑生成，并使用新的全局参数优化器取代原有方法中的全局方差模型进行语音参数的优化，结合纵向处理结构实现了使用固定大小的 RAM连续预测出任意时长语音参数的功能，解决了原有方法在小 RAM芯片上不能连续预测出任意时长语音参数的问题，并且有助于扩大语音合成方法在小存储空间芯片上的应用。通过在每一时刻均使用清浊音混合激励，取代原有方法在合成语音波形前先做清 /浊音硬判决，解决了原有方法在合成某些浊音的中间突然出现清音而产生音质畸变的问题，使得产生的语音更加一致连贯。本发明又一个实施例提供的一种参数语音合成方法，参见图 10，该方法包括：

在合成阶段，依次对输入文本的音素序列中每一音素的每一帧语音进行如下处理：

101：对输入文本的音素序列中的当前音素，从统计模型库中提取相应的统计模型，并将该统计模型在当前音素当前帧下相应的模型参数作为当前所预测语音参数的粗略值；

102：利用所述粗略值以及当前时刻之前预定数目语音帧的信息，对所述粗略值进行滤波，得到当前所预测语音参数的平滑值；

103：根据统计得到的所述语音参数的全局均值和全局标准差比值，对所述当前所预测语音参数的平滑值进行全局优化，生成所需的语音参数；

104：对生成的所述语音参数进行合成，得到对当前音素当前帧所合成的一帧语音。

进一歩的，本方案在预测待合成语音参数的过程中，预测时所涉及的参数不会延及将来的参数，某一时刻的输出帧仅仅依赖于该时刻及之前的输入帧或该时刻的前一时刻的输出帧，而与将来的输入或输出帧无关。具体地，在歩骤 102中，可以利用上述粗略值以及上一时刻语音帧的信息，对该粗略值进行滤波，得到当前所预测语音参数的平滑值，其中，该上一时刻语音帧的信息为上一时刻所预测语音参数的平滑值。

进一歩的，所预测语音参数为频谱包络参数、子带浊音度参数时，参见上述公式（2 )，本方案根据如下公式，利用所述粗略值以及上一时刻所预测语音参数的平滑值，对所述粗略值进行滤波，得到当前所预测语音参数的平滑值：

y_t = a - y_t__l + (l - a) - x_t .

所预测语音参数为基音频率参数时，参见上述公式（3 )，本方案根据如下公式，利用所述粗略值以及上一时刻所预测语音参数的平滑值，对所述粗略值进行滤波，得到当前所预测语音参数的平滑值：其中，上述公式中表示时刻为第帧，表示所预测语音参数在第帧时的粗略值， Λ表示经过滤波平滑后的值，、分别为滤波器的系数，和的取值不同。

进一歩的，本方案在歩骤 104中，可以具体包括如下处理：利用子带浊音度参数构造浊音子带滤波器和清音子带滤波器；将由基音频率参数构造的准周期性脉冲序列，经过所述浊音子带滤波器得到语音信号的浊音成分；将由白噪声构造的随机序列，经过所述清音子带滤波器得到语音信号的清音成分；

将所述浊音成分与清音成分相加得到混合激励信号；将所述混合激励信号通过由频谱包络参数构造的滤波器后输出一帧合成的语音波形。

进一歩的，本方案在上述合成阶段之前，还包括训练阶段。在训练阶段，从语料库中提取的声学参数仅包括静态参数，或者，从语料库中提取的声学参数包括静态参数和动态参数；训练后所得到的统计模型的模型参数中仅保留静态模型参数；

合成阶段中歩骤 101可以具体包括：根据当前音素，将训练阶段中所得到所述统计模型在当前音素当前帧下相应的静态模型参数作为当前所预测语音参数的粗略值。本发明又一个实施例还提供了一种参数语音合成系统，参见图 11，该系统包括：

循环合成装置 110，用于在合成阶段，依次对输入文本的音素序列中每一音素的每一帧语音进行语音合成；所述循环合成装置 110包括：

粗略搜索单元 111，用于对输入文本的音素序列中的当前音素，从统计模型库中提取相应的统计模型，并将该统计模型在当前音素当前帧下相应的模型参数作为当前所预测语音参数的粗略值；

平滑滤波单元 112，用于利用所述粗略值以及当前时刻之前预定数目语音帧的信息，对所述粗略值进行滤波，得到当前所预测语音参数的平滑值；

全局优化单元 113，用于根据统计得到的所述语音参数的全局均值和全局标准差比值，对所述当前所预测语音参数的平滑值进行全局优化，生成所需的语音参数；

参数语音合成单元 114，用于对生成的所述语音参数进行合成，得到对当前音素当前帧所合成的一帧语音。进一歩的，所述平滑滤波单元 112包括低通滤波器组，用于利用所述粗略值以及上一时刻语音帧的信息，对所述粗略值进行滤波，得到当前所预测语音参数的平滑值，该上一时刻语音帧的信息为上一时刻所预测语音参数的平滑值。进一歩的，所预测语音参数为频谱包络参数、子带浊音度参数时，所述低通滤波器组，根据如下公式，利用所述粗略值以及上一时刻所预测语音参数的平滑值，对所述粗略值进行滤波，得到当前所预测语音参数的平滑值：所预测语音参数为基音频率参数时，所述低通滤波器组，根据如下公式，利用所述粗略值以及上一时刻所预测语音参数的平滑值，对所述粗略值进行滤波，得到当前所预测语音参数的平滑值：其中，上述公式中表示时刻为第帧，表示所预测语音参数在第帧时的粗略值， Λ表示经过滤波平滑后的值， a 、分别为滤波器的系数，和的取值不同。进一歩的，所述全局优化单元 113包括全局参数优化器，用于利用如下公式，根据统计得到所述语音参数的全局均值和全局标准差比值，对所述当前所预测语音参数的平滑值进行全局优化，生成所需的语音参数：

y_t =r-(y_t -m) + m z_t =^'(y_t -y_t)+y_t 其中， Λ为 t时刻的语音参数在优化前的平滑值，为初歩优化后的值， w为权重值，为全局优化后得到的所需的语音参数， r为统计得到的所预测语音参数的全局标准差比值， m为统计得到的所预测语音参数的全局均值， r和 m的取值为常数。进一歩的，所述参数语音合成单元 114，包括：

上述粗略搜索单元 111，具体用于在合成阶段中，根据所述当前音素，将训练阶段中所得到所述统计模型在当前音素当前帧下相应的静态模型参数作为当前所预测语音参数的粗略值。本发明实施例中的粗略搜索单元 111、平滑滤波单元 112、全局优化单元 113和参数语音合成单元 114的相关操作，可以分别参见上述实施例中的粗略搜索单元 840、平滑滤波单元 850、全局优化单元 860和参数语音合成单元 870的相关内容。由上所述，本发明实施例的技术方案通过利用当前帧之前的语音帧的信息以及预先统计得到语音参数的全局均值和全局标准差比值等技术手段，提供了一种新型的参数语音合成方案。

本方案在合成阶段采用了一种纵向的处理方式，对每一帧语音逐次分别进行合成，在合成过程中仅保存当前帧需要的固定容量的参数即可。本方案这种新型的纵向处理的架构，能够使用固定容量大小的 RAM实现任意时长语音的合成，显著降低了语音合成时对 RAM容量的要求，从而能够在具有较小 RAM的芯片上连续合成任意时长语音。

本方案能够合成出具有较高连续性、一致性和自然度的语音，有助于语音合成方法在小存储空间芯片上的推广和应用。如上参照附图以示例的方式描述根据本发明的参数语音合成方法和系统。但是，本领域技术人员应当理解，对于上述本发明所提出的参数语音合成方法和系统，还可以在不脱离本发明内容的基础上做出各种改进。因此，本发明的保护范围应当由所附的权利要求书的内容确定。

Claims

权利要求书

1、一种参数语音合成方法，包括：

、、

2、根据权利要求 1所述的方法，其特征在于，所述利用所述粗略值以及当前时刻之前预定数目语音帧的信息，对所述粗略值进行滤波，得到当前所预测语音参数的平滑值具体包括：

利用所述粗略值以及上一时刻语音帧的信息，对所述粗略值进行滤波，得到当前所预测语音参数的平滑值；

其中，所述上一时刻语音帧的信息为上一时刻所预测语音参数的平滑值。

3、根据权利要求 1所述的方法，其特征在于，

利用如下公式，根据统计得到所述语音参数的全局均值和全局标准差比值，对所述当前所预测语音参数的平滑值进行全局优化，生成所需的语音参数：

= r - (y_t - m) + m

其中， Λ为 t时刻的语音参数在优化前的平滑值，为初歩优化后的值， w为权重值，为全局优化后得到的所需的语音参数， r为统计得到的所预测语音参数的全局标准差比值， m为统计得到的所预测语音参数的全局均值， r和 m的取值为常数。

4、根据权利要求 1所述的方法，其特征在于，所述对生成的所述语音参数进行合成，得到对当前音素当前帧所合成的一帧语音包括：利用子带浊音度参数构造浊音子带滤波器和清音子带滤波器；将由基音频率参数构造的准周期性脉冲序列，经过所述浊音子带滤波器得到语音信号的浊音成分；

将由白噪声构造的随机序列，经过所述清音子带滤波器得到语音信号的清音成分；

将所述浊音成分与清音成分相加得到混合激励信号；

将所述混合激励信号通过由频谱包络参数构造的滤波器后输出一帧合成的语音波形。

5、根据权利要求 1所述的方法，其特征在于，在所述合成阶段之前，所述方法还包括训练阶段，

在训练阶段，从语料库中提取的声学参数仅包括静态参数，或者，从语料库中提取的声学参数包括静态参数和动态参数；

训练后所得到的统计模型的模型参数中仅保留静态模型参数；合成阶段中所述将该统计模型在当前音素当前帧下相应的模型参数作为当前所预测语音参数的粗略值具体为：

根据所述当前音素，将训练阶段中所得到所述统计模型在当前音素当前帧下相应的静态模型参数作为当前所预测语音参数的粗略值。

6、一种参数语音合成系统，包括：循环合成装置，用于在合成阶段，依次对输入文本的音素序列中每一音素的每一帧语音进行语音合成；

所述循环合成装置包括：

参数语音合成单元，用于对生成的所述语音参数进行合成，得到对当前音素当前帧所合成的一帧语音。

7、根据权利要求 6所述的系统，其中，所述平滑滤波单元包括低通滤波器组，

所述低通滤波器组，用于利用所述粗略值以及上一时刻语音帧的信息，对所述粗略值进行滤波，得到当前所预测语音参数的平滑值；其中，所述上一时刻语音帧的信息为上一时刻所预测语音参数的平滑值。

8、根据权利要求 6所述的系统，其中，所述全局优化单元包括全局参数优化器，

所述全局参数优化器，用于利用如下公式，根据统计得到所述语音参数的全局均值和全局标准差比值，对所述当前所预测语音参数的平滑值进行全局优化，生成所需的语音参数：

y_t = r - (y_t - m) + m z_t = ^ ' (y_t - y_t ) + y_t 其中， Λ为 t时刻的语音参数在优化前的平滑值，为初歩优化后的值， w为权重值，为全局优化后得到的所需的语音参数， r为统计得到的所预测语音参数的全局标准差比值， m为统计得到的所预测语音参数的全局均值， r和 m的取值为常数。

9、根据权利要求 6所述的系统，其中，所述参数语音合成单元，包括：

加法器，用于将所述浊音成分与清音成分相加得到混合激励信号；合成滤波器，用于将所述混合激励信号通过由频谱包络参数构造的滤波器后输出一帧合成的语音波形。

10、根据权利要求 6所述的系统，其特征在于，所述系统还包括训练装置，

所述训练装置，用于在训练阶段，从语料库中提取的声学参数仅包括静态参数，或者，从语料库中提取的声学参数包括静态参数和动态参数；以及，在训练后所得到的统计模型的模型参数中仅保留静态模型参数；

所述粗略搜索单元，具体用于在合成阶段中，根据所述当前音素，将训练阶段中所得到所述统计模型在当前音素当前帧下相应的静态模型参数作为当前所预测语音参数的粗略值。