WO2018072543A1

WO2018072543A1 - 模型生成方法、语音合成方法及装置

Info

Publication number: WO2018072543A1
Application number: PCT/CN2017/097314
Authority: WO
Inventors: 袁豪磊; 吴富章; 钱柄桦
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2016-10-17
Filing date: 2017-08-14
Publication date: 2018-04-26
Also published as: US10832652B2; CN106356052A; CN106356052B; US20190189109A1

Abstract

一种模型生成方法、语音合成方法及装置，属于语音合成技术领域。模型生成方法包括：获取训练语音数据（202）；从训练语音数据中提取具有第一标注类型的训练语音片段（204）；根据具有第一标注类型的训练语音片段在拼接前所对应的相邻候选语音片段，计算得到平均差异矩阵（206）；根据平均差异矩阵，生成具有目标拼接权值的拼接代价模型（208）；通过具有目标拼接权值的拼接代价模型进行语音合成，得到合成的语音信息（210）。通过根据平均差异矩阵生成具有目标拼接权值的拼接代价模型，避免了需要多次手工调整拼接代价模型中的权值，且最终得到的权值仍然不够准确的情况，从而达到了减少手工调整次数，直接通过平均差异矩阵计算出较为精准的目标拼接权值的效果。

Description

模型生成方法、语音合成方法及装置

本申请要求于2016年10月17日提交中国专利局、申请号为201610901099.1、发明名称为“语音合成方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明实施例涉及语音合成技术领域，特别涉及一种模型生成方法、语音合成方法及装置。

背景技术

语音合成技术，又称文语转换(Text to Speech)技术，用于将文字信息转化为语音信息。目前使用较为广泛的语音合成技术是基于波形拼接的语音合成技术。

基于波形拼接的语音合成技术的核心思想是：预先构建一个语料库，该语料库中包含各种语音片段；对于输入的文本信息，从语料库中选择合适的多个语音片段拼接得到最终的语音信息。具体来讲，对于已知的一个文本信息W＝(w₁，w₂，…，w_n)，w_i为文本基元，采用目标代价和拼接代价从语料库中选择出总代价最小的目标语音片段序列V＝(v₁，v₂，…，v_n)进行语音合成，v_i为语音片段。其中，目标代价用于表征文本基元w_i对应的预测声学特征与语料库中的候选语音片段的声学特征之间的相似性，目标代价越小，两者越相似；拼接代价用于表征相邻候选语音片段在拼接后的连续性，拼接代价越小，拼接后的语音连续性效果越好。

比如，对于已知的一个文本信息“早安中国”，文本基元“早安”在语料库中对应3个候选语音片段a，文本基元“中国”在语料库中对应2个候选语音片段b，共存在6组候选拼接方案；目标代价用于表征文本基元“早安”对应的预测声学特征与候选语音片段a之间的相似性，以及用于文本基元“中国”对应的预测声学特征与候选语音片段b之间的相似性；而拼接代价用于表征候选语音片段a与候选语音片段b之间的连续性；对于6种候选拼接方案，计算出每种候选拼接方案各自的目标代价和拼接代价，选择出总代价最小的一种候选拼接方案作为最终的拼接方案，合成得到最终的语音信息。

完整的拼接代价模型由算法模型和权值两部分组成，为了获得较好的连续性效果，这些权值是根据设计者的经验和试错进行手工调整的。具体来讲，在通过具有初始权值的拼接代价模型为输入的文字信息进行语音合成后，需要人工测听语音信息的连续性效果，如果获得不满意的连续性效果，则需要手工调整拼接代价模型中的这些权值；通过使用具有调整后权值的拼接代价模型，将输入的文字信息再次进行语音合成，再一次对合成的语音信息重复上述过程，直至获得满意的连续性效果。

每次手工调整这些权值后，都需要重新进行语音合成并对合成的语音信息的连续性效果进行人工测听，而每次调整后的连续性效果不一定比上一次的连续性结果更优，通常需要很多次的人工测听和手工调整操作才能获得较优的权值和满意的连续性效果。即便如此，最终得到的权值仍然不够准确。

发明内容

为了解决相关技术中在语音合成过程中多次手工调整得到的权值仍然不准确的问题，本发明实施例提供了一种模型生成方法、语音合成方法及装置。所述技术方案如下：

第一方面，提供了一种模型生成方法，所述方法包括：

获取训练语音数据，所述训练语音数据是将目标代价最小的语音片段进行拼接所得到的语音数据；

从所述训练语音数据中提取具有第一标注类型的训练语音片段，所述第一标注类型用于标注所述训练语音片段的语音连续性优于预设条件；

根据具有所述第一标注类型的训练语音片段在拼接前所对应的相邻候选语音片段，计算得到平均差异矩阵；所述平均差异矩阵与一类拼接组合关系对应，所述平均差异矩阵用于表征属于同一类所述拼接组合关系的多组相邻候选语音片段在声学特征上的平均差异；

根据所述平均差异矩阵，生成具有目标拼接权值的拼接代价模型，所述拼接代价模型与一类所述拼接组合关系对应。

第二方面，提供了一种语音合成方法，采用如第一方面所述的模型生成方法所生成的所述拼接代价模型，所述方法包括：

对输入的文本信息进行拆分，得到文本基元序列(w₁，w₂，…，w_n)，w_i 为第i个文本基元，1≤i≤n；

根据预设声学模型，得到与每个所述文本基元w_i对应的预测声学特征；

对于每个所述文本基元w_i，从语料库中选择出k个候选语音片段，所述k为正整数；

根据目标代价模型计算每个所述文本基元w_i与对应的候选语音片段之间的目标代价；根据所述拼接代价模型计算相邻所述候选语音片段之间的拼接代价，所述目标代价用于表征所述文本基元w_i对应的所述预测声学特征与所述候选语音片段的声学特征之间的相似性，所述拼接代价用于表征所述相邻候选语音片段之间的连续性；

选择出所述目标代价和所述拼接代价所对应的总代价最小的一组目标语音片段序列(v₁，v₂，…，v_n)进行语音合成，得到与输入的所述文本信息对应的所述语音信息。

第三方面，提供了一种模型生成装置，所述装置包括：

获取模块，用于获取训练语音数据，所述训练语音数据是将目标代价最小的语音片段进行拼接所得到的语音数据；

提取模块，用于从所述训练语音数据中提取具有第一标注类型的训练语音片段，所述第一标注类型用于标注所述训练语音片段的语音连续性优于预设条件；

第一计算模块，用于根据具有所述第一标注类型的训练语音片段在拼接前所对应的相邻候选语音片段，计算得到平均差异矩阵；所述平均差异矩阵与一类拼接组合关系对应，所述平均差异矩阵用于表征属于同一类所述拼接组合关系的多组相邻候选语音片段在声学特征上的平均差异；

生成模块，用于根据所述平均差异矩阵，生成具有目标拼接权值的拼接代价模型，所述拼接代价模型与一类所述拼接组合关系对应。

第四方面，提供了一种语音合成装置，采用如第三方面所述的模型生成装置所生成的所述拼接代价模型，所述装置包括：

拆分模块，用于对输入的文本信息进行拆分，得到文本基元序列(w₁，w₂，…，w_n)，w_i为第i个文本基元，1≤i≤n；

得到模块，用于根据预设声学模型，得到与每个所述文本基元w_i对应的预测声学特征；

选择模块，用于对于每个所述文本基元w_i，从语料库中选择出k个候选语音片段，所述k为正整数；

第二计算模块，用于根据目标代价模型计算每个所述文本基元w_i与对应的候选语音片段之间的目标代价；根据所述拼接代价模型计算相邻的所述候选语音片段之间的拼接代价，所述目标代价用于表征所述文本基元w_i对应的所述预测声学特征与所述候选语音片段的声学特征之间的相似性，所述拼接代价用于表征相邻所述候选语音片段之间的连续性；

合成模块，用于选择出所述目标代价和所述拼接代价所对应的总代价最小的一组目标语音片段序列(v₁，v₂，…，v_n)进行语音合成，得到与输入的所述文本信息对应的所述语音信息。

根据本发明实施例的第五方面，提供了一种服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上第一方面所述的模型生成方法。

根据本发明实施例的第六方面，提供了一种服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上第二方面所述的语音合成方法。

根据本发明实施例的第七方面，提供了一种终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上第二方面所述的语音合成方法。

根据本发明实施例的第八方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上第一方面所述的模型生成方法。

根据本发明实施例的第九方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上第二方面所述的语音合成方法。

本发明实施例提供的技术方案至少具有如下有益效果：

通过根据具有第一标注类型的多个训练语音片段在拼接前所对应的相邻候选语音片段，计算得到平均差异矩阵，根据平均差异矩阵生成具有目标拼接权值的拼接代价模型；其中，每个平均差异矩阵用于表征属于同一类拼接组合关系的多组相邻候选语音片段在声学特征上的平均差异，由于拼接代价模型是根据平均差异矩阵计算得到的，因此使得生成的拼接代价模型具有精准的权值，减少了手工调整次数，避免了需要多次手工调整拼接代价模型中的权值，且最终得到的权值仍然不够准确的情况。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A是一种基于波形拼接的语音合成方法的原理示意图；

图1B是本发明另一个实施例提供的语音合成方法的原理示意图；

图2是本发明一个实施例提供的语音合成方法的方法流程图；

图3是本发明另一个实施例提供的语音合成方法的方法流程图；

图4A是本发明另一个实施例提供的语音合成方法的方法流程图；

图4B是本发明另一个实施例提供的语音合成方法的方法流程图；

图5是本发明另一个实施例提供的语音合成方法的原理示意图；

图6是本发明另一个实施例提供的语音合成方法的原理示意图；

图7是本发明另一个实施例提供的语音合成方法的方法流程图；

图8是本发明另一个实施例提供的语音合成方法的界面示意图；

图9是本发明一个实施例提供的模块生成装置的结构示意图；

图10是本发明另一个实施例提供的模块生成装置的结构示意图；

图11是本发明一个实施例提供的语音合成装置的结构示意图；

图12是本发明一个实施例提供的终端的框图；

图13是本发明一个实施例提供的服务器的框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

首先，对本发明实施例涉及到的一些名词进行解释：

文本基元序列：对输入的文本信息进行拆分，得到一组文本基元序列(w₁，w₂，…，w_n)，w_i为第i个文本基元，1≤i≤n，i和n为正整数。

目标代价：用于表征文本基元w_i对应的预测声学特征与候选语音片段的声学特征之间的相似性。目标代价越小，代表两者越相似。

可选的，预测声学特征由与文本基元w_i对应的声学参数数值来表示，或者预测声学特征由与文本基元w_i对应的概率模型来表示。预测声学特征是基频、频谱特征、基频的一阶变化率以及高阶变化率、频谱的一阶变化率以及高阶变化率、信号的能量、信号的过零率中的至少一种。

可选的，候选语音片段是语料库中存储的若干个语音片段。

拼接代价：用于表征相邻候选语音片段之间的连续性。

训练语音数据：是将目标代价最小的语音片段进行拼接所得到的语音数据。

训练语音数据是与目标代价有关且与拼接代价无关的待训练的语音信息。即在训练语音数据的语音合成过程中，不考虑拼接代价的影响(设拼接代价为0)，只考虑目标代价。在本发明实施例中，模型生成方法的拼接过程中假设拼接代价为0，即不考虑拼接代价对语音合成过程的影响。

可选的，训练语音数据包括至少一个训练语音片段，一个训练语音片段是由第一候选语音片段和第二候选语音片段拼接得到的训练语音片段。

训练语音片段的标注类型：包括第一标注类型和第二标注类型。第一标注类型用于标注训练语音片段的语音连续性优于预设条件即语音连续性效果较好的训练语音片段，第二标注类型用于标注训练语音片段的语音连续性低于预设条件即语音连续性效果较差的训练语音片段。

可选的，每个训练语音片段的标注类型由人工测听后标注得到。若人工测听结果为该训练语音片段的连续性较优，则将该训练语音片段标注为第一标注类型；若人工测听结果为该训练语音片段的连续性较差，则将该训练语音片段标注为第二标识类型，第一标注类型所对应的语音连续性优于第二标注类型所对应的语音连续性。

平均差异矩阵：用于表征属于同一类拼接组合关系的多组相邻候选语音片段在声学特征上的平均差异。其中，平均差异矩阵与一类拼接组合关系对应。

由于一个训练语音片段是由第一候选语音片段和第二候选语音片段拼接得到的，因此通过第一候选语音片段和第二候选语音片段在声学特征上的差异，能够求得第一候选语音片段和第二候选语音片段的拼接差异矩阵。对多组属于同一类拼接组合关系的拼接差异矩阵求均值，从而得到该类拼接组合关系所对应的平均差异矩阵。

可选的，若语音片段采用音素为单位进行划分，拼接组合关系包括至少两个音素之间的组合关系。示意性的，拼接组合关系是音素单元a在前且音素单元b在后所组成的组合关系。

比如，拼音“y”和拼音“i”所形成的组合关系是一种拼接组合关系。

拼接代价模型：是具有目标拼接权值的拼接代价模型。其中，拼接代价模型与一类拼接组合关系对应。

其中，目标拼接权值包括第一权值和第二权值。第一权值是拼接的两个候选语音片段中的第n个声学特征对应的权值，第二权值是两个候选语音片段中的第t个重叠帧的声学特征对应的第二权值。

在介绍本发明实施例提供的模型生成方法以及语音合成方法之前，先介绍一下相关技术中基于波形拼接的语音合成过程。请参考图1A，其示出了一种基于波形拼接的语音合成方法的原理示意图。

用户向服务器输入一个文本信息，服务器对输入的文本信息进行拆分，得到一组文本基元序列(w₁，w₂，…，w_n)，经过一系列的步骤，最终服务器将该组文本基元序列转化为一组目标语音片段序列(v₁，v₂，…，v_n)进行语音合成，得到与输入的文本信息对应的语音信息。以两个前后相邻的文本基元即文本基元w₁、文本基元w₂为例进行具体说明，服务器根据预设声学模型，将文本基元w₁和文本基元w₂进行前端处理，分别得到与文本基元w₁对应的预测声学特征1，与文本基元w₂对应的预测声学特征2。对于文本基元w₁对应的预测声学特征1，从语料库中选择出三个第一候选语音片段，三个第一候选语音片段包括候选语音片段a1、候选语音片段a2、候选语音片段a3；对于文本基元w₂对应的预测声学特征2，从语料库中选择出两个第二候选语音片段，两个第二候选语音片段包括候选语音片段b1、候选语音片段b2。

当将三个第一候选语音片段和两个第二候选语音片段进行拼接时，一共存在6组候选拼接方案，如表一所示。第一组候选拼接方案为候选语音片段a1 与候选语音片段b1拼接，第二组候选拼接方案为候选语音片段a2与候选语音片段b1拼接，第三组候选拼接方案为候选语音片段a3与候选语音片段b1拼接，第四组候选拼接方案为候选语音片段a1与候选语音片段b2拼接，第五组候选拼接方案为候选语音片段a2与候选语音片段b2拼接，第六组候选拼接方案为候选语音片段a3与候选语音片段b2拼接。其中，对于第一组候选拼接方案，服务器根据目标代价模型计算文本基元w₁与对应的候选语音片段a1之间的第一目标代价TC11，文本基元w₂与对应的候选语音片段b1之间的第二目标代价TC50，根据拼接代价模型计算候选语音片段a1与候选语音片段b1之间的拼接代价CC11，计算得到与第一组候选拼接方案对应的总代价RC1，总代价RC1包括第一目标代价TC11、第二目标代价TC50和第一拼接代价CC11；依次类推，分别计算得到与第二组候选拼接方案对应的总代价RC2，与第三组候选拼接方案对应的总代价RC3，与第四组候选拼接方案对应的总代价RC4，与第五组候选拼接方案对应的总代价RC5，与第六组候选拼接方案对应的总代价RC6。服务器将这六组候选拼接方案对应的总代价进行比较，比较结果为第二组候选拼接方案所对应的总代价RC2最小，即确定出候选语音片段a1与候选语音片段b2属于目标语音片段，进行最终的语音拼接，并得到最终的合成语音。

表一

在本发明实施例中，以上述的第四组候选拼接方案即候选语音片段a1与候选语音片段b2为例，拼接代价模型可以采用如下公式定义：

w_n＝[w_n＝1 w_n＝2 … w_n＝N]^T

CC为拼接代价，该CC用于表征候选语音片段a1和候选语音片段b2的连续性，T为候选语音片段a1或候选语音片段b2的重叠帧的帧数，w_t为候选语音片段a1和候选语音片段b2的第t个重叠帧的声学特征对应的第二权值，N为候选语音片段a1或候选语音片段b2包含的声学特征的个数，w_n为候选语音片段a1和候选语音片段b2的第n个声学特征对应的第一权值，|Δf|为候选语音片段a1和候选语音片段b2的第n个声学特征的声学距离测度，F为候选语音片段a1和候选语音片段b2对应的拼接差异矩阵。可选的，|Δf|为候选语音片段a1的第n个声学特征与候选语音片段b2的第n个声学特征之间的声学距离测度。

结合参考图1B，当候选语音片段a1和候选语音片段b2拼接时，假设候选语音片段a1和候选语音片段b2只有1个重叠帧，候选语音片段a1在该重叠帧上具有N个声学特征(或者说N维声学特征)，候选语音片段b2在该重叠帧上对应存在N个声学特征(或者说N维声学特征)文本基元w₁文本基元w₂。由于用户发音时，对于不同的相邻候选语音片段，口型过渡和音调过渡是不同的，即不同的相邻候选语音片段所对应的第n个声学特征对应的第一权值w_n和第t个重叠帧(图1B中假设只有1个重叠帧)的声学特征对应的第二权值w_t也是不同的。根据候选语音片段a1或候选语音片段b2包含的声学特征的个数，将候选语音片段a1和候选语音片段b2的每个声学特征的声学距离测度与相对应的第一权值w_n相乘求和，再根据候选语音片段a1或候选语音片段b2的重叠帧的帧数，将与第i个重叠帧相对应的第一权值w_n相乘求和的结果再与相对应的第二权值w_t相乘求和得到拼接代价。

其中，通过奇异值矩阵分解，可以将拼接代价的计算公式进行如下变形：

根据上述的几个公式可知，服务器可以预先通过训练语音数据(相当于训练样本)计算得到拼接差异矩阵F，根据拼接差异矩阵F，计算得到第一权值w_n和第二权值w_t，即当第一权值w_n与第一分解矩阵U正交且第二权值w_t与第二分解矩阵V正交，即u＝0、v＝0时，拼接代价最小，将此时的第一权值w_n和第二权值w_t确定为目标拼接权值。为此，本发明提供如下实施例。

请参考图2，其示出了本发明一个实施例提供的语音合成方法的方法流程图。该语音合成方法可由具有语音处理能力的服务器或终端来执行，该语音合成方法包括：

步骤202，获取训练语音数据。

可选的，服务器获取待训练的训练语音数据，该训练语音数据包括多个训练语音片段。

步骤204，从训练语音数据中提取具有第一标注类型的训练语音片段。

可选的，服务器确定该训练语音数据所包括的至少两个训练语音片段，至少两个训练语音片段的标注类型包括第一标注类型和/或第二标注类型，从至少两个训练语音片段中提取x个具有第一标注类型的训练语音片段，x为正整数。

步骤206，根据具有第一标注类型的训练语音片段在拼接前所对应的相邻候选语音片段，计算得到平均差异矩阵。

可选的，在提取出x个具有第一标注类型的训练语音片段之后，对于每个具有第一标注类型的训练语音片段，服务器根据该训练语音片段在拼接前所对应的相邻候选语音片段，计算得到拼接差异矩阵。对于多组属于同一类拼接组合关系的拼接差异矩阵求均值，计算得到该类拼接组合关系所对应的平均差异矩阵。

步骤208，根据平均差异矩阵，生成具有目标拼接权值的拼接代价模型。

可选的，服务器根据计算得到的平均差异矩阵，通过预设公式计算得到拼接代价模型，该拼接代价模型具有目标拼接权值。

步骤210，通过具有目标拼接权值的拼接代价模型进行语音合成，得到合成的语音信息。

可选的，当服务器确定需要进行语音合成的文本信息时，服务器通过该拼接代价模型将确定的文本信息进行语音合成，得到合成的语音信息。

在实际的语音合成过程中，服务器将生成的拼接代价模型传输给终端，使得终端能够采用拼接代价模型进行应用。

可选的，终端从服务器中获取生成的拼接代价模型，当终端接收到需要进行语音合成的文本信息时，终端通过该拼接代价模型将输入的文本信息进行语音合成，得到合成的语音信息。

需要说明的是，步骤202至步骤208可以单独实现成为一种模型生成方法，该模型生成方法通常由服务器来完成，用于生成具有目标拼接权值的拼接代价模型；步骤210为一种语音合成方法，该语音合成方法通常由服务器或终端来完成，用于采用步骤202至步骤208所生成的拼接代价模型将输入的文本信息进行语音合成，得到合成的语音信息。下面，仅以服务器完成模型生成方法，且终端完成语音合成方法为例进行说明，

综上所述，本实施例通过根据具有第一标注类型的多个训练语音片段在拼接前所对应的相邻候选语音片段，计算得到平均差异矩阵，根据平均差异矩阵生成具有目标拼接权值的拼接代价模型；其中，每个平均差异矩阵用于表征属于同一类拼接组合关系的多组相邻候选语音片段在声学特征上的平均差异，由于拼接代价模型是根据平均差异矩阵计算得到的，因此使得生成的拼接代价模型具有精准的权值，减少了手工调整次数，避免了需要多次手工调整拼接代价模型中的权值，且最终得到的权值仍然不够准确的情况。

请参考图3，其示出了本发明另一个实施例提供的语音合成方法的方法流程图。该语音合成方法包括：

步骤301，服务器获取训练语音数据。

可选的，步骤301可以被替代实现为步骤301a、步骤301b、步骤301c和步骤301d，如图4A所示：

步骤301a，服务器对待训练的文本信息进行拆分，得到文本基元序列(w₁， w₂，…，w_n)，w_i为第i个文本基元，1≤i≤n。

可选的，服务器基于音素或音节对待训练的文本信息进行拆分，得到文本基元序列(w₁，w₂，…，w_n)，w_i为第i个文本基元，1≤i≤n。

步骤301b，服务器根据预设声学模型，得到与每个文本基元w_i对应的预测声学特征。

可选的，服务器将每个文本基元w_i对应的语言学模型输出预设的声学模型中，由该预设的声学模型输出与每个文本基元w_i对应的预测声学特征。

步骤301c，服务器对于每个文本基元w_i，从语料库中选择出目标代价最小的语音片段v_i。

可选的，服务器对于每个文本基元w_i，计算得到与每个文本基元w_i对应的候选语音片段的目标代价，从语料库中选择出目标代价最小的语音片段viw_t。

可选的，对于每个文本基元w_i，服务器通过如下公式计算对应的目标代价：

其中，TC_i为文本基元w_i对应的目标代价，w_n为预设的第一权值，|f_a,n-f_a',n|为文本基元w_i对应的预测声学特征a’中的第n个声学特征与候选语音片段a的第n个声学特征之间的声学距离测度。

可选的，若声学特征采用具体的声学参数取值来表示，则声学距离测度可以取欧几里德距离或差值绝对值。

示意性的，若存在10个文本基元w_i，则服务器从语料库中对应选择出10个具有最小目标代价的语音片段v_i。

步骤301d，服务器根据选择出的语音片段v_i所组成的训练语音片段序列(v₁，v₂，…，v_n)进行语音合成，得到与待训练的文本信息对应的训练语音数据。

步骤302，服务器从训练语音数据中提取具有第一标注类型的训练语音片段。

可选的，步骤302可以被替代实现为步骤302a和步骤302b，如图4B所示：

步骤302a，服务器获取训练语音数据中至少一个训练语音片段的标注类型，每个训练语音片段的标注类型为第一标注类型或第二标注类型，第一标注类型所对应的语音连续性优于第二标注类型所对应的语音连续性。

步骤302b，服务器提取具有第一标注类型的训练语音片段。

可选的，通过对训练语音数据进行人工测听，标注出第一标注类型或第二标注类型的训练语音片段。在服务器提取出具有第一标注类型的训练语音片段时，获取每个训练语音片段的标注类型。服务器从训练语音数据中提取具有第一标注类型的训练语音片段。

步骤303，服务器对于每个具有第一标注类型的训练语音片段，根据训练语音片段在拼接前所对应的相邻候选语音片段计算得到拼接差异矩阵。

可选的，训练语音片段为多个，比如几百个、几千个或者上万个。服务器对于每个具有第一标注类型的训练语音片段，根据该训练语音片段在拼接前所对应的相邻候选语音片段计算得到与该训练语音片段所对应的拼接差异矩阵。

服务器计算拼接差异矩阵的步骤包括：

1)对于每个具有第一标注类型的训练语音片段，服务器获取训练语音片段在拼接前所对应的候选语音片段a和候选语音片段b。

2)服务器获取候选语音片段a的每个重叠帧对应的第一组声学特征和候选语音片段b的每个重叠帧对应的第二组声学特征。

可选的，候选语音片段a和候选语音片段b的重叠帧的帧数可以是一帧，也可以是多帧。示意性的，如图5所示，设当前时刻为t0，候选语音片段a的最后一帧所在时刻为t0，候选语音片段b的第一帧所在时刻为t0，当拼接窗口长度T＝1帧时，候选语音片段a的最后一帧与候选语音片段b的第一帧重叠，即“a(t0)+b(t0)”；也即，在拼接过程中，候选语音片段a和候选语音片段b存在一个重叠帧。

示意性的，如图6所示，设当前时刻为t0，候选语音片段a的最后一帧所在时刻为t0，候选语音片段b的第一帧所在时刻为t0，当拼接窗口长度T取任意值时，候选语音片段a的第t0帧至第t0+T-1帧分别与候选语音片段b的第t0-T+1帧至第t0帧重叠，即“a(t0：t0+T-1)+b(t0-T+1：t0)”，本发明实施例对重叠帧的帧数T不加以限定，示意性的，该重叠帧的帧数T为20帧。

可选的，候选语音片段a的每个重叠帧上对应第一组声学特征，该第一组声学特征包含n个声学特征(或者说n维声学特征)，候选语音片段b的每个重叠帧上对应第二组声学特征，该第二组声学特征包含n个声学特征(或者说n维声学特征)。该声学特征是基频、频谱特征、基频的一阶变化率以及高阶变化率、频谱的一阶变化率以及高阶变化率、信号的能量、信号的过零率中的至少一种。

3)服务器根据第一组声学特征和第二组声学特征，按照如下公式计算得到拼接差异矩阵F。

其中，F为候选语音片段a和候选语音片段b对应的拼接差异矩阵，拼接差异矩阵中的第n行第t列表示候选语音片段a中的第t个重叠帧的第n个声学特征与候选语音片段b中的第t-T+1个重叠帧的第n个声学特征的声学距离测度，f_a,t是与候选语音片段a的第t个重叠帧对应的第n个声学特征，f_b,t-T+1是与候选语音片段b的第t-T+1个重叠帧对应的第n个声学特征。

步骤304，服务器根据相邻候选语音片段的拼接组合关系对拼接差异矩阵进行分类，得到与每一种拼接组合关系所对应的拼接差异矩阵集合。

其中，拼接差异矩阵集合包括属于同一种拼接组合关系的m个拼接差异矩阵，m为正整数。

可选的，每个测量语音片段所对应的相邻候选语音片段能够计算出一个拼接差异矩阵，若测量语音片段为一万个，则可以计算出一万个拼接差异矩阵。

候选语音片段具有不同的音素或音节类型，若一个训练语音片段是由a类型的语音片段在前且b类型的语音片段所拼接得到的，则该训练语音片段所对应的拼接组合关系是：a类型的语音片段在前且b类型的语音片段在后。

示意性的，若候选语音片段采用音素为单位进行划分，比如候选语音片段a是拼音“y”所对应的语音片段，候选语音片段b是拼音“i”所对应的语音片段，则拼音“y”和拼音“i”所形成的组合关系就是一种拼接组合关系。对于拼音“y”和拼音“i”所形成的拼接组合关系，可能存在几百个拼接差异矩阵，则这几百个拼接差异矩阵都归类至与拼接组合关系“y+i”所对应的拼接差异矩阵集合。

步骤305，服务器对每个拼接差异矩阵集合中的拼接差异矩阵计算均值，得到与每一种拼接组合关系所对应的平均差异矩阵。

示意性的，当拼接差异矩阵集合为F_ab，i时，对F_ab，i中的所有拼接差异矩阵计算均值，得到与选语音片段a和候选语音片段b的拼接组合关系所对应的平均差异矩阵F_ab。

步骤306，服务器对于每个平均差异矩阵F_ab，对平均差异矩阵F_ab进行奇异值分解，得到第一分解矩阵U和第二分解矩阵V。

服务器对于每个平均差异矩阵F_ab，对平均差异矩阵F_ab进行奇异值分解F_ab＝U∑V，得到第一分解矩阵U和第二分解矩阵V。

其中，ab代表由a类型的语音片段在前且b类型的语音片段在后的拼接组合关系；示意性的，该类型是指音素类型。

步骤307，服务器将第一分解矩阵U的正交矩阵生成为第一权值w_n，将第二分解矩阵V的正交矩阵生成为第二权值w_t。

可选的，服务器通过如下公式定义拼接代价：

根据上述公式可知，当第一权值w_n与第一分解矩阵U正交且第二权值w_t与第二分解矩阵V正交，即u＝0、v＝0时，拼接代价最小，将此时的第一权值w_n和第二权值w_t确定为目标拼接权值。

步骤308，服务器生成具有第一权值w_n和第二权值w_t的拼接代价模型。

服务器生成拼接代价模型如下：

其中，CC为拼接代价，拼接代价用于表征相邻候选语音片段之间的连续性，T为相邻候选语音片段的重叠帧的帧数，w_t为相邻候选语音片段的第t个重叠帧的声学特征对应的第二权值，N为每个候选语音片段包含的声学特征的个数，w_n为相邻候选语音片段的第n个声学特征对应的第一权值，|Δf|为相邻候选语音片段的第n个声学特征的声学距离测度。

步骤309，终端通过具有目标拼接权值的拼接代价模型进行语音合成，得到合成的语音信息。

综上所述，本实施例还通过对每个拼接差异矩阵集合中的拼接差异矩阵计算均值，得到与每一种拼接组合关系所对应的平均差异矩阵，通过对每个平均差异矩阵进行奇异值分解确定第一权值和第二权值，从而使得计算出的权值更加精确。

在一种可能的实施例中，上述实施例中，由服务器得到的拼接代价模型可以传输给终端在实际的语音合成过程中进行应用。此时，步骤309可以被替代实现为步骤309a、步骤309b、步骤309c、步骤309d和步骤309e，如图7所示：

步骤309a，终端对输入的文本信息进行拆分，得到文本基元序列(w₁，w₂，…，w_n)，w_i为第i个文本基元，1≤i≤n。

可选的，输入的文本信息是由用户输入的文本信息，比如，新闻文本或者小说文本。终端对输入的文本信息进行拆分，得到文本基元序列(w₁，w₂，…，w_n)，w_i为第i个文本基元，1≤i≤n。

步骤309b，终端根据预设声学模型，得到与每个文本基元w_i对应的预测声学特征。

步骤309c，终端对于每个文本基元w_i，从语料库中选择出k个候选语音片段，k为正整数。

步骤309d，终端根据目标代价模型计算每个文本基元w_i与对应的候选语音片段之间的目标代价；根据拼接代价模型计算相邻候选语音片段之间的拼接代价。

可选的，终端根据目标代价模型，通过如下公式计算每个文本基元w_i与对应的候选语音片段之间的目标代价：

其中，TC为输入的文本基元a对应的目标代价，w_n为采用模型生成方法生成的拼接代价模型中的候选语音片段第n个声学特征对应的第一权值，|f_a,n-f_a',n|为候选语音片段a和预测声学特征a’的第n个声学特征的声学距离测度。

可选的，终端根据拼接代价模型，通过如下公式计算相邻候选语音片段之间的拼接代价：

其中，CC_T为相邻的候选语音片段a和候选语音片段b对应的拼接代价，w_t为候选语音片段a或候选语音片段b的第t个重叠帧的声学特征对应的第二权值，w_n为候选语音片段a或候选语音片段b的第n个声学特征对应的第一权值，|f_a,t-f_b,t-T+1|为候选语音片段a的第t个重叠帧和候选语音片段b的第t-T+1个重叠帧的第n个声学特征的声学距离测度。

步骤309e，终端选择出目标代价和拼接代价所对应的总代价最小的一组目标语音片段序列(v₁，v₂，…，v_n)进行语音合成，得到与输入的文本信息对应的语音信息。

可选的，终端从所有候选拼接方式中，选择出目标代价和拼接代价所对应的总代价最小的一组目标语音片段序列(v₁，v₂，…，v_n)进行语音合成，得到与输入的文本信息对应的语音信息。

可选的，所有候选拼接方式所对应的目标代价和拼接代价，能够形成一个矩阵，通过动态规划算法，能够求出该矩阵中从左到右的取值最小的一条路径，则该条路径所对应的各个语音片段，构成总代价最小的一组目标语音片段序列。

综上所述，本实施例还通过终端根据目标代价模型计算每个文本基元w_i与对应的候选语音片段之间的目标代价，根据拼接代价模型计算相邻候选语音片段之间的拼接代价，选择出目标代价和拼接代价所对应的总代价最小的一组目标语音片段序列(v₁，v₂，…，v_n)进行语音合成，得到与输入的文本信息对应的语音信息；在考虑目标代价因素的同时考虑拼接代价的影响，由于拼接代价用于表征相邻候选语音片段在拼接后的连续性，从而使得合成的语音信息具有较好的连续性效果。

结合参考图8，在一个示意性的例子中，语音合成方法应用于终端的应用程序如“企鹅FM”上，当用户在具有语音合成功能的应用程序中输入一段新闻文本或者小说文本，应用程序将合成与输入的新闻文本或者小说文本相对应的语音信息。

下面为本发明中的装置实施例，对于装置实施例中未详尽描述的细节，可以结合参考上述一一对应的方法实施例。

请参考图9，其示出了本发明一个实施例提供的模块生成装置的结构示意图。

该装置可以通过软件、硬件或者两者的结合，实现成为服务器的全部或一部分。该模块生成装置包括：获取模块910、提取模块920、第一计算模块930和生成模块940。

获取模块910，用于获取训练语音数据，训练语音数据是将目标代价最小的语音片段进行拼接所得到的语音数据。

提取模块920，用于从训练语音数据中提取具有第一标注类型的训练语音片段，第一标注类型用于标注训练语音片段的语音连续性优于预设条件。

第一计算模块930，用于根据具有第一标注类型的训练语音片段在拼接前所对应的相邻候选语音片段，计算得到平均差异矩阵；平均差异矩阵与一类拼接组合关系对应，平均差异矩阵用于表征属于同一类拼接组合关系的多组相邻候选语音片段在声学特征上的平均差异。

生成模块940，用于根据平均差异矩阵，生成具有目标拼接权值的拼接代价模型，拼接代价模型与一类拼接组合关系对应。

基于图9提供的实施例，在一种可能的实现方式中，请参考图10，其示出了本发明另一个实施例提供的模块生成装置的结构示意图。

生成模块940，包括：分解单元941、第一生成单元942和第二生成单元943。

分解单元941，用于对于每个平均差异矩阵F_ab，对平均差异矩阵F_ab进行奇异值分解F_ab＝U∑V，得到第一分解矩阵U和第二分解矩阵V。

第一生成单元942，用于将第一分解矩阵U的正交矩阵生成为第一权值w_n，将第二分解矩阵V的正交矩阵生成为第二权值w_t。

第二生成单元943，用于生成具有第一权值w_n和第二权值w_t的拼接代价模型。

其中，ab代表由a类型的语音片段在前且b类型的语音片段在后的拼接组合关系。

第二生成单元943，具体用于生成所述拼接代价模型如下：

其中，CC为拼接代价，所述拼接代价用于表征相邻候选语音片段之间的连续性，T为相邻候选语音片段的重叠帧的帧数，w_t为相邻候选语音片段的第t个所述重叠帧的所述声学特征对应的第二权值，N为每个所述候选语音片段包含的所述声学特征的个数，w_n为相邻候选语音片段的第n个所述声学特征对应的第一权值，|Δf|为相邻候选语音片段的第n个所述声学特征的声学距离测度。

第一计算模块930，包括：第一计算单元931、分类单元932和第二计算单元933。

第一计算单元931，用于对于每个具有第一标注类型的训练语音片段，根据训练语音片段在拼接前所对应的相邻候选语音片段计算得到拼接差异矩阵。

分类单元932，用于根据相邻候选语音片段的拼接组合关系对拼接差异矩阵进行分类，得到与每一种拼接组合关系所对应的拼接差异矩阵集合，拼接差异矩阵集合包括属于同一种拼接组合关系的若干个拼接差异矩阵。

第二计算单元933，用于对每个拼接差异矩阵集合中的拼接差异矩阵计算均值，得到与每一种拼接组合关系所对应的平均差异矩阵。

第一计算单元931，包括：

第一获取子单元931a、第二获取子单元931b和计算子单元931c。

第一获取子单元931a，用于对于每个具有第一标注类型的训练语音片段，获取训练语音片段在拼接前所对应的候选语音片段a和候选语音片段b。

第二获取子单元931b，用于获取候选语音片段a的重叠帧对应的第一组声学特征和候选语音片段b的重叠帧对应的第二组声学特征，第一组声学特征包含n个声学特征，第二组声学特征包含n个声学特征。

计算子单元931c，用于根据第一组声学特征和第二组声学特征，按照如下公式计算得到拼接差异矩阵F。

提取模块920，包括：获取单元921和提取单元922。

获取单元921，用于获取训练语音数据中至少一个训练语音片段的标注类型，每个训练语音片段的标注类型为第一标注类型或第二标注类型，第一标注类型所对应的语音连续性优于第二标注类型所对应的语音连续性。

提取单元922，用于提取出具有第一标注类型的训练语音片段。

获取模块910，包括：

拆分单元911、得到单元912、选择单元913和合成单元914。

拆分单元911，用于对待训练的文本信息进行拆分，得到文本基元序列(w₁，w₂，…，w_n)，w_i为第i个文本基元，1≤i≤n。

得到单元912，用于根据预设声学模型，得到与每个文本基元w_i对应的预测声学特征。

选择单元913，用于对于每个文本基元w_i，从语料库中选择出目标代价最小的语音片段vi，目标代价用于表征文本基元w_i对应的预测声学特征与语料库中的候选语音片段的声学特征之间的相似性。

合成单元914，用于根据选择出的语音片段vi所组成的训练语音片段序列(v₁，v₂，…，v_n)进行语音合成，得到与待训练的文本信息对应的训练语音数据。

请参考图11，其示出了本发明一个实施例提供的语音合成装置的结构示意图。该语音合成装置采用如图9或图10所示实施例中提供的拼接代价模型，该语音合成装置包括：拆分模块1100、得到模块1110、选择模块1120、第二计算模块1130和合成模块1140。

拆分模块1100，用于对输入的文本信息进行拆分，得到文本基元序列(w₁，w₂，…，w_n)，w_i为第i个文本基元，1≤i≤n。

得到模块1110，用于根据预设声学模型，得到与每个文本基元w_i对应的预测声学特征。

选择模块1120，用于对于每个文本基元w_i，从语料库中选择出若干个候选语音片段。

第二计算模块1130，用于根据目标代价模型计算每个文本基元w_i与对应的候选语音片段之间的目标代价。根据拼接代价模型计算相邻的候选语音片段之间的拼接代价。

合成模块1140，用于选择出目标代价和拼接代价所对应的总代价最小的一组目标语音片段序列(v₁，v₂，…，v_n)进行语音合成，得到与输入的文本信息对应的语音信息。

请参考图12，其示出了本发明一个实施例提供的终端的框图。具体来讲：终端1200可以包括RF(Radio Frequency，射频)电路1210、包括有一个或一个以上计算机可读存储介质的存储器1220、输入单元1230、显示单元1240、传感器1250、音频电路1260、W_iFi(w_ireless fidelity，无线保真)模块1270、包括有一个或者一个以上处理核心的处理器1280、以及电源1290等部件。本领域技术人员可以理解，图12中示出的设备结构并不构成对设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路1210可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器1280处理；另外，将涉及上行的数据发送给基站。通常，RF电路1210包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路1210还可以通过无线通信与网络和其他设备通信。无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(Code Division Multiple Access，码分多址)、WCDMA(W_ideband Code Division Multiple Access，宽带码分多址)、LTE(Long Term Evolution，长期演进)、电子邮件、SMS(Short Messaging Service，短消息服务)等。存储器1220可用于存储软件程序以及模块。处理器1280通过运行存储在存储器1220的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器1220可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端1200的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1220可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器1220还可以包括存储器控制器，以提供处理器1280和输入单元1230对存储器1220的访问。

输入单元1230可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元1230可包括触敏表面1231以及其他输入设备1232。触敏表面1231，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面1231上或在触敏表面1231附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面1231可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1280，并能接收处理器1280发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面1231。除了触敏表面1231，输入单元1230还可以包括其他输入设备1232。具体地，其他输入设备1232可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1240可用于显示由用户输入的信息或提供给用户的信息以及设备120的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元1240可包括显示面板1241，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode，有机发光二极管)等形式来配置显示面板1241。进一步的，触敏表面1231可覆盖在显示面板1241之上，当触敏表面1231检测到在其上或附近的触摸操作后，传送给处理器1280以确定触摸事件的类型，随后处理器1280根据触摸事件的类型在显示面板1241上提供相应的视觉输出。虽然在图12中，触敏表面1231与显示面板1241是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面1231与显示面板1241集成而实现输入和输出功能。

终端1200还可包括至少一种传感器1250，比如光传感器、运动传感器以及其它传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1241的亮度，接近传感器可在终端1200移动到耳边时，关闭显示面板1241和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击) 等；至于终端1200还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其它传感器，在此不再赘述。

音频电路1260、扬声器1221，传声器1222可提供用户与终端1200之间的音频接口。音频电路1260可将接收到的音频数据转换后的电信号，传输到扬声器1221，由扬声器1221转换为声音信号输出；另一方面，传声器1222将收集的声音信号转换为电信号，由音频电路1260接收后转换为音频数据，再将音频数据输出处理器1280处理后，经RF电路1210以发送给另一设备，或者将音频数据输出至存储器1220以便进一步处理。音频电路1260还可能包括耳塞插孔，以提供外设耳机与终端1200的通信。

W_iFi属于短距离无线传输技术，终端1200通过W_iFi模块1270可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图12示出了W_iFi模块1270，但是可以理解的是，其并不属于终端1200的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1280是终端1200的控制中心，利用各种接口和线路连接整个设备的各个部分，通过运行或执行存储在存储器1220内的软件程序和/或模块，以及调用存储在存储器1220内的数据，执行终端1200的各种功能和处理数据，从而对设备进行整体监控。可选的，处理器1280可包括一个或多个处理核心；可选的，处理器1280可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1280中。

终端1200还包括给各个部件供电的电源1290(比如电池)，优选的，电源可以通过电源管理系统与处理器1280逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1290还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端1200还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，存储器1202中存储有至少一条指令、至少一段程序、代码集或指令集。该至少一条指令、至少一段程序、代码集或指令集由处理器1280加载并执行以实现如上述各个方法实施例中所述的语音合成方法。

请参考图13，其示出了本发明一个实施例提供的服务器的框图。具体来讲：所述服务器1300包括中央处理单元(CPU)1301、包括随机存取存储器(RAM)1302和只读存储器(ROM)1303的系统存储器1304，以及连接系统存储器1304和中央处理单元1301的系统总线1305。所述服务器1300还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1306，和用于存储操作系统1313、应用程序1314和其他程序模块1315的大容量存储设备1307。

所述基本输入/输出系统1306包括有用于显示信息的显示器1308和用于用户输入信息的诸如鼠标、键盘之类的输入设备1309。其中所述显示器1308和输入设备1309都通过连接到系统总线1305的输入输出控制器1310连接到中央处理单元1301。所述基本输入/输出系统1306还可以包括输入输出控制器1310以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1310还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1307通过连接到系统总线1305的大容量存储控制器(未示出)连接到中央处理单元1301。所述大容量存储设备1307及其相关联的计算机可读介质为服务器1300提供非易失性存储。也就是说，所述大容量存储设备1307可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1304和大容量存储设备1307可以统称为存储器。

根据本发明的各种实施例，所述服务器1300还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1300可以通过连接在所述系统总线1305上的网络接口单元1311连接到网络1312，或者说，也可以使用网络接口单元1311来连接到其他类型的网络或远程计算机系统(未示出)。具体在本实施例中，存储器中存储有至少一条指令、至少一段程序、代码集或指令集。该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上述各个方法实施例中所述的模型生成方法和/或语音合成方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的模型生成方法和语音合成方法中全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。或者说，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上述各个方法实施例中所述的模型生成方法和/或语音合成方法。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种模型生成方法，其特征在于，所述方法包括：

获取训练语音数据，所述训练语音数据是将目标代价最小的语音片段进行拼接所得到的语音数据；

从所述训练语音数据中提取具有第一标注类型的训练语音片段，所述第一标注类型用于标注所述训练语音片段的语音连续性优于预设条件；

根据具有所述第一标注类型的训练语音片段在拼接前所对应的相邻候选语音片段，计算得到平均差异矩阵；所述平均差异矩阵与一类拼接组合关系对应，所述平均差异矩阵用于表征属于同一类所述拼接组合关系的多组所述相邻候选语音片段在声学特征上的平均差异；

根据所述平均差异矩阵，生成具有目标拼接权值的拼接代价模型，所述拼接代价模型与一类所述拼接组合关系对应。
根据权利要求1所述的方法，其特征在于，所述根据所述平均差异矩阵，生成具有目标拼接权值的拼接代价模型，包括：

对于每个所述平均差异矩阵F_ab，对所述平均差异矩阵F_ab进行奇异值分解F_ab＝U∑V，得到第一分解矩阵U和第二分解矩阵V；

将所述第一分解矩阵U的正交矩阵生成为第一权值w_n，将所述第二分解矩阵V的正交矩阵生成为第二权值w_t；

生成具有所述第一权值w_n和所述第二权值w_t的所述拼接代价模型；

其中，ab代表由a类型的语音片段在前且b类型的语音片段在后的拼接组合关系。
根据权利要求2所述的方法，其特征在于，所述生成具有所述第一权值w_n和所述第二权值w_t的所述拼接代价模型，包括：

生成所述拼接代价模型如下：

其中，CC为拼接代价，所述拼接代价用于表征所述相邻候选语音片段之间的连续性，T为所述相邻候选语音片段的重叠帧的帧数，w_t为所述相邻候选语音片段的第t个所述重叠帧的所述声学特征对应的所述第二权值，N为每个所述候选语音片段包含的所述声学特征的个数，w_n为所述相邻候选语音片段的第n个所述声学特征对应的所述第一权值，|Δf|为所述相邻候选语音片段的第n个所述声学特征的声学距离测度。
根据权利要求1至3任一所述的方法，其特征在于，所述根据具有所述第一标注类型的训练语音片段在拼接前所对应的相邻候选语音片段，计算得到平均差异矩阵，包括：

对于每个具有所述第一标注类型的所述训练语音片段，根据所述训练语音片段在拼接前所对应的所述相邻候选语音片段计算得到拼接差异矩阵；

根据所述相邻候选语音片段的拼接组合关系对所述拼接差异矩阵进行分类，得到与每一种拼接组合关系所对应的拼接差异矩阵集合，所述拼接差异矩阵集合包括属于同一种拼接组合关系的m个所述拼接差异矩阵，所述m为正整数；

对每个所述拼接差异矩阵集合中的所述拼接差异矩阵计算均值，得到与每一种所述拼接组合关系所对应的所述平均差异矩阵。
根据权利要求4所述的方法，其特征在于，所述对于每个具有所述第一标注类型的训练语音片段，根据所述训练语音片段在拼接前所对应的所述相邻候选语音片段计算得到拼接差异矩阵，包括：

对于每个具有所述第一标注类型的训练语音片段，获取所述训练语音片段在拼接前所对应的候选语音片段a和候选语音片段b；

获取所述候选语音片段a的重叠帧对应的第一组声学特征和所述候选语音片段b的重叠帧对应的第二组声学特征，所述第一组声学特征包含n个所述声学特征，所述第二组声学特征包含n个所述声学特征；

根据所述第一组声学特征和所述第二组声学特征，按照如下公式计算得到所述拼接差异矩阵F；

其中，F为所述候选语音片段a和所述候选语音片段b对应的所述拼接差异矩阵，所述拼接差异矩阵中的第n行第t列表示所述候选语音片段a中的第t个所述重叠帧的第n个所述声学特征与所述候选语音片段b中的第t-T+1个所述重叠帧的第n个所述声学特征的声学距离测度，f_a,t是与所述候选语音片段a的第t个所述重叠帧对应的第n个所述声学特征，f_b,t-T+1是与所述候选语音片段b的第t-T+1个所述重叠帧对应的第n个所述声学特征。
根据权利要求1至3任一所述的方法，其特征在于，所述从所述训练语音数据中提取具有第一标注类型的训练语音片段，包括：

获取所述训练语音数据中至少一个训练语音片段的标注类型，每个所述训练语音片段的标注类型为所述第一标注类型或第二标注类型，所述第一标注类型所对应的语音连续性优于所述第二标注类型所对应的语音连续性；

提取具有所述第一标注类型的所述训练语音片段。
根据权利要求1至3任一所述的方法，其特征在于，所述获取训练语音数据，包括：

对待训练的文本信息进行拆分，得到文本基元序列(w₁，w₂，…，w_n)，w_i为第i个文本基元，1≤i≤n；

根据预设声学模型，得到与每个所述文本基元w_i对应的预测声学特征；

对于每个所述文本基元w_i，从语料库中选择所述目标代价最小的语音片段v_i，所述目标代价用于表征所述文本基元w_i对应的预测声学特征与所述候选语音片段的声学特征之间的相似性；

根据选择出的所述语音片段v_i所组成的训练语音片段序列(v₁，v₂，…，v_n)进行语音合成，得到与待训练的所述文本信息对应的所述训练语音数据。
一种语音合成方法，其特征在于，采用如权利要求1至7任一所述的模型生成方法所生成的所述拼接代价模型，所述方法包括：

对输入的文本信息进行拆分，得到文本基元序列(w₁，w₂，…，w_n)，w_i为第i个文本基元，1≤i≤n；

根据预设声学模型，得到与每个所述文本基元w_i对应的预测声学特征；

对于每个所述文本基元w_i，从语料库中选择出k个候选语音片段，所述k为正整数；

根据目标代价模型计算每个所述文本基元w_i与对应的候选语音片段之间的目标代价；根据所述拼接代价模型计算相邻所述候选语音片段之间的拼接代价，所述目标代价用于表征所述文本基元w_i对应的所述预测声学特征与所述候选语音片段的声学特征之间的相似性，所述拼接代价用于表征所述相邻候选语音片段之间的连续性；

选择出所述目标代价和所述拼接代价所对应的总代价最小的一组目标语音片段序列(v₁，v₂，…，v_n)进行语音合成，得到与输入的所述文本信息对应的所述语音信息。
一种模型生成装置，其特征在于，所述装置包括：

获取模块，用于获取训练语音数据，所述训练语音数据是将目标代价最小的语音片段进行拼接所得到的语音数据；

提取模块，用于从所述训练语音数据中提取具有第一标注类型的训练语音片段，所述第一标注类型用于标注所述训练语音片段的语音连续性优于预设条件；

第一计算模块，用于根据具有所述第一标注类型的训练语音片段在拼接前所对应的相邻候选语音片段，计算得到平均差异矩阵；所述平均差异矩阵与一类拼接组合关系对应，所述平均差异矩阵用于表征属于同一类所述拼接组合关系的多组所述相邻候选语音片段在声学特征上的平均差异；

生成模块，用于根据所述平均差异矩阵，生成具有目标拼接权值的拼接代价模型，所述拼接代价模型与一类所述拼接组合关系对应。
根据权利要求9所述的装置，其特征在于，所述生成模块，包括：

分解单元、第一生成单元和第二生成单元；

所述分解单元，用于对于每个所述平均差异矩阵F_ab，对所述平均差异矩阵F_ab进行奇异值分解F_ab＝U∑V，得到第一分解矩阵U和第二分解矩阵V；

所述第一生成单元，用于将所述第一分解矩阵U的正交矩阵生成为第一权值w_n，将所述第二分解矩阵V的正交矩阵生成为第二权值w_t；

所述第二生成单元，用于生成具有所述第一权值w_n和所述第二权值w_t的所述拼接代价模型；

其中，ab代表由a类型的语音片段在前且b类型的语音片段在后的拼接组合关系。
根据权利要求10所述的装置，其特征在于，所述第二生成单元，具体用于生成所述拼接代价模型如下：

其中，CC为拼接代价，所述拼接代价用于表征所述相邻候选语音片段之间的连续性，T为所述相邻候选语音片段的重叠帧的帧数，w_t为所述相邻候选语音片段的第t个所述重叠帧的所述声学特征对应的所述第二权值，N为每个所述候选语音片段包含的所述声学特征的个数，w_n为所述相邻候选语音片段的第n个所述声学特征对应的所述第一权值，|Δf|为所述相邻候选语音片段的第n个所述声学特征的声学距离测度。
根据权利要求9至11任一所述的装置，其特征在于，所述第一计算模块，包括：

第一计算单元、分类单元和第二计算单元；

所述第一计算单元，用于对于每个具有所述第一标注类型的所述训练语音片段，根据所述训练语音片段在拼接前所对应的所述相邻候选语音片段计算得到拼接差异矩阵；

所述分类单元，用于根据所述相邻候选语音片段的拼接组合关系对所述拼接差异矩阵进行分类，得到与每一种拼接组合关系所对应的拼接差异矩阵集合，所述拼接差异矩阵集合包括属于同一种拼接组合关系的m个所述拼接差异矩阵，所述m为正整数；

所述第二计算单元，用于对每个所述拼接差异矩阵集合中的所述拼接差异矩阵计算均值，得到与每一种所述拼接组合关系所对应的所述平均差异矩阵。
根据权利要求12所述的装置，其特征在于，所述第一计算单元，包括：

第一获取子单元、第二获取子单元和计算子单元；

所述第一获取子单元，用于对于每个具有所述第一标注类型的训练语音片段，获取所述训练语音片段在拼接前所对应的候选语音片段a和候选语音片段b；

所述第二获取子单元，用于获取所述候选语音片段a的重叠帧对应的第一组声学特征和所述候选语音片段b的重叠帧对应的第二组声学特征，所述第一组声学特征包含n个所述声学特征，所述第二组声学特征包含n个所述声学特征；

所述计算子单元，用于根据所述第一组声学特征和所述第二组声学特征，按照如下公式计算得到所述拼接差异矩阵F；

其中，F为所述候选语音片段a和所述候选语音片段b对应的所述拼接差异矩阵，所述拼接差异矩阵中的第n行第t列表示所述候选语音片段a中的第t个所述重叠帧的第n个所述声学特征与所述候选语音片段b中的第t-T+1个所述重叠帧的第n个所述声学特征的声学距离测度，f_a,t是与所述候选语音片段a的第t个所述重叠帧对应的第n个所述声学特征，f_b,t-T+1是与所述候选语音片段b的第t-T+1个所述重叠帧对应的第n个所述声学特征。
根据权利要求9至11任一所述的装置，其特征在于，所述提取模块，包括：

获取单元和提取单元；

所述获取单元，用于获取所述训练语音数据中至少一个训练语音片段的标注类型，每个所述训练语音片段的标注类型为所述第一标注类型或第二标注类型，所述第一标注类型所对应的语音连续性优于所述第二标注类型所对应的语音连续性；

所述提取单元，用于提取具有所述第一标注类型的所述训练语音片段。
根据权利要求9至11任一所述的装置，其特征在于，所述获取模块，包括：

拆分单元、得到单元、选择单元和合成单元；

所述拆分单元，用于对待训练的文本信息进行拆分，得到文本基元序列(w₁，w₂，…，w_n)，w_i为第i个文本基元，1≤i≤n；

所述得到单元，用于根据预设声学模型，得到与每个所述文本基元w_i对应的预测声学特征；

所述选择单元，用于对于每个所述文本基元w_i，从语料库中选择所述目标代价最小的语音片段vi，所述目标代价用于表征所述文本基元w_i对应的预测声学特征与所述候选语音片段的声学特征之间的相似性；

所述合成单元，用于根据选择出的所述语音片段vi所组成的训练语音片段序列(v₁，v₂，…，v_n)进行语音合成，得到与待训练的所述文本信息对应的所述训练语音数据。
一种语音合成装置，其特征在于，采用如权利要求9至15任一所述的模型生成装置所生成的所述拼接代价模型，所述装置包括：

拆分模块，用于对输入的文本信息进行拆分，得到文本基元序列(w₁，w₂，…，w_n)，w_i为第i个文本基元，1≤i≤n；

得到模块，用于根据预设声学模型，得到与每个所述文本基元w_i对应的预测声学特征；

选择模块，用于对于每个所述文本基元w_i，从语料库中选择出k个候选语音片段，所述k为正整数；

第二计算模块，用于根据目标代价模型计算每个所述文本基元w_i与对应的候选语音片段之间的目标代价；根据所述拼接代价模型计算相邻的所述候选语音片段之间的拼接代价，所述目标代价用于表征所述文本基元w_i对应的所述预测声学特征与所述候选语音片段的声学特征之间的相似性，所述拼接代价用于表征相邻所述候选语音片段之间的连续性；

合成模块，用于选择出所述目标代价和所述拼接代价所对应的总代价最小的一组目标语音片段序列(v₁，v₂，…，v_n)进行语音合成，得到与输入的所述文本信息对应的所述语音信息。
一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一所述的模型生成方法。
一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求8所述的语音合成方法。
一种终端，其特征在于，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求8所述的语音合成方法。
一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一所述的模型生成方法。
一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求8所述的语音合成方法。