WO2021169825A1

WO2021169825A1 - 语音合成方法、装置、设备和存储介质

Info

Publication number: WO2021169825A1
Application number: PCT/CN2021/076683
Authority: WO
Inventors: 黄智颖; 雷鸣
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2020-02-25
Filing date: 2021-02-18
Publication date: 2021-09-02
Also published as: CN113314096A

Abstract

一种语音合成方法、装置、电子设备和存储介质，该方法包括：响应于用户触发的交互行为，获取与该交互行为对应的文本内容和目标用户的标识信息（101）；确定文本内容对应的语言学特征（102）；将语言学特征和目标用户的标识信息输入到语音合成模型中，以通过语音合成模型获得目标用户与文本内容对应的声学特征（103）；根据该声学特征生成目标用户与该文本内容对应的语音信号并输出（104）。该方法可以实现以特定某人的声音与某用户进行个性化的语音交互的目的。

Description

语音合成方法、装置、设备和存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种语音合成方法、装置、设备和存储介质。

背景技术

随着人工智能技术的发展，各种支持语音交互的应用程序层出不穷，比如各种问答机器人、智能音箱，等等。

以问答机器人为例，响应于用户的问题语音，问答机器人可以向用户输出应答语音。目前，问答机器人输出的各种应答语音往往都是具有统一的声学特征的，互动性较差。

发明内容

本发明实施例提供一种语音合成方法、装置、设备和存储介质，可以实现个性化的语音交互目的。

第一方面，本发明实施例提供一种语音合成方法，该方法包括：

响应于用户触发的交互行为，获取与所述交互行为对应的文本内容和目标用户的标识信息；

确定所述文本内容对应的语言学特征；

将所述语言学特征和所述目标用户的标识信息输入到语音合成模型中，以通过所述语音合成模型获得所述目标用户与所述文本内容对应的声学特征；

根据所述声学特征，生成与所述文本内容对应的语音信号，以输出所述语音信号。

第二方面，本发明实施例提供一种语音合成装置，该装置包括：

第一获取模块，用于响应于用户触发的交互行为，获取与所述交互行为对应的文本内容和目标用户的标识信息；

确定模块，用于确定所述文本内容对应的语言学特征；

第二获取模块，用于将所述语言学特征和所述目标用户的标识信息输入到语音合成模型中，以通过所述语音合成模型获得所述目标用户与所述文本内容对应的声学特征；

生成模块，用于根据所述声学特征，生成与所述文本内容对应的语音信号，以输出所述语音信号。

第三方面，本发明实施例提供一种电子设备，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器至少可以实现如第一方面所述的语音合成方法。

本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如第一方面所述的语音合成方法。

在本发明实施例中，当希望以目标用户(如用户B)的声音向某用户(如用户A)输出对应于某文本内容的语音信号时，先确定该文本内容对应的语言学特征，进而，将该语言学特征和目标用户的标识信息输入到语音合成模型中，以通过语音合成模型获得目标用户与该文本内容对应的声学特征。其中，该语音合成模型已经学习到了目标用户的声学特征。最终，语音合成模型输出的根据声学特征，通过声码器(vocoder)生成与文本内容对应的语音信号。通过该方案，可以实现以特定某人的声音与某用户进行个性化的语音交互的目的。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种语音合成方法的流程图；

图2为本发明实施例提供的一种使用语音合成模型进行语音合成过程的示意图；

图3为本发明实施例提供的一种语音合成方法的使用场景的示意图；

图4为本发明实施例提供的一种语音合成模型的第一训练阶段的流程示意图；

图5为本发明实施例提供的一种语音合成模型的第一训练阶段的训练原理示意图；

图6为本发明实施例提供的一种语音合成模型的第二训练阶段的流程示意图；

图7为本发明实施例提供的一种语音合成模型的第二训练阶段的训练原理示意图；

图8为本发明实施例提供的一种语音合成装置的结构示意图；

图9为与图8所示实施例提供的语音合成装置对应的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

本发明实施例提供的语音合成方法可以由一电子设备来执行，该电子设备可以是诸如PC机、笔记本电脑、智能手机、智能机器人等终端设备，也可以是服务器。该服务器可以是包含一独立主机的物理服务器，或者也可以为虚拟服务器，或者也可以为云端服务器或服务器集群。

本发明实施例提供的语音合成方法可以适用于任何需要向用户输出语音信号的场景中，比如用户使用智能机器人进行人机对话的场景中，再比如用户使用语音助手的语音交互场景中，等等。基于此，上述电子设备中可以具有支持语音交互功能的一种或多种应用程序，以供广大用户使用。

下面结合以下实施例对本文提供的语音合成方法的执行过程进行示例性说明。

图1为本发明实施例提供的一种语音合成方法的流程图，如图1所示，该方法包括如下步骤：

101、响应于用户触发的交互行为，获取与该交互行为对应的文本内容和目标用户的标识信息。

102、确定文本内容对应的语言学特征。

103、将语言学特征和目标用户的标识信息输入到语音合成模型中，以通过语音合成模型获得目标用户与文本内容对应的声学特征。

104、根据所述声学特征，生成与文本内容对应的语音信号，以输出该语音信号。

概括来说，本发明实施例提供的语音合成方法的目的是：将某文本内容以特定用户(即上述目标用户)的声音输出。

实际应用中，上述步骤101中所述的用户触发的交互行为，可以理解为用户在使用支持语音交互功能的APP或智能设备的过程中向该APP或智能设备输入语音指令等行为。

以人机对话场景为例，上述文本内容可以是诸如智能机器人等终端设备基于用户A触发的交互行为，确定出的需要向该用户A输出的文本内容。假设目标用户为用户B，则需要以用户B的声音向用户A输出该文本内容。比如，用户A说出“明天北京天气怎么样”的语音，假设基于对该语音进行语音识别和语义理解后确定出需要响应的文本内容为：明天北京天气晴朗，气温在-5℃至3℃，东北风1级。则最终会以用户B的声音输出该文本内容。

以支持语音交互功能的某应用程序为例来说，假设用户A为使用该应用程序的普通用户，可选地，用户A可以定制自己所需的目标用户，如用户B，从而实现针对用户A的个性化的语音交互目的。或者，可选地，该应用程序也可以默认配置某目标用户，如用户C，从而该应用程序能够实现以用户C的声音与使用该应用程序的所有用户进行语音交互的效果。

在实际应用中，该应用程序可以通过界面显示出目标用户列表，用户A可以从中选择自己所需的目标用户。其中，本发明实施例提供的语音合成模型已经学习到了该目标用户列表中的各个目标用户的声学特征，具体地，学习到了各目标用户的声学特征与任一文本内容的语言学特征之间的映射关系，具体地实现过程将在后续实施例中说明。

下面以用户A选择的目标用户为用户B为例进行说明，此时，目标用户的标识信息可以是用户B的姓名、编号等标识信息。

在确定出需要向用户A输出的文本内容后，首先，确定该文本内容对应的语言学特征。可选地，上述语音合成模型中可以包括前端模块，该前端模块用于标注该文本内容的语言学特征，该语言学特征的标注过程可以参考现有相关技术实现。实际应用中，可以标注的语言学特征包括但不限于：每个字的发音、声调，每个词语在文本内容中的位置、词性，文本内容的韵律、重音、节奏，等等。

进而，将文本内容对应的语言学特征和用户B的标识信息输入到语音合成模型中，以通过语音合成模型获得用户B与文本内容对应的声学特征。具体地，如图2所示，该语音合成模型中包括第一编码器和解码器，通过语音合成模型获得用户B与文本内容对应的声学特征，具体实现为：通过前端模块标注该文本内容的语言学特征，通过第一编码器对语言学特征进行编码，以得到与语言学特征对应的第一编码向量C1，确定与用户B的标识信息对应的第二编码向量C2,拼接所述第一编码向量 C1与第二编码向量C2以得到编码向量C3，最终通过解码器对拼接后的编码向量C3进行解码，以得到用户B与上述文本内容对应的声学特征。

声学特征可以是反映人的语速、音色等声学特点的特征，可选地，该声学特征可以是梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，简称MFCC)、线性预测倒谱系数(Linear Predictive Cepstral Coefficient,简称LPCC)、短时平均能量、振幅平均变化率，等等。

其中，可选地，第一编码器和解码器可以实现为诸如循环神经网络(Recurrent Neural Network，简称RNN)模型、长短时记忆网络(Long Short Term Memory，简称LSTM)模型等神经网络模型。

最终，在通过语音合成模型得到用户B与文本内容对应的声学特征后，进而可以通过某种声码器(vocoder)来根据该声学特征生成与用户B与该文本内容对应的语音信号，即得到以用户B的声学特征说出该文本内容的语音信号。从而，完成了以用户B的发音对用户A说出某文本内容的任务。

值得说明的是，以用户A在使用某APP的人机对话场景为例，假设用户A设置的目标用户为用户B，并且，假设该APP中已经预先存储有以用户B的声音输出各种文本内容的语音信号，而这些文本内容恰好是人机对话过程中，APP能够回复用户的文本内容(即可以认为是回复模板)。也就是说，在APP中可以预先存储有多个特定的用户分别说出多个文本内容的语音信号。基于此假设，当用户A说出某句咨询语句后，该APP在确定出需要应答的目标文本内容后，基于用户A对目标用户B的选择结果，该APP可以查询到用户B说出该目标文本内容的语音信号以输出。但是，当上述多个特定的用户中并没有满足当前的用户A的需求的目标用户时，此时，可以执行图1所示实施例提供的语音合成方案。

在上述本发明实施例提供的方案中，实现语音信号合成的目的核心在于，训练出一个能够学习不同用户在不同语言学特征下对应的声学特征的语音合成模型，且该语音合成模型训练成本低，准确率高。基于该语音合成模型，可以高效地完成以特定用户输出语音信号的语音合成任务。

为便于理解，下面结合图3来示例性说明上述语音合成方法在实际应用中的执行过程。

图3为本发明实施例提供的一种语音合成方法的使用场景的示意图，在图3中，假设某用户A的手机中安装有支持语音交互功能的某种应用程序(APP)，如常见的语音助手应用。假设该用户A预先已经对该APP进行了如下配置操作：模拟用户B与本人进行语音交互。假设已经通过收集用户B的语音信号样本使得上述语音合成模型学习到了用户B与各种语言学特征对应的声学特征。

基于此，假设用户A当前对该APP说出了“请问明天北京天气怎么样”的语音信号，假设该APP当前需要回复的内容为：天气晴朗，温度二十度。若用户A已经配置了想要APP模拟用户B来与其交互，则如图3中所示，APP会先将该回复内容输入到语音合成模型的前端模块中，以通过前端模块得到与该回复内容对应的语言学特征T。进而，将语言学特征T输入到语音合成模型中的第一编码器，以得到编码向量Ca，以及确定用户B的标识信息对应的编码向量Cb，拼接编码向量Ca和编码向量Cb得到编码向量Cc。将编码向量Cc输入到解码器中得到用户B与该回复内容对应的声学特征S，声学特征S输入到声码器，从而最终得到声码器输出的语音信号W。语音信号W的波形如图3中所示。

当然，实际应用中，本文提供的语音合成方案不仅可以适用于图3所示的应用场景中，还可以适用于其他与用户进行语音交互的场景中，比如视频配音场景、直播场景，等等。

在视频配音场景中，以某一段视频片段为例，假设该视频片段中包含人物角色Z，假设原本该人物角色Z的台词都是以用户X的声音进行配音的，现在想要以用户Y的声音为该人物角色Z配音。此时，人物角色Z的台词即对应于前述实施例中的文本内容，目标用户为用户Y。基于上文提到的语音合成模型的训练过程，可以使得该语音合成模型能够学习到用户Y在各种语言学特征下对应的声学特征，从而，基于该语音合成模型可以预测出用户Y在上述文本内容(即台词)对应的语言学特征下所对应的声学特征，根据预测出的声学特征可以合成用户Y说出同样的台词的语音信号，实现以用户Y的声音为人物角色Z配音的效果。

在直播场景中，基于本发明实施例提供的语音合成方案，可以实现一个主播以多种不同的声音进行直播的效果。举例来说，假设某主播在直播间向广大观看者推荐多种商品，该主播想要以不同的声音推荐不同的商品，此时，该主播可以配置多个目标用户与多个商品的对应关系，即配置以哪个目标用户的声音推荐哪个商品。假设主播配置的结果是：以用户C的声音推荐商品S，以用户D的声音推荐商品T，以自己的声音推荐商品R。基于此，在实际的直播过程中，主播侧的音视频采集设备采集该主播直播这三个商品的音视频数据，并上传至服务端。服务端基于该主播的配置结果，可以从上传的音视频数据中截取出每个商品对应的音视频片段。其中，该主播推荐商品R的音视频片段可以认为是无更改地直接提供给观看者。其中，该主播推荐商品S和商品T的音频片段将会先经语音识别(ASR)处理，得到对应的文本内容，之后通过前述实施例提供的语音合成方法，将与商品S对应的文本内容合成为由用户C的声音推荐商品S的语音信号，以及将与商品T对应的文本内容合成为由用户D的声音推荐商品T的语音信号。语音合成的过程可以参见前述实施例中的说明，在此不赘述。

下面对上文提到的语音合成模型的训练过程进行说明。

需要说明的是，随着最终用于对某文本内容进行语音合成时使用到的是上述语音合成模型中的前端模块、第一编码器、解码器，但是，实际上，为了得到训练至收敛的上述第一编码器、解码器，在训练过程中，该语音合成模型中还包括第二编码器，其中，第二编码器与第一编码器共用解码器。

在对包含第一编码器和第二编码器的语音合成模型进行训练的过程中，包括两个阶段的训练，分别称为第一训练阶段和第二训练阶段。

在第一训练阶段中，需要获取多个用户对应的多个训练样本对，其中，任一用户对应的任一训练样本对由语音信号和与该语音信号对应的文本内容组成，其中，该多个用户中不包括前述实施例中提到的目标用户。从而，通过该多个用户对应的多个训练样本对训练语音合成模型，以完成第一训练阶段的训练任务。

以上述多个用户中的用户D为例进行说明，用户D为其中任一用户。并且，假设用户D的任一训练样本对中包括语音信号D1和文本内容D2，其中，语音信号D1为用户D说出文本内容D2的语音。

实际上，可以预先设定众多文本内容，让不同的用户读出其中的全部或部分数量的文本内容，在用户读的过程中，对其进行录音，以得到作为训练样本对的上述语音信号。

以用户D对应的语音信号D1和文本内容D2为例，如图4所示，语音合成模型的第一训练阶段可以包括如下步骤：

401、获取与语音信号D1对应的声学特征和音素后验概率特征，获取与文本内容D2对应的语言学特征；其中，与语音信号D1对应的声学特征作为监督信息。

402、确定与用户D的标识信息对应的第四编码向量Z0。

403、通过第一编码器对语言学特征进行编码，以得到与语言学特征对应的第五编码向量Z1；通过第二编码器对音素后验概率特征进行编码，以得到与音素后验概率特征对应的第六编码向量Z2。

404、拼接第四编码向量Z0与第五编码向量Z1以得到第一拼接结果P1，拼接第四编码向量Z0与第六编码向量Z2以得到第二拼接结果P2。

405、通过解码器对第一拼接结果P1或第二拼接结果P2进行解码，以得到解码器输出的声学特征。

最终，根据解码器输出的声学特征与作为监督信息的上述语音信号D1对应的声学特征，确定损失函数的函数值，进行模型中第一编码器、第二编码器和解码器的参数调整。

其中，音素后验概率特征(Phonetic Posterior Grams，简称PPGs)，是一个时间t-类别y的矩阵，表示每个发音类别y在每段音频中的每个特定时间帧的后验概率，也即是说，表示一段语音信号中包含的多帧语音信号各自对应的发音类别的概率分布。其中，发音类别是指音素这个最小的发音单位。

为便于理解，下面结合图5示例性说明语音合成模型的组成和第一训练阶段的训练过程。如图5中所示，第一编码器的输入端可以连接有前文所述的前端模块，第二编码器的输入端可以连接有声学模型。

具体地，将文本内容D2输入到前端模块，可以通过前端模块输出文本内容D2对应的语言学特征。

获取与语音信号D1对应的音素后验概率特征的过程可以实现为：

对语音信号D1进行分帧处理，以得到多帧语音信号；提取多帧语音信号各自对应的声学特征；将多帧语音信号各自对应的声学特征输入到声学模型中，以通过声学模型预测出语音信号D1对应的音素后验概率特征，其中，该多帧语音信号各自对应的声学特征即作为监督信息。

进而，通过第一编码器对语言学特征进行编码，以得到与语言学特征对应的第五编码向量Z1。通过第二编码器对音素后验概率特征进行编码，以得到与音素后验概率特征对应的第六编码向量Z2。

实际应用中，假设收集到的用于第一训练阶段的用户数量为N，N大于1，针对每个用户，可选地，可以生成一个N维的向量，作为每个用户的标识信息对应的编码向量。其中，假设用户D对应的编码向量为Z0。

拼接第四编码向量Z0与第五编码向量Z1以得到第一拼接结果P1，拼接第四编码向量Z0与第六编码向量Z2以得到第二拼接结果P2。

如图5中所示，可以认为在解码器的输入端设置有一个开关，通过随机拨动该开关，可以控制输入到解码器的是第一拼接结果P1还是第二拼接结果P2。解码器对应于第一拼接结果P1的输出与对应于第二拼接结果P2的输出可能有所不同。

实际上，以用户D对应的语音信号D1和文本内容D2为例，这一对训练样本会反复被作为输入，以用于第一训练阶段的训练过程。从而，通过多次反复输入，该对训练样本对应的第一拼接结果P1和第二拼接结果P2最终可能都会被输入到解码器中。基于此，通过大量训练样本对的第一训练阶段的训练，解码器最终可以学习到音素后验概率特征与声学特征的映射关系以及语言学特征与声学特征的映射关系。

经过第一训练阶段得到的语音合成模型可以认为是一种基础的语音合成模型，当需要能够通过该语音合成模型合成少量的目标用户(与第一训练阶段所使用到的多个用户不同的用户)语音信号时，还需要让该基础的语音合成模型学习这些目标用户的声学特征。基于此，触发第二训练阶段的训练。

在第二训练阶段中，当目标用户的数量为多个时，获取多个目标用户对应的标识信息和语音信号样本，该多个目标用户的语音信号样本仅用于训练语音合成模型中的第二编码器和解码器。值得说明的是，在第二训练阶段，训练样本中无需文本内容。

仍以前述实施例中的目标用户B为例，假设用户B为多个目标用户中的任一个，并假设用户B的语音信号样本为语音信号B1。实际上，可以获取用户B随意说出的一句或多句语音作为用户B的语音信号样本。

以用户B对应的语音信号B1为例，如图6所示，语音合成模型的第二训练阶段可以包括如下步骤：

601、获取与用户B对应的语音信号样本。

602、确定语音信号样本对应的音素后验概率特征和声学特征。

603、以语音信号样本对应的声学特征作为监督信息，确定与用户B的标识信息对应的第二编码向量，通过第二编码器对音素后验概率特征进行编码，以得到与音素后验概率特征对应的第三编码向量。

604、拼接第二编码向量和第三编码向量。

605、通过解码器对拼接后的编码向量进行解码，以得到解码器输出的声学特征。

最终，根据解码器输出的声学特征与作为监督信息的上述语音信号B1对应的声学特征，确定损失函数的函数值，进行模型中第二编码器和解码器的参数调整。

为便于理解，下面结合图7示例性说明语音合成模型第二训练阶段的训练过程。如图7中所示，第二编码器的输入端可以连接有声学模型。

具体地，语音信号B1对应的声学特征和音素后验概率特征的获取过程如下：对语音信号B1进行分帧处理，以得到多帧语音信号；提取多帧语音信号各自对应的声学特征；将多帧语音信号各自对应的声学特征输入到声学模型中，以通过声学模型预测出语音信号B1对应的音素后验概率特征，其中，多帧语音信号各自对应的声学特征作为所述监督信息。

进而，通过第二编码器对音素后验概率特征进行编码，以得到与音素后验概率特征对应的第三编码向量Z3。

在第二训练阶段，与用户B的标识信息对应的第二编码向量的确定过程可以实现为：

获取第一训练阶段使用的多个用户的属性信息和用户B的属性信息；若用户B的属性信息与该多个用户中任一用户(假设用户D)的属性信息匹配，则确定对应于用户B的标识信息的第二编码向量为：与用户D的标识信息对应的第四编码向量Z0。

简单来说就是：从第一训练阶段使用的多个用户中找到一个与用户B的属性信息相匹配的用户，以该用户对应的编码向量作为用户B对应的编码向量。

其中，属性信息可以包括年龄、性别、职业、归属的位置区域等一种或多种。

以用户B的标识信息对应的第二编码向量为Z0为例，拼接第二编码向量Z0与第三编码向量Z3以得到拼接结果P3。拼接结果P3输入到解码器中，解码器解码输出预测到的用户B的声学特征。

与图5所示实施例相比，可以认为在图7中，上述开关始终保持与第二编码器所在的分支导通的状态。

通过上述两个阶段的训练，使得最终由前端模块、第一编码器、解码器组成的语音合成模型能够将任意文本内容的语言学特征映射为多个目标用户的声学特征。也即是说，在实际需要进行语音合成的应用场景中，最终使用到的是由训练后的第一编码器、解码器以及前端模块组成使用该语音合成模型。

最后，值得说明的是，为提高语音合成模型的准确度，可选地，在解码器与第一编码器之间以及解码器与第二编码器之间，还可以采用自注意力机制(Attention)，从而，最终经过训练还会得到与第一编码器对应的注意力参数以及与第二编码器对应的注意力参数。

以下将详细描述本发明的一个或多个实施例的语音合成装置。本领域技术人员可以理解，这些语音合成装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。

图8为本发明实施例提供的一种语音合成装置的结构示意图，如图8所示，该装置包括：第一获取模块11、确定模块12、第二获取模块13、生成模块14。

第一获取模块11，用于响应于用户触发的交互行为，获取与所述交互行为对应的文本内容和目标用户的标识信息。

确定模块12，用于确定所述文本内容对应的语言学特征。

第二获取模块13，用于将所述语言学特征和所述目标用户的标识信息输入到语音合成模型中，以通过所述语音合成模型获得所述目标用户与所述文本内容对应的声学特征。

生成模块14，用于根据所述声学特征，生成与所述文本内容对应的语音信号，以输出所述语音信号。

可选地，所述语音合成模型中包括第一编码器和解码器；所述第二获取模块13具体可以用于：通过所述第一编码器对所述语言学特征进行编码，以得到与所述语言学特征对应的第一编码向量；确定与所述目标用户的标识信息对应的第二编码向量；拼接所述第一编码向量与所述第二编码向量；通过所述解码器对拼接后的编码向量进行解码，以得到所述声学特征。

可选地，所述语音合成模型中还包括第二编码器，所述第二编码器与所述第一编码器共用所述解码器。

基于此，所述装置还包括：第一训练模块和第二训练模块。

所述第一训练模块，用于获取与所述目标用户对应的语音信号样本，所述语音信号样本不对应于所述文本内容；确定所述语音信号样本对应的音素后验概率特征和声学特征；以所述语音信号样本对应的声学特征作为监督信息，将所述语音信号样本对应的音素后验概率特征和所述目标用户的标识信息输入到语音合成模型中，以训练所述第二编码器和所述解码器。

其中，可选地，所述第一训练模块具体用于：通过所述第二编码器对所述音素后验概率特征进行编码，以得到与所述音素后验概率特征对应的第三编码向量；拼接对应于所述目标用户的标识信息的所述第二编码向量和所述第三编码向量；通过所述解码器对拼接后的编码向量进行解码，以得到所述解码器输出的声学特征。

其中，可选地，所述第一训练模块具体用于：获取多个用户对应的标识信息和语音信号样本，所述多个用户中包括所述目标用户，所述多个用户的语音信号样本用于训练所述第二编码器和所述解码器；从所述多个用户对应的语音信号样本中获取所述目标用户对应的语音信号样本。

其中，可选地，所述第一训练模块具体用于：对所述语音信号样本进行分帧处理，以得到多帧语音信号；提取所述多帧语音信号各自对应的声学特征；将所述多帧语音信号各自对应的声学特征输入到声学模型中，以通过所述声学模型预测出所述语音信号样本对应的音素后验概率特征，其中，所述多帧语音信号各自对应的声学特征作为所述监督信息。

可选地，所述第二训练模块用于：获取多个用户对应的多个训练样本对，其中，任一用户对应的任一训练样本对由语音信号和所述语音信号对应的文本内容组成，所述多个用户中不包括所述目标用户；通过所述多个用户对应的多个训练样本对训练所述语音合成模型。

可选地，所述第二训练模块具体用于：对于任一用户对应的任一训练样本对，获取与所述任一训练样本对中的语音信号对应的声学特征和音素后验概率特征，获取与所述任一训练样本对中的文本内容对应的语言学特征；其中，与所述任一训练样本对中的语音信号对应的声学特征作为监督信息；确定与所述任一用户的标识信息对应的第四编码向量；通过所述第一编码器对所述语言学特征进行编码，以得到与所述语言学特征对应的第五编码向量；通过所述第二编码器对所述音素后验概率特征进行编码，以得到与所述音素后验概率特征对应的第六编码向量；拼接所述第四编码向量与所述第五编码向量以得到第一拼接结果，拼接所述第四编码向量与所述第六编码向量以得到第二拼接结果；通过所述解码器对第一拼接结果或第二拼接结果进行解码，以得到所述解码器输出的声学特征。

可选地，所述第二训练模块具体用于：获取所述任一用户的属性信息和所述目标用户的属性信息；若所述目标用户的属性信息与所述任一用户的属性信息匹配，则确定对应于所述目标用户的标识信息的所述第二编码向量为：与所述任一用户的标识信息对应的第四编码向量。

图8所示装置可以执行前述图1至图7所示实施例中提供的语音合成方法，详细的执行过程和技术效果参见前述实施例中的描述，在此不再赘述。

在一个可能的设计中，上述图8所示语音合成装置的结构可实现为一电子设备，如图9所示，该电子设备可以包括：处理器21、存储器22。其中，存储器22上存储有可执行代码，当所述可执行代码被处理器21执行时，使处理器21至少可以实现如前述图1至图7所示实施例中提供的语音合成方法。

可选地，该电子设备中还可以包括通信接口23，用于与其他设备进行通信。

另外，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使处理器至少可以实现如前述图1至图7所示实施例中提供的语音合成方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例提供的语音合成方法可以由某种程序/软件来执行，该程序/软件可以由网络侧提供，前述实施例中提及的电子设备可以将该程序/软件下载到本地的非易失性存储介质中，并在其需要执行前述语音合成方法时，通过CPU将该程序/软件读取到内存中，进而由CPU执行该程序/软件以实现前述实施例中所提供的语音合成方法，执行过程可以参见前述图1至图7中的示意。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

一种语音合成方法，其特征在于，包括：

响应于用户触发的交互行为，获取与所述交互行为对应的文本内容和目标用户的标识信息；

确定所述文本内容对应的语言学特征；

将所述语言学特征和所述目标用户的标识信息输入到语音合成模型中，以通过所述语音合成模型获得所述目标用户与所述文本内容对应的声学特征；

根据所述声学特征，生成与所述文本内容对应的语音信号，以输出所述语音信号。
根据权利要求1所述的方法，其特征在于，所述语音合成模型中包括第一编码器和解码器；

所述通过所述语音合成模型获得所述目标用户与所述文本内容对应的声学特征，包括：

通过所述第一编码器对所述语言学特征进行编码，以得到与所述语言学特征对应的第一编码向量；

确定与所述目标用户的标识信息对应的第二编码向量；

拼接所述第一编码向量与所述第二编码向量；

通过所述解码器对拼接后的编码向量进行解码，以得到所述声学特征。
根据权利要求2所述的方法，其特征在于，所述语音合成模型中还包括第二编码器，所述第二编码器与所述第一编码器共用所述解码器；

所述方法还包括：

获取与所述目标用户对应的语音信号样本，所述语音信号样本不对应于所述文本内容；

确定所述语音信号样本对应的音素后验概率特征和声学特征；

以所述语音信号样本对应的声学特征作为监督信息，将所述语音信号样本对应的音素后验概率特征和所述目标用户的标识信息输入到语音合成模型中，以训练所述第二编码器编码器和所述解码器。
根据权利要求3所述的方法，其特征在于，所述将所述语音信号样本对应的音素后验概率特征和所述目标用户的标识信息输入到语音合成模型中，以训练所述第二编码器和所述解码器，包括：

通过所述第二编码器对所述音素后验概率特征进行编码，以得到与所述音素后验概率特征对应的第三编码向量；

拼接对应于所述目标用户的标识信息的所述第二编码向量和所述第三编码向量；

通过所述解码器对拼接后的编码向量进行解码，以得到所述解码器输出的声学特征。
根据权利要求3所述的方法，其特征在于，所述获取与所述目标用户对应的语音信号样本，包括：

获取多个用户对应的标识信息和语音信号样本，所述多个用户中包括所述目标用户，所述多个用户的语音信号样本用于训练所述第二编码器和所述解码器；

从所述多个用户对应的语音信号样本中获取所述目标用户对应的语音信号样本。
根据权利要求3所述的方法，其特征在于，所述确定所述语音信号样本对应的音素后验概率特征和声学特征，包括：

对所述语音信号样本进行分帧处理，以得到多帧语音信号；

提取所述多帧语音信号各自对应的声学特征；

将所述多帧语音信号各自对应的声学特征输入到声学模型中，以通过所述声学模型预测出所述语音信号样本对应的音素后验概率特征，其中，所述多帧语音信号各自对应的声学特征作为所述监督信息。
根据权利要求3所述的方法，其特征在于，所述方法还包括：

获取多个用户对应的多个训练样本对，其中，任一用户对应的任一训练样本对由语音信号和所述语音信号对应的文本内容组成，所述多个用户中不包括所述目标用户；

通过所述多个用户对应的多个训练样本对训练所述语音合成模型。
根据权利要求7所述的方法，其特征在于，所述通过所述多个用户对应的多个训练样本对训练所述语音合成模型，包括：

对于任一用户对应的任一训练样本对，获取与所述任一训练样本对中的语音信号对应的声学特征和音素后验概率特征，获取与所述任一训练样本对中的文本内容对应的语言学特征；其中，与所述任一训练样本对中的语音信号对应的声学特征作为监督信息；

确定与所述任一用户的标识信息对应的第四编码向量；

通过所述第一编码器对所述语言学特征进行编码，以得到与所述语言学特征对应的第五编码向量；通过所述第二编码器对所述音素后验概率特征进行编码，以得到与所述音素后验概率特征对应的第六编码向量；

拼接所述第四编码向量与所述第五编码向量以得到第一拼接结果，拼接所述第四编码向量与所述第六编码向量以得到第二拼接结果；

通过所述解码器对第一拼接结果或第二拼接结果进行解码，以得到所述解码器输出的声学特征。
根据权利要求8所述的方法，其特征在于，所述方法还包括：

获取所述任一用户的属性信息和所述目标用户的属性信息；

若所述目标用户的属性信息与所述任一用户的属性信息匹配，则确定对应于所述目标用户的标识信息的所述第二编码向量为：与所述任一用户的标识信息对应的第四编码向量。
一种语音合成装置，其特征在于，包括：

第一获取模块，用于响应于用户触发的交互行为，获取与所述交互行为对应的文本内容和目标用户的标识信息；

确定模块，用于确定所述文本内容对应的语言学特征；

第二获取模块，用于将所述语言学特征和所述目标用户的标识信息输入到语音合成模型中，以通过所述语音合成模型获得所述目标用户与所述文本内容对应的声学特征；

生成模块，用于根据所述声学特征，生成与所述文本内容对应的语音信号，以输出所述语音信号。
一种电子设备，其特征在于，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至9中任一项所述的语音合成方法。
一种非暂时性机器可读存储介质，其特征在于，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至9中任一项所述的语音合成方法。