WO2021047233A1

WO2021047233A1 - 一种基于深度学习的情感语音合成方法及装置

Info

Publication number: WO2021047233A1
Application number: PCT/CN2020/096998
Authority: WO
Inventors: 钟雨崎
Original assignee: 苏宁易购集团股份有限公司; 苏宁云计算有限公司
Priority date: 2019-09-10
Filing date: 2020-06-19
Publication date: 2021-03-18
Also published as: CA3154029A1; CN110675853A; CN110675853B

Abstract

一种基于深度学习的情感语音合成方法及装置，该方法至少包括如下步骤：提取待处理文本信息及待处理文本信息的前文信息（S1）；以待处理文本信息及前文信息为输入，通过预先构建的第一模型生成情感特征信息（S2）；以情感特征信息及待处理文本信息为输入，通过预先训练的第二模型合成情感语音（S3）。该方法能实现在仅获得文本信息的基础上，基于深度学习，实现情感语音的合成，而不需要人工预先对每个声学发音进行标注情感，在缩减人力成本的同时，可进一步降低标注误差，提高情感信息的切合度，丰富对话语音情感，提升合成语音的自然度、流畅度，提高人机交流体验，且适应性较广。

Description

一种基于深度学习的情感语音合成方法及装置

技术领域

本发明涉及语音合成领域，特别涉及一种基于深度学习的情感语音合成方法及装置。

背景技术

当前社会发展，人们希望机器能够代替人工进行一些简单而频繁的工作，例如播报、简单的客服工作。就希望能够与机器进行自然和谐的交流，语音作为人类社会重要的交流方式，很大程度上决定了这种人机自然和谐交流的实现。因此语音合成在情感计算、信号处理领域具有很重要的研究意义。而细腻的情感表达则能够较大地提高合成语音的自然度。

现有做法一般基于标注信息，由人工来对每个语音里的每个声学发音进行标注文字、情感等，或由人工设定各种情感基础频率的均值范围、方差和语音的能量、时长、方差等参数。相当于设定好规格，合成时从中取出来拼接而成。

这种做法相对传统，皆由人工而定，标注人员首先要进行标注的培训，此时标注人员对标注的标准理解不同，就会在标注时对于一句话中的语气理解不同，导致没有统一的标准，标注误差大；情感切合度低的同时，标注内容适应场景也固定死板，不具备多样性，超出应用场景合成的语音情感将非常机械、死板，有比较突出的违和感，并且数据标注阶段人力成本较大。

发明内容

为解决上述技术问题，本发明提供了一种基于深度学习的情感语音合成方法及装置，其能实现不进行人工逐一文字标注情感的情况下进行情感语音的合成。

本发明实施例提供的技术方案如下：

第一方面，提供一种基于深度学习的情感语音合成方法，所述方法至少包括如下步骤：

提取待处理文本信息及所述待处理文本信息的前文信息，所述前文信息包括前文文本信息；

以所述待处理文本信息及前文信息为输入，通过预先构建的第一模型生成情感特征信息；

以所述情感特征信息及待处理文本信息为输入，通过预先训练的第二模型合成情感语音。

在一些较佳的实施方式中，所述第一模型包括依次连接的第一子模型、第二子模型及第三子模型，所述以所述待处理文本信息及前文信息输入，通过预先构建的第一模型生成情感特征信息，具体包括如下子步骤：

以所述待处理文本信息及前文信息为输入，通过预先训练的第一子模型进行特征提取以获得第一中间输出；

以所述第一中间输出及待处理文本信息为输入，通过预先训练的第二子模型进行特征提取以获得情感类型及第二中间输出；

以所述第二中间输出、待处理文本信息、情感类型或接收的用户指定情感类型为输入，通过预先训练的第三子模型进行特征提取以获得情感特征信息。

在一些较佳的实施方式中，当所述前文信息还包括前文语音信息时，所述第一模型包括依次连接的第四子模型、第五子模型及第六子模型，所述以所述待处理文本信息及前文信息为输入，通过预先构建的第一模型生成情感特征信息，具体包括如下子步骤：

以所述待处理文本信息及前文信息为输入，通过预先训练的第四子模型进行特征提取以获得第四中间输出；

以所述第四中间输出及待处理文本信息为输入，通过预先训练的第五子模型进行特征提取以获得第五中间输出；

以所述第五中间输出、待处理文本信息、、情感类型或接收的用户指定情感类型为输入，通过预先训练的第六子模型进行特征提取以获得情感特征信息。

在一些较佳的实施方式中，预先训练所述第二模型时，具体包括如下子步骤：

提取视频样本的视频图像样本、文本信息样本及对话信息样本；

按照预设情感分类，对所述视频图像样本进行标注获得情感标注信息样本；

以所述视频图像样本为输入，以所述情感标注信息样本为输出，训练第三模型，并提取所述第三模型的第三中间输出作为所述视频图像样本的情感信息；

以所述情感信息及文本信息样本为输入，以对话信息样本为输出，训练第二模型。

在一些较佳的实施方式中，预先训练所述第一模型时，具体包括如下子步骤：

提取视频样本的当前文本信息样本及前文信息样本，所述前文信息样本包括前文文本信息样本；

以所述当前文本信息样本及前文信息样本为输入，且以所述当前文本信息样本相对所述前文信息样本的情感是否变化为输出，训练获得所述第一子模型，并提取所述第一子模型中间输出的第一中间输出；

以所述第一中间输出及当前文本信息样本为输入，且以情感类型为输出，训练获得所述第二子模型，并提取所述第二子模型中间输出的第二中间输出；

以所述第二中间输出、当前文本信息样本、情感类型或接收的用户指定情感类型为输入，且以所述模型三获得的情感信息为输出，训练获得所述第三子模型。

提取视频样本的当前文本信息样本及前文信息样本，所述前文信息样本包括前文文本信息样本及前文语音信息样本；

以所述当前文本信息样本及前文信息样本为输入，且以所述当前文本信息样本相对所述前文信息样本的情感是否变化为输出，训练获得所述第四子模型，并提取所述第四子模型中间输出的第四中间输出；

以所述第四中间输出及当前文本信息样本为输入，且以情感类型为输出，训练获得所述第五子模型，并提取所述第五子模型中间输出的第五中间输出及情感类型；

以所述第五中间输出、当前文本信息样本、情感类型或接收的用户指定情感类型为输入，且以所述模型三获得的情感信息为输出，训练获得所述第六子模型。

在一些较佳的实施方式中，所述预先训练所述第一模型时，还包括视频样本预处理，其至少包括：

按照预设时间间隔，将所述视频图像样本分为若干段视频图像子样本，并将任一时间间隔内的文本作为当前文本信息样本，将所述任一时间间隔之前的文本作为前文文本信息样本。

另一方面，本发明还提供一种用于执行上述方法的基于深度学习的情感语音合成装置，所述装置至少包括：

提取模块：用于提取待处理文本信息及所述待处理文本信息的前文信息，所述前文信息包括前文文本信息；

情感特征信息生成模块：用于以所述待处理文本信息及前文信息为输入，通过预先构建的第一模型生成情感特征信息；

情感语音合成模块：用于以所述情感特征信息及待处理文本信息为输入，通过预先训练的第二模型合成情感语音。

在一些较佳的实施方式中，所述第一模型包括依次连接的第一子模型、第二子模型及第三子模型，所述情感特征信息生成模块至少包括：

第一特征提取单元：用于以所述待处理文本信息及前文信息为输入，通过预先训练的第一子模型进行特征提取以获得第一中间输出；

第二特征提取单元：用于以所述第一中间输出及待处理文本信息为输入，通过预先训练的第二子模型进行特征提取以获得情感类型及第二中间输出；

第三特征提取单元：：用于以所述第二中间输出、待处理文本信息、情感类型或接收的用户指定情感类型为输入，通过预先训练的第三子模型进行特征提取以获得情感特征信息。

在一些较佳的实施方式中，当所述前文信息还包括前文语音信息时，所述第一模型包括依次连接的第四子模型、第五子模型及第六子模型，所述情感特征信息获取模块至少包括：

第四特征提取单元：用于以所述待处理文本信息及前文信息为输入，通过预先训练的第四子模型进行特征提取以获得第四中间输出；

第五特征提取单元：用于以所述第四中间输出及待处理文本信息为输入，通过预先训练的第五子模型进行特征提取以获得第五中间输出；

第六特征提取单元：用于以所述第五中间输出、待处理文本信息、情感类型或接收的用户指定情感类型为输入，通过预先训练的第六子模型进行特征提取以获得情感特征信息。

在一些较佳的实施方式中，所述装置还包括模型训练模块，所述模型训练模块至少包括用于训练所述第二模型的第二模型训练单元，所述第二模型训练单元至少包括：

第一提取子单元：用于提取视频样本的视频图像样本、文本信息样本及对话信息样本；

情感标注子单元：用于按照预设情感分类，对所述视频图像样本进行标注获得情感标注信息样本；

第一训练子单元：用于以所述视频图像样本为输入，以所述情感标注信息样本为输出，训练第三模型，并提取所述第三模型的第三中间输出作为所述视频图像样本的情感信息；

还用于以所述情感信息及文本信息样本为输入，以对话信息样本为输出，训练第二模型。

在一些较佳的实施方式中，所述模型训练模块还包括用于训练所述第一模块的第一模型训练单元，所述第一模型训练单元至少包括：

第二提取子单元：用于提取视频样本的当前文本信息样本及前文信息样本，所述前文信息样本包括前文文本信息样本；

第二训练子单元：用于以所述当前文本信息样本及前文信息样本为输入，且以所述当前文本信息样本相对所述前文信息样本的情感是否变化为输出，训练获得所述第一子模型，并提取所述第一子模型中间输出的第一中间输出；

还用于以所述第一中间输出及当前文本信息样本为输入，且以情感类型为输出，训练获得所述第二子模型，并提取所述第二子模型中间输出的第二中间输出；

还用于以所述第二中间输出、当前文本信息样本、情感类型或接收的用户指定情感类型为输入，且以所述模型三获得的情感信息为输出，训练获得所述第三子模型。

在一些较佳的实施方式中，所述模型训练模块还包括用于训练另一第一模型的第三模型训练单元，所述第三模型训练单元至少包括：

第三提取子单元：用于提取视频样本的当前文本信息样本及前文信息样本，所述前文信息样本包括前文文本信息样本及前文语音信息样本；

第三训练子单元，用于以所述当前文本信息样本及前文信息样本为输入，且以所述当前文本信息样本相对所述前文信息样本的情感是否变化为输出，训练获得所述第四子模型，并提取所述第四子模型中间输出的第四中间输出；

还用于以所述第四中间输出及当前文本信息样本为输入，且以情感类型为输出，训练获得所述第五子模型，并提取所述第五子模型中间输出的第五中间输出及情感类型；

还用于以所述第五中间输出、当前文本信息样本、情感类型或接收的用户指定情感类型为输入，且以所述模型三获得的情感信息为输出，训练获得所述第六子模型。

在一些较佳的实施方式中，所述第二模型训练单元还包括：

预处理子单元，用于按照预设时间间隔，将所述视频图像样本分为若干段视频图像子样本，并将任一时间间隔内的文本作为当前文本信息样本，将所述任一时间间隔之前的文本作为前文文本信息样本。

本发明的有益效果：

本发明公开一种基于深度学习的情感语音合成方法，其基于提取的待处理文本信息及所述待处理文本信息的前文信息，通过预先构建的第一模型生成情感特征信息，然后根据情感特征信息及待处理文本信息，通过基于视频样本预先训练的第二模型合成情感语音，该方法能实现在仅获得文本信息的基础上，基于深度学习，实现情感语音的合成，而不需要人工预先对每个声学发音进行标注文字、情感，因此，该方法在缩减人力成本的同时，可进一步降低标注误差，提高情感信息的切合度，丰富对话语音情感，提升合成语音的自然度、流畅度，提高人机交流体验；

另外，本发明在训练模型时，首先根据一段视频中相对应的视频图像信息、文本信息及语音信息，通过视频图像获得情感信息，构建基于视频图像的情感语音生成模块，然后基于文本信息，构建以该情感信息为目标的情感语音生成模块，从而实现基于文本信息生成情感语音的目的，因此该方法适用于视频交流场景、语音交流场景、甚至仅具有文本信息的交流场景，适应性较广，进一步提高人机交流体验；

进一步，本发明提供的基于深度学习的情感语音合成方法，在构建语音合成模型(第二模型)时，是基于视频中提取的视频图像样本、相对应的文本信息样本及对话信息样本进行训练的，因此所获得的情感更贴切、所合成的语音情感更准确、自然。

当然，本申请的方案只要实现其中任一技术效果即可。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一中的一种基于深度学习的情感语音合成方法的流程图；

图2是本发明实施例一中一种基于深度学习的情感语音合成方法的逻辑示意图；

图3是本发明实施例一中训练第二模型时的逻辑示意图；

图4是本发明实施例一中训练第一模型时的逻辑示意图；

图5是本发明实施例二中的一种基于深度学习的情感语音合成装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

如图1所示，本实施例提供一种基于深度学习的情感语音合成方法，属于语音合成领域，通过该方法能实现不需要人工标注情感的情况下进行情感语音的合成，且能有效提高合成语音情感的自然度。

结合图1、2所示，该方法包括如下步骤：

S1、提取待处理文本信息及待处理文本信息的前文信息。

具体地，当处理对象为文本对象时，前文信息包括前文文本信息；

当处理对象为语音对象或视频对象时，前文信息包括前文文本信息及前文语音信息。

需要说明的是，该步骤中，在文本对象中提取文本信息、在语音对象中提取文本信息及语音信息、在视频对象中提取文本信息及语音信息，均可通过不同的提取器实现，具体实现方式为本领域常规技术手段，此处不再一一例举。

S2、以待处理文本信息及前文信息为输入，通过预先构建的第一模型生成情感特征信息。

其中，当处理对象为文本内容时，步骤S2具体包括如下子步骤：

S211、以待处理文本信息及前文信息为输入，通过预先训练的第一子模型进行特征提取以获得第一中间输出；

S212、以第一中间输出及待处理文本信息为输入，通过预先训练的第二子模型进行特征提取以获得情感类型及第二中间输出；

S213、以第二中间输出、待处理文本信息、情感类型或接收的用户指定情感类型为输入，通过预先训练的第三子模型进行特征提取以获得情感特征信息。

其中，第三子模型的输入口之一为情感控制口，该情感控制口可以输入第二子模型输出的情感类型，也可以输入用户人为设置的情感类型，因此在获取情感特征信息时，可以完全基于模型获得，当模型数据存在准确性问题时，可人为干预调整，由此，进一步提高了所获得情感特征信息的准确性及可靠性。

其中，第一中间输出为第一子模型逻辑判断层的前一层输出特征向量，内容包括第一子模型提取的当前对话基调及当前文本的情感特征。第二中间输出为第二子模型分类层的前一层输出特征向量，内容包括第二子模型结合第一中间输出提取的当前文本的情感特征。

作为另一较优的实施方式，当处理对象为语音内容或视频内容时，步骤S2具体包括如下子步骤：

S221、以待处理文本信息及前文信息为输入，通过预先训练的第四子模型进行特征提取以获得第四中间输出；

S222、以第四中间输出及待处理文本信息为输入，通过预先训练的第五子模型进行特征提取以获得第五中间输出；

S223、以第五中间输出、待处理文本信息、情感类型或接收的用户指定情感类型为输入，通过预先训练的第六子模型进行特征提取以获得情感特征信息。

其中，第四中间输出为第四子模型逻辑判断层的前一层输出特征向量，内容包括第四子模型从送入的对话语音或视频画面中提取的当前对话基调及当前文本的情感特征。第五中间输出为第五子模型分类层的前一层输出特征向量，内容为第五子模型结合第四中间输出提取的当前文本的情感特征。

经证实，当前文信息包括前文文本信息及前文语音信息，所获得的情感语音特征信息的可信度更高。

S3、以情感特征信息及待处理文本信息为输入，通过预先训练的第二模型合成情感语音。

基于上述步骤S1～S3，可实现以文本信息为基础，合成情感自然的情感语音。

因此，该基于深度学习的情感语音合成方法，其基于提取的待处理文本信息及所述待处理文本信息的前文信息，通过预先构建的第一模型生成情感特征信息，然后根据情感特征信息及待处理文本信息，通过预先训练的第二模型合成情感语音，该方法能实现在仅获得文本信息的基础上，基于深度学习，实现情感语音的合成，而不需要人工预先对每个声学发音进行标注文字、情感，因此，该方法在缩减人力成本的同时，可进一步降低标注误差，提高情感信息的切合度，丰富对话语音情感，提升合成语音的自然度、流畅度，提高人机交流体验。

并且，该采用该方法合成情感语音时，处理对象可以仅为文本，也可以是文本及语音的结合，因此，该方法能基于文本、语音或视频中的任意一种合成情感语音，适用场景广泛。

进一步，该方法还包括模型预训练步骤，用于预先训练第一模型及第二模型。

首先，第二模型的训练过程具体包括如下子步骤：

Sa1、提取视频样本的视频图像样本、文本信息样本及对话信息样本；

Sa2、按照预设情感分类，对视频图像样本进行标注获得情感标注信息样本；

Sa3、以视频图像样本为输入，以情感标注信息样本为输出，训练第三模型，并提取第三模型的第三中间输出作为视频图像样本的情感信息；以情感信息及文本信息样本为输入，以对话信息样本为输出，训练第二模型。

示例性地，第三模型以ResNet-50为基础构建，并搭载交叉熵损失函数，第二模型以Tacotron2为基础构建，并搭载平均方差损失函数和L2距离损失函数。

具体地，如图3所示，第三模型及第二模型前后连接，一起进行训练。在提取到视频图像样本、文本信息样本及对话信息样本后，将视频图像样本送至第三模型输入端(I ₃)，并将第三中间输出(O ₃₁)送至第二模型一个输入端(I ₅₁)，第二模型以文本信息样本为输入(I ₅₂)，且第三模型及第二模型分别以情感标注信息样本(O ₃₂)及对话信息样本(O ₅)问目标，一起训练第二、三模型，从而获得以截取的第三中间输出(O ₃₁)为输入且以对话信息样本(O ₅)为输出的第二模型，并截取的第三中间输出(O ₃₁)为情感信息。

在完成第二模型的训练后，训练第一模型。第一模型可根据适用对象的不同分别构建多组，如适用于文本内容或适用于语音内容或视频内容，所采用的模型并不相同。在接收到待处理对象后，系统可自动判断对象类型，并自动选择适用的第一模型。

当训练仅适用于文本内容的第一模型时，第一模型的训练过程具体包括如下子步骤：

Sb1、提取视频样本的当前文本信息样本及前文信息样本，前文信息样本包括前文文本信息样本；

Sb2、以当前文本信息样本及前文信息样本为输入，且以当前文本信息样本相对前文信息样本的情感是否变化为输出，训练获得第一子模型，并提取第一子模型中间输出的第一中间输出；

Sb3、以第一中间输出及当前文本信息样本为输入，且以情感类型为输出，训练获得第二子模型，并提取第二子模型中间输出的第二中间输出；

Sb4、以第二中间输出、当前文本信息样本、情感类型或接收的用户指定情感类型为输入，且以模型三获得的情感信息为输出，训练获得第三子模型。

具体地，如图4所示，第一子模型、第二子模型及第三子模型依次连接，在提取到前文本信息样本及前文文本信息样本后，同时训练所述三个子模型。，

示例性地，其中，第一子模型以Transformer-xl为基础构建，使用LSTM+CNN结构替换其Decoder部分，并作为第一子模型的逻辑判断输出，其输出搭载交叉熵损失函数；第二子模型以Transformer为基础构建，使用LSTM+CNN结构替换其Decoder部分，并作为第二子模型的分类器输出，其输出搭载交叉熵损失函数；第三子模型以StarGAN为基础构建，使用Conv1D网络层替换结构中的Conv2D，其输出搭载平均方差损失函数和L2距离损失函数。

以前文信息样本及当前文本信息样本作为第一模型的两个输入(I ₁₁、I ₁₂)，其中，将当前文本信息样本作为每一子模型的一个输入(I ₁₁、I ₂₁、I ₄₂)。以当前信息样本作为第一子模型的另一输入(I ₁₂)，并以当前文本信息样本相对前文信息样本的情感是否变化为第一子模型的输出(O ₁₂)；并截取第一中间输出(O ₁₁)作为第二子模型的另一输入(I ₂₁)，将情感类型(O ₂₂)作为第二子模型的输出，并截取第二中间输出(O ₂₁)作为第三子模型的另一输入(I ₄₁)，以模型三获得的情感信息为输出(O ₄)，一起训练上述三个子模型。

当训练适用于语音内容或视频内容的第一模型时，训练过程具体包括如下子步骤：

Sc1、提取视频样本的当前文本信息样本及前文信息样本，前文信息样本包括前文文本信息样本及前文语音信息样本；

Sc2、以当前文本信息样本及前文信息样本为输入，且以当前文本信息样本相对前文信息样本的情感是否变化为输出，训练获得第四子模型，并提取第四子模型中间输出的第四中间输出；

Sc3、以第四中间输出及当前文本信息样本为输入，且以情感类型为输出，训练获得第五子模型，并提取第五子模型中间输出的第五中间输出及情感类型；

Sc4、以第五中间输出、当前文本信息样本、情感类型或接收的用户指定情感类型为输入，且以模型三获得的情感信息为输出，训练获得第六子模型。

示例性地，其中，第四子模型以ResNet-50、Transformer-xl为基础构建，舍弃ResNet-50的Dense层，使用ConvLstm2D结构网络层替换ResNet-50中的Conv2D，并将ResNet-50的Pooling层输出融到Transformer-xl的Encoder输出中，使用LSTM+CNN结构替换Transformer-xl的Decoder部分，并作为第四子模型的逻辑判断输出，并搭载交叉熵损失函数；第五子模型以Transformer为基础构建，使用LSTM+CNN结构替换其Decoder部分，并作为第五子模型的分类器输出，其输出搭载交叉熵损失函数；第六子模型以StarGAN为基础构建，使用Conv1D结构网络层替换结构中的Conv2D结构网络层，其输出搭载平均方差损失函数和L2距离损失函数。

第一模型的两个训练方法过程相同，相关输入及输出关系请参照第一种训练过程，具体区别仅在于第二种训练方法中在第四子模型中需再增加前文语音信息样本输入。

因此，本发明在训练模型时，首先根据一段视频中相对应的视频图像信息、文本信息及语音信息，通过视频图像获得情感信息，构建基于视频图像的情感语音生成模块，然后基于文本信息，构建以该情感信息为目标的情感语音生成模块，从而实现基于文本信息生成情感语音的目的，因此该方法适用于视频交流场景、语音交流场景、甚至仅具有文本信息的交流场景，适应性较广，进一步提高人机交流体验。

另外，本实施例提供的基于深度学习的情感语音合成方法，在构建语音合成模型(第二模型)时，是基于视频中提取的视频图像样本、相对应的文本信息样本及对话信息样本进行训练的，因此所获得的情感更贴切、所合成的语音情感更准确、自然。

实施例二

为执行上述实施例一中的一种基于深度学习的情感语音合成方法，本实施例提供一种基于深度学习的情感语音合成装置100。

图5为该基于深度学习的情感语音合成装置100的结构示意图，如图5所示，该装置100至少包括：

提取模块1：用于提取待处理文本信息及所述待处理文本信息的前文信息，前文信息包括前文文本信息；

情感特征信息生成模块2：用于以待处理文本信息及前文信息为输入，通过预先构建的第一模型生成情感特征信息；

情感语音合成模块3：用于以情感特征信息及待处理文本信息为输入，通过预先训练的第二模型合成情感语音。

在一些较佳的实施方式中，第一模型包括依次连接的第一子模型、第二子模型及第三子模型，情感特征信息生成模块2至少包括：

第一特征提取单元21：用于以待处理文本信息及前文信息为输入，通过预先训练的第一子模型进行特征提取以获得第一中间输出；

第二特征提取单元22：用于以第一中间输出及待处理文本信息为输入，通过预先训练的第二子模型进行特征提取以获得情感类型及第二中间输出；

第三特征提取单元23：用于以第二中间输出、待处理文本信息、情感类型或接收的用户指定情感类型为输入，通过预先训练的第三子模型进行特征提取以获得情感特征信息。

在一些较佳的实施方式中，当前文信息还包括前文语音信息时，第一模型包括依次连接的第四子模型、第五子模型及第六子模型，情感特征信息获取模块2还包括：

第四特征提取单元21′：用于以待处理文本信息及前文信息为输入，通过预先训练的第四子模型进行特征提取以获得第四中间输出；

第五特征提取单元22′：用于以第四中间输出及待处理文本信息为输入，通过预先训练的第五子模型进行特征提取以获得第五中间输出；

第六特征提取单元23′：用于以第五中间输出、待处理文本信息、情感类型或接收的用户指定情感类型为输入，通过预先训练的第六子模型进行特征提取以获得情感特征信息。

在一些较佳的实施方式中，该装置还包括模型训练模块4，模型训练模块4至少包括用于训练第二模型的第二模型训练单元41，所述第二模型训练单元41至少包括：

第一提取子单元411：用于提取视频样本的视频图像样本、文本信息样本及对话信息样本；

情感标注子单元412：用于按照预设情感分类，对所述视频图像样本进行标注获得情感标注信息样本；

第一训练子单元413：用于以所述视频图像样本为输入，以所述情感标注信息样本为输出，训练第三模型，并提取所述第三模型的第三中间输出作为所述视频图像样本的情感信息；还用于以所述情感信息及文本信息样本为输入，以对话信息样本为输出，训练第二模型。

在一些较佳的实施方式中，所述模型训练模块还包括用于训练第一模型的第一模型训练单元42，所述第一模型训练单元42至少包括：

第二提取子单元421：用于提取视频样本的当前文本信息样本及前文信息样本，所述前文信息样本包括前文文本信息样本；

第二训练子单元422：用于以当前文本信息样本及前文信息样本为输入，且以所述当前文本信息样本相对所述前文信息样本的情感是否变化为输出，训练获得所述第一子模型，并提取所述第一子模型中间输出的第一中间输出；

在一些较佳的实施方式中，所述模型训练模块4还包括用于训练另一第一模型的第三模型训练单元43，所述第三模型训练单元43至少包括：

第三提取子单元431：用于提取视频样本的当前文本信息样本及前文信息样本，所述前文信息样本包括前文文本信息样本及前文语音信息样本；

第三训练子单元432，用于以所述当前文本信息样本及前文信息样本为输入，且以所述当前文本信息样本相对所述前文信息样本的情感是否变化为输出，训练获得所述第四子模型，并提取所述第四子模型中间输出的第四中间输出；

在一些较佳的实施方式中，所述第二模型训练单元41还包括：

预处理子单元414，用于按照预设时间间隔，将所述视频图像样本分为若干段视频图像子样本，并将任一时间间隔内的文本作为当前文本信息样本，将所述任一时间间隔之前的文本作为前文文本信息样本。

需要说明的是：上述实施例提供的一种基于深度学习的情感语音合成装置在触发情感语音合成业务时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的一种基于深度学习的情感语音合成装置实施例与方法实施例属于同一构思，即该装置是基于该方法的，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种基于深度学习的情感语音合成方法，其特征在于，所述方法至少包括如下步骤：

提取待处理文本信息及所述待处理文本信息的前文信息，所述前文信息包括前文文本信息；

以所述待处理文本信息及前文信息为输入，通过预先构建的第一模型生成情感特征信息；

以所述情感特征信息及待处理文本信息为输入，通过预先训练的第二模型合成情感语音。
根据权利要求1所述的一种基于深度学习的情感语音合成方法，其特征在于，所述第一模型包括依次连接的第一子模型、第二子模型及第三子模型，所述以所述待处理文本信息及前文信息为输入，通过预先构建的第一模型生成情感特征信息，具体包括如下子步骤：

以所述待处理文本信息及前文信息为输入，通过预先训练的第一子模型进行特征提取以获得第一中间输出；

以所述第一中间输出及待处理文本信息为输入，通过预先训练的第二子模型进行特征提取以获得情感类型及第二中间输出；

以所述第二中间输出、待处理文本信息、情感类型或接收的用户指定情感类型为输入，通过预先训练的第三子模型进行特征提取以获得情感特征信息。
根据权利要求1所述的一种基于深度学习的情感语音合成方法，其特征在于，当所述前文信息还包括前文语音信息时，所述第一模型包括依次连接的第四子模型、第五子模型及第六子模型，所述以所述待处理文本信息及前文信息为输入，通过预先构建的第一模型生成情感特征信息，具体包括如下子步骤：

以所述待处理文本信息及前文信息为输入，通过预先训练的第四子模型进行特征提取以获得第四中间输出；

以所述第四中间输出及待处理文本信息为输入，通过预先训练的第五子模型进行特征提取以获得第五中间输出；

以所述第五中间输出、待处理文本信息、情感类型或接收的用户指定情感类型为输入，通过预先训练的第六子模型进行特征提取以获得情感特征信息。
根据权利要求2或3所述的一种基于深度学习的情感语音合成方法，其特征在于，预先训练所述第二模型时，具体包括如下子步骤：

提取视频样本的视频图像样本、文本信息样本及对话信息样本；

按照预设情感分类，对所述视频图像样本进行标注获得情感标注信息样本；

以所述视频图像样本为输入，以所述情感标注信息样本为输出，训练第三模型，并提取所述第三模型的第三中间输出作为所述视频图像样本的情感信息；

以所述情感信息及文本信息样本为输入，以对话信息样本为输出，训练第二模型。
根据权利要求4所述的一种基于深度学习的情感语音合成方法，其特征在于，预先训练所述第一模型时，具体包括如下子步骤：

提取视频样本的当前文本信息样本及前文信息样本，所述前文信息样本包括前文文本信息样本；

以所述当前文本信息样本及前文信息样本为输入，且以所述当前文本信息样本相对所述前文信息样本的情感是否变化为输出，训练获得所述第一子模型，并提取所述第一子模型中间输出的第一中间输出；

以所述第一中间输出及当前文本信息样本为输入，且以情感类型为输出，训练获得所述第二子模型，并提取所述第二子模型中间输出的第二中间输出；

以所述第二中间输出、当前文本信息样本、情感类型或接收的用户指定情感类型为输入，且以所述模型三获得的情感信息为输出，训练获得所述第三子模型。
根据权利要求4所述的一种基于深度学习的情感语音合成方法，其特征在于，预先训练所述第一模型时，具体包括如下子步骤：

提取视频样本的当前文本信息样本及前文信息样本，所述前文信息样本包括前文文本信息样本及前文语音信息样本；

以所述当前文本信息样本及前文信息样本为输入，且以所述当前文本信息样本相对所述前文信息样本的情感是否变化为输出，训练获得所述第四子模型，并提取所述第四子模型中间输出的第四中间输出；

以所述第四中间输出及当前文本信息样本为输入，且以情感类型为输出，训练获得所述第五子模型，并提取所述第五子模型中间输出的第五中间输出及情感类型；

以所述第五中间输出、当前文本信息样本、情感类型或接收的用户指定情感类型为输入，且以所述模型三获得的情感信息为输出，训练获得所述第六子模型。
根据权利要求5或6所述的一种基于深度学习的情感语音合成方法，其特征在于，所述预先训练所述第二模型时，还包括视频样本预处理，其至少包括：

按照预设时间间隔，将所述视频图像样本分为若干段视频图像子样本，并将任一时间间隔内的文本作为当前文本信息样本，将所述任一时间间隔之前的文本作为前文文本信息样本。
一种基于权利要求1～7任意一项所述方法的基于深度学习的情感语音合成装置，其特征在于：所述装置至少包括：

提取模块：用于提取待处理文本信息及所述待处理文本信息的前文信息，所述前文信息包括前文文本信息；

情感特征信息生成模块：用于以所述待处理文本信息及前文信息为输入，通过预先构建的第一模型生成情感特征信息；

情感语音合成模块：用于以所述情感特征信息及待处理文本信息为输入，通过预先训练的第二模型合成情感语音。
根据权利要求8所述的一种基于深度学习的情感语音合成装置，其特征在于，所述第一模型包括依次连接的第一子模型、第二子模型及第三子模型，所述情感特征信息生成模块至少包括：

第一特征提取单元：用于以所述待处理文本信息及前文信息为输入，通过预先训练的第一子模型进行特征提取以获得第一中间输出；

第二特征提取单元：用于以所述第一中间输出及待处理文本信息为输入，通过预先训练的第二子模型进行特征提取以获得情感类型及第二中间输出；

第三特征提取单元：：用于以所述第二中间输出、待处理文本信息、情感类型或接收的用户指定情感类型为输入，通过预先训练的第三子模型进行特征提取以获得情感特征信息。
根据权利要求8所述的一种基于深度学习的情感语音合成装置，其特征在于，当所述前文信息还包括前文语音信息时，所述第一模型包括依次连接的第四子模型、第五子模型及第六子模型，所述情感特征信息获取模块至少包括：

第四特征提取单元：用于以所述待处理文本信息及前文信息为输入，通过预先训练的第四子模型进行特征提取以获得第四中间输出；

第五特征提取单元：用于以所述第四中间输出及待处理文本信息为输入，通过预先训练的第五子模型进行特征提取以获得第五中间输出；

第六特征提取单元：用于以所述第五中间输出、待处理文本信息、情感类型或接收的用户指定情感类型为输入，通过预先训练的第六子模型进行特征提取以获得情感特征信息。