WO2021212954A1

WO2021212954A1 - 极低资源下的特定发音人情感语音合成方法及装置

Info

Publication number: WO2021212954A1
Application number: PCT/CN2021/074826
Authority: WO
Inventors: 袁熹
Original assignee: 升智信息科技(南京)有限公司
Priority date: 2020-04-21
Filing date: 2021-02-02
Publication date: 2021-10-28
Also published as: CN111627420A; CN111627420B

Abstract

一种极低资源下的特定发音人情感语音合成方法、装置、计算机设备和存储介质，该方法包括：通过获取训练文本和训练文本对应的音频，将训练文本转换为音素序列，以嵌入带情感向量的槽位，得到初始训练数据（S10）；输入深度学习模型进行训练，得到基础模型（S20）；获取特定文本和特定音频，将特定文本转换为对应音素序列，在音素序列中嵌入带情感向量的槽位，得到特定训练数据（S30）；将特定训练数据输入基础模型训练，得到语音合成模型（S40）；将待合成文本转换为音素序列，得到待合成音素序列，将待合成音素序列填入情感槽，得到合成输入数据，输入语音合成模型，得到带有特定情感的语音音频（S50）。该方法能够降低获得带有特定情感的语音音频的成本，提高情感语音合成方案的灵活性。

Description

极低资源下的特定发音人情感语音合成方法及装置

本申请要求于2020年4月21日提交中国专利局、申请号为202010317018.X、发明名称为“极低资源下的特定发音人情感语音合成方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种极低资源下的特定发音人情感语音合成方法、装置、计算机设备和存储介质。

背景技术

语音合成技术就是赋予计算机(或者各种终端设备)具有像人一样的说话能力，这是一门典型的交叉学科。TTS技术(又称文语转换技术)隶属于语音合成，它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的语音输出的技术。情感语音合成是近十几年来才兴起的一个研究领域，相比于传统的语音合成，情感语音合成考虑了说话人的情感状态、说话风格，使合成的语音更加智能化和人性化，具有更广泛的应用价值。在智能语音助手中，比如微软小冰、小娜、siri等，在不同的对话情境下合成相应的情感语音，使智能语音助手可以像个真实的管家，提高用户体验；在自动语音服务系统中，根据用户的对话状态合成不同情感的语音，让用户享受更好的服务质量；在在线教育中，根据学生的表现改变语音状态，在学生分神时，用严厉的语气纠正，在学生测试成绩较好时，用赞赏的语气表扬，可以提高教育质量等等。

情感语音合成方法可以包括：基于波形拼接的情感语音合成、基于语音转换的情感语音合成、统计参数情感语音合成和神经网络的情感语音合成。基于波形拼接的情感语音合成的基础是建设一个庞大的情绪语音数据库，数据库以音素为发音单位，建立起音素到语音片段的映射，合成时，利用逻辑回归模型，挑选文本音素出对应语音片段，然后拼接、平滑。这种方法的优点是实现简单，合成速度快。缺点是数据库的建立极其费时，质量难以保证，在某些应用场景下不可达，拼接平滑合成的语音很难达到 "拟人"效果。基于语音转换的情感语音合成是将语音情感变化描述为：中性情感与其他情感之间的连续跳转，统计出中性语音与其他情感跳变的声学特征，合成时候，按照中性情感和其他情感的维度，应用变化规则对声学特征进行调整，这种方法的规则不具备普适性，不同的说话人，不同的规则。统计参数情感语音合成是用HMM(隐马尔可夫模型)对多种情感声学模型建模，建模数据量比波形法少，是一种简单方便的情感语音合成的建模方法，但是HMM的建模能力有限，合成音质不高。深度神经网络出色的建模能力，越来越多基于深度学习的声学建模方法，合成模型一般分为两部分，一部分声学建模，表述了文本到声学特征的映射，第二部分是声码器，负责将声学特征逆变成波形。神经网络的合成方法优点是处理简单，合成效果非常自然，缺点是需要一个大的数据集来训练模型，特别对于情绪数据的标注，成本太大。可见传统的情感语音合成方案往往存在局限性，且存在成本高的问题。

发明内容

针对以上问题，本发明提出一种极低资源下的特定发音人情感语音合成方法、装置、计算机设备和存储介质。

为实现本发明的目的，提供一种极低资源下的特定发音人情感语音合成方法，包括如下步骤：

S10，获取训练文本和所述训练文本对应的音频，将所述训练文本转换为对应音素序列，在得到的音素序列中嵌入带情感向量的槽位，得到初始训练数据；

S20，将所述初始训练数据输入深度学习模型进行训练，得到基础模型；

S30，获取表征特定发音人情感数据的特定文本和特定音频，将所述特定文本转换为对应音素序列，在得到的音素序列中嵌入带情感向量的槽位，得到特定训练数据；

S40，将所述特定训练数据输入所述基础模型训练，得到语音合成模型；

S50，将待合成文本转换为音素序列，得到待合成音素序列，将所述待合成音素序列填入情感槽，得到合成输入数据，将所述合成输入数据输入所述语音合成模型，得到带有特定情感的语音音频。

在一个实施例中，将所述初始训练数据输入深度学习模型进行训练，得到基础模型包括：

将所述初始训练数据输入深度学习模型，经编码器、注意力机制和解码器，输出是梅尔谱，采用反向传播算法对梅尔谱进行反向传播处理，训练获得基础模型。

在一个实施例中，所述深度学习模型为端到端的模型。

一种极低资源下的特定发音人情感语音合成装置，包括：

第一获取模块，用于获取训练文本和所述训练文本对应的音频，将所述训练文本转换为对应音素序列，在得到的音素序列中嵌入带情感向量的槽位，得到初始训练数据；

第一训练模块，用于将所述初始训练数据输入深度学习模型进行训练，得到基础模型；

第二获取模块，用于获取表征特定发音人情感数据的特定文本和特定音频，将所述特定文本转换为对应音素序列，在得到的音素序列中嵌入带情感向量的槽位，得到特定训练数据；

第二训练模块，用于将所述特定训练数据输入所述基础模型训练，得到语音合成模型；

转换模块，用于将待合成文本转换为音素序列，得到待合成音素序列，将所述待合成音素序列填入情感槽，得到合成输入数据，将所述合成输入数据输入所述语音合成模型，得到带有特定情感的语音音频。

在一个实施例中，所述第一训练模块进一步用于：

在一个实施例中，所述深度学习模型为端到端的模型。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例的极低资源下的特定发音人情感语音合成方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例的极低资源下的特定发音人情感语音合成方法的步骤。

上述极低资源下的特定发音人情感语音合成方法、装置、计算机设备和存储介质，通过获取训练文本和所述训练文本对应的音频，将训练文本转换为对应音素序列，在得到的音素序列中嵌入带情感向量的槽位，得到初始训练数据，将初始训练数据输入深度学习模型进行训练，得到基础模型，获取表征特定发音人情感数据的特定文本和特定音频，将特定文本转换为对应音素序列，在得到的音素序列中嵌入带情感向量的槽位，得到特定训练数据，将特定训练数据输入所述基础模型训练，得到语音合成模型，将待合成文本转换为音素序列，得到待合成音素序列，将待合成音素序列填入情感槽，得到合成输入数据，将合成输入数据输入语音合成模型，得到带有特定情感的语音音频，以降低获得带有特定情感的语音音频所需的成本，提高相应情感语音合成方案的灵活性。进一步地，在特定发音人情感语音合成过程中，不需要获取大量的情感标注的数据，极大地减少数据依赖，其中模型是由在预训练模型上迁移学习获得，能最大程度上保证合成语音的自然度，并同时嵌入情感，以保证所得到的带有特定情感的语音音频的精准性。

说明书附图

图1是一个实施例的极低资源下的特定发音人情感语音合成方法流程图；

图2是一个实施例的基础模型示意图；

图3是一个实施例的语音合成模型示意图；

图4是一个实施例的极低资源下的特定发音人情感语音合成装置结构示意图；

图5是一个实施例的计算机设备示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员能够理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请提供的极低资源下的特定发音人情感语音合成方法，可以应用于特定发音人情感语音合成系统。上述特定发音人情感语音合成系统可以获取训练文本和所述训练文本对应的音频，将所述训练文本转换为对应音素序列，在得到的音素序列中嵌入带情感向量的槽位，得到初始训练数据，将所述初始训练数据输入深度学习模型进行训练，得到基础模型，获取表征特定发音人情感数据的特定文本和特定音频，将所述特定文本转换为对应音素序列，在得到的音素序列中嵌入带情感向量的槽位，得到特定训练数据，将特定训练数据输入所述基础模型训练，得到语音合成模型，将待合成文本转换为音素序列，得到待合成音素序列，将所述待合成音素序列填入情感槽，得到合成输入数据，将所述合成输入数据输入所述语音合成模型，得到带有特定情感的语音音频，以降低获得带有特定情感的语音音频所需的成本，提高相应情感语音合成方案的灵活性。其中，特定发音人情感语音合成系统可以但不限于是各种个人计算机和笔记本电脑等智能处理设备。

在一个实施例中，如图1所示，提供了一种极低资源下的特定发音人情感语音合成方法，以该方法应用于特定发音人情感语音合成系统为例进行说明，包括以下步骤：

S10，获取训练文本和所述训练文本对应的音频，将所述训练文本转换为对应音素序列，在得到的音素序列中嵌入带情感向量的槽位，得到初始训练数据。

具体地，上述步骤可以对训练文本进行文本处理，以得到初始训练数据。文本处理指的是带情感槽位文本的音素处理。语音合成模型的初始训练数据包括文本和对应的音频，在处理其文本数据时先将其转换为对应的音素序列，并在处理的序列里面嵌入带情感向量的槽位，将句子的情感信息带入音素序列，最后会得到一个带情感槽位的音素序列，这个序列会作为合成模型训练模型时的输入。带情感向量的槽位可以预留开心、惊讶、害怕、悲伤、愤怒、恶心和中性等多种情感的槽位。

S20，将所述初始训练数据输入深度学习模型进行训练，得到基础模型。

具体地，所述深度学习模型为端到端的模型。

在一个实施例中，将所述初始基础数据输入深度学习模型进行训练，得到基础模型包括：

将所述初始输入数据输入深度学习模型，经编码器、注意力机制和解码器，输出是梅尔谱，采用反向传播算法对梅尔谱进行反向传播处理，训练获得基础模型。

本实施例进行相应模型训练采用的是一个端到端的模型，模型训练输入是来自步骤S10中处理获得的带情感槽位嵌入音素序列，经编码器、注意力机制和解码器，输出的是梅尔谱，经反向传播算法，最后训练获得基础模型。

在一个示例中，上述基础模型可以参考图2所示。图2中，文本101经过带情感槽位的音素处理模块102处理后，形成带槽位的音素序列，经过编码器103编码，形成带情感槽位音素的高维特征，经过解码器105解码，得到梅尔特征106，计算损失107，应用梯度反向传播108，训练103、104和105参数。

S30，获取表征特定发音人情感数据的特定文本和特定音频，将所述特定文本转换为对应音素序列，在得到的音素序列中嵌入带情感向量的槽位，得到特定训练数据。

上述特定发音人也可以称为目标发明人，经过上述特定发音人情感语音合成方法，需要获得与这一类发音人情感向匹配的语音音频。

上述步骤中，特定发音人情感数据的文本处理，处理方式和步骤S10一样，但是文本数据来自特定发音人，目的是用于接下来的迁移学习训练。

S40，将所述特定训练数据输入所述基础模型训练，得到语音合成模型。

上述步骤基于特定发音人情感填槽的迁移学习，训练数据来自步骤S30中数据，每种情感的语音数据仅需要200句(约15分钟)，预训练模型来自步骤S20中训练获得的基础模型，在这个基础模型上，固定其编码模块(可以参考图3所示部件203)，继续训练其解码模块，最后获得特定发音人的语音合成模型。

在一个示例中，语音合成模型可以参考图3。图3中，文本201经过带情感槽位的音素处理模块202处理后，形成带槽位的音素序列，经过编码器203编码，203为上述图2中训练基础模型的编码器103部分(固定参数)，形成带情感槽位音素的高维特征，经过解码器205解码，得到梅尔特征206，在迁移学习训练时，计算损失207，应用梯度反向传播208，训练204和205参数；在推理时，206直接经过声码器210，生成带情感的语音。

上述步骤可以将待合成文本处理成音素序列后，将相应情感槽值填入该序列，经过步骤S40中模型的推理，获得带有指定情感的语音音频。为了确保情感正确性，不致影响交互体验，此处的情感填槽可以手动填充。

上述极低资源下的特定发音人情感语音合成方法，通过获取训练文本和所述训练文本对应的音频，将训练文本转换为对应音素序列，在得到的音素序列中嵌入带情感向量的槽位，得到初始训练数据，将初始训练数据输入深度学习模型进行训练，得到基础模型，获取表征特定发音人情感数据的特定文本和特定音频，将特定文本转换为对应音素序列，在得到的音素序列中嵌入带情感向量的槽位，得到特定训练数据，将特定训练数据输入所述基础模型训练，得到语音合成模型，将待合成文本转换为音素序列，得到待合成音素序列，将待合成音素序列填入情感槽，得到合成输入数据，将合成输入数据输入语音合成模型，得到带有特定情感的语音音频，以降低获得带有特定情感的语音音频所需的成本，提高相应情感语音合成方案的灵活性。进一步地，在特定发音人情感语音合成过程中，不需要获取大量的情感标注的数据，极大对减少数据依赖，其中模型是由在预训练模型上迁移学习获得，能最大程度上保证合成语音的自然度，并同时嵌入情感，以保证所得到的带有特定情感的语音音频的精准性。

请参考图4，图4为一个实施例的极低资源下的特定发音人情感语音合成装置结构示意图，包括：

第一获取模块10，用于获取训练文本和所述训练文本对应的音频，将所述训练文本转换为对应音素序列，在得到的音素序列中嵌入带情感向量的槽位，得到初始训练数据；

第一训练模块20，用于将所述初始训练数据输入深度学习模型进行训练，得到基础模型；

第二获取模块30，用于获取表征特定发音人情感数据的特定文本和特定音频，将所述特定文本转换为对应音素序列，在得到的音素序列中嵌入带情感向量的槽位，得到特定训练数据；

第二训练模块40，用于将所述特定训练数据输入所述基础模型训练，得到语音合成模型；

转换模块50，用于将待合成文本转换为音素序列，得到待合成音素序列，将所述待合成音素序列填入情感槽，得到合成输入数据，将所述合成输入数据输入所述语音合成模型，得到带有特定情感的语音音频。

在一个实施例中，所述第一训练模块进一步用于：

在一个实施例中，所述深度学习模型为端到端的模型。

关于极低资源下的特定发音人情感语音合成装置的具体限定可以参见上文中对于极低资源下的特定发音人情感语音合成方法的限定，在此不再赘述。上述极低资源下的特定发音人情感语音合成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种极低资源下的特定发音人情感语音合成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

基于如上所述的示例，在一个实施例中还提供一种计算机设备，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现如上述各实施例中的任意一种极低资源下的特定发音人情感语音合成方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性的计算机可读取存储介质中，如本发明实施例中，该程序可存储于计算机系统的存储介质中，并被该计算机系统中的至少一个处理器执行，以实现包括如上述极低资源下的特定发音人情感语音合成方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

据此，在一个实施例中还提供一种计算机存储介质计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如上述各实施例中的任意一种极低资源下的特定发音人情感语音合成方法。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

需要说明的是，本申请实施例所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换，以使这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

本申请实施例的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种极低资源下的特定发音人情感语音合成方法，其特征在于，包括如下步骤：

S10，获取训练文本和所述训练文本对应的音频，将所述训练文本转换为对应音素序列，在得到的音素序列中嵌入带情感向量的槽位，得到初始训练数据；

S20，将所述初始训练数据输入深度学习模型进行训练，得到基础模型；

S30，获取表征特定发音人情感数据的特定文本和特定音频，将所述特定文本转换为对应音素序列，在得到的音素序列中嵌入带情感向量的槽位，得到特定训练数据；

S40，将所述特定训练数据输入所述基础模型训练，得到语音合成模型；

S50，将待合成文本转换为音素序列，得到待合成音素序列，将所述待合成音素序列填入情感槽，得到合成输入数据，将所述合成输入数据输入所述语音合成模型，得到带有特定情感的语音音频。
根据权利要求1所述的极低资源下的特定发音人情感语音合成方法，其特征在于，将所述初始训练数据输入深度学习模型进行训练，得到基础模型包括：

将所述初始训练数据输入深度学习模型，经编码器、注意力机制和解码器，输出是梅尔谱，采用反向传播算法对梅尔谱进行反向传播处理，训练获得基础模型。
根据权利要求1所述的极低资源下的特定发音人情感语音合成方法，其特征在于，所述深度学习模型为端到端的模型。
一种极低资源下的特定发音人情感语音合成装置，其特征在于，包括：

第一获取模块，用于获取训练文本和所述训练文本对应的音频，将所述训练文本转换为对应音素序列，在得到的音素序列中嵌入带情感向量的槽位，得到初始训练数据；

第一训练模块，用于将所述初始训练数据输入深度学习模型进行训练，得到基础模型；

第二获取模块，用于获取表征特定发音人情感数据的特定文本和特定音频，将所述特定文本转换为对应音素序列，在得到的音素序列中嵌入带情感向量的槽位，得到特定训练数据；

第二训练模块，用于将所述特定训练数据输入所述基础模型训练，得到语音合成模型；

转换模块，用于将待合成文本转换为音素序列，得到待合成音素序列，将所述待合成音素序列填入情感槽，得到合成输入数据，将所述合成输入数据输入所述语音合成模型，得到带有特定情感的语音音频。
根据权利要求4所述的极低资源下的特定发音人情感语音合成装置，其特征在于，所述第一训练模块进一步用于：

将所述初始训练数据输入深度学习模型，经编码器、注意力机制和解码器，输出是梅尔谱，采用反向传播算法对梅尔谱进行反向传播处理，训练获得基础模型。
根据权利要求4所述的极低资源下的特定发音人情感语音合成装置，其特征在于，所述深度学习模型为端到端的模型。
一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至3中任一项所述方法的步骤。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至3中任一项所述方法的步骤。