WO2021227707A1

WO2021227707A1 - 音频合成方法、装置、计算机可读介质及电子设备

Info

Publication number: WO2021227707A1
Application number: PCT/CN2021/085862
Authority: WO
Inventors: 林诗伦
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2020-05-13
Filing date: 2021-04-08
Publication date: 2021-11-18
Also published as: CN112767910B; US20220215827A1; CN112767910A; US12106746B2

Abstract

本申请属于人工智能技术领域，并涉及机器学习技术。具体而言，本申请涉及一种音频合成方法、音频合成装置、计算机可读介质以及电子设备。该方法包括：获取包括至少两个语种类型的文本字符的混合语种文本信息；基于至少两个语种类型，对混合语种文本信息进行文本编码处理，得到混合语种文本信息的中间语义编码特征；获取对应于目标音色主体的目标音色特征，并基于目标音色特征对中间语义编码特征进行解码处理，得到声学特征；对声学特征进行声学编码处理，得到与混合语种文本信息对应的音频。该方法解决了现有的混合语种音频合成技术中存在的因语种差异而出现的音色跳变问题，可稳定地输出自然顺畅且音色统一的混合语种音频。

Description

音频合成方法、装置、计算机可读介质及电子设备

本申请要求于2020年05月13日提交中国专利局、申请号为202010402599.7、申请名称为“音频信息合成方法、装置、计算机可读介质及电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，具体涉及音频合成技术。

背景技术

随着人工智能技术和智能硬件设备(如智能手机、智能音箱等)的快速发展，语音交互技术作为一种自然的交互方式得到越来越多的应用。作为语音交互技术中重要的一环，语音合成技术也取得了长足的进步。语音合成技术也被称为文字转语音技术(Text to Speech，TTS)，其作用是将计算机自己产生的或外部输入的文字信息转换为用户可以听得懂的、流利的语音，并将其播放出来。

在语音合成技术的应用中，往往会遇到多种语言类型的语音混杂的情况，例如中文句子中夹杂着英文单词或英文短语。在这种情形下，切换两种语言类型的语音时一般会出现较大的音色差异，导致合成语音出现明显的音色跳变，影响合成语音的播放效果。因此，如何克服因混合多种语言类型的语音而导致的音色差异，是目前亟待解决的问题。

发明内容

本申请的目的在于提供一种音频合成方法、音频合成装置、计算机可读介质以及电子设备，能够在一定程度上解决因合成音频中存在不同语言类型的语音而导致出现音色差异的技术问题。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供一种音频合成方法，由电子设备执行，该方法包括：

获取混合语种文本信息，所述混合语种文本信息包括对应于至少两个语种类型的文本字符；

基于所述至少两个语种类型，对所述混合语种文本信息进行文本编码处理，得到所述混合语种文本信息的中间语义编码特征；

获取对应于目标音色主体的目标音色特征，并基于所述目标音色特征对所述中间语义编码特征进行解码处理，得到声学特征；

对所述声学特征进行声学编码处理，得到与所述混合语种文本信息对应的音频。

根据本申请实施例的一个方面，提供一种音频信息合成装置，该装置包括：

信息获取模块，用于获取混合语种文本信息，所述混合语种文本信息包括对应于至少两个语种类型的文本字符；

信息编码模块，用于基于所述至少两个语种类型，对所述混合语种文本信息进行文本编码处理，得到所述混合语种文本信息的中间语义编码特征；

信息解码模块，用于获取对应于目标音色主体的目标音色特征，并基于所述目标音色特征对所述中间语义编码特征进行解码处理，得到声学特征；

声学编码模块，用于对所述声学特征进行声学编码处理，得到与所述混合语种文本信息对应的音频。

根据本申请实施例的一个方面，提供一种电子设备，该电子设备包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的音频合成方法。

根据本申请实施例的一个方面，提供一种计算机程序产品，包括指令，当其在计算机上运行时，使得计算机执行如以上技术方案中的音频合成方法。

在本申请实施例提供的技术方案中，通过多个语种类型对应的编码器对混合语种文本信息进行编码处理，再通过结合目标音色主体的音色特征的解码器对编码特征进行解码处理，实现转换生成对应于单一音色和多个语种类型的音频信息。解决了现有的混合语种音频合成技术中存在的因语种差异而出现的音色跳变问题，可稳定地输出自然顺畅且音色统一的混合语种音频。本申请实施例既可部署于云端为各种设备提供通用的音频合成服务，也可根据不同应用需求定制专属音色。由于可以使用不同目标音色主体的单语种音频数据库，实现多个语种类型的音频的混合合成，大大降低了训练数据采集的成本。同时，本申请实施例能够兼容已录制的单语种音频数据库，使得可用音色更为丰富。

附图说明

图1示出了本申请技术方案在一种应用场景中的示例性系统架构示意图；

图2示出了本申请技术方案在另一种应用场景中的示例性系统架构以及定制化音频合成服务流程；

图3示出了本申请实施例提供的音频合成方法的步骤流程图；

图4示出了本申请实施例中通过多路编码器进行编码处理的方法步骤流程图；

图5示出了本申请实施例中基于注意力机制(Attention)进行编码处理的方法步骤流程图；

图6示出了基于本申请实施例实现对中英混合文本进行音频信息合成的原理示意图；

图7示出了本申请实施例提供的音频合成装置的组成框图；

图8示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

本申请的应用场景广泛，可以将多个语种类型混合的音频合成方案配置为云服务，作为一种基础技术赋能于使用该云服务的用户，也可将该方案用于垂直领域下的个性化场景。例如，可以应用于阅读类APP智能朗读、智能客服、新闻播报、智能设备交互等场景，实现在各种场景下的智能化音频合成。

图1示出了本申请技术方案在一种应用场景中的示例性系统架构示意图。

如图1所示，系统架构100可以包括客户端110、网络120和服务端130。客户端110可以承载于智能手机、智能机器人、智能音箱、平板电脑、笔记本电脑、台式电脑等各种终端设备。服务端130可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务的云服务器。网络120可以是能够在客户端110和服务端130之间提供通信链路的各种连接类型的通信介质，例如可以是有线通信链路、无线通信链路等等。

根据实现需要，本申请实施例提供的技术方案可以应用于客户端110，也可以应用于服务端130，或者可以由客户端110和服务端130协同实施，本申请对此不做特殊限定。

举例而言，智能机器人、智能手机等各种智能设备均可通过无线网络接入云服务器提供的混合语种音频合成服务，如中英混合语音合成服务。客户端110将需要合成的中英混合文本通过网络120发送至服务端130，服务端130进行语音合成后，可通过流式或整句返回的形式，向客户端110发送对应的合成音频。一次完整的语音合成流程例如可以包括：

客户端110将需要合成的中英混合文本上传至服务端130，服务端130接收到该中英混合文本后进行相应的规整化处理；

服务端130将规整化后的文本信息输入到中英混合语音合成系统中，通过该中英混合语音合成系统快速合成出该文本信息对应的音频，并完成音频压缩等后处理操作；

服务端130通过流式或整句返回的方式将音频返回到客户端110，客户端110在接收到该音频后可对其进行流畅自然的语音播放。

在以上语音合成过程中，服务端130提供的语音合成服务延迟很小，客户端110基本可以立即获得返回结果。用户可以在短时间内听到所需内容，解放双眼，交互自然便捷。

图2示出了本申请技术方案在另一种应用场景中的示例性系统架构以及定制化音频合成服务流程。该系统架构及流程可以应用于小说朗读、新闻播报等需要定制专属音色语音合成服务的垂直领域中。

在该系统架构下实现定制化音频合成服务的流程可以包括：

前端需求方210提交其产品所需的语音合成服务的音色需求清单，如发音人性别，音色类型等各种需求。

后台服务方220收到音色需求清单后，根据所需音色情况采集对应的，并构建音频数据库，训练对应的音频合成模型230。

后台服务方220利用音频合成模型230合成样例，在将样例交付给前端需求方210检验确认后，可以将定制的音频合成模型230部署上线；

前端需求方210的应用程序(如阅读类APP，新闻客户端等)将需要合成音频的文本发送至后台服务方220上部署的音频合成模型230；前端需求方210的用户可以在应用程序中听到用对应的定制音色朗读的文本内容，具体的音频合成流程与图1所示系统架构中使用的在线合成服务相同。

在该应用场景中，前端需求方210在提供需求后，后台服务方220仅需采集符合需求的一种语言类型(如中文)的发音人音频数据库，并结合原有的其他发音人的另一种语言类型(如英文)的音频数据库，进行可语种混合的音频合成模型230的定制化训练，最终以满足前端需求方210要求的音色进行语种混合音频合成，如此，大大降低了定制音频合成服务的成本。

下面结合具体实施方式对本申请提供的技术方案做出详细说明。

图3示出了本申请实施例提供的音频合成方法的步骤流程图。该音频合成方法的执行主体为电子设备，该电子设备可以是承载有客户端的智能手机、智能音箱等各种终端设备，也可以是作为服务端的物理服务器、云服务器等各种服务器设备。如图3所示，该音频合成方法主要包括步骤S310～步骤S340：

步骤S310.获取混合语种文本信息，该混合语种文本信息包括对应于至少两个语种类型的文本字符。

混合语种文本信息由任意数量的文本字符组成，其中各个文本字符可以对应于至少两个不同的语种类型。例如，混合语种文本信息可以是由中文字符和英文字符混合组成的文本。

本步骤可以通过实时接收的方式，获取用户通过输入设备输入的混合语种文本信息，也可以通过逐项采集的方式，从包括文本信息的文件中逐句或者逐段地提取混合语种文本信息。

除此之外，本步骤还可以对用户输入的包含两种或者两种以上不同语种类型的语音信息进行语音识别，基于语音识别结果得到包括至少两个语种类型的混合语种文本信息；例如，本步骤可以通过预先训练的语音识别模型，对接收到的包括有至少两种语种类型的语音信息进行语音识别处理，得到相应的混合语种文本信息，再经过后续步骤对该混合语种文本信息进行音频合成，达到整体上音色转换的效果，实现对一个或者多个说话人进行音色统一的变声处理。

步骤S320.基于至少两个语种类型，对混合语种文本信息进行文本编码处理，得到混合语种文本信息的中间语义编码特征。

本步骤可以利用预先训练的编码器(encoder)对混合语种文本信息进行文本编码处理，得到与该混合语种文本信息的自然语义相关的中间语义编码特征。其中，编码器的数量和类型可以与混合语种文本信息中包括的语种类型一一对应，例如混合语种文本信息中同时包含了中文字符和英文字符，那么本步骤可以利用中文和英文两路编码器对混合语种文本信息进行文本编码处理，得到中间语义编码特征，该中间语义编码特征在后续步骤中可以再通过与编码器相对应的解码器(decoder)进行解码处理，最终形成可供用户理解的、具有音频形式的自然语言。

编码器可以是基于卷积神经网络(Convolutional Neural Network，CNN)、循环神经网络(Recurrent Neural Network，RNN)、长短时记忆网络(Long Short-Term Memory，LSTM)或者循环门单元(Gate Recurrent Unit，GRU)等各种类型的神经网络训练得到的模型。CNN是一种前馈神经网络，其神经元可对感受野内的单元进行响应；CNN通常由多个卷积层和顶端的全连接层组成，其通过共享参数降低模型的参数量，使之在图像和语音识别方面得到广泛应用。RNN是一类以序列(sequence)数据为输入，在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络。LSTM是一种循环神经网络，它在算法中加入了一个判断信息有用与否的单元，该单元中放置了输入门、遗忘门和输出门；信息进入LSTM后，根据规则来判断其是否有用，符合算法认证的信息才会留下，不符的信息则通过遗忘门被遗忘；LSTM适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。GRU是循环神经网络的一种，和LSTM一样，GRU也是为了解决长期记忆和反向传播中的梯度等问题而提出的；与LSTM相比，GRU内部少了一个“门控”，参数比LSTM少，在多数情况下能够达到与LSTM相当的效果并有效降低计算耗时。

步骤S330.获取对应于目标音色主体的目标音色特征，并基于目标音色特征对中间语义编码特征进行解码处理，得到声学特征。

目标音色主体是用于确定合成音频音色特点的主体对象，该主体对象可以是存储有声音样本的音频数据库对应的说话人。在一些实施例中，目标音色主体可以是真实的实体对象，例如可以是具有明显音色特点的主播、配音演员等真实人物；另外，目标音色主体也可以是由计算机模拟合成的虚拟对象，例如可以是利用语音合成软件VOCALOID生成的初音未来、洛天依等虚拟人物。

本步骤可以预先获取用户需求的音色特点，如男声、情感类发声等等，然后选取符合这些音色特点的目标音色主体。针对一个确定的目标音色主体，可以通过特征提取或者映射等方式，获取能够体现和标识其音色特点的目标音色特征。然后可以基于该目标音色特征，利用预先训练的解码器对步骤S320得到的中间语义编码特征进行解码处理，以得到相应的声学特征。

声学特征例如可以是以频谱(Spectrograms)或者其他形式呈现的具有音色特点和声音内容的特征。频谱是指时域信号在频域下的表示方式，可以通过对声音信号进行傅里叶变换得到，所得的结果是分别以幅度及相位为纵轴、频率为横轴的两种图像，语音合成技术应用中多会省略相位的信息，而只保留不同频率下对应的幅度信息。

步骤S340.对声学特征进行声学编码处理，得到与混合语种文本信息对应的音频。

本步骤可以将声学特征输入至声码器(Vocoder)，通过声码器对该声学特征进行转换处理，形成可以通过扬声器等音频输出设备输出播放的音频。声码器源自人声编码器(Voice Encoder)的缩写，也被称作语音信号分析合成系统，声码器的作用是将声学特征转换为声音。

在本申请实施例提供的音频合成方法中，通过多个语种类型对应的编码器对混合语种文本信息进行编码处理，再通过结合目标音色主体的音色特征的解码器对编码特征进行解码处理，实现转换生成对应于单一音色和多个语种类型的音频信息。解决了现有的混合语种音频合成技术中存在的因语种差异而出现的音色跳变问题，可稳定地输出自然顺畅且音色统一的混合语种音频。本申请实施例既可部署于云端为各种设备提供通用的音频合成服务，也可根据不同应用需求定制专属音色。由于可以使用不同目标音色主体的单语种音频数据库，实现对于多个语种类型的音频的混合合成，大大降低了训练数据采集的成本。同时，本申请实施例能够兼容已录制的单语种音频数据库，使得可用音色更为丰富。

下面结合图4至图5对以上实施例中部分步骤的实现方式做出详细说明。

图4示出了本申请实施例中通过多路编码器进行编码处理的方法步骤流程图。如图4所示，在以上实施例的基础上，步骤S320.基于至少两个语种类型，对混合语种文本信息进行编码处理，得到混合语种文本信息的中间语义编码特征，可以包括以下步骤S410～步骤S430：

步骤S410.通过各个语种类型各自对应的单语种文本编码器，分别对混合语种文本信息进行文本编码处理，得到混合语种文本信息的至少两个单语种编码特征。

本步骤可以预先对混合语种文本信息进行映射变换，形成编码器可识别的向量特征。映射变换方式例如可以是，通过各个语种类型各自对应的字符嵌入矩阵，分别对混合语种文本信息进行映射变换处理，得到混合语种文本信息的至少两个嵌入字符特征。字符嵌入矩阵的数量和类型可以与语种类型一一对应，例如，混合语种文本信息中同时包含中文字符和英文字符，那么本步骤可以通过对应于中文字符的字符嵌入矩阵对混合语种文本信息进行映射变换处理，得到对应于中文字符的嵌入字符特征，同时可以通过对应于英文字符的字符嵌入矩阵对混合语种文本信息进行映射变换处理，得到对应于英文字符的嵌入字符特征。通过字符嵌入矩阵可以先对混合语种文本信息进行线性映射，然后再利用激活函数或者其他方式对线性映射结果进行非线性变换，得到相应的嵌入字符特征。

在混合语种文本信息中包括几个语种类型，那么本步骤便可以使用几个相应的单语种文本编码器。通过各个语种类型各自对应的单语种文本编码器，分别对嵌入字符特征进行编码处理，可以得到混合语种文本信息的至少两个单语种编码特征。例如，混合语种文本信息中同时包含中文字符和英文字符，在得到对应于中文字符的嵌入字符特征后，可以通过对应于中文语种的单语种文本编码器，对该嵌入字符特征进行编码处理，得到对应于中文语种的单语种编码特征，同时在得到对应于英文字符的嵌入字符特征后，可以通过对应于英文语种的单语种文本编码器，对该嵌入字符特征进行编码处理，得到对应于英文语种的单语种编码特征。

本申请实施例中使用的单语种文本编码器可以是具有残差网络结构的编码器，残差网络的特点是容易优化，并且能够通过增加相当的深度来提高准确率。在此基础上，可以通过各个语种类型各自对应的单语种文本编码器，分别对嵌入字符特征进行残差编码，得到混合语种文本信息的至少两个残差编码特征；然后将嵌入字符特征分别与各个残差编码特征进行融合处理，得到混合语种文本信息的至少两个单语种编码特征。

残差编码特征是编码器输入数据和输出数据的差异部分，将残差编码特征与输入的嵌入字符特征进行融合即可得到单语种编码特征，这里的融合方式可以是将残差编码特征与嵌入字符特征直接相加。残差网络结构的编码方式对编码输出数据的数据变化具有更强的敏感性，在训练过程中，编码输出数据的数据变化对网络权重的调整作用更大，因此能够获得更好的训练效果。

步骤S420.对至少两个单语种编码特征进行融合处理，得到混合语种文本信息的混合语种编码特征。

可以通过融合处理的方式，根据由各个单语种文本编码器输出得到的单语种编码特征，得到混合语种文本信息的混合语种编码特征。例如，对于两个单语种编码特征，可以对其进行向量计算，如通过直接相加的方式得到混合语种编码特征。另外，也可以对两个单语种编码特征进行拼接处理，再通过全连接层或者其他网络结构，对拼接处理得到的特征进行映射处理得到混合语种编码特征。本申请实施例对此不做特殊限定。

在本申请的一些实施例中，可以基于残差网络结构在对应于不同语种类型的单语种文本编码器中，分别对各个残差编码特征与嵌入字符特征进行融合处理，得到单语种编码特征，然后再对单语种编码特征进行融合处理，得到混合语种文本信息的混合语种编码特征。

在本申请的另外一些实施例中，也可以基于残差网络结构在对应于不同语种类型的单语种编码器中，仅对各个嵌入字符特征进行残差编码得到残差编码特征，即直接以残差编码特征作为各个单语种文本编码器输出的单语种编码特征，然后再对各个单语种编码特征与嵌入字符特征进行融合处理，得到混合语种文本信息的混合语种编码特征，这种处理方式相比于上一种实施方式可以减少一次融合处理，从而可以提交计算效率、节约计算成本。

步骤S430.根据混合语种编码特征，确定混合语种文本信息的中间语义编码特征。

在本申请的一些实施例中，可以直接将混合语种编码特征确定为混合语种文本信息的中间语义编码特征，也可以通过预设函数对混合语种编码特征进行变换处理后得到中间语义编码特征。

在本申请的另一些实施例中，可以在混合语种文本信息中嵌入语种类型的标识信息，得到混合语种文本信息的中间语义编码特征。

举例而言，本步骤可以通过基于至少两个语种类型的语种嵌入矩阵，对混合语种文本信息进行映射变换处理，得到混合语种文本信息的嵌入语种特征；然后，对混合语种编码特征和嵌入语种特征进行融合处理，得到混合语种文本信息的中间语义编码特征。

通过语种嵌入矩阵对混合语种文本信息进行的映射变换处理，可以是按照语种嵌入矩阵中预设的矩阵参数，对混合语种文本信息进行线性映射，然后再通过激活函数或者其他方式对线性映射结果进行非线性变换，从而得到相应的嵌入语种特征。例如，混合语种文本信息是一个具有一定字符数量的字符序列，那么对其进行映射变换后得到的嵌入语种特征可以是一个与该字符序列具有相同序列长度的特征向量，该特征向量中的每个元素分别对应表示字符序列中每个字符对应的语种类型。

对混合语种编码特征和嵌入语种特征进行的融合处理，可以是对二者进行向量计算，如通过直接相加的方式得到混合语种文本信息的中间语义编码特征。另外，也可以对混合语种编码特征和嵌入语种特征进行拼接处理，然后再通过全连接层或者其他网络结构，对拼接处理结果进行映射处理，得到混合语种文本信息的中间语义编码特征。

通过执行步骤S410～步骤S430，可以实现利用各个语种类型各自对应的单语种文本编码器，通过不同语种的相互独立的符号集，对混合语种文本信息进行的独立编码，并经过融合处理后得到包含语种类型信息的中间语义编码特征。

图5示出了本申请实施例中基于注意力机制(Attention)进行编码处理的方法步骤流程图。如图5所示，在以上各实施例的基础上，步骤S320.基于至少两个语种类型，对混合语种文本信息进行编码处理，得到混合语种文本信息的中间语义编码特征，可以包括以下步骤S510～步骤S530：

步骤S510.基于至少两个语种类型，对混合语种文本信息中的各个文本字符进行文本编码处理，得到对应于各个文本字符的字符编码特征。

混合语种文本信息是由多个文本字符组成的字符序列，在利用以上各实施例提供的编码方法对混合语种文本信息进行文本编码处理时，可以对其中的各个文本字符依次进行编码处理，得到各个文本字符各自对应的字符编码特征。

步骤S520.获取各个文本字符各自对应的注意力分配权重。

由于混合语种文本信息中的各个文本字符除了存在字符语义差别之外，还存在其他多个方面的对语义编解码会产生影响的因素，因此本步骤可以根据不同维度的影响因素，确定各个文本字符各自对应的注意力分配权重。

步骤S530.根据各个文本字符各自对应的注意力分配权重，对各个文本字符各自对应的字符编码特征进行加权映射，得到混合语种文本信息的中间语义编码特征。

注意力分配权重的大小决定了在编解码过程中每个文本字符的语义重要程度，因此，根据注意力分配权重对各个文本字符的字符编码特征进行加权映射，可以提高得到的中间语义编码特征的语义表达能力。

在本申请的一些实施例中，一个注意力维度可以是各个文本字符在混合语种文本信息中的序列位置信息。例如，本申请实施例可以先获取各个文本字符在混合语种文本信息中的序列位置信息，然后根据序列位置信息，确定各个文本字符各自对应的位置注意力分配权重。

在此基础上，本申请实施例还可以获取各个文本字符的语种类型信息，然后根据语种类型信息，确定各个文本字符各自对应的语种注意力分配权重，进而根据位置注意力分配权重和语种注意力分配权重，确定各个文本字符各自对应的多重注意力分配权重。

在此基础上，本申请实施例还可以获取各个文本字符各自对应的目标音色主体的音色标识信息，然后根据音色标识信息，确定各个文本字符各自对应的音色注意力分配权重，进而根据位置注意力分配权重、语种注意力分配权重以及音色注意力分配权重，确定各个文本字符各自对应的多重注意力分配权重。

通过执行步骤S510～步骤S530，可以实现基于注意力机制的编码效果，尤其是通过多重注意力机制，可以将多种不同的影响因素引入到混合语种文本信息的编码过程中，提高编码结果的语义表达能力。

在步骤S330中，获取对应于目标音色主体的目标音色特征，并基于目标音色特征对中间语义编码特征进行解码处理，得到声学特征。

本步骤可以预先配置对应于不同音色主体的音频数据库，并且可以通过编号等方式为不同的音色主体分配对应的音色标识信息。本步骤可以先获取目标音色主体的音色标识信息，然后通过音色嵌入矩阵对音色标识信息进行映射变换处理，得到目标音色主体的目标音色特征。然后可以将目标音色特征和中间语义编码特征共同输入至解码器中，由解码器进行解码处理后，得到具有目标音色主体的音色特点的声学特征。

在通过解码器进行解码处理时，也可以使用与以上实施例中的编码器相似的多重注意力机制，例如在步骤S320和步骤S330中可以使用基于注意力机制的RNN网络结构作为编码器-解码器模型，实现对混合语种文本信息的编解码处理，另外也可以使用变形器(Transformer)作为编码器-解码器模型进行编解码处理，Transformer模型是基于全注意机制的网络结构，可以提高模型的并行能力。

在步骤S340.对声学特征进行声学编码处理，得到与混合语种文本信息相对应的音频之后，本申请实施例还可以获取利用目标音色主体的音色数据样本训练得到音色转换模型，然后，通过音色转换模型，对音频进行音色转换处理，得到对应于目标音色主体的音频。

通过训练音色转换模型，并利用音色转换模型对输出的音频进行音色转换，可以在不增加数据采集成本的前提下，使得混合语种的音频音色更为统一。

图6示出了基于本申请实施例实现对中英混合文本进行音频合成的原理示意图。如图6所示，实现音频合成的整体系统主要可以包括多路残差编码器610、语种嵌入生成器620、多重注意力机制模块630和说话人嵌入生成器640四个部分，另外还包括解码器650和声码器660等部分。

多路残差编码器610(Multipath-Res-Encoder)可以通过中英两路编码器对输入的混合语种文本进行残差编码，并将编码结果与输入的混合语种文本进行相加，得到文本编码表征(Encode Representation)，在增强文本编码表示的可区分性的同时降低了中英语种边界处的割裂。

语种嵌入生成器620可以通过语种嵌入(Language Embedding)对输入的混合语种文本中的每个字符的所属类别进行映射及非线性变换，得到语种嵌入。这样一来，输入的每个字符都有对应的语种嵌入对其进行标明，与文本编码表征结合，可以进一步增强编码器输出结果的可区分性。

多重注意力机制模块630(Multi-Attention)除了关注文本编码表征之外，还要关注语种嵌入。注意力机制作为连接多路残差编码器610和解码器650的桥梁，准确地判断每个解码时刻编码中的哪个位置对最终合成质量起决定性作用。多重注意力机制既关注文本编码表征，对当前需要解码的内容有明确的认知。与此同时，还关注语种嵌入，对当前解码内容属于哪个语种有明确的判别。二者结合，能够使得解码更为稳定顺畅。

说话人嵌入生成器640(Speaker Embedding)将不同音频数据库所属的说话人序号，通过映射和非线性变换得到说话人嵌入信息，并参与到每一个解码时刻中。由于解码器650的作用是将文本编码表征转换为声学特征，对最终合成音频的音色起关键性作用。将说话人嵌入引入到每个解码时刻中，能有效地控制解码器650输出的音频特征属性，进而控制最终合成音频的音色为对应说话人的音色。

解码器650输出的声学特征经过声码器660进行声音编码后，即可得到与混合语种文本相对应的中文和英文混合的音频。该系统包含了端到端学习带来的好处，并通过对模型编码端和解码端的精细化设计，保证了合成的中英混合音频自然顺畅且音色一致。

应当注意，尽管在附图中以特定顺序描述了本申请中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的音频合成方法。图7示出了本申请实施例提供的音频合成装置的组成框图。如图7所示，音频合成装置700可以包括：

信息获取模块710，用于获取混合语种文本信息，该混合语种文本信息包括对应于至少两种语种类型的；

信息编码模块720，用于基于至少两个语种类型，对混合语种文本信息进行文本编码处理，得到混合语种文本信息的中间语义编码特征；

信息解码模块730，用于获取对应于目标音色主体的目标音色特征，并基于目标音色特征对中间语义编码特征进行解码处理，得到声学特征；

声学编码模块740，用于对声学特征进行声学编码处理，得到与混合语种文本信息对应的音频信息。

在本申请的一些实施例中，基于以上各实施例，信息编码模块720包括：

单语种编码单元，用于通过各个语种类型各自对应的单语种文本编码器，分别对混合语种文本信息进行文本编码处理，得到混合语种文本信息的至少两个单语种编码特征；

编码特征融合单元，用于对至少两个单语种编码特征进行融合处理，得到混合语种文本信息的混合语种编码特征；

编码特征确定单元，用于根据混合语种编码特征，确定混合语种文本信息的中间语义编码特征。

在本申请的一些实施例中，基于以上各实施例，单语种编码单元包括：

字符嵌入子单元，用于通过各个语种类型各自对应的字符嵌入矩阵，分别对混合语种文本信息进行映射变换处理，得到混合语种文本信息的至少两个嵌入字符特征；

嵌入编码子单元，用于通过各个语种类型各自对应的单语种文本编码器，分别对嵌入字符特征进行文本编码处理，得到混合语种文本信息的至少两个单语种编码特征。

在本申请的一些实施例中，基于以上各实施例，嵌入编码子单元具体用于：

通过各个语种类型各自对应的单语种文本编码器，分别对嵌入字符特征进行残差编码，得到混合语种文本信息的至少两个残差编码特征；

将嵌入字符特征分别与各个残差编码特征进行融合处理，得到混合语种文本信息的至少两个单语种编码特征。

在本申请的一些实施例中，基于以上各实施例，单语种编码特征是对嵌入字符特征进行残差编码得到的残差编码特征；编码特征融合单元包括：

编码特征融合子单元，用于对至少两个单语种编码特征以及嵌入字符特征进行融合处理，得到混合语种文本信息的混合语种编码特征。

在本申请的一些实施例中，基于以上各实施例，编码特征确定单元包括：

语种嵌入子单元，用于通过基于至少两个语种类型的语种嵌入矩阵，对混合语种文本信息进行映射变换处理，得到混合语种文本信息的嵌入语种特征；

语种融合子单元，用于对混合语种编码特征和嵌入语种特征进行融合处理，得到混合语种文本信息的中间语义编码特征。

字符编码单元，用于基于至少两个语种类型对，混合语种文本信息中的各个文本字符进行文本编码处理，得到各个文本字符各自对应的字符编码特征；

权重获取单元，用于获取各个文本字符各自对应的注意力分配权重；

特征加权单元，用于根据各个文本字符各自对应的注意力分配权重，对各个文本字符各自的字符编码特征进行加权映射，得到混合语种文本信息的中间语义编码特征。

在本申请的一些实施例中，基于以上各实施例，权重获取单元包括：

序列位置获取子单元，用于获取各个文本字符在混合语种文本信息中的序列位置信息；

第一权重确定子单元，用于根据序列位置信息，确定各个文本字符各自对应的位置注意力分配权重。

在本申请的一些实施例中，基于以上各实施例，权重获取单元还包括：

语种类型获取子单元，用于获取各个文本字符的语种类型信息；

语种权重确定子单元，用于根据语种类型信息，确定各个文本字符各自对应的语种注意力分配权重；

第二权重确定子单元，用于根据位置注意力分配权重和语种注意力分配权重，确定各个文本字符各自对应的多重注意力分配权重。

在本申请的一些实施例中，基于以上各实施例，第二权重确定子单元具体用于：

获取各个文本字符各自对应的目标音色主体的音色标识信息；

根据音色标识信息，确定各个文本字符各自对应的音色注意力分配权重；

根据位置注意力分配权重、语种注意力分配权重以及音色注意力分配权重，确定各个文本字符各自对应的多重注意力分配权重。

在本申请的一些实施例中，基于以上各实施例，信息解码模块730包括：

音色标识获取单元，用于获取目标音色主体的音色标识信息；

音色标识嵌入单元，用于通过音色嵌入矩阵对音色标识信息进行映射变换处理，得到目标音色主体的目标音色特征。

在本申请的一些实施例中，基于以上各实施例，音频合成装置700还包括：

模型获取模块，用于获取利用目标音色主体的音色数据样本训练得到音色转换模型；

音色转换模块，用于通过音色转换模型，对音频信息进行音色转换处理，得到对应于目标音色特征的音频。

本申请各实施例中提供的音频合成装置的具体细节已经在对应的方法实施例中进行了详细的描述，此处不再赘述。

需要说明的是，图8示出的电子设备的计算机系统800仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，计算机系统800包括中央处理单元(Central Processing Unit，CPU)801，其可以根据存储在只读存储器(Read-Only Memory，ROM)802中的程序或者从存储部分808加载到随机访问存储器(Random Access Memory，RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有系统操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(Input/Output，I/O)接口805 也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN(Local Area Network，局域网)卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本申请的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

Claims

一种音频合成方法，由电子设备执行，包括：

获取混合语种文本信息，所述混合语种文本信息包括对应于至少两个语种类型的文本字符；

基于所述至少两个语种类型，对所述混合语种文本信息进行文本编码处理，得到所述混合语种文本信息的中间语义编码特征；

获取对应于目标音色主体的目标音色特征，并基于所述目标音色特征对所述中间语义编码特征进行解码处理，得到声学特征；

对所述声学特征进行声学编码处理，得到与所述混合语种文本信息对应的音频。
根据权利要求1所述的音频合成方法，所述基于所述至少两个语种类型，对所述混合语种文本信息进行文本编码处理，得到所述混合语种文本信息的中间语义编码特征，包括：

通过各个所述语种类型各自对应的单语种文本编码器，分别对所述混合语种文本信息进行文本编码处理，得到所述混合语种文本信息的至少两个单语种编码特征；

对所述至少两个单语种编码特征进行融合处理，得到所述混合语种文本信息的混合语种编码特征；

根据所述混合语种编码特征，确定所述中间语义编码特征。
根据权利要求2所述的音频合成方法，所述通过各个所述语种类型各自对应的单语种文本编码器，分别对所述混合语种文本信息进行文本编码处理，得到所述混合语种文本信息的至少两个单语种编码特征，包括：

通过各个所述语种类型各自对应的字符嵌入矩阵，分别对所述混合语种文本信息进行映射变换处理，得到所述混合语种文本信息的至少两个嵌入字符特征；

通过各个所述语种类型各自对应的单语种文本编码器，分别对所述嵌入字符特征进行文本编码处理，得到所述混合语种文本信息的至少两个单语种编码特征。
根据权利要求3所述的音频合成方法，所述通过各个所述语种类型各自对应的单语种文本编码器，分别对所述嵌入字符特征进行文本编码处理，得到所述混合语种文本信息的至少两个单语种编码特征，包括：

通过各个所述语种类型各自对应的单语种文本编码器，分别对所述嵌入字符特征进行残差编码，得到所述混合语种文本信息的至少两个残差编码特征；

将所述嵌入字符特征分别与各个所述残差编码特征进行融合处理，得到所述混合语种文本信息的至少两个单语种编码特征。
根据权利要求3所述的音频合成方法，所述单语种编码特征是对所述嵌入字符特征进行残差编码得到的残差编码特征；所述对所述至少两个单语种编码特征进行融合处理，得到所述混合语种文本信息的混合语种编码特征，包括：

对所述至少两个单语种编码特征以及所述嵌入字符特征进行融合处理，得到所述混合语种文本信息的混合语种编码特征。
根据权利要求2所述的音频合成方法，所述根据所述混合语种编码特征，确定所述中间语义编码特征，包括：

通过基于所述至少两个语种类型的语种嵌入矩阵，对所述混合语种文本信息进行映射变换处理，得到所述混合语种文本信息的嵌入语种特征；

对所述混合语种编码特征和所述嵌入语种特征进行融合处理，得到所述中间语义编码特征。
根据权利要求1所述的音频合成方法，所述基于所述至少两个语种类型，对所述混合语种文本信息进行文本编码处理，得到所述混合语种文本信息的中间语义编码特征，包括：

基于所述至少两个语种类型，对所述混合语种文本信息中的各个文本字符进行文本编码处理，得到各个所述文本字符各自对应的字符编码特征；

获取各个所述文本字符各自对应的注意力分配权重；

根据各个所述文本字符各自对应的注意力分配权重，对各个所述文本字符各自对应的字符编码特征进行加权映射，得到所述中间语义编码特征。
根据权利要求7所述的音频合成方法，所述获取各个所述文本字符各自对应的注意力分配权重，包括：

获取各个所述文本字符在所述混合语种文本信息中的序列位置信息；

根据所述序列位置信息，确定各个所述文本字符各自对应的位置注意力分配权重。
根据权利要求8所述的音频合成方法，所述获取各个所述文本字符各自对应的注意力分配权重，还包括：

获取各个所述文本字符的语种类型信息；

根据所述语种类型信息，确定各个所述文本字符各自对应的语种注意力分配权重；

根据所述位置注意力分配权重和所述语种注意力分配权重，确定各个所述文本字符各自对应的多重注意力分配权重。
根据权利要求9所述的音频合成方法，所述根据所述位置注意力分配权重和所述语种注意力分配权重，确定各个所述文本字符各自对应的多重注意力分配权重，包括：

获取各个所述文本字符各自对应的目标音色主体的音色标识信息；

根据所述音色标识信息，确定各个所述文本字符各自对应的音色注意力分配权重；

根据所述位置注意力分配权重、所述语种注意力分配权重以及所述音色注意力分配权重，确定各个所述文本字符各自对应的多重注意力分配权重。
根据权利要求1所述的音频合成方法，所述获取对应于目标音色主体的目标音色特征，包括：

获取所述目标音色主体的音色标识信息；

通过音色嵌入矩阵对所述音色标识信息进行映射变换处理，得到所述目标音色特征。
根据权利要求1所述的音频合成方法，在对所述声学特征进行声学编码处理，得到与所述混合语种文本信息对应的音频之后，所述方法还包括：

获取利用所述目标音色主体的音色数据样本训练得到音色转换模型；

通过所述音色转换模型，对所述音频进行音色转换处理，得到对应于所述目标音色主体的音频。
一种音频合成装置，包括：

信息获取模块，用于获取混合语种文本信息，所述混合语种文本信息包括对应于至少两个语种类型的文本字符；

信息编码模块，用于基于所述至少两个语种类型，对所述混合语种文本信息进行文本编码处理，得到所述混合语种文本信息的中间语义编码特征；

信息解码模块，用于获取对应于目标音色主体的目标音色特征，并基于所述目标音色特征对所述中间语义编码特征进行解码处理，得到声学特征；

声学编码模块，用于对所述声学特征进行声学编码处理，得到与所述混合语种文本信息对应的音频信息。
一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现权利要求1至12中任意一项所述的音频合成方法。
一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至12中任意一项所述的音频合成方法。
一种计算机程序产品，包括指令，当其在计算机上运行时，使得计算机执行权利要求1至12任意一项所述的音频合成方法。