WO2022133630A1

WO2022133630A1 - 跨语言音频转换方法、计算机设备和存储介质

Info

Publication number: WO2022133630A1
Application number: PCT/CN2020/137868
Authority: WO
Inventors: 赵之源; 黄东延
Original assignee: 深圳市优必选科技股份有限公司
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2022-06-30

Abstract

一种跨语言音频转换方法、计算机设备和存储介质。该方法包括：获取待转换文本和目标用户的目标语音，所述待转换文本包括至少一种语言（S110）；将所述待转换文本转换为合成音频（S120）；对所述合成音频进行预处理得到合成音频特征（S130）；将所述合成音频特征和目标语音作为输入，使用预先训练好的音频转换模型得到目标音频特征（S140）；将所述目标音频特征转换为模拟所述目标语音的目标文本语音（S150）。该方法实现了跨语言的合成目标用户语音。

Description

跨语言音频转换方法、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种跨语言音频转换方法、计算机设备和存储介质。

背景技术

机器学习与深度学习依靠海量数据和计算机强大的处理能力，在图像、语音、文本等领域取得了重大突破。由于同类型框架在不同领域都能取得很好的效果，曾被用于解决文本和图像问题的神经网络算法模型都被应用于语音领域。

现有的应用于语音领域的神经网络算法模型可以根据目标说话人的声音捕捉其特征，从而稳定合成目标说话人的其他语音，并且在音色相似度和语言自然度方面都接近真人的水平，但是合成的语音只能是与目标说话人的语言相同的语音，无法将目标说话人的声音合成为该目标说话人使用其他国家语言发出的语音，如果目标说话人只会说中文，则只能合成出中文的语音，无法合成其他国家语言的语音。

申请内容

基于此，有必要针对上述问题，提出了一种跨语言音频转换方法、计算机设备和存储介质。

第一方面，本申请实施例提供一种跨语言音频转换方法，所述方法包括：

获取待转换文本和目标用户的目标语音，所述待转换文本包括至少一种语言；

将所述待转换文本转换为合成音频；

对所述合成音频进行预处理得到合成音频特征；

将所述合成音频特征和目标语音作为输入，使用预先训练好的音频转换模型得到目标音频特征；

将所述目标音频特征转换为模拟所述目标语音的目标文本语音。

第二方面，本申请实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

将所述待转换文本转换为合成音频；

对所述合成音频进行预处理得到合成音频特征；

第三方面，本申请实施例提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：

将所述待转换文本转换为合成音频；

对所述合成音频进行预处理得到合成音频特征；

实施本申请实施例，将具有如下有益效果：

本申请实施例通过获取包括至少一种语言的待转换文本，并转化为合成音频以作为目标文本语音的原始音频，获取目标用户的目标语音作为目标文本语音的用户语音特征，将两者输入至用预先训练好的音频转换模型得到模拟用户发出的目标语音的目标文本语音，解决了无法将目标说话人的声音合成为该目标说话人使用其他国家语言发出的语音的问题，获得了跨语言的合成目标用户语音的有益效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为本申请一个实施例中跨语言音频转换方法的应用环境图；

图2为本申请一个实施例中跨语言音频转换方法的流程图；

图3为本申请一个实施例中跨语言音频转换方法中步骤S130的流程图；

图4为本申请一个实施例中跨语言音频转换方法中步骤S210的流程图；

图5为本申请一个实施例中跨语言音频转换方法中步骤S210的流程图；

图6为本申请一个实施例中音频转换模型训练方法的流程图；

图7为本申请一个实施例中音频转换模型训练方法中步骤S550的流程图；

图8为本申请一个实施例中跨语言音频转换装置的结构框图；

图9为本申请一个实施例中计算机设备的结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为一个实施例中跨语言音频转换方法的应用环境图。参照图1，该跨语言音频转换方法应用于跨语言音频转换系统。该跨语言音频转换系统包括终端110和服务器120。终端110和服务器120通过网络连接，终端110具体可以是台式终端或移动终端，移动终端具体可以是手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端110用于获取待转换文本和目标用户的目标语音并上传到服务器120，所述待转换文本包括至少一种语言，服务器120用于接收待转换文本和目标用户的目标语音；将所述待转换文本转换为合成音频；对所述合成音频进行预处理得到合成音频特征；将所述合成音频特征和目标语音作为输入，使用预先训练好的音频转换模型得到目标音频特征；将所述目标音频特征转换为模拟所述目标语音的目标文本语音。

在另一个实施例中，上述跨语言音频转换方法也可以直接应用于终端110，终端110用于获取待转换文本和目标用户的目标语音，所述待转换文本包括至少一种语言；将所述待转换文本转换为合成音频；对所述合成音频进行预处理得到合成音频特征；将所述合成音频特征和目标语音作为输入，使用预先训练好的音频转换模型得到目标音频特征；将所述目标音频特征转换为模拟所述目标语音的目标文本语音。

如图2所示，在一个实施例中，提供了一种跨语言音频转换方法。该方法既可以应用于终端，也可以应用于服务器，本实施例以应用于终端举例说明。该跨语言音频转换方法具体包括如下步骤：

S110、获取待转换文本和目标用户的目标语音，所述待转换文本包括至少一种语言。

本实施例中，在执行跨语言音频转换方法时，用户可以在移动设备，例如手机上执行，首先用户需要输入待转换文本和目标用户的目标语音，其中待转换文本是用户最后希望获得的语音内容，目标用户的目标语音是用户最后希望获得的语音声音的声音特征。此外，待转换文本包括至少一种语言，即待转换文本可以是中文，也可以是英文，还可以是英文加中文等等。示例性的，用户想要获取只会说中文的甲，说出“Yes”的目标文本语音，只需要待转换文本输入文本“Yes”和甲的目标语音，该目标语音可以为甲说的任意一段中文语音。

S120、将所述待转换文本转换为合成音频。

S130、对所述合成音频进行预处理得到合成音频特征。

本实施例中，在获得待转换文本和目标用户的目标语音后，首先需要对待转换文本进行处理，将待转换文本转换为合成音频，具体的，采用TTS(TextToSpeech，从文本到语音)技术将待转换文本转换为合成音频，然后对合成音频进行预处理得到合成音频特征，其中，合成音频特征为合成梅尔倒频谱，需要将得到的合成音频转换为合成梅尔倒频谱，以方便输入神经网络模型中。

需要说明的是，若直接让用户朗读待转换文本的音频作为后续音频转换模型的输入音频，因用户自身的原因可能对输入音频产生的干扰，例如咳嗽、吐字不清等，本申请实施例通过将待转换文本转换为清晰准确的合成音频，排除了因用户自身的原因产生的干扰，而获取的目标语音只用于提取目标用户的语音特征。

S140、将所述合成音频特征和目标语音作为输入，使用预先训练好的音频转换模型得到目标音频特征。

S150、将所述目标音频特征转换为模拟所述目标语音的目标文本语音。

本实施例中，在得到合成音频特征后，即合成梅尔倒频谱，也需要将目标语音同样转换为梅尔倒频谱，然后一起输入至预先训练好的音频转换模型中，该音频转换模型将会输出目标音频特征，其中，目标音频特征为目标梅尔倒频谱，音频转换模型为神经网络模型，预先经过大量训练用户的语音和训练文本的训练。最后得到的目标梅尔倒频谱还需要经过其他的预设神经网络模型转换为目标文本语音，目标文本语音为模拟所述目标语音的声音特征发出的待转换文本内容的语音，其中其他的预设神经网络模型可以为WaveNet神经网络模型，也可以为WaveRNN神经网络模型等等。

在一个实施例中，如图3所示，步骤S130具体包括：

S210、对所述合成音频进行短时傅里叶变换得到幅度谱。

S220、对所述幅度谱进行滤波得到梅尔频谱。

S230、对所述梅尔频谱进行倒谱分析得到合成梅尔倒频谱，作为合成音频特征。

本实施例中，在将合成音频进行预处理得到合成音频特征时，具体的，首先需要对合成音频进行短时傅里叶变换，合成音频经过短时傅里叶变换得到幅度谱和相位谱，将合成音频的波形从时域转换到频域，方便语音特征的提取，只取其中的幅度谱进行滤波就可以得到梅尔频谱，其中进行滤波时采用的滤波器可以为Filter Bank(滤波器组)，Filter Bank基于人对高频声音更敏感的原则，在低频处滤波器更密集，门限值大，而高频处滤波器更稀疏，门限值小，滤波结果更适符合人声。为了获得更接近人类发声机制的特征，更接近人类非线性的听觉系统，最后还需要对梅尔频谱进行倒谱分析，得到梅尔倒频谱(MFC，Mel-Frequency Spectrum)，将该合成梅尔倒频谱作为合成音频特征。需要说明的是，对目标语音需要进行与合成音频相同的处理，本申请实施例在此不再赘述。

本申请实施例通过将合成音频转换为梅尔倒频谱，不仅更接近人类发声机制的特征和非线性的听觉系统，还有利于神经网络模型的训练和输入输出。

在一个实施例中，如图4所示，步骤S210具体包括：

S310、减去所述合成音频中的首尾空白部分得到修正合成音频。

S320、对所述修正合成音频进行短时傅里叶变换得到幅度谱。

本实施例中，因合成音频中首尾部分会存在空白部分，为了让音频转换模型更好的对齐学习和转换，在对合成音频进行短时傅里叶变换得到幅度谱时，在此之前还需要减去合成音频中的首尾空白部分得到修正合成音频，然后对修正合成音频进行短时傅里叶变换得到幅度谱。

在一个实施例中，如图5所示，步骤S210具体还可以包括：

S410、对所述合成音频进行预加重、分帧和加窗得到修正合成音频。

S420、对所述修正合成音频进行短时傅里叶变换得到幅度谱。

本实施例中，为了更好的适应短时傅里叶变换，在对合成音频进行短时傅里叶变换之前，还需要对合成音频进行预加重、分帧和加窗得到修正合成音频，经过预加重，可以使合成音频添加高频信息，并过滤掉一部分噪音，经过分帧和加窗，可以使合成音频更平稳和连续，最后对修正合成音频进行短时傅里叶变换得到幅度谱。其中，本申请实施例中的步骤S410和S420可以在步骤S310之后共同执行。

如图6所示，在一个实施例中，提供了一种音频转换模型训练方法。该方法既可以应用于终端，也可以应用于服务器，本实施例以应用于终端举例说明。该音频转换模型训练具体包括如下步骤：

S510、获取训练文本和训练用户的训练语音，所述训练文本包括至少一种语言。

S520、将所述训练文本转换为训练合成音频。

S530、对所述训练合成音频进行预处理得到训练合成音频特征。

S540、基于所述训练语音生成训练目标语音特征。

S550、基于所述训练合成音频特征和训练目标语音特征训练音频转换模型。

本实施例中，在训练该音频转换模型时，首先需要获取训练文本和训练用户的训练语音，其中，训练文本和训练用户的训练语音一一对应，训练文本包括至少一种语言，若在使用该音频转换模型的过程中想要实现跨语言的语音转换，则训练文本包括至少两种语言，且实际使用时的待转换文本对应的语言也被包括在训练文本中。若训练文本只有一种语言，在使用该音频转换模型时得到的目标文本语音会是使用目标语音的语言中，最接近待转换文本的语言。例如，训练文本只包括英文，相应的训练语音也只包括英文，若待转换文本为中文，目标语音为英文，那么最后得到的目标文本语音是使用最接近该待转换文本的中文发音的英文语音。。

示例性的，训练文本中包括“YES”，那么训练语音中也包括训练用户发出“YES”的训练语音，训练文本中包括“YES先生”，那么练语音中也包括训练用户发出“YES先生”的训练语音，此外在训练时可获取多个训练用户的训练语音。作为优选的，训练用户包括步骤S110中的目标用户，使得该音频转换模型在训练时使用了目标用户作为训练数据集，如此在使用该音频转换模型获得基于目标用户的目标文本语音时，准确率大大提高，即使训练用户不包括步骤S110中的目标用户，在该音频转换模型的训练数据集数量足够大的时候，音频转换模型也会根据与目标用户声音特征最接近的训练用户作为输出结果，其相似度也得到了保证。

进一步的，得到训练文本和训练语音后，需要将训练文本转换为训练合成音频，对训练合成音频进行预处理得到训练合成音频特征，还需要基于训练语音生成训练目标语音特征，其中训练合成音频特征为训练合成梅尔倒频谱，训练目标语音特征包括训练目标梅尔倒频谱，其具体的转换和预处理方法与步骤S120和S130相同，本申请实施例对此不再赘述，其中，训练文本和训练语音是一一对应的，即训练合成音频和训练语音的说话内容是相同的，但是语音特征不同。最后就可以基于训练合成音频特征和训练目标语音特征训练音频转换模型，将训练合成音频特征作为输入，将训练目标语音特征作为输出训练该音频转换模型。

在一个实施例中，如图7所示，步骤S550具体还可以包括：

S610、将所述训练合成梅尔倒频谱输入至所述第一编码器以得到第一向量。

S620、将部分训练目标梅尔倒频谱输入至所述第二编码器以得到第二向量，所述部分训练目标梅尔倒频谱为在所述训练目标梅尔倒频谱中随机截取得到的。

S630、将所述第一向量和第二向量进行拼接后输入至所述解码器以得到训练预测梅尔倒频谱。

S640、计算所述训练预测梅尔倒频谱和训练目标梅尔倒频谱的训练损失。

S650、根据所述训练损失进行反向传播以更新所述音频转换模型的训练权重，直至所述音频转换模型收敛。

本实施例中，音频转换模型包括第一编码器、第二编码器和解码器。具体基于训练合成音频特征和训练目标语音特征训练音频转换模型时，首先将得到的训练合成音频特征，即训练合成梅尔倒频谱输入至第一编码器，第一编码器会输出第一向量，第一向量的向量长度取批处理(Btach)中输入序列长度的最大数值，其余不够长的序列在后面补0。然后将部分训练目标梅尔倒频谱输入至第二编码器，第二编码器会输出第二向量，其中部分训练目标梅尔倒频谱为训练目标语音特征，即训练目标梅尔倒频谱中随机截取得到的。具体的，将训练语音转换为梅尔倒频谱后，随机选取该训练用户的梅尔倒频谱的预设个数的截取片段，将这些截取片段拼接后作为目标语音特征部分训练目标梅尔倒频谱，需要说明的是，进行随机截取时的目标可以是与训练合成音频特征对应的训练目标语音特征，即训练合成音频特征与训练目标语音特征对应的说话内容是相同的，也可以是不对应的，本申请实施例对此不作限制。进一步的，在音频转换模型中得到第一向量和第二向量后，将第一向量和第二向量进行拼接后输入至所述解码器以得到训练预测梅尔倒频谱，并计算训练预测梅尔倒频谱和训练目标梅尔倒频谱的训练损失，根据该训练损失进行反向传播以更新所述音频转换模型的训练权重，直至所述音频转换模型收敛。

具体的，第一编码器包括2层CNN模型、5层Bi-LSTM模型，以及Linear Projection(线性投影)层和batch normalization(批标准化)层，第二编码器包括3层LSTM模型、1层Linear模型，以及池化层和标准化层，解码器包括Pre-Net(去雨网络)、Attention模型、LSTM模型、Linear模型、Post-Net、池化层和输出层。

进一步的，为了说明采用合成音频作为音频转换模型的输入可以排除因用户自身的原因产生的干扰，在训练该音频转换模型的过程中，假设输入的训练合成音频特征的特征序列为x＝(x ₁,x ₂,…,x _n)，这里的n代表训练合成梅尔倒频谱的时间序列上的第n帧，音频转换模型预测的训练预测特征的特征序列为y＝(y ₁,y ₂,…,y _m)，同样，这里的m也代表训练预测梅尔倒频谱的时间序列上的第m帧。我们希望音频转换模型预测的特征序列能尽量接近训练目标语音特征的目标特征序列

这里我们假设输入特征序列的每一帧中都包含两个隐含变量，一个隐含变量是输入音频的语音内容c＝(c ₁,c ₂,…,c _n)，另一个隐含变量是输入音频的语音特征s＝(s ₂,s ₂,…,s _i)，而在目标序列

中同样包含目标用户的目标语音特征

其中i表示输入音频，t表示目标用户，i∈{1,2,…,j},t∈{1,2,…,k}，其中的j表示整个训练数据集中输入音频的数量，k表示整个训练数据集中目标用户的数量。

音频转换模型中的第一编码器的作用是将输入音频的语音特征s _i从输入序列中剔除，只保留说话内容c，则输入序列可以表示为如下形式：

由于我们使用了TTS合成语音转真人语音的方法，来达到分离用户的语音特征和语音内容的目的，因为在输入音频的语音特征只有一个，即该合成音频的语音特征，我们设其为s ₀，可认为s ₀是一个常量。根据贝叶斯定理，公式(1)可变为：

对于预测序列y，用同样的方法可以表示为：

其中，

是第二编码器的输出，而c是第一编码器的输出，二者组合在一起作为解码器的输入，最后由解码器输出预测的序列y。由于c和

是来自于两个序列，可以认为这两者相互独立。因此结合公式(2)和(3)，可以得到：

从公式(4)中可知，当输入音频为固定的合成音频时，预测序列y只和输入序列x、训练用户

以及语音内容c有关。从而解除了直接获取用户朗读待转换文本的音频作为输入音频，对音频转换模型中提取语音内容的干扰。

如图8所示，在一个实施例中，提供了一种跨语言音频转换装置，该实施例提供的跨语言音频转换装置可执行本申请任意实施例所提供的跨语言音频转换方法，具备执行方法相应的功能模块和有益效果。该跨语言音频转换装置包括文本获取模块100、文本转换模块200、特征获取模块300、特征转换模块400、语音模拟模块500。

具体的，文本获取模块100用于获取待转换文本和目标用户的目标语音，所述待转换文本包括至少一种语言；文本转换模块200用于将所述待转换文本转换为合成音频；特征获取模块300用于对所述合成音频进行预处理得到合成音频特征；特征转换模块400用于将所述合成音频特征和目标语音作为输入，使用预先训练好的音频转换模型得到目标音频特征；语音模拟模块500用于将所述目标音频特征转换为模拟所述目标语音的目标文本语音。

在一个实施例中，上述装置还包括模型训练模块600，该模型训练模块600用于获取训练文本和训练用户的训练语音，所述训练文本包括至少一种语言；将所述训练文本转换为训练合成音频；对所述训练合成音频进行预处理得到训练合成音频特征；基于所述训练语音生成训练目标语音特征；基于所述训练合成音频特征和训练目标语音特征训练音频转换模型。

在一个实施例中，所述训练合成音频特征为训练合成梅尔倒频谱，所述训练目标语音特征为训练目标梅尔倒频谱，所述音频转换模型包括第一编码器、第二编码器和解码器，模型训练模块600具体用于将所述训练合成梅尔倒频谱输入至所述第一编码器以得到第一向量；将部分训练目标梅尔倒频谱输入至所述第二编码器以得到第二向量，所述部分训练目标梅尔倒频谱为在所述训练目标梅尔倒频谱中随机截取得到的；将所述第一向量和第二向量进行拼接后输入至所述解码器以得到训练预测梅尔倒频谱；计算所述训练预测梅尔倒频谱和训练目标梅尔倒频谱的训练损失；根据所述训练损失进行反向传播以更新所述音频转换模型的训练权重，直至所述音频转换模型收敛。

在一个实施例中，所述合成音频特征为合成梅尔倒频谱，所述目标音频特征为目标梅尔倒频谱。

在一个实施例中，特征获取模块300具体用于对所述合成音频进行短时傅里叶变换得到幅度谱；对所述幅度谱进行滤波得到梅尔频谱；对所述梅尔频谱进行倒谱分析得到合成梅尔倒频谱，作为合成音频特征。

在一个实施例中，特征获取模块300具体还用于减去所述合成音频中的首尾空白部分得到修正合成音频；对所述修正合成音频进行短时傅里叶变换得到幅度谱。

在一个实施例中，特征获取模块300具体还用于对所述合成音频进行预加重、分帧和加窗得到修正合成音频；对所述修正合成音频进行短时傅里叶变换得到幅度谱。

图9示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端，也可以是服务器。如图9所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现跨语言音频转换方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行跨语言音频转换方法。本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

获取待转换文本和目标用户的目标语音，所述待转换文本包括至少一种语言；将所述待转换文本转换为合成音频；对所述合成音频进行预处理得到合成音频特征；将所述合成音频特征和目标语音作为输入，使用预先训练好的音频转换模型得到目标音频特征；将所述目标音频特征转换为模拟所述目标语音的目标文本语音。

在一个实施例中，所述音频转换模型的训练包括：

获取训练文本和训练用户的训练语音，所述训练文本包括至少一种语言；将所述训练文本转换为训练合成音频；对所述训练合成音频进行预处理得到训练合成音频特征；基于所述训练语音生成训练目标语音特征；基于所述训练合成音频特征和训练目标语音特征训练音频转换模型。

在一个实施例中，所述训练合成音频特征为训练合成梅尔倒频谱，所述训练目标语音特征为训练目标梅尔倒频谱，所述音频转换模型包括第一编码器、第二编码器和解码器，所述基于所述训练合成音频特征和训练目标语音特征训练音频转换模型包括：

将所述训练合成梅尔倒频谱输入至所述第一编码器以得到第一向量；将部分训练目标梅尔倒频谱输入至所述第二编码器以得到第二向量，所述部分训练目标梅尔倒频谱为在所述训练目标梅尔倒频谱中随机截取得到的；将所述第一向量和第二向量进行拼接后输入至所述解码器以得到训练预测梅尔倒频谱；计算所述训练预测梅尔倒频谱和训练目标梅尔倒频谱的训练损失；根据所述训练损失进行反向传播以更新所述音频转换模型的训练权重，直至所述音频转换模型收敛。

在一个实施例中，所述对所述合成音频进行预处理得到合成音频特征包括：

对所述合成音频进行短时傅里叶变换得到幅度谱；对所述幅度谱进行滤波得到梅尔频谱；对所述梅尔频谱进行倒谱分析得到合成梅尔倒频谱，作为合成音频特征。

在一个实施例中，所述对所述合成音频进行短时傅里叶变换得到幅度谱包括：

减去所述合成音频中的首尾空白部分得到修正合成音频；对所述修正合成音频进行短时傅里叶变换得到幅度谱。

对所述合成音频进行预加重、分帧和加窗得到修正合成音频；对所述修正合成音频进行短时傅里叶变换得到幅度谱。

在一个实施例中，提出了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：

在一个实施例中，所述音频转换模型的训练包括：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。请输入具体实施内容部分。

Claims

一种跨语言音频转换方法，其特征在于，所述方法包括：

获取待转换文本和目标用户的目标语音，所述待转换文本包括至少一种语言；

将所述待转换文本转换为合成音频；

对所述合成音频进行预处理得到合成音频特征；

将所述合成音频特征和目标语音作为输入，使用预先训练好的音频转换模型得到目标音频特征；

将所述目标音频特征转换为模拟所述目标语音的目标文本语音。
根据权利要求1所述的方法，其特征在于，所述音频转换模型的训练包括：

获取训练文本和训练用户的训练语音，所述训练文本包括至少一种语言；

将所述训练文本转换为训练合成音频；

对所述训练合成音频进行预处理得到训练合成音频特征；

基于所述训练语音生成训练目标语音特征；

基于所述训练合成音频特征和训练目标语音特征训练音频转换模型。
根据权利要求2所述的方法，其特征在于，所述训练合成音频特征为训练合成梅尔倒频谱，所述训练目标语音特征为训练目标梅尔倒频谱，所述音频转换模型包括第一编码器、第二编码器和解码器，所述基于所述训练合成音频特征和训练目标语音特征训练音频转换模型包括：

将所述训练合成梅尔倒频谱输入至所述第一编码器以得到第一向量；

将部分训练目标梅尔倒频谱输入至所述第二编码器以得到第二向量，所述部分训练目标梅尔倒频谱为在所述训练目标梅尔倒频谱中随机截取得到的；

将所述第一向量和第二向量进行拼接后输入至所述解码器以得到训练预测梅尔倒频谱；

计算所述训练预测梅尔倒频谱和训练目标梅尔倒频谱的训练损失；

根据所述训练损失进行反向传播以更新所述音频转换模型的训练权重，直至所述音频转换模型收敛。
根据权利要求1所述的方法，其特征在于，所述合成音频特征为合成梅尔倒频谱，所述目标音频特征为目标梅尔倒频谱。
根据权利要求4所述的方法，其特征在于，所述对所述合成音频进行预处理得到合成音频特征包括：

对所述合成音频进行短时傅里叶变换得到幅度谱；

对所述幅度谱进行滤波得到梅尔频谱；

对所述梅尔频谱进行倒谱分析得到合成梅尔倒频谱，作为合成音频特征。
根据权利要求5所述的方法，其特征在于，所述对所述合成音频进行短时傅里叶变换得到幅度谱包括：

减去所述合成音频中的首尾空白部分得到修正合成音频；

对所述修正合成音频进行短时傅里叶变换得到幅度谱。
根据权利要求5所述的方法，其特征在于，所述对所述合成音频进行短时傅里叶变换得到幅度谱包括：

对所述合成音频进行预加重、分帧和加窗得到修正合成音频；

对所述修正合成音频进行短时傅里叶变换得到幅度谱。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

获取待转换文本和目标用户的目标语音，所述待转换文本包括至少一种语言；

将所述待转换文本转换为合成音频；

对所述合成音频进行预处理得到合成音频特征；

将所述合成音频特征和目标语音作为输入，使用预先训练好的音频转换模型得到目标音频特征；

将所述目标音频特征转换为模拟所述目标语音的目标文本语音。
根据权利要求8所述的计算机设备，其特征在于，所述音频转换模型的训练包括：

获取训练文本和训练用户的训练语音，所述训练文本包括至少一种语言；

将所述训练文本转换为训练合成音频；

对所述训练合成音频进行预处理得到训练合成音频特征；

基于所述训练语音生成训练目标语音特征；

基于所述训练合成音频特征和训练目标语音特征训练音频转换模型。
根据权利要求9所述的计算机设备，其特征在于，所述训练合成音频特征为训练合成梅尔倒频谱，所述训练目标语音特征为训练目标梅尔倒频谱，所述音频转换模型包括第一编码器、第二编码器和解码器，所述基于所述训练合成音频特征和训练目标语音特征训练音频转换模型包括：

将所述训练合成梅尔倒频谱输入至所述第一编码器以得到第一向量；

将部分训练目标梅尔倒频谱输入至所述第二编码器以得到第二向量，所述部分训练目标梅尔倒频谱为在所述训练目标梅尔倒频谱中随机截取得到的；

将所述第一向量和第二向量进行拼接后输入至所述解码器以得到训练预测梅尔倒频谱；

计算所述训练预测梅尔倒频谱和训练目标梅尔倒频谱的训练损失；

根据所述训练损失进行反向传播以更新所述音频转换模型的训练权重，直至所述音频转换模型收敛。
根据权利要求8所述的计算机设备，其特征在于，所述合成音频特征为合成梅尔倒频谱，所述目标音频特征为目标梅尔倒频谱。
根据权利要求11所述的计算机设备，其特征在于，所述对所述合成音频进行预处理得到合成音频特征包括：

对所述合成音频进行短时傅里叶变换得到幅度谱；

对所述幅度谱进行滤波得到梅尔频谱；

对所述梅尔频谱进行倒谱分析得到合成梅尔倒频谱，作为合成音频特征。
根据权利要求12所述的计算机设备，其特征在于，所述对所述合成音频进行短时傅里叶变换得到幅度谱包括：

减去所述合成音频中的首尾空白部分得到修正合成音频；

对所述修正合成音频进行短时傅里叶变换得到幅度谱。
根据权利要求12所述的计算机设备，其特征在于，所述对所述合成音频进行短时傅里叶变换得到幅度谱包括：

对所述合成音频进行预加重、分帧和加窗得到修正合成音频；

对所述修正合成音频进行短时傅里叶变换得到幅度谱。
一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：

获取待转换文本和目标用户的目标语音，所述待转换文本包括至少一种语言；

将所述待转换文本转换为合成音频；

对所述合成音频进行预处理得到合成音频特征；

将所述合成音频特征和目标语音作为输入，使用预先训练好的音频转换模型得到目标音频特征；

将所述目标音频特征转换为模拟所述目标语音的目标文本语音。
根据权利要求15所述的存储介质，其特征在于，所述音频转换模型的训练包括：

获取训练文本和训练用户的训练语音，所述训练文本包括至少一种语言；

将所述训练文本转换为训练合成音频；

对所述训练合成音频进行预处理得到训练合成音频特征；

基于所述训练语音生成训练目标语音特征；

基于所述训练合成音频特征和训练目标语音特征训练音频转换模型。
根据权利要求16所述的存储介质，其特征在于，所述训练合成音频特征为训练合成梅尔倒频谱，所述训练目标语音特征为训练目标梅尔倒频谱，所述音频转换模型包括第一编码器、第二编码器和解码器，所述基于所述训练合成音频特征和训练目标语音特征训练音频转换模型包括：

将所述训练合成梅尔倒频谱输入至所述第一编码器以得到第一向量；

将部分训练目标梅尔倒频谱输入至所述第二编码器以得到第二向量，所述部分训练目标梅尔倒频谱为在所述训练目标梅尔倒频谱中随机截取得到的；

将所述第一向量和第二向量进行拼接后输入至所述解码器以得到训练预测梅尔倒频谱；

计算所述训练预测梅尔倒频谱和训练目标梅尔倒频谱的训练损失；

根据所述训练损失进行反向传播以更新所述音频转换模型的训练权重，直至所述音频转换模型收敛。
根据权利要求15所述的存储介质，其特征在于，所述合成音频特征为合成梅尔倒频谱，所述目标音频特征为目标梅尔倒频谱。
根据权利要求18所述的存储介质，其特征在于，所述对所述合成音频进行预处理得到合成音频特征包括：

对所述合成音频进行短时傅里叶变换得到幅度谱；

对所述幅度谱进行滤波得到梅尔频谱；

对所述梅尔频谱进行倒谱分析得到合成梅尔倒频谱，作为合成音频特征。
根据权利要求19所述的存储介质，其特征在于，所述对所述合成音频进行短时傅里叶变换得到幅度谱包括：

减去所述合成音频中的首尾空白部分得到修正合成音频；

对所述修正合成音频进行短时傅里叶变换得到幅度谱。
根据权利要求19所述的存储介质，其特征在于，所述对所述合成音频进行短时傅里叶变换得到幅度谱包括：

对所述合成音频进行预加重、分帧和加窗得到修正合成音频；

对所述修正合成音频进行短时傅里叶变换得到幅度谱。