WO2022121180A1

WO2022121180A1 - 模型的训练方法、装置、语音转换方法、设备及存储介质

Info

Publication number: WO2022121180A1
Application number: PCT/CN2021/084219
Authority: WO
Inventors: 陈闽川; 马骏; 王少军; 肖京
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-12-11
Filing date: 2021-03-31
Publication date: 2022-06-16
Also published as: CN112509600A

Abstract

一种语音转换模型的训练方法、语音转换方法，训练方法包括：获取样本音频，将样本音频转换为样本梅尔频谱（S101）；采集噪声音频，并将噪声音频和样本梅尔频谱共同输入生成网络，得到输出梅尔频谱（S102）；将输出梅尔频谱输入判别网络，得到输出梅尔频谱的类型概率和输出梅尔频谱的标签（S103）；根据输出梅尔频谱的类型概率和输出梅尔频谱的标签对生成网络和判别网络进行交替迭代训练，并将训练完成的生成网络作为语音转换模型（S104），以降低构建模型对于音频语料的要求，降低模型构建的复杂度。

Description

模型的训练方法、装置、语音转换方法、设备及存储介质

本申请要求于2020年12月11日提交中国专利局、申请号为202011446585.1、发明名称为“模型的训练方法、装置、语音转换方法、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及语言处理领域，尤其涉及一种语音转换模型的训练方法、装置、语音转换方法、设备及存储介质。

背景技术

随着语音转换技术的发展，它的应用前景也日益广泛，例如，可以用来做影视作品的配音，或者在语音合成时用于生成多样的合成结果等等。发明人意识到现有的语音转换大多采用对抗生成网络来进行语音转换，在进行语音转换时，所有的音频语料都需要具有对应的标签，在多说话人语音转换时，需要标识每一个音频对应的说话人标签，模型构建的复杂程度较高。

技术问题

如何降低构建模型对于音频语料的要求，降低模型构建的复杂度成为亟待解决的问题。

技术解决方案

本申请提供了一种语音转换模型的训练方法、装置、语音转换方法、设备及存储介质，以降低构建模型对于音频语料的要求，降低模型构建的复杂度。

第一方面，本申请提供了一种语音转换模型的训练方法，所述方法包括：

获取样本音频，将所述样本音频转换为样本梅尔频谱，所述样本音频包括无标签音频和有标签音频；采集噪声音频，并将所述噪声音频和所述样本梅尔频谱共同输入生成网络，得到输出梅尔频谱，所述噪声音频为无标签音频；将所述输出梅尔频谱输入判别网络，得到所述输出梅尔频谱的类型概率和所述输出梅尔频谱的标签；根据所述输出梅尔频谱的类型概率和所述输出梅尔频谱的标签对所述生成网络和所述判别网络进行交替迭代训练，并将训练完成的生成网络作为语音转换模型，完成模型训练。

第二方面，本申请提供了一种语音转换方法，所述方法包括：

获取用户的待转换音频数据和目标转换标签；将所述待转换音频数据和所述目标转换标签输入预先训练的语音转换模型，得到转换后的音频数据；其中，所述预先训练的语音转换模型为采用上述的语音转换模型的训练方法训练得到的生成网络。

第三方面，本申请还提供了一种语音转换模型的训练装置，所述装置包括：

样本获取模块，用于获取样本音频，将所述样本音频转换为样本梅尔频谱，所述样本音频包括无标签音频和有标签音频；噪声采集模块，用于采集噪声音频，并将所述噪声音频和所述样本梅尔频谱共同输入生成网络，得到输出梅尔频谱，所述噪声音频为无标签音频；判别输出模块，用于将所述输出梅尔频谱输入判别网络，得到所述输出梅尔频谱的类型概率和所述输出梅尔频谱的标签；模型训练模块，用于根据所述输出梅尔频谱的类型概率和所述输出梅尔频谱的标签对所述生成网络和所述判别网络进行交替迭代训练，并将训练完成的生成网络作为语音转换模型，完成模型训练。

第四方面，本申请还提供了一种语音转换装置，所述装置包括：

数据获取模块，用于获取用户的待转换音频数据和目标转换标签；音频转换模块，用于将所述待转换音频数据和所述目标转换标签输入预先训练的语音转换模型，得到转换后的音频数据；其中，所述预先训练的语音转换模型为采用上述的语音转换模型的训练方法训练得到的生成网络。

第五方面，本申请还提供了一种计算机设备，所述计算机设备包括存储器和处理器；所述存储器用于存储计算机可读指令；所述处理器，用于执行所述计算机可读指令并在执行所述计算机可读指令时实现如下步骤：

第六方面，本申请还提供了一种计算机设备，所述计算机设备包括存储器和处理器；所述存储器用于存储计算机可读指令；所述处理器，用于执行所述计算机可读指令并在执行所述计算机可读指令时实现如下步骤：

获取用户的待转换音频数据和目标转换标签；将所述待转换音频数据和所述目标转换标签输入预先训练的语音转换模型，得到转换后的音频数据。

第七方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令被处理器执行时使所述处理器实现如下步骤：

第八方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令被处理器执行时使所述处理器实现如下步骤：

有益效果

本申请公开了一种语音转换模型的训练方法、装置、语音转换方法、设备及存储介质，通过获取包括有标签音频和无标签音频的样本音频，并且将样本音频转换为样本梅尔频谱，然后采集噪声音频，并且将噪声音频和样本梅尔频谱共同输入生成网络中，得到输出梅尔频谱，再将输出梅尔频谱输入判别网络，得到输出梅尔频谱的类型概率和标签，最终根据输出梅尔频谱的类型概率和标签来对生成网络和判别网络进行交替迭代训练，并将训练完成的生成网络作为语音转换模型，完成模型训练。利用判别网络得到输出梅尔频谱的标签，从而使得在训练生成网络和判别网络时，仅需要少量的有标签音频即可进行训练，降低了在训练语音转换模型时对于音频语料的要求，降低模型构建的复杂度。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种语音转换模型的训练方法的示意流程图；

图2是本申请实施例提供的一种语音转换方法的示意流程图；

图3是本申请实施例提供的一种语音转换模型的训练装置的示意性框图；

图4是本申请实施例提供的一种语音转换装置的示意性框图；

图5为本申请实施例提供的一种计算机设备的结构示意性框图。

本发明的实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本申请的实施例提供了一种语音转换模型的训练方法、装置、语音转换方法、设备及存储介质。语音转换模型的训练方法可基于生成对抗网络训练语音转换模型，并且通过对判别网络进行训练，使判别网络能够输出输入的梅尔频谱的标签，仅需要少量的有标签音频即可进行训练，降低了样本音频的获取难度，并且也降低了在训练语音转换模型时对于音频语料的要求，降低模型构建的复杂度。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参阅图1，图1是本申请实施例提供的一种语音转换模型的训练方法的示意流程图。该语音转换模型的训练方法通过对生成网络和判别网络进行交替迭代训练，将训练完成的生成网络作为语音转换模型。

如图1所示，该语音转换模型的训练方法，具体包括：步骤S101至步骤S104。

S101、获取样本音频，将所述样本音频转换为样本梅尔频谱，所述样本音频包括无标签音频和有标签音频。

样本音频中包括无标签音频和有标签音频，其中，有标签音频是指具有确定的标签的音频，例如，音频所对应的标签为男人、女人、小女孩、小男孩等多种，将这类带有确定的标签的音频称为有标签音频。

而无标签音频是指音频本身没有对应的标签，为这类音频本身没有对应的标签的音频设置标签为未知，也即，无标签音频是指标签为未知的音频，表示该音频没有确定的标签。

可以采用多种方式获取样本音频，例如可以采用网络爬虫从网络上获取样本音频等等。对于获取到的样本音频，将样本音频利用梅尔滤波器转换为样本梅尔频谱，每个样本梅尔音频均携带有对应的标签。

S102、采集噪声音频，并将所述噪声音频和所述样本梅尔频谱共同输入生成网络，得到输出梅尔频谱，所述噪声音频为无标签音频。

生成网络用于根据采集到的噪声音频生成噪声音频对应的噪声梅尔频谱。在具体实施过程中，生成网络的结构可以包括前处理层、下采样层、瓶颈层和上采样层。

前处理层由卷积层、批标准化层和非线性仿射变换层组成；下采样层由若干卷积层和批处理层组成；瓶颈层由带有残差的卷积组成；上采样层由扩张卷积和批标准化层组成。

随机采集一个噪声音频，其中，采集的噪声音频需要服从先验概率分布，可以是均匀分布或高斯分布等。然后将采集到的噪声音频的标签设置为未知，作为无标签音频和样本梅尔频谱共同输入生成网络，由生成网络对噪声音频进行处理，得到生成网络输出的输出梅尔频谱。

由于生成网络的输入是噪声音频和样本梅尔频谱，因此，得到的输出梅尔频谱中，既包括样本音频对应的样本梅尔频谱，还包括噪声音频对应的噪声梅尔频谱。

S103、将所述输出梅尔频谱输入判别网络，得到所述输出梅尔频谱的类型概率和预测标签。

其中，输出梅尔频谱的类型包括样本梅尔频谱和噪声梅尔频谱，输出梅尔频谱的类型概率具体是指输出梅尔频谱为样本梅尔频谱的概率。

判别网络用于判断输入的输出梅尔频谱为样本梅尔频谱的概率，以及确定输出梅尔频谱所对应的预测标签。

在具体实施过程中，判别网络的主干网络可以由若干非线性仿射变换和卷积层组成，最后一层为二分类和多分类的线性映射，判别网络的输出结果分别为输入的输出梅尔频谱是样本梅尔频谱的概率和输出梅尔频谱的预测标签。

将生成网络输出的输出梅尔频谱作为判别网络的输入，得到判别网络预测的输出梅尔频谱是样本梅尔频谱的概率和输出梅尔频谱的预测标签。

S104、根据所述输出梅尔频谱的类型概率和所述预测标签对所述生成网络和所述判别网络进行交替迭代训练，并将训练完成的生成网络作为语音转换模型，完成模型训练。

根据判别网络预测的输出梅尔频谱是样本梅尔频谱的概率和输出梅尔频谱的预测标签，对生成网络和判别网络进行交替迭代训练，然后在生成网络和判别网络训练完成时，不再使用判别网络，而是将训练完成的生成网络作为语音转换模型，完成语音转换模型的训练。

因为在有限的训练数据情况下，如果先将判别网络优化完成会导致过拟合，从而使最终的模型无法收敛，因此，在训练过程中，对生成网络和判别网络的训练优化需要交替进行。

在对生成网络和判别网络进行交替训练的过程中，先优化判别网络，在训练开始时，判别网络很容易从输出梅尔频谱中区分出噪声梅尔频谱和样本梅尔频谱，这说明在一开始生成网络根据噪声音频生成的噪声梅尔频谱和样本梅尔频谱相比，具有很大的偏差。接着对生成网络进行优化，使生成网络的损失函数逐渐减小，在此过程中判别网络的二分类能力也逐渐提高，判别网络对于生成网络所输出的输出梅尔频谱的判别准确率也逐渐提高。生成网络尽可能的生成靠近真实数据的噪声梅尔频谱去欺骗判别网络，而判别网络则需要尽量的把样本梅尔频谱和生成网络生成的噪声梅尔频谱区分开，从而生成网络和判别网络形成一个动态的博弈过程。

最后直至判别网络无法判断输出梅尔频谱是样本梅尔频谱还是噪声梅尔频谱，此时表示生成网络已经训练完成，将训练完成的生成网络作为语音转换模型。

在一实施例中，该方法还包括：当所述判别网络输出的所述输出梅尔频谱的预测标签的准确度达到预设值时，将所述无标签音频的样本梅尔频谱输入所述判别网络，将得到的预测标签作为所述无标签音频的标签。

由于噪声音频和样本音频都具有相应的标签，因此，得到的输出梅尔频谱也都具有与对应的音频相对应的标签。

当判别网络输出的输出梅尔频谱的预测标签的准确度达到预设值时，认为此时判别网络已经能够准确的判断梅尔频谱所对应的标签。

因此，将无标签音频的样本梅尔频谱输入判别网络中，使判别网络对无标签音频的样本梅尔频谱对应的标签进行预测，并将预测得到的预测标签作为无标签音频的标签。

此时，无标签音频根据预测标签变为有标签音频，其标签即为预测标签。在无标签音频转变为有标签音频后，可重新加入对判别网络的训练，以此循环，从而使得判别网络可对少标签的样本音频也能够预测其标签分类。

在一实施例中，所述方法包括：调整所述样本音频的语速，得到调速样本音频，并将所述调速样本音频转换为调速梅尔频谱；根据所述调速梅尔频谱对判别网络进行训练，使所述判别网络输出所述调速梅尔频谱所对应的语速。

调整样本音频的语速，得到调速样本音频，例如可以将其调整为0.9倍速、1.0倍速以及1.1倍速。然后将调速样本音频利用梅尔滤波器转换为调速梅尔频谱，利用调速梅尔频谱对判别网络进行训练，使判别网络输出调速梅尔频谱对应的语速。

通过对判别网络进行训练，使判别网络能够对语速进行识别，能够提高对抗生成网络的训练稳定性，减少样本音频中不同语速导致的训练误差。

在一实施例中，所述根据所述输出梅尔频谱的类型概率对所述生成网络和所述判别网络进行交替迭代训练，包括：根据所述输出梅尔频谱的类型概率，计算所述生成网络的类型损失函数的值和所述判别网络的类型损失函数的值；根据所述生成网络的类型损失函数的值以及根据所述判别网络的类型损失函数的值，分别对所述生成网络和所述类型网络进行交替迭代训练；当所述判别网络输出的所述类型概率达到预设值时，完成所述生成网络的训练。

根据判别网络输出的输出梅尔频谱的类型概率，来计算生成网络的类型损失函数的值以及判别网络的类型损失函数的值，然后根据生成网络的类型损失函数的值以及判别网络的类型损失函数的值，调整生成网络和判别网络的网络参数，对生成网络和判别网络进行迭代训练，并使生成网络的类型损失函数值逐渐减小。

通过设置预设值的方式，来确定判别网络模型的二分类的能力，进而保证生成网络利用噪声音频生成的噪声梅尔频谱与样本梅尔频谱相类似。其中，预设值可以是0.5。当预设值为0.5时，表示此时判别网络无法判断生成网络所生成的梅尔频谱是噪声梅尔频谱还是样本梅尔频谱，表示生成网络已经训练完成。

需要说明的是，当判别网络输出的类型概率达到预设值时，此时，生成网络和判别网络的损失函数的值均趋近于稳定。

例如，生成网络的类型损失函数的公式可以如下所示：

L _G1＝-E _{x～p(x),c～p(c)}[log(D(G(x,c),c))]

判别网络的类型损失函数的公式可以如下所示：

L _D1＝-E _{(y,c)～p(y,c)}[log(D(y,c))]-E _{x～p(x),c～p(c)}[log(1-D(G(x,c),c))]

其中，L _G1表示生成网络的类型损失函数，L _D1表示判别网络的类型损失函数，D(G(x,c),c)表示判别网络将标签为c的样本梅尔频谱x判断为样本梅尔频谱的概率，D(y,c)表示将标签为c的噪声梅尔频谱x判断为样本梅尔频谱的概率。

在一实施例中，所述根据所述输出梅尔频谱的类型概率和预测标签对所述生成网络和所述判别网络进行交替迭代训练，包括：若根据所述输出梅尔频谱的类型概率确定所述输出梅尔频谱对应的音频为样本音频，且所述输出梅尔频谱的预测标签与对应的所述样本音频的标签不同时，将该次错误计入所述判别网络的标签损失函数；若根据所述输出梅尔频谱的类型概率确定所述输出梅尔频谱对应的音频为噪声音频，且所述输出梅尔频谱的预测标签与对应的所述噪声音频的标签不同时，将该次错误计入所述生成网络的标签损失函数；根据所述生成网络的标签损失函数对所述生成网络进行迭代训练，以及根据所述判别网络的标签损失函数对所述类型网络进行迭代训练。

由于判别网络的输出中还包括输出梅尔频谱的预测标签，因此，根据预测标签来确定生成网络和判别网络的标签损失函数，从而对生成网络和判别网络进行优化，使生成网络能够生成具有特定标签的音频。

在判别网络对输出梅尔频谱进行标签预测的过程中，若对样本梅尔频谱进行标签预测时，预测标签与样本梅尔频谱的标签不同，则认为对样本梅尔频谱预测标签出错，将该次错误计入判别网络的标签损失函数中。

若对噪声梅尔频谱进行标签预测时，预测标签与噪声梅尔频谱的标签不同，则认为对噪声梅尔频谱预测标签出错，将该次错误计入生成网络的标签损失函数中。

例如，生成网络的标签损失函数的公式可以如下所示：

L _G2＝-E _{x～p(x),c～p(c)}[log(p(c)(c|(G(x,c)))]

判别网络的标签损失函数的公式可以如下所示：

L _D2＝-E _{(y,c)～p(y,c)}[log(p(c)(c|y)]

其中，L _G2表示生成网络的标签损失函数，L _D2表示判别网络的标签损失函数，p(c)(c|(G(x,c))表示判别网络对标签为c的样本梅尔频谱x的标签预测错误的情况，p(c)(c|y)表示判别网络对标签为c的噪声梅尔频谱x的标签预测错误的情况。

基于上述公式计算得到生成网络的标签损失函数的值和判别网络的标签损失函数的值后，对生成网络和类型网络进行交替迭代训练，使生成网络和判别网络的标签损失函数的值逐渐减小，表示生成网络可以生成具有特定标签的音频。

上述实施例提供的语音转换模型的训练方法，通过获取包括有标签音频和无标签音频的样本音频，并且将样本音频转换为样本梅尔频谱，然后采集噪声音频，并且将噪声音频和样本梅尔频谱共同输入生成网络中，得到输出梅尔频谱，再将输出梅尔频谱输入判别网络，得到输出梅尔频谱的类型概率和标签，最终根据输出梅尔频谱的类型概率和标签来对生成网络和判别网络进行交替迭代训练，并将训练完成的生成网络作为语音转换模型，完成模型训练。利用判别网络得到输出梅尔频谱的标签，从而使得在训练生成网络和判别网络时，仅需要少量的有标签音频即可进行训练，降低了在训练语音转换模型时对于音频语料的要求，降低模型构建的复杂度。

请参阅图2，图2是本申请实施例提供的一种语音转换方法的示意流程图。

如图2所示，该语音转换方法，包括：步骤S201至步骤S202。

S201、获取用户的待转换音频数据和目标转换标签。

待转换音频是指用户需要进行转换的音频，目标转换标签是指对待转换音频转换进行转换时的标签。

例如，待转换音频为一女人音色的音频，目标转换标签是女孩。

S202、将所述待转换音频数据和所述目标转换标签输入预先训练的语音转换模型，得到转换后的音频数据。

其中，所述预先训练的语音转换模型为采用上述实施例提供的任一种语音转换模型的训练方法训练得到的生成网络。

将待转换音频数据和目标转换标签输入至预先训练的语音转换模型，语音转换模型可根据待转换音频数据和目标转换标签进行音频合成，从而输出转换后的音频数据。由此实现语音转换的目的，提高用户体验。

请参阅图3，图3是本申请的实施例还提供一种语音转换模型的训练装置的示意性框图，该语音转换模型的训练装置用于执行前述的语音转换模型的训练方法。其中，该语音转换模型的训练装置可以配置于服务器或终端中。

其中，服务器可以为独立的服务器，也可以为服务器集群。该终端可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备。

如图3所示，语音转换模型的训练装置300包括：样本获取模块301、噪声采集模块302、判别输出模块303和模型训练模块304。

样本获取模块301，用于获取样本音频，将所述样本音频转换为样本梅尔频谱，所述样本音频包括无标签音频和有标签音频。

噪声采集模块302，用于采集噪声音频，并将所述噪声音频和所述样本梅尔频谱共同输入生成网络，得到输出梅尔频谱，所述噪声音频为无标签音频。

判别输出模块303，用于将所述输出梅尔频谱输入判别网络，得到所述输出梅尔频谱的类型概率和所述输出梅尔频谱的标签。

模型训练模块304，用于根据所述输出梅尔频谱的类型概率和所述输出梅尔频谱的标签对所述生成网络和所述判别网络进行交替迭代训练，并将训练完成的生成网络作为语音转换模型，完成模型训练。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的语音转换模型的训练装置和各模块的具体工作过程，可以参考前述语音转换模型的训练方法实施例中的对应过程，在此不再赘述。

请参阅图4，图4是本申请的实施例还提供一种语音转换装置的示意性框图，该语音转换装置用于执行前述的语音转换方法。其中，该语音转换装置可以配置于服务器或终端中。

如图4所示，语音转换装置400包括：数据获取模块401和音频转换模块402。

数据获取模块401，用于获取用户的待转换音频数据和目标转换标签；

音频转换模块402，用于将所述待转换音频数据和所述目标转换标签输入预先训练的语音转换模型，得到转换后的音频数据；其中，所述预先训练的语音转换模型为采用上述的语音转换模型的训练方法训练得到的生成网络。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的语音转换装置和各模块的具体工作过程，可以参考前述语音转换方法实施例中的对应过程，在此不再赘述。

上述的语音转换模型的训练装置和语音转换装置均可以实现为一种计算机可读指令的形式，该计算机可读指令可以在如图5所示的计算机设备上运行。

请参阅图5，图5是本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是服务器或终端。

参阅图5，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括计算机可读存储介质和内存储器。

计算机可读存储介质可以是非易失性，也可以是易失性，计算机可读存储介质可存储操作系统和计算机可读指令。该计算机可读指令被执行时，可使得处理器执行任意一种语音转换模型的训练方法和语音转换方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为计算机可读存储介质中的计算机可读指令的运行提供环境，该计算机可读指令被处理器执行时，可使得处理器执行任意一种语音转换模型的训练方法和语音转换方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机可读指令，以实现如下步骤：

获取样本音频，将所述样本音频转换为样本梅尔频谱，所述样本音频包括无标签音频和有标签音频；采集噪声音频，并将所述噪声音频和所述样本梅尔频谱共同输入生成网络，得到输出梅尔频谱，所述噪声音频为无标签音频；将所述输出梅尔频谱输入判别网络，得到所述输出梅尔频谱的类型概率和预测标签；根据所述输出梅尔频谱的类型概率和所述预测标签对所述生成网络和所述判别网络进行交替迭代训练，并将训练完成的生成网络作为语音转换模型，完成模型训练。

在一个实施例中，所述处理器还用于实现：

当所述判别网络输出的所述输出梅尔频谱的预测标签的准确度达到预设值时，将所述无标签音频的样本梅尔频谱输入所述判别网络，将得到的预测标签作为所述无标签音频的标签。

在一个实施例中，所述处理器用于实现：

调整所述样本音频的语速，得到调速样本音频，并将所述调速样本音频转换为调速梅尔频谱；根据所述调速梅尔频谱对判别网络进行训练，使所述判别网络输出所述调速梅尔频谱所对应的语速。

在一个实施例中，所述处理器在实现所述根据所述输出梅尔频谱的类型概率对所述生成网络和所述判别网络进行交替迭代训练时，用于实现：

根据所述输出梅尔频谱的类型概率，计算所述生成网络的类型损失函数的值和所述判别网络的类型损失函数的值；根据所述生成网络的类型损失函数的值以及根据所述判别网络的类型损失函数的值，分别对所述生成网络和所述类型网络进行交替迭代训练；当所述判别网络输出的所述类型概率达到预设值时，完成所述生成网络的训练。

在一个实施例中，所述处理器在实现所述根据所述输出梅尔频谱的类型概率和预测标签对所述生成网络和所述判别网络进行交替迭代训练时，用于实现：

若根据所述输出梅尔频谱的类型概率确定所述输出梅尔频谱对应的音频为样本音频，且所述输出梅尔频谱的预测标签与对应的所述样本音频的标签不同时，将该次错误计入所述判别网络的标签损失函数；若根据所述输出梅尔频谱的类型概率确定所述输出梅尔频谱对应的音频为噪声音频，且所述输出梅尔频谱的预测标签与对应的所述噪声音频的标签不同时，将该次错误计入所述生成网络的标签损失函数；根据所述生成网络的标签损失函数对所述生成网络进行迭代训练，以及根据所述判别网络的标签损失函数对所述类型网络进行迭代训练。

获取用户的待转换音频数据和目标转换标签；将所述待转换音频数据和所述目标转换标签输入预先训练的语音转换模型，得到转换后的音频数据；其中，所述预先训练的语音转换模型为采用上所述的语音转换模型的训练方法训练得到的生成网络。

本申请的实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述处理器执行所述计算机可读指令，实现本申请实施例提供的任一项语音转换模型的训练方法和语音转换方法。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种语音转换模型的训练方法，其中，包括：

获取样本音频，将所述样本音频转换为样本梅尔频谱，所述样本音频包括无标签音频和有标签音频；

采集噪声音频，并将所述噪声音频和所述样本梅尔频谱共同输入生成网络，得到输出梅尔频谱，所述噪声音频为无标签音频；

将所述输出梅尔频谱输入判别网络，得到所述输出梅尔频谱的类型概率和预测标签；

根据所述输出梅尔频谱的类型概率和所述预测标签对所述生成网络和所述判别网络进行交替迭代训练，并将训练完成的生成网络作为语音转换模型，完成模型训练。
根据权利要求1所述的语音转换模型的训练方法，其中，所述方法还包括：

当所述判别网络输出的所述输出梅尔频谱的预测标签的准确度达到预设值时，将所述无标签音频的样本梅尔频谱输入所述判别网络，将得到的预测标签作为所述无标签音频的标签。
根据权利要求1所述的语音转换模型的训练方法，其中，所述方法包括：

调整所述样本音频的语速，得到调速样本音频，并将所述调速样本音频转换为调速梅尔频谱；

根据所述调速梅尔频谱对判别网络进行训练，使所述判别网络输出所述调速梅尔频谱所对应的语速。
根据权利要求1所述的语音转换模型的训练方法，其中，所述根据所述输出梅尔频谱的类型概率对所述生成网络和所述判别网络进行交替迭代训练，包括：

根据所述输出梅尔频谱的类型概率，计算所述生成网络的类型损失函数的值和所述判别网络的类型损失函数的值；

根据所述生成网络的类型损失函数的值以及根据所述判别网络的类型损失函数的值，分别对所述生成网络和所述类型网络进行交替迭代训练；

当所述判别网络输出的所述类型概率达到预设值时，完成所述生成网络的训练。
根据权利要求1所述的语音转换模型的训练方法，其中，所述根据所述输出梅尔频谱的类型概率和预测标签对所述生成网络和所述判别网络进行交替迭代训练，包括：

若根据所述输出梅尔频谱的类型概率确定所述输出梅尔频谱对应的音频为样本音频，且所述输出梅尔频谱的预测标签与对应的所述样本音频的标签不同时，将该次错误计入所述判别网络的标签损失函数；

若根据所述输出梅尔频谱的类型概率确定所述输出梅尔频谱对应的音频为噪声音频，且所述输出梅尔频谱的预测标签与对应的所述噪声音频的标签不同时，将该次错误计入所述生成网络的标签损失函数；

根据所述生成网络的标签损失函数对所述生成网络进行迭代训练，以及根据所述判别网络的标签损失函数对所述类型网络进行迭代训练。
一种语音转换方法，其中，包括：

获取用户的待转换音频数据和目标转换标签；

将所述待转换音频数据和所述目标转换标签输入预先训练的语音转换模型，得到转换后的音频数据；

其中，所述预先训练的语音转换模型为采用权利要求1至5中任一项所述的语音转换模型的训练方法训练得到的生成网络。
一种语音转换模型的训练装置，其中，包括：

样本获取模块，用于获取样本音频，将所述样本音频转换为样本梅尔频谱，所述样本音频包括无标签音频和有标签音频；

噪声采集模块，用于采集噪声音频，并将所述噪声音频和所述样本梅尔频谱共同输入生成网络，得到输出梅尔频谱，所述噪声音频为无标签音频；

判别输出模块，用于将所述输出梅尔频谱输入判别网络，得到所述输出梅尔频谱的类型概率和所述输出梅尔频谱的标签；

模型训练模块，用于根据所述输出梅尔频谱的类型概率和所述输出梅尔频谱的标签对所述生成网络和所述判别网络进行交替迭代训练，并将训练完成的生成网络作为语音转换模型，完成模型训练。
一种语音转换装置，其中，包括：

数据获取模块，用于获取用户的待转换音频数据和目标转换标签；

音频转换模块，用于将所述待转换音频数据和所述目标转换标签输入预先训练的语音转换模型，得到转换后的音频数据；

其中，所述预先训练的语音转换模型为采用权利要求1至5中任一项所述的语音转换模型的训练方法训练得到的生成网络。
一种计算机设备，其中，所述计算机设备包括存储器和处理器；

所述存储器用于存储计算机可读指令；

所述处理器，用于执行所述计算机可读指令并在执行所述计算机可读指令时实现如下步骤：

获取样本音频，将所述样本音频转换为样本梅尔频谱，所述样本音频包括无标签音频和有标签音频；

采集噪声音频，并将所述噪声音频和所述样本梅尔频谱共同输入生成网络，得到输出梅尔频谱，所述噪声音频为无标签音频；

将所述输出梅尔频谱输入判别网络，得到所述输出梅尔频谱的类型概率和预测标签；

根据所述输出梅尔频谱的类型概率和所述预测标签对所述生成网络和所述判别网络进行交替迭代训练，并将训练完成的生成网络作为语音转换模型，完成模型训练。
根据权利要求9所述的计算机设备，其中，所述处理器执行所述计算机可读指令时还实现如下步骤：

当所述判别网络输出的所述输出梅尔频谱的预测标签的准确度达到预设值时，将所述无标签音频的样本梅尔频谱输入所述判别网络，将得到的预测标签作为所述无标签音频的标签。
根据权利要求9所述的计算机设备，其中，所述处理器执行所述计算机可读指令时还实现如下步骤：

调整所述样本音频的语速，得到调速样本音频，并将所述调速样本音频转换为调速梅尔频谱；

根据所述调速梅尔频谱对判别网络进行训练，使所述判别网络输出所述调速梅尔频谱所对应的语速。
根据权利要求9所述的计算机设备，其中，所述根据所述输出梅尔频谱的类型概率对所述生成网络和所述判别网络进行交替迭代训练，包括：

根据所述输出梅尔频谱的类型概率，计算所述生成网络的类型损失函数的值和所述判别网络的类型损失函数的值；

根据所述生成网络的类型损失函数的值以及根据所述判别网络的类型损失函数的值，分别对所述生成网络和所述类型网络进行交替迭代训练；

当所述判别网络输出的所述类型概率达到预设值时，完成所述生成网络的训练。
根据权利要求9所述的计算机设备，其中，所述根据所述输出梅尔频谱的类型概率和预测标签对所述生成网络和所述判别网络进行交替迭代训练，包括：

若根据所述输出梅尔频谱的类型概率确定所述输出梅尔频谱对应的音频为样本音频，且所述输出梅尔频谱的预测标签与对应的所述样本音频的标签不同时，将该次错误计入所述判别网络的标签损失函数；

若根据所述输出梅尔频谱的类型概率确定所述输出梅尔频谱对应的音频为噪声音频，且所述输出梅尔频谱的预测标签与对应的所述噪声音频的标签不同时，将该次错误计入所述生成网络的标签损失函数；

根据所述生成网络的标签损失函数对所述生成网络进行迭代训练，以及根据所述判别网络的标签损失函数对所述类型网络进行迭代训练。
一种计算机设备，其中，所述计算机设备包括存储器和处理器；

所述存储器用于存储计算机可读指令；

所述处理器，用于执行所述计算机可读指令并在执行所述计算机可读指令时实现如下步骤：

获取用户的待转换音频数据和目标转换标签；

将所述待转换音频数据和所述目标转换标签输入预先训练的语音转换模型，得到转换后的音频数据。
一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令被处理器执行时使所述处理器实现如下步骤：

获取样本音频，将所述样本音频转换为样本梅尔频谱，所述样本音频包括无标签音频和有标签音频；

采集噪声音频，并将所述噪声音频和所述样本梅尔频谱共同输入生成网络，得到输出梅尔频谱，所述噪声音频为无标签音频；

将所述输出梅尔频谱输入判别网络，得到所述输出梅尔频谱的类型概率和预测标签；

根据所述输出梅尔频谱的类型概率和所述预测标签对所述生成网络和所述判别网络进行交替迭代训练，并将训练完成的生成网络作为语音转换模型，完成模型训练。
根据权利要求15所述的计算机可读存储介质，其中，所述计算机可读指令被处理器执行时使所述处理器还实现如下步骤：

当所述判别网络输出的所述输出梅尔频谱的预测标签的准确度达到预设值时，将所述无标签音频的样本梅尔频谱输入所述判别网络，将得到的预测标签作为所述无标签音频的标签。
根据权利要求15所述的计算机可读存储介质，其中，所述计算机可读指令被处理器执行时使所述处理器还实现如下步骤：

调整所述样本音频的语速，得到调速样本音频，并将所述调速样本音频转换为调速梅尔频谱；

根据所述调速梅尔频谱对判别网络进行训练，使所述判别网络输出所述调速梅尔频谱所对应的语速。
根据权利要求15所述的计算机可读存储介质，其中，所述根据所述输出梅尔频谱的类型概率对所述生成网络和所述判别网络进行交替迭代训练，包括：

根据所述输出梅尔频谱的类型概率，计算所述生成网络的类型损失函数的值和所述判别网络的类型损失函数的值；

根据所述生成网络的类型损失函数的值以及根据所述判别网络的类型损失函数的值，分别对所述生成网络和所述类型网络进行交替迭代训练；

当所述判别网络输出的所述类型概率达到预设值时，完成所述生成网络的训练。
根据权利要求15所述的计算机可读存储介质，其中，所述根据所述输出梅尔频谱的类型概率和预测标签对所述生成网络和所述判别网络进行交替迭代训练，包括：

若根据所述输出梅尔频谱的类型概率确定所述输出梅尔频谱对应的音频为样本音频，且所述输出梅尔频谱的预测标签与对应的所述样本音频的标签不同时，将该次错误计入所述判别网络的标签损失函数；

若根据所述输出梅尔频谱的类型概率确定所述输出梅尔频谱对应的音频为噪声音频，且所述输出梅尔频谱的预测标签与对应的所述噪声音频的标签不同时，将该次错误计入所述生成网络的标签损失函数；

根据所述生成网络的标签损失函数对所述生成网络进行迭代训练，以及根据所述判别网络的标签损失函数对所述类型网络进行迭代训练。
一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令被处理器执行时使所述处理器实现如下步骤：

获取用户的待转换音频数据和目标转换标签；

将所述待转换音频数据和所述目标转换标签输入预先训练的语音转换模型，得到转换后的音频数据。