WO2022126924A1

WO2022126924A1 - 基于域分离的语音转换模型的训练方法及装置

Info

Publication number: WO2022126924A1
Application number: PCT/CN2021/083956
Authority: WO
Inventors: 陈闽川; 马骏; 王少军
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-12-18
Filing date: 2021-03-30
Publication date: 2022-06-23
Also published as: CN112634920B; CN112634920A

Abstract

一种基于域分离的语音转换模型的训练方法及装置（100），方法包括：接收训练语音并对训练语音进行特征提取并将得到的梅尔频率倒谱系数分别输入到内容编码器和音色编码器中，得到音素特征向量和音色特征向量（S110，S120）；分别对音素特征向量、音色特征向量进行分类处理，得到第一分类误差和第二分类误差（S130）；将音素特征向量、音色特征向量进行拼接后输入到解码器中，得到重构误差（S140）；根据第一分类误差、第二分类误差、重构误差计算语音转换模型的整体损失以对语音转换模型进行更新（S150）。基于人工智能中的语音合成技术，通过采用域分离技术对语音转换模型进行训练，不仅能将非平衡语料进行完整的语音转换，而且提高了语音转换准确率。

Description

基于域分离的语音转换模型的训练方法及装置

本申请要求于2020年12月18日提交中国专利局、申请号为202011509341.3，发明名称为“基于域分离的语音转换模型的训练方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及语音语义技术，尤其涉及一种基于域分离的语音转换模型的训练方法及装置。

背景技术

语音转换为用于将A说话人的语音转换成以B说话人的声音来输出A说话人的语音中内容。语音转换不仅可以用在语音合成的后端，还可以用于说话人身份保密，影视作品配音等方面。现有技术中，实现语音转换的方法包括：基于生成式对抗网络、变分自编码器、音素后验图、隐马尔科夫模型等，但是发明人发现现有技术中训练后的语音转换模型在对存在非平衡语料的音频进行语音转换时，无法将该音频进行完整的语音转换，且该音频转换完成后，得到音频与目标说话者音色的相似度不高。

发明内容

针对上述技术问题，本申请实施例提供了一种基于域分离的语音转换模型的训练方法及装置，通过域分离技术对语音转换模型进行训练，使得训练后的语音转换模型不仅能将非平衡语料进行完整的语音转换，而且提高了语音转换准确率。

第一方面，本申请实施例提供了一种基于域分离的语音转换模型的训练方法，其包括：

接收预设的训练语音并对所述训练语音进行特征提取，得到所述训练语音的梅尔频率倒谱系数；

将所述训练语音的梅尔频率倒谱系数分别输入到内容编码器和音色编码器中，得到所述训练语音的音素特征向量和音色特征向量；

根据预设的分类规则分别对所述音素特征向量、所述音色特征向量进行分类处理，得到第一分类误差和第二分类误差；

将所述音素特征向量、所述音色特征向量进行拼接并将拼接后的特征向量输入到解码器中，得到所述梅尔频率倒谱系数的重构误差；

根据所述第一分类误差、所述第二分类误差以及所述重构误差计算语音转换模型的整体损失并根据所述整体损失更新所述语音转换模型的网络参数。

第二方面，本申请实施例提供了一种基于域分离的语音转换模型的训练装置，其包括：

特征提取单元，用于接收预设的训练语音并对所述训练语音进行特征提取，得到所述训练语音的梅尔频率倒谱系数；

第一输入单元，用于将所述训练语音的梅尔频率倒谱系数分别输入到内容编码器和音色编码器中，得到所述训练语音的音素特征向量和音色特征向量；

第一分类单元，用于根据预设的分类规则分别所述音素特征向量、所述音色特征向量进行分类处理，得到第一分类误差和第二分类误差；

拼接单元，用于将所述音素特征向量、所述音色特征向量进行拼接并将拼接后的特征向量输入到解码器中，得到所述梅尔频率倒谱系数的重构误差；

更新单元，用于根据所述第一分类误差、所述第二分类误差以及所述重构误差计算语音转换模型的整体损失并根据所述整体损失更新所述语音转换模型的网络参数。

第三方面，本申请实施例又提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时执行以下步骤：

第四方面，本申请实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行以下步骤：

本申请实施例提供了一种基于域分离的语音转换模型的训练方法及装置，本申请实施例通过域分离技术对语音转换模型进行训练，使得训练后的语音转换模型不仅能将非平衡语料进行完整的语音转换，而且提高了语音转换准确率。

附图说明

图1为本申请实施例提供的基于域分离的语音转换模型的训练方法的流程示意图；

图2为本申请实施例提供的基于域分离的语音转换模型的训练方法的另一子流程示意图；

图3为本申请实施例提供的基于域分离的语音转换模型的训练装置的示意性框图；

图4为本申请实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，图1为本申请实施例提供的基于域分离的语音转换模型的训练方法的流程示意图。本申请实施例的所述的基于域分离的语音转换模型的训练方法应用于终端设备中，该方法通过安装于终端设备中的应用软件进行执行。其中，终端设备为具备接入互联网功能的终端设备，例如台式电脑、笔记本电脑、平板电脑或手机等设备。需要说明的是，在本申请具体实施例中，所述语音转换模型包括内容编码器、音色编码器以及解码器，所述第一分类器、所述第二分类器、所述ASR系统均用于辅助所述语音转换模型的训练，所述语音转换模型训练完成后，通过所述语音转换模型中的内容编码器、音色编码器以及解码器便可完成语音转换。

下面对所述的基于域分离的语音转换模型的训练方法进行详细说明。如图1所示，该方法包括以下步骤S110～S150。

S110、接收预设的训练语音并对所述训练语音进行特征提取，得到所述训练语音的梅尔频率倒谱系数。

接收预设的训练语音并对所述训练语音进行特征提取，得到所述训练语音的梅尔频率倒谱系数。具体的，所述训练语音为用于对语音转换模型进行训练的音频信息，所述训练语音的梅尔频率倒谱系数((Mel-Frequency Cepstral Coefficients，MFCCs))为所述训练语音的语音特征，所述训练语音的梅尔频率倒谱系数包括所述训练语音的说话人的音素特征和音色特征。在本申请实施例中，所述训练语音的语料既可以为平衡预料，也可以为非平衡语料。

在另一实施例中，步骤S110包括子步骤：获取所述训练语音的频谱并将所述训练语音的频谱输入至预置的梅尔滤波器组中，得到所述训练语音的梅尔频谱；将所述预处理后的训练语音进行快速傅里叶变换，得到所述训练语音的频谱。

获取所述训练语音的频谱并将所述训练语音的频谱输入至预置的梅尔滤波器组中，得到所述训练语音的梅尔频谱。具体的，终端设备以语音信号的方式接收所述训练语音接收到所述训练语音后，对所述训练语音的每一帧的语音信号进行傅里叶变换，得到所述描述所述训练语音的频谱图。

在另一实施例中，子步骤获取所述训练语音的频谱并将所述训练语音的频谱输入至预置的梅尔滤波器组中，得到所述训练语音的梅尔频谱包括：对所述训练语音进行预处理，得到预处理后的训练语音；将所述预处理后的训练语音进行快速傅里叶变换，得到所述训练语音的频谱。

对所述训练语音进行预处理，得到预处理后的训练语音。具体的，通常情况下终端设备接收到的训练语音的语音信号整体上不稳定，通过对所述训练语音进行预处理，使得训练语音趋于平稳。终端设备在接收到所述训练语音的语音信号后，首先对训练语音的语音信号进行预加重处理，然后将预加重处理后的语音信号进行分帧，最后对分帧后的语音信号进行加窗处理，便可得到所述预处理后的训练语音。其中，语音信号的预加重处理主要是对语音信号中高频部分进行预加重处理，进而去除口唇辐射的影响，增加所述语音信号中高频部分的分辨率；语音信号进行预加重处理后，通过将语音信号进行分帧处理，但是分帧处理后的语音信号的每一帧的起始段和末尾端会不连续，导致误差增大，因此分帧后通过加窗处理便可使得分帧后的语音信号平滑连续。

将所述预处理后的训练语音进行快速傅里叶变换，得到所述训练语音的频谱。具体的，所述训练语音在进行预处理后，得到了由每一帧连续的语音信号组成的语音信号，该每一帧连续的语音信号组成的语音信号即为描述所述预处理后的训练语音，然后将所述预处理后的训练语音中每一帧语音信号进行短时傅里叶变换，得到每一帧语音信号的频率，每一帧语音信号的频率即为所述训练语音的频谱中的一个时间段的频率。

将所述训练语音的梅尔频谱进行倒谱分析，得到所述训练语音的梅尔频率倒谱系数。具体的，通过将所述训练语音的梅尔频谱进行对数运算，对数运算完成后进行逆傅里叶变换便可得到所述训练语音的梅尔频率倒谱系数。

S120、将所述训练语音的梅尔频率倒谱系数分别输入到内容编码器和音色编码器中，得到所述训练语音的音素特征向量和音色特征向量。

将所述训练语音的梅尔频率倒谱系数分别输入到内容编码器和音色编码器中，得到所述训练语音的音素特征向量和音色特征向量。具体的，所述内容编码器为用于提取共有特征的编码器，所述音色编码器为用于提取源域数据私有特征的源域私有编码器，在本申请实施例中，所述训练语音的中的音素特征向量用于表征所述训练语音的内容，即所述训练语音的内容为所述训练语音的共有特征，所述训练语音中的音色特征向量用于表征所述训练语音的说话人身份，即所述训练语音的说话人身份为所述驯良语音的私有特征，通过将所述训练语音的梅尔频率倒谱系数输入到所述内容编码器中，便可从所述训练语音的梅尔频率倒谱系数中提取所述训练语音的音素特征向量；将所述训练语音的梅尔频率倒谱系数输入到所述音色编码器中，便可从所述训练语音的梅尔频率倒谱系数中提取所述训练语音的音素特征向量。

S130、根据预设的分类规则分别对所述音素特征向量、所述音色特征向量进行分类处理，得到第一分类误差和第二分类误差。

根据预设的分类规则分别对所述音素特征向量、所述音色特征向量进行分类处理，得到第一分类误差和第二分类误差。具体的，所述预设的分类规则为用于分别对所述音素特征向量、所述音色特征向量进行分类处理，进而得到所述音素特征向量的第一分类误差、所述音色特征向量的第二分类误差的规则信息。所述第一分类误差为所述音素特征向量在预置的第一分类器中进行分类产生的误差，所述第二分类误差为所述音色特征向量在预置的第二分类器中进行分类产生的误差。

在另一实施例中，步骤S130包括子步骤：将所述音素特征向量依次通过预置的梯度反转层、预置的第一分类器中，得到所述第一分类误差；将所述音色特征向量输入至预置的第二分类器中，得到所述第二分类误差。

将所述音素特征向量依次通过预置的梯度反转层、预置的第一分类器中，得到所述第一分类误差。具体的，所述梯度反转层为内容编码器和预置的第一分类器之间的连接层并用于实现内容编码器和第一分类器的对抗学习，在所述第一分类器的产生的第一分类误差反向传播过程乘以-λ实现梯度反转，其中λ为一个正数，使得第一分类器和内容编码器的学习目标相反，达到第一分类器和内容编码器的对抗学习的目的，通过所述第一分类误差便可对所述内容编码器的网络参数进行调整，即对所述内容编码器进行训练。

将所述音色特征向量输入至预置的第二分类器中，得到所述第二分类误差。具体的，所述第二分类器为用于对所述音色特征向量进行标签分类，以便于音色编码器能实现从所述训练语音中提取所述训练语音的私有特征，所述音色特征向量输入到所述第二分类器中便可从所述第二分类器中产生所述第二分类误差，通过所述第二分类误差便可对所述音色编码器的网络参数进行调整，即对所述音色编码器进行训练。

S140、将所述音素特征向量、所述音色特征向量进行拼接并将拼接后的特征向量输入到解码器中，得到所述梅尔频率倒谱系数的重构误差。

将所述音素特征向量、所述音色特征向量进行拼接并将拼接后的特征向量输入到解码器中，得到所述梅尔频率倒谱系数的重构误差。具体的，在进行拼接前，所述音素特征向量的维度与所述音色特征向量的维度相同，通过将所述音素特征向量、所述音色特征向量进行首尾拼接，便可得到所述拼接后的特征向量，所述拼接后的特征向量即包含了从音色编码器中提取的私有特征，也包含了从内容编码器中提取的共有特征，将所述拼接后的特征向量输入到解码器中，便可得到一个新的梅尔频率倒谱系数，同时解码器也会产生重构梅尔频率倒谱系数的重构误差。

S150、根据所述第一分类误差、所述第二分类误差以及所述重构误差计算语音转换模型的整体损失并根据所述整体损失更新所述语音转换模型的网络参数。

根据所述第一分类误差、所述第二分类误差以及所述重构误差计算语音转换模型的整体损失并根据所述整体损失更新所述语音转换模型的网络参数。具体的，通过将表征第一分类误差、第二分类误差以及重构误差的函数以各自的权重进行相加后，便可得到表征所述语音转换模型的整体损失的函数。表征整体损失的函数表示为：L＝L _recon+bL _class1+dL _class2，其中，L为整体损失，L _recon为重构误差，L _class1为第一分类误差，L _class2为第二分类误差，b为第一分类误差的权重、d为第二分类误差的权重。

在另一实施例中，步骤S150包括子步骤：根据弗罗贝尼乌斯范数计算所述音素特征向量与所述音色特征向量的差异损失；根据所述第一分类误差、所述第二分类误差、所述重构误差以及所述差异损失计算所述语音转换模型的整体损失。

根据弗罗贝尼乌斯范数计算所述音素特征向量与所述音色特征向量的差异损失。具体的，弗罗贝尼乌斯范数又称希尔伯特-施密特范数，当矩阵范数中的P＝2时，便为弗罗贝尼乌斯范数，弗罗贝尼乌斯范数的定义为：

其中A ^*表示A的共轭转置，σ _i为A的奇异值，在本申请实施例中，A为音素特征向量对应的转置矩阵与音色特征向量对应的矩阵的乘积，即表征差异损失的函数表示为：

其中，L _difference表示为差异损失，

表示为音素特征向量对应的转置矩阵，h _p表示为音色特征向量对应的矩阵。其中，向量的范数可以理解为向量的长度，或者向量到零点的距离，或者相应的两个点之间的距离。通过添加所述差异损失，进而进一步提高了内容编码器对训练语音中共有特征提取的精确度以及音色编码器对训练语音中私有特征提取的精确度，从而更加突出出转换后说话人的语音特征。

根据所述第一分类误差、所述第二分类误差、所述重构误差以及所述差异损失计算所述语音转换模型的整体损失。在本申请实施例中，所述语音转换模型的整体损失的函数表征为：L＝L _recon+bL _class1+cL _difference+dL _class2，其中，L为整体损失，L _recon为重构误差，L _class1为第一分类误差，L _difference为差异损失，L _class2为第二分类误差，b为第一分类误差的权重、c为差异损失的权重，d为第二分类误差的权重。

在另一实施例中，步骤根据所述第一分类误差、所述第二分类误差、所述重构误差以及所述差异损失计算所述语音转换模型的整体损失包括：将所述音素特征向量输入到预设的ASR系统中进行音素识别，得到交叉熵损失；根据所述第一分类误差、所述第二分类误差、所述重构误差、所述差异损失以及所述交叉熵损失计算所述语音转换模型的整体损失。

将所述音素特征向量输入到预设的ASR系统中进行音素识别，得到交叉熵损失。具体的，所述内容编码器在对所述训练语音进行音素特征向量提取完成后，所述ASR系统对所述音素特征向量进行音素识别，进而得到所述交叉熵损失，通过所述交叉熵损失对所述内容编码器的网络参数进行调整，不仅可以提高所述内容编码器训练完成后音素特征提取的精确度，而且加快所述内容编码器的训练效率。另外，在训练过程中，添加所述ASR系统还可以防止所述内容编码在训练过程中退化为自编码器的网络。

根据所述第一分类误差、所述第二分类误差、所述重构误差、所述差异损失以及所述交叉熵损失计算所述语音转换模型的整体损失。在本申请实施例中，所述语音转换模型的整体损失的函数表征为：L＝L _recon+aL _ce+bL _class1+cL _difference+dL _class2，其中，L为整体损失，L _recon为重构误差，L _ce为交叉熵损失，L _class1为第一分类误差，L _difference为差异损失，L _class2为第二分类误差，a为交叉熵损失的权重，b为第一分类误差的权重、c为差异损失的权重，d为第二分类误差的权重。

在另一实施例中，如图2所示，步骤S150之后还包括步骤S160、S170和S180。

S160、若接收到第一说话人的第一音频，获取所述第一音频的梅尔频率倒谱系数。

若接收到第一说话人的第一音频，获取所述第一音频的梅尔频率倒谱系数。具体的，所述第一说话人的第一音频为需通过已经训练完成后的所述语音转换模型进行语音转换的语音信号，终端设备在接收到所述第一说话人的第一音频后，便可从所述第一音频中获取所述第一音频的梅尔频率倒谱系数。

S170、根据所述音色编码器获取第二说话人中第二音频的音色特征向量并将所述第一音频的梅尔频率倒谱系数输入至所述内容编码器中，得到所述第一音频的音素特征向量。

根据所述音色编码器获取第二说话人中第二音频的音色特征向量并将所述第一音频的梅尔频率倒谱系数输入至所述内容编码器中，得到所述第一音频的音素特征向量。具体的，所述第二说话人为所述第一说话人的第一音频进行语音转换后需要以所述第二说话人的声音来进行表征的人，即所述第一说话人的第一音频在进行语音转换后得到的语音中说话人的音色为所述第二说话人的声音特征，所述第二音频为所述第二说话人任意的音频。当需要将所述第一音频转换成所述第二说话人的语音时，只需从所述第二说话人的第二音频中提取能表征所述第二说话人的身份信息，该身份信息可用所述第二音频的音色特征向量来进行表征，然后将第二音频的音色特征向量与从所述第一音频中提取的音素特征向量进行拼接后，输入到解码器中，便可得到以所述第二说话人的身份输出的语音。

S180、将所述第一音频的音素特征向量与所述第二音频的音色特征向量拼接后输入到所述解码器，得到所述第二说话人的第一音频。

将所述第一音频的音素特征向量与所述第二音频的音色特征向量拼接后输入到所述解码器，得到所述第二说话人的第一音频。具体的，所述第二说话人的第一音频中的音频内容与所述第一说话人的第一音频的音频内容相同，但是所述第一说话人的第一音频中的音色为所述第一说话人的音色，所述第二说话人的第一音频中的音色为所述第二说话人的音色。所述第一音频的音素特征向量与所述第二音频的音色特征向量拼接后，拼接后的特征向量中既包含所述第一音频的音频内容，也包含所述第二说话人的音色信息，拼接后的特征向量通过所述解码器解码后，便可重构所述第一音频的梅尔频率倒谱系数，然后通过重构的梅尔频率倒谱系数便可得到所述第二说话人的第一音频。

在本申请实施例所提供的基于域分离的语音转换模型的训练方法中，通过接收预设的训练语音并对所述训练语音进行特征提取，得到所述训练语音的梅尔频率倒谱系数；将所述训练语音的梅尔频率倒谱系数分别输入到内容编码器和音色编码器中，得到所述训练语音的音素特征向量和音色特征向量；根据预设的分类规则分别对所述音素特征向量、所述音色特征向量进行分类处理，得到第一分类误差和第二分类误差；将所述音素特征向量、所述音色特征向量进行拼接并将拼接后的特征向量输入到解码器中，得到所述梅尔频率倒谱系数的重构误差；根据所述第一分类误差、所述第二分类误差以及所述重构误差计算语音转换模型的整体损失并根据所述整体损失更新所述语音转换模型的网络参数。本申请实施例通过域分离技术对语音转换模型进行训练，使得训练后的语音转换模型不仅能将非平衡语料进行完整的语音转换，而且提高了语音转换准确率。

本申请实施例还提供了一种基于域分离的语音转换模型的训练装置100，该装置用于执行前述基于域分离的语音转换模型的训练方法的任一实施例。具体地，请参阅图8，图8是本申请实施例提供的基于域分离的语音转换模型的训练装置100的示意性框图。

如图3所示，所述的基于域分离的语音转换模型的训练装置100，该装置包括：特征提取单元110、第一输入单元120、第一分类单元130、拼接单元140和更新单元150。

特征提取单元110，用于接收预设的训练语音并对所述训练语音进行特征提取，得到所述训练语音的梅尔频率倒谱系数。

在其他发明实施例中，所述特征提取单元110包括：第一获取单元和倒谱分析单元。

第一获取单元，用于获取所述训练语音的频谱并将所述训练语音的频谱输入至预置的梅尔滤波器组中，得到所述训练语音的梅尔频谱。

在其他发明实施例中，所述第一获取单元包括：预处理单元和变换单元。

预处理单元，用于对所述训练语音进行预处理，得到预处理后的训练语音。

变换单元，用于将所述预处理后的训练语音进行快速傅里叶变换，得到所述训练语音的频谱。

倒谱分析单元，用于将所述训练语音的梅尔频谱进行倒谱分析，得到所述训练语音的梅尔频率倒谱系数。

第一输入单元120，用于将所述训练语音的梅尔频率倒谱系数分别输入到内容编码器和音色编码器中，得到所述训练语音的音素特征向量和音色特征向量。

第一分类单元130，用于根据预设的分类规则分别所述音素特征向量、所述音色特征向量进行分类处理，得到第一分类误差和第二分类误差。

在其他发明实施例中，所述第一分类单元130包括：第二分类单元和第三分类单元。

第二分类单元，用于将所述音素特征向量依次通过预置的梯度反转层、预置的第一分类器中，得到所述第一分类误差。

第三分类单元，用于将所述音色特征向量输入至预置的第二分类器中，得到所述第二分类误差。

拼接单元140，用于将所述音素特征向量、所述音色特征向量进行拼接并将拼接后的特征向量输入到解码器中，得到所述梅尔频率倒谱系数的重构误差。

更新单元150，用于根据所述第一分类误差、所述第二分类误差以及所述重构误差计算语音转换模型的整体损失并根据所述整体损失更新所述语音转换模型的网络参数。

在其他发明实施例中，所述更新单元150包括：第一计算单元和第二计算单元。

第一计算单元，用于根据弗罗贝尼乌斯范数计算所述音素特征向量与所述音色特征向量的差异损失。

第二计算单元，用于根据所述第一分类误差、所述第二分类误差、所述重构误差以及所述差异损失计算所述语音转换模型的整体损失。

在其他发明实施例中，所述第二计算单元包括：第二获取单元和第三计算单元。

第二获取单元，用于将所述音素特征向量输入到预设的ASR系统中进行音素识别，得到交叉熵损失。

第三计算单元，用于根据所述第一分类误差、所述第二分类误差、所述重构误差、所述差异损失以及所述交叉熵损失计算所述语音转换模型的整体损失。

在其他发明实施例中，所述的基于域分离的语音转换模型的训练装置还包括：接收单元160、第二输入单元170和第三输入单元180。

接收单元160，用于若接收到第一说话人的第一音频，获取所述第一音频的梅尔频率倒谱系数。

第二输入单元170，用于根据所述音色编码器获取第二说话人中第二音频的音色特征向量并将所述第一音频的梅尔频率倒谱系数输入至所述内容编码器中，得到所述第一音频的音素特征向量。

第三输入单元180，用于将所述第一音频的音素特征向量与所述第二音频的音色特征向量拼接后输入到所述解码器，得到所述第二说话人的第一音频。

本申请实施例所提供的基于域分离的语音转换模型的训练装置100用于执行上述接收预设的训练语音并对所述训练语音进行特征提取，得到所述训练语音的梅尔频率倒谱系数；将所述训练语音的梅尔频率倒谱系数分别输入到内容编码器和音色编码器中，得到所述训练语音的音素特征向量和音色特征向量；根据预设的分类规则分别对所述音素特征向量、所述音色特征向量进行分类处理，得到第一分类误差和第二分类误差；将所述音素特征向量、所述音色特征向量进行拼接并将拼接后的特征向量输入到解码器中，得到所述梅尔频率倒谱系数的重构误差；根据所述第一分类误差、所述第二分类误差以及所述重构误差计算语音转换模型的整体损失并根据所述整体损失更新所述语音转换模型的网络参数。

请参阅图4，图4是本申请实施例提供的计算机设备的示意性框图。

参阅图4，该设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行基于域分离的语音转换模型的训练方法。该处理器502用于提供计算和控制能力，支撑整个设备500的运行。该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行基于域分离的语音转换模型的训练方法。该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的设备500的限定，具体的设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现上述基于域分离的语音转换模型的训练方法的任一实施例。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中，该存储介质可以为计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本申请还提供了一种计算机可读存储介质。该计算机可读存储介质可以是非易失性，也可以是易失性。该存储介质存储有计算机程序，该计算机程序当被处理器执行时实现上述基于域分离的语音转换模型的训练方法的任一实施例。

该计算机可读存储介质可以是U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置、设备和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置、设备和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种基于域分离的语音转换模型的训练方法，包括以下步骤：

接收预设的训练语音并对所述训练语音进行特征提取，得到所述训练语音的梅尔频率倒谱系数；

将所述训练语音的梅尔频率倒谱系数分别输入到内容编码器和音色编码器中，得到所述训练语音的音素特征向量和音色特征向量；

根据预设的分类规则分别对所述音素特征向量、所述音色特征向量进行分类处理，得到第一分类误差和第二分类误差；

将所述音素特征向量、所述音色特征向量进行拼接并将拼接后的特征向量输入到解码器中，得到所述梅尔频率倒谱系数的重构误差；

根据所述第一分类误差、所述第二分类误差以及所述重构误差计算语音转换模型的整体损失并根据所述整体损失更新所述语音转换模型的网络参数。
根据权利要求1所述的基于域分离的语音转换模型的训练方法，其中，所述对所述训练语音进行特征提取，得到所述训练语音的梅尔频率倒谱系数，包括：

获取所述训练语音的频谱并将所述训练语音的频谱输入至预置的梅尔滤波器组中，得到所述训练语音的梅尔频谱；

将所述训练语音的梅尔频谱进行倒谱分析，得到所述训练语音的梅尔频率倒谱系数。
根据权利要求2所述的基于域分离的语音转换模型的训练方法，其中，所述获取所述训练语音的频谱，包括：

对所述训练语音进行预处理，得到预处理后的训练语音；

将所述预处理后的训练语音进行快速傅里叶变换，得到所述训练语音的频谱。
根据权利要求1所述的基于域分离的语音转换模型的训练方法，其中，所述根据预设的分类规则分别对所述音素特征向量、所述音色特征向量进行分类处理，得到第一分类误差和第二分类误差，包括：

将所述音素特征向量依次通过预置的梯度反转层、预置的第一分类器中，得到所述第一分类误差；

将所述音色特征向量输入至预置的第二分类器中，得到所述第二分类误差。
根据权利要求4所述的基于域分离的语音转换模型的训练方法，其中，所述根据所述第一分类误差、所述第二分类误差以及所述重构误差计算语音转换模型的整体损失，包括：

根据弗罗贝尼乌斯范数计算所述音素特征向量与所述音色特征向量的差异损失；

根据所述第一分类误差、所述第二分类误差、所述重构误差以及所述差异损失计算所述语音转换模型的整体损失。
根据权利要求5所述的基于域分离的语音转换模型的训练方法，其中，所述根据所述第一分类误差、所述第二分类误差、所述重构误差以及所述差异损失计算所述语音转换模型的整体损失，包括：

将所述音素特征向量输入到预设的ASR系统中进行音素识别，得到交叉熵损失；

根据所述第一分类误差、所述第二分类误差、所述重构误差、所述差异损失以及所述交叉熵损失计算所述语音转换模型的整体损失。
根据权利要求1-6中任意一项所述的基于域分离的语音转换模型的训练方法，所述根据所述整体损失更新所述语音转换模型的网络参数之后，还包括：

若接收到第一说话人的第一音频，获取所述第一音频的梅尔频率倒谱系数；

根据所述音色编码器获取第二说话人中第二音频的音色特征向量并将所述第一音频的梅尔频率倒谱系数输入至所述内容编码器中，得到所述第一音频的音素特征向量；

将所述第一音频的音素特征向量与所述第二音频的音色特征向量拼接后输入到所述解码器，得到所述第二说话人的第一音频。
一种基于域分离的语音转换模型的训练装置，包括：

特征提取单元，用于接收预设的训练语音并对所述训练语音进行特征提取，得到所述训练语音的梅尔频率倒谱系数；

第一输入单元，用于将所述训练语音的梅尔频率倒谱系数分别输入到内容编码器和音色编码器中，得到所述训练语音的音素特征向量和音色特征向量；

第一分类单元，用于根据预设的分类规则分别所述音素特征向量、所述音色特征向量进行分类处理，得到第一分类误差和第二分类误差；

拼接单元，用于将所述音素特征向量、所述音色特征向量进行拼接并将拼接后的特征向量输入到解码器中，得到所述梅尔频率倒谱系数的重构误差；

更新单元，用于根据所述第一分类误差、所述第二分类误差以及所述重构误差计算语音转换模型的整体损失并根据所述整体损失更新所述语音转换模型的网络参数。
一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时执行以下步骤：

接收预设的训练语音并对所述训练语音进行特征提取，得到所述训练语音的梅尔频率倒谱系数；

将所述训练语音的梅尔频率倒谱系数分别输入到内容编码器和音色编码器中，得到所述训练语音的音素特征向量和音色特征向量；

根据预设的分类规则分别对所述音素特征向量、所述音色特征向量进行分类处理，得到第一分类误差和第二分类误差；

将所述音素特征向量、所述音色特征向量进行拼接并将拼接后的特征向量输入到解码器中，得到所述梅尔频率倒谱系数的重构误差；

根据所述第一分类误差、所述第二分类误差以及所述重构误差计算语音转换模型的整体损失并根据所述整体损失更新所述语音转换模型的网络参数。
根据权利要求9所述的计算机设备，其中，所述对所述训练语音进行特征提取，得到所述训练语音的梅尔频率倒谱系数，包括：

获取所述训练语音的频谱并将所述训练语音的频谱输入至预置的梅尔滤波器组中，得到所述训练语音的梅尔频谱；

将所述训练语音的梅尔频谱进行倒谱分析，得到所述训练语音的梅尔频率倒谱系数。
根据权利要求10所述的计算机设备，其中，所述获取所述训练语音的频谱，包括：

对所述训练语音进行预处理，得到预处理后的训练语音；

将所述预处理后的训练语音进行快速傅里叶变换，得到所述训练语音的频谱。
根据权利要求9所述的计算机设备，其中，所述根据预设的分类规则分别对所述音素特征向量、所述音色特征向量进行分类处理，得到第一分类误差和第二分类误差，包括：

将所述音素特征向量依次通过预置的梯度反转层、预置的第一分类器中，得到所述第一分类误差；

将所述音色特征向量输入至预置的第二分类器中，得到所述第二分类误差。
根据权利要求12所述的计算机设备，其中，所述根据所述第一分类误差、所述第二分类误差以及所述重构误差计算语音转换模型的整体损失，包括：

根据弗罗贝尼乌斯范数计算所述音素特征向量与所述音色特征向量的差异损失；

根据所述第一分类误差、所述第二分类误差、所述重构误差以及所述差异损失计算所述语音转换模型的整体损失。
根据权利要求13所述的计算机设备，其中，所述根据所述第一分类误差、所述第二分类误差、所述重构误差以及所述差异损失计算所述语音转换模型的整体损失，包括：

将所述音素特征向量输入到预设的ASR系统中进行音素识别，得到交叉熵损失；

根据所述第一分类误差、所述第二分类误差、所述重构误差、所述差异损失以及所述交叉熵损失计算所述语音转换模型的整体损失。
根据权利要求9-14中任一项所述的计算机设备，所述根据所述整体损失更新所述语音转换模型的网络参数之后，还包括：

若接收到第一说话人的第一音频，获取所述第一音频的梅尔频率倒谱系数；

根据所述音色编码器获取第二说话人中第二音频的音色特征向量并将所述第一音频的梅尔频率倒谱系数输入至所述内容编码器中，得到所述第一音频的音素特征向量；

将所述第一音频的音素特征向量与所述第二音频的音色特征向量拼接后输入到所述解码器，得到所述第二说话人的第一音频。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行以下步骤：

接收预设的训练语音并对所述训练语音进行特征提取，得到所述训练语音的梅尔频率倒谱系数；

将所述训练语音的梅尔频率倒谱系数分别输入到内容编码器和音色编码器中，得到所述训练语音的音素特征向量和音色特征向量；

根据预设的分类规则分别对所述音素特征向量、所述音色特征向量进行分类处理，得到第一分类误差和第二分类误差；

将所述音素特征向量、所述音色特征向量进行拼接并将拼接后的特征向量输入到解码器中，得到所述梅尔频率倒谱系数的重构误差；

根据所述第一分类误差、所述第二分类误差以及所述重构误差计算语音转换模型的整体损失并根据所述整体损失更新所述语音转换模型的网络参数。
根据权利要求16所述的计算机可读存储介质，其中，所述对所述训练语音进行特征提取，得到所述训练语音的梅尔频率倒谱系数，包括：

获取所述训练语音的频谱并将所述训练语音的频谱输入至预置的梅尔滤波器组中，得到所述训练语音的梅尔频谱；

将所述训练语音的梅尔频谱进行倒谱分析，得到所述训练语音的梅尔频率倒谱系数。
根据权利要求17所述的计算机可读存储介质，其中，所述获取所述训练语音的频谱，包括：

对所述训练语音进行预处理，得到预处理后的训练语音；

将所述预处理后的训练语音进行快速傅里叶变换，得到所述训练语音的频谱。
根据权利要求16所述的计算机可读存储介质，其中，所述根据预设的分类规则分别对所述音素特征向量、所述音色特征向量进行分类处理，得到第一分类误差和第二分类误差，包括：

将所述音素特征向量依次通过预置的梯度反转层、预置的第一分类器中，得到所述第一分类误差；

将所述音色特征向量输入至预置的第二分类器中，得到所述第二分类误差。
根据权利要求19所述的计算机可读存储介质，其中，所述根据所述第一分类误差、所述第二分类误差以及所述重构误差计算语音转换模型的整体损失，包括：

根据弗罗贝尼乌斯范数计算所述音素特征向量与所述音色特征向量的差异损失；

根据所述第一分类误差、所述第二分类误差、所述重构误差以及所述差异损失计算所述语音转换模型的整体损失。