WO2021237923A1

WO2021237923A1 - 智能配音方法、装置、计算机设备和存储介质

Info

Publication number: WO2021237923A1
Application number: PCT/CN2020/105266
Authority: WO
Inventors: 马坤; 王家桢
Original assignee: 深圳壹账通智能科技有限公司
Priority date: 2020-05-26
Filing date: 2020-07-28
Publication date: 2021-12-02
Also published as: CN111696520A

Abstract

本申请涉及人工智能的语音处理领域，揭示了一种智能配音方法、装置、计算机设备和存储介质。该方法包括：获取待配音说话人的语音数据；对语音数据进行标准化处理，并提取经标准化处理后的语音数据的频谱包络、基频和非周期信号参数；提取频谱包络的第一梅尔倒谱频率系数；将第一梅尔倒谱频率系数输入至预先训练好的循环生成对抗网络模型的正向生成器或反向生成器，得到由正向生成器或反向生成器输出的第二梅尔倒谱频率系数；基于源语音数据、目标语音数据、第二梅尔倒谱频率系数、语音数据的基频和非周期信号参数生成与待配音说话人相对的目标说话人或源说话人的语音。此方法能实现不同音色的人的语音转换，提高了配音效率，降低了配音成本。

Description

智能配音方法、装置、计算机设备和存储介质

本申请要求于2020年5月26日提交中国专利局、申请号为CN 202010457088.5，发明名称为“智能配音方法、装置、介质及电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能的语音处理技术领域，特别是涉及一种智能配音方法、装置、计算机设备和计算机可读存储介质。

背景技术

配音是影视娱乐领域的一项重要工作。发明人意识到，目前，为了完成某些配音任务，往往都要亲自去找有相应说话风格和音色的人来亲自进行配音，这种方式费时费力，效率很低。

发明内容

在人工智能的语音处理技术领域，为了解决上述技术问题，本申请的目的在于提供一种智能配音方法、装置、计算机设备和计算机可读存储介质。

第一方面，提供了一种智能配音方法，包括：

获取待配音说话人的语音数据，所述待配音说话人为源说话人和目标说话人中的一位；

对所述语音数据进行标准化处理，并提取经标准化处理后的所述语音数据的频谱包络、基频和非周期信号参数；

提取所述频谱包络的第一预定数目维的第一梅尔倒谱频率系数；

将所述第一梅尔倒谱频率系数输入至预先训练好的循环生成对抗网络模型的正向生成器或反向生成器，得到由所述正向生成器或反向生成器输出的第一预定数目维的第二梅尔倒谱频率系数，其中，在所述待配音说话人为源说话人时，将所述第一梅尔倒谱频率系数输入至正向生成器，在所述待配音说话人为目标说话人时，将所述第一梅尔倒谱频率系数输入至反向生成器，所述循环生成对抗网络模型包括正向生成器、反向生成器、正向鉴别器和反向鉴别器，所述预先训练好的循环生成对抗网络模型的正向生成器和反向生成器利用源说话人的源语音数据和目标说话人的目标语音数据并基于所述循环生成对抗网络模型的正向鉴别器和反向鉴别器训练而成；

基于所述源说话人的源语音数据、目标说话人的目标语音数据、所述第二梅尔倒谱频率系数、所述语音数据的基频和非周期信号参数生成与所述待配音说话人相对的目标说话人或源说话人的语音。

第二方面，提供了一种智能配音装置，包括：

获取模块，被配置为获取待配音说话人的语音数据，所述待配音说话人为源说话人和目标说话人中的一位；

处理和提取模块，被配置为对所述语音数据进行标准化处理，并提取经标准化处理后的所述语音数据的频谱包络、基频和非周期信号参数；

提取模块，提取所述频谱包络的第一预定数目维的第一梅尔倒谱频率系数；

输入模块，被配置为将所述第一梅尔倒谱频率系数输入至预先训练好的循环生成对抗网络模型的正向生成器或反向生成器，得到由所述正向生成器或反向生成器输出的第一预定数目维的第二梅尔倒谱频率系数，其中，在所述待配音说话人为源说话人时，将所述第一梅尔倒谱频率系数输入至正向生成器，在所述待配音说话人为目标说话人时，将所述第一梅尔倒谱频率系数输入至反向生成器，所述循环生成对抗网络模型包括正向生成器、反向生成器、正向鉴别器和反向鉴别器，所述预先训练好的循环生成对抗网络模型的正向生成器和反向生成器利用源说话人的源语音数据和目标说话人的目标语音数据并基于所述循环生成对抗网络模型的正向鉴别器和反向鉴别器训练而成；

生成模块，被配置为基于所述源说话人的源语音数据、目标说话人的目标语音数据、所述第二梅尔倒谱频率系数、所述语音数据的基频和非周期信号参数生成与所述待配音说话人相对的目标说话人或源说话人的语音。

第三方面，提供了一种计算机设备，包括存储器和处理器，所述存储器用于存储所述处理器的智能配音的程序，所述处理器配置为经由执行所述智能配音的程序来执行以下处理：获取待配音说话人的语音数据，所述待配音说话人为源说话人和目标说话人中的一位；对所述语音数据进行标准化处理，并提取经标准化处理后的所述语音数据的频谱包络、基频和非周期信号参数；提取所述频谱包络的第一预定数目维的第一梅尔倒谱频率系数；将所述第一梅尔倒谱频率系数输入至预先训练好的循环生成对抗网络模型的正向生成器或反向生成器，得到由所述正向生成器或反向生成器输出的第一预定数目维的第二梅尔倒谱频率系数，其中，在所述待配音说话人为源说话人时，将所述第一梅尔倒谱频率系数输入至正向生成器，在所述待配音说话人为目标说话人时，将所述第一梅尔倒谱频率系数输入至反向生成器，所述循环生成对抗网络模型包括正向生成器、反向生成器、正向鉴别器和反向鉴别器，所述预先训练好的循环生成对抗网络模型的正向生成器和反向生成器利用源说话人的源语音数据和目标说话人的目标语音数据并基于所述循环生成对抗网络模型的正向鉴别器和反向鉴别器训练而成；基于所述源说话人的源语音数据、目标说话人的目标语音数据、所述第二梅尔倒谱频率系数、所述语音数据的基频和非周期信号参数生成与所述待配音说话人相对的目标说话人或源说话人的语音。

第四方面，提供了一种存储有计算机可读指令的计算机可读存储介质，其上存储有智能配音的程序，所述智能配音的程序被处理器执行时实现以下处理：获取待配音说话人的语音数据，所述待配音说话人为源说话人和目标说话人中的一位；对所述语音数据进行标准化处理，并提取经标准化处理后的所述语音数据的频谱包络、基频和非周期信号参数；提取所述频谱包络的第一预定数目维的第一梅尔倒谱频率系数；将所述第一梅尔倒谱频率系数输入至预先训练好的循环生成对抗网络模型的正向生成器或反向生成器，得到由所述正向生成器或反向生成器输出的第一预定数目维的第二梅尔倒谱频率系数，其中，在所述待配音说话人为源说话人时，将所述第一梅尔倒谱频率系数输入至正向生成器，在所述待配音说话人为目标说话人时，将所述第一梅尔倒谱频率系数输入至反向生成器，所述循环生成对抗网络模型包括正向生成器、反向生成器、正向鉴别器和反向鉴别器，所述预先训练好的循环生成对抗网络模型的正向生成器和反向生成器利用源说话人的源语音数据和目标说话人的目标语音数据并基于所述循环生成对抗网络模型的正向鉴别器和反向鉴别器训练而成；基于所述源说话人的源语音数据、目标说话人的目标语音数据、所述第二梅尔倒谱频率系数、所述语音数据的基频和非周期信号参数生成与所述待配音说话人相对的目标说话人或源说话人的语音。

上述智能配音方法、装置、计算机设备和计算机可读存储介质，通过先对待配音说话人的语音数据进行标准化处理，然后提取标准化处理后的所述语音数据的频谱包络、基频和非周期信号参数，接着提取一梅尔倒谱频率系数，然后将第一梅尔倒谱频率系数输入至预先训练好的循环生成对抗网络模型的正向生成器或反向生成器之后得到第二梅尔倒谱频率系数，最终基于第二梅尔倒谱频率系数、源语音数据、目标语音数据、基频及非周期信号参数生成语音。仅需获取要进行音色转换的双方的语音数据就能自动实现不同音色的人的语音转换，从而便于将一个人的语音转换为另一人的语音，不需要专门找相应音色的人来配音，提高了配音效率，降低了配音成本。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

图1是根据一示例性实施例示出的一种智能配音方法应用的系统架构示意图；

图2是根据一示例性实施例示出的一种智能配音方法的流程图；

图3是根据一示例性实施例示出的应用本申请提供的智能配音方法时所使用的循环生成对抗网络模型的架构示意图；

图4A是根据一示例性实施例示出的循环生成对抗网络模型的循环一致性损失和对抗损失的原理示意图；

图4B是根据一示例性实施例示出的循环生成对抗网络模型的身份映射损失的原理示意图；

图5是根据一示例性实施例示出的一种智能配音装置的框图；

图6是根据一示例性实施例示出的一种实现上述智能配音方法的计算机设备的示例框图；

图7是根据一示例性实施例示出的一种实现上述智能配音方法的计算机可读存储介质。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

此外，附图仅为本申请的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。

本申请首先提供了一种智能配音方法。智能配音是指将第一人的语音转换为第二人的语音，转换前后的两人的语音的内容不变，但转换前后的两人的语音的音色分别属于第一人和第二人。本申请提供的智能配音方法应用了人工智能技术实现了智能配音，该方法可以应用于多个领域，比如，在金融领域的智能营销和智能运营中，可以将客服座席的声音都转换成较为柔美的音色，可以提升接到电话者的体验，从而提升产品的销售；在教育领域中，可以应用在有声读物和在线教育，将线上讲课的老师的声音转换为学生喜欢的老师的声音，可以激发学习兴趣；在影视领域，可以实现智能配音，例如拍摄已故伟人的纪录片，可以提取其在历史影像视频中的声音，由配音演员进行纪录片的配音后，再将音色转换成已故伟人的声音，会让纪录片更加有时代感和真实感。

本申请的实施终端可以是任何具有运算处理和通信功能的设备，该设备可以与外部设备相连，用于接收或者发送数据，具体可以是便携移动设备，例如智能手机、平板电脑、笔记本电脑、PDA(Personal Digital Assistant)等，也可以是固定式设备，例如，计算机设备、现场终端、台式电脑、服务器、工作站等，还可以是多个设备的集合，比如云计算的物理基础设施或者服务器集群。

可选地，本申请的实施终端可以为服务器或者云计算的物理基础设施。

图1是根据一示例性实施例示出的一种智能配音方法应用的系统架构示意图。如图1所示，该系统架构包括终端110和服务器120，终端110与服务器120通过通信链路相连，用来接收或发送数据。用户可以通过终端110录入语音数据，服务器120为本申请的实施终端，服务器110上设有预先训练好的循环生成对抗网络模型，用户通过终端110录入的语音数据上传至服务器120后即可利用服务器110上的循环生成对抗网络模型进行配音。

值得一提的是，图1仅为本申请的一个实施例。虽然在图1中，用户，即待配音说话人的语音数据在终端录入语音数据并经由终端上传至本申请的实施终端，但在其他实施例或者具体应用中，用户录入语音数据的终端和本申请的实施终端可以为同一终端；虽然在图1实施例中除了终端110之外未包含其他与服务器120相连的终端，但在其他实施例中，还可以包括其他终端与服务器120相连，比如，可以包括为服务器120上循环生成对抗网络模型的训练提供数据的终端。

图2是根据一示例性实施例示出的一种智能配音方法的流程图。本实施例提供的智能配音方法可以由服务器执行，如图2所示，包括以下步骤：

步骤210，获取待配音说话人的语音数据。

所述待配音说话人为源说话人和目标说话人中的一位。

待配音说话人的语音数据可以是以各种格式的语音格式存在，比如可以是CD格式、WAV格式、MP3格式等。

源说话人和目标说话人是相对于模型的训练而言的，所述待配音说话人为源说话人和目标说话人中的一位，这意味着，无论是待配音说话人是源说话人还是目标说话人，通过本申请提供的智能配音方法都可以将待配音说话人转换为相对的一方的语音。

步骤220，对所述语音数据进行标准化处理，并提取经标准化处理后的所述语音数据的频谱包络、基频和非周期信号参数。

在一个实施例中，所述对所述语音数据进行标准化处理，包括：

将所述语音数据转换为预定频率的采样率和预定格式。

比如，可以将语音数据统一转换为16000khz采样率，单通道的wav格式。

频谱包络是将不同频率的振幅最高点连结起来形成的曲线，就叫频谱包络线。

在声音中，基频是指一个复音中基音的频率。非周期信号参数是用于反映语音的音色的一种参数。

可以通过多种方式提取经标准化处理后的所述语音数据的频谱包络、基频和非周期信号参数，比如可以使用WORLD工具包来提取语音的频谱包络、基频和非周期信号参数。

步骤230，提取所述频谱包络的第一预定数目维的第一梅尔倒谱频率系数。

可以采用各种方式来提取语音数据的梅尔频率倒谱系数，比如可以通过使用WORLD工具包的CodeSpectralEnvelope方法来提取。

第一梅尔倒谱频率系数的维度数可以是事先根据人为经验或者规定而设定的，比如可以是39、48等。

步骤240，将所述第一梅尔倒谱频率系数输入至预先训练好的循环生成对抗网络模型的正向生成器或反向生成器，得到由所述正向生成器或反向生成器输出的第一预定数目维的第二梅尔倒谱频率系数。

其中，在所述待配音说话人为源说话人时，将所述第一梅尔倒谱频率系数输入至正向生成器，在所述待配音说话人为目标说话人时，将所述第一梅尔倒谱频率系数输入至反向生成器，所述循环生成对抗网络模型包括正向生成器、反向生成器、正向鉴别器和反向鉴别器，所述预先训练好的循环生成对抗网络模型的正向生成器和反向生成器利用源说话人的源语音数据和目标说话人的目标语音数据并基于所述循环生成对抗网络模型的正向鉴别器和反向鉴别器训练而成。

在一个实施例中，所述预先训练好的循环生成对抗网络模型的正向生成器和反向生成器利用源说话人的源语音数据和目标说话人的目标语音数据并基于所述循环生成对抗网络模型的正向鉴别器和反向鉴别器通过如下方式训练而成：

利用源说话人的源语音数据和目标说话人的目标语音数据并基于正向循环一致性损失、反向循环一致性损失、正向对抗损失和正向身份映射损失训练得到所述循环生成对抗网络模型的正向生成器；

利用源说话人的源语音数据和目标说话人的目标语音数据并基于反向循环一致性损失、正向循环一致性损失、反向对抗损失和反向身份映射损失训练得到所述循环生成对抗网络的反向生成器，其中，所述正向对抗损失由所述正向鉴别器获得，用于衡量由所述正向生成器将所述源语音数据转换为伪目标语音数据后，所述目标语音数据与所述伪目标语音数据之间的差异，所述反向对抗损失由所述反向鉴别器获得，用于衡量由所述反向生成器将所述目标语音数据转换为伪源语音数据后，所述源语音数据与所述伪源语音数据之间的差异，所述正向循环一致性损失用于衡量由所述正向生成器将所述源语音数据转换为伪目标语音数据，并由所述反向生成器将所述伪目标语音数据转换为循环源语音数据后，所述循环源语音数据与所述源语音数据之间的差异，所述反向循环一致性损失用于衡量由所述反向生成器将所述目标语音数据转换为伪源语音数据，并由所述正向生成器将所述伪源语音数据转换为循环目标语音数据后，所述循环目标语音数据与所述目标语音数据之间的差异，所述正向身份映射损失用于衡量由所述正向生成器将所述目标语音数据转换为目标身份语音数据后，所述目标语音数据与所述目标身份语音数据之间的差异，所述反向身份映射损失用于衡量由所述反向生成器将源语音数据转换为源身份语音数据后，所述源语音数据与所述源身份语音数据之间的差异。

在一个实施例中，所述正向生成器与所述反向生成器的结构相同，所述正向鉴别器与所述反向鉴别器的结构相同。

在本实施例中，通过将正向生成器与反向生成器的结构设计为相同的结构，并将正向鉴别器与所述反向鉴别器的结构也设计为相同的结构，实现了对循环生成对抗网络模型的优化，从而提高了配音效果。

可以将预先训练好的循环生成对抗网络模型部署在区块链上，可以提高安全性，也可以便于模型的应用。

在一个实施例中，所述正向生成器和所述反向生成器分别包括：二维的第一卷积单元，与所述第一卷积单元相连的一维的第二卷积单元、与所述第二卷积单元相连的二维的第三卷积单元，其中，每一卷积单元的输出部分包括门控线性单元。

通过在生成器的前后部分设置二维的卷积单元，可以使生成器具有更广泛地捕获特征的能力，而通过在生成器的中间部分设置一维的卷积单元，可以更好地处理序列的语音数据。

门控线性单元(GLU，Gated Linear Units)可以用于避免训练过程中的梯度丧失。每一卷积单元的输出部分包括门控线性单元即每一卷积单元的激活函数为门控线性单元。

在一个实施例中，所述正向鉴别器和反向鉴别器的输出层均为二维的卷积层。

在正向鉴别器和反向鉴别器的输出层均为二维的卷积层的情况下，鉴别器输出的判定真伪的结果不再是整个语音信号的True或False的判定，而是输出一个n×n的矩阵，这个矩阵的每个元素都是一个判定结果(True，False)，其代表着语音信号的一个子集。这样的鉴别器在对转换语音细节的判定上更加准确，能够让输出的转换结果的语音听起来更加清晰、逼真。

参见图3所示，示例性地示出了应用本申请提供的智能配音方法时所使用的循环生成对抗网络模型的架构示意图，该循环生成对抗网络模型包括正向生成器320、反向生成器320′、正向鉴别器340和反向鉴别器340′。对于模型的第一部分，源语音数据310输入至正向生成器320转换为伪目标语音数据330，伪目标语音数据330和目标语音数据350会被输入至正向鉴别器340进行判断，以计算正向对抗损失。对于模型的第二部分，目标语音数据350输入至反向生成器320′转换为伪源语音数据330′，伪源语音数据330和源语音数据310会被输入至反向鉴别器340′进行判断，以计算反向对抗损失。另外，伪目标语音数据330会被送入至反向生成器320′，伪源语音数据330′也会被送入至正向生成器320，用于计算循环一致性损失；目标语音数据350还会被输入至正向生成器320，源语音数据310还会被输入至反向生成器320′，用于计算身份映射损失。

在一个实施例中，所述循环生成对抗网络模型通过如下的方式训练得到：

分别获取源说话人的源语音数据和目标说话人的目标语音数据，所述源语音数据和所述目标语音数据的时长分别超过预定时长；

分别对所述源语音数据和所述目标语音数据进行标准化处理，并提取经标准化处理后的所述源语音数据和所述目标语音数据的频谱包络；

迭代执行下列训练步骤，直至对所述循环生成对抗网络模型的训练达到预定条件：

利用所述源语音数据和所述目标语音数据的频谱包络，分别提取所述源语音数据和所述目标语音数据的连续第二预定数目帧语音数据所对应的梅尔频率倒谱系数，其中，所述梅尔频率倒谱系数为第一预定数目维；

分别将所述源语音数据和所述目标语音数据的所述梅尔频率倒谱系数输入至所述循环生成对抗网络模型，并在计算出所述循环生成对抗网络模型的各生成器和鉴别器的输出后，基于所述输出计算损失函数并基于所述损失函数的输出结果更新所述循环生成对抗网络模型的参数。

预定时长是根据经验设定的可以对循环生成对抗网络模型实现很好的训练效果的时长，比如可以是10分钟或15分钟。

预定条件是停止对所述循环生成对抗网络模型的训练的条件，预定条件比如可以是迭代执行训练步骤的次数达到预定次数阈值、迭代执行训练步骤的时长达到预定时间长度阈值、所述损失函数的输出结果小于预定结果阈值等。

可以采用各种方式来提取语音数据的频谱包络，比如可以通过使用WORLD工具包进行提取。

更新所述循环生成对抗网络模型的参数的方式可以利用反向传播算法。

在声音处理领域中，梅尔频率倒谱(Mel-Frequency Cepstrum)是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换。

梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCCs)就是组成梅尔频率倒谱的系数。它衍生自音讯片段的倒频谱(cepstrum)。倒谱和梅尔频率倒谱的区别在于，梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的，它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统。这样的非线性表示，可以在多个领域中使声音信号有更好的表示。例如在音讯压缩中。

连续帧语音数据的数目——第二预定数目以及梅尔频率倒谱系数的维度数——第一预定数目，都是预先根据经验等因素来设定的，比如，连续帧语音数据的数目可以为128，而梅尔频率倒谱系数的维度数可以为32、39、48等。

可以采用各种方式来提取语音数据的梅尔频率倒谱系数，比如可以通过使用WORLD语音工具包的CodeSpectralEnvelope方法来提取。

参见图4A所示，示出了所述循环生成对抗网络模型的循环一致性损失和对抗损失的原理示意图，左侧为正向学习的过程，右侧为反向学习的过程。参见图4A左侧，假设x _real为源语音数据，G _X→Y为正向生成器，通过G _X→Y将源语音数据转换为伪目标语音数据y _fake，此时通过正向鉴别器D _Y来计算目标语音数据与所述伪目标语音数据之间的差异，可以得到正向对抗损失，接着，通过G _Y→X这一反向生成器将伪目标语音数据y _fake转换为循环源语音数据x _cycle，可以计算循环源语音数据x _cycle与源语音数据x _real之间的差异，从而得到正向循环一致性损失。同理，通过图4A右侧示出的过程，可以得到反向对抗损失和反向循环一致性损失。

参见图4B所示，示出了所述循环生成对抗网络模型的身份映射损失的原理示意图，左侧为正向映射过程，右侧为反向映射过程。参见左侧的正向映射过程，先将目标语音数据输入至正向生成器，在由正向生成器将目标语音数据转换为目标身份语音数据后，通过计算所述目标语音数据与所述目标身份语音数据之间的差异，可以得到正向身份映射损失；同理，通过将源语音数据输入至反向生成器，由反向生成器将源语音数据转换为源身份语音数据，可以计算得到反向身份映射损失。

身份语音数据是通过将语音数据输入至生成器后，由生成器输出而得到的，通过基于语音数据与身份语音数据之间的差异计算损失函数，可以使语音数据与身份语音数据之间的差异最小，可以最大程度地保证生成器对语音进行转换时，保留原语音中的语言内容结构。

步骤250，基于所述源说话人的源语音数据、目标说话人的目标语音数据、所述第二梅尔倒谱频率系数、所述语音数据的基频和非周期信号参数生成与所述待配音说话人相对的目标说话人或源说话人的语音。

在一个实施例中，步骤250可以包括：

根据所述源说话人的源语音数据和目标说话人的目标语音数据分别确定所述源语音数据基频的平均值和标准差以及目标语音数据基频的平均值和标准差；

利用所述第二梅尔倒谱频率系数恢复要生成的语音的频谱包络；

根据所述语音数据的非周期信号参数确定要生成的语音的非周期信号参数；

基于所述语音数据的基频、所述源语音数据基频的平均值和标准差以及目标语音数据基频的平均值和标准差，确定要生成的语音的基频；

利用所述要生成的语音的频谱包络、非周期信号参数和基频合成要生成的语音，作为与所述待配音说话人相对的目标说话人或源说话人的语音。

可以采用多种方式利用所述要生成的语音的频谱包络、非周期信号参数和基频合成要生成的语音，比如可以使用WORLD工具包的语音合成方法来合成语音文件。

在一个实施例中，所述根据所述语音数据的非周期信号参数确定要生成的语音的非周期信号参数，包括：

将所述语音数据的非周期信号参数作为要生成的语音的非周期信号参数。

比如，若所述语音数据的非周期信号参数为AP _x，而要生成的语音的非周期信号参数为AP _y-converted，那么通过令AP _y-converted＝AP _x进行赋值，即可将所述语音数据的非周期信号参数作为要生成的语音的非周期信号参数。

在一个实施例中，所述基于所述语音数据的基频、所述源语音数据基频的平均值和标准差以及目标语音数据基频的平均值和标准差，确定要生成的语音的基频，包括：

基于所述语音数据的基频、所述源语音数据基频的平均值和标准差以及目标语音数据基频的平均值和标准差，利用如下公式确定要生成的语音的基频：

F0 _y-converted＝F0 _normalized×F0_std _y+F0_mean _y,

其中，F0 _x为所述语音数据的基频，F0_mean _x为所述待配音说话人所对应的源语音数据或目标语音数据基频的平均值，F0_std _x为所述待配音说话人所对应的源语音数据或目标语音数据基频的标准差，F0_mean _y为所述待配音说话人所对应的目标语音数据或源语音数据基频的平均值，F0_std _y为所述待配音说话人所对应的目标语音数据或源语音数据基频的标准差，F0 _normalized为中间结果，F0 _y-converted为要生成的语音的基频。

由于所述待配音说话人可以为源说话人和目标说话人，上述公式可以同时应用于待配音说话人为源说话人、目标说话人的任意一种场景。一方面，当所述待配音说话人为源说话人时，F0_mean _x为源语音数据基频的平均值，F0_std _x为源语音数据基频的标准差，F0_mean _y为目标语音数据基频的平均值，F0_std _y为目标语音数据基频的标准差；另一方面，当所述待配音说话人为目标说话人时，F0_mean _x为目标语音数据基频的平均值，F0_std _x为目标语音数据基频的标准差，F0_mean _y为源语音数据基频的平均值，F0_std _y为源语音数据基频的标准差。

本申请还提供了一种智能配音装置，以下是本申请的装置实施例。

图5是根据一示例性实施例示出的一种智能配音装置的框图。如图5所示，装置500包括：

获取模块510，被配置为获取待配音说话人的语音数据，所述待配音说话人为源说话人和目标说话人中的一位；

处理和提取模块520，被配置为对所述语音数据进行标准化处理，并提取经标准化处理后的所述语音数据的频谱包络、基频和非周期信号参数；

提取模块530，提取所述频谱包络的第一预定数目维的第一梅尔倒谱频率系数；

输入模块540，被配置为将所述第一梅尔倒谱频率系数输入至预先训练好的循环生成对抗网络模型的正向生成器或反向生成器，得到由所述正向生成器或反向生成器输出的第一预定数目维的第二梅尔倒谱频率系数，其中，在所述待配音说话人为源说话人时，将所述第一梅尔倒谱频率系数输入至正向生成器，在所述待配音说话人为目标说话人时，将所述第一梅尔倒谱频率系数输入至反向生成器，所述循环生成对抗网络模型包括正向生成器、反向生成器、正向鉴别器和反向鉴别器，所述预先训练好的循环生成对抗网络模型的正向生成器和反向生成器利用源说话人的源语音数据和目标说话人的目标语音数据并基于所述循环生成对抗网络模型的正向鉴别器和反向鉴别器训练而成；

生成模块550，被配置为基于所述源说话人的源语音数据、目标说话人的目标语音数据、所述第二梅尔倒谱频率系数、所述语音数据的基频和非周期信号参数生成与所述待配音说话人相对的目标说话人或源说话人的语音。

将所述语音数据转换为预定频率的采样率和预定格式。

在一个实施例中，所述生成模块被进一步配置为：

F0 _y-converted＝F0 _normalized×F0_std _y+F0_mean _y,

根据本申请的第三方面，还提供了一种计算机设备，执行上述任一所示的智能配音方法的全部或者部分步骤。该计算机设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述任一个示例性实施例所示出的智能配音方法。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图6来描述根据本申请的这种实施方式的计算机设备600。图6显示的计算机设备600仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示，计算机设备600以通用计算设备的形式表现。计算机设备600的组件可以包括但不限于：上述至少一个处理单元610、上述至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元610执行，使得所述处理单元610执行本说明书上述“实施例方法”部分中描述的根据本申请各种示例性实施方式的步骤。

存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)621和/或高速缓存存储单元622，还可以进一步包括只读存储单元(ROM)623。

存储单元620还可以包括具有一组(至少一个)程序模块625的程序/实用工具624，这样的程序模块625包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

计算机设备600也可以与一个或多个外部设备800(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该计算机设备600交互的设备通信，和/或与使得该计算机设备600能与一个或多个其它计算机设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且，计算机设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器660通过总线630与计算机设备600的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算机设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本申请实施方式的方法。

根据本申请的第四方面，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品，所述计算机可读存储介质可以是非易失性，也可以是易失性。在一些可能的实施方式中，本申请的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的步骤。

参考图7所示，描述了根据本申请的实施方式的用于实现上述方法的程序产品700，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本申请的程序产品不限于此，在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算机设备上部分在远程计算机设备上执行、或者完全在远程计算机设备或服务器上执行。在涉及远程计算机设备的情形中，远程计算机设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机设备，或者，可以连接到外部计算机设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本申请示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

一种智能配音方法，包括：

获取待配音说话人的语音数据，所述待配音说话人为源说话人和目标说话人中的一位；

对所述语音数据进行标准化处理，并提取经标准化处理后的所述语音数据的频谱包络、基频和非周期信号参数；

提取所述频谱包络的第一预定数目维的第一梅尔倒谱频率系数；

将所述第一梅尔倒谱频率系数输入至预先训练好的循环生成对抗网络模型的正向生成器或反向生成器，得到由所述正向生成器或反向生成器输出的第一预定数目维的第二梅尔倒谱频率系数，其中，在所述待配音说话人为源说话人时，将所述第一梅尔倒谱频率系数输入至正向生成器，在所述待配音说话人为目标说话人时，将所述第一梅尔倒谱频率系数输入至反向生成器，所述循环生成对抗网络模型包括正向生成器、反向生成器、正向鉴别器和反向鉴别器，所述预先训练好的循环生成对抗网络模型的正向生成器和反向生成器利用源说话人的源语音数据和目标说话人的目标语音数据并基于所述循环生成对抗网络模型的正向鉴别器和反向鉴别器训练而成；

基于所述源说话人的源语音数据、目标说话人的目标语音数据、所述第二梅尔倒谱频率系数、所述语音数据的基频和非周期信号参数生成与所述待配音说话人相对的目标说话人或源说话人的语音。
根据权利要求1所述的方法，其中，所述预先训练好的循环生成对抗网络模型的正向生成器和反向生成器利用源说话人的源语音数据和目标说话人的目标语音数据并基于所述循环生成对抗网络模型的正向鉴别器和反向鉴别器通过如下方式训练而成：

利用源说话人的源语音数据和目标说话人的目标语音数据并基于正向循环一致性损失、反向循环一致性损失、正向对抗损失和正向身份映射损失训练得到所述循环生成对抗网络模型的正向生成器；

利用源说话人的源语音数据和目标说话人的目标语音数据并基于反向循环一致性损失、正向循环一致性损失、反向对抗损失和反向身份映射损失训练得到所述循环生成对抗网络的反向生成器，其中，所述正向对抗损失由所述正向鉴别器获得，用于衡量由所述正向生成器将所述源语音数据转换为伪目标语音数据后，所述目标语音数据与所述伪目标语音数据之间的差异，所述反向对抗损失由所述反向鉴别器获得，用于衡量由所述反向生成器将所述目标语音数据转换为伪源语音数据后，所述源语音数据与所述伪源语音数据之间的差异，所述正向循环一致性损失用于衡量由所述正向生成器将所述源语音数据转换为伪目标语音数据，并由所述反向生成器将所述伪目标语音数据转换为循环源语音数据后，所述循环源语音数据与所述源语音数据之间的差异，所述反向循环一致性损失用于衡量由所述反向生成器将所述目标语音数据转换为伪源语音数据，并由所述正向生成器将所述伪源语音数据转换为循环目标语音数据后，所述循环目标语音数据与所述目标语音数据之间的差异，所述正向身份映射损失用于衡量由所述正向生成器将所述目标语音数据转换为目标身份语音数据后，所述目标语音数据与所述目标身份语音数据之间的差异，所述反向身份映射损失用于衡量由所述反向生成器将源语音数据转换为源身份语音数据后，所述源语音数据与所述源身份语音数据之间的差异。
根据权利要求2所述的方法，其中，所述正向生成器与所述反向生成器的结构相同，所述正向鉴别器与所述反向鉴别器的结构相同。
根据权利要求1所述的方法，其中，所述对所述语音数据进行标准化处理，包括：

将所述语音数据转换为预定频率的采样率和预定格式。
根据权利要求2或3所述的方法，其中，所述循环生成对抗网络模型通过如下的方式训练得到：

分别获取源说话人的源语音数据和目标说话人的目标语音数据，所述源语音数据和所述目标语音数据的时长分别超过预定时长；

分别对所述源语音数据和所述目标语音数据进行标准化处理，并提取经标准化处理后的所述源语音数据和所述目标语音数据的频谱包络；

迭代执行下列训练步骤，直至对所述循环生成对抗网络模型的训练达到预定条件：

利用所述源语音数据和所述目标语音数据的频谱包络，分别提取所述源语音数据和所述目标语音数据的连续第二预定数目帧语音数据所对应的梅尔频率倒谱系数，其中，所述梅尔频率倒谱系数为第一预定数目维；

分别将所述源语音数据和所述目标语音数据的所述梅尔频率倒谱系数输入至所述循环生成对抗网络模型，并在计算出所述循环生成对抗网络模型的各生成器和鉴别器的输出后，基于所述输出计算损失函数并基于所述损失函数的输出结果更新所述循环生成对抗网络模型的参数。
根据权利要求2或3所述的方法，其中，所述基于所述源说话人的源语音数据、目标说话人的目标语音数据、所述第二梅尔倒谱频率系数、所述语音数据的基频和非周期信号参数生成与所述待配音说话人相对的目标说话人或源说话人的语音，包括：

根据所述源说话人的源语音数据和目标说话人的目标语音数据分别确定所述源语音数据基频的平均值和标准差以及目标语音数据基频的平均值和标准差；

利用所述第二梅尔倒谱频率系数恢复要生成的语音的频谱包络；

根据所述语音数据的非周期信号参数确定要生成的语音的非周期信号参数；

基于所述语音数据的基频、所述源语音数据基频的平均值和标准差以及目标语音数据基频的平均值和标准差，确定要生成的语音的基频；

利用所述要生成的语音的频谱包络、非周期信号参数和基频合成要生成的语音，作为与所述待配音说话人相对的目标说话人或源说话人的语音。
根据权利要求6所述的方法，其中，所述基于所述语音数据的基频、所述源语音数据基频的平均值和标准差以及目标语音数据基频的平均值和标准差，确定要生成的语音的基频，包括：

基于所述语音数据的基频、所述源语音数据基频的平均值和标准差以及目标语音数据基频的平均值和标准差，利用如下公式确定要生成的语音的基频：

F0 _y-converted＝F0 _normalized×F0_std _y+F0_mean _y,

其中，F0 _x为所述语音数据的基频，F0_mean _x为所述待配音说话人所对应的源语音数据或目标语音数据基频的平均值，F0_std _x为所述待配音说话人所对应的源语音数据或目标语音数据基频的标准差，F0_mean _y为所述待配音说话人所对应的目标语音数据或源语音数据基频的平均值，F0_std _y为所述待配音说话人所对应的目标语音数据或源语音数据基频的标准差，F0 _normalized为中间结果，F0 _y-converted为要生成的语音的基频。
一种智能配音装置，包括：

获取模块，被配置为获取待配音说话人的语音数据，所述待配音说话人为源说话人和目标说话人中的一位；

处理和提取模块，被配置为对所述语音数据进行标准化处理，并提取经标准化处理后的所述语音数据的频谱包络、基频和非周期信号参数；

提取模块，提取所述频谱包络的第一预定数目维的第一梅尔倒谱频率系数；

输入模块，被配置为将所述第一梅尔倒谱频率系数输入至预先训练好的循环生成对抗网络模型的正向生成器或反向生成器，得到由所述正向生成器或反向生成器输出的第一预定数目维的第二梅尔倒谱频率系数，其中，在所述待配音说话人为源说话人时，将所述第一梅尔倒谱频率系数输入至正向生成器，在所述待配音说话人为目标说话人时，将所述第一梅尔倒谱频率系数输入至反向生成器，所述循环生成对抗网络模型包括正向生成器、反向生成器、正向鉴别器和反向鉴别器，所述预先训练好的循环生成对抗网络模型的正向生成器和反向生成器利用源说话人的源语音数据和目标说话人的目标语音数据并基于所述循环生成对抗网络模型的正向鉴别器和反向鉴别器训练而成；

生成模块，被配置为基于所述源说话人的源语音数据、目标说话人的目标语音数据、所述第二梅尔倒谱频率系数、所述语音数据的基频和非周期信号参数生成与所述待配音说话人相对的目标说话人或源说话人的语音。
一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行:

获取待配音说话人的语音数据，所述待配音说话人为源说话人和目标说话人中的一位；

对所述语音数据进行标准化处理，并提取经标准化处理后的所述语音数据的频谱包络、基频和非周期信号参数；

提取所述频谱包络的第一预定数目维的第一梅尔倒谱频率系数；

将所述第一梅尔倒谱频率系数输入至预先训练好的循环生成对抗网络模型的正向生成器或反向生成器，得到由所述正向生成器或反向生成器输出的第一预定数目维的第二梅尔倒谱频率系数，其中，在所述待配音说话人为源说话人时，将所述第一梅尔倒谱频率系数输入至正向生成器，在所述待配音说话人为目标说话人时，将所述第一梅尔倒谱频率系数输入至反向生成器，所述循环生成对抗网络模型包括正向生成器、反向生成器、正向鉴别器和反向鉴别器，所述预先训练好的循环生成对抗网络模型的正向生成器和反向生成器利用源说话人的源语音数据和目标说话人的目标语音数据并基于所述循环生成对抗网络模型的正向鉴别器和反向鉴别器训练而成；

基于所述源说话人的源语音数据、目标说话人的目标语音数据、所述第二梅尔倒谱频率系数、所述语音数据的基频和非周期信号参数生成与所述待配音说话人相对的目标说话人或源说话人的语音。
根据权利要求9所述的计算机设备，其中，所述预先训练好的循环生成对抗网络模型的正向生成器和反向生成器利用源说话人的源语音数据和目标说话人的目标语音数据并基于所述循环生成对抗网络模型的正向鉴别器和反向鉴别器通过如下方式训练而成：

利用源说话人的源语音数据和目标说话人的目标语音数据并基于正向循环一致性损失、反向循环一致性损失、正向对抗损失和正向身份映射损失训练得到所述循环生成对抗网络模型的正向生成器；

利用源说话人的源语音数据和目标说话人的目标语音数据并基于反向循环一致性损失、正向循环一致性损失、反向对抗损失和反向身份映射损失训练得到所述循环生成对抗网络的反向生成器，其中，所述正向对抗损失由所述正向鉴别器获得，用于衡量由所述正向生成器将所述源语音数据转换为伪目标语音数据后，所述目标语音数据与所述伪目标语音数据之间的差异，所述反向对抗损失由所述反向鉴别器获得，用于衡量由所述反向生成器将所述目标语音数据转换为伪源语音数据后，所述源语音数据与所述伪源语音数据之间的差异，所述正向循环一致性损失用于衡量由所述正向生成器将所述源语音数据转换为伪目标语音数据，并由所述反向生成器将所述伪目标语音数据转换为循环源语音数据后，所述循环源语音数据与所述源语音数据之间的差异，所述反向循环一致性损失用于衡量由所述反向生成器将所述目标语音数据转换为伪源语音数据，并由所述正向生成器将所述伪源语音数据转换为循环目标语音数据后，所述循环目标语音数据与所述目标语音数据之间的差异，所述正向身份映射损失用于衡量由所述正向生成器将所述目标语音数据转换为目标身份语音数据后，所述目标语音数据与所述目标身份语音数据之间的差异，所述反向身份映射损失用于衡量由所述反向生成器将源语音数据转换为源身份语音数据后，所述源语音数据与所述源身份语音数据之间的差异。
根据权利要求10所述的计算机设备，其中，所述正向生成器与所述反向生成器的结构相同，所述正向鉴别器与所述反向鉴别器的结构相同。
根据权利要求9所述的计算机设备，其中，所述对所述语音数据进行标准化处理，包括：

将所述语音数据转换为预定频率的采样率和预定格式。
根据权利要求10或11所述的计算机设备，其中，所述循环生成对抗网络模型通过如下的方式训练得到：

分别获取源说话人的源语音数据和目标说话人的目标语音数据，所述源语音数据和所述目标语音数据的时长分别超过预定时长；

分别对所述源语音数据和所述目标语音数据进行标准化处理，并提取经标准化处理后的所述源语音数据和所述目标语音数据的频谱包络；

迭代执行下列训练步骤，直至对所述循环生成对抗网络模型的训练达到预定条件：

利用所述源语音数据和所述目标语音数据的频谱包络，分别提取所述源语音数据和所述目标语音数据的连续第二预定数目帧语音数据所对应的梅尔频率倒谱系数，其中，所述梅尔频率倒谱系数为第一预定数目维；

分别将所述源语音数据和所述目标语音数据的所述梅尔频率倒谱系数输入至所述循环生成对抗网络模型，并在计算出所述循环生成对抗网络模型的各生成器和鉴别器的输出后，基于所述输出计算损失函数并基于所述损失函数的输出结果更新所述循环生成对抗网络模型的参数。
根据权利要求10或11所述的计算机设备，其中，所述基于所述源说话人的源语音数据、目标说话人的目标语音数据、所述第二梅尔倒谱频率系数、所述语音数据的基频和非周期信号参数生成与所述待配音说话人相对的目标说话人或源说话人的语音，包括：

根据所述源说话人的源语音数据和目标说话人的目标语音数据分别确定所述源语音数据基频的平均值和标准差以及目标语音数据基频的平均值和标准差；

利用所述第二梅尔倒谱频率系数恢复要生成的语音的频谱包络；

根据所述语音数据的非周期信号参数确定要生成的语音的非周期信号参数；

基于所述语音数据的基频、所述源语音数据基频的平均值和标准差以及目标语音数据基频的平均值和标准差，确定要生成的语音的基频；

利用所述要生成的语音的频谱包络、非周期信号参数和基频合成要生成的语音，作为与所述待配音说话人相对的目标说话人或源说话人的语音。
根据权利要求14所述的计算机设备，其中，所述基于所述语音数据的基频、所述源语音数据基频的平均值和标准差以及目标语音数据基频的平均值和标准差，确定要生成的语音的基频，包括：

基于所述语音数据的基频、所述源语音数据基频的平均值和标准差以及目标语音数据基频的平均值和标准差，利用如下公式确定要生成的语音的基频：

F0 _y-converted＝F0 _normalized×F0_std _y+F0_mean _y,

其中，F0 _x为所述语音数据的基频，F0_mean _x为所述待配音说话人所对应的源语音数据或目标语音数据基频的平均值，F0_std _x为所述待配音说话人所对应的源语音数据或目标语音数据基频的标准差，F0_mean _y为所述待配音说话人所对应的目标语音数据或源语音数据基频的平均值，F0_std _y为所述待配音说话人所对应的目标语音数据或源语音数据基频的标准差，F0 _normalized为中间结果，F0 _y-converted为要生成的语音的基频。
一种存储有计算机可读指令的计算机可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行：

获取待配音说话人的语音数据，所述待配音说话人为源说话人和目标说话人中的一位；

对所述语音数据进行标准化处理，并提取经标准化处理后的所述语音数据的频谱包络、基频和非周期信号参数；

提取所述频谱包络的第一预定数目维的第一梅尔倒谱频率系数；

将所述第一梅尔倒谱频率系数输入至预先训练好的循环生成对抗网络模型的正向生成器或反向生成器，得到由所述正向生成器或反向生成器输出的第一预定数目维的第二梅尔倒谱频率系数，其中，在所述待配音说话人为源说话人时，将所述第一梅尔倒谱频率系数输入至正向生成器，在所述待配音说话人为目标说话人时，将所述第一梅尔倒谱频率系数输入至反向生成器，所述循环生成对抗网络模型包括正向生成器、反向生成器、正向鉴别器和反向鉴别器，所述预先训练好的循环生成对抗网络模型的正向生成器和反向生成器利用源说话人的源语音数据和目标说话人的目标语音数据并基于所述循环生成对抗网络模型的正向鉴别器和反向鉴别器训练而成；

基于所述源说话人的源语音数据、目标说话人的目标语音数据、所述第二梅尔倒谱频率系数、所述语音数据的基频和非周期信号参数生成与所述待配音说话人相对的目标说话人或源说话人的语音。
根据权利要求16所述的计算机可读存储介质，其中，所述预先训练好的循环生成对抗网络模型的正向生成器和反向生成器利用源说话人的源语音数据和目标说话人的目标语音数据并基于所述循环生成对抗网络模型的正向鉴别器和反向鉴别器通过如下方式训练而成：

利用源说话人的源语音数据和目标说话人的目标语音数据并基于正向循环一致性损失、反向循环一致性损失、正向对抗损失和正向身份映射损失训练得到所述循环生成对抗网络模型的正向生成器；

利用源说话人的源语音数据和目标说话人的目标语音数据并基于反向循环一致性损失、正向循环一致性损失、反向对抗损失和反向身份映射损失训练得到所述循环生成对抗网络的反向生成器，其中，所述正向对抗损失由所述正向鉴别器获得，用于衡量由所述正向生成器将所述源语音数据转换为伪目标语音数据后，所述目标语音数据与所述伪目标语音数据之间的差异，所述反向对抗损失由所述反向鉴别器获得，用于衡量由所述反向生成器将所述目标语音数据转换为伪源语音数据后，所述源语音数据与所述伪源语音数据之间的差异，所述正向循环一致性损失用于衡量由所述正向生成器将所述源语音数据转换为伪目标语音数据，并由所述反向生成器将所述伪目标语音数据转换为循环源语音数据后，所述循环源语音数据与所述源语音数据之间的差异，所述反向循环一致性损失用于衡量由所述反向生成器将所述目标语音数据转换为伪源语音数据，并由所述正向生成器将所述伪源语音数据转换为循环目标语音数据后，所述循环目标语音数据与所述目标语音数据之间的差异，所述正向身份映射损失用于衡量由所述正向生成器将所述目标语音数据转换为目标身份语音数据后，所述目标语音数据与所述目标身份语音数据之间的差异，所述反向身份映射损失用于衡量由所述反向生成器将源语音数据转换为源身份语音数据后，所述源语音数据与所述源身份语音数据之间的差异。
根据权利要求17所述的计算机可读存储介质，其中，所述正向生成器与所述反向生成器的结构相同，所述正向鉴别器与所述反向鉴别器的结构相同。
根据权利要求16所述的计算机可读存储介质，其中，所述对所述语音数据进行标准化处理，包括：

将所述语音数据转换为预定频率的采样率和预定格式。
根据权利要求17或18所述的计算机可读存储介质，其中，所述循环生成对抗网络模型通过如下的方式训练得到：

分别获取源说话人的源语音数据和目标说话人的目标语音数据，所述源语音数据和所述目标语音数据的时长分别超过预定时长；

分别对所述源语音数据和所述目标语音数据进行标准化处理，并提取经标准化处理后的所述源语音数据和所述目标语音数据的频谱包络；

迭代执行下列训练步骤，直至对所述循环生成对抗网络模型的训练达到预定条件：

利用所述源语音数据和所述目标语音数据的频谱包络，分别提取所述源语音数据和所述目标语音数据的连续第二预定数目帧语音数据所对应的梅尔频率倒谱系数，其中，所述梅尔频率倒谱系数为第一预定数目维；

分别将所述源语音数据和所述目标语音数据的所述梅尔频率倒谱系数输入至所述循环生成对抗网络模型，并在计算出所述循环生成对抗网络模型的各生成器和鉴别器的输出后，基于所述输出计算损失函数并基于所述损失函数的输出结果更新所述循环生成对抗网络模型的参数。