WO2023168813A1

WO2023168813A1 - 音色模型构建方法、音色转换方法、装置、设备及介质

Info

Publication number: WO2023168813A1
Application number: PCT/CN2022/089770
Authority: WO
Inventors: 张剑; 蒋慧军; 徐伟; 陈又新; 肖京
Original assignee: 平安科技（深圳）有限公司
Priority date: 2022-03-09
Filing date: 2022-04-28
Publication date: 2023-09-14
Also published as: CN114550735A

Abstract

一种乐器音色转换模型构建方法及装置、乐器音色转换方法、计算机设备及介质。该乐器音色转换模型构建方法包括：通过将第一样本音频向量序列转换为第二样本音频向量序列（S102），再将第二样本音频向量序列转换为输入样本音频向量序列（S106）；并通过计算得到的第一损失值和第一分值，更新待训练模型的模型参数（S112），以训练得到乐器音色转换模型。该方法通过第一损失值和第一分支对模型进行训练，训练效率高；且提高了乐器音色转换模型的准确率。

Description

音色模型构建方法、音色转换方法、装置、设备及介质

本申请以2022年3月9日提交的申请号为202210225202.0，名称为“乐器音色转换模型构建方法以及乐器音色转换方法”的中国专利申请为基础，并要求其优先权。

技术领域

本申请实施例涉及人工智能技术领域，尤其涉及一种音色模型构建方法、音色转换方法、装置、设备及介质。

背景技术

目前，基于神经网络的乐器音色转换模型的训练主要依赖于监督方法，该模型训练方法需要采集大量的源乐器和目标转换乐器的成对音频训练数据，且数据需要在时间维度上对齐。发明人意识到在实际应用过程中，获取成对对齐的训练数据成本高，无法保证采集训练数据的数量和质量，导致通过监督方法采集的训练数据训练得到的模型的乐器音色转换效果差。

发明内容

本申请实施例提供了一种音色模型构建方法、音色转换方法、装置、设备及介质，用于解决现有音频训练数据训练得到的模型的乐器音色转换效果差的问题。

本申请实施例提供一种乐器音色转换模型构建方法，其中，包括：

采集多个第一样本音频数据，其中，第一样本音频数据为基于第一类型乐器演奏得到的音频数据；

将所述多个第一样本音频数据转化为多个第一样本音频向量序列，并将所述多个第一样本音频向量序列输入至待训练模型中；

通过所述待训练模型将所述多个第一样本音频向量序列转换为第二样本音频向量序列，其中，第二样本音频向量序列为基于模拟第二类型乐器演奏得到的音频数据对应的向量序列；

将每个第二样本音频向量序列恢复为对应的输入样本音频向量序列，其中，所述输入样本音频向量序列为基于模拟所述第一类型乐器演奏得到的音频数据对应的向量序列；

将所述输入样本音频向量序列与对应的第一样本音频向量序列进行比对，并得到第一损失值；

基于多个第二样本音频向量序列，获取每个第二样本音频向量序列对应的第一分值；

基于所述第一分值和所述第一损失值，更新所述待训练模型的模型参数；

根据更新后的模型参数得到乐器音色转换模型。

本申请实施例提供一种乐器音色转换模型构建装置，其中，包括：

采集模块，用于采集多个第一样本音频数据，其中，第一样本音频数据为基于第一类型乐器演奏得到的音频数据；

向量转化模块，用于将所述多个第一样本音频数据转化为多个第一样本音频向量序列，并将所述多个第一样本音频向量序列输入至待训练模型中，

转换模块，用于通过所述待训练模型将所述多个第一样本音频向量序列转换为第二样本音频向量序列，其中，第二样本音频向量序列为基于模拟第二类型乐器演奏得到的音频数据对应的向量序列；

恢复模块，用于将每个第二样本音频向量序列恢复为对应的输入样本音频向量序列，其中，所述输入样本音频向量序列为基于模拟所述第一类型乐器演奏得到的音频数据对应的向量序列；

比对模块，用于将所述输入样本音频向量序列与对应的第一样本音频向量序列进行比对，并得到第一损失值；

获取模块，用于基于多个第二样本音频向量序列，获取每个第二样本音频向量序列对应的第一分值；

更新模块，用于基于所述第一分值和所述第一损失值，更新所述待训练模型的模型参数；及

生成模块，用于根据更新后的模型参数得到乐器音色转换模型。

本申请实施例提供一种计算机设备，所述计算机设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机可读指令，其中，所述处理器执行所述计算机可读指令时实现如下步骤：

根据更新后的模型参数得到乐器音色转换模型。

本申请实施例提供一个或多个存储有计算机可读指令的非易失性可读存储介质，其中，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：

根据更新后的模型参数得到乐器音色转换模型。

本申请实施例提供一种乐器音色转换方法，其中，包括：

采集多个第一目标音频数据，其中，第一目标音频数据为基于第一类型乐器演奏得到的音频数据；

将所述多个第一目标音频数据转化为多个第一目标音频向量序列，并将所述多个第一目标音频向量序列输入至如权利要求1-6任一项所述的乐器音色转换模型中；

通过所述乐器音色转换模型将所述多个第一目标音频向量序列转换为对应的多个第二目标音频向量序列，其中，第二目标音频向量序列为基于模拟第二类型乐器演奏得到的音频数据对应的向量序列；及

将多个第二目标音频向量序列转化为对应的多个第二目标音频数据。

本申请实施例提供的音色模型构建方法、音色转换方法、装置、设备及介质中，通过将第一样本音频向量序列转换为第二样本音频向量序列，再将第二样本音频向量序列转换为输入样本音频向量序列；通过计算得到的第一损失值和第一分值，更新待训练模型的模型参数，以训练得到乐器音色转换模型；本申请实施例通过第一损失值和第一分支对模型进行训练，训练效率高；且提高了通过上述方法训练得到的乐器音色转换模型的转换效果。

以下结合附图和具体实施例对本申请进行详细描述，但不作为对本申请的限定。

附图说明

图1为本申请实施例一之乐器音色转换模型构建方法的步骤流程图；

图2为本申请实施例一之乐器音色转换模型构建方法中获取第一样本音频向量序列的步骤流程图；

图3为本申请实施例一之乐器音色转换模型构建方法中更新模型参数的步骤流程图；

图4为本申请实施例一之乐器音色转换模型构建方法中模型训练的步骤流程图；

图5为本申请实施例一之乐器音色转换模型构建方法中更新模型参数的步骤流程图；

图6为本申请实施例二之乐器音色转换模型构建装置的程序模块示意图；

图7为本申请实施例三之乐器音色转换方法的步骤流程图；

图8为本申请实施例四之计算机设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本申请实施例中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

在本申请的描述中，需要理解的是，步骤前的数字标号并不标识执行步骤的前后顺序，仅用于方便描述本申请及区别每一步骤，因此不能理解为对本申请的限制。

实施例一

请参阅图1，示出了本申请实施例之乐器音色转换模型构建方法的步骤流程图。可以理解，本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备为执行主体进行示例性描述，具体如下：

如图1所示，所述乐器音色转换模型构建方法可以包括步骤S100-S114，其中：

步骤S100，采集多个第一样本音频数据，其中，第一样本音频数据为基于第一类型乐器演奏得到的音频数据。

在本实施例中，获取多个第一样本音频数据作为训练集对待训练模型进行训练。相比于有监督学习方法，无需对第一样本音频数据在时间维度上进行标注，只需要根据音频数据对应的乐器类型对音频数据进行归类。因此，本实施例的所述方法能够大幅度降低数据的获取成本，能够拥有更多的训练数据对待训练模型进行训练，给模型性能的提升提供了良好的基础条件。

步骤S102，将所述多个第一样本音频数据转化为多个第一样本音频向量序列，并将所述多个第一样本音频向量序列输入至待训练模型中。

为了方便所述待训练模型进行数据处理，请参阅图2，所述将所述多个第一样本音频数据转化为多个第一样本音频向量序列的步骤S102还可以进一步包括步骤S200-S206，其中：步骤S200，对每个第一样本音频数据进行分帧处理，并得到多帧第一子样本音频数据；步骤S202，对每帧第一子样本音频数据进行傅里叶变换，得到所述每帧第一子样本音频数据对应的幅值；步骤S204，根据所述每帧第一子样本音频数据的幅值，得到线性谱；及步骤S206，对所述线性谱进行加权求和，得到第一样本音频数据对应的第一样本音频向量序列。在本实施例中，将音频数据进行向量转化，以方便所述待训练模型进行数据处理，有效提高数据处理效率。

步骤S104，通过所述待训练模型将所述多个第一样本音频向量序列转换为第二样本音频向量序列，其中，第二样本音频向量序列为基于模拟第二类型乐器演奏得到的音频数据对应的向量序列。

其中，第一类型乐器和第二类型乐器为不同乐器。所述待训练模型涉及四组神经网络，分别用于表征第一转换器、第二转换器、第一辨别器、第二辨别器、transformer(自注意力)层的encoder(编码器)和解码器；其中，第一转换器和第一辨别器用于将第一类型乐器的音频转化为第二类型乐器的音频；第二转换器和第二辨别器用于将第二类型乐器的音频转化为第一类型乐器的音频；编码器和解码器用于音频数据和音频向量序列之间的转化。

第一转换器接收来自于第一类型乐器的第一样本音频向量序列，使用transformer层中的编码器将第一样本音频向量序列转换为相同长度的第二类型乐器的第二样本音频向量序列。

步骤S106，将每个第二样本音频向量序列恢复为对应的输入样本音频向量序列，其中，所述输入样本音频向量序列为基于模拟所述第一类型乐器演奏得到的音频数据对应的向量序列。

其中，通过第二转换器接收转换后的第二样本音频向量序列，并使用transformer层中解码器将第二样本音频向量序列恢复为输入音频向量序列。

步骤S108，将所述输入样本音频向量序列与对应的第一样本音频向量序列进行比对，并得到第一损失值。

在本实施例中，将输入样本音频向量序列和对应的第一样本音频向量序列进行对比形成监督信号，用于更新第一转换器和第一辨别器的模型参数。对每一个时刻的输入音频向量序列计算其与对应的第一样本音频向量序列的最小平方误差，即最小重构误差。

步骤S110，基于多个第二样本音频向量序列，获取每个第二样本音频向量序列对应的第一分值。

在本实施例中，通过第一辨别器识别所述第二样本音频向量序列为来自于第二类型乐器实际演奏的音频数据或者为经转换后的模拟第二类型乐器演奏的音频数据，并输出分值；根据分值与预设分值进行比对，以判断第二样本音频向量序列。若分值大于预设分值，则确定第二样本音频向量序列来自于第二类型乐器实际演奏的音频数据；若分值小于所述预设分值，则确定第二样本音频向量序列为经转换后的模拟第二类型乐器演奏的音频数据。

步骤S112，基于所述第一分值和所述第一损失值，更新所述待训练模型的模型参数。

在示例性的实施例中，所述待训练模型包括第一转换器、第二转换器、第一辨别器和第二辨别器，所述第一转换器用于将所述第一样本音频向量序列转换为所述第二样本音频向量序列；所述第二转换器用于将第三样本音频向量序列转换为第四样本音频向量序列，其中，所述第三样本音频数据为基于所述第二类型乐器演奏得到的音频数据对应的向量序列，所述第四样本音频向量序列为基于模拟所述第一类型乐器演奏得到的音频数据对应的向量序列；所述第一辨别器用于辨别音频数据是否为模拟所述第一类型乐器演奏得到的数据；所述第二辨别器用于辨别音频数据是否为模拟所述第二类型乐器演奏得到的数据；为了提高模型训练效率和转换效果，

请参阅图3，所述基于所述第一分值和所述第一损失值，更新所述待训练模型的模型参数还可以包括以下步骤S300～S302，其中：步骤S300，在所述第二转换器和所述第二辨别器的模型参数不变的情形下，根据所述第一损失值，通过反向传播算法获取所述第一转换器中各个神经元的第一误差；步骤S302，根据所述第一转换器中的各个第一误差，更新所述第一转换器的模型参数；及步骤S304，基于所述第一转换器更新后的模型参数和所述第一分值，更新所述第一辨别器的模型参数。在本实施例中，单方向训练时同时更新两组神经网络参数，即训练模型将第一类型乐器的音频数据转换为第二类型乐器的音频数据的能力时，更新第一转换器和第一辨别器的模型参数。通过正向传播计算得到第一损失值；再通过反向传播算法计算得到第一转换器中各个神经元的第一误差；再基于各个第一误差和梯度下降算法计算第一转换器的模型参数的导数，并基于各个导数更新第一转换器的模型参数。

对于第一转换器，其目标是生成模拟第二类型乐器演奏的音频数据使得第一辨别器能够输出更高的第一分值。第一辨别器的目标是提升音频数据辨别的准确性，对来自第二类型乐器真实演奏的音频数据给出高分，对来自转换后的模拟第二类型乐器演奏的音频数据给出低分。

对于第一转换器的模型参数的更新依赖于第一损失函数，第一损失函数可以参见以下公式1：

其中，E代表误差，d～M ₁表示从数据集M ₁中抽样，

表示第一转换器由w ₁作为神经网络参数表征的函数，

表示第二转换器由w ₂作为神经网络参数表示的函数，

表示第一辨别器由

作为神经网络参数表征的函数。

对于第一辨别器的模型参数的更新依赖于第二损失函数，第二损失函数可以参见以下公式2：

其中，E代表误差，d～M ₁表示从数据集M ₁中抽样，d～M ₂表示从数据集M ₂中抽样，

表示第一转换器由w ₁作为神经网络参数表征的函数，

表示第一辨别器由

作为神经网络参数表征的函数。

步骤S114，根据更新后的模型参数得到乐器音色转换模型。

在示例性的实施例中，所述根据更新后的模型参数得到乐器音色转换模型的步骤S114还可以包括以下操作：根据更新后的模型参数，得到更新后的待训练模型；对更新后的待训练模型中的模型参数进行预设次数更新后，得到所述乐器音色转换模型。通过预设次数的迭代训练使模型收敛，能够提高所述模型数据处理的准确率。

为了提高所述模型的适用性，所述方法还包括双向训练；提高请参阅图4，所述方法还包括步骤S400-S414，其中：步骤S400，采集多个第三样本音频数据，其中，第三样本音频数据为基于所述第二类型乐器演奏得到的音频数据；步骤S402，将所述多个第三样本音频数据转化为多个第三样本音频向量序列，并将所述多个第三样本音频向量序列输入至待训练模型中；步骤S404，通过所述待训练模型将所述多个第三样本音频向量序列转换为第四样本音频向量序列，其中，第四样本音频向量序列为基于模拟所述第一类型乐器演奏得到的音频数据对应的向量序列；步骤S406，将每个第四样本音频向量序列恢复为对应的第五样本音频向量序列，其中，所述第五样本音频向量序列为基于模拟所述第二类型乐器演奏得到的音频数据对应的向量序列；步骤S408，将所述第五样本音频向量序列与对应的第三样本音频向量序列进行比对，并得到第二损失值；步骤S410，基于多个第四样本音频向量序列，获取每个第四样本音频向量序列对应的第二分值；步骤S412，基于所述第二分值和所述第二损失值，更新所述待训练模型的模型参数；及步骤S414，根据更新后的模型参数得到乐器音色转换模型。

对于第二转换器的模型参数的更新依赖于第三损失函数，第三损失函数可以参见以下公式3：

其中，E代表误差，d～M ₂表示从数据集M ₂中抽样，

表示第一转换器由w ₁作为神经网络参数表征的函数，

表示第二转换器由w ₂作为神经网络参数表示的函数，

表示第二辨别器由

作为神经网络参数表征的函数。

对于第二辨别器的模型参数的更新依赖于第四损失函数，第四损失函数可以参见以下公式4：

表示第二转换器由w ₂作为神经网络参数表示的函数，

表示第二辨别器由

作为神经网络参数表征的函数。

为了提高模型训练效率和准确率，请参阅图5，所述基于所述第二分值和所述第二损失值，更新所述待训练模型的模型参数还可以通过以下操作得到，其中：步骤S500，在所述第一转换器和所述第一辨别器的模型参数不变的情形下，根据所述第二损失值，更新所述第二转换器的模型参数；及步骤S502，基于所述第二转换器更新后的模型参数和所述第二分值，更新所述第二辨别器的模型参数。

本申请实施例无需源乐器和目标转换乐器的成对音频训练数据，对训练数据的处理仅需按照乐器类型对训练数据进行归类，克服了获取成对对齐训练数据成本高的问题，使得数据在无需大量加工的前提下即能为训练模型所使用，相对于传统训练数据的获取方法在数据准备上节省了大量时间和成本，提高所述方法的适用性；使得所述乐器音色转换模型能够在多种不同类型的乐器之间实现音色转换。且通过第一损失函数、第二损失函数、第三损失函数和第四损失函数，对待训练模型进行训练，有效提高模型的训练效率和准确率。

实施例二

请继续参阅图6，示出了本申请乐器音色转换模型构建装置的程序模块示意图。在本实施例中，乐器音色转换模型构建装置可以包括或被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本申请，并可实现上述乐器音色转换模型构建方法。本申请实施例所称的程序模块是指能够完成特定功能的一系列计算机可读指令的指令段，比程序本身更适合于描述乐器音色转换模型构建装置在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能：

所述乐器音色转换模型构建装置，包括：采集模块600、向量转化模块602、转换模块604、恢复模块606、比对模块608、获取模块610、更新模块612以及生成模块614；其中：

采集模块600，用于采集多个第一样本音频数据，其中，第一样本音频数据为基于第一类型乐器演奏得到的音频数据；

向量转化模块602，用于将所述多个第一样本音频数据转化为多个第一样本音频向量序列，并将所述多个第一样本音频向量序列输入至待训练模型中，

转换模块604，用于通过所述待训练模型将所述多个第一样本音频向量序列转换为第二样本音频向量序列，其中，第二样本音频向量序列为基于模拟第二类型乐器演奏得到的音频数据对应的向量序列；

恢复模块606，用于将每个第二样本音频向量序列恢复为对应的输入样本音频向量序列，其中，所述输入样本音频向量序列为基于模拟所述第一类型乐器演奏得到的音频数据对应的向量序列；

比对模块608，用于将所述输入样本音频向量序列与对应的第一样本音频向量序列进行比对，并得到第一损失值；

获取模块610，用于基于多个第二样本音频向量序列，获取每个第二样本音频向量序列对应的第一分值；

更新模块612，用于基于所述第一分值和所述第一损失值，更新所述待训练模型的模型参数；及

生成模块614，用于根据更新后的模型参数得到乐器音色转换模型。

实施例三

请参阅图7，示出了本申请实施例之乐器音色转换方法的步骤流程图。可以理解，本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备为执行主体进行示例性描述，具体如下：

如图7所示，所述乐器音色转换方法可以包括步骤S700-S706，其中：

步骤S700，采集多个第一目标音频数据，其中，第一目标音频数据为基于第一类型乐器演奏得到的音频数据；

步骤S702，将所述多个第一目标音频数据转化为多个第一目标音频向量序列，并将所述多个第一目标音频向量序列输入至上述实施例的乐器音色转换模型中；

步骤S704，通过所述乐器音色转换模型将所述多个第一目标音频向量序列转换为对应的多个第二目标音频向量序列，其中，第二目标音频向量序列为基于模拟第二类型乐器演奏得到的音频数据对应的向量序列；及

步骤S706，将多个第二目标音频向量序列转化为对应的多个第二目标音频数据。

实施例四

参阅图8，是本申请实施例四之计算机设备的硬件架构示意图。本实施例中，所述计算机设备2是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图8所示，所述计算机设备2至少包括，但不限于，可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及乐器音色转换模型构建装置。其中：

本实施例中，存储器21至少包括一种类型的计算机可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备2的内部存储单元，例如该计算机设备2的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备2的外部存储设备，例如该计算机设备2上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件，例如上述实施例的乐器转换模型构建装置的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中，处理器22用于运行存储器21中存储的程序代码或者处理数据，例如运行乐器转换模型构建装置，以实现上述实施例的乐器转换模型构建方法。

所述网络接口23可包括无线网络接口或有线网络接口，该网络接口23通常用于在所述计算机设备2与其他电子装置之间建立通信连接。例如，所述网络接口23用于通过网络将所述计算机设备2与外部终端相连，在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，GSM)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图8仅示出了具有部件21-23的计算机设备2，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器21中的所述乐器转换模型构建装置还可以被分割为一个或者多个程序模块，所述一个或者多个程序模块被存储于存储器21中，并由一个或多个处理器(本实施例为处理器22)所执行，以完成本申请。

例如，图6示出了所述实现乐器转换模型构建装置实施例er的程序模块示意图，该实施例中，所述基于乐器转换模型构建装置可以被划分为采集模块600、向量转化模块602、转换模块604、恢复模块606、比对模块608、获取模块610、更新模块612以及生成模块614。其中，本申请所称的程序模块是指能够完成特定功能的一系列计算机可读指令的指令段，比程序更适合于描述所述乐器转换模型构建装置在所述计算机设备2中的执行过程。所述程序模块600-614的具体功能在实施例二中已有详细描述，在此不再赘述。

实施例五

本实施例还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机可读指令，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储乐器转换模型构建装置，被处理器执行时实现上述实施例的乐器转换模型构建方法。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种乐器音色转换模型构建方法，其中，包括：

采集多个第一样本音频数据，其中，第一样本音频数据为基于第一类型乐器演奏得到的音频数据；

将所述多个第一样本音频数据转化为多个第一样本音频向量序列，并将所述多个第一样本音频向量序列输入至待训练模型中；

通过所述待训练模型将所述多个第一样本音频向量序列转换为第二样本音频向量序列，其中，第二样本音频向量序列为基于模拟第二类型乐器演奏得到的音频数据对应的向量序列；

将每个第二样本音频向量序列恢复为对应的输入样本音频向量序列，其中，所述输入样本音频向量序列为基于模拟所述第一类型乐器演奏得到的音频数据对应的向量序列；

将所述输入样本音频向量序列与对应的第一样本音频向量序列进行比对，并得到第一损失值；

基于多个第二样本音频向量序列，获取每个第二样本音频向量序列对应的第一分值；

基于所述第一分值和所述第一损失值，更新所述待训练模型的模型参数；

根据更新后的模型参数得到乐器音色转换模型。
根据权利要求1所述的乐器音色转换模型构建方法，其中，所述待训练模型包括第一转换器、第二转换器、第一辨别器和第二辨别器，所述第一转换器用于将所述第一样本音频向量序列转换为所述第二样本音频向量序列；所述第二转换器用于将第三样本音频向量序列转换为第四样本音频向量序列，其中，所述第三样本音频数据为基于所述第二类型乐器演奏得到的音频数据对应的向量序列，所述第四样本音频向量序列为基于模拟所述第一类型乐器演奏得到的音频数据对应的向量序列；所述第一辨别器用于辨别音频数据是否为模拟所述第一类型乐器演奏得到的数据；所述第二辨别器用于辨别音频数据是否为模拟所述第二类型乐器演奏得到的数据；

所述基于所述第一分值和所述第一损失值，更新所述待训练模型的模型参数，还包括：

在所述第二转换器和所述第二辨别器的模型参数不变的情形下，根据所述第一损失值，通过反向传播算法获取所述第一转换器中各个神经元的第一误差；

根据所述第一转换器中的各个第一误差，更新所述第一转换器的模型参数；

基于所述第一转换器更新后的模型参数和所述第一分值，更新所述第一辨别器的模型参数。
根据权利要求2所述的乐器音色转换模型构建方法，其中，所述根据更新后的模型参数得到乐器音色转换模型，还包括：

根据更新后的模型参数，得到更新后的待训练模型；

对更新后的待训练模型中的模型参数进行预设次数更新后，得到所述乐器音色转换模型。
根据权利要求2所述的乐器音色转换模型构建方法，其中，所述将所述多个第一样本音频数据转化为多个第一样本音频向量序列，还包括：

对每个第一样本音频数据进行分帧处理，并得到多帧第一子样本音频数据；

对每帧第一子样本音频数据进行傅里叶变换，得到所述每帧第一子样本音频数据对应的幅值；

根据所述每帧第一子样本音频数据的幅值，得到线性谱；及

对所述线性谱进行加权求和，得到第一样本音频数据对应的第一样本音频向量序列。
根据权利要求3所述的乐器音色转换模型构建方法，其中，所述方法还包括：

采集多个第三样本音频数据，其中，第三样本音频数据为基于所述第二类型乐器演奏得到的音频数据；

将所述多个第三样本音频数据转化为多个第三样本音频向量序列，并将所述多个第三样本音频向量序列输入至待训练模型中；

通过所述待训练模型将所述多个第三样本音频向量序列转换为第四样本音频向量序列，其中，第四样本音频向量序列为基于模拟所述第一类型乐器演奏得到的音频数据对应的向量序列；

将每个第四样本音频向量序列恢复为对应的第五样本音频向量序列，其中，所述第五样本音频向量序列为基于模拟所述第二类型乐器演奏得到的音频数据对应的向量序列；

将所述第五样本音频向量序列与对应的第三样本音频向量序列进行比对，并得到第二损失值；

基于多个第四样本音频向量序列，获取每个第四样本音频向量序列对应的第二分值；

基于所述第二分值和所述第二损失值，更新所述待训练模型的模型参数；

根据更新后的模型参数得到所述乐器音色转换模型。
根据权利要求5所述的乐器音色转换模型构建方法，其中，所述基于所述第二分值和所述第二损失值，更新所述待训练模型的模型参数，还包括：

在所述第一转换器和所述第一辨别器的模型参数不变的情形下，根据所述第二损失值，更新所述第二转换器的模型参数；及

基于所述第二转换器更新后的模型参数和所述第二分值，更新所述第二辨别器的模型参数。
一种乐器音色转换模型构建装置，其中，包括：

采集模块，用于采集多个第一样本音频数据，其中，第一样本音频数据为基于第一类型乐器演奏得到的音频数据；

向量转化模块，用于将所述多个第一样本音频数据转化为多个第一样本音频向量序列，并将所述多个第一样本音频向量序列输入至待训练模型中，

转换模块，用于通过所述待训练模型将所述多个第一样本音频向量序列转换为第二样本音频向量序列，其中，第二样本音频向量序列为基于模拟第二类型乐器演奏得到的音频数据对应的向量序列；

恢复模块，用于将每个第二样本音频向量序列恢复为对应的输入样本音频向量序列，其中，所述输入样本音频向量序列为基于模拟所述第一类型乐器演奏得到的音频数据对应的向量序列；

比对模块，用于将所述输入样本音频向量序列与对应的第一样本音频向量序列进行比对，并得到第一损失值；

获取模块，用于基于多个第二样本音频向量序列，获取每个第二样本音频向量序列对应的第一分值；

更新模块，用于基于所述第一分值和所述第一损失值，更新所述待训练模型的模型参数；及

生成模块，用于根据更新后的模型参数得到乐器音色转换模型。
一种计算机设备，所述计算机设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机可读指令，其中，所述处理器执行所述计算机可读指令时实现如下步骤：

采集多个第一样本音频数据，其中，第一样本音频数据为基于第一类型乐器演奏得到的音频数据；

将所述多个第一样本音频数据转化为多个第一样本音频向量序列，并将所述多个第一样本音频向量序列输入至待训练模型中；

通过所述待训练模型将所述多个第一样本音频向量序列转换为第二样本音频向量序列，其中，第二样本音频向量序列为基于模拟第二类型乐器演奏得到的音频数据对应的向量序列；

将每个第二样本音频向量序列恢复为对应的输入样本音频向量序列，其中，所述输入样本音频向量序列为基于模拟所述第一类型乐器演奏得到的音频数据对应的向量序列；

将所述输入样本音频向量序列与对应的第一样本音频向量序列进行比对，并得到第一损失值；

基于多个第二样本音频向量序列，获取每个第二样本音频向量序列对应的第一分值；

基于所述第一分值和所述第一损失值，更新所述待训练模型的模型参数；

根据更新后的模型参数得到乐器音色转换模型。
根据权利要求8所述的计算机设备，其中，所述待训练模型包括第一转换器、第二转换器、第一辨别器和第二辨别器，所述第一转换器用于将所述第一样本音频向量序列转换为所述第二样本音频向量序列；所述第二转换器用于将第三样本音频向量序列转换为第四样本音频向量序列，其中，所述第三样本音频数据为基于所述第二类型乐器演奏得到的音频数据对应的向量序列，所述第四样本音频向量序列为基于模拟所述第一类型乐器演奏得到的音频数据对应的向量序列；所述第一辨别器用于辨别音频数据是否为模拟所述第一类型乐器演奏得到的数据；所述第二辨别器用于辨别音频数据是否为模拟所述第二类型乐器演奏得到的数据；

所述基于所述第一分值和所述第一损失值，更新所述待训练模型的模型参数，还包括：

在所述第二转换器和所述第二辨别器的模型参数不变的情形下，根据所述第一损失值，通过反向传播算法获取所述第一转换器中各个神经元的第一误差；

根据所述第一转换器中的各个第一误差，更新所述第一转换器的模型参数；

基于所述第一转换器更新后的模型参数和所述第一分值，更新所述第一辨别器的模型参数。
根据权利要求9所述的计算机设备，其中，所述根据更新后的模型参数得到乐器音色转换模型，还包括：

根据更新后的模型参数，得到更新后的待训练模型；

对更新后的待训练模型中的模型参数进行预设次数更新后，得到所述乐器音色转换模型。
根据权利要求9所述的计算机设备，其中，所述将所述多个第一样本音频数据转化为多个第一样本音频向量序列，还包括：

对每个第一样本音频数据进行分帧处理，并得到多帧第一子样本音频数据；

对每帧第一子样本音频数据进行傅里叶变换，得到所述每帧第一子样本音频数据对应的幅值；

根据所述每帧第一子样本音频数据的幅值，得到线性谱；及

对所述线性谱进行加权求和，得到第一样本音频数据对应的第一样本音频向量序列。
根据权利要求11所述的计算机设备，其中，所述处理器执行所述计算机可读指令时还实现如下步骤：

采集多个第三样本音频数据，其中，第三样本音频数据为基于所述第二类型乐器演奏得到的音频数据；

将所述多个第三样本音频数据转化为多个第三样本音频向量序列，并将所述多个第三样本音频向量序列输入至待训练模型中；

通过所述待训练模型将所述多个第三样本音频向量序列转换为第四样本音频向量序列，其中，第四样本音频向量序列为基于模拟所述第一类型乐器演奏得到的音频数据对应的向量序列；

将每个第四样本音频向量序列恢复为对应的第五样本音频向量序列，其中，所述第五样本音频向量序列为基于模拟所述第二类型乐器演奏得到的音频数据对应的向量序列；

将所述第五样本音频向量序列与对应的第三样本音频向量序列进行比对，并得到第二损失值；

基于多个第四样本音频向量序列，获取每个第四样本音频向量序列对应的第二分值；

基于所述第二分值和所述第二损失值，更新所述待训练模型的模型参数；

根据更新后的模型参数得到所述乐器音色转换模型。
一个或多个存储有计算机可读指令的非易失性可读存储介质，其中，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：

采集多个第一样本音频数据，其中，第一样本音频数据为基于第一类型乐器演奏得到的音频数据；

将所述多个第一样本音频数据转化为多个第一样本音频向量序列，并将所述多个第一样本音频向量序列输入至待训练模型中；

通过所述待训练模型将所述多个第一样本音频向量序列转换为第二样本音频向量序列，其中，第二样本音频向量序列为基于模拟第二类型乐器演奏得到的音频数据对应的向量序列；

将每个第二样本音频向量序列恢复为对应的输入样本音频向量序列，其中，所述输入样本音频向量序列为基于模拟所述第一类型乐器演奏得到的音频数据对应的向量序列；

将所述输入样本音频向量序列与对应的第一样本音频向量序列进行比对，并得到第一损失值；

基于多个第二样本音频向量序列，获取每个第二样本音频向量序列对应的第一分值；

基于所述第一分值和所述第一损失值，更新所述待训练模型的模型参数；

根据更新后的模型参数得到乐器音色转换模型。
根据权利要求13所述的非易失性可读存储介质，其中，所述待训练模型包括第一转换器、第二转换器、第一辨别器和第二辨别器，所述第一转换器用于将所述第一样本音频向量序列转换为所述第二样本音频向量序列；所述第二转换器用于将第三样本音频向量序列转换为第四样本音频向量序列，其中，所述第三样本音频数据为基于所述第二类型乐器演奏得到的音频数据对应的向量序列，所述第四样本音频向量序列为基于模拟所述第一类型乐器演奏得到的音频数据对应的向量序列；所述第一辨别器用于辨别音频数据是否为模拟所述第一类型乐器演奏得到的数据；所述第二辨别器用于辨别音频数据是否为模拟所述第二类型乐器演奏得到的数据；

所述基于所述第一分值和所述第一损失值，更新所述待训练模型的模型参数，还包括：

在所述第二转换器和所述第二辨别器的模型参数不变的情形下，根据所述第一损失值，通过反向传播算法获取所述第一转换器中各个神经元的第一误差；

根据所述第一转换器中的各个第一误差，更新所述第一转换器的模型参数；

基于所述第一转换器更新后的模型参数和所述第一分值，更新所述第一辨别器的模型参数。
根据权利要求14所述的非易失性可读存储介质，其中，所述根据更新后的模型参数得到乐器音色转换模型，还包括：

根据更新后的模型参数，得到更新后的待训练模型；

对更新后的待训练模型中的模型参数进行预设次数更新后，得到所述乐器音色转换模型。
根据权利要求14所述的非易失性可读存储介质，其中，所述将所述多个第一样本音频数据转化为多个第一样本音频向量序列，还包括：

对每个第一样本音频数据进行分帧处理，并得到多帧第一子样本音频数据；

对每帧第一子样本音频数据进行傅里叶变换，得到所述每帧第一子样本音频数据对应的幅值；

根据所述每帧第一子样本音频数据的幅值，得到线性谱；及

对所述线性谱进行加权求和，得到第一样本音频数据对应的第一样本音频向量序列。
根据权利要求16所述的非易失性可读存储介质，其中，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器还执行如下步骤：

采集多个第三样本音频数据，其中，第三样本音频数据为基于所述第二类型乐器演奏得到的音频数据；

将所述多个第三样本音频数据转化为多个第三样本音频向量序列，并将所述多个第三样本音频向量序列输入至待训练模型中；

通过所述待训练模型将所述多个第三样本音频向量序列转换为第四样本音频向量序列，其中，第四样本音频向量序列为基于模拟所述第一类型乐器演奏得到的音频数据对应的向量序列；

将每个第四样本音频向量序列恢复为对应的第五样本音频向量序列，其中，所述第五样本音频向量序列为基于模拟所述第二类型乐器演奏得到的音频数据对应的向量序列；

将所述第五样本音频向量序列与对应的第三样本音频向量序列进行比对，并得到第二损失值；

基于多个第四样本音频向量序列，获取每个第四样本音频向量序列对应的第二分值；

基于所述第二分值和所述第二损失值，更新所述待训练模型的模型参数；

根据更新后的模型参数得到所述乐器音色转换模型。
一种乐器音色转换方法，其中，包括：

采集多个第一目标音频数据，其中，第一目标音频数据为基于第一类型乐器演奏得到的音频数据；

将所述多个第一目标音频数据转化为多个第一目标音频向量序列，并将所述多个第一目标音频向量序列输入至如权利要求1-6任一项所述的乐器音色转换模型中；

通过所述乐器音色转换模型将所述多个第一目标音频向量序列转换为对应的多个第二目标音频向量序列，其中，第二目标音频向量序列为基于模拟第二类型乐器演奏得到的音频数据对应的向量序列；及

将多个第二目标音频向量序列转化为对应的多个第二目标音频数据。
一种计算机设备，所述计算机设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机可读指令，其中，所述处理器执行所述计算机可读指令时实现如下步骤：

采集多个第一目标音频数据，其中，第一目标音频数据为基于第一类型乐器演奏得到的音频数据；

将所述多个第一目标音频数据转化为多个第一目标音频向量序列，并将所述多个第一目标音频向量序列输入至如权利要求1-6任一项所述的乐器音色转换模型中；

通过所述乐器音色转换模型将所述多个第一目标音频向量序列转换为对应的多个第二目标音频向量序列，其中，第二目标音频向量序列为基于模拟第二类型乐器演奏得到的音频数据对应的向量序列；及

将多个第二目标音频向量序列转化为对应的多个第二目标音频数据。
一个或多个存储有计算机可读指令的非易失性可读存储介质，其中，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：

采集多个第一目标音频数据，其中，第一目标音频数据为基于第一类型乐器演奏得到的音频数据；

将所述多个第一目标音频数据转化为多个第一目标音频向量序列，并将所述多个第一目标音频向量序列输入至如权利要求1-6任一项所述的乐器音色转换模型中；

通过所述乐器音色转换模型将所述多个第一目标音频向量序列转换为对应的多个第二目标音频向量序列，其中，第二目标音频向量序列为基于模拟第二类型乐器演奏得到的音频数据对应的向量序列；及

将多个第二目标音频向量序列转化为对应的多个第二目标音频数据。