WO2023092368A1

WO2023092368A1 - 音频分离方法、装置、设备、存储介质及程序产品

Info

Publication number: WO2023092368A1
Application number: PCT/CN2021/132977
Authority: WO
Inventors: 黄杰雄; 万景轩; 漆原; 陈传艺
Original assignee: 广州酷狗计算机科技有限公司
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2023-06-01
Also published as: CN114365219A

Abstract

本申请公开了一种音频分离方法、装置、设备、存储介质及程序产品，属于音频处理技术领域。所述方法包括：获取待分离音频，待分离音频包括至少两个音轨；获取待分离音频的时域特征和纹理特征，时域特征和纹理特征分别用于表征待分离音频的谐波相关性和谐波连续性；根据时域特征和纹理特征，获得n个音轨集分别对应的频谱特征，频谱特征用于表征音轨集的频率和振幅信息，每个音轨集包括待分离音频中的若干个音轨的组合；根据n个音轨集分别对应的频谱特征，生成n个对应的音频文件。本申请提供了一种分离效果好的音频分离方法，通过时域特征和纹理特征生成的音轨集分别对应的频谱特征，减小了音频分离过程中设备的计算量，提高了音频分离的速度。

Description

音频分离方法、装置、设备、存储介质及程序产品

技术领域

本申请涉及音频处理技术领域，特别涉及一种音频分离方法、装置、设备、存储介质及程序产品。

背景技术

音乐是混合着人声和各种不同乐器声音的音频文件，将音频文件进行分离，获得音频文件中的多个独立音轨，在音乐混音、伴奏提取等方面有重要应用。

相关技术中，使用基于卷积神经网络的音频分离方法对待分离音频进行音频分离，使用此方法进行人声和伴奏声的分离时，先将待分离音频输入音频分离模型，通过音频分离模型对待分离音频进行卷积处理，分别获取人声特征和伴奏特征，基于分离出的人声特征和伴奏特征生成分离后的人声音轨和伴奏音轨。

然而，上述音频分离方法对音轨进行分离时，分离过程的计算量较大，分离速度较慢。

发明内容

本申请实施例提供了一种音频分离方法、装置、设备、存储介质及程序产品，在对待分离音频进行分离获得多个音轨集的过程中，计算量小，分离速度快。技术方案如下：

根据本申请实施例的一个方面，提供了一种音频分离方法，所述方法包括：

获取待分离音频，所述待分离音频包括至少两个音轨；

获取所述待分离音频的时域特征和纹理特征，所述时域特征用于表征所述待分离音频的谐波相关性，所述纹理特征用于表征所述待分离音频的谐波连续性；

根据所述时域特征和所述纹理特征，获得n个音轨集分别对应的频谱特征，所述频谱特征用于表征所述音轨集的频率和振幅信息，每个音轨集包括所述待分离音频中的一个音轨或者多个音轨的组合，n为正整数；

根据所述n个音轨集分别对应的频谱特征，生成所述n个音轨集分别对应的音频文件。

根据本申请实施例的一个方面，提供了一种音频分离模型的训练方法，所述方法包括：

获取所述音频分离模型的训练数据，所述训练数据包括待分离音频样本和所述待分离音频样本对应的n个标签音轨，所述待分离音频样本包括至少两个音轨，n为正整数；

通过所述音频分离模型获取所述待分离音频样本的时域特征和纹理特征，所述时域特征用于表征所述待分离音频样本的谐波相关性，所述纹理特征用于表征所述待分离音频样本的谐波连续性；

根据所述时域特征和所述纹理特征，获得n个音轨集分别对应的频谱特征，所述频谱特征用于表征所述音轨集的频率和振幅信息，每个音轨集包括所述待分离音频样本中的一个音轨或者多个音轨的组合；

根据所述n个音轨集分别对应的频谱特征，以及所述n个标签音轨分别对应的频谱特征，计算所述音频分离模型的训练损失，并基于所述训练损失对所述音频分离模型进行训练。

根据本申请实施例的一个方面，提供了一种音频分离装置，所述装置包括：

音频获取模块，用于获取待分离音频，所述待分离音频包括至少两个音轨；

特征提取模块，用于获取所述待分离音频的时域特征和纹理特征，所述时域特征用于表征所述待分离音频的谐波相关性，所述纹理特征用于表征所述待分离音频的谐波连续性；

频谱生成模块，用于根据所述时域特征和所述纹理特征，获得n个音轨集分别对应的频谱特征，所述频谱特征用于表征所述音轨集的频率和振幅信息，每个音轨集包括所述待分离音频中的一个音轨或者多个音轨的组合，n为正整数；

音轨生成模块，用于根据所述n个音轨集分别对应的频谱特征，生成所述n个音轨集分别对应的音频文件。

根据本申请实施例的一个方面，提供了一种音频分离模型的训练装置，所述装置包括：

数据获取模块，用于获取所述音频分离模型的训练数据，所述训练数据包括待分离音频样本和所述待分离音频样本对应的n个标签音轨，所述待分离音频样本包括至少两个音轨，n为正整数；

特征提取模块，用于通过所述音频分离模型获取所述待分离音频样本的时域特征和纹理特征，所述时域特征用于表征所述待分离音频样本的谐波相关性，所述纹理特征用于表征所述待分离音频样本的谐波连续性；

频谱生成模块，用于根据所述时域特征和所述纹理特征，获得n个音轨集分别对应的频谱特征，所述频谱特征用于表征所述音轨集的频率和振幅信息，每个音轨集包括所述待分离音频样本中的一个音轨或者多个音轨的组合；

模型训练模块，用于根据所述n个音轨集分别对应的频谱特征，以及所述n个标签音轨分别对应的频谱特征，计算所述音频分离模型的训练损失，并基于所述训练损失对所述音频分离模型进行训练。

根据本申请实施例的一个方面，提供了一种计算机设备，上述计算机设备包括：处理器和存储器，上述存储器存储有计算机程序，上述计算机程序由上述处理器加载并执行以实现上述音频分离方法或音频分离模型的训练方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，上述计算机可读存储介质中存储有计算机程序，上述计算机程序由处理器加载并执行以实现上述音频分离方法或音频分离模型的训练方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品或计算机程序，上述计算机程序产品或计算机程序包括计算机指令，上述计算机指令存储在计算机可读存储介质中，处理器从上述计算机可读存储介质读取上述计算机指令，以实现如上所述音频分离方法或音频分离模型的训练方法。

本申请实施例提供的技术方案可以带来如下有益效果：

通过获取待分离音频的时域特征和纹理特征，然后基于这两方面特征进行音频分离，由于时域特征和纹理特征中只含有与谐波的相关特征，不包含待分离音频中与相位等因素相关的特征，因此在音频分离的过程中，获取待分离音频的时域特征和频域特征的计算量小，本方法获取待分离音频的时域特征和频域特征比直接通过待分离音频进行卷积获得的音频特征的维度更小，因此，本方法进行音频分离时的计算量较小，音频分离速度快。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的方案实施环境的示意图；

图2是本申请一个实施例提供的音频分离方法的流程图；

图3是本申请一个实施例提供的音频分离过程的示意图；

图4是本申请另一个实施例提供的音频分离过程的示意图；

图5是本申请另一个实施例提供的音频分离方法的流程图；

图6是本申请实施例提供的音频分离模型的一种网络结构的示意图；

图7是本申请实施例提供的音频分离模型的另一种网络结构的示意图；

图8是本申请另一个实施例提供的音频分离方法的示意图；

图9是本申请一个实施例提供的音频分离模型的训练方法的流程图；

图10是本申请一个实施例提供的音频分离模型的训练方法的示意图；

图11申请一个实施例提供的音频分离装置的框图；

图12申请一个实施例提供的音频分离模型的训练装置的框图；

图13申请一个实施例提供的计算机设备的示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

请参考图1，其示出了本申请一个实施例提供的方案实施环境的示意图。该方案实施环境可以包括模型训练设备10和音频处理设备20。

模型训练设备10是用于训练音频分离模型的电子设备，该模型训练设备10可以是诸如PC(Personal Computer，个人计算机)、服务器等电子设备。模型训练设备10训练得到的音频分离模型可以部署在音频处理设备20中使用。

音频处理设备20是用于对待分离音频进行处理的电子设备，该音频处理设备20可以是诸如手机、平板电脑、智能机器人、服务器等电子设备。音频处理设备20可以通过音频分离模型对待分离音频进行音频分离处理，生成n个音轨集，进而获得n个音轨集分别对应的音频文件，n为正整数。可选地，音频处理设备20还具有音乐播放，音频合成等功能，本申请对此不作限定。

本申请实施例提供的技术方案，可以应用于任何有需求对音频文件进行分离处理的实际应用场景中。

音频处理系统可以包括终端设备和服务器，终端设备具有音频数据传输，音频播放和数据存储等功能，服务器能够为终端设备提供音频处理功能的后台支持。

在一个示例中，音频分离系统搭载在终端设备上，音频分离过程在终端设备上进行，终端设备获取待分离音频后，对待分离音频进行特征提取得到待分离音频的时域特征和纹理特征，根据待分离音频的时域特征和纹理特征获得n个音轨集分别对应的频谱特征。终端设备根据n个频幅特征分别得到n个音轨集的音频文件，完成音频分离过程。可选地，n个音轨集对应的音频文件中有k个音频文件满足手机操纵者的需求，k是小于等于n的正整数，则手机操纵者只挑选满足需求的k个音频文件进行使用。

在另一个示例中，音频分离系统搭载在服务器上，音频分离过程在服务器上进行，终端设备获取待分离音频后，将待分离音频发送给服务器，服务器接收终端设备发送的待分离音频，并提取待分离音频的时域特征和纹理特征，基于时域特征和纹理特征等到n个音轨集的频谱特征，并生成n个音轨集对应的音频文件。服务器将n个音频文件发送给终端设备，完成了音频分离过程。

当然，上文介绍的示例性应用场景，仅是为了便于理解本申请技术方案而介绍的一些典型的应用场景，本申请技术方案还可应用于其他有需求对音频文件进行分离的实际应用场景中，本申请实施例对此不作限定。

请参考图2，其示出了本申请一个实施例提供的音频分离方法的流程图，该方法各步骤的执行主体可以是图1所示方案实施环境中的音频处理设备20，该方法可以包括如下几个步骤(210-240)中的至少一个步骤：

步骤210，获取待分离音频，待分离音频包括至少两个音轨。

待分离音频是指用于进行音频分离的音频文件。音频文件是指在时域和频域上对响度进行采样获得的信息。音轨记录了一类具有相同属性的音频信号与时间的关系，音轨的属性包括音色、音色库和输入输出通道等。音轨包括单音轨和多音轨。单音轨又称为单声道信号音轨，例如，录制的一种乐器的演奏音频属于一个单音轨，某个人物清唱也属于一个单音轨。多音轨包括对多个相同音轨进行叠加得到的多音轨，或者将多个不同的音轨进行叠加得到的多音轨。待分离音频中包含至少两个音轨，例如待分离音频是乐器合奏相关的音频，待分离音频中包含钢琴、小提琴、大提琴、长笛、单簧管、低音号和定音鼓分别对应的音轨。又例如，待分离音频是歌曲类音频，待分离音频中包含人声音轨和伴奏音轨，伴奏音轨中又包含吉他、贝斯、电子合成器和架子鼓分别对应的音轨，待分离音频的类型及待分离音频中包含的音轨种类根据实际需要确定，在此不进行限定。音频处理设备获取待分离音频，待分离音频是多个音轨组成的混合音频，音频处理设备能够对待分离音频进行音频分离。

步骤220，获取待分离音频的时域特征和纹理特征，时域特征用于表征待分离音频的谐波相关性，纹理特征用于表征待分离音频的谐波连续性。

音频处理设备对待分离音频进行分析，获取时域特征和纹理特征。时域特征中包含多个不同的时域特征信息，不同的音轨具有不同的时域特征信息，纹理特征中包含多个不同的纹理特征信息，不同的音轨具有不同的纹理特征信息。声音在时间轴上表现为上下震动的轨迹，这些轨迹称为谐波。不同的乐器以及人声具有的音色、频率等属性不相同，因此不同的乐器和人声具有不同的谐波。纹理特征用于表示谐波的连续性，即谐波沿着时间轴方向的变化规律和特征，时域特征用于表示谐波的相关性，即时域特征中包括谐波上下震动的变化规律和特征，以及时间轴方向的变化规律和特征。

音频处理设备基于待分离音频的频幅特征获取时域特征和纹理特征，提取出的时域特征和纹理特征用于得到音轨集的频谱特征。

通过待分离音频的时域特征和纹理特征能够掌握待分离音频的谐波特性和不同音轨集的特征信息，有利于后续网络通过待分离音频的时域特征和纹理特征生成n个音轨集的频谱特征。

步骤230，根据时域特征和纹理特征，获得n个音轨集分别对应的频谱特征，频谱特征用于表征音轨集的频率和振幅信息，每个音轨集包括待分离音频中的一个音轨或者多个音轨的组合，n为正整数。

音轨集是指音频处理设备对待分离音频进行分离后得到的音轨。在一些实施例中，音轨集是单个乐器或人声对应的音轨。在另一些实施例中，音轨集是多个音轨混合后得到的混合音轨，例如音轨集是人声音轨和至少一个乐器对应的音轨混合得到的混合音轨。又例如，音轨集是由至少两个乐器对应的音轨进行叠加得到的混合音轨。频谱特征包含音轨集的振幅信息随频率信息变化而变化的特征。例如，待分离音频是歌曲，待分离音频中包含5个音轨，具体为人声、吉他、贝斯、电子合成器和架子鼓分别对应的音轨对待分离音频进行音频分离后获得的4个音轨集，具体为人声音轨集、吉他音轨集、架子鼓音轨集和混合音轨集分别对应的频谱特征，其中混合音轨集对应的频谱特征中包括由贝斯音轨和电子合成器音轨组合对应的频谱特征。

步骤240，根据n个音轨集分别对应的频谱特征，生成n个音轨集分别对应的音频文件。

请参考图3，其示出了一种音频分离过程的示意图。例如，根据实际需要，在一些实施例中，待分离音频被分成人声音轨和伴奏音轨。

请参考图4，其示出了另一种音频分离过程的示意图。在另一些实施例中，待分离音频被更细致地划分，分成了人声音轨、钢琴音轨、贝斯音轨和其他乐器音轨。其他乐器音轨中包含待分离音频中除了人声音轨、钢琴音轨、吉他音轨之外的乐器声音。

音频处理设备根据音频分离获得n个音轨集的频谱特征进行处理，通过n个音轨集的频谱特征与待分离音频的相位信息分别获得n个音轨集对应的音频文件，完成音频分离过程。以某一个音轨集为例，音频处理设备通过对该音轨集的频谱特征和待分离音频的相位信息进行处理，获得该音轨集对应的频谱文件。

综上所述，本申请实施例提供的技术方案，通过获取待分离音频的时域特征和纹理特征，然后基于这两方面特征进行音频分离，由于时域特征和纹理特征中只含有与谐波的相关特征，不包含待分离音频中与相位等因素相关的特征，因此在音频分离的过程中，获取待分离音频的时域特征和频域特征的计算量小，本方法获取待分离音频的时域特征和频域特征比直接通过待分离音频进行卷积获得的音频特征的维度更小，因此，本方法进行音频分离时的计算量较小，音频分离速度快。

此外，通过改变参数n的大小，能够获得多种音轨集，解决了相关技术中只能获取人声音轨和伴奏音轨的限制。例如，本申请提供的音频分离方法能从待分离音频中提取出人声、弦乐伴奏和鼓声分别对应的音轨集。又例如，本申请提供的音频分离方法还能对器乐合奏类的待分离音频进行分离，得到各个乐器分别对应的音轨，满足了音乐爱好者从待分离音频中获取某一类乐器音频文件的需求。

下面通过两个实施例对获取待分离音频的时域特征和纹理特征的过程进行介绍。

请参考图5，其示出了本申请另一个实施例提供的音频分离方法的示意图。

步骤510，获取待分离音频，待分离音频包括至少两个音轨。

步骤520，获取待分离音频的时域特征和纹理特征，时域特征用于表征待分离音频的谐波相关性，纹理特征用于表征待分离音频的谐波连续性。

在一些实施例中，步骤520包括以下几个子步骤：

步骤522，获取待分离音频的频幅信息，频幅信息用于表征待分离音频的频率和振幅信息。

可选地，待分离音频的频幅信息称为待分离音频的频谱图。在一些实施例中，通过对待分离音频进行傅里叶变换，获得该待分离音频的频幅信息和相位信息。例如，音频处理设备通过短时傅里叶变换对某个待分离音频进行处理，获得该待分离音频对应的时域特征和纹理特征。

由音乐信号的波形图可知，音乐信号不属于平稳的信号，在一些情况下，在时域上有差异的信号，频谱之间可能十分相似，直接对待处理音频进行傅里叶变换会导致失真。采用短时傅里叶变换对待处理音频进行处理，通过加窗的方式，对待分离音频进行时域上的分割，获得若干个小片段，这些小的片段中的信号比较平稳，对小频段中的信号进行傅里叶变换，得到待分离音频的频幅信息，使用短时傅里叶变换能够避免造成待分离音频的失真。由于待分离音频的时域信息中包含的信息量较大，并且时域信息中与相位相关的信息在音频分离过程中起到的作用较小，因此，通过对待分离音频进行短时傅里叶变换或其他能从待分离音频的时域信息中分离出频域特征信息的方法，获取待分离音频的频幅信息，并基于待分离音频的频幅信息提取时域特征和纹理特征，有助于减少音频分离过程中的计算量，提高音频分离的速度。

步骤524，基于频幅信息提取时域特征和纹理特征。

在一些实施例中，基于频幅信息提取时域特征和纹理特征，包括：对频幅信息进行卷积，得到频幅特征；对频幅特征进行划分，得到第一频幅特征和第二频幅特征；其中，第一频幅特征和第二频幅特征是频幅特征的子集，将第一频幅特征和第二频幅特征进行叠加得到频幅特征；基于第一频幅特征提取时域特征；基于第二频幅特征提取纹理特征。

在一些实施例中，采用音频分离模型对待分离音频进行分离并输出分离后的标签音轨。音频分离模型是具有音频分离功能的神经网络模型，例如音频分离模型是递归神经网络、卷积神经网络和循环神经网络等神经网络及其之间的相互组合。

可选地，音频分离模型包括频幅编码网络、时域提取网络和纹理提取网络。其中，频幅编码网络用于对频幅信息进行特征梳理，获得待分离音频的频幅特征，例如频幅编码网络用于对频幅信息进行卷积，得到频幅特征。时域提取网络用于提取时域特征，例如时域提取网络用于基于第一频幅特征提取时域特征。纹理提取网络用于提取纹理特征，例如纹理提取网络用于基于第二频幅特征提取纹理特征。

频幅特征是指一类从待分离音频的频幅信息中提取出的与频率和振幅相关的特征信息。音频分离模型中的频幅编码网络通过卷积的方式，对待分离音频的频幅信息进行特征梳理，从待分离音频的频幅信息中提取频幅特征。在一些实施例中，频幅编码网络中使用尺寸较大的卷积核对待分离音频的频幅信息进行特征提取。例如，音频分离模型将待分离音频的频幅信息输入频幅编码网络中，频幅编码网络中包括三个卷积层，每个卷积层中使用尺寸为7*7的卷积核对输入该卷积层的特征信息进行卷积，最后一个卷积层输出即为频幅特征。可选地，频幅编码网络中的卷积核尺寸大于等于3*3，频幅编码网络中，卷积层的层数和卷积核的大小根据实际需要进行设定，在此不进行限定。

在频幅编码网络的卷积层中使用大尺寸卷积核进行卷积能够将输入的频幅信息抽象成多个维度的频谱特征，有利于增加卷积过程的感受野的范围，减少频幅特征的耦合，有助于后续网络更好地从频幅特征中学习待分离音频的具体特征。

音频分离模型对频幅编码网络提取的频幅特征进行划分，通过划分得到第一频幅特征和第二频幅特征。例如，某个频幅特征是具有宽度、时间和通道数(channel)三个维度的矩阵，该频幅特征的通道数为64，每个通道上对应的时间和宽度大小相等，音频分离模型将该频幅特征的前32个通道作为第一频幅特征，后32个通道作为第二频幅特征。在一些实施例中，出于保证音频分离后得到的音轨集的准确度更高等目的，对音频分离模型的频幅编码网络进行结构改进，使得通过频幅编码网络提取的频幅特征的通道数更大，也即分离后得到的第一频幅特征和第二频幅特征的通道数更大，第一频幅特征和第二频幅特征中包含的数据越多，能够使得音频分离模型分离出的结果的准确度越好。但是增大频幅特征的通道数，会导致音频分离模型的计算量增大，音频分离速度减慢。频幅特征的通道数、第一频幅特征的通道数和第二频幅特征的通道数可以根据音频分离的准确度、音频分离速度等要求综合确定，本申请不进行限定。

音频分离模型将第一频幅特征输入到时域提取网络，时域提取网络从第一频幅特征中提取出待分离音频的时域特征。在一些实施例中，音频处理设备使用递归神经网络作为时域提取网络，例如BilSTM(Bi-directional Long Short-Term Memory，双向长短期记忆)神经网络、BiGRU(Bi-directional Gated Recurrent Unit双向门控循环单元)神经网络等。

音频分离模型将第二频幅特征输入到纹理提取网络，纹理提取网络从第二频幅特征中提取出待分离音频的纹理特征。在一些实施例中，音频处理设备使用卷积神经网络作为时域提取网络，例如使用各个卷积层中卷积核的大小为3*3的卷积神经网络对第二频幅特征进行卷积，得到待分离音频的纹理特征。卷积神经网络的卷积层数和卷积核大小根据设备计算能力等实际情况进行设定，在此不进行限定。

在另一些实施例中，基于频幅信息提取时域特征和纹理特征，包括：对频幅信息进行卷积，得到第三频幅特征，基于频幅特征提取时域特征；对频幅信息进行卷积，得到第四频幅特征，基于频幅特征提取纹理特征。

可选地，音频分离模型中包括组合时域提取网络和组合纹理提取网络。音频处理设备将待分离音频的频幅信息输入音频分离模型，组合时域提取网络对频幅信息进行卷积处理，并提取待分离音频的时域特征；组合纹理提取网络对频幅信息进行卷积，并提取待分离音频的纹理特征。

步骤530，根据时域特征和纹理特征，获得n个音轨集分别对应的频谱特征，频谱特征用于表征音轨集的频率和振幅信息，每个音轨集包括待分离音频中的一个音轨或者多个音轨的组合，n为正整数。

在一些实施例中，音频分离模型还包括音轨特征提取网络。步骤530包括以下几个子步骤：

步骤532，对时域特征和纹理特征进行融合处理，得到混合特征；其中，融合处理是指统一时域特征和纹理特征之间的维度，并将统一维度后的时域特征和纹理特征中对应维度的特征相加。

步骤534，通过音轨特征提取网络对混合特征进行处理，生成n个音轨集分别对应的频谱特征。

在一些实施例中，基于第一频幅特征提取出的时域特征的维度和基于第二频幅特征的维度相同。在对时域特征和纹理特征进行融合处理的过程中，只需要将时域特征和纹理特征对应位置上的特征值相加，即可获得混合特征；可选地，时域特征、纹理特征和混合特征具有相同的维度。

在一些实施例中，基于第一频幅特征提取出的时域特征的维度和基于第二频幅特征提取出的纹理特征的维度不相等，在对时域特征和纹理特征进行融合处理前，需要对时域特征和纹理特征进行维度匹配，使得时域调整和纹理一种的维度相等。在一些实施例中，在时域提取网络使用递归神经网络的情况下，由于递归神经网络在输出时域特征之前会进行维度缩减，使得时域特征的通道数小于纹理特征的通道数。在对时域特征和纹理特征进行融合前，需要在通道维度上对时域特征进行复制，使得时域特征与纹理的通道数相等。例如，时域特征的通道数为1，纹理特征的通道数为2，音频分离模型将时域特征进行复制，得到复制时域特征，使用复制时域特征对时域特征的通道数进行扩展，使得时域特征的通道数变为2，与纹理特征的通道数相同。将维度相同的时域特征和纹理特征，对应位置上的数据相加，获得混合特征。

音轨集的频谱特征中包含音轨集的频率以及对应的振幅信息，可选地，音轨集的频谱特征中包括音轨集的频幅信息，音轨集的频幅信息称为音轨集的频谱图。音轨特征提取网络将混合特征进行卷积，提取出音轨集的频谱特征，在一些实施例中，音频分离模型中使用全卷积网络作为音轨特征提取网络，例如，U-Net(U型网络)全卷积神经网络。

请参考图6，其示出了音频分离模型的一种网络结构。音频分离模型中包括频幅编码网络，时域提取网络，纹理提取网络和音轨获取网络。各个网络的类型以及具体作用请参考上文，在此不进行赘述。

请参考图7，其示出了音频分离模型的另一种网络结构，音频分离模型中包括组合时域提取网络，组合纹理提取网络和音轨获取网络，组合时域提取网络同时具有频幅编码网络和时域提取网络的能力，组合纹理提取网络同时具有频幅编码网络和纹理提取网络的能力。

步骤540，根据n个音轨集分别对应的频谱特征，生成n个音轨集分别对应的音频文件。

在一些实施例中，根据n个音轨集分别对应的频谱特征，生成n个音轨集分别对应的音频文件，包括：获取待分离音频的相位信息，相位信息用于表征待分离音频的相位；根据相位信息对音轨集对应的频谱特征进行反傅里叶变换，生成音轨集对应的音频文件。

音频处理设备对待分离音频进行短时傅里叶变换生成频幅信息后，可以根据频幅信息获得待分离音频的相位信息。音频处理设备将n个音轨集对应的频谱特征分别与相位信息进行反傅里叶变换，生成n个音频文件，并将n个音频文件分别输出。

请参考图8，其示出本申请一个实施例提供的音频分离方法的示意图。

音频处理设备获取待分离音频后，对待分离音频进行短时傅里叶变换，获取待分离音频的频幅信息。音频处理设备将频幅信息输入音频分离模型，通过特征编码网络对频幅信息采用寸尺较大的卷积进行特征梳理，得到频幅信息中的高层特征，即待分离音频样本的频幅特征。音频分离模型将频幅特征划分成为第一频幅特征和第二频幅特征；其中，第一频幅特征和第二频幅特征是频幅特征的子集；通过时域提取网络对第一频幅特征进行特征提取，获得时域特征；通过纹理提取网络对第二频幅特征进行特征提取，获得纹理特征；音频分离模型对时域特征和纹理特征进行维度匹配，并进行融合处理获得混合特征，音轨特征生成网络对混合特征进行卷积，最后输出音轨集1的频谱特征和音轨集2的频谱特征，通过对音轨集1的频谱特征和待分离音频的相位信息进行反傅里叶变换获得音轨集1对应的音频文件，通过对音轨集2的频谱特征待分离音频的相位信息进行反傅里叶变换获得音轨集2对应的音频文件。

在实际应用过程中，在用户只需要从待分离音频中分离出某一种特定音轨的情况下，可选地，音频分离模型先将待分离音频进行分离，获得n个音轨集(n大于等于1)，再选择用户需要的音轨进行输出，使用此方法能够保证用户获得质量更好的特定音轨对应的音频文件。可选地，音频分离模型将待分离音频进行分离后，只生成用户需要的音轨。使用此方法能够减少音频分离过程中的计算量，加快待分离音频的分离速度，有针对性地从待分离音频中分离出一种音轨。

下面，通过实施例对音频分离模型的训练过程进行介绍说明，有关该音频分离模型的使用过程中涉及的内容和训练过程中涉及的内容是相互对应的，两者互通，如在一侧未作详细说明的地方，可以参考另一侧的描述说明。

请参考图9，其示出了本申请一个实施例提供的音频分离模型的训练方法的流程图，本方法各步骤的执行主体实施环境中的模型训练设备10，下面以模型训练设备10作为执行主体，该方法可以包括如下几个步骤(910-940)中的至少一个步骤：

步骤910，获取音频分离模型的训练数据，训练数据包括待分离音频样本和待分离音频样本对应的n个标签音轨，待分离音频样本包括至少两个音轨，n为正整数。

步骤920，通过音频分离模型获取待分离音频样本的时域特征和纹理特征，时域特征用于表征待分离音频样本的谐波相关性，纹理特征用于表征待分离音频样本的谐波连续性。

步骤930，根据时域特征和纹理特征，获得n个音轨集分别对应的频谱特征，频谱特征用于表征音轨集的频率和振幅信息，每个音轨集包括待分离音频样本中的一个音轨或者多个音轨的组合。

步骤940，根据n个音轨集分别对应的频谱特征，以及n个标签音轨分别对应的频谱特征，计算音频分离模型的训练损失，并基于训练损失对音频分离模型进行训练。

在一些实施例中，获取音频分离模型的训练数据，包括：获取音频数据集，音频数据集中包括多个源音轨音频；从多个源音轨音频中，选取m个源音轨音频，m为大于或等于n的正整数；对m个源音轨音频进行混音处理，得到待分离音频样本；基于m个源音轨音频生成待分离音频样本对应的n个标签音轨。源音轨音频是指通过录制、电子合成等方式得到的音频文件，源音轨音频可以从音频数据集中获取，源音轨音频的来源和类型在此不进行限定。混音处理是指将m个源音频音轨进行混合，得到混合音频的操作。在一些实施例中，模型训练设备10将m个源音轨音频的时间轴对齐，统一进行播放，完成混音处理，获取待分离音频样本。

标签音轨是指音频分离模型能够从待分离音频中分离出的音轨的种类，训练完成后的音频分离模型具有从待分离音频中分离出n个标签音轨的能力。

在m个源音轨音频的播放时长不同的情况下，可选地，对于播放时长较短的源音轨音频进行重复播放，延长播放时间；对于播放时长较长的源音轨音频进行截取，缩短其播放时间。将处理后播放时长相等的m个源音轨音频进行混合，获得待分离音频样本。

在m等于n的情况下，每一个标签音轨拥有对应的一个源音轨音频，例如，模型训练设备10从音频数据集中获取2个源音轨音频，分别是人声对应的源音轨音源和吉他声对应的源音轨音源，音频分离模型中包括2个标签音轨分别是人声对应的音轨集和吉他声对应的音轨集，人声对应的音轨集能够直接根据人声对应的音轨集音源获得；吉他声对应的音轨集能够直接从吉他声对应的音轨集音源获得。在m大于n的情况下，存在一些标签音轨是通过混合多个源音轨音频得到的，例如，模型训练设备10从音频数据集中获取5个源音轨音频，分别是钢琴声、吉他声、人声，鼓声和三角铁声分别对应的源音轨音频，音频分离模型中包括4个标签音轨，分别是钢琴、吉他、人声和打击乐分别对应的标签音轨，钢琴、吉他和人声分别对应的标签音轨能够分别直接从对应的源音轨音频中确定，打击乐对应的标签音轨需要通过将鼓声对应的源音轨音频和三角铁对应的源音轨音频进行混合，根据混合得到的音轨音频确定。

在一些实施例中，音频分离模型包括频幅编码网络、时域提取网络和纹理提取网络；通过音频分离模型获取待分离音频样本的时域特征和纹理特征，包括：获取待分离音频样本的频幅信息，频幅信息用于表征待分离音频样本的频率和振幅信息；通过频幅编码网络对频幅信息进行卷积，得到频幅特征；对频幅特征进行划分，得到第一频幅特征和第二频幅特征；其中，第一频幅特征和第二频幅特征是频幅特征的子集，将第一频幅特征和第二频幅特征进行叠加能够得到频幅特征；通过时域提取网络基于第一频幅特征提取时域特征；通过纹理提取网络基于第二频幅特征提取纹理特征。

通过音频分离模型获取待分离音频样本的时域特征和纹理特征的详细过程请参考上一个实施例，在此不进行赘述。

在一些实施例中，音频分离模型还包括：音轨特征提取网络，根据纹理特征和时域特征，获得n个音轨集分别对应的频谱特征，包括：对时域特征和纹理特征进行融合处理，得到混合特征；其中，融合处理是指统一时域特征和纹理特征之间的维度，并将统一维度后的时域特征和纹理特征中对应维度的特征相加；通过音轨特征提取网络对混合特征进行处理，生成n个音轨集分别对应的频谱特征。

对时域特征和纹理特征进行融合处理，得到混合特征的详细过程请参考上一个实施例，在此不进行赘述。

在一些实施例中，根据n个音轨集分别对应的频谱特征，以及n个标签音轨分别对应的频谱特征，计算音频分离模型的训练损失，包括：

对于n个音轨集中的每一个音轨集，计算音轨集的频谱特征与音轨集对应的标签音轨的频谱特征之间的区别度，得到n个区别度；根据n个区别度，确定音频分离模型的训练损失。

某个音轨集与该与音轨集对应的标签音轨的频谱特征之间的区别度用于表征该音轨集和对应的标签音轨之间的区别程度。在一些实施例中，音轨集的频谱特征和标签音轨的频谱特征具有相同的维度，某个音轨集的频谱特征与该音轨集对应的标签音轨的频谱特征之间的区别度，通过计算两个频谱特征中对应位置上的数据差的绝对值并计算平均数获得。

音轨集的频谱特征与音轨集对应的标签音轨的频谱特征之间的区别度可以通过其他计算距离的方式计算得出，例如计算音轨集的频谱特征与音轨集对应的标签音轨的频谱特征之间差的绝对值之和等，区别度的计算方式在此不进行限定。

音频分离模型根据n个区别度确定音频分离模型的损失，包括计算n个区别度的平均数，确定音频分离模型的损失，或者，计算n个区别度之和，确定音频分离模型的损失。确定音频分离模型的损失后，计算机设备对音频分离模型中各部分的网络参数进行调整，在一些实施例中，计算机设备使用梯度下降法对音频分离模型中的参数进行调整。

在音频分离模型的损失收敛于目标数值后，完成音频分离模型的训练。

综上所述，通过获取音频分离模型的训练数据，并从音频分离模型中获取待分离音频样本的时域特征和纹理特征；根据时域特征和纹理特征得到n个音轨集分别对应的频谱特征，根据n个音轨集分别对应的频谱特征，以及n个标签音轨分别对应的频谱特征，计算音频分离模型的训练损失，并基于训练损失对音频分离模型进行训练使得训练后的音频分离模型具备生成n个标签音轨的能力。使用待分离音频的时域特征和纹理特征获得n个音轨集的频谱特征，音频分离过程中的计算量小，音频分离速度快。此外，在音频分离模型训练的过程中，标签音轨的种类越多，音频分离模型最终的分离能力越强，通过音频分离得到的音轨集的质量越好。N越大，代表训练过程中能够对音频分离模型的训练损失造成影响的因素越多，例如，某个音频分离模型的标签音轨包括：钢琴标签音轨、吉他标签音轨、贝斯标签音轨和人声标签音轨，在该音频分离模型的训练过程中，模型中负责分离钢琴标签音轨、吉他标签音轨、贝斯标签音轨和人声标签音轨的参数之间相互影响制约，实现了迁移学习，提高了模型训练的效果，使得音频分离模型分离效果好，通过分离得到的音轨集的质量较好。

请参考图10，其示出本申请一个音频分离模型训练过程的示意图。

模型训练设备10获取训练数据后，将训练数据中的待分离音频样本进行短时傅里叶变换获取待分离音频样本的频幅信息，并将频幅信息输入音频分离模型。特征编码网络对频幅信息采用寸尺较大的卷积核对频幅信息进行特征梳理，得到频幅信息中的高层特征，即待分离音频样本的频幅特征。音频分离模型将频幅特征划分成为第一频幅特征和第二频幅特征；通过时域提取网络对第一频幅特征进行特征提取，获得时域特征；通过纹理提取网络对第二频幅特征进行特征提取，获得纹理特征；音频分离模型将时域特征和纹理特征进行维度匹配，并进行融合处理获得混合特征，音轨特征生成网络对混合特征进行卷积，最后输出音轨集的频谱特征，可选地，音频分离模型具有n个标签音轨，则音轨特征生成网络最后输出n个频谱特征，n个频谱特征分别对应n个音轨集。如图 10所示，音轨分离网络输出了音轨集1、音轨集2和音轨集3对应的频谱特征，并计算得到的3个音轨集的频谱特征与对应的标签音轨的频幅特征的区别度，得到音频分离模型的训练损失；基于训练损失对音频分离模型中分参数进行调整，不断重复上述步骤，直至音频分离模型的训练损失收敛于目标数值，完成对音频分离模型的训练。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图11，其示出了本申请一个实施例提供的音频分离装置的框图。该装置具有实现上述音频分离方法的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是上文介绍的音频处理设备，也可以设置在音频处理设备中。该装置1100可以包括：音频获取模块1110、特征提取模块1120、频谱生成模块1130和音轨生成模块1140。

音频获取模块1110，用于获取待分离音频，所述待分离音频包括至少两个音轨。

特征提取模块1120，用于获取所述待分离音频的时域特征和纹理特征，所述时域特征用于表征所述待分离音频的谐波相关性，所述纹理特征用于表征所述待分离音频的谐波连续性。

频谱生成模块1130，用于根据所述时域特征和所述纹理特征，获得n个音轨集分别对应的频谱特征，所述频谱特征用于表征所述音轨集的频率和振幅信息，每个音轨集包括所述待分离音频中的一个音轨或者多个音轨的组合，n为正整数。

音轨生成模块1140，用于根据所述n个音轨集分别对应的频谱特征，生成所述n个音轨集分别对应的音频文件。

在一些实施例中，所述特征提取模块1120包括：频幅信息获取子模块和特征提取子模块。

所述频幅信息获取子模块，用于获取所述待分离音频的频幅信息，所述频幅信息用于表征所述待分离音频的频率和振幅信息。

所述特征提取子模块，用于基于所述频幅信息提取所述时域特征和所述纹理特征。

在一些实施例中，所述特征提取子模块用于对所述频幅信息进行卷积，得到频幅特征；对所述频幅特征进行划分，得到第一频幅特征和第二频幅特征；其中，所述第一频幅特征和所述第二频幅特征是所述频幅特征的子集，将所述第一频幅特征和所述第二频幅特征进行叠加能够得到所述频幅特征；基于所述第一频幅特征提取所述时域特征；基于所述第二频幅特征提取所述纹理特征。

在一些实施例中，音频分离模型包括频幅编码网络、时域提取网络和纹理提取网络；其中，所述频幅编码网络用于对所述频幅信息进行卷积，得到所述频幅特征；所述时域提取网络用于基于所述第一频幅特征提取所述时域特征；所述纹理提取网络用于基于所述第二频幅特征提取所述纹理特征。

在一些实施例中，所述音频分离模型还包括：音轨特征提取网络。频谱生成模块1130，用于对所述时域特征和所述纹理特征进行融合处理，得到混合特征；其中，所述融合处理是指统一所述时域特征和所述纹理特征之间的维度，并将统一维度后的所述时域特征和所述纹理特征中对应维度的特征相加；通过所述音轨特征提取网络对所述混合特征进行处理，生成所述n个音轨集分别对应的频谱特征。

在一些实施例中，所述音轨生成模块1140，用于获取所述待分离音频的相位信息，所述相位信息用于表征所述待分离音频的相位；根据所述相位信息对所述音轨集对应的频谱特征进行反傅里叶变换，生成所述音轨集对应的音频文件。

请参考图12，其示出了本申请一个实施例提供的音频分离模型的训练装置的框图。该装置具有实现上述音频分离模型的训练方法的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是上文介绍的模型训练设备10，也可以设置在模型训练设备10中。该装置1200可以包括：数据获取模块1210、特征提取模块1220、频谱生成模块1230和模型训练模块1240。

数据获取模块1210，用于获取所述音频分离模型的训练数据，所述训练数据包括待分离音频样本和所述待分离音频样本对应的n个标签音轨，所述待分离音频样本包括至少两个音轨，n为正整数。

特征提取模块1220，用于通过所述音频分离模型获取所述待分离音频样本的时域特征和纹理特征，所述时域特征用于表征所述待分离音频样本的谐波相关性，所述纹理特征用于表征所述待分离音频样本的谐波连续性。

频谱生成模块1230，用于根据所述时域特征和所述纹理特征，获得n个音轨集分别对应的频谱特征，所述频谱特征用于表征所述音轨集的频率和振幅信息，每个音轨集包括所述待分离音频样本中的一个音轨或者多个音轨的组合。

模型训练模块1240，用于根据所述n个音轨集分别对应的频谱特征，以及所述n个标签音轨分别对应的频谱特征，计算所述音频分离模型的训练损失，并基于所述训练损失对所述音频分离模型进行训练。

在一些实施例中，所述数据获取模块1210，用于从所述多个源音轨音频中，选取m个源音轨音频，m为大于或等于n的正整数；对所述m个源音轨音频进行混音处理，得到所述待分离音频样本；基于所述m个源音轨音频生成所述待分离音频样本对应的n个标签音轨。

在一些实施例中，所述音频分离模型包括频幅编码网络、时域提取网络和纹理提取网络。所述特征提取模块1220，用于获取所述待分离音频样本的频幅信息，所述频幅信息用于表征所述待分离音频样本的频率和振幅信息；通过所述频幅编码网络对所述频幅信息进行卷积，得到频幅特征；对所述频幅特征进行划分，得到第一频幅特征和第二频幅特征；其中，所述第一频幅特征和所述第二频幅特征是所述频幅特征的子集，将所述第一频幅特征和所述第二频幅特征进行叠加得到所述频幅特征；通过所述时域提取网络基于所述第一频幅特征提取所述时域特征；通过所述纹理提取网络基于所述第二频幅特征提取所述纹理特征。

在一些实施例中，所述频谱生成模块1230，用于对所述时域特征和所述纹理特征进行融合处理，得到混合特征；其中，所述融合处理是指统一所述时域特征和所述纹理特征之间的维度，并将统一维度后的所述时域特征和所述纹理特征中对应维度的特征相加；通过所述音轨特征提取网络对所述混合特征进行处理，生成所述n个音轨集分别对应的频谱特征。

在一些实施例中，所述模型训练模块1240，用于对于所述n个音轨集中的每一个音轨集，计算所述音轨集的频谱特征与所述音轨集对应的标签音轨的频谱特征之间的区别度，得到n个区别度；根据所述n个区别度，确定所述音频分离模型的训练损失。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内容结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图13，其示出了本申请一个实施例提供的计算机设备的示意图。该计算机设备1300可以是图1所示实施环境中的音频处理设备20，用于实施上述音频分离方法；也可以是图1所示实施环境中的模型训练设备10，用于实施上述音频分离模型的训练方法。

通常，计算机设备1300包括有：处理器1301和存储器1302。

处理器1301可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1301可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1301也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1301可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1301还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1302可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1302还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。

本领域技术人员可以理解，图13中示出的结构并不构成对设备1300的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在一些实施例中，计算机设备的存储器中存储有计算机程序，该计算机程序由处理器加载并执行以实现如上所述的音频分离方法或音频分离模型的训练方法。

本申请还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，该计算机程序由处理器加载并执行以实现如上所述的音频分离方法或音频分离模型的训练方法。

可选地，计算机存储介质包括RAM、ROM、闪存或其他固态存储技术，CD-ROM等其他光学存储、磁带盒、磁带、磁盘存储等。

本申请还提供一种计算机程序产品或计算机程序，上述计算机程序产品或计算机程序包括计算机指令，上述计算机指令存储在计算机可读存储介质中，处理器从上述计算机可读存储介质读取上述计算机指令，以实现上述各方法实施例提供的音频分离方法或音频分离模型的训练方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外，本文中描述的步骤编号，仅示例性示出了步骤间的一种可能的执行先后顺序，在一些其它实施例中，上述步骤也可以不按照编号顺序来执行，如两个不同编号的步骤同时执行，或者两个不同编号的步骤按照与图示相反的顺序执行，本申请实施例对此不作限定。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种音频分离方法，其特征在于，所述方法包括：

获取待分离音频，所述待分离音频包括至少两个音轨；

获取所述待分离音频的时域特征和纹理特征，所述时域特征用于表征所述待分离音频的谐波相关性，所述纹理特征用于表征所述待分离音频的谐波连续性；

根据所述时域特征和所述纹理特征，获得n个音轨集分别对应的频谱特征，所述频谱特征用于表征所述音轨集的频率和振幅信息，每个音轨集包括所述待分离音频中的一个音轨或者多个音轨的组合，n为正整数；

根据所述n个音轨集分别对应的频谱特征，生成所述n个音轨集分别对应的音频文件。
根据权利要求1所述的方法，其特征在于，所述获取所述待分离音频的时域特征和纹理特征，包括：

获取所述待分离音频的频幅信息，所述频幅信息用于表征所述待分离音频的频率和振幅信息；

基于所述频幅信息提取所述时域特征和所述纹理特征。
根据权利要求2所述的方法，其特征在于，所述基于所述频幅信息提取所述时域特征和所述纹理特征，包括：

对所述频幅信息进行卷积，得到频幅特征；

对所述频幅特征进行划分，得到第一频幅特征和第二频幅特征；其中，所述第一频幅特征和所述第二频幅特征是所述频幅特征的子集，将所述第一频幅特征和所述第二频幅特征进行叠加得到所述频幅特征；

基于所述第一频幅特征提取所述时域特征；

基于所述第二频幅特征提取所述纹理特征。
根据权利要求3所述的方法，其特征在于，音频分离模型包括频幅编码网络、时域提取网络和纹理提取网络；其中，

所述频幅编码网络用于对所述频幅信息进行卷积，得到所述频幅特征；

所述时域提取网络用于基于所述第一频幅特征提取所述时域特征；

所述纹理提取网络用于基于所述第二频幅特征提取所述纹理特征。
根据权利要求4所述的方法，其特征在于，所述音频分离模型还包括：音轨特征提取网络，所述根据所述时域特征和所述纹理特征，获得n个音轨集分别对应的频谱特征，包括：

对所述时域特征和所述纹理特征进行融合处理，得到混合特征；其中，所述融合处理是指统一所述时域特征和所述纹理特征之间的维度，并将统一维度后的所述时域特征和所述纹理特征中对应维度的特征相加；

通过所述音轨特征提取网络对所述混合特征进行处理，生成所述n个音轨集分别对应的频谱特征。
根据权利要求1所述的方法，其特征在于，所述根据所述n个音轨集分别对应的频谱特征，生成所述n个音轨集分别对应的音频文件，包括：

获取所述待分离音频的相位信息，所述相位信息用于表征所述待分离音频的相位；

根据所述相位信息对所述音轨集对应的频谱特征进行反傅里叶变换，生成所述音轨集对应的音频文件。
一种音频分离模型的训练方法，其特征在于，所述方法包括：

获取所述音频分离模型的训练数据，所述训练数据包括待分离音频样本和所述待分离音频样本对应的n个标签音轨，所述待分离音频样本包括至少两个音轨，n为正整数；

通过所述音频分离模型获取所述待分离音频样本的时域特征和纹理特征，所述时域特征用于表征所述待分离音频样本的谐波相关性，所述纹理特征用于表征所述待分离音频样本的谐波连续性；

根据所述时域特征和所述纹理特征，获得n个音轨集分别对应的频谱特征，所述频谱特征用于表征所述音轨集的频率和振幅信息，每个音轨集包括所述待分离音频样本中的一个音轨或者多个音轨的组合；

根据所述n个音轨集分别对应的频谱特征，以及所述n个标签音轨分别对应的频谱特征，计算所述音频分离模型的训练损失，并基于所述训练损失对所述音频分离模型进行训练。
根据权利要求7所述的方法，其特征在于，所述获取所述音频分离模型的训练数据，包括：

获取音频数据集，所述音频数据集中包括多个源音轨音频；

从所述多个源音轨音频中，选取m个源音轨音频，m为大于或等于n的正整数；

对所述m个源音轨音频进行混音处理，得到所述待分离音频样本；

基于所述m个源音轨音频生成所述待分离音频样本对应的n个标签音轨。
根据权利要求7所述的方法，其特征在于，所述音频分离模型包括频幅编码网络、时域提取网络和纹理提取网络；所述通过所述音频分离模型获取所述待分离音频样本的时域特征和纹理特征，包括：

获取所述待分离音频样本的频幅信息，所述频幅信息用于表征所述待分离音频样本的频率和振幅信息；

通过所述频幅编码网络对所述频幅信息进行卷积，得到频幅特征；

对所述频幅特征进行划分，得到第一频幅特征和第二频幅特征；其中，所述第一频幅特征和所述第二频幅特征是所述频幅特征的子集，将所述第一频幅特征和所述第二频幅特征进行叠加得到所述频幅特征；

通过所述时域提取网络基于所述第一频幅特征提取所述时域特征；

通过所述纹理提取网络基于所述第二频幅特征提取所述纹理特征。
根据权利要求9所述的方法，其特征在于，所述音频分离模型还包括：音轨特征提取网络，所述根据所述纹理特征和所述时域特征，获得n个音轨集分别对应的频谱特征，包括：

对所述时域特征和所述纹理特征进行融合处理，得到混合特征；其中，所述融合处理是指统一所述时域特征和所述纹理特征之间的维度，并将统一维度后的所述时域特征和所述纹理特征中对应维度的特征相加；

通过所述音轨特征提取网络对所述混合特征进行处理，生成所述n个音轨集分别对应的频谱特征。
根据权利要求7所述的方法，其特征在于，所述根据所述n个音轨集分别对应的频谱特征，以及所述n个标签音轨分别对应的频谱特征，计算所述音频分离模型的训练损失，包括：

对于所述n个音轨集中的每一个音轨集，计算所述音轨集的频谱特征与所述音轨集对应的标签音轨的频谱特征之间的区别度，得到n个区别度；

根据所述n个区别度，确定所述音频分离模型的训练损失。
一种音频分离装置，其特征在于，所述装置包括：

音频获取模块，用于获取待分离音频，所述待分离音频包括至少两个音轨；

特征提取模块，用于获取所述待分离音频的时域特征和纹理特征，所述时域特征用于表征所述待分离音频的谐波相关性，所述纹理特征用于表征所述待分离音频的谐波连续性；

频谱生成模块，用于根据所述时域特征和所述纹理特征，获得n个音轨集分别对应的频谱特征，所述频谱特征用于表征所述音轨集的频率和振幅信息，每个音轨集包括所述待分离音频中的一个音轨或者多个音轨的组合，n为正整数；

音轨生成模块，用于根据所述n个音轨集分别对应的频谱特征，生成所述n个音轨集分别对应的音频文件。
一种音频分离模型的训练装置，其特征在于，所述装置包括：

数据获取模块，用于获取所述音频分离模型的训练数据，所述训练数据包括待分离音频样本和所述待分离音频样本对应的n个标签音轨，所述待分离音频样本包括至少两个音轨，n为正整数；

特征提取模块，用于通过所述音频分离模型获取所述待分离音频样本的时域特征和纹理特征，所述时域特征用于表征所述待分离音频样本的谐波相关性，所述纹理特征用于表征所述待分离音频样本的谐波连续性；

频谱生成模块，用于根据所述时域特征和所述纹理特征，获得n个音轨集分别对应的频谱特征，所述频谱特征用于表征所述音轨集的频率和振幅信息，每个音轨集包括所述待分离音频样本中的一个音轨或者多个音轨的组合；

模型训练模块，用于根据所述n个音轨集分别对应的频谱特征，以及所述n个标签音轨分别对应的频谱特征，计算所述音频分离模型的训练损失，并基于所述训练损失对所述音频分离模型进行训练。
一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要1至6任一项所述的音频分离方法，或实现如权利要求7至11任一项所述的音频分离模型的训练方法。
一种计算机可读存储介质，其特征在于，所述存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至6任一项所述的音频分离方法，或实现如权利要求7至11任一项所述的音频分离模型的训练方法。
一种计算机程序产品或计算机程序，其特征在于，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中，处理器从所述计算机可读存储介质读取并执行所述计算机指令，以实现如权利要求1至6任一项所述的音频分离方法，或实现如权利要求7至11任一项所述的音频分离模型的训练方法。