WO2020125372A1

WO2020125372A1 - 混合声音信号的分离方法、装置、电子设备和可读介质

Info

Publication number: WO2020125372A1
Application number: PCT/CN2019/121730
Authority: WO
Inventors: 张宁; 李岩; 姜涛
Original assignee: 北京达佳互联信息技术有限公司
Priority date: 2018-12-20
Filing date: 2019-11-28
Publication date: 2020-06-25
Also published as: CN109801644A; US11430427B2; CN109801644B; US20210312902A1

Abstract

本申请是关于一种混合声音信号的分离方法、装置、电子设备和可读介质。所述方法包括：从混合声音信号中提取混合声音特征数据；将混合声音特征数据输入到混合声音编码模型中，得到第一隐变量和第二隐变量，第一隐变量表征人声特征，第二隐变量表征伴奏声音特征；将第一隐变量和第二隐变量分别输入到人声解码模型和伴奏解码模型，得到人声特征数据和伴奏声音特征数据；以及基于人声特征数据和伴奏声音特征数据得到人声和伴奏。该方法得到的人声和伴奏声音的信噪比较低。

Description

混合声音信号的分离方法、装置、电子设备和可读介质

相关申请的交叉引用

本申请要求在2018年12月20日提交中国专利局、申请号为201811564607.7、申请名称为“混合声音信号的分离方法、装置、电子设备和可读介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请属于计算机软件应用领域，尤其是一种混合声音信号的分离方法、装置、电子设备和可读介质。

背景技术

一般的流行音乐由人声和伴奏叠加混合而成。将混合好的音乐分离得到人声和伴奏(声伴分离)是一项有挑战性的工作。声伴分离对于音乐编辑，音乐检索有重要作用。声伴分离模型性能的改进能够极大地提高后续处理流程的效果。

当前主流的声伴分离模型是端到端的确定性模型，计算每个声源在时频图中的mask(掩码)，再用mask乘以混合声音的时频图得到分离声源的时频特征，进而得到分离声源的时域表示。发明人发现虽然这种端到端的模型分离得到的声源信号有较高的信噪比，但是分离声源信号几乎不可能是干净的，或多或少都会掺杂有残留的其他声源信号。这些残留的干扰虽然微弱，但对后续的歌词切分，歌曲评价等步骤有非常严重的影响。目前业界专家也在持续地改进现有技术方案以及寻找新的技术方案，以逐步改善混合音中的人声和伴奏的分离效果。

发明内容

为克服相关技术中存在的问题，本申请公开一种混合声音信号的分离方法、装置、电子设备和可读介质，以解决现有技术中存在的问题。

根据本申请实施例的第一方面，提供一种混合声音信号的分离方法，包括：

从混合声音信号中提取混合声音特征数据；

将混合声音特征数据输入到混合声音编码模型中，得到第一隐变量和第二隐变量，所述第一隐变量表征人声特征，所述第二隐变量表征伴奏声音特征；

将所述第一隐变量和所述第二隐变量分别输入到人声解码模型和伴奏解码模型，得到人声特征数据和伴奏声音特征数据；以及

基于所述人声特征数据和所述伴奏声音特征数据得到人声和伴奏。

根据本申请实施例的第二方面，提供一种混合声音信号的分离装置，包括：

特征提取模块，用于从混合声音信号中提取混合声音特征数据；

隐变量生成模块，用于将混合声音特征数据输入到混合声音编码模型中，得到第一隐变量和第二隐变量，所述第一隐变量表征人声特征，所述第二隐变量表征伴奏声音特征；

人声特征生成模块，用于将所述第一隐变量输入到人声解码器，得到人声特征数据；

伴奏特征生成模块，用于将所述第一隐变量输入到伴奏声音解码器，得到伴奏声音特征数据；

人声生成模块，用于基于所述人声特征数据得到人声；

伴奏生成模块，用于基于所述伴奏声音特征数据得到伴奏。

根据本申请实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述任意一项所述的方法。

根据本申请实施例的第四方面，提供一种非临时性计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令被执行时实现如上述任一项所述的方法。

根据本申请实施例的第五方面，还提供了计算机程序产品，包括计算机程序产品，所述计算机程序包括程序指令，当所述程序指令被电子设备执行时，使所述电子设备执行上述任一项所述的方法。

本申请的实施例提供的技术方案可以包括以下有益效果：通过训练后得到的模型从混合声音中分离伴奏和人声，由此得到的人声和伴奏声音的信噪比较低。进一步地，对于人声和伴奏分别进行训练，将伴奏编码模型和人声编码模型得到的隐变量构建混合声音编码器的损失函数，从而提高了训练效率。

附图说明

图1是根据本申请一示例性实施例的一种混合声音信号的分离方法的流程图；

图2A-2C是根据本申请一示例性实施例的训练步骤的具体实施例；

图3是根据本申请一示例性实施例的一种混合声音信号的分离方法的流程图；

图4A所示是包含编码器和解码器的自编码器的结构示意图；

图4B所示是现有技术的神经网络的结构示意图；

图5所示是本申请实施例的人声自编码器、伴奏自编码器和混合声音编码器的结构示意图；

图6所示是本申请实施例的混合声音信号的分离装置的结构示意图；

图7是根据一示例性实施例示出的第一种执行一种混合声音信号的分离方法的电子设备的框图；

图8是根据一示例性实施例示出的第二种执行一种混合声音信号的分离方法的电子设备的框图；

图9是根据一示例性实施例示出的第三种执行一种混合声音信号的分离方法的电子设备的框图。

具体实施方式

在本文中，人声训练样本、人声验证样本和人声声音信号均为纯净的人声的信号(或数据)，相应地，伴奏音训练样本、伴奏声音验证样本和伴奏声音信号均为纯净的伴奏声音的信号(或数据)。另外，将音频数据命名为训练样本和验证样本只是为了区分在不同步骤中使用的样本。将隐变量区分为第一、第二、第三、第四……只是为了区分在不同场景下使用的隐变量，并不意味着这些隐变量在属性上有所区别。

图1是根据本申请一示例性实施例的一种混合声音信号的分离方法的流程图。该实施例应用于从混合声音中分离人声和伴奏的应用场景。具体包括以下步骤。

在步骤S101中，从混合声音信号中提取混合声音特征数据。

在步骤S102中，将混合声音特征数据输入到混合声音编码模型中，得到第一隐变量和第二隐变量。

在步骤S103中，将第一隐变量和第二隐变量分别输入到人声解码模型和伴奏解码模型，得到人声特征数据和伴奏声音特征数据。

在步骤S104中，基于人声特征数据和伴奏声音特征数据得到人声和伴奏。

在本申请实施例，混合声音编码模型、人声解码模型和伴奏解码模型均为训练得到的神经网络模型。混合声音编码模型接收混合声音特征数据，输出第一隐变量和第二隐变量，基于第一隐变量经由人声解码模型得到人声，基于第二隐变量经由伴奏解码模型得到伴奏，从而实现从混合声音中分离出伴奏和人声。第一隐变量表征人声特征，第二隐变量表征伴奏声音特征。

人声编码模型和人声解码模型经由人声编码器和人声解码器的训练得到，参见图2A，所述训练包括以下步骤：

在步骤S201中，构建人声训练样本；

利用步骤S202-S205进行迭代处理，直至第一损失函数最小化：

在步骤S202中，将一个人声训练样本输入到当前的人声编码器中，得到输出的第三隐变量，第三隐变量表征人声特征；

在步骤S203中，将第三隐变量输入到当前的人声解码器，得到对应的人声验证样本；

在步骤S204中，基于当前的人声训练样本和对应的人声验证样本构建第一损失函数，基于第一损失函数反向传播更新当前的人声编码器和人声解码器的权重参数；

在步骤S205中，判定第一损失函数是否最小，如果否，则调转到步骤S202，否则跳出迭代处理；

在步骤S206中，当迭代处理结束后，将当前的人声编码器和人声解码器作为人声编码模型和人声解码模型。

伴奏编码模型和伴奏解码模型经由伴奏编码器和伴奏解码器的训练得到，参见图2B，所述训练包括以下步骤：

在步骤S301中，构建伴奏声音训练样本；

利用步骤S302-S305步骤进行迭代处理步骤，直至第二损失函数最小化：

在步骤S302中，将一个伴奏声音训练样本输入到当前的伴奏编码器中，得到输出的第四隐变量，所述第四隐变量表征所述伴奏声音特征；

在步骤S303中，将第四隐变量输入到当前的伴奏解码器，得到对应的伴奏验证样本；

在步骤S304中，基于当前的伴奏训练样本和对应的伴奏验证样本构建第二损失函数，基于第二损失函数反向传播更新当前的伴奏编码器和伴奏解码器的权重参数；

在步骤S305中，判定第二损失函数是否最小，如果否，则调转到步骤S302，否则跳出迭代处理；

在步骤S306中，当迭代处理结束后，将当前的伴奏编码器和伴奏解码器作为所述伴奏编码模型和伴奏解码模型。

混合编码模型经由混合编码器的训练得到，参见图2C，所述训练包括以下步骤：

在步骤S401中，基于人声训练样本和伴奏声音训练样本构建混合声音训练样本；

利用步骤S402-S403步骤进行迭代处理步骤，直至损失函数最小化：

在步骤S402中，将一个混合声音训练样本输入到当前的混合编码器中，得到输出的第五隐变量和第六隐变量，第五隐变量表征人声特征，第六隐变量表征伴奏声音特征；

在步骤S403中，采用当前的第五隐变量、第六隐变量和之前训练人声编码器和伴奏编码器得到的第三隐变量、第四隐变量以及人声验证样本和人声训练样本构成的第一损失函数和伴奏训练样本和伴奏验证样本构成的第二损失函数，构建第三损失函数，基于第三损失函数的反向传播更新当前的混合编码器的权重参数；

在步骤S404中，判定第三损失函数是否最小，如果否，则调转到步骤S402，否则跳出迭代处理；

在步骤S405中，当迭代处理结束后，将当前的混合编码器作为应用场景的混合声音编码模型。

在上述模型训练中，采用的人声训练样本为纯净的人声，伴奏训练样本为纯净的伴奏声音，混合声音训练样本为采用每一个人声训练样本和每一个伴奏训练样本混合得到。而且，基于人声和伴奏训练过程中的损失函数和隐变量构建混合声音中的损失函数，因此，当人声和伴奏得到的损失函数收敛时，隐变量的损失函数也趋于收敛，从而最终得到混合声音编码模型。

需要明白的是，在上述实施例中涉及的声音特征，包括混合声音特征、人声特征、伴奏声音特征，均取自原声音信号，表示原声音中本质的声音特征。声音特征例如是声音频谱图。声音特征的提取方式均为现有技术，这里就不再赘述。

图3是根据本申请一示例性实施例的一种混合声音信号的分离方法的流程图等。

在步骤S501中，通过傅里叶变换从混合声音信号中提取混合声音特征数据。

在步骤S502中，将混合声音特征数据输入到混合声音编码模型中，得到第一隐变量和第二隐变量。

在步骤S503中，将第一隐变量和第二隐变量分别输入到人声解码模型和伴奏解码模型，得到人声特征数据和伴奏声音特征数据。

在步骤S504中，基于傅里叶的逆变换基于人声特征数据和伴奏声音特征数据得到人声和伴奏。

在本申请实施例中，基于傅里叶变换从混合声音信号中得到混合声音的频谱特征，再将混合声音的频谱特征到模型中，分离出表示人声频谱的第一隐变量和表示伴奏频谱的第二隐变量，进而根据第一隐变量和第二隐变量重建人声和伴奏，从而实现了从混合声音信号中分离出人声和伴奏。

图4A所示是现有技术中包含编码器和解码器的自编码器的结构示意图。

自编码器是神经网络的一种，经过训练后尝试将输入复制到输出。自编码器内部有一个隐藏层，可以产生编码作为解码器的输入。参见图4A所示，输入信号301经由编码器产生隐变量302作为解码器的输入，隐变量302经由解码器产生重建信号303。要想得到一个编码器和解码器的可用模型，需要设定损失函数，然后基于损失函数最小化的目标，通过迭代训练不断更新编码器和解码器的权重参数，以得到最终的编码器模型和解码器模型。更具体地，该网络可以看作由两部分组成：一个由函数h＝f(x)表示的编码器和一个生成重构的解码器r＝g(h)。通过自编码器的训练实现g(f(x))＝x的权重参数。

在搭建编码器和解码器时，可以采用循环神经网络(Recurrent Neural Network，RNN)、深度神经网络(Deep Neural Network，DNN)、卷积神经网络(Convolutional Neural Network，CNN)和反向传播(Back Propagation，BP)等多种类型的神经网络。一个典型的神经网络的结构如图4B所示。输入层经过多层特征映射层，得到输出层。

将上述编码器和解码器的结构应用到本申请实施例，能够得到如图5所述的包括人声编解码器、伴奏编解码器和混合声音编码器的结构示意图。

参见5，每个人声经过编码器1(即人声编码器)，得到隐变量1，隐变量1输入到解码器1(即人声解码器)，得到重建人声。根据重建人声和输入的人声之间的损失函数反向传播更新编码器1和解码器1的权重参数。将人声训练样本中的每个人声样本重复上述步骤，将最终得到的编码器1和解码器1作为人声编码器模型和人声解码器模型。

同理，每个伴奏经过编码器2(即伴奏编码器)，得到隐变量2，隐变量2输入到解码器2(即伴奏解码器)，得到重建伴奏声。根据重建伴奏和输入的伴奏之间的损失函数反向传播更新编码器2和解码器2的权重参数。将伴奏训练样本中的每个伴奏样本重复上述步骤，将最终得到的编码器2和解码器2作为伴奏编码器模型和伴奏解码器模型。

最终，基于人声训练样本和伴奏训练样本混合得到混合声音训练样本。即每个混合声音样本均有一个人声训练样本和人声伴奏样本混合而成。将每个混合声音样本输入到混合声音编码器中，得到重建后的混合声音，将重建后的混合声音和混合声音训练样本，以及对应的人声训练样本的损失函数和对应的伴奏训练样本的损失函数一起构建混合声音编码器的损失函数，并以损失函数最小化为目标，不断地更新混合声音编码器的权重参数。将最终得到的混合声音编码器作为混合声音编码模型。

为了帮助理解，下面采用数学公式描述混合声音编码器的损失函数。混合声音编码器的损失函数

采用以下公式表示：

v表示人声训练样本，

表示人声验证样本(重建后的人声)，a表示伴奏音训练样本，a表示伴奏声音验证样本(重建后的伴奏)，h _v和h _a表示混合声音编码器输出的两个隐变量(上图中的隐变量3和4)，

表示人声编码器输出的隐变量(上图中的隐变量1)，

表示伴奏编码器输出的隐变量(上图中的隐变量2)。其中，

表示人声自编码器的损失函数，

表示伴奏自编码器的损失函数。

上述实施例实现了从混合声音信号中分离出人声和伴奏，由此得到的声音信号信噪比较低。模型训练步骤可以离线进行，从而节约终端计算资源，模型应用步骤可以放在线上进行，从而实时完成混合声音信号的分离工作。

图6所示是本申请实施例的混合声音信号的分离装置的结构示意图。参见图6，装置800包括特征提取模块801、隐变量生成模块802、人声特征生成模块803、伴奏特征生成模块805、人声生成模块804和伴奏生成模块806。

特征提取模块801用于从混合声音信号中提取混合声音特征数据。

隐变量生成模块802用于将混合声音特征数据输入到混合声音编码模型中，得到第一隐变量和第二隐变量，第一隐变量表征人声特征，第二隐变量表征伴奏声音特征。

人声特征生成模块803用于将采用隐变量生成模块802输出的第一隐变量输入到人声解码器，得到人声特征数据。

伴奏特征生成模块805用于将采用隐变量生成模块802输出的第二隐变量第一隐变量输入到伴奏声音解码器，得到伴奏声音特征数据。

人声生成模块804用于基于人声特征数据得到人声。

伴奏生成模块806用于基于伴奏声音特征数据得到伴奏。

在一些实施例中，上述装置还包括：人声样本收集模块和人声模型训练模块。

人声样本收集模块用于构建人声训练样本。人声训练样本中的每个样本均为纯净人声中提取的人声特征。

人声模型训练模块用于利用以下步骤进行迭代处理，直至损失函数最小化：将一个人声训练样本输入到当前的人声编码器中，得到输出的第三隐变量，第三隐变量表征所述人声特征；将第三隐变量输入到当前的人声解码器，得到对应的人声验证样本；基于当前的人声训练样本和对应的人声验证样本构建第一损失函数，基于第一损失函数反向传播更新当前的人声编码器和人声解码器的权重参数，当迭代处理结束后，将当前的人声编码器和人声解码器作为所述人声编码模型和所述人声解码模型。

在一些实施例中，上述装置还包括：伴奏样本收集模块和伴奏模型训练模块。

伴奏样本收集模块用于构建伴奏声音训练样本。伴奏声音训练样本中的每个样本均为纯净伴奏声音中提取的伴奏声音特征。

伴奏模型训练模块用于利用以下步骤进行迭代处理，直至损失函数最小化：将一个伴奏声音训练样本输入到当前的人声编码器中，得到输出的第四隐变量，所述第四隐变量表征伴奏声音特征；将第四隐变量输入到当前的伴奏解码器，得到对应的伴奏验证样本；基于当前的伴奏训练样本和对应的伴奏验证样本构建第二损失函数，基于第二损失函数反向传播更新当前的伴奏编码器和伴奏解码器的权重参数，当迭代处理结束后，将当前的伴奏编码器和伴奏解码器作为伴奏编码模型和伴奏解码模型。

在一些实施例中，上述装置还包括：混合音样本收集模块和混合音模型训练模块。

混合音样本收集模块，用于基于人声训练样本和伴奏声音训练样本构建混合声音训练样本。混合声音训练样本的每个样本均为基于纯净人声和伴奏声音混合后从中提取的混合声音特征。

混合音模型训练模块，用于基于人声训练样本和伴奏声音训练样本构建混合声音训练样本；利用以下步骤进行迭代处理，直至损失函数最小化：将一个混合声音训练样本输入到当前的混合编码器中，得到输出的第五隐变量和第六隐变量；将当前的第五隐变量、第六隐变量、第三隐变量、第四隐变量以及第一损失函数和第二损失函数构建第三损失函数，基于第三损失函数的反向传播更新当前的混合编码器的权重参数，当迭代处理结束后，将当前的混合编码器作为混合声音编码模型。

在一些实施例中，无论是混合声音特征数据、人声特征数据还是伴奏声音特征数据均为傅里叶变换从原声音信号中提取出的表征声音信号的深度特征的数据。

应该理解，上述装置和方法是对应的，因此，对装置以相应简略的方式进行描述。

图7是根据一示例性实施例示出的一种执行上述方法的电子设备的框图。例如，电子设备1200可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图7，电子设备1200可以包括以下一个或多个组件：处理组件1202，存储器1204，电源组件1206，多媒体组件1208，音频组件1210，输入/输出(I/O)的接口1212，传感器组件1214，以及通信组件1216。

处理组件1202通常控制电子设备1200的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1202可以包括一个或多个处理器1220来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1202可以包括一个或多个模块，便于处理组件1202和其他组件之间的交互。例如，处理组件1202可以包括多媒体模块，以方便多媒体组件1208和处理组件1202之间的交互。

存储器1204被配置为存储各种类型的数据以支持在设备1200的操作。这些数据的示例包括用于在电子设备1200上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1206为电子设备1200的各种组件提供电力。电源组件1206可以包括电源管理系统，一个或多个电源，及其他与为电子设备1200生成、管理和分配电力相关联的组件。

多媒体组件1208包括在所述电子设备1200和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1208包括一个前置摄像头和/或后置摄像头。当设备1200处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1210被配置为输出和/或输入音频信号。例如，音频组件1210包括一个麦克风(MIC)，当电子设备1200处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1204或经由通信组件1216发送。在一些实施例中，音频组件1210还包括一个扬声器，用于输出音频信号。

I/O接口1212为处理组件1202和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启用按钮和锁定按钮。

传感器组件1214包括一个或多个传感器，用于为电子设备1200提供各个方面的状态评估。例如，传感器组件1214可以检测到设备1200的打开/关闭状态，组件的相对定位，例如所述组件为电子设备1200的显示器和小键盘，传感器组件1214还可以检测电子设备1200或电子设备1200一个组件的位置改变，用户与电子设备1200接触的存在或不存在，电子设备1200方位或加速/减速和电子设备1200的温度变化。传感器组件1214可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1214还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1214还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1216被配置为便于电子设备1200和其他设备之间有线或无线方式的通信。电子设备1200可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件1216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1216还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备1200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1204，上述指令可由电子设备1200的处理器1220执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图8是根据一示例性实施例示出的一种执行上述方法的电子设备的框图。例如，电子设备1300可以被提供为一服务器。参照图8，电子设备1300包括处理组件1322，其进一步包括一个或多个处理器，以及由存储器1332所代表的存储器资源，用于存储可由处理组件1322的执行的指令，例如应用程序。存储器1332中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1322被配置为执行指令，以执行上述信息列表显示方法。

电子设备1300还可以包括一个电源组件1326被配置为执行电子设备 1300的电源管理，一个有线或无线网络接口1350被配置为将电子设备1300连接到网络，和一个输入输出(I/O)接口1358。电子设备1300可以操作基于存储在存储器1332的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

图9是根据一示例性实施例示出的另一种执行上述方法的电子设备的框图，参照图9，电子设备1400包括：

处理器1410；

用于存储处理器可执行指令的存储器1420；

其中，所述处理器1410被配置为执行：

从混合声音信号中提取混合声音特征数据；

可选的，所述处理器1410还被配置为执行：

构建人声训练样本；

利用以下步骤进行迭代处理，直至损失函数最小化：

将人声训练样本输入到当前的人声编码器中，得到输出的第三隐变量，所述第三隐变量表征人声特征；

将所述第三隐变量输入到当前的人声解码器，得到对应的人声验证样本；

基于当前的人声训练样本和对应的人声验证样本构建第一损失函数，基于所述第一损失函数反向传播更新当前的人声编码器和人声解码器的权重参数；

当所述迭代处理结束后，将当前的人声编码器和人声解码器作为所述人声编码模型和所述人声解码模型。

可选的，所述处理器1410还被配置为执行：

构建伴奏声音训练样本；

利用以下步骤进行迭代处理，直至损失函数最小化：

将伴奏声音训练样本输入到当前的人声编码器中，得到输出的第四隐变量，所述第四隐变量表征伴奏声音特征；

将所述第四隐变量输入到当前的伴奏解码器，得到对应的伴奏验证样本；

基于当前的伴奏训练样本和对应的伴奏验证样本构建第二损失函数，基于第二损失函数反向传播更新当前的伴奏编码器和伴奏解码器的权重参数；

当所述迭代处理结束后，将当前的伴奏编码器和伴奏解码器作为所述伴奏编码模型和所述伴奏解码模型。

可选的，所述处理器1410还被配置为执行：

基于所述人声训练样本和所述伴奏声音训练样本构建混合声音训练样本；

利用以下步骤进行迭代处理，直至损失函数最小化：

将混合声音训练样本输入到当前的混合编码器中，得到输出的第五隐变量和第六隐变量，所述第五隐变量表征人声特征，所述第六隐变量表征伴奏声音特征；

基于当前的第五隐变量和第六隐变量、对应的第三隐变量和第四隐变量以及所述第一损失函数和所述第二损失函数构建第三损失函数，基于所述第三损失函数的反向传播更新当前的混合编码器的权重参数；

当所述迭代处理结束后，将当前的混合编码器作为所述混合声音编码模型。

可选的，所述人声编码器、所述人声解码器、所述伴奏声音编码器、所述伴奏声音解码器、所述混合声音解码器均为CNN、DNN和RNN神经网络中的一种。

可选的，基于傅里叶变换从所述混合声音信号中提取频域特征作为所述混合声音特征数据。

可选的，基于傅里叶的逆变换分别得到所述人声和所述伴奏。

在示例性实施例中，还提供了计算机程序产品，包括计算机程序产品，所述计算机程序包括程序指令，当所述程序指令被电子设备执行时，使所述电子设备执行上述方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

一种混合声音信号的分离方法，包括：

从混合声音信号中提取混合声音特征数据；

将混合声音特征数据输入到混合声音编码模型中，得到第一隐变量和第二隐变量，所述第一隐变量表征人声特征，所述第二隐变量表征伴奏声音特征；

将所述第一隐变量和所述第二隐变量分别输入到人声解码模型和伴奏解码模型，得到人声特征数据和伴奏声音特征数据；以及

基于所述人声特征数据和所述伴奏声音特征数据得到人声和伴奏。
根据权利要求1所述的分离方法，还包括：

构建人声训练样本；

利用以下步骤进行迭代处理，直至损失函数最小化：

将人声训练样本输入到当前的人声编码器中，得到输出的第三隐变量，所述第三隐变量表征人声特征；

将所述第三隐变量输入到当前的人声解码器，得到对应的人声验证样本；

基于当前的人声训练样本和对应的人声验证样本构建第一损失函数，基于所述第一损失函数反向传播更新当前的人声编码器和人声解码器的权重参数；

当所述迭代处理结束后，将当前的人声编码器和人声解码器作为所述人声编码模型和所述人声解码模型。
根据权利要求2所述的分离方法，还包括：

构建伴奏声音训练样本；

利用以下步骤进行迭代处理，直至损失函数最小化：

将伴奏声音训练样本输入到当前的伴奏编码器中，得到输出的第四隐变量，所述第四隐变量表征伴奏声音特征；

将所述第四隐变量输入到当前的伴奏解码器，得到对应的伴奏验证样本；

基于当前的伴奏训练样本和对应的伴奏验证样本构建第二损失函数，基于第二损失函数反向传播更新当前的伴奏编码器和伴奏解码器的权重参数；

当所述迭代处理结束后，将当前的伴奏编码器和伴奏解码器作为所述伴奏编码模型和所述伴奏解码模型。
根据权利要求3所述的分离方法，还包括：

基于所述人声训练样本和所述伴奏声音训练样本构建混合声音训练样本；

利用以下步骤进行迭代处理，直至损失函数最小化：

将混合声音训练样本输入到当前的混合编码器中，得到输出的第五隐变量和第六隐变量，所述第五隐变量表征人声特征，所述第六隐变量表征伴奏声音特征；

基于当前的第五隐变量和第六隐变量、对应的第三隐变量和第四隐变量以及第一损失函数和第二损失函数构建第三损失函数，基于所述第三损失函数的反向传播更新当前的混合编码器的权重参数；

当所述迭代处理结束后，将当前的混合编码器作为所述混合声音编码模型。
根据权利要求4所述的分离方法，所述人声编码器、所述人声解码器、所述伴奏声音编码器、所述伴奏声音解码器和所述混合声音编码器为CNN、DNN和RNN神经网络中的一种。
根据权利要求1所述的分离方法，基于傅里叶变换从所述混合声音信号中提取频域特征作为所述混合声音特征数据。
根据权利要求6所述的分离方法，基于傅里叶的逆变换得到所述人声和所述伴奏。
一种混合声音信号的分离装置，包括：

特征提取模块，用于从混合声音信号中提取混合声音特征数据；

隐变量生成模块，用于将所述混合声音特征数据输入到混合声音编码模型中，得到第一隐变量和第二隐变量，所述第一隐变量表征人声特征，所述第二隐变量表征伴奏声音特征；

人声特征生成模块，用于将所述第一隐变量输入到人声解码模型，得到人声特征数据；

伴奏特征生成模块，用于将所述第二隐变量输入到伴奏解码模型，得到伴奏声音特征数据；

人声生成模块，用于基于所述人声特征数据得到人声；

伴奏生成模块，用于基于所述伴奏声音特征数据得到伴奏。
一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行：

从混合声音信号中提取混合声音特征数据；

将混合声音特征数据输入到混合声音编码模型中，得到第一隐变量和第二隐变量，所述第一隐变量表征人声特征，所述第二隐变量表征伴奏声音特征；

将所述第一隐变量和所述第二隐变量分别输入到人声解码模型和伴奏解码模型，得到人声特征数据和伴奏声音特征数据；以及

基于所述人声特征数据和所述伴奏声音特征数据得到人声和伴奏。
根据权利要求9所述的电子设备，所述处理器还被配置为执行：

构建人声训练样本；

利用以下步骤进行迭代处理，直至损失函数最小化：

将人声训练样本输入到当前的人声编码器中，得到输出的第三隐变量，所述第三隐变量表征人声特征；

将所述第三隐变量输入到当前的人声解码器，得到对应的人声验证样本；

基于当前的人声训练样本和对应的人声验证样本构建第一损失函数，基于所述第一损失函数反向传播更新当前的人声编码器和人声解码器的权重参数；

当所述迭代处理结束后，将当前的人声编码器和人声解码器作为所述人声编码模型和所述人声解码模型。
根据权利要求10所述的电子设备，所述处理器还被配置为执行：

构建伴奏声音训练样本；

利用以下步骤进行迭代处理，直至损失函数最小化：

将伴奏声音训练样本输入到当前的人声编码器中，得到输出的第四隐变量，所述第四隐变量表征伴奏声音特征；

将所述第四隐变量输入到当前的伴奏解码器，得到对应的伴奏验证样本；

基于当前的伴奏训练样本和对应的伴奏验证样本构建第二损失函数，基于第二损失函数反向传播更新当前的伴奏编码器和伴奏解码器的权重参数；

当所述迭代处理结束后，将当前的伴奏编码器和伴奏解码器作为所述伴奏编码模型和所述伴奏解码模型。
根据权利要求11所述的电子设备，所述处理器还被配置为执行：

基于所述人声训练样本和所述伴奏声音训练样本构建混合声音训练样本；

利用以下步骤进行迭代处理，直至损失函数最小化：

将混合声音训练样本输入到当前的混合编码器中，得到输出的第五隐变量和第六隐变量，所述第五隐变量表征人声特征，所述第六隐变量表征伴奏声音特征；

基于当前的第五隐变量和第六隐变量、对应的第三隐变量和第四隐变量以及所述第一损失函数和所述第二损失函数构建第三损失函数，基于所述第三损失函数的反向传播更新当前的混合编码器的权重参数；

当所述迭代处理结束后，将当前的混合编码器作为所述混合声音编码模型。
根据权利要求12所述的电子设备，所述人声编码器、所述人声解码器、所述伴奏声音编码器、所述伴奏声音解码器、所述混合声音解码器均为CNN、DNN和RNN神经网络中的一种。
根据权利要求9所述的电子设备，基于傅里叶变换从所述混合声音信号中提取频域特征作为所述混合声音特征数据。
根据权利要求14所述的电子设备，基于傅里叶的逆变换分别得到所述人声和所述伴奏。
一种非临时性计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令被执行时实现如权利要求1至7任一项所述的分离方法。