WO2020034779A1

WO2020034779A1 - 音频处理方法、存储介质及电子设备

Info

Publication number: WO2020034779A1
Application number: PCT/CN2019/093850
Authority: WO
Inventors: 陈岩
Original assignee: Oppo广东移动通信有限公司
Priority date: 2018-08-14
Filing date: 2019-06-28
Publication date: 2020-02-20
Also published as: CN110827843A; CN110827843B

Abstract

本申请公开了一种音频处理方法、存储介质及电子设备。音频处理方法通过盲源分离模型分离出人声信号与背景声信号，可以降低运算量，提高设备的数据处理速度。

Description

音频处理方法、存储介质及电子设备

本申请要求于2018年08月14日提交中国专利局、申请号为201810922856.2、申请名称为“音频处理方法、装置、存储介质及电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请属于数据处理领域，尤其涉及一种音频处理方法、存储介质及电子设备。

背景技术

相关技术大多数为音乐的立体声音效算法，主要利用左右声道的差异性，进行简单的相加相减，实现立体声的效果，不能够有效的增加现场录制节目视频中的人声。相关技术的人声提取技术则主要利用了大多数歌曲中人声在左右两声道中基本相同的特点来提取人声，但是现场录制节目中人声的左右两个声道并没有准确对齐，存在一定的延迟，在这种情况下则不能有效的提取人声。

而另一种方式是利用听觉场景分析(CASA)技术在对每个声道的信号进行分类，结合音频信号的多种特征(主音高、多次谐波等)来提取人声，但是这种方法提取算法复杂，计算量大。

发明内容

本申请实施例提供一种音频处理方法、存储介质及电子设备，可以提高输出音频的听觉效果。

本申请实施例提供一种音频处理方法，所述方法包括：

获取待处理音频数据，所述待处理音频数据包括预设的左声道信号以及右声道信号；

将所述预设的左声道信号以及右声道信号分别通过盲源分离模型分离出对应声道的人声信号与背景声信号；

将预设的左声道信号以及右声道信号，分别与对应声道的所述人声信号与所述背景声信号按预设方式进行合成，以获得处理后的左声道信号以及右声道信号。

本申请实施例提供一种存储介质，其上存储有计算机程序，当所述计算机程序在计算机上执行时，使得所述计算机执行本申请实施例提供的音频处理方法中的步骤。

本申请实施例还提供一种电子设备，包括存储器及处理器，所述处理器通过调用所述存储器中存储的计算机程序，用于执行：

将所述预设的左声道信号以及右声道信号，分别与对应声道的所述人声信号与所述背景声信号按预设方式进行合成，以获得处理后的左声道信号以及右声道信号。

附图说明

图1是本申请实施例提供的音频处理方法的实现流程图。

图2是本申请实施例提供的音频处理方法的流程框架图。

图3是本申请实施例提供的分离信号的流程示意图。

图4是本申请实施例提供的合成信号的流程示意图。

图5是本申请实施例提供的音频处理装置的结构示意图。

图6是本申请实施例提供的信号分离模块的结构示意图。

图7是本申请实施例提供的电子设备的结构示意图。

图8是本申请实施例提供的电子设备的另一结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例，其不应被视为限制本发明未在此详述的其它具体实施例。

本申请实施例提供一种音频处理方法、装置、存储介质及电子设备。以下将分别进行详细说明。该电子设备可以是智能手机、平板电脑等设备。

本申请实施例中的电子设备，可以包括智能手机(Smart Phone)，或者具有无线通信模块的便携式计算机，例如，平板电脑(Tablet Computer)、笔记本电脑(Laptop)等，还可以是穿戴式、手持式的计算机，如智能穿戴设备(Smart wearer)、个人数字助理(Personal Digital Assistant，PDA)等设备，在此不作限定。

当该方法应用在该电子设备时，其中，该音频处理方法可运行在电子设备的操作系统中，可包括但不限于Windows操作系统、Mac OS操作系统、Android操作系统、IOS操作系统、Linux操作系统、Ubuntu操作系统、Windows Phone操作系统等等，本申请实施例不作限定。本申请实施例提供一种音频处理方法、装置、存储介质及电子设备。以下将分别进行详细说明。

本申请实施例提供一种音频处理方法，其包括：

其中，所述将所述预设的左声道信号以及右声道信号分别通过盲源分离模型分离出对应声道的人声信号与背景声信号，包括：

获取所述左声道信号以及右声道信号的多个预设帧位置；

对所述多个预设帧位置的左声道信号以及右声道信号进行傅里叶变换处理；

将所述傅里叶变换后获得的信号参数进行分离，获得分离后对应声道的所述人声信号与背景声信号。

其中，所述将所述傅里叶变换后获得的信号参数进行分离，获得分离后对应声道的所述人声信号与背景声信号，包括：

将所述傅里叶变换后获得的信号参数通过分离矩阵进行分离，所述分离矩阵中的分离矩阵系数通过牛顿迭代模型获得。

其中，所述将所述傅里叶变换后获得的信号参数通过分离矩阵进行分离，包括：

对于任意频点f，设所述预设帧位置的左声道信号以及右声道信号进行傅里叶变换后获得的信号参数为

所述分离矩阵为

通过公式

将信号参数进行分离，获得分离后的人声信号以及背景声信号为

其中，在所述将所述傅里叶变换后获得的信号参数通过分离矩阵进行分离之前，所述方法还包括：

获取初始分离矩阵，将所述初始分离矩阵通过第一迭代公式计算，获得第一迭代参数，所述第一迭代公式为：

将所述第一迭代参数通过第二迭代公式计算，获得第二迭代参数，所述第二迭代参数为：W _i ^f＝(W _i ^f(W _i ^f) ^H) ^1/2W _i ^f；

将所述第二迭代参数代入至所述第一迭代公式，以通过迭代运算获得所述预设帧位置的分离矩阵；

其中，f为频点，i为迭代次数，E为数学期望，G为非线性求导，H为共轭转置。

其中，所述将预设的左声道信号以及右声道信号，分别与对应声道的所述人声信号与所述背景声信号按预设方式进行合成，以获得处理后的左声道信号以及右声道信号，包括：

根据预设的信号权重值对所述预设的左声道信号，以及左声道的所述人声信号与所述背景声信号进行合成，得到处理后的左声道信号；

根据预设的信号权重值对所述预设的右声道信号，以及右声道的所述人声信号与所述背景声信号进行合成，得到处理后的右声道信号。

其中，在所述将预设的左声道信号以及右声道信号，分别与对应声道的所述人声信号与所述背景声信号按预设方式进行合成，以获得处理后的左声道信号以及右声道信号之前，所述方法还包括：

确定所述待处理音频数据所属的当前场景类别；

获取与所述当前场景类别对应的信号权重值。

其中，所述处理后的左声道信号可以通过以下公式获得：

L'＝γ*L+α*D+β*P；

所述处理后的右声道信号可以通过以下公式获得：

R'＝γ*R+α*D+β*P；

其中，L'为处理后的左声道信号，R'为处理后的右声道信号，L为预设的左声道信号；R为预设的右声道信号，D为对应声道的人声信号，P为对应声道的背景声信号，γ、α、β为预设的信号权重值，α和β的取值范围为[-1,1]。

其中，所述确定所述待处理音频数据所属的当前场景类别，包括：

在所述待处理音频数据的属性中添加与所述待处理音频数据所属的当前场景类别相关的标识，通过从所述待处理音频数据的属性中查看相关的标识，以确定所述待处理音频数据所述的当前场景类别。

其中，所述权重值是针对预设的声道信号、所述声道信号分离出的人声信号以及北京声信号中的一个或多个信号进行加权。

请参阅图1-2，图1是本申请实施例提供的音频处理方法的流程示意图；图2是本申请实施例提供的音频处理方法的流程框架图。

该音频处理方法可以应用于电子设备，该电子设备可以是上述实施例提及的电子设备。该音频处理方法可以包括：

101、获取待处理音频数据，所述待处理音频数据包括预设的左声道信号以及右声道信号。

其中，该待处理音频数据可以是预先存储的数据，也可以是实时获取的数据。

其中，该左声道信号以及右声道信号经处理，可以通过扬声器进行音频播放。

在一些实施例中，该待处理音频数据可以是包含有预先分离好的左声道信号以及右声道信号，或者可以经一定方式将音频信号分离出左声道信号以及右声道信号，声道信号的具体获取方式可以根据实际情况而定。

102、将预设的左声道信号以及右声道信号分别通过盲源分离模型分离出对应声道的人声信号与背景声信号。

盲源分离(BSS:Blind Source Separation)，又称为盲信号分离，是指在信号的理论模型和源信号无法精确获知的情况下，如何从混迭信号(观测信号)中分离出各源信号的过程。盲源分离的目的是求得源信号的最佳估计，盲辨识的目的是求得传输通道的混合矩阵。

该盲源分离是将待处理音频数据中的左声道信号以及右声道信号，根据人声和背景声的概率分布函数不同的特点进行最佳估计，使之分离出对应声道的人声信号以及背景声信号。

通过盲源分离的方式，相对于现有技术可以大大减少音频处理过程中产生的计算量，增加设备的处理效率。

103、将预设的左声道信号以及右声道信号，分别与对应声道的人声信号与背景声信号按预设方式进行合成，以获得处理后的左声道信号以及右声道信号。

具体的，对于左声道信号，可以将待处理音频数据中预设的左声道信号，以及左声道信号经过盲源分离所获得的人声信号和背景声信号三种信号进行合成，获得处理后的左声道信号。对于右声道信号，可以参考左声道信号的合成方法，以获得处理后的右声道信号。

在一些实施例中，可以根据不同的权重值对各个参数的信号强度进行配比后再对信号进行合成，可以更好地适应不同的播放场景，使之根据不同需要对信号进行配比后合成以获得相应的效果。

由上可知，将待处理音频数据中的左声道信号以及右声道信号通过盲源分离模型分离出对应声道的人声信号与背景声信号，将预设的左声道信号以及右声道信号，分别与对应声道的所述人声信号与所述背景声信号按预设方式进行合成，以获得处理后的左声道信号以及右声道信号。本申请实施例通过盲源分离模型分离出人声信号与背景声信号，可以降低运算量，提高设备的数据处理速度，且利用分离出的人声信号、背景声信号与原信号进行结合，从而可以获得听觉效果更好的音频信号。

请参阅图3，图中示出了本申请实施例提供的分离信号的流程示意图。

所述将预设的左声道信号以及右声道信号分别通过盲源分离模型分离出对应声道的人声信号与背景声信号，包括：

201、获取左声道信号以及右声道信号的多个预设帧位置。

其中，预设帧位置可以是人工设置的帧位置，也可以是该待处理音频数据按照一定规则自动设定的帧位置，该帧位置的数量以及每两帧之间的间隔时间可以根据实际情况而定。

例如，若该待处理音频数据为一个包含10秒音频的音频文件，可以将每间隔10ms的位置处设置一个帧位置。当然，上述例子仅用于举例说明，还可以是其他设置方式。

在一些实施例中，若以公式表达，第n帧左、右声道信号可以分别为L _n＝[l ₁,l ₂,l ₃,…l _N] ^T和R _n＝[r ₁,r ₂,r ₃,…r _N] ^T，其中N为帧位置的数，T为转置运算。当然，具体的表达方式可以根据实际情况而定。

202、对多个预设帧位置的左声道信号以及右声道信号进行傅里叶变换处理。

在一些实施例中，对多个预设帧位置的左声道信号以及右声道信号进行傅里叶变换处理，可以使得该左声道信号以及右声道信号变换成频域信号。

在一些实施例中，若第n帧左、右声道信号为L _n＝[l ₁,l ₂,l ₃,…l _N] ^T和R _n＝[r ₁,r ₂,r ₃,…r _N] ^T，则可以对上述信号进行短时傅里叶变换，可以得到XL _n＝[xl ¹,xl ²,xl ³,…xl ^f] ^T和XR _n＝[xr ¹,xr ²,xr ³,…xr ^f] ^T，其中f为频点，T为转置运算。

203、将傅里叶变换后获得的信号参数进行分离，获得分离后对应声道的所述人声信号与背景声信号。

当将左声道信号以及右声道信号变换成频域信号后，可以针对该左声道信号以及右声道信号的频域特征，利用人声信号与背景声信号在频域中的概率分布函数不同进行最佳估计，并通过估计结果对人声信号与背景声信号进行分离，从而获得每一帧声道信号的人声信号以及背景声信号。

在一些实施例中，可以将分离的人声和背景声信号分别设为P _n＝[p ₁,p ₂,p ₃,…p _N] ^T和D _n＝[d ₁,d ₂,d ₃,…d _N] ^T。

由上可知，通过获取帧位置，并将每一帧位置的进行短时傅里叶变换后，将变换获得的频域信号进行分离，可以获得每一帧的较为准确的人声信号以及背景声信号。

在一些实施例中，所述将傅里叶变换后获得的信号参数进行分离，获得分离后对应声道的所述人声信号与背景声信号，包括：

将傅里叶变换后获得的信号参数通过分离矩阵进行分离，所述分离矩阵中的分离矩阵系数通过牛顿迭代模型获得。

通过牛顿迭代模型所获得的分离矩阵对傅里叶变换后获得的信号参数进行分离，可以利用人声和背景音乐的概率分布函数不同的特点进行最佳估计，以获得更为准确的人声信号以及背景声信号。

在一些实施例中，具体的，分离的人声和背景声信号分别设为P _n＝[p ₁,p ₂,p ₃,…p _N] ^T和D _n＝[d ₁,d ₂,d ₃,…d _N] ^T，对上述信号做短时傅里叶变换，可以得到XP _n＝[xp ¹,xp ²,xp ³,…xp ^f] ^T以及XD _n＝[xd ¹,xd ²,xd ³,…xd ^f] ^T。

而对于任意频点f，设预设帧位置的左声道信号以及右声道信号进行傅里叶变换后获得的信号参数为

所述分离矩阵为

通过公式

其中w为分离矩阵系数，可以简化成y ^f＝W ^fx ^f，其中预设的左声道信号以及右声道信号的频域矩阵为

分离后的人声信号以及背景声信号的频域矩阵为

以及分离矩阵为

在一些实施例中，在将傅里叶变换后获得的信号参数通过分离矩阵进行分离之前，该牛顿迭代模型可以通过以下方式获得：

获取初始分离矩阵，将初始分离矩阵通过第一迭代公式计算，获得第一迭代参数，所述第一迭代公式为：

将第一迭代参数通过第二迭代公式计算，获得第二迭代参数，所述第二迭代参数为：W _i ^f＝(W _i ^f(W _i ^f) ^H) ^1/2W _i ^f；

将第二迭代参数代入至第一迭代公式，以通过迭代运算获得预设帧位置的分离矩阵；

通过上述计算方式，可以获得本申请所述的牛顿迭代模型，以利用人声和背景音乐的概率分布函数不同的特点进行最佳估计。

请参阅图4，图中示出了本申请实施例提供的合成信号的流程示意图。

处理后的左声道信号以及右声道信号的合成方式，可以包括：

301、确定待处理音频数据所属的当前场景类别。

其中，通过当前场景类别可以确定特定的音频输出效果。

例如，当前场景类别可以是播放现场录制的节目，或者是播放电影文件，当然，具体当前场景类别是如何设置，均可以根据实际情况而定。

在一些实施例中，确定待处理音频数据所属的当前场景类别，可以提前在待处理音频数据的属性中添加与该数据所属的当前场景类别相关的标识，通过从待处理音频数据的属性中查看相关的标识，可以确定该待处理音频数据所属的当前场景类别。

在另一些实施例中，确定待处理音频数据所属的当前场景类别，还可以是后期人为进行定义。

可以理解的，具体的场景确定方式可以根据场景的不同而进行不同的设定。

302、获取与当前场景类别对应的信号权重值。

其中，信号权重值可以是针对预设的声道信号、该声道信号分离出的人声信号以及背景声信号的其中一个或多个信号进行加权，以调整上述信号在处理后的声道信号中的表现效果。

在一些实施例中，每一当前场景类别可以均有对应的信号权重值，以适应不同当前场景类别所需的音频表现方式。

例如，若当前场景类别是现场录制的节目，可以采用较大的人声信号来突出节目中的人声，使对白音效更加清晰；而在播放电影视频时，可以采用较大的背景声信号来突出背景声，使电影音效效果更加震撼。

303、根据预设的信号权重值对预设的左声道信号，以及左声道的人声信号与背景声信号进行合成，得到处理后的左声道信号。

304、根据预设的信号权重值对预设的右声道信号，以及右声道的人声信号与背景声信号进行合成，得到处理后的右声道信号。

其中，在303以及304中不同的信号可以通过叠加的方式进行合成，还可以是其他合成方式，具体的合成方式可以根据实际情况而定。

在一些实施例中，具体的，所述处理后的左声道信号可以通过以下公式获得：

L'＝γ*L+α*D+β*P；

所述处理后的右声道信号可以通过以下公式获得：

R'＝γ*R+α*D+β*P；

由上可知，通过确定待处理音频数据所属的当前场景类别，并根据不同的当前场景类别设定不同信号的信号权重值，可以利用好分离出的人声信号以及背景声信号来合成获得更加符合场景需求的音效，进一步提高音频的听觉效果。

请参阅图5，图中示出了本申请实施例提供的音频处理装置的结构。

该音频处理装置400包括信号获取模块401、信号分离模块402以及信号合成模块403。

信号获取模块401，用于获取待处理音频数据，所述待处理音频数据包括预设的左声道信号以及右声道信号。

信号分离模块402，用于将预设的左声道信号以及右声道信号分别通过盲源分离模型分离出对应声道的人声信号与背景声信。

信号合成模块403，用于将预设的左声道信号以及右声道信号，分别与对应声道的人声信号与背景声信号按预设方式进行合成，以获得处理后的左声道信号以及右声道信号。

请参阅图6，图中示出了本申请实施例提供的信号分离模块的结构。

所述信号分离模块402，包括位置获取子模块4021、信号处理子模块4022以及信号分离子模块4023。

位置获取子模块4021，用于获取左声道信号以及右声道信号的多个预设帧位置。

信号处理子模块4022，用于对多个预设帧位置的左声道信号以及右声道信号进行傅里叶变换处理。

信号分离子模块4023，用于将傅里叶变换后获得的信号参数进行分离，获得分离后对应声道的人声信号与背景声信号。

在一些实施例中，该信号分离模块402，具体还可以用于：

本申请实施例提供一种计算机可读的存储介质，其上存储有计算机程序，当所述计算机程序在计算机上执行时，使得所述计算机执行如本实施例提供的音频处理方法中的步骤。

本申请实施例还提供一种电子设备，包括存储器以及处理器，所述处理器通过调用存储器中存储的计算机程序，用于执行本实施例提供的音频处理方法中的步骤：

上述电子设备可以是诸如平板电脑或者智能手机等移动终端。请参阅图7，图7为本申请实施例提供的电子设备的结构示意图。

该电子设备500可以包括处理器501以及存储器502。本领域技术人员可以理解，图7中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器502可用于存储应用程序和数据。存储器502存储的应用程序中包含有可执行代码。应用程序可以组成各种功能模块。处理器501通过运行存储在存储器502的应用程序，从而执行各种功能应用以及数据处理。

处理器501是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器502内的应用程序，以及调用存储在存储器502内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。

在本实施例中，电子设备中的处理器501会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行代码加载到存储器502中，并由处理器501来运行存储在存储器502中的应用程序，从而实现步骤：

在一些实施例中，所述处理器501还用于：

获取所述左声道信号以及右声道信号的多个预设帧位置；

在一些实施例中，所述处理器501还用于：

所述分离矩阵为

通过公式

在一些实施例中，所述处理器501还用于：

确定所述待处理音频数据所属的当前场景类别；

获取与所述当前场景类别对应的信号权重值。

在一些实施例中，所述处理器501还用于：

所述处理后的左声道信号可以通过以下公式获得：

L'＝γ*L+α*D+β*P；

所述处理后的右声道信号可以通过以下公式获得：

R'＝γ*R+α*D+β*P；

请一并参阅图8，在某些实施方式中，电子设备500还可以包括：显示器503、射频电路504、音频电路505以及电源506。其中，其中，显示器503、射频电路504、音频电路505以及电源506分别与处理器501电性连接。

该显示器503可以用于显示由用户输入的信息或提供给用户的信息以及各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示器503可以包括显示面板，在某些实施方式中，可以采用液晶显示器(Liquid Crystal Display，LCD)、或者有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板。

该射频电路504可以用于收发射频信号，以通过无线通信与网络设备或其他电子设备建立无线通讯，与网络设备或其他电子设备之间收发信号。

该音频电路505可以用于通过扬声器、传声器提供用户与电子设备之间的音频接口。

该电源506可以用于给电子设备500的各个部件供电。在一些实施例中，电源506可以通过电源管理系统与处理器501逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管图8中未示出，电子设备500还可以包括摄像头、蓝牙模块等，在此不再赘述。

本申请实施例还提供一种存储介质，该存储介质存储有计算机程序，当该计算机程序在计算机上运行时，使得该计算机执行上述任一实施例中的音频处理方法，比如：

获取待处理音频数据，所述待处理音频数据包括预设的左声道信号以及右声道信号；将所述预设的左声道信号以及右声道信号分别通过盲源分离模型分离出对应声道的人声信号与背景声信号；将所述预设的左声道信号以及右声道信号，分别与对应声道的所述人声信号与所述背景声信号按预设方式进行合成，以获得处理后的左声道信号以及右声道信号。

在本申请实施例中，存储介质可以是磁碟、光盘、只读存储器(Read Only Memory，ROM，)、或者随机存取记忆体(Random Access Memory，RAM)等。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

需要说明的是，对本申请实施例的应用页面的启动方法而言，本领域普通测试人员可以理解实现本申请实施例的应用页面的启动方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在电子设备的存储器中，并被该电子设备内的至少一个处理器执行，在执行过程中可包括如应用页面的启动方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。

对本申请实施例的应用页面的启动装置而言，其各功能模块可以集成在一个处理芯片中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中，所述存储介质譬如为只读存储器，磁盘或光盘等。

本申请实施例提供的所述音频处理装置与上文实施例中的音频处理方法属于同一构思，在所述音频处理装置上可以运行所述音频处理方法实施例中提供的任一方法，其具体实现过程详见所述音频处理方法实施例，此处不再赘述。

需要说明的是，对本申请实施例所述音频处理方法而言，本领域普通技术人员可以理解实现本申请实施例所述音频处理方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在存储器中，并被至少一个处理器执行，在执行过程中可包括如所述音频处理方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)等。

对本申请实施例的所述音频处理装置而言，其各功能模块可以集成在一个处理芯片中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中，所述存储介质譬如为只读存储器，磁盘或光盘等。

以上对本申请实施例所提供的一种音频处理方法、装置、存储介质以及电子设备进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

一种音频处理方法，其包括：

获取待处理音频数据，所述待处理音频数据包括预设的左声道信号以及右声道信号；

将所述预设的左声道信号以及右声道信号分别通过盲源分离模型分离出对应声道的人声信号与背景声信号；

将所述预设的左声道信号以及右声道信号，分别与对应声道的所述人声信号与所述背景声信号按预设方式进行合成，以获得处理后的左声道信号以及右声道信号。
如权利要求1所述的音频处理方法，其中，所述将所述预设的左声道信号以及右声道信号分别通过盲源分离模型分离出对应声道的人声信号与背景声信号，包括：

获取所述左声道信号以及右声道信号的多个预设帧位置；

对所述多个预设帧位置的左声道信号以及右声道信号进行傅里叶变换处理；

将所述傅里叶变换后获得的信号参数进行分离，获得分离后对应声道的所述人声信号与背景声信号。
如权利要求2所述的音频处理方法，其中，所述将所述傅里叶变换后获得的信号参数进行分离，获得分离后对应声道的所述人声信号与背景声信号，包括：

将所述傅里叶变换后获得的信号参数通过分离矩阵进行分离，所述分离矩阵中的分离矩阵系数通过牛顿迭代模型获得。
如权利要求3所述的音频处理方法，其中，所述将所述傅里叶变换后获得的信号参数通过分离矩阵进行分离，包括：

对于任意频点f，设所述预设帧位置的左声道信号以及右声道信号进行傅里叶变换后获得的信号参数为
所述分离矩阵为
通过公式
将信号参数进行分离，获得分离后的人声信号以及背景声信号为
如权利要求4所述的音频处理方法，其中，在所述将所述傅里叶变换后获得的信号参数通过分离矩阵进行分离之前，所述方法还包括：

获取初始分离矩阵，将所述初始分离矩阵通过第一迭代公式计算，获得第一迭代参数，所述第一迭代公式为：

将所述第一迭代参数通过第二迭代公式计算，获得第二迭代参数，所述第二迭代参数为：W _i ^f＝(W _i ^f(W _i ^f) ^H) ^1/2W _i ^f；

将所述第二迭代参数代入至所述第一迭代公式，以通过迭代运算获得所述预设帧位置的分离矩阵；

其中，f为频点，i为迭代次数，E为数学期望，G为非线性求导，H为共轭转置。
如权利要求1所述的音频处理方法，其中，所述将预设的左声道信号以及右声道信号，分别与对应声道的所述人声信号与所述背景声信号按预设方式进行合成，以获得处理后的左声道信号以及右声道信号，包括：

根据预设的信号权重值对所述预设的左声道信号，以及左声道的所述人声信号与所述背景声信号进行合成，得到处理后的左声道信号；

根据预设的信号权重值对所述预设的右声道信号，以及右声道的所述人声信号与所述背景声信号进行合成，得到处理后的右声道信号。
如权利要求6所述的音频处理方法，其中，在所述将预设的左声道信号以及右声道信号，分别与对应声道的所述人声信号与所述背景声信号按预设方式进行合成，以获得处理后的左声道信号以及右声道信号之前，所述方法还包括：

确定所述待处理音频数据所属的当前场景类别；

获取与所述当前场景类别对应的信号权重值。
如权利要求7所述的音频处理方法，其中，所述处理后的左声道信号可以通过以下公式获得：

L'＝γ*L+α*D+β*P；

所述处理后的右声道信号可以通过以下公式获得：

R'＝γ*R+α*D+β*P；

其中，L'为处理后的左声道信号，R'为处理后的右声道信号，L为预设的左声道信号；R为预设的右声道信号，D为对应声道的人声信号，P为对应声道的背景声信号，γ、α、β为预设的信号权重值，α和β的取值范围为[-1,1]。
根据权利要求7所述的音频处理方法，其中，所述确定所述待处理音频数据所属的当前场景类别，包括：

在所述待处理音频数据的属性中添加与所述待处理音频数据所属的当前场景类别相关的标识，通过从所述待处理音频数据的属性中查看相关的标识，以确定所述待处理音频数据所述的当前场景类别。
根据权利要求7所述的音频处理方法，其中，所述权重值是针对预设的声道信号、所述声道信号分离出的人声信号以及北京声信号中的一个或多个信号进行加权。
一种存储介质，其上存储有计算机程序，当所述计算机程序在计算机上执行时，使得所述计算机执行如权利要求1至10中任一项所述的方法。
一种电子设备，其包括存储器及处理器，所述处理器通过调用所述存储器中存储的计算机程序，用于执行：

获取待处理音频数据，所述待处理音频数据包括预设的左声道信号以及右声道信号；

将所述预设的左声道信号以及右声道信号分别通过盲源分离模型分离出对应声道的人声信号与背景声信号；

将所述预设的左声道信号以及右声道信号，分别与对应声道的所述人声信号与所述背景声信号按预设方式进行合成，以获得处理后的左声道信号以及右声道信号。
根据权利要求12所述的电子设备，其中，所述处理器还用于执行：

获取所述左声道信号以及右声道信号的多个预设帧位置；

对所述多个预设帧位置的左声道信号以及右声道信号进行傅里叶变换处理；

将所述傅里叶变换后获得的信号参数进行分离，获得分离后对应声道的所述人声信号与背景声信号。
根据权利要求13所述的电子设备，其中，所述处理器还用于执行：

将所述傅里叶变换后获得的信号参数通过分离矩阵进行分离，所述分离矩阵中的分离矩阵系数通过牛顿迭代模型获得。
根据权利要求14所述的电子设备，其中，所述处理器还用于执行：

对于任意频点f，设所述预设帧位置的左声道信号以及右声道信号进行傅里叶变换后获得的信号参数为
所述分离矩阵为
通过公式
将信号参数进行分离，获得分离后的人声信号以及背景声信号为
根据权利要求15所述的电子设备，其中，所述处理器还用于执行：

获取初始分离矩阵，将所述初始分离矩阵通过第一迭代公式计算，获得第一迭代参数，所述第一迭代公式为：

将所述第一迭代参数通过第二迭代公式计算，获得第二迭代参数，所述第二迭代参数为：W _i ^f＝(W _i ^f(W _i ^f) ^H) ^1/2W _i ^f；

将所述第二迭代参数代入至所述第一迭代公式，以通过迭代运算获得所述预设帧位置的分离矩阵；

其中，f为频点，i为迭代次数，E为数学期望，G为非线性求导，H为共轭转置。
根据权利要求12所述的电子设备，其中，所述处理器还用于执行：

根据预设的信号权重值对所述预设的左声道信号，以及左声道的所述人声信号与所述背景声信号进行合成，得到处理后的左声道信号；

根据预设的信号权重值对所述预设的右声道信号，以及右声道的所述人声信号与所述背景声信号进行合成，得到处理后的右声道信号。
根据权利要求17所述的电子设备，其中，所述处理器还用于执行：

确定所述待处理音频数据所属的当前场景类别；

获取与所述当前场景类别对应的信号权重值。
根据权利要求18所述的电子设备，其中，所述处理后的左声道信号可以通过以下公式获得：

L'＝γ*L+α*D+β*P；

所述处理后的右声道信号可以通过以下公式获得：

R'＝γ*R+α*D+β*P；

其中，L'为处理后的左声道信号，R'为处理后的右声道信号，L为预设的左声道信号；R为预设的右声道信号，D为对应声道的人声信号，P为对应声道的背景声信号，γ、α、β为预设的信号权重值，α和β的取值范围为[-1,1]。
根据权利要求18所述的电子设备，其中，所述确定所述待处理音频数据所属的当前场景类别，包括：

在所述待处理音频数据的属性中添加与所述待处理音频数据所属的当前场景类别相关的标识，通过从所述待处理音频数据的属性中查看相关的标识，以确定所述待处理音频数据所述的当前场景类别。