WO2021114808A1

WO2021114808A1 - 音频处理方法、装置、电子设备和存储介质

Info

Publication number: WO2021114808A1
Application number: PCT/CN2020/116711
Authority: WO
Inventors: 邓朔
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2019-12-11
Filing date: 2020-09-22
Publication date: 2021-06-17
Also published as: US11948597B2; CN110930987B; US20220076692A1; CN110930987A

Abstract

一种音频处理方法、装置、电子设备和存储介质；方法包括获取音频的当前播放环境（101），若当前播放环境处于前景状态时，对当前播放环境的环境音进行音频识别（102），然后，根据音频识别的结果确定环境音中的前景音（103），接着，对环境音中的前景音进行分类，以确定前景音的类别（104），再基于前景音的类别将前景音与音频进行混音，得到混合播放音（105）。

Description

音频处理方法、装置、电子设备和存储介质

本申请要求于2019年12月11日提交国家知识产权局、申请号为201911267593.7、申请名称为“音频处理方法、装置和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及通信技术领域，具体涉及音频处理方法、装置、电子设备和存储介质。

背景技术

随着4G时代的发展以及5G时代的到来，使用移动设备欣赏视频内容，已逐渐成为广大用户的主要娱乐方式。

发明内容

本申请实施例提供一种音频处理方法，由电子设备执行，该方法包括：

获取音频的当前播放环境；

若所述当前播放环境处于前景状态时，对当前播放环境的环境音进行音频识别；

根据音频识别的结果确定所述环境音中的前景音；

对所述环境音中的前景音进行分类，以确定所述前景音的类别；

基于所述前景音的类别将所述前景音与所述音频进行混音，得到混合播放音。

相应的，本申请实施例还提供一种音频处理装置，包括：

获取单元，用于获取音频的当前播放环境；

识别单元，用于若所述当前播放环境处于前景状态时，对当前播放环境的环境音进行音频识别；

确定单元，用于根据音频识别的结果确定所述环境音中的前景音；

分类单元，用于对所述环境音中的前景音进行分类，以确定所述前景音的类别；

混音单元，用于基于所述前景音的类别将所述前景音与所述音频进行混音，得到混合播放音。

此外，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本申请实施例提供的任一种音频处理方法中的步骤。

此外，本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明实施例提供的任一种音频处理方法中的步骤。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的音频处理方法的场景示意图；

图1b是本申请实施例提供的音频处理方法的第一流程图；

图2a是本申请实施例提供的自适应判别网络的训练过程示意图；

图2b是本申请实施例提供的自适应判别网络的另一训练过程示意图；

图2c是本申请实施例提供的音频处理方法的第二流程图；

图2d是本申请实施例提供的音频处理方法的第三流程图；

图2e是本申请实施例提供的音频处理方法的第四流程图；

图3是本申请实施例提供的音频处理装置的结构示意图；

图4是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在使用移动设备欣赏视频内容时，用户在某些特定的场景下，例如佩戴耳机在复杂的环境中进行视频观看时，容易被视频内容吸引，从而忽略周围的环境音，造成不可预知的危险或者带来不便，例如用户行走时，可能会无法注意到周围的环境及声响，进而忽略周围危险的环境。而当用户要与他人交谈时，需摘下耳机或者调低音量，便于听清楚对话者的声音，从而造成观看中断，破坏观看体验。

有鉴于此，本发明实施例提供了音频处理方法、装置、电子设备和存储介质，可以提高音频播放的灵活性。

本申请实施例提供音频处理方法、装置和存储介质。其中，该音频处理装置可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备。

例如，参见图1a，首先，该集成了音频处理装置的电子设备在用户开启音频处理模式时，可以获取用户播放音频的当前播放环境，若该当前播放环境处于前景状态时，对当前播放环境的环境音进行音频识别，然后，根据音频识别的结果确定该环境音中的前景音，接着，对该环境音中的前景音进行分类，以确定该前景音的类别，再基于该前景音的类别将该前景音与该音频进行混音，得到混合播放音。

由于该方案可以通过获取音频播放时的环境音，然后根据该环境音推断当前的播放状态，并根据当前的播放状态结合当前所播放的音频，进行混音，可以有效地提高音频播放的灵活性，并使得用户在佩戴耳机进行音频播放时，能够时刻注意到周围的环境信息，获得更安全方便的收听体验。

以下进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从音频处理装置的角度进行描述，该音频处理装置具体可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备；其中，该终端可以包括手机、平板电脑、笔记本电脑以及个人计算机等设备。

一种音频处理方法，包括：获取音频的当前播放环境，若该当前播放环境处于前景状态时，对当前播放环境的环境音进行音频识别，然后，根据音频识别的结果确定该环境音中的前景音，接着，对该环境音中的前景音进行分类，以确定该前景音的类别，再基于该前景音的类别将该前景音与该音频进行混音，得到混合播放音。

如图1b所示，该音频处理方法具体可以由集成在电子设备中的音频处理装置执行，具体流程可以包括如下步骤。

步骤101、获取音频的当前播放环境。

例如，具体可以由音频处理装置在接收到用户开启音频处理模式的指令后，根据该指令获取播放音频时当前所处的播放环境的环境信息，根据该环境信息判断当前所处的播放环境。

比如，在获取音频的当前播放环境之前，可以获取录音权限，该权限可以用于分辨当前的播放环境，同时与电子设备中正在播放的音频进行混音。

比如，用户在佩戴耳机观看视频或者收听音乐、广播等，用户可以开启音频处理模式，电子设备根据用户的开启指令，询问用户是否同意开启麦克风权限，当接收到用户同意开启麦克风权限后，电子设备可以利用该麦克风采集播放音频时当前播放环境的环境音，然后，根据该环境音判断用户当前所处的环境，即当前播放环境。

其中，当前播放环境可以包括以下场景，比如，教室、校园、运动场、马路、办公室、咖啡馆、公园、工地、图书馆等等。在本申请实施例中，可以由用户设置需要进行音频处理的场景，其中，设置场景的设定方式可以有很多种，比如，可以根据实际的需求灵活设置，也可以预先设置好存储在电子设备中，等等。

步骤102、若该当前播放环境处于前景状态时，对当前播放环境的环境音进行音频识别。

例如，具体可以使用麦克风采集播放音频时当前播放环境的环境音，根据采集到的环境音，利用自适应判别网络判断当前播放环境处于前景状态还是背景状态。若该当前播放环境处于前景状态时，对当前播放环境的环境音进行音频识别，若该当前播放环境处于背景状态时，则可以对当前播放环境的环境音进行过滤或者屏蔽等等。

其中，前景状态指的是需要进行混音的状态(场景)，比如，可以是用户设定的比较重要的在收听音频的同时也需要收听环境中的环境音的场景，比如，用户预先设定了需要混音的场景为教室、马路等，在当前播放环境处于教室、马路等场景时，即可以认为处于前景状态。其中，背景状态指的是不需要进行混音的状态(场景)，比如，可以是用户可以忽略周围环境声音的场景，如环境白噪声、工地的嘈杂声、雨天的雨声等等。其中，前景状态或者背景状态是可以根据实际应用灵活设置的，也可以预先设置好存储在电子设备中，等等。

其中，对当前播放环境的环境音进行音频识别的方式可以有很多种，例如，具体可以是若该当前播放环境处于前景状态时，对当前播放环境的环境音进行采样，对采样得到的环境音提取梅尔频率倒谱系数特征，得到环境音的梅尔特征，利用该自适应判别网络对该环境音的梅尔特征进行音频识别。

其中，采样可以设定一个采样窗口T，T为采样所需时间，T可以根据实际应用的需求灵活设置，比如，T可以为1秒。

在本申请实施例中，该自适应判别网络具体可以由其他设备进行训练后，提供给该音频处理装置，或者，也可以由该音频处理装置自行进行训练，即在利用自适应判别网络之前，该音频处理方法还可以包括以下步骤：

(1)获取目标播放环境的环境音样本。

其中，目标播放环境可以是由用户设置需要进行音频处理的播放环境。比如，具体可以使用麦克风采集用户设定的目标播放环境的环境音样本，将采集到的环境音样本发送给音频处理装置，以使音频处理装置对其进行进一步处理。

(2)利用该环境音样本对判别网络进行自适应训练，得到自适应判别网络。

例如，具体可以对该环境音样本提取梅尔频率倒谱系数特征，得到环境音样本的梅尔特征；根据该环境音样本的梅尔特征对该环境音样本进行分类，得到环境音样本的分类结果；利用该环境音样本的梅尔特征和该环境音样本的分类结果对判别网络进行自适应训练，得到自适应判别网络。其中，环境音样本的分类结果可以是将环境音样本分为前景音样本和背景音样本。

其中，在声音处理领域中，梅尔频率倒谱(Mel-Frequency Cepstrum)是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换。梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCCs)就是组成梅尔频率倒谱的系数。它衍生自音讯片段的倒频谱(Cepstrum)。倒频谱和梅尔频率倒谱的区别在于，梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的，它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统。

其中，根据该环境音样本的梅尔特征对该环境音样本进行分类的方式可以有很多种，为了降低问题的复杂度，减少计算量，可以使用用户交互的方式进行分类，通过与用户的交互确定环境音样本中的前景音样本和背景音样本，等等。比如，利用该环境音样本的梅尔特征开始用户交互，获取当前特征类别(标签)：前景、背景，确定当前特征为前景音样本或背景音样本。

其中，该判别网络可以包括预设高斯混合模型，利用该环境音样本的梅尔特征和分类结果对判别网络进行自适应训练，得到自适应判别网络，可以包括：

利用该环境音样本的梅尔特征对该预设高斯混合模型进行参数估计；根据该环境音样本的分类结果的真实值对估计的参数进行调整，直到该预设高斯混合模型收敛，得到自适应判别网络。

其中，高斯混合模型是一种参数化模型，能够平滑地模拟各种复杂模型，同时高斯模型的计算量相较于机器学习等算法较少，迭代速度快。高斯模型就是用高斯概率密度函数(正态分布曲线)精确地量化事物，将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。在本申请的场景中，仅需要分别背景，高斯混合模型可提供较高的准确度，同时针对不同的场景，可使用不同的高斯混合模型进行判别，减少模型间的干扰，提高准确度。

其中，高斯混合模型使用K个(一般为3到5个)高斯模型来表征音频中的特征，它主要是由方差和均值两个参数决定。对均值和方差的学习，采取不同的学习机制，将直接影响到模型的稳定性、精确性和收敛性。建模过程中，需要对高斯混合模型中的方差、均值、权值等一些参数初始化，并通过这些参数求出建模所需的数据，如马氏距离。在初始化过程中，一般可以将方差设置的尽量大些(如15)，而权值则尽量小些(如0.001)。这样设置是由于初始化的高斯模型是一个并不准确，可能的模型，需要在训练中不停的缩小它的范围，更新它的参数值，从而得到最可能的高斯模型，将方差设置大些，就是为了将尽可能多的音频包含到一个模型里面，从而获得最有可能的模型。

其中，参数估计的方式可以有很多种，比如，可以采用最大期望算法(Expectation-Maximization algorithm，EM)算法进行估计。最大期望算法是一类通过迭代进行极大似然估计(Maximum Likelihood Estimation，MLE)的优化算法。EM算法的标准计算框架由E步(Expectation-step)和M步(Maximization step)交替组成，算法的收敛性可以确保迭代至少逼近局部极大值。

EM算法是基于极大似然估计理论的优化算法。给定相互独立的观测数据X＝{X ₁,...,X _N}，和包含隐变量Z、参数θ的概率模型f(X,Z,θ)，根据MLE理论，θ的最优单点估计在模型的似然取极大值时给出： θ＝argmax _θp(X|θ)。考虑隐变量，模型的似然有如下展开：

隐变量可以表示缺失数据，或概率模型中任何无法直接观测的随机变量，上式中第一行是隐变量为连续变量的情形，第二行是隐变量为离散变量的情形，积分/求和的部分也被称为X,Z的联合似然(joint liklihood)。不失一般性，这里以离散变量为例进行说明。由MLE的一般方法，对上式取自然对数后可得：

上述展开考虑了观测数据的相互独立性。引入与隐变量有关的概率分布q(Z)，即隐分布(可认为隐分布是隐变量对观测数据的后验，参见标准算法的E步推导)，由Jensen不等式，观测数据的对数似然有如下不等关系：

当θ,q不等式右侧取全局极大值时，所得到的θ至少使不等式左侧取局部极大值。因此，将不等式右侧表示为L(θ,q)后，EM算法有如下求解目标：

式中的L(θ,q)等效于MM算法(Minorize-Maximization algorithm)中的代理函数(surrogate function)，是MLE优化问题的下限，EM算法通过最大化代理函数逼近对数似然的极大值。

其中，本实施例中的高斯混合模型是利用EM算法估计参数的分布，然后，根据环境音样本的真实值对估计的参数进行调整，直到该预设高斯混合模型的似然函数值收敛，得到自适应判别网络。

训练完成后可以对自适应判别网络进行验证，比如，接受环境音样本的输入，将该环境音样本输入高斯混合模型，观察是否判断准确，若用户输入准确，则结束训练，若输入失败则继续对环境音进行采样，对采样得到的环境音样本提取梅尔频率倒谱系数特征，并继续后面的训练过程。

由于用户的输入场景较多，其中有些场景可能会存在高度的重合性，当用户进行新的场景训练后，得到新的高斯混合模型，过多的模型将会造成空间的浪费，因此，为了减少空间的浪费，减少模型的数量，提出了模型合并，对模型进行更精细的训练，该目标播放环境可以包括多个播放场景，该判别网络可以包括多个预设高斯混合模型，即步骤“利用该环境音样本对判别网络进行自适应训练，得到自适应判别网络”，可以包括：

利用多个播放场景的环境音样本对该多个预设高斯混合模型进行训练，得到多个高斯混合模型；计算该多个高斯混合模型两两之间的相似度；若该相似度超过预设阈值，则将相似度超过预设阈值的两个高斯混合模型中的一个高斯混合模型确定为该自适应判别网络的高斯混合模型。

比如，当目标播放环境包括第一播放场景和第二播放场景时，可以利用第一播放场景的环境音样本对该预设高斯混合模型进行训练，得到第一高斯混合模型；利用第二播放场景的环境音样本对该预设高斯混合模型进行训练，得到第二高斯混合模型；计算该第一高斯混合模型和该第二高斯混合模型的相似度；若该相似度超过预设阈值，认为该第一高斯混合模型和该第二高斯混合模型是相似的，则将该第一高斯混合模型确定为该自适应判别网络的高斯混合模型；若该相似度不超过预设阈值，则将该第一高斯混合模型和该第二高斯混合模型确定为该自适应判别网络的高斯混合模型。

其中，预设阈值的设定方式可以有很多种，比如，可以根据实际应用的需求灵活设置，也可以预先设置好存储在电子设备中。此外，预设阈值可以内置于电子设备中，或者，也可以保存在存储器中并发送给电子设备，等等。

其中，计算两个高斯混合模型之间的相似度的方式可以有很多种，比如，可以通过计算两个高斯混合模型之间的距离，即步骤“计算该第一高斯混合模型和该第二高斯混合模型的相似度”可以包括：

根据高斯混合模型中的参数计算该第一高斯混合模型和该第二高斯混合模型的距离；

则若该相似度超过预设阈值(第一预设阈值)，则将该第一高斯混合模型确定为该自适应判别网络的高斯混合模型，若该相似度不超过预设阈值，则将该第一高斯混合模型和该第二高斯混合模型确定为该自适应判别网络的高斯混合模型，可以包括：若该距离小于预设阈值(第二预设阈值)，则将该第一高斯混合模型确定为该自适应判别网络的高斯混合模型，若该距离不小于预设阈值，则将该第一高斯混合模型和该第二高斯混合模型确定为该自适应判别网络的高斯混合模型。

比如，当用户进行场景训练后，得到高斯混合模型

当用户进行新的场景训练后，得到新的高斯混合模型

其中，高斯混合模型的参数如下：

上式表示了高斯混合模型由K个参数为μ,σ,α的高斯模型组成，其中α为当前高斯模型的加权系数。基于高斯混合模型中的参数特性，提出了一种快速距离估计方法，可快速的判断模型间的相似性，其距离估算公式如下：

当距离值小于预设阈值时，可以认为高斯混合模型是相似的，式中，

为最大距离因子，代表了最大可忍受的距离为当前高斯模型的镜像。通过该距离公式，可快速的估算出高斯混合模型之间的距离，减少模型的数量。

步骤103、根据音频识别的结果确定该环境音中的前景音。

例如，具体可以根据该环境音的梅尔特征对该环境音进行分类，得到环境音中的前景音和背景音；从环境音中的前景音和背景音中获取该环境音中的前景音。

其中，前景音可以指的是对话声音、鸣笛声等包含重要信息的声音，背景音可以指的是用户可忽略的声音，例如环境白噪声、雨天的声音等等。

步骤104、对该环境音中的前景音进行分类，以确定该前景音的类别。

例如，具体可以获取音频的分类类别，基于该分类类别对该前景音进行分类，得到该前景音在每个分类类别中的置信度，将该置信度最高的分类类别确定为该前景音的类别。

其中，置信度也称为可靠度，或置信水平、置信系数，即在抽样对总体参数做出估计时，由于样本的随机性，其结论总是不确定的。因此，采用一种概率的陈述方法，也就是数理统计中的区间估计法，即估计值与总体参数在一定允许的误差范围以内，其相应的概率有多大，这个相应的概率称作置信度。

置信水平是描述地理信息系统(Geographic Information System或Geo－Information system，GIS)中线元素与面元素的位置不确定性的重要指标之一。置信水平表示区间估计的把握程度，置信区间的跨度是置信水平的正函数，即要求的把握程度越大，势必得到一个较宽的置信区间，这就相应降低了估计的准确程度。

置信区间越大，置信水平越高。置信区间只在频率统计中使用。在贝叶斯统计中的对应概念是可信区间。但是可信区间和置信区间是建立在不同的概念基础上的，因此一般上说取值不会一样。置信区间表示通过计算估计值所在的区间。置信水平表示准确值落在这个区间的概率。

置信水平是指总体参数值落在样本统计值的某一区内的概率；而置信区间是指在某一置信水平下，样本统计值与总体参数值间误差范围。置信区间越大，置信水平越高。

其中，音频的分类类别可以有很多种，比如，对话声、音乐声、鸣笛声、警报声等等。比如，可以利用音频训练集中的特征对支持向量机进行训练，根据训练的结果确定音频的分类类别。

其中，基于该分类类别对该前景音进行分类的方式可以有很多种，比如，可以通过计算前景音与类别之间的距离，等等，即步骤“基于该分类类别对该前景音进行分类，得到前景音对于每个类别的置信度”，可以包括：

计算该前景音的梅尔特征与每个分类类别之间的距离，根据该距离确定该前景音属于每个分类类别的概率；

则该将该置信度最高的类别确定为该前景音的类别，可以包括：将该分类类别中概率最高的类别确定为该前景音的分类类别。

步骤105、基于该前景音的类别将该前景音与该音频进行混音，得到混合播放音。

例如，具体可以根据该前景音的类别确定混音模式，采用确定的混音模式将该前景音与该音频进行混音，得到混合播放音。比如，在进行混音时，输入分为两部分，分别为环境音输入EnvInput，以及音频输入VideoInput，输出为Output，在混音阶段，我们采用线性叠加的方式，其公式如下：

Output＝a*EnvInput+b*VideoInput

其中a,b为叠加系数，可以依据不同的类别使用不同的叠加系数。

由上可知，本实施例可以获取音频的当前播放环境，若该当前播放环境处于前景状态时，对当前播放环境的环境音进行音频识别，然后，根据音频识别的结果确定该环境音中的前景音，接着，对该环境音中的前景音进行分类，以确定该前景音的类别，再基于该前景音的类别将该前景音与该音频进行混音，得到混合播放音；由于该方案可以通过获取音频播放时的环境音，然后根据该环境音推断当前的播放状态，并根据当前的播放状态结合当前所播放的音频，进行混音，可以有效地提高音频播放的灵活性，并使得用户在佩戴耳机进行音频播放时，能够时刻注意到周围的环境信息，获得更安全方便的收听体验。

根据上一个实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以该音频处理装置具体集成在电子设备为例进行说明。

(一)首先，需要对判别网络进行训练，如图2a所示，具体可以包括如下步骤。

(1)电子设备获取目标播放环境的环境音样本。

比如，用户可以设置教室、马路等作为需要进行音频处理的目标播放环境。比如，具体可以使用麦克风采集目标播放环境的环境音样本，将采集到的环境音样本发送给电子设备，以使电子设备对其进行进一步处理。

(2)电子设备利用该环境音样本对判别网络进行自适应训练，得到自适应判别网络。

例如，为了降低问题的复杂度，减少计算量，电子设备具体可以对该环境音样本提取梅尔频率倒谱系数特征，得到环境音样本的梅尔特征，然后，基于该环境音样本的梅尔特征，通过与用户的交互确定环境音样本中的前景音样本和背景音样本，接着，利用该环境音样本的梅尔特征和分类结果对判别网络进行自适应训练，得到自适应判别网络。比如，首先可以初始化高斯混合模型

其高斯模型的数量为5，进入采样窗口T进行采样，提取其MFCC特征，开始用户交互，获取当前特征标签：前景、背景。将提取的MFCC特征输入高斯混合模型中进行参数估计，参数估计采用EM算法进行估计

其中，该判别网络可以包括预设高斯混合模型，比如，具体可以利用该环境音样本的梅尔特征，采样最大期望算法对该预设高斯混合模型进行参数估计，获取基于用户交互得到的分类结果的真实值，根据该真实值对估计的参数进行调整，直到该预设高斯混合模型的似然函数值收敛，得到自适应判别网络。

比如，首先可以初始化高斯混合模型

其高斯模型的数量为5，进入采样窗口T进行采样，提取其MFCC特征，开始用户交互，获取当前特征标签：前景、背景。将提取的MFCC特征输入高斯混合模型中进行参数估计，参数估计采用EM算法进行估计。

训练完成后可以对自适应判别网络进行验证，比如，接受环境音样本的输入，将该环境音样本输入高斯混合模型，观察是否判断准确，若用户输入准确则结束训练，若输入失败则继续对环境音进行采样，对采样得到的环境音样本提取梅尔频率倒谱系数特征，并进行后续的参数估计等训练过程。

由于用户的输入场景较多，其中有些场景可能会存在高度的重合性，当用户进行新的场景训练后，得到新的高斯混合模型，过多的模型将会造成空间的浪费，因此，为了减少空间的浪费，减少模型的数量，提出了模型合并，对模型进行更精细的训练，比如，目标播放环境可以包括多个播放场景，判别网络可以包括多个预设高斯混合模型，则具体可以利用多个播放场景的环境音样本对该预设高斯混合模型进行训练，得到多个高斯混合模型；计算该多个高斯混合模型两两之间的相似度；若该相似度超过预设阈值(第一预设阈值)，则将相似度超过预设阈值的两个高斯混合模型中的一个高斯混合模型确定为该自适应判别网络的高斯混合模型。当然，也可以通过其他方式进行模型合并。

比如，当目标播放环境包括第一播放场景和第二播放场景时，可以利用第一播放场景的环境音样本对该预设高斯混合模型进行训练，得到第一高斯混合模型，利用第二播放场景的环境音样本对该预设高斯混合模型进行训练，得到第二高斯混合模型，然后，根据高斯混合模型中的参数计算该第一高斯混合模型和该第二高斯混合模型的距离，若该距离值小于预设阈值(第二预设阈值)，则将该第一高斯混合模型确定为该自适应判别网络的高斯混合模型，若该距离值不小于预设阈值，则将该第一高斯混合模型和该第二高斯混合模型确定为该自适应判别网络的高斯混合模型。

比如，在这里可以设置预设阈值(第二预设阈值)为1，当距离值小于1时，则认为这两个高斯混合模型是相似的，可以将这两个高斯混合模型中的一个作为这两个播放场景的高斯混合模型，即将该第一高斯混合模型确定为该自适应判别网络的高斯混合模型，其中，第一高斯混合模型指的是多个相似的高斯混合模型中的任意一个。

比如，如图2b所示，当用户进行场景训练后，得到高斯混合模型

当用户进行新的场景训练后，得到新的高斯混合模型

其中，高斯混合模型的参数如下：

为最大距离因子，代表了最大可忍受的距离为当前高斯模型的镜像，比如，可以取

通过该距离公式，可快速的估算出高斯混合模型之间的距离，减少模型的数量。

(二)通过训练好的自适应判别网络，便可以进行音频处理，具体可以参见图2c、图2d和图2e。

如图2c所示，一种音频处理方法，具体流程可以包括如下步骤。

步骤201、电子设备获取音频的当前播放环境。

例如，用户具体可以在佩戴耳机观看视频时，在电子设备的播放器中选择开启音频处理模式，在电子设备接收到用户开启音频处理模式的指令后，根据用户的开启指令，询问用户是否同意开启麦克风权限，当接收到用户同意开启麦克风权限后，可以利用该麦克风采集播放音频时当前播放环境的环境音，然后，根据该环境音判断用户当前所处的环境。

由于在判别当前用户的播放环境时，传统的算法会对当前的环境音持续地检测并分辨，持续检测的方式将会带来巨大的性能损耗，同时由于用户所处环境的多样性，这种方式对识别的准确度也将带来巨大的挑战，因此，本实施例提取了一种自适应的动态判别方法，加入用户交互反馈，使用高斯混合模型动态地更新前背景判别网络，适应用户的不同播放环境。

例如，用户可以在开启音频处理模式之前，设定前景状态，比如，用户预先设定了需要混音的场景为教室、马路等。

步骤202、若该当前播放环境处于前景状态时，电子设备对当前播放环境的环境音进行采样。

例如，电子设备具体可以判断当前播放环境处于前景状态还是背景状态，若该当前播放环境处于前景状态时，电子设备可以对当前播放环境的环境音进行采样，比如，可以设定一个采样窗口T，T为采样所需时间，其中，T可以为1秒。

步骤203、电子设备对采样得到的环境音提取梅尔频率倒谱系数特征，得到环境音的梅尔特征。

例如，为了使环境音的音频特征更符合人耳的听觉特性，而且当信噪比降低时仍然具有较好的识别性能，电子设备具体可以提取环境音的梅尔频率倒谱系数特征，得到环境音的梅尔特征。

步骤204、电子设备利用该自适应判别网络对该环境音的梅尔特征进行音频识别。

例如，电子设备具体可以将该环境音的梅尔特征输入训练好的自适应判别网络，利用该自适应判别网络进行音频识别，识别出该环境音中的前景音和背景音。

步骤205、电子设备根据音频识别的结果确定该环境音中的前景音。

例如，电子设备具体可以根据该环境音的梅尔特征对该环境音进行分类，以确定环境音中的前景音和背景音，从确定的前景音和背景音中筛选出该环境音中的前景音。

步骤206、电子设备对该环境音中的前景音进行分类，以确定该前景音的类别。

例如，电子设备具体可以获取音频的分类类别，基于该分类类别对该前景音进行分类，得到该前景音在每个分类类别中的置信度，将该置信度最高的分类类别确定为该前景音的类别。

比如，可以使用基于支持向量机(Support Vector Machine,SVM)的分类算法，训练集使用Youtube-8K训练集，得到音频的分类类别可以为对话声、音乐声、警笛声。

例如，具体可以计算该前景音的梅尔特征与每个分类类别之间的距离，根据该距离确定该前景音属于每个分类类别的概率，将该分类类别中概率最高的类别确定为该前景音的分类类别。

步骤207、电子设备基于该前景音的类别将该前景音与该音频进行混音，得到混合播放音。

Output＝a*EnvInput+b*VideoInput

其中a，b为叠加系数，可以依据不同的类别使用不同的叠加系数。具体地，可如下设置:

比如，当前景音为对话声时，可以利用conversation的混音模式将该前景音与该音频进行混音；当前景音为音乐声时，可以利用music的混音模式将该前景音与该音频进行混音；当前景音为警笛声时，可以利用alert的混音模式将该前景音与该音频进行混音。

由上可知，本实施例可以获取音频的当前播放环境，若该当前播放环境处于前景状态时，对当前播放环境的环境音进行音频识别，然后，根据音频识别的结果确定该环境音中的前景音，接着，对该环境音中的前景音进行分类，以确定该前景音的类别，再基于该前景音的类别将该前景音与该音频进行混音，得到混合播放音；由于该方案可以利用电子设备获取音频播放时的环境音，然后根据该环境音推断当前的播放状态，并根据当前的播放状态结合当前所播放的音频，进行混音，可以有效地提高音频播放的灵活性，并使得用户在佩戴耳机进行音频播放时，能够时刻注意到周围的环境信息，获得更安全方便的收听体验。本方案应用于电子设备的播放器中，当播放器开启音频处理模式时，且用户佩戴耳机观看视频或者收听音乐、广播等时，可以获取当前用户的播放环境，并依据本方案中的方法，决定何时唤起以及使用混音策略，使用户可方便的接受外部环境的音频信息，提升其观看体验，使其在专注观看视频时也可以时刻清楚外部环境信息。

为了更好地实施以上方法，相应的，本申请实施例还提供一种音频处理装置，该音频处理装置具体可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备。

例如，如图3所示，该音频处理装置可以包括获取单元301、识别单元302、确定单元303、分类单元304和混音单元305。

获取单元301，用于获取音频的当前播放环境。

例如，获取单元301具体可以在接收到用户开启音频处理模式的指令后，根据该指令获取播放音频时当前所处的播放环境。

比如，用户在佩戴耳机观看视频或者收听音乐、广播等，用户可以开启音频处理模式，获取单元301根据用户的开启指令，询问用户是否同意开启麦克风权限，当接收到用户同意开启麦克风权限后，获取单元301可以利用该麦克风采集播放音频时当前播放环境的环境音，然后，根据该环境音判断用户当前所处的环境，即当前播放环境。

识别单元302，用于若该当前播放环境处于前景状态时，对当前播放环境的环境音进行音频识别。

在一些实施例中，该识别单元302，具体可以用于若该当前播放环境处于前景状态时，对当前播放环境的环境音进行采样；对采样得到的环境音提取梅尔频率倒谱系数特征，得到环境音的梅尔特征；利用自适应判别网络对该环境音的梅尔特征进行音频识别。

在一些实施例中，该音频处理装置还可以包括训练单元，用于获取目标播放环境的环境音样本，利用该环境音样本对判别网络进行自适应训练，得到自适应判别网络。

在一些实施例中，该训练单元可以包括提取子单元和训练子单元。

提取子单元，用于对该环境音样本提取梅尔频率倒谱系数特征，得到环境音样本的梅尔特征，根据该环境音样本的梅尔特征对该环境音样本进行分类，得到环境音样本的分类结果；

该训练子单元，用于利用该环境音样本的梅尔特征和分类结果对判别网络进行自适应训练，得到自适应判别网络。

在一些实施例中，该判别网络包括预设高斯混合模型，该训练子单元，具体可以用于利用该环境音样本的梅尔特征对该预设高斯混合模型进行参数估计，根据该环境音样本的分类结果的真实值对估计的参数进行调整，直到该预设高斯混合模型收敛，得到自适应判别网络。

在一些实施例中，该目标播放环境包括多个播放场景，该判别网络包括多个预设高斯混合模型，该训练单元，具体可以用于利用多个播放场景的环境音样本对该多个预设高斯混合模型进行训练，得到多个高斯混合模型；计算该多个高斯混合模型两两之间的相似度；若该相似度超过预设阈值，则将相似度超过预设阈值的两个高斯混合模型中的一个高斯混合模型确定为该自适应判别网络的高斯混合模型。

比如，当目标播放环境包括第一播放场景和第二播放场景时，可以利用第一播放场景的环境音样本对该预设高斯混合模型进行训练，得到第一高斯混合模型；利用第二播放场景的环境音样本对该预设高斯混合模型进行训练，得到第二高斯混合模型；计算该第一高斯混合模型和该第二高斯混合模型的相似度；若该相似度超过预设阈值，则将该第一高斯混合模型确定为该自适应判别网络的高斯混合模型；若该相似度不超过预设阈值，则将该第一高斯混合模型和该第二高斯混合模型确定为该自适应判别网络的高斯混合模型。

确定单元303，用于根据音频识别的结果确定该环境音中的前景音。

在一些实施例中，该确定单元303，具体可以用于根据该环境音的梅尔特征对该环境音进行分类，得到环境音中的前景音和背景音；从环境音中的前景音和背景音中获取该环境音中的前景音。

分类单元304，用于对该环境音中的前景音进行分类，以确定该前景音的类别。

在一些实施例中，该分类单元304可以包括分类子单元和确定子单元。

分类子单元，用于获取音频的分类类别，基于该分类类别对该前景音进行分类，得到该前景音在每个分类类别中的置信度；

确定子单元，用于将该置信度最高的分类类别确定为该前景音的类别。

在一些实施例中，该分类子单元，具体可以用于计算该前景音的梅尔特征与每个分类类别之间的距离，根据该距离确定该前景音属于每个分类类别的概率，则该确定子单元，具体可以用于将该分类类别中概率最高的类别确定为该前景音的分类类别。

混音单元305，用于基于该前景音的类别将该前景音与该音频进行混音，得到混合播放音。

在一些实施例中，该混音单元305，具体可以用于根据该前景音的类别确定混音模式，采用确定的混音模式将该前景音与该音频进行混音，得到混合播放音。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本实施例由获取单元301获取音频的当前播放环境，若该当前播放环境处于前景状态时，由识别单元302对当前播放环境的环境音进行音频识别，然后，由确定单元303根据音频识别的结果确定该环境音中的前景音，接着，由分类单元304对该环境音中的前景音进行分类，以确定该前景音的类别，再由混音单元305基于该前景音的类别将该前景音与该音频进行混音，得到混合播放音；由于该方案可以利用对环境感知获取音频播放时的环境音，根据该环境音推断当前的播放状态，并根据当前的播放状态结合当前所播放的音频，进行混音，可以有效地提高音频播放的灵活性，并使得用户在佩戴耳机进行音频播放时，能够时刻注意到周围的环境信息，获得更安全方便的收听体验。

此外，本申请实施例还提供一种电子设备，如图4所示，其示出了本申请实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图4中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。在本申请实施例中，处理器401可包括一个或多个处理核心；在本申请实施例中，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，在本申请实施例中，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取音频的当前播放环境，若所述当前播放环境处于前景状态时，对当前播放环境的环境音进行音频识别，然后，根据音频识别的结果确定所述环境音中的前景音，接着，对所述环境音中的前景音进行分类，以确定所述前景音的类别，再基于所述前景音的类别将所述前景音与所述音频进行混音，得到混合播放音。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本实施例可以获取音频的当前播放环境，若所述当前播放环境处于前景状态时，对当前播放环境的环境音进行音频识别，然后，根据音频识别的结果确定所述环境音中的前景音，接着，对所述环境音中的前景音进行分类，以确定所述前景音的类别，再基于所述前景音的类别将所述前景音与所述音频进行混音，得到混合播放音；由于该方案可以利用对环境感知获取音频播放时的环境音，根据该环境音推断当前的播放状态，并根据当前的播放状态结合当前所播放的音频，进行混音，可以有效地提高音频播放的灵活性，并使得用户在佩戴耳机进行音频播放时，能够时刻注意到周围的环境信息，获得更安全方便的收听体验。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例还提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种音频处理方法中的步骤。例如，该指令可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种音频处理方法中的步骤，因此，可以实现本申请实施例所提供的任一种音频处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的音频处理方法、装置、电子设备和存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种音频处理方法，由电子设备执行，包括：

获取音频的当前播放环境；

若所述当前播放环境处于前景状态时，对当前播放环境的环境音进行音频识别；

根据音频识别的结果确定所述环境音中的前景音；

对所述环境音中的前景音进行分类，以确定所述前景音的类别；

基于所述前景音的类别将所述前景音与所述音频进行混音，得到混合播放音。
根据权利要求1所述的方法，所述若所述当前播放环境处于前景状态时，对当前播放环境的环境音进行音频识别，包括：

若所述当前播放环境处于前景状态时，对当前播放环境的环境音进行采样；

对采样得到的环境音提取梅尔频率倒谱系数特征，得到环境音的梅尔特征；

利用自适应判别网络对所述环境音的梅尔特征进行音频识别。
根据权利要求2所述的方法，所述根据音频识别的结果确定所述环境音中的前景音，包括：

根据所述环境音的梅尔特征对所述环境音进行分类，得到所述环境音中的前景音和背景音；

从所述环境音中的前景音和背景音中获取所述环境音中的前景音。
根据权利要求2所述的方法，所述对所述环境音中的前景音进行分类，以确定所述前景音的类别，包括：

获取音频的分类类别；

基于所述分类类别对所述前景音进行分类，得到所述前景音在每个分类类别中的置信度；

将所述置信度最高的分类类别确定为所述前景音的类别。
根据权利要求4所述的方法，所述基于所述分类类别对所述前景音进行分类，得到前景音对于每个类别的置信度，包括：

计算所述前景音的梅尔特征与每个分类类别之间的距离，根据所述距离确定所述前景音属于每个分类类别的概率；

所述将所述置信度最高的类别确定为所述前景音的类别，包括：将所述分类类别中概率最高的类别确定为所述前景音的分类类别。
根据权利要求2至5中的任一项所述的方法，在所述利用自适应判别网络对所述环境音的梅尔特征进行音频识别之前，还包括：

获取目标播放环境的环境音样本；

利用所述环境音样本对判别网络进行自适应训练，得到所述自适应判别网络。
根据权利要求6所述的方法，所述利用所述环境音样本对判别网络进行自适应训练，得到所述自适应判别网络，包括：

对所述环境音样本提取梅尔频率倒谱系数特征，得到所述环境音样本的梅尔特征；

根据所述环境音样本的梅尔特征对所述环境音样本进行分类，得到所述环境音样本的分类结果；

利用所述环境音样本的梅尔特征和所述环境音样本的分类结果对所述判别网络进行自适应训练，得到所述自适应判别网络。
根据权利要求7所述的方法，所述判别网络包括预设高斯混合模型，所述利用所述环境音样本的梅尔特征和所述环境音样本的分类结果对所述判别网络进行自适应训练，得到所述自适应判别网络，包括：

利用所述环境音样本的梅尔特征对所述预设高斯混合模型进行参数估计；

根据所述环境音样本的分类结果的真实值对估计的参数进行调整，直到所述预设高斯混合模型收敛，得到所述自适应判别网络。
根据权利要求6所述的方法，所述目标播放环境包括多个播放场景，所述判别网络包括多个预设高斯混合模型，

所述利用所述环境音样本对判别网络进行自适应训练，得到所述自适应判别网络，包括：

利用所述多个播放场景的环境音样本对所述多个预设高斯混合模型进行训练，得到多个高斯混合模型；

计算所述多个高斯混合模型两两之间的相似度；

若所述相似度超过预设阈值，则将相似度超过预设阈值的两个高斯混合模型中的一个高斯混合模型确定为所述自适应判别网络的高斯混合模型。
根据权利要求1所述的方法，所述基于所述前景音的类别将所述前景音与所述音频进行混音，得到混合播放音，包括：

根据所述前景音的类别确定混音模式；

采用确定的混音模式将所述前景音与所述音频进行混音，得到混合播放音。
一种音频处理装置，包括：

获取单元，用于获取音频的当前播放环境；

识别单元，用于若所述当前播放环境处于前景状态时，对当前播放环境的环境音进行音频识别；

确定单元，用于根据音频识别的结果确定所述环境音中的前景音；

分类单元，用于对所述环境音中的前景音进行分类，以确定所述前景音的类别；

混音单元，用于基于所述前景音的类别将所述前景音与所述音频进行混音，得到混合播放音。
一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至10中的任一项所述的音频处理方法中的步骤。
一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1至10中的任一项所述方法的步骤。