WO2022032608A1

WO2022032608A1 - 一种音频降噪方法和装置

Info

Publication number: WO2022032608A1
Application number: PCT/CN2020/109052
Authority: WO
Inventors: 孙学京; 郭红阳; 王松
Original assignee: 南京拓灵智能科技有限公司
Priority date: 2020-08-11
Filing date: 2020-08-14
Publication date: 2022-02-17
Also published as: CN111916103B; CN111916103A

Abstract

一种音频降噪方法和装置，包括获取待处理的预先经过采样处理的原音频信号；将原音频信号输入至预先训练的分层扩展网络模型进行计算，得到降噪后的降噪音频信号。该音频降噪方法和装置采用分层扩展网络模型，根据输入的音频信号的采样率、帧长的不同进行降噪处理。该方法能够适应不同带宽和复杂度的系统降噪处理，解决了不同采样率、不同帧长的信号降噪的不灵活性和不易扩展性，针对输入音频信号各种参数的不同进行降噪处理，在提高网络鲁棒性的同时有效保证音频信号的质量。

Description

一种音频降噪方法和装置

技术领域

本发明实施例涉及音频噪声处理技术领域，具体涉及一种音频降噪方法和装置。

背景技术

在大多数与音频和语音有关的应用中，例如人机界面、免提通信、IP语音(VoIP)、助听器、电话会议或远程协作系统等等，由麦克风拾取的信号(通常是语音)通常会受到噪声的污染，这些噪音会严重降低语音的质量，从而影响语音应用的效果。因此，麦克风的信号在存储，分析，传输或者播放之前必须进行降噪处理。噪声抑制技术可减少语音信号的稳态和非稳态噪声，从而提高信噪比，改善语音清晰度并减少听力疲劳。

传统降噪算法对于低信噪比，非稳态噪声都缺乏有效的解决方法，近年来随着深度学习的发展，神经网络被应用到了各个场景中，例如：语音增强，语音识别，神纹识别，原场语音交互等，研究表明使用深度神经网络能够提高系统对不同环境的鲁棒性。新一代人工智能方法，利用循环神经网络(RNN)对音频信号时序的信息的建模，或者将一维语音信号转为二维语谱图进而采用多层卷积神经网络(CNN)建模，均获得了有效的进展。生成对抗网络作为2017年重大突破，也被应用到语音增强任务。相比较于谱减、最小均方误差、为纳滤波等传统方法，使用神经网络可以有成效的利用上下文相关信息，对于处理非稳态噪声有明显的效果。

传统的降噪处理通过对输入音频信号进行噪声能量估计并进一步用于噪声抑制处理，得到降噪后的音频信号，参见图1所示。该算法对稳态噪声能得到很好的效果，但是在一定的噪声收敛时间，且对于非稳态噪声以及低信噪比的情况下，降噪效果不明显。

基于神经网络进行降噪，主要是通过将训练音频(包含纯净音和带噪音)进行网络训练，得到不同的网络模型参数；输入的噪声语音采用相应的降噪模型参数进行噪声抑制，得到降噪后的音频，参见图2。

传统降噪算法存在一定的噪声收敛时间，且该算法对于非稳态噪声以及低信噪比时的效果不明显，同时在某些噪声环境下(例如风扇噪声)，传统算法降噪效果不好。基于神经网络降噪算法在不同采样率的音频信号进行降噪处理的时候，需要根据采样率和帧长选用不同的网络模型，这样在实际使用过程中很不灵活，实际音频系统尤其是通话功能为了适应不同带宽和复杂度，通常需要支持不同的采样率和帧长，固定采样率和帧长在实际系统中非常不灵活，不易扩展，限制了很多相关产品的落地和实施。

发明内容

为此，本发明实施例提供一种音频降噪方法和装置，该方法针对输入的不同采样率和不同帧长的信号无需进行训练不同模型，在推理阶段可以动态切换模型的基础层和扩展层。基于该改进的网络训练模型，对输入的不同帧长、不同采样率的音频信号进行降噪处理，便于对音频系统进行灵活的降噪处理，以解决神经网络降噪对不同采样率、不同帧长的信号处理的不灵活性，不易扩展的问题。其具体技术方案如下：

根据本发明实施例的第一方面提供一种音频降噪方法，包括：

获取待处理的预先经过采样处理的原音频信号；

将所述原音频信号输入至预先训练的分层扩展网络模型进行计算，得到降噪后的降噪音频信号。

进一步的，所述分层扩展网络模型的训练包括：

获取待训练音频信号；

采用多个预设采样率对所述待训练音频信号进行分频处理，并将进行分频处理后的音频信号输入至与所述采样率对应频带的网络模型进行训练，得到多组分频网络模型的模型参数；

将所述多个分频网络模型的模型参数进行组合，得到分层扩展网络模型。

进一步的，根据待训练音频信号的帧长，采样率的不同，得到对应的所述频带。

进一步的，所述将所述多组分频网络模型的模型参数进行组合，包括：

将多组所述模型参数进行叠加组合，或者将低频网络模型的参数作为高频网络模型的输入参数进行组合。

进一步的，采用基于听觉特性的Mel频率分析技术、Bark域或基于ERB尺度划分技术对所述频带进行划分。

本发明的另一方面还提供一种音频降噪装置，包括用于获取待处理的预先经过采样处理的原音频信号的获取模块；

用于将所述原音频信号输入至预先训练的分层扩展网络模型进行计算，得到降噪后的降噪音频信号的降噪模块。

进一步的，所述降噪模块包括：

用于获取待训练音频信号的信号获取模块；

用于采用多个预设采样率对所述待训练音频信号进行分频处理，并将进行分频处理后的音频信号输入至与所述采样率对应频带的网络模型进行训练，得到多组分频网络模型的模型参数的模型参数计算模块；

用于将所述多个分频网络模型的模型参数进行组合，得到分层扩展网络模型的组合模块。

进一步的，所述组合模块组合，包括：

用于将多组所述模型参数进行叠加组合的叠加模块，或者将低频网络模型参数作为高频网络模型的输入参数进行组合的输入组合模块。

本发明实施例具有如下优点：

本发明实施例1提供的一种音频降噪方法采用分层扩展网络模型对输入的不同帧长、不同采样率的输入音频信号都能进行降噪处理，提高了对音频信号的降噪处理效率，便于对音频系统进行灵活的降噪处理，解决了神经网络降噪对不同采样率、不同帧长的信号处理的不灵活性，不易扩展的问题。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。

图1为传统的基于噪声能量估计的降噪方法的流程图；

图2为传统基于深度学习的神经网络降噪方法的流程图；

图3为本发明实施例1提供的优化的降噪方法的流程图；

图4为本发明实施例2提供的优化的降噪方法的示例流程图；

图5为本发明实施例3提供的优化的降噪方法的示例流程图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了便于对音频系统进行灵活的降噪处理，以解决神经网络降噪对不同采样率、不同帧长的信号处理的不灵活性，不易扩展的问题，本发明提供一种音频降噪方法，该方法包括：

获取待处理的预先经过采样处理的原音频信号；

上述原音频信号可简称为输入音频，上述分层扩展网络模型是一种噪声处理算法，它能够对不同采样率、不同帧长的输入音频信号进行降噪处理，也称抑噪处理。具体的，参见图3为为本发明实施例1提供的优化的降噪方法的流程图。该流程图在对上述分层扩展网络模型的训练做了详细的描述，包括步骤：

获取待训练音频信号；

具体的，在分层扩展网络模型的训练过程中，根据输入音频的帧长(比如16kHz的采样率，帧长为256点)，进行快速傅里叶变换(FFT)，得到257个FFT复数系数，通过三角窗把FFT系数转化为能量，并映射到统一的符合听觉系统的非线性子带(band)上，比如40个Mel band，然后根据采样率对训练音频进行分频处理，接下来调用相应的网络进行训练，得到分频网络模型的模型参数，进而将所述分频网络模型的模型参数进行组合，得到分层扩展网络模型的模型参数，最终得到分层扩展网络模型。上述分频网络模型的个数为多个，在本发明实施例中多组网络模型采用网络1、网络2...网络N来表示。

在模型训练中，低频部分通常作为基础层(base layer)的网络，设置较多的模型参数，因为低频部分包含更多更丰富语音信息。而对高频部分我们定义为扩展层(extension layer)，针对扩展层的特征进行构建网络，网络设置较少的模型参数。

需要说明的是，根据待训练音频信号的帧长，采样率的不同，得到对应的所述频带。采用基于听觉特性的Mel频率分析技术、Bark域或基于ERB尺度划分技术对所述频带进行划分。

在本发明实施例2中，上述将所述多组分频网络模型的模型参数进行组合，包括：将多组所述模型参数进行叠加组合，或者在本发明实施例3中将低频网络模型的参数作为高频网络模型的输入参数进行组合。

参见图4和图5，图4为本发明实施例2提供的优化的降噪方法的示例流程图；图5为本发明实施例3提供的优化的降噪方法的示例流程图。

下面通过针对48kHz采样音频信号对实施例2和实施例3的方法进行示例性的说明。

实施例2的示例

针对48kHz采样音频信号进行分层扩展网络模型训练，将音频信号分为s1和s2，并采用不同的网络层进行训练。

具体方案：

针对48kHz音频信号，帧长会设置为512或1024。不同的系统帧长不同，帧长的不同可以通过banding的方式将其映射到统一的固定数目的band上，例如常用的Melband；

根据采样率将音频信号进行分频处理，得到音频信号s1(包含0～8kHz的频率分量対映的band个数)和音频信号s2(包含8～24kHz的频率分量対映的band个数)；

音频信号s1采用网络1进行训练，得到模型参数p1；音频信号s2采用网络2进行训练，得到模型参数p2；

模型参数p1和模型参数p2进行组合得到48kHz音频的模型参数；

对输入48kHz音频信号进行降噪抑制处理，得到降噪后的音频。对输入16kHz的音频，则只使用模型参数p1。具体实施过程中，分频处理后的音频信号不限于2个，且各个音频信号包含的频率分量不限于实施例二，可以根据具体应用进行设置。网络训练过程中，可以采用频域特征作为网络输入，也可以采用时域信号作为网络输入。

实施例3的示例

针对48kHz采样音频信号进行分层扩展网络模型训练，将音频信号分为s1和s2，并采用不同的网络层进行训练，且网络1的输出作为网络2的输入进行训练。

音频信号s1采用网络1进行训练，得到模型参数p1；音频信号s2采用网络2进行训练，且训练过程中结合模型参数p1，得到模型参数p2；

模型参数p1和模型参数p2进行组合得到48kHz音频的模型参数；

对输入48kHz音频信号进行降噪抑制处理，得到降噪后的音频。对输入16kHz的音频，则只使用模型参数p1。

具体实施过程中，分频处理后的音频信号不限于2个，且各个音频信号包含的频率分量不限于实施例三，可以根据具体应用进行设置。网络训练过程中，可以采用频域特征作为网络输入，也可以采用时域信号作为网络输入。

本发明实施例具有如下优点：

本发明实施例公开的一种音频降噪方法和装置，包括获取待处理的预先经过采样处理的原音频信号；将所述原音频信号输入至预先训练的分层扩展网络模型进行计算，得到降噪后的降噪音频信号。本发明采用分层扩展网络模型，根据输入的音频信号的采样率，帧长的不同进行降噪处理的方法。该方法能够适应不同带宽和复杂度的系统降噪处理，解决了不同采样率，不同的帧长的信号降噪的不灵活性和不易扩展性，针对输入音频信号各种参数的不同进行降噪处理，在提高网络鲁棒性的同时有效保证语音信号的质量。

本发明实施例的第二方面提供一种音频降噪装置，包括用于获取待处理的预先经过采样处理的原音频信号的获取模块；

进一步的，所述降噪模块包括：

用于获取待训练音频信号的信号获取模块；

进一步的，所述组合模块组合，包括：

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

一种音频降噪方法，其特征在于，包括：

获取待处理的预先经过采样处理的原音频信号；

将所述原音频信号输入至预先训练的分层扩展网络模型进行计算，得到降噪后的降噪音频信号。
根据权利要求1所述的方法，其特征在于，所述分层扩展网络模型的训练包括：

获取待训练音频信号；

采用多个预设采样率对所述待训练音频信号进行分频处理，并将进行分频处理后的音频信号输入至与所述采样率对应频带的网络模型进行训练，得到多组分频网络模型的模型参数；

将所述多个分频网络模型的模型参数进行组合，得到分层扩展网络模型。
根据权利要求2所述的方法，其特征在于，根据待训练音频信号的帧长，采样率的不同，得到对应的所述频带。
根据权利要求2所述的方法，其特征在于，所述将所述多组分频网络模型的模型参数进行组合，包括：

将多组所述模型参数进行叠加组合，或者将低频网络模型的参数作为高频网络模型的输入参数进行组合。
根据权利要求2所述的方法，其特征在于，采用基于听觉特性的Mel频率分析技术、Bark域或基于ERB尺度划分技术对所述频带进行划分。
一种音频降噪装置，其特征在于，包括用于获取待处理的预先经过采样处理的原音频信号的获取模块；

用于将所述原音频信号输入至预先训练的分层扩展网络模型进行计算，得到降噪后的降噪音频信号的降噪模块。
根据权利要求6所述的装置，其特征在于，所述降噪模块包括：

用于获取待训练音频信号的信号获取模块；

用于采用多个预设采样率对所述待训练音频信号进行分频处理，并将进行分频处理后的音频信号输入至与所述采样率对应频带的网络模型进行训练，得到多组分频网络模型的模型参数的模型参数计算模块；

用于将所述多个分频网络模型的模型参数进行组合，得到分层扩展网络模型的组合模块。
根据权利要求7所述的装置，其特征在于，根据待训练音频信号的帧长，采样率的不同，得到对应的所述频带。
根据权利要求7所述的装置，其特征在于，所述组合模块组合，包括：

用于将多组所述模型参数进行叠加组合的叠加模块，或者将低频网络模型参数作为高频网络模型的输入参数进行组合的输入组合模块。
根据权利要求7所述的装置，其特征在于，采用基于听觉特性的Mel频率分析技术、Bark域或基于ERB尺度划分技术对所述频带进行划分。