WO2024088142A1

WO2024088142A1 - 音频信号处理方法、装置、电子设备及可读存储介质

Info

Publication number: WO2024088142A1
Application number: PCT/CN2023/125312
Authority: WO
Inventors: 陈新磊; 刘良兵
Original assignee: 维沃移动通信有限公司
Priority date: 2022-10-25
Filing date: 2023-10-19
Publication date: 2024-05-02
Also published as: CN115604627A

Abstract

本申请公开了一种音频信号处理方法、装置、电子设备及可读存储介质，属于音频技术领域。该方法包括：将频带能量衰减曲线划分为N段能量衰减曲线，并对每段能量衰减曲线进行线性拟合，得到N个线性拟合曲线，N为大于或等于2的整数；基于N个线性拟合曲线，确定N段能量衰减曲线中目标时间帧对应的混响抑制函数；基于混响抑制函数，抑制第一音频信号中目标时间帧的混响音频信号中的混响部分，以得到第二音频信号；其中，第一音频信号为：音频信号中处于频带能量衰减曲线对应的频带内的音频信号；频带能量衰减曲线为：房间冲击响应RIR能量衰减曲线中的一个频带能量衰减曲线。

Description

音频信号处理方法、装置、电子设备及可读存储介质

相关申请的交叉引用

本申请要求在2022年10月25日提交中国专利局、申请号为202211314023.0、名称为“音频信号处理方法、装置、电子设备及可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请属于音频技术领域，具体涉及一种音频信号处理方法、装置、电子设备及可读存储介质。

背景技术

语音去混响已经成为音频信号处理过程中的一个重要步骤，电子设备可以通过去除混响音频信号中的晚期混响，实现对该混响音频信号的抑制，从而使语音更加饱满。

目前，为了得到混响音频信号中的晚期混响，电子设备可以对房间冲击响应(Room Inpluse Reponse，RIR)能量衰减曲线中的每个频带能量衰减曲线，在整个时间轴上进行线性拟合，并通过最小二乘法得到每条子带能量衰减曲线的斜率，然后可以基于得到的斜率对RIR的能量衰减过程进行建模描述，从而可以推算出该晚期混响。

然而，按照上述方法，在直达音频的残余能量较高的前几帧中，线性拟合值的拟合误差通常较大，会使通过上述线性拟合推算的晚期混响的准确性较差，从而导致抑制混响音频信号的效果较差。

发明内容

本申请实施例的目的是提供一种音频信号处理方法、装置、电子设备及可读存储介质，能够解决抑制混响音频信号的效果较差的问题。

第一方面，本申请实施例提供了一种音频信号处理方法，该方法包括：将频带能量衰减曲线划分为N段能量衰减曲线，并对每段能量衰减曲线进行线性拟合，得到N个线性拟合曲线，N为大于或等于2的整数；基于N个线性拟合曲线，确定N段能量衰减曲线中目标时间帧对应的混响抑制函数；基于混响抑制函数，抑制第一音频信号中目标时间帧的混响音频信号中的混响部分，以得到第二音频信号；其中，第一音频信号为：音频信号中处于频带能量衰减曲线对应的频带内的音频信号；频带能量衰减曲线为：RIR能量衰减曲线中的一个频带能量衰减曲线。

第二方面，本申请实施例提供了一种音频信号处理装置，该装置包括处理模块、确定模块和抑制模块；处理模块，用于将频带能量衰减曲线划分为N段能量衰减曲线，并对每段能量衰减曲线进行线性拟合，得到N个线性拟合曲线，N为大于或等于2的整数；确定模块，用于基于处理模块处理得到的N个线性拟合曲线，确定N段能量衰减曲线中目标时间帧对应的混响抑制函数；抑制模块，用于基于确定模块确定的混响抑制函数，抑制第一音频信号中目标时间帧的混响音频信号中的混响部分，以得到第二音频信号；其中，第一音频信号为：音频信号中处于频带能量衰减曲线对应的频带内的音频信号；频带能量衰减曲线为：RIR能量衰减曲线中的一个频带能量衰减曲线。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

第六方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所述的方法。

在本申请实施例中，可以将频带能量衰减曲线划分为N段能量衰减曲线，并对每段能量衰减曲线进行线性拟合，得到N个线性拟合曲线，N为大于或等于2的整数；且基于该N个线性拟合曲线，确定能量衰减曲线中目标时间帧对应的混响抑制函数；并基于该混响抑制函数，抑制第一音频信号中目标时间帧的混响音频信号中的混响部分，以得到第二音频信号；其中，第一音频信号为：音频信号中处于该频带能量衰减曲线对应的频带内的音频信号；该频带能量衰减曲线为：RIR能量衰减曲线中的一个频带能量衰减曲线。通过该方案，由于电子设备可以将RIR能量衰减曲线中的一个频带能量衰减曲线，划分为N段能量衰减曲线且分别进行线性拟合，并可以基于得到的N个线性拟合曲线，确定该N段能量衰减曲线中目标时间帧对应的混响抑制函数，以对该频带能量衰减曲线对应的频带内的音频信号中目标时间帧的混响音频信号中的混响部分进行抑制，因此可以通过拟合误差较小的分段线性拟合，以及每个时间帧对应的混响抑制函数，对各个时间帧的混响音频信号进行准确抑制，从而可以提高抑制混响音频信号的效果。

附图说明

图1是混响音频信号生成过程的示意图；

图2是RIR能量衰减曲线的示意图；

图3是传统语音去混响中的线性拟合的示意图；

图4是本申请实施例提供的音频信号处理方法的流程图；

图5是本申请实施例提供的音频信号处理方法的示意图之一；

图6是本申请实施例提供的音频信号处理方法的示意图之二；

图7是本申请实施例提供的音频信号处理装置的示意图；

图8是本申请实施例提供的电子设备的示意图；

图9是本申请实施例提供的电子设备的硬件示意图。

具体实施例

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面首先对本申请的说明书和权利要求书中涉及的一些名词或者术语进行解释说明。

RT60(即Reverberation Time-60dB)：声场衰减60dB所需要的时间。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的音频信号处理方法、装置、电子设备及可读存储介质进行详细地说明。

语音去混响是一种广泛应用于音频设备中的技术，常见于手机、音箱以及会议通话装置等设备中。

在箱体空间里，一个声源持续发出音频信号，发出的音频信号在传播过程中由于障碍的存在会持续地进行反射，同时音频信号的能量会在这一过程中逐渐衰减，衰减能量后的音频信号经过一定的延迟到达拾音设备，其与当前时刻的直达音频信号一起被拾音设备采集到，使得当前时刻的直达音频信号受到反射音频信号的干扰，形成混响音频信号，且混响音频信号的能量会随着声源与拾音设备之间距离的增加而变强。

图1示出了混响音频信号生成过程的示意图，如图1所示，在箱体空间10中放置了一个麦克风11和一个扬声器12，传播介质为空气，假设声音在空气中传播的衰减系数为α，箱体空间10墙壁的反射系数为β，扬声器12在时刻发出的音频信号为，在时刻发出的音频信号为，时刻的音频信号经反射传播在时刻到达麦克风11，且忽略直达音频信号的传播时间，那么时刻麦克风11接收到的信号为，时刻麦克风11接收到的信号为，其中即混响音频信号。

由于混响音频信号的存在会极大地降低语音质量，影响用户的主观听感，且在一些智能设备中，还会影响语音识别的准确率，因此语音去混响成为音频信号处理领域中一个重要的步骤。

通常，混响音频信号的生成是将干净语音和RIR进行卷积，如下述的公式(1)所示：

其中，z(n)为混响音频信号，h(n)为RIR，s(n)为干净语音；对上述公式(1)进行傅里叶变换后转换到时域，如下述的公式(2)所示：

其中，m表示时间帧，k表示频点。而混响音频信号通常分为早期混响音频信号和晚期混响音频信号，将上述公式(2)平方后，可表示为下述的公式(3)：
λ_z(m,k)＝λ_ze(m,k)+λ_zl(m,k)； (3)

其中，λ_z(m,k)表示第m帧第k个频点的混响音频信号的能量，即混响音频信号的谱方差，λ_ze(m,k)表示第m帧第k个频点的早期混响能量(谱方差)，λ_zl(m,k)表示第m帧第k个频点的晚期混响能量(谱方差)。而通常影响语音质量的部分为晚期混响音频信号，在去混响过程中只去除晚期混响音频信号而保留早期混响音频信号，可以让语音更加饱满，听感更好。一般来说，一个脉冲信号发出后50ms-80ms的延迟范围内的反射能量属于早期混响能量，在这之后的能量均为晚期混响能量。若要较好地去除晚期混响音频信号而保留早期混响音频信号，需对RIR进行精确描述和建模。

图2示出了RIR能量衰减曲线的示意图，如图2所示，该RIR能量衰减曲线为一个RT60约为900ms的RIR能量衰减曲线，其中横轴为时间帧，纵轴为能量dB，采样率为16kHz，短时傅里叶变换的帧长512，帧偏移160，该RIR能量衰减曲线包括多条曲线，每条曲线表示一个子带能量随时间变化的趋势，每个子带取32个频点的平均值，其中第一个子带去除了直流分量。

在传统的语音去混响中，是对整个时间轴上的RIR能量衰减曲线进行线性拟合，例如，如图3所示，曲线31为第65号频点到第96号频点的子带能量衰减曲线，曲线32为对整个时间轴上的曲线31进行线性拟合后得到的曲线。在得到线性拟合后的曲线之后，可以通过最小二乘法得到该曲线的斜率，从而可以通过下述的公式(4)得到T60：

而频率的相关参数α(k)定义为下述的公式(5)：

其中，fs为采样率，由此可以通过下述的公式(6)，得到第m帧的直达音频信号的能量λ_s(m,k)在经过i帧衰减之后的能量E(i,k)：
E(i,k)＝e^{-2α(k)□R□i}λ_s(m,k)； (6)

其中，R表示帧偏移。如此，可以对RIR的能量衰减过程进行建模描述，并推算出晚期混响能量λ_zl(m,k)。

然而，按照上述方法，电子设备对RIR能量衰减曲线的线性拟合是基于整个时间轴的，但这种全局性的线性拟合并不能够实现全局最优，具体表现如下：

1、在直达音频的残余能量较高的前几帧中，线性拟合值的拟合误差较大；

2、根据上述公式(5)和公式(6)，可以得到下述的公式(7)：

若记则上述公式(7)可以表示为下述的公式(8)：
E(i,k)＝εⁱ□λ_s(m,k)； (8)

可以看出，0<ε<1，所以εⁱ会随着i的增大而减小，这表示第m帧的直达音频信号在之后的时间帧内的衰减后残余的能量是不同的，且距离第m帧时间越近，残余能量越大，对于混响分量的影响越高。显然在前几帧中，直达音频信号的残余能量较高，而线性拟合值在这些时间帧中的拟合误差偏偏较大，这对于混响分量的估计影响巨大，从而导致抑制混响音频信号的效果较差。

为了解决上述问题，在本申请实施例提供的音频信号处理方法，可以将频带能量衰减曲线划分为N段能量衰减曲线，并对每段能量衰减曲线进行线性拟合，得到N个线性拟合曲线，N为大于或等于2的整数；且基于该N个线性拟合曲线，确定N段能量衰减曲线中目标时间帧对应的混响抑制函数；并基于该混响抑制函数，抑制第一音频信号中目标时间帧的混响音频信号中的混响部分，以得到第二音频信号；其中，第一音频信号为：音频信号中处于该频带能量衰减曲线对应的频带内的音频信号；该频带能量衰减曲线为：RIR能量衰减曲线中的一个频带能量衰减曲线。通过该方案，由于电子设备可以将RIR能量衰减曲线中的一个频带能量衰减曲线，划分为N段能量衰减曲线且分别进行线性拟合，并可以基于得到的N个线性拟合曲线，确定该N段能量衰减曲线中目标时间帧对应的混响抑制函数，以对该频带能量衰减曲线对应的频带内的音频信号中目标时间帧的混响音频信号中的混响部分进行抑制，因此可以通过拟合误差较小的分段线性拟合，以及每个时间帧对应的混响抑制函数，对各个时间帧的混响音频信号进行准确抑制，从而可以提高抑制混响音频信号的效果。

本申请实施例提供一种音频信号处理方法，图4示出了本申请实施例提供的音频信号处理方法的流程图。如图4所示，本申请实施例提供的音频信号处理方法可以包括下述的步骤401至步骤403。下面以电子设备执行该方法为例对该方法进行示例性地说明。

步骤401、电子设备将频带能量衰减曲线划分为N段能量衰减曲线，并对每段能量衰减曲线进行线性拟合，得到N个线性拟合曲线。

其中，N为大于或等于2的整数。

本申请实施例中，上述频带能量衰减曲线为：RIR能量衰减曲线中的一个频带能量衰减曲线。

可选地，本申请实施例中，当上述N等于3时，即将上述频带能量衰减曲线划分为3段能量衰减曲线时，可以达到最优的分段线性拟合效果；当然，实际实现中，N可以为大于或等于2的任意整数，本申请实施例不作限定。

对电子设备将上述频带能量衰减曲线划分为N段能量衰减曲线，并进行分段线性拟合的描述，可以参照相关技术中关于分段线性回归的具体描述，为了避免重复，此处不予赘述。

下面结合附图对本申请实施例提供的音频信号处理方法进行示例性地说明。

示例性地，如图5所示，电子设备根据时间帧上的时间帧m₁和时间帧m₂，将能量衰减曲线50(即上述频带能量衰减曲线)划分为3段能量衰减曲线，并对每段能量衰减曲线进行线性拟合之后，得到线性拟合曲线51、线性拟合曲线52和线性拟合曲线53(即上述N个线性拟合曲线)。

步骤402、电子设备基于N个线性拟合曲线，确定N段能量衰减曲线中目标时间帧对应的混响抑制函数。

本申请实施例中，混响抑制函数用于抑制混响音频信号中的混响部分。

需要说明的是，上述混响部分并非单独的音频信号，而是混响音频信号中的混响能量，即音频信号在箱体中传播的过程中所产生的能量；若没有RIR或音频信号中的干净音频信号，则该音频信号中的混响音频信号也不存在。

可选地，本申请实施例中，目标时间帧可以为任一时间帧。

可选地，本申请实施例中，目标时间帧可以为第5帧之后的任一时间帧。

可选地，本申请实施例中，上述步骤402具体可以通过下述的步骤402a至步骤402c实现。

步骤402a、电子设备基于N个线性拟合曲线中的每个线性拟合曲线的斜率，分别计算每个线性拟合曲线对应的混响权重，以得到N个混响权重。

可选地，本申请实施例中，电子设备可以通过上述公式(4)和公式(5)，分别计算上述每个线性拟合曲线对应的混响权重。

示例性地，假设上述N个线性拟合曲线为线性拟合曲线α，线性拟合曲线β，线性拟合曲线γ，那么电子设备可以根据每个线性拟合曲线的斜率，通过上述公式(4)和公式(5)，分别计算线性拟合曲线α对应的混响权重α(k)，线性拟合曲线β对应的混响权重β(k)，线性拟合曲线γ对应的混响权重γ(k)，如下述的公式(9)所示：

步骤402b、电子设备基于N个混响权重，计算混响音频信号的早期混响能量和混响音频信号的晚期混响能量。

本申请实施例中，上述混响音频信号为：第一音频信号中目标时间帧的混响音频信号。

本申请实施例中，第一音频信号为：音频信号中处于上述频带能量衰减曲线对应的频带内的音频信号。

可以理解，上述早期混响能量和晚期混响能量，由目标时间帧之前每个时间帧的直达音频信号(即第一音频信号中的干净音频信号)决定。

可选地，本申请实施例中，上述步骤402b具体可以通过下述的步骤402b1和步骤402b2实现。

步骤402b1、电子设备对于目标时间帧之前的每个时间帧，根据一个时间帧以及一个时间帧对应的混响权重，计算第一音频信号中一个时间帧的直达音频信号的能量在目标时间帧的剩余能量，得到每个时间帧对应的剩余能量。

可选地，本申请实施例中，电子设备可以通过上述公式(6)，计算上述每个时间帧对应的剩余能量。

步骤402b2、电子设备根据目标时间帧之前的每个时间帧对应的剩余能量，计算混响音频信号的早期混响能量和混响音频信号的晚期混响能量。

需要说明的是，本申请实施例中，均是以将上述频带能量衰减曲线划分为3段能量衰减曲线，且目标时间帧为第m帧为例进行示例的，实际实现中并不限定具体的分段数量即目标时间帧。

可选地，本申请实施例中，电子设备可以根据上述公式(8)，推导出上述早期混响能量λ_ze(m,k)和晚期混响能量λ_zl(m,k)的表达式，如下述的公式(10)和公式(11)所示：

阈值。例如，假设第一帧的直达音频信号的能量为-10dB，经过20帧的衰减后能量变成了-58dB，在第21帧的能量变为-65dB，若预设阈值为-60dB，那么m₃＝20。可以理解，当直达音频信号的能量衰减到一定程度时，对于整体的影响可以忽略不计，m₃的存在也使得公式(11)是一个有限多项式，对于工程实践来说更具有可操作性。

本申请实施例中，由于电子设备可以根据得到的每个时间帧对应的剩余能量，计算混响音频信号的早期混响能量和混响音频信号的晚期混响能量，因此可以提高电子设备计算早期混响能量和晚期混响能量的准确性。

步骤402c、电子设备基于混响音频信号的早期混响能量和混响音频信号的晚期混响能量，确定N段能量衰减曲线中的目标时间帧对应的混响抑制函数。

可选地，本申请实施例中，上述步骤402c具体可以通过下述的步骤402c1至步骤402c3实现。

步骤402c1、电子设备根据混响音频信号的早期混响能量、混响音频信号的晚期混响能量，以及第一音频信号中目标时间帧的环境噪声音频信号的能量，计算目标时间帧对应的先验信噪比。

可选地，本申请实施例中，第一音频信号可以包括直达音频信号、混响音频信号和环境噪声音频信号，那么第一音频信号可以表示为下述的公式(12)：

述公式(2)和公式(3)可以得到下述的公式(13)：
|Y(m,k)|²＝λ_ze(m,k)+λ_zl(m,k)+λ_v(m,k)； (13)

其中，|Y(m,k)|²表示第一音频信号的幅度谱的平方，λ_v(m,k)表示上述环境噪声音频信号的能量；从而可以计算得到该环境噪声音频信号的能量，并通过下述的公式(14)计算上述先验信噪比ε(m,k)：

步骤402c2、电子设备根据混响音频信号的晚期混响能量、第一音频信号中目标时间帧的环境噪声音频信号的能量，以及第一音频信号在目标时间帧的幅度谱，计算目标时间帧对应的后验信噪比。

可选地，本申请实施例中，电子设备在得到上述λ_v(m,k)之后，可以通过下述的公式(15)计算上述后验信噪比ζ(m,k)：

步骤402c3、电子设备根据目标时间帧对应的先验信噪比和目标时间帧对应的后验信噪比，确定N段能量衰减曲线中的目标时间帧对应的混响抑制函数。

可选地，本申请实施例中，电子设备在得到上述先验信噪比λ_v(m,k)和后验信噪比 ζ(m,k)之后，可以确定上述混响抑制函数，该混响抑制函数可以表示为下述的公式(16)：

本申请实施例中，由于电子设备可以基于计算得到的目标时间帧对应的先验信噪比和后验信噪比，确定上述混响抑制函数，因此可以提高电子设备确定混响抑制函数的准确性，从而可以通过该混响抑制函数准确抑制目标时间帧的混响音频信号。

本申请实施例中，由于电子设备可以基于上述N个线性拟合曲线中的每个线性拟合曲线的斜率，分别计算各个所述线性拟合曲线对应的混响权重，并基于得到的N个混响权重，计算混响音频信号的早期混响能量和所述混响音频信号的晚期混响能量，以确定上述混响抑制函数，因此可以进一步提高电子设备确定混响抑制函数的准确性。

步骤403、电子设备基于N段能量衰减曲线中目标时间帧对应的混响抑制函数，抑制第一音频信号中目标时间帧的混响音频信号中的混响部分，以得到第二音频信号。

本申请实施例中，第二音频信号为：抑制上述混响部分后，估计的目标时间帧的直达音频信号。

可选地，本申请实施例中，上述步骤403具体可以通过下述的步骤403a和步骤403b实现。

步骤403a、电子设备将N段能量衰减曲线中的目标时间帧对应的混响抑制函数，与第一音频信号在目标时间帧的幅度谱进行点乘运算，得到目标幅度谱。

可选地，本申请实施例中，目标幅度谱为：抑制混响音频信号后的第一音频信号的幅度谱，目标幅度谱可以通过下述的公式(17)计算得到：

步骤403b、电子设备将目标幅度谱，与第一音频信号在目标时间帧的相位进行逆傅里叶变换，得到第二音频信号。

可选地，本申请实施例中，逆傅里叶变换可以将音频信号从频域还原回时域。

本申请实施例中，由于电子设备可以将上述混响抑制函数，与第一音频信号在目标时间帧的幅度谱进行点乘运算得到的目标幅度谱，与第一音频信号在目标时间帧的相位进行逆傅里叶变换，得到第二音频信号，因此可以通过该混响抑制函数准确抑制混响音频信号，从而可以提高抑制混响音频信号的鲁棒性和灵活性。

需要说明的是，电子设备可以通过上述步骤，分别抑制第一音频信号中每个时间帧的混响音频信号，进而可以抑制上述采集的音频信号中每个频带内的混响音频信号，如此可以实现对采集的整个音频信号的混响抑制。

在本申请实施例提供的音频信号处理方法中，由于电子设备可以将RIR能量衰减曲线中的一个频带能量衰减曲线，划分为N段能量衰减曲线且分别进行线性拟合，并可以基于得到的N个线性拟合曲线，确定该N段能量衰减曲线中目标时间帧对应的混响抑制函数，以对该频带能量衰减曲线对应的频带内的音频信号中目标时间帧的混响音频信号中的混响部分进行抑制，因此可以通过拟合误差较小的分段线性拟合，以及每个时间帧对应的混响抑制函数，对各个时间帧的混响音频信号进行准确抑制，从而可以提高抑制混响音频信号的效果。

下面结合附图，对本申请实施例提供的音频信号处理方法进行示例性地说明。

示例性地，假设采样率为16kHz，短时傅里叶变换的帧长为512，帧偏移为160为例，那么一帧表示的时间为10ms，取m₁＝2，m₂＝5，若第5帧为早期混响音频信号和晚期混响音频信号的分界，则第1帧到第5帧为早期混响部分，第5帧以后为晚期混响部分，不考虑背景噪声，有以下推导：

第1帧：
λ_z(1,k)＝α(k)λ_s(1,k)
λ_ze(1,k)＝λ_z(1,k)
λ_zl(1,k)＝0；

第2帧：
λ_z(2,k)＝α(k)λ_s(2,k)+α²(k)λ_s(1,k)
λ_ze(2,k)＝λ_z(2,k)
λ_zl(2,k)＝0；

第3帧：
λ_z(3,k)＝α(k)λ_s(3,k)+α²(k)λ_s(2,k)+α²(k)β(k)λ_s(1,k)
λ_ze(3,k)＝λ_z(3,k)
λ_zl(3,k)＝0；

第4帧：
λ_z(4,k)＝α(k)λ_s(4,k)+α²(k)λ_s(3,k)+α²(k)β(k)λ_s(2,k)+α²(k)β²(k)λ_s(1,k)
λ_ze(4,k)＝λ_z(4,k)
λ_zl(4,k)＝0；

第5帧：
λ_z(5,k)＝α(k)λ_s(5,k)+α²(k)λ_s(4,k)+α²(k)β(k)λ_s(3,k)
+α²(k)β²(k)λ_s(2,k)+α²(k)β³(k)λ_s(1,k)
λ_ze(5,k)＝λ_z(5,k)
λ_zl(5,k)＝0；

第6帧：
λ_z(6,k)＝α(k)λ_s(6,k)+α²(k)λ_s(5,k)+α²(k)β(k)λ_s(4,k)+α²(k)β²(k)λ_s(3,k)
+α²(k)β³(k)λ_s(2,k)+α²(k)β³(k)γ(k)λ_s(1,k)
λ_ze(6,k)＝α(k)λ_s(6,k)+α²(k)λ_s(5,k)+α²(k)β(k)λ_s(4,k)+α²(k)β²(k)λ_s(3,k)
+α²(k)β³(k)λ_s(2,k)
λ_zl(6,k)＝α²(k)β³(k)γ(k)λ_s(1,k)；

第7帧：
λ_z(7,k)＝α(k)λ_s(7,k)+α²(k)λ_s(6,k)+α²(k)β(k)λ_s(5,k)+α²(k)β²(k)λ_s(4,k)
+α²(k)β³(k)λ_s(3,k)+α²(k)β³(k)γ(k)λ_s(2,k)+α²(k)β³(k)γ²(k)λ_s(1,k)
λ_ze(7,k)＝α(k)λ_s(7,k)+α²(k)λ_s(6,k)+α²(k)β(k)λ_s(5,k)+α²(k)β²(k)λ_s(4,k)
+α²(k)β³(k)λ_s(3,k)
λ_zl(7,k)＝α²(k)β³(k)γ(k)λ_s(2,k)+α²(k)β³(k)γ²(k)λ_s(1,k)；
……

依此类推，由以上的推导可知，在m₁＝2，m₂＝5的情况下，从第6帧开始，λ_ze的项数恒定为5项，λ_zl的项数随帧数增加而增加，但当每一帧的新加项的能量小于设置的阈值(通常为-60dB)时就不考虑在内，即λ_zl的项数此时也恒定，这里对应上述第m₃帧，且对应上述公式(11)。

图6示出了采用本申请实施例的音频信号处理方法抑制混响音频信号中的混响部分的效果的示意图，如图6所示，区域61中为干净语音(即直达音频信号)的语谱图，区域62中为干净语音和RIR卷积后得到的混响语音(即混响音频信号)，区域62中为去混响后的语音(即第二音频信号)；可以看出，去混响后的语音基本还原出了干净语音的谐波结构，混响语音得到了有效抑制，从而可以提升语音质量及语音的可懂度。

本申请实施例提供的音频信号处理方法，执行主体可以为音频信号处理装置。本申请实施例中以音频信号处理装置执行音频信号处理方法为例，说明本申请实施例提供的音频信号处理装置。

结合图7，本申请实施例提供一种音频信号处理装置70，该音频信号处理装置70可以包括处理模块71、确定模块72和抑制模块73。处理模块71，可以用于将频带能量衰减曲线划分为N段能量衰减曲线，并对每段能量衰减曲线进行线性拟合，得到N个线性拟合曲线，N为大于或等于2的整数。确定模块72，可以用于基于处理模块71处理得到的该N个线性拟合曲线，确定N段能量衰减曲线中目标时间帧对应的混响抑制函数。抑制模块73，可以用于基于确定模块72确定的该混响抑制函数，抑制第一音频信号中目标时间帧的混响音频信号中的混响部分，以得到第二音频信号。其中，第一音频信号为：音频信号中处于该频带能量衰减曲线对应的频带内的音频信号；该频带能量衰减曲线为：RIR能量衰减曲线中的一个频带能量衰减曲线。

一种可能的实现方式中，确定模块72，具体可以用于基于上述N个线性拟合曲线中的每个线性拟合曲线的斜率，分别计算每个线性拟合曲线对应的混响权重，以得到N个混响权重；且基于该N个混响权重，计算上述混响音频信号的早期混响能量和该混响音频信号的晚期混响能量；并基于该早期混响能量和晚期混响能量，确定上述混响抑制函数。

一种可能的实现方式中，确定模块72，具体可以用于对于目标时间帧之前的每个时间帧，根据一个时间帧以及该一个时间帧对应的混响权重，计算第一音频信号中该一个时间帧的直达音频信号的能量在目标时间帧的剩余能量，得到该每个时间帧对应的剩余能量；并根据该每个时间帧对应的剩余能量，计算上述早期混响能量和晚期混响能量。

一种可能的实现方式中，确定模块72，具体可以用于根据上述早期混响能量、晚期混响能量，以及第一音频信号中目标时间帧的环境噪声音频信号的能量，计算目标时间帧对应的先验信噪比；且根据该晚期混响能量、该环境噪声音频信号的能量，以及第一音频信号在目标时间帧的幅度谱，计算目标时间帧对应的后验信噪比；并根据该先验信噪比和后验信噪比，确定上述混响抑制函数。

一种可能的实现方式中，抑制模块73，具体可以用于将上述混响抑制函数，与第一音频信号在目标时间帧的幅度谱进行点乘运算，得到目标幅度谱；并将目标幅度谱，与第一音频信号在目标时间帧的相位进行逆傅里叶变换，得到第二音频信号。

在本申请实施例提供的音频信号处理装置中，由于该音频信号处理装置可以将RIR能量衰减曲线中的一个频带能量衰减曲线，划分为N段能量衰减曲线且分别进行线性拟合，并可以基于得到的N个线性拟合曲线，确定该N段能量衰减曲线中目标时间帧对应的混响抑制函数，以对该频带能量衰减曲线对应的频带内的音频信号中目标时间帧的混响音频信号中的混响部分进行抑制，因此可以通过拟合误差较小的分段线性拟合，以及每个时间帧对应的混响抑制函数，对各个时间帧的混响音频信号进行准确抑制，从而可以提高抑制混响音频信号的效果。

本申请实施例中的音频信号处理装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的音频信号处理装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的音频信号处理装置能够实现图4至图6的方法实施例实现的各个过程，为避免重复，这里不再赘述。

如图8所示，本申请实施例还提供一种电子设备800，包括处理器801和存储器802，存储器802上存储有可在所述处理器801上运行的程序或指令，该程序或指令被处理器801执行时实现如上述音频信号处理方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图9为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备1000包括但不限于：射频单元1001、网络模块1002、音频输出单元1003、输入单元1004、传感器1005、显示单元1006、用户输入单元1007、接口单元1008、存储器1009、以及处理器1010等部件。

本领域技术人员可以理解，电子设备1000还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器1010逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图9中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器1010，可以用于将频带能量衰减曲线划分为N段能量衰减曲线，并对每段能量衰减曲线进行线性拟合，得到N个线性拟合曲线，N为大于或等于2的整数；且基于处理得到的该N个线性拟合曲线，确定N段能量衰减曲线中目标时间帧对应的混响抑制函数；并基于确定的该混响抑制函数，抑制第一音频信号中目标时间帧的混响音频信号中的混响部分，以得到第二音频信号。其中，第一音频信号为：音频信号中处于该频带能量衰减曲线对应的频带内的音频信号；该频带能量衰减曲线为：RIR能量衰减曲线中的一个频带能量衰减曲线。

一种可能的实现方式中，处理器1010，具体可以用于基于上述N个线性拟合曲线中的每个线性拟合曲线的斜率，分别计算每个线性拟合曲线对应的混响权重，以得到N个混响权重；且基于该N个混响权重，计算上述混响音频信号的早期混响能量和该混响音频信号的晚期混响能量；并基于该早期混响能量和晚期混响能量，确定上述混响抑制函数。

一种可能的实现方式中，处理器1010，具体可以用于对于目标时间帧之前的每个时间帧，根据一个时间帧以及该一个时间帧对应的混响权重，计算第一音频信号中该一个时间帧的直达音频信号的能量在目标时间帧的剩余能量，得到该每个时间帧对应的剩余能量；并根据该每个时间帧对应的剩余能量，计算上述早期混响能量和晚期混响能量。

一种可能的实现方式中，处理器1010，具体可以用于根据上述早期混响能量、晚期混响能量，以及第一音频信号中目标时间帧的环境噪声音频信号的能量，计算目标时间帧对应的先验信噪比；且根据该晚期混响能量、该环境噪声音频信号的能量，以及第一音频信号在目标时间帧的幅度谱，计算目标时间帧对应的后验信噪比；并根据该先验信噪比和后验信噪比，确定上述混响抑制函数。

一种可能的实现方式中，处理器1010，具体可以用于将上述混响抑制函数，与第一音频信号在目标时间帧的幅度谱进行点乘运算，得到目标幅度谱；并将目标幅度谱，与第一音频信号在目标时间帧的相位进行逆傅里叶变换，得到第二音频信号。

在本申请实施例提供的电子设备中，由于该电子设备可以将RIR能量衰减曲线中的一个频带能量衰减曲线，划分为N段能量衰减曲线且分别进行线性拟合，并可以基于得到的N个线性拟合曲线，确定该N段能量衰减曲线中目标时间帧对应的混响抑制函数，以对该频带能量衰减曲线对应的频带内的音频信号中目标时间帧的混响音频信号中的混响部分进行抑制，因此可以通过拟合误差较小的分段线性拟合，以及每个时间帧对应的混响抑制函数，对各个时间帧的混响音频信号进行准确抑制，从而可以提高抑制混响音频信号的效果。

本实施例中各种实现方式具有的有益效果具体可以参见上述方法实施例中相应实现方式所具有的有益效果，为避免重复，此处不再赘述。

应理解的是，本申请实施例中，输入单元1004可以包括图形处理器(Graphics Processing Unit，GPU)10041和麦克风10042，图形处理器10041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1006可包括显示面板10061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板10061。用户输入单元1007包括触控面板10071以及其他输入设备10072中的至少一种。触控面板10071，也称为触摸屏。触控面板10071可包括触摸检测装置和触摸控制器两个部分。其他输入设备10072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

存储器1009可用于存储软件程序以及各种数据。存储器1009可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器1009可以包括易失性存储器或非易失性存储器，或者，存储器1009可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请实施例中的存储器1009包括但不限于这些和任意其它适合类型的存储器。

处理器1010可包括一个或多个处理单元；可选的，处理器1010集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器1010中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现如上述音频信号处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如上述音频信号处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述音频信号处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

一种音频信号处理方法，所述方法包括：

将频带能量衰减曲线划分为N段能量衰减曲线，并对每段所述能量衰减曲线进行线性拟合，得到N个线性拟合曲线，N为大于或等于2的整数；

基于所述N个线性拟合曲线，确定所述N段能量衰减曲线中目标时间帧对应的混响抑制函数；

基于所述混响抑制函数，抑制第一音频信号中所述目标时间帧的混响音频信号中的混响部分，以得到第二音频信号；

其中，所述第一音频信号为：音频信号中处于所述频带能量衰减曲线对应的频带内的音频信号；

所述频带能量衰减曲线为：房间冲击响应RIR能量衰减曲线中的一个频带能量衰减曲线。
根据权利要求1所述的方法，其中，所述基于所述N个线性拟合曲线，确定所述能量衰减曲线中目标时间帧对应的混响抑制函数，包括：

基于所述N个线性拟合曲线中的每个线性拟合曲线的斜率，分别计算每个所述线性拟合曲线对应的混响权重，以得到N个混响权重；

基于所述N个混响权重，计算所述混响音频信号的早期混响能量和所述混响音频信号的晚期混响能量；

基于所述早期混响能量和所述晚期混响能量，确定所述混响抑制函数。
根据权利要求2所述的方法，其中，所述基于所述N个混响权重，计算所述混响音频信号的早期混响能量和所述混响音频信号的晚期混响能量，包括：

对于所述目标时间帧之前的每个时间帧，根据一个时间帧以及所述一个时间帧对应的混响权重，计算所述第一音频信号中所述一个时间帧的直达音频信号的能量在所述目标时间帧的剩余能量，得到所述每个时间帧对应的剩余能量；

根据所述每个时间帧对应的剩余能量，计算所述早期混响能量和所述晚期混响能量。
根据权利要求2所述的方法，其中，所述基于所述早期混响能量和所述晚期混响能量，确定所述混响抑制函数，包括：

根据所述早期混响能量、所述晚期混响能量，以及所述第一音频信号中所述目标时间帧的环境噪声音频信号的能量，计算所述目标时间帧对应的先验信噪比；

根据所述晚期混响能量、所述环境噪声音频信号的能量，以及所述第一音频信号在所述目标时间帧的幅度谱，计算所述目标时间帧对应的后验信噪比；

根据所述先验信噪比和所述后验信噪比，确定所述混响抑制函数。
根据权利要求1所述的方法，其中，所述基于所述混响抑制函数，抑制第一音频信号中所述目标时间帧的混响音频信号中的混响部分，以得到第二音频信号，包括：

将所述混响抑制函数与所述第一音频信号在所述目标时间帧的幅度谱进行点乘运算，得到目标幅度谱；

将所述目标幅度谱，与所述第一音频信号在所述目标时间帧的相位进行逆傅里叶变换，得到所述第二音频信号。
一种音频信号处理装置，所述装置包括处理模块、确定模块和抑制模块；

所述处理模块，用于将频带能量衰减曲线划分为N段能量衰减曲线，并对每段所述能量衰减曲线进行线性拟合，得到N个线性拟合曲线，N为大于或等于2的整数；

所述确定模块，用于基于所述处理模块处理得到的所述N个线性拟合曲线，确定所述N段能量衰减曲线中目标时间帧对应的混响抑制函数；

所述抑制模块，用于基于所述确定模块确定的所述混响抑制函数，抑制第一音频信号中所述目标时间帧的混响音频信号中的混响部分，以得到第二音频信号；

其中，所述第一音频信号为：音频信号中处于所述频带能量衰减曲线对应的频带内的音频信号；

所述频带能量衰减曲线为：RIR能量衰减曲线中的一个频带能量衰减曲线。
根据权利要求6所述的装置，其中，

所述确定模块，具体用于基于所述N个线性拟合曲线中的每个线性拟合曲线的斜率，分别计算每个所述线性拟合曲线对应的混响权重，以得到N个混响权重；且基于所述N个混响权重，计算所述混响音频信号的早期混响能量和所述混响音频信号的晚期混响能量；并基于所述早期混响能量和所述晚期混响能量，确定所述混响抑制函数。
根据权利要求7所述的装置，其中，

所述确定模块，具体用于对于所述目标时间帧之前的每个时间帧，根据一个时间帧以及所述一个时间帧对应的混响权重，计算所述第一音频信号中所述一个时间帧的直达音频信号的能量在所述目标时间帧的剩余能量，得到所述每个时间帧对应的剩余能量；并根据所述每个时间帧对应的剩余能量，计算所述早期混响能量和所述晚期混响能量。
根据权利要求7所述的装置，其中，

所述确定模块，具体用于根据所述早期混响能量、所述晚期混响能量，以及所述第一音频信号中所述目标时间帧的环境噪声音频信号的能量，计算所述目标时间帧对应的先验信噪比；且根据所述晚期混响能量、所述环境噪声音频信号的能量，以及所述第一音频信号在所述目标时间帧的幅度谱，计算所述目标时间帧对应的后验信噪比；并根据所述先验信噪比和所述后验信噪比，确定所述混响抑制函数。
根据权利要求6所述的装置，其中，

所述抑制模块，具体用于将所述混响抑制函数，与所述第一音频信号在所述目标时间帧的幅度谱进行点乘运算，得到目标幅度谱；并将所述目标幅度谱，与所述第一音频信号在所述目标时间帧的相位进行逆傅里叶变换，得到所述第二音频信号。
一种电子设备，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-5中任一项所述的音频信号处理方法的步骤。
一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-5中任一项所述的音频信号处理方法的步骤。
一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如权利要求1-5任一项所述的方法。
一种计算机程序产品，所述程序产品被存储在非瞬态存储介质中，所述程序产品被至少一个处理器执行以实现如权利要求1-5任一项所述的方法。