WO2022228144A1

WO2022228144A1 - 音频信号增强方法、装置、计算机设备、存储介质和计算机程序产品

Info

Publication number: WO2022228144A1
Application number: PCT/CN2022/086960
Authority: WO
Inventors: 王蒙; 黄庆博; 肖玮
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2021-04-30
Filing date: 2022-04-15
Publication date: 2022-11-03
Also published as: JP2023553629A; CN113763973A; US20230099343A1; EP4297025A1

Abstract

一种音频信号增强方法、装置、计算机设备、计算机可读存储介质和程序产品，该方法包括：对接收到的语音包依序进行解码，得到残差信号、长时滤波参数和线性滤波参数；对残差信号进行滤波，得到音频信号(S302)；当音频信号为前向纠错帧信号时，从音频信号中提取特征参数(S304)；基于解码语音包所得的线性滤波参数，将音频信号转换为滤波器语音激励信号(S306)；根据特征参数以及解码语音包所得的长时滤波参数和线性滤波参数，对滤波器语音激励信号进行语音增强处理，得到增强后语音激励信号(S308)；基于增强后语音激励信号和线性滤波参数进行语音合成，得到语音增强信号(S310)。

Description

音频信号增强方法、装置、计算机设备、存储介质和计算机程序产品

本申请要求于2021年04月30日提交中国专利局，申请号为2021104841966，发明名称为“音频信号增强方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，特别是涉及一种音频信号增强方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

音频信号在编解码的过程中通常会引入量化噪声，使得解码合成出的语音出现失真。传统方案中通常采用基音滤波(Pitch Filter)或基于神经网络(Neural Network)的后处理技术来增强音频信号，以减少量化噪声对语音质量的影响。

然而，传统方案信号处理的速度较低，存在较大的时延，并且所能达到的语音质量的提升效果是有限的，导致对音频信号增强的时效性较差。

发明内容

根据本申请的各种实施例，提供一种音频信号增强方法、装置、计算机设备、存储介质和计算机程序产品。

一种音频信号增强方法，由计算机设备执行，所述方法包括：

对接收到的语音包依序进行解码，得到残差信号、长时滤波参数和线性滤波参数；对所述残差信号进行滤波，得到音频信号；

鄦所述音频信号为前向纠错帧信号时，从所述音频信号中提取特征参数；

基于所述线性滤波参数，将所述音频信号转换为滤波器语音激励信号；

根据所述特征参数、所述长时滤波参数和所述线性滤波参数，对所述滤波器语音激励信号进行语音增强处理，得到增强后语音激励信号；

基于所述增强后语音激励信号和所述线性滤波参数进行语音合成，得到语音增强信号。

在一个实施例中，所述线性滤波参数包括线性滤波系数和能量增益值；所述基于所述线性滤波参数对线性预测滤波器进行参数配置，通过参数配置后的线性预测滤波器对所述增强后语音激励信号进行线性合成滤波，包括：

基于所述线性滤波系数对线性预测滤波器进行参数配置；

获取在解码所述语音包之前所解码的历史语音包对应的能量增益值；

基于所述历史语音包对应的能量增益值和所述语音包对应的能量增益值，确定能量调整参数；

通过所述能量调整参数对所述历史语音包对应的历史长时滤波激励信号进行能量调整，得到调整后历史长时滤波激励信号；

将所述调整后历史长时滤波激励信号和所述增强后语音激励信号输入至参数配置后的线性预测滤波器，以使所述线性预测滤波器基于所述调整后历史长时滤波激励信号，对所述增强后语音激励信号进行线性合成滤波。

一种音频信号增强装置，所述装置包括：

语音包处理模块，用于对接收到的语音包依序进行解码，得到残差信号、长时滤波参数和线性滤波参数；对所述残差信号进行滤波，得到音频信号；

特征参数提取模块，用于当所述音频信号为前向纠错帧信号时，从所述音频信号中提取特征参数；

信号转换模块，用于基于所述线性滤波参数，将所述音频信号转换为滤波器语音激励信号；

语音增强模块，用于根据所述特征参数、所述长时滤波参数和所述线性滤波参数，对所述滤波器语音激励信号进行语音增强处理，得到增强后语音激励信号；

语音合成模块，用于基于所述增强后语音激励信号和所述线性滤波参数进行语音合成，得到语音增强信号。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

当所述音频信号为前向纠错帧信号时，从所述音频信号中提取特征参数；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

一种计算机程序，所述计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中，计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行以下步骤：

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为一个实施例中基于激励信号的语音生成模型示意图；

图2为一个实施例中音频信号增强方法的应用环境图；

图3为一个实施例中音频信号增强方法的流程示意图；

图4为一个实施例中音频信号传输流程示意图；

图5为一个实施例中长时预测滤波器的幅频响应图；

图6为一个实施例中语音包解码滤波步骤的流程示意图；

图7为一个实施例中长时逆滤波器的幅频响应图；

图8为一个实施例中信号增强模型示意图；

图9为另一个实施例中音频信号增强方法的流程示意图；

图10为另一个实施例中音频信号增强方法的流程示意图；

图11为一个实施例中音频信号增强装置的结构框图；

图12为另一个实施例中音频信号增强装置的结构框图；

图13为一个实施例中计算机设备的内部结构图；

图14为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在对本申请提供的音频信号增强方法进行说明之前，先对语音生成模型进行说明，参考图1所示的基于激励信号的语音生成模型，其中基于激励信号的语音生成模型的物理理论基础是人的声音的发生过程，该过程包括：

(1)在气管处，产生一定能量的类噪声的冲击信号，该冲击信号对应于基于激励信号的语音生成模型中的激励信号。

(2)冲击信号冲击人的声带，产生类周期性的开合，通过口腔放大后，发出声音，所发出的声音对应于基于激励信号的语音生成模型中的滤波器。

在实际过程中，考虑声音的特点，将基于激励信号的语音生成模型中的滤波器细分为长时预测(Long Term Prediction，LTP)滤波器和线性预测(Linear Predictive Coding，LPC)滤波器，其中LTP滤波器是利用语音的长时相关性来加强音频信号，LPC滤波器是利用语音的短时相关性来加强音频信号，具体地，针对浊音这种类周期性信号，在基于激励信号的语音生成模型中，激励信号将分别冲击LTP滤波器和LPC滤波器；针对清音这类非周期信号，激励信号将只冲击LPC滤波器。

本申请实施例提供的方案涉及人工智能的机器学习等技术，具体通过如下实施例进行说明：本申请提供的音频信号增强方法，由计算机设备执行，具体可以应用于如图2所示的应用环境中。其中，终端202通过网络与服务器204进行通信，终端202可接收服务器204所发送的语音包，或其他设备经过服务器204所转发的语音包，服务器204可接收终端所发送的语音包，或其他设备所发送的语音包。上述音频信号增强方法可以应用于终端202或服务器204，以执行于终端202为例进行说明，终端202对接收到的语音包依序进行解码，得到残差信号、长时滤波参数和线性滤波参数，对残差信号进行滤波，得到音频信号；当音频信号为前向纠错帧信号时，从音频信号中提取特征参数；基于线性滤波参数，将音频信号转换为滤波器语音激励信号；根据特征参数、长时滤波参数和线性滤波参数，对滤波器语音激励信号进行语音增强处理，得到增强后语音激励信号；基于增强后语音激励信号和线性滤波参数进行语音合成，得到语音增强信号。

其中，终端202可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器204可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一个实施例中，如图3所示，提供了一种音频信号增强方法，以该方法应用于图2中的计算机设备(终端或服务器)为例进行说明，包括以下步骤：

S302，对接收到的语音包依序进行解码，得到残差信号、长时滤波参数和线性滤波参数；对残差信号进行滤波，得到音频信号。

其中，所接收的语音包可以是基于前向纠错(Feedforward Error Correction，FEC)技术的抗丢包场景中的语音包。

前向纠错技术是一种差错控制方式，它是指信号在被送入传输信道之前预先按一定的算法进行编码处理，加入带有信号本身特征的冗码，在接收端按照相应算法对接收到的信号进行解码，从而找出在传输过程中产生的错误码并将其纠正的技术。

冗码也可称为冗余信息，本申请实施例中，参考图4，信号发送端在对当前语音帧(简称为当前帧)音频信号进行编码时，可将前一语音帧(简称为前一帧)的音频信号信息作为冗余信息编码到当前帧音频信号所对应的语音包中，并在编码完成之后将当前帧音频信号对应的语音包发送到接收端，接收端接收该语音包，这样，即使在信号传输过程中发生故障，导致接收端未接收到某个语音包或者某个语音包出现误码，也可以通过对其的后一语音帧(简称为后一帧)音频信号所对应的语音包进行解码，从而获得丢失或误码的语音包所对应的音频信号，提高信号传输的可靠性。其中，接收端可以是图2中的终端202。

具体地，终端在接收到语音包时，将接收到的语音包存储到缓存中，然后从缓存中取出将要播放的语音帧对应的语音包，并对该语音包进行解码和滤波，得到音频信号，当该语音包为前一时刻所解码的历史语音包的相邻包、且前一时刻所解码的历史语音包未出现异常时，则直接将所得到的音频信号输出，或者对该音频信号进行音频信号增强处理，得到语音增强信号，并将语音增强信号输出；当该语音包非前一时刻所解码的历史语音包的相邻包时，或者该语音包为前一时刻所解码的历史语音包的相邻包、但前一时刻所解码的历史语音包出现异常时，则对该音频信号进行音频信号增强处理，得到语音增强信号，并将语音增强信号输出，其中，该语音增强信号中携带了前一时刻所解码的历史语音包的相邻包所对应的音频信号。

解码具体可以是熵解码，熵解码是与熵编码对应的解码方案，具体地，发送端在对音频信号进行编码时，可以采用熵编码方案对音频信号进行编码得到语音包，从而接收端在接收到语音包时，可以采用熵解码方案对所接收到的语音包进行解码。

在一个实施例中，终端在接收到语音包时，对所接收的语音包进行解码处理，得到残差信号和滤波器参数，基于滤波器参数对残差信号进行信号合成滤波，得到音频信号。其中，滤波器参数包括长时滤波参数和线性滤波参数。

具体地，发送端在对当前帧音频信号进行编码时，通过对前一帧音频信号分析得到滤波器参数，并基于所得到的滤波器参数对滤波器进行参数配置，然后通过所配置的滤波器对当前帧音频信号进行分析滤波，得到当前帧音频信号的残差信号，并利用残差信号和分析所得到的滤波器参数对音频信号进行编码，得到语音包，并将该语音包发送给接收端，从而接收端在接收到语音包后，对所接收的语音包进行解码处理，得到残差信号和滤波器参数，并基于滤波器参数对残差信号进行信号合成滤波，得到音频信号。

在一个实施例中，滤波器参数包括线性滤波参数和长时滤波参数，发送端在对当前帧音频信号进行编码时，通过对前一帧音频信号分析得到线性滤波参数和长时滤波参数，然后基于线性滤波参数对当前帧音频信号进行线性分析滤波，得到线性滤波激励信号，然基于长时滤波参数对线性滤波激励信号进行长时分析滤波，得到当前帧音频信号对应的残差信号，并利用残差信号、分析所得到的线性滤波参数和长时滤波参数对当前帧音频信号进行编码，得到语音包，并将该语音包发送给接收端。

具体地，基于线性滤波参数对当前帧音频信号进行线性分析滤波具体包括：基于线性滤波参数对线性预测滤波器进行参数配置，通过参数配置后的线性预测滤波器音频信号进行线性分析滤波，得到线性滤波激励信号，其中，线性滤波参数包括线性滤波系数和能量增益值，线性滤波系数可记为LPC AR，能量增益值可记为LPC gain，线性预测滤波器的公式如下：

其中，e(n)为当前帧音频信号所对应的线性滤波激励信号，s(n)为当前帧音频信号，p为每帧音频信号所包含的采样点的个数，a _i为分析前一帧音频信号所得到的线性滤波系数，s _adj(n-i)为当前帧音频信号s(n)的前一帧音频信号s(n-i)的能量调整后状态，s _adj(n-i)可通过下式得到：

s _adj(n-i)＝gain _adj·s(n-i) (2)

其中，s(n-i)为当前帧音频信号s(n)的前一帧音频信号，gain _adj为前一帧音频信号s(n-i)的能量调整参数，gain _adj可通过下式得到：

其中，gain(n)为当前帧音频信号对应的能量增益值，gain(n-i)为前一帧音频信号对应的能量增益值。

基于长时滤波参数对线性滤波激励信号进行长时分析滤波具体包括：基于长时滤波参数对长时预测滤波器进行参数配置，通过参数配置后的长时预测滤波器对残差信号进行长时分析滤波，得到当前帧音频信号的对应的残差信号，其中，长时滤波参数包括基音周期和对应的幅度增益值，基音周期可记为LTP pitch，对应的幅度增益值可记为LTP gain，长时预测滤波器的频域表示如下，频域可记为Z域：

p(z)＝1-γz ^-T (4)

上式中，p(z)为长时预测滤波器的幅频响应，z为频域变换的旋转因子，γ为幅度增益值LTP gain，T为基音周期LTP pitch，图5示出了一个实施例中γ＝1、T＝80时所对应的长时预测滤波器的幅频响应图。

长时预测滤波器的时域表示如下：

δ(n)＝e(n)-γe(n-T) (5)

其中，δ(n)为当前帧音频信号所对应的残差信号，e(n)为当前帧音频信号所对应的线性滤波激励信号，γ为幅度增益值LTP gain，T为基音周期LTP pitch，e(n-T)为当前帧音频信号前一基音周期的音频信号对应的线性滤波激励信号。

在一个实施例中，终端解码得到的滤波器参数包括长时滤波参数和线性滤波参数，信号合成滤波包括基于长时滤波参数的长时合成滤波，以及基于线性滤波参数的线性合成滤波。终端在对语音包解码得到残差信号、长时滤波参数和线性滤波参数之后，基于长时滤波参数对残差信号进行长时合成滤波，得到长时滤波激励信号，然后基于线性滤波参数对长时滤波激励信号进行线性合成滤波，得到音频信号。

在一个实施例中，终端在得到残差信号之后，将所得到的残差信号分为多个子帧，得到多个子残差信号，针对每个子残差信号，分别基于相应的长时滤波参数对其进行长时合成滤波，得到每个子帧对应的长时滤波激励信号，然后将每个子帧所对应的长时滤波激励信号按照各子帧的时序进行组合，得到对应的长时滤波激励信号。

比如，一个语音包对应20ms的音频信号，即所得的残差信号为20ms，则可以将该残差信号分为4个子帧，得到4个5ms的子残差信号，针对每个5ms的子残差信号，分别基于相应的长时滤波参数对其进行长时合成滤波，得到4个5ms的长时滤波激励信号，然后将该4个5ms的长时滤波激励信号按照各子帧的时序进行组合，得到一个20ms的长时滤波激励信号。

在一个实施例中，终端在得到长时滤波激励信号之后，将所得到的长时滤波激励信号分为多个子帧，得到多个子长时滤波激励信号，然后针对每个子长时滤波激励信号，分别基于相应的线性滤波参数对其进行线性合成滤波，得到每个子帧对应的子线性滤波激励信号，然后将每个子帧所对应的线性滤波激励信号按照各子帧的时序进行组合，得到对应的线性滤波激励信号。

比如，一个语音包对应20ms的音频信号，即所得的长时滤波激励信号为20ms，则可以将该长时滤波激励信号分为2个子帧，得到2个10ms的子长时滤波激励信号，针对每个10ms的子长时滤波激励信号，分别基于相应的线性滤波参数对其进行线性合成滤波，得到2个10ms的子音频信号，然后将该2个10ms的子音频信号按照各子帧的时序进行组合，得到一个20ms的音频信号。

S304，当音频信号为前向纠错帧信号时，从音频信号中提取特征参数。

其中，音频信号为前向纠错帧信号，是指该音频信号历史相邻帧的音频信号存在异常，历史相邻帧的音频信号存在异常具体包括：未接收到历史相邻帧的音频信号所对应的语音包，或者接收到历史相邻帧的音频信号所对应的语音包未能正常解码。特征参数包括倒谱特征参数。

在一个实施例中，终端在对接收到的语音包进行解码和滤波得到音频信号之后，确定在解码该语音包之前所解码的历史语音包是否出现数据异常，若所解码的历史语音包出现数据异常，则确定当前所经过解码和滤波所得的音频信号为前向纠错帧信号。

具体地，终端确定解码该语音包的前一时刻所解码的历史语音包对应的历史音频信号，是否为解码该语音包所得的音频信号的前一帧音频信号，若是，则确定该历史语音包未出现数据异常，若否，则确定该历史语音包出现数据异常。

本实施例中，终端通过确定在解码当前语音包之前所解码的历史语音包是否出现数据异常，从而确定出当前经过解码和滤波所得的音频信号是否为前向纠错帧信号，进而可以在音频信号是前向纠错帧信号时，对其进行音频信号增强处理，进一步提高音频信号的质量。

在一个实施例中，当解码所得的音频信号为前向纠错帧信号时，则从解码所得的音频信号中提取特征参数，所提取的特征参数具体可以是倒谱特征参数，具体包括以下步骤：对音频信号进行傅里叶变换，得到傅里叶变换后的音频信号；将傅里叶变换后的音频信号进行对数处理，得到对数结果；对得到的对数结果进行傅里叶逆变换，得到倒谱特征参数。具体可通过下式实现从音频信号中提取倒谱特征参数：

其中，C(n)是解码和滤波后所得到音频信号S(n)的倒谱特征参数，S(F)是对音频信号S(n)进行傅里叶变换而得到的傅里叶变换后的音频信号。

上述实施例中，终端通过从音频信号中提取出倒谱特征参数，从而可以基于所提取出的倒谱特征参数对音频信号进行增强，提高了音频信号的质量。

在一个实施例中，当音频信号非前向纠错帧信号时，即当前解码和滤波后所得音频信号的前一帧音频信号未发生异常时，也可以从当前解码和滤波后所得音频信号中提取特征参数，以便对该当前解码和滤波后所得音频信号进行音频信号增强处理。

S306，基于线性滤波参数，将音频信号转换为滤波器语音激励信号。

具体地，终端在对语音包解码和滤波得到音频信号之后，还可以获取解码语音包时所得到的线性滤波参数，并基于线性滤波参数对所得到的音频信号进行线性分析滤波，从而实现将音频信号转换为滤波器语音激励信号。

在一个实施例中，S306具体包括以下步骤：基于线性滤波参数对线性预测滤波器进行参数配置，通过参数配置后的线性预测滤波器对音频信号进行线性分解滤波，得到滤波器语音激励信号。

其中，线性分解滤波也称为线性分析滤波，本申请实施例中对音频信号进行线性分析滤波时，是对整帧的音频信号直接进行线性分析滤波，无需将整帧的音频信号进行分子帧处理。

具体地，终端可采用下式对音频信号进行线性分解滤波，得到滤波器语音激励信号：

其中，D(n)是对语音包解码和滤波后所得到音频信号S(n)对应的滤波器语音激励信号，S(n)是对语音包解码和滤波后所得到的音频信号，S _adj(n-i)为得到的音频信号S(n)的前一帧音频信号S(n-i)的能量调整后状态，p为每帧音频信号所包含的采样点的个数，A _i是解码语音包所得到的线性滤波系数。

上述实施例，终端基于线性滤波参数将音频信号转换为滤波器语音激励信号，从而可以通过对滤波器语音激励信号进行增强以实现对音频信号的增强，提高了音频信号的质量。

S308，根据特征参数、长时滤波参数和线性滤波参数，对滤波器语音激励信号进行语音增强处理，得到增强后语音激励信号。

其中，长时滤波参数包括基音周期和幅度增益值。

在一个实施例中，S308包括以下步骤：根据基音周期、幅度增益值、线性滤波参数和倒谱特征参数，对滤波器语音激励信号进行语音增强处理，得到增强后语音激励信号。

具体地，对音频信号进行语音增强处理具体可以通过预先训练的信号增强模型来实现，信号增强模型为神经网络(Neural Network，NN)模型，该神经网络模型具体可以采用LSTM和CNN级的结构。

上述实施例中，终端根据基音周期、幅度增益值、线性滤波参数和倒谱特征参数，对滤波器语音激励信号进行语音增强处理，得到增强后语音激励信号，进而可以基于增强后语音激励信号实现对音频信号的增强，提高了音频信号的质量。

在一个实施例中，终端将所获得的特征参数、长时滤波参数、线性滤波参数、滤波器语音激励信号输入预训练的信号增强模型，以使信号增强模型基于特征参数对滤波器语音激励信号进行语音增强处理，得到增强后语音激励信号。

上述实施例中，终端通过预训练的信号增强模型实现对增强后语音激励信号，进而可以基于增强后语音激励信号实现对音频信号的增强，提高了音频信号的质量和对音频信号增强处理的效率。

需要说明的是，本申请实施例中，通过预先训练的信号增强模型对滤波器语音激励信号进行语音增强处理的过程中，是对整帧的滤波器语音激励信号进行语音增强处理的，无需对整帧的滤波器语音激励信号进行分子帧处理。

S310，基于增强后语音激励信号和线性滤波参数进行语音合成，得到语音增强信号。

其中，语音合成可以是基于线性滤波参数所进行的线性合成滤波。

在一个实施例中，终端在得到增强后语音激励信号之后，基于线性滤波参数对线性预测滤波器进行参数配置，通过参数配置后的线性预测滤波器对增强后语音激励信号进行线性合成滤波，得到语音增强信号。

其中，线性滤波参数包括线性滤波系数和能量增益值，线性滤波系数可记为LPC AR，能量增益值可记为LPC gain，线性合成滤波为发送端对音频信号进行编码时所进行的线性分析滤波的逆过程，因此执行线性合成滤波的线性预测滤波器也称为线性逆滤波器，线性预测滤波器的时域表示如下：

其中，S _enh(n)为语音增强信号，D _enh(n)是对滤波器语音激励信号D(n)进行语音增强处理后得到增强后语音激励信号，S _adj(n-i)为得到的音频信号S(n)的前一帧音频信号S(n-i)的能量调整后状态，p为每帧音频信号所包含的采样点的个数，A _i是解码语音包所得到的线性滤波系数。

音频信号S(n)的前一帧音频信号S(n-i)的能量调整后状态，S _adj(n-i)可通过下式得到：

S _adj(n-i)＝gain _adj·S(n-i) (9)

上式中，S _adj(n-i)为前一帧音频信号S(n-i)的能量调整后状态，gain _adj为前一帧音频信号S(n-i)的能量调整参数。

本实施例中，终端通过对增强后语音激励信号进行线性合成滤波，从而可以得到语音增强信号，即实现了对音频信号的增强处理，提高了音频信号的质量。

需要说明的是，本申请实施例中语音合成的过程是对整帧的增强后语音激励信号进行语音合成，无需对整帧的增强后语音激励信号进行分子帧处理。

上述音频信号增强方法，终端当接收到语音包时，对语音包依序进行解码和滤波，得到音频信号，并音频信号为前向纠错帧信号时，从音频信号中提取特征参数，基于解码语音包所得的线性滤波系数，将音频信号转换为滤波器语音激励信号，从而根据特征参数以及解码语音包所得的长时滤波参数，对滤波器语音激励信号进行语音增强处理，得到增强后语音激励信号，基于增强后语音激励信号和线性滤波参数进行语音合成，得到语音增强信号，从而在较少的时间内完成实现对音频信号的增强处理，且能达到较好的信号增强效果，提高了音频信号增强的时效性。

在一个实施例中，如图6所示，S302具体包括以下步骤：

S602，基于长时滤波参数对长时预测滤波器进行参数配置，通过参数配置后的长时预测滤波器对残差信号进行长时合成滤波，得到长时滤波激励信号。

其中，长时滤波参数包括基音周期和对应的幅度增益值，基音周期可记为LTP pitch，LTP pitch又可称为基音周期，对应的幅度增益值可记为LTP gain，通过参数配置后的长时预测滤波器对残差信号进行长时合成滤波，其中，长时合成滤波为发送端对音频信号进行编码时所进行的长时分析滤波的逆过程，因此执行长时合成滤波的长时预测滤波器也称为长时逆滤波器，即采用长时逆滤波器对残差信号进行处理，与公式(1)对应的长时逆滤波器的频域表示如下：

其中，p ^-1(z)为长时逆滤波器的幅频响应，z为频域变换的旋转因子，γ为幅度增益值LTP gain，T为基音周期LTP pitch，图7示出了一个实施例中γ＝1、T＝80时所对应的长时逆预测滤波器的幅频响应图。

与公式(10)对应的长时逆滤波器的时域表示如下：

E(n)＝γE(n-T)+δ(n) (11)

上式中，E(n)为语音包所对应的长时滤波激励信号，δ(n)语音包所对应的残差信号，γ为幅度增益值LTP gain，T为基音周期LTP pitch，E(n-T)为语音包前一基音周期的音频信号所对应的长时滤波激励信号。可以理解的是，本实施例中，接收端通过长时逆滤波器对残差信号进行长时合成滤波所得到的长时滤波激励信号E(n)，与发送端编码时，通过线性滤波器对音频信号进行线性分析滤波所得到线性滤波激励信号e(n)相同。

S604，基于线性滤波参数对线性预测滤波器进行参数配置，通过参数配置后的线性预测滤波器对长时滤波激励信号进行线性合成滤波，得到音频信号。

上式中，S(n)为语音包的所对应的音频信号，E(n)为语音包所对应的长时滤波激励信号，S _adj(n-i)为得到音频信号S(n)的前一帧音频信号S(n-i)的能量调整后状态，p为每帧音频信号所包含的采样点的个数，A _i是解码语音包所得到的线性滤波系数。

其中，gain _adj为前一帧音频信号S(n-i)的能量调整参数，gain(n)为解码语音包所得到的能量增益值，gain(n-i)前一帧音频信号对应的能量增益值。

上述实施例中，终端基于长时滤波参数对残差信号进行长时合成滤波，得到长时滤波激励信号；基于解码所得的线性滤波参数对长时滤波激励信号进行线性合成滤波，得到音频信号，从而可以在音频信号非前向纠错帧信号时，可以直接将音频信号输出，在音频信号为前向纠错帧信号时，对音频信号进行增强后输出，提高了音频信号输出的时效性。

在一个实施例中，S604具体包括以下步骤：将长时滤波激励信号分为至少两个子帧，得到子长时滤波激励信号；对解码所得的线性滤波参数进行分组，得到至少两个线性滤波参数集合；基于线性滤波参数集合分别对至少两个线性预测滤波器进行参数配置；将所得的子长时滤波激励信号分别输入参数配置后的线性预测滤波器，以使线性预测滤波器基于线性滤波参数集合对子长时滤波激励信号进行线性合成滤波，得到与各子帧对应的子音频信号；按照各子帧的时序对子音频信号进行组合，得到音频信号。

其中，线性滤波参数集合有线性滤波系数集合和能量增益值集合两种类型。

具体地，针对每个子帧所对应的子长时滤波激励信号，在采用公式(12)所对应的线性逆滤波器进行线性合成滤波时，公式(12)中的S(n)为任一子帧所对应的子音频信号，E(n)为该子帧对应的长时滤波激励信号，S _adj(n-i)为得到子音频信号S(n)的前一子帧的子音频信号的S(n-i)能量调整后状态，p为每子帧音频信号所包含的采样点的个数，A _i是该子帧所对应的线性滤波系数集合；公式(13)中的gain _adj是该子音频信号的前一子帧的子音频信号的能量调整参数，gain(n)该子音频信号的能量增益值，gain(n-i)是该子音频信号的前一子帧的子音频信号的能量增益值。

上述实施例中，终端通过将长时滤波激励信号分为至少两个子帧，得到子长时滤波激励信号；对解码所得的线性滤波参数进行分组，得到至少两个线性滤波参数集合；基于线性滤波参数集合分别对至少两个线性预测滤波器进行参数配置；将所得的子长时滤波激励信号分别输入参数配置后的线性预测滤波器，以使线性预测滤波器基于线性滤波参数集合对子长时滤波激励信号进行线性合成滤波，得到与各子帧对应的子音频信号；按照各子帧的时序对子音频信号进行组合，得到音频信号，从而可以确保所得的音频信号能够较好地还原出发送端所发送的音频信号，提高了还原出的音频信号的质量。

在一个实施例中，线性滤波参数包括线性滤波系数和能量增益值；S604还包括以下步骤：针对长时滤波激励信号中的第一子帧对应的子长时滤波激励信号，获取历史长时滤波激励信号中与第一子帧对应的子长时滤波激励信号相邻的子帧的历史子长时滤波激励信号的能量增益值；基于历史子长时滤波激励信号对应的能量增益值和第一子帧对应的子长时滤波激励信号的能量增益值，确定子长时滤波激励信号对应的能量调整参数；通过能量调整参数对历史子长时滤波激励信号进行能量调整，得到能量调整后的历史子长时滤波激励信号。

其中，历史长时滤波激励信号为当前帧长时滤波激励信号的前一帧长时滤波激励信号，历史长时滤波激励信号中与第一子帧对应的子长时滤波激励信号相邻的子帧的历史子长时滤波激励信号，即为前一帧长时滤波激励信号的最后一子帧对应的子长时滤波激励信号。

例如，将当前帧的长时滤波激励信号分为两个子帧，得到第一子帧对应的子长时滤波激励信号和第二子帧对应的子长时滤波激励信号，则前一帧长时滤波激励信号的第二子帧对应的子长时滤波激励信号，与当前帧的第一子帧对应的子长时滤波激励信号为相邻子帧。

在一个实施例中，终端在得到能量调整后的历史子长时滤波激励信号之后，将所得的子长时滤波激励信号和能量调整后所得的历史子长时滤波激励信号输入至参数配置后的线性预测滤波器，以使线性预测滤波器基于线性滤波系数和能量调整后所得的历史子长时滤波激励信号，对第一子帧对应的子长时滤波激励信号进行线性合成滤波，得到第一子帧对应的子音频信号。

例如，一个语音包对应20ms的音频信号，即所得到的长时滤波激励信号为20ms，对语音包解码得到的AR系数为{A ₁,A ₂,…,A _p-1,A _p,A _p+1,…A _2p-1，A _2p}，对语音包解码所得到的能量增益值为{gain ₁(n),gain ₂(n)}，可对长时滤波激励信号分为两个子帧，得到前10ms所对应的第一子滤波激励信号E ₁(n)和后10ms所对应的第二子滤波激励信号E ₂(n)，对AR系数进行分组，得到AR系数集合1{A ₁,A ₂,…,A _p-1,A _p}和AR系数集合2{A _p+1,…A _2p-1，A _2p}，对能量增益值进行分组，得到能量增益值集合1{gain ₁(n)}和能量增益值集合2{gain ₂(n)}，则第一子滤波激励信号E ₁(n)的前一子帧的子滤波激励信号为E ₂(n-i)，第一子滤波激励信号E ₁(n)的前一子帧的能量增益值集合为{gain ₂(n-i)}，第二子滤波激励信号E ₂(n)的前一子帧的子滤波激励信号为E ₁(n)，第二子滤波激励信号E ₂(n)的前一子帧的能量增益值集合为{gain ₁(n)}，那么第一子滤波激励信号E ₁(n)对应的子音频信号可将对应参数代入公式(12)和公式(13)求得，第二子滤波激励信号E ₂(n)对应的子音频信号可将对应参数代入公式(12)和公式(13)求得。

上述实施例中，终端针对长时滤波激励信号中的第一子帧对应的子长时滤波激励信号，获取历史长时滤波激励信号中与第一子帧对应的子长时滤波激励信号相邻的子帧的历史子长时滤波激励信号的能量增益值；基于历史子长时滤波激励信号对应的能量增益值和第一子帧对应的子长时滤波激励信号的能量增益值，确定子长时滤波激励信号对应的能量调整参数；通过能量调整参数对历史子长时滤波激励信号进行能量调整，将所得的子长时滤波激励信号和能量调整后所得的历史子长时滤波激励信号输入至参数配置后的线性预测滤波器，以使线性预测滤波器基于线性滤波系数和能量调整后所得的历史子长时滤波激励信号，对第一子帧对应的子长时滤波激励信号进行线性合成滤波，得到第一子帧对应的子音频信号，从而可以确保所得的每一子帧音频信号能够较好地还原出发送端所发送的每一子帧音频信号，提高了还原出的音频信号的质量。

在一个实施例中，特征参数包括倒谱特征参数，S308包括以下步骤：对倒谱特征参数、长时滤波参数和线性滤波参数进行向量化处理，并拼接向量化处理所得的结果得到特征向量；将特征向量、滤波器语音激励信号输入预训练的信号增强模型；通过信号增强模型对特征向量进行特征提取，得到目标特征向量；基于目标特征向量对滤波器语音激励信号进行增强处理，得到增强后语音激励信号。

其中，信号增强模型为多级网络结构，具体包括第一特征拼接层、第二特征拼接层、第一神经网络层和第二神经网络层。目标特征向量为增强后的特征向量。

具体地，终端通过信号增强模型的第一特征拼接层对倒谱特征参数、长时滤波参数和线性滤波参数进行向量化处理，并拼接向量化处理所得的结果得到特征向量，然后将得到的特征向量输入到信号增强模型的第一神经网络层，通过第一神经网络层对特征向量进行特征提取，得到初级特征向量，并将初级特征向量和对线性滤波参数中的线性滤波系数进行傅里叶变换所得到的包络信息，输入信号增强模型的第二特征拼接层，拼接后初级特征向量，并将拼接后初级特征向量输入信号增强模型的第二神经网络层，通过第二神经网络层对拼接后初级特征向量进行特征提取，得到目标特征向量，然后基于目标特征向量对滤波器语音激励信号进行增强处理，得到增强后语音激励信号。

上述实施例中，终端通过对倒谱特征参数、长时滤波参数和线性滤波参数进行向量化处理，并拼接向量化处理所得的结果得到特征向量；将特征向量、滤波器语音激励信号输入预训练的信号增强模型；通过信号增强模型对特征向量进行特征提取，得到目标特征向量；基于目标特征向量对滤波器语音激励信号进行增强处理，得到增强后语音激励信号，从而可以通过信号增强模型实现对音频信号的增强处理，提高了音频信号的质量和对音频信号增强处理的效率。

在一个实施例中，终端基于目标特征向量对滤波器语音激励信号进行增强处理，得到增强后语音激励信号，包括：对滤波器语音激励信号进行傅里叶变换，得到频域语音激励信号；基于目标特征向量对频域语音激励信号的幅值特征进行增强；对增强幅值特征的频域语音激励信号傅里叶逆变换，得到增强后语音激励信号。

具体地，终端在对滤波器语音激励信号进行傅里叶变换之后，得到频域语音激励信号，在基于目标特征向量对频域语音激励信号的幅值特征进行增强之后，结合未增强的频域语音激励信号的相位特征，对增强幅值特征的频域语音激励信号傅里叶逆变换，得到增强后语音激励信号。

如图8所示，两个特征拼接层分别为concat1和concat2，两个神经网络层分别为NN part1和NN part2，通过concat1将维度为40的倒谱特征参数Cepstrum、维度为1的基音周期LTP pitch和维度为1的幅度增益值LTP Gain拼接在一起，形成一个维度为42的特征向量，并将该维度为42的特征向量输入NN part1，NN part1由一个两层的卷积神经网络和两层全联接网络组成，第一层卷积核的维度是(1，128，3，1)第二层卷积核的维度是(128，128，3，1)，全联接层的节点数为128和8，各层结尾的激活函数为Tanh函数，通过NN part1从特征向量提取高层特征，得到维度为1024的初级特征向量，然后通过concat2将维度为1024的初级特征向量，与对线性滤波参数中的线性滤波系数LPC AR进行傅里叶变换所得到的维度为161的包络信息Envelope拼接得到维度为1185的拼接后初级特征向量，并将维度为1185的拼接后初级特征向量输入NN part2，NN part 2是一个两层的全联接网络，节点数分别为256和161，各层结尾的激活函数为Tanh函数，通过NN part 2得到目标特征向量，然后基于目标特征向量，对滤波器语音激励信号傅里叶变换后所得频域语音激励信号的幅值特征Excitation进行增强，并对增强幅值特征Excitation的滤波器语音激励信号进行傅里叶逆变换，得到增强后语音激励信号D _enh(n)。

上述实施例中，终端通过对滤波器语音激励信号进行傅里叶变换，得到频域语音激励信号；基于目标特征向量对频域语音激励信号的幅值特征进行增强；对增强幅值特征的频域语音激励信号傅里叶逆变换，得到增强后语音激励信号，从而可以在确保音频信号的相位信息不变的情况下，实现对音频信号的增强处理，提高了音频信号的质量。

在一个实施例中，线性滤波参数包括线性滤波系数和能量增益值；终端基于线性滤波参数对线性预测滤波器进行参数配置，通过参数配置后的线性预测滤波器对增强后语音激励信号进行线性合成滤波的步骤包括：基于线性滤波系数对线性预测滤波器进行参数配置；获取在解码语音包之前所解码的历史语音包对应的能量增益值；基于历史语音包对应的能量增益值和语音包对应的能量增益值，确定能量调整参数；通过能量调整参数对历史语音包对应的历史长时滤波激励信号进行能量调整，得到调整后历史长时滤波激励信号；将调整后历史长时滤波激励信号和增强后语音激励信号输入至参数配置后的线性预测滤波器，以使线性预测滤波器基于调整后历史长时滤波激励信号，对增强后语音激励信号进行线性合成滤波。

其中，历史语音包对应的历史音频信号为当前语音包对应的当前帧音频信号的前一帧音频信号。历史语音包对应的能量增益值可以是历史语音的整帧音频信号所对应的能量增益值，也可以是历史语音包的部分子帧音频信号所对应的能量增益值。

具体地，当音频信号非前向纠错帧信号时，即当前帧音频信号的前一帧音频信号在已通过终端对历史语音包进行正常解码而得到，则可以获取终端对历史语音包解码时所得到的历史语音包的能量增益值，并基于历史语音包的能量增益值确定能量调整参数；当音频信号为前向纠错帧时，即当前帧音频信号的前一帧音频信号未能通过终端对历史语音包进行正常解码而得到，则基于预设的能量增益补偿机制，确定前一帧音频信号对应的补偿能量增益值，并将该补偿能量增益值确定为历史语音包的能量增益值，以基于历史语音包的能量增益值确定能量调整参数。

在一个实施例中，当音频信号非前向纠错帧信号时，前一帧音频信号S(n-i)的能量调整参数gain _adj可通过下式计算得到：

其中，gain _adj为前一帧音频信号S(n-i)的能量调整参数，gain(n-i)前一帧音频信号S(n-i)的能量增益值，gain(n)为当前帧音频信号的能量增益值。公式(14)即为基于历史语音的整帧音频信号所对应的能量增益值计算能量调整参数。

在一个实施例中，当音频信号非前向纠错帧信号时，前一帧音频信号S(n-i)的能量调整参数gain _adj可通过下式得到：

其中，其中，gain _adj为前一帧音频信号S(n-i)的能量调整参数，gain _m(n-i)前一帧音频信号S(n-i)的第m子帧的能量增益值，gain _m(n)为当前帧音频信号的能第m子帧的能量增益值，m每个音频信号对应的子帧数，{gain ₁(n)+…+gain(n)}/m为当前帧音频信号的能量增益值。公式(15)即为基于历史语音的部分子帧音频信号所对应的能量增益值计算能量调整参数。

上述实施例中，终端通过基于线性滤波系数对线性预测滤波器进行参数配置；获取在解码语音包之前所解码的历史语音包对应的能量增益值；基于历史语音包对应的能量增益值和语音包对应的能量增益值，确定能量调整参数；通过能量调整参数对历史语音包对应的历史长时滤波激励信号进行能量调整，得到调整后历史长时滤波激励信号；将调整后历史长时滤波激励信号和增强后语音激励信号输入至参数配置后的线性预测滤波器，以使线性预测滤波器基于调整后历史长时滤波激励信号，对增强后语音激励信号进行线性合成滤波，从而可以平滑不同帧间的音频信号，提高了不同帧的音频信号所组成的语音的质量。

在一个实施例中，如图9所示，提供了一种音频信号增强方法，以该方法应用于图2中的计算机设备(终端或服务器)为例进行说明，包括以下步骤：

S902，对语音包进行解码，得到残差信号、长时滤波参数和线性滤波参数。

S904，基于长时滤波参数对长时预测滤波器进行参数配置，通过参数配置后的长时预测滤波器对残差信号进行长时合成滤波，得到长时滤波激励信号。

S906，将长时滤波激励信号分为至少两个子帧，得到子长时滤波激励信号。

S908，对解线性滤波参数进行分组，得到至少两个线性滤波参数集合。

S910，基于线性滤波参数集合分别对至少两个线性预测滤波器进行参数配置。

S912，将所得的子长时滤波激励信号分别输入参数配置后的线性预测滤波器，以使线性预测滤波器基于线性滤波参数集合对子长时滤波激励信号进行线性合成滤波，得到与各子帧对应的子音频信号。

S914，按照各子帧的时序对子音频信号进行组合，得到音频信号。

S916，确定在解码语音包之前所解码的历史语音包是否出现数据异常。

S918，若历史语音包出现数据异常时，则确定经过解码和滤波所得的音频信号为前向纠错帧信号。

S920，当音频信号为前向纠错帧信号时，对音频信号进行傅里叶变换，得到傅里叶变换后的音频信号；将傅里叶变换后的音频信号进行对数处理，得到对数结果；对对数结果进行傅里叶逆变换，得到倒谱特征参数。

S922，基于线性滤波参数对线性预测滤波器进行参数配置，通过参数配置后的线性预测滤波器对音频信号进行线性分解滤波，得到滤波器语音激励信号。

S924，将特征参数、长时滤波参数、线性滤波参数、线性滤波参数、滤波器语音激励信号输入预训练的信号增强模型，以使信号增强模型基于特征参数对滤波器语音激励信号进行语音增强处理，得到增强后语音激励信号。

S926，基于线性滤波参数对线性预测滤波器进行参数配置，通过参数配置后的线性预测滤波器对增强后语音激励信号进行线性合成滤波，得到语音增强信号。

本申请还提供一种应用场景，该应用场景应用上述的音频信号增强方法。具体地，该音频信号增强方法在该应用场景的应用如下：

以Fs为16000Hz的宽带信号为例进行说明，可以理解的是本申请也适用于其他采样率的场景，比如Fs为8000Hz、32000Hz或48000Hz。音频信号的帧长设置为20ms；对于Fs＝16000Hz，相当于每帧包含320个样本点。参考图10，终端在接收到一帧音频信号对应的语音包后，对该语音包进行熵解码，得到δ(n)、LTP pitch、LTP gain、LPC AR和LPC gain，基于LTP pitch和LTP gain对δ(n)进行LTP合成滤波得到E(n)，基于LPC AR和LPC gain对E(n)的各个子帧分别进行LPC合成滤波，并对LPC合成滤波结果进行组合得到一帧S(n)，然后对S(n)进行倒谱分析，得到C(n)，并基于LPC AR和LPC gain对整帧的S(n)进行LPC分解滤波，得到整帧D(n)，将LTP pitch、LTP gain、LPC AR傅里叶变换后的包络信息、C(n)和D(n)输入到预先训练的信号增强模型NN postfilter，通过NN postfilter对整帧D(n)增强，得到整帧D _enh(n)，基于LPC AR和LPC gain对整帧的D _enh(n)进行LPC合成滤波，得到S _enh(n)。

应该理解的是，虽然图3、图4、图6、图9和图10的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图3、图4、图6、图9和图10中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图11所示，提供了一种音频信号增强装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：语音包处理模块1102、特征参数提取模块1104、信号转换模块1106、语音增强模块1108和语音合成模块1110，其中：

语音包处理模块1102，用于对接收到的语音包依序进行解码和滤波，得到残差信号、长时滤波参数和线性滤波参数；对残差信号进行滤波得到音频信号。

特征参数提取模块1104，用于当音频信号为前向纠错帧信号时，从音频信号中提取特征参数。

信号转换模块1106，用于基于线性滤波参数，将音频信号转换为滤波器语音激励信号。

语音增强模块1108，用于根据特征参数、长时滤波参数和线性滤波参数，对滤波器语音激励信号进行语音增强处理，得到增强后语音激励信号。

语音合成模块1110，用于基于增强后语音激励信号和线性滤波参数进行语音合成，得到语音增强信号。

上述实施例中，计算机设备通过对接收到的语音包依序进行解码得到残差信号、长时滤波参数和线性滤波参数，并对残差信号进行滤波，得到音频信号，并在音频信号为前向纠错帧信号时，从音频信号中提取特征参数，基于解码语音包所得的线性滤波系数，将音频信号转换为滤波器语音激励信号，从而根据特征参数以及解码语音包所得的长时滤波参数，对滤波器语音激励信号进行语音增强处理，得到增强后语音激励信号，基于增强后语音激励信号和线性滤波参数进行语音合成，得到语音增强信号，从而在较少的时间内完成实现对音频信号的增强处理，且能达到较好的信号增强效果，提高了音频信号增强的时效性。

在一个实施例中，语音包处理模块1102，还用于：基于长时滤波参数对长时预测滤波器进行参数配置，通过参数配置后的长时预测滤波器对残差信号进行长时合成滤波，得到长时滤波激励信号；基于线性滤波参数对线性预测滤波器进行参数配置，通过参数配置后的线性预测滤波器对长时滤波激励信号进行线性合成滤波，得到音频信号。

在一个实施例中，语音包处理模块1102，还用于：将长时滤波激励信号分为至少两个子帧，得到子长时滤波激励信号；对线性滤波参数进行分组，得到至少两个线性滤波参数集合；基于线性滤波参数集合分别对至少两个线性预测滤波器进行参数配置；将所得的子长时滤波激励信号分别输入参数配置后的线性预测滤波器，以使线性预测滤波器基于线性滤波参数集合对子长时滤波激励信号进行线性合成滤波，得到与各子帧对应的子音频信号；按照各子帧的时序对子音频信号进行组合，得到音频信号。

上述实施例中，终端通过将长时滤波激励信号分为至少两个子帧，得到子长时滤波激励信号；对线性滤波参数进行分组，得到至少两个线性滤波参数集合；基于线性滤波参数集合分别对至少两个线性预测滤波器进行参数配置；将所得的子长时滤波激励信号分别输入参数配置后的线性预测滤波器，以使线性预测滤波器基于线性滤波参数集合对子长时滤波激励信号进行线性合成滤波，得到与各子帧对应的子音频信号；按照各子帧的时序对子音频信号进行组合，得到音频信号，从而可以确保所得的音频信号能够较好地还原出发送端所发送的音频信号，提高了还原出的音频信号的质量。

在一个实施例中，线性滤波参数包括线性滤波系数和能量增益值；语音包处理模块1102，还用于：针对长时滤波激励信号中的第一子帧对应的子长时滤波激励信号，获取历史长时滤波激励信号中与第一子帧对应的子长时滤波激励信号相邻的子帧的历史子长时滤波激励信号对应的能量增益值；基于历史子长时滤波激励信号对应的能量增益值和第一子帧对应的子长时滤波激励信号的能量增益值，确定子长时滤波激励信号对应的能量调整参数；通过能量调整参数对历史子长时滤波激励信号进行能量调整；将所得的子长时滤波激励信号和能量调整后所得的历史子长时滤波激励信号输入至参数配置后的线性预测滤波器，以使线性预测滤波器基于线性滤波系数和能量调整后所得的历史子长时滤波激励信号，对第一子帧对应的子长时滤波激励信号进行线性合成滤波，得到第一子帧对应的子音频信号。

在一个实施例中，如图12所示，装置还包括：数据异常确定模块1112和前向纠错帧信号确定模块1114，其中：数据异常确定模块1112，用于确定在解码语音包之前所解码的历史语音包是否出现数据异常；前向纠错帧信号确定模块1114，用于若历史语音包出现数据异常时，则确定经过解码和滤波所得的音频信号为前向纠错帧信号。

上述实施例中，终端通过确定在解码当前语音包之前所解码的历史语音包是否出现数据异常，从而确定出当前经过解码和滤波所得的音频信号是否为前向纠错帧信号，进而可以在音频信号是前向纠错帧信号时，对其进行音频信号增强处理，进一步提高音频信号的质量。

在一个实施例中，特征参数包括倒谱特征参数；特征参数提取模块1104，还用于：对音频信号进行傅里叶变换，得到傅里叶变换后的音频信号；将傅里叶变换后的音频信号进行对数处理，得到对数结果；对对数结果进行傅里叶逆变换，得到倒谱特征参数。

在一个实施例中，长时滤波参数包括基音周期和幅度增益值；语音增强模块1108，还用于：根据基音周期、幅度增益值、线性滤波参数和倒谱特征参数，对滤波器语音激励信号进行语音增强处理，得到增强后语音激励信号。

在一个实施例中，信号转换模块1106，还用于：基于线性滤波参数对线性预测滤波器进行参数配置，通过参数配置后的线性预测滤波器对音频信号进行线性分解滤波，得到滤波器语音激励信号。

在一个实施例中，语音增强模块1108，还用于：将特征参数、长时滤波参数、线性滤波参数、滤波器语音激励信号输入预训练的信号增强模型，以使信号增强模型基于特征参数对滤波器语音激励信号进行语音增强处理，得到增强后语音激励信号。

在一个实施例中，特征参数包括倒谱特征参数；语音增强模块1108，还用于：对倒谱特征参数、长时滤波参数和线性滤波参数进行向量化处理，并拼接向量化处理所得的结果得到特征向量；将特征向量、滤波器语音激励信号输入预训练的信号增强模型；通过信号增强模型对特征向量进行特征提取，得到目标特征向量；基于目标特征向量对滤波器语音激励信号进行增强处理，得到增强后语音激励信号。

在一个实施例中，语音增强模块1108，还用于：对滤波器语音激励信号进行傅里叶变换，得到频域语音激励信号；基于目标特征向量对频域语音激励信号的幅值特征进行增强；对增强幅值特征的频域语音激励信号傅里叶逆变换，得到增强后语音激励信号。

在一个实施例中，语音合成模块1110，还用于：基于线性滤波参数对线性预测滤波器进行参数配置，通过参数配置后的线性预测滤波器对增强后语音激励信号进行线性合成滤波，得到语音增强信号。

在一个实施例中，线性滤波参数包括线性滤波系数和能量增益值；语音合成模块1110，还用于：基于线性滤波系数对线性预测滤波器进行参数配置；获取在解码语音包之前所解码的历史语音包对应的能量增益值；基于历史语音包对应的能量增益值和语音包对应的能量增益值，确定能量调整参数；通过能量调整参数对历史语音包对应的历史长时滤波激励信号进行能量调整，得到调整后历史长时滤波激励信号；将调整后历史长时滤波激励信号和增强后语音激励信号输入至参数配置后的线性预测滤波器，以使线性预测滤波器基于调整后历史长时滤波激励信号，对增强后语音激励信号进行线性合成滤波。

关于音频信号增强装置的具体限定可以参见上文中对于音频信号增强方法的限定，在此不再赘述。上述音频信号增强装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音包数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音频信号增强方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种音频信号增强方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图13或图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory， ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种音频信号增强方法，由计算机设备执行，其特征在于，所述方法包括：

对接收到的语音包依序进行解码，得到残差信号、长时滤波参数和线性滤波参数；对所述残差信号进行滤波，得到音频信号；

当所述音频信号为前向纠错帧信号时，从所述音频信号中提取特征参数；

基于所述线性滤波参数，将所述音频信号转换为滤波器语音激励信号；

根据所述特征参数、所述长时滤波参数和所述线性滤波参数，对所述滤波器语音激励信号进行语音增强处理，得到增强后语音激励信号；

基于所述增强后语音激励信号和所述线性滤波参数进行语音合成，得到语音增强信号。
根据权利要求1所述的方法，其特征在于，所述对所述残差信号进行滤波，得到音频信号，包括：

基于所述长时滤波参数对长时预测滤波器进行参数配置，通过参数配置后的长时预测滤波器对所述残差信号进行长时合成滤波，得到长时滤波激励信号；

基于所述线性滤波参数对线性预测滤波器进行参数配置，通过参数配置后的线性预测滤波器对所述长时滤波激励信号进行线性合成滤波，得到音频信号。
根据权利要求2所述的方法，其特征在于，所述基于所述线性滤波参数对线性预测滤波器进行参数配置，通过参数配置后的线性预测滤波器对所述长时滤波激励信号进行线性合成滤波，得到音频信号，包括：

将所述长时滤波激励信号分为至少两个子帧，得到子长时滤波激励信号；

对所述线性滤波参数进行分组，得到至少两个线性滤波参数集合；

基于所述线性滤波参数集合分别对至少两个线性预测滤波器进行参数配置；

将所得的子长时滤波激励信号分别输入参数配置后的线性预测滤波器，以使所述线性预测滤波器基于所述线性滤波参数集合对所述子长时滤波激励信号进行线性合成滤波，得到与各子帧对应的子音频信号；

按照各所述子帧的时序对所述子音频信号进行组合，得到音频信号。
根据权利要求3所述的方法，其特征在于，所述线性滤波参数包括线性滤波系数和能量增益值；所述方法还包括：

针对所述长时滤波激励信号中的第一子帧对应的子长时滤波激励信号，获取历史长时滤波激励信号中与所述第一子帧对应的子长时滤波激励信号相邻的子帧的历史子长时滤波激励信号的能量增益值；

基于所述历史子长时滤波激励信号对应的能量增益值和所述第一子帧对应的子长时滤波激励信号的能量增益值，确定所述子长时滤波激励信号对应的能量调整参数；

通过所述能量调整参数对所述历史子长时滤波激励信号进行能量调整；

所述将所得的子长时滤波激励信号分别输入参数配置后的线性预测滤波器，以使所述线性预测滤波器基于所述线性滤波参数集合对所述子长时滤波激励信号进行线性合成滤波，得到与各子帧对应的子音频信号，包括：

将所得的子长时滤波激励信号和能量调整后所得的历史子长时滤波激励信号输入至参数配置后的线性预测滤波器，以使所述线性预测滤波器基于所述线性滤波系数和所述能量调整后所得的历史子长时滤波激励信号，对所述第一子帧对应的子长时滤波激励信号进行线性合成滤波，得到第一子帧对应的子音频信号。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定在解码所述语音包之前所解码的历史语音包是否出现数据异常；

若所述历史语音包出现数据异常时，则确定经过解码和滤波所得的所述音频信号为前向纠错帧信号。
根据权利要求1所述的方法，其特征在于，所述特征参数包括倒谱特征参数；所述从所述音频信号中提取特征参数，包括：

对所述音频信号进行傅里叶变换，得到傅里叶变换后的音频信号；

将所述傅里叶变换后的音频信号进行对数处理，得到对数结果；

对所述对数结果进行傅里叶逆变换，得到倒谱特征参数。
根据权利要求6所述的方法，其特征在于，所述长时滤波参数包括基音周期和幅度增益值；

所述根据所述特征参数、所述长时滤波参数和所述线性滤波参数，对所述滤波器语音激励信号进行语音增强处理，得到增强后语音激励信号，包括：

根据所述基音周期、幅度增益值、所述线性滤波参数和所述倒谱特征参数，对所述滤波器语音激励信号进行语音增强处理，得到增强后语音激励信号。
根据权利要求1所述的方法，其特征在于，所述基于所述线性滤波参数，将所述音频信号转换为滤波器语音激励信号，包括：

基于所述线性滤波参数对线性预测滤波器进行参数配置，通过参数配置后的线性预测滤波器对所述音频信号进行线性分解滤波，得到滤波器语音激励信号。
根据权利要求1所述的方法，其特征在于，所述根据所述特征参数、所述长时滤波参数和所述线性滤波参数，对所述滤波器语音激励信号进行语音增强处理，得到增强后语音激励信号，包括：

将所述特征参数、所述长时滤波参数、所述线性滤波参数、所述滤波器语音激励信号输入预训练的信号增强模型，以使所述信号增强模型基于所述特征参数对所述滤波器语音激励信号进行语音增强处理，得到增强后语音激励信号。
根据权利要求9所述的方法，其特征在于，所述特征参数包括倒谱特征参数；所述将所述特征参数、所述长时滤波参数、所述线性滤波参数、所述滤波器语音激励信号输入预训练的信号增强模型，以使所述信号增强模型基于所述特征参数对所述滤波器语音激励信号进行语音增强处理，得到增强后语音激励信号，包括：

对所述倒谱特征参数、所述长时滤波参数和所述线性滤波参数进行向量化处理，并拼接向量化处理所得的结果得到特征向量；

将所述特征向量、所述滤波器语音激励信号输入预训练的信号增强模型；

通过所述信号增强模型对所述特征向量进行特征提取，得到目标特征向量；

基于所述目标特征向量对所述滤波器语音激励信号进行增强处理，得到增强后语音激励信号。
根据权利要求10所述的方法，其特征在于，所述基于所述目标特征向量对所述滤波器语音激励信号进行增强处理，得到增强后语音激励信号，包括：

对所述滤波器语音激励信号进行傅里叶变换，得到频域语音激励信号；

基于所述目标特征向量对所述频域语音激励信号的幅值特征进行增强；

对增强所述幅值特征的频域语音激励信号傅里叶逆变换，得到增强后语音激励信号。
根据权利要求1所述的方法，其特征在于，所述基于所述增强后语音激励信号和所述线性滤波参数进行语音合成，得到语音增强信号，包括：

基于所述线性滤波参数对线性预测滤波器进行参数配置，通过参数配置后的线性预测滤波器对所述增强后语音激励信号进行线性合成滤波，得到语音增强信号。
根据权利要求12所述的方法，其特征在于，所述线性滤波参数包括线性滤波系数和能量增益值；所述基于所述线性滤波参数对线性预测滤波器进行参数配置，通过参数配置后的线性预测滤波器对所述增强后语音激励信号进行线性合成滤波，包括：

基于所述线性滤波系数对线性预测滤波器进行参数配置；

获取在解码所述语音包之前所解码的历史语音包对应的能量增益值；

基于所述历史语音包对应的能量增益值和所述语音包对应的能量增益值，确定能量调整参数；

通过所述能量调整参数对所述历史语音包对应的历史长时滤波激励信号进行能量调整，得到调整后历史长时滤波激励信号；

将所述调整后历史长时滤波激励信号和所述增强后语音激励信号输入至参数配置后的线性预测滤波器，以使所述线性预测滤波器基于所述调整后历史长时滤波激励信号，对所述增强后语音激励信号进行线性合成滤波。
一种音频信号增强装置，其特征在于，所述装置包括：

语音包处理模块，用于对接收到的语音包依序进行解码，得到残差信号、长时滤波参数和线性滤波参数；对所述残差信号进行滤波，得到音频信号；

特征参数提取模块，用于当所述音频信号为前向纠错帧信号时，从所述音频信号中提取特征参数；

信号转换模块，用于基于所述线性滤波参数，将所述音频信号转换为滤波器语音激励信号；

语音增强模块，用于根据所述特征参数、所述长时滤波参数和所述线性滤波参数，对所述滤波器语音激励信号进行语音增强处理，得到增强后语音激励信号；

语音合成模块，用于基于所述增强后语音激励信号和所述线性滤波参数进行语音合成，得到语音增强信号。
根据权利要求14所述的装置，其特征在于，所述语音包处理模块还用于：

基于所述长时滤波参数对长时预测滤波器进行参数配置，通过参数配置后的长时预测滤波器对所述残差信号进行长时合成滤波，得到长时滤波激励信号；

基于所述线性滤波参数对线性预测滤波器进行参数配置，通过参数配置后的线性预测滤波器对所述长时滤波激励信号进行线性合成滤波，得到音频信号。
根据权利要求15所述的装置，其特征在于，所述语音包处理模块还用于：

将所述长时滤波激励信号分为至少两个子帧，得到子长时滤波激励信号；

对所述线性滤波参数进行分组，得到至少两个线性滤波参数集合；

基于所述线性滤波参数集合分别对至少两个线性预测滤波器进行参数配置；

将所得的子长时滤波激励信号分别输入参数配置后的线性预测滤波器，以使所述线性预测滤波器基于所述线性滤波参数集合对所述子长时滤波激励信号进行线性合成滤波，得到与各子帧对应的子音频信号；

按照各所述子帧的时序对所述子音频信号进行组合，得到音频信号。
根据权利要求16所述的装置，其特征在于，所述线性滤波参数包括线性滤波系数和能量增益值；所述语音包处理模块还用于：

针对所述长时滤波激励信号中的第一子帧对应的子长时滤波激励信号，获取历史长时滤波激励信号中与所述第一子帧对应的子长时滤波激励信号相邻的子帧的历史子长时滤波激励信号的能量增益值；

基于所述历史子长时滤波激励信号对应的能量增益值和所述第一子帧对应的子长时滤波激励信号的能量增益值，确定所述子长时滤波激励信号对应的能量调整参数；

通过所述能量调整参数对所述历史子长时滤波激励信号进行能量调整；

将所得的子长时滤波激励信号和能量调整后所得的历史子长时滤波激励信号输入至参数配置后的线性预测滤波器，以使所述线性预测滤波器基于所述线性滤波系数和所述能量调整后所得的历史子长时滤波激励信号，对所述第一子帧对应的子长时滤波激励信号进行线性合成滤波，得到第一子帧对应的子音频信号。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至13中任一项所述的方法的步骤。
一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至13中任一项所述的方法的步骤。
一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至13中任一项所述的方法的步骤。