WO2008138267A1

WO2008138267A1 - Procede de post-traitement et appareil d'amelioration de ton fondamental

Info

Publication number: WO2008138267A1
Application number: PCT/CN2008/070931
Authority: WO
Inventors: Li Liu; Wei Li; Junbin Cao; Xiaogang Sun; Qing Zhang; Lijing Xu; Jianfeng Xu; Zhengzhong Du; Chen Hu; Lei Miao; Yi Yang
Original assignee: Huawei Technologies Co., Ltd.
Priority date: 2007-05-11
Filing date: 2008-05-09
Publication date: 2008-11-20
Also published as: CN101303858A; CN101303858B

Description

实现基音增强后处理的方法及装置技术领域本发明涉及音频解码技术领域，尤其涉及一种音频解码过程中的基音增强的自适应后处理技术。发明背景在音频解码过程中，为改善解码后的语音的感知效果，需要针对解码后的语音进行后处理操作。所述后处理的目的是在合成声音信号中增强与感知质量相关的信息，即降低或去除使感知质量下降的干扰信息，以提高感知质量。目前，在后处理过程中采用的技术一般分为共振峰后处理技术和基音后处理技术。在基音后处理技术中，滤波器的频率响应需要与谐波相关。

以 AMR-WB+ (Adaptive Multi-Rate Wideband plus, 增强自适应多速宽带）编解码为例，其采用的后处理方式为频带可选的基音增强后处理算法。如图 1所示，在该后处理算法中，具体是将已经解码的合成声音信号分成两个子频带，对于其中的低频带，首先通过自适应基音增强滤波器，以对低频端基音谐波间的噪声进行削弱，然后再通过低通滤波进行处理；对于另一个频带则直接通过高通滤波器进行滤波处理；最后，将分别经过相应处理的两个频带的信号加和，从而得到基音增强后的合成声音信号。

在图 1中，为实现基音增强后处理的目的，在低频子频带中采用了 Pitch enhancer (基音增强）和 Low-pass filter (低通滤波器）两个模块。其中：

所述的 Pitch enhancer模块的作用是对已解码信号低频端的内部谐波噪声 ( inter-harmonic noise )进行适当程度的肖 ij弱，然后再通过 Low- pass filter以滤除频谱倾斜及其他一些不希望的频率成分；该 Pitch enhancer模块的实现过程采用了一个时变的线性滤波器，

所述的 Low-pass filter (低通滤波器）模块为线性相位 FIR (有限脉冲响应）低通滤波器。在实现过程中，需要利用经过低通滤波器处理后的信号状态在每个子帧中对寄存器进行更新。

通过上述后处理方法可以消除解码语音信号低频端的谐波间的噪声成分，使得解码后的合成声音感知质量有所提高。

在实现本发明过程中，发明人发现已有的基音增强的后处理实现方式至少存在如下问题：

在已有的基音增强后处理算法中，需对解码语音信号先进行分频操作，并对不同的子频带作不同的滤波处理，导致相应的后处理过程实现复杂。发明内容本发明的实施例提供了一种基音增强的后处理实现方法及装置，以简化后处理过程，提高后处理获得的音频信号的质量。

一种实现基音增强后处理的方法，包括对解码信号进行后滤波处理的过程，且该过程包括：

获取解码信号的增益，判断所述增益是否超过预定的阈值，并在确定所述增益超过所述预定的阈值后，对解码信号进行后滤波处理。

一种实现基音增强后处理的装置，包括：

增益评估单元，用于获取解码信号的增益；

阈值判断单元，用于判断所述增益评估单元确定的所述解码信号的增益是否超过预定的阈值；

自适应后滤波器，用于根据所述阈值判断单元的判断结果，仅对所述解码信号的增益超过预定的阈值的解码信号进行长时后滤波处理。

一种计算机程序产品，所述计算机程序产品包括计算机程序代码，当所述计算机程序代码被一个计算机执行的时候，所述计算机程序代码可以使得所述计算机执行所述实现基音增强后处理的方法包含的步骤。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例中针对滤波器系数的配置和阈值的判断的处理过程的实现较为简单，并可以获得较佳的基音增强效果。同时，本发明实施例中是针对整个的解码语音信号进行基音增强处理，而不需进行分频处理，也不用分别地进行低通滤波和高通滤波操作，进一步降低了处理过程的复杂程度。附图简要说明图 1为现有技术中采用的基音增强的后处理实现原理示意图；

图 2为本发明实施例提供的方法的处理过程示意图；

图 3为本发明实施例提供的装置的结构示意图；

图 4为本发明实施例中的增益评估单元的结构示意图。实施本发明的方式本发明实施例中，充分利用已解码信号的能量特点，将其与解码得到的基音增益和基音周期值进行比较以取得最能反映声音特点的基音信息，从而提供了选择使用基音增强后处理滤波器以使解码信号有更好的感知质量的域值评估和判定实现方案。

本发明实施例中，具体可以为：首先，获取解码信号的增益，之后，判断所述的增益是否超过预定的阈值，若超过，则对解码信号进行长时后滤波处理后输出，否则，可以直接输出所述解码信号。其中，所述的对解码信号进行后滤波处理所采用的后滤波器可以但不限于为全零点后滤波器。

另外，本发明实施例中，若所述的后滤波器选择全零点后滤波器，则还可以针对相应的滤波器函数中涉及的局部调整因子 ^和自适应全局增益，给出了进一步提高音频感知质量的具体参数值。当然，本发明实施例中也可以采用其他类型的后滤波器进行后滤波处理。

为便于对本发明实施例的理解，首先对基音谐波间编码噪声的产生原因进行说明。以 AMR-WB+编码为例，其中的语音编码部分采用 CELP (码激励线性预测， Code-Excited Linear Prediction)编码技术。在编码端，对输入信号进行预加重处理，并进行 16-阶的线性预测分析后，再用基音合成滤波器对其进行编码处理。所述的基音合成滤波器的表达式为：

1 1

其中， τ是基音周期， ^是基音增益， ₂是变换的符号。

在语音感知理论中，语音的共振峰部分要比语音的波谷部分对听觉感知更重要；因此，在较低编码速率下，通常需要牺牲波谷区域的性能而尽量使对共振峰的编码更优越。这就使得波谷相对于波峰可能包含更多的感知编码噪声，包括基音谐波峰值之间的波谷。

基于上述编码噪声产生的原因，本发明实施例中，在解码端，可以设置相应的后处理滤波器，以削减所述的编码噪声，以便获得更好的感知质量。

下面将结合附图对本发明实施例的具体实现过程进行说明。

本发明实施例提供的音频解码过程中实现基音增强后处理的方法的具体实现方式如图 2所示，具体包括以下步骤：步骤 1，根据解码信号确定接收到的解码信号的增益；

具体可以为：在相邻一个周期内的信号幅值的比值（即解码信号与相邻基音周期的信号幅值的比值）为-

式（2) 中， i、 i+T为解码信号对应的时间点， T为基音周期；

将该比值 ^ration与从码流中解码获得的增益进行比较，并取其中较小的一个值作为最终的解码信号的增益值。

步骤 2，判断步骤 1确定的增益是否超过预定的阈值，如果是，则执行步骤 3，否则执行步骤 4;

本发明实施例中，根据解码后合成声音信号的当前基音周期和邻近基音周期的信号能量特点，对于何时使用后处理滤波器，设置了一个判断阈值 ^E ，即当步骤 1确定的增益值 ^E。。">大于 ^Eto时，才进行相应的长时后滤波操作，否则不进行该长时后滤波处理; 其中，基于所述域值 ^Eto的判断处理主要是考虑到浊音语音帧具有较强的周期性的特点，即：从编码端传送的码流中解码出的增益 ^gp '即能反映出浊音的这种特性。根据大量的程序调试和对参量的变化情况的观察，可看出：在浊音帧中， ^gp '的值较大且接近于一个稳定的值；在清音帧中， ^gp '则较小，并有很大一部分趋近于 0; 总体来看，的值和当前基音周期的信号幅值与前一个基音周期的信号幅值的比值大体相近；以 AMR-WB+编解码为例，经大量实验，并比较各次实验后解码信号与原声音信号之间的 pesq

(客观话音质量评定）差值，可以选择 0. 6;

需要说明的是，根据不同的编解码框架，可以根据具体情况确定所述阈值的取值，例如，在除 AMR-WB+编解码外的其他编解码过程中，所述阈值的选取范围可在 0— 1之间；步骤 3，对解码信号（即解码端解码获得的基音合成信号）进行长时后滤波处理后输出，并执行步骤 4;

具体可以采用全零点后滤波器作为后滤波器对基音谐波间的噪声做削弱处理；其中，为保证基音谐波的波峰仍在以上的频率处，零点应添加在与基音谐波间的波谷位置相对应的频率处，即在^ "/T , ……，（2T _ l)* r/T处，因此，可以采用的全零点后滤波器的形式为：

H(z) = G!x(l+/lxz"^T) ₍₃₎ 式（3) 中， T为基音周期，为对该滤波器的总的增益控制，为一个局部调整因子， ₂是₂变换的符号；

在该步骤中，以采用 AMR-WB+编解码为例，则所述全零点后滤波器的基音周期 T的确定可以采用 AMR-WB+编解码中所采用的基音周期确定方式，如采用 pitch tracking模块输出的 T作为基音周期。为避免出现 pitch doubling (双基音）现象，还需计算延迟为 T/2的两处信号的归一化自相关值，若所述的归一化自相关值大于 0.95，则将 T/2作为后处理中的新的基音周期值，以在低频端更精确并实时地得到相应基音周期值；

在该步骤中，的取值范围通常在 0-1之间，其取值决定了相隔一个基音周期的信号之间的加权程度，仍以 AMR-WB+编解码为例，经实验后，所述的值可以选择为 0.1; 在该步骤中，为防止后滤波器对基音谐波间的噪声削弱的同时所带来的信号扭曲，则采用自适应增益控制的处理方式确定自适应全局增益 ^ei，相应的确定自适应全局增益的过程如下：

假设 k时刻该后处理滤波器的输入为 χ(^η) 输出为 y(ⁿ) ，则从（3)的传输函数可得

y(n) = G₁x[x(n)+ lxx(n-T)] ₍₄₎ 对于浊音帧，根据浊音的强周期性可知，其相邻基音周期内的波形可看作是幅度上有些微的差异，所以可令：

x(n - T) « gain x x(n) (5)

将（5)代入到（4) 中，可得

y(n) - G^^ + Axgainlxxin) ₍₆₎ 由以上推导可以看出，若不做自适应的增益控制，则滤波器在完成削弱谐波间噪声的基音增强后处理的同时会使输出 y(ⁿ)比输入大出很多，将使最终的合成语音信号的感知质量大大下降；故选择自适应全局增益的值为：

1 + X gain (了) 这样，便可以确定全零点后滤波器的各参数。步骤 4，将解码端获得的基音合成信号输出。具体可以为：假设在步骤 2和步骤 3中，解码后的基音合成信号为 ^sy^nth-ⁱⁿ，进行基音长时后滤波处理后的输出信号为 s^th-Gut，则所述的步骤 2和步骤 3的处理可以通过下式表示：

synth— in， if E_com <E_thr

synth_out=

synth— in ® h， if E_com≥E_thr

(8)

式（8) 中， h为自适应后滤波器 H(z)的脉冲响应函数；且该式（_{8 )}表示，在步骤 4中输出的基音合成信号有两种：

( 1 )一种是经过步骤 3的长时后滤波处理后，且经过自适应增益控制的基音合成信号，以防止后滤波器对基音谐波间的噪声削弱的同时所带来的信号扭曲；

(2) 另一种为未经步骤 3处理而直接输出的基音合成信号。本发明实施例还提供了一种音频解码过程中实现基音增强后处理的装置，其具体实现结构如图 3所示，具体可以包括以下处理单元：

( 1 )增益评估单元 301

该单元用于获取解码信号的增益；

如图 4所示，该单元具体可以包括：

比值确定单元 3011，用于确定解码信号与相邻基音周期的信号幅值的比值，即确定上一基音周期内的信号幅值与当前基音周期内的信号幅值的比值；

解码信号的增益确定单元 3012，用于比较并选择所述比值与解码获得的增益进行比较，并取两者中较小的一个值作为解码信号的增益。

(2) 阈值判断单元 302

该单元用于判断所述增益评估单元确定的所述解码信号的增益是否超过预定的阈值；

若所述装置用于 AMR-WB+解码过程中，则该阈值判断单元选择的所述预定的阈值可以为 0. 6。

( 3) 自适应后滤波器 303

其用于根据所述阈值判断单元的判断结果，仅对所述解码信号的增益超过预定的阈值的解码信号进行长时后滤波处理；

所述的自适应后滤波器可以选择全零点后滤波器，且所述全零点后滤波器的函数为： H(z) = G_{l X}(l + x z— ) _; 其中，为自适应全局增益， 1为局部调整因子， T为基音周期；

而且，若所述装置用于 AMR-WB+解码过程中，则所述全零点后滤波器采用：所述的值为 0.1，且所述自适应全局增益的值 1 + x gain 的全零点后滤波器，以便于避免所述后滤波器可以对基音谐波间的噪声削弱的同时所带来的信号扭曲。

需要说明的是，本发明实施例中，用于基音增强的后滤波器也可采用梳状滤波器 (Comb filter) 。梳状滤波器利用了浊音的强周期性，在频域，梳状滤波器能够保留声音信号的基频及其整数倍数的各谐波分量，抑制非谐波分量。

由于各谐波之间的间隙基本以噪声为主，故在理想情况下，若获知基频（基音周期）便可以将谐波之间的噪声完全滤掉。

本发明实施例中采用梳状滤波器的传输函数为-

相对应的时域表达式为：

L

y(n) =∑ a_kx(n-kT)

k=-L (10) 其中， x(n) 是解码后的语音信号， y(n) 是经梳状滤波器处理后的输出； ^ak (-L

^k^L) 是梳状滤波器的 2L+1个抽头系数，系数可以自适应于语音信号谱的变化，在各个子帧中，的取值可参考上述获得的解码信号的增益进行配置；对基音周期 T，要避免重复预测的情况。

从式（10) 中可以看出，输出 y(n) 是输入 x(n) 的延时加权平均值，以强调周期性分量；当延时与基音周期一致时，这个平均过程会使周期性分量得到加强，而那些非周期性分量或其它与信号周期不同的分量将受到抑制或彻底消除。综上所述，本发明实施例中，在采用 FIR滤波器对全频带的解码声音信号进行基音增强后处理的情况下，所述域值的判断过程，以及滤波器系数的配置过程均可以较为简单地实现，而且，本发明实施例还能够在每个子帧中自适应于解码端合成声音信号的能量变化，得到较优的基音增强效果。例如，基于 AMR-WB+编解码框架，可在相对简单的操作过程中实现基音增强的后处理过程，提高了解码声音的感知质量。而且，本发明实施例提供的实现方案在对语音信号进行基音增强以获得较好感知质量的同时，经过对大量音乐序列进行的主客观测试，发现其对音乐信号的感知质量的提高程度也非常大。本领域普通技术人员可以理解实现上述实施例中的各处理过程可以通过程序指令相关的硬件来完成，所述的程序可以存储于可读取存储介质中，该程序在执行时执行上述方法中的对应步骤。所述的存储介质可以如： ROM/RAM、磁碟、光盘等。以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

权利要求

1、一种实现基音增强后处理的方法，包括对解码信号进行后滤波处理的过程，其特征在于，该过程包括：

2、根据权利要求 1所述的方法，其特征在于，所述的获取解码信号的增益的步骤具体包括：

确定解码信号与相邻基音周期的信号幅值的比值；

将所述比值与解码获得的增益进行比较，并取两者中较小的一个值作为所述解码信号的增益。

3、根据权利要求 1所述的方法，其特征在于，所述的对解码信号进行后滤波处理的步骤包括：

采用全零点后滤波器对解码信号进行后滤波处理，且所述全零点后滤波器的函数为： H (z) = G ' x G + A x z -T )，其中，为自适应全局增益，为局部调整因子， τ 为基音周期， ₂是₂变换的符号。

4、根据权利要求 3所述的方法，其特征在于，在增强自适应多速宽带 AMR-WB +编解码过程中，所述的值选择为 0. 1，且自适应全局增益： G_i -. ¹

' ^{1 + A x} S^ain，其中， gain为在各个子帧中解码信号的增益。

5、根据权利要求 1、 2、 3或 4所述的方法，其特征在于，在 AMR-WB +编解码过程中，所述的预定的阈值为 0. 6。

6、一种实现基音增强后处理的装置，其特征在于，包括：

增益评估单元，用于获取解码信号的增益；

自适应后滤波器，用于根据所述阈值判断单元的判断结果，仅对所述解码信号的增益超过预定的阈值的解码信号进行后滤波处理。

7、根据权利要求 6所述的装置，其特征在于，所述的增益评估单元具体包括：比值确定单元，用于确定解码信号与相邻基音周期的信号幅值的比值；

解码信号的增益确定单元，用于将所述比值与解码获得的增益进行比较，并取两者中较小的一个值作为解码信号的增益。

8、根据权利要求 6所述的装置，其特征在于，所述的自适应后滤波器为全零点后滤波器，且所述全零点后滤波器的函数为：

H(z) = G_{l X}(l+Axz-^T)；其中，为自适应全局增益， 1为局部调整因子， T为基音周期。

9、根据权利要求 8所述的装置，其特征在于，在所述装置用于 AMR-WB+解码过程中时，所述全零点后滤波器采用：所述的 ^值为 0.1，且自适应全局增益 1 + X g ain 的全零点后滤波器。

10、根据权利要求 6、 7、 8或 9所述的装置，其特征在于，在所述装置用于 AMR-WB +解码过程中时，阈值判断单元选择的所述预定的阈值为 0.6。

11、一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序代码，当所述计算机程序代码被一个计算机执行的时候，所述计算机程序代码可以使得所述计算机执行权利要求 1至 5项中任意一项的步骤。