WO2009109120A1

WO2009109120A1 - 一种音频信号的编解码方法和装置

Info

Publication number: WO2009109120A1
Application number: PCT/CN2009/070522
Authority: WO
Inventors: 张德明; 张琦
Original assignee: 华为技术有限公司
Priority date: 2008-02-29
Filing date: 2009-02-25
Publication date: 2009-09-11
Also published as: CN101521010A; CN101521010B

Description

一种音频信号的编解码方法和装置

本申请要求于 2008 年 2 月 29 日提交中国专利局、申请号为 200810006391.2、发明名称为"一种音频信号的编解码方法和装置 "的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及信号处理技术，尤其涉及一种音频信号的编解码方法和装置。背景技术

在如宽带或超宽带语音、音乐等信号（统称"音频信号"）的编解码中，使用较广泛的于 MDCT (修正的离散余弦变换， Modified Discrete Cosine Transform )的变换域编码 , 其主要方法是将一定长度的音频信号变换到变换域，然后根据特定的量化策略对变换域的系数进行量化编码。但是 MDCT得到的信号常会因为信号从相对较小的能量突然过度到很大的能量而出现预回声（pre-echo )效应，即后一帧较大能量的帧的量化误差在解码端通过 MDCT 的重叠相加泄露到了前面能量相对较小的帧中。如图 1中的（a )、 ( b )所示，分别为 MDCT编码前后的信号示意图。

由于这种 pre-echo效应引起的量化噪声通常能被人耳察觉，因此，为了克服这种量化噪声泄漏，通常采用的一种音频信号的编码方法是在编码端在 MDCT变换的基础上对每一帧信号提取固定个数的时域包络信息，然后再将所提取的时域包络信息经量化及归一化等处理后进行变换编码。在解码端，采用相应的逆函数恢复出原始信号。

然而，在进行本发明创造过程中，发明人发现该现有技术至少存在如下问题：

由于现有技术是对每一帧音频信号都提取固定个数的时域包络信息，而且为了抑制噪声泄漏，通常都会采用较高的时间分辨率，因此提取的时域包络信息的个数会比较多，这样将需要用大量的比特对每一帧音频信号的时域包络信息进行量化编码。但是大多数情况下音频信号是相对稳定的，其时域包络信息也是相对平稳的，因此，如果仍然采用较高的时间分辨率，则会造成额外的编解码资源浪费。

发明内容

本发明实施例的目的在于提供一种音频信号的编解码方法和装置，能够在克服由 pre-echo效应引发的量化噪音泄漏的同时还节约了编解码资源。

本发明实施例提供了一种音频信号的编码方法，包括：

获得当前帧音频信号的稳定度参数，并根据所述当前帧音频信号的稳定度参数，从所述当前帧音频信号中提取相应个数的时域包络信息；

对所提取的时域包络信息量化编码，得到时域包络的编码码字；根据所述编码码字获得所述时域包络信息的量化值，利用所述量化值对所述当前帧音频信号进行归一化处理；

将归一化处理后的当前帧音频信号和前一帧音频信号变换编码。

基于上述技术方案，本发明还公开了一种音频信号的解码方法，包括：从接收到的当前帧音频信号的编码码流中读取当前帧音频信号的稳定度参数；

根据所述稳定度参数，按照和编码端相同的对应方式选择与所述稳定度参数对应的时域包络编码个数，从所述当前帧音频信号编码码流中提取所述个数的时域包络编码码字；

对所述时域包络编码码字进行解码得到所述音频信号的时域包络信息的量化值；

对所述当前帧音频信号编码码流中的变换编码信号进行变换解码，利用所述量化值对变换解码后得到的当前帧音频信号进行反归一化处理，以得到重构的音频信号。

基于上述技术方案，本发明还公开了一种音频信号的编码装置，包括：稳定度获得单元 , 用于获得当前帧音频信号的稳定度参数；

时域包络提取单元，用于根据所述稳定度获得单元所获得的当前帧音频信号的稳定度参数,从所述当前帧音频信号中提目应个数的时域包络信息；量化编码单元，用于对所述时域包络提取单元中提取的时域包络信息量化编码，得到时域包络的编码码字；

归一化处理单元，用于根据所述量化编码单元中的处理结果获得所述时域包络信息的量化值，利用所述量化值对所述当前帧音频信号进行归一化处理；

变换编码单元，用于将所述归一化处理单元中归一化处理后的当前帧音频信号和前一帧音频信号变换编码。

基于上述技术方案，本发明还公开了一种音频信号的解码装置，包括：稳定度参数单元，用于从接收到的当前帧音频信号的编码码流中读取当前帧音频信号的稳定度参数；

时域包络编码码字提取单元，用于根据所述稳定度参数单元中的稳定度参数，按照和编码端相同的对应方式选择与所述稳定度参数对应的时域包络编码个数，从所述编码码流中提取所述个数的时域包络编码码字；

时域包络解码单元，用于对所述时域包络编码码字提取单元中的时域包络编码码字进行解码得到所述音频信号的时域包络信息的量化值；

变换解码单元，用于对所述编码码流中的变换编码信号进行变换解码，得到当前帧音频信号；

反归一化处理单元，用于利用所述时域包络解码单元中的量化值对所述变换解码单元中得到的当前帧音频信号进行反归一化处理，以得到重构的音频信号。

与现有技术相比，本发明实施例具有以下优点：

本发明实施例在编码端能够根据音频信号的稳定度来提取与该稳定度对应个数的时域包络信息，这样对于稳定度高的音频信号能够提取较少个数的时域包络信息来传输，对于稳定度差的音频信号能够提取较多个数的时域包络信息进行传输，因此，对于提取个数较少的时域包络信息，可使用较少比特对该时域包络信息进行量化编码或解码，因此，本发明实施例能够在消除瞬态信号带来的噪声泄漏问题的同时大大节约编解码的资源。

附图说明

图 1 ( a )、（b )分别为 MDCT编码前、后的信号示意图；

图 2为本发明一种音频信号编码方法实施例的流程示意框图；

图 3为本发明另一种音频信号编码方法实施例的流程示意框图；图 4为本发明一种音频信号解码方法实施例的流程示意框图；图 5为本发明另一种音频信号解码方法实施例的流程示意框图；图 6为本发明一种音频信号编码装置结构示意框图；

图 7为本发明另一种音频信号编码装置结构示意框图；

图 8为本发明又一种音频信号编码装置结构示意框图；

图 9为本发明又一种音频信号编码装置结构示意框图；

图 10为本发明又一种音频信号编码装置结构示意框图；

图 11为本发明一种音频信号解码装置结构示意框图。

具体实施方式

下面结合附图对本发明实施例的具体实施方式做进一步的详细阐述。本发明实施例公开的一种音频信号的编码方法是：根据音频信号的稳定程度，从所述音频信号中提取与该稳定程度对应个数的时域包络信息，例如，对于音频信号稳定程度较高的信号 , 可采用较低的时间分辨率来提取较少个数的时域包络信息；对于不稳定的音频信号（如瞬态信号），则采用较高的时间分辨率来提取较多个数的时域包络信息，以此消除瞬态信号带来的不利影响。然后，对所提取的这些时域包络信息量化编码，得到时域包络的编码码字。并且利用所述时域包络信息的量化值对所述音频信号进行归一化处理和变换编码。

如图 2所示，为本发明一种音频信号编码方法实施例的流程示意框图，该方法包括：

S201 : 分析当前帧音频信号的稳定程度，得到稳定度参数。例如，对当前帧音频信号按照预先约定的时间分辨率 , 提取相应个数的时域包络信息；计算所提取的时域包络信息的标准差 σ和均值 /；将标准差 σ除以均值 /得到信号幅度变化程度参数 D，该值即稳定度参数。

S202: 根据所得的稳定度参数，从当前帧音频信号中提取与稳定度参数对应个数的时域包络信息。

S203：对所提取的时域包络信息进行量化得到时域包络信息的量化值 , 然后再对所述量化值编码得到时域包络信息的编码码字。

S204: 获得时域包络信息的量化值，利用时域包络信息的量化值对当前帧音频信号进行归一化处理。其中，归一化处理可例如：将时域包络信息的量化值进行内插得到归一化因子，以构成平滑的时域包络曲线，然后再利用所述归一化因子对当前帧音频信号进行归一化处理。

S205: 将前一帧音频信号和归一化处理后的当前帧音频信号变换编码。此外，在执行完上述实施例之后还可以：将 S201中得到的稳定度参数、

S203中得到的时域包络信息的编码码字、以及 S205中变换编码后得到的结果一起打包发送。

此外，上述 S204中的量化值可以为 S203中对时域包络信息量化所得到的量化值，当然，这需要在 S203之后还要将 S203中得到的量化值保存以供 S204获得使用；此外，如果 S203中的量化值没有保存，那么 S204中获得量化值的方法可以为通过对 S203 中的编码码字进行解码，得到的反量化值即可作为 S204中的量化值。其中，解码方法为 S203中编码方法的逆过程。

下面举例说明本发明一种音频信号的编码方法实施例，该实施例的音频信号可以是采样率为 32KHz的超宽带信号，也可以是采样率为 16kHz的宽带信号，或者其他信号。本实施例采用 50 %的重叠 MDCT变换编码，即在一个 MDCT分析窗内的 M点音频信号中，前 M/2点信号为前一帧音频信号，后 M/2点信号为当前帧音频信号。如图 3所示，为本发明另一种音频信号编码方法实施例的流程示意框图，该实施例包括：

S301 : 对分析窗内的 M点音频信号（如 M=640 的超宽带信号，或者 M=320的宽带信号）中的当前帧 p (如对应于超宽带信号 p=320，或者对应于宽带信号 p=160 ) 点信号 {x。... _l}按照预先约定的时间分辨率（例如 2ms ) 提取相应个数 N (如 N=10 ) 的时域包络信息 4 (即 ...4j )。

其中，时域包络信息 4的提取方法可按照下述方法计算提取，但不限于此方法： 4 =丄 ∑^：】 = 1··Ί

P j=(i-l)xp /N

S302: 计算时域包络信息 4的标准差和均值 /。其中，均值 /的计算方法可以为但不限于此： / =丄¾ ；标准差 σ的计算方法可以为但不限于此：

S303:根据 S302中的标准差 σ和均值 / ,计算信号幅度变化程度参数 D。其中，在该实施例中可以将信号幅度变化程度参数 D作为稳定度^：,其中，信号幅度变化程度参数 D的计算方法例如： D = , >0。其中信号幅度变 μ 化程度参数 D的值越小表示该音频信号的稳定性越好。

S304: 比较信号幅度变化程度参数与 L个阔值（如 { ..t/^} )的大小，将音频信号的信号幅度变化程度参数划分在相应第 i区间内。其中，共有 L+1个区间内 , 即 L+1个等级。

例如，在本实施例中 L数值可取经验值如 3; 阀值 {t/i t/irj可取经验值如 {0.2 0.4 0.6}。此时，则将音频信号的信号幅度变化程度 D划分成了 4个等级（i=0, 1, 2, 3), 即第一等级为信号幅度变化程度参数 D 小于等于 0.2 的区间，第二等级为信号幅度变化程度参数 D大于 0.2且小于等于 0.4的区间，依此类推。

S305: 根据音频信号的信号幅度变化程度参数 D所在的区间（或者说对应的信号幅度变化程度等级），选择与该区间对应的时域包络编码个数。例如，可取经验值 {1 4 8 10}来分别对应（i=0， 1, 2, 3) 四个区间。

S306: 对 S301中的 p点信号 {J -.X^}按照 S305中所选择的时域包络编码个数，提取个时域包络信息 4，（即 { ..^ })。

其中，时域包络信息 4，的提取方法可采用下述方法计算提取，但并不限于此： _A = 1… 。

S307: 量化所述 S306中得到的时域包络信息 4', 得到时域包络信息 4' 的量化值 , 然后再对量化值进行编码得到所述时域包络信息 4，的编码码字 · · · index_Ki }。

其中，量化的具体方法可以为均勾量化但不限于此，例如：将区间 [M_mn M_mJ等分为 m 个子区间 [M^ _{mm +} -~ -) ,

m

[A + ^^^max ^min M _|_ 2χ ^max ^^min ) ，，

[ ^ + (m-l)x ^max~ ^min M^] , 每一个区间对应的量化值为 m y_i=M_min+ix^Mmax ~ ^mm + ^Mmax ~ ^mm , 判断 4位于那个子区间，就将所述 4量 m 2m

化为该子区间对应的量化值 _yi。

S308: 提取之前保存在编码状态寄存器中的前一帧音频信号的最后一个时域包络信息 , 并根据该时域包络信息 4和时域包络信息 4 '的量化值

{At -AI)进行内插平滑，得到对应于当前帧内每一点音频信号的归一化因子

{2₀— _M_j , 归一化因子即构成一个平滑的时域包络曲线。

其中，可以使用公式

对所述量化值进行内插平滑，当然并不仅限于此公式。

S309:利用归一化因子 { 。… ― ^对分析窗内的当前帧音频信号进行归一化处理。其中，归一化处理的具体方法可例如：。 . =

¹ A

Aj

S310:对分析窗内的 M点信号（即前一帧音频信号和归一化处理后的当前帧音频信号）进行变化编码。其中，变换编码的方法可以例如：对分析窗内的 M点信号进行 M点修正的离散余弦变换（ MDCT )，得到 M/2点频语系数；然后再将 M/2点频谱系数直接量化编码。或者，在得到 M/2点频谱系数后，还可以将 M/2点频谱系数划分为多个子带，提取每个子带的频域包络（提取方法和提取时域包络信息的方法类似），再对频域包络信息进行内插平滑，使用内插平滑后得到的归一化因子对频谱系数进行归一化处理，再对归一化后的频谱系数进行量化编码。

S311 : 将稳定度参数、 S307中对时域包络信息量化编码得到的编码码子 {index, ... index_Ki }、以及 S310中得到的变换编码结果一起打包发送。

此外，上述实施例 S308 中的时域包络信息 4，的量化值可以直接使用 S307中生成的量化值，这就需要在 S307中将生成的量化值保存以便在 S308 中能够直接获取保存的量化值。然而，如果 S307 中量化值在生成后并没有保存，那么在执行 S308之前还需要先将 S307中得到的时域包络信息 4，的编码码字进行解码 , 以获得所述时域包络信息 4 '的量化值。

此外，信号幅度变化程度参数 D除了采用 S302和 S303的方法得到外，还可以由其他方法计算，例如：计算 S301 中的时域包络信息 4的最大偏差 ( max— deviation ), 或者计算 S301中的时域包络信息 4与相邻的时域包络信息的最大幅度差（max— rise ), 所得值即为信号幅度变化程度参数 D。信号幅度变化程度参数 D的值越小表示该音频信号的稳定性越好。

相应地，在上述 S304 中，还可比较信号幅度变化程度参数 ( max— deviation ) 与阔值 t/^的大小，或者，比较信号幅度变化程度参数

( max— rise )与阔值 ^的大小，将音频信号的信号幅度变化程度参数划分在相应第 i区间内。其中，共有 2个区间，即 2个等级。

例如，如果信号幅度变化程度参数 ( max— deviation )大于 thr_d , 或者信号幅度变化程度参数 Ζ> ( max— rise ) 大于 t/^，则稳定度在 i=l号区间；否则稳定度在 i=0号区间。

相应地，在 S305中，所述可取经验值 {1 10}来分别对应（ i=0， 1 ) 两个区间。

相应地，在 S307中，如果 S306中只得到 1个时域包络信息 4，，则直接对时域包络信息 4'进行量化编码（例如，可对时域包络信息 4'均匀量化，然后再对均勾量化后的结果进行编码）；如果 S306中得到 10个时域包络信息，即则先计算时域包络信息。 }的均值 / , 然后再将 '₁... 。}都减去该均值/得到差值{^4'₁...^4'₁。}，再对差值{^4'₁...^4'₁。}以及均值 /都进行量化得到量化差值 {Δ ···Δ^}和量化均值 ^ , 然后再分别对量化差值 {Δ ...Δ 。}和量化均值 ^编码得到时域包络信息 ' f 。 }的编码码字 {index_x - -index_Ki , index _μ)。需要说明的是，这种才据均值 /对所述时域包络信息 4，进行量化编码的方法同样适用于上述 S307中的时域包络信息 4 '。

此外，还可将量化差值和量化均值 ^相加，得到时域包络信息的量化值 ··· } , 即 4^? = M^? + ^ , 并保存 ··· }，以便在 S308 中对得到的量化值 {A… }进行内插平滑，以得到对应于所述当前帧内每一点音频信号的归一化因子

当然，上述实施例中的时域包络信息的量化值除了使用上述方法得到外同样可以采用 S307 中的方法直接对时域包络信息 ' .. 。 }进行量化，或者采用上面所述的其他方法，在此不再赞述。其中，对差值^…^^以及均值；进行量化的方法可以与 S307 中对时域包络信息 4，量化的方法相同，例如均匀量化。

此外，上述实施例 S303和 S311中的稳定度参数除了可以为信号幅度变化程度参数 D外，还可以是信号幅度变化程度参数 D所在的区间标识当稳定度参数为信号幅度变化程度参数 D所在的区间标识 i时，则上述 S303 中，计算稳定度参数的步骤则可包括上述 S302, S303中通过 S302中的标准差 σ和均值 / , 计算信号幅度变化程度参数 D, 以及 S304中得到信号幅度变化程度参数 D所在的区间标识1。其中，在 S304中得到的区间标识 i即为所述稳定度参数。同时，在所述 S311 中，发送的稳定度参数即为信号幅度变化程度参数 D所在的区间标识 i。

与此同时，在上述公开的音频信号的编码方法实施例的基础上，本发明还公开了一种音频信号的解码方法，如图 4所示，为本发明一种音频信号解码方法实施例的流程示意框图，所述解码方法与上述编码方法对应，具体包括：

S401 : 从接收到的当前帧音频信号编码码流中读取当前帧音频信号的稳定度参数。其中，稳定度参数可以是信号幅度变化程度参数 D, 或者还可以是信号幅度变化程度参数所在区间标识 i。

S402: 根据稳定度参数，按照和编码端相同的对应方式选择与稳定度参数对应的时域包络编码个数，从当前帧音频信号编码码流中提取所述个数的时域包络编码码字。

S403：对时域包络编码码字进行解码得到音频信号的时域包络信息的量化值。

S404: 对当前帧音频信号编码码流中的变换编码信号进行变换解码，利用时域包络信息的量化值对变换解码后得到的当前帧音频信号进行反归一化处理，即得到重构的音频信号。

其中 , 利用所述量化值对变换解码后得到的当前帧音频信号进行反归一化处理可具体为，先对时域包络信息的量化值进行内插平滑得到归一化因子，然后再利用所述归一化因子对变换解码后得到的当前帧音频信号进行反归一化处理。其中，内插平滑采用和编码端相同的方法。

下面举例说明本发明一种音频信号解码方法实施例，该实施例可以以采样率为 32KHz的超宽带信号为例，也可以是采样率为 16kHz的宽带信号。采用与上述编码方法对应的解码方式，该实施例仍采用 M 点音频信号的 MDCT分析窗，其前一半信号为前一帧音频信号，后一半信号为当前帧音频信号。如图 5所示，为本发明一种音频信号解码方法实施例的流程示意框图，该实施例包括：

S501 : 从接收到的当前帧音频信号编码码流中读取当前帧音频信号的稳定度参数 (如信号幅度变化程度参数 D所在区间的标识 i )。由于在编码端，和其他编码信息一起发送的有该帧音频信号的信号幅度变化程度参数 D所在区间的标识 i，因此，可在解码端，从接收到的当前帧音频信号编码码流中直接读取该帧音频信号对应的信号幅度变化程度参数 D所在区间的标识 i。

S502: 根据音频信号的信号幅度变化程度参数 D所在的区间标识 i (或者说所处的等级），按照和编码端相同的对应方式选择与该区间标识 i对应的时域包络编码个数。其中，可取和编码端相同的经验值，如 {1 4 8 10} 来分别对应如（i=0， 1 , 2, 3 ) 四个等级；或者，如 {1 10}来分别对应如 ( i=0， 1 ) 两个等级。

S 503：从当前帧音频信号编码码流中读取个时域包络编码码字 {index -index_K 。例如，对于只有（i=0, 1) 两个等级的实施例，当 i=0 时从码流中读取"ieX , i=l时从码流中读取

S504: 对时域包括编码码字进行解码得到音频信号的时域包络信息的量化值 {4一 }。例如，对于只有（i=0, 1) 两个等级的实施例，当 i=l 时，解码可得到量化差值 {Δ ···Δ 。}和量化均值 ^ , 则得到的时域包络信息的量化值为 =Μ+〃

S505：对时域包络信息的量化值 {4 -Α)进行和编码端相同的内插平滑，得到对应于所述当前帧内每一点音频信号的归一化因子 { . — J ,归一化因子即构成一个平滑的时域包络曲线。

其中，可以使用公式

A_i =Af +(j-^-)x^~ ⁹,j = ix^—-(i + i)x^-,i = 0-K_i

J^KJ K_t ' P_ ^J K_t ' K_t '

对量化值进行内插平滑，当然并不仅限于此公式。

S506: 对当前帧音频信号编码码流中变换编码信号进行变换解码，利用 S505 中的归一化因子对变换解码后得到的当前帧音频信号进行反归一化处理，即得到重构的音频信号。

上述实施例在编码端能够根据音频信号的稳定度来提取与该稳定度对应个数的时域包络信息 , 这样对于稳定度高的音频信号能够提取较少个数的时域包络信息来传输，对于稳定度差的音频信号能够提取较多个数的时域包络信息进行传输，因此，对于提取个数较少的时域包络信息，可使用较少比特对该时域包络信息进行量化编码或解码，因此，本发明实施例能够在消除瞬态信号带来的噪声泄漏问题的同时大大节约编解码的资源。同时，传输较少的时间包络信息还能够将音频信号的动态范围缩小，有利于变换编、解码。

同时，上述实施例能够为每一帧音频信号都传输时域包络的编码码字，因此保证了音频信号在解码端的分析和合成的连贯性，从而确保解码端能够合成高质量的重构信号。此外，上述编码方法实施例仅在提取时域包络信息时进行了标准差和均值的计算，因此还降低了判断信号稳定程度的复杂度。

基于上述技术方案，本发明还公开了一种音频信号的编码装置，该编码装置位于编码端，能够根据音频信号的稳定程度，从所述音频信号中提取与该稳定程度对应个数的时域包络信息，再对提取的这些时域包络信息量化编码，得到时域包络的编码码字。然后利用所述时域包络信息的量化值对所述音频信号进行归一化处理和变换编码。

如图 6所示，为本发明一种音频信号编码装置结构示意框图，所述编码装置可适用于采样率为 32KHz的超宽带音频信号，或者采样率为 16kHz的宽带音频信号，或者其他信号。所述装置包括：稳定度获得单元 601、时域包络提取单元 602、量化编码单元 603、归一化处理单元 604、变换编码单元 605 , 其中，

稳定度获得单元 601 , 用于获得当前帧音频信号的稳定度参数；例如，

包络信息的标准差和均值，然后将标准差除以所述均值得到信号幅度变化程度参数，即为稳定度参数。其具体的实现方法可参考图 3所示的方法实施例中 S301至 S303。当然，信号幅度变化程度参数还可以通过其他方式得到，稳定度参数还可以为信号幅度变化程度参数所在区间的标识，其具体的获取方法可参见上述对图 3所示方法的扩充实施例，在此不再赞述。

时域包络提取单元 602，用于根据稳定度获得单元 601所获得的当前帧音频信号的稳定度参数，从当前帧音频信号中提取与稳定度参数对应个数的时域包络信息。其中，时域包络信息可采用 = , = ι… 公式进行

提取， 4，表示提取得到的时域包络信息。

其中，由于稳定度参数可以为信号幅度变化程度参数 D, 或者还可以为信号幅度变化程度参数 D所在区间标识 i。当稳定度参数为信号幅度变化程度参数 D时 , 时域包络提取单元 602根据稳定度获得单元 601所获得的当前帧音频信号的稳定度参数，从当前帧音频信号中提取与所述稳定度参数对应个数的时域包络信息可通过下述几个子单元实现，当然并不限于此：

第一划分子单元（未图示），用于比较信号幅度变化程度参数 D与指定个数的阔值的大小，将信号幅度变化程度参数 D划分在相应的第 i区间内；例如，与 3个阔值比较时，则划分在共 4个区间的第 i区间内。

第一编码个数确定子单元（未图示），用于根据第一划分子单元（未图示）所划分的信号幅度变化程度参数 D所在的区间 ,选择与该区间对应的时域包络编码个数；例如，可取经验值 {1 4 8 10}来分别对应（i=0， 1 , 2, 3 ) 四个区间。

第一提取子单元（未图示），用于按照第一编码个数确定子单元（未图示）所确定的时域包络编码个数 , 从当前帧音频信号中提取所述个时域包络信息。

当然，如果稳定度参数为信号幅度变化程度参数 D所在区间标识 i时，则时域包络提取单元 602可直接选择与该区间标识 i对应的时域包络编码个数，然后从当前帧音频信号中提取所述个时域包络信息。

量化编码单元 603，用于对时域包络提取单元 602中提取的时域包络信息量化得到时域包络信息的量化值，然后再对量化值进行编码得到时域包络的编码码字；其中，可采用均勾量化对时域包络信息进行量化，其具体实现方法可参考图 3所示实施例中的 S307。或者，当时域包络提取单元 602中提取的时域包络信息为一个时，还可直接对时域包络信息的均值进行量化编码，得到时域包络的编码码字；当时域包络提取单元 602提取的时域包络信息不止一个时，则可将所有提取的时域包络信息都减去均值，得到差值，然后再对差值量化编码。

归一化处理单元 604，用于根据量化编码单元 603中的处理结果获得时域包络信息的量化值，利用量化值对当前帧音频信号进行归一化处理。例如，可通过对时域包络信息的量化值进行内插平滑，得到对应于当前帧内每一点音频信号的归一化因子，然后再利用归一化因子对所述当前帧音频信号进行归一化处理。其中，如果量化编码单元 603将生成的量化值保存，则归一化处理单元 604可从保存的信息中直接获取时域包络信息的量化值；如果量化编码单元 603没有保存所生成的量化值，那么归一化处理单元 604则可将量化编码单元 603中得到的时域包络编码码字进行解码来得到时域包络信息的量化值。

变换编码单元 605，用于将归一化处理单元 604经归一化处理后得到的当前帧音频信号和前一帧音频信号变换编码。

此外，在上述装置实施例的基础上，装置还可包括发送单元（未图示），发送单元（未图示）用于将变换编码单元 605中变换编码后得到的信号，随同稳定度获得单元 601中的稳定度参数、以及量化编码单元 603中的时域包络的编码码字一起打包发送。

在上述图 6所示装置实施例的基础上，由于归一化处理单元 604对时域包络信息的量化值的获取可根据量化编码单元 603对生成的量化值的不同处理来采取不同的获取方法，因此，归一化处理单元 604可根据不同的情况具有不同的结构功能。

如图 7所示，为本发明另一种音频信号编码装置实施例的结构示意框图，该实施例中，稳定度参数为信号幅度变化程度参数 D,则稳定度获得单元 601 在上述图 6所示装置实施例的基础上包括：第一时域包络提取子单元 6011、第一计算子单元 6012、和第一信号幅度变化程度参数子单元 6013 , 其中，第一时域包络提取子单元 6011 , 用于对当前帧 p点音频信号（如对应于超宽带信号 p=320, 或者对应于宽带信号 p=160 )按照预先约定的时间分辨率（例如 2ms )，提目应个数 N (如 N=10 ) 的时域包络信息；其中，提取方法可采用下述方法计算提取，但不限于此方法：。

第一计算子单元 6012，用于计算第一时域包络提取子单元 6011 中的时域包络信息的标准差 σ和均值 / ; 其中，均值 /的计算方法可以为但不限于此： / =丄¾ ；标准差 σ的计算方法可以为但不限于此：

第一信号幅度变化程度参数子单元 6013 , 用于将第一计算子单元 6012 中得到的标准差 σ除以所述均值 μ得到信号幅度变化程度参数 D , 即 = ,

μ > 0。

此外，本发明又公开了一种音频信号编码装置实施例，如图 8所示，为本发明又一种音频信号编码装置实施例的结构示意框图 , 该实施例中的稳定度参数依然为信号幅度变化程度参数 D，稳定度获得单元 601通过计算所述音频信号的时域包络信息的最大偏差、或者最大幅度差来得到信号幅度变化程度参 D。如图 8所示，稳定度获得单元 601在上述图 6所示装置实施例的基础上包括：第二时域包络提取子单元 6014、第二信号幅度变化程度参数子单元 6015，其中，

第二时域包络提取子单元 6014 , 用于对当前帧 p点音频信号（如对应于超宽带信号 p=320 , 或者对应于宽带信号 p=160 )按照预先约定的时间分辨率（例如 2ms )，提目应个数 N (如 N=10 ) 的时域包络信息；其中，提取方法可 ^]^1方法计算提取，但不限于此方法：。

4 =- ∑ Xj ,i = l- -N

P

第二信号幅度变化程度参数子单元 6015 ,用于计算第二时域包络提取子单元 6014中的时域包络信息的最大偏差、或者计算时域包络信息与相邻的时域包络信息的最大幅度差 , 所得值即为信号幅度变化程度参数 D。

此外，本发明又公开了一种音频信号编码装置实施例，如图 9所示，为本发明又一种音频信号编码装置实施例的结构示意框图 , 该实施例中的稳定度参数为信号幅度变化程度参数所在的区间标识 i, 该实施例可通过将图 7 实施例中的稳定度获得单元 601生成的信号幅度变化程度参数 D与预置的阔值比较划分到相应的区间内 , 该区间标识 i即为稳定度参数。如图 9所示，稳定度获得单元 601在上述图 6所示装置实施例的基础上包括：第三时域包络提取子单元 6016、第二计算子单元 6017、第三信号幅度变化程度参数子单元 6018、以及第一区间标识子单元 6019, 其中，

第三时域包络提取子单元 6016, 用于对当前帧 p点音频信号（如对应于超宽带信号 p=320, 或者对应于宽带信号 p=160 )按照预先约定的时间分辨率（例如 2ms )，提取相应个数 N (如 N=10 ) 的时域包络信息；其中 , 所述提取方法可采用下述方法计算提取，但不限于此方法：

第二计算子单元 6017，用于计算第三时域包络提取子单元 6016中时域包络信息的标准差 σ和均值 / ; 其中，均值 /的计算方法可以为但不限于此：

= - x ;所述标准差 σ的计算方法可以为但不限于此： σ

第三信号幅度变化程度参数子单元 6018, 用于将第二计算子单元 6017 中得到的标准差 σ除以所述均值 μ得到信号幅度变化程度参数 D;

第一区间标识子单元 6019, 用于将第三信号幅度变化程度参数子单元 6018中的信号幅度变化程度参数 D与预置的阔值比较划分到对应的区间内 , 该区间对应的标识 i即为所述稳定度参数。

此外，本发明又公开了一种音频信号编码装置实施例，如图 10所示，为本发明又一种音频信号编码装置实施例的结构示意框图，该实施例中的稳定度参数为信号幅度变化程度参数所在的区间标识 i, 该实施例可通过将图 8 实施例中的稳定度获得单元 601生成的信号幅度变化程度参数 D与预置的阔值比较划分到相应的区间内，该区间标识 i即为稳定度参数。如图 10所示，稳定度获得单元 601在上述图 Ί所示装置实施例的基础上包括：第四时域包络提取子单元 60110、第四信号幅度变化程度参数子单元 60111、以及第二区间标识子单元 60112，其中，第四时域包络提取子单元 60110, 用于对当前帧 p点音频信号（如对应于超宽带信号 p=320, 或者对应于宽带信号 p=160 )按照预先约定的时间分辨率（例如 2ms )，提取相应个数 N (如 N=10 ) 的时域包络信息；其中，所述提取方法可采用下述方法计算提取，但不限于此方法：

第四信号幅度变化程度参数子单元 60111 , 用于计算第四时域包络提取子单元 60110中的时域包络信息的最大偏差、或者计算时域包络信息与相邻的时域包络信息的最大幅度差，得到信号幅度变化程度参数 D。

第二区间标识子单元 60112, 用于将第四信号幅度变化程度参数子单元 60111 中的信号幅度变化程度参数 D 与预置的阔值比较划分到对应的区间内，该区间对应的标识 i即为所述稳定度参数。

基于上述技术方案，本发明还公开了一种音频信号的解码装置，该解码装置位于解码端，如图 11所示，为本发明一种音频信号解码装置结构示意框图，解码装置的解码方法与上述编码装置的编码方法对应，同样可适用于采样率为 32KHz的超宽带音频信号，或者采样率为 16kHz的宽带音频信号，或者其他信号。如图 11所示，解码装置包括：稳定度参数单元 1101、时域包络编码码字提取单元 1102、时域包络解码单元 1103、变换解码单元 1104、反归一化处理单元 1105, 其中，

稳定度参数单元 1101 , 用于从接收到的当前帧音频信号的编码码流中读取当前帧音频信号的稳定度参数。由于接收到的当前帧音频信号编码码流中包括该帧音频信号对应的稳定度参数，因此可直接获取。

时域包络编码码字提取单元 1102，用于根据稳定度参数单元 1101 中的稳定度参数 , 按照和编码端相同的对应方式选择与稳定度参数对应的时域包络编码个数 , 从编码码流中提取所述个数的时域包络编码码字。

其中，由于稳定度参数可以为信号幅度变化程度参数 D, 或者还可以为信号幅度变化程度参数 D所在区间标识 i。当稳定度参数为信号幅度变化程度参数 D时，时域包络编码码字提取单元 1102根据稳定度参数单元 1101所获得的当前帧音频信号的稳定度参数，从当前帧音频信号中提取与稳定度参此：

第二划分子单元（未图示），用于比较信号幅度变化程度参数 D与指定个数的阔值的大小，将信号幅度变化程度参数 D划分在相应的第 i区间内；例如，与 3个阔值比较时，则划分在共 4个区间的第 i区间内。

第二编码个数确定子单元（未图示），用于根据第二划分子单元（未图示）所划分的信号幅度变化程度参数 D所在的区间 ,按照和编码端相同的对应方式选择与该区间对应的时域包络编码个数；例如，可取经验值 {1 4 8 10}来分别对应（i=0， 1 , 2, 3 ) 四个区间。

第二提取子单元（未图示），用于按照第二个编码个数确定子单元（未图示）所确定的时域包络编码个数，从当前帧音频信号中提取个数 (即 )个时域包络编码码字。

时域包络解码单元 1103，用于对时域包络编码码字提取单元 1102中的时域包络编码码字进行解码得到音频信号的时域包络信息的量化值。其中，所述解码方法为在编码端采用的量化编码方法的逆过程。

变换解码单元 1104，用于对编码码流中的当前帧音频信号的变换编码信号进行变换解码，得到当前帧音频信号；

反归一化处理单元 1105，用于利用时域包络解码单元 1103 中的量化值对变换解码单元 1104中得到的当前帧音频信号进行反归一化处理，以得到重构的音频信号。

其中，在上述图 11所示的解码装置实施例的基础上，反归一化处理单元 1105可具体包括：内插平滑单元（未图示），用于对时域包络解码单元 1103 中的时域包络信息的量化值进行内插平滑得到归一化因子。以及反归一化子单元（未图示），用于利用内插平滑单元（未图示）中的归一化因子对变换解码单元 1104中得到的当前帧音频信号进行反归一化处理，以得到重构的音频信号。

上述实施例中由于时域包络提取单元 602能够根据稳定度获得单元 601 所获得的当前帧音频信号的稳定度参数，来提取与该稳定度参数对应个数的时域包络信息 , 这样对于稳定度高的音频信号能够提取较少个数的时域包络信息来传输，对于稳定度差的音频信号能够提取较多个数的时域包络信息进行传输，因此，对于提取个数较少的时域包络信息，可使用较少比特对该时域包络信息进行量化编码或解码，因此，本发明实施例能够在消除瞬态信号带来的噪声泄漏问题的同时大大节约编解码的资源。

同时，上述实施例中可通过发送单元（未图示）为每一帧音频信号都传输时域包络的编码码字，因此保证了解码装置对音频信号的分析和合成的连贯性，从而确保解码装置能够合成高质量的重构信号。

同时，传输较少的时间包络信息还能够将音频信号的动态范围缩小，有利于变换编码和变换解码。此外，上述编码装置实施例仅在提取时域包络信息时进行了标准差和均值的计算，因此还降低了判断信号稳定程度的复杂度。

需要说明的是，上述所有实施例中所述的音频信号可以为语音、或音乐等声音信号，这些音频信号都适用于上述方法例。

以上所描述的装置实施例仅仅是示意性的 , 其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件 , 但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案该计算机软件产品可以存储在存储介质中，如 ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者以上所述的本发明实施方式，并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

权利要求

1、一种音频信号的编码方法，其特征在于，包括：

2、如权利要求 1所述的编码方法，其特征在于，还包括：保存所述时域包络信息量化后得到的量化值；

所述获得所述时域包络信息的量化值具体为：

获取保存的所述时域包络信息的量化值。

3、如权利要求 1所述的编码方法，其特征在于，所述获得所述时域包络信息的量化值具体为：

对所述时域包络的编码码字解码以获得所述时域包络信息的量化值。

4、如权利要求 1所述的编码方法，其特征在于，所述对所提取的时域包络信息量化编码具体为：

计算所述时域包络信息的均值；

将所述时域包络信息都减去所述均值得到差值，对所述差值以及所述均值都量化编码。

5、如权利要求 4所述的编码方法，其特征在于，所述获得所述时域包络信息的量化值具体为：

将所述差值量化后得到的量化差值，以及所述均值量化后得到的量化均值相加，以得到所述时域包络信息的量化值。

6、如权利要求 1所述的编码方法，其特征在于，所述方法还包括：将所述稳定度参数、时域包络的编码码字、以及变换编码结果打包发送。

7、如权利要求 1至 6中任一项所述的编码方法，其特征在于，所述利用所述量化值对所述当前帧音频信号进行归一化处理具体为：

对所述量化值进行内插平滑处理得到归一化因子；利用所述归一化因子对所述当前帧音频信号进行归一化处理。

8、如权利要求 1至 6中任一项所述的编码方法，其特征在于，所述稳定度参数为信号幅度变化程度参数，所述获得当前帧音频信号的稳定度参数具体为：

对当前帧音频信号按照预定的时间分辨率，提取相应个数的时域包络信计算所述时域包络信息的标准差 σ和均值 / ;

将所述标准差 σ除以所述均值 /得到信号幅度变化程度参数。

9、如权利要求 1至 6中任一项所述的编码方法，其特征在于，所述稳定度参数为信号幅度变化程度参数，所述获得当前帧音频信号的稳定度参数具体为：

对当前帧音频信号按照预定的时间分辨率 , 提取相应个数的时域包络信计算所述时域包络信息的最大偏差、或者计算所述时域包络信息与相邻的时域包络信息的最大幅度差，所得值即为信号幅度变化程度参数。

10、如权利要求 1至 6中任一项所述的编码方法，其特征在于，所述稳定度参数为信号幅度变化程度参数所在的区间标识，所述获得当前帧音频信号的稳定度参数具体为：

对当前帧音频信号按照预定的时间分辨率 , 提取相应个数的时域包络信息

计算所述时域包络信息的标准差 σ和均值 /；

将所述标准差 σ除以所述均值 /得到信号幅度变化程度参数；

将所述信号幅度变化程度参数与预置的阔值比较划分到对应的区间内，该区间对应的标识即为所述稳定度参数。

11、如权利要求 1至 6中任一项所述的编码方法，其特征在于，所述稳定度参数为信号幅度变化程度参数所在的区间标识，所述获得当前帧音频信号的稳定度参数具体为：

对当前帧音频信号按照预定的时间分辨率 , 提取相应个数的时域包络信计算所述时域包络信息的最大偏差、或者计算所述时域包络信息与相邻的时域包络信息的最大幅度差 , 所得值即为信号幅度变化程度参数；

5 12、如权利要求 1至 6中任一项所述的编码方法，其特征在于，所述稳定度参数为信号幅度变化程度参数，所述根据所述当前帧音频信号的稳定度参数，从所述当前帧音频信号中提取相应个数的时域包络信息具体为：比较所述信号幅度变化程度参数与指定个数的阔值的大小，将所述信号幅度变化程度参数划分在相应的区间内；

d 根据信号幅度变化程度参数所在的区间，选择与该区间对应的时域包络编码个数；

从所述当前帧音频信号中提取所述个数个时域包络信息。

13、一种音频信号的解码方法，其特征在于，包括：

从接收到的当前帧音频信号的编码码流中读取当前帧音频信号的稳定度 5 参数；

对所述时域包络编码码字进行解码得到所述音频信号的时域包络信息的 d 量化值；

对所述当前帧音频信号编码码流中的变换编码信号进行变换解码，利用所述量化值对变换解码后得到的当前帧音频信号进行反归一化处理，得到重构的音频信号。

14、如权利要求 13所述的解码方法，其特征在于，所述利用所述量化值 5 对变换解码后得到的当前帧音频信号进行反归一化处理具体为：

对所述量化值进行内插平滑得到归一化因子；

利用所述归一化因子对变换解码后得到的当前帧音频信号进行反归一化处理。

15、如权利要求 13所述的解码方法，其特征在于，所述稳定度参数为信号幅度变化程度参数，所述根据所述稳定度参数，按照和编码端相同的对应方式选择与所述稳定度参数对应的时域包络编码个数具体为：

比较所述信号幅度变化程度参数与指定个数的阔值的大小，将所述信号幅度变化程度参数划分在相应的区间内；

根据信号幅度变化程度参数所在的区间，按照和编码端相同的对应方式选择与该区间对应的时域包络编码个数。

16、一种音频信号的编码装置，其特征在于，包括：

稳定度获得单元，用于获得当前帧音频信号的稳定度参数；

17、如权利要求 16所述的编码装置，其特征在于，所述装置还包括：发送单元，用于将所述稳定度获得单元中的稳定度参数、所述量化编码单元中的时域包络的编码码字、以及所述变换编码单元中的变换编码结果打包发送。

18、如权利要求 16或 17所述的编码装置，其特征在于，所述稳定度参数为信号幅度变化程度参数，所述稳定度获得单元包括：

第一时域包络提取子单元，用于对当前帧音频信号按照预定的时间分辨率，提取相应个数的时域包络信息；

第一计算子单元，用于计算所述第一时域包络提取子单元中时域包络信息的标准差 σ和均值 / ;

第一信号幅度变化程度参数子单元，用于将所述第一计算子单元中得到的标准差 σ除以所述均值 /得到信号幅度变化程度参数。

19、如权利要求 16或 17所述的编码装置，其特征在于，所述稳定度参数为信号幅度变化程度参数，所述稳定度获得单元包括：

第二时域包络提取子单元，用于对当前帧音频信号按照预定的时间分辨率，提取相应个数的时域包络信息；

第二信号幅度变化程度参数子单元，用于计算所述第二时域包络提取子单元中的时域包络信息的最大偏差、或者计算所述时域包络信息与相邻的时域包络信息的最大幅度差 , 所得值即为信号幅度变化程度参数。

20、如权利要求 16或 17所述的编码装置，其特征在于，所述稳定度参数为信号幅度变化程度参数所在的区间标识，所述稳定度获得单元包括：第三时域包络提取子单元，用于对当前帧音频信号按照预定的时间分辨率，提取相应个数的时域包络信息；

第二计算子单元，用于计算所述第三时域包络提取子单元中时域包络信息的标准差 σ和均值 / ;

第三信号幅度变化程度参数子单元，用于将所述第二计算子单元中得到的标准差 σ除以所述均值 /得到信号幅度变化程度参数；

第一区间标识子单元 , 用于将所述第三信号幅度变化程度参数子单元中的信号幅度变化程度参数与预置的阔值比较划分到对应的区间内，该区间对应的标识即为所述稳定度参数。

21、如权利要求 16或 17所述的编码装置，其特征在于，所述稳定度参数为信号幅度变化程度参数所在的区间标识，所述稳定度获得单元包括：第四时域包络提取子单元，用于对当前帧音频信号按照预定的时间分辨率，提取相应个数的时域包络信息；

第四信号幅度变化程度参数子单元，用于计算所述第四时域包络提取子单元中的时域包络信息的最大偏差、或者计算所述时域包络信息与相邻的时域包络信息的最大幅度差，得到信号幅度变化程度参数；

第二区间标识子单元，用于将所述第四信号幅度变化程度参数子单元中的信号幅度变化程度参数与预置的阔值比较划分到对应的区间内，该区间对应的标识即为所述稳定度参数。

22、如权利要求 16或 17所述的编码装置，其特征在于，所述稳定度参数为信号幅度变化程度参数，所述时域包络提取单元包括：

第一划分子单元，用于比较所述信号幅度变化程度参数与指定个数的阔值的大小，将所述信号幅度变化程度参数划分在相应的区间内；

第一编码个数确定子单元，用于根据所述第一划分子单元所划分的信号幅度变化程度参数所在的区间，选择与该区间对应的时域包络编码个数；第一提取子单元，用于按照所述第一编码个数确定子单元所确定的个数，从所述当前帧音频信号中提取所述个数个时域包络信息。

23、一种音频信号的解码装置，其特征在于，包括：

稳定度参数单元，用于从接收到的当前帧音频信号的编码码流中读取当前帧音频信号的稳定度参数；

时域包络解码单元 , 用于对所述时域包络编码码字提取单元中的时域包络编码码字进行解码得到所述音频信号的时域包络信息的量化值；

24、如权利要求 23所述的解码装置，其特征在于，所述稳定度参数为信号幅度变化程度参数，所述时域包络编码码字提取单元包括：

第二划分子单元，用于比较所述信号幅度变化程度参数与指定个数的阔值的大小，将所述信号幅度变化程度参数划分在相应的区间内；

第二编码个数确定子单元，用于根据所述第二划分子单元所划分的信号幅度变化程度参数所在的区间，按照和编码端相同的对应方式选择与该区间对应的时域包络编码个数；

第二提取子单元，用于按照所述第二个编码个数确定子单元所确定的个数，从所述当前帧音频信号中提取所述个数个时域包络编码码字。