WO2016023322A1

WO2016023322A1 - 多声道声音信号编码方法、解码方法及装置

Info

Publication number: WO2016023322A1
Application number: PCT/CN2014/095394
Authority: WO
Inventors: 潘兴德; 吴超刚
Original assignee: 北京天籁传音数字技术有限公司
Priority date: 2014-08-15
Filing date: 2014-12-29
Publication date: 2016-02-18
Also published as: CN105336334B; CN105336334A

Abstract

一种多声道声音信号编码方法、解码方法及装置，该编码方法包括：采用修正离散余弦变换MDCT或修正离散正弦变换MDST，将第一多声道声音信号映射为第一频域信号（101）；将第一频域信号划分为不同时频子带（102）；在每个时频子带内，计算第一多声道声音信号的第一统计特性（103）；根据第一统计特性，估计主成分分析PCA映射模型（104）；采用PCA映射模型，将第一多声道声音信号映射为第二多声道声音信号（105）；根据时间、频率和声道的不同，对第二多声道声音信号中的至少一组和PCA映射模型进行感知编码，获得编码多声道码流（106）。由此可见，该编码方法采用了MDCT或MDST来进行时频映射，并且根据统计特性估计映射模型时，具体选取了PCA映射模型，可以实现更高的编码效率和编码质量。

Description

多声道声音信号编码方法、解码方法及装置

技术领域

本发明涉及音频处理技术领域，尤其涉及多声道声音信号编码方法、解码方法及装置。

背景技术

随着科技的发展，出现了多种对声音信号的编码技术，上述声音通常指的是语音、音乐、自然声音和人工合成声音等人耳可感知的信号在内的数字声音。目前，很多声音编码技术已经成为工业标准被大量应用，融入人们的日常生活中，常用的声音编码技术有杜比实验室的AC-3、数字影院系统公司的DTS、移动图像专家组(MPEG)组织的MP3和AAC、微软公司的WMA，以及索尼公司的ATRAC。

为了重现立体声的声音效果，现在多采用多个声道将多声道声音信号播放给用户，多声道声音信号的编码方法也从以AC-3和MP3为代表的和差立体声(M/S Stereo)和强度立体声(Intensity Stereo)等波形编码技术，演进到以MP3Pro、ITU EAAC+、MPEG Surround、Dolby DD+为代表的参数立体声(Parametric Stereo)和参数环绕声(Parametric Surround)技术。PS(包括Parametric Stereo和Parametric Surround)从双耳心理声学的角度出发，充分利用双耳时间/相位差(ITD/IPD)、双耳强度差(IID)、双耳相关性(IC)等心理声学空间特性，实现多声道声音信号的参数编码。

PS技术在编码端一般将多声道声音信号下混合(downmix)，生成1个和声道信号，对和声道信号采用波形编码(或者波形和参数混合编码，如EAAC+)，并将各声道对应和声道信号的ITD/IPD、IID和IC参数进行参数编码。在解码端，根据这些参数，从和声道信号中恢复多声道信号。也可以在编码时，将多声道信号分组，并在不同的声道组采用如上的PS编解码方法。也可以采用级联的方式，将多声道进行多级的PS编码。

实践证明，单纯的波形编码(和声道)和PS编码技术，虽然可以在较低的码率下实现较高的编码质量；但在较高的码率下，PS技术却不能进一步提升信号质量，不适合高保真的应用场合。其原因在于，PS技术在编码端只编码和声道信号，而丢掉了残差声道信号，导致解码时不能完全恢复原始信号。为此，MPEG Surround采用残差信息编码的方法，来弥补PS技术的不足。

但是，无论是传统的PS技术还是MPEG Surround技术，都过分依赖了双耳的心理声学特性，而忽略了多声道声音信号本身的统计特性。例如，传统的PS技术和MPEG Surround技术都没有利用声道对之间的统计冗余信息。而且，MPEG Surround采用残差信息编码时，和声道信号和残差声道信号间仍然存在统计冗余，从而无法兼顾编码效率和编码信号的质量。

发明内容

本发明提供了一种多声道声音信号编码方法、解码方法及装置，目的是为了解决现有技术的多声道声音信号编码方法中，存在统计冗余，无法兼顾编码效率和编码信号的质量的问题。

为实现上述目的，第一方面，本发明提供了一种多声道声音信号编码方法，该方法包括：A)采用修正离散余弦变换MDCT或修正离散正弦变换MDST，将第一多声道声音信号映射为第一频域信号；B)将所述第一频域信号划分为不同时频子带；C)在所述不同时频子带中的每个时频子带内，计算所述第一多声道声音信号的第一统计特性；D)根据所述第一统计特性，估计主成分分析PCA映射模型；E)采用所述PCA映射模型，将所述第一多声道声音信号映射为第二多声道声音信号；F)根据时间、频率和声道的不同，对所述第二多声道声音信号中的至少一组和所述PCA映射模型进行感知编码，并复用成编码多声道码流。

第二方面，本发明提供了一种多声道声音信号编码装置，该装置包括：时频映射单元，用于采用MDCT或MDST，将第一多声道声音信号映射为第一频域信号；将所述第一频域信号划分为不同时频子带；自适应子空间映射单元，用于在所述时频映射单元划分的不同时频子带中的每个时频子带内，计算所述第一多声道声音信号的第一统计特性；根据所述第一统计特性，估计PCA映射模型；采用所述PCA映射模型，将所述第一多声道声音信号映射为第二多声道声音信号；感知编码单元，用于根据时间、频率和声道的不同，对所述自适应子空间映射单元映射的第二多声道声音信号中的至少一组和所述PCA映射模型进行感知编码，并复用成编码多声道码流。

第三方面，本发明提供了一种多声道声音信号解码方法，该方法包括：A)对编码多声道码流进行解码，获得第二多声道声音信号中的至少一组和PCA映射模型；B)采用所述PCA映射模型，将所述第二多声道声音信号映射回第一多声道声音信号；C)采用逆的MDCT或逆的MDST，将所述第一多声道声音信号从频域映射为时域。

第四方面，本发明提供了一种多声道声音信号解码装置，该装置包括：感知解码单元，用于对编码多声道码流进行解码，获得第二多声道声音信号中的至少一组和PCA映射模型；子空间逆映射单元，用于采用所述感知解码单元获得的PCA映射模型，将所述感知解码单元获得的第二多声道声音信号映射回第一多声道声音信号；频时映射单元，用于采用逆的MDCT或逆的MDST，将所述子空间逆映射单元得到的第一多声道声音信号从频域映射为时域。

本发明实施例的多声道声音信号编码方法中，先采用MDCT或MDST，将第一多声道声音信号映射为第一频域信号，然后将第一频域信号划分为不同时频子带，再在每个时频子带内，计算第一多声道声音信号的第一统计特性，根据第一统计特性，估计PCA映射模型，以及采用该PCA映射模型，将第一多声道声音信号映射为第二多声道声音信号，根据时间、频率和声道的不同，对第二多声道声音信号中的至少一组和PCA映射模型进行感知编码，并复用成编码多声道码流。由上可见，本发明实施例中，具体采用了MDCT或MDST来进行时频映射，并且根据统计特性估计映射模型时，具体选取了PCA映射模型，由于MDCT或MDST具有很好的音频压缩特性，并且，PCA模型中的映射矩阵矢量间是正交的，可以将多声道信号成分集中在尽可能少的声道上，有利于在较低的码率下降低编码信号的维度，因此可以最大限度的降低声道间的统计冗余，实现更高的编码效率的同时，保证编码信号的质量。

附图说明

图1为本发明一个实施例中的多声道声音信号编码方法流程图；

图2为本发明另一个实施例中的多声道声音信号编码方法流程图；

图3为本发明另一个实施例中的多声道声音信号编码方法流程图；

图4为本发明另一个实施例中的多声道声音信号编码方法流程图；

图5为本发明另一个实施例中的多声道声音信号编码方法流程图；

图6为本发明一个实施例中的多声道声音信号解码方法流程图；

图7为本发明一个实施例中的多声道声音信号编码装置结构示意图；

图8为本发明一个实施例中的多声道声音信号解码装置结构示意图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

本发明实施例中的多声道声音信号编码方法，不同于现有技术中的其他方法，充分利用了多声道声音信号的统计特性和心理声学特性，在获得极高的编码效率的同时，保证编码信号的质量，在进行自适应子空间映射时，采用了主成分分析(Principal Component Analysis，PCA)的方法，可以更好的估计和利用声道间信号的统计特性，并最大限度的降低声道间的统计冗余，实现更高的编码效率。特别地，本发明实施例针对采用MDCT或MDST的多声道声音编解码器，在MDCT/MDST域采用PCA映射方法，消除多声道信号的统计冗余，将多声道信号集中在尽可能少的声道上。

图1为本发明一个实施例中的多声道声音信号编码方法流程图，该方法包括：

步骤101，采用修正离散余弦变换(MDCT,Modified Discrete Cosine Transform)或修正离散正弦变换(MDST,Modified Discrete Sine Transform)，将第一多声道声音信号映射为第一频域信号。

其中，第一多声道声音信号的最初表现形式为时域信号u(m,t)，通过上述映射处理，可以得到多声道频域信号x(m,k)，其中，m为声道序号，t为帧(或子帧)序号，k为频率序号。

步骤102，将第一频域信号划分为不同时频子带。

本发明实施例中，若步骤101获得的第一频域信号为x(m,k)，可以将x(m,k)划分为不同的时频子带x_i(t,k)，其中，m为声道序号，i是时频子带的序号，t为帧(或子帧)序号，k为频率序号。

其中，在步骤101之前，待编码的多声道声音信号可以先被分成待编码的帧，再进行MDCT/MDST变换。如果采用较大的帧长，可能会将一帧数据再分解为多个子帧，然后再进行MDCT/MDST变换。通过MDCT/MDST变换获得频域信号后，可以按频率顺序组成多个频率子带；也可以将多个MDCT/MDST获得的频域信号，组成二维时间-频率平面，在此平面进行时频区域划分，以便获得待编码的时频子带。进一步，将该时频区域在各声道时频平面投影，可以获得待编码的时频子带x_i(t,k)，i是该时频子带的序号，t为帧(或子帧)序号。假设每个时频子带是矩形区域，则时频子带x_i(t,k)内的信号范围为：t_i-1≤t＜t_i,k_i-1≤k＜k_i,t_i-1和t_i为该子带的起始和终止帧(或子帧)序号，k_i-1和k_i为该子带的起始和终止频率或子带序号。若时频子带总个数为N，则i≤N。方便起见，某时频子带的区域可用(t,k)表示。需要注意的是，每个时频子带均包含各声道在该时频区域投影的信号，当需要特指某声道在该时频区域的投影时，可用x_i(t,k,m)表示。

步骤103，在不同时频子带中的每个时频子带内，计算第一多声道声音信号的第一统计特性。

步骤104，根据第一统计特性，估计PCA映射模型。

具体地，可以根据第一统计特性自适应调整PCA映射模型的映射系数。

本发明实施例中的第一统计特性，可以选择一阶统计量(均值)、二阶统计量(方差和相关系数)及高阶统计量(高阶矩)或其变换形式，通常较多的选择二阶统计量。较佳地，在估计PCA映射模型时，可以采用二阶统计量作为第一统计特性，例如，协方差矩阵。

步骤105，采用PCA映射模型，将第一多声道声音信号映射为第二多声道声音信号。

具体地，可以在不同时频子带内，计算多声道声音信号x_i(t,k)的统计特性，并估计优化子空间映射模型W_i(t,k)，采用估计的映射模型，将多声道信号映射到新的子空间，获得新的一组多声道信号z_i(t,k)。

步骤106，根据时间、频率和声道的不同，对第二多声道声音信号中的至少一组和PCA映射模型进行感知编码，并复用成编码多声道码流。

具体地，可以将至少一组新的多声道信号z_i(t,k)和对应的映射模型W_i(t,k)进行感知编码，并复用成编码多声道码流。

其中，上述感知编码具体可以为分级感知编码。

由上述处理过程可知，本发明实施例的多声道声音信号编码方法中，先采用MDCT或MDST，将第一多声道声音信号映射为第一频域信号，然后将第一频域信号划分为不同时频子带，再在每个时频子带内，计算第一多声道声音信号的第一统计特性，根据第一统计特性，估计PCA映射模型，以及采用该PCA映射模型，将第一多声道声音信号映射为第二多声道声音信号，根据时间、频率和声道的不同，对第二多声道声音信号中的至少一组和PCA映射模型进行感知编码，并复用成编码多声道码流。由上可见，本发明实施例中，具体采用了MDCT或MDST来进行时频映射，并且根据统计特性估计映射模型时，具体选取了PCA映射模型，由于MDCT或MDST具有很好的音频压缩特性，并且，PCA模型中的映射矩阵矢量间是正交的，可以将多声道信号成分集中在尽可能少的声道上，有利于在较低的码率下降低编码信号的维度，因此可以最大限度的降低声道间的统计冗余，实现更高的编码效率的同时，保证编码信号的质量。

考虑到在多声道声音信号中，有些声道的声音成分和其他声道的声音成分显著不同。此时，可以将这些声道单独分组，采用上述方法，其优化映射模型提取更加精确。因此，针对此类的多声道声音信号进行编码时，也可以增加一个声道分组处理的步骤，来提高编码效率。

图2为本发明另一个实施例中的多声道声音信号编码方法流程图，该实施例中在对多声道声音信号进行时频映射之后，增加了一个声道分组处理的步骤，该方法包括：

步骤201，采用MDCT或MDST，将第一多声道声音信号映射为第一频域信号。

步骤202，将第一频域信号划分为不同时频子带。

其中，编码的声音信号可以先被分成待编码的帧，再进行时频变换，如果采用较大的帧长，可能会将一帧数据再分解为多个子帧，再进行时频变换。获得频域信号后，可以按频率顺序组成多个频率子带；也可以将多个时频变换获得的频域信号，组成二维时间-频率平面，在此平面进行时频区域划分，可以获得待编码的时频子带。

步骤203，在不同时频子带中的每个时频子带内，计算第一多声道声音信号的第二统计特性，根据第二统计特性，将第一多声道声音信号划分为多个分组声音信号。

本发明实施例中，在不同时频子带内，计算多声道声音信号x_i(t,k)的统计特性；根据各声道声音成分的统计特性，将多声道信号分为一组或多组声道分组，且每组包含至少一个声道信号；对于一个声道的分组，直接进行感知编码，对于多于一个声道的分组，执行后续的处理。

本发明的第二统计特性，可以采用一阶统计量(均值)、二阶统计量(方差和相关系数)及高阶统计量(高阶矩)及其变换形式，通常较多的选择二阶统计量，特别是相关系数。为节省计算量，也可以利用第一统计特性作为分组的评判基准，此时，第二统计特性和第一统计特性取值可以相同。

根据统计特性将多声道声音信号进行分组处理时，可以根据需要灵活选取相应的分组方式，可以采用固定的分组方式，也可以采用自适应的分组方式。本发明实施例中，如x_i(t,k)被分为L个分组，其中某个声道分组l中包含x_i(t,k)中的M_l个声道，可以是x_i(t,k)中连续的M_l个声道，也可以是x_i(t,k)中不连续的任意M_l个声道。当采用自适应的分组方法时，每个子带的分组信息需要被编码并复用到码流中，每个时频子带都需要一组声道分组信息。自适应的分组算法可以有多种，以基于声道间互相关的分组算法为例，其主要步骤为：

1)计算时频子带x_i(t,k)中各声道信号间的协方差矩阵C；

2)根据矩阵C，将多声道时频子带x_i(t,k)分为几个分组。具体来说，若两个声道m，n之间的归一化协方差系数C(m,n)的绝对值大于阈值,则将声道m、n分入同一个声道分组中，反之，则归入不同的分组。每个子带的分组信息包括分组数及每个分组所包含的声道的序号。

针对步骤203划分的每个分组声音信号，将每个分组声音信号作为第一多声道声音信号执行步骤204至207。

步骤204，在不同时频子带中的每个时频子带内，计算第一多声道声音信号的第一统计特性。

步骤205，根据第一统计特性，估计PCA映射模型。

步骤206，采用PCA映射模型，将第一多声道声音信号映射为第二多声道声音信号。

本发明实施例中，可以根据各声道声音成分的统计特性，估计PCA映射模型W_i(t,k)；采用估计的PCA映射模型，将多声道信号映射到新的子空间，获得新的一组多声道信号z_i(t,k)。

步骤207，根据时间、频率和声道的不同，对第二多声道声音信号中的至少一组、声道分组信息和PCA映射模型进行感知编码，并复用成编码多声道码流。

其中，可以将至少一组新的多声道信号z_i(t,k)和对应的映射模型W_i(t,k)、声道分组信息进行感知编码，将所有感知编码信息复用，获得编码多声道码流。

另外，作为一个可替换的方案，特别是在较低的码率下，也可以选择在步骤101时频映射后、步骤102划分不同子带前，进行分组；这会带来一个显而易见的好处，即传输更少的分组信息，在较低的码率下，减少分组信息所占的比特更具实用性。此时，可以在执行步骤101之后，先计算第一多声道声音信号的第二统计特性，然后根据第二统计特性，将第一多声道声音信号划分为多个分组声音信号，针对每个分组声音信号，将每个分组声音信号作为第一多声道声音信号执行步骤102至106。

图3为本发明另一个实施例中的多声道声音信号编码方法流程图，该实施例中，先对多声道声音信号进行分组处理，然后针对每个分组声音信号进行时频映射等处理，该方法包括：

步骤301，计算第一多声道声音信号的第三统计特性，根据第三统计特性，将第一多声道声音信号划分为多个分组声音信号，对声道分组信息进行编码并复用到编码多声道码流中。

本发明实施例中，可以计算多声道声音信号u(m,t)的统计特性，并根据统计特性，将多声道声音信号分为一组或多组声道分组，且每组包含至少一个声道信号，其中，m为声道序号，t为帧(或子帧)序号。

此外，第三统计特性，可以采用一阶统计量(均值)、二阶统计量(方差和相关系数)及高阶统计量(高阶矩)及其变换形式，通常较多的选择二阶统计量，特别是相关系数。

根据统计特性将多声道信号u(m,t)分为一组或多组声道分组u_l(m,t)(l为该声道分组的序号)时，可以灵活选取相应的分组方式，可以采用固定的分组方式，也可以采用自适应的分组方式。如声道分组u_l(m,t)中包含u(m,t)中的M_l个声道，可以是u(m,t)中连续的M_l个声道，也可以是u(m,t)中不连续的任意M_l个声道。当采用自适应的分组方法时，分组信息需要被编码并复用到码流中，此时对于每帧信号只需要一组分组信息。自适应的分组算法可以有多种，以基于声道间互相关的分组算法为例，其主要步骤为：

1)计算多声道信号u(m,t)中各声道信号间的协方差矩阵C；

2)根据矩阵C，将多声道信号u(m,t)分为几个分组。具体来说，若两个声道m，n之间的归一化协方差系数C(m,n)的绝对值大于阈值,则将声道m、n分入同一个声道分组中，反之，则归入不同的分组。

针对每个分组声音信号，将每个分组声音信号作为第一多声道声音信号执行步骤302至307。

步骤302，采用MDCT或MDST，将第一多声道声音信号映射为第一频域信号。

步骤303，将第一频域信号划分为不同时频子带。

采用MDCT或MDST，将分组后的多声道时域信号u_l(m,t)映射为多声道频域信号x(m,k)，并将时频映射后的信号划分为不同时频子带x_i(t,k)，其中，i是该时频子带的序号，t为帧(或子帧)序号。

步骤304，在不同时频子带中的每个时频子带内，计算第一多声道声音信号的第一统计特性。

步骤305，根据第一统计特性，估计PCA映射模型。

本发明实施例中采用了自适应子空间映射来估计优化子空间映射模型，上述自适应子空间映射不同于已有的多声道声音编码方法，创新的采用了子空间映射(Subspace Mapping)方法，即根据信号的统计特性，估计多声道的优化子空间映射模型，该模型是一个自适应的线性变换矩阵，子空间映射方法，具体采用近些年发展起来的PCA映射方法。

步骤306，采用PCA映射模型，将第一多声道声音信号映射为第二多声道声音信号。

其中，可以在不同时频子带内，计算多声道声音信号x_i(t,k)的统计特性，并估计PCA映射模型W_i(t,k)；采用估计的映射模型，将多声道信号映射到新的子空间，获得新的一组多声道信号z_i(t,k)。

步骤307，根据时间、频率和声道的不同，对第二多声道声音信号中的至少一组和PCA映射模型进行感知编码，并复用成编码多声道码流。

其中，可以将至少一组新的多声道信号z_i(t,k)和对应的映射模型W_i(t,k)进行感知编码；将所有感知编码信息复用，获得编码多声道码流。

本发明实施例中的感知编码，可以采用如下任何一种声音编码方法：

波形编码：如MP3、AAC中采用的感知量化和哈夫曼熵编码，AC-3中采用的指数-尾数编码、OggVorbis和TwinVQ中采用的感知矢量量化编码等；

参数编码：如MPEG HILN中采用的谐波、独立弦成分和噪声编码、MPEG HVXC中采用的谐波矢量激励编码、AMR WB+中采用码激励和变换码激励(TCX)编码等；

波形-参数混合编码：如MP3Pro、AAC+、AMR WB+等方法中低频采用波形编码，高频采用频带扩展参数编码。

本发明实施例中的自适应子空间映射，即采用PCA映射模型，并根据声道间统计特性自适应调整PCA模型的映射系数。

本发明的自适应子空间映射策略，对于实现本发明的目的，即在编码多声道信号获得极高的编码效率的同时保证编码信号的质量，有着显著的意义。

子空间映射模型可以描述如下：

1.原子空间映射关系：

设M-维声源矢量为s，s＝{s₁,s₂,…，s_M}，

x，x＝{x₁,x₂,v，x_M}为现子空间的观测矢量，且

x＝As (1)

其中A为现子空间映射矩阵。

2.新子空间映射关系：

z，z＝{z₁,z₂,…，z_M}为新子空间的观测矢量，且

z＝Wx (2)

进一步的，本发明可以采用将MDCT/MDST域的频谱(即频域信号)分成谱线间隔的至少两个子频谱。在分成两个子频谱时，MDCT/MDST频谱分为奇序号子频谱x^o _i(t,k)和偶序号子频谱x^e _i(t,k)，其中，x^o _i(t,k,m)＝x_i(t,2*k+1,m),x^e _i(t,k,m)＝x_i(t,2*k,m)；在分成四个子谱线时，可以将上述的奇序号子频谱进一步分为奇奇序号子频谱x^oo _i(t,k))和奇偶序号子频谱x^oe _i(t,k)，以及将可以将上述的偶序号子频谱进一步分为偶奇序号子频谱x^eo _i(t,k)和偶偶序号子频谱x^ee _i(t,k),其中，x^oo _i(t,k,m)＝x_i(t,4*k+1,m),x^oe _i(t,k,m)＝x_i(t,4*k+3,m),x^eo _i(t,k,m)＝x_i(t,4*k+2,m),x^ee _i(t,k,m)＝x_i(t,4*k,m)。如此划分成子频谱后，再进行上述的多声道编码，能够在一定程度上改进编码时导致的失真现象。

图4为本发明另一个实施例中的多声道声音信号编码方法流程图，该方法中，在进行时频映射之后，先将频域信号划分为多个子频谱，然后再针对每个子频谱划分时频子带，此时，本发明的编码方法包括下述处理过程。

步骤401，采用MDCT或MDST，将第一多声道声音信号映射为第一频域信号。

其中，可以采用MDCT或MDST，将多声道声音时域信号u(m,t)映射为多声道频域信号x(m,k)。

步骤402，根据第一频域信号中序号的奇偶，将第一频域信号划分为多个子频谱。

步骤403，将第一频域信号划分为不同时频子带。

本发明实施例中，时频子带为包括所有子频谱的时频子带，具体地，可以包括奇频谱和偶频谱，第一多声道声音信号可以用x_i(t,k)表示。

步骤404，在不同时频子带中的每个时频子带内，计算第一多声道声音信号的第二统计特性，根据第二统计特性，将第一多声道声音信号划分为多个分组声音信号。

针对每个分组声音信号，将每个分组声音信号作为第一多声道声音信号执行步骤405至408。

其中，步骤404为可选步骤，即本发明实施例中也可以不进行分组处理。

步骤405，在不同时频子带中的每个时频子带内，计算第一多声道声音信号的第一统计特性。

步骤406，根据第一统计特性，估计PCA映射模型。

步骤407，采用PCA映射模型，将第一多声道声音信号映射为第二多声道声音信号。

步骤408，根据时间、频率和声道的不同，对第二多声道声音信号中的至少一组、声道分组信息和PCA映射模型进行感知编码，并复用成编码多声道码流。

具体地，可以将至少一组新的多声道信号z_i(t,k)和对应的映射模型W_i(t,k)、声道分组信息进行感知编码，获得编码多声道码流。

本发明实施例中,当不进行步骤404的分组处理时，步骤408中也不包括对声道分组信息进行感知编码。

图5为本发明另一个实施例中的多声道声音信号编码方法流程图，该方法中，先对多声道声音信号进行分组处理，然后针对每个分组信号进行时频映射，并在进行时频映射之后，将频域信号划分为多个子频谱，再针对每个子频谱划分时频子带，此时，本发明的编码方法包括下述处理过程。

步骤501，计算第一多声道声音信号的第三统计特性，根据第三统计特性，将第一多声道声音信号划分为多个分组声音信号，对声道分组信息进行编码并复用到编码多声道码流中。

针对每个分组声音信号，将每个分组声音信号作为第一多声道声音信号执行步骤502至508。

步骤502，采用MDCT或MDST，将第一多声道声音信号映射为第一频域信号。

步骤503，根据第一频域信号中序号的奇偶，将第一频域信号划分为多个子频谱。

步骤504，针对多个子频谱中的每个子频谱，将每个子频谱划分为不同时频子带。

本发明实施例中，时频子带为包括所有子频谱的时频子带，具体地，可以包括奇频谱和偶频谱。

步骤505，在不同时频子带中的每个时频子带内，计算第一多声道声音信号的第一统计特性。

步骤506，根据第一统计特性，估计PCA映射模型。

步骤507，采用PCA映射模型，将第一多声道声音信号映射为第二多声道声音信号。

步骤508，根据时间、频率和声道的不同，对第二多声道声音信号中的至少一组和PCA映射模型进行感知编码，并复用成编码多声道码流。

本发明实施例中采用了PCA技术，根据信号的统计特性，估计多声道的 PCA映射模型，该模型是一个自适应的线性变换矩阵。其中，自适应PCA子空间映射策略，对于实现本发明的目的，即在编码多声道信号获得极高的编码效率的同时保证编码信号的质量，有着显著的意义。

设x，x＝{x₁,x₂,…，x_M}为现子空间的观测矢量

z，z＝{z₁,z₂,…，z_M}为新子空间的观测矢量，且

z＝Wx (1)

W为新子空间映射矩阵。且x，z为去均值标量随机变量组成的矢量。

PCA模型的基本计算步骤如下：

步骤一，计算观测矢量x的协方差矩阵C；

对每个分组中的第i个时频子带x_i(t,k)进行PCA分析时，M为分组所含的声道数，x_i(t,k,m)则对应为观测矢量x中元素x_m的一组样本点(t_i-1≤t＜t_i,k_i-1≤k＜k_i,t_i-1和t_i为该子带的起始和终止帧(或子帧)序号，k_i-1和k_i为该子带的起始和终止频率或子带序号)。

1)对x_i(t,k,m)进行去均值处理；

2)若该时频子带只包含一个帧(或子帧)，即t_i-1+1＝t_i，则协方差矩阵C可通过如下公式进行运算：

若该时频子带包含多个帧(或子帧)，即t_i-1+1<t_i时，则C(m,n)的运算可以采用如下公式进行计算：

也可以先将x_m＝x_i(t,k,m)转换为一维矢量，然后再进行运算，即x^e _m＝Vx_i(t，k，m),V为转换矩阵；

步骤二，计算协方差矩阵的特征向量e₁、e₂、…、e_M和特征值λ₁、λ₂、…、λ_M，特征值按由大到小的顺序排序；

步骤三，将观测矢量x映射到特征矢量张成的空间之中，获得映射矢量z，即z＝Wx。

PCA模型中的映射矩阵矢量间是正交的，可以将多声道信号成分集中在尽可能少的声道上，有利于在较低的码率下降低编码信号的维度。

本发明的感知编码，分为多声道声音信号z(m,k)编码和对应的映射模型W(m,k)编码。其中，多声道声音信号z(m,k)编码可以采用如下任何一种声音编码方法：

波形编码，如MP3、AAC中采用的感知量化和哈夫曼熵编码，AC-3中采用的指数-尾数编码、OggVorbis和TwinVQ中采用的感知矢量量化编码等；

参数编码，如MPEG HILN中采用的谐波、独立弦成分和噪声编码、MPEG HVXC中采用的谐波矢量激励编码、AMR WB+中采用的码激励和变换码激励(TCX)编码等；

波形-参数混合编码，如MP3Pro、AAC+、AMR WB+等方法中低频采用波形编码，高频采用频带扩展参数编码。

映射模型编码可以编码对应的映射矩阵(即特征矢量)，也可以编码该模型的其他变换形式，亦可以直接编码借以计算映射矩阵的协方差矩阵。映射模型编码时，可以采用众所周知的标量量化、矢量量化和预测编码等方法，也可以采用熵编码(如huffman编码或算数编码)来进一步提高编码效率，如当频域信号划分为奇偶不同的子频谱(或多个子频谱)时,奇频谱的映射矩阵与偶频谱的映射矩阵之间是相互关联的,即存在冗余；相邻的频带的映射矩阵间也存在冗余,利用这些冗余信息可以提高编码效率。比如可以采用奇频谱子带的映射矩阵与相邻偶频谱子带的映射矩阵进行联合矢量编码的方法。

本发明实施例的感知编码，将至少一组新的多声道信号和对应的映射模型进行感知编码。可以根据当前编码的目标码率，以及新的多声道信号的感知重要度，选择编码的信号成分和对应的映射模型参数。

本发明的自适应子空间映射和感知编码方法，也可以提供可分级的编码，即多声道声音信号只编码一次，获得一个声音码流，即可提供多码率和质量的传输及解码，从而支持多种类型用户的不同应用需求。在支持可分级编码时，感知编码模块可进一步分解为如下步骤：

步骤一，选择最重要的至少一组信号和对应的映射模型，进行感知编码，并且该部分码流的码率不高于基础层码率约束；

步骤二，选择第二重要的至少一组信号和对应的映射模型，进行感知编码，并且该部分码流的码率不高于第一增强层码率约束；

步骤三，选择第三重要的至少一组信号和对应的映射模型，进行感知编码，并且该部分码流的码率不高于第二增强层码率约束；

步骤四，以此类推，直至实现无损编码，获得N层码流。

步骤五，所有N层码流复用成一个压缩流。

在可分级编码的应用场合，根据服务请求从可分级码流重新复合的压缩流，应至少包括基础层码流，在较高的码率下，可以按重要度顺序复用增强层码流。

图6为本发明一个实施例中的多声道声音信号解码方法流程图，该方法包括：

步骤601，对编码多声道码流进行解码，获得第二多声道声音信号中的至少一组和PCA映射模型。

步骤602，采用PCA映射模型，将第二多声道声音信号映射回第一多声道声音信号。

步骤603，采用修正离散余弦逆变换IMDCT或修正离散正弦逆变换IMDST，将第一多声道声音信号从频域映射为时域。

其中，当第一多声道声音信号在频域为多个分组声音信号时，在步骤603之前，还可以包括：对码流中的声道分组信息进行解码，获得解码的声道分组信息；根据解码的声道分组信息将多个分组声音信号进行分组复原，获得第三多声道声音信号，将第三多声道声音信号作为第一多声道声音信号执行步骤603。

本发明实施例中，当第一多声道声音信号在时域为多个分组声音信号时，在步骤601中，还可以包括：对编码多声道码流进行解码，获得解码的声道分组信息；在步骤603之后，还可以包括：根据解码的声道分组信息，将所述多个分组声音信号进行分组复原，获得第四多声道声音信号。

当第一多声道声音信号在频域为多个子频谱时，在步骤603之前，还可以包括：将每个声道的多个子频谱恢复成自然顺序的频域信号；将所述自然顺序的频域信号作为第一多声道声音信号，执行步骤603。

此外，步骤601之前，还可以包括：对编码多声道码流进行解复用处理，获得多个分层码流；将每个分层码流作为编码多声道码流执行步骤601；当对全部分层码流都执行步骤601后，再统一执行步骤602和步骤603。

图7为本发明一个实施例中的多声道声音信号编码装置结构示意图，该装置包括：

时频映射单元701，用于采用MDCT或MDST，将第一多声道声音信号映射为第一频域信号；将所述第一频域信号或所述第一子带信号划分为不同时频子带；

自适应子空间映射单元702，用于在所述时频映射单元701划分的不同时频子带中的每个时频子带内，计算所述第一多声道声音信号的第一统计特性；根据所述第一统计特性，估计PCA映射模型；采用所述PCA映射模型，将所述第一多声道声音信号映射为第二多声道声音信号；

感知编码单元703，用于根据时间、频率和声道的不同，对所述自适应子空间映射单元702映射的第二多声道声音信号中的至少一组和所述PCA映射模型进行感知编码，并复用成编码多声道码流。

较佳地，还包括：

第一声道分组单元，用于在所述自适应子空间映射单元702在不同时频子带中的每个时频子带内，计算所述第一多声道声音信号的第一统计特性之前，在所述时频映射单元701划分的不同时频子带中的每个时频子带内，计算所述第一多声道声音信号的第二统计特性；根据所述第二统计特性，将所述第一多声道声音信号划分为多个分组声音信号；

所述自适应子空间映射单元702和所述感知编码单元703具体用于，针对所述第一声道分组单元划分的每个分组声音信号，将所述每个分组声音信号作为所述第一多声道声音信号进行处理，所述感知编码单元703还用于对声道分组信息进行感知编码。

较佳地，还包括：

第二声道分组单元，用于在所述时频映射单元701采用MDCT或MDST，将第一多声道声音信号映射为第一频域信号之前，计算所述第一多声道声音信号的第三统计特性；根据所述第三统计特性，将所述第一多声道声音信号划分为多个分组声音信号，并对声道分组信息进行感知编码；

所述时频映射单元701、所述自适应子空间映射单元702和所述感知编码单元703具体用于，针对所述第二声道分组单元划分的每个分组声音信号，将所述每个分组声音信号作为所述第一多声道声音信号进行处理。

较佳地，还包括：

子频谱划分单元，用于在所述时频映射单元701将所述第一频域信号划分为不同时频子带之前，根据所述第一频域信号中序号的奇偶，将所述第一频域信号划分为多个子频谱；

所述时频映射单元701、所述自适应子空间映射单元702和所述感知编码单元703具体用于，针对所述子频谱划分单元划分的多个子频谱中的每个子频谱，将所述每个子频谱作为所述第一频域信号进行处理。

图8为本发明一个实施例中的多声道声音信号解码装置结构示意图，该装置包括：

感知解码单元801，用于对编码多声道码流进行解码，获得第二多声道声音信号中的至少一组和PCA映射模型；

子空间逆映射单元802，用于采用所述感知解码单元801获得的PCA映射模型，将所述感知解码单元801获得的第二多声道声音信号映射回第一多声道声音信号；

频时映射单元803，用于采用IMDCT或IMDST，将所述子空间逆映射单元802得到的第一多声道声音信号从频域映射为时域。

较佳地，所述子空间逆映射单元802得到的第一多声道声音信号在频域为多个分组声音信号；

所述感知解码单元801具体用于，对编码多声道码流进行解码，获得第二多声道声音信号中的至少一组、声道分组信息和PCA映射模型；

所述装置还包括：

第一分组复原单元，用于在所述频时映射单元803采用IMDCT或IMDST，将所述子空间逆映射单元802得到的第一多声道声音信号从频域映射为时域之前，根据解码的声道分组信息将所述多个分组声音信号进行分组复原，获得第三多声道声音信号；

所述频时映射单元803具体用于，将所述第一分组复原单元获得的第三多声道声音信号作为所述第一多声道声音信号进行处理。

较佳地，所述频时映射单元803进行映射处理后的第一多声道声音信号在时域为多个分组声音信号；

所述装置还包括：

第二分组复原单元，用于在所述频时映射单元803采用IMDCT或IMDST，将所述子空间逆映射单元802得到的第一多声道声音信号从频域映射为时域之后，根据所述声道分组信息将所述多个分组声音信号进行分组复原，获得第四多声道声音信号。

较佳地，所述子空间逆映射单元802获得的第一多声道声音信号在频域为多个子频谱，所述装置还包括：

子频谱恢复单元，用于所述频时映射单元803采用IMDCT或IMDST，将所述第一多声道声音信号从频域映射为时域之前，将所述子空间逆映射单元802获得的第一多声道声音信号中每个声道的多个子频谱恢复成自然顺序的频域信号；

所述频时映射单元803具体用于，将所述自然顺序的频域信号作为所述第一多声道声音信号进行处理。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种多声道声音信号编码方法，其特征在于，所述方法包括：

A)采用修正离散余弦变换MDCT或修正离散正弦变换MDST，将第一多声道声音信号映射为第一频域信号；

B)将所述第一频域信号划分为不同时频子带；

C)在所述不同时频子带中的每个时频子带内，计算所述第一多声道声音信号的第一统计特性；

D)根据所述第一统计特性，估计主成分分析PCA映射模型；

E)采用所述PCA映射模型，将所述第一多声道声音信号映射为第二多声道声音信号；

F)根据时间、频率和声道的不同，对所述第二多声道声音信号中的至少一组和所述PCA映射模型进行感知编码，并复用成编码多声道码流。
如权利要求1所述的方法，其特征在于，在所述不同时频子带中的每个时频子带内，计算所述第一多声道声音信号的第一统计特性之前，还包括：

在所述不同时频子带中的每个时频子带内，计算所述第一多声道声音信号的第二统计特性；根据所述第二统计特性，将所述第一多声道声音信号划分为多个分组声音信号；

针对每个分组声音信号，将所述每个分组声音信号作为所述第一多声道声音信号执行步骤C)至F)；

所述步骤F)具体包括:根据时间、频率和声道的不同，对第二多声道声音信号中的至少一组、声道分组信息和PCA映射模型进行感知编码，并复用成编码多声道码流。
如权利要求1所述的方法，其特征在于，所述采用修正离散余弦变换MDCT或修正离散正弦变换MDST，将第一多声道声音信号映射为第一频域信号之前，还包括：

计算所述第一多声道声音信号的第三统计特性；根据所述第三统计特性，将所述第一多声道声音信号划分为多个分组声音信号，对声道分组信息进行编码并复用到编码多声道码流中；

针对每个分组声音信号，将所述每个分组声音信号作为所述第一多声道声音信号执行步骤A)至F)。
如权利要求1至3中任一权利要求所述的方法，其特征在于，所述将所述第一频域信号划分为不同时频子带之前，还包括：

根据所述第一频域信号中序号的奇偶，将所述第一频域信号划分为多个子频谱；

针对所述多个子频谱中的每个子频谱，将所述每个子频谱作为所述第一频域信号执行步骤B)至F)。
一种多声道声音信号编码装置，其特征在于，所述装置包括：

时频映射单元，用于采用修正离散余弦变换MDCT或修正离散正弦变换MDST，将第一多声道声音信号映射为第一频域信号；将所述第一频域信号划分为不同时频子带；

自适应子空间映射单元，用于在所述时频映射单元划分的不同时频子带中的每个时频子带内，计算所述第一多声道声音信号的第一统计特性；根据所述第一统计特性，估计主成分分析PCA映射模型；采用所述PCA映射模型，将所述第一多声道声音信号映射为第二多声道声音信号；

感知编码单元，用于根据时间、频率和声道的不同，对所述自适应子空间映射单元映射的第二多声道声音信号中的至少一组和所述PCA映射模型进行感知编码，并复用成编码多声道码流。
如权利要求5所述的装置，其特征在于，还包括：

第一声道分组单元，用于在所述自适应子空间映射单元在不同时频子带中的每个时频子带内，计算所述第一多声道声音信号的第一统计特性之前，在所述时频映射单元划分的不同时频子带中的每个时频子带内，计算所述第一多声道声音信号的第二统计特性；根据所述第二统计特性，将所述第一多声道声音信号划分为多个分组声音信号；

所述自适应子空间映射单元和所述感知编码单元具体用于，针对所述第一声道分组单元划分的每个分组声音信号，将所述每个分组声音信号作为所述第一多声道声音信号进行处理，所述感知编码单元还用于对声道分组信息进行感知编码。
如权利要求5所述的装置，其特征在于，还包括：

第二声道分组单元，用于在所述时频映射单元采用修正离散余弦变换MDCT或修正离散正弦变换MDST，将第一多声道声音信号映射为第一频域信号之前，计算所述第一多声道声音信号的第三统计特性；根据所述第三统计特性，将所述第一多声道声音信号划分为多个分组声音信号，并对声道分组信息进行感知编码；

所述时频映射单元、所述自适应子空间映射单元和所述感知编码单元具体用于，针对所述第二声道分组单元划分的每个分组声音信号，将所述每个分组声音信号作为所述第一多声道声音信号进行处理。
如权利要求5所述的装置，其特征在于，还包括：

子频谱划分单元，用于在所述时频映射单元将所述第一频域信号划分为不同时频子带之前，根据所述第一频域信号中序号的奇偶，将所述第一频域信号划分为多个子频谱；

所述自适应子空间映射单元和所述感知编码单元具体用于，针对所述子频谱划分单元划分的多个子频谱中的每个子频谱，将所述每个子频谱作为所述第一频域信号进行处理。
一种多声道声音信号解码方法，其特征在于，所述方法包括：

A)对编码多声道码流进行解码，获得第二多声道声音信号中的至少一组和主成分分析PCA映射模型；

B)采用所述PCA映射模型，将所述第二多声道声音信号映射回第一多声道声音信号；

C)采用修正离散余弦逆变换IMDCT或修正离散正弦逆变换IMDST，将所述第一多声道声音信号从频域映射为时域。
如权利要求9所述的方法，其特征在于，所述第一多声道声音信号在频域为多个分组声音信号；在所述采用IMDCT或IMDST，将所述第一多声道声音信号从频域映射为时域之前，还包括：

对码流中的声道分组信息进行解码，获得解码的声道分组信息；根据解码的声道分组信息将所述多个分组声音信号进行分组复原，获得第三多声道声音信号；

将所述第三多声道声音信号作为所述第一多声道声音信号执行步骤C)。
如权利要求9所述的方法，其特征在于，所述第一多声道声音信号在时域为多个分组声音信号；

所述步骤A)还包括：对编码多声道码流进行解码，获得解码的声道分组信息；

在所述采用IMDCT或IMDST，将所述第一多声道声音信号从频域映射为时域之后，还包括：

根据所述解码的声道分组信息，将所述多个分组声音信号进行分组复原，获得第四多声道声音信号。
如权利要求9所述的方法，其特征在于，所述第一多声道声音信号在频域为多个子频谱，所述采用IMDCT或IMDST，将所述第一多声道声音信号从频域映射为时域之前，还包括：

将每个声道的多个子频谱恢复成自然顺序的频域信号；

将所述自然顺序的频域信号作为第一多声道声音信号，执行步骤C)。
一种多声道声音信号解码装置，其特征在于，所述装置包括：

感知解码单元，用于对编码多声道码流进行解码，获得第二多声道声音信号中的至少一组和主成分分析PCA映射模型；

子空间逆映射单元，用于采用所述感知解码单元获得的PCA映射模型，将所述感知解码单元获得的第二多声道声音信号映射回第一多声道声音信号；

频时映射单元，用于采用修正离散余弦逆变换IMDCT或修正离散正弦逆变换IMDST，将所述子空间逆映射单元得到的第一多声道声音信号从频域映射为时域。
如权利要求13所述的装置，其特征在于，所述子空间逆映射单元得到的第一多声道声音信号在频域为多个分组声音信号；

所述感知解码单元801具体用于，对编码多声道码流进行解码，获得第二多声道声音信号中的至少一组、声道分组信息和PCA映射模型；

所述装置还包括：

第一分组复原单元，用于在所述频时映射单元采用IMDCT或IMDST，将所述子空间逆映射单元得到的第一多声道声音信号从频域映射为时域之前，根据解码的声道分组信息将所述多个分组声音信号进行分组复原，获得第三多声道声音信号；

所述频时映射单元具体用于，将所述第一分组复原单元获得的第三多声道声音信号作为所述第一多声道声音信号进行处理。
如权利要求13所述的装置，其特征在于，所述频时映射单元进行映射处理后的第一多声道声音信号在时域为多个分组声音信号；

所述感知解码单元具体用于，对编码多声道码流进行解码，获得第二多声道声音信号中的至少一组、声道分组信息和PCA映射模型；

所述装置还包括：

第二分组复原单元，用于在所述频时映射单元采用IMDCT或IMDST，将所述子空间逆映射单元得到的第一多声道声音信号从频域映射为时域之后，根据所述声道分组信息将所述多个分组声音信号进行分组复原，获得第四多声道声音信号。
如权利要求13所述的装置，其特征在于，所述子空间逆映射单元获得的第一多声道声音信号在频域为多个子频谱，所述装置还包括：

子频谱恢复单元，用于所述频时映射单元采用IMDCT或IMDST，将所述第一多声道声音信号从频域映射为时域之前，将所述子空间逆映射单元获得的第一多声道声音信号中每个声道的多个子频谱恢复成自然顺序的频域信号；

所述频时映射单元具体用于，将所述自然顺序的频域信号作为所述第一多声道声音信号进行处理。