WO2010091555A1

WO2010091555A1 - 一种立体声编码方法和装置

Info

Publication number: WO2010091555A1
Application number: PCT/CN2009/070428
Authority: WO
Inventors: 吴文海; 郎玥; 苗磊; 刘泽新; 胡晨; 塔迪·哈维·米希尔; 张清
Original assignee: 华为技术有限公司
Priority date: 2009-02-13
Filing date: 2009-02-13
Publication date: 2010-08-19
Also published as: EP2395504B1; CN102292769A; EP2395504A1; US20110301962A1; EP2395504A4; US8489406B2; CN102292769B

Description

一种立体声编码方法和装置技术领域

本发明涉及立体声技术领域，尤其涉及一种立体声编码的方法和装置。背景技术

立体声的目的是传递或重建某一个特定的声场，给倾听者再现原声场的声音和空间特性。近年来由于计算机技术、数字信号处理技术的发展，以及由于高清晰度电视声系统、家用视听系统发展的需要，使得立体声技术有了较大的发展，同时这也对立体声技术尤其编解码技术提出了更高的要求。

现有的立体声编码方法可以分成两类，一类是早期的基于波形的立体声编码。第二类是当前较为常用的参数立体声编码。在参数立体声编码中，通常并不是直接对左右声道信号进行编码，而是将左右声道信号进行下混，对下混之后的信号进行编码，并编码一些额外的边带信息。在解码端通过下混信号和这些边带信息来恢复立体声信号。

立体声信号质量的好坏， [艮大程度上取决于下混信号的质量。左右两个声道信号越同步，在下混的过程中损失的信息就会越少。而通常情况，发声物体相对录制左右声道的两个麦克来说会有距离的变动或者距离差，这样必然造成左右两路信号之间有一定的延时。不能完全同步。如果在下混时能将该延时进行调整，也就是使得左右声道信号能够同步，则可以很大程度上提升立体声合成信号的质量。

参见图 1 , 图 1为现有技术中立体声编码方法的流程示意图。首先对左右两路信号进行下釆样 4, 进行线性预测编码（Linear Predictive Coding, LPC ) 分析和 LPC滤波之后，得到残差信号。然后分别提取左右两路信号的延时，如果连续两帧左右两路信号的延时不同，则在进行下混之前进行延时调整。

在实现本发明过程中，发明人研究发现：

由于延时调整过程中需要对左右声道信号进行叠接相加，这个过程会引入失真，而且不同特性的立体声信号在进行叠接相加时会对帧间数据的不连续产生不同的失真影响。由于现有技术本身并不区分延时调整时立体声信号的特性，只要连续两帧的左右两路信号的延时不同就立即进行延时调整，这时就有可能会带来非常严重的失真。发明内容

本发明实施例提供一种立体声编码的方法和装置，能够减少延时调整带来的失真。

具体的，本发明的一个实施例提供了一种立体声编码的方法，包括：提取立体声信号的当前声道间延时和与所述当前声道间延时相邻的上一延时；所述当前延时和所述上一延时不同时，则根据当前立体声信号特性进行调整帧判断；如果判断所述当前延时所在帧为调整帧时，则釆用所述当前声道间延时对立体声信号进行延时调整。

本发明的另一个实施例提供了一种立体声编码的装置，包括：提取延时单元，用于获取立体声信号的当前声道间延时和与所述当前声道间延时相邻的上一延时；判断单元，用于所述获取延时单元获取的当前延时和所述上一延时不同时，根据当前立体声信号特性进行调整帧判断；延时调整单元，用于在所述判断单元判断所述当前延时所在帧为调整帧时，釆用所述当前声道间延时对立体声信号进行延时调整。

通过上述技术方案的描述可知，通过提取立体声信号的当前声道间延时和与所述当前声道间延时相邻的上一延时 , 在当前延时和所述上一延时不同时，根据当前立体声信号特性进行调整帧判断，并仅在当前延时所在帧判断为调整帧时，釆用所述当前声道间延时对立体声信号进行延时调整，使得延时在适合进行调整的时候才进行调整，从而能够减少延时调整带来的失真。附图说明施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图 1为现有技术中立体声编码方法的流程示意图；

图 2为本发明实施例提供的一种立体声编码方法的流程图；

图 3为本发明实施例提供的一种立体声编码方法的流程示意图；图 4为本发明实施例提供的一个声道内确定清浊音的流程图；

图 5为本发明实施例提供的一种立体声编码装置的结构示意图。具体实施方式

为使本发明的目的、技术方案、及优点更加清楚明白，下面结合附图并举实施例，对本发明提供的技术方案进一步详细描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图 2, 本发明实施例提供的一种立体声编码的方法，包括：

步骤 21 , 提取立体声信号的当前声道间延时和与所述当前声道间延时相邻的上一延时；

步骤 22, 所述当前延时和所述上一延时不同时，则根据当前立体声信号特性进行调整帧判断；

步骤 23 , 如果判断所述当前延时所在帧为调整帧时，则釆用所述当前声道间延时对立体声信号进行延时调整。

本发明实施例提供的立体声编码的方法，通过提取立体声信号的当前声道间延时和与所述当前声道间延时相邻的上一延时，在当前延时和所述上一延时不同时，根据当前立体声信号特性进行调整帧判断，并仅在当前延时所在帧判断为调整帧时，釆用所述当前声道间延时对立体声信号进行延时调整，使得延时在适合进行调整的时候才进行调整，从而能够减少延时调整带来的失真。

参见图 3 , 本发明实施例提供的一种立体声编码方法流程示意图，与现有技术相比，也是首先对左右两路信号进行下釆样 4, 进行 LPC分析和 LPC滤波之后，得到残差信号，然后分别提取左右两路信号的延时，如果连续两帧左右两路信号的延时不同则在下混之前进行是否适合延时调整的判断。当连续两帧延时不同时，在立体声需要进行延时调整的地方，根据当前立体声信号特性进行调整帧判断，如果判断当前延时所在帧为调整帧时，则釆用当前声道间延时对立体声信号进行延时调整。

根据立体声信号特性进行调整帧判断本发明实施例提供如下几种判断方法：

一种方法是，根据立体声信号的类别进行判断。该方法具体为在立体声信号为清音帧或者静音帧时判断当前延时所在帧为调整帧；在立体声信号为浊音帧时判断当前延时所在帧为非调整帧。

参见图 4, 图 4所示为一个声道内确定清浊音的流程图。该流程通过立体声信号一个基音周期（pitch ) 的平均值、最大值及过零率来判断信号的类别。首先提取信号的基音周期，初始化计数器 count为 0, 然后提取该基音周期内的最大值和平均值，将平均值与设定的平均值门限进行比较，如果大于该平均值门限就将 count+1 , 否则 count不变。然后将该基音周期内的最大值与平均值的比值与设定的比值门限进行比较，如果大于该比值门限则 count+1 , 否过零率门限则 count+1 , 否则 count不变。最后比较 count是否大于 2, 如果大于 2则判断为浊音，否则判断成清音。

需要说明的是，静音类别判断可以等同于清音来处理。根据以上判断过程，在计算编程时可以在浊音帧时输出 1 , 而在清音帧或静音帧输出 0。

整个立体声信号的类别由左右两个声道信号的类别来确定。只有当左右声道信号类型同时为浊音时才判断该立体声信号为浊音。另一种方法是，根据立体声信号的能量进行判断。该方法具体为：在立体声信号的帧能量小于某一设定的门限值时判断当前延时所在帧为调整帧；在立体声信号的帧能量大于或等于所述某一设定的门限值时判断当前延时所在帧为非调整帧。

再一种方法是，根据立体声信号的类别和能量组合进行判断。该方法具体为：在立体声信号为清音帧或者静音帧且立体声信号的帧能量小于某一设定的门限值时，判断当前延时所在帧为调整帧，否则判断当前延时所在帧为非调整帧。或者，在立体声信号为清音帧或者静音帧时，或者立体声信号的帧能量小于某一设定的门限值时，判断当前延时所在帧为调整帧，否则判断当前延时所在帧为非调整帧。别的限定。比如，对于背景噪声比较大的语音信号或者周期性不强的音乐信号，还可以釆用其它方法进行调整帧的判断。

参见图 5 , 本发明实施例还提供一种立体声编码的装置，包括：提取延时单元 51 , 用于获取立体声信号的当前声道间延时和与所述当前声道间延时相邻的上一延时；

判断单元 52, 用于所述获取延时单元获取的当前延时和所述上一延时不同时，根据当前立体声信号特性进行调整帧判断；

延时调整单元 53 , 用于在所述判断单元判断所述当前延时所在帧为调整帧时，釆用所述当前声道间延时对立体声信号进行延时调整。

优选地，所述判断单元 52包括如下任一模块：

类别判断模块，用于根据立体声信号的类别进行调整帧判断；

能量判断模块，用于根据立体声信号的能量进行调整帧判断；

类别能量判断模块，用于根据立体声信号的类别和能量组合进行调整帧判断。

具体地，所述类别判断模块用于立体声信号为清音帧或者静音帧时判断当前延时所在帧为调整帧，立体声信号为浊音帧时判断当前延时所在帧为非调整帧。

所述能量判断模块用于立体声信号的帧能量小于某一设定的门限值时判断当前延时所在帧为调整帧，立体声信号的帧能量大于或等于所述某一设定的门限值时判断当前延时所在帧为非调整帧。

所述类别能量判断模块用于立体声信号为清音帧或者静音帧且立体声信号的帧能量小于某一设定的门限值时，判断当前延时所在帧为调整帧，否则判断当前延时所在帧为非调整帧；或者，所述类别能量判断模块用于立体声信号为清音帧或者静音帧时，或者立体声信号的帧能量小于某一设定的门限值时，判断当前延时所在帧为调整帧，否则判断当前延时所在帧为非调整帧。

当然，判断单元并不局限于以上几种判断模块，以上模块仅作为本发明的优选实施例进行说明，还可以釆用其他判断模块进行调整帧的判断，本发明并不做特别的限定。

本发明实施例提供的立体声编码的装置，通过提取延时单元 51提取立体声信号的当前声道间延时和与所述当前声道间延时相邻的上一延时 , 在当前延时和所述上一延时不同时，由判断单元 52根据当前立体声信号特性进行调整帧判断，并仅在当前延时所在帧判断为调整帧时，由延时调整单元 53釆用所述当前声道间延时对立体声信号进行延时调整，使得延时在适合进行调整的时候才进行调整，从而能够减少延时调整带来的失真。

最后需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体 ( ROM )或随机存储记忆体 ( RAM )等。

本发明实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以釆用硬件的形式实现，也可以釆用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述具体实施例并不用以限制本发明，对于本技术领域的普通技术人员来说，凡在不脱离本发明原理的前提下，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

权利要求书

1、一种立体声编码的方法，其特征在于，包括：

提取立体声信号的当前声道间延时和与所述当前声道间延时相邻的上一延时；

所述当前延时和所述上一延时不同时，则根据当前立体声信号特性进行调整帧判断；

如果判断所述当前延时所在帧为调整帧时，则釆用所述当前声道间延时对立体声信号进行延时调整。

2、根据权利要求 1所述的方法，其特征在于，所述根据当前立体声信号特性进行调整帧判断包括如下之一或组合：

根据立体声信号的类别进行调整帧判断；

或者，根据立体声信号的能量进行调整帧判断。

3、根据权利要求 2所述的方法，其特征在于，所述根据立体声信号的类别进行调整帧判断具体为：

立体声信号为清音帧或者静音帧时判断当前延时所在帧为调整帧；立体声信号为浊音帧时判断当前延时所在帧为非调整帧。

4、根据权利要求 2所述的方法，其特征在于，所述根据立体声信号的能量进行调整帧判断具体为：

立体声信号的帧能量小于某一设定的门限值时判断当前延时所在帧为调整帧；

立体声信号的帧能量大于或等于所述某一设定的门限值时判断当前延时所在帧为非调整帧。

5、根据权利要求 2所述的方法，其特征在于，所述根据立体声信号的类别和能量组合进行调整帧判断具体为：

立体声信号为清音帧或者静音帧且立体声信号的帧能量小于某一设定的门限值时，判断当前延时所在帧为调整帧，否则判断当前延时所在帧为非调整帧；或者，立体声信号为清音帧或者静音帧时，或者立体声信号的帧能量小于某一设定的门限值时，判断当前延时所在帧为调整帧，否则判断当前延时所在帧为非调整帧。

6、一种立体声编码的装置，其特征在于，包括：

提取延时单元，用于获取立体声信号的当前声道间延时和与所述当前声道间延时相邻的上一延时；

判断单元，用于所述获取延时单元获取的当前延时和所述上一延时不同时，根据当前立体声信号特性进行调整帧判断；

延时调整单元，用于在所述判断单元判断所述当前延时所在帧为调整帧时，釆用所述当前声道间延时对立体声信号进行延时调整。

7、根据权利要求 6所述的装置，其特征在于，所述判断单元包括如下任一模块：

8、根据权利要求 7所述的装置，其特征在于，

所述类别判断模块，具体用于立体声信号为清音帧或者静音帧时判断当前延时所在帧为调整帧，立体声信号为浊音帧时判断当前延时所在帧为非调整帧。

9、根据权利要求 7所述的装置，其特征在于，

所述能量判断模块，具体用于立体声信号的帧能量小于某一设定的门限值时判断当前延时所在帧为调整帧，立体声信号的帧能量大于或等于所述某一设定的门限值时判断当前延时所在帧为非调整帧。

10、根据权利要求 7所述的装置，其特征在于，

所述类型能量判断模块，具体用于立体声信号为清音帧或者静音帧且立体声信号的帧能量小于某一设定的门限值时，判断当前延时所在帧为调整帧，否则判断当前延时所在帧为非调整帧；或者，具体用于立体声信号为清音帧或者静音帧时，或者立体声信号的帧能量小于某一设定的门限值时，判断当前延时所在帧为调整帧，否则判断当前延时所在帧为非调整帧。