WO2019200996A1

WO2019200996A1 - 多声道音频处理方法、装置和计算机可读存储介质

Info

Publication number: WO2019200996A1
Application number: PCT/CN2019/073021
Authority: WO
Inventors: 黄传增
Original assignee: 北京微播视界科技有限公司
Priority date: 2018-04-19
Filing date: 2019-01-24
Publication date: 2019-10-24
Also published as: CN108495234A; CN108495234B

Abstract

本发明提供一种多声道音频处理方法、装置和计算机可读存储介质。其中，该多声道音频处理方法包括：接收待处理多声道音频；检测待处理多声道音频中各声道音频的音频特性；根据各声道音频的音频特性，对待处理多声道音频进行处理。本发明实施例通过采取上述技术方案，根据待处理多声道音频中各个声道音频的音频特性，进行与之相应的处理，从而解决了如何获得了良好用户体验效果的技术问题。

Description

多声道音频处理方法、装置和计算机可读存储介质

相关申请的交叉引用

本申请要求申请号为201810356546.9、申请日为2018年04月19日的中国专利申请的优先权，该文献的全部内容以引用方式并入本文。

技术领域

本发明涉及一种音频技术领域，特别是指一种多声道音频处理方法、装置和计算机可读存储介质。

背景技术

随着音频互动的流行，音频越来越多地作为这种互动的信息传播载体。为了获得良好的互动体验效果，用户开始越来越多地关注音频的体验效果。

目前，现有技术普遍针对单声道音频进行处理。对于多声道音频而言，由于处理单声道音频的方法并没有考虑多声道音频中各个声道音频的特点；因而，将现有针对于单声道音频的处理方法应用于多声道音频时，无法获得良好的用户体验效果。

有鉴于上述，本发明遂针对上述现有技术的缺点，提出一种可获得良好用户体验效果的多声道音频处理方法，以有效克服上述的这些问题。

发明内容

本发明的主要目的在于提供一种多声道音频处理方法，以至少部分地解决如何获得良好用户体验效果的技术问题；此外，还提供一种多声道音频处理装置、多声道音频处理硬件装置和计算机可读存储介质。

一种多声道音频处理方法，包括：

接收待处理多声道音频；

检测所述待处理多声道音频中各声道音频的音频特性；

根据所述各声道音频的音频特性，对所述待处理多声道音频进行处理。

其中，所述检测所述待处理多声道音频中各声道音频的音频特性步骤，包括：

如果所述待处理多声道音频为离线音频，则检测所述待处理多声道音频中各声道音频的整体音频特性；

如果所述待处理多声道音频为在线音频，则检测所述待处理多声道音频中各声道音频的局部音频特性。

其中，如果所述待处理多声道音频为离线音频，则所述根据所述各声道音频的音频特性，对所述待处理多声道音频进行处理的步骤，包括：

根据所述整体音频特性，确定第一音频处理参数；

基于所述第一音频处理参数，对所述待处理多声道音频进行处理。

其中，所述整体音频特性包括音高特性、声音共振峰特性和瞬态声音脉冲特性；

所述根据所述整体音频特性，确定第一音频处理参数的步骤具体包括：

根据所述音高特性、所述声音共振峰特性和所述瞬态声音脉冲特性，确定所述第一音频处理参数；其中，所述第一音频处理参数包括基频幅值、共振峰幅值和瞬态脉冲；

所述基于所述第一音频处理参数，对所述待处理多声道音频进行处理的步骤，包括：

调整所述基频幅值，且平滑所述共振峰幅值，并对所述瞬态脉冲进行削波处理。

其中，所述整体音频特性包括音高特性和声音共振峰特性；

所述根据所述整体音频特性，确定第一音频处理参数的步骤，包括：

根据所述音高特性和所述声音共振峰特性，确定所述第一音频处理参数；其中，所述第一音频处理参数包括基频幅值和共振峰幅值；

所述基于所述第一音频处理参数，对所述待处理多声道音频进行处理的步骤具体包括：

调整所述基频幅值并平滑所述共振峰幅值。

其中，所述整体音频特性包括音高特性和瞬态声音脉冲特性；

根据所述音高特性和所述瞬态声音脉冲特性，确定所述第一音频处理参数；其中，所述第一音频处理参数包括基频幅值和瞬态脉冲；

调整所述基频幅值并对所述瞬态脉冲进行削波处理。

其中，所述整体音频特性包括音高特性、声音共振峰特性、瞬态声音脉冲特性和音频相位特性；

根据所述音高特性、所述声音共振峰特性、所述瞬态声音脉冲特性和所述音频相位特性，确定所述第一音频处理参数；其中，所述第一音频处理参数包括基频幅值、共振峰幅值、瞬态脉冲和音频相位；

调整所述基频幅值，且平滑所述共振峰幅值，并对所述瞬态脉冲进行削波处理，以及调整所述音频相位。

其中，所述整体音频特性包括多声道音频下混特性和主边信道特性；

根据所述多声道音频下混特性和所述主边信道特性，确定所述第一音频处理参数；其中，所述第一音频处理参数包括：强音频相关性、基频幅值和共振峰幅值；

针对所述待处理多声道音频中所有声道音频进行联合处理，并且对其调整所述基频幅值并平滑所述共振峰幅值。

其中，如果所述待处理多声道音频为在线音频，则所述根据所述各声道音频的音频特性，对所述待处理多声道音频进行处理的步骤，具体包括：

根据所述局部音频特性，确定第二音频处理参数；

基于所述第二音频处理参数，对所述待处理多声道音频进行处理。

为达上述目的，本发明还提出一种多声道音频处理装置，包括：

接收模块，用于接收待处理多声道音频；

检测模块，用于检测所述待处理多声道音频中各声道音频的音频特性；

处理模块，用于根据所述各声道音频的音频特性，对所述待处理多声道音频进行处理。

其中，所述检测模块包括：

第一检测单元，用于在所述待处理多声道音频为离线音频的情况下，检测所述待处理多声道音频中各声道音频的整体音频特性；

第二检测单元，用于在所述待处理多声道音频为在线音频的情况下，检测所述待处理多声道音频中各声道音频的局部音频特性。

其中，如果所述待处理多声道音频为离线音频，则处理模块包括：

第一确定单元，用于根据所述整体音频特性，确定第一音频处理参数；

第一处理单元，用于基于所述第一音频处理参数，对所述待处理多声道音频进行处理。

所述第一确定单元具体用于根据所述音高特性、所述声音共振峰特性和所述瞬态声音脉冲特性，确定所述第一音频处理参数；其中，所述第一音频处理参数包括基频幅值、共振峰幅值和瞬态脉冲；

所述第一处理单元具体用于调整所述基频幅值，且平滑所述共振峰幅值，并对所述瞬态脉冲进行削波处理。

其中，所述整体音频特性包括音高特性和声音共振峰特性；

所述第一确定单元具体用于根据所述音高特性和所述声音共振峰特性，确定所述第一音频处理参数；其中，所述第一音频处理参数包括基频幅值和共振峰幅值；

所述第一处理单元具体用于调整所述基频幅值并平滑所述共振峰幅值。

所述第一确定单元具体用于根据所述音高特性和所述瞬态声音脉冲特性，确定所述第一音频处理参数；其中，所述第一音频处理参数包括基频幅值和瞬态脉冲；

所述第一处理单元具体用于调整所述基频幅值并对所述瞬态脉冲进行削波处理。

所述第一确定单元具体用于根据所述音高特性、所述声音共振峰特性、所述瞬态声音脉冲特性和所述音频相位特性，确定所述第一音频处理参数；其中，所述第一音频处理参数包括基频幅值、共振峰幅值、瞬态脉冲和音频相位；

所述第一处理单元具体用于调整所述基频幅值，且平滑所述共振峰幅值，并对所述瞬态脉冲进行削波处理，以及调整所述音频相位。

所述第一确定单元具体用于根据所述多声道音频下混特性和所述主边信道特性，确定所述第一音频处理参数；其中，所述第一音频处理参数包括：强音频相关性、基频幅值和共振峰幅值；

所述第一处理单元具体用于针对所述待处理多声道音频中所有声道音频进行联合处理，并且对其调整所述基频幅值并平滑所述共振峰幅值。

其中，如果所述待处理多声道音频为在线音频，则所述处理模块还包括：

第二确定单元，用于根据所述局部音频特性，确定第二音频处理参数；

第二处理单元，用于基于所述第二音频处理参数，对所述待处理多声道音频进行处理。

为达上述目的，本发明还提出一种多声道音频处理硬件装置，包括：

存储器，用于存储非暂时性计算机可读指令；以及

处理器，处理器，用于运行所述计算机可读指令，使得所述处理器执行时实现上述多声道音频处理方法。

为达上述目的，本发明还提出一种计算机可读存储介质，用于存储非暂时性计算机可读指令，当所述非暂时性计算机可读指令由计算机执行时，使得所述计算机执行上述所述的多声道音频处理方法。

本发明的有益效果为：

本发明实施例提供一种多声道音频处理方法、装置和计算机可读存储介质。其中，该多声道音频处理方法包括：接收待处理多声道音频；检测待处理多声道音频中各声道音频的音频特性；根据各声道音频的音频特性，对待处理多声道音频进行处理。本发明实施例通过采取上述技术方案，根据待处理多声道音频中各个声道音频的音频特性，进行与之相应的处理，从而获得了良好的用户体验效果。

附图说明

图1为根据本发明一个实施例的多声道音频处理方法的流程示意图；

图2为根据本发明一个实施例的分别针对离线音频和在线音频进行检测的流程示意图；

图3为根据本发明一个实施例的针对离线音频进行处理的流程示意图；

图4为根据本发明一个实施例的多声道音频处理方法的流程示意图；

图5为根据本发明一个实施例的针对在线音频进行处理的流程示意图；

图6为根据本发明一个实施例的多声道音频处理方法的流程示意图；

图7为根据本发明一个实施例的多声道音频处理装置的结构示意图；

图8为根据本发明一个实施例的处理模块的结构示意图；

图9为根据本发明另一个实施例的处理模块的结构示意图；

图10为根据本发明一个实施例的多声道音频处理硬件装置的结构示意图；

图11为根据本发明一个实施例的计算机可读存储介质的结构示意图；

图12为根据本发明一个实施例的多声道音频处理终端的结构示意图；

图13为根据本发明另一个实施例的多声道音频处理终端的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本发明，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

还需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践所述方面。

为了解决如何获得良好用户体验效果的技术问题，本发明实施例提供一种多声道音频处理方法。如图1所示，该方法可以包括如下步骤S1至步骤S3。其中：

步骤S1：接收待处理多声道音频。

其中，待处理多声道音频可以是离线待处理多声道音频，也可以是在线待处理多声道音频，本发明对此不作限定。其中，多声道音频包括但不限于3.1声道音频、5.1声道音频、7.1声道音频等。

步骤S2：检测待处理多声道音频中各声道音频的音频特性。

其中，音频特性包括但不限于：音高特性、声音共振峰特性、瞬态声音脉冲特性、音频相位特性、多声道音频下混特性、主边信道特性等。

在本步骤中，可以检测一种或几种音频特性。

步骤S3：根据检测结果，对待处理多声道音频进行处理。

本步骤根据检测到的、一种或几种待处理多声道音频中各个声道音频的音频特性，对待处理多声道音频进行相应的处理。

在本步骤中，对待处理多声道音频进行处理的方式包括但不限于：联合处理、分离处理、平滑处理、音频相位处理、基频处理、置零处理、频谱伸缩处理、限幅处理等。

为了便于理解，下面对上述各个处理方式进行详细说明：

上述联合处理是指对各个声道的音频一起进行处理；

上述分离处理是分别对各个声道音频进行分别处理；

上述平滑处理是滤除突变的频域数据点，也即平滑频谱中谱峰的峰值数据；在具体实施过程中，可以采取邻域平均法、高斯平滑法、抛物线平滑法等方法进行实施；以邻域平均法为例，其基于卷积运算原理，利用滑动窗口对频谱中频率信号的幅值进行平滑；再以高斯平滑法为例，其根据高斯分布函数的形态计算出权值，并以该权值进行线性平滑处理。该平滑处理可以针对音频的全频带，也可以针对音频的部分频带。当对音频的共振峰进行平滑处理后，可以实现变调的效果；

上述基频处理是指对音频的基频进行调整，从而实现变调的效果；

上述音频相位处理是指调整该音频的相位，具体地，可以根据预定音效所对应的音频相位来进行调整；

上述置零处理是指在音频的全频带内消除瞬态脉冲所对应的频谱。

上述频谱伸缩处理是指通过对音频频谱进行插值或抽取，以伸缩频谱；该处理可以实现变速效果。

上述限幅处理是指削减瞬态脉冲的幅度。

针对检测出的一种或多种音频特性，本发明实施例可以采取上述一种或多种处理方式。在实际应用中，通过采取一种或几种处理方式，可以实现速度模式(也可称为处理速度优先)、质量模式(也可称为高音质优先)、平衡模式(其兼顾处理速度和高音质)，还可以实现变速不变调、变调不变速、变速变调的效果等。

本发明实施例通过采取上述技术方案，根据待处理多声道音频中各个声道音频的音频特性，进行与之相应的处理，从而获得了良好的用户体验效果。

为了针对在线音源、离线音源等多声源进行自适应的处理，在一个可选的实施例中，如图2所示，步骤S2具体可以包括：

步骤S21：如果该待处理多声道音频为离线音频，则检测该待处理多声道音频中各声道音频的整体音频特性；

步骤S22：如果该待处理多声道音频为在线音频，则检测该待处理多声道音频中各声道音频的局部音频特性。

在本实施例中，由于在线音频为流媒体，故，所接收到的音频为一段、一段的音频。因此，针对该在线音频所检测的特性是局部音频特性。而对于离线音频而言，由于离线音频是预先编码好的完整音频，所以，针对该离线音频所检测的特性是整体音频特性，以确保进行音频处理后可以获得良好的用户体验。

其中，整体音频特性包括但不限于：音高特性、声音共振峰特性、瞬态声音脉冲特性、音频相位特性、多声道音频下混特性、主边信道特性等。

其中，局部音频特性包括整体音频特性中全部特性或部分特性，在此不再赘述。

本发明实施例通过采取上述技术方案，针对获得的在线音源、离线音源，分别进行局部音频特性、整体音频特性的检测，从而实现了自适应音频特性检测，以便于实现针对不同音源的自适应处理，从而可以提高用户体验效果。

需要说明的是，可以预先已知待处理多声道音频是为离线音频，还是为在线音频。当然，也可以预先未知该待处理多声道音频是离线音频，还是在线音频。

对此，优选地，在步骤S1之后，上述多声道音频处理方法还可以包括：

确定待处理多声道音频是离线音频还是在线音频。

在本实施例中，可以通过离线音频和在线音频各自的特点进行确定，例如，离线音频是完整的音频，而在线音频可以是通过实时消息传输协议传输的一段、一段的封包，据此可以判断出待处理多声道音频是离线音频还是在线音频；也可以预先添加识别标记来确定待处理多声道音频是离线音频还是在线音频。本发明对此不作限定。

本发明实施例通过对离线音频和在线音频分别进行相应的处理，从而能够适应不同的多声道音频应用场景，进而可以获得更好地用户体验效果。

在一个可选的实施例中，在上述针对不同音源进行处理的实施例的基础上，如果该待处理多声道音频为离线音频，则如图3所示，该步骤S3具体包括：

步骤S31：根据整体音频特性，确定第一音频处理参数；

步骤S32：根据该第一音频处理参数，对该待处理多声道音频进行处理。

其中，第一音频处理参数包括但不限于各声道之间的音频相关性强弱、基频幅值、共振峰幅值、瞬态脉冲、音频包络等。

举例来说，如果音频相关性强，则对待处理多声道音频中的各个声道的音频进行联合处理；如果音频相关性弱，则对待处理多声道音频中的各个声道的音频分别进行单独处理(即分离处理)。

在一个优选的实施例中，如果整体音频特性包括音高特性、声音共振峰特性和瞬态声音脉冲特性；根据整体音频特性，确定第一音频处理参数的步骤具体包括：根据音高特性、声音共振峰特性和瞬态声音脉冲特性，确定第一音频处理参数；其中，第一音频处理参数包括基频幅值、共振峰幅值和瞬态脉冲；基于第一音频处理参数，对待处理多声道音频进行处理的步骤具体包括：调整基频幅值，且平滑共振峰幅值，并对瞬态脉冲进行削波处理。

在一个优选的实施例中，如果整体音频特性包括音高特性和声音共振峰特性；则根据整体音频特性，确定第一音频处理参数的步骤具体包括：根据音高特性和声音共振峰特性，确定第一音频处理参数；其中，第一音频处理参数包括基频幅值和共振峰幅值；基于第一音频处理参数，对待处理多声道音频进行处理的步骤具体包括：调整基频幅值并平滑共振峰幅值。

在一个优选的实施例中，如果整体音频特性包括音高特性和瞬态声音脉冲特性；则根据整体音频特性，确定第一音频处理参数的步骤，包括：根据音高特性和瞬态声音脉冲特性，确定第一音频处理参数；其中，第一音频处理参数包括基频幅值和瞬态脉冲；基于第一音频处理参数，对待处理多声道音频进行处理的步骤具体包括：调整基频幅值并对瞬态脉冲进行削波处理。

在一个优选的实施例中，如果整体音频特性包括音高特性、声音共振峰特性、瞬态声音脉冲特性和音频相位特性；根据整体音频特性，确定第一音频处理参数的步骤具体可以包括：根据音高特性、声音共振峰特性、瞬态声音脉冲特性和音频相位特性，确定第一音频处理参数；其中，第一音频处理参数包括基频幅值、共振峰幅值、瞬态脉冲和音频相位；基于第一音频处理参数，对待处理多声道音频进行处理的步骤具体可以包括：调整基频幅值，且平滑共振峰幅值，并对瞬态脉冲进行削波处理，以及调整音频相位。

在一个优选的实施例中，如果整体音频特性包括多声道音频下混特性和主边信道特性；根据整体音频特性，确定第一音频处理参数的步骤具体包括：根据多声道音频下混特性和主边信道特性，确定第一音频处理参数；其中，第一音频处理参数包括：强音频相关性、基频幅值和共振峰幅值；基于第一音频处理参数，对待处理多声道音频进行处理的步骤具体包括：针对待处理多声道音频中所有声道音频进行联合处理，并且对其调整基频幅值并平滑共振峰幅值。

其中，音频相关性强可以根据以下因素来确定：各个声道音频的频谱特性情况、各个声道音频源的音质情况、各个声道音频的采集方式等，但绝不限于此。具体而言，如果各个声道的音频源是联合采集的，则在对待处理多声道音频进行处理时，可以采取联合处理的方式；如果各个声道音频是通过独立的麦克风采集的，则在对待处理多声道音频进行处理时，可以采取分离处理方式；如果各个声道音频的频谱特性好，则在对待处理多声道音频进行处理时，可以采取联合处理方式；如果如果各个声道音频的频谱特性差，则在对待处理多声道音频进行处理时，可以采取分离处理方式；如果共振峰的幅值大于共振峰阈值，则对所述待处理多声道音频中包含的共振峰进行平滑处理；如果音频包络发生偏移，则对待处理多声道音频的频域中基频和共振峰的幅值进行调整。

由此可见，本实施例通过采取上述技术方案，根据离线的待处理多声道音频的整体音频特性，确定与之相应的第一音频处理参数；然后，根据所确定的该第一音频处理参数进行自适应的处理，从而可以获得不同的音频效果。例如，通过进行基频幅值的调整，可以实现声音的变调的效果；通过对共振峰幅值的平滑处理，可以实现声音的变调的效果；通过对音频包络进行偏移处理，可以实现声音变调的效果；从而自适应地对音频进行变调的技术效果；由此，通过本发明实施例可以获得良好的用户体验效果。

下面结合图4以具体实施例对本发明进一步详细说明。

步骤Sa1：接收待处理多声道音频；

步骤Sa2：如果该待处理多声道音频为离线音频，则检测该待处理多声道音频中各声道音频的整体音频特性；

步骤Sa3：根据整体音频特性，确定强相关性音频处理参数；

步骤Sa4：根据强相关性音频处理参数，对待处理多声道音频进行联合处理。

本实施例通过对接收到的离线的待处理多声道音频，进行整体音频特性的检测；然后，确定强相关性音频处理参数作为待处理多声道音频的待处理参数，最后进行与该强相关性音频处理参数相应的联合处理，从而实现了自适应处理，由此可以获得良好的用户体验效果。

在一个可选的实施例中，在上述针对不同音源进行处理的实施例的基础上，如果该待处理多声道音频为在线音频，则如图5所示，该步骤S3具体包括：

步骤S33：根据局部音频特性，确定第二音频处理参数；

步骤S34：根据第二音频处理参数，对待处理多声道音频进行处理。

其中，第二音频处理参数可以是部分或全部上述第一音频处理参数。

有关本实施例的说明可以参考前述图3所示实施例中的相应说明，在此不再赘述。

本发明实施例通过采取上述技术方案，根据在线的待处理多声道音频的局部音频特性，确定与之相应的第二音频处理参数；然后，根据所确定的该第二音频处理参数进行自适应的处理，从而可以获得不同的音频效果。例如，通过进行基频幅值的调整，可以实现声音的变调的效果；通过对共振峰幅值的平滑处理，可以实现声音的变调的效果；通过对音频包络进行偏移处理，可以实现声音变调的效果；从而自适应地对音频进行变调的技术效果；由此，通过本发明实施例可以获得良好的用户体验效果。

针对在线音频进行处理的明显变型实施例或等同替换实施例还可以参考前述针对离线音频进行处理的实施例，在此不再赘述。

为了便于更好地理解本发明，下面结合图6以具体实施例对本发明进行详细说明。

如图6所示，本发明实施例提供一种多声道音频处理方法，包括：

步骤Sb1：接收待处理多声道音频；

步骤Sb2：确定待处理多声道音频是离线音频还是在线音频；如果该待处理多声道音频为离线音频，则执行步骤Sb3；如果该待处理多声道音频为在线音频，则执行步骤Sb4；

步骤Sb3：检测该待处理多声道音频中各声道音频的整体音频特性，并执行步骤Sb5；

步骤Sb4：检测该待处理多声道音频中各声道音频的局部音频特性，并执行步骤Sb7；

步骤Sb5：根据整体音频特性，确定第一音频处理参数，并执行步骤Sb6；

步骤Sb6：根据该第一音频处理参数，对该待处理多声道音频进行处理；

步骤Sb7：根据局部音频特性，确定第二音频处理参数，并执行步骤Sb8；

步骤Sb8：根据第二音频处理参数，对待处理多声道音频进行处理。

本发明实施例通过采取上述技术方案，分别针对离线音频音源、在线音频音源，分别按照整体音频特性、局部音频特性，确定出相应的音频处理参数并进行处理，从而实现了自适应的音频处理，由此获得了良好的用户体验效果。

在上文中，虽然按照上述的顺序描述了多声道音频处理方法实施例中的各个步骤，本领域技术人员应清楚，本发明实施例中的步骤并不必然按照上述顺序执行，其也可以倒序、并行、交叉等其他顺序执行，而且，在上述步骤的基础上，本领域技术人员也可以再添加其他步骤或删减上述部分步骤，这些明显变型或等同替换的方式也应包含在本发明的保护范围之内，在此不再赘述。

下面为本发明装置实施例，本发明装置实施例用于执行本发明方法实施例实现的步骤，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明方法实施例。

基于与上述方法实施例相同的技术构思，本发明实施例还提供一种多声道音频处理装置。如图7所示，该装置包括：接收模块71、检测模块72和处理模块73。其中，接收模块71用于接收待处理多声道音频。检测模块72用于检测待处理多声道音频中各声道音频的音频特性。处理模块73用于根据各声道音频的音频特性，对待处理多声道音频进行处理。

本发明实施例通过采取上述技术方案，处理模块73根据检测模块72检测到的待处理多声道音频中各个声道音频的音频特性，进行与之相应的处理，从而获得了良好的用户体验效果。

在一个可选的实施例中，检测模块具体可以包括：

第一检测单元，用于在待处理多声道音频为离线音频的情况下，检测待处理多声道音频中各声道音频的整体音频特性；

第二检测单元，用于在待处理多声道音频为在线音频的情况下，检测待处理多声道音频中各声道音频的局部音频特性。

本实施例通过第一检测单元和第二检测单元，分别针对待处理多声道音频为离线音频或在线音频进行整体音频特性或局部音频特性的检测，以便于实现多声源的自适应处理，从而可以使得用户能够获得良好的体验。

在一个可选的实施例中，如图8所示，如果待处理多声道音频为离线音频，则处理模块具体包括第一确定单元81和第一处理单元82。其中，第一确定单元81用于根据整体音频特性，确定第一音频处理参数。第一处理单元82用于基于第一音频处理参数，对待处理多声道音频进行处理。

举例而言，如果音频相关性强，则对待处理多声道音频中的各个声道的音频进行联合处理；如果音频相关性弱，则对待处理多声道音频中的各个声道的音频分别进行单独处理(即分离处理)。

在一个可选的实施例中，整体音频特性包括音高特性、声音共振峰特性和瞬态声音脉冲特性；第一确定单元81具体用于根据音高特性、声音共振峰特性和瞬态声音脉冲特性，确定第一音频处理参数；其中，第一音频处理参数包括基频幅值、共振峰幅值和瞬态脉冲；第一处理单元82具体用于调整基频幅值，且平滑共振峰幅值，并对瞬态脉冲进行削波处理。

在一个可选的实施例中，整体音频特性包括音高特性和声音共振峰特性；第一确定单元81还可以具体用于根据音高特性和声音共振峰特性，确定第一音频处理参数；其中，第一音频处理参数包括基频幅值和共振峰幅值；第一处理单元82还可以具体用于调整基频幅值并平滑共振峰幅值。

在一个可选的实施例中，整体音频特性包括音高特性和瞬态声音脉冲特性；第一确定单元81还可以具体用于根据音高特性和瞬态声音脉冲特性，确定第一音频处理参数；其中，第一音频处理参数包括基频幅值和瞬态脉冲；第一处理单元82还可以具体用于调整基频幅值并对瞬态脉冲进行削波处理。

在一个可选的实施例中，整体音频特性包括音高特性、声音共振峰特性、瞬态声音脉冲特性和音频相位特性；第一确定单元81还可以具体用于根据音高特性、声音共振峰特性、瞬态声音脉冲特性和音频相位特性，确定第一音频处理参数；其中，第一音频处理参数包括基频幅值、共振峰幅值、瞬态脉冲和音频相位；第一处理单元82还可以具体用于调整基频幅值，且平滑共振峰幅值，并对瞬态脉冲进行削波处理，以及调整音频相位。

在一个可选的实施例中，整体音频特性包括多声道音频下混特性和主边信道特性；第一确定单元81还可以具体用于根据多声道音频下混特性和主边信道特性，确定第一音频处理参数；其中，第一音频处理参数包括：强音频相关性、基频幅值和共振峰幅值；第一处理单元82还可以具体用于针对待处理多声道音频中所有声道音频进行联合处理，并且对其调整基频幅值并平滑共振峰幅值。

在一个可选的实施例中，如图9所示，如果待处理多声道音频为在线音频，则处理模块还包括第二确定单元91和第二处理单元92。其中，第二确定单元91，用于根据局部音频特性，确定第二音频处理参数。第二处理单元92，用于基于第二音频处理参数，对待处理多声道音频进行处理。

有关本实施例的说明可以参考前述实施例中的相应说明，在此不再赘述。

基于与上述多声道音频处理方法实施例相同的技术构思，本发明实施例还提供一种多声道音频处理硬件装置。图10示出了根据本公开实施例的多声道音频处理硬件装置的结构示意图。如图10所示，该多声道音频处理硬件装置10包括存储器101和处理器102。其中，存储器101用于存储非暂时性计算机可读指令；处理器102用于运行所述计算机可读指令，使得所述处理器执行时实现上述多声道音频处理方法实施例。

其中，该存储器101用于存储非暂时性计算机可读指令。具体地，存储器101可以包括一个或多个计算机程序产品，该计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。该易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。该非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。

该处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制多声道音频处理硬件装置10中的其它组件以执行期望的功能。在本公开的一个实施例中，该处理器102用于运行该存储器101中存储的该计算机可读指令，使得该多声道音频处理硬件装置10执行前述的本公开各实施例的多声道音频处理方法的全部或部分步骤。

本领域技术人员应能理解，为了解决如何获得良好用户体验效果的技术问题，本实施例中也可以包括诸如通信总线、接口等公知的结构，这些公知的结构也应包含在本发明的保护范围之内。

有关本实施例的详细说明可以参考前述各实施例中的相应说明，在此不再赘述。

基于与上述多声道音频处理方法实施例相同的技术构思，本发明实施例还提供一种计算机可读存储介质。如图11所示，该计算机可读存储介质11用于存储非暂时性计算机可读指令111，当所述非暂时性计算机可读指令111由计算机执行时，使得该计算机执行上述多声道音频处理方法实施例中所述的步骤。

上述计算机可读存储介质11包括但不限于：光存储介质(例如：CD－ROM和DVD)、磁光存储介质(例如：MO)、磁存储介质(例如：磁带或移动硬盘)、具有内置的可重写非易失性存储器的媒体(例如：存储卡)和具有内置ROM的媒体(例如：ROM盒)。

基于与上述多声道音频处理方法实施例相同的技术构思，本发明实施例还提供一种多声道音频处理终端。图12示例性地示出了多声道音频处理终端的结构示意图。如图12所示，该多声道音频处理终端12包括上述多声道音频处理装置121。

上述终端12可以以各种形式来实施，本公开中的终端可以包括但不限于诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置、车载终端设备、车载显示终端、车载电子后视镜等等的移动终端设备以及诸如数字TV、台式计算机等等的固定终端设备。

作为等同替换的实施方式，该多声道音频处理终端还可以包括其他组件。如图13所示，该多声道音频处理终端13可以包括电源单元131、无线通信单元132、A/V(音频/视频)输入单元133、用户输入单元134、感测单元135、接口单元136、控制器137、输出单元138和存储器139等等。图13示出了具有各种组件的终端，但是应理解的是，并不要求实施所有示出的组件，也可以替代地实施更多或更少的组件。

其中，无线通信单元132允许终端13与无线通信系统或网络之间的无线电通信。A/V输入单元133用于接收音频或视频信号。用户输入单元134可以根据用户输入的命令生成键输入数据以控制终端设备的各种操作。感测单元135检测终端13的当前状态、终端13的位置、用户对于终端13的触摸输入的有无、终端13的取向、终端13的加速或减速移动和方向等等，并且生成用于控制终端13的操作的命令或信号。接口单元136用作至少一个外部装置与终端13连接可以通过的接口。输出单元138被构造为以视觉、音频和/或触觉方式提供输出信号。存储器139可以存储由控制器137执行的处理和控制操作的软件程序等等，或者可以暂时地存储己经输出或将要输出的数据。存储器139可以包括至少一种类型的存储介质。而且，终端13可以与通过网络连接执行存储器139的存储功能的网络存储装置协作。控制器137通常控制终端设备的总体操作。另外，控制器137可以包括用于再现或回放多媒体数据的多媒体模块。控制器137可以执行模式识别处理，以将在触摸屏上执行的手写输入或者图片绘制输入识别为字符或图像。电源单元131在控制器137的控制下接收外部电力或内部电力并且提供操作各元件和组件所需的适当的电力。

本公开提出的多声道音频处理方法的各种实施方式可以以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施，本公开提出的视频特征的比对方法的各种实施方式可以通过使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施，在一些情况下，本公开提出的多声道音频处理方法的各种实施方式可以在控制器137中实施。对于软件实施，本公开提出的视频特征的比对方法的各种实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施，软件代码可以存储在存储器138中并且由控制器137执行。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

另外，如在此使用的，在以“至少一个”开始的项的列举中使用的“或”指示分离的列举，以便例如“A、B或C的至少一个”的列举意味着A或B或C，或AB或AC或BC，或ABC(即A和B和C)。此外，措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。

还需要指出的是，在本公开的系统和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外，本公开的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而，所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

一种多声道音频处理方法，包括：

接收待处理多声道音频；

检测所述待处理多声道音频中各声道音频的音频特性；

根据所述各声道音频的音频特性，对所述待处理多声道音频进行处理。
如权利要求1所述的多声道音频处理方法，其中检测所述待处理多声道音频中各声道音频的音频特性步骤，包括：

响应于所述待处理多声道音频为离线音频，检测所述待处理多声道音频中各声道音频的整体音频特性；

响应于所述待处理多声道音频为在线音频，检测所述待处理多声道音频中各声道音频的局部音频特性。
根据权利要求2所述的方法，其中响应于所述待处理多声道音频为离线音频，根据所述各声道音频的音频特性对所述待处理多声道音频进行处理的步骤，包括：

根据所述整体音频特性，确定第一音频处理参数；

基于所述第一音频处理参数，对所述待处理多声道音频进行处理。
根据权利要求3所述的方法，其中所述整体音频特性包括音高特性、声音共振峰特性和瞬态声音脉冲特性；

所述根据所述整体音频特性，确定第一音频处理参数的步骤具体包括：

根据所述音高特性、所述声音共振峰特性和所述瞬态声音脉冲特性，确定所述第一音频处理参数；其中，所述第一音频处理参数包括基频幅值、共振峰幅值和瞬态脉冲；

所述基于所述第一音频处理参数，对所述待处理多声道音频进行处理的步骤，包括：

调整所述基频幅值，且平滑所述共振峰幅值，并对所述瞬态脉冲进行削波处理。
根据权利要求3所述的方法，其中所述整体音频特性包括音高特性和声音共振峰特性；

所述根据所述整体音频特性，确定第一音频处理参数的步骤，包括：

根据所述音高特性和所述声音共振峰特性，确定所述第一音频处理参数；其中，所述第一音频处理参数包括基频幅值和共振峰幅值；

所述基于所述第一音频处理参数，对所述待处理多声道音频进行处理的步骤具体包括：

调整所述基频幅值并平滑所述共振峰幅值。
根据权利要求3所述的方法，其中所述整体音频特性包括音高特性和瞬态声音脉冲特性；

所述根据所述整体音频特性，确定第一音频处理参数的步骤，包括：

根据所述音高特性和所述瞬态声音脉冲特性，确定所述第一音频处理参数；其中，所述第一音频处理参数包括基频幅值和瞬态脉冲；

所述基于所述第一音频处理参数，对所述待处理多声道音频进行处理的步骤具体包括：

调整所述基频幅值并对所述瞬态脉冲进行削波处理。
根据权利要求3所述的方法，其中所述整体音频特性包括音高特性、声音共振峰特性、瞬态声音脉冲特性和音频相位特性；

所述根据所述整体音频特性，确定第一音频处理参数的步骤，包括：

根据所述音高特性、所述声音共振峰特性、所述瞬态声音脉冲特性和所述音频相位特性，确定所述第一音频处理参数；其中，所述第一音频处理参数包括基频幅值、共振峰幅值、瞬态脉冲和音频相位；

所述基于所述第一音频处理参数，对所述待处理多声道音频进行处理的步骤，包括：

调整所述基频幅值，且平滑所述共振峰幅值，并对所述瞬态脉冲进行削波处理，以及调整所述音频相位。
根据权利要求3所述的方法，其中所述整体音频特性包括多声道音频下混特性和主边信道特性；

所述根据所述整体音频特性，确定第一音频处理参数的步骤，包括：

根据所述多声道音频下混特性和所述主边信道特性，确定所述第一音频处理参数；其中，所述第一音频处理参数包括：强音频相关性、基频幅值和共振峰幅值；

所述基于所述第一音频处理参数，对所述待处理多声道音频进行处理的步骤具体包括：

针对所述待处理多声道音频中所有声道音频进行联合处理，并且对其调整所述基频幅值并平滑所述共振峰幅值。
根据权利要求2所述的方法，其中响应于所述待处理多声道音频为在线音频，所述根据所述各声道音频的音频特性对所述待处理多声道音频进行处理的步骤，包括：

根据所述局部音频特性，确定第二音频处理参数；

基于所述第二音频处理参数，对所述待处理多声道音频进行处理。
一种多声道音频处理装置，包括：

接收模块，用于接收待处理多声道音频；

检测模块，用于检测所述待处理多声道音频中各声道音频的音频特性；

处理模块，用于根据所述各声道音频的音频特性，对所述待处理多声道音频进行处理。
根据权利要求10所述的装置，其中所述检测模块包括：

第一检测单元，用于在所述待处理多声道音频为离线音频的情况下，检测所述待处理多声道音频中各声道音频的整体音频特性；

第二检测单元，用于在所述待处理多声道音频为在线音频的情况下，检测所述待处理多声道音频中各声道音频的局部音频特性。
根据权利要求11所述的装置，其中如果所述待处理多声道音频为离线音频，则处理模块包括：

第一确定单元，用于根据所述整体音频特性，确定第一音频处理参数；

第一处理单元，用于基于所述第一音频处理参数，对所述待处理多声道音频进行处理。
根据权利要求12所述的装置，其中所述整体音频特性包括音高特性、声音共振峰特性和瞬态声音脉冲特性中的至少一项；

所述第一确定单元具体用于根据所述音高特性、所述声音共振峰特性和所述瞬态声音脉冲特性，确定所述第一音频处理参数；其中，所述第一音频处理参数包括基频幅值、共振峰幅值和瞬态脉冲中的至少一项；

所述第一处理单元具体用于调整所述基频幅值，且平滑所述共振峰幅值，并对所述瞬态脉冲进行削波处理。
根据权利要求12所述的装置，其中所述整体音频特性包括音高特性和声音共振峰特性；

所述第一确定单元具体用于根据所述音高特性和所述声音共振峰特性，确定所述第一音频处理参数；其中，所述第一音频处理参数包括基频幅值和共振峰幅值；

所述第一处理单元具体用于调整所述基频幅值并平滑所述共振峰幅值。
根据权利要求12所述的装置，其中所述整体音频特性包括音高特性和瞬态声音脉冲特性；

所述第一确定单元具体用于根据所述音高特性和所述瞬态声音脉冲特性，确定所述第一音频处理参数；其中，所述第一音频处理参数包括基频幅值和瞬态脉冲；

所述第一处理单元具体用于调整所述基频幅值并对所述瞬态脉冲进行削波处理。
根据权利要求12所述的装置，其中所述整体音频特性包括音高特性、声音共振峰特性、瞬态声音脉冲特性和音频相位特性；

所述第一确定单元用于根据所述音高特性、所述声音共振峰特性、所述瞬态声音脉冲特性和所述音频相位特性，确定所述第一音频处理参数；其中所述第一音频处理参数包括基频幅值、共振峰幅值、瞬态脉冲和音频相位；

所述第一处理单元用于调整所述基频幅值，平滑所述共振峰幅值，对所述瞬态脉冲进行削波处理，以及调整所述音频相位。
根据权利要求12所述的装置，其中所述整体音频特性包括多声道音频下混特性和主边信道特性；

所述第一确定单元具体用于根据所述多声道音频下混特性和所述主边信道特性，确定所述第一音频处理参数；其中，所述第一音频处理参数包括：强音频相关性、基频幅值和共振峰幅值；

所述第一处理单元具体用于针对所述待处理多声道音频中所有声道音频进行联合处理，并且对其调整所述基频幅值并平滑所述共振峰幅值。
根据权利要求11所述的装置，其中如果所述待处理多声道音频为在线音频，则所述处理模块还包括：

第二确定单元，用于根据所述局部音频特性，确定第二音频处理参数；

第二处理单元，用于基于所述第二音频处理参数，对所述待处理多声道音频进行处理。
一种多声道音频处理硬件装置，包括：

存储器，用于存储非暂时性计算机可读指令；以及

处理器，用于运行所述计算机可读指令，使得所述处理器执行时实现根据权利要求1至9中任意一项所述的多声道音频处理方法。
一种计算机可读存储介质，用于存储非暂时性计算机可读指令，当所述非暂时性计算机可读指令由计算机执行时，使得所述计算机执行权利要求1至9中任意一项所述的多声道音频处理方法。
一种多声道音频处理终端，包括权利要求10至18中任意一项所述的多声道音频处理装置。