WO2009089717A1

WO2009089717A1 - Procédé, système et serveur de contrôle de traitement audio

Info

Publication number: WO2009089717A1
Application number: PCT/CN2008/073694
Authority: WO
Inventors: Yingbin Li
Original assignee: Huawei Technologies Co., Ltd.
Priority date: 2007-12-28
Filing date: 2008-12-24
Publication date: 2009-07-23
Also published as: US20130064387A1; EP2216941A4; EP2216941A1; US8531994B2; EP2216941B1; KR101205386B1; JP5320406B2; US20100268541A1; CN101471804A; KR20100086072A; CN101471804B; JP2011508546A; US8649300B2

Description

一种音频处理方法、系统和控制服务器

本申请要求于 2007 年 12 月 28 日提交中国专利局、申请号为 200710305684.6、发明名称为"一种音频处理方法、系统和控制服务器"的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及语音通信技术领域，特别涉及一种音频处理方法、系统和控制服务器。

背景技术

当前会议电视产品或部分会议电话产品主要遵循 ITU-H.323 协议或 ITU-H.320协议进行音频处理，其中实现核心音频交换以及对多个会议终端进行控制的设备主要是 MCU ( Multipoint Control Unit, 多点控制单元）， MCU 单元至少具有 MC ( Multipoint Control, 多点控制）功能和 MP ( Multipoint Process, 多点处理）功能，能够进行多路混音，例如，在某个电话会议中，至少三个会场的电话终端同时通过 MCU进行通信，则 MCU需要将各个终端发送过来的声音混合成一路，再发送到各个会场的电话终端，以保证各个会场的终端用户虽然不在一个空间内，但却如同在一个^义室内交流。

以会议音频处理为例，现有技术中对于多个终端进行音频交流时的音频处理流程如图 1所示：

步骤 101 :在 MCU上为接入的各个会场的终端分别分配音频编解码端口。步骤 102: 发起呼叫后各个终端分别将编码后的音频数据发送至 MCU。步骤 103: MCU解码各个终端发送的音频数据后，选出音量较大的会场的音频数据。

步骤 104: 对选出的音频数据进行混音后混合成一路音频数据。

步骤 105: 将混音后的一路音频数据进行编码后再发送到各个会场终端。步骤 106: 各个会场终端对接收到的音频数据进行解码。

由上述对现有技术的描述可知，从各个会场终端向 MCU发送音频数据开始，到各个会场接收到 MCU发送的混音后的一路音频数据为止，每经过一次 MCU就要进行一次音频编解码。

在实现本发明的过程中，发明人发现现有技术至少存在如下问题：每进行一次编解码就会增加终端到终端的音频失真，当基于一个 MCU的多点会议，则会场终端要进行一次编解码， MCU混音时要进行一次编解码，导致出现两次失真；当基于两个 MCU级联的多点^义，则会场终端要进行一次编解码，两个 MCU混音时要进行两次编解码，导致出现三次失真，由此类推，每增加一个 MCU, 则会相应增加一次失真；并且每进行一次编解码还会增加终端到终端的语音延时，其原因和推导过程与上述音频失真一致。另外，对于同时加入语音会议的会场终端， MCU要为各个终端分别分配音频编解码端口，尤其在会场较多的时候需要 MCU提供大量的音频编解码端口，增加了多点^义成本。

发明内容

本发明实施例的目的在于提供一种音频处理方法、系统和控制服务器。为实现本发明实施例的目的 , 本发明实施例提供如下技术方案：一种音频处理方法，包括：

控制服务器接收接入到所述控制服务器上的各个终端发送的编码后的音频数据；

控制服务器通过与所述各个终端进行能力协商获取所述各个终端的音频能力；

控制服务器将从所述音频数据中提取的音频数据按照所述音频能力转发到所述各个终端。

一种音频处理系统，包括：至少一个控制服务器和多个终端，

所述控制服务器用于，接收接入到所述控制服务器上的各个终端发送的编码后的音频数据 ,通过与所述各个终端进行能力协商获取所述各个终端的音频能力，将从所述音频数据中提取的音频数据按照所述音频能力转发到所述各个终端；

所述终端用于接入所述控制服务器，并对接收到的音频数据进行解码并自动混音后播放。

一种控制服务器，包括：

获取单元，用于接收接入到所述控制服务器上的各个终端发送的编码后的音频数据 , 通过与所述各个终端进行能力协商获取所述各个终端的音频能力；转发单元，用于将从所述音频数据中提取的音频数据按照所述音频能力转发到所述各个终端。

由以上本发明实施例提供的技术方案可见，本发明实施例中终端接入控制服务器后，控制服务器通过能力协商获取终端的音频能力，控制服务器按照该音频能力转发编码后的音频数据到各个终端。本发明实施例中的音频数据无需每经过一个控制服务器都进行一次音频编解码操作 ,控制服务器由于只对音频数据进行抽包和组包的重组和转发，因此降低了控制服务器的编解码次数和对音频数据的传输延时，增强了终端之间交互的实时性，并且减少了控制服务器对音频编解码资源的占用，降低了成本；在减少了控制服务器自身编解码次数的情况下实现多路混音，能够与现有标准协议控制服务器保持良好的兼容性，可以广泛应用于会议电视和会议电话等通信领域。

附图说明

图 1为现有技术中多个终端进行音频交流时的音频处理流程；

图 2为本发明音频处理方法的第一实施例流程图；

图 3为本发明音频处理方法的第二实施例结构示意图；

图 4为本发明音频处理方法的第二实施例流程图；

图 5为本发明音频处理方法的第三实施例结构示意图；

图 6为本发明音频处理方法的第三实施流程图；

图 7为本发明音频处理方法的第四实施例结构示意图；

图 8为本发明音频处理方法的第四实施流程图；

图 9为本发明音频处理方法的第五实施例结构示意图；

图 10为本发明音频处理方法的第五实施流程图；

图 11为本发明音频处理方法的第六实施例结构示意图；

图 12为本发明音频处理方法的第六实施例流程图；

图 13为本发明音频处理系统的实施例框图；

图 14为本发明控制服务器的实施例框图。

具体实施方式

本发明实施例提供了音频处理方法、系统和控制服务器，在终端接入控制服务器后，控制服务器通过能力协商获取终端的音频能力，控制服务器按照该音频能力转发编码后的音频数据到各个终端。

为了使本技术领域的人员更好地理解本发明实施例提供的技术方案，下面结合附图和具体实施方式对本发明实施例提供的技术方案作进一步的详细说明。

本发明音频处理方法的第一实施例流程如图 2所示：

步骤 201 : 终端接入控制服务器后控制服务器通过能力协商获取终端的音频能力。

其中，终端的音频能力情况包括：终端支持多声道分离音频编解码协议，或终端支持多音频逻辑通道，或不支持多声道分离音频编解码协议和多音频逻辑通道。

步骤 202: MCU按照音频能力转发编码后的音频数据到各个终端。

其中，控制服务器按照音频能力使用下述任一方式转发编码后的音频数据到各个终端：当终端支持多声道分离音频编解码协议时，控制服务器选择所述音频数据中的多路音频数据进行打包后在一个音频逻辑通道内转发；当终端支持多音频逻辑通道时，控制服务器选择所述音频数据中的多路音频数据在多个音频逻辑通道内转发。当终端不支持上述方式时，义服务器将所述音频数据进行混音编码后发送给各个终端。

其中，仅有一个控制服务器时，控制服务器按照所述音频能力转发编码后的音频数据到接入该控制服务器的各个终端；级联多个控制服务器时，多个控制服务器按照所述音频能力级联传输所述接收端控制服务器发送的编码后的音频数据，并由接收端控制服务器转发音频数据到接入该接收端控制服务器的各个终端。

本发明音频处理方法第二实施例的结构示意图如图 3所示，图 3中控制服务器为 MCU, 四个终端分别通过与 MCU连接实现多点音频处理，其中每个终端与 MCU之间均只有唯一的音频发送通道（图中实线箭头所示）和音频接收通道（图中虚线箭头所示），即 MCU与终端之间有一条音频逻辑通道。结合图 3所示的结构图，本发明音频处理方法的第二实施例流程如图 4所示，该实施例示出了采用多声道分离音频编解码协议的终端与一个 MCU之间进行音频数据处理的过程：步骤 401 : 终端发起呼叫后接入 MCU 并将编码后的音频数据发送给该 MCU。

终端在发起呼叫时，通常与 MCU通过能力协商确定终端与 MCU之间支持多声道分离音频编解码协议，该协议通常为 AAC ( Advanced Audio Coding, 高级音频编码技术）协议等国际标准的音频编解码协议，也可以为私有协议。

步骤 402: MCU创建针对多声道分离音频编解码协议的解码器。

本发明实施例中采用的多声道分离音频编解码协议中，声道分离是指 MCU无需对接收到的各个终端的音频编码数据进行解码，而是直接从包含该音频编码数据的 IP报文中就可以知道各个音频数据来自于哪个声道以及该声道的音频编码协议。

步骤 403: MCU根据解码出的音频数据音量选出需要混音的终端。

步骤 404: MCU从需要混音的终端的独立声道中提取音频数据。

本发明实施例中 MCU不必对接收到的各个终端的音频数据进行统一的解码，再选出需要的几路音频数据进行混音，然后再编码的过程，而是分别从接收到的多声道分离音频编解码协议音频数据中直接提取出一个声道的音频数据包，提取音频数据包所属的终端即为通过音频数据音量选出的需要混音的终端。

步骤 405: MCU对选出的几路音频数据进行打包处理后通过一条音频逻辑通道发送给各个终端。

将上述提取出未经解码的几路音频数据包直接进行重新打包组合在一起，例如，与 MCU进行多点通信的终端分别为终端 1、终端 2、终端 3和终端 4，假设 MCU按照音量策略选出的三路音频数据分别为终端 1、终端 2和终端 3 发送的编码后的音频数据 ,把这三个终端的音频数据分别作为一个独立的声道打包到一个音频逻辑通道里，即该逻辑通道里的音频数据包含三个独立声道的数据，然后转发到各个终端，即终端 1接收到终端 2和终端 3的音频编码数据组成的音频数据包，终端 2接收到终端 1和终端 3的音频编码数据组成的音频数据包，终端 3接收到终端 1和终端 2的音频编码数据组成的音频数据包，而终端 4接收到终端 1、终端 2和终端 3的音频编码数据组成的音频数据包。

步骤 406: 终端对接收到的打包音频数据进行解码并自动混音后播放。上述本发明方法的第二实施例中，当并非所有的终端与 MCU互通都支持多声道分离音频编解码协议时，则 MCU需要为不支持该协议的终端创建用于混音和编码的资源，并且支持自动音频协议适配，即自动把支持多声道分离音频编解码协议终端发送的音频数据经过解码、混音编码后发送给不支持该协议的终端，以保持对不支持该协议终端的兼容。

本发明音频处理方法第三实施例的结构示意图如图 5所示，图 5中控制服务器为 MCU, 终端 Al、终端 A2、终端 A3和终端 A4分别与 MCU— A相连，终端 Bl、终端 B2、终端 B3和终端 B4分别与 MCU— B相连，上述终端通过与 MCU连接实现多点音频处理，其中每个终端与 MCU之间均只有唯一的音频发送通道（图中单向实线箭头所示）和音频接收通道（图中虚线箭头所示），即 MCU与终端之间有一条音频逻辑通道， MCU之间实现一路呼叫（图中双向实线箭头所示）。结合图 5所示的结构图，本发明音频处理方法的第三实施例流程如图 6所示，该实施例示出了采用多声道分离音频编解码协议的终端与两个级联 MCU之间进行音频数据处理的过程：

步骤 601 : 终端发起呼叫后接入 MCU— A, 并将编码后的音频数据发送给该 MCU— A。

步骤 602: MCU— A创建针对多声道分离音频编解码协议的解码器。

步骤 603: MCU— A才艮据解码出的音频数据音量选出需要混音的终端。步骤 604: MCU— A从需要混音的终端的独立声道中提取音频数据。

步骤 605： MCU— A对选出的几路音频数据进行打包处理后发送给级联的

MCU— B。

步骤 606: MCU— B创建解码器后根据音量选出对 MCU— A的声道的音频数据进行替换的音频数据。

级联 MCU— A和 MCU— B在处理与其各自相连的终端发送的音频数据时与本发明实施例二一致 ,但是在级联 MCU— A和级联 MCU— B之间增加了一条声道，特别当两个以上 MCU级联时会相应增加多条声道，因此在级联的 MCU— A 向 MCU— B发送打包音频数据时， MCU—B会根据收到音频数据的音量和与该 MCU— B 相连终端发送的音频数据音量进行比较，根据比较的结果用与该 MCU— B相连的较大音量音频数据替换 MCU— A发送的音频数据包中音量相对较小的音频数据。

结合图 5, 假设与 MCU— A相连的终端 Al、终端 A2、终端 A3和终端 A4 经 MCU— A音量选择后的音频数据包里包含了终端 A1、终端 A2和终端 A3的音频数据，当 MCU— B接收到该音频数据包后，对该音频数据包进行比较，假设与 MCU— B相连的终端 B1的音频数据音量大于音频数据包中终端 A1的音频数据音量，则相应用终端 B1的音频数据替换音频数据包中终端 A1的音频数据。

步骤 607: MCU— B将替换后的音频数据重新打包处理后通过一条音频逻辑通道发送给与其相连的各个终端。

步骤 608: 终端对接收到的打包音频数据进行解码并自动混音后播放。上述本发明实施例三中，当所有的终端都支持多声道分离音频编解码协议时，则通过发送端的 MCU给发送端的终端创建音频编码器，接收端的 MCU 给接收端的终端创建音频解码器即可，因此无论级联了多少个 MCU, 只需要在发送端 MCU的终端进行编码，并在接收端 MCU的终端进行解码，整个音频处理过程只进行一次音频编码和解码的操作。及发送端 MCU的终端发送音频编码数据，发送端 MCU对音频数据进行打包处理后，该音频数据包在多个 MCU之间级联传输，当传输到接收端 MCU时，该接收端 MCU无需进行解码而是直接根据多声道分离音频编解码协议，对该音频数据包采用直接提取一个声道的音频数据，用该接收端 MCU音量较大的终端发送的音频数据进行相应替换后，发送至接收端 MCU的终端，由接收端 MCU的终端对替换后的音频数据包进行解码。

当并非所有的终端都支持多声道分离音频编解码协议时，则发送端的 MCU无需给发送端的终端创建音频编码器，接收端的 MCU给接收端的终端创建音频编码器和解码器，并且接收端 MCU需要对接收到的级联传输的音频数据包进行解码及重新替换后的编码操作，使得各个终端之间能够兼容。因此，无论级联了多少个 MCU,音频数据包在除了接收端 MCU外的其它 MCU之间传输时无需进行任何编码和解码操作。由此整个级联传输的音频处理过程只需要进行两次编解码的操作即可，即发送端 MCU的终端发送音频编码数据，发送端 MCU对音频编码数据进行打包处理后 , 该音频数据包在多个 MCU之间级联传输，当传输到接收端 MCU时，由于不支持多声道分离音频编解码协议，该接收端 MCU需要对该音频数据包进行解码，并用该接收端 MCU的终端发送的较大音量的音频数据替换音频数据包中较小音量的音频数据，接收端 MCU对替换后的音频数据重新编码后发送该接收端 MCU 的终端，接收端 MCU的终端接收到音频数据包后进行解码。

本发明音频处理方法第四实施例的结构示意图如图 7所示，图 Ί中控制服务器为 MCU, 四个终端分别通过与 MCU连接实现多点音频处理，其中每个终端与 MCU之间有三条音频发送通道（图中实线箭头所示）及一条音频接收通道（图中虚线箭头所示），即终端与 MCU之间的有三条音频逻辑通道，该实施例基于标准的 H.323协议等支持音频通信的国际标准协议，该协议支持打开多个逻辑通道，也支持多个承载同类媒体的逻辑通道。结合图 7所示的结构图，本发明音频处理方法的第四实施例流程如图 8所示，该实施例示出了具有多个音频逻辑通道的终端与一个 MCU之间进行音频数据处理的过程：

步骤 801 : 终端发起呼叫后接入 MCU 并将编码后的音频数据发送给该 MCU。

终端发起呼叫时，通常与 MCU通过能力协商确定终端与 MCU之间支持多个音频逻辑通道，由于能力协商标准协议中带有非标能力协议字段，因此通过该非标能力协议字段描述支持多个音频逻辑通道的能力。例如，假设在能力协商标准协议的扩展能力字段里定义 4个字节的内容 "OxOaOa", 则进行能力协商时， MCU发现终端在非标准字段里填有" OxOaOa" , 则表示支持多个音频逻辑通道的能力 , 当呼叫成功后的音频处理就能够按照多音频通道进行处理。

步骤 802: MCU创建针对多个音频逻辑通道的解码器。

步骤 803 : MCU根据解码出的音频数据音量选出需要混音的终端。

步骤 804: 将需要混音的终端的音频数据通过对应的三条音频逻辑通道直接发送到各个终端。

例如， MCU接收到终端 1、终端 2、终端 3和终端 4发送的编码后的音频数据后，假设 MCU按照音频策略选出的三路音频数据分别为终端 1、终端 2 和终端 3的音频数据，则 MCU可以直接将选出的所有音频逻辑通道内的音频数据发送至各个终端，即终端 1分别从终端 2的音频通道和终端 3的音频通道接收到终端 2和终端 3的音频数据，终端 2分别从终端 1的音频通道和终端 3 的音频通道接收到终端 1和终端 3的音频数据，终端 3分别从终端 1的音频通道和终端 2的音频通道接收到终端 1和终端 2的音频数据，终端 4分别从终端 1的音频通道、终端 2的音频通道和终端 3的音频通道接收终端 1、终端 2和终端 3的音频数据。

步骤 805: 终端对接收到的音频数据进行解码并自动混音后播放。

该实施例中的终端相应支持打开多个音频接收通道、支持同时解码多路音频数据并且支持将解码后的多路音频数据混合后输出到扬声器。以上述终端 1 接收到的音频数据为例，终端 1将对从终端 2的音频通道和终端 3的音频通道接收到的两路音频数据分别进行解码后再混音输出到扬声器。

在上述本发明第四实施例中，当并非所有的终端与 MCU互通都支持多音频逻辑通道时，则 MCU需要为不支持多个逻辑通道的终端创建用于混音和编码的资源，并且支持自动音频协议适配，即自动把支持多音频逻辑通道终端发送的音频数据经过解码、混音编码后发送给不支持多音频逻辑通道的终端，以保持对不支持多音频逻辑通道的终端的兼容。

本发明音频处理方法第五实施例的结构示意图如图 9所示，图 9中控制服务器为 MCU, 终端 Al、终端 A2、终端 A3和终端 A4分别与 MCU— A相连，终端 Bl、终端 B2、终端 B3和终端 B4分别与 MCU— B相连，上述终端通过与 MCU连接实现多点音频处理，其中每个终端与 MCU之间有三条音频发送通道（如图中单向实线箭头所示）和一条音频接收通道（如图中虚线箭头所示），图中示出了每个终端与 MCU之间有四条逻辑通道， MCU之间实现一路呼叫 (如图中双向实线箭头所示）。结合图 9所示的结构图，本发明音频处理方法的第五实施例流程如图 10所示，该实施例示出了具有多个音频逻辑通道的终端与两个级联 MCU之间进行音频数据处理的过程：

步骤 1001 : 终端发起呼叫后接入 MCU— A并将编码后的音频数据发送给该 MCU— A。

在发起呼叫时，通常与 MCU通过能力协商确定终端与级联 MCU之间支持多路呼叫级联，由于能力协商标准协议中带有非标能力协议字段，因此通过该非标能力协议字段描述支持多路呼叫级联的能力 , 同样 MCU之间的级联呼叫也使用同样的流程。例如，假设在能力协商标准协议的扩展能力字段里定义

4个字节的内容 "OxOaOb",则进行能力协商时， MCU发现终端在非标能力字段里标注了" OxOaOb", 则表示支持多路呼叫级联的能力，当呼叫成功后的音频处理就能够按照多路呼叫级联的方式进行。

步骤 1002: MCU— A创建针对多个逻辑通道的解码器。

步骤 1003: MCU— A根据解码出的音频数据音量选出需要混音的终端。步骤 1004 : 将需要混音的终端的几路音频逻辑通道数据直接转发到

MCU— B。

步骤 1005: MCU— B创建解码器后根据音量选出对 MCU— A的音频数据进行替换的音频数据。

步骤 1006: MCU— B将替换后的几路音频数据通过三条音频逻辑通道直接发送到各个终端。

步骤 1007: 终端对接收到的音频数据进行解码后自动混音后播放。

上述本发明方法的第五实施例中，当所有的终端都支持多音频逻辑通道时，则通过发送端的 MCU给发送端的终端创建音频编码器，接收端的 MCU 给接收端的终端创建音频解码器即可，因此无论级联了多少个 MCU, 只需要在发送端 MCU的终端进行编码，并在接收端 MCU的终端对从多音频通道传输的音频数据分别进行解码后混音，整个音频处理过程只进行一次音频编码和解码的操作。即发送端 MCU的终端发送音频编码数据，发送端 MCU将音频数据通过多音频逻辑通道在多个 MCU之间级联传输，当传输到接收端 MCU 时，该接收端 MCU无需进行解码而是直接根据多音频逻辑通道能力，对多逻辑通道的音频数据，用该接收端 MCU音量较大的终端发送的音频逻辑通道的音频数据进行相应替换后，发送至接收端 MCU的终端，由接收端 MCU的终端对替换后的经多音频逻辑通道传输的多路音频数据分别进行解码。

当并非所有的终端都支持多音频逻辑通道时，则发送端的 MCU无需给发送端的终端创建音频编码器，接收端的 MCU给接收端的终端创建音频编码器和解码器，并且接收端 MCU需要对接收到的级联传输的音频数据包进行解码及重新替换后的编码操作 , 使得各个终端之间能够兼容。

因此，无论级联了多少个 MCU, 音频数据包在除了接收端 MCU外的其它 MCU之间传输时无需进行任何编码和解码操作。由此整个级联传输的音频处理过程只需要进行两次编解码的操作，即发送端 MCU将音频数据通过多音频逻辑通道在多个 MCU之间级联传输，当传输到接收端 MCU时，由于不支持多音频逻辑通道，该接收端 MCU需要对该多音频逻辑通道的音频数据进行解码，并用该接收端 MCU的终端发送的较大音量的音频数据替换多音频通道的音频数据中较小音量的音频数据，接收端 MCU对替换后的多路音频数据重新编码后发送该接收端 MCU的终端，接收端 MCU的终端接收到音频数据包后进行解码。

本发明音频处理方法第六实施例的结构示意图如图 11所示，图 11中控制服务器为 MCU,终端 1和终端 2与 MCU— A连接，终端 3和终端 4与 MCU— B 连接，终端通过与 MCU连接实现多点音频处理，同时在 MCU— A和 MCU— B 之间实现多路级联呼叫 ,即级联的 MCU— A和 MCU— B之间根据需要混音的终端数目动态建立多路呼叫，每路呼叫只有一条音频通道，各个音频通道之间的协议可以不同，如图 11中所示在 MCU— A和 MCU— B之间建立了三路级联呼叫（如图中双向实线箭头所示），每个终端与 MCU之间建立一路呼叫。结合图 11所示的结构图，本发明音频处理方法的第六实施例流程如图 12所示，该实施例示出了 MCU之间通过多路呼叫级联进行音频数据处理的过程：

步骤 1201 : 终端发起呼叫后接入 MCU— A并将编码后的音频数据发送给该 MCU— A。

步骤 1202: MCU— A为接入的终端创建解码器。

步骤 1203: MCU— A根据解码后的音频数据音量选出需要混音的终端。步骤 1204: MCU— A将需要混音的终端的音频数据分别从对应的 MCU— A 的相应音频协议端口转发到 MCU— B上支持该音频协议的端口。

步骤 1205: MCU— B创建解码器后对从 MCU— A各个端口发送的音频数据进行解码。

步骤 1206: MCU— B按照音量大小从接收到的 MCU— A发送的多路音频数据和该 MCU— B的终端发送的多路音频数据中选出需要混音的音频数据。

步骤 1207: MCU— B将选出的多路音频数据混音后发送到各个终端。步骤 1208: 终端对接收到的音频数据进行解码并自动混音后播放。对于 MCU之间的级联通常使用一对 MCU级联端口实现音频呼叫，但是上述本发明第六实施例中在两个级联的 MCU之间通过多对端口实现支持不同音频协议的多路呼叫 , 由此实现对多路音频数据进行多路混音。

当有终端支持多声道分离音频编解码协议或支持多音频逻辑通道时，则可以直接把级联 MCU的终端发送的不同音频协议的音频数据发送至上述终端。因此无论中间经过多少个级联的 MCU, 则仅需要一次音频编码和一次音频解码即可。例如，图 11中终端 1和终端 2分别为支持不同音频协议的终端，而终端 3为支持多音频逻辑通道的终端，在级联的 MCU— A和 MCU— B之间建立了对应三个终端的三路级联呼叫，则终端 1和终端 2将各自的音频数据编码后发送到 MCU— A, MCU— A将终端 1的音频数据和终端 2的音频数据通过级联呼叫 1和级联呼叫 2分别发送到 MCU— B, MCU— B将两路音频数据组包后发送到终端 3，由终端 3对该音频数据包进行解码即可。

当终端分别支持多种音频协议时，则通过发送端的 MCU给发送端的终端创建音频编码器，然后接收端的 MCU对接收到的级联传输的多路音频数据进行解码、混音编码后发送到接收端的终端进行解码，接收端的 MCU给接收端的终端创建音频解码器即可。因此，无论级联了多少个 MCU, 音频数据包在除了发送端 MCU和接收端 MCU外的其它 MCU之间传输时无需进行任何编码和解码操作，整个级联传输的音频处理过程只需要进行两次编解码的操作即可。例如，图 11中终端 1、终端 2和终端 3分别为支持不同音频协议的终端，在级联的 MCU— A和 MCU— B之间建立了对应三个终端的三路级联呼叫 ,则终端 1和终端 2将各自的音频数据编码后发送到 MCU— A, MCU— A将终端 1和终端 2的音频数据通过级联呼叫 1和级联呼叫 2分别发送到 MCU— B, MCU— B 对接收到的两路音频数据进行解码，然后混音并重新编码为对应终端 3的音频协议的音频数据，并将该编码后的音频数据发送到终端 3，终端 3接收到音频数据后按照其所支持的音频协议对音频数据进行解码。

结合本发明方法实施例，当业务操作平台对 MCU进行调度时，能够按照与终端进行能力协商时获取的能力情况，自动选择合适的 MCU级联方案。例如，对于级联^义，当所有终端都支持多声道分离音频编解码协议时，则自动调度多声道分离音频编解码协议的级联会议；当所有终端都支持多个音频逻辑通道时，则自动调度多个音频逻辑通道的级联会议；当部分终端支持多声道分离音频编解码协议，而部分终端为普通终端时，则自动调度含有多声道分离音频编解码协议的终端和其它音频协议的终端的多路呼叫级联会议；当部分终端支持多个音频逻辑通道而部分终端为普通终端时，则自动调度含有所有音频协议的级联会场。对于单 MCU 义，当所有终端都支持多声道分离音频编解码协议时 , 则自动调度多声道分离音频编解码协议的单 MCU会议；当所有终端都支持多音频逻辑通道时 , 则自动调度多音频逻辑通道的单 MCU会议。

与本发明音频处理方法的实施例相对应 ,本发明还提供了音频处理系统的实施例。

本发明音频处理系统的实施例框图如图 13所示：

该系统包括：至少一个控制服务器 1310和多个终端 1320。

其中，控制服务器 1310用于通过能力协商获取所述终端的音频能力，并按照所述音频能力转发编码后的音频数据到各个终端；终端 1320用于接入所述控制服务器，并对接收到的音频数据进行解码并自动混音后播放。

与本发明音频处理方法和系统的实施例相对应，本发明还提供了一种控制服务器。

本发明控制服务器包括：获取单元 1410和转发单元 1420。其中，获取单元 1410用于通过能力协商获取所述终端的音频能力；转发单元 1420用于按照所述音频能力转发所述编码后的音频数据到各个终端。

进一步的，当选择多路音频数据进行打包后在一个音频逻辑通道内转发时

(即获取单元 1410获取的音频能力为支持多声道分离音频编解码协议），所述转发单元 1420包括（图 14中未示出）：选择单元，用于按照所述音频数据的音量选择进行混音的几路终端的音频数据；提取单元，用于提取所述几路终端的独立声道内的音频数据；发送单元，用于将所述提取出的音频数据进行打包后通过一个音频逻辑通道发送到各个终端。

当选择多路音频数据进行打包后在一个音频逻辑通道内转发（即获取单元 1410获取的音频能力为支持多声道分离音频编解码协议），且所述控制服务器为级联的多个控制服务器中的发送端控制服务器，所述转发单元 1420包括（图 14中未示出）：选择单元，用于按照所述音频数据的音量选择进行混音的几路终端的音频数据；提取单元，提取所述几路终端的独立声道内的音频数据；传输单元，用于将所述提取出的音频数据进行打包后通过一个音频逻辑通道级联传输到接收端控制服务器。

当选择多路音频数据进行打包后在一个音频逻辑通道内转发，且所述控制服务器为级联的多个控制服务器中的接收端控制服务器，所述转发单元 1420 包括（图 14中未示出 ): 选择单元，用于根据音量选出对所述发送端控制服务器发送的音频数据进行替换的接收端的音频数据；发送单元，用于将替换后的所述音频数据重新打包后通过一个音频逻辑通道发送到各个终端。

当多路音频数据在多个音频逻辑通道内转发时（即获取单元 1410获取的音频能力为支持多音频逻辑通道），所述转发单元 1420包括（图 14中未示出）：选择单元，用于按照所述音频数据的音量选择进行混音的几路终端的音频数据；发送单元，用于将所述几路终端的音频数据通过所述多个音频逻辑通道直接发送到各个终端。

当多路音频数据在多个音频逻辑通道内转发（即获取单元 1410获取的音频能力为支持多音频逻辑通道），且所述控制服务器为级联的多个控制服务器中的发送端控制服务器，所述转发单元 1420包括（图 14中未示出 ): 选择单元，用于按照所述音频数据的音量选择进行混音的几路终端的音频数据；传输单元，用于将所述几路终端的音频数据通过多个音频逻辑通道级联传输到接收端控制服务器。

当多路音频数据在多个音频逻辑通道内转发，且所述控制服务器为级联的多个控制服务器中的接收端控制服务器，所述转发单元 1420包括（图 14中未示出）：选择单元，用于根据音量选出对所述发送端控制服务器发送的音频数据进行替换的接收端的音频数据；发送单元，用于将所述替换后的音频数据通过所述多个音频逻辑通道直接发送到各个终端。

当控制服务器为多路呼叫级联的多个控制服务器中的发送端控制服务器，所述转发单元 1420包括（图 14中未示出）：选择单元，用于按照所述音频数据的音量选择进行混音的几路终端的音频数据；传输单元，用于将所述几路终端的音频数据分别从与所述终端对应的音频协议的端口级联传输到接收端控制服务器的对应端口。当所述控制服务器为多路呼叫级联的多个控制服务器中的接收端控制服务器，所述转发单元 1420包括（图 14中未示出 ): 选择单元，用于根据音量从接收到的发送端控制服务器发送的音频数据和该接收端的音频数据中选择进行混音的几路音频数据；发送单元，用于将所述几路音频数据混音后发送到各个终端。

当接收音频数据的终端不支持多声道分离音频编解码协议和多音频逻辑通道时，控制服务器还可以包括：创建单元，用于为所述终端创建用于混音和编码的资源；所述转发单元 1420包括（图 14中未示出）：选择单元，用于按照预先设置的策略选择进行混音的几路终端的音频数据；传输单元，用于将所述音频数据通过所述资源进行解码和混音编码后发送到所述终端。

需要说明的是，上述实施例中控制服务器均根据音量选择进行混音的终端 ,但是在实际应用中 ,还可以根据预先设置的其它策略选择进行混音的终端 , 这些策略可以包括：按照终端的呼叫标识选择进行混音的终端（例如，具有特殊标识的终端为待选择的终端）、或按照终端的呼叫顺序选择进行混音的终端 (例如，呼叫靠前的若干终端为待选择的终端）等。

通过本发明实施例的描述可知，本发明实施例中的音频数据无需每经过一个控制服务器都进行一次音频编解码操作 ,因此极大降低了控制服务器的编解码次数，特别在仅有一个控制服务器的情况下，终端与终端之间的音频延时只有网络传输、发送终端的编码和接收终端的解码，而控制服务器由于只对音频数据进行抽包和组包的重组，因此延时可以忽略不计，增强了终端之间交互的实时性，并且减少了控制服务器对音频编解码资源的占用，降低了成本。在减少了控制服务器自身编解码次数的情况下实现多路混音，能够与现有标准协议控制服务器保持良好的兼容性，可以广泛应用于会议电视和会议电话等通信领域。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，包括如下步骤：终端接入控制服务器后，控制服务器通过能力协商获取所述终端的音频能力；控制服务器按照所述音频能力转发编码后的音频数据到各个终端。所述的存储介质，如： ROM/RAM、磁碟、光盘等。

虽然通过实施例描绘了本发明，本领域普通技术人员知道，本发明有许多变形和变化而不脱离本发明的精神，希望所附的权利要求包括这些变形和变化而不脱离本发明的精神。

Claims

权利要求

1、一种音频处理方法，其特征在于，包括：

2、根据权利要求 1所述的方法，其特征在于，所述控制服务器按照所述音频能力使用下述任一方式转发所述提取的音频数据到各个终端；

当所述各个终端均支持多声道分离音频编解码协议时，控制服务器选择所述音频数据中的多路音频数据进行打包后，通过一个音频逻辑通道传输到各个终端；

当所述各个终端支持多音频逻辑通道时 ,控制服务器选择所述音频数据中的多路音频数据，通过多个音频逻辑通道传输到各个终端。

3、根据权利要求 2所述的方法，其特征在于，仅有一个控制服务器时，所述控制服务器将从所述音频数据中提取的音频数据按照所述音频能力转发到接入所述控制服务器的各个终端；或

级联多个控制服务器时，所述多个控制服务器按照所述音频能力级联传输发送端控制服务器从接入所述发送端控制服务器的各个终端发送的编码后的音频数据中提取的音频数据至接收端控制服务器，并由所述接收端控制服务器转发所述提取的音频数据到接入该接收端控制服务器的各个终端。

4、根据权利要求 3所述的方法，其特征在于，仅有一个控制服务器，且终端支持多声道分离音频编解码协议，控制服务器选择所述音频数据中的多路音频数据进行打包后，通过一个音频逻辑通道传输到各个终端包括：

所述控制服务器按照预先设置的策略选择进行混音的几路终端的音频数据；

提取所述几路终端的独立声道内的音频数据；

将所述提取出的音频数据进行打包后通过一个音频逻辑通道发送到各个终端。

5、根据权利要求 3所述的方法，其特征在于，级联多个控制服务器，且终端支持多声道分离音频编解码协议，控制服务器选择所述音频数据中的多路音频数据进行打包后，通过一个音频逻辑通道传输到各个终端包括：

发送端控制服务器按照预先设置的策略选择进行混音的几路终端的音频数据；

发送端控制服务器提取所述几路终端的独立声道内的音频数据；将所述提取出的音频数据进行打包后级联传输到接收端控制服务器；接收端控制服务器根据预先设置的策略选出对所述发送端控制服务器发送的音频数据进行替换的接收端的音频数据；

接收端控制服务器将替换后的所述音频数据重新打包后通过一个音频逻辑通道发送到各个终端。

6、根据权利要求 4或 5所述的方法，其特征在于，所述对音频数据打包包括：

抽取所述不同声道内的音频数据，并将所述抽取出的音频数据合并成一个音频数据包；或

将不同声道的音频数据直接进行分离式打包。

7、根据权利要求 3所述的方法，其特征在于，仅有一个控制服务器，且终端支持多音频逻辑通道，控制服务器选择所述音频数据中的多路音频数据，通过多个音频逻辑通道传输到各个终端包括：

将所述几路终端的音频数据通过所述多个音频逻辑通道直接发送到各个终端。

8、根据权利要求 3所述的方法，其特征在于，级联多个控制服务器，且终端支持多音频逻辑通道，控制服务器选择所述音频数据中的多路音频数据，通过多个音频逻辑通道传输到各个终端包括：

所述控制服务器按照预先设置的策略选择进行混音的几路终端的音频数据；将所述几路终端的音频数据级联传输到接收端控制服务器；

接收端控制服务器根据预先设置的策略选出对所述发送端控制服务器发送的音频数据进行替换的接收端的音频数据；

将所述替换后的音频数据通过所述多个音频逻辑通道直接发送到各个终端。

9、根据权利要求 3所述的方法，其特征在于，多个级联控制服务器之间具有多路呼叫，控制服务器将从所述音频数据中提取的音频数据按照所述音频能力转发到所述各个终端包括：

将所述几路终端的音频数据分别从与所述终端对应的音频协议的端口级联传输到接收端控制服务器的对应端口；

接收端控制服务器根据预先设置的策略从接收到的音频数据和该接收端的音频数据中选择进行混音的几路音频数据；

接收端控制服务器将所述几路音频数据混音后发送到各个终端。

10、根据权利要求 4、 5、 7、 8、 9任意一项所述的方法，其特征在于，所述预先设置的策略包括：所述音频数据的音量大小、所述终端的呼叫标识、或所述终端的呼叫顺序。

11、根据权利要求 3所述的方法，其特征在于，当终端不支持所述多声道分离音频编解码协议和多音频逻辑通道时，还包括：控制服务器为所述终端创建用于混音和编码的资源；

所述控制服务器将从所述音频数据中提取的音频数据按照所述音频能力转发到所述各个终端包括：

将所述音频数据通过所述资源进行解码和混音编码后发送到所述终端。

12、一种音频处理系统，其特征在于，包括：至少一个控制服务器和多个终端，

13、一种控制服务器，其特征在于，包括：

14、根据权利要求 13所述的控制服务器，其特征在于，所述获取单元获取的音频能力为支持多声道分离音频编解码协议，所述转发单元包括：

选择单元，用于按照预先设置的策略选择进行混音的几路终端的音频数据；

提取单元，用于提取所述几路终端的独立声道内的音频数据；

发送单元，用于将所述提取出的音频数据进行打包后通过一个音频逻辑通道发送到各个终端或级联端口。

15、根据权利要求 13所述的控制服务器，其特征在于，所述获取单元获取的音频能力为支持多声道分离音频编解码协议，且所述控制服务器为级联的多个控制服务器中的发送端控制服务器，所述转发单元包括：

提取单元，提取所述几路终端的独立声道内的音频数据；

传输单元，用于将所述提取出的音频数据进行打包后通过一个音频逻辑通道级联传输到接收端控制服务器。

16、根据权利要求 13所述的控制服务器，其特征在于，所述获取单元获取的音频能力为支持多音频逻辑通道，所述转发单元包括：

选择单元，用于按照预先设置的策略选择进行混音的几路终端的音频数据；发送单元，用于将所述几路终端的音频数据通过所述多个音频逻辑通道直接发送到各个终端。

17. 根据权利要求 13所述的控制服务器，其特征在于，所述获取单元获取的音频能力为支持多音频逻辑通道，且所述控制服务器为级联的多个控制服务器中的发送端控制服务器，所述转发单元包括：

传输单元，用于将所述几路终端的音频数据通过多个音频逻辑通道级联传输到接收端控制服务器。

18、根据权利要求 13所述的控制服务器，其特征在于，所述控制服务器为多路呼叫级联的发送端控制服务器，所述转发单元包括：

传输单元，用于将所述几路终端的音频数据分别从与所述终端对应的音频协议的端口级联传输到接收端控制服务器的对应端口。

19、根据权利要求 13所述的控制服务器，其特征在于，还包括：创建单元，用于为所述终端创建用于混音和编码的资源；

所述转发单元包括：

传输单元，用于将所述音频数据通过所述资源进行解码和混音编码后发送到所述终端。