WO2011057511A1

WO2011057511A1 - 实现混音的方法、装置和系统

Info

Publication number: WO2011057511A1
Application number: PCT/CN2010/075891
Authority: WO
Inventors: 詹五洲; 王东琦
Original assignee: 华为终端有限公司
Priority date: 2009-11-13
Filing date: 2010-08-11
Publication date: 2011-05-19
Also published as: EP2490426B1; CN102065265A; EP2490426A1; EP2490426A4; US20120224023A1; CN102065265B; US8773491B2

Description

实现混音的方法、装置和系统本申请要求于 2009 年 11 月 13 日提交中国专利局、申请号为 200910207184.8、发明名称为"实现混音的方法、装置和系统"的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及通信技术领域，特别涉及一种实现混音的方法、装置和系统。背景技术

目前，随着通讯技术的发展，视讯会议得到了广泛的开展和应用。视讯会议可以理解为通常意义上的电视会议业务。通过多媒体通信手段，利用电视设备和通信网络召开会议，可以同时实现两地或多个地点之间的图像、语音、数据的交互功能。通常，视讯会议系统包括视讯终端设备、通信网络、多点控制单元 ( Mul t ipoint Control Uni t , MCU )等几部分。

传统的会议终端通常只有单声道或双声道，一般没有空间方位感，或者只能区分左右方位。下一代会议终端一般采用多屏方案，图像与真人大小相同，为了具有很强的临场感和沉浸感，一般要求有很强的声音方位感和空间感，传统的双声道已不能满足要求。为了体现较强的方位感和空间感，现有技术采用能够两种方案：一种是基于多声道的方式进行编码和传输；另外一种是基于音频对象的音频协议进行编码和传输，从而实现在增加较少码率的情况下 , 可以携带声音的方位和空间感。现有的 MCU混音方法通常为基于声道的混音方案。

在实现本发明的过程中，发明人发现现有技术中至少存在如下问题：现有的基于声道的混音方法，在同一会议中只能兼容传统的会议终端，而对于基于多声道的下一代终端以及基于音频对象的下一代终端，不能实现兼容。发明内容

本发明的实施例提供一种实现混音的方法、装置和系统，能够提高对不同会议终端的兼容性。

本发明实施例采用的技术方案为：

一种实现混音的方法，包括：

接收各发送会场发送的音频信号，其中，所述音频信号包括基于声道的音频信号和基于音频对象的音频信号；

在所述接收的音频信号中为各接收会场选择音频信号；

根据接收会场的类型对所选择的音频信号进行处理，其中，所述接收会场包括基于声道的接收会场和基于音频对象的接收会场；

按照接收会场的类型 , 将所述经过处理的音频信号分别向各接收会场发送。一种实现混音的装置，具体为多点控制单元，包括：

接收模块，用于接收各发送会场发送的音频信号，其中，所述音频信号包括基于声道的音频信号和基于音频对象的音频信号；

选择模块，用于在所述接收的音频信号中为各接收会场选择音频信号；处理模块，用于根据接收会场的类型对所选择的音频信号进行处理，其中，所述接收会场包括基于声道的接收会场和基于音频对象的接收会场；

发送模块，用于按照接收会场的类型，将所述经过处理的音频信号分别向各接收会场发送。

一种实现混音的系统，包括：多个发送会场和接收会场、多点控制单元，其中，

所述发送会场，用于向多点控制单元发送音频信号，其中，所述音频信号包括基于声道的音频信号和基于音频对象的音频信号；

所述多点控制单元，用于接收所述发送会场发送的音频信号，在所述接收的音频信号中为各接收会场选择音频信号，根据接收会场的类型对所选择的音频信号进行处理，按照接收会场的类型，将所述经过处理的音频信号分别向各接收会场发送，其中，所述接收会场包括基于声道的接收会场和基于音频对象的接收会场；

所述接收会场，用于由所述多点控制单元接收所述经过处理的音频信号。本发明实施例提供的实现混音的方法、装置和系统，多点控制单元接收到各发送会场发送的基于声道的音频信号和基于音频对象的音频信号后，为各接收会场选择音频信号，根据接收会场的类型对所选择的音频信号进行处理，并将所述经过处理的音频信号分别向各接收会场发送。与现有技术相比，多点控制单元能够对基于声道的音频信号和基于音频对象的音频信号进行混音处理，从而在同一多点会议中兼容传统的会议终端、基于多声道的下一代终端以及基于音频对象的下一代终端，提高用户的体验质量。附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图 1为本发明实施例一提供的实现混音的方法流程图；

图 2、图 3为本发明实施例二提供的实现混音的方法流程图；

图 4为本发明实施例二提供的将所选择的音频信号转换为与基于声道的接收会场声道数一致的音频信号的流程图；

图 5为本发明实施例二提供的网真终端的音频呈现方式示意图；

图 6为本发明实施例三提供的实现混音的装置结构示意图；

图 7、图 8为本发明实施例四提供的实现混音的装置结构示意图；

图 9为本发明实施例五提供的实现混音的系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图 , 对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

为使本发明技术方案的优点更加清楚，下面结合附图和实施例对本发明作详细说明。

实施例一

本实施例提供一种实现混音的方法，如图 1所示，所述实现混音的方法包括： 101、接收各发送会场发送的音频信号，其中，所述音频信号包括基于声道的音频信号和基于音频对象的音频信号；

102、在所述接收的音频信号中为各接收会场选择音频信号；

103、根据接收会场的类型对所选择的音频信号进行处理，其中，所述接收会场包括基于声道的接收会场和基于音频对象的接收会场；

104、按照接收会场的类型，将所述经过处理的音频信号分别向各接收会场发送。

其中，同一个会场既可以发送音频信号，也可以接收音频信号，也就是说，发送会场和接收会场可以为同一个会场。本发明实施例实现混音的方法，多点控制单元接收到各发送会场发送的基于声道的音频信号和基于音频对象的音频信号后，为各接收会场选择音频信号，根据接收会场的类型对所选择的音频信号进行处理 , 并将所述经过处理的音频信号分别向各接收会场发送。与现有技术相比，多点控制单元能够对基于声道的音频信号和基于音频对象的音频信号进行混音处理，从而在同一多点会议中兼容传统的会议终端、基于多声道的下一代终端以及基于音频对象的下一代终端，提高用户的体验质量。

实施例二

在本实施例中，多点会议系统中有多个发送会场和接收会场，所述发送会场包括基于声道的发送会场和基于音频对象的发送会场，所述发送会场发出的音频信号由 MCU进行混音；其中，同一个会场既可以发送音频信号，也可以接收音频信号，也就是说，发送会场和接收会场可以为同一个会场。

如图 2、图 3所示，所述实现混音的方法包括：

201、 MCU接收各发送会场发送的音频信号，其中，所述音频信号包括基于声道的音频信号和基于音频对象的音频信号；

其中，所述音频信号的类型根据发送会场的类型确定，若发送会场为基于声道的发送会场，则该发送会场发出的音频信号为基于声道的音频信号；若发送会场为基于音频对象的发送会场，则该发送会场发出的音频信号为基于音频对象的音频信号；所述基于声道的发送会场可以为基于单声道或多声道的发送会场，相应地，所述基于声道的音频信号可以为基于单声道或多声道的音频信音频对象指的是将音源作为一个对象来看待，一个音频对象除了包括音频信号之外，还包括辅助信息，所述辅助信息中包括该音频对象的最大绝对能量、能量比值、空间信息、方位信息、不同播放方式及其对应参数等信息。

202、 MCU在所述接收的音频信号中为各接收会场选择音频信号；

其中，所述 MCU为各接收会场选择音频信号可以根据各音频信号的能量大小进行选择，具体选择过程可以包括：

202a , MCU分别计算基于声道的音频信号的能量和 /或基于音频对象的音频信号的能量；

( 1 )计算基于声道的音频信号的能量

当所述声道为单声道时，所述基于声道的音频信号的能量即为该单声道的能量；

当所述声道为多声道时，分别计算各个声道的能量，然后取最大的声道能量作为该基于声道的音频信号的能量；或者取各个声道的能量的平均值作为该基于声道的音频信号的能量。

( 2 )计算基于音频对象的音频信号的能量

所述音频对象的辅助信息中携带最大绝对能量和该音频对象的能量比值，根据音频对象中最大绝对能量以及该音频对象的能量比值，来计算该音频对象的绝对能量。例如，最大绝对能量为 Emax , 音频对象 Sl、 S2、 S 3的能量比值分别是 a l、 a2、 a 3 , 则这三个音频对象的绝对能量分别是 Emax χ a l、 Emax a2 , Emax x a 3。

202b , MCU根据所述基于声道的音频信号的能量和 /或基于音频对象的音频信号的能量大小，为^妻收会场选择音频信号能量较大的多个音频信号；其中， MCU为各接收会场选择的音频信号可以相同，也可以不同。

例如，多点会议系统中有、 B、 C , D、 E五个会场，所述五个会场既可以接收音频信号，也可以发送音频信号， A、 B、 C . D、 E五个会场发出的音频信号对应为 Al、 Bl、 Cl、 Dl、 El; MCU根据各会场发出的音频信号的能量大小选择出 Bl、 Cl、 Dl三个音频信号，由于各会场通常不接收自己会场发出的音频信号，因此, MCU为各会场选择的音频信号如表 1所示：

表 1

进一步地，为了实现多点会议中两个会场的私聊，对于需要进行私聊的两个会场发出的音频信号，只能由私聊的另外一方来选择，而不能被其它会场选择，因此， MCU为各会场选择的音频信号如表 2所示：

表 2

203、根据接收会场的类型对所选择的音频信号进行处理，其中，所述接收会场可以为基于声道的接收会场或基于音频对象的接收会场；

( 1 ) 当所述接收会场为基于声道的接收会场时，如图 2所示，所述根据接收会场的类型对所选择的音频信号进行处理包括：

203a , 将所选择的音频信号转换为与接收会场声道数一致的音频信号；如图 4所示，所述将所选择的音频信号转换为与接收会场声道数一致的音频信号具体可以包括：

Ll、判断所选择的音频信号的类型，若所选择的音频信号为基于声道的音频信号，执行步驟 L2; 若所选择的音频信号为基于音频对象的音频信号，执行步骤 L3;

L2、将所述基于声道的音频信号转换成与所述接收会场声道数一致的信号；所述基于声道的会场其声道数可以是单或多声道，对于多声道，一般是将麦克风放置于不同空间位置，然后对各个麦克风釆集的信号各用一个声道进行编码，由于声道之间已经包含了空间信息，因此在接收会场用相同数目的扬声器进行播放时 , 就可以呈现出原始发送会场的声音空间信息。

例如，所述接收会场为双声道信号， MCU为该接收会场选择的基于声道的音频信号为单声道信号和三声道信号，则 MCU将所述单声道信号同时复制到该接收会场的左声道和右声道，即左右声道信号内容相同；而对于所述三声道信号， MCU将第一声道信号复制到该接收会场的左声道，将第三声道信号复制到该接收会场的右声道，将第二声道信号乘上 0. 707的增益，然后同时加到该接收会场的左声道和右声道上 , 这样所述单声道信号和三声道信号都转换成了双声道信号。

L 3、判断所述音频对象的辅助信息中是否携带与所述接收会场声道数一致的播放方式，若所述音频对象的辅助信息中携带与所述接收会场声道数一致的播放方式，执行步驟 L4; 若所述音频对象的辅助信息中没有携带与所述接收会场声道数一致的播放方式，执行步驟 L5;

其中，所述音频对象的辅助信息中携带多种播放方式及其对应参数；所述播放方式指的是釆用几声道进行播放，例如：双声道、 5声道等，每种播放方式的参数表示所述音频对象在各个声道的能量分配情况，该能量分配可以随时间变化。

L4、根据所述辅助信息中相应播放方式的参数，将所述音频对象转换成与所述接收会场声道数一致的音频信号；

例如，所述接收会场为双声道，且所述辅助信息中携带双声道的播放方式，则 MCU提取双声道的播放方式对应的参数 , 根据该参数将所述音频对象信号分配到该接收会场的左右声道上。

L5、根据所述音频对象的方位信息将所述音频对象转换成与接收会场声道数一致的信号，其中，所述方位信息在所述音频对象的辅助信息中携带。

例如，所述辅助信息中只有双声道的播放方式和 5声道的播放方式，而所述接收会场为 6声道，则 MCU4艮据所述音频对象的方位信息将所述音频对象转换成 6 声道的音频信号。

其中，所述根据所述音频对象的方位信息将所述音频对象转换成与接收会场声道数一致的信号具体可以为：根据音频对象的方位和所述接收会场各个声道对应的扬声器的位置，确定与所述音频对象距离最近的扬声器；将所述基于音频对象的音频信号复制给与所述音频对象距离最近的扬声器对应的声道，而其它声道不赋予任何信号。

203b , 基于所述接收会场的声道，对所述转换后的音频信号进行混音。 ( 2 ) 当所述接收会场为基于音频对象的接收会场时，如图 3所示，所述根据接收会场的类型对所选择的音频信号进行处理包括：

203c , 根据接收会场的呈现方式，将所选择的音频信号转换成音频对象；其中，所述根据接收会场的呈现方式，将所选择的音频信号转换成音频对象具体可以包括：

51、根据接收会场的呈现方式，设定所选择的音频信号的呈现方式；例如，如图 5所示，为一种网真终端的音频呈现方式，图像显示屏幕由三个屏幕组合而成，在每个屏幕下方有两个扬声器，在屏幕两侧各有一个扬声器，共有 8个扬声器。为了实现图像和声音的匹配，当屏幕中某个位置有人在发言时，由该位置下方附近的扬声器发出声音，从而实现声像匹配。在多点会议时，正在发言的会场可能并不是当前屏幕中显示的会场，此时该会场的声音可以分配到屏幕两侧的两个扬声器。例如，有三个音频信号 s l、 s2、 s 3被选择，其中音频信号 s 1对应的会场的视频信号正在被该接收会场观看 , 则可设定音频信号 s 1 由屏幕下方的 6个扬声器来播放，音频信号 s2、 s 3对应的会场的视频信号当前并没有被观看，则可指定音频信号 s2、 s 3分别由屏幕两侧的两个扬声器来播放。

52、当所选择的音频信号为基于声道的音频信号时，根据所述设定的呈现方式，将所选择的音频信号转换成音频对象；

53、当所选择的音频信号为基于音频对象的音频信号时，根据所述设定的呈现方式，对所述音频对象原来的相关参数进行修改，以满足所设定的呈现方式的要求。

203d, 将所述转换后的音频对象合并为一个音频对象流。

204、按照接收会场的类型，将所述经过处理的音频信号分别向各接收会场发送。

本发明实施例实现混音的方法，由多点控制单元接收到各发送会场发送的基于声道的音频信号和基于音频对象的音频信号后，为各接收会场选择音频信号，根据接收会场的类型对所选择的音频信号进行处理，并将所述经过处理的音频信号分别向各接收会场发送。与现有技术相比，多点控制单元能够对基于声道的音频信号和基于音频对象的音频信号进行混音处理，从而在同一多点会议中兼容传统的会议终端、基于多声道的下一代终端以及基于音频对象的下一代终端，提高用户的体验质量。

实施例三

本实施例提供一种实现混音的装置，如图 6所示，所述实现混音的装置，包括：

接收模块 61 , 用于接收各发送会场发送的音频信号，其中，所述音频信号包括基于声道的音频信号和基于音频对象的音频信号；

其中，所述音频信号的类型根据发送会场的类型确定，若发送会场为基于声道的发送会场，则该发送会场发出的音频信号为基于声道的音频信号；若发送会场为基于音频对象的发送会场，则该发送会场发出的音频信号为基于音频对象的音频信号；所述基于声道的发送会场可以为基于单声道或多声道的发送会场，相应地，所述基于声道的音频信号可以为基于单声道或多声道的音频信号。音频对象指的是将音源作为一个对象来看待，一个音频对象除了包括音频信号之外，还包括辅助信息，所述辅助信息中包括该音频对象的最大绝对能量、能量比值、空间信息、方位信息、不同播放方式及其对应参数等信息。

选择模块 62 , 用于在所述接收的音频信号中为各接收会场选择音频信号；处理模块 63, 用于根据接收会场的类型对所选择的音频信号进行处理，其中，所述接收会场包括基于声道的接收会场和基于音频对象的接收会场；

发送模块 64 , 用于按照接收会场的类型，将所述经过处理的音频信号分别向各接收会场发送。

其中，同一个会场既可以发送音频信号，也可以接收音频信号，也就是说，发送会场和接收会场可以为同一个会场。本发明实施例实现混音的装置，多点控制单元接收到各发送会场发送的基于声道的音频信号和基于音频对象的音频信号后，为各接收会场选择音频信号, 根据接收会场的类型对所选择的音频信号进行处理 , 并将所述经过处理的音频信号分别向各接收会场发送。与现有技术相比，多点控制单元能够对基于声道的音频信号和基于音频对象的音频信号进行混音处理，从而在同一多点会议中兼容传统的会议终端、基于多声道的下一代终端以及基于音频对象的下一代终端，提高用户的体验质量。

实施例四

如图 7、图 8所示，所述实现混音的装置，包括：

选择模块 62 , 用于在所述接收的音频信号中为各接收会场选择音频信号；处理模块 63, 用于根据接收会场的类型对所选择的音频信号进行处理，其中 , 所述接收会场包括基于声道的接收会场和基于音频对象的接收会场；

其中，同一个会场既可以发送音频信号，也可以接收音频信号，也就是说，发送会场和接收会场可以为同一个会场。

其中，所述选择模块 62包括：

计算单元 621 , 用于分别计算基于声道的音频信号的能量和 /或基于音频对象的音频信号的能量；

选择单元 622 , 用于根据所述基于声道的音频信号的能量和 /或基于音频对象的音频信号的能量选择音频信号。所述选择单元 622可以根据所述基于声道的音频信号的能量和基于音频对象的音频信号的能量大小，为各接收会场选择音频信号能量较大的多个音频信号；所述选择单元 622为各接收会场选择的音频信号可以相同，也可以不同。

当所述接收会场为基于声道的接收会场时，如图 7所示，所述处理模块 63可以包括：

第一转换单元 631 , 用于将所选择的音频信号转换为与接收会场声道数一致的音频信号；

混音单元 632 , 用于基于所述接收会场的声道，对所述转换后的音频信号进行混音。

进一步，所述第一转换单元 631可以包括：

第一判断子单元 6311，用于判断所选择的音频信号的类型；

第一转换子单元 6312 , 用于当所选择的音频信号为基于声道的音频信号时，将所述基于声道的音频信号转换成与所述接收会场声道数一致的信号；

第二判断子单元 6313 , 用于当所选择的音频信号为基于音频对象的音频信号时，判断所述音频对象的辅助信息中是否携带与所述接收会场声道数一致的播放方式；

第二转换子单元 6314 , 用于当所述音频对象的辅助信息中携带与所述接收会场声道数一致的播放方式时，根据所述辅助信息中相应播放方式的参数，将所述音频对象转换成与所述接收会场声道数一致的音频信号；

第三转换子单元 6315 , 用于当所述音频对象的辅助信息中没有携带与所述接收会场声道数一致的播放方式时，根据所述音频对象的方位信息将所述音频对象转换成与接收会场声道数一致的信号，其中，所述方位信息在所述音频对象的辅助信息中携带。

当所述接收会场为基于音频对象的接收会场时，如图 8所示，所述处理模块 63可以包括：

第二转换单元 633, 用于根据接收会场的呈现方式，将所选择的音频信号转换成音频对象；

合并单元 634 , 用于将所述转换后的音频对象合并为一个音频对象流。

进一步，所述第二转换单元 633可以包括：

设定子单元 6331 , 用于根据接收会场的呈现方式，设定所选择的音频信号的呈现方式；

第四转换子单元 6332，用于当所选择的音频信号为基于声道的音频信号时，根据所述设定的呈现方式，将所选择的音频信号转换成音频对象；

修改子单元 6333，用于当所选择的音频信号为基于音频对象的音频信号时，根据所述设定的呈现方式，对所述音频对象的参数进行修改。

本发明实施例实现混音的装置接收到各发送会场发送的基于声道的音频信号和基于音频对象的音频信号后，为各接收会场选择音频信号，根据接收会场的类型对所选择的音频信号进行处理，并将所述经过处理的音频信号分别向各接收会场发送。与现有技术相比，该装置能够对基于声道的音频信号和基于音频对象的音频信号进行混音处理，从而在同一多点会议中兼容传统的会议终端、基于多声道的下一代终端以及基于音频对象的下一代终端，提高用户的体验质量。

实施例五

本实施例提供一种实现混音的系统，如图 9所示，所述实现混音的系统，包括：多个发送会场 91和接收会场 93、多点控制单元 92, 其中，

所述发送会场 91 , 用于向多点控制单元 92发送音频信号，其中，所述音频信号包括基于声道的音频信号和基于音频对象的音频信号；

所述多点控制单元 92 , 用于接收所述发送会场 91发送的音频信号，在所述接收的音频信号中为各接收会场 93选择音频信号 , 根据接收会场 93的类型对所选择的音频信号进行处理，按照接收会场的类型，将所述经过处理的音频信号分别向各接收会场 93发送，其中，所述接收会场 93包括基于声道的接收会场和基于音频对象的接收会场；

所述接收会场 93, 用于由所述多点控制单元 92接收所述经过处理的音频信其中，同一个会场既可以发送音频信号，也可以接收音频信号，也就是说，发送会场和接收会场可以为同一个会场。

本发明实施例实现混音的系统中，多点控制单元接收到各发送会场发送的基于声道的音频信号和基于音频对象的音频信号后，为各接收会场选择音频信号，根据接收会场的类型对所选择的音频信号进行处理，并将所述经过处理的音频信号分别向各接收会场发送。与现有技术相比，多点控制单元能够对基于声道的音频信号和基于音频对象的音频信号进行混音处理，从而在同一多点会议中兼容传统的会议终端、基于多声道的下一代终端以及基于音频对象的下一代终端，提高用户的体验质量。

本发明实施例提供的实现混音的装置和系统可以实现上述提供的方法实施例。本发明实施例提供的实现混音的方法、装置和系统可以适用于在同一多点会议中兼容传统的会议终端、基于多声道的下一代终端以及基于音频对象的下一代终端，但不仅限于此。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory, ROM )或随机存储记忆体（Random Access Memory, RAM )等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

权利要求

1、一种实现混音的方法，其特征在于，包括：

在所述接收的音频信号中为各接收会场选择音频信号；

按照接收会场的类型 , 将所述经过处理的音频信号分别向各接收会场发送。

2、根据权利要求 1所述的实现混音的方法，其特征在于，所述在所述接收的音频信号中为各接收会场选择音频信号具体为：

分别计算基于声道的音频信号的能量和 /或基于音频对象的音频信号的能量；

根据所述基于声道的音频信号的能量和 /或基于音频对象的音频信号的能量选择音频信号。

3、根据权利要求 2所述的实现混音的方法，其特征在于，所述计算基于声道的音频信号的能量包括：

当所述声道为单声道时，将所述基于声道的音频信号的能量作为该单声道的能量；

当所述声道为多声道时，分别计算各个声道的能量，取最大的声道能量作为该基于声道的音频信号的能量，或者取各个声道的能量的平均值作为该基于声道的音频信号的能量。

4、根据权利要求 2所述的实现混音的方法，其特征在于，所述计算基于音频对象的音频信号的能量包括：才艮据最大绝对能量和所述音频对象的能量比值，计算所述音频对象的绝对能量，其中，所述最大绝对能量和所述音频对象的能量比值在所述音频对象的辅助信息中携带。

5、根据权利要求 1所述的实现混音的方法，其特征在于，当所述接收会场为基于声道的接收会场时，所述根据接收会场的类型对所选择的音频信号进行处理包括：

将所选择的音频信号转换为与接收会场声道数一致的音频信号；基于所述接收会场的声道，对所述转换后的音频信号进行混音。

6、根据权利要求 5所述的实现混音的方法，其特征在于，所述将所选择的音频信号转换为与接收会场声道数一致的音频信号包括：

判断所选择的音频信号的类型；

若所选择的音频信号为基于声道的音频信号 , 则将所述基于声道的音频信号转换成与所述接收会场声道数一致的信号；

若所选择的音频信号为基于音频对象的音频信号，则判断所述音频对象的辅助信息中是否携带与所述接收会场声道数一致的播放方式；

若所述音频对象的辅助信息中携带与所述接收会场声道数一致的播放方式，根据所述辅助信息中相应播放方式的参数，将所述音频对象转换成与所述接收会场声道数一致的音频信号；

若所述音频对象的辅助信息中没有携带与所述接收会场声道数一致的播放方式，则才艮据所述音频对象的方位信息将所述音频对象转换成与接收会场声道数一致的信号，其中，所述方位信息在所述音频对象的辅助信息中携带。

7、根据权利要求 6所述的实现混音的方法，其特征在于，所述根据所述音频对象的方位信息将所述音频对象转换成与接收会场声道数一致的信号包括：根据音频对象的方位和所述接收会场各个声道对应的扬声器的位置 , 确定与所述音频对象距离最近的扬声器；

将所述基于音频对象的音频信号复制给与所述音频对象距离最近的扬声器对应的声道。

8、根据权利要求 1所述的实现混音的方法，其特征在于，当所述接收会场为基于音频对象的接收会场时，所述根据接收会场的类型对所选择的音频信号进行处理包括：

根据接收会场的呈现方式，将所选择的音频信号转换成音频对象；将所述转换后的音频对象合并为一个音频对象流。

9、根据权利要求 8所述的实现混音的方法，其特征在于，所述根据接收会场的呈现方式，将所选择的音频信号转换成音频对象包括：

根据接收会场的呈现方式，设定所选择的音频信号的呈现方式；

当所选择的音频信号为基于声道的音频信号时， ^居所述设定的呈现方式, 将所选择的音频信号转换成音频对象；

当所选择的音频信号为基于音频对象的音频信号时，根据所述设定的呈现方式，对所述音频对象的参数进行修改。

10、一种实现混音的装置，具体为多点控制单元，其特征在于，所述装置包括：

选择模块，用于在所述接收的音频信号中为各接收会场选择音频信号；处理模块，用于根据接收会场的类型对所选择的音频信号进行处理，其中, 所述接收会场包括基于声道的接收会场和基于音频对象的接收会场；发送模块，用于按照接收会场的类型，将所述经过处理的音频信号分别向各接收会场发送。

11、根据权利要求 10所述的实现混音的装置，其特征在于，所述选择模块包括：

计算单元，用于分别计算基于声道的音频信号的能量和基于音频对象的音频信号的能量；

选择单元，用于根据所述基于声道的音频信号的能量和基于音频对象的音频信号的能量选择音频信号。

12、根据权利要求 10所述的实现混音的装置，其特征在于，所述处理模块包括：

第一转换单元，用于将所选择的音频信号转换为与接收会场声道数一致的音频信号；

混音单元，用于基于所述接收会场的声道，对所述转换后的音频信号进行混音。

13、根据权利要求 12所述的实现混音的装置，其特征在于，所述第一转换单元包括：

第一判断子单元，用于判断所选择的音频信号的类型；

第一转换子单元，用于当所选择的音频信号为基于声道的音频信号时，将所述基于声道的音频信号转换成与所述接收会场声道数一致的信号；

第二判断子单元，用于当所选择的音频信号为基于音频对象的音频信号时, 判断所述音频对象的辅助信息中是否携带与所述接收会场声道数一致的播放方式；

第二转换子单元，用于当所述音频对象的辅助信息中携带与所述接收会场声道数一致的播放方式时，根据所述辅助信息中相应播放方式的参数，将所述音频对象转换成与所述接收会场声道数一致的音频信号；

第三转换子单元，用于当所述音频对象的辅助信息中没有携带与所述接收会场声道数一致的播放方式时，根据所述音频对象的方位信息将所述音频对象转换成与接收会场声道数一致的信号，其中，所述方位信息在所述音频对象的辅助信息中携带。

14、根据权利要求 10所述的实现混音的装置，其特征在于，所述处理模块包括：

第二转换单元，用于根据接收会场的呈现方式，将所选择的音频信号转换成音频对象；

合并单元，用于将所述转换后的音频对象合并为一个音频对象流。

15、根据权利要求 14所述的实现混音的装置，其特征在于，所述第二转换单元包括：

设定子单元，用于根据接收会场的呈现方式，设定所选择的音频信号的呈现方式；

第四转换子单元，用于当所选择的音频信号为基于声道的音频信号时，根据所述设定的呈现方式，将所选择的音频信号转换成音频对象；

修改子单元，用于当所选择的音频信号为基于音频对象的音频信号时，根据所述设定的呈现方式，对所述音频对象的参数进行修改。

16、一种实现混音的系统，其特征在于，包括：多个发送会场和接收会场、多点控制单元，其中，

所述发送会场，用于向多点控制单元发送音频信号，其中，所述音频信号包括基于声道的音频信号和基于音频对象的音频信号；所述多点控制单元，用于接收所述发送会场发送的音频信号，在所述接收的音频信号中为各接收会场选择音频信号，根据接收会场的类型对所选择的音频信号进行处理，按照接收会场的类型，将所述经过处理的音频信号分别向各接收会场发送，其中，所述接收会场包括基于声道的接收会场和基于音频对象的接收会场；

所述接收会场，用于由所述多点控制单元接收所述经过处理的音频信号。