WO2013053336A1

WO2013053336A1 - 混音方法、装置及系统

Info

Publication number: WO2013053336A1
Application number: PCT/CN2012/082952
Authority: WO
Inventors: 王东琦; 詹五洲
Original assignee: 华为终端有限公司
Priority date: 2011-10-13
Filing date: 2012-10-15
Publication date: 2013-04-18
Also published as: US9456273B2; CN103050124A; US20140205115A1; CN103050124B

Abstract

本发明实施例公开了一种混音方法、装置及系统，涉及通信技术领域，能够保证混音后的音质，并降低计算资源的消耗。本发明的方法包括：接收各个会场的音频码流，并分别对各个会场的音频码流进行分析，得到声源对象的声音特征值；按照声源对象声音特征值从大到小的顺序，从声源对象中选取预定数量的声源对象作为主要声源对象；确定主要声源对象所在会场；根据目标会场和主要声源对象所在会场之间的关系，确定目标会场需要进行混音的音频码流；将目标会场需要进行混音的音频码流进行混音，并将混音后的音频码流发送给目标会场；或者将目标会场需要进行混音的音频码流发送给目标会场，并在目标会场进行混音。本发明实施例主要用于混音的过程中。

Description

混音方法、装置及系统技术领域

本发明涉及通信技术领域，尤其涉及一种混音方法、装置及系统。背景技术

随着通信技术的发展，人们已经可以通过视频会议系统实现与异地会场中的与会者进行实时通信。典型的视频会议系统由 MCU ( Micro control uni t , 多点控制单元）及终端设备组成，往往一个会场配置一个终端设备，一个 MCU 与多个会场相连。该终端设备的作用是釆集会场内的声音和影像并进行处理后，通过网络传输给与之相连的 MCU设备，同时该终端也接收由与之相连的 MCU发送过来的其它会场的数据；该 MCU的作用是将接收到的其他会场中的音频信号发送给终端设备。然而由于设备成本和带宽的限制，现有技术中 MCU 并不是将所有其它会场中的音频信号都发送给终端，而是根据一定的方法选择某些音频信号进行混音后再发送给终端。

现有技术的方法为， MCU接收来自各个会场的音频信号，然后按照各个会场的音量大小顺序从所有会场中选取预定数量的会场进行混音。此时，即使主要的声源对象都集中在一个会场中，仍需要混入其他不必要的会场的音频码流，参与混音的不必要的会场太多，导致混音后音质变差，而且消耗了不必要的计算资源。

发明内容

本发明的实施例提供一种混音方法、装置及系统，能够保证混音后的音质，同时降低计算资源的消耗。

为达到上述目的，本发明的实施例釆用如下技术方案：

一种混音方法，包括：

接收各个会场的音频码流，并分别对所述各个会场的音频码流进行分析，得到所述各个会场对应的声源对象的声音特征值；按照声源对象声音特征值从大到小的顺序，从所述声源对象中选取预定数量的声源对象作为主要声源对象；

确定所述主要声源对象所在会场；

根据目标会场和所述主要声源对象所在会场之间的关系 ,确定所述目标会场需要进行混音的音频码流；

将确定的所述目标会场需要进行混音的音频码流进行混音，并将混音后的音频码流发送给所述目标会场；或者

将确定的所述目标会场需要进行混音的音频码流发送给所述目标会场，并在所述目标会场进行混音。

一种混音装置，包括：

分析单元，用于接收各个会场的音频码流，并分别对所述各个会场的音频码流进行分析，得到所述各个会场对应的声源对象的声音特征值；

选取单元，用于按照声源对象声音特征值从大到小的顺序，从所述声源对象中选取预定数量的声源对象作为主要声源对象；

会场确定单元，用于确定所述主要声源对象所在会场；

音频确定单元，用于根据目标会场和所述主要声源对象所在会场之间的关系，确定所述目标会场需要进行混音的音频码流；

发送单元，用于将确定的所述目标会场需要进行混音的音频码流进行混音，并将混音后的音频码流发送给所述目标会场；或者

所述发送单元还用于，将确定的所述目标会场需要进行混音的音频码流发送给所述目标会场，并在所述目标会场进行混音。

一种混音系统，包括：混音装置和会场终端。

本发明实施例提供的混音方法、装置及系统，与现有技术中通过各个会场的音量大小来选取参与混音的会场相比，通过各个声源对象的能量值大小来选取主要的声源对象，并根据主要声源对象来确定参与混音的会场，避免不必要的会场参与混音，保证了混音后的音质，同时降低了计算资源的消耗。附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图 1为本发明实施例 1的方法流程图；

图 2为本发明实施例 2的方法流程图；

图 3为本发明实施例 2中的一种音频码流生成示意图；

图 4为本发明实施例 2中的一种会场和 MCU连接示意图；

图 5为本发明实施例 3中的一种混音装置组成示意图；

图 6为本发明实施例 3中的另一种混音装置组成示意图；

图 7为本发明实施例 3中的另一种混音装置组成示意图；

图 8为本发明实施例 3中的另一种混音装置组成示意图；

图 9为本发明实施例 3中的一种混音系统组成示意图。具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例 1

本发明实施例提供一种混音方法，如图 1所示，该方法包括：

101、接收各个会场的音频码流，并分别对所述各个会场的音频码流进行分析，得到所述各个会场对应的声源对象的声音特征值。

其中，所述接收到的音频码流为包含各个会场对应的声源对象信息的音频码流，所以可以从中解析得到各个会场对应的声源对象。例如，釆用空间音频对象编码 ( Spa t ia l Audio Object Coding , SAOC ) 时， MCU接收到的并非固定的独立声道对应的音频码流，而是包含了下混信号和相应的空间边信息信号的码流。对码流中的空间边信息进行解码，如果在空间边信息中包含了对象绝对能量 ( abso lute object energy , NRG ) 和对象声级差 ( Objec t Leve l Difference , OLD )等参数，即可根据码流中携带的参数计算得到会场中包含的声源对象的能量值。

其中，如果码流中仅包含了音频信号，而不包含声音特征值相关的参数信息，则需要对码流进行解码，得到无压缩的音频信号，然后计算音频信号的声音特征值。所述声音特征值从音频信号中计算得到，可以是能量、音量、包络或音频信号的其他特征值。

另夕卜，如果在码流中除了包含音频信号之外，还包含了声音特征值相关的参数信息 ,则通过解析在码流中与声音特征值对应的参数信息即可得到声音特征值，这可以减少 MCU的计算量。声音特征值的相关参数可以为间接体现音频信号的能量或音量等特征值的参数。例如：码流中包含一组音频信号的平均能量值以及各个音频信号所占的能量百分比，则可以通过上述两个相关参数信息计算得到各个音频信号的能量值。这种直接获取声音特征值的方法需要在终端设备上完成声音特征值的计算，并将声音特征值信息包含在音频码流中发送给 MCU。例如，在釆用 SA0C技术进行空间对象编码时，通过 NRG和 OLD参数即可获得各个声源对象对应的能量信息。 NRG参数为所有对象的能量值中的最大的能量值， OLD参数则为各个对象的能量值与 NRG的比值，所以第 i个声源对象的能量值为： ENG _n = OLD_m' _n xNRG_{m n}, l≤i≤ P_{m n}。当 NRG和 OLD都被计算和编码，并传送给 MCU时，在 MCU上提取各个对象对应的 NRG和 OLD即可获得各个对象对应的能量值。

102、按照所述声源对象的声音特征值从大到小的顺序，从所述声源对象中选取预定数量的声源对象作为主要声源对象。

其中，根据步骤 101中计算得到的声音特征值，将声源对象进行从大到小的排序，并选择预定数量的声音特征值较大的声源对象，作为主要声源对象。 1 03、确定所述主要声源对象所在会场。

其中，通过主要声源对象确定参与混音的会场，而不是像现有技术中以整个会场的音量大小来选取会场进行混音。

1 04、根据目标会场和所述主要声源对象所在会场之间的关系，确定所述目标会场需要进行混音的音频码流。将所述主要声源对象所在会场的音频码流进行混音，并将混音后的音频码流发送给目标会场。

其中，根据目标会场和所述主要声源对象所在会场之间的关系，确定所述目标会场需要进行混音的音频码流的方法为：判断所述目标会场是否为所述主要声源对象所在会场；若所述目标会场为所述主要声源对象所在会场，则将除所述目标会场以外的所述主要声源对象所在会场的音频码流确定为所述目标会场需要进行混音的音频码流；若所述目标会场不为所述主要声源对象所在会场，则将所有所述主要声源对象所在会场的音频码流均确定为所述目标会场需要进行混音的音频码流。

1 05、将确定的所述目标会场需要进行混音的音频码流进行混音，并将混音后的音频码流发送给所述目标会场；或者将确定的所述目标会场需要进行混音的音频码流发送给所述目标会场，并在所述目标会场进行混音。

其中，在确定了目标会场需要进行混音的音频码流之后，可以在 MCU上将所述目标会场需要进行混音的音频码流进行混音，然后将混音后的码流发送给所述目标会场。

另外，在确定了目标会场需要进行混音的音频码流之后，也可以将所述目标会场需要进行混音的音频码流组合后发送给目标会场，然后由目标会场的终端设备进行混音，从而减轻 MCU的计算量。

本发明实施例提供的混音方法，与现有技术中通过各个会场的音量大小来选取参与混音的会场相比，通过各个声源对象的能量值大小来选取主要的声源对象，并根据主要声源对象来确定参与混音的会场。能够避免不必要的会场参与混音，保证了混音后的音质，同时降低了计算资源的消耗。实施例 2

本发明实施例提供一种混音方法，如图 2所示，该方法包括：

201、接收各个会场的音频码流，并分别对所述各个会场的音频码流进行分析，得到所述各个会场对应的声源对象。

其中，在接收各个会场的音频码流之前，各个会场的终端设备的做法为：各个会场的终端设备釆集音频信号，并进行编码后发送给 MCU。例如，如图 3 所示，终端设备在会场中通过 X个麦克风捕捉到声音信息，并经 AD转化后得到 X路数字化的麦克风信号。对该 X路数字化的麦克风信号进行声源对象提取，可以根据各路麦克风信号的音量，选取其中音量较大的 s路麦克风信号作为声源对象；也可以釆用麦克风阵列，釆用波束成形技术，提取出 s个声源信号。然后将提取出来的声源对象进行编码，这里的编码方式可以釆用空间音频对象编码 ( Spa t ia l Aud i o Objec t Cod ing , SAOC )。将多个声道的音频信号下混生成 1路或者 2路信号，加上少许的空间边信息，可以有效降低码率，降低传输成本。

其中， MCU接收到的并非固定的独立声道对应的音频信号，而是下混信号和相应的空间边信息信号。对下混信号和相应的空间边信息信号进行分析后，得到所述各个会场对应的声源对象。

202、对接收到的音频码流进行解码并计算所述声源对象的声音特征值。其中，为了从来自各个会场的声源对象中选取主要声源对象，需要计算所有声源对象的声音特征值，以便下一步根据声音特征值大小进行比较和选取。这里说的声音特征值可以是能量、音量、包络或其他特征值。

另外，为了减少 MCU的计算量，可以在终端设备上完成声音特征值计算，并将声音特征值信息包含在空间边信息中直接发送给 MCU。例如，在釆用 SA0C 技术进行空间对象编码时，增加 NRG和 OLD参数即可。 NRG参数为所有对象的能量值中的最大的能量值， OLD参数则为各个对象的能量值与 NRG的比值，所以第 i个声源对象的能量值为： ENG _n = OLD _n xNRG \≤ i≤ P_{m n}。当 NRG和 OLD 都被计算和编码，并传送给 MCU时，在 MCU上提取各个对象对应的 NRG和 OLD 即可获得各个对象对应的能量值。

203、按照声源对象声音特征值从大到小的顺序，从所述声源对象中选取预定数量的声源对象作为主要声源对象。

其中，以 MCU级联的场景为例，如图 4所示， MCU-1在某一帧中，接收到的各个会场发送过来的音频码流和对应的声音特征值如表 1所示。其中 m代表 MCU的编号， n代表与 MCU连接的会场的编号， i代表一个会场音频码流中包含的所有声源对象中的第 i个。

表 1

其中，所述预定数量为预先设定的数值，可以根据实际情况和经验设定。本实施例以选取四个声源对象为例，从表 1中的所有声源对象中按照声音特征值的大小从高到低选取其中四个，作为重要的声源对象，以便进一步混音。经过比较，声音特征值较高的四个声源对象为 '、 °^ 1和 ²。

204、确定所述主要声源对象所在会场。

其中，通过重要的声源对象确定重要的会场，而不是像现有技术中以音量大小来选取会场，可以使会场的选取更准确和可靠。仍以表 1中主要声源对象为例，所述主要声源对象所在会场可确定为 Tl-1、 Tl-2、 T4-1和 Τ4-2。

205、判断所述目标会场是否为所述主要声源对象所在会场；若所述目标会场为所述主要声源对象所在会场，则执行步骤 206 ; 若所述选目标会场不为所述主要声源对象所在会场，则执行步骤 207。

其中，由于在目标会场中，声音信息是可以直接传播的，不需要混音便可以呈现在会场中。所以在进行混音之前，先进行判断目标会场是否是主要声源对象所在会场，既可以减少计算量，也可以防止声音重复。

206、将除所述目标会场以外的所述主要声源对象所在会场的音频码流确定为所述目标会场需要进行混音的音频码流。

其中，当所述目标会场为所述主要声源对象所在会场时，无需将目标会场的音频码流进行混音，所以剔除目标会场，将其他主要声源对象所在会场的音频码流进行混音。例如，在图 4 中，对于目标会场 T1-1 , 属于主要声源对象所在会场中的一个，所以将会场 Tl-2、 T4-1和 Τ4-2的音频码流进行混音，作为目标会场 T1-1的混音码流即可。

207、将所有所述主要声源对象所在会场的音频码流确定为所述目标会场需要进行混音的音频码流。

其中，当所述选目标会场不为所述主要声源对象所在会场时，需要将所有主要声源对象所在会场的音频码流进行混音。例如，在图 4中，对于目标会场 T1-3 , 不属于主要声源对象所在会场中的任何一个，所以将所有主要会场 Tl-1、 Tl-2、 T4-1和 Τ4-2的音频码流都进行混音，作为目标会场 T1-3的混音码流。

208、将确定的所述目标会场需要进行混音的音频码流进行混音。

209、确定所述混音后的音频码流中的声源对象是否属于所述主要声源对象。

其中，在将主要声源对象所在会场的音频码流进行混音时，同时也混入了这些会场中的其他不重要的声源对象。例如，在图 4中，选取的会场 T1-1的音频码流中除了包含主要声源对象，还包含不重要的声源对象和。

210、若所述混音后的音频码流中的声源对象不属于所述主要声源对象，则将所述不属于所述主要声源对象的声源对象的音频码流消除。

其中，若所述混音后的音频码流中的声源对象不属于所述主要声源对象 , 则不是混音过程中应呈现的重要声源对象。为了让不重要的声源对象不影响混音的效果，需要消除掉这些不重要的声源对象。具体的方法可以是，在将 SA0C 的声源对象混音并生成为输出码流时，在渲染矩阵中将不重要的声源对象对应的系数均置为 0。

211、将混音后的音频码流发送给目标会场。

其中，通过前面的步骤已经生成了与各个目标会场对应的混音后的音频码流，所以将各个目标会场对应的混音后的音频码流发送给对应的目标会场即可。

另外，需要说明的是，在消除不必要的声源对象时，除了上述步骤 209 和 210中描述的方法外，还可以釆用以下方法，该方法具体包括：

在混音之前，将所述主要声源对象从其对应会场的音频码流中分离出来，根据目标会场和所述主要声源对象所在会场之间的关系 ,将所述主要声源对象进行混音。

其中，根据目标会场和所述主要声源对象所在会场之间的关系，将所述主要声源对象进行混音具体可以釆用以下的方法实现：

针对不同的目标会场，应选取不同的声源对象参与混音，先判断所述目标会场是否为所述主要声源对象所在会场，若所述目标会场为所述主要声源对象所在会场，则将除所述目标会场以外的所述主要声源对象进行混音；若所述目标会场不为所述主要声源对象所在会场，则将所有所述主要声源对象进行混音。例如，在图 4 中，对于目标会场 T1-1 , 属于主要声源对象所在会场中的一个，所以剔除声源对象将其他主要声源对象 ²、 ¹和 ²进行混音，作为目标会场 T1-1的混音码流即可。而对于目标会场 T1-3 , 不属于主要声源对象所在会场中的任何一个，所以将所有主要声源对象 °^ i和 2都进行混音，作为目标会场 T1-3的混音码流。另外，本发明实施例提供的混音方法还可以为：将确定的所述目标会场需要进行混音的音频码流发送给所述目标会场，并在目标会场的终端设备上将所述目标会场需要进行混音的音频码流进行混音。

本发明实施例提供的混音方法，与现有技术中通过各个会场的音量大小来选取参与混音的会场相比，通过各个声源对象的能量值大小来选取主要的声源对象，并根据主要声源对象来确定参与混音的会场。能够避免不必要的会场参与混音，保证了混音后的音质，同时降低了计算资源的消耗。

并且，本发明实施例中釆用分离声源对象的方法，只允许重要的声源对象参与混音，与现有技术中直接釆用会场的音频码流进行混音的方法相比，去除了 ^ ^重要声源对象对混音效果的影响，进一步提高混音后的音质。

实施例 3

本发明实施例提供一种混音装置，如图 5 所示，该装置包括：分析单元 31、选取单元 32、会场确定单元 33、音频确定单元 34、发送单元 35。

分析单元 31 , 用于接收各个会场的音频码流，并分别对所述各个会场的音频码流进行分析，得到所述各个会场对应的声源对象的声音特征值。

其中， MCU接收到的并非固定的独立声道对应的音频信号，而是空间音频对象编码 ( Spa t ia l Audio Object Coding , SAOC ) 的下混信号和相应的空间边信息信号。将下混信号和相应的空间边信息信号解码后，得到所述各个会场对应的声源对象。

选取单元 32 , 用于按照所述声源对象的声音特征值从大到小的顺序，从所述声源对象中选取预定数量的声源对象作为主要声源对象。

其中，为了从来自各个会场的声源对象中选取重要的声源对象，需要计算所有声源对象的声音特征值，以便下一步根据声音特征值大 d、进行比较和选取。这里说的声音特征值可以是能量、音量、包络或其他声音特征。

另外，为了减少 MCU的计算量，可以在终端设备上完成声音特征值计算，并将声音特征信息包含在空间边信息中直接发送给 MCU。例如，在釆用 SA0C 技术进行空间对象编码时，增加 NRG和 OLD参数即可。 NRG参数为所有对象的能量值中的最大的能量值， OLD参数则为各个对象的能量值与 NRG的比值，所以第 i个声源对象的能量值为： ENG_{m n} = OLD: _n xNRG_{m n}, \≤ i≤ P_{m n}。当 NRG和 OLD 都被计算和编码，并传送给 MCU时，在 MCU上提取各个对象对应的 NRG和 OLD 即可获得各个对象对应的能量值。

会场确定单元 33 , 用于确定所述主要声源对象所在会场。

其中，通过重要的声源对象确定重要的会场，而不是像现有技术中以音量大小来选取会场，可以使会场的选取更准确和可靠。

音频确定单元 34 , 用于根据目标会场和所述主要声源对象所在会场之间的关系，确定所述目标会场需要进行混音的音频码流。

其中，根据目标会场和所述主要声源对象所在会场之间的关系，确定所述目标会场需要进行混音的音频码流的方法为：判断所述目标会场是否为所述主要声源对象所在会场；若所述目标会场为所述主要声源对象所在会场，则将除所述目标会场以外的所述主要声源对象所在会场的音频码流确定所述目标会场需要进行混音的音频码流；若所述选目标会场不为所述主要声源对象所在会场，则将所有所述主要声源对象所在会场的音频码流确定所述目标会场需要进行混音的音频码流。

发送单元 35 , 用于将确定的所述目标会场需要进行混音的音频码流进行混音，并将混音后的音频码流发送给所述目标会场；或者所述发送单元 35还用于，将确定的所述目标会场需要进行混音的音频码流发送给所述目标会场，并在所述目标会场进行混音。

进一步的，所述分析单元 31还用于，对接收到的音频码流进行解码并计算所述声源对象的声音特征值。所述分析单元 31还用于，从接收到的所述音频码流中提取所述声源对象的声音特征值。

其中，所述预定数量为预先设定的数值，可以根据实际情况和经验设定。本实施例以选取四个声源对象为例，从表 1中的所有声源对象中按照声音特征值的大小从高到低选取其中四个，作为重要的声源对象，以便进一步混音。经过比较，声音特征值较高的四个声源对象为 '、 °^ i和 ²。

进一步的，如图 6所示，所述音频确定单元 34包括：

第一判断模块 341 , 用于判断所述目标会场是否为所述主要声源对象所在会场。

其中，由于在目标会场中，声音信息是可以直接传播的，不需要混音便可以呈现在会场中。所以在进行混音之前，先进行判断目标会场是否是主要声源对象所在会场，既可以减少计算量，也可以防止声音重复

第一确定模块 342 , 用于在所述第一判断模块 341判断所述目标会场为所述主要声源对象所在会场时，将除所述目标会场以外的所述主要声源对象所在会场的音频码流确定为所述目标会场需要进行混音的音频码流。

其中，当所述目标会场为所述主要声源对象所在会场时，无需将目标会场的音频码流确定为所述目标会场需要进行混音的音频码流，所以剔除目标会场，将其他主要声源对象所在会场的音频码流进行混音。例如，在图 4中，对于目标会场 T1-1 , 属于主要声源对象所在会场中的一个，所以将会场 Tl-2、 T4-1和 Τ4-2的音频码流进行混音，作为目标会场 T1-1的混音码流即可。

所述第一混音模块 342还用于，在所述第一判断模块 341判断所述选目标会场不为所述主要声源对象所在会场时，将所有所述主要声源对象所在会场的音频码流确定为所述目标会场需要进行混音的音频码流。

其中，当所述选目标会场不为所述主要声源对象所在会场时，需要将所有主要声源对象所在会场的音频码流确定为所述目标会场需要进行混音的音频码流。例如，在图 4 中，对于目标会场 T1-3 , 不属于主要声源对象所在会场中的任何一个，所以将所有主要会场 Tl-1、 Tl-2、 T4-1和 Τ4-2的音频码流都进行混音，作为目标会场 T1-3的混音码流。

进一步的，如图 7所示，所述发送单元 35还包括：

第二确定模块 351 , 用于在所述将混音后的音频码流发送给所述目标会场之前，确定所述混音后的音频码流中的声源对象是否属于所述主要声源对象。

其中，在将主要声源对象所在会场的音频码流进行混音时，同时也混入了这些会场中的其他不重要的声源对象。例如，在图 4中，主要会场 T1-1的音频码流中除了包含主要声源对象，还包含不重要的声源对象和。

消除模块 352 , 用于在所述确定模块 351确定所述混音后的音频码流中的声源对象不属于所述主要声源对象时，将所述不属于所述主要声源对象的声源对象的音频码流消除。

进一步的，如图 8所示，所述发送单元 35还包括：

分离模块 353 , 用于将所述主要声源对象从其对应会场的音频码流中分离出来。

混音模块 354 , 用于根据目标会场和所述主要声源对象所在会场之间的关系，将所述主要声源对象进行混音。

第二判断模块 355 , 用于判断所述目标会场是否为所述主要声源对象所在会场。

所述混音模块 354还用于，在所述第二判断模块 355判断所述目标会场为所述主要声源对象所在会场时，将除所述目标会场以外的所述主要声源对象进行混音。例如，在图 4 中，对于目标会场 T1-1 , 属于主要声源对象所在会场中的一个，所以剔除声源对象将其他主要声源对象 ²、 ¹和 ²进行混音，作为目标会场 T1-1的混音码流即可。

所述混音模块 354还用于，在所述第二判断模块 355判断所述目标会场不为所述主要声源对象所在会场，则将所有所述主要声源对象进行混音。

例如，在图 4 中，对于目标会场 T1-3 , 不属于主要声源对象所在会场中的任何一个，所以将所有主要声源对象 °^ ^和 ²都进行混音，作为目标会场 T1-3的混音码流。

本发明实施例还提供一种混音系统，如图 9包括：混音装置 41和会场终端 42。

所述会场终端 42 , 用于在所述各个会场中釆集音频信号，并将釆集到的音频信号经编码和压缩处理后，以音频码流的方式发送给所述混音装置 41。

所述会场终端 42还用于，接收所述混音装置 41发送的所述目标会场需要进行混音的音频码流，在所述目标会场将接收到的音频码流进行混音。

需要说明的是本发明实施例所述混音系统所包含功能模块的其他描述，可以参考实施例 1和实施例 1以及实施例 3对应装置部分的描述，本发明实施例此处将不再赘述。

本发明实施例提供的混音装置和系统 ,与现有技术中通过各个会场的音量大小来选取参与混音的会场相比，通过各个声源对象的能量值大小来选取主要的声源对象，并根据主要声源对象来确定参与混音的会场。能够避免不必要的会场参与混音，保证了混音后的音质，同时降低了计算资源的消耗。

并且，本发明实施例中釆用分离声源对象的方法，只允许重要的声源对象参与混音，与现有技术中直接釆用会场的音频码流进行混音的方法相比，去除了 ^重要声源对象对混音效果的影响，进一步提高混音后的音质。

并且，在本发明的混音系统中，在混音装置上进行混音码流的解析和选择，并将需要参与混音的音频码流发送给目标会场的终端，再由会场的终端进行混音处理，能够有效节省混音装置的计算量，提高混音效率。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘，硬盘或光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1、一种混音方法，其特征在于，包括：

接收各个会场的音频码流，并分别对所述各个会场的音频码流进行分析，得到所述各个会场对应的声源对象的声音特征值；

按照所述声源对象的声音特征值从大到小的顺序，从所述声源对象中选取预定数量的声源对象作为主要声源对象；

确定所述主要声源对象所在会场；

2、根据权利要求 1所述的混音方法，其特征在于，所述分别对所述各个会场的音频码流进行分析，得到所述各个会场对应的声源对象的声音特征值包括：对接收到的音频码流进行解码并计算所述声源对象的声音特征值。

3、根据权利要求 1所述的混音方法，其特征在于，所述分别对所述各个会场的音频码流进行分析，得到所述各个会场对应的声源对象的声音特征值还包括：从接收到的所述音频码流中提取所述声源对象的声音特征值。

4、根据权利要求 1-3任一项所述的混音方法，其特征在于，所述根据目标会场和所述主要声源对象所在会场之间的关系，确定所述目标会场需要进行混音的音频码流包括：

判断所述目标会场是否为所述主要声源对象所在会场；

若所述目标会场为所述主要声源对象所在会场，则将除所述目标会场以外的所述主要声源对象所在会场的音频码流确定为所述目标会场需要进行混音的音频码流；

若所述选目标会场不为所述主要声源对象所在会场，则将所有所述主要声源对象所在会场的音频码流均确定为所述目标会场需要进行混音的音频码流。

5、根据权利要求 4所述的混音方法，其特征在于，在所述将混音后的音频码流发送给所述目标会场之前，还包括：

确定所述混音后的音频码流中的声源对象是否属于所述主要声源对象；若所述混音后的音频码流中的声源对象不属于所述主要声源对象，则将所述不属于所述主要声源对象的声源对象的音频码流消除。

6、根据权利要求 1-3任一项所述的混音方法，其特征在于，将确定的所述目标会场需要进行混音的音频码流进行混音包括：

将所述主要声源对象从其对应会场的音频码流中分离出来；

根据目标会场和所述主要声源对象所在会场之间的关系，将所述主要声源对象进行混音。

7、根据权利要求 6所述的混音方法，其特征在于，所述根据目标会场和所述主要声源对象所在会场之间的关系，将所述主要声源对象进行混音，包括：判断所述目标会场是否为所述主要声源对象所在会场；

若所述目标会场为所述主要声源对象所在会场，则将除所述目标会场以外的所述主要声源对象进行混音；

若所述目标会场不为所述主要声源对象所在会场，则将所有所述主要声源对象进行混音。

8、根据权利要求 1-3任一项所述的混音方法，其特征在于，还包括：在所述目标会场的终端设备上将所述目标会场需要进行混音的音频码流进行混音。

9、一种混音装置，其特征在于，包括：

选取单元，用于按照所述声源对象的声音特征值从大到小的顺序，从所述声源对象中选取预定数量的声源对象作为主要声源对象；会场确定单元，用于确定所述主要声源对象所在会场；

10、根据权利要求 9所述的混音装置，其特征在于，所述分析单元还用于，对接收到的音频码流进行解码并计算所述声源对象的声音特征值。

11、根据权利要求 9所述的混音装置，其特征在于，所述分析单元还用于，从接收到的所述音频码流中提取所述声源对象的声音特征值。

12、根据权利要求 9-11任一项所述的混音装置，其特征在于，所述音频确定单元包括：

第一判断模块，用于判断所述目标会场是否为所述主要声源对象所在会场；

第一确定模块，用于在所述第一判断模块判断所述目标会场为所述主要声源对象所在会场时，将除所述目标会场以外的所述主要声源对象所在会场的音频码流确定为所述目标会场需要进行混音的音频码流；

所述第一确定模块还用于，在所述第一判断模块判断所述选目标会场不为所述主要声源对象所在会场时，将所有所述主要声源对象所在会场的音频码流均确定为所述目标会场需要进行混音的音频码流。

1 3、根据权利要求 12所述的混音装置，其特征在于，所述发送单元包括，：第二确定模块，用于在所述将混音后的音频码流发送给所述目标会场之前，确定所述混音后的音频码流中的声源对象是否属于所述主要声源对象；消除模块，用于在所述第二确定模块确定所述混音后的音频码流中的声源对象不属于所述主要声源对象时，将所述不属于所述主要声源对象的声源对象的音频码流消除。

14、根据权利要求 9-11任一项所述的混音装置，其特征在于，所述发送单元还包括：

分离模块，用于将所述主要声源对象从其对应会场的音频码流中分离出来；

混音模块，用于根据目标会场和所述主要声源对象所在会场之间的关系，将所述主要声源对象进行混音。

15、根据权利要求 14所述的混音装置，其特征在于，所述发送单元还包括：

第二判断模块，用于判断所述目标会场是否为所述主要声源对象所在会场；

所述混音模块还用于，在所述第二判断模块判断所述目标会场为所述主要声源对象所在会场时，将除所述目标会场以外的所述主要声源对象进行混音；所述混音模块还用于，在所述第二判断模块判断所述目标会场不为所述主要声源对象所在会场，则将所有所述主要声源对象进行混音。

16、一种混音系统，其特征在于，包括：如权利要求 9-15中任一项所述的混音装置和会场终端；

所述会场终端，用于在所述各个会场中釆集音频信号，并将釆集到的音频信号经编码和压缩处理后，以音频码流的方式发送给所述混音装置；

所述会场终端还用于，接收所述混音装置发送的所述目标会场需要进行混音的音频码流，在所述目标会场将接收到的音频码流进行混音。