WO2011153905A1

WO2011153905A1 - 一种音频信号的混音处理方法及装置

Info

Publication number: WO2011153905A1
Application number: PCT/CN2011/074820
Authority: WO
Inventors: 梁丽燕
Original assignee: 华为终端有限公司
Priority date: 2010-06-07
Filing date: 2011-05-28
Publication date: 2011-12-15
Also published as: CN102270456A; EP2568702A1; EP2568702B1; US20130094672A1; CN102270456B; EP2568702A4

Description

一种音频信号的混音处理方法及装置本申请要求于 2010年 6月 7日提交中国专利局、申请号为

201010199195.9 ,发明名称为 "一种音频信号的混音处理方法及装置，，的中国专利申请的优先权，其全部内容通过引用结合在本申请中。技术领域

本发明涉及通信领域，尤其涉及一种音频信号的混音处理方法及装置。背景技术

在多媒体通信系统中，多媒体服务器（以视讯会议中的 MCU ( Multipoint Control Unit, 多点控制单元）为例）对参加多媒体通信的各方参与者所发送的音频信号进行混音处理。下面以视讯会议为例来说明 N方混音处理的过程，其过程具体包括： MCU接收到各会场的多媒体终端釆集的语音码流后，对语音码流进行解码得到各会场的音频信号，并计算各会场解码后的语音包络，通过比较各会场的语音包络得到会议中语音包络最大的 N方会场（以下简称最大 N方会场），并对上述确定的 N方会场的音频信号进行混音；向上述确定的 N方会场之外的其他会场发送最大 N方会场的混音信号，向最大 N方会场中的各会场发送除本会场之外的 N-1方会场的混音信号。

现有技术中，为了增强用户的体验，多媒体终端会为自身釆集到的音频信息增加方位信息，或者多媒体服务器会为参加混音的各个多媒体终端发送的音频信息分配方位信息。

发明人在实现本发明的过程中，发现现有技术中至少存在如下问题：现有的混音处理方案中，对于接收终端，接收到的混音后的音频信号往往会出现方位重叠，使得用户无法清晰地收听到来自同一方位的多个会场的语音信号，从而降低了用户的临场体验感觉。发明内容本发明的实施例提供了一种音频信号的混音处理方法及装置，从而提高听众的临场体验感觉。

本发明的目的是通过以下技术方案实现的：

一种音频信号的混音处理方法，包括：

确定需要进行音频信号方位调整的终端，对所述终端的音频信号方位信息进行调整；

将方位调整之后的音频信号与其他待混音信号进行混音处理。

一种音频信号的混音处理装置，包括：

方位调整模块，用于确定需要进行音频信号方位调整的终端，对所述终端的音频信号方位信息进行调整；

混音处理模块，用于将方位调整之后的音频信号与其他待混音信号进行混音处理。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例对参加混音的发送终端的方位信息进行调整，可以使得各个发送终端的方位尽量分开，使得各个发送终端的声音更清楚，从而提高了用户的临场体验感觉。附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图 1为本发明实施例提供的一种混音处理过程示意图；

图 2为本发明实施例提供的多画面显示示意图；

图 3为本发明实施例提供的网真画面显示示意图；

图 4为本发明实施例提供的方位示意图；

图 5为本发明实施例一提供的混音处理过程示意图；图 6为本发明实施例二提供的混音处理过程示意图；

图 7为本发明实施例三提供的混音处理过程示意图；

图 8为本发明实施例提供的装置结构示意图。具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例 , 都属于本发明保护的范围。

在混音系统中，如果两个以上参加混音的终端之间的方位重叠，则会使得听众收听到方位重叠的声音，导致听众临场收听体验下降。

本发明实施例提供一种音频信号的混音处理方法，当参加混音的终端的音频信号的方位发生重叠时，本方案能够及时对参加混音的发送终端的音频信号的方位信息进行调整，从而使听众能够清楚地收听到会场发送的音频信号的方位信息，提高听众的临场体验感觉。该方法的处理过程可应用在含音频混音的多路媒体通信系统中，其实现方式如图 1所示，包括：

5101、确定需要进行音频信号方位调整的终端，对所述终端的音频信号方位信息进行调整；

5102、将方位调整之后的音频信号与其他的待混音信号进行混音处理。本发明实施例提供的技术方案，调整了发生音频信号方位重叠的终端的音频方位信息，使得各个发送终端的方位尽量分开，各个发送终端的声音方位更清楚，从而提高了用户的临场体验感觉。

上述实施例中，需要对参加混音的终端的音频信号进行方位调整的情况，不仅限于当终端的音频信号存在方位重叠时，在视频通信系统中，当某一终端进入混音系统时，或者当视频画面排列变化等情况发生时，如果参加混音的终端的方位与该终端在视频画面中的方位不一致时，也需要进行方位调整。相应的，上述 S101的具体实现方式包括：当参加混音的终端的音频信号的方位与所述终端在视频画面中的方位不一致时，确定该终端为需要进行方位调整的终端，根据所述终端在所述视频画面的方位，调整所述终端的方位信息与在所述视频画面中的方位一致；或者，如果所述终端为双声道或多声道终端时，居所述终端在所述视频画面的方位和所述终端的实际方位，调整所述终端的方位信息。

作为举例而非限定，如图 2所示，来自会场 E的音频信号的实际方位为右，但会场 E在多画面中显示的位置为左边，则调整来自会场 E的音频信号的方位为左边偏右；或者，如图 3所示，会场 F的实际方位为右边，但会场 F 对应的显示区域（显示器 1 )在网真画面的左边，则调整会场 F的方位为左边偏右。

在会议系统中，本发明实施例多媒体服务器还可以根据与会终端的指定方位信息对方位待调整终端的方位进行调整。在这种情况下， S101 的具体实现方式包括：确定该方位指定信息中指定的终端为方位待调节终端，并根据上述与会终端所发出的方位指定信息，调整所述方位待调整终端的方位。其中，该方位指定信息是所述与会终端为所述方位待调节终端指定的方位，多媒体服务器根据该方位指定信息为所述方位待调节终端设置方位信息。

可选的，方位指定信息中还可以携带指定生效信息，该指定生效信息用来指示仅在发送给该与会终端的音频进行混音处理时，为该方位待调整终端调整方位信息；或者在发送给若干或全部与会终端的混音处理时，为该方位待调整终端调整方位信息。

可选的，如果有多个与会终端为同一参加混音的终端指定不同的方位时，则多媒体服务器可根据接收到不同方位指定信息的先后顺序轮流实现对该终端的方位调整，或者按照申请令牌方式对该方位待调整终端的方位进行调整，也可以按照其他设定的规则控制终端调整该发送终端方位的权限。

当根据与会终端的指定方位信息对方位待调整终端的方位进行调整时，方位调整具体实现方式是：对方位待调整终端的方位按照接收到的方位指定信息的指示，在该终端原方位的同侧进行调整。如图 4 所示的方位示意图为例，同侧调整是指，参加混音的双声道发送终端 B的原方位在左，则将其方位调整为偏左或中间；参加混音的单声道发送终端 C的原指定方位为偏右，则将其方位调整为右。

本发明实施例中，当存在多个方位待调整的终端时，对这些方位待调整终端的音频信号方位信息进行调整时，可以根据预先设置的优先级依次进行调整。本发明实施例提供一种优选的优先级，该优先级包括：在存在单声道、双声道以及多声道终端混合混音时，参加混音的单声道终端具有第一调整优先级；第一次参加混音的终端具有第二调整优先级；在存在单声道、双声道以及多声道终端混合混音时，参加混音的双声道终端和多声道终端具有第三优先级。举例说明，参加混音的多声道终端 A、双声道终端 B和单声道终端 C均为方位待调整终端，其中双声道终端 B初次参加混音，则首先对单声道终端 C的音频信号方位进行调整，其次对双声道终端 B的音频信号方位进行调整，最后对多声道终端 A的音频信号方位进行调整。

上述对终端进行音频信号方位信息进行调整的主体，是多媒体服务器，或者具有方位信息调节功能的其他设备。在视讯会议领域，该多媒体服务器即是 MCU ( Multipoint Control Unit, 多点控制单元），也可以是具有 MCU功能模块的终端，即： Mini MCU, 上述主要基于视讯会议系统组网架构的不同来确定。

下面将对本发明实施例在实际应用过程中的具体实现方式进行详细的说明。

以视频通信系统为例，其中， MCU完成来自多路视讯多媒体终端的音频信号的混音。 MCU在接收到视频会议中各会场的语音码流后，对各会场的语音码流进行解码，并计算解码后每个会场的语音包络，通过对各个会场的语音包络进行比较得到语音包络最大的 N方会场（即最大 N方会场）。对最大 N 方会场的音频信号进行混音处理后发送。

其中，在进行混音处理过程中， MCU会对参加混音的最大 N方会场的声道类型以及接收端会场的声道类型进行判断，根据参加混音的最大 N方会场的声道类型（单声道会场、双声道会场或者多声道会场），分别进行相应的混音前处理（包括将单声道数据上混为具有指定方位的双声道数据或者多声道数据，或者将双声道数据或者多声道数据下混为单声道数据，由于所述上混处理以及下混处理为音频处理的现有技术，对此不再进行赞述），进而进行相应的混音处理后，发送给不同声道类型的接收端会场。参加混音的最大 N方会场（发送终端）同时也会接收到除自身之外的其他 N-1方会场的混音信号。

实施例一

实施例一为当参加混音的最大 N方会场中存在音频信号方位重叠的会场时的混音处理过程，其混音处理过程如图 5所示，具体实现包括如下操作： S501、 MCU检测待混音的最大 N方会场的音频信号方位（下面简称：方位）；

其中，由于单声道会场本身没有方位，所以会场的方位是由外部指定的 (具体可以通过 MCU指定，用户指定等方式），而对双声道或者多声道会场来说，除了是外部指定的方位以外，还可以是根据会场本身数据检测得到的实际方位。

一种优选的方式如下：

双声道以及多声道会场方位检测的方法：一般来说，人耳对声源方位的感知是基于其在双耳间的信号差别，如时间差或者是能量差。也就是说，如果某个方位的音源在双耳中的时间差或者能量差是一样的，则人就会感觉到该音源在双耳的正中间，如果到左耳的能量比到右耳的能量大，或者是到左耳的时间比到右耳的时间提前，则人就会感觉到音源偏向左边。根据这个理论，一般检测双声道或者多声道数据的时间差或 /和能量差来得到实际的方位，即时间或者能量偏向哪一边，则方位也相应的偏向哪一边。以双声道数据为例说明，假设共分为 5 个方位：左边、偏左、中间、偏右、右边，并且^^定中间方位两个声道的能量差别在 3dB以内，偏左或者偏右方位两个声道的能量相差 3 ~ 6dB, 左边或者右边方位两个声道的能量差别大于 6dB。首先分别计算两个声道数据的能量，然后对两个声道的能量进行比较，如果左声道的能量比右声道的能量大 4dB, 则可判断出实际方位为偏左方位。

5502、 MCU判断最大 N方会场的方位之间是否存在重叠，如果是，则执行 S504, 如果不是，则执行 S503;

5503、 MCU对最大 N方会场的音频信号进行混音处理，混音处理的具体实现方式可通过现有的混音方式实现，这里不再详述；

5504、 MCU根据预先设置的方位待调整终端确定方式，确定需要进行方位调整的会场（由于在视讯会议中，一个参会会场具有一个多媒体终端，为了简便表达，后续所指的会场，即对应该会场的终端）；

下面提供一种优选的方位待调整终端确定方式，该优选的目标终端确定方式为：

根据预先设置的优先级，从方位重叠的发送终端中选择优先级最高的发送终端；如果所选择的终端只有一个，则该终端为方位待调整终端，如果所选择的终端为两个或两个以上，则随机选择或按照进入混音器的顺序确定一个作为方位待调整终端。

可选的，预先设置的优先级为：

在存在单声道、双声道以及多声道终端混合混音时，参加混音的单声道发送终端具有第一调整优先级；

第一次参加混音的发送终端具有第二调整优先级（由于判定进入混音器进行混音的音频信号通过比较能量的大小确定的，而来自各个终端的音频信号的能量是发生变化的，因此参加混音的最大 N个终端是动态调整的）；在存在单声道、双声道以及多声道终端混合混音时，参加混音的双声道发送终端和多声道发送终端具有第三调整优先级。

以如图 4所示的方位示意图为例，参加混音的多声道终端 A和双声道终端 B存在方位重叠，且双声道终端 B初次参加混音，则双声道终端 B为方位待调整终端；参加混音的单声道终端 C和多声道终端 D方位重叠，则选择单声道终端 C为方位待调整终端。根据该优选的方位待调整终端确定方式，如果最大 N方会场中的单声道会场 1和双声道会场 2存在音频信号的方位重叠，则确定单声道会场 1需要进行方位调整；

5505、 MCU按照预先设置的方位调整原则，对 S504中确定的会场的方位进行调整，使得最大 N方会场之间的方位不再重叠，并执行 S506;

下面提供一种优选的方位调整原则，该优选的方位调整原则是以分开、就近为原则，且如果方位待调整终端是单声道终端，则优先将该终端向两侧方位调整（两侧方位是相对方位 "中" 而言的）；如果方位待调整终端是双声道发送终端或多声道发送终端，则优先将目标发送终端向中间方位调整；所谓分开、就近是指将需要进行方位调整的终端向该终端原方位的同侧方位进行调整，仍以如图 4所示的方位示意图为例，参加混音的双声道发送终端 B 的原方位在左，则将其方位调整为偏左或中间；参加混音的单声道发送终端 C 的原指定方位为偏右，则将其方位调整为右；

釆用这种分开、就近原则，能够在对音频信号的方位信息进行调整解决方位重叠的情况下，保证近似初始方位，避免了因为调整过大而影响用户对原音频信号的听觉感受。

5506、 MCU对方位调整后的音频信号与其他的音频信号进行混音处理，优选的，针对不同声道类型的接收终端的具体实现方式包括：

( 1 )针对单声道会场接收终端，完成方位调整后，通过对混音信号中的各个子带上参加混音的最大 N方会场的音频信号能量进行比较，获得混音信号中各个子带上音频信号能量最大的参加混音的会场的方位信息（如果音频信号能量最大的会场是进行方位调整的会场，则该方位信息是指调整后的方位信息 ),并将所述混音信号中各个子带上音频信号能量最大的最大 N方会场的方位信息和经过混音处理后的混音信号发送给所述单声道会场接收终端；

( 2 )针对双声道会场接收终端，如果所述最大 N方会场中有单声道会场或多声道会场，则根据调整后的方位信息将所述最大 N方会场的音频信号生成为双声道音频信号后进行混音处理，如果所述最大 N方会场有双声道会场，则根据调整后的方位对所述发送终端的音频信号进行调整后参加混音处理，并将混音信号发送给所述双声道会场接收终端；

其中，将最大 N方会场中的单声道会场的音频信号生成为双声道音频信号的实现方式可以包括但不仅限于：根据调整后的单声道会场的方位信息，对该单声道会场的单声道音频信号进行能量分配，获得具备空间方位信息的双声道音频信号。例如：调整后的单声道会场的方位为 "右"，则可在单声道音频信号生成双声道音频数据的过程中，相对于左声道音频信号的能量分配，为右声道音频信号分配更大的能量。

将最大 N方会场中的多声道会场的音频信号生成为双声道音频信号的实现方式可以包括但不仅限于：

方式一：将该多声道会场的音频信号生成为单声道音频信号，然后根据调整后的该多声道会场的方位信息，将上述单声道音频信号生成为双声道音频信号；

方式二：根据调整后的该多声道会场的方位信息，通过能量分配生成双声道音频信号。

根据调整后的方位对所述双声道会场的音频信号进行调整后参加混音处理的实现方式可以包括但不仅限于：

方式一：将该双声道会场的音频信号生成为单声道音频信号，然后根据调整后的该双声道会场的方位信息，将上述单声道音频信号生成为双声道音频信号，将处理后得到的双声道音频信号参加混音处理；

方式二：根据调整后的该双声道会场的方位信息，通过能量重新分配得到双声道音频信号，将处理后得到的双声道音频信号参加混音处理。

( 3 )针对多声道会场接收终端，如果所述最大 N方会场中有单声道会场或双声道会场，则根据调整后的方位信息将所述单声道会场或双声道会场的音频信号生成为多声道音频信号后进行混音处理，如果所述最大 N方会场中有多声道会场，则根据调整后的方位对所述多声道会场的音频信号进行调整后参加混音处理，并将混音信号发送给所述多声道会场发送终端；

其中，将单声道会场的音频信号生成为双声道音频信号的实现方式可参照上述针对双声道会场接收终端中的实现方式，此处不再赘述。

将双声道会场的音频信号生成为多声道音频信号的实现方式可以包括但不仅限于是：

方式一：将该双声道会场的音频信号生成为单声道音频信号，然后根据调整后的该双声道会场的方位信息，将上述单声道音频信号生成为多声道音频信号；

方式二：根据调整后的该双声道会场的方位信息，通过能量分配生成多声道音频信号。

根据调整后的方位对所述多声道会场的音频信号进行调整后参加混音处理的实现方式可以但不仅限于：

方式一：将该多声道会场的音频信号生成为单声道音频信号，然后根据调整后的该多声道会场的方位信息，将上述单声道音频信号生成为多声道音频信号，将处理后得到的多声道音频信号参加混音处理；

方式二：根据调整后的该多声道会场的方位信息，通过能量重新分配得到多声道音频信号，将处理后得到的多声道音频信号参加混音处理。

通过上述混音处理过程，使得最大 N方会场中各个会场之间的音频信号方位不重叠，从而提高了语音清晰度，并提高了听众的临场体验感觉。

实施例二

实施例二为当参加混音的最大 N方会场中存在与视频画面中的方位不一致的会场时的混音处理过程，其混音处理过程如图 6 所示，具体实现方式包括如下操作：的方位一致，如果是，则执行 S602, 如果不是，则执行 S603;

5602、 MCU对来自最大 N方会场的音频信号进行混音处理，混音处理的具体实现方式可通过现有的混音方式实现，这里不再详述；

5603、 MCU根据检测到的方位不一致的会场在视频画面中的位置，对该会场的方位进行调整，具体调整方式包括但不仅限于：

1 )将该会场的方位调整为其在视频画面中显示的方位，例如，会场 1的实际方位为右，但会场 1在多画面中显示的方位为中，则调整会场 1 的方位为中；或者

2 )结合该会场的实际方位和其在视频画面中的方位进行方位调整，例如，会场 1 的实际方位为右，但会场 1在多画面中显示的方位为左边，则调整会场 1的方位为左边偏右；

针对不同类型终端的方位进行调整，类似于实施例 1 的方式，对此，不再进行赘述。

5604、根据调整后的方位信息进行混音处理，具体混音处理方式参照上述本发明实施例一中针对不同声道类型的接收终端的混音实现方式。

本发明实施例二中，通过对方位与视频画面中的方位不一致的会场进行方位调整，使得视频通信系统的使用者收听到的最大 N方会场的方位信息与视频画面中最大 N方会场的分布相符，从而提高了听众的临场体验感觉。实施例三

实施例三为当接收端的会场为最大 N 方会场指定方位时的混音处理过程，其混音处理过程如图 7所示，具体实现方式包括如下操作：

S701、 MCU接收会场 n发来的方位指定信息，该方位指定信息用来指示 MCU对最大 N方会场中的会场 a进行方位调整，作为举例而非限定，该方位指定信息可以通过信令方式发送；

5702、 MCU将会场 a的方位调整为上述方位指定信息中指定的方位。其中，方位指定信息中还可以携带指定生效信息，该指定生效信息用来指示仅在发送给会场 n的混音处理时，为会场 a调整方位信息；或者在发送给若干或全部会场的混音处理时，为会场 a调整方位信息。作为举例而非限定，该生效信息可以包括一个或若干个会场标识，当该生效信息中包含一个会场标识 "n" 时， MCU仅在发送给会场 n的混音处理过程中，按照上述方位指定信息中指定的方位为会场 a进行方位调整，当该生效信息中包含若干个会场标识（例如 "n"、 "b"、 "c" ) 时，则 MCU在发送给这若干个会场（会场 n、会场 b和会场 c )的混音处理过程中，按照上述方位指定信息中指定的方位为会场 a进行方位调整。如果有多个会场为会场 a指定方位，则 MCU可根据接收到不同方位指定信息的先后顺序轮流实现对会场 a 的方位调整，或者按照申请令牌方式对该会场 a 的方位进行调整，也可以按照其他设定的规则控制各个会场调整会场 a方位的权限。

5703、 MCU根据调整后的方位信息进行混音处理，具体混音处理方式参照上述本发明实施例一中针对不同声道类型的接收终端的混音实现方式。

在本发明实施例三中，如果会场 n为会场 a指定方位，且会场 a的方位与会场 a在视频画面中的位置不一致，作为举例而非限定，可优先按照会场 n 的指定方位信息对会场 a进行方位调整。

本发明实施例三中， MCU根据会场发来的方位指定信息对指定的最大 N 方会场进行方位调整，可以实现用户根据自己的需要对指定的会场进行方位调整，提高了听众的临场体验满意度。针对本发明的方法实施例，本发明还提供了一种音频信号的混音处理装置实施例，当参加混音的终端的音频信号的方位发生重叠时，该装置能够及时对参加混音的发送终端的音频信号的方位信息进行调整，从而使听众能够清楚地收听到会场发送的音频信号的方位信息，提高听众的临场体验感觉，其结构如图 8所示，具体实现结构包括：

方位调整模块 801 , 用于确定需要进行音频信号方位调整的终端，对所述终端的音频信号方位信息进行调整；

混音处理模块 802 ,用于将方位调整之后的音频信号与其他待混音信号进行混音处理。

本发明实施例提供的装置，调整了发生音频信号方位重叠的终端的音频方位信息，使得各个发送终端的方位尽量分开，各个发送终端的声音方位更清楚，从而提高了用户的临场体验感觉。

上述本发明实施例中，需要对参加混音的终端的音频信号进行方位调整的情况，不仅限于当终端的音频信号存在方位重叠时，在视频通信系统中，当某一终端进入混音系统时，或者当视频画面排列变化等情况发生时，如果参加混音的终端的方位与该终端在视频画面中的方位不一致时，也需要进行方位调整。

相应的，上述方位调整模块 801还包括目标终端确定子模块 8011 , 用于在如下情况下，确定需要进行音频信号方位调整的终端：当所述终端与其他终端的音频信号的方位发生重叠时；或当所述终端的音频信号的方位与多画面中的该终端的视频画面的位置不相匹配时；或当所述终端第一次参加混音时。

当所述终端的音频信号的方位与多画面中的该终端的视频画面的位置不相匹配而需要进行所述终端的方位调整时，方位调整模块 801 具体用于将该终端的方位调整为其在视频画面中显示的方位；或者如果所述终端为双声道或多声道终端时，结合该终端的实际方位和其在视频画面中的方位进行方位调整。

在会议系统中，本发明实施例提供的装置还可以根据与会终端的指定方位信息对方位待调整终端的方位进行调整。在这种情况下，方位调整模块 801 具体用于根据与会终端发出的方位指定信息，调整所述方位待调整终端的方位，其中，所述的方位指定信息为所述与会终端为所述方位待调整终端指定的方位。可选的，方位指定信息中还可以携带指定生效信息，该指定生效信息用来指示仅在发送给该与会终端的音频进行混音处理时，为该方位待调整终端调整方位信息；或者在发送给若干或全部与会终端的混音处理时，为该方位待调整终端调整方位信息。

可选的，如果存在多个与会终端为同一参加混音的终端指定不同的方位时，则方位调整模块 801 根据接收到不同方位指定信息的先后顺序轮流实现对该终端的方位调整，或按照申请令牌的方式对所述方位待调整终端的方位进行调整，也可以按照其他设定的规则控制终端调整该发送终端方位的权限。

当根据与会终端的指定方位信息对方位待调整终端的方位进行调整时，方位调整模块 801 具体对方位待调整终端的方位按照接收到的方位指定信息的指示，在该终端原方位的同侧进行调整。如图 4 所示的方位示意图为例，同侧调整是指，参加混音的双声道发送终端 B的原方位在左，则将其方位调整为偏左或中间；参加混音的单声道发送终端 C的原指定方位为偏右，则将其方位调整为右。

本发明实施例中，当存在多个方位待调整的终端时，方位调整模块 801 可以根据预先设置的优先级依次对该多个方位待调整终端的音频信号方位信息进行调整。本发明实施例提供一种优选的优先级，该优先级包括：在存在单声道、双声道以及多声道终端混合混音时，参加混音的单声道终端具有第一调整优先级；第一次参加混音的终端具有第二调整优先级；在存在单声道、双声道以及多声道终端混合混音时，参加混音的双声道终端和多声道终端具有第三优先级。举例说明，参加混音的多声道终端、双声道终端 B和单声道终端 C均为方位待调整终端，其中双声道终端 B初次参加混音，则首先对单声道终端 C的音频信号方位进行调整，其次对双声道终端 B的音频信号方位进行调整，最后对多声道终端 A的音频信号方位进行调整。

上述对终端进行音频信号方位信息进行调整的装置，是多媒体服务器，或者具有方位信息调节功能的其他设备。在视讯会议领域，该多媒体服务器即是 MCU ( Multipoint Control Unit, 多点控制单元），也可以是具有 MCU功能模块的终端，即： Mini MCU, 上述主要基于视讯会议系统组网架构的不同来确定。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

权利要求书

1、一种音频信号的混音处理方法，其特征在于，包括：

2、根据权利要求 1所述的方法，其特征在于，所述确定需要进行音频信号方位调整的终端，包括：

当所述终端与其他终端的音频信号的方位发生重叠时；或

当所述终端的音频信号的方位与多画面中的该终端的视频画面的位置不相匹配时；或

当所述终端第一次参加混音时；

确定所述终端为需要进行音频信号方位调整的终端。

3、根据权利要求 1所述的方法，其特征在于，当存在多个方位待调整的终端时，所述确定需要进行音频信号方位调整的终端，包括：根据预先设置的优先级依次对所述多个方位待调整的终端的音频信号方位信息进行调整。

4、根据权利要求 3所述的方法，其特征在于，所述预先设置的优先级包括：

在存在单声道、双声道以及多声道终端混合混音时，参加混音的单声道终端具有第一调整优先级；

第一次参加混音的终端具有第二调整优先级；

在存在单声道、双声道以及多声道终端混合混音时，参加混音的双声道终端和多声道终端具有第三优先级。

5、根据权利要求 1所述的方法，其特征在于，对所述终端的音频信号方位信息进行调整包括：

根据与会终端发出的方位指定信息，调整所述方位待调整终端的方位，其中，所述的方位指定信息为所述与会终端为所述方位待调整终端指定的方位；

当存在多个与会终端对所述终端发出多次方位指定信息时，则根据接收到不同方位指定信息的先后顺序，或按照申请令牌的方式对所述方位待调整终端的方位进行调整。

6、根据权利要求 1或 5所述的方法，其特征在于，对所述终端的音频信号方位信息进行调整，包括：对方位待调整终端的方位按照接收到的方位指定信息的指示，在该终端原方位的同侧进行调整。

7、根据权利要求 1所述的方法，其特征在于，当所述终端的音频信号的方位与多画面中的该终端的视频画面的位置不相匹配而需要进行所述终端的方位调整时，对所述终端的音频信号方位信息进行调整包括：

将该终端的方位调整为其在视频画面中显示的方位；或者

结合该终端的实际方位和其在视频画面中的方位进行方位调整。

8、一种音频信号的混音处理装置，其特征在于，包括：

9、根据权利要求 8所述的装置，其特征在于，所述方位调整模块包括目标终端确定子模块，用于当所述终端与其他终端的音频信号的方位发生重叠时；或当所述终端的音频信号的方位与多画面中的该终端的视频画面的位置不相匹配时；或当所述终端第一次参加混音时，确定所述终端为需要进行音频信号方位调整的终端。

10、根据权利要求 8 所述的装置，其特征在于，当存在多个方位待调整的终端时，所述方位调整模块具体用于根据预先设置的优先级依次对所述多个方位待调整的终端的音频信号方位信息进行调整。

11、根据权利要求 10所述的装置，其特征在于，所述预先设置的优先级包括：

第一次参加混音的终端具有第二调整优先级；在存在单声道、双声道以及多声道终端混合混音时，参加混音的双声道终端和多声道终端具有第三优先级。

12、根据权利要求 8 所述的装置，其特征在于，所述方位调整模块具体用于根据与会终端发出的方位指定信息，调整所述方位待调整终端的方位，其中，所述的方位指定信息为所述与会终端为所述方位待调整终端指定的方位；

当存在多个与会终端对所述终端发出多次方位指定信息时，所述方位调整模块根据接收到不同方位指定信息的先后顺序，或按照申请令牌的方式对所述方位待调整终端的方位进行调整。

13、根据权利要求 8或 12所述的装置，其特征在于，所述方位调整模块具体用于对方位待调整终端的方位按照接收到的方位指定信息的指示，在该终端原方位的同侧进行调整。

14、根据权利要求 8 所述的装置，其特征在于，当所述终端的音频信号的方位与多画面中的该终端的视频画面的位置不相匹配而需要进行所述终端的方位调整时，所述方位调整模块具体用于将该终端的方位调整为其在视频画面中显示的方位；或者结合该终端的实际方位和其在视频画面中的方位进行方位调整。