WO2013174115A1

WO2013174115A1 - 一种多画面视讯会议中的画面控制方法、设备及系统

Info

Publication number: WO2013174115A1
Application number: PCT/CN2012/085024
Authority: WO
Inventors: 詹五洲; 韦海斌; 吴姣黎
Original assignee: 华为技术有限公司
Priority date: 2012-05-25
Filing date: 2012-11-22
Publication date: 2013-11-28
Also published as: CN102857732A; US20150092011A1; CN102857732B

Abstract

本发明实施例公开了一种多画面视讯会议的画面控制方法、设备及系统，所述方法包括：接收会场的音频数据；根据所述会场中每个会场的音频数据，实时获取相应会场在第一指定时间段内的语音特征值，所述语音特征值用于表征会场的激活状态；根据各个会场的激活状态从所述多个会场中选择指定会场；将所述指定会场的图像作为子画面填充到多画面中，以对所述多画面进行实时更新。通过统计时间段内的特征值来判断某会场是否处于激活状态，并作为参与多画面合成的依据，实现了多画面中子画面内容的动态调整，显著提高了会议效果，改善了与会者的会议体验。此外还可以动态调整多画面中子画面的个数及位置，从而也有效的提高了会议效果。

Description

一种多画面视讯会议中的画面控制方法、设备及系统本申请要求于 2012 年 5 月 25 日提交中国专利局、申请号为 201210166632.6 , 发明名称为"一种多画面视讯会议中的画面控制方法、设备及系统"的中国专利申请的优先权，在先申请文件的内容通过引用结合在本申请中。

技术领域

本发明涉及视讯会议领域，尤其是涉及一种多画面视讯会议中的画面控制方法、设备及系统。

背景技术

在视讯会议系统中，由于与会会场个数多，且分布各地，为使与会者能与其他会场与会人员进行面对面的直接交流，在同一时间内能看到其他会场的与会人员，普遍釆用了多画面的技术，与会者通过观看多画面，可以同时与多个会场的与会人员进行交流。

当前视讯会议系统显示多画面的方案为：预先设定多画面的模式，如 4 画面、 9画面等，然后将固定的几个会场填入到多画面的子画面中，会议时各会场看到的多画面均为这种预先设定的模式。发明人在实现本发明的过程中发现：釆用现有技术中这种方案时，子画面中的会场可能一直未发言，而其他发言踊跃的会场却未在多画面中显示，使得视讯会议达不到预期的效果；此外现有技术中的多画面显示形式固定，无法根据现场情况进行调整。

发明内容本发明实施例的目的是提供一种多画面视讯会议中的画面控制方法、设备及系统，以根据现场各会场的情况实时调整子画面从而有效提高会议效果。

本发明实施例公开了一种多画面视讯会议的画面控制方法，所述方法包括：

接收会场的音频数据；根据所述会场中每个会场的音频数据，实时获取相应会场在第一指定时间段内的语音特征值，所述语音特征值用于表征会场的激活状态；

根据各个会场的激活状态从所述多个会场中选择指定会场；

将所述指定会场的图像作为子画面填充到多画面中，以对所述多画面进行实时更新。

本发明实施例还公开了一种多画面视讯会议的画面控制设备，所述设备包括：

音频接收单元，用于接收会场的音频数据；

语音特征值获取单元，用于根据所述会场中每个会场的音频数据，实时获取相应会场在第一指定时间段内的语音特征值，所述语音特征值用于表征会场的激活状态；

会场选单元，用于根据各个会场的激活状态从所述多个会场中选择指定会场；

子画面更新单元，用于将所述指定会场的图像作为子画面填充到多画面中，以对所述多画面进行实时更新。

本发明实施例还公开了一种多画面视讯会议的画面控制系统，所述系统包括上述设备以及一个或多个会场终端，所述会场终端用于显示经所述设备控制生成的多画面。

本发明实施例以时间段为统计单位，通过统计该时间段内的一些特征值来判断某会场是否处于激活状态，并作为参与多画面合成的依据，从而实现了多画面中子画面内容的动态调整，显著提高了会议效果，大大改善了与会者的会议体验。此外，本发明实施例还可以动态调整多画面中子画面的个数及位置，从而也有效的提高了会议效果。

附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图 1是本发明一实施例方法的流程图；

图 2是本发明一实施例中音视频解码示意图；

图 3是本发明一实施例中多画面等比切分方式示意图；

图 4是本发明一实施例中多画面大小子画面嵌套切分方式示意图；图 5是本发明一实施例中多方混音示意图；

图 6是本发明另一实施例设备的示意图；

图 7是本发明再一实施例系统的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例 , 都属于本发明保护的范围。

图 1是本发明一实施例方法的流程图，所述方法包括：

S101: 接收会场的音频数据。所述会场可以是一个或多个。在本实施例中，具体可以是 MCU (Multipoint Control Unit, 多点控制单元）接收各会场的 RTP (实时传送协议， Real-time Transport Protocol )码流，并根据对应的音视频协议进行解码处理， RTP包解码后输出为音视频棵码流，参见图 2 所示，图 2中 Site表示会场， Site 1码流解码后音频数据为 AudioData 1, 视频数据为 VideoDatal— Site X码流解码后音频数据为 AudioData X, 视频数据为 VideoData X。

S102: 根据所述会场中每个会场的音频数据，实时获取相应会场在第一指定时间段内的语音特征值，所述语音特征值用于表征会场的激活状态。要选择哪些会场应该进入到多画面中，首先要有一个评判标准，在本实施例中，这一评判标准就是各个会场的语音特征值。若某一会场的语音特征值满足某种条件，则该会场就可以看为一个激活会场，或称活跃会场，就可以作为进入多画面的一个备选会场了。

在本实施例中，可以有多种方式对语音特征值进行定义及评价，下面以举例的方式进行说明。需要指出的是，在本发明其他实施例中，同样还可以有其他多种方式对语音特征值进行定义及评价，对此本发明实施例不做限制。

方式一：获取相应会场在第一指定时间段内的音频能量值，并将所述音频能量值作为所述语音特征值 V. ，若所述音频能量值大于指定的能量阈值，则判定会场处于激活状态。优选的，获取音频能量值可以有以下两种方法：第一种方法是：在所述第一指定时间段内选取多个第二指定时间段，在每个第二指定时间段内获取多个样点音频能量数据，根据所述多个样点音频能量数据的均方根值获取第二时间段的音频能量数据，再将所述多个第二指定时间段的音频能量数据的均值作为所述音频能量值。

具体来讲，可以以 TO (典型的如 1分钟）为第一指定时间段，然后获取各会场在 TO 内的语音特征值。获取的步骤是：对于一个会场，在 TO中选取多个第二指定时间段 T1 (如 20ms ) , 即以 T1为能量计算子单元，然后在 T1 内进行釆样获取该会场的多个音频能量数据，如在一个 T1内进行 N次釆样，每次釆样获取的音频能量数据分别为 xl、 x2、 ... xN, 则该会场一个 T1的音频能量数据 xrms可通过以下公式计算：

然后求出 TO内各个 T1的平均值，即可作为 TO的音频特征值。

第二种方法是：在所述第一指定时间段内选取多个第二指定时间段，再在每个第二指定时间段内选取多个第三指定时间段；在每个第三指定时间段内获取多个样点音频能量数据，根据所述多个样点音频能量数据的均方根值获取第三时间段的音频能量数据；再根据所述多个第三指定时间段的音频能量数据的均值获取每个第二指定时间段的音频能量数据；最后将每个第二指定时间段的音频能量数据进行加权处理后相加，将结果作为所述音频能量值；其中所述加权处理的规则是：距当前时刻越近则权重越大。

所述第二种方法是基于第一种方法的，是在第一种方法基础上的扩充。具体来讲，区别点在于第二种方法考察的是一个更长的时间段 T, 然后在 T内选取多个 TO, 通过第一种方法得到每个 TO的音频能量数据，然后对各个 TO 的音频能量数据进行加权处理后相加，将结果作为最终的音频能量值。由于第二种方法考察的时间段更长（由 TO扩展到 T ) , 所以会比第一种方法更准确一些。

方式二：统计相应会场在所述第一指定时间段内处于连续语音态的时长，并将所述时长作为语音特征值，若所述时长大于指定的时长阔值，则判定会场处于激活状态。具体的，可以进行 VAD ( Voice Act ivi ty Detect ion, 语音活动检测）检测，统计 TO时间段内处于连续语音态的时长，比较时长，并根据时长来选定激活会场。

如会场 1、 2. . N, 在 TO 时间段内 VAD检测累积的时长分别对应为： VolTimeLen VolTimeLen 2... VolTimeLen N, 对各个 VolTimeLen进行排序，并与一个预置的时长阔值 GateVolTimeLen 进行对比；大于等于 GateVolTimeLen的会场可标识为激活会场；小于 Ga teVolTimeLen的会场标识为非激活会场。当然，在本发明其他实施例中，还可以不使用时长阔值，而是在所有会场中选取连续语音态时长最大的 W个会场作为激活会场。

方式三：获取相应会场在第一指定时间段内的音频能量值和连续语音态时长，并将所述音频能量值和所述时长的组合作为语音特征值；若所述组合满足指定规则，则判定会场处于激活状态。例如可以先用音频能量值进行初次筛选，再用连续语音态时长进行二次过滤；或者以一种值为主，同时参考另一值，例如：语音时长长但语音能量小，该会场可以被认为是激活，而语音时长短但语音能量大，则该会场不能被认为是激活，这样就可以避免出现因与会者突然敲下桌子或者咳嗽声而错误的将该会场判断为激活会场的情况。

S103: 根据各个会场的激活状态从所述多个会场中选择指定会场。所述指定会场可以是一个或多个。根据语音特征值获得了各个会场的激活状态后，判断哪些会场应该作为指定会场进入到多画面中就有了判断基础了。

在本实施例中，可以有多种方式从激活会场中选择出指定会场填充到多画面中，下面以举例的方式进行说明。需要指出的是，在本发明其他实施例中，同样还可以有其他多种方式进行选择，对此本发明实施例不做限制。

方式曱：将当前处于激活状态的会场作为指定会场。即将当前所有的激活会场作为指定会场。这样实现起来最简单。

方式乙：将上次处于激活状态的会场和当前处于激活状态的会场都作为指定会场。这样可以兼顾历史显示。具体的，当前的激活会场分别为 Act iveS i te 2、 3... Act iveS i teN, 记录在一个集合 CurAct iveTabe l中；而上一轮切换时的激活会场记录在集合 PreAc t iveTabe l , 取两个集合 PreAc t iveTabe 1与 CurAc t iveTabe 1会场信息的并集部分作为本次多画面的子画面会场，参与多画面的拼接。

方式丙：将当前处于激活状态的会场，以及上次处于激活状态且语音特征值大于当前处于激活状态的会场的语音特征值最小值的会场，作为指定会场。即当前的激活会场都参与多画面拼接，而上次的激活会场根据语音特征比较，也部分可以参与本次多画面拼接，例如：上次激活会场的语音特征值小于当前激活会场中的最小语音特征值的会场，不参与本次多画面拼接，而上次激活会场的语音特征值大于等于当前激活会场中的最小语音特征值的会场，可以参与本次多画面的拼接。

S104 : 将所述指定会场的图像作为子画面填充到多画面中，以对所述多画面进行实时更新。这样多画面中的各个子画面便可以在会议进行过程中随着各个会场的发言情况而实时进行调整了，避免了现有技术中看到的子画面一成不变的情况，可以及时的将不活跃会场从多画面中剔除，并及时的将新的活跃会场力。入到多画面中。多画面中的子画面可以是一个或多个。

在本实施例中，将指定会场作为子画面填充到多画面的步骤，具体可以有多种方式，下面以举例的方式进行说明。需要指出的是，在本发明其他实施例中，同样还可以有其他多种方式进行填充，对此本发明实施例不做限制。

方式 A: 根据所述指定会场的数量，釆用等比切分的方式将所述多画面进行切分，并将所述指定会场按照指定顺序填入切分后得到的子画面中。所谓等比切分，也可称为宽高等比切分，即：对多画面切分的次数为指定会场的数量减一，每次切分时都将被切分的窗口均分为二。参见图 3 , 图 3示出了不同数量的会场进入到多画面后，多画面的切分形式随着子画面数量的变化而变化的过程： 2画面时，则各子画面的宽度比和高度比均为 1 : 1 ; 3画面时，则各子画面的宽度比为 1 : 1 : 1 , 高度比为 2: 1 : 1 ; 4画面时，个子画面的宽高比和高度比均为 1： 1 : 1 : 1 , 以此类推。

方式 B: 根据所述指定会场的数量，釆用大画面嵌套小画面的方式将所述多画面进行切分，并将所述指定会场按照指定顺序填入切分后得到的子画面中。参见图 4 , 图 4示出了不同数量的会场进入到多画面后，多画面的切分形式随着子画面数量的变化而变化的过程。此外，在图 4 中，大、小子画面的填充顺序为：语音特征值最高的会场显示为大画面，其他剩余会场显示为小画面，具体可参见下文的顺序 1。

在以上方式 A、方式 B中，子画面有时会有大小之分，那么所述指定会场填入切分后得到的子画面的过程将按指定顺序进行填充，而所述指定顺序可以是多种情况，优选的，例如：

顺序 1 : 语音特征值较大的会场填入到较大的子画面中。这样可以使得最活跃的会场最突出显示。

顺序 2 : 优先填入在所述多画面中的历史位置。即，根据会场在多画面中的历史显示位置信息，选择已有的历史位置，优先选择历史显示次数多的位置，以使得该会场在多画面中的相对位置不变，避免子画面跳跃频繁，便于观看者观看。在本实施例中，具体的：如会场 1的历史显示位置信息分别为：位置 1 有 X次、位置 2有 Y次、 …位置 N有 Z次，则当需要显示会场 1时，比较历史显示位置次数，优先选择次数值大的位置，当该位置已有会场显示，则选择次数次低的位置，依次进行比较选择，直至在历史显示位置中选到显示位置；若历史中所有的位置都已有会场显示，则选择一个历史位置之外的新位置。

另外，各个会场终端对所述多画面进行显示时，也可以有多种情况：可以统一显示同一个多画面，该多画面由所有的所述指定会场组成；也可以是令被选为指定会场的会场终端不显示该会场本身的画面，如会场 1 / 2/ 3 为指定会场，则会场 1的会场终端显示 1个子画面，子画面分别为会场 2/ 3;会场 2的会场终端显示 2个子画面，子画面分别为会场 1 / 3; 会场 3的会场终端显示 2个画面，子画面分别为会场 1 /2 ; 剩余其他会场均显示为 3个画面，子画面分别为会场 1 /2/ 3。

此外，在本实施例中步骤 S1 03之后，还可以包括：

从所述激活会场中选择指定数量的会场进行多方混音，和 /或，按照不向会场输出本会场声音的规则进行多方混音。现有技术中混音时一般是对所有会场的语音进行混音，而在本实施例中，因为可以判断出激活会场，所以混音时就可以缩小混音的会场范围，以提高混音效果。可以包括两部分规则，一是参与混音的会场的选择规则，即，从所述激活会场中选择指定数量的会场进行多方混音，二是输出混音的规则，即，按照不向会场输出本会场声音的规则进行多方混音。

对于从所述激活会场中选择指定数量的会场进行多方混音，可以是：所有激活会场都参与混音；也可以是：在多画面中的所有会场即 M个所述指定会场都参与混音；还可以是：用户先设定混音会场上限个数 X(如 X取值为 4 ) , 然后比较激活会场的数量 N与 X的大小，若 N<=X , 则取所有 N个激活会场进行混音，若 N>X, 则在 N个激活会场中选取语音特征值最大的 X方进行混音。而输出混音的规则，可以是：在多画面中的会场得到的是其他参与混音的会场的声音，而不在多画面中的会场得到的是所有参与混音的会场的声音。参见图 5所示：如果参与混音的会场为 1/2/3, 则生成的 4个声音信号，分别表示为： AudioData 1/2/3. AudioData 1/2. AudioData 2/3. AudioData 1/3。会场 1将听到的声音为 AudioData 2/3; 会场 2听到的声音为 AudioData 1/3; 会场 3听到的声音为 AudioData 1/2; 剩余其他会场听到的声音为 AudioData 1/2/3。

本实施例以时间段为统计单位，通过统计该时间段内的一些特征值来判断某会场是否处于激活状态，并作为参与多画面合成的依据，从而实现了多画面中子画面内容的动态调整，显著提高了会议效果，大大改善了与会者的会议体验。此外，本发明实施例还可以动态调整多画面中子画面的个数及位置，从而也有效的提高了会议效果。图 6是本发明另一实施例设备的示意图，所述设备包括：

音频接收单元 601, 用于接收会场的音频数据；

语音特征值获取单元 602, 用于根据所述会场中每个会场的音频数据，实时获取相应会场在第一指定时间段内的语音特征值，所述语音特征值用于表征会场的激活状态；

会场筛选单元 603,用于根据各个会场的激活状态从所述多个会场中选择指定会场；

子画面更新单元 604,用于将所述指定会场的图像作为子画面填充到多画面中，以对所述多画面进行实时更新。

优选的，所述语音特征值获取单元具体包括：

音频能量值获取子单元，用于获取相应会场在第一指定时间段内的音频能量值，并将所述音频能量值作为所述语音特征值，若所述音频能量值大于指定的能量阔值，则判定会场处于激活状态；或者，

连续语音态时长获取子单元，用于统计相应会场在所述第一指定时间段内处于连续语音态的时长，并将所述时长作为语音特征值，若所述时长大于指定的时长阔值，则判断会场处于激活状态。

优选的，所述音频能量值获取子单元具体包括：

第一釆样子单元，用于在所述第一指定时间段内选取多个第二指定时间段，在每个第二指定时间段内获取多个样点音频能量数据；

第一计算子单元，用于根据所述多个样点音频能量数据的均方根值获取第二时间段的音频能量数据，再将所述多个第二指定时间段的音频能量数据的均值作为所述音频能量值。

优选的，所述音频能量值获取子单元具体包括：

第二釆样子单元，用于：在所述第一指定时间段内选取多个第二指定时间段，再在每个第二指定时间段内选取多个第三指定时间段；在每个第三指定时间段内获取多个样点音频能量数据；

第二计算子单元，用于：根据所述多个样点音频能量数据的均方根值获取第三时间段的音频能量数据；再根据所述多个第三指定时间段的音频能量数据的均值获取每个第二指定时间段的音频能量数据；

加权处理子单元，用于：将每个第二指定时间段的音频能量数据进行加权处理后相加，将结果作为所述音频能量值；其中所述加权处理的规则是：距当前时刻越近则权重越大。

对于设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本实施例以时间段为统计单位，通过统计该时间段内的一些特征值来判断某会场是否处于激活状态，并作为参与多画面合成的依据，从而实现了多画面中子画面内容的动态调整，显著提高了会议效果，大大改善了与会者的会议体验。此外，本发明实施例还可以动态调整多画面中子画面的个数及位置，从而也有效的提高了会议效果。图 7 是本发明再一实施例系统的示意图，所述系统包括上一实施例所述的设备以及一个或多个会场终端，所述会场终端用于显示所述设备生成的多画面。

对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本实施例以时间段为统计单位，通过统计该时间段内的一些特征值来判断某会场是否处于激活状态，并作为参与多画面合成的依据，从而实现了多画面中子画面内容的动态调整，显著提高了会议效果，大大改善了与会者的会议体验。此外，本发明实施例还可以动态调整多画面中子画面的个数及位置，从而也有效的提高了会议效果。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语"包括"、 "包含" 或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句 "包括一个 ... ... " 限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，这里所称得的存储介质，如： R0M、 RAM, 磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

权利要求书

1、一种多画面视讯会议的画面控制方法，其特征在于，所述方法包括：接收会场的音频数据；

根据所述会场中每个会场的音频数据，实时获取相应会场在第一指定时间段内的语音特征值，所述语音特征值用于表征会场的激活状态；

根据各个会场的激活状态从所述多个会场中选择指定会场；

2、根据权利要求 1所述的方法，其特征在于，获取相应会场在第一指定时间段内的语音特征值的步骤，具体包括：

获取相应会场在第一指定时间段内的音频能量值，并将所述音频能量值作为所述语音特征值，若所述音频能量值大于指定的能量阔值，则判定会场处于激活状态。

3、根据权利要求 2所述的方法，其特征在于，获取相应会场在第一指定时间段内的音频能量值的步骤，具体包括：

在所述第一指定时间段内选取多个第二指定时间段，在每个第二指定时间段内获取多个样点音频能量数据，根据所述多个样点音频能量数据的均方根值获取第二时间段的音频能量数据，再将所述多个第二指定时间段的音频能量数据的均值作为所述音频能量值。

4、根据权利要求 2所述的方法，其特征在于，获取相应会场在第一指定时间段内的音频能量值的步骤，具体包括：

在所述第一指定时间段内选取多个第二指定时间段，再在每个第二指定时间段内选取多个第三指定时间段；在每个第三指定时间段内获取多个样点音频能量数据，根据所述多个样点音频能量数据的均方根值获取第三时间段的音频能量数据；再根据所述多个第三指定时间段的音频能量数据的均值获取每个第二指定时间段的音频能量数据；最后将每个第二指定时间段的音频能量数据进行加权处理后相加，将结果作为所述音频能量值；其中所述加权处理的规则是：距当前时刻越近则权重越大。

5、根据权利要求 1所述的方法，其特征在于，获取相应会场在第一指定时间段内的语音特征值的步骤，具体包括：

统计相应会场在所述第一指定时间段内处于连续语音态的时长，并将所述时长作为语音特征值，若所述时长大于指定的时长阔值，则判定会场处于激活状态；或者，

获取相应会场在第一指定时间段内的音频能量值和连续语音态时长，并将所述音频能量值和所述时长的组合作为语音特征值，若所述组合满足指定规则，则判定会场处于激活状态。

6、根据权利要求 1所述的方法，其特征在于，根据各个会场的激活状态从所述多个会场中选择指定会场的步骤，具体包括：

将当前处于激活状态的会场作为指定会场；或者，

将上次处于激活状态的会场和当前处于激活状态的会场都作为指定会场；或者，

将当前处于激活状态的会场，以及上次处于激活状态且语音特征值大于当前处于激活状态的会场的语音特征值最小值的会场，作为指定会场。

7、根据权利要求 1所述的方法，其特征在于，将所述指定会场的图像作为子画面填充到多画面中的步骤，具体包括：

根据所述指定会场的数量，釆用等比切分的方式将所述多画面进行切分，并将所述指定会场按照指定顺序填入切分后得到的子画面中；或者，

根据所述指定会场的数量，釆用大画面嵌套小画面的方式将所述多画面进行切分，并将所述指定会场按照指定顺序填入切分后得到的子画面中。

8、根据权利要求 7所述的方法，其特征在于，所述指定顺序具体为：语音特征值较大的会场填入到较大的子画面中；或者，

优先填入在所述多画面中的历史位置的顺序。

9、根据权利要求 1所述的方法，其特征在于，根据各个会场的激活状态从所述多个会场中选择指定会场的步骤之后，还包括：从所述激活会场中选择指定数量的会场进行多方混音，和 /或，按照不向会场输出本会场声音的规则进行多方混音。

10、一种多画面视讯会议的画面控制设备，其特征在于，所述设备包括：音频接收单元，用于接收会场的音频数据；

会场筛选单元，用于根据各个会场的激活状态从所述多个会场中选择指定会场；

1 1、根据权利要求 10所述的设备，其特征在于，所述语音特征值获取单元具体包括：

12、根据权利要求 1 1所述的设备，其特征在于，所述音频能量值获取子单元具体包括：

13、根据权利要求 1 1所述的设备，其特征在于，所述音频能量值获取子单元具体包括：

14、一种多画面视讯会议的画面控制系统，其特征在于，所述系统包括权利要求 10~13任一项所述的设备以及一个或多个会场终端，所述会场终端用于显示经所述设备控制生成的多画面。