WO2017121299A1

WO2017121299A1 - 一种调整媒体流传输的方法及装置

Info

Publication number: WO2017121299A1
Application number: PCT/CN2017/070652
Authority: WO
Inventors: 刘艳
Original assignee: 华为技术有限公司
Priority date: 2016-01-13
Filing date: 2017-01-09
Publication date: 2017-07-20
Also published as: CN106973253A; CN106973253B

Abstract

本发明的实施例提供一种调整媒体流传输的方法及装置，涉及通信领域，能够根据音量自适应控制媒体流暂停，提高发送端与中心控制设备间的处理资源的利用率。包括：中心控制设备获取N个发送端发送的RTP报文，每个RTP报文包括音频流的音量，N为大于等于2的自然数；根据N个音频流的音量确定第一音量阈值；确定音量小于或等于第一音量阈值的音频流；向音量小于或等于第一音量阈值的X个音频流对应的发送端中每个发送端发送包括暂停指示的RTCP报文，X为大于等于1且小于N的自然数，暂停指示用于指示X个音频流对应的发送端暂停向中心控制设备发送音频流。

Description

一种调整媒体流传输的方法及装置

本申请要求于2016年1月13日提交中国专利局、申请号为201610022357.9、发明名称为“一种调整媒体流传输的方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及通信领域，尤其涉及一种调整媒体流传输的方法及装置。

背景技术

多点视频会议系统(英文全称：multi point video conferencing system，英文简称：MPVCS)允许3个或3个以上不同地点的发送端同时参与的会议系统，该系统还包括中心控制设备。发送端通过网络将媒体流发送给中心控制设备，媒体流包括视频流和音频流，中心控制设备负责接收各发送端通过网络发送的媒体流，中心控制设备获取到多路视频流后，确定将一路视频流或多路视频流合并成一路视频流广播出去，以供其他会场的发送端接收。通常，中心控制设备将音量大的发送端的音频流发送至其他发送端，同时，对与其音频相关的视频做策略选择。

中心控制设备仍然会接收到音量较低的音频流，但是，该音量较低的音频流不会被混音发送至其他发送端，这样，对于这些音量较低的音频流照样占用发送端与中心控制设备间的处理资源，导致发送端与中心控制设备间的处理资源的浪费。

在现有技术中，互联网工程任务组(英文全称：internet engineering task force，英文简称：IETF)规定了请求评议(英文全称：request for comments，英文简称：RFC)。RFC3264是基于会话描述协议(英文全称：session description protocol，英文简称：SDP)可用于控制媒体流暂停或恢复。具体的，通过在信令面由会话两端的任一侧发起会话重协商，在相应的需暂停或恢复的媒体流对应的m行置为去激活(inactive)来实现该媒体流单向或者双向的发送控制。待双方协商完成后，媒体路径对应通道的媒体流将会执行相应的控制，即暂停。但是，上述方法耗费信令太多，不适用于在多点会场，及音量动态变化的情况。

发明内容

本发明的目的在于提供一种调整媒体流传输的方法及装置，能够根据音量自适应控制媒体流暂停，从而提高发送端与中心控制设备间的处理资源的利用率。

上述目标和其他目标将通过独立权利要求中的特征来达成。进一步的实现方式在从属权利要求、说明书和附图中体现。

第一方面，提供一种调整媒体流传输的方法，包括：

首先，中心控制设备获取N个发送端发送的实时传输协议RTP报文，每个所述RTP报文包括音频流的音量，N为大于等于2的自然数，目前主流的中心控制设备有多点控制单元(英文全称：Multi-point Control Unit，英文简称：MCU)，发送端也就是多媒体通信终端设备，例如，可以是视频会议终端或桌面式视频终端等；

然后，中心控制设备根据N个音频流的音量确定第一音量阈值；并确定音量小于或等于所述第一音量阈值的音频流；

最后，中心控制设备向所述音量小于或等于所述第一音量阈值的X个音频流对应的发送端中每个发送端发送包括暂停指示的实时传输控制协议RTCP报文，X为大于等于1且小于N的自然数，所述暂停指示用于指示所述X个音频流对应的发送端暂停向中心控制设备发送音频流，发送端也就是多媒体通信终端设备，例如，可以是视频会议终端或桌面式视频终端等。

上述第一方面提供的调整媒体流传输的方法，中心控制设备接收到N个发送端上报的音频流的音量后，根据N个音频流的音量确定第一音量阈值，并确定音量小于或等于所述第一音量阈值的音频流，向音量小于或等于第一音量阈值的X个音频流对应的发送端中每个发送端发送包括暂停指示的RTCP报文，指示每个发送端暂停向中心控制设备发送音频流。从而中心控制设备根据发送端上报的音频流的音量来确定混音的音频流，进一步向不需要混音的发送端发送暂停指示，使得不需要混音的发送端暂停向中心控制设备发送音频流，能够有效提高发送端与中心控制设备间的处理资源的利用率。

其中，中心控制设备根据N个音频流的音量确定第一音量阈值具体的可以采用以下两种方法：

在第一方面的第一种可实现方式中，首先，中心控制设备按照N路音频流的音量从大到小排序；然后，从按照N路音频流的音量从大到小排序的音频流中，将从第一路至第M路的前M路确定为M路音频流，M为大于等于1且小于N的自然数，M表示已混音路数，且M小于或等于预设混音路数L，即已混音的音频流的路数可以与预设混音路数相等也可以小于预设混音路数，X表示未混音路数，N＝M+X，所述M路音频流为已混音的音频流；最后，将第M路的音频流的音量与第M+1路的音频流的音量间的音量确定为所述第一音量阈值。

上述第一方面的第一种可实现方式提供的中心控制设备动态的确定音量阈值的具体方法，能够更加实时准确地判断发送端上报的音频流的音量。

在第一方面的第二种可实现方式中，所述中心控制设备根据N个音频流的音量的平均值确定所述第一音量阈值。

上述第一方面的第二种可实现方式提供的中心控制设备静态的确定音量阈值的具体方法，这样判断发送端上报的音频流的音量的速度较快。

结合第一方面、第一方面的第一种可实现方式和第一方面的第二种可实现方式中任一种可实现方式，在第三种可实现方式中，所述包括暂停指示的RTCP报文还包括阈值，所述阈值用于表示所述第一音量阈值，使得接收到包括暂停指示的RTCP报文的音频流对应的发送端中任一发送端根据所述第一音量阈值实时监测音频流的音量，当所述任一发送端的音频流的音量大于所述第一音量阈值时向所述中心控制设备发送包括恢复请求的RTCP报文。所述包括暂停指示的RTCP报文还包括阈值类型。

上述第一方面的第三种可实现方式提供了RTCP报文包括的具体内容，这样以便于发送端接收到这些内容，存储这些内容，根据更新后的音频流的音量大小来判断是否需要向中心控制设备发送音频流。

结合第一方面、第一方面的第一种可实现方式和第一方面的第三种可实现方式中任一种可实现方式，在第四种可实现方式中，所述包括暂停指示的RTCP报文还包括剩余最大数，所述剩余最大数用于表示还可混音路数，所述还可混音路数为L-M，L表示预设混音路数，M表示已混音路数，当所述还可混音路数大于0时，使所述X个音频流对应的发送端中任一发送端向所述中心控制设备包括恢复请求RTCP报文。

结合第一方面、第一方面的第一种可实现方式和第一方面的第四种可实现方式中任一种可实现方式，在第五种可实现方式中，所述包括暂停指示的RTCP报文还包括是否关联视频流，所述是否关联视频流用于指示所述X个音频流对应的发送端中任一发送端暂停向所述中心控制设备发送音频流的同时暂停向所述中心控制设备发送与所述音频流关联的视频流。

上述第一方面的第五种可实现方式提供了RTCP报文包括的具体内容，这样以便于发送端接收到这些内容，存储这些内容，暂停向中心控制设备发送与所述音频流关联的视频流，提高发送端与中心控制设备间的处理资源的利用率。

结合第一方面、第一方面的第一种可实现方式至第一方面的第五种可实现方式中任一种可实现方式，在第六种可实现方式中，在所述中心控制设备向所述音量小于等于所述第一音量阈值的音频流对应的发送端中每个发送端发送包括暂停指示的RTCP报文之后，所述方法还包括：

所述中心控制设备接收所述X个音频流对应的发送端中每个发送端发送的包括暂停响应的RTCP报文，所述暂停响应用于表示X个音频流对应的发送端中每个发送端已暂停向中心控制设备发送音频流。

结合第一方面的第一种可实现方式至第一方面的第六种可实现方式中任一种可实现方式，在第七种可实现方式中，在所述中心控制设备向所述音量小于或等于所述第一音量阈值的X个音频流对应的发送端中每个发送端发送包括暂停指示的RTCP报文之后，所述方法还包括：

所述中心控制设备接收第一发送端发送的包括恢复请求的RTCP报文，所述恢复请求包括所述第一发送端更新的音频流的音量，所述恢复请求用于请求中心控制设备指示第一发送端向中心控制设备发送音频流，所述第一发送端为X个音频流对应的发送端中的任一发送端；

所述中心控制设备判断所述第一发送端更新的音频流的音量是否大于已混音路数中任一路音频流的音量；

若所述第一发送端更新的音频流的音量大于已混音路数中任一路音频流的音量，所述中心控制设备根据所述第一发送端更新的音频流的音量和N-1发送端的音频流的音量确定第二音量阈值；

所述中心控制设备确定音量小于或等于所述第二音量阈值的音频流；

所述中心控制设备向所述音量小于或等于所述第二音量阈值的Y个音频流对应的发送端中每个发送端发送包括暂停指示的RTCP报文，Y为大于等于1且小于N的自然数。

上述第一方面的第七种可实现方式中，中心控制设备可以根据发送端发送的恢复请求携带的音频流的音量来判断是否恢复发送端发送音频流，从而提高发送端与中心控制设备间的处理资源的利用率。

结合第一方面的第七种可实现方式，在第八种可实现方式中，在所述中心控制设备接收第一发送端发送的包括恢复请求的RTCP报文之后，所述方法还包括：

所述中心控制设备判断已混音路数是否小于所述中心控制设备预设混音路数；

当所述已混音路数小于所述预设混音路数，所述中心控制设备向所述第一发送端发送包括恢复响应的RTCP报文，所述包括恢复响应的RTCP报文还包括还可混音路数，所述还可混音路数为预设混音路数与已混音路数之差，所述恢复响应用于中心控制设备指示所述第一发送端向中心控制设备发送音频流；

所述中心控制设备判断所述第一发送端更新的音频流的音量是否大于已混音路数中任一路音频流的音量包括：

当所述已混音路数等于所述预设混音路数，所述中心控制设备判断所述第一发送端更新的音频流的音量是否大于已混音路数中任一路音频流的音量。

结合第一方面、第一方面的第一种可实现方式至第一方面的第八种可实现方式中任一种可实现方式，在第九种可实现方式中，在所述中心控制设备向所述音量小于等于所述第一音量阈值的音频流对应的发送端中每个发送端发送包括暂停指示的RTCP报文之后，所述方法还包括：

所述中心控制设备向所述X个音频流对应的发送端中每个发送端发送包括更新消息的RTCP报文，所述更新消息包括第三音量阈值和还可混音路数，所述还可混音路数为预设混音路数与已混音路数之差。

第二方面，提供一种调整媒体流传输的方法，包括：

首先，发送端向中心控制设备发送实时传输协议RTP报文，所述RTP报文包括音频流的音量；再接收所述中心控制设备发送的包括暂停指示的实时传输控制协议RTCP报文，所述暂停指示用于指示发送端暂停向中心控制设备发送音频流；

然后，所述发送端向所述中心控制设备发送包括暂停响应的RTCP报文，所述暂停响应用于表示发送端已暂停向中心控制设备发送音频流。

上述第二方面提供的调整媒体流传输的方法，发送端向中心控制设备发送音频流的音量，使得中心控制设备接收到N个发送端上报的音频流的音量后，根据N个音频流的音量确定第一音量阈值，并确定音量小于或等于所述第一音量阈值的音频流，向音量小于或等于第一音量阈值的X个音频流对应的发送端中每个发送端发送包括暂停指示的RTCP报文，指示每个发送端暂停向中心控制设备发送音频流。从而中心控制设备根据发送端上报的音频流的音量来确定混音的音频流，进一步向不需要混音的发送端发送暂停指示，使得不需要混音的发送端暂停向中心控制设备发送音频流，能够有效提高发送端与中心控制设备间的处理资源的利用率。

在第二方面的第一种可实现方式中，所述包括暂停指示的RTCP报文还包括第一音量阈值，所述方法还包括：

所述发送端保存所述第一音量阈值；

所述发送端监测该发送端的音频流的音量；

所述发送端判断监测到的该发送端更新的音频流的音量大于所述第一音量阈值；

所述发送端向所述中心控制设备发送包括恢复请求的RTCP报文，所述恢复请求包括所述发送端更新的音频流的音量，所述恢复请求用于请求中心控制设备指示发送端向中心控制设备发送音频流；

所述发送端接收所述中心控制设备发送的包括恢复响应的RTCP报文，所述恢复响应用于指示发送端向中心控制设备发送音频流。

在第二方面的第二种可实现方式中，在所述发送端向所述中心控制设备发送包括暂停响应的RTCP报文之后，所述方法还包括：

所述发送端接收所述中心控制设备发送的包括更新消息的RTCP报文，所述更新消息包括第三音量阈值和还可混音路数；

所述发送端保存所述第三音量阈值；

所述发送端监测该发送端的音频流的音量；

所述发送端判断监测到的该发送端更新的音频流的音量大于所述第三音量阈值；

所述发送端向所述中心控制设备发送包括恢复请求的RTCP报文，所述恢复请求包括所述发送端更新的音频流的音量，所述恢复请求用于请求中心控制设备指示发送端向中心控制设备发送音频流。

结合第二方面、第二方面的第一种可实现方式至第二方面的第二种可实现方式中任一种可实现方式，在第二方面的第三种可实现方式中，所述包括暂停指示的RTCP报文还包括还可混音路数，所述包括恢复响应的RTCP报文还包括还可混音路数，所述更新消息还包括还可混音路数，所述还可混音路数为预设混音路数与已混音路数之差，所述方法还包括：

所述发送端判断所述还可混音路数大于0；

所述发送端向所述中心控制设备发送包括恢复请求的RTCP报文。

结合第二方面、第二方面的第一种可实现方式至第二方面的第三种可实现方式中任一种可实现方式，在第二方面的第四种可实现方式中，所述包括暂停指示的RTCP报文还包括是否关联视频流，所述是否关联视频流用于指示发送端暂停向所述中心控制设备发送音频流的同时暂停向所述中心控制设备发送与所述音频流关联的视频流。

第三方面，提供一种中心控制设备，包括：接收单元，用于接收发送端发送的RTP报文或RTCP报文，处理单元，用于处理接收到的RTP报文或RTCP报文，发送单元，用于向发送端发送RTCP报文。具体的实现方式可以参考第一方面提供的调整媒体流传输的方法中中心控制设备的行为的功能。

第四方面，提供一种发送端，包括：接收单元，用于接收中心控制设备发送的RTCP报文，处理单元，用于处理接收到的RTCP报文，发送单元，用于向中心控制设备发送RTCP报文或RTP报文。具体的实现方式可以参考第二方面提供的调整媒体流传输的方法中发送端的行为的功能。

需要说明的是，上述第三方面和第四方面所述功能模块可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。例如，通信接口，用于完成接收单元和发送单元的功能，处理器，用于完成处理单元的功能，存储器，用于存储音量阈值。处理器、通信接口和存储器通过总线连接并完成相互间的通信。具体的，可以参考第一方面提供的调整媒体流传输的方法中中心控制设备的行为的功能，以及第二方面提供的调整媒体流传输的方法中发送端的行为的功能。

本发明中，中心控制设备和发送端的名字对设备本身不构成限定，在实际实现中，这些设备可以以其他名称出现。只要各个设备的功能和本发明类似，属于本发明权利要求及其等同技术的范围之内。

本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种多点视频会议系统示意图；

图2为本发明实施例提供的一种音频流的流向示意图；

图3为本发明实施例提供的一种视频流的流向示意图；

图4为本发明实施例提供的一种计算机硬件结构示意图；

图5为本发明实施例提供的一种调整媒体流传输的方法流程图；

图6为本发明实施例提供的另一种调整媒体流传输的方法流程图；

图7为本发明实施例提供的又一种调整媒体流传输的方法流程图；

图8为本发明实施例提供的再一种调整媒体流传输的方法流程图；

图9为本发明实施例提供的又一种调整媒体流传输的方法流程图；

图10为本发明实施例提供的一种RTCP报文结构示意图；

图11为本发明实施例提供的一种中心控制设备结构示意图；

图12为本发明实施例提供的一种发送端结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述。

本发明的基本原理在于：中心控制设备在混音之后，仍然会接收到音量较低的音频流，导致发送端与中心控制设备间的处理资源的浪费的情况下，中心控制设备根据发送端上报的音频流的音量确定音量阈值，并确定音量小于或等于音量阈值的音频流，向音量小于或等于音量阈值的X个音频流对应的发送端中每个发送端发送包括暂停指示的实时传输控制协议(英文全称：Real-time Transport Control Protocol，英文简称：RTCP)报文，暂停指示用于指示发送端暂停向中心控制设备发送音频流。从而中心控制设备根据发送端上报的音频流的音量来确定混音的音频流，进一步向不需要混音的发送端发送暂停指示，能够有效提高发送端与中心控制设备间的处理资源的利用率。

下面将参考附图详细描述本发明的实施方式。

实施例1

本发明实施例提供一种多点视频会议系统示意图，如图1所示，包括：中心控制设备、网络、发送端1、发送端2、发送端3、发送端4和发送端5。中心控制设备和发送端分别与网络连接。

5个发送端可以位于不同地点会场，例如，深圳会场，北京会场，上海会场，成都会场和西安会场。本发明在此对会议的地点不做限定，还可以在其他会场，这里只是示意性说明。

发送端也就是多媒体通信终端设备，例如，可以是视频会议终端或桌面式视频终端，也可以是其他多媒体通信终端设备。发送端用于采集该发送端所处会场的视频和音频等信号，通过网络传输到其他发送端或中心控制设备。发送端也可以接上显示设备，例如电视机，电视机作为回显设备显示图像。发送端通常包括核心编解码器、摄像头、全向麦克风和遥控器。核心编解码器用于将摄像头和麦克风输入的图像及声音编码通过网络发送，同时将网络传输来的视频解码后，将图像还原到显示设备上，并将网络传输来的音频解码后，将声音还原到音响上，即实现了与其他发送端的实时交互。

中心控制设备用于对输入的多路会议信号进行切换，会议信号包含音频、视频及数据中至少一种信号。中心控制设备对音频信号采取多路混合的方式或切换方式传送，对视频信号采取直接分配的方式传送，对于数据信号采取广播方式或无损音频编码(英文全称：Meridian Lossless Packing，英文简称：MLP)方式传送。此外，中心控制设备还要完成对通信控制信号和网络接口信号的处理。

示例的，中心控制设备接收到发送端1的音频流1、发送端2的音频流2、发送端3的音频流3和发送端4的音频流4后，可以将对所有音频流按照从大到小的音量进行排序，获取最大音量的前M路音频流，将前M路音频流进行混音，再发送至所有发送端。假设标识*号的表示当前会场中音量最大的2路音频，如图2所示，将音频流3和音频流4混音，将音频流3和音频流4的混音发送至发送端1和发送端2，只将音频流3发送至发送端4，只将音频流4发送至发送端3，而不必将接收方的音频流混音，避免其听到回音，即不必将音频流3发送至发送端3，将音频流4发送至发送端4。

若发送端1显示发送端3的视频流，发送端2显示发送端3的视频流，发送端4显示发送端3的视频流，发送端3显示发送端1的视频流，此时，中心控制设备指示其他发送端切换画面，显示与最大音量的音频相关的视频，假设最大音量为音频流4的音量，如图3所示，发送端1显示发送端4的视频流，发送端2显示发送端4的视频流，发送端4仍然显示发送端3的视频流，发送端3显示发送端4的视频流。

目前主流的中心控制设备有多点控制单元(英文全称：Multi-point Control Unit，英文简称：MCU)，多点控制单元未来有可能被其他实现相同功能的设备替代，都在本发明的范围内。

网络可以是IP网络，用于传输中心控制设备与不同会场的发送端间的信号。网络也可以是其他形式的传输网络，本发明在此不做限定。

如图4所示，图1中的中心控制设备和发送端可以以图4中的计算机设备(或系统)的方式来实现。

图4所示为本发明实施例提供的计算机设备示意图。计算机设备100包括至少一个处理器101，通信总线102，存储器103以及至少一个通信接口104。

处理器101可以是一个处理器，也可以是多个处理元件的统称。例如，处理器101可以是一个通用中央处理器(英文全称：Central Processing Unit，英文简称：CPU)，也可以是特定应用集成电路(英文全称：application-specific integrated circuit，英文简称：ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路，例如：一个或多个微处理器(英文全称：digital signal processor，英文简称：DSP)，或，一个或者多个现场可编程门阵列(英文全称：Field Programmable Gate Array，英文简称：FPGA)。

在具体实现中，作为一种实施例，处理器101可以包括一个或多个CPU，例如图4中的 CPU0和CPU1。

在具体实现中，作为一种实施例，计算机设备100可以包括多个处理器，例如图4中的处理器101和处理器108。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

通信总线102可以是工业标准体系结构(英文全称：Industry Standard Architecture，英文简称：ISA)总线、外部设备互连(英文全称：Peripheral Component，英文简称：PCI)总线或扩展工业标准体系结构(英文全称：Extended Industry Standard Architecture，英文简称：EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器103可以是只读存储器(英文全称：read-only memory，英文简称：ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(英文全称：random access memory，英文简称：RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(英文全称：Electrically Erasable Programmable Read-Only Memory，英文简称：EEPROM)、只读光盘(英文全称：Compact Disc Read-Only Memory，英文简称：CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理器相连接。存储器也可以和处理器集成在一起。

其中，所述存储器103用于存储执行本发明方案的应用程序代码，并由处理器101来控制执行。所述处理器101用于执行所述存储器103中存储的应用程序代码。

所述通信接口104，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(英文全称：Wireless Local Area Networks，英文简称：WLAN)等。通信接口104可以包括接收单元实现接收功能，以及发送单元实现发送功能。

在具体实现中，作为一种实施例，图4所示的计算机设备100可以是图1中的发送端。

通信接口104，用于接收中心控制设备发送的包括暂停指示的RTCP报文、包括恢复响应的RTCP报文或包括更新消息的RTCP报文。

所述通信接口104，还用于向中心控制设备发送媒体流，媒体流包括音频流和视频流。

所述通信接口104，还用于向中心控制设备发送包括暂停响应的RTCP报文或包括恢复请求的RTCP报文。

处理器101，用于判断监测到的发送端更新的音频流的音量大于音量阈值。

存储器103，用于存储包括暂停指示的RTCP报文、包括恢复响应的RTCP报文或包括更新消息的RTCP报文中包括的内容，例如，音量阈值或还可混音路数。

计算机设备100还可以包括输出设备105和输入设备106。输出设备105可以是显示设备或音响，显示设备用于显示接收到的视频流，音响用于输出接收到的音频流。输入设备106可以是摄像头或者麦克风，摄像头用于获取会场的景象，即视频流，麦克风用于获取会场的声音，即音频流。

在具体实现中，作为一种实施例，图4所示的计算机设备100可以是图1中的中心控制设备。

通信接口104，用于接收发送端发送的实时传输协议(英文全称：real-time transport protocol，英文简称：RTP)报文，每个所述RTP报文包括音频流的音量，N为大于等于2的自然数。

所述通信接口104，还用于接收发送端发送的包括暂停响应的RTCP报文，以及包括恢复请求的RTCP报文。

所述通信接口104，还用于向发送端发送包括暂停指示的RTCP报文、发送包括恢复响应的RTCP报文，以及包括更新消息的RTCP报文。

处理器101，用于根据音频流的音量确定音量阈值，确定音量小于或等于所述第一音量阈值的音频流。

存储器103，用于存储根据音频流的音量确定音量阈值，以及待处理的音频流和与该音频流相关的视频流。

实施例2

本发明实施例提供一种调整媒体流传输的方法，如图5所示，包括：

步骤201、发送端1至发送端N分别向中心控制设备发送RTP报文。

RTP报文包括音频流和该音频流的音量。

步骤202、中心控制设备接收RTP报文。

中心控制设备接收N个发送端分别发送的RTP报文。

步骤203、中心控制设备获取N个RTP报文。

中心控制设备获取N个发送端发送的RTP报文。每个所述RTP报文包括音频流和音频流的音量，N为大于等于2的自然数。

步骤204、中心控制设备确定第一音量阈值。

具体的，中心控制设备根据N个音频流的音量确定第一音量阈值。

可选的，该第一音量阈值可以为动态阈值，适用于活跃度较高的会议如研讨类，动态阈值可以为一个取值范围内的任意一个值。具体的，首先，中心控制设备按照N路音频流的音量从大到小排序；再从按照N路音频流的音量从大到小排序的音频流中，将从第一路音频流至第M路音频流的前M路音频流确定为中心控制设备需要进行混音的M路音频流，M为大于等于1且小于N的自然数，M表示已混音路数，且M小于或等于预设混音路数，所述M路音频流为已混音的音频流。进一步的，中心控制设备将第M路的音频流的音量与第M+1路的音频流的音量间的音量确定为所述第一音量阈值。

可选的，该第一音量阈值可以为静态阈值，适用于活跃度较低的会议如培训类或宣讲类，静态阈值可设置为基础性地背景噪音。中心控制设备先获取N个音频流的音量的平均值，然后，根据N个音频流的音量的平均值确定所述第一音量阈值。进一步的，中心控制设备确定音量大于所述第一音量阈值的音频流，若音量大于所述第一音量阈值的音频流的个数大于预设混音路数，将音量大于所述第一音量阈值的音频流按照音量从大到小排序，获取预设混音路数的音频流，将预设混音路数的音频流进行混音；若音量大于所述第一音量阈值的音频流的个数小于等于预设混音路数，直接将音量大于所述第一音量阈值的音频流进行混音。

步骤205、中心控制设备确定音量小于或等于第一音量阈值的音频流。

步骤206、中心控制设备向音量小于或等于第一音量阈值的X个音频流对应的发送端中每个发送端发送包括暂停指示的RTCP报文。

所述暂停指示用于指示X个音频流对应的发送端暂停向中心控制设备发送音频流。

进一步的，所述包括暂停指示的RTCP报文还包括阈值，所述阈值用于表示所述第一音量阈值，使得接收到包括暂停指示的RTCP报文的X个音频流对应的发送端中任一发送端根据所述第一音量阈值实时监测音频流的音量，当所述任一发送端的音频流的音量大于所述第一音量阈值时向所述中心控制设备发送包括恢复请求的RTCP报文。

可选的，所述包括暂停指示的RTCP报文还包括剩余最大数，所述剩余最大数用于表示还可混音路数，所述还可混音路数为L-M，L表示预设混音路数，M表示已混音路数，当所述还可混音路数大于0时，使所述X个音频流对应的发送端中任一发送端向所述中心控制设备包括恢复请求RTCP报文；

可选的，所述包括暂停指示的RTCP报文还包括是否关联视频流，所述是否关联视频流用于指示所述X个音频流对应的发送端中任一发送端暂停向所述中心控制设备发送音频流的同时暂停向所述中心控制设备发送与所述音频流关联的视频流。

步骤207、发送端N接收中心控制设备发送的包括暂停指示的RTCP报文。

所述暂停指示用于指示发送端暂停向中心控制设备发送音频流。

步骤208、发送端N向中心控制设备发送包括暂停响应的RTCP报文。

所述暂停响应用于表示发送端已暂停向中心控制设备发送音频流。

步骤209、中心控制设备发送音频流。

中心控制设备再向所有发送端发送音频流，但是中心控制设备不接收发送端N的音频流。

这样一来，中心控制设备接收到N个发送端上报的音频流的音量后，根据N个音频流的音量确定第一音量阈值，并确定音量小于或等于所述第一音量阈值的音频流，向音量小于或等于第一音量阈值的X个音频流对应的发送端中每个发送端发送包括暂停指示的RTCP报文，指示每个发送端暂停向中心控制设备发送音频流。从而中心控制设备根据发送端上报的音频流的音量来确定混音的音频流，进一步向不需要混音的发送端发送暂停指示，使得不需要混音的发送端暂停向中心控制设备发送音频流，能够有效提高发送端与中心控制设备间的处理资源的利用率。

实施例3

本发明实施例提供一种调整媒体流传输的方法，假设有5个发送端参加会议，如图6所示，包括：

步骤301、中心控制设备接收RTP报文。

中心控制设备接收所有发送端发送的RTP报文。示例的，假设中心控制设备接收到发送端1发送的包括第一音频流和第一音频流的音量的RTP报文，还接收到发送端2发送的包括第二音频流和第二音频流的音量的RTP报文，还接收到发送端3发送的包括第三音频流和第三音频流的音量的RTP报文，还接收到发送端4发送的包括第四音频流和第四音频流的音量的RTP报文，还接收到发送端5发送的包括第五音频流和第五音频流的音量的RTP报文。

步骤302、中心控制设备确定第一音量阈值。

中心控制设备按照五路音频流的音量确定第一音量阈值，首先，中心控制设备按照五路音频流的音量从大到小排序。

假设第一音频流的音量为A，第二音频流的音量为B，第三音频流的音量为C，第四音频流的音量为D，第五音频流的音量为E，若E>C>D>B>A，再从按照五路音频流的音量从大到小排序的音频流中，将第五音频流、第三音频流和第四音频流这前三路音频流确定为中心控制设备需要进行混音的三路音频流。需要说明的是，通常，现有技术中最多混音三路，如果混合大于三路的音频流，人耳可能无法识别该多路混音。当然，也可以不限于三路。

进一步的，中心控制设备将第四路的音频流的音量与第二路的音频流的音量间的任一个音量确定为所述第一音量阈值。

步骤303、中心控制设备确定第二音频流的音量等于第一音量阈值，以及第一音频流的音量小于第一音量阈值。

需要说明的是，在一种实现方式中，若已混音路数小于预设混音路数，也可以将音频流的音量等于第一音量阈值的音频流进行混音。

步骤304、中心控制设备向发送端1和发送端2发送包括暂停指示的RTCP报文。

所述暂停指示用于指示发送端1和发送端2暂停向中心控制设备发送音频流。进一步的，包括暂停指示的RTCP报文还包括阈值，所述阈值用于表示所述第一音量阈值，使得接收到包括暂停指示的RTCP报文的X个音频流对应的发送端中任一发送端根据所述第一音量阈值实时监测音频流的音量，当所述任一发送端的音频流的音量大于所述第一音量阈值时向所述中心控制设备发送包括恢复请求的RTCP报文，X为大于等于1且小于N的自然数。

包括暂停指示的RTCP报文还包括剩余最大数和是否关联视频流，所述剩余最大数用于表示还可混音路数，所述还可混音路数为L-M，L表示预设混音路数，M表示已混音路数，当所述还可混音路数大于0时，使所述X个音频流对应的发送端中任一发送端向所述中心控制设备包括恢复请求RTCP报文，所述是否关联视频流用于指示所述X个音频流对应的发送端中任一发送端暂停向所述中心控制设备发送音频流的同时暂停向所述中心控制设备发送与所述音频流关联的视频流。

步骤305、发送端1接收中心控制设备发送的包括暂停指示的RTCP报文。

步骤306、发送端2接收中心控制设备发送的包括暂停指示的RTCP报文。

步骤307、发送端1向中心控制设备发送包括暂停响应的RTCP报文。

所述暂停响应用于表示发送端1已暂停向中心控制设备发送音频流。

步骤308、发送端2向中心控制设备发送包括暂停响应的RTCP报文。

所述暂停响应用于表示发送端2已暂停向中心控制设备发送音频流。

步骤309、中心控制设备发送混音。

其中，中心控制设备将发送端3的第三音频流、发送端4的第四音频流和发送端5的第五音频流的混音发送至发送端1。

中心控制设备将发送端3的第三音频流、发送端4的第四音频流和发送端5的第五音频流的混音发送至发送端2。

中心控制设备将发送端4的第四音频流和发送端5的第五音频流的混音发送至发送端3。

中心控制设备将发送端3的第三音频流和发送端5的第五音频流的混音发送至发送端4。

中心控制设备将发送端3的第三音频流和发送端4的第四音频流的混音发送至发送端5。

这样一来，中心控制设备接收到5个发送端上报的音频流的音量后，根据音频流的音量确定第一音量阈值，并取得发送端1的音量小于第一音量阈值，以及发送端2的音量等于第一音量阈值，向发送端1和发送端2发送包括暂停指示的RTCP报文。从而中心控制设备根据发送端上报的音频流的音量来确定混音的音频流，进一步向不需要混音的发送端发送暂停指示，使得不需要混音的发送端暂停向中心控制设备发送音频流，能够有效提高发送端与中心控制设备间的处理资源的利用率。

上述图6所示的方法步骤具体的可以由图4所示的计算机设备实现。示例的，步骤301所述的接收RTP报文，和步骤304所述的发送RTCP报文，以及步骤305所述的接收RTCP报文，步骤309所述的发送音频流，以及其他发送接收的方法步骤都可以由通信接口104来实现。步骤302所述的确定第一音量阈值，步骤303所述的确定音量小于或等于第一音量阈值的音频流等处理报文的方法步骤可以由处理器101来实现。

如图7所示，在发送端被暂停向中心控制设备发送音频流之后，还可以按照下面的方法来恢复音频流的发送。例如，可以在步骤309之后，暂停发送音频流的发送端可以继续监测音频流的音量，判断音量是否大于音量阈值，从而向中心控制设备发送音频流，具体的还包括以下步骤。

步骤310、发送端1保存第一音量阈值。

步骤311、发送端2保存第一音量阈值。

步骤312、发送端1监测该发送端的音频流的音量。

步骤313、发送端1判断监测到的该发送端更新的音频流的音量大于第一音量阈值。

步骤314、发送端1向中心控制设备发送包括恢复请求的RTCP报文。

所述恢复请求包括发送端1更新的音频流的音量，所述恢复请求用于发送端1请求中心控制设备指示发送端1向中心控制设备发送音频流。

进一步的，包括恢复请求的RTCP报文还包括视频流的关联情况，发送端请求中心控制设备指示该发送端向中心控制设备发送音频流的同时，还请求中心控制设备指示该发送端向中心控制设备发送视频流。与音频流关联的视频流都需要保持同音频流相关的操作。

步骤315、中心控制设备接收发送端1发送的包括恢复请求的RTCP报文。

步骤316、中心控制设备判断发送端1更新的音频流的音量是否大于已混音路数中任一路音频流的音量。

判断发送端1再次上报的更新的音频流的音量是否大于第五音频流的音量、第四音频流的音量和第三音频流的音量。

若发送端1的音频流的音量大于已混音路数中任一路音频流的音量，执行步骤317至步骤322；若发送端1更新的音频流的音量小于或等于所有已混音的音频流的音量，中心控制设备继续按照已混音的音频流发送给发送端，执行步骤309。

假设发送端1再次上报更新的音频流的音量大于第三音频流的音量。

步骤317、中心控制设备根据发送端1更新的音频流的音量和其他发送端的音频流的音量确定第二音量阈值。

具体的确定方法可以参考步骤204中的具体描述。

步骤318、中心控制设备确定第二音频流的音量等于第二音量阈值，以及第三音频流的音量小于第二音量阈值。

步骤319、中心控制设备向发送端3发送包括暂停指示的RTCP报文。

所述中心控制设备向所述音量小于或等于所述第二音量阈值的Y个音频流对应的发送端中每个发送端发送包括暂停指示的RTCP报文。

步骤320、发送端3向中心控制设备发送包括暂停响应的RTCP报文。

需要说明的是，包括暂停响应的RTCP报文还包括第二音量阈值，以便于发送端3保存该第二音量阈值，监测发送端3的音频流的音量，判断监测到的该发送端3更新的音频流的音量大于所述第二音量阈值，向所述中心控制设备发送包括恢复请求的RTCP报文。

步骤321、中心控制设备向发送端1发送包括恢复响应的RTCP报文。

所述恢复响应用于中心控制设备指示该发送端1向中心控制设备发送音频流。

步骤322、中心控制设备发送混音。

其中，中心控制设备接收发送端1发送的更新的音频流后，中心控制设备将发送端4再次上报的音频流和发送端5再次上报的音频流发送至发送端1。

中心控制设备将发送端1更新的音频流、发送端4再次上报的音频流和发送端5再次上报的音频流发送至发送端2。

中心控制设备将发送端1更新的音频流、发送端4再次上报的音频流和发送端5再次上报的音频流发送至发送端3。

中心控制设备将发送端1更新的音频流和发送端5再次上报的音频流混音后发送至发送端4。

中心控制设备发送端1更新的音频流和发送端4再次上报的音频流混音后发送至发送端5。

这样一来，接收到暂停指示的发送端，暂停向中心控制设备发送音频流，并保存音量阈值，通过继续实时监测该发送端的音频流的音量，当音频流的音量大于音量阈值时，向中心控制设备发送恢复请求，以便于向中心控制设备发送更新的音频流，使得发送端能够接收到清楚的混音。

上述图7所示的方法步骤具体的可以由图4所示的计算机设备实现。示例的，步骤310和步骤311所述的保存第一音量阈值由存储器103来实现；步骤314所述的发送RTCP报文和步骤322所述的发送音频流，以及其他发送接收的方法步骤都可以由通信接口104来实现。步骤312所述的监测该发送端的音频流的音量，步骤313所述的判断监测到的该发送端更新的音频流的音量大于第一音量阈值，步骤317所述的确定第二音量阈值等处理报文的方法步骤，可以由处理器101来实现。

如图8所示，在发送端被暂停向中心控制设备发送音频流之后，还可以按照下面的方法来恢复音频流的发送，中心控制设备通过判断混音路数是否还可以再混音，从而向暂停发送音频流的发送端发送恢复响应，具体的还包括以下步骤。

步骤323、中心控制设备判断已混音路数是否小于中心控制设备预设混音路数。

可选的，中心控制设备可能接收到中心控制设备允许发送音频流的发送端发送的离会消息，中心控制设备判断已混音路数小于中心控制设备预设混音路数。

可选的，由于音频流是实时传输，每时每刻的音频流的音量大小可能不同，中心控制设备可能接收到发送端发送的音频流的音量小于音量阈值，则不允许该发送端发送音频流，中心控制设备判断已混音路数小于中心控制设备预设混音路数。

当所述已混音路数小于所述预设混音路数，执行步骤324或步骤326。

需要说明的是，当发送端1的音频流的音量大于发送端2的音频流的音量，且发送端1的音频流的音量大于第一音量阈值，执行步骤324。同理，当发送端2的音频流的音量大于发送端1的音频流的音量，且发送端2的音频流的音量大于第一音量阈值，执行步骤326。

当所述已混音路数等于所述预设混音路数，执行步骤309，继续发送混音。

步骤324、中心控制设备向发送端1发送包括恢复响应的RTCP报文。

所述恢复响应用于中心控制设备指示该发送端向中心控制设备发送音频流。

步骤325、中心控制设备发送混音。

步骤326、中心控制设备向发送端2发送包括恢复响应的RTCP报文。

步骤327、中心控制设备向发送端2、发送端4和发送端5发送混音。

其中，中心控制设备接收发送端2发送的更新的音频流后，中心控制设备将发送端2更新的音频流、发送端4再次上报的音频流和发送端5再次上报的音频流发送至发送端1。

中心控制设备将发送端4再次上报的音频流和发送端5再次上报的音频流发送至发送端2。

中心控制设备将发送端2更新的音频流、发送端4再次上报的音频流和发送端5再次上报的音频流发送至发送端3。

中心控制设备将发送端2更新的音频流和发送端5再次上报的音频流混音后发送至发送端4。

中心控制设备发送端2更新的音频流和发送端4再次上报的音频流混音后发送至发送端5。

需要说明的是，在步骤316之前，可以先执行步骤323，中心控制设备判断已混音路数是否小于中心控制设备预设混音路数，当已混音路数等于预设混音路数，中心控制设备再判断所述发送端的音频流的音量是否大于已混音路数中任一路音频流的音量。

这样一来，接收到暂停指示的发送端，暂停向中心控制设备发送音频流后，若中心控制设备判断已混音路数小于中心控制设备预设混音路数，主动向暂停向中心控制设备发送音频流的发送端发送包括恢复响应的RTCP报文，来指示该发送端向中心控制设备发送音频流，提高发送端与中心控制设备间的处理资源的利用率。

上述图8所示的方法步骤具体的可以由图4所示的计算机设备实现。示例的，步骤324 所述的发送RTCP报文和步骤325所述的发送音频流，以及其他发送接收的方法步骤都可以由通信接口104来实现。步骤323所述的判断已混音路数是否小于中心控制设备预设混音路数等处理报文的方法步骤，可以由处理器101来实现。

如图9所示，在发送端被暂停向中心控制设备发送音频流之后，还可以按照下面的方法来发送更新消息。例如，可以在步骤309之后，所述方法还包括以下步骤。

步骤328、中心控制设备向发送端1发送包括更新消息的RTCP报文。

所述更新消息包括第三音量阈值和还可混音路数，所述还可混音路数为预设混音路数与已混音路数之差。

步骤329、中心控制设备向发送端2发送包括更新消息的RTCP报文。

步骤330、发送端1接收中心控制设备发送的包括更新消息的RTCP报文。

步骤331、发送端2接收中心控制设备发送的包括更新消息的RTCP报文。

步骤332、发送端1保存第三音量阈值。

步骤333、发送端1监测该发送端的音频流的音量。

当监测到的该发送端1更新的音频流的音量大于第三音量阈值时，或，当还可混音路数大于0时，执行步骤334。

步骤334、发送端1向中心控制设备发送包括恢复请求的RTCP报文。

所述恢复请求包括所述发送端更新的音频流的音量，所述恢复请求用于发送端请求中心控制设备指示该发送端向中心控制设备发送音频流。

步骤335、中心控制设备接收发送端1发送的包括恢复请求的RTCP报文。

中心控制设备接收发送端1发送的包括恢复请求的RTCP报文之后的详细步骤可以参考步骤316及以后的步骤所述，本发明在此不再赘述。

同理，发送端2也可以执行步骤332至步骤334。

这样一来，接收到暂停指示的发送端，暂停向中心控制设备发送音频流后，中心控制设备还可以主动向暂停向中心控制设备发送音频流的发送端发送包括更新消息的RTCP报文，该更新消息的RTCP报文包括第三音量阈值和还可混音路数，使得发送端通过判断该发送端更新的音频流的音量大于第三音量阈值时，或，当还可混音路数大于0时，再向中心控制设备发送音频流，从而提高发送端与中心控制设备间的处理资源的利用率。

上述图9所示的方法步骤具体的可以由图4所示的计算机设备实现。示例的，步骤332所述的保存第三音量阈值由存储器103来实现；步骤328所述的发送RTCP报文和步骤330所述的接收RTCP报文，以及其他发送接收的方法步骤都可以由通信接口104来实现。步骤333所述的监测该发送端的音频流的音量等处理报文的方法步骤，可以由处理器101来实现。

上述方法，中心控制设备向发送端及时发送更新消息，使得发送端能够恢复发送音频流。实际应用中，可以周期性的发送更新消息，周期可以根据实际情况自行设定，这里不做限定。

如图10所示，本发明提供一种RTCP报文结构示意图，包括：

目标同步信源标识符(Target SSRC)，占32位，该标识符是随机选择的，参加同一视频会议的两个同步信源不能有相同的SSRC。

类型(Type)用于表示RTCP报文为暂停、恢复、更新或响应中那种类型的报文。该包括暂停指示的RTCP报文的类型表示暂停。

版本(Res)用于表示协议的版本。

参数长度(Parameter Len)用于表示RTCP报文的长度。

当RTCP报文为包括暂停指示的RTCP报文，该RTCP报文还包括暂停标识(Pause ID)用于表示暂停发送音频流的发送端的标识。

该包括暂停指示的RTCP报文还包括阈值类型(Type Threshold)用于表示动态阈值或静态阈值。阈值(Threshold Value)用于表示音量阈值。

可选的，该包括暂停指示的RTCP报文还包括剩余最大数(Remaining Mix Num)用于表示还可混音路数，表示中心控制设备能支持的最大混音路数减去实际已经混音路数。

可选的，该包括暂停指示的RTCP报文还包括是否关联视频流(Is Related Video)用于表示中心控制设备是否需要对音频流关联的视频流做同音频流相同的暂停或恢复操作，可以用是或否表示。是就表示需要对音频流关联的视频流做同音频流相同的暂停或恢复操作；否就表示不需要对音频流关联的视频流做同音频流相同的暂停或恢复操作。

需要说明的是，暂停标识、阈值类型、阈值、剩余最大数和是否关联视频流可以在RTCP报文的保留位设置。

进一步，当RTCP报文为包括恢复请求的RTCP报文，该包括恢复请求的RTCP报文还包括音频流的音量(Audio Level)用于表示音频流的音量值。

实施例4

本发明实施例提供一种中心控制设备30，如图11所示，包括：

接收单元301，用于获取N个发送端发送的实时传输协议RTP报文，每个所述RTP报文包括音频流的音量，N为大于等于2的自然数；

处理单元302，用于根据N个音频流的音量确定第一音量阈值；

所述处理单元302，还用于确定音量小于或等于所述第一音量阈值的音频流；

发送单元303，用于向所述音量小于或等于所述第一音量阈值的X个音频流对应的发送端中每个发送端发送包括暂停指示的实时传输控制协议RTCP报文，X为大于等于1且小于N的自然数，所述暂停指示用于指示所述X个音频流对应的发送端暂停向中心控制设备发送音频流。

在本实施例中，中心控制设备30是以功能单元的形式来呈现。这里的“单元”可以指特定应用集成电路(英文全称：application-specific integrated circuit，英文简称：ASIC)，电路，执行一个或多个软件或固件程序的处理器和存储器，集成逻辑电路，和/或其他可以提供上述功能的器件。在一个简单的实施例中，本领域的技术人员可以想到中心控制设备30可以采用图11所示的形式。接收单元301,处理单元302和发送单元303可以通过图4的计算机设备来实现，具体的，接收单元301，和发送单元303可以由通信接口104实现，处理单元302可以由处理器101实现。

实施例5

本发明实施例提供一种发送端40，如图12所示，包括：

发送单元401，用于向中心控制设备发送实时传输协议RTP报文，所述RTP报文包括音频流的音量；

接收单元402，用于接收所述中心控制设备发送的包括暂停指示的实时传输控制协议RTCP报文，所述暂停指示用于指示发送端暂停向中心控制设备发送音频流；

所述发送单元401，还用于向所述中心控制设备发送包括暂停响应的RTCP报文，所述暂停响应用于表示发送端已暂停向中心控制设备发送音频流。

这样一来，发送端向中心控制设备发送音频流和音频流的音量，中心控制设备接收到多个发送端上报的音频流的音量后，根据音频流的音量确定混音路数以及音量阈值，当音频流的音量小于等于音量阈值，向该音频流所对应的发送端发送RTCP报文，该RTCP报文包括暂停指示，指示发送端暂停向中心控制设备发送音频流，发送端接收到中心控制设备发送的暂停指示，后暂停向中心控制设备发送音频流。从而使得不需要混音的发送端暂停向中心控制设备发送音频流，能够有效提高发送端与中心控制设备间的处理资源的利用率。

所述包括暂停指示的RTCP报文还包括第一音量阈值，如图12所示，所述发送端40还包括：

存储单元403，用于保存所述第一音量阈值；

监测单元404，用于监测该发送端的音频流的音量；

处理单元405，用于判断监测到的该发送端更新的音频流的音量大于所述第一音量阈值；

所述发送单元401，还用于向所述中心控制设备发送包括恢复请求的RTCP报文，所述恢复请求包括所述发送端更新的音频流的音量，所述恢复请求用于请求中心控制设备指示发送端向中心控制设备发送音频流。

所述接收单元402，还用于接收所述中心控制设备发送的包括更新消息的RTCP报文，所述更新消息包括第二音量阈值和还可混音路数；

所述存储单元403，还用于保存所述第二音量阈值；

所述监测单元404，还用于监测该发送端的音频流的音量；

所述处理单元405，还用于判断监测到的该发送端更新的音频流的音量大于所述第二音量阈值。

在本实施例中，发送端40是以功能单元的形式来呈现。这里的“单元”可以指特定应用集成电路(英文全称：application-specific integrated circuit，英文简称：ASIC)，电路，执行一个或多个软件或固件程序的处理器和存储器，集成逻辑电路，和/或其他可以提供上述功能的器件。在一个简单的实施例中，本领域的技术人员可以想到发送端40可以采用图12所示的形式。发送单元401、接收单元402、存储单元403、监测单元404和处理单元405可以通过图4的计算机设备来实现，具体的，接收单元402，和发送单元401可以由通信接口104实现，处理单元302和监测单元404可以由处理器101实现。

本发明实施例还提供了一种计算机存储介质，用于储存为上述图11所示的中心控制设备所用的计算机软件指令，其包含用于执行上述方法实施例所设计的程序。通过执行存储的程序，可以实现控制音频流的暂停。

本发明实施例还提供了一种计算机存储介质，用于储存为上述图12所示的发送端所用的计算机软件指令，其包含用于执行上述方法实施例所设计的程序。通过执行存储的程序，可以实现控制音频流的暂停。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random-Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

一种调整媒体流传输的方法，其特征在于，包括：

中心控制设备获取N个发送端发送的实时传输协议RTP报文，每个所述RTP报文包括音频流的音量，N为大于等于2的自然数；

所述中心控制设备根据N个音频流的音量确定第一音量阈值；

所述中心控制设备确定音量小于或等于所述第一音量阈值的音频流；

所述中心控制设备向所述音量小于或等于所述第一音量阈值的X个音频流对应的发送端中每个发送端发送包括暂停指示的实时传输控制协议RTCP报文，X为大于等于1且小于N的自然数，所述暂停指示用于指示所述X个音频流对应的发送端暂停向中心控制设备发送音频流。
根据权利要求1所述的方法，其特征在于，所述中心控制设备根据N个音频流的音量确定第一音量阈值包括：

所述中心控制设备按照N路音频流的音量从大到小排序；

所述中心控制设备从按照N路音频流的音量从大到小排序的音频流中，将从第一路至第M路的前M路确定为M路音频流，M为大于等于1且小于N的自然数，M表示已混音路数，且M小于或等于预设混音路数L，所述M路音频流为已混音的音频流；

所述中心控制设备将第M路的音频流的音量与第M+1路的音频流的音量间的音量确定为所述第一音量阈值。
根据权利要求1所述的方法，其特征在于，所述中心控制设备根据N个音频流的音量确定第一音量阈值包括：

所述中心控制设备根据N个音频流的音量的平均值确定所述第一音量阈值。
根据权利要求1-3任一项权利要求所述的方法，其特征在于，所述包括暂停指示的RTCP报文还包括阈值，所述阈值用于表示所述第一音量阈值，使得接收到包括暂停指示的RTCP报文的X个音频流对应的发送端中任一发送端根据所述第一音量阈值实时监测音频流的音量，当所述任一发送端的音频流的音量大于所述第一音量阈值时向所述中心控制设备发送包括恢复请求的RTCP报文。
根据权利要求1-4任一项权利要求所述的方法，其特征在于，所述包括暂停指示的RTCP报文还包括剩余最大数，所述剩余最大数用于表示还可混音路数，所述还可混音路数为L-M，L表示预设混音路数，M表示已混音路数，当所述还可混音路数大于0时，使所述X个音频流对应的发送端中任一发送端向所述中心控制设备包括恢复请求RTCP报文。
根据权利要求1-5任一项权利要求所述的方法，其特征在于，所述包括暂停指示的RTCP报文还包括是否关联视频流，所述是否关联视频流用于指示所述X个音频流对应的发送端中任一发送端暂停向所述中心控制设备发送音频流的同时暂停向所述中心控制设备发送与所述音频流关联的视频流。
根据权利要求2-6任一项权利要求所述的方法，其特征在于，在所述中心控制设备向所述音量小于或等于所述第一音量阈值的X个音频流对应的发送端中每个发送端发送包括暂停指示的RTCP报文之后，所述方法还包括：

所述中心控制设备接收第一发送端发送的包括恢复请求的RTCP报文，所述恢复请求包括所述第一发送端更新的音频流的音量，所述恢复请求用于请求中心控制设备指示第一发送端向中心控制设备发送音频流，所述第一发送端为X个音频流对应的发送端中的任一发送端；

所述中心控制设备判断所述第一发送端更新的音频流的音量是否大于已混音路数中任一路音频流的音量；

若所述第一发送端更新的音频流的音量大于已混音路数中任一路音频流的音量，所述中心控制设备根据所述第一发送端更新的音频流的音量和N-1发送端的音频流的音量确定第二音量阈值；

所述中心控制设备确定音量小于或等于所述第二音量阈值的音频流；

所述中心控制设备向所述音量小于或等于所述第二音量阈值的Y个音频流对应的发送端中每个发送端发送包括暂停指示的RTCP报文，Y为大于等于1且小于N的自然数。
一种调整媒体流传输的方法，其特征在于，包括：

发送端向中心控制设备发送实时传输协议RTP报文，所述RTP报文包括音频流的音量；

所述发送端接收所述中心控制设备发送的包括暂停指示的实时传输控制协议RTCP报文，所述暂停指示用于指示发送端暂停向中心控制设备发送音频流；

所述发送端向所述中心控制设备发送包括暂停响应的RTCP报文，所述暂停响应用于表示发送端已暂停向中心控制设备发送音频流。
根据权利要求8所述的方法，其特征在于，所述包括暂停指示的RTCP报文还包括第一音量阈值，所述方法还包括：

所述发送端保存所述第一音量阈值；

所述发送端监测该发送端的音频流的音量；

所述发送端判断监测到的该发送端更新的音频流的音量大于所述第一音量阈值；

所述发送端向所述中心控制设备发送包括恢复请求的RTCP报文，所述恢复请求包括所述发送端更新的音频流的音量，所述恢复请求用于请求中心控制设备指示发送端向中心控制设备发送音频流。
根据权利要求8或9所述的方法，其特征在于，所述包括暂停指示的RTCP报文还包括还可混音路数，包括恢复响应的RTCP报文还包括还可混音路数，所述还可混音路数为预设混音路数与已混音路数之差，所述方法还包括：

所述发送端判断所述还可混音路数大于0；

所述发送端向所述中心控制设备发送包括恢复请求的RTCP报文。
根据权利要求8-10任一项权利要求所述的方法，其特征在于，所述包括暂停指示的RTCP报文还包括是否关联视频流，所述是否关联视频流用于指示发送端暂停向所述中心控制设备发送音频流的同时暂停向所述中心控制设备发送与所述音频流关联的视频流。
一种中心控制设备，其特征在于，包括：

接收单元，用于获取N个发送端发送的实时传输协议RTP报文，每个所述RTP报文包括音频流的音量，N为大于等于2的自然数；

处理单元，用于根据N个音频流的音量确定第一音量阈值；

所述处理单元，还用于确定音量小于或等于所述第一音量阈值的音频流；

发送单元，用于向所述音量小于或等于所述第一音量阈值的X个音频流对应的发送端中每个发送端发送包括暂停指示的实时传输控制协议RTCP报文，X为大于等于1且小于N的自然数，所述暂停指示用于指示所述X个音频流对应的发送端暂停向中心控制设备发送音频流。
根据权利要求12所述的中心控制设备，其特征在于，所述处理单元，具体用于：

按照N路音频流的音量从大到小排序；

从按照N路音频流的音量从大到小排序的音频流中，将从第一路至第M路的前M路确定为M路音频流，M为大于等于1且小于N的自然数，M表示已混音路数，且M小于或等于预设混音路数L，所述M路音频流为已混音的音频流；

将第M路的音频流的音量与第M+1路的音频流的音量间的音量确定为所述第一音量阈值。
根据权利要求12所述的中心控制设备，其特征在于，所述处理单元，具体用于：

根据N个音频流的音量的平均值确定所述第一音量阈值。
根据权利要求12-14任一项权利要求所述的中心控制设备，其特征在于，所述包括暂停指示的RTCP报文还包括阈值，所述阈值用于表示所述第一音量阈值，使得接收到包括暂停指示的RTCP报文的X个音频流对应的发送端中任一发送端根据所述第一音量阈值实时监测音频流的音量，当所述任一发送端的音频流的音量大于所述第一音量阈值时向所述中心控制设备发送包括恢复请求的RTCP报文。
根据权利要求12-15任一项权利要求所述的中心控制设备，其特征在于，所述包括暂停指示的RTCP报文还包括剩余最大数，所述剩余最大数用于表示还可混音路数，所述还可混音路数为L-M，L表示预设混音路数，M表示已混音路数，当所述还可混音路数大于0时，使所述X个音频流对应的发送端中任一发送端向所述中心控制设备包括恢复请求RTCP报文。
根据权利要求12-16任一项权利要求所述的中心控制设备，其特征在于，所述包括暂停指示的RTCP报文还包括是否关联视频流，所述是否关联视频流用于指示所述X个音频流对应的发送端中任一发送端暂停向所述中心控制设备发送音频流的同时暂停向所述中心控制设备发送与所述音频流关联的视频流。
根据权利要求13-17任一项权利要求所述的中心控制设备，其特征在于，

所述接收单元，还用于接收第一发送端发送的包括恢复请求的RTCP报文，所述恢复请求包括所述第一发送端更新的音频流的音量，所述恢复请求用于请求中心控制设备指示第一发送端向中心控制设备发送音频流，所述第一发送端为音频流对应的发送端中的任一发送端；

所述处理单元，还用于判断所述第一发送端更新的音频流的音量是否大于已混音路数中任一路音频流的音量；

若所述第一发送端更新的音频流的音量大于已混音路数中任一路音频流的音量，所述处理单元，还用于根据所述第一发送端更新的音频流的音量和N-1发送端的音频流的音量确定第二音量阈值；

所述处理单元，还用于确定音量小于或等于所述第二音量阈值的音频流；

所述发送单元，还用于向所述音量小于或等于所述第二音量阈值的Y个音频流对应的发送端中每个发送端发送包括暂停指示的RTCP报文，Y为大于等于1且小于N的自然数。
一种发送端，其特征在于，包括：

发送单元，用于向中心控制设备发送实时传输协议RTP报文，所述RTP报文包括音频流的音量；

接收单元，用于接收所述中心控制设备发送的包括暂停指示的实时传输控制协议RTCP报文，所述暂停指示用于指示发送端暂停向中心控制设备发送音频流；

所述发送单元，还用于向所述中心控制设备发送包括暂停响应的RTCP报文，所述暂停响应用于表示发送端已暂停向中心控制设备发送音频流。
根据权利要求19所述的发送端，其特征在于，所述包括暂停指示的RTCP报文还包括第一音量阈值，所述发送端还包括：

存储单元，用于保存所述第一音量阈值；

监测单元，用于监测该发送端的音频流的音量；

处理单元，用于判断监测到的该发送端更新的音频流的音量大于所述第一音量阈值；

所述发送单元，还用于向所述中心控制设备发送包括恢复请求的RTCP报文，所述恢复请求包括所述发送端更新的音频流的音量，所述恢复请求用于请求中心控制设备指示发送端向中心控制设备发送音频流。
根据权利要求19或20所述的发送端，其特征在于，所述包括暂停指示的RTCP报文还包括还可混音路数，包括恢复响应的RTCP报文还包括还可混音路数，所述还可混音路数为预设混音路数与已混音路数之差，

所述处理单元，还用于判断所述还可混音路数大于0；

所述发送单元，还用于向所述中心控制设备发送包括恢复请求的RTCP报文。
根据权利要求19-21任一项权利要求所述的发送端，其特征在于，所述包括暂停指示的RTCP报文还包括是否关联视频流，所述是否关联视频流用于指示发送端暂停向所述中心控制设备发送音频流的同时暂停向所述中心控制设备发送与所述音频流关联的视频流。