WO2012155660A1

WO2012155660A1 - 一种远程呈现方法、终端和系统

Info

Publication number: WO2012155660A1
Application number: PCT/CN2012/072751
Authority: WO
Inventors: 叶小阳; 王东; 吴永明
Original assignee: 中兴通讯股份有限公司
Priority date: 2011-07-08
Filing date: 2012-03-21
Publication date: 2012-11-22
Also published as: CN102868873B; EP2731330A1; CN102868873A; US9172912B2; EP2731330A4; US20140146129A1

Description

一种远程呈现方法、终端和系统技术领域

本发明涉及远程呈现（telepresence )技术，尤其涉及一种远程呈现方法、终端和系统。背景技术

远程呈现是一种高级的远程视频会议系统。远程呈现以其真实的临场感深受高端用户的喜爱，在远程呈现系统中，听声辨位、真身大小、目艮神交流直接关系到用户是否能够有身临其境的感受，因此是衡量远程呈现系统非常重要的技术指标。

在传统视频会议系统中，一个视频会议终端除了辅流视频外，通常还具备以下功能：编码并发送一路音频和 /或一路视频，接收并解码输出一路音频和 /或视频。由于声音的输入源和输出只有一路，因此用户无法感受到声音是从会场的哪个方位发出。由于视频的输入源和输出只有一路，因此本端的采集编码画面需要捕捉会场整体画面；如果是多点会议，则只能选看某一会场或者多个远端会场的拼接画面，无论是发送还是接收的视频都无法达到真人大小的要求。

而远程呈现系统要求的用户体验是有多路音、视频码流，提供各路音频的方位信息达到听声辨位；根据推算需要 1 : 1显示远端参会者的图像，则往往一个会场需要多路视频输入和多路视频输出。现有的一些远程呈现终端通过传统的视频会议终端集成而来，在单个会场部署多个视频会议终端，且每个视频会议终端可以分别连接有一个音、视频输入 /输出设备，再通过音、视频输入 /输出设备的部署组装技术，基本达到听声辨位和真人大小的效果。但是这种多个视频会议终端集成的方式（通常在单个会场部署多个视频会议终端，需要对每个视频会议终端分别进行呼叫）在解决单一会议号呼叫、码流同步等方面有较大困难；更重要的是，多个终端集成使得系统部署十分复杂，必须专业的集成和部署人员才能完成，使用过程中出现细微问题都必须有专业人员进行现场维护，从而给远程呈现这种高端应用的推广造成很大障碍。且由于部分视频会议终端的功能并未在集成系统中完全被使用，因此会造成一定程度上的资源浪费。另外，由于集成方案的复杂和非标准化，这种方案也造成了不同厂商部署的远程呈现系统之间要实现互通也变得极其困难。发明内容

有鉴于此，本发明的主要目的在于提供一种远程呈现方法、终端和系统，以解决现有远程呈现系统的部署复杂，且在解决单一会议号呼叫、码流同步方面存在较大困难的问题。

为达到上述目的，本发明的技术方案是这样实现的：

本发明提供了一种远程呈现系统，该系统包括：远程呈现终端，以及与所述远程呈现终端相连的多路音频输入 /输出设备、和 /或多路视频输入 / 输出设备，还包括与所述远程呈现终端互通的远端端点；

所述远程呈现终端，具有多路音、视频输入 /输出接口，连接所述多路音频输入 /输出设备和 /或多路视频输入 /输出设备，用于与所述远端端点之间建立会话，进行多路音频和 /或视频码流输入 /输出位置信息交互以及媒体能力协商，并建立媒体逻辑通道；还用于对所述多路音频输入设备和 /或多路视频输入设备的输入码流进行编码，并基于建立的媒体逻辑通道，根据所述码流对应的输入 /输出位置发送给所述远端端点，接收来自所述远端端点的多路音频和 /或视频码流，进行解码并根据所述码流对应的输入 /输出位置转给自身对应位置的音频输出设备和 /或视频输出设备进行播放；

所述多路音频输入设备，用于将采集的音频数据输入所述远程呈现终端；

所述多路视频输入设备，用于将采集的视频数据输入所述远程呈现终端；

所述多路音频输出设备，用于将远程呈现终端解码所得的音频数据输出；

所述多路视频输出设备，用于将远程呈现终端解码所得的视频数据输出；

所述远端端点，用于与所述远程呈现终端进行多路音频和 /或视频码流输入 /输出位置信息交互和媒体能力协商，建立媒体逻辑通道，并基于建立的媒体逻辑通道与所述远程呈现终端进行音频和 /或视频码流的交互。

所述进行多路音频和 /或视频码流输入 /输出位置信息交互以及媒体能力协商包括：

所述远程呈现终端向所述远端端点发送本端的能力集，其中包括本端的媒体编解码能力和本端远程呈现终端的音、视频码流输入 /输出位置信息；接收所述远端端点的能力集，其中包括远端的媒体编解码能力和音、视频码流输入 /输出位置信息。

所述媒体逻辑通道包括发送通道和接收通道，其中，

多路音频码流通过一个发送通道发送，并通过一个接收通道接收；和 / 或，多路视频码流通过一个发送通道发送，并通过一个接收通道接收；各路音频和 /或视频码流通过数据包头信息进行区分，所述包头信息包括：码流类型、码流对应的输入位置信息和输出位置信息。

所述媒体逻辑通道包括发送通道和接收通道，其中，

多路音频码流分别通过不同的发送通道发送，并通过不同的接收通道接收；和 /或，多路视频码流分别通过不同的发送通道发送，并通过不同的接收通道接收；不同的发送通道分别与各路音频和 /或视频码流的类型、以及输入 /输出位置信息建立对应关系；不同的接收通道分别与各路音频和 /或视频码流的类型、以及输入 /输出位置信息建立对应关系。

所述远程呈现终端还用于，

根据协商的媒体编解码能力，本端的发送地址和远端的接收地址，待建立通道对应的远端音频或视频码流输出位置信息，以及本端音频或视频码流输入位置信息，建立发送通道；

根据协商的媒体编解码能力，远端的发送地址和本端的接收地址，待建立通道对应的远端音频或视频码流输入位置信息，以及本端的音频或视频码流输出位置信息，建立接收通道。

所述远程呈现终端还用于，对发送和 /或接收的多路音频和 /或视频码流进行同步处理。

所述远端端点为多点控制单元（MCU )或远端远程呈现终端。

本发明还提供了一种远程呈现终端，具有多路音、视频输入 /输出接口，用于连接多路音频输入 /输出设备和 /或多路视频输入 /输出设备，该终端包括：协议信令处理模块、媒体编解码模块和媒体传送模块；其中，

所述协议信令处理模块，用于与远端端点之间建立会话，进行多路音频和 /或视频码流输入 /输出位置信息交互以及媒体能力协商，并建立媒体逻辑通道；

所述媒体编解码模块，用于对所述多路音频输入设备和 /或多路视频输入设备的输入码流进行编码，并提供给所述媒体传送模块；对所述媒体传送模块提供的来自远端端点的音频和 /或视频码流进行解码，并根据所述码流对应的输入 /输出位置转给对应位置的音频输出设备和 /或视频输出设备进行播放；

所述媒体传送模块，用于将所述码流根据对应的输入 /输出位置发送给所述远端端点；接收来自所述远端端点的音频和 /或视频码流，根据所述码流对应的输入 /输出位置，提供给所述媒体编解码模块进行解码。

所述协议信令处理模块向所述远端端点发送本端远程呈现终端的能力集，其中包括本端的媒体编解码能力和本端远程呈现终端的音、视频码流输入 /输出位置信息；接收所述远端端点的能力集，其中包括远端的媒体编解码能力和音、视频码流输入 /输出位置信息。

所述媒体逻辑通道包括发送通道和接收通道，其中，

多路音频码流分别通过不同的发送通道发送，并通过不同的接收通道接收；和 /或，多路视频码流分别通过不同的发送通道发送，并通过不同的接收通道接收；

不同的发送通道分别与各路音频和 /或视频码流的类型、以及输入 /输出位置信息建立对应关系；不同的接收通道分别与各路音频和 /或视频码流的类型、以及输入 /输出位置信息建立对应关系。

所述协议信令处理模块还用于，

所述媒体传送模块还用于，对发送和 /或接收的多路音频和 /或视频码流进行同步处理。

本发明还提供了一种远程呈现方法，远程呈现终端具有多路音、视频输入 /输出接口，用于连接多路音频输入 /输出设备和 /或多路视频输入 /输出设备，该方法包括：

远程呈现终端与远端端点之间建立会话，进行多路音频和 /或视频码流输入 /输出位置信息交互以及媒体能力协商，并建立媒体逻辑通道；

所述远程呈现终端对所述多路音频输入设备和 /或多路视频输入设备的输入码流进行编码，并基于建立的媒体逻辑通道，根据所述码流对应的输入 /输出位置发送给所述远端端点；接收来自所述远端端点的多路音频和 / 或视频码流，进行解码并根据所述码流对应的输入 /输出位置转给自身对应位置的音频输出设备和 /或视频输出设备进行播放。

所述媒体逻辑通道包括发送通道和接收通道，其中，

多路音频码流通过一个发送通道发送，并通过一个接收通道接收；和 / 或，多路视频码流通过一个发送通道发送，并通过一个接收通道接收；各路音频和 /或视频码流通过数据包头信息进行区分，所述包头信息包括：码流类型、码流对应的输入位置信息和输出位置信息。所述媒体逻辑通道包括发送通道和接收通道，其中，

所述建立媒体逻辑通道，具体为：

该方法还包括：所述远程呈现终端对发送和 /或接收的多路音频和 /或视频码流进行同步处理。

所述远端端点为 MCU或远端远程呈现终端。

本发明所提供的一种远程呈现方法、终端和系统，由于一个远程呈现终端具备多路音频输入 /输出接口、多路视频输入 /输出接口，能够实现与多路音、视频输入 /输出设备的相连，因此，对单一会场只需要部署一个远程呈现终端即可处理多路音、视频码流，部署简单，且能够实现单一会议号呼叫；由于对单一会场实现多路音、视频数据的采集，其数据来源更加精确，由于每路音、视频输入设备采集相对固定范围的数据，因此能够实现远程呈现系统所要求的听声辨位和真人大小的效果。附图说明

图 1为本发明实施例的一种远程呈现系统的结构示意图；

图 2为本发明实施例一的一种远程呈现方法的码流接收流程的示意图；图 3为本发明实施例二的一种远程呈现方法的码流发送流程的示意图；图 4为本发明实施例三的一种远程呈现方法的码流接收流程的示意图；图 5为本发明实施例四的一种远程呈现方法的码流发送流程的示意图；图 6为本发明实施例的一种远程呈现方法的流程图。具体实施方式

下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。本发明所提供的一种远程呈现系统，如图 1 所示，主要包括：远程呈现终端，以及与远程呈现终端相连的多路音频输入 /输出设备、和 /或多路视频输入 /输出设备，还包括与远程呈现终端互通的远端端点；

远程呈现终端，具有多路音、视频输入 /输出接口，连接多路音频输入 / 输出设备和 /或多路视频输入 /输出设备，能完成多路音、视频码流的采集输入、编解码、输出播放、同步处理等；用于与远端端点之间建立会话，进行多路音频和 /或视频码流输入 /输出位置信息交互以及媒体能力协商，并建立媒体逻辑通道；还用于对多路音频输入设备和 /或多路视频输入设备的输入码流进行编码，并基于建立的媒体逻辑通道，根据码流对应的输入 /输出位置发送给远端端点，接收来自远端端点的多路音频和 /或视频码流，进行解码并根据码流对应的输入 /输出位置转给自身对应位置的音频输出设备和 /或视频输出设备进行播放；

多路音频输入设备，用于将音频采集终端所采集的音频数据输入远程呈现终端；

多路视频输入设备，用于将视频采集终端所采集的视频数据输入远程呈现终端；多路音频输出设备，用于将远程呈现终端解码所得的音频数据输出到相应的音频设备进行播放；

多路视频输出设备，用于将远程呈现终端解码所得的视频数据输出到相应的视频设备进行播放；

远端端点，用于与远程呈现终端进行多路音频和 /或视频码流输入 /输出位置信息交互和媒体能力协商，建立媒体逻辑通道，并基于建立的媒体逻辑通道与远程呈现终端进行音频和 /或视频码流的交互。

其中，进行多路音频和 /或视频码流输入 /输出位置信息交互以及媒体能力协商包括：远程呈现终端向远端端点发送本端的能力集，其中包括本端的媒体编解码能力和本端远程呈现终端的音、视频码流输入 /输出位置信息；接收远端端点的能力集，其中包括远端的媒体编解码能力和音、视频码流输入 /输出位置信息。

所述媒体逻辑通道包括发送通道和接收通道，其中，

可以多路音频码流通过一个发送通道发送，并通过一个接收通道接收；和 /或，多路视频码流通过一个发送通道发送，并通过一个接收通道接收；各路音频和 /或视频码流通过数据包头信息进行区分，所述包头信息至少包括：码流类型、码流对应的输入位置信息和输出位置信息。

也可以多路音频码流分别通过不同的发送通道发送，并通过不同的接收通道接收；和 /或，多路视频码流分别通过不同的发送通道发送，并通过不同的接收通道接收；

所述远程呈现终端还可用于，

远程呈现终端还用于，对发送和 /或接收的多路音频和 /或视频码流进行同步处理。

较佳的，远程呈现终端还可以包括：协议信令处理模块、媒体编解码模块和媒体传送模块；其中，

协议信令处理模块，用于与远端端点之间建立会话，进行多路音频和 / 或视频码流输入 /输出位置信息交互以及媒体能力协商，并建立媒体逻辑通道；

媒体编解码模块，用于对多路音频输入设备和 /或多路视频输入设备的输入码流进行编码，并提供给媒体传送模块；对媒体传送模块提供的来自远端端点的音频和 /或视频码流进行解码，并根据码流对应的输入 /输出位置转给对应位置的音频输出设备和 /或视频输出设备进行播放；

媒体传送模块，负责接收和发送多路音频和 /或视频码流，用于将码流根据对应的输入 /输出位置发送给远端端点；接收来自远端端点的音频和 / 或视频码流，根据码流对应的输入 /输出位置，提供给媒体编解码模块进行解码。

所述进行多路音频和 /或视频码流输入 /输出位置信息交互以及媒体能力协商包括：协议信令处理模块向远端端点发送本端远程呈现终端的能力集，其中包括本端的媒体编解码能力和本端远程呈现终端的音、视频码流输入 /输出位置信息；接收远端端点的能力集，其中包括远端的媒体编解码能力和音、视频码流输入 /输出位置信息。所述协议信令处理模块还用于，

媒体传送模块还用于，对发送和 /或接收的多路音频和 /或视频码流进行同步处理。

需要说明的是，在具体实施过程中，上述媒体编解码模块既可以作为远程呈现终端的内部结构进行部署，也可以作为远程呈现终端的外接组件进行部署，无论采用何种部署方式，其媒体编解码模块所实现的功能是相同的。

另外，所述远端端点可以为多点控制单元（MCU, Multipoint Control Unit )或远端远程呈现终端。远程呈现终端与作为远端端点的 MCU交互，以及与作为远端端点的远端远程呈现终端交互时，其远程呈现终端在实现功能上没有区别。

较佳的，图 1 所示的系统中还可以包括：与远程呈现终端相连的中控系统，该中控系统用于提供用户操作界面（发起呼叫等等），实现与用户的交互。

下面结合图 1 所示的系统，以多路音频码流分别通过不同的接收通道接收，且多路视频码流也分别通过不同的接收通道接收为例，对本发明实施例一的一种远程呈现方法的码流接收流程进行详细阐述，如图 2所示，该流程主要包括：

步驟 201 ,远程呈现终端建立与远端端点之间的呼叫，协议信令处理模块负责信令交互、多路音频和 /或视频码流输入 /输出位置信息交互和媒体能力协商，根据协商的媒体编解码能力，远端的发送地址和本端的接收地址，待建立通道对应的远端音频或视频码流输入位置信息，以及本端的音频或视频码流输出位置信息，建立接收通道。

首先组建远程呈现系统，至少包括一远程呈现终端和多个音、视频输入 /输出设备；所述远程呈现终端分别有多路音频输入和多路音频输出接口，以及多路视频输入和多路视频输出接口；所述音、视频输入 /输出设备分别与远程呈现终端的对应接口相连，所述对应是指媒体类型（音 /视频）对应，以及设备的位置信息对应。所述远程呈现终端连接到网络并在网守

( Gatekeeper )上进行注册，对外提供注册的端点 ID号或 IP地址。 Gatekeeper 是一种采用软交换方式的交换服务器，负责 VoIP网路上的讯号交换及控制功能。

所述远程呈现终端建立与远端端点（可以是 MCU或者远端的远程呈现终端）的连接，可以组建点对点会议或者多点会议，可以是所述远程呈现终端主动发起呼叫，也可以是所述远程呈现终端接受远端端点的呼叫。其中，呼叫连接包括：会话建立、远程呈现终端信息交互和媒体能力（编解码能力）协商。

媒体逻辑通道包括：发送通道和接收通道，本实施例中特指接收通道。接收通道的建立过程包括：远端端点发送打开逻辑通道消息给本端终端，其中携带远端的发送地址（IP地址和端口号），协商后的媒体编解码能力，输入设备的位置信息；本端的远程呈现终端向远端端点回复确认消息，其中携带本端的接收地址（IP地址和端口号），输出设备的位置信息。通道信息包括该媒体逻辑通道对应的发送和接收地址，媒体编解码能力，音频和 / 或视频输入设备的位置信息，以及音频和 /或视频设备输出的位置信息，传输通道标识等等。其中，多路音频码流分别通过不同的发送通道发送，并通过不同的接收通道接收；多路视频码流分别通过不同的发送通道发送，并通过不同的接收通道接收；

步驟 202 ,远程呈现终端的媒体传送模块通过建立的接收通道分别接收远端端点的多路码流，并解析每一路码流通道对应的输出设备的位置信息，码流转交给媒体编解码模块进行解码。

远程呈现终端的媒体传送模块通过上述建立的媒体接收逻辑通道接收远端端点发送的码流，根据需要选择解析码流区分信息（如码流类型、位置信息等等），解析每一路码流通道对应的输出设备的位置信息，并转交给媒体编解码模块进行解码。

步驟 203 , 远程呈现终端的媒体编解码模块对接收到的多路音频和 /或视频码流分别进行解码，并根据其位置信息输出到相应的音频 /视频播放设备。

下面再结合图 1 所示的系统，以多路音频码流分别通过不同的发送通道发送，且多路视频码流也分别通过不同的发送通道发送为例，对本发明实施例二的一种远程呈现方法的码流发送流程进行详细阐述，如图 3所示，该流程主要包括：

步驟 301 ,远程呈现终端建立与远端端点之间的呼叫，协议信令处理模块负责信令交互、多路音频和 /或视频码流输入 /输出位置信息交互和媒体能力协商，根据协商的媒体编解码能力，本端的发送地址和远端的接收地址，待建立通道对应的远端音频或视频码流输出位置信息，以及本端音频或视频码流输入位置信息，建立发送通道。具体操作与步驟 201 中类似，此处不再赘述。本实施例中的媒体逻辑通道特指发送通道。媒体逻辑通道的建立过程包括：

本端远程呈现终端携带发送地址（ IP地址和端口号），协商后的媒体编解码能力，输入设备的位置信息给远端端点；远端端点向本端回复远端的接收地址（ IP地址和端口号），输出设备的位置信息。所述通道信息包括该媒体逻辑通道对应的发送和接收地址，媒体编解码能力，音频和 /或视频输入设备的位置信息，以及音频和 /或视频设备输出的位置信息，通道标识等等。

步驟 302,远程呈现终端所连接的音、视频输入设备分别采集媒体数据，并根据输入设备的位置信息提交给媒体编解码模块对应的编码器进行编码，转交给媒体传送模块。

远程呈现终端所连接的外部音频和 /或视频设备采集音视频码流，由媒体编解码模块根据协商的媒体能力进行编码 , 并转交给媒体传送模块由上述建立的相应的媒体发送逻辑通道进行发送，根据需要选择携带码流区分信息（如码流类型、位置信息等等）。

步驟 303 ,远程呈现终端的媒体传送模块将编码后的多路码流根据位置信息分别通过相应的发送通道进行发送。

根据建立的不同的发送通道分别与各路音频和 /或视频码流的类型、以及输入 /输出位置信息的对应关系，远程呈现终端的媒体传送模块根据码流对应的输入设备的位置信息，选择对应的发送通道进行发送。

在会议结束时，需要先关闭各媒体逻辑通道，然后远程呈现终端完成与远端端点之间的会话删除。

下面再结合图 1所示的系统，以多路音频码流通过一个接收通道接收，且多路视频码流通过一个接收通道接收为例 , 对本发明实施例三的一种远程呈现方法的码流接收流程进行详细阐述，如图 4所示，该流程主要包括：步驟 401 ,远程呈现终端建立与远端端点之间的呼叫，协议信令处理模块负责信令交互、多路音频和 /或视频码流输入 /输出位置信息交互和媒体能力协商，根据协商的媒体编解码能力建立接收通道。

该实施例中，远程呈现终端与远端端点之间只建立一个发送、接收通道，用于发送、接收音频码流，并只建立一个发送、接收通道，用于发送、接收视频码流。

步驟 402, 远程呈现终端通过建立的接收通道接收远端端点的码流，媒体传送模块解析码流中的数据包头信息，得到码流类型、以及码流对应的输入位置信息和输出位置信息。

步驟 403 , 远程呈现终端的媒体编解码模块对接收到的音频和 /或视频码流分别进行解码，并根据其位置信息输出到相应的音频 /视频播放设备进行播放。

下面再结合图 1所示的系统，以多路音频码流通过一个发送通道发送，且多路视频码流通过一个发送通道发送为例 , 对本发明实施例四的一种远程呈现方法的码流接收流程进行详细阐述，如图 5所示，该流程主要包括：步驟 501 ,远程呈现终端建立与远端端点之间的呼叫，协议信令处理模块负责信令交互、多路音频和 /或视频码流输入 /输出位置信息交互和媒体能力协商，根据协商的媒体编解码能力建立发送通道。

步驟 502,远程呈现终端所连接的音、视频输入设备分别采集媒体数据，通过媒体编解码模块进行编码后，转交给媒体传送模块。

步驟 503 ,远程呈现终端的媒体传送模块将编码后的码流携带数据包头信息后，通过建立的发送通道进行发送。包头信息至少包括：码流类型、码流对应的输入位置信息和输出位置信息。

需要说明的是，在本发明的实施例中还可以包括多路音频码流混成一路通过一个发送通道发送，一个接收通道接收，而多路视频码流通过多个发送通道分别发送，多个接收通道分别接收的情况；以及多路视频码流混成一路通过一个发送通道发送，一个接收通道接收，而多路音频码流通过多个发送通道分别发送，多个接收通道分别接收的情况。其通过一个发送通道发送，一个接收通道接收的实现方式与上述图 5和图 4所示的操作类似；通过多个发送通道分别发送，多个接收通道分别接收的实现方式与上述图 3和图 2所示的操作类似。此处不再赘述。

下面以三路音、视频输入 /输出接口为例，对本发明的远程呈现方法进一步详细说明。组建本实施例的远程呈现终端系统，至少包括一个远程呈现终端和多个音、视频输入 /输出设备，所述远程呈现终端分别有三路音频输入和三路音频输出接口，以及三路视频输入和三路视频输出接口，将所述的音频、视频输入 /输出设备分别与所述远程呈现终端正确位置的接口相连。该实施例中，多路音、视频码流分别通过不同的发送通道发送，并通过不同的接收通道接收，如图 6所示，具体流程包括：

步驟 601 , 远程呈现终端（即本端终端 )连接到网络并通过 H.225 RAS 协议在注册服务器 Gatekeeper上进行注册，对外提供注册的 H.323 ID号或者 IP地址。

步驟 602,远程呈现终端通过 H.225协议建立与远端端点（可以是 MCU 或者远程呈现终端）的连接，可以是点对点会议或者多点会议，可以是所述远程呈现终端主动发起呼叫，也可以是所述远程呈现终端接受远端端点的呼叫。呼叫信令中携带所述远程呈现终端的 IP地址和 /或 H.323 ID号。

步驟 603 , 本端终端与远端端点建立 H.225呼叫连接后，本端终端构建本端的能力集并向远端端点发送能力集，接收远端的反馈信息。所述能力集包括三路输出音频的解码能力和参数，与外部音频输出设备相连的接口位置，比如分别用 1、 2、 3表示左路音频输出、中路音频输出、右路音频输出；三路输出视频的解码能力和参数，与外部视频输出设备相连的接口位置。例如：在 H.245的终端能力集（ terminalCapabilitySet )消息结构中增加左、中、右路音频描述符，左、中、右路视频的描述符，并约定不同值对应不同的类型和位置，如 1、 2、 3分别表示左、中、右路音频， 4、 5、 6 分别表示左、中、右路视频。

步驟 604, 本端终端接收远端端点的能力集，并进行反馈。如：远端端点支持三路视频解码输出，包括 H.264、 H.263解码；支持三路音频输出，包括 G.711、 G.728解码，根据远端端点的能力集中携带的外部音 /或视频输出设备相连的接口位置、以及本端终端连接的外部音 /或视频输入设备接口位置确定能力协商结果，协商后本端左侧音频输入接口的码流用 G.711编码发给远端端点左侧音频接口输出，本端左侧视频输入接口的码流用 H.264 编码发给远端端点左侧视频接口输出，同样建立起本端中路、右路音视频与远端端点之间的输出接口位置对应关系。

步驟 605 , 本端终端建立到远端端点的发送通道。本端终端根据远端端点发送的能力集及本端的能力集，包括媒体编解码能力、待建立通道对应的远端媒体输出位置以及本端终端媒体输入位置，确定通道的发送地址、通道标识、媒体输出位置信息，通过 H.245 openLogicalChannel (打开逻辑通道）消息打开媒体逻辑通道，其中至少需要携带该通道发送地址（IP地址和端口号，如 10.11.12.13: 10200 )、编码类型和参数（如 G.711a音频）、通道标识号（如通道号为 2标识左路发送音频）、本端媒体输入位置（如位置 1 表示左路音频输入）。远端端点接收到该消息后，用 H.245 openLogicalChannelAck (打开逻辑通道确认 ) 消息回复，其中至少携带该通道的标识号、接收地址（IP地址和端口号，如 10.11.12.14:5058 )、对应的音频输出设备接口位置标识（如位置 7表示左路音频输出）。

步驟 606, 本端终端建立接收远端端点码流的媒体逻辑通道。本端终端接收远端端点的 H.245 openLogicalChannel消息，根据通道信息中的媒体能力（如 H.264 )和输入位置信息（如位置 4表示左路视频输入），以及本端媒体输出位置信息，确定本端终端的接收地址并反馈 openLogicalChannelAck 消息，其中至少包括上述接收地址 ( 如 10.11.12.13: 10206 )、本端媒体输出位置信息（如位置 10表示左路视频输出）。同时，本端终端记录该通道信息，至少包括通道标识、媒体能力和媒体输入输出位置信息。

步驟 607,本端终端分别与远端端点之间通过上述建立的媒体逻辑通道传输多路码流。

包括发送码流，本端终端所连接的音频或视频输入设备分别采集音视频数据，并由媒体编解码模块进行编码，然后交给媒体传送模块，根据设备接口的位置与媒体逻辑通道的对应关系，分别通过上述建立的对应媒体逻辑通道发送码流；

接收码流，本端终端媒体传送模块接收到远端端点发送的码流，根据媒体逻辑通道对应的输出设备位置信息，交给媒体编解码模块对应的解码器进行解码，并输出到对应接口位置的外部音频或视频输出设备进行播放。

步驟 608 , 结束会议时，本端终端先关闭媒体逻辑通道并停止媒体的收发，最后完成会话删除。

对于多路音频码流通过一个发送通道发送，一个接收通道接收，且多路视频码流通过一个发送通道发送，一个接收通道接收的情况，其远程呈现方法的操作流程与图 6所示的流程类似。只是，在建立媒体逻辑通道时，根据协商的媒体编解码能力建立一个音频码流的发送和接收通道，一个视频码流的发送和接收通道；在码流传输时，各路音频码流通过同一个媒体逻辑通道传输，各路视频码流通过同一个媒体逻辑通道传输，且各路音频和 /或视频码流通过数据包头信息进行区分，本端的远程呈现终端和远端端点在接收到码流后，通过解析数据包头信息，将对应的码流发送到对应位置音频输出设备和 /或多路视频输出进行播放。

综上所述，本发明由于一个远程呈现终端具备多路音频输入 /输出接口、多路视频输入 /输出接口，能够实现与多路音、视频输入 /输出设备的相连，因此，对单一会场只需要部署一个远程呈现终端即可处理多路音、视频码流，部署简单，且能够实现单一会议号呼叫；由于对单一会场实现多路音、视频数据的采集，其数据来源更加精确，由于每路音、视频输入设备采集相对固定范围的数据，因此能够实现远程呈现系统所要求的听声辨位和真人大小的效果。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

权利要求书

1、一种远程呈现系统，其特征在于，该系统包括：远程呈现终端，以及与所述远程呈现终端相连的多路音频输入 /输出设备、和 /或多路视频输入 /输出设备，还包括与所述远程呈现终端互通的远端端点；

2、根据权利要求 1所述远程呈现系统，其特征在于，所述进行多路音频和 /或视频码流输入 /输出位置信息交互以及媒体能力协商包括：

3、根据权利要求 1所述远程呈现系统，其特征在于，所述媒体逻辑通道包括发送通道和接收通道，其中，

多路音频码流通过一个发送通道发送，并通过一个接收通道接收；和 /或，多路视频码流通过一个发送通道发送，并通过一个接收通道接收；各路音频和 /或视频码流通过数据包头信息进行区分，所述包头信息包括：码流类型、码流对应的输入位置信息和输出位置信息。

4、根据权利要求 1所述远程呈现系统，其特征在于，所述媒体逻辑通道包括发送通道和接收通道，其中，

5、根据权利要求 4所述远程呈现系统，其特征在于，所述远程呈现终端还用于，

根据协商的媒体编解码能力，本端的发送地址和远端的接收地址，待建立通道对应的远端音频或视频码流输出位置信息，以及本端音频或视频码流输入位置信息，建立发送通道；根据协商的媒体编解码能力，远端的发送地址和本端的接收地址，待建立通道对应的远端音频或视频码流输入位置信息，以及本端的音频或视频码流输出位置信息，建立接收通道。

6、根据权利要求 1所述远程呈现系统，其特征在于，所述远程呈现终端还用于，对发送和 /或接收的多路音频和 /或视频码流进行同步处理。

7、根据权利要求 1至 6任一项所述远程呈现系统，其特征在于，所述远端端点为多点控制单元 MCU或远端远程呈现终端。

8、一种远程呈现终端，其特征在于，具有多路音、视频输入 /输出接口，用于连接多路音频输入 /输出设备和 /或多路视频输入 /输出设备，该终端包括：协议信令处理模块、媒体编解码模块和媒体传送模块；其中，所述协议信令处理模块，用于与远端端点之间建立会话，进行多路音频和 /或视频码流输入 /输出位置信息交互以及媒体能力协商，并建立媒体逻辑通道；

9、根据权利要求 8所述远程呈现终端，其特征在于，所述进行多路音频和 /或视频码流输入 /输出位置信息交互以及媒体能力协商包括：所述协议信令处理模块向所述远端端点发送本端远程呈现终端的能力集，其中包括本端的媒体编解码能力和本端远程呈现终端的音、视频码流输入 /输出位置信息；接收所述远端端点的能力集，其中包括远端的媒体编解码能力和音、视频码流输入 /输出位置信息。

10、根据权利要求 8 所述远程呈现终端，其特征在于，所述媒体逻辑通道包括发送通道和接收通道，其中，

11、根据权利要求 8所述远程呈现终端，其特征在于，所述媒体逻辑通道包括发送通道和接收通道，其中，

12、根据权利要求 11所述远程呈现终端，其特征在于，所述协议信令处理模块还用于，

13、根据权利要求 8 所述远程呈现终端，其特征在于，所述媒体传送模块还用于，对发送和 /或接收的多路音频和 /或视频码流进行同步处理。

14、一种远程呈现方法，其特征在于，远程呈现终端具有多路音、视频输入 /输出接口，用于连接多路音频输入 /输出设备和 /或多路视频输入 /输出设备，该方法包括：

远程呈现终端与远端端点之间建立会话，进行多路音频和 /或视频码流输入 /输出位置信息交互以及媒体能力协商，并建立媒体逻辑通道；所述远程呈现终端对所述多路音频输入设备和 /或多路视频输入设备的输入码流进行编码，并基于建立的媒体逻辑通道，根据所述码流对应的输入 /输出位置发送给所述远端端点；接收来自所述远端端点的多路音频和 /或视频码流，进行解码并根据所述码流对应的输入 /输出位置转给自身对应位置的音频输出设备和 /或视频输出设备进行播放。

15、根据权利要求 14所述远程呈现方法，其特征在于，所述进行多路音频和 /或视频码流输入 /输出位置信息交互以及媒体能力协商包括：所述远程呈现终端向所述远端端点发送本端的能力集，其中包括本端的媒体编解码能力和本端远程呈现终端的音、视频码流输入 /输出位置信息；接收所述远端端点的能力集，其中包括远端的媒体编解码能力和音、视频码流输入 /输出位置信息。

16、根据权利要求 14所述远程呈现方法，其特征在于，所述媒体逻辑通道包括发送通道和接收通道，其中，

17、根据权利要求 14所述远程呈现方法，其特征在于，所述媒体逻辑通道包括发送通道和接收通道，其中，

18、根据权利要求 17所述远程呈现方法，其特征在于，所述建立媒体逻辑通道，具体为：

19、根据权利要求 14所述远程呈现方法，其特征在于，该方法还包括：所述远程呈现终端对发送和 /或接收的多路音频和 /或视频码流进行同步处理。

20、根据权利要求 14至 19任一项所述远程呈现方法，其特征在于，所述远端端点为多点控制单元 MCU或远端远程呈现终端。