WO2009043275A1

WO2009043275A1 - A method and a system of video communication and a device for video communication

Info

Publication number: WO2009043275A1
Application number: PCT/CN2008/072483
Authority: WO
Inventors: Wuzhou Zhan
Original assignee: Shenzhen Huawei Telecommunication Technologies Co., Ltd.
Priority date: 2007-09-28
Filing date: 2008-09-24
Publication date: 2009-04-09
Also published as: CN101132516B; CN101132516A; US20100182394A1; JP5198567B2; EP2202970A1; EP2202970A4; US8259625B2; JP2010541343A

Description

一种视频通讯的方法、系统及用于视频通讯的装置本申请要求于 2007年 09月 28日提交中国专利局、申请 200710151406.X、发明名称为 "一种视频通讯的方法、系统及用于视频通讯的装置"的中国专利申请的优先权。

技术领域

本发明涉及通信技术领域，尤其涉及一种视频通讯的方法、系统及用于视频通讯的装置。

背景技术

随着电视机的广泛普及，用户对电视机屏幕的尺寸要求越来越高，甚至有的视频通讯系统采用投影仪或电视墙来显示，这时如果画面由至少两个子画面合成，不同子画面中的说话者的位置相对在屏幕尺寸要求低时会有较大的不同，而目前的多媒体通讯系统的发出声音的位置并没有根据说话者的位置的改变而相应的发生改变，导致声音的方位信息和子画面不匹配，进而影响到视频通讯的真实感。

现有技术中，一个视频会议系统，包括多点控制单元（MCU, Micro

Controller Unit)、单声道终端、至少两个声道以上的多声道终端等设备，终端和 MCU建立连接后 , 终端将扬声器的位置和数目等配制情况上报给 MCU, MCU根据终端的扬声器的配制情况为各个终端分配声道数目，例如，如果终端只有一个扬声器，则只分配单声道，如果有两个扬声器，则分配双声道，如果有四个扬声器，则分配四个声道。在会议过程中， MCU接收各个端点的视频流和音频流，将视频流组合成一个多画面发送给终端，而对于音频流则根据终端的声道配制情况来生成，例如，终端一有四个声道，则为终端一生成四个音频流，每个音频流对应终端一的一个扬声器。音频流的生成一般采用调解幅度和时延的方式，采用这种方式处理后，使得终端一感觉声音从画面中发言人的位置发出，从而具有声音的方位信息感。

在对现有技术的研究和实践过程中 , 发明人发现现有技术存在以下问题： MCU必须知道预先知道扬声器配置情况，才能根据扬声器的数目生成相应数目的音频流，但是会导致 MCU和终端的联系太紧密，不够灵活。

发明内容本发明实施例要解决的技术问题是提供一种视频通讯的方法、系统及用于视频通讯的装置，能够降低多点控制单元与终端之间联系的紧密度，提高灵活性。

为解决上述技术问题，本发明所提供的实施例是通过以下技术方案实现的：

本发明一个实施例提供了一种视频通讯的方法，包括：

标识接收到的各路音频流对应的合成画面中的子画面；

根据各子画面在合成画面中的位置获取各路音频流的方位信息；将音频流及相应的方位信息发送给终端；由所述终端根据接收到的音频流的方位信息，对音频信号进行处理，使音频流具有方位信息。

本发明另一个实施例还提供了一种计算机程序产品，所述计算机程序产品包括计算机程序代码，当所述计算机程序代码被一个计算机执行的时候，所述计算机程序代码可以使得所述计算机执行一种视频通讯的方法中的任意一项步骤。

本发明又一个实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储计算机程序代码 ,当所述计算机程序代码被一个计算机执行的时候，所述计算机程序代码可以使得所述计算机执行一种视频通讯的方法中的任意一项步骤。

本发明再一个实施例还提供的一种视频通讯的系统，包括：

标识单元，用于标识接收到的各路音频流对应的合成画面中的子画面；获取单元，用于根据各子画面在合成画面中的位置获取各路音频流的方位信息；

发送单元，用于发送音频流及相应的方位信息；

终端单元，用于根据接收到的方位信息，对音频信号进行处理，使音频流具有方位信息。

本发明再一个实施例还提供了一种用于视频通讯的装置，包括：标识单元，用于标识接收到的各路音频流对应的合成画面中的子画面；获取单元，用于根据各子画面在合成画面中的位置获取各路音频流的方位信息；

发送单元，用于发送音频流及相应的方位信息。

以上技术方案可以看出，由于对接收到的各路音频流对应的合成画面中的子画面进行标识，获取各路音频流的方位信息后，将音频流及相应的方位信息发送给终端，因此，不需要知道终端扬声器的配置情况，由终端根据接收到的音频流的方位信息，对音频信号进行处理，使音频流具有方位信息。从而降低多点控制单元与终端之间联系的紧密度，提高灵活性。

附图说明

图 1为本发明实施例提供的视频^义系统示意图；图 2为本发明实施例提供的进行视频处理原理图；图 3为本发明实施例提供的进行音频处理原理图；图 4为本发明实施例提供的表示相对位置的示意图；图 5为本发明实施例一提供的方法流程图；图 6为本发明实施例二提供的方法流程图；图 7为本发明实施例三提供的方法流程图；图 8为本发明实施例提供的系统示意图；图 9为本发明实施例提供的装置示意图。

具体实施方式

本发明实施例提供了一种视频通讯的方法、系统及用于视频通讯的装置，用于视频通讯时，提高系统的灵活性，为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明进一步详细说明。参见图 1，为本发明实施例提供的视频义系统示意图，第一终端 101、第二终端 102、第三终端 103分别将各自的视频流和音频流法送给多点控制单元 104，多点控制单元对接收到的视频流和音频流进行处理，将处理后的音频流和视频流发送给第一终端 101、第二终端 102、第三终端 103。

下面对多点控制单元对接收到的视频流和音频流进行处理的过程进行说明：

参见图 2, 为本发明实施例提供的进行视频处理原理图。例如，第一终端 101请求观看第二终端 102和第三终端 103合成的画面，第二终端 102请求观看第二终端 102和第三终端 103合成的画面，第三终端 103请求观看第二终端 102的视频，根据这些请求，多点控制单元 104将第二终端 102的视频码流直接转发给第三终端 103，另外将第二终端 102和第三终端 103的视频码流进行解码，然后合成多画面，编码之后发送给第一终端 101终端和第二终端 102。在合成多画面时，可根据需要对多画面中各终端视频信号的分辨率进行调整，例如对于第二终端 102在左子画面，第三终端 103在右子画面合成的多画面，可以将第二终端 102和第三终端 103在水平方向的分辨率降低一半，这样合成的多画面的分辨率保持不变；而对于虚拟会议系统或者其他要求比较高的场合，可以不降低第二终端 102和第三终端 103的分辨率，而只是将两个视频信号在水平方向拼接在一起，这样合成之后的多画面信号的分辨率是原来的二倍。

多点控制单元 104对终端的音频流进行解码，然后混音，并对混合之后的声音进行编码，再将编码之后的音频信号发送给终端。在混音时，一般情况下不会混入自己终端的声音，例如，多点控制单元 104将第二终端 102和第三终端 103的音频流混音之后进行编码发送给第一终端 101，将第一终端 101和第三终端 103的音频流混音之后进行编码发送给第二终端 102，将第一终端 101和第一终端 101的音频流混音之后进行编码发送给第三终端 103。

图 3为本发明实施例提供的进行音频处理原理图。第一终端 101、第二终端 102、第三终端 103将音频流发送到多点控制单元 104, 多点控制单元 104 接收到各个终端的音频流后进行解码，解码后将各路音频流进行混音处理，混音处理后的音频流进行编码后，分别发送给各个终端，例如，向第一终端发送第二终端和第三终端的混音码流，向第二终端发送第一终端和第三终端的混音码流，向第三终端发送第一终端和第二终端的混音码流。下面结合上述示意图和原理图对本发明提供的方法进行伴细说明：参见图 5，为本发明实施例一提供的方法流程图：

201 : 标识接收到的各路音频流对应的合成画面中的子画面。下面针对接收到的音频流和合成画面进行举例说明：

例一，多点控制单元发送给第一终端视频流是第二终端和第三终端的合成画面，第二终端在左画面，第三终端在右画面，多点控制单元发送给第一终端的音频流包括第二终端的音频流和第三终端的音频流，标识第二终端的音频流和左子画面对应，第三终端的音频流和右子画面对应。例二，多点控制单元发送给第二终端的视频流是第二终端和第三终端的合成画面，多点控制单元发送给第二终端的音频流包括第一终端的音频流和第三终端的音频流，标识第三终端的音频流和右子画面对应，但第一终端的音频流没有相应的子画面，标识第一终端的音频流为画外音，也可以作除画外音以外的其它标识。

例三，多点控制单元发送给第三终端的视频流是第二终端的视频流，多点控制单元发送给第三终端的音频流包括第一终端的音频流和第二终端的音频流，第三终端看到的是第二终端的单画面，单画面看作合成画面中的一个特例，标识第二终端的音频流和单画面对应，将第一终端的音频流标识为画外音。

202: 根据子画面在合成画面中的位置获取各路音频流在水平方向和垂直方向的角度等方位信息。

203: 将音频流及相应的方位信息发送给终端。例如，多点控制单元发送给第一终端的音频流包括第二终端的音频流和第三终端的音频流，将第二终端的音频流放置在第一个声道，第三终端的音频流放置在第二个声道。另外，如果多点控制单元发送给某个终端的音频流较多，为了降低码率，可以将能量最大的放在第一个声道，能量第二大的放在第二个声道，然后将剩下的音频流进行解码、混音、编码成一路音频流放置在第三个声道。

其中，可以将方位信息直接发送给终端，也可以传递给音频流组合单元，由音频流组合单元将方位信息嵌入到音频流内，和音频流一起发送给终端。

204:终端根据接收到的音频流的方位信息，对音频信号采用 HRTF ( Head Related Transfer Function, 头部相关传输函数）滤波，使音频流具有方位信该实施例中，方位信息用水平方向和垂直方向的角度表示，滤波采用头部相关传输函数 HRTF。

参见图 6，为本发明实施例二提供的方法流程图：

301 : 标识接收到的各路音频流对应的合成画面中的子画面。下面针对接收到的音频流和合成画面进行举例说明：

例一，多点控制单元发送给第一终端视频流是第二终端和第三终端的合成画面，第二终端在左画面，第三终端在右画面，多点控制单元发送给第一终端的音频流包括第二终端的音频流和第三终端的音频流，标识第二终端的音频流和左子画面对应，第三终端的音频流和右子画面对应。例二，多点控制单元发送给第二终端的视频流是第二终端和第三终端的合成画面，多点控制单元发送给第二终端的音频流包括第一终端的音频流和第三终端的音频流，标识第三终端的音频流和右子画面对应，但第一终端的音频流没有相应的子画面，标识第一终端的音频流为画外音，也可以作除画外音以外的其它标识，例如，标识该音频流为无画面音频流。

302: 据子画面在合成画面中的位置，获取各路音频流在水平方向的相对距离和垂直方向的相对距离等方位信息。相对距离的表示方法如图 4所示，参与混音的音频流本身不带方位信息，点0是视频图像的中心点， w是图像的宽度、 h是图像的高度。以点 0为原点，建立一个坐标，则图像中的 M点的坐标为（w0, h0 )。令 w，和 h，分别表示 M点在水平和垂直方向的相对距离，则可用下面的公式计算：

w' = wO / (w/2) (1)

h， = hO / (h/2) (2) 发送给终端 1的音频流是终端 2和终端 3的混音，其中参与混音的终端 2的音频流和左子画面对应，参与混音的终端 3的音频流和右子画面对应，左子画面的中心点是 Cl，右子画面的中心点是 C2，因此终端 2和终端 3音频流的方位信息可以分别用 C1和 C2点在水平方向和垂直方向的相对距离来表示，即终端 2音频流的方位信息为（-0.5,0 )，终端 3音频流的方位信息为（0.5,0 ) 。在前一步骤还提到画外音，对于是画外音的音频流，方位信息可设置为（-1，0 )或（1，0 ) , 对于和单画面对应的音频流，其方位信息为（0， 0 )；如果参与混音的音频流带有方位信息，则按照下面描述的方式计算方位信息：例如，对终端 2和终端 3 的音频进行混音，分别对应左子画面和右子画面，终端 2和终端 3的音频本身方位信息分别为（w'2， h'2 )、 ( w'3 , h'3 ) ,则新的方位信息应为：（ -0.5 + (w'2/2)， h'2 ) 、 ( 0.5 + (w'3/2), h'3 ) 。

303 : 将音频流及相应的方位信息发送给终端。例如，多点控制单元发送给第一终端的音频流包括第二终端的音频流和第三终端的音频流，多点控制单元将第二终端的音频流放置在第一个声道，第三终端的音频流放置在第二个声道。另外，如果发送给某个终端的音频流较多，为了降低码率，可以将能量最大的放在第一个声道，能量第二大的放在第二个声道，然后将剩下的音频流进行解码、混音、编码成一路音频流放置在第三个声道。

其中，可以将方位信息直接发送给终端，也可以将方位信息嵌入到音频流内，和音频流一 ¾ ^送给终端。

304:终端根据接收到的音频流的方位信息，对音频信号采用 HRTF ( Head

Related Transfer Function, 头部相关传输函数）滤波，使音频流具有方位信息。

该实施例中，方位信息用水平方向的相对距离和垂直方向的相对距离表示，滤波采用头部相关传输函数 HRTF。

参见图 7，为本发明实施例三提供的方法流程图：

401 : 标识接收到的各路音频流对应的合成画面中的子画面。下面针对接收到的音频流和合成画面进行举例说明：

例一，多点控制单元发送给第一终端视频流是第二终端和第三终端的合成画面，第二终端在左画面，第三终端在右画面，多点控制单元发送给第一终端的音频流包括第二终端的音频流和第三终端的音频流，标识第二终端的音频流和左子画面对应，第三终端的音频流和右子画面对应。例二，发送给第二终端的视频流是第二终端和第三终端的合成画面，多点控制单元发送给第二终端的音频流包括第一终端的音频流和第三终端的音频流，标识第三终端的音频流和右子画面对应，但第一终端的音频流没有相应的子画面，标识第一终端的音频流为画外音，也可以作除画外音以外的其它标识，例如，标识该音频流为无画面音频流。

402: 根据子画面在合成画面中的位置，获取各路音频流在水平方向的相对距离和垂直方向的相对距离等方位信息。相对距离的表示方法如图 4所示，参与混音的音频流本身不带方位信息，点0是视频图像的中心点， w是图像的宽度、 h是图像的高度。以点 0为原点，建立一个坐标，则图像中的 M点的坐标为（w0, h0 )。令 w，和 h，分别表示 M点在水平和垂直方向的相对距离，则可用下面的公式计算：

w' = wO / (w/2) (1)

h， = hO / (h/2) (2)

发送给终端 1的音频流是终端 2和终端 3的混音，其中参与混音的终端 2的音频流和左子画面对应，参与混音的终端 3的音频流和右子画面对应，左子画面的中心点是 Cl，右子画面的中心点是 C2，因此终端 2和终端 3音频流的方位信息可以分别用 C1和 C2点在水平方向和垂直方向的相对距离来表示，即终端 2音频流的方位信息为（-0.5,0 )，终端 3音频流的方位信息为（0.5,0 ) 。在前一步骤还提到画外音，对于是画外音的音频流，方位信息可设置为（-1，0 )或（1，0 ) , 对于和单画面对应的音频流，其方位信息为（0， 0 )；如果参与混音的音频流带有方位信息，则按照下面描述的方式计算方位信息：例如，对终端 2和终端 3 的音频进行混音，分别对应左子画面和右子画面，终端 2和终端 3的音频本身方位信息分别为（w'2， h'2)、 (w'3, h'3 ),则新的方位信息应为：（ -0.5 + (w'2/2)， h'2) 、 (0.5 + (w'3/2), h'3 ) 。

403: 将音频流及相应的方位信息发送给终端。例如，发送给第一终端的音频流包括第二终端的音频流和第三终端的音频流，将第二终端的音频流放置在第一个声道，第三终端的音频流放置在第二个声道。另外，如果发送给某个终端的音频流较多，为了降低码率，可以将能量最大的放在第一个声道，能量第二大的放在第二个声道，然后将剩下的音频流进行解码、混音、编码成一路音频流放置在第三个声道。

其中，可以将方位信息直接发送给终端，也可以传递给音频流组合单元，由音频流组合单元将方位信息嵌入到音频流内 , 和音频流一起发送给终端。

404: 终端根据接收到的音频流的方位信息，对音频信号通过调整左右声道声音强度进行滤波，使音频流具有方位信息。例如，可用下面的两个公式描述具体的调整的方法：

W = (gl -g2)/(gl+g2) (1)

c = gl*gl +g2*g2 (2)

公式（1)、 (2) 中 c是一个固定值， gl是左声道声音强度增益， g2是右声道声音强度增益， w，是根据步骤 304计算出来的在水平方向的相对距离。

该实施例中，方位信息用水平方向的相对距离和垂直方向的相对距离表示，滤波采用通过调整左右声道的幅度进行滤波。

以上为对本发明实施例提供的方法流程图的描述，下面对本发明实施例提供的系统示意图进行伴细说明：

参见图 8, 为本发明实施例提供的系统示意图，包括：

标识单元 501, 用于标识接收到的各路音频流对应的合成画面中的子画面；例如，多点控制单元 104的输入音频流接口接收来自各个终端的音频流，并传输给和各个接收终端对应的标识单元 501。

获取单元 502，用于根据各子画面在合成画面中的位置获取各路音频流的方位信息；例如，获取各路音频流水平方向的角度和垂直方向的角度，或者获取各路音频流水平方向的相对距离和垂直方向的相对距离。

发送单元 503，用于发送音频流及相应的方位信息；例如，发送给第一终端的音频流包括第二终端的音频流和第三终端的音频流，将第二终端的音频流放置在第一个声道，第三终端的音频流放置在第二个声道。另外，如果发送给某个终端的音频流较多，为了降低码率，可以将能量最大的放在第一个声道，能量第二大的放在第二个声道，然后将剩下的音频流进行解码、混音、编码成一路音频流放置在第三个声道。

终端单元 504, 用于根据接收到的方位信息，对音频信号进行处理，使音频流具有方位信息。例如，通过调整左右声道声音强度，或者采用 HRTF技术进行滤波。

其中，所述系统进一步包括：

音频流组合单元 505，用于将所述方位信息嵌入到音频流中，发送到所发送单元 503。

参见图 9, 为本发明实施例提供的装置示意图，包括：

标识单元 501 , 用于标识接收到的各路音频流对应的合成画面中的子画面；例如，多点控制单元 104的输入音频流接口接收来自各个终端的音频流，并传输给和各个接收终端对应的标识单元 501。

发送单元 503，用于发送音频流及相应的方位信息；例如，发送给第一终端的音频流包括第二终端的音频流和第三终端的音频流，将第二终端的音频流放置在第一个声道，第三终端的音频流放置在第二个声道。另外，如果发送给某个终端的音频流较多，为了降低码率，可以将能量最大的放在第一个声道，能量第二大的放在第二个声道，然后将剩下的音频流进行解码、混音、编码成一路音频流放置在第三个声道。其中，所述装置进一步包括：

以上实施例可以看出，由于对接收到的各路音频流对应的合成画面中的子画面进行标识，获取各路音频流的方位信息后，将音频流及相应的方位信息发送给终端，因此，不需要知道终端扬声器的配置情况，由终端根据接收到的音频流的方位信息，对音频信号进行处理，使音频流具有方位信息。从而降低多点控制单元与终端之间联系的紧密度，提高灵活性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上对本发明所提供的一种视频通讯的方法、系统及用于视频通讯的装置进行了详细介绍，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

权利要求

1、一种视频通讯的方法，其特征在于，包括：

标识接收到的各路音频流对应的合成画面中的子画面；

根据各子画面在合成画面中的位置获取各路音频流的方位信息；

将音频流及相应的方位信息发送给终端，由所述终端根据接收到的音频流的方位信息，对音频信号进行处理，使音频流具有方位信息。

2、根据权利要求 1所述的方法，其特征在于，所述标识接收到的各路音频流对应的合成画面中的子画面，包括：

所述各路音频流中的任意一路音频流在合成画面中没有对应的子画面时，标识所述任意一路音频流为画外音。

3、根据权利要求 1所述的方法，其特征在于，所述标识接收到的各路音频流对应的合成画面中的子画面，包括：

所述各路音频流中的任意一路音频流在合成画面中有对应的子画面时，标识所述任意一路音频流与对应的子画面相对应。

4、根据权利要求 1所述的方法，其特征在于，所述标识接收到的各路音频流对应的合成画面中的子画面，包括：

接收到任意一路音频流对应的单画面时，标识所述音频流与所述单画面对应，标识其余的音频流为画外音。

5、根据权利要求 1所述的方法，其特征在于，所述音频流的方位信息，包括：

水平方向的角度和垂直方向的角度。

6、根据权利要求 1所述的方法，其特征在于，所述音频流的方位信息，包括：

水平方向的相对距离和垂直方向的相对距离。

7、根据权利要求 1所述的方法，其特征在于，所述对音频信号进行处理，包括：通过调整左右声道声音强度进行处理。

8、根据权利要求 1所述的方法，其特征在于，所述对对音频信号进行处理，包括：

采用头部相关传输函数 HRTF进行滤波。

9、一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序代码，当所述计算机程序代码被一个计算机执行的时候，所述计算机程序代码可以使得所述计算机执行权利要求 1至 8项中任意一项的步骤。

10、一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序代码，当所述计算机程序代码被一个计算机执行的时候，所述计算机程序代码可以使得所述计算机执行权利要求 1 至 8项中任意一项的步骤。

11、一种视频通讯的系统，其特征在于，包括：

发送单元，用于发送音频流及相应的方位信息；

12、根据权利要求 11所述的系统，其特征在于，所述系统进一步包括：音频流组合单元，用于将所述方位信息嵌入到音频流中，发送到所述发送单元。

13、一种用于视频通讯的装置，其特征在于，包括：

发送单元，用于发送音频流及相应的方位信息。

14、根据权利要求 13所述的装置，其特征在于，所述装置进一步包括：音频流组合单元，用于将所述方位信息嵌入到音频流中并发送，发送到所述发送单元。