WO2010022633A1

WO2010022633A1 - 音频信号的生成、播放方法及装置、处理系统

Info

Publication number: WO2010022633A1
Application number: PCT/CN2009/073406
Authority: WO
Inventors: 詹五洲; 王东琦
Original assignee: 深圳华为通信技术有限公司
Priority date: 2008-08-27
Filing date: 2009-08-21
Publication date: 2010-03-04
Also published as: EP2323425B1; EP3319344B1; EP3319344A1; US20110164769A1; EP2323425A4; EP2323425A1; CN101350931B; CN101350931A; US8705778B2

Description

音频信号的生成、播放方法及装置、处理系统

本申请要求于 2008 年 08 月 27 日提交中国专利局、申请号为 200810119140.5、发明名称为"音频信号的生成、播放方法及装置、处理系统" 的中国专利申请的优先权，其全部内容通过引用结合在本申请中。技术领域

本发明涉及通信技术领域，尤其涉及一种音频信号的生成、播放方法及装置、处理系统。背景技术

三维视频技术可以提供符合立体视觉原理的具有深度信息的画面，三维音频技术拾音时使用麦克风阵列，用波束形成等方法可获得增强后的声音以及声音的方向和距离等信息；重放时使用扬声器阵列，用波前合成等方法，可以重现具有方向感和距离感的声音。现有技术中已经有一些关于三维视频或者三维音频的实验性系统。

如图 1A所示，为现有技术中原始的会场布置图对应的水平视图，共 7 人参加，其中，会议参加者 P1位于前排，会议参加者 P2位于后排。如图 1B 所示，为现有技术中在重现会场中的屏幕上显示的图 1A会场中的场景示意图，如果重现会场中的一个会议参加者位于 0点，注意到 0点、 P1所在位置和 P2所在位置正好位于一条直线上，如果在进行声场重现时，不对重现声场的声音的距离进行处理或者处理的不好， P1和 P2的声音与位置不相匹配，那么在 P1或 /和 P2讲话时，就会干扰位于 0点的会议参加者辨别是 P1在讲话还是 P2在讲话。另外当以三维视频的方式进行场景重现时，也会遇到类似的问题。如图 2所示，为现有技术中某一会场布置俯视图，根据立体视觉的成像和显示原理，在运用三维显示技术将在会场 1 中的一个物体在另外一个会场 2中显示时，可以根据需要让会场 2中的会议参加者看起来是在显示屏 21之前，如位置 C所在位置，或者显示屏之后，如位置 B所在位置。假定图 2中的物体为会场 1 中的一个会议参加者，在会场 1 中对应的位置为 A; 在会场 2中重现时，如果以在显示屏之前的位置，如位置 C处显示，而声音是从 B处发送出来的，那么这样也会影响会场 2中的会议参加者与会场 1中的会议参加者的沟通与交流。

在完成本发明的过程中，本发明人发现：在现有技术中，为了获得更准确的声音的方向和距离，大都采用增加部署在麦克风阵列中麦克风的个数或 / 和增加麦克风之间的间距。对于麦克风阵列，麦克风阵列中部署的麦克风的个数越多，麦克风之间的间距越大，声音的方向和距离判断就越准确，但麦克风阵列的体积也随之增大。而减少麦克风的个数，减小麦克风之间的间距，麦克风阵列获得声音的方向和距离的，尤其是距离的，准确性就会降低，这在重放时需考虑声音的距离的场景中，例如在允许说话人可自由移动，或会场布置为如图 1A所示的多排位置的会议系统或如图 1B所示的三维视频显示系统中，使得听者不能及时并准确地判断出说话人的位置，从而影响眼对眼 (Eye to Eye)交流的效果。发明内容

本发明实施例提供一种音频信号的生成、播放方法及装置、处理系统，在不增加麦克风阵列体积的情况下，获得更准确地音频信号的位置信息，包括方向信息和距离信息。

本发明实施例提供了一种音频信号的生成方法，包括：

根据获取的音频信号的方向信息和辅助视频，生成视点所处位置对应的音频信号的距离信息，其中所述辅助视频为视差图或深度图；

将音频信号、所述音频信号的方向信息以及所述音频信号的距离信息进行编码并发送。

本发明实施例提供了一种音频信号的生成装置，包括：

音频信号的距离信息获取模块，用于根据获取的音频信号的方向信息和辅助视频，生成视点所处位置对应的音频信号的距离信息，其中所述辅助视频为视差图或深度图；音频信号编码模块，将音频信号、所述音频信号的方向信息以及所述音频信号的距离信息进行编码并发送。

本发明实施例提供了一种音频信号的播放方法，包括：

将接收到的编码数据进行解码，获得音频信号和音频信号的方向信息；获取音频信号的距离信息；

根据所述音频信号的方向信息以及所述音频信号的距离信息，利用音频信号重现方法对所述音频信号进行处理，得到与各个扬声器对应的扬声器信号；

使用扬声器阵列或者环绕立体声系统播放所述扬声器信号。

本发明实施例提供了一种音频信号的播放装置，包括：

音频信号解码模块，用于将接收到的编码数据进行解码，获得音频信号和音频信号的方向信息；

接收端音频信号的距离信息获取模块，用于获取音频信号的距离信息；扬声器信号获取模块，用于从所述音频信号解码模块接收所述音频信号和所述音频信号的方向信息，从所述接收端音频信号的距离信息获取模块接收所述音频信号的距离信息，根据所述音频信号的方向信息以及所述音频信号的距离信息，利用音频信号重现方法对所述音频信号进行处理，得到与各个扬声器对应的扬声器信号；

扬声器信号播放模块，用于使用扬声器阵列或者环绕立体声系统播放所述扬声器信号。

本发明实施例提供了一种音频信号的处理系统，包括音频信号的生成装置和音频信号的播放装置；

其中，音频信号的生成装置包括音频信号的距离信息获取模块，用于根据获取的音频信号的方向信息和辅助视频，生成视点所处位置对应的音频信号的距离信息，其中所述辅助视频为视差图或深度图；音频信号编码模块，将音频信号、所述音频信号的方向信息以及所述音频信号的距离信息进行编码并发送；

音频信号的播放装置包括音频信号解码模块，用于将接收到的编码数据进行解码，获得音频信号和音频信号的方向信息；接收端音频信号的距离信息获取模块，用于获取音频信号的距离信息；扬声器信号获取模块，用于根据所述音频信号的方向信息以及所述音频信号的距离信息，利用音频信号重现方法对所述音频信号进行处理，得到与各个扬声器对应的扬声器信号；扬声器信号播放模块，用于使用扬声器阵列或者环绕立体声系统播放所述扬声器信号。

本发明实施例能够在不增加麦克风阵列体积的情况下，结合三维视频信号和三维音频信号准确获得音频信号的位置信息，包括方向信息和距离信息，进一步实现音频信号的发送和播放。

附图说明施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图 1 A为现有技术中原始的会场布置图对应的水平视图；

图 1B为现有技术中在重现会场中的屏幕上显示的图 1A会场中的场景示意图；

图 2为现有技术中某一会场布置俯视图；

图 3为本发明音频信号的生成方法实施例一流程示意图；

图 4为本发明音频信号的生成方法实施例二流程示意图；

图 5为本发明音频信号的生成方法实施例二中计算音频信号在辅助视频中的横坐标的示意图；

图 6为本发明音频信号的生成方法实施例二中计算音频信号在辅助视频中的纵坐标的示意图；

图 7为本发明音频信号的生成方法实施例二中平行摄像机系统下图像视差和深度以及视点离显示器的距离的关系示意图；图 8为本发明音频信号的生成方法实施例二中计算音频信号的距离的 XZ 平面示意图；

图 9为本发明音频信号的生成方法实施例二中计算音频信号的距离的 YZ 平面示意图；

图 10为本发明音频信号的生成方法实施例三流程示意图；

图 11为本发明音频信号的生成装置实施例一结构示意图；

图 12为本发明音频信号的生成装置实施例二结构示意图；

图 13为本发明音频信号的生成装置实施例三结构示意图；

图 14为本发明音频信号的播放方法实施例一流程示意图；

图 15为本发明音频信号的播放方法实施例二流程示意图；

图 16为本发明音频信号的播放方法实施例三流程示意图；

图 17为本发明音频信号的播放方法实施例四流程示意图；

图 18为本发明音频信号的播放装置实施例一结构示意图；

图 19为本发明音频信号的播放装置实施例二结构示意图；

图 20为本发明音频信号的播放装置实施例三结构示意图；

图 21为本发明音频信号的播放装置实施例四结构示意图；

图 22为本发明音频信号的处理系统实施例结构示意图。具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例 , 都属于本发明保护的范围。

音频信号的生成方法实施例一

如图 3所示，为本发明音频信号的生成方法实施例一流程示意图，具体可以包括如下步骤：

步骤 11、根据获取的音频信号的方向信息和辅助视频，生成视点所处位置对应的音频信号的距离信息，其中辅助视频为视差图或深度图；步骤 12、将音频信号、音频信号的方向信息以及音频信号的距离信息进行编码并发送。

本实施例能够在不增加麦克风阵列体积的情况下，根据获取的音频信号的方向信息和辅助视频，准确获得音频信号的距离信息，进而实现音频信号的发送。

音频信号的生成方法实施例二

如图 4所示，为本发明音频信号的生成方法实施例二流程示意图，在图 3所示技术方案基上，步骤 11之前具体可以包括如下步骤：

步骤 21、麦克风阵列捕捉至少两路音频信号作为输入音频流；

步骤 22、利用麦克风阵列处理方法处理输入音频流，获得增强后的音频信号以及音频信号的方向信息；

步骤 23、摄像机组捕捉至少两路视频信号作为输入视频流；

步骤 24、根据输入视频流，获得主视频和辅助视频。

可选的，在图 3所示技术方案基础上，步骤 11具体可以包括如下步骤：步骤 26、根据音频信号的方向信息和辅助视频，获取音频信号的深度信息；

步骤 27、根据深度信息和音频信号的方向信息，获取音频信号在显示会场中的坐标信息；

步骤 28、根据音频信号的坐标信息和视点的位置信息，生成视点所处位置对应的音频信号的距离信息。

可选的，步骤 26之前还可以包括如下步骤：

步骤 25、根据麦克风阵列和摄像机组的位置信息将辅助视频和音频信号的方向信息换算到同一坐标系下。

可选的，其中，步骤 26具体可以包括如下步骤：

步骤 261、根据音频信号的方向信息获取音频信号在辅助视频中的坐标，判断辅助视频为深度图还是视差图；如果辅助视频为深度图，执行步骤 262 ; 如果辅助视频为视差图，执行步骤 263;

步骤 262、根据坐标直接从深度图中获取音频信号对应的深度信息；步骤 263、根据坐标从视差图中获取音频信号对应的视差，根据视差计算得到音频信号对应的深度信息。

可选的，步骤 21具体可以包括如下步骤：

步骤 21 1、麦克风阵列捕捉至少两路音频信号作为第一输入音频流，各路音频信号为多个音源的声音组成的混合音频信号；

步骤 212、使用音频信号分离方法分离第一输入音频流中的各路音频信号，分别获取每个音源的声音对应的音频信号，将每个音源的声音对应的音频信号组成输入音频流。

在步骤 21和步骤 22中，最为简单的情况，麦克风阵列由两个麦克风组成，因此输入音频流最少包含两路音频信号，然后使用麦克风阵列处理方法，例如波束形成方法，处理输入音频流获得增强后的音频信号以及音频信号的方向信息。

在步骤 2 3和步骤 24中，最为简单的情况，摄像机组由两个摄像机组成，因此输入视频流最少包含两路视频信号。然后根据输入视频流获得主视频和辅助视频，在存在两个摄像机的情况下，可以获得一个辅助视频；如果一个摄像机组有两个以上的摄像机组成，则可以获得多个辅助视频。同时，选择输入视频流中的一个或者多个视频流作为主视频，最为简单的情况，在有两个摄像机存在的情况下，取其中一个摄像机捕捉到的视频为主视频。

需要说明的是，步骤 21、步骤 22与步骤 2 3、步骤 24之间没有严格的时序关系，即在具体的实现中，也可以先执行步骤 23和步骤 24 , 然后再执行步骤 21 和步骤 22 , 因此任何顺序的调换，都能够达到本发明实施例的技术效果。

下面讲述本实施例步骤 26-28获取音频信号的距离信息的具体过程。如图 5所示，为本发明音频信号的生成方法实施例二中计算音频信号在辅助视频中的横坐标的示意图，图中原点 0点对应摄像机镜头的中心， z轴沿摄像机镜头垂直方向， ^轴与轴组成的平面与 z轴垂直。空间点所在平面为会场中音源点 ^ρι所在且与 z轴相垂直的平面，该平面与 O点沿 z轴的距离，即物距为空间点所在平面为音源点的成像点 A所在且与 z轴相垂直的平面，它与 O点沿 z轴的距离，即像距等于相机的焦距/。令音源点到^轴和^轴的距离分别为和；令音源点 ^P\经过摄像机的成像点 A点到轴和 Λ轴的距离分别为和 w。麦克风阵列测得 0点与 S点的矢量^在; S平面上的投影与 z轴的夹角为 Z« , 那么才艮据直角三角形的性质，可以得到 w为：如图 6所示，为本发明音频信号的生成方法实施例二中计算音频信号在辅助视频中的纵坐标的示意图，麦克风阵列测得 0点与 S点的矢量 ^在! ^平面上的投影与 z轴的夹角为 Z ，那么根据直角三角形的性质，可以得到为： h = f - ta ( ) 使用公式（1 ) 和公式（2 ) , 即可得到音源点 S对应的成像点 P₂的坐标 ( w , )。由于辅助视频和摄像机成像的大小和位置信息均相同，因此成像点 P₂的坐标（ w， // ) 即为音源点 S在辅助视频上的对应点的坐标。

如果辅助视频为深度图，根据坐标直接从深度图中获取音源点 ^对应的深度信息。

如果辅助视频为视差图，根据坐标从视差图中获取音源点 S对应的视差，根据视差按照下式计算得到深度信息：

其中， ^表示深度， p表示视差，表示视点离显示器的距离，表示人的两目艮之间的距离。

下面介绍公式（3 )的推导过程。如图 7所示，为本发明音频信号的生成方法实施例二中平行摄像机系统下图像视差和深度以及视点离显示器的距离的关系示意图，系统的原点坐标 0位于显示屏上， Z轴朝向视点，轴对应显示屏， ^表示深度， p表示视差， D表示视点离显示器的距离， _¾表示人的两目艮之间的距离，人的左右眼所在位置对应在坐标系中的坐标分别为（0, D) , (x_B , D) , 音频信号的位置为（ , ）， _¾和_¾分别指视点在左眼和右目艮视图中在显示屏中的坐标，而 ¾和¾之间的距离 p即为视差。

通过简单的几何关系可以得到： ^XL _ P 和 ^XR ~^XB _ ^XB

D D-z_p D D

上面两式联立得到：

令 p = -_¾, 可得视差 p和深度 z_p关系如下：

进一步表示为： χ_Β-ρ

如图 8所示，为本发明音频信号的生成方法实施例二中计算音频信号的距离的 xz平面示意图，为音频信号的坐标信息，其中深度 ^已经得出，麦克风阵列测得坐标原点 O点与点形成的矢量在 ^平面上的投影与 ζ轴的夹角为 ζ« , 则可以通过下式计算音频信号的横坐标 _Χρ：

x_p=z_p -tan(«)

这样，获取音频信号的坐标信息 (x_p, ）后，定位会场中的一个视点位于 (0,D)点后，在 Z平面上，音频信号的距离信息即为距离 P对应的矢量为 VP。

如图 9所示，为本发明音频信号的生成方法实施例二中计算音频信号的距离的 γζ平面示意图，

为音频信号的坐标信息，麦克风阵列测得坐标原点 0点与点形成的矢量^在; ^平面上的投影与 z轴的夹角为 Ζβ, 则可以通过下式计算音频信号在显示会场中的纵坐标：

这样，获取音频信号的坐标信息后，定位会场中的一个视点位于 (o,D)点后，在平面上，音频信号的距离信息即为距离 p对应的矢量为

VP。

可选的，本实施例还可以包括如下步骤：

步骤 210、将辅助视频进行编码并发送。

本实施例分别利用麦克风阵列和摄像机组获得输入音频流和输入视频流 ,然后居输入音频流和输入视频流获得音频信号的方向信息和辅助视频 , 再根据音频信号的方向信息和辅助视频计算音频信号的距离信息，能够在不增加麦克风阵列体积的情况下，结合三维视频信号和三维音频信号准确获得音频信号的位置信息，包括方向信息和距离信息，进而实现音频信号的发送。

进一步地，本实施例能够在麦克风阵列所在环境中存在多个非噪声音源时，例如多人在同时讲话时，使用音频信号分离方法从麦克风阵列捕捉的第一输入音频流中分离出每个音源的声音对应的音频信号，将每个音源的声音对应的音频信号组成输入音频流，继续对输入音频流进行处理，准确地得到每个音源的声音对应的音频信号的位置信息，包括方向信息和距离信息。

进一步地，考虑到在实际布置系统时，麦克风阵列测量声源方向时所采用坐标系并不一定和摄像系统的坐标系重合，因此，需要对这两个坐标系进行变换，使得计算均在同一坐标系下进行。

音频信号的生成方法实施例三

可选的，如图 10所示，为本发明音频信号的生成方法实施例三流程示意图，在图 4所示技术方案基石出上，步骤 210还可以为：

步骤 21 3、将主视频和辅助视频进行编码并发送。

本实施例能够在不增加麦克风阵列体积的情况下，结合三维视频信号和三维音频信号准确获得音频信号的位置信息，包括方向信息和距离信息，进一步实现音频信号和视频信号的发送。

音频信号的生成装置实施例一

如图 11所示，为本发明音频信号的生成装置实施例一结构示意图，具体可以包括音频信号的距离信息获取模块 31 和音频信号编码模块 32 , 音频信号编码模块 32与音频信号的距离信息获取模块 31连接。其中，音频信号的距离信息获取模块 31用于根据获取的音频信号的方向信息和辅助视频，生成视点所处位置对应的音频信号的距离信息，其中辅助视频为视差图或深度图；音频信号编码模块 32用于将音频信号、音频信号的方向信息以及音频信号的距离信息进行编码并发送。

本实施例中音频信号的距离信息获取模块 31 根据获取的音频信号的方向信息和辅助视频生成音频信号的距离信息，音频信号编码模块 32将音频信号、音频信号的方向信息以及音频信号的距离信息进行编码并发送，从而能够在不增加麦克风阵列体积的情况下，结合三维视频信号和三维音频信号准确获得音频信号的位置信息，包括方向信息和距离信息，进一步实现音频信号的发送。

音频信号的生成装置实施例二

如图 12所示，为本发明音频信号的生成装置实施例二结构示意图，在图 1 1 所示结构示意图基石出上，音频信号的距离信息获取模块 31具体可以包括深度信息获取单元 31 1、坐标信息获取单元 312和距离信息获取单元 31 3 , 坐标信息获取单元 312与深度信息获取单元 31 1连接，距离信息获取单元 31 3 与坐标信息获取单元 312连接，其中深度信息获取单元 31 1用于根据音频信号的方向信息和辅助视频，获取音频信号的深度信息；坐标信息获取单元 312 用于根据深度信息和音频信号的方向信息，获取音频信号在显示会场中的坐标信息；距离信息获取单元 31 3用于根据音频信号的坐标信息和视点的位置信息，生成视点所处位置对应的音频信号的距离信息，将音频信号的距离信息发送给音频信号编码模块 32。

本实施例还可以包括麦克风阵列 33、音频输入信号处理模块 34、视频采集模块 35和视频输入信号处理模块 36 , 音频输入信号处理模块 34与麦克风阵列 33连接，视频输入信号处理模块 36与视频采集模块 35连接。其中，麦克风阵列 33用于麦克风阵列捕捉至少两路音频信号作为输入音频流；音频输入信号处理模块 34用于利用麦克风阵列处理方法处理输入音频流，获得增强后的音频信号以及音频信号的方向信息，将音频信号和音频信号的方向信息发送给音频信号编码模块 32 ; 视频采集模块 35用于摄像机组捕捉至少两路视频信号作为输入视频流；视频输入信号处理模块 36用于根据输入视频流，获得主视频和辅助视频。麦克风阵列 33具体可以包括麦克风阵列单元 330和音频信号分离单元 331。其中，麦克风阵列单元 330用于麦克风阵列捕捉至少两路音频信号作为第一输入音频流，各路音频信号为多个音源的声音组成的混合音频信号；音频信号分离单元 331用于使用音频信号分离方法分离第一输入音频流中的各路音频信号，分别获取每个音源的声音对应的音频信号，将每个音源的声音对应的音频信号组成输入音频流，将输入音频流发送给音频输入信号处理模块 34。

可选的，音频信号的距离信息获取模块 31还可以包括坐标变换单元 314 , 与视频输入信号处理模块 36和音频输入信号处理模块 34连接，用于根据麦克风阵列和摄像机组的位置信息将辅助视频和音频信号的方向信息换算到同一坐标系下，将坐标变换后的辅助视频和音频信号的方向信息发送给深度信息获取单元 311 , 将坐标变换后的音频信号的方向信息发送给坐标信息获取单元 312。

可选的，本实施例还可以包括第一视频编码模块 38 , 与视频输入信号处理模块 36连接，用于将辅助视频进行编码并发送。

可选的，本实施例还可以包括发送端通信接口 39 , 与音频信号编码模块 32、第一视频编码模块 38连接，用于将编码数据通过网络进行发送。

视频采集模块 35通常使用两个摄像机组成的摄像机组来拍摄场景，也有可能采用能直接得出深度信息的深度摄像机来直接获得深度信息，在此情况下将不再需要视频输入信号处理模块 36。如果麦克风阵列 33提供了音频输入信号处理模块 34 的功能，在此情况下将不再需要音频输入信号处理模块 34。

本实施例中音频信号的距离信息获取模块 31 根据获取的音频信号的方向信息和辅助视频生成音频信号的距离信息，音频信号编码模块 32将音频信号、音频信号的方向信息以及音频信号的距离信息进行编码并发送，第一视频编码模块 38将辅助视频进行编码并发送，从而能够在不增加麦克风阵列体积的情况下，结合三维视频信号和三维音频信号准确获得音频信号的位置信息，包括方向信息和距离信息，进一步实现音频信号和辅助视频的发送。进一步地，考虑到在实际布置系统时，麦克风阵列测量声源方向时所采用坐标系并不一定和摄像系统的坐标系重合，因此坐标变换单元 314对这两个坐标系进行变换，使得计算均在同一坐标系下进行。

音频信号的生成装置实施例三

如图 1 3所示，为本发明音频信号的生成装置实施例三结构示意图，在图 12所示结构示意图基石出上，第一视频编码模块 38还可以为第二视频编码模块 315 , 用于将主视频和辅助视频进行编码并发送。

在图 12所示结构示意图基石出上，发送端通信接口 39与音频信号编码模块 32和第二视频编码模块 315连接。

本实施例中音频信号的距离信息获取模块 31 根据获取的音频信号的方向信息和辅助视频生成音频信号的距离信息，音频信号编码模块 32将音频信号、音频信号的方向信息以及音频信号的距离信息进行编码并发送，第二视频编码模块 315将主视频和辅助视频进行编码并发送，从而能够在不增加麦克风阵列体积的情况下，结合三维视频信号和三维音频信号准确获得音频信号的位置信息，包括方向信息和距离信息，进一步实现音频信号和视频信号的发送。

进一步地，考虑到在实际布置系统时，麦克风阵列测量声源方向时所采用坐标系并不一定和摄像系统的坐标系重合，因此坐标变换单元 314对这两个坐标系进行变换，使得计算均在同一坐标系下进行。

音频信号的播放方法实施例一

如图 14所示，为本发明音频信号的播放方法实施例一流程示意图，具体可以包括如下步骤：步骤 41、将接收到的编码数据进行解码，获得音频信号和音频信号的方向信息；

步骤 42、获取音频信号的距离信息；

步骤 43、根据音频信号的方向信息以及音频信号的距离信息，利用音频信号重现方法对音频信号进行处理，得到与各个扬声器对应的扬声器信号；步骤 44、使用扬声器阵列或者环绕立体声系统播放扬声器信号。

本实施例将接收到的编码数据进行解码，获得音频信号和音频信号的方向信息，获取音频信号的距离信息，根据音频信号的方向信息和音频信号的距离信息对音频信号进行处理，得到扬声器信号，再播放扬声器信号，从而能够在不增加麦克风阵列体积的情况下，结合三维视频信号和三维音频信号准确获得音频信号的位置信息，包括方向信息和距离信息，进一步实现音频信号播放。

音频信号的播放方法实施例二

可选的，如图 15所示，为本发明音频信号的播放方法实施例二流程示意图，在图 14所示技术方案基石出上，步骤 42具体可以包括：

步骤 421、将接收到的编码数据进行解码获得音频信号的距离信息。本实施例将接收到的编码数据进行解码，获得音频信号和音频信号的方向信息和音频信号的距离信息，根据音频信号的方向信息和音频信号的距离信息对音频信号进行处理，得到扬声器信号，再播放扬声器信息，从而能够在不增加麦克风阵列体积的情况下，将接收到的编码数据进行解码，准确获得音频信号的位置信息，包括方向信息和距离信息，进一步实现音频信号播放。

音频信号的播放方法实施例三

如图 16所示，为本发明音频信号的播放方法实施例三流程示意图，可选的，在图 14所示技术方案基石出上，还可以包括：

步骤 51、将接收到的编码数据进行解码，获得辅助视频。

可选的，在图 14所示技术方案基石出上，步骤 42具体可以包括：步骤 422、根据音频信号的方向信息和辅助视频，获取音频信号的深度信息；

步骤 423、根据深度信息和音频信号的方向信息，获取音频信号在显示会场中的坐标信息；

步骤 424、根据音频信号的坐标信息和视点的位置信息，生成视点所处位置对应的音频信号的距离信息。

可选的，步骤 422之前还可以包括如下步骤：

步骤 421、根据麦克风阵列和摄像机组的位置信息将辅助视频和音频信号的方向信息换算到同一坐标系下。

本实施例将接收到的编码数据进行解码，获取音频信号、音频信号的方向信息和辅助视频，根据音频信号的方向信息和辅助视频获取音频信号的距离信息，根据音频信号的方向信息和音频信号的距离信息对音频信号进行处理，得到扬声器信号，再播放扬声器信息，从而能够在不增加麦克风阵列体积的情况下，结合三维视频信号和三维音频信号准确获得音频信号的位置信息，包括方向信息和距离信息，进一步实现音频信号播放。

音频信号的播放方法实施例四

如图 17所示，为本发明音频信号的播放方法实施例四流程示意图，可选的，在图 14所示技术方案基石出上，还可以包括：

步骤 52、将接收到的编码数据进行解码，获得辅助视频和主视频。可选的，在图 14所示技术方案基石出上，步骤 42具体可以包括：步骤 53、根据音频信号的方向信息和辅助视频，获取音频信号的深度信息；

步骤 54、根据深度信息和音频信号的方向信息，获取音频信号在显示会场中的坐标信息；

步骤 55、根据音频信号的坐标信息和视点的位置信息，生成视点所处位置对应的音频信号的距离信息。可选的，步骤 53之前还可以包括如下步骤：

步骤 50、根据麦克风阵列和摄像机组的位置信息将辅助视频和音频信号的方向信息换算到同一坐标系下。

可选的，在图 14所示技术方案基石出上，还可以包括如下步骤：

步骤 56、利用三维视频显示方法，对主视频和辅助视频进行处理，得到显示视频信号；

步骤 57、播放显示视频信号。

本实施例将接收到的编码数据进行解码，获取音频信号、音频信号的方向信息以及辅助视频和主视频，根据音频信号的方向信息和辅助视频获取音频信号的距离信息，根据音频信号的方向信息和音频信号的距离信息对音频信号进行处理，得到扬声器信号，再播放扬声器信息在不增加麦克风阵列体积的情况下，结合三维视频信号和三维音频信号准确获得音频信号的位置信息，包括方向信息和距离信息，进一步实现音频信号播放。

进一步地，本实施例对主视频和辅助视频进行处理，得到显示视频信号，再播放显示视频信号，从而实现对视频信号的播放，达到视频信号和音频信号的结合。

音频信号的播放装置实施例一

如图 18所示，为本发明音频信号的播放装置实施例一结构示意图，具体可以包括：音频信号解码模块 316、接收端音频信号的距离信息获取模块 317、扬声器信号获取模块 318和扬声器信号播放模块 319 , 接收端音频信号的距离信息获取模块 317与音频信号解码模块 316连接,扬声器信号获取模块 318 分别与音频信号解码模块 316和接收端音频信号的距离信息获取模块 317连接，扬声器信号播放模块 319与扬声器信号获取模块 318连接。其中，音频信号解码模块 316用于将接收到的编码数据进行解码，获得音频信号和音频信号的方向信息；接收端音频信号的距离信息获取模块 317用于获取音频信号的距离信息；扬声器信号获取模块 318用于从音频信号解码模块 316接收音频信号和音频信号的方向信息，从接收端音频信号的距离信息获取模块 31 7 接收音频信号的距离信息，根据音频信号的方向信息以及音频信号的距离信息，利用音频信号重现方法对音频信号进行处理，得到与各个扬声器对应的扬声器信号；扬声器信号播放模块 319用于使用扬声器阵列或者环绕立体声系统播放扬声器信号。

如果扬声器信号播放模块 319 , 例如扬声器阵列提供了扬声器信号获取模块 318的功能，则不再需要扬声器信号获取模块 318。

本实施例中音频信号解码模块 316将接收到的编码数据进行解码，获得音频信号和音频信号的方向信息，接收端音频信号的距离信息获取模块 317 获取音频信号的距离信息，扬声器信号获取模块 318根据音频信号的方向信息和音频信号的距离信息对音频信号进行处理，得到扬声器信号，扬声器信号播放模块 319再播放扬声器信号，从而能够在不增加麦克风阵列体积的情况下，结合三维视频信号和三维音频信号准确获得音频信号的位置信息，包括方向信息和距离信息，进一步实现音频信号播放。

音频信号的播放装置实施例二

如图 19所示，为本发明音频信号的播放装置实施例二结构示意图，在图 18所示结构示意图基石出上，接收端音频信号的距离信息获取模块 317具体可以为音频信号的距离信息解码模块 320 , 用于将接收到的编码数据进行解码获得音频信号的距离信息。

本实施例还可以包括接收端通信接口 321 , 用于接收通过网络发送过来的编码数据，将编码数据传送给音频信号解码模块 316。

本实施例中音频信号解码模块 316将接收到的编码数据进行解码，获得音频信号和音频信号的方向信息，通过音频信号的距离信息解码模块 320将接收到的编码数据进行解码获得音频信号的距离信息 , 扬声器信号获取模块 31 8 根据音频信号的方向信息和音频信号的距离信息对音频信号进行处理，得到扬声器信号，扬声器信号播放模块 319再播放扬声器信号，从而能够在不增加麦克风阵列体积的情况下，将接收到的编码数据进行解码，准确获得音频信号的位置信息，包括方向信息和距离信息，进一步实现音频信号播放。

音频信号的播放装置实施例三

如图 20所示，为本发明音频信号的播放装置实施例三结构示意图，在图 18所示结构示意图基础上，还可以包括第一视频信号解码模块 322 , 用于将接收到的编码数据进行解码，获得辅助视频。

在图 18 所示结构示意图基础上，接收端音频信号的距离信息获取模块 317具体可以为音频信号的距离信息获取模块 31 , 与音频信号解码模块 316 和第一视频信号解码模块 322连接，用于根据音频信号的方向信息和辅助视频生成音频信号的距离信息。

音频信号的距离信息获取模块 31具体可以包括深度信息获取单元 311、坐标信息获取单元 312和距离信息获取单元 31 3 , 坐标信息获取单元 312与深度信息获取单元 311连接，距离信息获取单元 31 3与坐标信息获取单元 312 连接。其中，深度信息获取单元 31 1用于根据音频信号的方向信息和辅助视频，获取音频信号的深度信息；坐标信息获取单元 312用于根据深度信息和音频信号的方向信息，获取音频信号在显示会场中的坐标信息；距离信息获取单元 31 3用于根据音频信号的坐标信息和视点的位置信息，生成视点所处位置对应的音频信号的距离信息。

音频信号的距离信息获取模块 31还可以包括：坐标变换单元 314 , 与第一视频信号解码模块 322和音频信号解码模块 316连接，用于根据麦克风阵列和摄像机组的位置信息将辅助视频和音频信号的方向信息换算到同一坐标系下，将坐标变换后的辅助视频和音频信号的方向信息发送给深度信息获取单元 311 , 将坐标变换后的音频信号的方向信息发送给坐标信息获取单元 312。

在图 18 所示结构示意图基础上，本实施例还可以包括接收端通信接口 321 , 用于接收通过网络发送过来的编码数据，将编码数据发送给音频信号解码模块 316和第一视频信号解码模块 322。

本实施例中音频信号解码模块 316将接收到的编码数据进行解码，获得音频信号和音频信号的方向信息，音频信号的距离信息获取模块 31根据音频信号的方向信息和辅助视频生成音频信号的距离信息，扬声器信号获取模块 318 根据音频信号的方向信息和音频信号的距离信息对音频信号进行处理，得到扬声器信号，扬声器信号播放模块 319再播放扬声器信号，从而在不增加麦克风阵列体积的情况下，结合三维视频信号和三维音频信号准确获得音频信号的位置信息，包括方向信息和距离信息，进一步实现音频信号播放。

音频信号的播放装置实施例四

如图 21所示，为本发明音频信号的播放装置实施例四结构示意图，在图 18所示结构示意图基础上，还可以包括第二视频信号解码模块 323、视频输出信号处理模块 324和视频输出模块 325 , 视频输出信号处理模块 324与第二视频信号解码模块 323连接，视频输出模块 325与视频输出信号处理模块 324连接。其中，第二视频信号解码模块 323用于将接收到的编码数据进行解码，获得辅助视频和主视频；视频输出信号处理模块 324用于利用三维视频显示方法，对主视频和辅助视频进行处理，得到显示视频信号；视频输出模块 325用于播放显示视频信号。

在图 18 所示结构示意图基础上，接收端音频信号的距离信息获取模块 317具体可以为音频信号的距离信息获取模块 31 , 与音频信号解码模块 31 6 和第二视频信号解码模块 32 3连接，用于根据音频信号的方向信息和辅助视频生成音频信号的距离信息。

音频信号的距离信息获取模块 31具体可以包括深度信息获取单元 31 1、坐标信息获取单元 312和距离信息获取单元 31 3 , 坐标信息获取单元 312与深度信息获取单元 31 1连接，距离信息获取单元 31 3与坐标信息获取单元 31 2 连接。其中，深度信息获取单元 31 1用于根据音频信号的方向信息和辅助视频，获取音频信号的深度信息；坐标信息获取单元 312用于根据深度信息和音频信号的方向信息，获取音频信号在显示会场中的坐标信息；距离信息获取单元 31 3用于根据音频信号的坐标信息和视点的位置信息，生成视点所处位置对应的音频信号的距离信息。

音频信号的距离信息获取模块 31还可以包括：坐标变换单元 314 , 与音频信号解码模块 316和第二视频信号解码模块 323连接，用于根据麦克风阵列和摄像机组的位置信息将辅助视频和音频信号的方向信息换算到同一坐标系下，将坐标变换后的辅助视频和音频信号的方向信息发送给深度信息获取单元 31 1 , 将坐标变换后的音频信号的方向信息发送给坐标信息获取单元 312。

在图 18 所示结构示意图基础上，本实施例还可以包括接收端通信接口 321 , 用于接收通过网络发送过来的编码数据，将编码数据发送给音频信号解码模块 316和第二视频信号解码模块 323。

视频输出模块 325通常为一个立体显示器，如果立体显示器提供了视频输出信号处理模块 324的功能，在此情况下将不再需要视频输出信号处理模块 324。

本实施例中音频信号解码模块 316将接收到的编码数据进行解码，获得音频信号和音频信号的方向信息，音频信号的距离信息获取模块 31根据音频信号的方向信息和辅助视频生成音频信号的距离信息，扬声器信号获取模块 318 根据音频信号的方向信息和音频信号的距离信息对音频信号进行处理，得到扬声器信号，扬声器信号播放模块 319再播放扬声器信号，从而能够在不增加麦克风阵列体积的情况下，结合三维视频信号和三维音频信号准确获得音频信号的位置信息，包括方向信息和距离信息，进一步实现音频信号的播放。

进一步地，视频输出信号处理模块 324利用三维视频显示方法，对主视频和辅助视频进行处理，得到显示视频信号，视频输出模块 325播放显示视频信号，从而实现视频信号的播放，达到视频信号和音频信号的结合。

音频信号的处理系统实施例

如图 22所示，为本发明音频信号的处理系统实施例结构示意图，音频信号的处理系统 329具体可以包括音频信号的生成装置 327和音频信号的播放装置 328。

其中，音频信号的生成装置 327具体可以包括音频信号的距离信息获取模块 31和音频信号编码模块 32 , 音频信号编码模块 32与音频信号的距离信息获取模块 31连接。其中，音频信号的距离信息获取模块 31用于根据获取的音频信号的方向信息和辅助视频，生成视点所处位置对应的音频信号的距离信息，其中辅助视频为视差图或深度图；音频信号编码模块 32 , 将音频信号、音频信号的方向信息以及音频信号的距离信息进行编码并发送。音频信号的播放装置 328具体可以包括音频信号解码模块 316、接收端音频信号的距离信息获取模块 317、扬声器信号获取模块 318和扬声器信号播放模块 319 , 接收端音频信号的距离信息获取模块 317与音频信号解码模块 316连接，扬声器信号获取模块 318分别与音频信号解码模块 316和接收端音频信号的距离信息获取模块 317连接，扬声器信号播放模块 319与扬声器信号获取模块 318连接。其中，音频信号解码模块 316用于将接收到的编码数据进行解码，获得音频信号和音频信号的方向信息；接收端音频信号的距离信息获取模块 317用于获取音频信号的距离信息；扬声器信号获取模块 318 用于根据音频信号的方向信息以及音频信号的距离信息，利用音频信号重现方法对音频信号进行处理，得到与各个扬声器对应的扬声器信号；扬声器信号播放模块 319用于使用扬声器阵列或者环绕立体声系统播放扬声器信号。

本实施例还可以包括回声抵消模块 320 , 与音频信号的生成装置 327和音频信号的播放装置 328连接，用于消除回声。

本实施例能够在不增加麦克风阵列体积的情况下，结合三维视频信号和三维音频信号准确获得音频信号的位置信息，包括方向信息和距离信息，进一步实现音频信号的发送和播放。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤，而前述的存储介质包括： ROM, RAM, 磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

权利要求

1、一种音频信号的生成方法，其特征在于，包括：

2、根据权利要求 1所述的音频信号的生成方法，其特征在于，所述获取的音频信号的方向信息和辅助视频包括：

麦克风阵列捕捉至少两路音频信号作为输入音频流；

利用麦克风阵列处理方法处理所述输入音频流，获得增强后的音频信号以及所述音频信号的方向信息；

摄像机组捕捉至少两路视频信号作为输入视频流；

根据所述输入视频流，获得主视频和所述辅助视频。

3、根据权利要求 2所述的音频信号的生成方法，其特征在于，所述麦克风阵列捕捉至少两路音频信号作为输入音频流包括：

麦克风阵列捕捉至少两路音频信号作为第一输入音频流，各路音频信号为多个音源的声音组成的混合音频信号；

使用音频信号分离方法分离所述第一输入音频流中的各路音频信号，分别获取每个音源的声音对应的音频信号，将每个音源的声音对应的音频信号组成输入音频流。

4、根据权利要求 1或 2所述的音频信号的生成方法，其特征在于，还包括：

将所述辅助视频进行编码并发送。

5、根据权利要求 1或 2所述的音频信号的生成方法，其特征在于，还包括：

将主视频和所述辅助视频进行编码并发送。

6、根据权利要求 1 所述的音频信号的生成方法，其特征在于，所述生成视点所处位置对应的音频信号的距离信息具体包括：根据所述音频信号的方向信息和所述辅助视频，获取所述音频信号的深度信息；

根据所述深度信息和音频信号的方向信息，获取音频信号在显示会场中的坐标信息；

根据所述音频信号的坐标信息和视点的位置信息，生成视点所处位置对应的音频信号的距离信息。

7、根据权利要求 6所述的音频信号的生成方法，其特征在于，所述获取所述音频信号的深度信息具体包括：

根据所述音频信号的方向信息获取所述音频信号在所述辅助视频中的坐标，判断所述辅助视频为深度图还是视差图；

如果所述辅助视频为深度图，根据所述坐标直接从所述深度图中获取所述音频信号对应的深度信息；

如果所述辅助视频为视差图，根据所述坐标从所述视差图中获取所述音频信号对应的视差，根据所述视差计算得到所述音频信号对应的深度信息。

8、根据权利要求 6所述的音频信号的生成方法，其特征在于，所述获取所述音频信号的深度信息之前还包括：

根据麦克风阵列和摄像机组的位置信息将所述辅助视频和所述音频信号的方向信息换算到同一坐标系下。

9、一种音频信号的生成装置，其特征在于，包括：

音频信号的距离信息获取模块，用于根据获取的音频信号的方向信息和辅助视频，生成视点所处位置对应的音频信号的距离信息，其中所述辅助视频为视差图或深度图；

音频信号编码模块，将音频信号、所述音频信号的方向信息以及所述音频信号的距离信息进行编码并发送。

10、根据权利要求 9所述的音频信号的生成装置，其特征在于，还包括：麦克风阵列，用于捕捉至少两路音频信号作为输入音频流；

音频输入信号处理模块，用于利用麦克风阵列处理方法处理所述输入音频流，获得增强后的音频信号以及音频信号的方向信息，将所述音频信号以及所述音频信号的方向信息发送给所述音频信号编码模块；

视频采集模块，用于捕捉至少两路视频信号作为输入视频流；

视频输入信号处理模块，用于根据所述输入视频流，获得主视频和所述辅助视频。

11、根据权利要求 10所述的音频信号的生成装置，其特征在于，所述麦克风阵列具体包括：

麦克风阵列单元，用于捕捉至少两路音频信号作为第一输入音频流，各路音频信号为多个音源的声音组成的混合音频信号；

音频信号分离单元，用于使用音频信号分离方法分离所述第一输入音频流中的各路音频信号，分别获取每个音源的声音对应的音频信号，将每个音源的声音对应的音频信号组成输入音频流。

12、根据权利要求 10所述的音频信号的生成装置，其特征在于，还包括：

第一视频编码模块，与所述视频输入信号处理模块连接，用于将所述辅助视频进行编码并发送。

1 3、根据权利要求 10所述的音频信号的生成装置，其特征在于，还包括：

第二视频编码模块，与所述视频输入信号处理模块连接，用于将所述主视频和所述辅助视频进行编码并发送。

14、根据权利要求 9所述的音频信号的生成装置，其特征在于，所述音频信号的距离信息获取模块具体包括：

深度信息获取单元，用于根据所述音频信号的方向信息和所述辅助视频，获取所述音频信号的深度信息；

坐标信息获取单元，用于根据所述深度信息和音频信号的方向信息，获取音频信号在显示会场中的坐标信息；

距离信息获取单元，用于根据所述音频信号的坐标信息和视点的位置信息，生成视点所处位置对应的音频信号的距离信息。

15、根据权利要求 14所述的音频信号的生成装置，其特征在于，所述音频信号的距离信息获取模块还包括：

坐标变换单元，用于根据麦克风阵列和摄像机组的位置信息将所述辅助视频和所述音频信号的方向信息换算到同一坐标系下，将坐标变换后的辅助视频和音频信号的方向信息发送给所述深度信息获取单元，将坐标变换后的音频信号的方向信息发送给所述坐标信息获取单元。

16、一种音频信号的播放方法，其特征在于，包括：

使用扬声器阵列或者环绕立体声系统播放所述扬声器信号。

17、根据权利要求 16所述的音频信号的播放方法，其特征在于，所述获取音频信号的距离信息之前还包括：

将接收到的编码数据进行解码，获得辅助视频。

18、根据权利要求 16所述的音频信号的播放方法，其特征在于，所述获取音频信号的距离信息之前还包括：

将接收到的编码数据进行解码，获得辅助视频和主视频。

19、根据权利要求 18所述的音频信号的播放方法，其特征在于，所述获取音频信号的距离信息具体包括：

将接收到的编码数据进行解码获得音频信号的距离信息。

20、根据权利要求 16-18 任一所述的音频信号的播放方法，其特征在于，所述获取音频信号的距离信息具体包括：

根据所述音频信号的方向信息和所述辅助视频生成音频信号的距离信息。

21、根据权利要求 20所述的音频信号的播放方法，其特征在于，所述生成音频信号的距离信息具体包括：根据所述音频信号的方向信息和所述辅助视频，获取所述音频信号的深度信息；

22、根据权利要求 21所述的音频信号的播放方法，其特征在于，所述获取所述音频信号的深度信息之前还包括：

23、根据权利要求 18所述的音频信号的播放方法，其特征在于，还包括：

利用三维视频显示方法，对所述主视频和所述辅助视频进行处理，得到显示视频信号；

播放所述显示视频信号。

24、一种音频信号的播放装置，其特征在于，包括：

25、根据权利要求 24所述的音频信号的播放装置，其特征在于，还包括：第一视频信号解码模块，用于将接收到的编码数据进行解码，获得辅助视频。

26、根据权利要求 24所述的音频信号的播放装置，其特征在于，还包括：

第二视频信号解码模块，用于将接收到的编码数据进行解码，获得辅助视频和主视频；

视频输出信号处理模块，用于利用三维视频显示方法，对所述主视频和所述辅助视频进行处理，得到显示视频信号；

视频输出模块，用于播放所述显示视频信号。

27、根据权利要求 24所述的音频信号的播放装置，其特征在于，所述接收端音频信号的距离信息获取模块具体为音频信号的距离信息解码模块，用于将接收到的编码数据进行解码获得音频信号的距离信息。

28、根据权利要求 24所述的音频信号的播放装置，其特征在于，所述接收端音频信号的距离信息获取模块具体为音频信号的距离信息获取模块，用于根据所述音频信号的方向信息和所述辅助视频生成音频信号的距离信息。

29、根据权利要求 28所述的音频信号的播放装置，其特征在于，所述音频信号的距离信息获取模块具体包括：

30、根据权利要求 29所述的音频信号的播放装置，其特征在于，所述音频信号的距离信息获取模块还包括：

31、一种音频信号的处理系统，其特征在于，包括音频信号的生成装置和音频信号的播放装置；

32、根据权利要求 31所述的音频信号的处理系统，其特征在于，还包括：

回声抵消模块，与所述音频信号的生成装置和所述音频信号的播放装置连接，用于消除回声。