WO2012072008A1

WO2012072008A1 - 视频信号的辅助信息叠加方法及装置

Info

Publication number: WO2012072008A1
Application number: PCT/CN2011/083005
Authority: WO
Inventors: 詹五洲; 王东琦
Original assignee: 华为终端有限公司
Priority date: 2010-11-30
Filing date: 2011-11-26
Publication date: 2012-06-07
Also published as: CN102006453B; CN102006453A

Description

说明书

视频信号的辅助信息叠加方法及装置技术领域

本发明涉及多屏视频通信技术领域，尤其涉及一种视频信号的辅助信息叠加方法及装置。背景技术

远程呈现技术是一种近几年出现的将视频通信与沟通体验融为一体的远程会议技术，由于其具有真人大小、超高清晰、低延时的特点，注重真实面对面沟通的效果，因此具有较强的真实感和临场感，在各种视频会议场景中得到了广泛的应用。

远程呈现会议系统注重声音方位和图像的一致性，因而能够很好地满足参会者对图像及声音的需求，但是现有的远程呈现技术仍然存在一定的不足：在一次远程呈现会议中，很有可能出现持不同语种的参会者，从而不同语种的参会者之间可能会存在语言障碍，尤其是听力障碍；同时，即使是在持相同语种的参会者之间，当参会者注意力没有集中或者因为其他客观原因，也有可能导致出现参会者无法听清楚对方的说话内容的情况。因而考虑到这些情况，在远程呈现会议场景中，若将参会者的说话内容以字幕的形式显示在屏幕下方，将会很大程度上方便参会者之间的交流。

现有传统的视频会议系统中，已经存在有将参会者的语音信号转换成字幕信息，同图像一起显示在屏幕上的各种技术，但是这些字幕显示技术均没有考虑到远程呈现会议的特征场景，因此若将该技术直接应用于远程呈现会议场景时会存在一些缺陷：例如远程呈现会场中通常有包括多个屏幕，该多个屏幕用于分别显示远端会场的多个参会者，而若直接按照传统的视频会议字幕显示方法，将无法得知应该将字幕信息显示在哪个屏幕中。而若直接将字幕信息显示在中间的屏幕上，当发言人位于左屏或右屏时，这种字幕显示方式将导致图像和字幕显示方位的不一致，从而使得本地参会者只能择其一地观看发言人的图像或字幕，给参会者带来了不便。发明内容

本发明实施例提供一种视频信号的辅助信息叠加方法及装置，用以克服现有的远程呈现会议技术中出现的字幕与图像的显示方位不一致的缺陷。

为实现上述目的，本发明实施例提供一种视频信号的辅助信息叠加方法，包括：

获取第一会场的音频信号及第一会场的至少一个视频信号，所述至少一个视频信号包含所述第一会场中的多个视频对象；

获取指示信息，所述指示信息用于指示在所述至少一个视频信号的多个视频对象中、与所述音频信号对应的视频对象所处的视频区域; 根据所述指示信息将与所述第一会场的音频信号对应的文本信息与所述视频信号进行叠加处理，以使所述文本信息在所述指示信息所指示的视频区域中显示。

为实现上述目的，本发明实施例还提供一种视频信号的辅助信息叠加装置，包括：

信号获取模块，用于获取第一会场的音频信号及第一会场的至少一个视频信号，所述至少一个视频信号包含所述第一会场中的多个视频对象；

指示信息获取模块，用于获取指示信息，所述指示信息用于指示在所述至少一个视频信号的多个视频对象中、与所述音频信号对应的视频对象所处的视频区域；

信号叠加模块，用于根据所述指示信息将与所述第一会场的音频信号对应的文本信息与所述视频信号进行叠加处理，以使所述文本信息在所述指示信息所指示的视频区域中显示。

本发明实施例提供的视频信号的辅助信息叠加方法及装置，应用在多屏视频通信场景中，通过在将音频信号对应的文本信息与视频信号进行叠加处理之前，获取用于指示当前音频信号在视频信号中所对应的视频对象所处的视频区域的指示信息，并在对视频信号进行叠加处理时，根据该指示信息将当前音频信号对应的文本信息在该音频信号对应的视频对象所处的视频区域中与视频信号进行叠加处理，从而使得当将经叠加处理后的视频信号被显示在对应会场终端的显示屏幕上时，能够保证与音频信号对应的文本信息显示在相对应的视频对象的图像周围，保证了图像与字幕的显示方位的一致性。附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图 1 为本发明实施例提供的视频信号的辅助信息叠加方法实施例一的流程图；

图 2 为本发明实施例提供的视频信号的辅助信息叠加方法实施例二的流程图；

图 3 为本发明实施例视频信号的辅助信息叠加方法所应用的会场的示意图；

图 4 为本发明实施例中叠加后的视频信号在多屏幕上的显示效果示意图；

图 5 为本发明实施例提供的视频信号的辅助信息叠加方法实施例三的流程图；

图 6 为本发明实施例提供的视频信号的辅助信息叠加装置实施例一的结构示意图；

图 7 为本发明实施例提供的视频信号的辅助信息叠加装置实施例二的结构示意图。具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图 1 为本发明实施例提供的视频信号的辅助信息叠加方法实施例一的流程图，如图 1所示，本实施例的方法包括如下步骤：

步骤 100，获取第一会场的音频信号及第一会场中包含多个视频对象的至少一个视频信号；

本发明实施例的视频信号的辅助信息叠加方法可以应用在远程呈现会议系统或者其他类型的在会场中设置了分别与对端会场的多名参会者的对应的多个显示屏幕的视频通信系统中，且本发明实施例中的各步骤可以由设置在会场或服务器中的信息叠加装置执行。由于在这些视频会议系统中，每个会场终端均设置了用于分别显示对端会场的多名参会者的多个显示屏幕，因而对于每个会场终端而言，在与对端会场建立了正常的通信连接后，该会场终端均将向对端会场发送包含了本端会场的多名参会者、即本端会场的多个视频对象的至少一个视频信号，以及本端会场当前的音频信号，该音频信号由本端会场的多名参会者中当前正处于发言状态的参会者所产生，具体地，该音频信号与视频信号中包含的多个视频对象中的一个相对应。

由于对于远程呈现会议系统而言，通常具有两种连接方式，一种是两个会场之间通过网络进行的点对点连接方式，而另一种则是多个会场之间通过设置在多个会场间的多点控制单元（Multipoint Control Unit, 简称 MCU) 进行的点对多点连接方式。在会场点对点连接方式中，本端会场和对端会场将直接进行信号数据的传输，而在会场点对多点的连接方式中，会场间的信号传输通过 MCU进行转发，因而对于信息叠加装置而言，该装置即可以设置在会场终端，也可以设置在 MCU中。本发明实施例同时对这两种实施方式进行描述，且在本发明实施例中，将对当前音频信号和视频信号进行采集，并将采集到的信号发送给对端会场的本端会场称为第一会场。在本步骤中，对于用于对视频信号进行辅助信息叠加处理的信息叠加装置而言，无论该装置被设置在第一会场或者与第一会场相对的对端会场，或者设置在 MCU中，该信息叠加装置均将接收到第一会场的音频信号以及包含有多个视频对象的至少一个视频信号。

步骤 101，获取指示信息，该指示信息用于指示在上述至少一个视频信号的多个视频对象中、与获取到的音频信号对应的视频对象所处的视频区域；

接收到第一会场的视频信号和音频信号后，为了能够将音频信号对应的文本信息以字幕的形式准确地叠加在对应的视频信号以及视频信号的对应视频区域中，使当经叠加处理后的视频信号在对端会场的显示屏幕上进行显示时，字幕信息能够显示在正在发言的参会者的图像下方，以方便会场的参会者之间的沟通，本发明实施例中，信息叠加装置还将进一步获取用于指示视频信号中与音频信号对应的视频信号所在的视频区域的指示信息。

步骤 102，根据指示信息将与获取到的音频信号对应的文本信息与视频信号进行叠加处理，以使该文本信息在指示信息所指示的视频区域中显示。

获取到用于指示当前音频信号所对应的视频对象在视频信号中所处的视频区域的指示信息后，根据该指示信息，信息叠加装置可以将音频信号所对应的文本信息在指示信息中指定的视频区域与视频信号进行叠加处理，而通过将音频信号以文本信息的方式叠加在视频信号对应的视频区域中，即与对应的视频对象进行叠加，当该叠加处理后的视频信号被显示在与第一会场对应的对端会场中时，对端会场的参会者便可以在显示屏幕上，在与第一会场当前正处于发言状态的参会者对应的图像周围看到与该参会者的发言内容对应的字幕信息，保证了图像与字幕的显示方位的一致性。

本实施例的视频信号的辅助信息叠加方法，应用在多图像的视频会议应用场景中，通过在将音频信号对应的文本信息与视频信号进行叠加处理之前，获取用于指示当前音频信号在视频信号中所对应的视频对象所处的视频区域的指示信息，并在对视频信号进行叠加处理时，根据该指示信息将当前音频信号对应的文本信息在该音频信号对应的视频对象所处的视频区域中与视频信号进行叠加处理，从而使得当将经叠加处理后的视频信号被显示在对应会场终端的显示屏幕上时，能够保证与音频信号对应的文本信息显示在相对应的视频对象的图像周围，保证了图像与字幕的显示方位的一致性。图 2为本发明实施例提供的视频信号的辅助信息叠加方法实施例二的流程图。图 3为本发明实施例视频信号的辅助信息叠加方法所应用的会场的示意图。具体地，本方法实施例是以会场间采用点对点连接方式为例，例如以第一会场和第二会场建立通信连接，且第一会场为信号采集发送端，第二会场为信号接收显示端为例，对设置在第二会场的信息叠加装置如何对音频信号、视频信号以及指示信息进行获取，以及如何对视频信号进行辅助信息的叠加处理，并将叠加处理后的视频信号进行显示的具体流程进行了说明。如图 2所示，本实施例的方法包括如下步骤：

步骤 200，第二会场接收第一会场发送的音频信号及包含多个视频对象的至少一个视频信号；

本步骤中，第一会场从本地采集到当前音频信号以及与多个视频对象对应的至少一个视频信号后，将该音频信号以及视频信号直接通过网络发送给第二会场。实际应用中，该包含第一会场的多个视频对象的视频信号可以为一个视频信号或者多个视频信号，即视频信号与视频对象之间的对应关系可以为一对一或者一对多的关系，具体的对应情况根据第一会场中摄像头与参会者之间的设置的不同而有所不同。譬如：第一会场中采用三个摄像头，通过这三个摄像头可以得到三个视频信号；也可以通过广角摄像头 /全景摄像机，通过这一个摄像头或者摄像机就能够拍摄得到第一会场完整图像的 1个视频信号。

步骤 201，第二会场获取用于指示视频信号中与音频信号对应的视频对象所处的视频区域的指示信息；第二会场接收到第一会场发送的音频信号和视频信号后，为了能够将音频信号对应的文本信息在对应的视频信号中与对应的视频对象进行叠加，第二会场还将进一步获取用于指示视频信号中与音频信号对应的视频对象所处的视频区域的指示信息，该指示信息具体可以为用于指示第一会场中当前正处于发言状态的参会者在第一会场内所处位置的图像位置信息。

具体地，由于在上述步骤 200中，第二会场接收到的视频信号可以为一个或者多个，当视频信号为一个时，该指示信息仅用于指示与该视频信号中与当前音频信号对应的视频对象所处的视频位置，即第一会场中当前正处于发言状态的参会者在视频信号中所处的图像位置；而当视频信号为多个时，该指示信息除了用于指示与音频信号对应的视频对象、即第一会场中当前正处于发言状态的参会者在对应的视频信号中所处的视频位置之外，还用于指示多个视频信号中当前与该音频信号所对应的视频信号，即第一视频信号，从而基于该指示信息，第二会场不仅可以得知在第一会场中，当前处于发言状态的参会者所对应的视频对象包含在哪个视频信号中，还能够得知该当前处于发言状态的参会者在该对应的视频信号中所处的具体图像位置。

而在本实施例中，第二会场获取该指示信息的步骤具体可以通过下述几种方式实现：

第二会场可以从接收到的音频信号和视频信号中提取出该指示信息。具体地，第二会场对指示信息的提取又可以通过两种方式实现: 第一种方式，第二会场可以基于接收到的音频信号，从音频信号中提取出用于指示当前音频信号在第一会场中所在方位的音源方位信息，以根据音源方位与视频方位之间的对应关系，将该提取出的音源方位信息转换为指示音频信号对应的视频对象所处的视频区域的图像位置信息，该图像位置信息便为具体的指示信息。具体地，在实际应用中，会场间传输的音频信号通常为多声道信号，而当音频信号为多声道信号时，第二会场可以对该多声道信号中的各个声道信号的能量大小进行比较，从而根据比较结果，第二会场可以判别出其中能量最大的声道信号，该能量最大的声道信号所对应的音源方位便为与当前音频信号对应的音源方位。从而，第二会场可以根据自身存储的各声道信号与水平方位的对应关系，确定与该能量最大的声道信号所对应的方位为当前音频信号的音源方位，从而据此提取得出音源方位信息。

第二种方式，第二会场还可以基于第一会场发送的一个或多个视频信号，从多个视频信号中直接提取出图像位置信息，即提取出指示信息。具体地，第二会场可以在接收到第一会场的视频信号后，对视频信号的图像中包含的各视频对象、即各名参会者的唇部运动状态进行捕捉检测，即检测视频信号所对应的图像中，各名参会者的嘴唇是否有开合的运动，从而以确定第一会场中与当前处于发言状态的参会者所对应的视频信号，以及该名参会者在对应的视频信号中所处的图像位置。若对应于某个视频信号，其所对应的图像中某名参会者的唇部存在开合的运动，则可以确定该视频信号中包含的这名参会者为当前处于发言状态的参会者，从而第二会场根据自身存储的各视频信号与图像位置的对应关系，可以确定出第一会场中当前处于发言状态的参会者在第一会场的图像位置信息，同样可以得出上述指示信息。

进一步地，在本发明实施例中，第二会场还可以直接接收第一会场发送的该指示信息，即上述从音频信号及视频信号中提取出指示信息的步骤在第一会场进行，由第一会场依据上述描述的方法从采集到的音频信号或视频信号中提取出指示信息后，直接将该指示信息发送给第二会场。具体地，第一会场在提取出该指示信息后，可以将该指示信息随同采集到的音频信号以及视频信号一起发送给第二会场，从而使得第二会场能够直接根据该指示信息得知与当前接收到的音频信号所对应的视频信号，以及与该音频信号对应的视频对象在该视频信号中所处的视频位置。

而需要说明的是，第一会场在本地确定指示信息的方式除了上述描述的从音频信号或视频信号中提取之外，还可以通过其他的方式实现：例如，若第一会场中对于每个参会者均设置有对应的麦克风，在第一会场的任一参会者发言时，与处于发言状态的参会者相对应的麦克风设备可以记录下当前音频信号所对应的音源方位信息，从而第一会场可以将该音源方位信息转换为对应的图像位置信息，在向第二会场发送音频信号及视频信号时，将该图像位置信息一起进行发送；其次，若第一会场中对于各参会者设置的是麦克阵列，基于麦克阵列自身具备的功能，麦克阵列同样可以在采集音频信号的同时采集到该音频信号所对应的音频方位信息；再次，即使对端会场中既未设置有麦克阵列，又未针对每名参会者均设置有对应的麦克风，第一会场还可以通过人工输入的方式，由现场管理人员人工输入该指示信息，从而使得第一会场同样能够将该指示信息发送给第二会场。在本发明实施例中，第一会场确定本地的音频信号所对应的视频信号的方法可以有多种，而本发明实施例并不对此进行限制。

需要说明的是，若在第一会场中某一时刻同时存在多名处于当前发言状态的参会者时，在本实施例中，上述步骤 200中第二会场接收到的音频信号还可以为多个。此时，在本步骤 201中，第二会场获取的指示信息同样也应该相应的为与音频信号数量相等的多个，且每个指示信息分别用于指示对应的音频信号所对应的视频信号，以及对应的音频信号所对应的视频对象各自在对应的视频信号中的视频区域。

步骤 202，第二会场获取与音频信号对应的哑语手势信息和 /或与第一会场的各参会者对应的基本身份信息；

优选地，在本实施例中，为了进一步方便参会者之间的沟通，当考虑到有聋 *人参会的场景时，在第二会场对音频信号对应的文本信息与对应的视频信号进行叠加处理之前，该第二会场还可以获取与当前音频信号对应的哑语手势信息；以及为了方便参会者之间的沟通，第二会场还可以获取与第一会场的各参会者、即各视频对象对应的基本身份信息，以在视频信号叠加处理过程中，将该哑语手势信息以及基本身份信息与文本信息一起叠加在对应的视频信号中。该基本身份信息具体为文本格式，而其中包括的内容具体可以为各名参会者的姓名、职务等相关的基本信息。

具体地，该哑语手势信息可以由第二会场在接收到音频信号后，在本地端对该音频信号进行转换得到，或者，该哑语手势信息还可以由第一会场在采集到音频信号后，将该音频信号转换成 *语手势信息以将其携带在音频信号中发送给第二会场。无论对应哪种情况，若哑语手势信息是由音频信号直接进行转换得到的，当该哑语手势信息被叠加在对应的视频信号中，以及被显示在对应的显示屏幕上时，所显示的是打哑语手势的虚拟人。而在实际应用中，若不采用直接将音频信号转换成哑语手势信息的方案，该哑语手势信息还可以通过在对端的第一会场中添设负责将参会者的说话内容翻译成 *语手势的翻译员，以及通过为该翻译员设置对应的摄像头，以将拍摄到的翻译员的视频信号通过网络传送至第二会场而得到。对应这种情况，该翻译员所对应的视频信号便为与当前音频信号对应的 *语手势信息，而当该哑语手势信息被叠加在对应的视频信号中，以及被显示在对应的显示屏幕上时，所显示的是打哑语手势的真人。

而对于第二会场获取到的第一会场中各名参会者的基本身份信息而言，若第二会场在视频信号进行叠加处理之前，获取到该基本身份信息，在进行视频信号的叠加处理过程中，第二会场除了将上述与音频信号对应的文本信息及 *语手势信息和指定的视频信号在指定的视频区域进行叠加之外，还将指示信息中指定的视频对象的基本身份信息与指定的视频信号一起进行叠加。

步骤 203，第二会场获取与音频信号对应的文本信息；而对于音频信号而言，第二会场为了将与音频信号对应的文本信息叠加在对应的视频信号中，还需要将音频信号转换为对应的文本信息。具体地，在本步骤中，第二会场在接收到音频信号后，可以在本地对音频信号进行语音识别处理，以生成与音频信号对应的文本信息而需要说明的是，该文本信息的转换操作还可以在第一会场中进行，第一会场可以在采集到音频信号后，便在本地端将音频信号进行语音识别，以生成与音频信号对应的文本信息，从而在将音频信号发送给第二会场的同时，将该对应的文本信息一起发送给第二会场；或者该文本信息还可以由第一会场的会议管理员通过手工输入得到。而实际应用中，考虑到参会者所持的各种不同语种，无论是该文本信息的获取是在第一会场或者第二会场进行，在将音频信号进行语音识别转换为文本信息，或者会议管理员手工输入文本信息时，均可以选择将音频信号转换为对应不同语种的多种文本信息，以在显示屏幕中显示各种不同语种的字幕信息。

步骤 204，第二会场将上述文本信息、哑语手势信息和 /或指示信息指定的视频对象的基本身份信息与指示信息中指定的视频信号进行叠加处理；

在获取到了与音频信号对应的文本信息、用于指示音频信号对应的视频对象的指示信息以及哑语手势信息和 /或基本身份信息后，在本步骤中，第二会场在指示信息的指示下，可以将上述文本信息、哑语手势信息和 /或指示信息中指定的视频对象对应的基本身份信息与指示信息中指定的视频信号，在指定的视频区域进行叠加处理，以将各种辅助信息叠加在视频信号中与音频信号对应的视频对象的周围。

需要说明的是，若在上述步骤 200中，第二会场从第一会场获取到的是多个音频信号，且在上述步骤 201中，第二会场从第一会场获取到的是分别与多个音频信号对应的多个指示信息，在本步骤 204中，第二会场对视频信号进行叠加处理时，还应当分别根据与各音频信号对应的各指示信息，将各音频信号对应的文本信息分别与各自的指示信息中指定的视频信号，在指定的视频位置进行叠加处理，优选地，在叠加文本信息的同时，还可以在视频信号中叠加哑语手势信息和 / 或对应的参会者的基本身份信息。

步骤 205，第二会场将除指定的视频信号之外的其他视频信号分别与对应的基本身份信息进行叠加处理；

进一步优选地，对于除指示信息中指定的视频对象外的其他视频对象而言，本发明实施例中，第二会场除了将音频信号对应的文本信息、 *语手势信息等辅助信息与对应的视频信号在指定的视频区域进行叠加处理的同时，若在上述步骤 202中，第二会场还从第一会场获取了与各视频信号对应的、第一会场的各名参会者的基本身份信息，在本步骤中，第二会场还可以将除指示信息指定的视频对象外的其他的视频对象分别对应的基本身份信息分别与这些视频对象所在的视频信号，在相应的视频区域进行叠加处理，从而当这些叠加后的视频信号在第二会场中对应的显示屏幕上显示时，第二会场的参会者还能够在显示屏幕上显示的第一会场的所有参会者的图像附近看到这些参会者各自的基本信息。

步骤 206，第二会场将叠加处理后的视频信号分别在对应的显示屏幕上进行显示；当将各辅助信息与对应的视频信号进行了叠加处理之后，第二会场将处理后的各视频信号分别在对应的显示屏幕上进行显示，由于第二会场对视频信号的叠加操作在指示信息的指示下进行，因而与音频信号对应的字幕文本信息、 *语手势信息及各参会者的基本身份信息能够被准确地叠加在与第一会场中当前处于发言状态的参会者对应的视频位置中，从而保证了当叠加后的视频信号被显示在第二会场的显示屏幕中时，当前处于发言状态的参会者所对应的图像与各辅助信息的显示方位是完全一致的。

从而对于第二会场中的各名参会者而言，第二会场中的各名参会者即可以在显示屏幕上看到对端会场中正在发言的参会者的图像，还可以在该图像周围看到对应该参会者的说话内容的字幕信息以及该名参会者的基本身份信息，进一步地，当第二会场的参会者中有聋哑人时，该聋 *人的参会者还能够在显示屏幕上直接看到与说话内容对应的哑语手势，极大地方便了第二会场与对第一会场的参会者之间的交流沟通。

同时需要说明的是，对于视频会议系统的会场间点对点连接方式，虽然本实施例的上述步骤描述的对各种辅助信息以及指示信息的获取，以及对视频信号的叠加处理均在第二会场中进行，但是在实际应用中，这些步骤也可以在第一会场进行，即第一会场获取指示信息，在指示信息的指示下对视频信号与各辅助信息进行叠加处理之后，再将叠加处理后的视频信号直接发送给第二会场，而对应这种实现方式而言，第二会场无需再对接收到的视频信号进行任何叠加处理操作，直接将接收到的视频信号在显示屏幕上进行显示，也能够得到本实施例所描述的上述效果。

图 4为本发明实施例中叠加后的视频信号在多屏幕上的显示效果示意图。以第一会场中有 4名参会者为例，当指示信息中指示与音频信号所对应的视频信号为序号为 2的视频信号时，在本实施例的上述步骤 204中，第二会场将音频信号所生成的文本信息、该文本信息转换而成的 ffi语手势信息、序号为 2的视频信号所对应的参会者的基本身份信息与序号为 2的视频信号进行叠加，最终经处理后的各视频信号将分别被显示在第二会场的多个屏幕上。如图 4所示，在第二会场的多个显示屏幕上，优选地，与音频信号对应的文本信息可以显示在相应的图像下方，基本身份信息可以显示在相应图像的上方，而哑语手势信息则可以显示在相应图像的任意一侧，从而保证了显示的辅助信息与图像的一致性。

而需要说明的是，若在上述步骤 205中，第二会场还将除指定的视频信号之外的其他视频信号分别与对应的基本身份信息进行叠加处理，在图 4所示的效果示意图中，其他 3名参会者的显示图像附近还将显示这 3名参会者各自的基本身份信息。各种辅助信息在显示屏幕上的具体显示位置可以根据具体需求而定，而本发明实施例并不对此进行限制。

步骤 207，第二会场根据与指示信息对应的音源方位信息播放音频信号。

与此同时，为了进一步保证第二会场播放的对端会场的发言的参会者的声音与显示的该参会者的图像具有同方位性，即具有一致性，在本发明实施例中，第二会场还将根据与指示信息对应的音源方位信息对音频信号进行处理，以根据音源方位信息播放对端会场传送的音频信号。

具体地，若上述步骤 201中，第二会场获取的指示信息是从音频信号中提取得到，即根据音频信号提取出与指示信息对应的音源方位信息，再利用音源方位与视频方位之间的对应关系转换得到指示信息，在本步骤中，第二会场将直接根据提取出的音源方位信息播放接收到的音频信号。而若上述步骤 201对指示信息的获取过程中，第二会场是根据视频信号中视频对象的唇部运动检测得到上述指示信息，则在本步骤中，第二会场还将利用音源方位与视频方位之间的对应关系，将获取到的指示信息转换为对应的音源方位信息，再根据该音源方位信息播放接收到的音频信号，以保证第二会场端声音与图像的一致性。

此外还需要说明的是，若第一会场发送的音频信号为多声道信号，由于多声道信号本身便包含有音源方位信息，因而在对多声道信号进行播放时，第二会场直接在会场端采用对应数目的多个扬声器对多声道信号进行播放，便能够使播放出的声音具有方位感，因而在本步骤中，若对应此种情况时，则无需根据音源方位信息对音频信号进行额外的处理，只需直接采用对应数目的多个扬声器将多声道信号进行播放即可。

本实施例的视频信号的辅助信息叠加方法，应用在多视频图像会议系统中，通过在第二会场将音频信号对应的文本信息与视频信号进行叠加处理之前，获取用于指示当前音频信号在视频信号中所对应的视频对象所处的视频区域的指示信息，并在对视频信号进行叠加处理时，根据该指示信息将当前音频信号对应的文本信息在该音频信号对应的视频对象所处的视频区域中与视频信号进行叠加处理，从而使得当将经叠加处理后的视频信号被显示在对应会场终端的显示屏幕上时，能够保证与音频信号对应的文本信息显示在相对应的视频对象的图像周围，保证了图像与字幕的显示方位的一致性。

进一步地，本实施例中，还通过在第二会场对对端会场发送的视频信号与音频信号对应的文本信息进行叠加处理之前，对音频信号对应的哑语手势信息和 /或对端会场的各参会者的基本身份信息进行获取，在对文本信息与当前处于发言状态的参会者对应的视频信号进行叠加处理的同时，将该哑语手势信息和 /或各基本身份信息与对应的视频对象进行叠加，从而不仅实现了在显示端会场的显示屏幕的相应位置显示对端会场的各名参会者的基本信息，还实现了在相应位置显示对端会场的发言者的说话内容一致的哑语手势，进一步地方便了参会者之间的沟通。

图 5为本发明实施例提供的视频信号的辅助信息叠加方法实施例三的流程图。本实施例的方法以 MCU的点对多连接方式为例，对设置在 MCU中的信息叠加装置如何对音频信号、视频信号以及指示信息进行获取，以及如何对视频信号进行辅助信息的叠加处理，并将叠加处理后的视频信号发送给所需会场进行显示的具体流程进行了说明。以图 3所示的会场示意图为例，图 3所示的显示屏幕的三个部分可以分别显示来自 3个不同会场的参会者的图像信息，即在此次视频会议中，同时有 4个会场参加了此次会议。

如图 5所示，本实施例的方法主要包括如下步骤：

步骤 300，第一会场将采集到的音频信号和包含多个视频对象的至少一个视频信号发送给 MCU;

在本实施例中，第一会场可以通过 MCU与其他的多个会场之间进行通信连接，因而在 MCU接收到多个会场间的连接请求，并建立了多个会场之间的连接后，对于建立了连接关系的多个会场中的任一会场而言， MCU在接收到该会场发送的音频信号和视频信号后，均可以将接收到的音频信号和视频信号发送给与其建立了连接关系的其他会场，且在本实施例中，对视频信号与辅助信息的叠加处理也可以由 MCU执行。具体地，与上一实施例相同，在本实施例中， MCU 接收到的第一会场发送的视频信号中包含了第一会场的多个视频对象。

步骤 301， MCU获取用于指示视频信号中与音频信号对应的视频对象所处的视频区域的指示信息；

MCU同样可以从接收到的音频信号和视频信号中提取出该指示信息，或者由第一会场提取出该指示信息，以将该指示信息直接发送给 MCU, 而 MCU或第一会场从音频信号或视频信号中提取出该指示信息的实现方法具体可以参见上一实施例的描述。

MCU接收到的视频信号同样可以为一个或者多个，当视频信号为一个时，该指示信息仅用于指示与该视频信号中与当前音频信号对应的视频对象所处的视频位置，即第一会场中当前正处于发言状态的参会者在视频信号中所处的图像位置；而当视频信号为多个时，该指示信息除了用于指示与音频信号对应的视频对象、即第一会场中当前正处于发言状态的参会者在对应的视频信号中所处的视频位置之外，还用于指示多个视频信号中当前与该音频信号所对应的视频信号，从而基于该指示信息， MCU不仅可以得知在第一会场中，当前处于发言状态的参会者所对应的视频对象包含在哪个视频信号中，还能够得知该当前处于发言状态的参会者在该对应的视频信号中所处的具体图像位置。

需要说明的是，若在第一会场中某一时刻同时存在多名处于当前发言状态的参会者时，在本实施例中，上述步骤 300中第一会场发送的音频信号还可以为多个。此时，在本步骤 31中， MCU获取到的指示信息同样也应该相应的为与音频信号数量相等的多个，且每个指示信息分别用于指示对应的音频信号所对应的视频信号，以及对应的音频信号所对应的视频对象各自在对应的视频信号中的视频区域。

步骤 302， MCU获取与音频信号对应的哑语手势信息和 /或与第一会场的各参会者对应的基本身份信息；

优选地，为了进一步方便各会场的参会者之间的沟通，以及考虑到对端会场中有聋哑人参会的场景时，在 MCU对音频信号对应的文本信息与对应的视频信号进行叠加处理之前，该 MCU还可以获取与当前音频信号对应的哑语手势信息，以及与第一会场的各名参会者、即视频信号中包含的各视频对象对应的基本身份信息，该基本身份信息具体为文本格式，而其中包括的内容具体可以为各名参会者的姓名、职务等相关的基本信息。而具体地， MCU获取该哑语手势信息以及参会者的基本身份信息的方法同样可以参见上一实施例中对第二会场执行相应步骤时的描述。

步骤 303， MCU获取与音频信号对应的文本信息；

在本步骤中， MCU在接收到音频信号后，可以在本地对音频信号进行语音识别处理，以生成与音频信号对应的文本信息；或者，该文本信息的转换操作还可以在第一会场中进行，第一会场可以在采集到音频信号后，便在本地端将音频信号进行语音识别，以生成与音频信号对应的文本信息，从而在将音频信号发送给 MCU的同时，将该对应的文本信息一起发送给 MCU; 或者该文本信息还可以由第一会场的会议管理员通过手工输入得到。而实际应用中，考虑到参会者所持的各种不同语种，无论是该文本信息的获取是在第一会场或者 MCU进行，在将音频信号进行语音识别转换为文本信息，或者会议管理员手工输入文本信息时，均可以选择将音频信号转换为对应不同语种的多种文本信息，以在显示屏幕中显示各种不同语种的字幕信息。

步骤 304， MCU将上述文本信息、哑语手势信息和 /或指示信息指定的视频对象的基本身份信息与指示信息中指定的视频信号进行叠加处理；

在获取到了与音频信号对应的文本信息、用于指示音频信号对应的视频对象的指示信息以及哑语手势信息和 /或基本身份信息后，在本步骤中， MCU在指示信息的指示下，将上述文本信息、哑语手势信息和 /或指示信息中指定的视频对象对应的基本身份信息与指示信息中指定的视频信号，在指定的视频区域进行叠加处理，以将各种辅助信息叠加在视频信号中与音频信号对应的视频对象的周围。

需要说明的是，若在上述步骤 300中， MCU从第一会场获取到的是多个音频信号，且在上述步骤 301中， MCU从第一会场获取到的是分别与多个音频信号对应的多个指示信息，在本步骤 304中， MCU对视频信号进行叠加处理时，还应当分别根据与各音频信号对应的各指示信息，将各音频信号对应的文本信息分别与各自的指示信息中指定的视频信号，在指定的视频位置进行叠加处理，优选地，在叠加文本信息的同时，还可以在视频信号中叠加哑语手势信息和 /或对应的参会者的基本身份信息。

步骤 305， MCU将除指定的视频信号之外的其他视频信号分别与对应的基本身份信息进行叠加处理；

步骤 306， MCU将音频信号及经处理后的视频信号发送给与第一会场连接的多个第二会场；

步骤 307，第二会场将叠加处理后的视频信号分别在对应的显示屏幕上进行显示；

MCU在将获取到的各辅助信息与对应的视频信号进行了叠加处理之后，将音频信号以及经处理后的各视频信号发送给与第一会场建立了通信连接的多个第二会场。从而对于各第二会场而言，由于第二会场接收到的各视频信号中已经叠加了各类辅助信息，因而第二会场无需对接收到的视频信号进行额外的处理，而是可以直接将接收到的多个视频信号在各自对应的显示屏幕上进行显示，而在显示的所有辅助信息中，各辅助信息均与对应的图像的方位保持一致。

同时需要说明的是，对于视频会议系统的 MCU点对多连接方式，虽然本实施例的上述步骤描述的对各种辅助信息以及指示信息的获取，以及对视频信号的叠加处理均在 MCU中进行，但是在实际应用中，这些步骤也可以在第一会场或者通过 MCU与该第一会场建立了连接的多个第二会场中进行，即第一会场获取指示信息，在指示信息的指示下对视频信号与各辅助信息进行叠加处理之后，再通过 MCU 将叠加处理后的视频信号发送给多个第二会场；或者第二会场接收到未经处理的音频信号和视频信号后，获取指示信息和辅助信息，以对视频信号和辅助信息进行叠加处理。而无论对应于哪种实现方式，第二会场在将经叠加处理后的视频信号进行显示后，也能够得到本实施例所描述的上述效果。

步骤 308，第二会场根据与指示信息对应的音源方位信息播放音频信号。

进一步地，为了保证第二会场播放的对端会场的发言的参会者的声音与显示的该参会者的图像具有同方位性，即具有一致性，在本发明实施例中，第二会场还将根据与指示信息对应的音源方位信息对音频信号进行处理，以根据音源方位信息播放对端会场传送的音频信号。

本实施例的视频信号的辅助信息叠加方法，应用在多视频图像会议系统中，通过在 MCU将音频信号对应的文本信息与视频信号进行叠加处理之前，获取用于指示当前音频信号在视频信号中所对应的视频对象所处的视频区域的指示信息，并在对视频信号进行叠加处理时，根据该指示信息将当前音频信号对应的文本信息在该音频信号对应的视频对象所处的视频区域中与视频信号进行叠加处理，从而使得当将经叠加处理后的视频信号被显示在对应会场终端的显示屏幕上时，能够保证与音频信号对应的文本信息显示在相对应的视频对象的图像周围，保证了图像与字幕的显示方位的一致性。

进一步地，本实施例中，还通过在 MCU对对端会场发送的视频信号与音频信号对应的文本信息进行叠加处理之前，对音频信号对应的哑语手势信息和 /或对端会场的各参会者的基本身份信息进行获取，在对文本信息与当前处于发言状态的参会者对应的视频信号进行叠加处理的同时，将该哑语手势信息和 /或各基本身份信息与对应的视频对象进行叠加，从而不仅实现了在显示端会场的显示屏幕的相应位置显示对端会场的各名参会者的基本信息，还实现了在相应位置显示对端会场的发言者的说话内容一致的哑语手势，进一步地方便了参会者之间的沟通。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括： ROM, RAM,磁碟或者光盘等各种可以存储程序代码的介质。

图 6 为本发明实施例提供的视频信号的辅助信息叠加装置实施例一的结构示意图。如图 6所示，本实施例的视频信号的辅助信息叠加装置至少包括：信号获取模块 11、指示信息获取模块 12和信号叠加模块 13。

其中，信号获取模块 11用于获取第一会场的音频信号及第一会场的至少一个视频信号，该至少一个视频信号包含第一会场中的多个视频对象；指示信息获取模块 12用于获取指示信息，该指示信息用于指示在信号获取模块 11获取到的至少一个视频信号的多个视频对象中、与获取到的音频信号对应的视频对象所处的视频区域；信号叠加模块 13则用于根据指示信息获取模块 12获取到的指示信息将与第一会场的音频信号对应的文本信息与信号获取模块 11获取到的视频信号进行叠加处理，以使文本信息在指示信息所指示的视频区域中显具体地，本实施例的视频信号的辅助信息叠加装置可以设置在会场终端或者设置在 MCU中。若设置在会场终端，本实施例的装置可以设置在第一会场中，在第一会场向第二会场发送音频信号及视频信号之前，对视频信号进行相应的信息叠加处理，或者本实施例的装置还可以设置在第二会场中，在第二会场接收到第一会场发送的音频信号及视频信号之后，对视频信号进行相应的信息叠加处理；而若本实施例的设置在 MCU中，本实施例的装置则可以在接收到任一会场发送的音频信号及视频信号之后，对其中的视频信号进行相应的信息叠加处理。

具体地，本实施例中的上述所有模块所涉及的具体工作过程，可以参考上述视频信号的辅助信息叠加方法所涉及的相关实施例揭露的相关内容，在此不再赘述。

本实施例的视频信号的辅助信息叠加装置，应用在多图像的视频会议应用场景中，通过在将音频信号对应的文本信息与视频信号进行叠加处理之前，获取用于指示当前音频信号在视频信号中所对应的视频对象所处的视频区域的指示信息，并在对视频信号进行叠加处理时，根据该指示信息将当前音频信号对应的文本信息在该音频信号对应的视频对象所处的视频区域中与视频信号进行叠加处理，从而使得当将经叠加处理后的视频信号被显示在对应会场终端的显示屏幕上时，能够保证与音频信号对应的文本信息显示在相对应的视频对象的图像周围，保证了图像与字幕的显示方位的一致性。

图 7 为本发明实施例提供的视频信号的辅助信息叠加装置实施例二的结构示意图。如图 7所示，在上一实施例的基础上，本实施例的视频信号的辅助信息叠加装置中，上述信号获取模块 11获取到的视频信号可以为一个或者多个。当信号获取模块 11获取到的视频信号为多个时，指示信息获取模块 12获取的指示信息所指示的视频区域为与音频信号对应的视频对象在第一视频信号所对应的视频中所处的视频位置，该第一视频信号为多个视频信号中，与音频信号所对应的视频信号。而若信号获取模块 11获取到的视频信号为一个时，指示信息获取模块 12获取的指示信息所指示的视频区域则为第一会场的视频信号中、与所述音频信号对应的视频对象的视频位置。

上述指示信息获取模块 12至少可以包括以下任一的子模块：第一信息获取子模块 121或者第二信息获取子模块 122。其中，第一信息获取子模块 121用于若第一会场的音频信号为多声道信号，确定该多声道信号中能量最大的声道信号所对应的方位为音频信号对应的视频对象的音源方位，以生成与音频信号的音源方位信息，并利用音源方位与视频方位之间的对应关系，将该音源方位信息转换为上述用于指示音频信号的对应的视频对象所处的视频区域的指示信息；而第二信息获取子模块 122则用于分别对第一会场的视频信号中的参会者的唇部运动进行检测，确定唇部有开合运动的参会者为与音频信号对应的视频对象，并确定该视频对象所处的视频区域的指示信息。

进一步地，在本实施例中，视频信号的辅助信息叠加装置还可以包括辅助信息获取模块 14。该辅助信息获取模块 14用于在信号叠加模块 13根据指示信息将与第一会场的音频信号对应的文本信息与视频信号进行叠加处理之前，获取与音频信号对应的哑语手势信息和 / 或第一会场中的各参会者的基本身份信息。相对应地，本实施例中的信号叠加模块 13还可以用于：将辅助信息获取模块 14获取到的哑语手势信息和 /或与第一会场中的各参会者的基本身份信息与所述视频信号进行叠加处理，以使该哑语手势信息和 /或视频对象的基本身份信息在指示信息所指示的视频区域中显示。

更进一步地，本实施例的视频信号的辅助信息叠加装置中，还可以包括信号显示模块 15。具体地，该信号显示模块 15用于在信号叠加模块 13根据指示信息将与第一会场的音频信号对应的文本信息与视频信号进行叠加处理之后，将经叠加处理后的视频信号在对应的显示屏幕上进行显示。

更进一步地，本实施例的视频信号的辅助信息叠加装置中，还可以包括第一信号播放模块 161或第二信号播放模块 162中的任一模块。其中，第一信号播放模块 161用于当指示信息是根据音频信号的声源方位信息、利用音源方位与视频方位之间的对应关系转换得到时，在信号叠加模块 13根据指示信息将与第一会场的音频信号对应的文本信息与视频信号进行叠加处理之后，根据音频信号的声源方位信息播放音频信号；而第二信号播放模块 162则用于当指示信息是根据唇部运动检测得到时，在信号叠加模块 13根据指示信息将与第一会场的音频信号对应的文本信息与视频信号进行叠加处理之后，利用音源方位与视频方位之间的对应关系，获取音频信号的音源方位信息，并根据音频信号的声源方位信息播放所述音频信号。

具体地，本实施例中的上述所有模块所涉及的具体工作过程，同样可以参考上述视频信号的辅助信息叠加方法所涉及的相关实施例揭露的相关内容，在此不再赘述。

进一步地，本实施例中，还通过在本端会场对对端会场发送的多个视频信号进行显示之前，对音频信号对应的哑语手势信息以及与各视频信号对应的对端会场的各参会者的基本身份信息进行获取，在对文本信息与当前处于发言状态的参会者对应的视频信号进行叠加处理的同时，将该哑语手势信息以及各基本身份信息叠加对应的视频信号中，从而不仅实现了在本端会场的显示屏幕的相应位置显示对端会场的各名参会者的基本信息，还实现了在相应位置显示对端会场的发言者的说话内容的哑语手势，进一步地方便了参会者之间的顺利沟通。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

权利要求书

1、一种视频信号的辅助信息叠加方法，其特征在于，包括：获取第一会场的音频信号及第一会场的至少一个视频信号，所述至少一个视频信号包含所述第一会场中的多个视频对象；

2、根据权利要求 1所述的方法，其特征在于：

当所述视频信号为多个视频信号时，所述指示信息所指示的视频区域为与所述音频信号对应的视频对象在第一视频信号所对应的视频中所处的视频位置，所述第一视频信号为所述多个视频信号中、与所述音频信号对应的视频信号；或者，

当所述视频信号为一个时，所述指示信息所指示的视频区域为所述第一会场的视频信号中、与所述音频信号对应的视频对象的视频位置。

3、根据权利要求 1或 2所述的方法，其特征在于，所述指示信息通过如下方式获得：

若所述第一会场的音频信号为多声道信号，确定所述多声道信号中能量最大的声道信号所对应的方位为所述音频信号对应的视频对象的音源方位，以生成所述音频信号的音源方位信息，并利用音源方位与视频方位之间的对应关系，将所述音源方位信息转换为用于指示所述音频信号的对应的视频对象所处的视频区域的指示信息；

或者，分别对所述第一会场的视频信号中的参会者的唇部运动进行检测，确定唇部有开合运动的参会者为所述视频对象，并确定所述音频信号对应的视频对象所处的视频区域的指示信息。

4、根据权利要求 1或 2所述的方法，其特征在于：

所述根据所述指示信息将与所述第一会场的音频信号对应的文本信息与所述视频信号进行叠加处理之前，所述方法还包括：获取与所述音频信号对应的哑语手势信息和 /或所述第一会场中的各所述视频对象的基本身份信息；

所述根据所述指示信息将与所述第一会场的音频信号对应的文本信息与所述视频信号进行叠加处理还包括：将所述哑语手势信息和 /或所述指示信息所指示的视频对象的基本身份信息与所述视频信号进行叠加处理，以使所述哑语手势信息和 /或所述视频对象的基本身份信息在所述指示信息所指示的视频区域中显示。

5、根据权利要求 1或 2所述的方法，其特征在于，所述根据所述指示信息将与所述第一会场的音频信号对应的文本信息与所述视频信号进行叠加处理之后，所述方法还包括：

将所述经叠加处理后的视频信号在对应的显示屏幕上进行显示。

6、根据权利要求 3所述的方法，其特征在于，所述根据所述指示信息将与所述第一会场的音频信号对应的文本信息与所述视频信号进行叠加处理之后，所述方法还包括：当所述指示信息是根据所述音频信号的声源方位信息、利用音源方位与视频方位之间的对应关系转换得到时，根据所述音频信号的声源方位信息播放所述音频信号；

当所述指示信息是根据所述唇部运动检测得到时，利用所述音源方位与视频方位之间的对应关系，获取所述音频信号的音源方位信息并根据所述音频信号的声源方位信息播放所述音频信号。

7、一种视频信号的辅助信息叠加装置，其特征在于，包括：信号获取模块，用于获取第一会场的音频信号及第一会场的至少一个视频信号，所述至少一个视频信号包含所述第一会场中的多个视频对象；

8、根据权利要求 7所述的装置，其特征在于：

当所述视频信号为多个时，所述指示信息获取模块获取的指示信息所指示的视频区域为所述音频信号对应的视频对象在第一视频信号所对应的视频中所处的视频位置，所述第一视频信号为所述多个视频信号中、与所述音频信号所对应的视频信号；或者，

当所述视频信号为一个时，所述指示信息获取模块获取的指示信息所指示的视频区域为所述第一会场的视频信号中、与所述音频信号对应的视频对象的视频位置。

9、根据权利要求 7或 8所述的装置，其特征在于，所述指示信息获取模块包括：

第一信息获取子模块，用于若所述第一会场的音频信号为多声道信号，确定所述多声道信号中能量最大的声道信号所对应的方位为所述音频信号对应的视频对象的音源方位，以生成所述音频信号的音源方位信息，并利用音源方位与视频方位之间的对应关系，将所述音源方位信息转换为用于指示所述音频信号的对应的视频对象所处的视频区域的指示信息；

第二信息获取子模块，用于分别对所述第一会场的视频信号中的参会者的唇部运动进行检测，确定唇部有开合运动的参会者为所述音频信号对应的视频对象，并确定所述视频对象所处的视频区域的指示信息。

10、根据权利要求 7或 8所述的装置，其特征在于：

辅助信息获取模块，用于在所述信号叠加模块根据所述指示信息将与所述第一会场的音频信号对应的文本信息与所述视频信号进行叠加处理之前，获取与所述音频信号对应的哑语手势信息和 /或所述第一会场中的各参会者的基本身份信息；

所述信号叠加模块还用于：将所述哑语手势信息和 /或与所述第一会场中的各参会者的基本身份信息与所述视频信号进行叠加处理，以使所述哑语手势信息和 /或所述视频对象的基本身份信息在所述指示信息所指示的视频区域中显示。

11、根据权利要求 7或 8所述的装置，其特征在于，所述装置还包括：

信号显示模块，用于在所述信号叠加模块根据所述指示信息将与所述第一会场的音频信号对应的文本信息与所述视频信号进行叠加处理之后，将所述经叠加处理后的视频信号在对应的显示屏幕上进行显不。

12、根据权利要求 7或 8所述的装置，其特征在于，所述装置还包括：

第一信号播放模块，用于当所述指示信息是根据所述音频信号的声源方位信息、利用音源方位与视频方位之间的对应关系转换得到时，在所述信号叠加模块根据所述指示信息将与所述第一会场的音频信号对应的文本信息与所述视频信号进行叠加处理之后，根据所述音频信号的声源方位信息播放所述音频信号；

第二信号播放模块，用于当所述指示信息是根据所述唇部运动检测得到时，在所述信号叠加模块根据所述指示信息将与所述第一会场的音频信号对应的文本信息与所述视频信号进行叠加处理之后，利用所述音源方位与视频方位之间的对应关系，获取所述音频信号的音源方位信息，并根据所述音频信号的声源方位信息播放所述音频信号。