WO2016082579A1

WO2016082579A1 - 语音输出方法及装置

Info

Publication number: WO2016082579A1
Application number: PCT/CN2015/086171
Authority: WO
Inventors: 李星; 黄家典
Original assignee: 中兴通讯股份有限公司
Priority date: 2014-11-24
Filing date: 2015-08-05
Publication date: 2016-06-02
Also published as: CN105704423A

Abstract

本发明提供了一种语音输出方法及装置，其中，该方法包括：将终端输入的音频数据转换成预定格式的音频数据；对预定格式的音频数据进行混音处理；将进行混音处理后的音频数据输出至终端，解决了相关技术中存在的混音效果差的问题，进而达到了提高混音质量的效果。

Description

语音输出方法及装置

技术领域

本发明涉及通信领域，具体而言，涉及一种语音输出方法及装置。

背景技术

视频会议是目前各行各业中通信的常用工具。随着网真技术的应用兴起，这种多屏多声道视频会议更加注重会议中人与人真实面对面的沟通效果，让参会者有一种身临其境的感觉。目前，网真会议系统已经应用于行政会议，远程协同办公，航空航海，以及远程医疗等领域。

随着网真技术在视频会议中的应用，多点控制器(Micro Controller Unit，简称为MCU)不仅需要支持网真终端视频会议(三声道)，而且还要完全兼容普通视频会议(单声道和双声道立体声)。所以目前MCU需要支持的终端音频数据类型有单声道、双声道立体声和三声道。在视频会议中有多方会议参与时，MCU需要支持多路音频的语音混音。会议语音混音指的是在多路终端参与会议时，能够让多个会场同时发言，并且将不同会场中所有发言者的信息传达给会议中所有参与会议的与会者。当会议中存在多路不同声道音频数据终端时，MCU在混音之前需要对各个终端进行上混或者下混音处理，使得会议系统中每个终端的音频数据保持统一的格式，在MCU处理完之后音频数据返回终端时又要对各个终端进行上混或者下混。

由于视频通信的需要，MCU需要支持单声道、双声道以及三声道终端之间的通信。MCU接收到声道数音频格式不一样的终端数据时，需要把会议中音频格式转换成统一的格式，低声道往高声道数转称为上混，高声道数音频向低声道数音频转换称为下混。现有的上混和下混技术为：

上混方式：单声道－>双声道：0.7071*M->L，0.7071*M->R；

单声道-->三声道：M->C；

双声道->三声道：L->L，C＝0，R->R；

下混方式：三声道->单声道：0.7071*L+0.7071*R+C–>M；

三声道->双声道：L+0.7071*C->L，R+0.7071*C->R；

双声道->单声道：L+R->M。

(其中L表示左声道，C表示中间声道，R表示右声道，M表示单声道)

如果对每个终端的音频数据进行上混或下混，然后进行多路终端音频数据进行混音，会对MCU造成极大的负担，同时也会造成较差的语音效果，输入的路数过多的音频数据进行混音叠加，容易造成数据溢出，噪声过大，各种终端声音叠加后造成语音不好分辨。因此，在相关技术中存在着混音效果差的问题。

针对相关技术中存在的混音效果差的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种语音输出方法及装置，以至少解决相关技术中存在的混音效果差的问题。

根据本发明实施例的一个方面，提供了一种语音输出方法，包括：将终端输入的音频数据转换成预定格式的音频数据；对所述预定格式的音频数据进行混音处理；将进行混音处理后的所述音频数据输出至所述终端。

进一步地，将所述终端输入的音频数据转换成预定格式的音频数据包括：当所述终端输入的音频数据为单声道音频数据或双声道音频数据时，将所述单声道音频数据或所述双声道音频数据转换成三声道音频数据。

进一步地，将终端输入的音频数据转换成预定格式的音频数据包括：判断输入音频数据的终端是否为发言终端；在判断结果为是的情况下，利用所述音频数据的能量和/或信噪比对所述终端进行排序；按照所述排序的排序结果选择预定数量的终端输入的音频数据；将选择的所述预定数量的终端输入的音频数据转换成预定格式的音频数据。

进一步地，对所述预定格式的各音频数据进行混音处理包括：判断输入音频数据的终端是否为发言终端；在判断结果为是的情况下，利用所述音频数据的能量和/或信噪比对所述终端进行排序；按照所述排序的排序结果选择预定数量的终端输入的转换成预定格式的音频数据；将选择的所述预定格式的音频数据进行混音处理。

进一步地，所述预定数量为三个。

根据本发明实施例的另一方面，提供了一种语音输出装置，包括：转换模块，设置为将终端输入的音频数据转换成预定格式的音频数据；处理模块，设置为对所述预定格式的音频数据进行混音处理；输出模块，设置为将进行混音处理后的所述音频数据输出至所述终端。

进一步地，所述转换模块包括：当所述终端输入的音频数据为单声道音频数据或双声道音频数据时，将所述单声道音频数据或所述双声道音频数据转换成三声道音频数据。

进一步地，所述转换模块包括：第一判断单元，设置为判断输入音频数据的终端是否为发言终端；第一排序单元，设置为在所述第一判断单元的判断结果为是的情况下，利用所述音频数据的能量和/或信噪比对所述终端进行排序；第一选择单元，设置为按照所述排序的排序结果选择预定数量的终端输入的音频数据；转换单元，设置为将选择的所述预定数量的终端输入的音频数据转换成预定格式的音频数据。

进一步地，所述处理模块包括：第二判断单元，设置为判断输入音频数据的终端是否为发言终端；第二排序单元，设置为在所述第二判断单元的判断结果为是的情况下，利用所述音频数据的能量和/或信噪比对所述终端进行排序；第二选择单元，设置为按照所述排序的排序结果选择预定数量的终端输入的转换成预定格式的音频数据；处理单元，设置为将选择的所述预定格式的音频数据进行混音处理。

进一步地，所述预定数量为三个。

通过本发明实施例，采用将终端输入的音频数据转换成预定格式的音频数据；对所述预定格式的音频数据进行混音处理；将进行混音处理后的所述音频数据输出至所述终端，解决了相关技术中存在的混音效果差的问题，进而达到了提高混音质量的效果。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的语音输出方法的流程图；

图2是根据本发明实施例的语音输出装置的结构框图；

图3是根据本发明实施例的转换模块22的结构框图；

图4是根据本发明实施例的处理模块24的结构框图；

图5是根据本发明实施例的MCU多路终端混音处理流程图；

图6是根据本发明实施例的终端音频数据格式的转换图；

图7是根据本发明实施例的终端音频数据格式的转换流程图；

图8是根据本发明实施例的视频会议音频处理框架图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

在本实施例中提供了一种语音输出方法，图1是根据本发明实施例的语音输出方法的流程图，如图1所示，该流程包括如下步骤：

步骤S102，将终端输入的音频数据转换成预定格式的音频数据；

步骤S104，对上述预定格式的音频数据进行混音处理；

步骤S106，将进行混音处理后的音频数据输出至终端。

通过上述步骤，采用对终端输入的音频数据转换成预定格式的音频数据后，再进行混音处理，避免了混音中的溢出和噪声的问题，解决了相关技术中存在的混音效果差的问题，进而达到了提高混音质量的效果。

在对音频数据进行转换时，可以将终端输入的音频数据转换成预定格式的音频数据，例如，在一个可选的实施例中，当终端输入的音频数据为单声道音频数据或双声道音频数据时，可以将终端输入的单声道音频数据或双声道音频数据全部转换成三声道音频数据。从而实现兼容网真终端视频会议和普通视频会议的目的。

对终端输入的音频数据进行混音处理之前，可以选取预定数量的终端输入的音频数据进行混音，其中，可以对音频数据进行转换之前就进行选取操作，也可以对所有的输入的音频数据均进行转换，再对预定数量的转换后的终端输入的音频数据进行混音。例如，在一个可选的实施例中，将终端输入的音频数据转换成预定格式的音频数据可以包括：判断输入音频数据的终端是否为发言终端；在判断结果为是的情况下，利用音频数据的能量和/或信噪比对终端进行排序；按照排序的排序结果选择预定数量的终端输入的音频数据；将选择的预定数量的终端输入的音频数据转换成预定格式的音频数据。从而既保证混音的质量，又保证音频质量优的发言者的声音被很好的接收。

在另一个可选的实施例中，对预定格式的各音频数据进行混音处理可以包括：判断输入音频数据的终端是否为发言终端；在判断结果为是的情况下，利用音频数据的能量和/或信噪比对终端进行排序；按照排序的排序结果选择预定数量的终端输入的转换成预定格式的音频数据；将选择的预定格式的音频数据进行混音处理。从而避免了对所有的发言者的音频都进行混音，造成混音质量很差，导致每个人的发言都不能被很好的接收的问题。

在进行混音时，可以选取预定数量的终端输入的音频数据，在一个优选的实施例中，当存在多个发言终端时，可以选取音频质量最好的前三个终端输入的音频数据，对其进行混音。当发言终端的个数小于或等于三个时，可以对所有的发言终端输入的音频数据进行混音处理。

在本实施例中还提供了一种语音输出装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图2是根据本发明实施例的语音输出装置的结构框图，如图2所示，该装置包括转换模块22、处理模块24和输出模块26，下面对该装置进行说明。

转换模块22，设置为将终端输入的音频数据转换成预定格式的音频数据；处理模块24，连接至上述转换模块22，设置为对预定格式的音频数据进行混音处理；输出模块26，连接至上述处理模块24，设置为将进行混音处理后的音频数据输出至终端。

在对音频数据进行转换时，可以将终端输入的音频数据转换成预定格式的音频数据，例如，在一个可选的实施例中，上述转换模块可以包括：当终端输入的音频数据为单声道音频数据或双声道音频数据时，将该单声道音频数据或双声道音频数据转换成三声道音频数据。

图3是根据本发明实施例的转换模块22的结构框图，如图3所示，该转换模块22包括第一判断单元32、第一排序单元34、第一选择单元36和转换单元38。下面对该转换模块22进行说明。

第一判断单元32，设置为判断输入音频数据的终端是否为发言终端；第一排序单元34，连接至上述第一判断单元32，设置为在第一判断单元32的判断结果为是的情况下，利用音频数据的能量和/或信噪比对终端进行排序；第一选择单元36，连接至上述第一排序单元34，设置为按照排序的排序结果选择预定数量的终端输入的音频数据；转换单元38，连接至上述第一选择单元36，设置为将选择的预定数量的终端输入的音频数据转换成预定格式的音频数据。

图4是根据本发明实施例的处理模块24的结构框图，如图4所示，该处理模块24包括第二判断单元42、第二排序单元44、第二选择单元46和处理单元48。下面对该处理模块24进行说明。

第二判断单元42，设置为判断输入音频数据的终端是否为发言终端；第二排序单元44，连接至上述第二判断单元42，设置为在第二判断单元42的判断结果为是的情况下，利用音频数据的能量和/或信噪比对终端进行排序；第二选择单元46，连接至上述第二排序单元44，设置为按照排序的排序结果选择预定数量的终端输入的转换成预定格式的音频数据；处理单元48，连接至上述第二选择单元46设置为将选择的预定格式的音频数据进行混音处理。

其中，上述预定数量可以为三个，即，当输入音频数据的发言终端的数量超过三个时，按照音频的质量选取音频质量排名为前三的发言终端输入的音频数据进行混音。

针对相关技术中的混音质量差的问题，本发明实施例中还提供了一种多声道音频混音方法及系统，从而减轻MCU资源的消耗，提高MCU的运行效率，提升视频会议中多路终端参与会议的能力，并能提高混音的语音质量。

根据本发明的实施例的一个方面，提供了一种多声道音频混音的方法，包括：对视频会议中参会终端输入的语音质量进行排序，选择出会议中发言的终端进行混音(参与混音端)，上混至终端音频数据保持统一的格式，对统一格式的终端音频数据进行混音。混音完成后的音频数据再根据参与混音终端和不参与实际混音终端分两种策略进行输出。

根据本发明的实施例的另一个方面，还提供了一种混音系统。包括：网真视频会议终端、普通视频会议终端、MCU。其中，网真视频会议终端和普通视频会议终端可以包含多个参会终端，视频会议终端用于接收和输出音频信号；MCU，用于接收来自于视频会议系统中音频传输终端的音频数据，对该音频数据进行混音处理，并发送至各个视频会议终端。

根据上述的多声道语音处理方法以及系统，可以实现单声道、双声道以及多声道视频终端之间的互通。MCU中混音策略的优化，可以减小资源的消耗，保证视频会议中可以同时支持多路视频终端同时进行会议。

图5是根据本发明实施例的MCU多路终端混音处理流程图。如图5所示，该流程包括以下步骤：

步骤S502，接收终端输入的音频数据的帧信号。

步骤S504，根据视频终端采集的音频数据，利用语音活动检测(Voice Activity detection，简称为VAD)方法，计算出每个终端音频数据当前的能量和/或信噪比。

步骤S506，通过信噪比的阀值可以判断出当前帧会议中的发言终端。信噪比高意味着当前有人在发言，能量大说明当前发言者声音比较大。

步骤S508，结合音频数据的能力和信噪比对当前终端音频质量从高到低进行排序。

步骤S510，如果当前终端发言者超过3个，那么选择排名靠前的3个端进行真正的音频混音；另外如果终端发言者不足3个端，那么选择实际的发言终端参与混音。

步骤S512，根据选择出的参与混音终端，把单声道和双声道立体声的终端音频数据上混为三声道数据，保持所有参与混音终端的音频数据格式都为三声道数据格式。

步骤S514：对上混后的终端音频数据，按照三声道音频格式进行混音。混音的策略为：参与混音端的输出为除去本端之外的其他参与混音端语音的混合(不能听到自己的声音)，不参与混音端输出为参与混音端的混合。如下举实例说明：

实例1：视频会议中有5个终端：A,B,C,D,E；其中说话端为A,C,D；其中单声道A和B，双声道为C和E，三声道终端为D。根据上述步骤，视频会议中终端排序为A,C,D,B,E；参与混音端为A,C,D；然后A和C端上混为三声道音频数据，进行混音。A的音频输出为C+D，B的音频输出为A+C+D，C的音频输出为A+D，D的音频输出为A+C，E的音频输出为A+C+D。

步骤S516，由于混音完成后的数据格式都为三声道音频数据格式，可以把数据下混为单声道和双声道立体声音频数据格式。

步骤S518，各个终端的音频输出可根据终端音频格式选择合适的输出即完成混音。

通过上述方法可以简单的实现单声道、双声道以及三声道终端之间的混音。虽然在终端音频数据进行混音之前，会对音频数据进行上混到三声道，然后本发明优选地选择合适的终端参与混音，所以实际上进行上混的音频数据不会超过3个终端。这样无论视频会议系统是普通视频会议还是网真视频会议，进行上混的过程都不会带来过多的资源开销，同时会议中有多路视频终端进行会议时，都不会过多的消耗MCU的资源，所以本发明提供的优选的混音方法可以解决各种视频会议的资源开销问题。

图6是根据本发明实施例的终端音频数据格式的转换图。图7是根据本发明实施例的终端音频数据格式的转换流程图，如图6、7所示，该转换流程图包括如下步骤：

步骤S702：在进行混音之前，可以对单声道和双声道立体声音频数据上混到三声道音频数据。其中，该上混方法为：

其中L表示左声道，C表示中间声道，R表示右声道，M表示单声道；

单声道上混成三声道为：L＝0，M-->C，R＝0；

双声道上混成三声道为：L＝L，C＝0，R＝R。

相关技术中的音频数据上混方式为三种，单声道上混为双声道，单声道上混为三声道，双声道上混为三声道，该实施例在相关技术的上混的基础上简化为两种上混方式即可实现不同音频格式数据进行混音。

步骤S704：由于混音完成后的音频数据格式都为三声道音频格式，为了满足不同终端音频格式的需求，把三声道的音频数据下混为单声道和双声道立体声音频数据格式。

该实例在相关技术中的音频的三种下混方式的基础上，简化为两种音频下混方式，其中：其中L表示左声道，C表示中间声道，R表示右声道，M表示单声道；

三声道下混为单声道为：M＝L+C+R；

三声道下混为双声道为：L+0.7071*C-->L,R+0.7071*C-->R。

通过上述音频格式上混和下混的方式，不仅可以实现视频会议中网真终端之间的互通，还可以实现与普通视频会议终端之间的互通。通过上混和下混并不会破坏普通视频终端音频数据的输出。下面结合具体实施例进行说明：

实例2：假设当前视频会议中有4个终端：A,B,C,D；其中A,B为说话端，A和C为单声道，B和D为双声道。那么A上混为三声道后为：L_a＝0，C_a＝A，R_a＝0；B终端上混为三声道后为：L_b＝L_b，C_b＝0，R_b＝R_b；经过混音之后，C终端的输出为：A+L_b+R_b，D终端的输出：左声道L_b+0.7071*A，右声道R_b+0.7071*A。从该实施例中可以得出，普通视频会议通过上述的混音方法实现的混音，与相关技术中的混音技术输出的音频结果是一致的，由此混音过程中的上混和下混方式不会造成普通终端之间混音音频数据的改变。

图8是根据本发明实施例的视频会议音频处理系统框架图。该系统包括线路接口模块82、解码模块84、混音模块86(同上述的处理模块24)和编码模块88，利用该框架图可以实现如下操作：

通过线路接口模块82接收来自于网真视频会议系统中一个终端的音频数据，其中，该音频数据以单声道、立体声双声道或者三声道的方式输入该终端。解码模块84对该音频数据进行解码处理。目前视频会议中使用的编解码有G711，G722，AACLD等编解码。当视频会议中有超过两个终端参与时，需要运行混音模块86实现视频会议中音频的混合传输。一般来说，在进行视频会议的过程中，参加会议的一个视频会议终端需要同时接收到除了本端(即本视频会议系统)以外所有参加会议的网真视频会议终端的声音，因此当两个或两个以上的视频会议系统同时有人说话时，就需要MCU对这些声音进行混音处理以保证各网真视频会议系统可以同时听到这些声音。经过混音后的音频数据，再经过编码模块88编码处理后进行数据的传输。

综上，利用本发明提供的实施例，可以简单的实现视频会议系统中单声道、双声道以及多声道音频终端之间的互通，在避免混音中遇到的溢出和噪声的问题、保证音频输出的质量的同时，较小的MCU资源占用可以使得更多路终端同时进行视频会议。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

工业实用性

本发明的上述技术方案，可以应用于通信领域，解决了相关技术中存在的混音效果差的问题，进而达到了提高混音质量的效果。

Claims

一种语音输出方法，包括：

将终端输入的音频数据转换成预定格式的音频数据；

对所述预定格式的音频数据进行混音处理；

将进行混音处理后的所述音频数据输出至所述终端。
根据权利要求1所述的方法，其中，将所述终端输入的音频数据转换成预定格式的音频数据包括：

当所述终端输入的音频数据为单声道音频数据或双声道音频数据时，将所述单声道音频数据或所述双声道音频数据转换成三声道音频数据。
根据权利要求1所述的方法，其中，将终端输入的音频数据转换成预定格式的音频数据包括：

判断输入音频数据的终端是否为发言终端；

在判断结果为是的情况下，利用所述音频数据的能量和/或信噪比对所述终端进行排序；

按照所述排序的排序结果选择预定数量的终端输入的音频数据；

将选择的所述预定数量的终端输入的音频数据转换成预定格式的音频数据。
根据权利要求1所述的方法，其中，对所述预定格式的各音频数据进行混音处理包括：

判断输入音频数据的终端是否为发言终端；

在判断结果为是的情况下，利用所述音频数据的能量和/或信噪比对所述终端进行排序；

按照所述排序的排序结果选择预定数量的终端输入的转换成预定格式的音频数据；

将选择的所述预定格式的音频数据进行混音处理。
根据权利要求3或4所述的方法，其中，所述预定数量为三个。
一种语音输出装置，包括：

转换模块，设置为将终端输入的音频数据转换成预定格式的音频数据；

处理模块，设置为对所述预定格式的音频数据进行混音处理；

输出模块，设置为将进行混音处理后的所述音频数据输出至所述终端。
根据权利要求6所述的装置，其中，所述转换模块包括：

当所述终端输入的音频数据为单声道音频数据或双声道音频数据时，将所述单声道音频数据或所述双声道音频数据转换成三声道音频数据。
根据权利要求6所述的装置，其中，所述转换模块包括：

第一判断单元，设置为判断输入音频数据的终端是否为发言终端；

第一排序单元，设置为在所述第一判断单元的判断结果为是的情况下，利用所述音频数据的能量和/或信噪比对所述终端进行排序；

第一选择单元，设置为按照所述排序的排序结果选择预定数量的终端输入的音频数据；

转换单元，设置为将选择的所述预定数量的终端输入的音频数据转换成预定格式的音频数据。
根据权利要求6所述的装置，其中，所述处理模块包括：

第二判断单元，设置为判断输入音频数据的终端是否为发言终端；

第二排序单元，设置为在所述第二判断单元的判断结果为是的情况下，利用所述音频数据的能量和/或信噪比对所述终端进行排序；

第二选择单元，设置为按照所述排序的排序结果选择预定数量的终端输入的转换成预定格式的音频数据；

处理单元，设置为将选择的所述预定格式的音频数据进行混音处理。
根据权利要求8或9所述的装置，其中，所述预定数量为三个。