WO2018094968A1

WO2018094968A1 - 一种音频的处理方法、装置和媒体服务器

Info

Publication number: WO2018094968A1
Application number: PCT/CN2017/082884
Authority: WO
Inventors: 牛超
Original assignee: 中兴通讯股份有限公司
Priority date: 2016-11-23
Filing date: 2017-05-03
Publication date: 2018-05-31
Also published as: CN108109630A; CN108109630B

Abstract

一种音频的处理方法和装置，其中，该方法包括：对立体声多人会话的每个会话成员的语音数据进行采样，以确定每个会话成员的音频频率值（S102）；根据音频频率值设置每个会话成员发言时的音频特征，其中，音频特征为会话成员发言时每个声道的音量比重（S104）。

Description

一种音频的处理方法、装置和媒体服务器

技术领域

本申请涉及但不限于通讯领域，尤指一种音频的处理方法、装置和媒体服务器。

背景技术

对于立体声多人会话技术，已经较为成熟，电话会议就是立体声多人会话技术一个较为常用的应用场景。CS(电路交换，Circuit Switch)域和PS(包交换，Packet Switch)域的电话会议在沟通过程中，只能听到每个用户在说话，但由于电话会议中用户数量较多，因此无法区分是哪个用户在发言，用户体验较差。

发明概述

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供一种音频的处理方法、装置和媒体服务器，用以立体声多人会话中区分发言的会话成员。

一方面，本发明实施例提供一种音频的处理方法，包括：对立体声多人会话的每个会话成员的语音数据进行采样，以确定每个会话成员的音频频率值；根据音频频率值设置每个会话成员发言时的音频特征，其中，所述音频特征为会话成员发言时每个声道的音量比重。

在一实施方式中，根据音频频率值设置每个会话成员发言时的音频特征，包括：判断是否存在处于同一预设音频频率范围的音频频率值；如果存在，则为处于同一预设音频频率范围的每个会话成员设置均不相同的音频特征；如果不存在，则为每个会话成员设置相同或不同的音频特征。

在一实施方式中，根据音频频率值设置每个会话成员发言时的音频特征，包括：将每个会话成员的音频频率值进行排序；为所述排序中音频频率值相邻的会话成员设置不同的音频特征。

在一实施方式中，按照如下方式为所述会话成员设置音频特征：获取会话成员每个声道的音量信息；从计算得到的多个声道音量比重中获取一个声道音量比重；根据所述声道音量比重调整所述会话成员每个声道的音量信息。

在一实施方式中，根据音频频率值设置每个会话成员发言时的音频特征之后，还包括：在任一会话成员发言的情况下，获取发言的会话成员的音频特征；根据所述音频特征调整输入除所述发言的会话成员外的会话成员音频播放器的音频。

另一方面，本发明实施例还提供一种音频的处理装置，包括：采样模块，设置为对立体声多人会话的每个会话成员的语音数据进行采样，以确定每个会话成员的音频频率值；设置模块，设置为根据音频频率值设置每个会话成员发言时的音频特征，其中，所述音频特征为会话成员发言时每个声道的音量比重。

在一实施方式中，所述设置模块包括：判断单元，设置为判断是否存在处于同一预设音频频率范围的音频频率值；第一设置单元，设置为在存在处于同一预设音频频率范围的音频频率值的情况下，为处于同一预设音频频率范围的每个会话成员设置均不相同的音频特征；在不存在处于同一预设音频频率范围的音频频率值的情况下，为每个会话成员设置相同或不同的音频特征。

在一实施方式中，所述设置模块包括：排序单元，设置为将每个会话成员的音频频率值进行排序；第二设置单元，设置为为所述排序中音频频率值相邻的会话成员设置不同的音频特征。

在一实施方式中，所述设置模块设置为按照如下方式为所述会话成员设置音频特征：获取会话成员每个声道的音量信息；从计算得到的多个声道音量比重中获取一个声道音量比重；根据所述声道音量比重调整所述会话成员每个声道的音量信息。

在一实施方式中，还包括：获取模块，设置为在任一会话成员发言的情况下，获取发言的会话成员的音频特征；输入模块，设置为根据所述音频特征调整输入除所述发言的会话成员外的会话成员播放器的音频。

另一方面，本发明实施例还提供一种媒体服务器，包括：采集器，对立体声多人会话的每个会话成员的语音数据进行采样；处理器，确定采集到的每个会话成员的音频频率值，根据音频频率值设置每个会话成员发言时的音频特征，其中，所述音频特征为会话成员发言时每个声道的音量比重。

在一实施方式中，所述处理器，设置为判断是否存在处于同一预设音频频率范围的音频频率值；在存在处于同一预设音频频率范围的音频频率值的情况下，为处于同一预设音频频率范围的每个会话成员设置均不相同的音频特征；在不存在处于同一预设音频频率范围的音频频率值的情况下，为每个会话成员设置相同或不同的音频特征。

在一实施方式中，所述处理器，设置为将每个会话成员的音频频率值进行排序，并为所述排序中音频频率值相邻的会话成员设置不同的音频特征。

另一方面，本发明实施例还提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现上述音频的处理方法。

本发明实施例在立体声多人会话的过程中，对每个会话成员的语音数据进行采样，再根据每个会话成员的音频频率值设置每个会话成员发言时的音频特征，不同的音频特征可以呈现不同的立体声效果，就可以让会话成员在收听其他用户发言时，带来一种虚拟坐席的感觉，好像每个会话成员都处于不同的虚拟坐席上，更加容易区分发言的会话成员，用户体验较好。

在阅读并理解了附图和详细描述后，可以明白其他方面。

附图概述

图1是本发明第一实施例中音频的处理方法的流程图；

图2是本发明第二实施例中音频的处理装置的结构示意图；

图3是本发明第二实施例中音频的处理装置的结构示意图；

图4是本发明第四实施例中媒体服务器与每个会议成员的关系拓扑图；

图5是本发明第四实施例中一种虚拟空间位置设置示意图；

图6是本发明第四实施例中另一种虚拟空间位置设置示意图。

详述

本发明实施例提供了一种音频的处理方法、装置和媒体服务器，以下结合附图以及实施例，对本发明实施例进行进一步详细说明。应当理解，此处所描述的实施例仅仅用以解释本申请，并不限定本申请。

本发明第一实施例提供一种音频的处理方法，该方法的流程如图1所示，包括步骤S102至S104：

S102，对立体声多人会话的每个会话成员的语音数据进行采样，以确定每个会话成员的音频频率值。其中，立体声为至少包括两个声道的声源，其与单声道不同。单声道只有一个声道，所以只是满足听到声音而已；然而，由于立体声具有多个声道，在用户收听时就可以产生一种立体的感觉，所以，多声道的声源称作为立体声，例如，在电影院观看电影时，其声音在播放时就是立体声。由于其是立体声，因此，才可以进行后续的音频调整。

S104，根据音频频率值设置每个会话成员发言时的音频特征，其中，音频特征为会话成员发言时每个声道的音量比重。

实现的过程中，根据音频频率值设置每个会话成员发言时的音频特征可以包括多种方式，下面以两种情况进行说明。

第一种情况：判断是否存在处于同一预设音频频率范围的音频频率值；如果存在，则说明有用户的声音特质比较相像，容易让人在收听时产生混淆感，因此，为处于同一预设音频频率范围的每个会话成员设置均不相同的音频特征。

比如，当有两个会话成员的音频频率值都处于同一预设音频频率范围内，则此时在为这两个会话成员进行音频特征调整时，就不可以将这两个会话成员的音频特征调成相同的，一旦调成相同的，就会让其他会话成员在收听这个两个用户发言时，区分不出是哪个在发言，因此，为处于同一预设音频频率范围的每个会话成员设置均不相同的音频特征，而且音频特征区分越明显越好，最好听起像“一个在左边说话，一个在右边说话”的感觉。

如果不存在处于同一预设音频频率范围的音频频率值，则说明每个会话成员之间容易混淆的概率较小，因此，在设置时，可以为每个会话成员设置相同的音频特征，收听的会话成员可以通过音频频率区分出不同的用户，当然，为了更加清楚的区分不同的发言人，可以为不同的会话成员设置不同的音频特征。

第二种情况：在根据音频频率值设置每个会话成员发言时的音频特征时，还可以将每个会话成员的音频频率值进行排序；这样，为排序中音频频率值相邻的会话成员设置不同的音频特征，就可以区分出音频相似的会话成员。在实际设置时，还可以将相邻的三个或者四个用户都设置不同的音频特征，以更好的区分不同的发言人，可以让用户感受到不同的发言人处于不同的方位上，用户体验较好。

设置时，可以按照如下方式为会话成员设置音频特征：获取会话成员每个声道的音量信息；从计算得到的多个声道音量比重中获取一个声道音量比重；根据声道音量比重调整会话成员每个声道的音量信息。

在根据音频频率值设置每个会话成员发言时的音频特征之后，在任意一个会话成员发言时，就可以获取发言的会话成员的音频特征；根据音频特征调整输入除发言的会话成员外的其他每个会话成员音频播放器的音频。

本发明第二实施例提供了一种音频的处理装置，该装置的结构示意如图2所示，包括：采样模块10，设置为对立体声多人会话的每个会话成员的语音数据进行采样，以确定每个会话成员的音频频率值；设置模块20，与采样模块10耦合，设置为根据音频频率值设置每个会话成员发言时的音频特征，其中，音频特征为会话成员发言时每个声道的音量比重。

其中，设置模块20可以包括：判断单元，设置为判断是否存在处于同一预设音频频率范围的音频频率值；第一设置单元，设置为在存在处于同一预设音频频率范围的音频频率值的情况下，为处于同一预设音频频率范围的每个会话成员设置均不相同的音频特征；在不存在处于同一预设音频频率范围的音频频率值的情况下，为每个会话成员设置相同或不同的音频特征。

设置模块20还可以包括：排序单元，设置为将每个会话成员的音频频率值进行排序；第二设置单元，设置为为排序中音频频率值相邻的会话成员设置不同的音频特征。

其中，设置模块设置为按照如下方式为会话成员设置音频特征：获取会话成员每个声道的音量信息；从计算得到的多个声道音量比重中获取一个声道音量比重；根据声道音量比重调整会话成员每个声道的音量信息。

图3示出了上述电话会议中音频的处理装置的结构，其还可包括：获取模块30，与设置模块20耦合，设置为在任一会话成员发言的情况下，获取发言的会话成员的音频特征；输入模块40，与获取模块30耦合，设置为根据音频特征调整输入除发言的会话成员外的会话成员播放器的音频。

本发明第三实施例提供了一种媒体服务器，其包括：采集器，对立体声多人会话的每个会话成员的语音数据进行采样；处理器，确定采集到的每个会话成员的音频频率值，根据音频频率值设置每个会话成员发言时的音频特征，其中，音频特征为会话成员发言时每个声道的音量比重。

其中，处理器，可设置为判断是否存在处于同一预设音频频率范围的音频频率值；在存在处于同一预设音频频率范围的音频频率值的情况下，为处于同一预设音频频率范围的每个会话成员设置均不相同的音频特征；在不存在处于同一预设音频频率范围的音频频率值的情况下，为每个会话成员设置相同或不同的音频特征。

所述处理器，可设置为将每个会话成员的音频频率值进行排序，并为排序中音频频率值相邻的会话成员设置不同的音频特征。

本发明第四实施例提供了一种电话会议中音频的处理方法，其主要涉及CS域和PS域的负责在电话会议过程中进行混音的媒体服务器的混音功能的改进。本实施例为了建立会议成员的虚拟空间位置(设置在虚拟方位上，一个虚拟方位上可能存在一个或多个虚拟空间位置)模型，即给会议成员一种每个参会人员都有一个虚拟座位的感觉，因此，结合会议成员声音的特性，通过方位感进行混音，以对电话会议中每个成员的语音进行区分。该方法包括步骤(1)至(3)。

(1)媒体服务器采样每一路会议成员的声音数据。

如图4所示，在电话会议建立后，就语音数据流角度来说，所有参与会议的7路终端与核心网侧的媒体服务有如下星型拓扑结果，每个终端都会通过RTP(实时传输协议，Real-time Transport Protocol)将各自的上行语音数据发送给媒体服务器，而媒体服务器也会将电话会议下行数据发送给每个终端。媒体服务器可在每个成员刚刚加入会议的阶段(比如，接入电话会议的前10秒)进行终端上行语音数据采样。因为一般接通电话时，通话双方都会说"喂～，你好！"等，进行简单的寒暄。并按照接入电话会议的先后顺序，依次进行采样。

(2)媒体按照声音从低频到高频进行排序。

在媒体服务器得到采样数据后，调用声纹识别软件/硬件的功能，对每个成员的上行声音数据进行分析，计算出频率值，生成一个从低到高的排序结果。

(3)媒体服务器根据排序结果结合方位感混音函数进行混音。

得到排序结果后，媒体服务器根据预设的混音规则完成混音过程(混音过程就是调整音频特征的过程)。

此混音规则可以考虑两个维度：成员位置(希望哪个成员在哪个虚拟位置上)、成员声音特性。其中，位置可以分为左远、左近、中远、中近、右远、右近，6个位置；而成员声音特性则可划分为高频\低频两个组别，或者可以简单的根据性别(声音的频率高低)来分组。

PS域的volte电话会议成员最大支持6路，即除本机外，有6个终端参与。通过对声纹的解析，将3个成员分配到低频率组，将3个成员分配到高频率组，给低频组分配虚拟空间位置中靠近本机的一侧，给高频组分配虚拟空间位置中的远侧。

而在每个频率组中，将成员按照频率从低、中、高，对应分配左、中、右的位置，这样正好是6个虚拟空间位置，如图5所示。混音时，声音的强度按照左、中、右位置每个1/3的方式划分，而远侧和近侧可以按0.5比0.5、0.45比0.55、0.4比0.6等方式划分。该过程最大化的隔离每个成员之间声音的干扰，增加了信噪比，提高了声音的识别率。

实现时，如果电话会议是3路，则仅按左、中、右位置每个1/3进行混音即可。如果多于6路，则可细分位置，其中，n为会议成员个数，相邻两个虚拟空间位置所在方向夹角计算公式为180/((N-1)/2-1)，其中N为参会总人数，此实施例例中N为9，因此夹角为60度，其设置示意如图6所示。

被分配到正左侧虚拟空间位置的电话会议成员的语音数据，仅混入左声道；被分配到正右侧虚拟空间位置的电话会议成员的语音数据，仅混入右声道；而其他处于非左非右虚拟空间位置的成员的语音数据按照角度值计算混入左右声道的比例，计算方式如下：

确认虚拟位置偏左侧还是偏右侧。如果是偏左侧，确定偏离左侧水平线的角度值A，A取值范围是0-90度。那么，左声道的比重＝1-右声道的比重；右声道的比重＝Tan(A/2)/2。如果是偏右侧，确定偏离右侧水平线的角度值B，B取值范围是0-90度。那么，右声道的比重＝1-左声道的比重；左声道的比重＝Tan(B/2)/2。

在本实施例中，当获取到了每个会议成员的声音数据后，就可以为每个会议成员分配虚拟座位了，即为每个会议成员设置了一个该会议成员对应的虚拟位置，即相当于想让用户A坐在椅子1上，想让用户B坐在椅子2上，想让用户C坐在椅子3上等。该过程是为了达到将声音数据相近的用户设置在不同的方位上。在设置了希望会议成员入座的虚拟位置后，对每个会议成员的声音而进行调音，即为每个会议成员设置音频特征，进而达到希望呈现的每个会议成员坐入对应虚拟座位的情况。

本发明实施例从整体上实现了在电话会议中区分每个会议成员的效果，用户体验较高。

本发明实施例还提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现上述音频的处理方法。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器)完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，例如通过集成电路来实现其相应功能，也可以采用软件功能模块的形式实现，例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明实施例不限制于任何特定形式的硬件和软件的结合。

尽管为示例目的，已经公开了本发明的实施例，本领域的技术人员将意识到各种改进、增加和取代也是可能的，因此，本申请的范围应当不限于上述实施例。

工业实用性

Claims

一种音频的处理方法，包括：

对立体声多人会话的每个会话成员的语音数据进行采样，以确定每个会话成员的音频频率值；

根据音频频率值设置每个会话成员发言时的音频特征，其中，所述音频特征为会话成员发言时每个声道的音量比重。
如权利要求1所述的处理方法，其中，根据音频频率值设置每个会话成员发言时的音频特征，包括：

判断是否存在处于同一预设音频频率范围的音频频率值；

如果存在，则为处于同一预设音频频率范围的每个会话成员设置均不相同的音频特征；

如果不存在，则为每个会话成员设置相同或不同的音频特征。
如权利要求1所述的处理方法，其中，根据音频频率值设置每个会话成员发言时的音频特征，包括：

将每个会话成员的音频频率值进行排序；

为所述排序中音频频率值相邻的会话成员设置不同的音频特征。
如权利要求1所述的处理方法，其中，按照如下方式为所述会话成员设置音频特征：

获取会话成员每个声道的音量信息；

从计算得到的多个声道音量比重中获取一个声道音量比重；

根据所述声道音量比重调整所述会话成员每个声道的音量信息。
如权利要求1至4中任一项所述的处理方法，其中，根据音频频率值设置每个会话成员发言时的音频特征之后，还包括：

在任一会话成员发言的情况下，获取发言的会话成员的音频特征；

根据所述音频特征调整输入除所述发言的会话成员外的会话成员音频播放器的音频。
一种音频的处理装置，包括：

采样模块，设置为对立体声多人会话的每个会话成员的语音数据进行采样，以确定每个会话成员的音频频率值；

设置模块，设置为根据音频频率值设置每个会话成员发言时的音频特征，其中，所述音频特征为会话成员发言时每个声道的音量比重。
如权利要求6所述的处理装置，其中，所述设置模块包括：

判断单元，设置为判断是否存在处于同一预设音频频率范围的音频频率值；

第一设置单元，设置为在存在处于同一预设音频频率范围的音频频率值的情况下，为处于同一预设音频频率范围的每个会话成员设置均不相同的音频特征；在不存在处于同一预设音频频率范围的音频频率值的情况下，为每个会话成员设置相同或不同的音频特征。
如权利要求6所述的处理装置，其中，所述设置模块包括：

排序单元，设置为将每个会话成员的音频频率值进行排序；

第二设置单元，设置为为所述排序中音频频率值相邻的会话成员设置不同的音频特征。
如权利要求6所述的处理装置，其中，所述设置模块设置为按照如下方式为所述会话成员设置音频特征：

获取会话成员每个声道的音量信息；从计算得到的多个声道音量比重中获取一个声道音量比重；根据所述声道音量比重调整所述会话成员每个声道的音量信息。
如权利要求6至9中任一项所述的处理装置，还包括：

获取模块，设置为在任一会话成员发言的情况下，获取发言的会话成员的音频特征；

输入模块，设置为根据所述音频特征调整输入除所述发言的会话成员外的会话成员播放器的音频。
一种媒体服务器，包括：

采集器，对立体声多人会话的每个会话成员的语音数据进行采样；

处理器，确定采集到的每个会话成员的音频频率值，根据音频频率值设置每个会话成员发言时的音频特征，其中，所述音频特征为会话成员发言时每个声道的音量比重。
如权利要求11所述的媒体服务器，其中，

所述处理器，设置为判断是否存在处于同一预设音频频率范围的音频频率值；在存在处于同一预设音频频率范围的音频频率值的情况下，为处于同一预设音频频率范围的每个会话成员设置均不相同的音频特征；在不存在处于同一预设音频频率范围的音频频率值的情况下，为每个会话成员设置相同或不同的音频特征。
如权利要求11所述的媒体服务器，其中，

所述处理器，设置为将每个会话成员的音频频率值进行排序，并为所述排序中音频频率值相邻的会话成员设置不同的音频特征。
一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1-5任一项的音频的处理方法。