WO2016090762A1

WO2016090762A1 - 一种语音信号的处理方法、终端及计算机存储介质

Info

Publication number: WO2016090762A1
Application number: PCT/CN2015/074740
Authority: WO
Inventors: 安斌; 张慕辉; 赵金
Original assignee: 中兴通讯股份有限公司
Priority date: 2014-12-12
Filing date: 2015-03-20
Publication date: 2016-06-16
Also published as: CN105741854A

Abstract

一种语音信号的处理方法、终端及计算机存储介质，所述方法包括：在用户语音通信的过程中，获得第一语音情绪类型，其中，所述第一语音情绪类型用于反映所述用户输入语音信号时的情绪(S101)；根据预存的输入语音情绪类型与输出语音情绪类型之间的对应关系，确定所述第一语音情绪类型对应的输出的第二语音情绪类型(S102)，其中，所述输入语音情绪类型与所述输出语音情绪类型不同；对所述语音信号进行处理，输出反映所述第二语音情绪类型的语音信号(S103)。

Description

一种语音信号的处理方法、终端及计算机存储介质

技术领域

本发明涉及信号处理领域，尤其涉及一种语音信号的处理方法、终端及计算机存储介质。

背景技术

随着智能手机的飞速发展，智能手机已经成为重要的通讯工具，人们之间通过手机、电脑等设备进行语音通话已经非常普遍，通过这种方式与亲朋好友交流沟通，不仅可以增进彼此的感情，也可以拉近彼此的距离。

以手机为例，人们可以通过手机与朋友聊天，以增进彼此的感情，但是，在人们聊天的过程中，手机不会对用户输入的语音信号进行任何处理，直接传递给对端，那么，这样就可能存在这样的情况：如果用户A心情不好或者与用户B意见不和，导致情绪愤怒，此时，他所输入的语音信号就可以反映出这种情绪，而手机直接将该语音信号传递给用户B，用户B接收到该语音信号时，能够感受到用户A的情绪，这样，就可能影响用户B的情绪，可能会导致用户A和用户B最终不愉快地结束通话，这样不仅影响彼此的心情，而且可能导致双方关系破裂，造成一系列不好的后果。

所以，在现有技术中存在终端的智能程度低、无法对用户语音通话时的语音信号进行智能处理的技术问题。

发明内容

有鉴于此，本发明实施例期望提供一种语音信号的处理方法、终端及计算机存储介质，用以对用户语音通话时的语音信号进行智能处理，提高终端的智能程度，提供良好的用户体验。

为达到上述目的，本发明实施例的技术方案是这样实现的：

第一方面，本发明实施例提供一种语音信号的处理方法，所述方法包括：在用户语音通信的过程中，获得第一语音情绪类型，其中，所述第一语音情绪类型用于反映所述用户输入语音信号时的情绪；根据预存的输入语音情绪类型与输出语音情绪类型之间的对应关系，确定所述第一语音情绪类型对应的输出的第二语音情绪类型，其中，所述输入语音情绪类型与所述输出语音情绪类型不同；对所述语音信号进行处理，输出反映所述第二语音情绪类型的语音信号。

上述方案中，所述获得第一语音情绪类型，包括：解析所述用户输入的语音信号，提取语音情绪参数；当在预置的语音情绪参考库中查询到所述语音情绪参数的参数值所对应的语音情绪类型时，将所述参数值所对应的语音情绪类型确定为所述第一语音情绪类型。

上述方案中，在所述提取语音情绪参数之后，所述方法还包括：当在所述语音情绪参考库中未查询到所述参数值所对应的语音情绪类型后，根据预设条件，确定所述第一语音情绪类型。

上述方案中，所述语音情绪参数至少包括平均谱能量和/或基频前端上升斜率。

上述方案中，当所述第一语音情绪类型为负性情绪类型时，所述根据预存的输入语音情绪类型与输出语音情绪类型之间的对应关系，确定所述第一语音情绪类型对应的输出的第二语音情绪类型，包括：根据所述对应关系，将中性或正性情绪类型确定为所述第二语音情绪类型。

第二方面，本发明实施例提供一种终端，所述终端包括：获得单元、确定单元及处理单元；其中，所述获得单元，配置为在用户语音通信的过程中，获得第一语音情绪类型，其中，所述第一语音情绪类型用于反映所述用户输入语音信号时的情绪；所述确定单元，配置为根据预存的输入语音情绪类型与输出语音情绪类型之间的对应关系，确定所述第一语音情绪类型对应的输出的第二语音情绪类型，其中，所述输入语音情绪类型与所述输出语音情绪类型不同；所述处理单元，配置为对所述语音信号进行处理，输出反映所述第二语音情绪类型的语音信号。

上述方案中，所述获得单元，配置为解析所述用户输入的语音信号，提取语音情绪参数；当在预置的语音情绪参考库中查询到所述语音情绪参数的参数值所对应的语音情绪类型时，将所述参数值所对应的语音情绪类型确定为所述第一语音情绪类型。

上述方案中，所述确定单元，还配置为在所述获得单元提取语音情绪参数之后，当在所述语音情绪参考库中未查询到所述参数值所对应的语音情绪类型后，根据预设条件，确定所述第一语音情绪类型。

上述方案中，所述确定单元，配置为当所述第一语音情绪类型为负性情绪类型时，根据所述对应关系，将中性或正性情绪类型确定为所述第二语音情绪类型。

本发明实施例还提供了一种计算机存储介质，所述存储介质包括一组计算机可执行指令，所述指令用于执行本发明实施例所述的语音信号的处理方法。

本发明实施例所提供的语音信号的处理方法、终端及计算机存储介质，在用户进行语音通信的过程中，终端首先获得反映用户输入语音信号时的情绪的第一语音情绪类型，然后根据预存的输入语音情绪类型与输出语音情绪类型之间的对应关系，确定第一语音情绪类型对应的输出的第二语音情绪类型，其中，输入语音情绪类型与输出语音情绪类型不同，最后，终端基于第二语音情绪类型，对语音信号进行处理，输出处理后的语音信号，也就是说，用户输入语音信号时，终端可以根据上述对应关系，获得与用户输入的语音情绪类型不同的输出语音情绪类型，然后，终端基于该输出语音情绪类型，对用户输入的语音信号进行智能处理，这样，处理后的语音信号所反映的语音情绪就与输入时不同，避免因通话中的一方情绪影响另一方情绪，有效地解决了现有技术中终端的智能程度低、无法对用户语音通话时的语音信号进行智能处理的技术问题，提高了终端的智能程度，提高用户的体验。

附图说明

图1为本发明实施例中的对语音信号进行处理的方法流程示意图；

图2为本发明实施例中的对反映愤怒情绪的语音信号进行处理的方法流程示意图；

图3为本发明实施例中的终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明实施例提供一种语音信号的处理方法，该方法应用于终端上，该终端可以为智能手机、平板电脑等设备。

图1为本发明实施例中的对语音信号进行处理的方法流程示意图，参考图1所示，该方法包括：

S101：在用户语音通信的过程中，获得第一语音情绪类型，其中，第一语音情绪类型用于反映用户输入语音信号时的情绪；

当用户使用终端与其他用户打电话、视频通话或即时语音聊天的过程中时，终端实时采集用户输入的语音信号，通过编码器芯片或带通滤波器、模/数转换器(ADC，Analog-to-Digital Converter)等对语音信号进行放大、滤波等预处理，然后解析该语音信号，提取对应的语音情绪参数，在预置的语音情绪参考库中查询该语音情绪参数的参数值所对应的语音情绪类型，当查询到时，将该参数值所对应的语音情绪类型确定为该语音信号对应的第一语音情绪类型，其中，上述语音情绪参数至少包括平均谱能量和/或基频前端上升斜率。

需要说明的是，在本发明实施例中所说的语音情绪类型可以指如悲伤、愤怒、恐惧等负性情绪，也可以指如高兴、喜悦、愉快等正性情绪，还可以指如平静、平和、平稳等中性情绪。

终端在对语音信号进行上述预处理时，语音情绪参数可以同时检测到，并且检测条件明确，语音情绪参考库中存储有大量的语音情绪参考模型，所以对语音信号的处理时间很快，使对方不会察觉到输出的处理后的语音信号具有明显的延时，所以，可以保证用户之间的正常语音通信。对语音信号的预处理方法很多，可以采用编码器芯片对语音信号进行预处理，也可以采用带通滤波器、ADC、编码调制器等对语音信号进行预处理，当然还可以采用其它方法，本发明实施例不做具体限定。

举例来说，用户A想要与用户B进行聊天，通过智能手机上的控制键开启语音情感识别功能，并在拨号键上输入了用户B的电话号码，拔出电话，通过麦克风或耳机等与用户B进行语音通话，在两人聊天的过程中，智能手机实时采集用户A的语音信号，由于在聊天过程中，用户A可能因为一些事情或者心情突然不好，情绪变的愤怒，此时，智能手机可以通过麦克风或蓝牙耳机接收用户A输入的语音信号，然后对用户A输入的语音信号进行模拟/数字转化、放大、滤波等预处理，解析该语音信号，提取对应的语音情绪参数，即平均谱能量、基频前端上升斜率等，然后根据对应的参数值，如平均谱能量值为60dB及基频前端上升斜率值为3.28，在预置的本地语音情绪参考库或网络语音情绪参考库中查询上述参数值所对应的语音情绪类型，如愤怒情绪，此时，智能手机将该愤怒情绪确定为上述第一语音情绪类型；或者，智能手机根据用户A输入的语音信号中提取出的语音情绪参数对应的参数值，如平均谱能量值为58dB及基频前端上升斜率值为0.45，在预置的本地语音情绪参考库或网络语音情绪参考库中查询到对应的语音情绪类型为高兴情绪，此时，智能手机将高兴情绪确定为上述第一语音情绪类型；再者，智能手机获得语音情绪参数对应的参数值，如平均谱能量值为40dB及基频前端上升斜率值为2.5，在预置的本地语音情绪参考库或网络语音情绪参考库中查询到对应的语音情绪类型为平静情绪，此时，智能手机将平静情绪确定为上述第一语音情绪类型。

需要说明的是，在实际应用中，上述预置的语音情绪参考库至少包括本地语音情绪参考库和网络语音情绪参考库，其中，终端中预置有本地语音情绪参考库，用户可以通过自己录制等方式存储自己常用的一些语音情绪参考模型，并在之后用户的使用过程中，终端根据用户的习惯等进行学习，将用户一些新的语音情绪类型添加到该本地语音情绪参考库中，来扩充本地语音情绪参考库；网络语音情绪参考库中存储有不同类型的语音情绪参考模型，终端可以通过运营商提供的网络或终端的无线网络等连接到网络语音情绪参考库，在网络语音情绪参考库中查询用户输入的语音信号的语音情绪类型，也可以基于本地的语音情绪参考库对用户输入的语音信号的语音情绪类型进行查询，当然还可以有其它方式，本发明实施例不做具体限定。

在具体实施过程中，终端在提取语音情绪参数之后，还可能在预置的语音情绪参考库中查询不到上述语音情绪参数的参数值所对应的语音情绪类型，此时，终端可以至少根据基频前端上升斜率值，确定用户输入的语音信号所对应的第一语音情绪类型。比如，当智能手机根据用户A输入的语音信号中提取出的语音情绪参数对应的参数值在预置的语音情绪参考库中未查询到对应的语音情绪类型时，可以将基频前端上升斜率值为3.28与预设阈值2.5进行比较，由于基频前端上升斜率大于预设阈值，从而确定上述第一语音情绪类型为愤怒情绪；或者，将基频前端上升斜率值为0.45与预设阈值2.5进行比较，由于基频前端上升斜率小于预设阈值，从而确定上述第一语音情绪类型为高兴情绪；再或者，将基频前端上升斜率值为2.5与预设阈值2.5进行比较，由于基频前端上升斜率与预设阈值相等，从而确定上述语音信号的语音情绪类型为平静情绪类型。当然，上述预设阈值还可以有其它取值，以实际应用为准，本发明实施例不做具体限定。

为了减少终端的功耗，简化终端的数据处理流程，S101还可以为：终端在用户语音通信的过程中，先对用户输入的语音信号进行预处理之后，获得该语音信号的分贝值，当分贝值处于预设分贝门限范围之外时，获得上述第一语音情绪类型。

S102：根据预存的输入语音情绪类型与输出语音情绪类型之间的对应关系，确定第一语音情绪类型对应的输出的第二语音情绪类型；

当终端确定用户语音信号的第一语音情绪类型后，根据预先存储的输入语音情绪类型与输出语音情绪类型之间的对应关系，如表1所示，确定第一语音情绪类型对应的输出情绪类型，即第二语音情绪类型。

输入语音情绪类型	输出语音情绪类型
输入语音情绪类型	输出语音情绪类型	悲伤	平静
愤怒	平静	悲伤	平静
愤怒	平静	恐惧	平静

表1

举例来说，参考表1，当智能手机确定第一语音情绪类型为愤怒情绪时，可以确定其对应的输出语音情绪类型为平静情绪，此时，智能手机将平静情绪确定为第二语音情绪类型；

在实际应用中，上述输入语音情绪类型与输出语音情绪类型之间还可以有其它对应关系，比如，输入语音情绪类型为负性情绪，对应的输出语音情绪类型可以为正性情绪；或者，输入语音情绪类型为正性情绪，对应的输出语音情绪类型可以为中性情绪；或者，输入语音情绪类型为中性情绪，对应的输出语音情绪类型可以为正性情绪，本发明实施例不做具体限定。

在另一实施例中，终端还可以仅针对负性情绪进行处理，那么，此时，当S101确定出上述第一语音情绪类型为负性情绪时，执行S102；当S101确定出上述第一语音情绪类型为正性或者中性情绪时，终端对输入的语音信号不做处理，直接输出。

S103：对语音信号进行处理，输出反映第二语音情绪类型的语音信号。

终端可以基于输出的第二语音情绪类型，对上述语音信号进行处理，然后输出处理后的语音信号。

举例来说，智能手机根据表1确定出第二语音情绪类型为平静情绪类型后，通过其内部的如编码器芯片或者编码调制器等对语音信号进行调制解调等处理，将用户A输入的反映愤怒情绪的语音信号转化为反映平静情绪的语音信号，然后将处理后的语音信号输出给用户B；或者，智能手机确定出第二语音情绪类型为高兴情绪，此时，智能手机将用户A输入的反映愤怒情绪的语音信号转化为反映高兴情绪的语音信号输出给用户B。具体的，终端可以通过对编码器芯片或编码调制器内的寄存器修改，使输出的语音通过其低通滤波器，将负性情绪语音中大于一定阈值(如3kHz)的高频部分进行滤除，只通过阈值(如3kHz)以下的低频部分，从而使输出是平静的语音信号。

下面以具体实例来对上述一个或者多个实施例所述的语音信号的处理方法进行描述。

图2为本发明实施例中的对反映愤怒情绪的语音信号进行处理的方法流程示意图，参考图2所示，该方法包括：

S201：在用户A与用户B打电话的过程中，手机获得用户A输入的语音信号；

S202：手机对用户A输入的语音信号进行预处理；

S203：手机解析该语音信号，提取平均谱能量和基频前端上升斜率的参数值；

其中，平均谱能量值为60dB及基频前端上升斜率值为3.28。

S204：手机根据平均谱能量值和基频前端上升斜率值，在预置的语音情绪参考库查询到对应的语音情绪类型为愤怒情绪；

S205：手机根据输入语音情绪类型与输出语音情绪类型之间的对应关系，确定与愤怒情绪对应的输出语音情绪类型为平静情绪；

S206：手机基于平静情绪，对用户A输入的语音信号进行处理，输出反映平静情绪的语音信号。

由上述可知，用户输入语音信号时，终端可以根据预置的输入语音情绪类型与输出语音情绪类型的对应关系，获得与用户输入的语音情绪类型不同的输出语音情绪类型，然后，终端基于该输出语音情绪类型，对用户输入的语音信号进行智能处理，这样，处理后的语音信号所反映的语音情绪就与输入时不同，避免因通话中的一方情绪影响另一方情绪，提高了终端的智能程度，提高用户的体验。

基于同一发明构思，本发明实施例提供一种终端，该终端与上述一个或者多个实施例中所述的终端一致。

图3为本发明实施例中的终端的结构示意图，参考图3所示，该终端包括：获得单元31、确定单元32及处理单元33；

其中，获得单元31，配置为在用户语音通信的过程中，获得第一语音情绪类型，其中，第一语音情绪类型用于反映用户输入语音信号时的情绪；确定单元32，配置为根据预存的输入语音情绪类型与输出语音情绪类型之间的对应关系，确定第一语音情绪类型对应的输出的第二语音情绪类型，其中，输入语音情绪类型与输出语音情绪类型不同；处理单元33，配置为对语音信号进行处理，输出反映第二语音情绪类型的语音信号。

获得单元31，配置为解析用户输入的语音信号，提取语音情绪参数；当在预置的语音情绪参考库中查询到语音情绪参数的参数值所对应的语音情绪类型时，将参数值所对应的语音情绪类型确定为第一语音情绪类型。

确定单元32，还配置为在获得单元提取语音情绪参数之后，当在语音情绪参考库中未查询到参数值所对应的语音情绪类型后，根据预设条件，确定第一语音情绪类型。

语音情绪参数至少包括平均谱能量和/或基频前端上升斜率。

确定单元32，配置为当第一语音情绪类型为负性情绪类型时，根据对应关系，将中性或正性情绪类型确定为第二语音情绪类型。

上述获得单元31、确定单元32及处理单元33均可设置在终端如CPU、ARM、音频处理器等处理器中，也可以设置在如嵌入式控制器或系统级芯片中，本发明实施例不做具体限定。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得在计算机或其它可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

一种语音信号的处理方法，应用于终端，所述方法包括：

在用户语音通信的过程中，获得第一语音情绪类型，其中，所述第一语音情绪类型用于反映所述用户输入语音信号时的情绪；

根据预存的输入语音情绪类型与输出语音情绪类型之间的对应关系，确定所述第一语音情绪类型对应的输出的第二语音情绪类型，其中，所述输入语音情绪类型与所述输出语音情绪类型不同；

对所述语音信号进行处理，输出反映所述第二语音情绪类型的语音信号。
根据权利要求1所述的方法，其中，所述获得第一语音情绪类型，包括：

解析所述用户输入的语音信号，提取语音情绪参数；

当在预置的语音情绪参考库中查询到所述语音情绪参数的参数值所对应的语音情绪类型时，将所述参数值所对应的语音情绪类型确定为所述第一语音情绪类型。
根据权利要求2所述的方法，其中，在所述提取语音情绪参数之后，所述方法还包括：

当在所述语音情绪参考库中未查询到所述参数值所对应的语音情绪类型后，根据预设条件，确定所述第一语音情绪类型。
根据权利要求2或3所述的方法，其中，所述语音情绪参数至少包括平均谱能量和/或基频前端上升斜率。
根据权利要求1所述的方法，其中，当所述第一语音情绪类型为负性情绪类型时，所述根据预存的输入语音情绪类型与输出语音情绪类型之间的对应关系，确定所述第一语音情绪类型对应的输出的第二语音情绪类型，包括：

根据所述对应关系，将中性或正性情绪类型确定为所述第二语音情绪类型。
一种终端，所述终端包括：获得单元、确定单元及处理单元；其中，

所述获得单元，配置为在用户语音通信的过程中，获得第一语音情绪类型，其中，所述第一语音情绪类型用于反映所述用户输入语音信号时的情绪；

所述确定单元，配置为根据预存的输入语音情绪类型与输出语音情绪类型之间的对应关系，确定所述第一语音情绪类型对应的输出的第二语音情绪类型，其中，所述输入语音情绪类型与所述输出语音情绪类型不同；

所述处理单元，配置为对所述语音信号进行处理，输出反映所述第二语音情绪类型的语音信号。
根据权利要求6所述的终端，其中，所述获得单元，配置为解析所述用户输入的语音信号，提取语音情绪参数；当在预置的语音情绪参考库中查询到所述语音情绪参数的参数值所对应的语音情绪类型时，将所述参数值所对应的语音情绪类型确定为所述第一语音情绪类型。
根据权利要求7所述的终端，其中，所述确定单元，还配置为在所述获得单元提取语音情绪参数之后，当在所述语音情绪参考库中未查询到所述参数值所对应的语音情绪类型后，根据预设条件，确定所述第一语音情绪类型。
根据权利要求7或8所述的终端，其中，所述语音情绪参数至少包括平均谱能量和/或基频前端上升斜率。
根据权利要求6所述的终端，其中，所述确定单元，配置为当所述第一语音情绪类型为负性情绪类型时，根据所述对应关系，将中性或正性情绪类型确定为所述第二语音情绪类型。
一种计算机存储介质，所述存储介质包括一组计算机可执行指令，所述指令用于执行权利要求1-5任一项所述的语音信号的处理方法。