WO2014161334A1

WO2014161334A1 - 一种语音通话方法及装置

Info

Publication number: WO2014161334A1
Application number: PCT/CN2013/087986
Authority: WO
Inventors: 康健超
Original assignee: 中兴通讯股份有限公司
Priority date: 2013-09-06
Filing date: 2013-11-27
Publication date: 2014-10-09
Also published as: CN104427068A; CN104427068B

Abstract

本发明公开了一种语音通话方法及装置，所述方法包括：接收通话语音X(t)，并对所述语音X(t)进行去噪，得到去噪后的语音X ₀(t)；确定所述去噪后的语音X ₀(t)的幅度均值小于存储的原语音Y(t)的幅度均值时，对所述去噪后的语音X ₀(t)进行增强后输出。

Description

一种语音通话方法及装置技术领域

本发明涉及移动通信领域的语音识别技术，尤其涉及了一种在周围环境不允许用户大声讲话的场合中的语音通话方法及装置。背景技术

随着移动通信技术的不断发展，移动终端如手机等已经成为人们日常生活中不可缺少的通信设备，其最主要的作用就是进行通话，人们通过通话来增强和联络感情。但是，用户在通话时经常会受到周围环境的影响，在某些环境中接到电话后不能大声讲话，只能通过很小的声音来表达意思，比如在看电影、开会等场合，这样，对方可能无法听清楚用户的声音，影响双方交流。

目前，一般的移动终端在通话时，都只是通过麦克风将声音接收并传输给对方，但在不方便大声讲话的场合中接到电话的用户在接电话时只能低头小声说，同时还伴有其他声音，如开会时演讲者的声音、看电影时电影屏幕的声音等，这样，如果直接将声音传输给对方就会使对方不好进行辨认，影响通话质量；因此，亟需一种语音通话方法来保证这种安静场合的通话效果。发明内容

有鉴于此，本发明实施例为解决现有技术中存在的缺陷，提供一种语音通话方法及装置，能够在周围环境不允许用户大声讲话的场合中也能进行清晰地通话。

为达到上述目的，本发明实施例的技术方案是这样实现的：本发明实施例提供了一种语音通话方法，所述方法包括：接收通话语音 (0，并对所述语音 (0进行去噪，得到去噪后的语音 _Q(0; 确定所述去噪后的语音 _Q(0的幅度均值小于存储的原语音 (0的幅度均值时，对所述去噪后的语音 _Q(0进行增强后输出。

优选地，所述方法还包括：存储原语音 y()，并提取所述原语音的幅度均值。

优选地，所述对所述语音 (o进行去噪，包括：分别对所述语音 (o和存储的原语音进行快速傅里叶变换，得到所述语音的频域信号 o)和所述原语音的频域信号 Ι »；根据所述语音的频域信号和所述原语音的频域信号 Ι »，确定所述语音中噪声的频域信号；将所述语音的频域信号与所述噪声的频域信号进行卷积，确定所述去噪后的语音的频域信号；对所述去燥后的语音的频域信号进行逆快速傅里叶变换，得到去噪后的语音 _Q(0。

优选地，所述对所述去噪后的语音进行增强为：根据所述原语音的幅度均值对所述去噪后的语音 _Q(0进行增强，包括：确定所述去噪后的语音 _Q(0的当前幅度均值；根据所述原语音 1Ί )的原幅度均值和所述当前幅度均值确定语音增强系数《；根据所述语音增强系数《对所述去噪后的语音 Q(0进行增强。

优选地，所述方法还包括：确定所述去噪后的语音 _Q(o的幅度均值大于等于所述原语音的幅度均值时，将所述去噪后的语音 _Q(o直接输出。

本发明实施例还提供了一种语音通话装置，所述装置包括接收单元、去噪单元、处理单元和输出单元；其中，所述接收单元，配置为接收通话语音所述去噪单元，配置为对所述语音 (0进行去噪，得到去噪后的语音 _Q(); 所述处理单元，配置为确定所述去噪后的语音的幅度均值小于存储的原语音的幅度均值时，对所述去噪后的当前语音 _Q(0进行增强；所述输出单元，配置为对增强后的语音进行输出。

优选地，所述装置还包括：存储单元和提取单元；其中，所述存储单元，配置为存储原语音所述提取单元，配置为提取所述原语音的幅度均值。

优选地，所述去噪单元包括第一变换子单元、第一确定子单元、第二确定子单元和第二变换子单元；其中，所述第一变换子单元，配置为分别对所述语音 (0和存储的原语音 ίΊ )进行快速傅里叶变换，得到所述语音的频域信号和所述原语音的频域信号所述第一确定子单元，配置为根据所述语音的频域信号和所述原语音的频域信号，确定所述语音中噪声的频域信号；所述第二确定子单元，配置为将所述语音的频域信号与所述噪声的频域信号进行卷积，确定所述去噪后的语音的频域信号；所述第二变换子单元，配置为对去燥后的语音的频域信号进行逆快速傅里叶变换，得到去噪后的语音。( )。

优选地，所述处理单元，配置为根据所述原语音的幅度均值对所述去噪后的语音进行增强，所述处理单元包括第三确定子单元、第四确定子单元和增强子单元，其中：所述第三确定子单元，配置为确定所述去噪后的语音的当前幅度均值；所述第四确定子单元，配置为根据所述原语音的原幅度均值和所述当前幅度均值确定语音增强系数《；所述增强子单元，配置为根据所述语音增强系数 η对所述去噪后的语音进行增强。

优选地，所述处理单元还配置为：确定所述去噪后的语音的幅度均值大于等于所述原语音的幅度均值时，触发所述输出单元；对应地，所述输出单元，还配置为将所述去噪后的语音直接输出。本发明实施例提供的语音通话方法及装置，接收通话语音后，先对所述语音 (0进行去噪，得到去噪后的语音 _Q(0 ; 再在确定所述去噪后的语音 _Q(0的幅度均值小于存储的原语音的幅度均值时，对所述去噪后的语音进行增强后输出；如此，能够使用户在不方便大声说话的场合下仍然能够得到较好的通话效果，同时，还能将周围的杂音进行有效去除，接听的对方不会再受听不清的困扰，另外也不会影响到周围的人。附图说明

图 1为本发明实施例语音通话方法的实现流程示意图；

图 2 为本发明实施例中对所述去噪后的语音进行增强的一种实现流程示意图；

图 3为本发明实施例语音通话装置的组成结构示意图；

图 4为图 3中去噪单元的组成结构示意图；

图 5为图 3中增强单元的组成结构示意图。具体实施方式

本发明实施例中，接收通话语音后，先对所述语音进行去噪，得到去噪后的语音；再在确定所述去噪后的语音的幅度均值小于存储的原语音的幅度均值时，对所述去噪后的语音进行增强后输出。

下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。图 1为本发明实施例语音通话方法的实现流程示意图，如图 1所示，所述语音通话方法的具体流程如下：

步骤 101，存储原语音 ( )，并提取所述原语音的幅度均值；具体地，用户可以寻找一个没有噪声和杂音的安静场合，打开录音装置，录入一段自己正常说话时的声音作为原语音^ χ>。

这里，所述提取原语音 t)的幅度均值的目的是：当判断用户在通话过程中的语音的幅度均值小于正常说话的原语音的幅度均值时，为了防止对方听不清楚，可根据原语音的幅度均值对正在通话的语音的幅度均值进行增强，以使对方能够清楚的听到用户的讲话。

其中，所述提取所述原语音的幅度均值，本领域的技术人员可以根据各种现有技术来实现，这里不再赘述。

步骤 102，接收通话语音 (o，并对所述语音 (o进行去噪，得到去噪后的语音 _Q(0 ;

这里，所述接收通话语音的环境可以是任何场合，尤其是指一些不方便大声讲话的场合，例如：看电影、看歌剧、看话剧、开会、工作等的场合。用户在这些不方便大声讲话的场合，接到呼入电话或进行呼出电话后不能大声讲话，只能通过很小或低的声音来表达意思，从而会使对方无法听清楚用户的声音，进而影响双方交流的场合。

这里，所述语音可以是通过麦克风等接收的语音；所述语音包括：用户音量很小的声音和远大于用户说话声音的音量的背景噪声。

这里，所述对所述语音 (ο进行去噪，包括：

步骤 A1，分别对所述语音和存储的原语音进行快速傅里叶变换（FFT， Fast Fourier Transform ), 得到所述语音的频域信号 (»和所述原语音的频域信号 ( )；

步骤 A2，根据所述语音的频域信号和原语音的频域信号 Ι )，确定所述语音中噪声的频域信号；

具体地，将所述语音的频域信号 'o)与原语音的频域信号 y'o)相减，得到噪声的频域信号；

步骤 A3，将所述语音的频域信号与所述噪声的频域信号进行卷积，确定所述去噪后的语音的频域信号；

步骤 A4，对所述去燥后的语音的频域信号进行逆快速傅里叶变换 ( IFFT， Inverse Fast Fourier Transform )，得到去噪后的语音 _Q (t)。

这里，在分别对所述语音和存储的原语音进行快速傅里叶变换之前，所述对所述语音进行去噪还包括：分别将所述语音 (0和所述原语音进行加汉明 ( Hanning ) 窗处理。

这里，所述对所述语音进行去噪是为了去除远大于用户声音的背景噪声。在现有技术中，对语音需进行去噪的方法有很多，本领域的技术人员可以根据各种现有技术对语音进行去噪。

步骤 103，确定所述去噪后的语音的幅度均值小于存储的原语音

Y(t)的幅度均值时，对所述去噪后的语音 _Q(o进行增强后输出。

这里，所述增强是指对去噪后的语音的幅度进行提升，以将用户语音的音量进行放大，这样，在不允许大声说话的场合，通话双方就可以进行正常清晰的通话。

优选地，所述对所述去噪后的语音 _Q(0进行增强为：根据原语音的幅度均值对所述去噪后的语音 _Q(0进行增强。

优选地，本发明实施例语音通话方法还包括：确定所述去噪后的语音 Q(0的幅度均值大于等于存储的原语音的幅度均值时，将所述去噪后的语音 _Q(0直接输出。

图 2 为本发明实施例中对所述去噪后的语音进行增强的一种实现流程示意图，如图 2所示，根据原语音的幅度均值对所述去噪后的语音 _Q(0 进行增强，具体包括以下步骤：

步骤 201，确定所述去噪后的语音。 ( 的当前幅度均值；

步骤 202，根据所述原语音的原幅度均值和所述当前幅度均值确定语音增强系数《;

具体地，假设存储的原语音的原幅度均值为 11 ^011，假设所述当前幅度均值为 II X₀ (t) II，用所述 II Y(t) II除以所述 II X₀ (t) II得到所述语音增强系数 n；

步骤 203，根据所述语音增强系数《对所述去噪后的语音进行增强。

具体地，将所述去噪后的语音乘以所述语音增强系数《，得到用户正常说话时音量的语音数据；在实际的应用过程中，本发明实施例中还应包括：将对所述去噪后的语音进行增强后得到的正常语音从数字信号转化为模拟信号后进行输出，相应的，在通过麦克风等接收含有噪声的语音; T(t)时，还应该将所述; r(t)转化为数字信号，这里，所述模拟信号转数字信号，以及数字信号转模拟信号，本领域的技术人员均可以采用各种现有技术来实现，这里不再赘述。

图 3为本发明实施例语音通话装置的组成结构示意图，如图 3所示，本发明实施例语音通话装置，包括接收单元 31、去噪单元 32、处理单元 33 和输出单元 34;

所述接收单元 31，配置为接收通话语音

所述去噪单元 32，配置为对所述语音进行去噪，得到去噪后的语音^)；

所述处理单元 33，配置为确定所述去噪后的语音的幅度均值小于存储的原语音的幅度均值时，对所述去噪后的语音 _Q(0进行增强；所述输出单元 34，配置为对增强后的语音进行输出。

优选地，所述处理单元 33 还配置为：确定所述去噪后的语音的幅度均值大于等于所述原语音的幅度均值时，触发所述输出单元 34; 相应地，所述输出单元 34，还配置为将所述去噪后的语音直接输出。优选地，所述处理单元 33 对所述去噪后的语音进行增强为：根据所述原语音 )的幅度均值对所述去噪后的语音 _Q(0进行增强。

图 4为图 3中去噪单元的组成结构示意图，如图 4所示，所述去噪单元 32进一步包括第一变换子单元 41、第一确定子单元 42、第二确定子单元 43和第二变换子单元 44; 其中，

所述第一变换子单元 41，配置为分别对所述语音和存储的原语音

Y(t)进行快速傅里叶变换，得到所述语音的频域信号 o)和所述原语音的频域信号

所述第一确定子单元 42，配置为根据所述语音的频域信号和所述原语音的频域信号 o)，确定所述语音中噪声的频域信号；

所述第二确定子单元 43，配置为将语音的频域信号与所述噪声的频域信号进行卷积，确定所述去噪后的语音的频域信号；

所述第二变换子单元 44，配置为对去燥后的语音的频域信号进行逆快速傅里叶变换，得到去噪后的语音。( )。

图 5为图 3中处理单元的组成结构示意图，如图 5所示，所述处理单元 33进一步包括第三确定子单元 51、第四确定子单元 52和增强子单元 53，其中：

所述第三确定子单元 51，配置为确定所述去噪后的语音的当前幅度均值；

所述第四确定子单元 52，配置为根据所述原语音的原幅度均值和所述当前幅度均值确定语音增强系数 n；

所述增强子单元 53，配置为根据所述语音增强系数《对所述去噪后的语音 _Q(0进行增强。

本发明实施例在具体实现的过程中，还可以相应的设置为一种通话模式，当用户进入不方便说话的场合时，便可以打开所述通话模式，这时，当用户有电话需要呼出或者有电话需要呼入时，就可以执行本发明实施例语音通话方法的处理流程。与现有技术相比，采用语音识别技术对用户的声音进行识别，将语音中的噪声过滤掉，然后放大输出到对方，使得用户在小声说话的情况下，对方仍能够得到较好的通话效果，同时将周围的杂音进行有效去除，不用再受对方听不清的困扰，同时也不会影响到周围的人。

本领域的技术人员应当理解，图 4至图 5所示的语音通话装置中的各处理单元、子单元以及模块的实现功能可参照前述语音通话方法的相关描述而理解。本领域技术人员还应当理解，图 4至图 5所示的语音通话装置中各处理单元、子单元以及模块可通过所述移动终端的处理器而实现，也可通过具体的逻辑电路而实现。比如，在实际应用中，处理器可由中央处理器（ CPU， Central Processing Unit )、处理器（ MPU, Micro Processor Unit )、或数字信号处理器（DSP， Digital Signal Processor ) 实现。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。工业实用性

本发明实施例在接收通话语音后，先对所述语音进行去噪，得到去噪后的语音 _Q( ) ;再在确定所述去噪后的语音的幅度均值小于存储的原语音的幅度均值时，对所述去噪后的语音 _Q(o进行增强后输出；如此，能够使用户在不方便大声说话的场合下仍然能够得到较好的通话效果，同时，还能将周围的杂音进行有效去除，接听的对方不会再受听不清的困扰，另外也不会影响到周围的人。

Claims

权利要求书

1、一种语音通话方法，所述方法包括：

接收通话语音 (0，并对所述语音 (0进行去噪，得到去噪后的语音确定所述去噪后的语音 _Q(0的幅度均值小于存储的原语音 (0的幅度均值时，对所述去噪后的语音 _Q(o进行增强后输出。

2、根据权利要求 1所述的方法，其中，所述方法还包括：存储原语音 Y(t) , 并提取所述原语音的幅度均值。

3、根据权利要求 1所述的方法，其中，所述对所述语音进行去噪，包括：

分别对所述语音和存储的原语音进行快速傅里叶变换，得到所述语音的频域信号和所述原语音的频域信号；

根据所述语音的频域信号和所述原语音的频域信号，确定所述语音中噪声的频域信号；

将所述语音的频域信号与所述噪声的频域信号进行卷积，确定所述去噪后的语音的频域信号；

对所述去燥后的语音的频域信号进行逆快速傅里叶变换，得到去噪后的语音 _Q(0。

4、根据权利要求 1所述的方法，其中，所述对所述去噪后的语音进行增强为：根据所述原语音的幅度均值对所述去噪后的语音 _Q(0进行增强，包括：

确定所述去噪后的语音 _Q(0的当前幅度均值；

根据所述原语音 (0的原幅度均值和所述当前幅度均值确定语音增强系数《;

根据所述语音增强系数 n对所述去噪后的语音。 ( 进行增强。

5、根据权利要求 1至 4任一项所述的方法，其中，所述方法还包括：确定所述去噪后的语音 _Q(0的幅度均值大于等于所述原语音 ίΊ )的幅度均值时，将所述去噪后的语音 _Q(0直接输出。

6、一种语音通话装置，所述装置包括接收单元、去噪单元、处理单元和输出单元；其中，

所述接收单元，配置为接收通话语音

所述去噪单元，配置为对所述语音进行去噪，得到去噪后的语音所述处理单元，配置为确定所述去噪后的语音的幅度均值小于存储的原语音的幅度均值时，对所述去噪后的当前语音 _Q(0进行增强；所述输出单元，配置为对增强后的语音进行输出。

7、根据权利要求 6所述的装置，其中，所述装置还包括：存储单元和提取单元；其中，

所述存储单元，配置为存储原语音

所述提取单元，配置为提取所述原语音的幅度均值。

8、根据权利要求 6所述的装置，其中，所述去噪单元包括第一变换子单元、第一确定子单元、第二确定子单元和第二变换子单元；其中，

所述第一变换子单元，配置为分别对所述语音和存储的原语音

所述第一确定子单元，配置为根据所述语音的频域信号和所述原语音的频域信号 y<»，确定所述语音中噪声的频域信号；所述第二确定子单元，配置为将所述语音的频域信号 o)与所述噪声的频域信号进行卷积，确定所述去噪后的语音的频域信号；

所述第二变换子单元，配置为对去燥后的语音的频域信号进行逆快速傅里叶变换，得到去噪后的语音。( )。

9、根据权利要求 6所述的装置，其中，所述处理单元，配置为根据所述原语音的幅度均值对所述去噪后的语音进行增强，所述处理单元包括第三确定子单元、第四确定子单元和增强子单元，其中：

所述第三确定子单元，配置为确定所述去噪后的语音的当前幅度均值；

所述第四确定子单元，配置为根据所述原语音的原幅度均值和所述当前幅度均值确定语音增强系数 η；

所述增强子单元，配置为根据所述语音增强系数 η对所述去噪后的语音 Q(0进行增强。

10、根据权利要求 6至 9任一项所述的装置，其中，所述处理单元，还配置为确定所述去噪后的语音的幅度均值大于等于所述原语音的幅度均值时，触发所述输出单元；

对应地，所述输出单元，还配置为将所述去噪后的语音直接输出。