WO2014000658A1

WO2014000658A1 - 消除噪音的方法和装置、以及移动终端

Info

Publication number: WO2014000658A1
Application number: PCT/CN2013/078130
Authority: WO
Inventors: 彭伟刚; 吴博; 胡先; 付红峰; 李少博; 蒋奎
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2012-06-28
Filing date: 2013-06-27
Publication date: 2014-01-03
Also published as: US20150325252A1; CN103514876A; KR20150032562A

Abstract

一种消除噪音的方法和装置、以及移动终端，该方法包括：预先从通话方的声音中提取出所述通话方声音的音频指纹（101）；在所述通话方和对端受话方通话时，根据所述通话方的音频指纹，从当前通话声音中提取出与所述音频指纹匹配的声音，并将与所述音频指纹匹配的声音通过通信网络发送至对端受话方（102）。

Description

消除噪音的方法和装置、以及移动终端技术领域

本发明涉及计算机技术，特别涉及消除噪音的方法、装置以及移动终端。发明背景

随着移动通信技术的发展，移动终端的使用越来越普遍。在使用移动终端进行通话时，通话质量会受到周围环境的背景噪音影响。比如，当用户使用手机与好友通话时，如果该用户处于比较嘈杂的环境中，则该用户通过手机传输的声音会受到背景噪音干扰，会导致好友通过手机接收的声音含有背景噪音，影响通话的质量。

为了提高通话质量，在现有技术中，在移动终端上额外增加硬件设备即消噪硬件设备，来降低噪音对通话质量的影响。该消噪硬件设备包括一个背景消噪麦克风、一个消噪芯片和一个发生装置。该背景消噪麦克风区别于移动终端上正常的通话麦克风，用于采集噪音声波。该消噪芯片用于基于该背景消噪麦克风采集的噪音声波来生成与噪音相反的声波。该发声装置用于发出该与噪音相反的声波，以利用抵消原理来消除通话过程中噪音，从而提高通话质量。

但是，由于在现有的提高通话质量的过程中，需要在移动终端上额外增加消噪硬件设备，尤其是在手机上，这会增加硬件成本。另外，上述的消噪硬件设备并不能彻底消除噪音，从而导致未被消除的噪音携带在移动终端用户的音频数据中传输给对端，这导致传输的音频数据过大，影响音频数据的传输速度和质量。还有，为了消除噪音，背景消噪麦克风不能被随意放置在移动终端中，背景消噪麦克风需要和移动终端上的通话麦克风保持足够的距离，从而增加了移动终端的设计难度。发明内容

本发明实施例提供了一种消除噪音的方法、装置以及移动终端，能够消除通话过程中的背景噪音，并且避免在移动终端中增加消噪硬件设备。

本发明实施例提供的技术方案包括：

一种消除噪音的方法，包括：

预先从通话方的声音中提取出所述通话方的音频指纹；

在所述通话方和对端受话方通话时， ^据所述通话方的音频指纹，从当前通话声音中提取出与所述音频指纹匹配的声音，并将与所述音频指纹匹配的声音通过通信网络发送至对端受话方。

一种消除噪音的装置，该装置包括：至少包括存储器，以及与所述存储器通信的处理器，其中所述存储器中包括可由处理器执行的提取指令和传输指令：

所述提取指令，用于预先从通话方的声音中提取并存储所述通话方的音频指纹；

所述传输指令，用于在所述通话方和对端受话方通话时，根据所述通话方的音频指纹，从当前通话声音中提取出与所述音频指纹匹配的声音，并将与所述音频指纹匹配的声音通过通信网络发送至对端受话方。

一种移动终端，包括上述的消除噪音的装置。

由以上技术方案可以看出，本发明实施例中，先从通话方的声音中提取出该通话方的音频指纹，在该通话方和对端受话方通话时， ^据该通话方的音频指纹，从当前通话声音中提取出与该通话方的音频指纹匹配的声音，并将该提取出的声音通过通信网络发送至对端受话方，从而保证了对端受话方听到更清楚的且自身需要的声音，提高了通话质量。进一步地，本发明实施例中，由于通过通信网络传输的声音仅为通话方实际发出的声音，不包括其他噪音，从而减少了通信网络的负载。附图简要说明

图 1为本发明实施例提供的消除噪音的方法的流程图。

图 2为本发明实施例提供的消除噪音的方法的另一流程图。

图 3为本发明实施例提供的消除噪音的装置的结构示意图。

图 4为本发明实施例提供的另一消除噪音的装置的结构示意图。实施本发明的方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

本发明实施例提供的消除噪音的方法可以应用在移动终端比如手机等上，也可以应用于固定硬件设备比如 PC机等上，本发明实施例并不说明。

参见图 1 , 图 1为本发明实施例提供的消除噪音的方法的流程图。如图 1所示，该方法包括以下步骤。

在步骤 101中，预先从通话方的声音中提取出该通话方的音频指纹 ( Audio fingerprinting )。

在本发明实施例中，该音频指纹指示了该通话方的声音属性，可以用来标识该通话方的声音。

在步骤 102中，在该通话方和对端受话方通话时，根据该通话方的音频指纹，从当前通话声音中提取出与该音频指纹匹配的声音，并将与该音频指纹匹配的声音通过通信网络发送至对端受话方。

本发明实施例中，当前通话声音中可以包含该通话方实际的声音和影响该通话方实际发出声音的噪音。

通常，如果通话方处于一个嘈杂的环境中，噪音会跟着通话方的实际的声音混杂在一起作为混合的通话方声音。如果移动终端将该混合的通话方声音直接通过通信网络传输，则对端受话方就会同时收到噪音和通话方实际发出的声音，影响通话质量。而本发明实施例中，在通过通信网络传输通话方声音之前，先将通话方实际的声音从混合的通话方声音中提取出来，只将被提取的声音通过通信网络传输，这样，对端受话方就会收到通话方实际的声音，保证对端受话方听到更清楚的且自身需要的声音，提高了通话质量。

需要说明的是，上述步骤 101至步骤 102可通过安装在移动终端的软件实现，下面对图 1所示流程进行详细描述。

参见图 2, 图 2为本发明实施例提供的消除噪音的方法的详细流程图。该方法应用于移动终端，如图 2所示，该方法包括以下步骤。

在步骤 201中，移动终端从各个用户的声音中提取出该用户的音频指纹。

在本发明实施例中，该音频指纹指示了该用户的声音属性，可以用来标识该用户的声音。

在本步骤中，移动终端从用户的声音中提取出该用户的音频指纹包括：将用户声音信号分成互相重叠的多个帧；对每一帧进行特征运算，使用分类器方式将得到的结果映射为一数据，将该得到的数据作为该用户的音频指纹。

在本发明实施例中，可以通过如下方式将用户声音信号分成互相重叠的多个帧。从不同起始时间开始，按照设定时间间隔将用户声音信号分成互相重叠的多个帧；或者，从不同起始频率开始，按照设定频率间隔将用户声音信号分成互相重叠的多个帧。

以按照设定时间间隔将用户声音信号分成互相重叠的多个帧为例，假如设定时间间隔为 lms,则从第 0ms开始的 1ms长度的用户声音信号作为一个帧，从 0.5ms开始的 lms长度的用户声音信号作为一个帧，从第 lms开始的 lms长度的将用户声音信号作为一个帧、以及从第 1.5ms 开始的 lms长度的用户声音信号作为帧等，通过这种划分方式，这显然使分成的多个帧之间有一部分互相重叠。

另外，对每一帧进行的特征运算，其具体实现时可为以下任一或者任一组合：傅立叶变换（FFT )、小波变换（WT )、迈尔倒谱系数（MFCC )、频谱平滑度、尖锐度、线性预测编码（LPC )。

还有，在本发明实施例中的分类器方式可为现有的隐含马尔可夫模型或量化技术，其中，使用分类器方式将得到的结果映射为一数据，可为现有技术中使用隐含马尔可夫模型或量化技术映射的方式类似，这里不再赘述。

在步骤 202中，移动终端将每个用户的音频指纹存储在本地。

在步骤 203中，移动终端在一用户比如用户 A进行通话时，从本地存储的用户的音频指纹中找到用户 A的音频指纹。

如果移动终端当前处于一个嘈杂的环境，则用户 A当前的通话声音就包括：用户 A实际的声音和影响用户 A实际声音的噪音，该噪音可以是用户 A周围的背景噪音等。

在步骤 204中，移动终端利用用户 A的音频指纹，从用户 A当前的通话声音中提取出与用户 A的音频指纹匹配的声音。

具体地，在本步骤中，首先，采用目标声音采集预测方式，从用户 A当前的通话声音中预测出与用户 A的音频指纹匹配的声音。之后，采用时频域内目标声音的二次定位，从当前的通话声音中提取出该预测的声音，将该提取出的声音作为与用户 A的音频指纹匹配的声音。

本实施例中采用的目标声音采集预测方式、以及时频域内目标声音的二次定位可与现有技术类似，本发明不再赘述。

在步骤 205中，移动终端通过通信网络发送步骤 204提取出的声音至对端受话方。

如此，通过上述步骤 201至步骤 205 , 对端受话方即可听到用户 A 实际发出的声音，从而保证用户 A与对端受话方之间的通话质量，并且，由于通过通信网络传输的声音仅为用户 A实际发出的声音，不包括其他噪音，从而减少了通信网络的负载。

以上对本发明实施例提供的方法进行了描述，下面对本发明实施例提供的装置进行描述。

参见图 3 , 图 3为本发明实施例提供的消除噪音的装置的结构示意图。如图 3所示，该装置包括提取模块和传输模块。

该提取模块用于预先从通话方的声音中提取并存储该通话方的音频指纹。

该传输模块用于在该通话方和对端受话方通话时， ^据该通话方的音频指纹，从当前通话声音中提取出与该音频指纹匹配的声音，并将与该音频指纹匹配的声音通过通信网络发送至对端受话方；其中，该当前通话声音包含该通话方实际发出的声音和影响该通话方实际发出声音的噪音。

优选地，本发明实施例中，如图 3所示，该提取模块包括划分单元和映射单元。

该划分单元用于将通话方的声音信号分成互相重叠的多个帧。该映射单元用于对每一帧进行特征运算，使用分类器方式将得到的结果映射为一数据，将该得到的数据作为该通话方的音频指纹。

本发明实施例中，该划分单元将通话方的声音信号分成互相重叠的多个帧包括：从不同起始时间开始，按照设定时间间隔将通话方的声音信号分成互相重叠的多个帧；或者，从不同起始频率开始，按照设定频率间隔将通话方的声音信号分成互相重叠的多个帧。

优选地，本发明实施例中，该传输模块通过预测单元和提取单元从当前通话声音中提取出与该音频指纹匹配的声音。

预测单元用于采用目标声音采集预测方式，从当前通话声音中预测出与通话方的音频指纹匹配的声音。

提取单元用于采用时频域内目标声音的二次定位，从当前通话声音中提取出该预测的声音，将该提取出的声音作为与该通话方的音频指纹匹配的声音。

参见图 4, 图 4为本发明实施例提供的另一消除噪音的装置的结构示意图。如图 4所示，该装置至少包括存储器，以及与该存储器通信的处理器，其中该存储器中包括可由处理器执行的提取指令和传输指令。

该提取指令用于预先从通话方的声音中提取并存储该通话方的音频指纹。

该传输指令用于在该通话方和对端受话方通话时，根据该通话方的音频指纹，从当前通话声音中提取出与该音频指纹匹配的声音，并将与该音频指纹匹配的声音通过通信网络发送至对端受话方；其中，该当前通话声音包含该通话方实际发出的声音和影响该通话方实际发出声音的噪音。

优选地，本发明实施例中，该提取指令包括划分子指令和映射子指令。该划分子指令用于将该通话方的声音信号分成互相重叠的多个帧。该映射子指令用于对每一帧进行特征运算，使用分类器方式将得到的结果映射为一数据，将该得到的数据作为该通话方的音频指纹。

本发明实施例中，该划分子指令将通话方的声音信号分成互相重叠的多个帧包括：从不同起始时间开始，按照设定时间间隔将通话方的声音信号分成互相重叠的多个帧；或者，从不同起始频率开始，按照设定频率间隔将通话方的声音信号分成互相重叠的多个帧。

优选地，本发明实施例中，该传输指令通过预测子指令和提取子指令从当前通话声音中提取出与该音频指纹匹配的声音。

预测子指令用于采用目标声音采集预测方式，从当前通话声音中预测出与通话方的音频指纹匹配的声音。

提取子指令用于采用时频域内目标声音的二次定位，从当前通话声音中提取出该预测的声音，将该提取出的声音作为与该通话方的音频指纹匹配的声音。

优选地，本发明实施例还提供了一种移动终端，其中，该移动终端可包括图 3或者图 4所示的装置。

由以上技术方案可以看出，在本发明实施例中，先从通话方的声音中提取出该通话方的音频指纹，在该通话方和对端受话方通话时，才艮据该通话方的音频指纹，从当前通话声音中提取出与该通话方的音频指纹匹配的声音，并将该提取出的声音通过通信网络发送至对端受话方；其中，当前通话声音包含该通话方实际发出的声音和影响该通话方实际发出声音的噪音，应用本发明实施例可以保证对端受话方听到更清楚的且自身需要的声音，提高了通话质量。

进一步地，本发明实施例中，由于通过通信网络传输的声音仅为通话方实际发出的声音，不包括其他噪音，从而减少了通信网络的负载。以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

权利要求书

1、一种消除噪音的方法，其特征在于，该方法包括：

预先从通话方的声音中提取出所述通话方的音频指纹；

2、根据权利要求 1所述的方法，其特征在于，进一步包括：存储至少一个预先提取的音频指纹；

根据所述通话方声音的音频指纹，从当前通话声音中提取出与所述音频指纹匹配的声音包括：

从存储的至少一个音频指纹中获取所述通话方的音频指纹，从当前通话声音中提取出与所述音频指纹匹配的声音。

3、根据权利要求 1或 2所述的方法，其特征在于，所述从通话方的声音中提取出所述通话方的音频指纹包括：

将所述通话方的声音信号分成互相重叠的多个帧；

对每一帧进行特征运算，使用分类器方式将得到的结果映射为一数据，将所述得到的数据作为所述通话方的音频指纹。

4、根据权利要求 3所述的方法，其特征在于，所述特征运算包括以下任一个或者任一组合：

傅立叶变换 FFT、小波变换 WT、迈尔倒谱系数 MFCC、频谱平滑度、尖锐度、线性预测编码 LPC。

5、根据权利要求 3所述的方法，其特征在于，所述将所述通话方的声音信号分成互相重叠的多个帧包括：

从不同起始时间开始，按照设定时间间隔将通话方的声音信号分成互相重叠的多个帧；或者，

从不同起始频率开始，按照设定频率间隔将通话方的声音信号分成互相重叠的多个帧。

6、根据权利要求 3所述的方法，其特征在于，所述根据所述通话方的音频指纹，从当前通话声音中提取出与所述音频指纹匹配的声音包括：

采用目标声音采集预测方式，从所述当前通话声音中预测出与所述通话方的音频指纹匹配的声音；

采用时频域内目标声音的二次定位，从当前通话声音中提取出所述预测的声音，将所述提取出的声音作为与所述通话方的音频指纹匹配的声音。

7、一种消除噪音的装置，其特征在于，该装置至少包括存储器，以及与所述存储器通信的处理器，其中所述存储器中包括可由处理器执行的提取指令和传输指令：

8、根据权利要求 7所述的装置，其特征在于，所述提取指令包括划分子指令和映射子指令；

所述划分子指令，用于将所述通话方的声音信号分成互相重叠的多个帧；

所述映射子指令，用于对每一帧进行特征运算，使用分类器方式将得到的结果映射为一数据，将所述得到的数据作为所述通话方的音频指纹。

9、根据权利要求 8所述的装置，其特征在于，所述划分子指令具体用于：

10、根据权利要求 7所述的装置，其特征在于，所述传输指令通过预测子指令和提取子指令从当前通话声音中提取出与所述音频指纹匹配的声音；

所述预测子指令，用于采用目标声音采集预测方式，从当前通话声音中预测出与所述通话方的音频指纹匹配的声音；

所述提取子指令，用于采用时频域内目标声音的二次定位，从当前通话声音中提取出所述预测的声音，将所述提取出的声音作为与所述通话方的音频指纹匹配的声音。

11、一种移动终端，其特征在于，所述移动终端包括权利要求 7至 10任一所述的装置。