WO2019100500A1

WO2019100500A1 - 语音信号降噪方法及设备

Info

Publication number: WO2019100500A1
Application number: PCT/CN2017/117553
Authority: WO
Inventors: 陈维亮
Original assignee: 歌尔科技有限公司
Priority date: 2017-11-27
Filing date: 2017-12-20
Publication date: 2019-05-31
Also published as: US11475907B2; CN107945815A; US20200372925A1; CN107945815B

Abstract

本发明提供一种语音信号降噪方法及设备。其中，方法的部分包括以下步骤：根据与原始输入信号中的环境噪声信号相关的干扰信号，滤除所述原始输入信号中的环境噪声信号，以得到第一语音信号；从语音信号样本库中，获取与所述第一语音信号相匹配的样本信号；根据与所述第一语音信号相匹配的样本信号，滤除所述第一语音信号中的其它噪声信号，以得到有效语音信号。本发明提供的方法可以有效滤除语音信号中的环境噪声信号和其他噪声信号。

Description

语音信号降噪方法及设备

技术领域

本发明涉及信号处理技术领域，尤其涉及一种语音信号降噪方法及设备。

背景技术

随着科技的发展，出现了很多具有语音输入功能的设备，例如手机、机器人、语音音响等。在用户通过耳机上的麦克风输入语音信号的过程中，除了用户的语音信号，也会混入一些噪声信号，这些噪声信号会对用户输入的语音信号造成干扰，降低有效语音信号的清晰度。

目前，主要使用最小均方(Least Mean Square，LMS)算法对用户输入的信号进行降噪处理。该LMS算法主要用于滤除环境噪声信号，若用户输入的信号中除了环境噪声信号之外还掺杂着其它人的声音信号，在采用LMS算法进行降噪后仍得到不清晰的有效语音信号。由此可见，需要一种更为有效的语音信号降噪方法，去除语音信号中的各种噪声，以获得清晰的有效语音信号。

发明内容

本发明的多个方面提供一种语音信号降噪方法及设备，用以有效地去除语音信号中的环境噪声信号和其他噪声信号，以获的清晰的语音信号。

本发明提供一种语音信号降噪方法，包括：

根据与原始输入信号中的环境噪声信号相关的干扰信号，滤除所述原始输入信号中的环境噪声信号，以得到第一语音信号；

从语音信号样本库中，获取与所述第一语音信号相匹配的样本信号；

根据与所述第一语音信号相匹配的样本信号，滤除所述第一语音信号中的其它噪声信号，以得到有效语音信号。

可选地，所述从语音信号样本库中，获取与所述第一语音信号相匹配的样本信号，包括：

对所述第一语音信号进行声纹识别，以获得所述第一语音信号的频谱特征；

计算所述第一语音信号的频谱特征与所述语音信号样本库中存储的各样本信号的频谱特征的相似度；

将与所述第一语音信号的频谱特征的相似度最高的样本信号作为与所述第一语音信号相匹配的样本信号。

可选地，所述对所述第一语音信号进行声纹识别，以获得所述第一语音信号的频谱特征，包括：

对所述第一语音信号进行加窗处理，以获得至少一帧语音信号；

对所述至少一帧语音信号进行傅里叶变换，以获得至少一帧频域信号；

提取所述至少一帧频域信号的频谱特征，以获得所述第一语音信号的频谱特征。

可选地，所述提取所述至少一帧频域信号的频谱特征，以获得所述第一语音信号的频谱特征，包括：

从所述至少一帧频域信号中，选择一帧频域信号作为第一频域信号；

按照预设的幅度-灰度映射关系，将所述第一频域信号中各频率上的信号幅度映射为灰度值；

将所述第一频域信号中各频率对应的灰度值，作为所述第一语音信号的频谱特征。

可选地，所述根据与所述第一语音信号相匹配的样本信号，滤除所述第一语音信号中的其它噪声信号，以得到有效语音信号，包括：

根据与所述第一语音信号相匹配的样本信号，采用最小均方算法计算每一帧频域信号中的其它噪声值；

将每一帧频域信号减去每一帧频域信号中的其它噪声值，以得到每一帧有效频域信号；

对所述每一帧有效频域信号进行傅里叶反变换，以得到每一帧有效时域信号；

将每一帧有效时域信号顺次组合，以得到所述有效语音信号。

可选地，在所述根据与原始输入信号中的环境噪声信号相关的干扰信号，滤除所述原始输入信号中的环境噪声信号之前，所述方法还包括：

通过距离声源在第一指定距离内的第一麦克风采集所述原始输入信号；以及

通过距离所述声源在所述第一指定距离外、第二指定距离内的第二麦克风采集所述干扰信号；

其中，所述第二指定距离大于所述第一指定距离。

可选地，所述根据与原始输入信号中的环境噪声信号相关的干扰信号，滤除所述原始输入信号中的环境噪声信号，以得到第一语音信号，包括：

采用最小均方算法，根据与原始输入信号中的环境噪声信号相关的干扰信号，滤除所述原始输入信号中的环境噪声信号，以得到所述第一语音信号。

本发明还提供一种电子设备，包括：处理器，以及与所述处理器连接的存储器；

所述存储器，用于存储一条或多条计算机指令；

所述处理器，用于执行所述一条或多条计算机指令，以用于：

可选地，所述处理器在从语音信号样本库中，获取与所述第一语音信号相匹配的样本信号时，具体用于：

可选地，所述处理器在对所述第一语音信号进行声纹识别，以获得所述第一语音信号的频谱特征时，具体用于：

在本发明中，通过滤除原始输入信号中的环境噪声信号，以得到第一语音信号，实现了原始输入信号的第一次降噪，即滤除了环境噪声信号；在此基础上，根据与第一语音信号相匹配的样本信号，滤除第一语音信号中的其它噪声信号，以得到有效语音信号，使得能够依照与第一语音信号相匹配的样本信号，保留用户发出的有效语音信号，滤除除有效信号之外的其他噪声信号，实现第二次降噪。尤其是当其他噪声信号是其他说话者发出的语音时，能够根据样本信号有效滤除。本实施例中，通过两次降噪，依次滤除原始输入信号中的环境噪声信号和其他噪声信号，获得的有效语音信号更为清晰。

附图说明

图1为本发明一实施例提供的语音信号降噪方法的流程示意图；

图2为本发明又一实施例提供的第一帧频域信号中各频率对应的灰度值；

图3为本发明又一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下结合附图，详细说明本发明各实施例提供的技术方案。

图1为本发明一实施例提供的语音信号降噪方法的流程示意图。如图1所示，该方法包括以下步骤：

S101：根据与原始输入信号中的环境噪声信号相关的干扰信号，滤除原始输入信号中的环境噪声信号，以得到第一语音信号。

S102：从语音信号样本库中，获取与第一语音信号相匹配的样本信号。

S103：根据与第一语音信号相匹配的样本信号，滤除第一语音信号中的其它噪声信号，以得到有效语音信号。

原始输入信号指用户通过耳机、手机等设备上的麦克风输入的语音信号。由于环境噪声和其他说话者的存在，原始输入信号除了用户发出的有效语音信号外还会包括环境噪声信号和其他噪声信号。其中，环境噪声信号是指在工业生产、建筑施工、交通运输和社会生活中所产生的干扰周围生活环境的声音信号。其他噪声信号可以指除环境噪声之外的噪声信号，例如除用户外的其他说话者发出的语音信号。

本实施例中，首先对原始输入信号进行第一次降噪处理，以滤除原始输入信号中的环境噪声信号。然后对第一次降噪处理后的语音信号进行第二次降噪处理，以滤除其他说话者发出的语音信号等其他噪声信号，进而得到更加清晰的语音信号。为了方便描述，将最后得到的语音信号称为有效语音信号。

下面详细说明对原始输入信号进行两次降噪处理的过程。

第一次降噪处理：根据与原始输入信号中的环境噪声信号相关的干扰信号，滤除原始输入信号中的环境噪声信号，以得到第一语音信号(即步骤S101)。

干扰信号是从与原始输入信号的环境相同的环境中采集的信号。例如，原始输入信号是从下雨的环境中采集的，那么干扰信号也是从下雨的环境中采集的。干扰信号主要由环境噪声信号构成，与环境噪声信号具有相随变动的关系，也即干扰信号与环境噪声信号相关。

基于干扰信号与环境噪声信号的相关性，可以采用降噪算法，例如最小均方算法，根据干扰信号得到的逼近环境噪声信号的信号。再将原始输入信号减去根据干扰信号得到的信号，以获得滤除环境噪声信号的语音信号。为方便描述，将滤除环境噪声信号的语音信号称为第一语音信号。

第一语音信号除了有效语音信号外还会包括其他噪声信号，基于此，下面对第一语音信号进行第二次降噪处理。

第二次降噪处理：从语音信号样本库中，获取与第一语音信号相匹配的样本信号(即步骤S102)；根据与第一语音信号相匹配的样本信号，滤除第一语音信号中的其它噪声信号，以得到有效语音信号(即步骤S103)。

语音信号样本库中存储有至少一个样本信号。这些样本信号可以是用户在比较安静的环境中预先输入的语音信号，这些样本信号可以认为是不包括噪声的有效语音信号。其中，一个用户可以对应一个样本信号也可以对应多个样本信号。例如，用户可以在嗓子正常和发炎两种情况下，各存储一个样本信号。

样本信号与第一语音信号相匹配指的是样本信号与第一语音信号的时域波形、频谱特性或统计特性等相匹配。如果第一语音信号与样本信号相匹配，说明第一语音信号包括用户发出的有效语音信号，则可以根据样本信号对第一语音信号再次进行降噪处理，以得到有效语音信号。

其中，基于第一语音信号与该样本信号相匹配，使得该样本信号与第一语音信号中的有效语音信号具有相关性，与其他噪声信号不具有相关性。基于此，可以根据该样本信号，保留与样本信号相关的信号，也就是有效语音信号；滤除与样本信号不相关的信号，即其他噪声信号。

在一示例中，其他噪声信号例如是其他说话者的语音信号。与第一语音信号相匹配的样本信号例如为信号A。由于其他说话者的发声系统与用户的发声系统不同，导致其他说话者发出的语音信号与信号A不相关。基于此，可以滤除第一语音信号中的其他说话者的语音信号，以得到用户的发出的有效语音信号。

本实施例中，通过滤除原始输入信号中的环境噪声信号，以得到第一语音信号，实现了原始输入信号的第一次降噪，即滤除了环境噪声信号；在此基础上，根据与第一语音信号相匹配的样本信号，滤除第一语音信号中的其它噪声信号，以得到有效语音信号，使得能够依照与第一语音信号相匹配的样本信号，保留用户发出的有效语音信号，滤除除有效信号之外的其他噪声信号，实现第二次降噪。尤其是当其他噪声信号是其他说话者发出的语音时，可以根据样本信号有效滤除。本实施例中，通过两次降噪，依次滤除原始输入信号中的环境噪声信号和其他噪声信号，获得的有效语音信号更为清晰。

在上述实施例或下述实施例中，从语音信号样本库中，获取与第一语音信号相匹配的样本信号，包括：对第一语音信号进行声纹识别，以获得第一语音信号的频谱特征；计算第一语音信号的频谱特征与语音信号样本库中存储的各样本信号的频谱特征的相似度；将与第一语音信号的频谱特征的相似度最高的样本信号作为与第一语音信号相匹配的样本信号。

其中，声纹是用电声学仪器显示的携带言语信息的声波频谱。通过对第一语音信号进行声纹识别可以得到第一语音信号中携带言语信息的声波频谱，进而从声波频谱中提取该声波频谱的特征作为第一语音信号的频谱特征。

不同人的语音信号的频谱特征不同，若两个语音信号的频谱特征越相似，说明两个语音信号的发声者是同一人的概率越高，两个语音信号也就越匹配。基于此，计算第一语音信号的频谱特征与语音信号样本库中存储的各样本信号的频谱特征的相似度；将与第一语音信号的频谱特征的相似度最高的样本信号作为与第一语音信号相匹配的样本信号。

可选地，语音信号样本库中除了存储至少一个样本信号外，可以存储各样本信号对应的频谱特征，以便能够直接对比第一语音信号和各样本信号的相似度。

可选地，可以计算第一语音信号和各样本信号在同一频率下的的幅度的差值，差值越大说明第一语音信号与该样本信号的相似度越低，则第一语音信号包括用户的发出的语音信号的概率越小；差值与越小说明第一语音信号与该样本信号的相似度越高，则第一语音信号包括用户发出的语音信号的概率越大。基于此，将与第一语音信号的频谱特征的相似度最高的样本信号作为与第一语音信号相匹配的样本信号。

语音信号样本库中，可能未存储用户的语音信号，也就不存在与第一语音信号相匹配的样本信号。基于此，可以设置一相似度阈值。将与第一语音信号的频谱特征的相似度最高、且相似度大于相似度阈值的样本信号作为与第一语音信号相匹配的样本信号，进而执行后续降噪操作。若语音信号样本库中不存在与第一语音信号的频谱特征的相似度最高、且相似度大于相似度阈值的样本信号，则可以直接将第一语音信号作为有效语音信号，并结束操作。

在上述实施例或下述实施例中，在对第一语音信号进行声纹识别，以获得第一语音信号的频谱特征的过程中，可以首先对第一语音信号进行加窗处理，以获得至少一帧语音信号；然后，对至少一帧语音信号进行傅里叶变换，以获得至少一帧频域信号；接着，提取至少一帧频域信号的频谱特征，以获得第一语音信号的频谱特征。

在使用计算机进行信号处理时，不能对无限长的信号进行处理，而是取其有限的时间片段进行分析；而且，由于语音信号属于短时平稳信号，一般认为在10～30ms内语音信号特性基本上是不变的，或是缓慢的，于是可截取一小段语音信号进行频谱分析。基于此，可以通过窗函数，将第一语音信号拆分成至少一个时间片段的信号，每一个时间片段的信号可以称为一帧语音信号。其中，时间片段的长度可以为10～30ms中的任一时长。

可选地，若第一语音信号的时间长度在10～30ms，则可以不对第一语音信号进行加窗处理，直接将第一语音信号作为一帧语音信号。

至少一帧语音信号是时域信号，为了获取语音信号在频域中的频谱特征，可对至少一帧语音信号进行傅里叶变换，以获得至少一帧频域信号。可选地，可以对至少一帧语音信号进行快速傅里叶变换(fast Fourier transform，FFT)。其中，FFT即利用计算机计算离散傅里叶变换(DFT)的高效、快速计算方法的统称。采用这种算法能使计算机计算离散傅里叶变换所需要的乘法次数大为减少，特别是被变换的抽样点数越多，FFT算法计算量的节省就越显著。

接着，从至少一帧频域信号中，提取至少一帧频域信号的频谱特征，以获得第一语音信号的频谱特征。

对于每一帧语音信号来说，频谱特征几乎是相同的。因此，可以从至少一帧频域信号中，选择一帧频域信号作为第一频域信号；提取第一频域信号的频谱特征，作为第一语音信号的频谱特征。

可选地，可以从至少一帧频域信号中任选一帧作为第一频域信号。

语音信号的频谱指的是语音信号的各频率与信号幅度的对应关系。为了能够清晰、直观地反映语音信号的频谱特征，可以预设一幅度-灰度映射关系，将各频率对应的信号幅度大小用相应的灰度表述。可选地，将各频率对应的信号幅度所在的幅度范围量化为256个量化值，0表示黑色，255表示白色，幅度值越大，对应的灰度值越小。

然后，在幅度-灰度映射关系中，查找第一频域信号中各频率上的信号幅度对应的灰度值，以将各频率上的信号幅度映射为灰度值。继而，将第一频域信号中各频率对应的灰度值，作为第一语音信号的频谱特征。

在一示例中，如图2所示，第一频域信号中各频率例如为0Hz、400Hz、800Hz、1200Hz、1600Hz和2000Hz。各频率对应的灰度值分别为255、0、155、255、50、200。这些各频率对应的灰度值就是第一语音信号的频谱特征。

可选地，除了将第一频域信号中各频率对应的灰度值作为第一语音信号的频谱特征之外，还可以将第一频域信号的频率-分贝曲线对应的包络线信息作为第一语音信号的频谱特征。

可选地，将第一频域信号中各频率对应的振幅作对数计算，以得到各频率对应的分贝，进而得到各频率与分贝的对应关系。然后，根据各频率与分贝的对应关系获得频率-分贝曲线，继而得到频率-分贝曲线对应的包络线信息。

在获取第一频域信号中各频率对应的灰度值之后，可以从语音信号样本库中，获取与第一频域信号中各频率对应的灰度值相近的样本信号。

可选地，在语音信号样本库中可以预先存储样本信号中各频率对应的灰度值。若第一频域信号中各频率对应的灰度值与样本信号中相同频率对应的灰度值之差在指定阈值范围内，可以认为该样本信号与第一频域信号相匹配，进一步，该样本信号与第一语音信号相匹配。

样本信号中各频率对应的灰度值的获取方法与第一频域信号中各频率对应的灰度值的获取方法类似。对于一个样本信号来说，可以接收用户输入的样本信号，这个样本信号是时域信号。然后，对时域样本信号进行加窗处理以及傅里叶变换，以得到至少一帧频域样本信号。从至少一帧频域样本信号选择一帧频域样本信号，作为第一频域样本信号。按照预设的幅度-灰度映射关系，将第一频域样本信号中各频率上的信号幅度映射为灰度值。

进一步地，将第一频域样本信号中各频率对应的灰度值，作为第一频域样本的频谱特征，也就是该样本信号的频谱特征。

值得说明的是，每一帧频域信号的帧长应与每一帧样本信号的帧长相同。若一帧频域信号的时间长度是10ms，则与该帧频域信号相匹配的样本信号的帧长应是10ms。

在上述实施例或下述实施例中，根据与第一语音信号相匹配的样本信号，滤除第一语音信号中的其它噪声信号，以得到有效语音信号，包括：根据与第一语音信号相匹配的样本信号，采用最小均方算法计算每一帧频域信号中的其它噪声值；将每一帧频域信号减去每一帧频域信号中的其它噪声值，以得到每一帧有效频域信号；对每一帧有效频域信号进行傅里叶反变换，以得到每一帧有效时域信号；将每一帧有效时域信号顺次组合，以得到有效语音信号。

其中，最小均方算法是以期望响应和输出信号之间的误差的均方值最小为基准的，是依据输入信号在迭代过程中估计梯度矢量，并更新权系数以达到最优的自适应迭代算法。最小均方算法是一种梯度最速下降方法，其显著的特点和优点是简单性、快速性。

第一语音信号可转换为至少一帧频域信号，对于至少一帧频域信号中的每一帧频域信号而言，滤除其他噪声信号的方法相同。下面以第一帧频域信号为例，说明滤除第一帧频域信号中的其他噪声信号的方法。

采用权函数，对第一帧频域信号进行加权处理，以得到第一帧加权信号。将与第一语音信号相匹配的样本信号和第一加权信号作为输入，将第一帧频域信号中的其他噪声值作为期望输出。经过最小均方算法，多次迭代第一帧加权信号中的权函数，使得将第一帧加权信号逼近样本信号。当第一帧加权信号逼近样本信号时，权函数可称为最优权函数。

可选地，可以将第一帧加权信号中的权函数迭代指定次数，以得到最优权函数；也可以多次迭代第一帧加权信号中的权函数，当第一帧加权信号与样本信号之差在指定误差范围内时，所得的权函数为最优权函数。

然后，将样本信号减去最优权函数与第一帧频域信号的乘积，以得到其他噪声值。最后，将第一帧频域信号减去第一帧频域信号中的其他噪声值，以得到第一帧频域信号中的有效信号。同理，可以得到每一帧频域信号中的有效语音信号。

上述得到的每一帧频域信号中的有效语音信号是频域信号，还要将其转换为时域信号。基于此，对每一帧有效频域信号进行傅里叶反变换，以得到每一帧有效时域信号；然后，将每一帧有效时域信号按照时间顺序，顺次组合，建立帧与帧之间的连接关系，以得到时域内的有效语音信号。该时域内的有效语音信号是去除环境噪声信号和其他噪声信号的信号，可以用于输出至扬声器、语音识别、语音通信等操作。

可选地，与滤除其他噪声信号的方法类似，本实施例中也可以采用最小均方算法，根据与原始输入信号中的环境噪声信号相关的干扰信号，滤除原始输入信号中的环境噪声信号，以得到第一语音信号。

首先，如式(1)所示，对干扰信号进行加权处理，以得到加权信号。

y(n)＝w(n)x(n)，n＝1,...,M；x(n)＝N ₁(n) (1)

其中，M是迭代次数，x(n)是干扰信号，w(n)是权函数。

原始输入信号d(n)＝s(n)+N ₀(n)，其中，s(n)是第一语音信号，N ₀(n)是环境噪声信号。其中N ₀(n)与N ₁(n)相关。

然后，将干扰信号和原始输入信号作为输入，将第一语音信号作为期望输出，经过最小均方算法，多次迭代加权信号中的权函数，使得加权信号逼近环境噪声信号。此时的权函数可称为最优权函数。然后，将原始输入信号减去最优权函数与干扰信号的乘积，以得到第一语音信号。

具体而言，期望输出为原始输入信号减去加权信号的差值，即误差信号，如式(2)所示。

e(n)＝d(n)-y(n)＝s(n)+N ₀(n)-y(n) (2)

期望输出的均方差为：

E[e ²(n)]＝E[(s(n)+N ₀(n)-y(n)) ²]

＝E[s ²(n)]+E[(N ₀(n)-y(n)) ²]+2E[s(n)·(N ₀(n)-y(n))] (3)

由于s(n)与N ₀(n)不相关，s(n)与N ₁(n)不相关，则有式(4)

E[s(n)·(N ₀(n)-y(n))]＝0 (4)

进一步，将式(4)代入式(3)中得到式(5)

E[e ²(n)]＝E[s ²(n)]+E[(N ₀(n)-y(n)) ²] (5)

由于s(n)为定值，若使E[e ²(n)]取最小值，则有式(6)

N ₀(n)＝y(n)＝w(n)x(n)＝w(n)N ₁(n) (6)

进一步，将式(6)代入式(5)中，得到式(7)

e(n)＝s(n) (7)

在最小均方算法初始时，可以将权函数设为0，后续将权函数自适应更新。权函数的自适应更新过程如下。

如式(8)所示，计算误差信号e(n)。

e(n)＝d(n)-y(n)＝d(n)-w(n)x(n) (8)

然后，计算误差信号e(n)的误差均方差ξ(n)。

ξ(n)＝E[e ²(n)]＝E[d ²(n)-2d(n)y(n)+y ²(n)] (9)

设R是x(n)的自相关矩阵，P是x(n)与d(n)的互相关矩阵，则根据式(9)可以得到式(10)。

ξ(n)＝E[e ²(n)]＝E[d ²(n)]+w(n)Rw(n)-2Pw(n) (10)

然后，计算误差均方差梯度：

简化误差均方差梯度：

不断迭代权函数，直到迭代次数为M。更新的权函数可以表示为：

w(n+1)＝w(n)+2μe(n)x(n) (13)

其中，μ是一个比较小的值，以使权函数的更新算法是收敛的，进而保证算法的准确性。

在得到每次迭代过程中的权函数后，可以将权函数代入式(6)中，得到与环境噪声信号逼近的加权信号，即y(n)。然后，通过原始信号减去加权信号，即d(n)-y(n)，就得到滤除环境噪声信号的第一语音信号。

在上述实施例或下述实施例中，为了准确采集到干扰信号和原始输入信号，在根据与原始输入信号中的环境噪声信号相关的干扰信号，滤除原始输入信号中的环境噪声信号之前，可以通过距离声源在第一指定距离内的第一麦克风采集原始输入信号；以及通过距离声源在第一指定距离外、第二指定距离内的第二麦克风采集干扰信号。其中，第二指定距离大于第一指定距离。

若第一麦克风和第二麦克风安装在头戴式耳机上，声源为用户的口部，则第一麦克风可以设置在距离用户的口部第一指定距离内的位置，即靠近用户的口部的位置，例如头戴式耳机上对应嘴角的位置。第二麦克风可以设置在距离用户的口部第一指定距离外、第二指定距离内的位置，即远离用户的口部的位置，例如头戴式耳机上对应头顶的位置。

本实施例中，第一麦克风和第二麦克风应处于相同的环境中，使得第一麦克风采集的原始输入信号中的环境噪声信号与第二麦克风采集的干扰信号相关。第一麦克风靠近声源，第二麦克风远离声源，使得第一麦克风采集的原始输入信号中大部分为有效语音信号，小部分为环境噪声信号和其他噪声信号；第二麦克风采集的干扰信号中大部分为环境噪声信号，小部分为有效语音信号。基于此，可以根据第二麦克风采集到的干扰信号，滤除第一麦克风采集到的原始输入信号中的环境噪声信号，以得到第一语音信号。

图3为本发明又一实施例提供的电子设备的结构示意图。如图3所示，电子设备200包括处理器201，以及与处理器201连接的存储器202；

存储器202，用于存储一条或多条计算机指令。

处理器201，用于执行一条或多条计算机指令，以用于：根据与原始输入信号中的环境噪声信号相关的干扰信号，滤除原始输入信号中的环境噪声信号，以得到第一语音信号；从语音信号样本库中，获取与第一语音信号相匹配的样本信号；根据与第一语音信号相匹配的样本信号，滤除第一语音信号中的其它噪声信号，以得到有效语音信号。

本实施例中，通过滤除原始输入信号中的环境噪声信号，以得到第一语音信号，实现了原始输入信号的第一次降噪，即滤除了环境噪声信号；在此基础上，根据与第一语音信号相匹配的样本信号，滤除第一语音信号中的其它噪声信号，以得到有效语音信号，使得能够依照与第一语音信号相匹配的样本信号，保留用户发出的有效语音信号，滤除除有效信号之外的其他噪声信号，实现第二次降噪。尤其是当其他噪声信号是其他说话者发出的语音时，能够根据样本信号有效滤除。本实施例中，通过两次降噪，依次滤除原始输入信号中的环境噪声信号和其他噪声信号，获得的有效语音信号更为清晰。

可选地，处理器201在从语音信号样本库中，获取与第一语音信号相匹配的样本信号时，具体用于：对第一语音信号进行声纹识别，以获得第一语音信号的频谱特征；计算第一语音信号的频谱特征与语音信号样本库中存储的各样本信号的频谱特征的相似度；将与第一语音信号的频谱特征的相似度最高的样本信号作为与第一语音信号相匹配的样本信号。

可选地，处理器201在对第一语音信号进行声纹识别，以获得第一语音信号的频谱特征时，具体用于：对第一语音信号进行加窗处理，以获得至少一帧语音信号；对至少一帧语音信号进行傅里叶变换，以获得至少一帧频域信号；提取至少一帧频域信号的频谱特征，以获得第一语音信号的频谱特征。

可选地，处理器201在提取至少一帧频域信号的频谱特征，以获得第一语音信号的频谱特征时，具体用于：从至少一帧频域信号中，选择一帧频域信号作为第一频域信号；按照预设的幅度-灰度映射关系，将第一频域信号中各频率上的信号幅度映射为灰度值；将第一频域信号中各频率对应的灰度值，作为第一语音信号的频谱特征。

可选地，处理器201在根据与第一语音信号相匹配的样本信号，滤除第一语音信号中的其它噪声信号，以得到有效语音信号时，具体用于：根据与第一语音信号相匹配的样本信号，采用最小均方算法计算每一帧频域信号中的其它噪声值；将每一帧频域信号减去每一帧频域信号中的其它噪声值，以得到每一帧有效频域信号；对每一帧有效频域信号进行傅里叶反变换，以得到每一帧有效时域信号；将每一帧有效时域信号顺次组合，以得到有效语音信号。

可选地，处理器201在根据与原始输入信号中的环境噪声信号相关的干扰信号，滤除原始输入信号中的环境噪声信号之前，还用于：通过距离声源在第一指定距离内的第一麦克风采集原始输入信号；以及通过距离声源在第一指定距离外、第二指定距离内的第二麦克风采集干扰信号；其中，第二指定距离大于第一指定距离。

可选地，处理器201在根据与原始输入信号中的环境噪声信号相关的干扰信号，滤除原始输入信号中的环境噪声信号，以得到第一语音信号时，具体用于：采用最小均方算法，根据与原始输入信号中的环境噪声信号相关的干扰信号，滤除原始输入信号中的环境噪声信号，以得到第一语音信号。

本发明实施例还提供了一种计算机存储介质，该计算机存储介质存储一条或多条计算机指令，该一条或多条计算机指令被计算机执行时，可实现：根据与原始输入信号中的环境噪声信号相关的干扰信号，滤除原始输入信号中的环境噪声信号，以得到第一语音信号；从语音信号样本库中，获取与第一语音信号相匹配的样本信号；根据与第一语音信号相匹配的样本信号，滤除第一语音信号中的其它噪声信号，以得到有效语音信号。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

一种语音信号降噪方法，其特征在于，包括：

根据与原始输入信号中的环境噪声信号相关的干扰信号，滤除所述原始输入信号中的环境噪声信号，以得到第一语音信号；

从语音信号样本库中，获取与所述第一语音信号相匹配的样本信号；

根据与所述第一语音信号相匹配的样本信号，滤除所述第一语音信号中的其它噪声信号，以得到有效语音信号。
根据权利要求1所述的方法，其特征在于，所述从语音信号样本库中，获取与所述第一语音信号相匹配的样本信号，包括：

对所述第一语音信号进行声纹识别，以获得所述第一语音信号的频谱特征；

计算所述第一语音信号的频谱特征与所述语音信号样本库中存储的各样本信号的频谱特征的相似度；

将与所述第一语音信号的频谱特征的相似度最高的样本信号作为与所述第一语音信号相匹配的样本信号。
根据权利要求2所述的方法，其特征在于，所述对所述第一语音信号进行声纹识别，以获得所述第一语音信号的频谱特征，包括：

对所述第一语音信号进行加窗处理，以获得至少一帧语音信号；

对所述至少一帧语音信号进行傅里叶变换，以获得至少一帧频域信号；

提取所述至少一帧频域信号的频谱特征，以获得所述第一语音信号的频谱特征。
根据权利要求3所述的方法，其特征在于，所述提取所述至少一帧频域信号的频谱特征，以获得所述第一语音信号的频谱特征，包括：

从所述至少一帧频域信号中，选择一帧频域信号作为第一频域信号；

按照预设的幅度-灰度映射关系，将所述第一频域信号中各频率上的信号幅度映射为灰度值；

将所述第一频域信号中各频率对应的灰度值，作为所述第一语音信号的频谱特征。
根据权利要求3所述的方法，其特征在于，所述根据与所述第一语音信号相匹配的样本信号，滤除所述第一语音信号中的其它噪声信号，以得到有效语音信号，包括：

根据与所述第一语音信号相匹配的样本信号，采用最小均方算法计算每一帧频域信号中的其它噪声值；

将每一帧频域信号减去每一帧频域信号中的其它噪声值，以得到每一帧有效频域信号；

对所述每一帧有效频域信号进行傅里叶反变换，以得到每一帧有效时域信号；

将每一帧有效时域信号顺次组合，以得到所述有效语音信号。
根据权利要求1所述的方法，其特征在于，在所述根据与原始输入信号中的环境噪声信号相关的干扰信号，滤除所述原始输入信号中的环境噪声信号之前，所述方法还包括：

通过距离声源在第一指定距离内的第一麦克风采集所述原始输入信号；以及

通过距离所述声源在所述第一指定距离外、第二指定距离内的第二麦克风采集所述干扰信号；

其中，所述第二指定距离大于所述第一指定距离。
根据权利要求1所述的方法，其特征在于，所述根据与原始输入信号中的环境噪声信号相关的干扰信号，滤除所述原始输入信号中的环境噪声信号，以得到第一语音信号，包括：

采用最小均方算法，根据与原始输入信号中的环境噪声信号相关的干扰信号，滤除所述原始输入信号中的环境噪声信号，以得到所述第一语音信号。
一种电子设备，其特征在于，包括：处理器，以及与所述处理器连接的存储器；

所述存储器，用于存储一条或多条计算机指令；

所述处理器，用于执行所述一条或多条计算机指令，以用于：

根据与原始输入信号中的环境噪声信号相关的干扰信号，滤除所述原始输入信号中的环境噪声信号，以得到第一语音信号；

从语音信号样本库中，获取与所述第一语音信号相匹配的样本信号；

根据与所述第一语音信号相匹配的样本信号，滤除所述第一语音信号中的其它噪声信号，以得到有效语音信号。
根据权利要求8所述的电子设备，其特征在于，所述处理器在从语音信号样本库中，获取与所述第一语音信号相匹配的样本信号时，具体用于：

对所述第一语音信号进行声纹识别，以获得所述第一语音信号的频谱特征；

计算所述第一语音信号的频谱特征与所述语音信号样本库中存储的各样本信号的频谱特征的相似度；

将与所述第一语音信号的频谱特征的相似度最高的样本信号作为与所述第一语音信号相匹配的样本信号。
根据权利要求9所述的电子设备，其特征在于，所述处理器在对所述第一语音信号进行声纹识别，以获得所述第一语音信号的频谱特征时，具体用于：

对所述第一语音信号进行加窗处理，以获得至少一帧语音信号；

对所述至少一帧语音信号进行傅里叶变换，以获得至少一帧频域信号；

提取所述至少一帧频域信号的频谱特征，以获得所述第一语音信号的频谱特征。