WO2023240887A1

WO2023240887A1 - 去混响方法、装置、设备及存储介质

Info

Publication number: WO2023240887A1
Application number: PCT/CN2022/128051
Authority: WO
Inventors: 刘建国; 郝斌
Original assignee: 青岛海尔科技有限公司; 海尔智家股份有限公司
Priority date: 2022-06-14
Filing date: 2022-10-27
Publication date: 2023-12-21
Also published as: CN117275500A

Abstract

一种去混响方法、装置、设备及存储介质。该方法包括:获取待处理的语音频域信号，并根据语音频域信号确定对应的语音频域特征信号（101）；将语音频域特征信号输入至预设的神经网络模型中，输出混响抑制语音频域特征信号（102）；根据混响抑制语音频域特征信号确定对应的预估混响频域信号（103）；基于预估混响频域信号对语音频域信号进行滤波处理，以获取去混响的语音频域信号（104）。

Description

去混响方法、装置、设备及存储介质

本申请要求于2022年06月14日提交中国专利局、申请号为2022106644420、申请名称为“去混响方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及音频信号处理技术领域，尤其涉及一种去混响方法、装置、设备及存储介质。

背景技术

随着人工智能快速发展，语言不仅是人与人之间的交流方式，也成为了人与机器沟通的重要手段，人工智能语音识别技术作为人机交流接口，成为了人与机器沟通的关键技术。随着智能音箱、智能电视等智能语音识别产品的发展，越来越多的智能产品通过设置麦克风识别用户的语音。在室内使用麦克风识别语音信号，不可避免地会受到来自于室内墙壁、顶部天花板和其它障碍物反射信号的干扰，因而语音信号会发生线性畸变。这种畸变通常称之为混响，又称交混回响，是指在声源停止发声后，声音延续所引起的交混现象。它将退化语音的保真度和可懂度，使得语音通信系统和语音自动识别系统的性能下降。

现有技术中的基于深度神经网络的混响抑制方法，如全卷积时域音频分离网络Conv-TasNet，将模型输出结果作为最终输出，得到去混响的语音。

但是直接将模型输出结果作为最终输出，但输出的语音畸变比较大，不利于后续语音识别，且影响语音唤醒。

发明内容

本申请提供一种去混响方法、装置、设备及存储介质，用以解决直接将模型输出结果作为最终输出，不利于后续语音识别的问题。

第一方面，本申请提供一种去混响方法，包括：

获取待处理的语音频域信号，所述语音频域信号为包含混响频域信号的语音频域信号，并根据所述语音频域信号确定对应的语音频域特征信号，所述语音频域特征信号为包含混响频域信号的语音频域特征信号；

将所述语音频域特征信号输入至预设的神经网络模型中，输出混响抑制语音频域特征信号；

根据混响抑制语音频域特征信号确定对应的预估混响频域信号；

基于预估混响频域信号对所述语音频域信号进行滤波处理，以获取去混响的语音频域信号。

第二方面，本申请提供一种去混响装置，包括：

确定单元，用于获取待处理的语音频域信号，所述语音频域信号为包含混响频域信号的语音频域信号，并根据所述语音频域信号确定对应的语音频域特征信号，所述语音频域特征信号为包含混响频域信号的语音频域特征信号；

处理单元，用于将所述语音频域特征信号输入至预设的神经网络模型中，输出混响抑制语音频域特征信号；

确定单元，还用于根据混响抑制语音频域特征信号确定对应的预估混响频域信号；

滤波单元，用于基于预估混响频域信号对所述语音频域信号进行滤波处理，以获取去混响的语音频域信号。

第三方面，本申请提供一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，使得所述处理器执行如第一方面所述的方法。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如第一方面所述的方法。

本申请提供的一种去混响方法、装置、设备及存储介质，通过获取待处理的语音频域信号，所述语音频域信号为包含混响频域信号的语音频域信号，并根据所述语音频域信号确定对应的语音频域特征信号，所述语音频域特征信号为包含混响频域信号的语音频域特征信号；将所述语音频域特征信号输入至预设的神经网络模型中，输出混响抑制语音频域特征信号；根据混响抑制语音频域特征信号确定对应的预估混响频域信号；基于预估混响频域信号对所述语音频域信号进行滤波处理，以获取去混响的语音频域信号。

附图说明

图1是本申请提供的去混响方法的应用场景示意图；

图2是本申请实施例一提供的去混响方法的流程示意图；

图3是本申请实施例二提供的去混响方法的流程示意图；

图4是本申请实施例三提供的去混响方法的流程示意图；

图5是本申请实施例四提供的去混响方法的流程示意图；

图6是本申请实施例七提供的去混响方法的流程示意图；

图7是本申请一实施例提供的去混响装置的结构示意图；

图8是用来实现本申请实施例的去混响方法的电子设备的第一框图；

图9是用来实现本申请实施例的去混响方法的电子设备的第二框图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或智能设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或智能设备固有的其它步骤或单元。

为了清楚理解本申请的技术方案，首先对现有技术的方案进行详细介绍。

随着人工智能快速发展，语言不仅是人与人之间的交流方式，也成为了人与机器沟通的重要手段，人工智能语音识别技术作为人机交流接口，成为了人与机器沟通的关键技术。随着智能音箱、智能电视等智能语音识别产品的发展，越来越多的智能产品通过设置麦克风识别用户的语音。在室内使用麦克风识别语音信号，不可避免地会受到来自于室内墙壁、顶部天花板和其它障碍物反射信号的干扰，因而语音信号会发生线性畸变。这种畸变通常称之为混响，又称交混回响，是指在声源停止发声后，声音延续所引起的交混现象。它将退化语音的保真度和可懂度，使得语音通信系统和语音自动识别系统的性能下降。现有技术中的基于深度神经网络的混响抑制方法，如全卷积时域音频分离网络Conv-TasNet，这是一种端到端时域语音分离的深度学习框架。Conv-TasNet使用一个线性编码器来生成语音波形，优化的语音波形可以分离单独的说话人声音。说话人声音分离是通过对编码器输出应用一组加权函数(mask)来实现的，将模型输出结果作为最终输出，得到去混响的语音。

但是直接将模型输出结果作为最终输出，输出的语音畸变比较大，不利于后续语音识别，且影响语音唤醒。

所以针对现有技术中直接将模型输出结果作为最终输出，不利于后续语音识别的问题，发明人在研究中发现，将神经网络与滤波相结合，获取待处理的语音频域信号，语音频域信号为包含混响频域信号的语音频域信号，并根据语音频域信号确定对应的语音频域特征信号，语音频域特征信号为包含混响频域信号的语音频域特征信号；将语音频域特征信号输入至预设的神经网络模型中，输出混响抑制语音频域特征信号；根据混响抑制语音频域特征信号确定对应的预估混响频域信号；基于预估混响频域信号对语音频域信号进行滤波处理，以获取去混响的语音频域信号。将神经网络模型及滤波处理结合使用，将神经网络输出的结果进行滤波处理，能够有效地减少语音的畸变，提升后续的语音唤醒率和识别率。

所以发明人基于上述的创造性发现，提出了本申请实施例的技术方案。下面对本申请实施例提供的去混响方法的应用场景进行介绍。

如图1所示，用户输入语音信号，传入的人声和混响时域信号混合后形成语音时域信号。智能音响1获取麦克风输入的包含混响时域信号的语音时域信号；根据预设采样策略对输入的包含混响时域信号的语音时域信号进行采样处理，获得待处理的包含混响时域信号的语音时域信号；对待处理的包含混响时域信号的语音时域信号进行傅里叶变换，获得待处理的语音频域信号，语音频域信号为包含混响频域信号的语音频域信号。智能音响1获取待处理的语音频域信号，该语音频域信号为包含混响频域信号的语音频域信号，并根据语音频域信号确定对应的语音频域特征信号，该语音频域特征信号为包含混响频域信号的语音频域特征信号；将语音频域特征信号输入至预设的神经网络模型中，输出混响抑制语音频域特征信号；根据混响抑制语音频域特征信号确定对应的预估混响频域信号；基于预估混响频域信号对语音频域信号进行滤波处理，以获取去混响的语音频域信号；将去混响的语音频域信号转换为去混响的语音时域信号，并对去混响的语音时域信号进行语音识别处理。将神经网络模型及滤波处理结合使用，将神经网络输出的结果进行滤波处理，能够有效地减少语音的畸变，提升后续的语音唤醒率和识别率。

以下将参照附图来具体描述本申请的实施例。

实施例一

图2是本申请实施例一提供的去混响方法的流程示意图，如图2所示，本实施例提供的去混响方法的执行主体为去混响装置，该去混响装置位于电子设备中，则本实施例提供的去混响方法包括以下步骤：

步骤101，获取待处理的的语音频域信号，语音频域信号为包含混响频域信号的语音频域信号，并根据语音频域信号确定对应的语音频域特征信号，语音频域特征信号为包含混响频域信号的语音频域特征信号。

本实施例中，获取待处理的语音频域信号，其中，语音频域信号为包含混响频域信号的语音频域信号，进一步对待处理的语音频域信号进行特征提取，得到对应的语音频域特征信号，其中，语音频域特征信号为包含混响频域信号的语音频域特征信号。其中，特征包括Bark域，MFCC，Fbank等。

步骤102，将语音频域特征信号输入至预设的神经网络模型中，输出混响抑制语音频域特征信号。

本实施例中，预设的神经网络模型包含一维卷积层、LSTM层、线性层及激活层，将语音频域特征信号输入至预设的神经网络模型中，输出混响抑制语音频域特征信号。

其中，卷积层使用卷积核进行特征提取和特征映射。LSTM其背后的长短期记忆(LSTM，long short-term memory)算法，LSTM层是SimpleRNN层的一种变体，它增加了一种携带信息跨越多个时间步的方法。线性层又称为全连接层，在全连接层中所有神经元都有权重连接，通常全连接层在卷积神经网络尾部。当前面卷积层抓取到足以用来识别图片的特征后，接下来的就是如何进行分类。通常卷积网络的最后会将末端得到的长方体平摊成一个长长的向量，并送入全连接层配合输出层进行分类。激活层是激活函数对特征继续非线性变换，赋予多层神经网络具有深度的意义。

步骤103，根据混响抑制语音频域特征信号确定对应的预估混响频域信号。

本实施例中，对混响抑制语音频域特征信号进行处理，得到增益语音频域特征信号，从而根据混响抑制语音频域特征信号及对应的增益语音频域特征信号确定预估混响频域信号，预估混响频域信号为估计的混响成分。

步骤104，基于预估混响频域信号对语音频域信号进行滤波处理，以获取去混响的语音频域信号。

本实施例中，基于预估混响频域信号对待处理的包含混响频域信号的语音频域信号进行滤波处理，可以采用归一化最小均方误差进行滤波处理，从而得到去混响的语音频域信号。

本实施例中，获取待处理的语音频域信号，进一步根据待处理的语音频域信号确定对应的语音频域特征信号，将该语音频域特征信号输出至预设的神经网络模型中，输出混响抑制语音频域特征信号，以根据混响抑制语音频域特征信号确定预估混响频域信号，基于预估混响频域信号对待处理的语音频域信号进行滤波处理，得到去混响的语音频域信号。基于对神经网络模型的输出结果估计混响成分，从而基于混响成分进行滤波处理。将神经网络模型及滤波处理结合使用，将神经网络输出的结果进行滤波处理，能够有效地减少语音的畸变，提升后续的语音唤醒率和识别率。

实施例二

图3是本申请实施例二提供的去混响方法的流程示意图，如图3所示，在本申请实施例一提供的去混响方法的基础上，对步骤103进行了进一步细化，具体包括以下步骤：

步骤1031，根据混响抑制语音频域特征信号获取对应的增益语音频域特征信号。

本实施例中，混响抑制语音频域特征信号进行转换，主要是将64维的混响抑制语音频域特征信号转换为257维的混响抑制语音频域特征信号，获取转换后的混响抑制语音频域特征信号，转换后的即为对应的增益语音频域特征信号。

步骤1032，根据混响抑制语音频域特征信号及对应的增益语音频域特征信号确定对应的预估混响频域信号。

本实施例中，根据混响抑制语音频域特征信号以及对应的增益语音频域特征信号计算对应的预估混响频域信号，该预估混响频域信号可以被认为是估计的混响成分。进一步基于预估混响频域信号对待处理的号的语音频域信号进行滤波处理，从而除去待处理的语音频域信号中混响成分，得到不包含混响的语音频域信号。

本实施例中，根据神经网络模型输出的混响抑制语音频域特征信号计增益语音频域特征信号即可确定预估混响频域信号，能够直接得到估计的混响成分。

实施例三

图4是本申请实施例三提供的去混响方法的流程示意图，如图4所示，在本申请实施例二提供的去混响方法的基础上，对步骤1032进行了进一步细化，具体包括以下步骤：

步骤1032a，计算预设增益信号与增益语音频域特征信号差值，获得第一语音频域信号。

本实施例中，将预设增益信号与增益语音频域特征信号代入公式(1)，计算预设增益信号与增益语音频域特征信号差值，公式(1)表示为：

Y＝A-M 公式(1)

其中，Y为第一语音频域信号，A为预设增益信号，M为增益语音频域特征信号，其中A的取值为1。

步骤1032b，将混响抑制语音频域特征信号与第一语音频域信号相乘，获得对应的预估混响频域信号。

本实施例中，混响抑制语音频域特征信号与第一语音频域信号代入公式(2)，计算得到对应的预估混响频域信号，公式(2)表示为：

B＝N×(A-M) 公式(2)

其中，B为预估混响频域信号，N为混响抑制语音频域特征信号，A为预设增益信号，M为增益语音频域特征信号，其中A的取值为1。

本实施例中，通过增益部分及混响抑制语音频域特征信号能够得到预估混响频域信号，准确估计混响成分。

实施例四

在本申请实施例一提供的去混响方法的基础上，对步骤104进行了进一步细化，具体包括以下步骤：

步骤1041，采用归一化最小均方误差算法确定预估混响频域信号对应的校准后的混响频域信号，并根据对应的校准后的混响频域信号及语音频域信号确定去混响的语音频域信号。

本实施例中，采用归一化最小均方误差算法(NLMS,Normalized Least Mean Square)确定预估混响频域信号对应的校准后的混响频域信号，采用归一化最小均方误差算法进行滤波处理。其中，NLMS滤波器的阶数取值可为3～10。滤波器的阶数是指过滤谐波的次数，一般来讲，同样的滤波器，其阶数越高，滤波效果就越好。但是阶数越高，相应的计算量越大，故NLMS滤波器的阶数可设置为5，也可是其他适合的数值。预估混响频域信号为估计的混响频域信号，需要对预估混响频域信号进行校准，首先计算预估混响频域信号对应的校准后的混响频域信号，公式(3)表示为：

y(k)＝w(k) ^T×x(k) 公式(3)

其中，y为校准后的混响频域信号，w为滤波器系数，x估计混响频域信号。

进一步，根据对应的校准后的混响频域信号及语音频域信号确定去混响的语音频域信号，将校准后的混响频域信号及待处理的包含混响频域信号的语音频域信号代入公式(4)，得到去混响的语音频域信号。

e(k)＝d(k)-y(k) 公式(4)

其中，e为去混响的语音频域信号，d为待处理的包含混响频域信号的语音频域信号，k为校准后的混响频域信号。

本实施例中，采用归一化最小均方误差算法能够有效地去除包含混响频域信号的语音频域信号中的混响成分，通过进一步校准预估的混响成分，能够得到较为准确的混响成分，从而基于校准后的混响频域信号得到干净的去混响的语音频域信号，能够有效地提高后续识别的准确性。

实施例五

在本申请实施例一提供的去混响方法的基础上，步骤104之后，还包括以下步骤：

步骤105，将去混响的语音频域信号转换为去混响的语音时域信号，并对去混响的语音时域信号进行语音识别处理。

本实施例中，采用的傅里叶逆变换将去混响的语音频域信号转换为去混响的语音时域信号，从而对去混响的语音时域信号进行语音识别处理，获取识别结果。

本实施例中，通过消除混响成分，能够有效地提高语音识别准确性。

实施例六

图5是本申请实施例六提供的去混响方法的流程示意图，如图5所示，在本申请实施例一提供的去混响方法的基础上，对步骤102进行了进一步细化，具体包括以下步骤：

步骤1021，对语音频域信号进行Bark域特征提取，获得对应的语音频域Bark域特征信号。

本实施例中，对包含混响频域信号的语音频域特征信号进行特征提取，具体地，对包含混响频域信号的语音频域特征信号进行Bark域特征提取，获得对应的语音Bark域特征信号，Bark域对低频具有放大作用，对高频具有压缩作用。

步骤1022，将对应的语音频域Bark域特征信号确定为对应的包含混响频域信号的语音频域特征信号。

本实施例中，将对应的语音频域Bark域特征信号确定为对应的包含混响频域信号的语音频域特征信号。

本实施例中，Bark域相比于线性频域更符合人耳的听觉掩蔽效应。Bark域具有对低频的放大作用及对高频的压缩作用，能更清晰地揭示哪些信号容易产生掩蔽和哪些噪声比较明显，能够提升准确率。

实施例七

图6是本申请实施例七提供的去混响方法的流程示意图，如图6所示，在本申请实施例一至实施例六提供的去混响方法的基础上，步骤101之前，还包括以下步骤：

步骤101a，获取麦克风输入的包含混响时域信号的语音时域信号。

本实施例中，电子设备可以是智能音响，获取智能音响麦克风输入的包含混响时域信号的语音时域信号。

步骤101b，根据预设采样策略对输入的包含混响时域信号的语音时域信号进行采样处理，获得待处理的包含混响时域信号的语音时域信号。

本实施例中，预设采样策略包括采样频率，采样长度，如采样频率为16k，采样长度为512，根据预设采样策略对输入的包含混响时域信号的语音时域信号进行采样处理，得到待处理的包含混响时域信号的语音时域信号。

步骤101c，对待处理的包含混响时域信号的语音时域信号进行傅里叶变换，获得待处理的语音频域信号。

本实施例中，为了更好地分析信号，对待处理的包含混响时域信号的语音时域信号进行傅里叶变换，其中，采用可以采用短时傅里叶变换，短时傅里叶变换(STFT，short-timeFouriertransform，或short-termFouriertransform))是和傅里叶变换相关的一种数学变换，用以确定时变信号其局部区域正弦波的频率与相位。将时域信号转变为频域信号，能够更好地分析语音信号。

实施例八

在本申请实施例一至实施例六提供的去混响方法的基础上，步骤102之前，还包括以下步骤：

步骤102a，获取预先构建的训练数据，预先构建的训练数据包括：多个包含混响频域信号的语音频域信号及多个不含混响频域信号的语音频域信号。

本实施例中，获取预先构建的训练数据，预先构建的训练数据包括多个包含混响频域信号的语音频域信号及多个不含混响频域信号的语音频域信号，其中，不含混响频域信号的语音频域信号是通过采集得到的，即直达声。其中，包含混响频域信号的语音频域信号是由不含混响频域信号的语音频域信号进行卷积冲击得到的信号，属于模拟信号，采用rir工具生成，通过设置不同混响时间、房间大小、声源和麦克风仿真得到的模拟信号。其中，包含混响频域信号的语音频域信号的样本数量与多个不含混响频域信号的语音频域信号的样本数量的比例为8:2。

步骤102b，采用预先构建的训练数据对神经网络模型进行训练，以获取训练的神经网络模型，将训练的神经网络模型确定为预设的神经网络模型。

本实施例中，预先构建的神经网络模板，包含一维卷积层、LSTM层、线性层及激活层，其中，一维卷积层设置如下：in_channels＝64,out_channels＝128,kernel_size＝4，stride＝1,padding＝1，输入通道为64，输出通道为128，卷积核为4，步长为1，填充为1。其中，LSTM(Long Short-Term Memory)是长短期记忆网络层，LSTM设置如下：Input_size＝128， hidden_size＝64，num_layers＝1，输入层的特征数量为128，隐藏层特征数量为64，层数为一层。其中，线性层设置如下：Input_size＝64,out_size＝64，输入层的特征数量为64，输出层的特征数量为64。其中，激活层所使用的激活函数为sigmoid函数，Sigmoid函数是一个在生物学中常见的S型函数，也称为S型生长曲线。在信息科学中，由于其单增以及反函数单增等性质，Sigmoid函数常被用作神经网络的激活函数，将变量映射到0，1之间。此外，还需要定义损失函数了，对每一个训练样本，都沿着神经网络传递得到一个数字，然后将这个数字与想要得到的实际数字做差再求平方，计算出来的就是预测值与真实值之间的距离，而训练神经网络就是要将这个距离或损失函数减小。采用预先构建的数据对神经网络模型进行训练，从而获取训练的神经网络模型，将该训练后的神经网络模型确定为预设的神经网络模型。通过对神经网络模型的训练，使得神经网络模型输出更加符合实际。

图7是本申请一实施例提供的去混响装置的结构示意图，如图7所示，本实施例提供的去混响装置200包括确定单元201，处理单元202，滤波单元203。

其中，确定单元201，用于获取待处理的语音频域信号，语音频域信号为包含混响频域信号的语音频域信号，并根据语音频域信号确定对应的语音频域特征信号，语音频域特征信号为包含混响频域信号的语音频域特征信号。处理单元202，用于将语音频域特征信号输入至预设的神经网络模型中，输出混响抑制语音频域特征信号。确定单元201，还用于根据混响抑制语音频域特征信号确定对应的预估混响频域信号。滤波单元203，用于基于预估混响频域信号对语音频域信号进行滤波处理，以获取去混响的语音频域信号。

可选地，确定单元，还用于根据混响抑制语音频域特征信号获取对应的增益语音频域特征信号；根据混响抑制语音频域特征信号及对应的增益语音频域特征信号确定对应的预估混响频域信号。

可选地，确定单元，还用于计算预设增益信号与增益语音频域特征信号差值，获得第一语音频域信号；将混响抑制语音频域特征信号与第一语音频域信号相乘，获得对应的预估混响频域信号。

可选地，滤波单元，还用于采用归一化最小均方误差算法确定预估混响频域信号对应的校准后的混响频域信号，并根据对应的校准后的混响频域信号及语音频域信号确定去混响的语音频域信号。

可选地，去混响装置还包括：识别单元。

其中，识别单元，用于将去混响的语音频域信号转换为去混响的语音时域信号，并对去混响的语音时域信号进行语音识别处理。

可选地，确定单元，还用于对语音频域信号进行Bark域特征提取，获得对应的语音频域Bark域特征信号；将对应的语音频域Bark域特征信号确定为对应的包含混响频域信号的语音频域特征信号。

可选地，去混响装置还包括：获取单元。

其中，获取单元，用于获取麦克风输入的包含混响时域信号的语音时域信号；根据预设采样策略对输入的包含混响时域信号的语音时域信号进行采样处理，获得待处理的包含混响时域信号的语音时域信号；对待处理的包含混响时域信号的语音时域信号进行傅里叶变换，获得待处理的语音频域信号。

可选地，处理单元，还用于获取预先构建的训练数据，预先构建的训练数据包括：多个包含混响频域信号的语音频域信号及多个不含混响频域信号的语音频域信号；采用预先构建的训练数据对神经网络模型进行训练，以获取训练的神经网络模型，将训练的神经网络模型确定为预设的神经网络模型。

图8是用来实现本申请实施例的去混响方法的电子设备的第一框图，如图8所示，该电子设备300包括：存储器301，处理器302。

存储器301存储计算机执行指令；

处理器执行302存储器存储的计算机执行指令，使得处理器执行上述任意一个实施例提供的方法。

图9是用来实现本申请实施例的去混响方法的电子设备的第二框图，如图9所示，该电子设备可以是计算机，数字广播终端，消息收发设备，平板设备，个人数字助理，服务器，服务器集群等。

电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)接口812，传感器组件814，以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器 (EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到电子设备800的打开/关闭状态，组件的相对定位，例如组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由电子设备800的处理器820执行以完成上述方法。例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行上述任意一个实施例中的方法。

在示例性实施例中，还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行上述任意一个实施例中的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

一种去混响方法，包括：

获取待处理的语音频域信号，所述语音频域信号为包含混响频域信号的语音频域信号，并根据所述语音频域信号确定对应的语音频域特征信号，所述语音频域特征信号为包含混响频域信号的语音频域特征信号；

将所述语音频域特征信号输入至预设的神经网络模型中，输出混响抑制语音频域特征信号；

根据混响抑制语音频域特征信号确定对应的预估混响频域信号；

基于预估混响频域信号对所述语音频域信号进行滤波处理，以获取去混响的语音频域信号。
根据权利要求1所述的方法，其中，所述根据混响抑制语音频域特征信号确定对应的预估混响频域信号，包括：

根据混响抑制语音频域特征信号获取对应的增益语音频域特征信号；

根据混响抑制语音频域特征信号及对应的增益语音频域特征信号确定对应的预估混响频域信号。
根据权利要求2所述的方法，其中，所述根据混响抑制语音频域特征信号及对应的增益语音频域特征信号确定对应的预估混响频域信号，包括：

计算预设增益信号与增益语音频域特征信号差值，获得第一语音频域信号；

将混响抑制语音频域特征信号与第一语音频域信号相乘，获得对应的预估混响频域信号。
根据权利要求1所述的方法，其中，所述基于预估混响频域信号对所述语音频域信号进行滤波处理，以获取去混响的语音频域信号，包括：

采用归一化最小均方误差算法确定预估混响频域信号对应的校准后的混响频域信号，并根据对应的校准后的混响频域信号及所述语音频域信号确定去混响的语音频域信号。
根据权利要求1所述的方法，其中，所述基于预估混响频域信号对所述语音频域信号进行滤波处理，以获取去混响的语音频域信号之后，还包括：

将去混响的语音频域信号转换为去混响的语音时域信号，并对去混响的语音时域信号进行语音识别处理。
根据权利要求1所述的方法，其中，所述根据所述语音频域信号确定对应的语音频域特征信号，包括：

对所述语音频域信号进行Bark域特征提取，获得对应的语音频域Bark域特征信号；

将对应的语音频域Bark域特征信号确定为对应的包含混响频域信号的语音频域特征信号。
根据权利要求1-6任一项所述的方法，其中，所述获取待处理的语音频域信号之前，还包括：

获取麦克风输入的包含混响时域信号的语音时域信号；

根据预设采样策略对输入的包含混响时域信号的语音时域信号进行采样处理，获得待处理的包含混响时域信号的语音时域信号；

对待处理的包含混响时域信号的语音时域信号进行傅里叶变换，获得所述待处理的语音频域信号。
根据权利要求1-6任一项所述的方法，其中，所述将所述语音频域特征信号输入至预设的神经网络模型中，输出混响抑制语音频域特征信号之前，还包括：

获取预先构建的训练数据，所述预先构建的训练数据包括：多个包含混响频域信号的语音频域信号及多个不含混响频域信号的语音频域信号；

采用预先构建的训练数据对神经网络模型进行训练，以获取训练的神经网络模型，将所述训练的神经网络模型确定为预设的神经网络模型。
一种去混响装置，所述装置包括：

确定单元，用于获取待处理的语音频域信号，所述语音频域信号为包含混响频域信号的语音频域信号，并根据所述语音频域信号确定对应的语音频域特征信号，所述语音频域特征信号为包含混响频域信号的语音频域特征信号；

处理单元，用于将所述语音频域特征信号输入至预设的神经网络模型中，输出混响抑制语音频域特征信号；

确定单元，还用于根据混响抑制语音频域特征信号确定对应的预估混响频域信号；

滤波单元，用于基于预估混响频域信号对所述语音频域信号进行滤波处理，以获取去混响的语音频域信号。
根据权利要求9所述的装置，其中，所述确定单元，还用于根据混响抑制语音频域特征信号获取对应的增益语音频域特征信号；根据混响抑制语音频域特征信号及对应的增益语音频域特征信号确定对应的预估混响频域信号。
根据权利要求10所述的装置，其中，所述确定单元，还用于计算预设增益信号与增益语音频域特征信号差值，获得第一语音频域信号；将混响抑制语音频域特征信号与第一语音频域信号相乘，获得对应的预估混响频域信号。
根据权利要求9所述的装置，其中，所述滤波单元，还用于采用归一化最小均方误差算法确定预估混响频域信号对应的校准后的混响频域信号，并根据对应的校准后的混响频域信号及所述语音频域信号确定去混响的语音频域信号。
根据权利要求9所述的装置，其中，所述装置还包括：识别单元；

所述识别单元，还用于将去混响的语音频域信号转换为去混响的语音时域信号，并对去混响的语音时域信号进行语音识别处理。
根据权利要求9所述的装置，其中，所述确定单元，还用于对所述语音频域信号进行Bark域特征提取，获得对应的语音频域Bark域特征信号；将对应的语音频域Bark域特征信号确定为对应的包含混响频域信号的语音频域特征信号。
根据权利要求9-14任一项所述的装置，其中，所述装置还包括：获取单元；

所述获取单元，用于获取麦克风输入的包含混响时域信号的语音时域信号；根据预设采样策略对输入的包含混响时域信号的语音时域信号进行采样处理，获得待处理的包含混响时域信号的语音时域信号；对待处理的包含混响时域信号的语音时域信号进行傅里叶变换，获得所述待处理的语音频域信号。
根据权利要求9-14任一项所述的装置，其中，所述处理单元，还用于获取预先构建的训练数据，所述预先构建的训练数据包括：多个包含混响频域信号的语音频域信号及多个不含混响频域信号的语音频域信号；采用预先构建的训练数据对神经网络模型进行训练，以获取训练的神经网络模型，将所述训练的神经网络模型确定为预设的神经网络模型。
一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，使得所述处理器执行如权利要求1-8任一项所述的方法。
一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-8任一项所述的方法。