WO2020124902A1

WO2020124902A1 - 基于有监督学习听觉注意的语音提取方法、系统、装置

Info

Publication number: WO2020124902A1
Application number: PCT/CN2019/083352
Authority: WO
Inventors: 许家铭; 黄雅婷; 徐波
Original assignee: 中国科学院自动化研究所
Priority date: 2018-12-19
Filing date: 2019-04-19
Publication date: 2020-06-25
Also published as: CN109448749B; US10923136B2; CN109448749A; US20200402526A1

Abstract

属于语音分离技术领域，具体涉及了一种基于有监督学习听觉注意的语音提取方法、系统、装置，旨在为了解决混叠语音提取收敛过程慢，进一步提高提取的准确性。方法包括：将原始混叠语音信号转换为二维时间-频率信号表示；稀疏化并将其中的时频单元的强度信息映射到离散强度等级，基于强度等级信息二次稀疏化；采用时间编码的方式转换为脉冲信号；采用训练好的目标脉冲提取网络提取目标脉冲；将目标脉冲转换成目标语音的时间-频率表示并转换得到目标语音。通过不同的时间编码方式将刺激转换成脉冲序列，有效提高了脉冲神经网络分离语音的准确性；通过改进的远程有监督方法对脉冲神经网络进行训练，大大提高了脉冲神经网络的收敛速度。

Description

基于有监督学习听觉注意的语音提取方法、系统、装置

技术领域

本发明属于语音分离技术领域，具体涉及了一种基于有监督学习听觉注意的语音提取方法、系统、装置。

背景技术

“鸡尾酒会问题”计算机语音识别领域中一个十分具有挑战性的问题，当前语音识别技术已经可以以较高精度识别一个人所讲的话，但是当说话的人数为两人或者多人时，语音识别正确率就会极大的降低。许多语音分离算法均致力于解决“鸡尾酒会问题”。随着深度学习在人工智能各个领域中的成功应用，许多研究者将人工神经网络应用到对“鸡尾酒会问题”的建模中。传统的人工神经网络采用频率编码对刺激进行编码，但是近年来的研究表明，忽略了时间结构的频率编码可能过于简化，语音识别正确率不高。当编码中采用时间结构编码信息时，我们称之为时间编码。语音中蕴含丰富的时空结构，因此采用考虑脉冲序列的时序信息的脉冲神经网络对“鸡尾酒会问题”进行建模是一个新的解决方案，但是脉冲神经网络采用无监督的学习算法，只能分离一些简单的语音混叠，比如两个分离的人声/di/和/da/，对一些复杂的语音混叠，正确率也不能达到要求。

通过有监督学习，可以从训练语料中学习到可区分性的模式，并且数种针对脉冲神经网络的有监督学习算法也获得了一定的成功。因此，在脉冲序列的时序信息的脉冲神经网络对“鸡尾酒会问题”进行建模时，采用有监督学习算法对网络进行训练，有益于脉冲神经网络分离复杂的连续语音混叠。

总的来说，该领域提出的基于有监督学习算法的混叠语音分离方法，虽然较传统的人工神经网络和无监督学习算法的脉冲神经网络，在混叠语音的提取和分离上有了很大的进步，但是收敛过程比较慢，提取的准确性也有待进一步提高。

发明内容

为了解决现有技术中的上述问题，即为了提高混叠语音分离的准确性，本发明提供了一种基于有监督学习听觉注意的语音提取方法，包括：

步骤S10，利用短时傅立叶变换将原始混叠语音信号转换为二维时间-频率信号表示，得到第一混叠语音信号；

步骤S20，对所述第一混叠语音信号稀疏化并将其中的时频单元的强度信息映射到预设的D个强度等级，基于强度等级信息二次稀疏化，得到第二混叠语音信号；

步骤S30，采用时间编码的方式将所述第二混叠语音信号转换为脉冲信号；所述时间编码为时间-频率编码或时间-群体编码；

采用用时间编码方式进行编码，保留语音的时序信息，用擅于处理时序信息的脉冲神经网络学习一个从带噪特征到分离目标(例如理想掩蔽或者感兴趣语音的幅度谱)的映射函数，大大提高了语音分离的准确性。

步骤S40，采用训练好的目标脉冲提取网络从所述脉冲信号中提取目标脉冲；所述目标脉冲提取网络基于脉冲神经网络构建；

步骤S50，将所述目标脉冲转换成目标语音的时间-频率表示，通过逆短时傅立叶变换转换得到目标语音。

在一些优选的实施例中，步骤S10中“利用短时傅立叶变换将原始混叠语音信号转换为二维时间-频率信号表示”，其步骤为：

步骤S11，对原始混叠语音信号进行重采样，降低所述原始混叠语音信号的采样率；

步骤S12，将重采样后的混叠语音信号通过短时快速傅里叶变换进行编码，将语音信号编码为具有时间、频率两个维度的矩阵表示，每一组时间、频率作为一个时频单元。

在一些优选的实施例中，步骤S20中“对所述第一混叠语音信号稀疏化并将其中的时频单元的强度信息映射到预设的D个强度等级，基于强度等级信息二次稀疏化”，其步骤为：

步骤S21，基于预设的背景噪音阈值，选取所述第一混叠语音信号的时频单元中大于所述背景噪音阈值的时频单元，构成第一时频单元集；

步骤S22，对时频单元集的时频单元进行K-means聚类，并将第一时频单元集的时频单元映射到预先设定好的D个强度等级上；

步骤S23，将强度等级最低的时频单元设置为静音单元，得到第二混叠语音信号。

在一些优选的实施例中，所述时间-频率编码为：

采用编码窗口中脉冲的数量和发放时间来反映时频单元的强度；稀疏映射模块中的强度等级为D，最低强度等级的时频单元被设为静音单元；时频单元的强度聚类后映射为强度0＜d＜D，d为整数，时频单元(t ₀，f ₀)对应神经元i的起始时间为t ₀的时间窗口，时间间隔为Δt，则该编码窗口中以t ₀为起始时间的时间间隔内则分别在

处各发放一个脉冲，共发放d个脉冲。

在一些优选的实施例中，所述时间-群体编码为：

采用多个神经元群体对时频单元的强度进行编码，时频单元的强度信息脉冲分布在多个神经元群体中相应神经元的编码窗口中；稀疏映射模块中的强度等级为D，最低强度等级的时频单元被设为静音单元，时间-群体编码采用D-1个神经元群体来进行编码；时频单元的强度聚类后映射为强度0＜d＜D，d为整数，时频单元(t ₀，f ₀)对应各个神经元群体中神经元i的起始时间为t ₀的时间窗口，神经元i∈P _l,l＝1,2,...,d，在该时间窗口的起始时间t ₀处各发放一个脉冲，总计发放d个脉冲，其中P _l表示第l个神经元群体。

在一些优选的实施例中，所述目标脉冲提取网络为采用随机线性神经元模型构建的一个两层全连接脉冲神经网络；

采用远程监督方法对所述目标脉冲提取网络的权重进行训练；所述目标脉冲提取网络输出层神经元j和输入层神经元i之间在t时刻的权重Δw _ji(t)为：

其中，

S _i(t)分别表示期望的输出脉冲序列、实际的输出脉冲序列和输入脉冲序列；a表示非赫布项；W(s)表示学习窗口；所述目标脉冲提取网络的权重通过对Δw _ji在时间上积分获得。

在一些优选的实施例中，所述学习窗口W(s)为：

其中，s是突触后脉冲发放时间和突触前脉冲发放时间之间相差的时间间隔；A是幅值，A＞0；τ _win是学习窗口的时间常数。

在一些优选的实施例中，所采用的远程监督方法，为加入冲量的远程监督方法或加入Nesterov加速梯度的远程监督方法；

采用所述加入冲量的远程监督方法时，所述目标脉冲提取网络输出层神经元j和输入层神经元i之间的权重

为：

其中，k表示迭代次数；β是冲量系数，β∈[0,1]；η是学习率；

是用于每次迭代更新的速度向量；

采用所述加入Nesterov加速梯度的远程监督方法时，所述目标脉冲提取网络输出层神经元j和输入层神经元i之间的权重

为：

其中，

表示在

处的权重更新。

在一些优选的实施例中，步骤S50中“将所述目标脉冲转换成目标语音的时间-频率表示，通过逆短时傅立叶变换转换得到目标语音”，包括以下步骤：

步骤S51，将所述目标脉冲转换成对应目标的信息掩蔽，得到对应的掩蔽值；

步骤S52，将掩蔽值与第一混叠语音信号对应点乘并加入第一混叠语音信号的相位信息，得到目标语音的时间-频率信号表示；

步骤S53，采用短时傅立叶逆变换将目标语音时间-频率信号表示转换为语音信息，获取目标语音。

本发明的另一方面，提出了一种基于有监督学习听觉注意的语音提取系统，包括获取模块、转换模块、稀疏映射模块、脉冲转换模块、目标脉冲提取模块、脉冲识别模块、输出模块；

所述获取模块，配置为获取原始混叠语音信号并输入；

所述转换模块，配置为利用短时傅立叶变换将原始混叠语音信号转换为二维时间-频率信号表示，得到第一混叠语音信号；

所述稀疏映射模块，配置为将第一混叠语音信号稀疏化并将其中的时频单元的强度信息映射到预设的D个强度等级，基于强度等级信息二次稀疏化，得到第二混叠语音信号；

所述脉冲转换模块，配置为采用时间编码的方式将第二混叠语音信号转换为脉冲信号；

所述目标脉冲提取模块，配置为采用训练好的目标脉冲提取网络从所述脉冲信号中提取目标脉冲；

所述脉冲识别模块，配置为将目标脉冲转换成目标语音的时间-频率表示，通过逆短时傅立叶变换转换得到目标语音；

所述输出模块，配置为将目标语音输出。

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于有监督学习听觉注意的语音提取方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；所述处理器，适于执行各条程序；所述存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于有监督学习听觉注意的语音提取方法。

本发明的有益效果：

(1)本发明方法针对语音信号具有丰富的时空结构的特点，设计时间编码方式对混叠语音信号的强度信息进行编码，并采用脉冲神经网络学习从混叠语音的输入脉冲序列到目标语音的输出脉冲序列的映射，有效提高了语音分离的准确性。

(2)本发明设计并使用时间编码对混叠语音信息进行编码，一定程度上保留了语音丰富的时空信息，有效提高了脉冲神经网络分离语音的正确率。

(3)本发明将擅于处理时序数据的脉冲神经网络运用到语音分离中，通过有监督学习，使得网络具有处理复杂混叠语音的能力。

(4)本发明将冲量和Nesterov加速梯度引入到远程监督方法中，采用改进的远程监督方法对脉冲神经网络进行训练，大大提高了脉冲神经网络的收敛速度，并能寻找到更优解。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明基于有监督学习听觉注意的语音提取方法的流程示意图；

图2是本发明基于有监督学习听觉注意的语音提取方法的框架示意图；

图3是本发明基于有监督学习听觉注意的语音提取方法实施例的时域语音转换成时间-频率表示示意图；

图4是本发明基于有监督学习听觉注意的语音提取方法实施例的滑动时间窗口示意图；

图5是本发明基于有监督学习听觉注意的语音提取方法实施例的时间-频率编码示意图；

图6是本发明基于有监督学习听觉注意的语音提取方法实施例的时间-群体编码示意图；

图7是本发明基于有监督学习听觉注意的语音提取方法实施例的脉冲神经网络示意图；

图8是本发明基于有监督学习听觉注意的语音提取方法实施例的语音输出单元示意图；

图9是本发明基于有监督学习听觉注意的语音提取方法实施例的在各个实验设置下的学习收敛数。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明提供了一种基于有监督学习听觉注意的语音提取方法来对混叠语音进行听觉注意，提取目标语音。本方法针对语音信号具有丰富的时空结构的特点，设计时间编码方式对混叠语音信号的强度信息进行编码，并采用脉冲神经网络学习从混叠语音的输入脉冲序列到目标语音的输出脉冲序列的映射。本方法中的脉冲神经网络的权重采用有监督学习算法进行学习。通过将脉冲神经网络的神经元模型限定为线性神经元模型，本方法将冲量和Nesterov加速梯度引入到远程监督方法中，并用改进的远程监督方法对脉冲神经网络进行有监督学习，以加速收敛过程和进一步提高语音分离的准确性。

本发明的一种基于有监督学习听觉注意的语音提取方法的语音提取方法，包括：

为了更清晰地对本发明基于有监督学习听觉注意的语音提取方法进行说明，下面结合图1对本发明方法实施例中各步骤展开详述。

本发明一种实施例的基于有监督学习听觉注意的语音提取方法，包括步骤S10-步骤S50，各步骤详细描述如下：

步骤S10，利用短时傅立叶变换将原始混叠语音信号转换为二维时间-频率信号表示，得到第一混叠语音信号。

步骤S11，对原始混叠语音信号进行重采样，降低所述原始混叠语音信号的采样率。本发明实施例采用的重采样率为8KHz。

步骤S12，将重采样后的混叠语音信号通过短时快速傅里叶变换(STFT，Short-Time Fourier Transform)进行编码，将语音信号编码为具有时间、频率两个维度的矩阵表示，每一组时间、频率作为一个时频单元。

如图3所示，语音时域信号为时间幅值表示，包含了不同的语音信息，经过短时快速傅里叶变换(STFT，Short-Time Fourier Transform)进行编码，转换为时间频率表示。本实施例中STFT的窗口长度为32ms，采用正弦窗函数(sine window)，Hop Size长度为16ms。

步骤S20，对第一混叠语音信号稀疏化并将其中的时频单元的强度信息映射到预设的D个强度等级，基于强度等级信息二次稀疏化，得到第二混叠语音信号。

步骤S21，基于预设的背景噪音阈值，选取所述第一混叠语音信号的时频单元中大于所述背景噪音阈值的时频单元，构成第一时频单元集。本实施例中，背景阈值设为-40dB。

步骤S22，对时频单元集的时频单元进行K-means聚类，并将第一时频单元集的时频单元映射到预先设定好的D个强度等级上。

步骤S30，采用时间编码的方式将所述第二混叠语音信号转换为脉冲信号。

如图4所示，为本发明实施例时间编码的滑动编码窗口：滑动编码窗口长度是时间间隔长度的两倍；t ₀、t ₁、t ₂和t ₃是在时间维度上均匀分布的四个时间点，t ₀-t ₂和t ₁-t ₃是两个相邻的编码窗口(encoding window)，而t ₀-t ₁、t ₁-t ₂和t ₂-t ₃都是时间间隔(time span)。

时间编码可采用时间-频率编码或时间-群体编码，本发明实施例展示了两种时间编码的示意图。

时间-频率编码，采用编码窗口中脉冲的数量和发放时间来反映时频单元的强度，将稀疏混叠语音时频单元的强度信息转换为脉冲神经网络可以处理的脉冲信号。

稀疏映射模块中的强度等级为D，最低强度等级的时频单元被设为静音单元；时频单元的强度聚类后映射为强度0＜d＜D，d为整数，时频单元(t ₀，f ₀)对应神经元i的起始时间为t ₀的时间窗口，时间间隔为Δt，则该编码窗口中以t ₀为起始时间的时间间隔内则分别在

处各发放一个脉冲，共发放d个脉冲。

如图5所示，为本发明实施例的时间-频率编码示意图，时间-频率编码的强度在对应神经元编码窗口前半部分的时间间隔中进行编码。图示虚线表示时间间隔的边界。假设编码窗口时长为24ms，则时间间隔时长为12ms，总的强度等级D＝4。由于最低强度的时频单元被设为静音单元，所以只有1、2、3这三种强度等级。当前起始时间为t ₀的时频单元的频率对应神经元i，设其强度是2，则在以t ₀为起始时间的时间间隔内，t ₀ms和(t ₀+6)ms的时候均匀分布2个脉冲；其后以该神经元i在随后以t ₁为起始时间的编码窗口编码的时频单元的强度为3，则在以t ₁为起始时间的时间间隔内，t ₁ms、(t ₁+4)ms和(t ₁+8)ms的时候均匀分布3个脉冲。

时间-群体编码采用多个神经元群体对时频单元的强度进行编码，时频单元的强度信息脉冲分布在多个神经元群体中相应神经元的编码窗口中，将稀疏混叠语音时频单元的强度信息转换为脉冲神经网络可以处理的脉冲信号。

群体编码是在神经科学中发现的一个重要的编码策略，主要是用多个不精确的神经元对刺激进行编码。受启于时间编码和群体编码，时间-群体编码采用多个神经元群体对时频单元的强度进行编码。具体来说，表示时频单元的强度的脉冲分布在多个神经元群体中的相应神经元的编码窗口中。

稀疏映射模块中的强度等级为D，最低强度等级的时频单元被设为静音单元，时间-群体编码采用D-1个神经元群体来进行编码；时频单元的强度聚类后映射为强度0＜d＜D，d为整数，时频单元(t ₀，f ₀)对应各个神经元群体中神经元i的起始时间为t ₀的时间窗口，神经元i∈P _l,l＝1,2,...,d，在该时间窗口的起始时间t ₀处各发放一个脉冲，总计发放d个脉冲，其中P _l表示第l个神经元群体。

如图6所示，为本发明实施例的时间-群体编码示意图，时间-群体编码的强度在对应的神经元编码窗口前半部分的时间间隔中进行编码。图示虚线表示时间间隔的边界，图中P _d表示第d个神经元群体。时间-群体编码采用多个神经元组对刺激进行编码。假设总的强度等级D＝4，由于最低强度的时频单元被设为静音单元，所以只有1、2、3这三种强度等级，故有3个神经元群体对刺激进行编码。当前起始时间为t ₀的时频单元的频率对应各个神经元群组中的神经元i，设其强度是2，前两个神经元群体中的神经元i各会在t ₀处发放一个脉冲，而第三个神经元群体中的神经元i在t ₀处沉默；其后以该神经元i在随后以t ₁为起始时间的编码窗口编码的时频单元的强度为3，则三个神经元群体中的神经元i都会在t ₁处各发放一个脉冲。

步骤S40，采用训练好的目标脉冲提取网络从所述脉冲信号中提取目标脉冲。

目标脉冲提取网络为采用随机线性神经元模型(stochastic linear neuron model)构建的一个两层全连接脉冲神经网络，如图7所示。

本发明实施例中，采用了有漏电流的漏电整合发放神经元模型(LIF，Leaky Integrate-and-Fire)V _j(t)，其定义如式(1)所示：

其中，Γ _j为神经元j的突触前神经元的集合，w _ji为神经元j和神经元i之间的突触连接权重，

为神经元i的脉冲发放时间，ε(t)为脉冲响应函数，V _rest是静息电位。

ε(t)为简单的α-函数，如式(2)所示：

其中，τ为时间常数，表示突触后电位(postsynaptic potential)决定电位上升和下降的快慢；H(t)是阶跃函数(Heaviside function)；τ _ref为不应期，表示膜电位累积达到阈值电位V _thre时，神经元恢复到静息电位V _rest并维持的一段时间。

本实施例中V _thre＝1.0，V _rest＝0，时间编码为时间-频率编码时，τ＝0.6，τ _ref＝0.8，τ _win＝0.8，D＝8；时间编码为时间-群体编码时，τ＝0.45，τ _ref＝0.8，τ _win＝0.7，D＝10。

脉冲神经网络的结构和时间编码方式有关。当时间编码方式是时间-频率编码时，输入层的神经元数m和输出层的神经元数n都是F，其中F是时间-频率表示X _t,f的频率维度；当时间编码方式是时间-群体编码时，输入层的神经元数m是(D-1)F，而输出层的神经元数n是F。

采用远程监督方法对目标脉冲提取网络的权重进行训练。

目标脉冲提取网络输出层神经元j和输入层神经元i之间在t时刻的权重Δw _ji(t)如式(3)所示：

其中，

学习窗口W(s)定义如式(4)所示：

当且仅当神经元模型限制在随机线性神经元模型的时候，远程监督方法可以从另一个角度推导出来，此推导过程类似于随机梯度下降。采用的远程监督方法，为加入冲量的远程监督方法或加入Nesterov加速梯度的远程监督方法。

采用加入冲量的远程监督方法(ReSuMe-M，Remote Supervised Method with Momentum)时，目标脉冲提取网络输出层神经元j和输入层神经元i之间的权重

如式(5)和式(6)所示：

是用于每次迭代更新的速度向量。本实施例中，β＝0.9。

采用加入Nesterov加速梯度的远程监督方法(ReSuMe-NAG，Remote Supervised Method with Nesterov’s Accelerated Gradient)时，目标脉冲提取网络输出层神经元j和输入层神经元i之间的权重

如式(7)和式(8)所示：

其中，

表示在

处的权重更新。本实施例中，β＝0.9。

本实施例中，脉冲神经网络的初始学习率为0.05，如果期望的输出脉冲序列和实际的输出脉冲的距离在5个epoch中连续增长，则以0.95的倍率调整学习率。采用耐心为15个epoch(迭代次数)的早停止策略。对于人工神经网络，则分别用SGD(Stochastic Gradient Descent)、SGDM(Stochastic Gradient Descent with Momentum,SGDM)和NAG(Nesterov’s Accelerated Gradient)进行优化。

步骤S51，将所述目标脉冲转换成对应目标的信息掩蔽，得到对应的掩蔽值。

根据一定规则将脉冲神经网络预测的输出脉冲序列转换成对应目标的信息掩蔽A _t,f，其中A _t,f和第一混叠语音的时间-频率表示维度相同。本发明实施例中采用理想二值掩蔽(IBM，Ideal Binary Mask)，当某个神经元的某个时间间隔中有脉冲发放，则其对应的信息掩蔽单元置1，否则为0。

步骤S52，将掩蔽值与第一混叠语音信号对应点乘并加入第一混叠语音信号的相位信息，得到目标语音的时间-频率信号表示。

步骤S53，采用短时傅立叶逆变换(iSTFT，inverse Short-Time Fourier Transform)将目标语音时间-频率信号表示转换为语音信息，获取目标语音。

如图8所示，为本发明实施例的目标语音输出示意图，混叠语音信号转换成时间频率表示，通过脉冲神经网络的学习，提取出目标语音的时间-频率表示，最后采用短时傅立叶逆变换(iSTFT，inverse Short-Time Fourier Transform)将时间-频率信号表示转换为语音信息的时间幅值表示，为提取的目标语音。

为了准确评估本发明方法的目标语音分离的性能，本发明采用语音分离中权威的BSS_EVAL工具集中的全局信号失真改善度(GNSDR，global signal-to-distortion improvement)作为指标，衡量模型的语音分离性能。

本发明的实验采用英文语音数据集Grid语料库。从Grid数据集中选取一男一女两个说话人，各随机抽取出20条语音，分为3部分，其中10条用于生成训练集混叠语音，5条用于生成验证集混合语音，5条用于生成测试集混合语音。最终训练集共有100个样本，验证集有25个样本，测试集有25个样本。每个样本都被剪辑成0.5s以对齐。

为了说明本发明所述时间-频率编码(TR)和时间-群体编码(TP)的有效性，我们在上述数据集中在相同网络结构参数设置下和传统的Time-to-First-Spike(TF)进行对比实验。Time-to-First-Spike通过编码窗口中单个脉冲发放的早晚来编码强度信息，脉冲发放得越早，强度越大。

为了说明本发明所述加入冲量的远程监督方法(ReSuMe-M)和加入Nesterov加速梯度的远程监督方法(ReSuMe-NAG)的有效性，我们在上述数据集中在多种实验设置下和朴素的远程监督方法(ReSuMe)进行对比实验。

为了说明本发明所述基于有监督学习听觉注意的语音提取方法的有效性，我们在上述数据集中在相同网络结构参数设置下和两层人工神经网络中的多层感知机(MLP，Multi-Layer Perceptron)、递归神经网络(RNN，Recurrent Neural Network)和长短时记忆网络(LSTM，Long-Short Term Memory)进行对比实验。其中人工神经网络采用步骤S10得到的时间-频率表示作为输入，步骤S51中采用理想比率掩蔽(IRM，Ideal Ratio Mask)，人工神经网络使用IRM比使用IBM的效果好。

传统的Time-to-First-Spike过度简化，只使用单个脉冲表示时频单元的强度，容易受到噪音的干扰。本发明提出的时间-频率编码和时间-群体编码比传统的Time-to-First-Spike编码有明显表现提升。

对比有监督方法(ReSuMe)、加入冲量的有监督方法(ReSuMe-M)和加入Nesterov加速梯度的有监督方法(ReSuMe-NAG)，可以发现将冲量和Nesterov加速梯度引入到远程监督方法中后，本发明的模型跳出局部极值，能够寻找到更优解，提升语音提取准确性。

对比脉冲神经网络和人工神经网络的表现，本发明的方法在大多数设置下表现均优于相同网络参数下的人工神经网络，这表明脉冲神经网络处理时序数据的潜在优越性。

对比结果如表1所示：

表1

方法	SNN(TF)	SNN(TR)	SNN(TP)
ReSuMe	1.81±0.31	3.71±0.32	4.04±0.27
ReSuMe-M	2.16±0.21	4.03±0.29	4.41±0.29
ReSuMe-NAG	2.20±0.24	4.54±0.23	4.23±0.20
方法	MLP	RNN	LSTM
SGD	3.70±0.07	3.56±0.06	3.80±0.03
SGDM	3.72±0.07	3.58±0.05	3.94±0.07
NAG	3.74±0.06	3.58±0.05	3.94±0.06

如图9所示，从本发明方法在各个实验设置下的学习收敛数中可以看出，远程监督方法加入冲量和Nesterov加速梯度之后，脉冲序列学习的收敛过程明显加快，表明了本发明所述有监督学习算法ReSuMe-M和ReSuMe-NAG的有效性。

本发明第二实施例的基于有监督学习听觉注意的语音提取系统，包括获取模块、转换模块、稀疏映射模块、脉冲转换模块、目标脉冲提取模块、脉冲识别模块、输出模块；

所述获取模块，配置为获取原始混叠语音信号并输入；

所述输出模块，配置为将目标语音输出。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于有监督学习听觉注意的语音提取系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于有监督学习听觉注意的语音提取方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于有监督学习听觉注意的语音提取方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“上”、“下”、“前”、“后”、“左”、“右”等，仅是参考附图的方向，并非用来限制本发明的保护范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

一种基于有监督学习听觉注意的语音提取方法，其特征在于，包括：

步骤S10，利用短时傅立叶变换将原始混叠语音信号转换为二维时间-频率信号表示，得到第一混叠语音信号；

步骤S20，对所述第一混叠语音信号稀疏化并将其中的时频单元的强度信息映射到预设的D个强度等级，基于强度等级信息二次稀疏化，得到第二混叠语音信号；

步骤S30，采用时间编码的方式将所述第二混叠语音信号转换为脉冲信号；所述时间编码为时间-频率编码或时间-群体编码；

步骤S40，采用训练好的目标脉冲提取网络从所述脉冲信号中提取目标脉冲；所述目标脉冲提取网络基于脉冲神经网络构建；

步骤S50，将所述目标脉冲转换成目标语音的时间-频率表示，通过逆短时傅立叶变换转换得到目标语音。
根据权利要求1所述的基于有监督学习听觉注意的语音提取方法，其特征在于，步骤S10中“利用短时傅立叶变换将原始混叠语音信号转换为二维时间-频率信号表示”，其步骤为：

步骤S11，对原始混叠语音信号进行重采样，降低所述原始混叠语音信号的采样率；

步骤S12，将重采样后的混叠语音信号通过短时快速傅里叶变换进行编码，将语音信号编码为具有时间、频率两个维度的矩阵表示，每一组时间、频率作为一个时频单元。
根据权利要求1所述的基于有监督学习听觉注意的语音提取方法，其特征在于，步骤S20中“对所述第一混叠语音信号稀疏化并将其中的时频单元的强度信息映射到预设的D个强度等级，基于强度等级信息二次稀疏化”，其步骤为：

步骤S21，基于预设的背景噪音阈值，选取所述第一混叠语音信号的时频单元中大于所述背景噪音阈值的时频单元，构成第一时频单元集；

步骤S22，对时频单元集的时频单元进行K-means聚类，并将第一时频单元集的时频单元映射到预先设定好的D个强度等级上；

步骤S23，将强度等级最低的时频单元设置为静音单元，得到第二混叠语音信号。
根据权利要求1所述的基于有监督学习听觉注意的语音提取方法，其特征在于，所述时间-频率编码为：

采用编码窗口中脉冲的数量和发放时间来反映时频单元的强度；稀疏映射模块中的强度等级为D，最低强度等级的时频单元被设为静音单元；时频单元的强度聚类后映射为强度0＜d＜D，d为整数，时频单元(t ₀，f ₀)对应神经元i的起始时间为t ₀的时间窗口，时间间隔为Δt，则该编码窗口中以t ₀为起始时间的时间间隔内则分别会在
l＝0,1,...,d-1处各发放一个脉冲，共发放d个脉冲。
根据权利要求1所述的基于有监督学习听觉注意的语音提取方法，其特征在于，所述时间-群体编码为：

采用多个神经元群体对时频单元的强度进行编码，时频单元的强度信息脉冲分布在多个神经元群体中相应神经元的编码窗口中；稀疏映射模块中的强度等级为D，最低强度等级的时频单元被设为静音单元，时间-群体编码采用D-1个神经元群体来进行编码；时频单元的强度聚类后映射为强度0＜d＜D，d为整数，时频单元(t ₀，f ₀)对应各个神经元群体中神经元i的起始时间为t ₀的时间窗口，神经元i∈P _l,l＝1,2,...,d，在该时间窗口的起始时间t ₀处各发放一个脉冲，总计发放d个脉冲，其中P _l表示第l个神经元群体。
根据权利要求1所述的基于有监督学习听觉注意的语音提取方法，其特征在于，所述目标脉冲提取网络为采用随机线性神经元模型构建的一个两层全连接脉冲神经网络；

采用远程监督方法对所述目标脉冲提取网络的权重进行训练；所述目标脉冲提取网络输出层神经元j和输入层神经元i之间在t时刻的权重Δw _ji(t)为：

其中，
S _i(t)分别表示期望的输出脉冲序列、实际的输出脉冲序列和输入脉冲序列；a表示非赫布项；W(s)表示学习窗口；所述目标脉冲提取网络的权重通过对Δw _ji在时间上积分获得。
根据权利要求4所述的基于有监督学习听觉注意的语音提取方法，其特征在于，所述学习窗口W(s)为：

其中，s是突触后脉冲发放时间和突触前脉冲发放时间之间相差的时间间隔；A是幅值，A＞0；τ _win是学习窗口的时间常数。
根据权利要求4或5所述的基于有监督学习听觉注意的语音提取方法，其特征在于，所采用的远程监督方法，为加入冲量的远程监督方法或加入Nesterov加速梯度的远程监督方法；

采用所述加入冲量的远程监督方法时，所述目标脉冲提取网络输出层神经元j和输入层神经元i之间的权重
为：

其中，k表示迭代次数；β是冲量系数，β∈[0,1]；η是学习率；
是用于每次迭代更新的速度向量；

采用所述加入Nesterov加速梯度的远程监督方法时，所述目标脉冲提取网络输出层神经元j和输入层神经元i之间的权重
为：

其中，
表示在
处的权重更新。
根据权利要求1所述的基于有监督学习听觉注意的语音提取方法，其特征在于，步骤S50中“将所述目标脉冲转换成目标语音的时间-频率表示，通过逆短时傅立叶变换转换得到目标语音”，包括以下步骤：

步骤S51，将所述目标脉冲转换成对应目标的信息掩蔽，得到对应的掩蔽值；

步骤S52，将掩蔽值与第一混叠语音信号对应点乘并加入第一混叠语音信号的相位信息，得到目标语音的时间-频率信号表示；

步骤S53，采用短时傅立叶逆变换将目标语音时间-频率信号表示转换为语音信息，获取目标语音。
一种基于有监督学习听觉注意的语音提取系统，其特征在于，包括获取模块、转换模块、稀疏映射模块、脉冲转换模块、目标脉冲提取模块、脉冲识别模块、输出模块；

所述获取模块，配置为获取原始混叠语音信号并输入；

所述转换模块，配置为利用短时傅立叶变换将原始混叠语音信号转换为二维时间-频率信号表示，得到第一混叠语音信号；

所述稀疏映射模块，配置为将第一混叠语音信号稀疏化并将其中的时频单元的强度信息映射到预设的D个强度等级，基于强度等级信息二次稀疏化，得到第二混叠语音信号；

所述脉冲转换模块，配置为采用时间编码的方式将第二混叠语音信号转换为脉冲信号；

所述目标脉冲提取模块，配置为采用训练好的目标脉冲提取网络从所述脉冲信号中提取目标脉冲；

所述脉冲识别模块，配置为将目标脉冲转换成目标语音的时间-频率表示，通过逆短时傅立叶变换转换得到目标语音；

所述输出模块，配置为将目标语音输出。
一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-9任一项所述的基于有监督学习听觉注意的语音提取方法。
一种处理装置，包括

处理器，适于执行各条程序；以及

存储装置，适于存储多条程序；

其特征在于，所述程序适于由处理器加载并执行以实现：

权利要求1-9任一项所述的基于有监督学习听觉注意的语音提取方法。