WO2016145850A1

WO2016145850A1 - 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法

Info

Publication number: WO2016145850A1
Application number: PCT/CN2015/092381
Authority: WO
Inventors: 杨毅; 孙甲松
Original assignee: 清华大学
Priority date: 2015-03-19
Filing date: 2015-10-21
Publication date: 2016-09-22
Also published as: CN104700828B; CN104700828A

Abstract

一种基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法，通过在深度长短期记忆循环神经网络声学模型中增加注意门（103）单元，来表征听觉皮层神经元的瞬时功能改变，注意门（103）单元与其他门单元不同之处在于，其他门单元与时间序列一一对应，而注意门（103）单元体现的是短期可塑性效应，因此在时间序列上存在间隔；通过对包含Cross-talk噪声的大量语音数据进行训练获得的上述神经网络声学模型，可以实现对Cross-talk噪声的鲁棒特征提取和鲁棒声学模型的构建，通过抑制非目标流对特征提取的影响可以达到提高声学模型的鲁棒性的目的；该方法可广泛应用于涉及语音识别的说话人识别、关键词识别、人机交互等多种机器学习领域。

Description

基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法

技术领域

本发明属于音频技术领域，特别涉及一种基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法。

背景技术

随着信息技术的迅速发展，语音识别技术已经具备大规模商业化的条件。目前语音识别主要采用基于统计模型的连续语音识别技术，其主要目标是通过给定的语音序列寻找其所代表的概率最大的词序列。基于统计模型的连续语音识别系统的任务是根据给定的语音序列寻找其所代表的概率最大的词序列，通常包括构建声学模型和语言模型及其对应的搜索解码方法。随着声学模型和语言模型的快速发展，语音识别系统的性能在理想声学环境下已经大为改善，现有的深度神经网络-隐马尔科夫模型(Deep Neural Network-Hidden Markov Model，DNN-HMM)初步成熟，通过机器学习的方法可以自动提取有效特征，并能对多帧语音对应的上下文信息建模，但是此类模型每一层都有百万量级的参数，且下一层的输入是上一次的输出，因此需要使用GPU设备来训练DNN声学模型，训练时间长；高度非线性以及参数共享的特性也使得DNN难以进行参数自适应。

循环神经网络(Recurrent Neural Network，RNN)是一种单元之间存在有向循环来表达网络内部动态时间特性的神经网络，在手写体识别和语言模型等方面得到广泛应用。语音信号是复杂的时变信号，在不同时间尺度上具有复杂的相关性，因此相比于深度神经网络而言，循环神经网络具有的循环连接功能更适合处理这类复杂时序数据。

作为循环神经网络的一种，长短期记忆(Long Short-Term Memory，LSTM)模型比循环神经网络更适合处理和预测事件滞后且时间不定的长时序列。多伦多大学提出的增加了记忆模块(memory block)的深度LSTM-RNN声学模型则将深度神经网络的多层次表征能力与循环神经网络灵活利用长跨度上下文的能力结合，使得基于TIMIT库的音素识别错误率降至17.1％。

但是循环神经网络中使用的梯度下降法存在梯度消散(vanishing gradient)问题，也就是在对网络的权重进行调整的过程中，随着网络层数增加，梯度逐层消散，致使其对权重调整的作用越来越小。谷歌提出的两层深度LSTM-RNN声学模型，在以前的深度LSTM-RNN模型中增加了线性循环投影层(Recurrent Projection Layer)，用于解决梯度消散问题。对比实验表明，RNN的帧正确率(Frame Accuracy)及其收敛速度明显逊于LSTM-RNN和DNN；在词错误率及其收敛速度方面，最好的DNN在训练数周后的词错误率为11.3％；而两层深度LSTM-RNN模型在训练48小时后词错误率降低至10.9％，训练100/200小时后，词错误率降低至10.7/10.5(％)。

慕尼黑大学提出的深度双向长短期记忆循环神经网络(Deep Bidirectional Long Short-Term Memory Recurrent Neural Networks，DBLSTM-RNN)声学模型，在神经网络的每个循环层中定义了相互独立的前向层和后向层，并使用多隐藏层对输入的声学特征进行更高层表征，同时对噪声和混响进行有监督学习实现特征投影和增强。此方法在2013 PASCAL CHiME数据集上，在信噪比[-6dB，9dB]范围内实现了词错误率从基线的55％降低到22％。

但实际声学环境的复杂性仍然严重影响和干扰连续语音识别系统的性能，即使利用目前主流的DNN声学模型方法，在包括噪声、音乐、口语、重复等复杂环境条件下的连续语音识别数据集上也只能获得70％左右的识别率，连续语音识别系统中声学模型的抗噪性和鲁棒性仍有待改进。

随着声学模型和语言模型的快速发展，语音识别系统的性能在理想声学环境下已经大为改善，现有的DNN-HMM模型初步成熟，通过机器学习的方法可以自动提取有效特征，并能对多帧语音对应的上下文信息建模。然而大多数识别系统对于声学环境的改变仍然十分敏感，特别是在cross-talk噪声 (两人或多人同时说话)干扰下不能满足实用性能的要求。与深度神经网络声学模型相比，循环神经网络声学模型中的单元之间存在有向循环，可以有效的描述神经网络内部的动态时间特性，更适合处理具有复杂时序的语音数据。而长短期记忆神经网络比循环神经网络更适合处理和预测事件滞后且时间不定的长时序列，因此用于构建语音识别的声学模型能够取得更好的效果。

人脑在处理复杂场景的语音时存在选择性注意的现象，其主要原理为：人脑具有听觉选择性注意的能力，在听觉皮层区域通过自上而下的控制机制，来实现抑制非目标流和增强目标流的目的。研究表明，在选择性注意的过程中，听觉皮层的短期可塑性(Short-Term Plasticity)效应增加了对声音的区分能力。在注意力非常集中时，在初级听觉皮层可以在50毫秒内开始对声音目标进行增强处理。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法，建立了基于选择性注意原理的深度长短期记忆循环神经网络声学模型，通过在深度长短期记忆循环神经网络声学模型中增加注意门单元，来表征听觉皮层神经元的瞬时功能改变，注意门单元与其他门单元不同之处在于，其他门单元与时间序列一一对应，而注意门单元体现的是短期可塑性效应，因此在时间序列上存在间隔。通过对包含Cross-talk噪声的大量语音数据进行训练获得的上述神经网络声学模型，可以实现对Cross-talk噪声的鲁棒特征提取和鲁棒声学模型的构建，通过抑制非目标流对特征提取的影响可以达到提高声学模型的鲁棒性的目的。

为了实现上述目的，本发明采用的技术方案是：

一种基于选择性注意原理的连续语音识别方法，包括如下步骤：

第一步，构建基于选择性注意原理的深度长短期记忆循环神经网络

从输入到隐藏层定义为一个长短期记忆循环神经网络，深度指的是每个长短期记忆循环神经网络的输出为下一个长短期记忆循环神经网络的输入，如此重复，最后一个长短期记忆循环神经网络的输出作为整个系统的输出；在每一个长短期记忆循环神经网络中，语音信号x_t为t时刻的输入，x_t-1为t-1时刻的输入，以此类推，总时间长度上的输入为x＝[x₁,...,x_T]其中t∈[1,T]，T为语音信号的总时间长度；t时刻的长短期记忆循环神经网络由注意门、输入门、输出门、遗忘门、记忆细胞、tanh函数、隐藏层、乘法器组成，t-1时刻的长短期记忆循环神经网络由输入门、输出门、遗忘门、记忆细胞、tanh函数、隐藏层、乘法器组成；总时间长度上的隐藏层输出为y＝[y₁,...,y_T]；

第二步，构建基于选择性注意原理的深度长短期记忆循环神经网络声学模型

在第一步的基础上，每间隔s时刻对应的深度长短期记忆循环神经网络存在注意门，其他时刻的深度长短期记忆循环神经网络不存在注意门，即，基于选择性注意原理的深度长短期记忆循环神经网络声学模型由间隔存在注意门的深度长短期记忆循环神经网络组成。

如何在复杂环境干扰，特别是在cross-talk噪声干扰下进行识别，一直是语音识别的难点之一，阻碍了语音识别的大规模应用。与现有技术相比，本发明借鉴人脑在处理复杂场景的语音时存在选择性注意的现象来实现抑制非目标流和增强目标流，通过在深度长短期记忆递归神经网络声学模型中增加注意门单元，来表征听觉皮层神经元的瞬时功能改变，注意门单元与其他门单元不同之处在于，其他门单元与时间序列一一对应，而注意门单元体现的是短期可塑性效应，因此在时间序列上存在间隔。在一些包含Cross-talk噪声的连续语音识别数据集上采用这种方法，可以获得比深度神经网络方法更好的性能。

附图说明

图1是本发明的基于选择性注意原理的深度长短期记忆循环神经网络流程图。

图2是本发明的基于选择性注意原理的深度长短期记忆神经网络声学模型流程图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

本发明利用基于选择性注意原理的深度长短期记忆循环神经网络声学模型，实现了连续语音识别。但本发明提供的模型及方法不局限于连续语音识别，也可以是任何与语音识别有关的方法和装置。

本发明主要包括如下步骤：

如图1所示，输入101和输入102为t时刻和t-1时刻语音信号输入x_t和x_t-1(t∈[1,T]，T为语音信号的总时间长度)；t时刻的长短期记忆循环神经网络由注意门103、输入门104、遗忘门105、记忆细胞106、输出门107、tanh函数108、tanh函数109、隐藏层110、乘法器122以及乘法器123组成；t-1时刻的长短期记忆循环神经网络由输入门112、遗忘门113、记忆细胞114、输出门115、tanh函数116、tanh函数117、隐藏层118、乘法器120以及乘法器121组成。t时刻和t-1时刻隐藏层输出分别为输出111和输出119。

其中，输入102同时作为输入门112、遗忘门113、输出门115以及tanh函数116的输入，输入门112的输出与tanh函数116的输出送入乘法器120，运算后的输出作为记忆细胞114的输入，记忆细胞114的输出作为tanh函数117的输入，tanh函数117的输出和输出门115的输出送入乘法器121，运算后的输出作为隐藏层118的输入，隐藏层118的输出即为输出119。

输入101、记忆细胞114的输出以及乘法器121的输出共同作为注意门103的输入，注意门103的输出和乘法器121的输出共同作为tanh函数108的输入，注意门103的输出、记忆细胞114的输出和乘法器121的输出分别共同作为输入门104、遗忘门105以及输出门107的输入，遗忘门105的输出和记忆细胞114的输出送入乘法器124，输入门104的输出与tanh函数108的输出送入乘法器122，乘法器124的输出和乘法器122的输出作为记忆细胞106的输入，记忆细胞106的输出作为tanh函数109的输入，tanh函数109的输出和输出门107的输出送入乘法器123，乘法器123的输出作为隐藏层110的输入，隐藏层110的输出即为输出111。

即：在t∈[1,T]时刻的参数按照如下公式计算：

G_{atten_t}＝sigmoid(W_axx_t+W_amm_t-1+W_acCell_t-1+b_a)

G_{input_t}＝sigmoid(W_iaG_{atten_t}+W_imm_t-1+W_icCell_t-1+b_i)

G_{forget_t}＝sigmoid(W_faG_{atten_t}+W_fmm_t-1+W_fcCell_t-1+b_f)

Cell_t＝G_{forget_t}⊙Cell_t-1+G_{input_t}⊙tanh(W_caG_{atten_t}+W_cmm_t-1+b_c)

G_{output_t}＝sigmoid(W_oaG_{atten_t}+W_omm_t-1+W_ocCell_t-1+b_o)

m_t＝G_{output_t}⊙tanh(Cell_t)

y_t＝softmax_k(W_ymm_t+b_y)

其中G_{atten_t}为t时刻注意门103的输出，G_{input_t}为t时刻输入门104的输出，G_{forget_t}为t时刻遗忘门105的输出，Cell_t为t时刻记忆细胞106的输出，G_{output_t}为t时刻输出门107的输出，m_t为t时刻隐藏层110的输入，y_t为t时刻的输出111；x_t为t时刻的输入101，m_t-1为t-1时刻隐藏层118的输入，Cell_t-1为t-1时刻记忆细胞114的输出；W_ax为t时刻注意门a与t时刻输入x之间的权重，W_am为t时刻注意门a与t-1时刻隐藏层输入m之间的权重，W_ac为t时刻注意门a与t-1时刻记忆细胞c之间的权重，W_ia为t时刻输入门i与t时刻注意门a之间的权重，W_im为t时刻输入门i与t-1时刻隐藏层输入m之间的权重，W_ic为t时刻输入门i与t-1时刻记忆细胞c之间的权重，W_fa为t时刻遗忘门f与t时刻注意门a之间的权重，W_fm为t时刻遗忘门f与t-1时刻隐藏层输入m之间的权重，W_fc为t时刻遗忘门f与t-1时刻记忆细胞c之间的权重，W_ca为t时刻记忆细胞c与t时刻注意门a之间的权重，W_cm为t时刻记忆细胞c与t-1时刻隐藏层输入m之间的权重，W_oa为t时刻输出门o与t时刻注意门a之间的权重，W_om为t时刻输出门o与t-1时刻隐藏层输入m之间的权重，W_oc为t时刻输出门o与t-1时刻记忆细胞c之间的权重；b_a为注意门a的偏差量，b_i为输入门i的偏差量，b_f为遗忘门f的偏差量，b_c为记忆细胞c的偏差量，b_o为输出门o的偏差量，b_y为输出y的偏差量，不同的b代表不同的偏差量；且有

其中x_k表示第k∈[1,K]个softmax函数的输入，l∈[1,K]用于对全部

求和；⊙代表矩阵元素相乘。

在第一步的基础上，每间隔s(s＝5)时刻对应的深度长短期记忆循环神经网络存在注意门，其他时刻的深度长短期记忆循环神经网络不存在注意门，即，基于选择性注意原理的深度长短期记忆循环神经网络声学模型由间隔存在注意门的深度长短期记忆循环神经网络组成。如图2所示为所建立的基于选择性注意原理的深度长短期记忆循环神经网络声学模型，t时刻的深度长短期记忆循环神经网络存在注意门201，t-s时刻的深度长短期记忆循环神经网络存在注意门202，如此循环。

Claims

一种基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法，包括如下步骤：

第一步，构建基于选择性注意原理的深度长短期记忆循环神经网络

从输入到隐藏层定义为一个长短期记忆循环神经网络，深度指的是每个长短期记忆循环神经网络的输出为下一个长短期记忆循环神经网络的输入，如此重复，最后一个长短期记忆循环神经网络的输出作为整个系统的输出；在每一个长短期记忆循环神经网络中，语音信号x_t为t时刻的输入，x_t-1为t-1时刻的输入，以此类推，总时间长度上的输入为x＝[x₁,...,x_T]其中t∈[1,T]，T为语音信号的总时间长度；t时刻的长短期记忆循环神经网络由注意门、输入门、输出门、遗忘门、记忆细胞、tanh函数、隐藏层、乘法器组成，t-1时刻的长短期记忆循环神经网络由输入门、输出门、遗忘门、记忆细胞、tanh函数、隐藏层、乘法器组成；总时间长度上的隐藏层输出为y＝[y₁,...,y_T]；

在t∈[1,T]时刻的参数按照如下公式计算：

G_{atten_t}＝sigmoid(W_axx_t+W_amm_t-1+W_acCell_t-1+b_a)

G_{input_t}＝sigmoid(W_iaG_{atten_t}+W_imm_t-1+W_icCell_t-1+b_i)

G_{forget_t}＝sigmoid(W_faG_{atten_t}+W_fmm_t-1+W_fcCell_t-1+b_f)

Cell_t＝G_{forget_t}⊙Cell_t-1+G_{input_t}⊙tanh(W_caG_{atten_t}+W_cmm_t-1+b_c)

G_{output_t}＝sigmoid(W_oaG_{atten_t}+W_omm_t-1+W_ocCell_t-1+b_o)

m_t＝G_{output_t}⊙tanh(Cell_t)

y_t＝softmax_k(W_ymm_t+b_y)

其中G_{atten_t}为t时刻注意门的输出，G_{input_t}为t时刻输入门的输出，G_{forget_t}为t时刻遗忘门的输出，Cell_t为t时刻记忆细胞的输出，G_{output_t}为t时刻输出门的输出，m_t为t时刻隐藏层的输入，y_t为t时刻的输出；x_t为t时刻的输入，m_t-1为t-1时刻隐藏层的输入，Cell_t-1为t-1时刻记忆细胞的输出；W_ax为t时刻注意门 a与t时刻输入x之间的权重，W_am为t时刻注意门a与t-1时刻隐藏层输入m之间的权重，W_ac为t时刻注意门a与t-1时刻记忆细胞c之间的权重，W_ia为t时刻输入门i与t时刻注意门a之间的权重，W_im为t时刻输入门i与t-1时刻隐藏层输入m之间的权重，W_ic为t时刻输入门i与t-1时刻记忆细胞c之间的权重，W_fa为t时刻遗忘门f与t时刻注意门a之间的权重，W_fm为t时刻遗忘门f与t-1时刻隐藏层输入m之间的权重，W_fc为t时刻遗忘门f与t-1时刻记忆细胞c之间的权重，W_ca为t时刻记忆细胞c与t时刻注意门a之间的权重，W_cm为t时刻记忆细胞c与t-1时刻隐藏层输入m之间的权重，W_oa为t时刻输出门o与t时刻注意门a之间的权重，W_om为t时刻输出门o与t-1时刻隐藏层输入m之间的权重，W_oc为t时刻输出门o与t-1时刻记忆细胞c之间的权重；b_a为注意门a的偏差量，b_i为输入门i的偏差量，b_f为遗忘门f的偏差量，b_c为记忆细胞c的偏差量，b_o为输出门o的偏差量，b_y为输出y的偏差量，不同的b代表不同的偏差量；且有

其中x_k表示第k∈[1,K]个softmax函数的输入，l∈[1,K]用于对全部
求和；⊙代表矩阵元素相乘；

第二步，构建基于选择性注意原理的深度长短期记忆循环神经网络声学模型

在第一步的基础上，每间隔s时刻对应的深度长短期记忆循环神经网络存在注意门，其他时刻的深度长短期记忆循环神经网络不存在注意门，即，基于选择性注意原理的深度长短期记忆循环神经网络声学模型由间隔存在注意门的深度长短期记忆循环神经网络组成。
根据权利要求1所述基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法，其特征在于，所述s＝5。