WO2016145850A1 - 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 - Google Patents

基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 Download PDF

Info

Publication number
WO2016145850A1
WO2016145850A1 PCT/CN2015/092381 CN2015092381W WO2016145850A1 WO 2016145850 A1 WO2016145850 A1 WO 2016145850A1 CN 2015092381 W CN2015092381 W CN 2015092381W WO 2016145850 A1 WO2016145850 A1 WO 2016145850A1
Authority
WO
WIPO (PCT)
Prior art keywords
time
gate
input
output
neural network
Prior art date
Application number
PCT/CN2015/092381
Other languages
English (en)
French (fr)
Inventor
杨毅
孙甲松
Original Assignee
清华大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 清华大学 filed Critical 清华大学
Publication of WO2016145850A1 publication Critical patent/WO2016145850A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Definitions

  • the invention belongs to the technical field of audio, and particularly relates to a method for constructing an acoustic model of a deep long-term and short-term memory cycle neural network based on the principle of selective attention.
  • speech recognition mainly adopts continuous speech recognition technology based on statistical model, and its main goal is to find the most probable word sequence represented by a given speech sequence.
  • the task of a continuous speech recognition system based on a statistical model is to find the sequence of words with the highest probability that it represents, based on a given sequence of speech, typically including constructing an acoustic model and a language model and their corresponding search and decoding methods.
  • the existing deep neural network-Hidden Markov Model (DNN-HMM) Initially mature, the machine learning method can automatically extract effective features, and can model the context information corresponding to multi-frame speech, but each layer of this model has millions of parameters, and the input of the next layer It is the last output, so the GPU device is needed to train the DNN acoustic model, and the training time is long; the high nonlinearity and parameter sharing characteristics make DNN difficult to parameter adaptive.
  • DNN-HMM deep neural network-Hidden Markov Model
  • Recurrent Neural Network is a kind of neural network with a directed loop to express the dynamic time characteristics of the network. It is widely used in handwriting recognition and language modeling. Speech signals are complex time-varying signals with complex correlations on different time scales. Therefore, compared with deep neural networks, cyclic neural networks have a loop-connecting function that is more suitable for processing such complex time series data.
  • the Long Short-Term Memory (LSTM) model is more suitable than the cyclic neural network to process and predict the event lag and the time is uncertain. sequence.
  • the deep LSTM-RNN acoustic model proposed by the University of Toronto with the addition of a memory block combines the multi-level representation capabilities of deep neural networks with the ability of cyclic neural networks to flexibly utilize long-span contexts, resulting in errors in phoneme recognition based on TIMIT libraries. The rate dropped to 17.1%.
  • the gradient descent method used in the cyclic neural network has the problem of vanishing gradient, that is, in the process of adjusting the weight of the network, as the number of network layers increases, the gradient dissipates layer by layer, causing the weight to be adjusted. The effect is getting smaller and smaller.
  • Google's proposed two-layer depth LSTM-RNN acoustic model adds a linear Recurrent Projection Layer to the previous depth LSTM-RNN model to solve the gradient dissipation problem.
  • the Deep Bidirectional Long Short-Term Memory Recurrent Neural Networks (DBLSTM-RNN) acoustic model proposed by the University of Kunststoff defines mutually independent forward layers and backs in each cyclic layer of the neural network. To the layer, and using multiple hidden layers to perform higher-level characterization of the acoustic features of the input, while supervised learning of noise and reverberation to achieve feature projection and enhancement. This method reduced the word error rate from 55% to 22% in the signal-to-noise ratio [-6dB, 9dB] over the 2013 PASCAL CHiME dataset.
  • the human brain has selective attention when dealing with the speech of complex scenes.
  • the main principle is that the human brain has the ability of auditory selective attention, and the top-down control mechanism in the auditory cortical area is used to suppress the non-target flow. And the purpose of enhancing the target stream.
  • the short-term plasticity (Short-Term Plasticity) effect of the auditory cortex increases the ability to distinguish sounds during selective attention.
  • the concentration is very concentrated, the sound target can be enhanced in the primary auditory cortex within 50 milliseconds.
  • the present invention aims to provide a method for constructing an acoustic model of a deep long-term and short-term memory cycle neural network based on the principle of selective attention, and establishes a deep long-term and short-term memory cycle nerve based on the principle of selective attention.
  • the network acoustic model is used to characterize the transient functional changes of auditory cortical neurons by adding attention gate elements to the deep long-term and long-term memory cycle neural network acoustic model.
  • the gate unit is different from other gate units in that other gate units and time series One-to-one correspondence, while attention to the door unit reflects the short-term plasticity effect, so there is a gap in the time series.
  • the above-mentioned neural network acoustic model obtained by training a large amount of speech data including Cross-talk noise can realize robust feature extraction and robust acoustic model construction for Cross-talk noise, and suppress feature extraction by non-target flow. The effect can be achieved to improve the robustness of the acoustic model.
  • a continuous speech recognition method based on the principle of selective attention includes the following steps:
  • the first step is to construct a deep long-term and short-term memory cycle neural network based on the principle of selective attention.
  • a long-term and short-term memory cycle neural network From input to hidden layer is defined as a long-term and short-term memory cycle neural network. Depth refers to the input of each long- and short-term memory cycle neural network as the input of the next long-term and short-term memory cycle neural network. This repetition, the last long-term and short-term memory cycle
  • the output of the neural network is the output of the entire system; in each long- and short-term memory-cycle neural network, the speech signal x t is the input at time t, x t-1 is the input at time t-1, and so on, the total length of time
  • the second step is to construct an acoustic model of deep long-term and short-term memory cycle neural network based on selective attention principle.
  • the deep-long-term memory-cycle neural network at other moments does not have a caution gate, that is, the depth is long based on the principle of selective attention.
  • the acoustic model of the short-term memory cycle neural network consists of a deep long-term memory cycle neural network with an interval of attention gates.
  • the present invention draws on the phenomenon that the human brain has selective attention when dealing with the speech of complex scenes to achieve the suppression of the non-target flow and the enhanced target flow, and increases the attention in the acoustic model of the deep long-term and short-term memory recurrent neural network.
  • the door unit is used to characterize the transient functional changes of the auditory cortical neurons.
  • the gate unit is different from other gate units in that the other gate units correspond to the time series one by one, while the attention gate unit exhibits a short-term plasticity effect, so at the time There is an interval in the sequence.
  • FIG. 1 is a flow chart of a deep long-term and short-term memory cycle neural network based on the selective attention principle of the present invention.
  • FIG. 2 is an acoustic model of a deep long-term memory neural network based on the selective attention principle of the present invention Flow chart.
  • the invention realizes continuous speech recognition by using the deep long-term and short-term memory cycle neural network acoustic model based on the selective attention principle.
  • the models and methods provided by the present invention are not limited to continuous speech recognition, and may be any method and apparatus related to speech recognition.
  • the invention mainly comprises the following steps:
  • the first step is to construct a deep long-term and short-term memory cycle neural network based on the principle of selective attention.
  • input 101 and input 102 are speech signal inputs x t and x t-1 ( t ⁇ [1, T], T is the total time length of the speech signal) at time t and time t-1 ;
  • the long-term and short-term memory cycle neural network is composed of a caution gate 103, an input gate 104, a forgetting gate 105, a memory cell 106, an output gate 107, a tanh function 108, a tanh function 109, a hidden layer 110, a multiplier 122, and a multiplier 123;
  • the long-term and short-term memory cycle neural network at time -1 consists of input gate 112, forgetting gate 113, memory cell 114, output gate 115, tanh function 116, tanh function 117, hidden layer 118, multiplier 120, and multiplier 121.
  • the hidden layer outputs at time t and t-1 are output 111 and output 119, respectively.
  • the input 102 is simultaneously input to the input gate 112, the forgetting gate 113, the output gate 115, and the tanh function 116.
  • the output of the input gate 112 and the output of the tanh function 116 are sent to the multiplier 120, and the computed output is used as the memory cell 114.
  • Input, the output of the memory cell 114 is input as the tanh function 117, the output of the tanh function 117 and the output of the output gate 115 are supplied to the multiplier 121, the computed output is the input of the hidden layer 118, and the output of the hidden layer 118 is the output. 119.
  • the input 101, the output of the memory cell 114, and the output of the multiplier 121 are collectively used as the input of the attention gate 103.
  • the output of the gate 103 and the output of the multiplier 121 are collectively used as the input of the tanh function 108, noting the output of the gate 103, the memory cell 114
  • the output and the output of the multiplier 121 are used as input to the input gate 104, the forgetting gate 105, and the output gate 107, respectively, and the output of the forgetting gate 105 and the output of the memory cell 114 are sent to the multiplier 124, the output of the input gate 104 and the tanh function.
  • the output of 108 is fed to multiplier 122, the output of multiplier 124 and the output of multiplier 122 are input to memory cell 106, memory
  • the output of the cell 106 is input to the tanh function 109, the output of the tanh function 109 and the output of the output gate 107 are supplied to the multiplier 123, the output of the multiplier 123 is input to the hidden layer 110, and the output of the hidden layer 110 is the output 111.
  • G atten_t sigmoid(W ax x t +W am m t-1 +W ac Cell t-1 +b a )
  • G input_t sigmoid(W ia G atten_t +W im m t-1 +W ic Cell t-1 +b i )
  • G forget_t sigmoid(W fa G atten_t + W fm m t-1 + W fc Cell t-1 +b f )
  • Cell t G forget_t ⁇ Cell t-1 +G input_t ⁇ tanh(W ca G atten_t +W cm m t-1 +b c )
  • G output_t sigmoid(W oa G atten_t +W om m t-1 +W oc Cell t-1 +b o )
  • G atten_t output Note gate 103 G input_t of time t output of the input gate 104, G forget_t forgotten as time t to time t, the output of gate 105, Cell t is output at time t memory cells 106, G output_t of time t
  • the output of the output gate 107, m t is the input of the hidden layer 110 at time t
  • y t is the output 111 at time t
  • x t is the input 101 at time t
  • m t-1 is the input of the hidden layer 118 at time t-1.
  • Cell t-1 is the output of memory cell 114 at time t-1;
  • W ax is the weight between gate a and time t input x at time t, and W am is t time attention to gate a and t-1 moment hidden layer input m
  • the weight between W ac is the weight between the gate a and the t-1 memory cell c at time t, and W ia is the weight between the gate i and the time t at the time t, and the time im is t.
  • W ic is the weight between the input gate i and the t-1 memory cell c at time t
  • W fa is the moment of forgetting the gate f and t at time t
  • the weight between the gates a, W fm is the weight between the forgotten gate f at t time and the hidden layer input m at time t-1
  • W fc is the weight between the forgetting gate f and the memory cell c at time t-1 at time t
  • W Ca is the weight between the memory cell c and the time t at the moment t
  • W cm is the weight between the memory cell c and the hidden layer input m at time t1
  • W oa is the output gate o and t at time t.
  • W om is the weight between the output gate o and the hidden layer input m at time t1
  • W oc is the output between the gate o and the t-1 memory cell c at time t.
  • Weight; b a is the deviation amount of the attention gate a, b i is the deviation amount of the input gate i, b f is the deviation amount of the forgetting gate f, b c is the deviation amount of the memory cell c, and b o is the deviation of the output gate o
  • b y is the deviation of the output y, and different b represents a different amount of deviation;
  • x k represents the input of the kth ⁇ [1,K] softmax functions, l ⁇ [1,K] is used for all Summation; ⁇ represents the multiplication of matrix elements.
  • the second step is to construct an acoustic model of deep long-term and short-term memory cycle neural network based on selective attention principle.
  • the principle of deep long-term memory cycle neural network acoustic model consists of a deep long-term memory cycle neural network with an interval of attention gates.
  • the acoustic model of deep long-term and short-term memory cycle neural network based on selective attention principle is established.
  • the deep long-term memory cycle neural network at time t has attention gate 201, deep long-term memory cycle neural network at time ts There is a pay attention to the gate 202, which circulates.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

一种基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法,通过在深度长短期记忆循环神经网络声学模型中增加注意门(103)单元,来表征听觉皮层神经元的瞬时功能改变,注意门(103)单元与其他门单元不同之处在于,其他门单元与时间序列一一对应,而注意门(103)单元体现的是短期可塑性效应,因此在时间序列上存在间隔;通过对包含Cross-talk噪声的大量语音数据进行训练获得的上述神经网络声学模型,可以实现对Cross-talk噪声的鲁棒特征提取和鲁棒声学模型的构建,通过抑制非目标流对特征提取的影响可以达到提高声学模型的鲁棒性的目的;该方法可广泛应用于涉及语音识别的说话人识别、关键词识别、人机交互等多种机器学习领域。

Description

基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 技术领域
本发明属于音频技术领域,特别涉及一种基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法。
背景技术
随着信息技术的迅速发展,语音识别技术已经具备大规模商业化的条件。目前语音识别主要采用基于统计模型的连续语音识别技术,其主要目标是通过给定的语音序列寻找其所代表的概率最大的词序列。基于统计模型的连续语音识别系统的任务是根据给定的语音序列寻找其所代表的概率最大的词序列,通常包括构建声学模型和语言模型及其对应的搜索解码方法。随着声学模型和语言模型的快速发展,语音识别系统的性能在理想声学环境下已经大为改善,现有的深度神经网络-隐马尔科夫模型(Deep Neural Network-Hidden Markov Model,DNN-HMM)初步成熟,通过机器学习的方法可以自动提取有效特征,并能对多帧语音对应的上下文信息建模,但是此类模型每一层都有百万量级的参数,且下一层的输入是上一次的输出,因此需要使用GPU设备来训练DNN声学模型,训练时间长;高度非线性以及参数共享的特性也使得DNN难以进行参数自适应。
循环神经网络(Recurrent Neural Network,RNN)是一种单元之间存在有向循环来表达网络内部动态时间特性的神经网络,在手写体识别和语言模型等方面得到广泛应用。语音信号是复杂的时变信号,在不同时间尺度上具有复杂的相关性,因此相比于深度神经网络而言,循环神经网络具有的循环连接功能更适合处理这类复杂时序数据。
作为循环神经网络的一种,长短期记忆(Long Short-Term Memory,LSTM)模型比循环神经网络更适合处理和预测事件滞后且时间不定的长时 序列。多伦多大学提出的增加了记忆模块(memory block)的深度LSTM-RNN声学模型则将深度神经网络的多层次表征能力与循环神经网络灵活利用长跨度上下文的能力结合,使得基于TIMIT库的音素识别错误率降至17.1%。
但是循环神经网络中使用的梯度下降法存在梯度消散(vanishing gradient)问题,也就是在对网络的权重进行调整的过程中,随着网络层数增加,梯度逐层消散,致使其对权重调整的作用越来越小。谷歌提出的两层深度LSTM-RNN声学模型,在以前的深度LSTM-RNN模型中增加了线性循环投影层(Recurrent Projection Layer),用于解决梯度消散问题。对比实验表明,RNN的帧正确率(Frame Accuracy)及其收敛速度明显逊于LSTM-RNN和DNN;在词错误率及其收敛速度方面,最好的DNN在训练数周后的词错误率为11.3%;而两层深度LSTM-RNN模型在训练48小时后词错误率降低至10.9%,训练100/200小时后,词错误率降低至10.7/10.5(%)。
慕尼黑大学提出的深度双向长短期记忆循环神经网络(Deep Bidirectional Long Short-Term Memory Recurrent Neural Networks,DBLSTM-RNN)声学模型,在神经网络的每个循环层中定义了相互独立的前向层和后向层,并使用多隐藏层对输入的声学特征进行更高层表征,同时对噪声和混响进行有监督学习实现特征投影和增强。此方法在2013 PASCAL CHiME数据集上,在信噪比[-6dB,9dB]范围内实现了词错误率从基线的55%降低到22%。
但实际声学环境的复杂性仍然严重影响和干扰连续语音识别系统的性能,即使利用目前主流的DNN声学模型方法,在包括噪声、音乐、口语、重复等复杂环境条件下的连续语音识别数据集上也只能获得70%左右的识别率,连续语音识别系统中声学模型的抗噪性和鲁棒性仍有待改进。
随着声学模型和语言模型的快速发展,语音识别系统的性能在理想声学环境下已经大为改善,现有的DNN-HMM模型初步成熟,通过机器学习的方法可以自动提取有效特征,并能对多帧语音对应的上下文信息建模。然而大多数识别系统对于声学环境的改变仍然十分敏感,特别是在cross-talk噪声 (两人或多人同时说话)干扰下不能满足实用性能的要求。与深度神经网络声学模型相比,循环神经网络声学模型中的单元之间存在有向循环,可以有效的描述神经网络内部的动态时间特性,更适合处理具有复杂时序的语音数据。而长短期记忆神经网络比循环神经网络更适合处理和预测事件滞后且时间不定的长时序列,因此用于构建语音识别的声学模型能够取得更好的效果。
人脑在处理复杂场景的语音时存在选择性注意的现象,其主要原理为:人脑具有听觉选择性注意的能力,在听觉皮层区域通过自上而下的控制机制,来实现抑制非目标流和增强目标流的目的。研究表明,在选择性注意的过程中,听觉皮层的短期可塑性(Short-Term Plasticity)效应增加了对声音的区分能力。在注意力非常集中时,在初级听觉皮层可以在50毫秒内开始对声音目标进行增强处理。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法,建立了基于选择性注意原理的深度长短期记忆循环神经网络声学模型,通过在深度长短期记忆循环神经网络声学模型中增加注意门单元,来表征听觉皮层神经元的瞬时功能改变,注意门单元与其他门单元不同之处在于,其他门单元与时间序列一一对应,而注意门单元体现的是短期可塑性效应,因此在时间序列上存在间隔。通过对包含Cross-talk噪声的大量语音数据进行训练获得的上述神经网络声学模型,可以实现对Cross-talk噪声的鲁棒特征提取和鲁棒声学模型的构建,通过抑制非目标流对特征提取的影响可以达到提高声学模型的鲁棒性的目的。
为了实现上述目的,本发明采用的技术方案是:
一种基于选择性注意原理的连续语音识别方法,包括如下步骤:
第一步,构建基于选择性注意原理的深度长短期记忆循环神经网络
从输入到隐藏层定义为一个长短期记忆循环神经网络,深度指的是每个长短期记忆循环神经网络的输出为下一个长短期记忆循环神经网络的输入, 如此重复,最后一个长短期记忆循环神经网络的输出作为整个系统的输出;在每一个长短期记忆循环神经网络中,语音信号xt为t时刻的输入,xt-1为t-1时刻的输入,以此类推,总时间长度上的输入为x=[x1,...,xT]其中t∈[1,T],T为语音信号的总时间长度;t时刻的长短期记忆循环神经网络由注意门、输入门、输出门、遗忘门、记忆细胞、tanh函数、隐藏层、乘法器组成,t-1时刻的长短期记忆循环神经网络由输入门、输出门、遗忘门、记忆细胞、tanh函数、隐藏层、乘法器组成;总时间长度上的隐藏层输出为y=[y1,...,yT];
第二步,构建基于选择性注意原理的深度长短期记忆循环神经网络声学模型
在第一步的基础上,每间隔s时刻对应的深度长短期记忆循环神经网络存在注意门,其他时刻的深度长短期记忆循环神经网络不存在注意门,即,基于选择性注意原理的深度长短期记忆循环神经网络声学模型由间隔存在注意门的深度长短期记忆循环神经网络组成。
如何在复杂环境干扰,特别是在cross-talk噪声干扰下进行识别,一直是语音识别的难点之一,阻碍了语音识别的大规模应用。与现有技术相比,本发明借鉴人脑在处理复杂场景的语音时存在选择性注意的现象来实现抑制非目标流和增强目标流,通过在深度长短期记忆递归神经网络声学模型中增加注意门单元,来表征听觉皮层神经元的瞬时功能改变,注意门单元与其他门单元不同之处在于,其他门单元与时间序列一一对应,而注意门单元体现的是短期可塑性效应,因此在时间序列上存在间隔。在一些包含Cross-talk噪声的连续语音识别数据集上采用这种方法,可以获得比深度神经网络方法更好的性能。
附图说明
图1是本发明的基于选择性注意原理的深度长短期记忆循环神经网络流程图。
图2是本发明的基于选择性注意原理的深度长短期记忆神经网络声学模 型流程图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
本发明利用基于选择性注意原理的深度长短期记忆循环神经网络声学模型,实现了连续语音识别。但本发明提供的模型及方法不局限于连续语音识别,也可以是任何与语音识别有关的方法和装置。
本发明主要包括如下步骤:
第一步,构建基于选择性注意原理的深度长短期记忆循环神经网络
如图1所示,输入101和输入102为t时刻和t-1时刻语音信号输入xt和xt-1(t∈[1,T],T为语音信号的总时间长度);t时刻的长短期记忆循环神经网络由注意门103、输入门104、遗忘门105、记忆细胞106、输出门107、tanh函数108、tanh函数109、隐藏层110、乘法器122以及乘法器123组成;t-1时刻的长短期记忆循环神经网络由输入门112、遗忘门113、记忆细胞114、输出门115、tanh函数116、tanh函数117、隐藏层118、乘法器120以及乘法器121组成。t时刻和t-1时刻隐藏层输出分别为输出111和输出119。
其中,输入102同时作为输入门112、遗忘门113、输出门115以及tanh函数116的输入,输入门112的输出与tanh函数116的输出送入乘法器120,运算后的输出作为记忆细胞114的输入,记忆细胞114的输出作为tanh函数117的输入,tanh函数117的输出和输出门115的输出送入乘法器121,运算后的输出作为隐藏层118的输入,隐藏层118的输出即为输出119。
输入101、记忆细胞114的输出以及乘法器121的输出共同作为注意门103的输入,注意门103的输出和乘法器121的输出共同作为tanh函数108的输入,注意门103的输出、记忆细胞114的输出和乘法器121的输出分别共同作为输入门104、遗忘门105以及输出门107的输入,遗忘门105的输出和记忆细胞114的输出送入乘法器124,输入门104的输出与tanh函数108的输出送入乘法器122,乘法器124的输出和乘法器122的输出作为记忆细胞106的输入,记忆 细胞106的输出作为tanh函数109的输入,tanh函数109的输出和输出门107的输出送入乘法器123,乘法器123的输出作为隐藏层110的输入,隐藏层110的输出即为输出111。
即:在t∈[1,T]时刻的参数按照如下公式计算:
Gatten_t=sigmoid(Waxxt+Wammt-1+WacCellt-1+ba)
Ginput_t=sigmoid(WiaGatten_t+Wimmt-1+WicCellt-1+bi)
Gforget_t=sigmoid(WfaGatten_t+Wfmmt-1+WfcCellt-1+bf)
Cellt=Gforget_t⊙Cellt-1+Ginput_t⊙tanh(WcaGatten_t+Wcmmt-1+bc)
Goutput_t=sigmoid(WoaGatten_t+Wommt-1+WocCellt-1+bo)
mt=Goutput_t⊙tanh(Cellt)
yt=softmaxk(Wymmt+by)
其中Gatten_t为t时刻注意门103的输出,Ginput_t为t时刻输入门104的输出,Gforget_t为t时刻遗忘门105的输出,Cellt为t时刻记忆细胞106的输出,Goutput_t为t时刻输出门107的输出,mt为t时刻隐藏层110的输入,yt为t时刻的输出111;xt为t时刻的输入101,mt-1为t-1时刻隐藏层118的输入,Cellt-1为t-1时刻记忆细胞114的输出;Wax为t时刻注意门a与t时刻输入x之间的权重,Wam为t时刻注意门a与t-1时刻隐藏层输入m之间的权重,Wac为t时刻注意门a与t-1时刻记忆细胞c之间的权重,Wia为t时刻输入门i与t时刻注意门a之间的权重,Wim为t时刻输入门i与t-1时刻隐藏层输入m之间的权重,Wic为t时刻输入门i与t-1时刻记忆细胞c之间的权重,Wfa为t时刻遗忘门f与t时刻注意门a之间的权重,Wfm为t时刻遗忘门f与t-1时刻隐藏层输入m之间的权重,Wfc为t时刻遗忘门f与t-1时刻记忆细胞c之间的权重,Wca为t时刻记忆细胞c与t时刻注意门a之间的权重,Wcm为t时刻记忆细胞c与t-1时刻隐藏层输入m之间的权重,Woa为t时刻输出门o与t时刻注意门a之间的权重,Wom为t时刻输出门o与t-1时刻隐藏层输入m之间的权重,Woc为t时刻输出门o与t-1时刻 记忆细胞c之间的权重;ba为注意门a的偏差量,bi为输入门i的偏差量,bf为遗忘门f的偏差量,bc为记忆细胞c的偏差量,bo为输出门o的偏差量,by为输出y的偏差量,不同的b代表不同的偏差量;且有
Figure PCTCN2015092381-appb-000001
Figure PCTCN2015092381-appb-000002
其中xk表示第k∈[1,K]个softmax函数的输入,l∈[1,K]用于对全部
Figure PCTCN2015092381-appb-000003
求和;⊙代表矩阵元素相乘。
第二步,构建基于选择性注意原理的深度长短期记忆循环神经网络声学模型
在第一步的基础上,每间隔s(s=5)时刻对应的深度长短期记忆循环神经网络存在注意门,其他时刻的深度长短期记忆循环神经网络不存在注意门,即,基于选择性注意原理的深度长短期记忆循环神经网络声学模型由间隔存在注意门的深度长短期记忆循环神经网络组成。如图2所示为所建立的基于选择性注意原理的深度长短期记忆循环神经网络声学模型,t时刻的深度长短期记忆循环神经网络存在注意门201,t-s时刻的深度长短期记忆循环神经网络存在注意门202,如此循环。

Claims (2)

  1. 一种基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法,包括如下步骤:
    第一步,构建基于选择性注意原理的深度长短期记忆循环神经网络
    从输入到隐藏层定义为一个长短期记忆循环神经网络,深度指的是每个长短期记忆循环神经网络的输出为下一个长短期记忆循环神经网络的输入,如此重复,最后一个长短期记忆循环神经网络的输出作为整个系统的输出;在每一个长短期记忆循环神经网络中,语音信号xt为t时刻的输入,xt-1为t-1时刻的输入,以此类推,总时间长度上的输入为x=[x1,...,xT]其中t∈[1,T],T为语音信号的总时间长度;t时刻的长短期记忆循环神经网络由注意门、输入门、输出门、遗忘门、记忆细胞、tanh函数、隐藏层、乘法器组成,t-1时刻的长短期记忆循环神经网络由输入门、输出门、遗忘门、记忆细胞、tanh函数、隐藏层、乘法器组成;总时间长度上的隐藏层输出为y=[y1,...,yT];
    在t∈[1,T]时刻的参数按照如下公式计算:
    Gatten_t=sigmoid(Waxxt+Wammt-1+WacCellt-1+ba)
    Ginput_t=sigmoid(WiaGatten_t+Wimmt-1+WicCellt-1+bi)
    Gforget_t=sigmoid(WfaGatten_t+Wfmmt-1+WfcCellt-1+bf)
    Cellt=Gforget_t⊙Cellt-1+Ginput_t⊙tanh(WcaGatten_t+Wcmmt-1+bc)
    Goutput_t=sigmoid(WoaGatten_t+Wommt-1+WocCellt-1+bo)
    mt=Goutput_t⊙tanh(Cellt)
    yt=softmaxk(Wymmt+by)
    其中Gatten_t为t时刻注意门的输出,Ginput_t为t时刻输入门的输出,Gforget_t为t时刻遗忘门的输出,Cellt为t时刻记忆细胞的输出,Goutput_t为t时刻输出门的输出,mt为t时刻隐藏层的输入,yt为t时刻的输出;xt为t时刻的输入,mt-1为t-1时刻隐藏层的输入,Cellt-1为t-1时刻记忆细胞的输出;Wax为t时刻注意门 a与t时刻输入x之间的权重,Wam为t时刻注意门a与t-1时刻隐藏层输入m之间的权重,Wac为t时刻注意门a与t-1时刻记忆细胞c之间的权重,Wia为t时刻输入门i与t时刻注意门a之间的权重,Wim为t时刻输入门i与t-1时刻隐藏层输入m之间的权重,Wic为t时刻输入门i与t-1时刻记忆细胞c之间的权重,Wfa为t时刻遗忘门f与t时刻注意门a之间的权重,Wfm为t时刻遗忘门f与t-1时刻隐藏层输入m之间的权重,Wfc为t时刻遗忘门f与t-1时刻记忆细胞c之间的权重,Wca为t时刻记忆细胞c与t时刻注意门a之间的权重,Wcm为t时刻记忆细胞c与t-1时刻隐藏层输入m之间的权重,Woa为t时刻输出门o与t时刻注意门a之间的权重,Wom为t时刻输出门o与t-1时刻隐藏层输入m之间的权重,Woc为t时刻输出门o与t-1时刻记忆细胞c之间的权重;ba为注意门a的偏差量,bi为输入门i的偏差量,bf为遗忘门f的偏差量,bc为记忆细胞c的偏差量,bo为输出门o的偏差量,by为输出y的偏差量,不同的b代表不同的偏差量;且有
    Figure PCTCN2015092381-appb-100001
    Figure PCTCN2015092381-appb-100002
    Figure PCTCN2015092381-appb-100003
    其中xk表示第k∈[1,K]个softmax函数的输入,l∈[1,K]用于对全部
    Figure PCTCN2015092381-appb-100004
    求和;⊙代表矩阵元素相乘;
    第二步,构建基于选择性注意原理的深度长短期记忆循环神经网络声学模型
    在第一步的基础上,每间隔s时刻对应的深度长短期记忆循环神经网络存在注意门,其他时刻的深度长短期记忆循环神经网络不存在注意门,即,基于选择性注意原理的深度长短期记忆循环神经网络声学模型由间隔存在注意门的深度长短期记忆循环神经网络组成。
  2. 根据权利要求1所述基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法,其特征在于,所述s=5。
PCT/CN2015/092381 2015-03-19 2015-10-21 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 WO2016145850A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510122982.6A CN104700828B (zh) 2015-03-19 2015-03-19 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法
CN201510122982.6 2015-03-19

Publications (1)

Publication Number Publication Date
WO2016145850A1 true WO2016145850A1 (zh) 2016-09-22

Family

ID=53347887

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2015/092381 WO2016145850A1 (zh) 2015-03-19 2015-10-21 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法

Country Status (2)

Country Link
CN (1) CN104700828B (zh)
WO (1) WO2016145850A1 (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543165A (zh) * 2018-11-21 2019-03-29 中国人民解放军战略支援部队信息工程大学 基于循环卷积注意力模型的文本生成方法及装置
CN110473554A (zh) * 2019-08-08 2019-11-19 Oppo广东移动通信有限公司 音频校验方法、装置、存储介质及电子设备
US10540962B1 (en) * 2016-02-26 2020-01-21 Google Llc Speech recognition with attention-based recurrent neural networks
CN111079906A (zh) * 2019-12-30 2020-04-28 燕山大学 基于长短时记忆网络的水泥成品比表面积预测方法及系统
CN111311009A (zh) * 2020-02-24 2020-06-19 广东工业大学 一种基于长短期记忆的行人轨迹预测方法
CN111314345A (zh) * 2020-02-19 2020-06-19 安徽大学 一种保护序列数据隐私方法、装置、计算机设备及存储介质
CN111429938A (zh) * 2020-03-06 2020-07-17 江苏大学 一种单通道语音分离方法、装置及电子设备
US10769522B2 (en) 2017-02-17 2020-09-08 Wipro Limited Method and system for determining classification of text
CN111709754A (zh) * 2020-06-12 2020-09-25 中国建设银行股份有限公司 一种用户行为特征提取方法、装置、设备及系统
CN111814849A (zh) * 2020-06-22 2020-10-23 浙江大学 一种基于da-rnn的风电机组关键组件故障预警方法
CN111930602A (zh) * 2020-08-13 2020-11-13 中国工商银行股份有限公司 性能指标预测方法及装置
CN111985610A (zh) * 2020-07-15 2020-11-24 中国石油大学(北京) 一种基于时序数据的抽油机井泵效预测系统和方法
CN112001482A (zh) * 2020-08-14 2020-11-27 佳都新太科技股份有限公司 振动预测及模型训练方法、装置、计算机设备和存储介质
CN112214852A (zh) * 2020-10-09 2021-01-12 电子科技大学 一种考虑衰退率的透平机械性能衰退预测方法
CN112382265A (zh) * 2020-10-21 2021-02-19 西安交通大学 基于深度循环神经网络的主动降噪方法、存储介质及系统
CN112434784A (zh) * 2020-10-22 2021-03-02 暨南大学 一种基于多层lstm的深度学生表现预测方法
US20210089916A1 (en) * 2016-02-03 2021-03-25 Google Llc Compressed recurrent neural network models
CN112784472A (zh) * 2021-01-27 2021-05-11 电子科技大学 循环神经网络模拟量子输运过程中的量子条件主方程的模拟方法
CN112906291A (zh) * 2021-01-25 2021-06-04 武汉纺织大学 一种基于神经网络的建模方法及装置
CN113792772A (zh) * 2021-09-01 2021-12-14 中国船舶重工集团公司第七一六研究所 一种用于数据分级混合存储的冷热数据识别方法
CN115563475A (zh) * 2022-10-25 2023-01-03 南京工业大学 一种挖掘机液压系统的压力软传感器
CN117849628A (zh) * 2024-03-08 2024-04-09 河南科技学院 基于时序变换记忆网络的锂离子电池健康状态估计方法
CN112001482B (zh) * 2020-08-14 2024-05-24 佳都科技集团股份有限公司 振动预测及模型训练方法、装置、计算机设备和存储介质

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104700828B (zh) * 2015-03-19 2018-01-12 清华大学 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法
CN105185374B (zh) * 2015-09-11 2017-03-29 百度在线网络技术(北京)有限公司 韵律层级标注方法和装置
KR102313028B1 (ko) * 2015-10-29 2021-10-13 삼성에스디에스 주식회사 음성 인식 시스템 및 방법
CN105354277B (zh) * 2015-10-30 2020-11-06 中国船舶重工集团公司第七0九研究所 一种基于递归神经网络的推荐方法及系统
KR102494139B1 (ko) * 2015-11-06 2023-01-31 삼성전자주식회사 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법
EP3371807B1 (en) * 2015-11-12 2023-01-04 Google LLC Generating target phoneme sequences from input speech sequences using partial conditioning
CN105513591B (zh) * 2015-12-21 2019-09-03 百度在线网络技术(北京)有限公司 用lstm循环神经网络模型进行语音识别的方法和装置
CN108780521B (zh) * 2016-02-04 2023-05-26 渊慧科技有限公司 关联长短期记忆神经网络层
US10373612B2 (en) * 2016-03-21 2019-08-06 Amazon Technologies, Inc. Anchored speech detection and speech recognition
CN108463848B (zh) * 2016-03-23 2019-12-20 谷歌有限责任公司 用于多声道语音识别的自适应音频增强
CN107293291B (zh) * 2016-03-30 2021-03-16 中国科学院声学研究所 一种基于自适应学习率的端到端的语音识别方法
CN105956469B (zh) * 2016-04-27 2019-04-26 百度在线网络技术(北京)有限公司 文件安全性识别方法和装置
CN106096729B (zh) * 2016-06-06 2018-11-20 天津科技大学 一种面向大规模环境中复杂任务的深度策略学习方法
US10839284B2 (en) * 2016-11-03 2020-11-17 Salesforce.Com, Inc. Joint many-task neural network model for multiple natural language processing (NLP) tasks
CN108062505B (zh) 2016-11-09 2022-03-18 微软技术许可有限责任公司 用于基于神经网络的动作检测的方法和设备
CN106650789B (zh) * 2016-11-16 2023-04-07 同济大学 一种基于深度lstm网络的图像描述生成方法
KR20180080446A (ko) * 2017-01-04 2018-07-12 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
US10241684B2 (en) * 2017-01-12 2019-03-26 Samsung Electronics Co., Ltd System and method for higher order long short-term memory (LSTM) network
CN107293288B (zh) * 2017-06-09 2020-04-21 清华大学 一种残差长短期记忆循环神经网络的声学模型建模方法
CN107492121B (zh) * 2017-07-03 2020-12-29 广州新节奏智能科技股份有限公司 一种单目深度视频的二维人体骨骼点定位方法
CN107484017B (zh) * 2017-07-25 2020-05-26 天津大学 基于注意力模型的有监督视频摘要生成方法
CN109460812B (zh) * 2017-09-06 2021-09-14 富士通株式会社 神经网络的中间信息分析装置、优化装置、特征可视化装置
CN107563122B (zh) * 2017-09-20 2020-05-19 长沙学院 基于交织时间序列局部连接循环神经网络的犯罪预测方法
CN107993636B (zh) * 2017-11-01 2021-12-31 天津大学 基于递归神经网络的乐谱建模与生成方法
CN109243493B (zh) * 2018-10-30 2022-09-16 南京工程学院 基于改进长短时记忆网络的婴儿哭声情感识别方法
CN109243494B (zh) * 2018-10-30 2022-10-11 南京工程学院 基于多重注意力机制长短时记忆网络的儿童情感识别方法
CN109614485B (zh) * 2018-11-19 2023-03-14 中山大学 一种基于语法结构的分层Attention的句子匹配方法及装置
CN109523995B (zh) * 2018-12-26 2019-07-09 出门问问信息科技有限公司 语音识别方法、语音识别装置、可读存储介质和电子设备
CN109866713A (zh) * 2019-03-21 2019-06-11 斑马网络技术有限公司 安全检测方法及装置、车辆
CN110135634B (zh) * 2019-04-29 2022-01-25 广东电网有限责任公司电网规划研究中心 中长期电力负荷预测装置
CN110085249B (zh) * 2019-05-09 2021-03-16 南京工程学院 基于注意力门控的循环神经网络的单通道语音增强方法
CN110473529B (zh) * 2019-09-09 2021-11-05 北京中科智极科技有限公司 一种基于自注意力机制的流式语音转写系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080172349A1 (en) * 2007-01-12 2008-07-17 Toyota Engineering & Manufacturing North America, Inc. Neural network controller with fixed long-term and adaptive short-term memory
CN102983819A (zh) * 2012-11-08 2013-03-20 南京航空航天大学 一种功率放大器的模拟方法及功率放大器模拟装置
CN103049792A (zh) * 2011-11-26 2013-04-17 微软公司 深层神经网络的辨别预训练
CN103680496A (zh) * 2013-12-19 2014-03-26 百度在线网络技术(北京)有限公司 基于深层神经网络的声学模型训练方法、主机和系统
CN104217226A (zh) * 2014-09-09 2014-12-17 天津大学 基于深度神经网络与条件随机场的对话行为识别方法
CN104700828A (zh) * 2015-03-19 2015-06-10 清华大学 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080172349A1 (en) * 2007-01-12 2008-07-17 Toyota Engineering & Manufacturing North America, Inc. Neural network controller with fixed long-term and adaptive short-term memory
CN103049792A (zh) * 2011-11-26 2013-04-17 微软公司 深层神经网络的辨别预训练
CN102983819A (zh) * 2012-11-08 2013-03-20 南京航空航天大学 一种功率放大器的模拟方法及功率放大器模拟装置
CN103680496A (zh) * 2013-12-19 2014-03-26 百度在线网络技术(北京)有限公司 基于深层神经网络的声学模型训练方法、主机和系统
CN104217226A (zh) * 2014-09-09 2014-12-17 天津大学 基于深度神经网络与条件随机场的对话行为识别方法
CN104700828A (zh) * 2015-03-19 2015-06-10 清华大学 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210089916A1 (en) * 2016-02-03 2021-03-25 Google Llc Compressed recurrent neural network models
US11948062B2 (en) * 2016-02-03 2024-04-02 Google Llc Compressed recurrent neural network models
US10540962B1 (en) * 2016-02-26 2020-01-21 Google Llc Speech recognition with attention-based recurrent neural networks
US11151985B2 (en) 2016-02-26 2021-10-19 Google Llc Speech recognition with attention-based recurrent neural networks
US10769522B2 (en) 2017-02-17 2020-09-08 Wipro Limited Method and system for determining classification of text
CN109543165A (zh) * 2018-11-21 2019-03-29 中国人民解放军战略支援部队信息工程大学 基于循环卷积注意力模型的文本生成方法及装置
CN110473554A (zh) * 2019-08-08 2019-11-19 Oppo广东移动通信有限公司 音频校验方法、装置、存储介质及电子设备
CN111079906A (zh) * 2019-12-30 2020-04-28 燕山大学 基于长短时记忆网络的水泥成品比表面积预测方法及系统
CN111079906B (zh) * 2019-12-30 2023-05-05 燕山大学 基于长短时记忆网络的水泥成品比表面积预测方法及系统
CN111314345A (zh) * 2020-02-19 2020-06-19 安徽大学 一种保护序列数据隐私方法、装置、计算机设备及存储介质
CN111314345B (zh) * 2020-02-19 2022-09-16 安徽大学 一种保护序列数据隐私方法、装置、计算机设备及存储介质
CN111311009B (zh) * 2020-02-24 2023-05-26 广东工业大学 一种基于长短期记忆的行人轨迹预测方法
CN111311009A (zh) * 2020-02-24 2020-06-19 广东工业大学 一种基于长短期记忆的行人轨迹预测方法
CN111429938A (zh) * 2020-03-06 2020-07-17 江苏大学 一种单通道语音分离方法、装置及电子设备
CN111709754B (zh) * 2020-06-12 2023-08-25 中国建设银行股份有限公司 一种用户行为特征提取方法、装置、设备及系统
CN111709754A (zh) * 2020-06-12 2020-09-25 中国建设银行股份有限公司 一种用户行为特征提取方法、装置、设备及系统
CN111814849A (zh) * 2020-06-22 2020-10-23 浙江大学 一种基于da-rnn的风电机组关键组件故障预警方法
CN111814849B (zh) * 2020-06-22 2024-02-06 浙江大学 一种基于da-rnn的风电机组关键组件故障预警方法
CN111985610B (zh) * 2020-07-15 2024-05-07 中国石油大学(北京) 一种基于时序数据的抽油机井泵效预测系统和方法
CN111985610A (zh) * 2020-07-15 2020-11-24 中国石油大学(北京) 一种基于时序数据的抽油机井泵效预测系统和方法
CN111930602A (zh) * 2020-08-13 2020-11-13 中国工商银行股份有限公司 性能指标预测方法及装置
CN111930602B (zh) * 2020-08-13 2023-09-22 中国工商银行股份有限公司 性能指标预测方法及装置
CN112001482A (zh) * 2020-08-14 2020-11-27 佳都新太科技股份有限公司 振动预测及模型训练方法、装置、计算机设备和存储介质
CN112001482B (zh) * 2020-08-14 2024-05-24 佳都科技集团股份有限公司 振动预测及模型训练方法、装置、计算机设备和存储介质
CN112214852B (zh) * 2020-10-09 2022-10-14 电子科技大学 一种考虑衰退率的透平机械性能衰退预测方法
CN112214852A (zh) * 2020-10-09 2021-01-12 电子科技大学 一种考虑衰退率的透平机械性能衰退预测方法
CN112382265A (zh) * 2020-10-21 2021-02-19 西安交通大学 基于深度循环神经网络的主动降噪方法、存储介质及系统
CN112382265B (zh) * 2020-10-21 2024-05-28 西安交通大学 基于深度循环神经网络的主动降噪方法、存储介质及系统
CN112434784A (zh) * 2020-10-22 2021-03-02 暨南大学 一种基于多层lstm的深度学生表现预测方法
CN112906291B (zh) * 2021-01-25 2023-05-19 武汉纺织大学 一种基于神经网络的建模方法及装置
CN112906291A (zh) * 2021-01-25 2021-06-04 武汉纺织大学 一种基于神经网络的建模方法及装置
CN112784472A (zh) * 2021-01-27 2021-05-11 电子科技大学 循环神经网络模拟量子输运过程中的量子条件主方程的模拟方法
CN113792772B (zh) * 2021-09-01 2023-11-03 中国船舶重工集团公司第七一六研究所 一种用于数据分级混合存储的冷热数据识别方法
CN113792772A (zh) * 2021-09-01 2021-12-14 中国船舶重工集团公司第七一六研究所 一种用于数据分级混合存储的冷热数据识别方法
CN115563475A (zh) * 2022-10-25 2023-01-03 南京工业大学 一种挖掘机液压系统的压力软传感器
CN117849628A (zh) * 2024-03-08 2024-04-09 河南科技学院 基于时序变换记忆网络的锂离子电池健康状态估计方法
CN117849628B (zh) * 2024-03-08 2024-05-10 河南科技学院 基于时序变换记忆网络的锂离子电池健康状态估计方法

Also Published As

Publication number Publication date
CN104700828B (zh) 2018-01-12
CN104700828A (zh) 2015-06-10

Similar Documents

Publication Publication Date Title
WO2016145850A1 (zh) 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法
Chang et al. Temporal modeling using dilated convolution and gating for voice-activity-detection
JP7337953B2 (ja) 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム
Peng et al. Efficient speech emotion recognition using multi-scale cnn and attention
Li et al. Neural network adaptive beamforming for robust multichannel speech recognition.
JP6993353B2 (ja) ニューラルネットワークベースの声紋情報抽出方法及び装置
Sainath et al. Convolutional, long short-term memory, fully connected deep neural networks
WO2016101688A1 (zh) 一种基于深度长短期记忆循环神经网络的连续语音识别方法
KR102622357B1 (ko) 종단 간 스트리밍 키워드 탐지
Rajamani et al. A novel attention-based gated recurrent unit and its efficacy in speech emotion recognition
US11205419B2 (en) Low energy deep-learning networks for generating auditory features for audio processing pipelines
Guo et al. Time-delayed bottleneck highway networks using a DFT feature for keyword spotting
JP7257593B2 (ja) 区別可能な言語音を生成するための音声合成のトレーニング
Agrawal et al. Modulation filter learning using deep variational networks for robust speech recognition
Mao et al. Deep Learning of Segment-Level Feature Representation with Multiple Instance Learning for Utterance-Level Speech Emotion Recognition.
CN109147774B (zh) 一种改进的延时神经网络声学模型
JP7143091B2 (ja) 音響モデルをトレーニングする方法及び装置
CN109308903B (zh) 语音模仿方法、终端设备及计算机可读存储介质
Dang et al. Deep learning for DCASE2017 challenge
Fan et al. Real-time single-channel speech enhancement based on causal attention mechanism
Han et al. Bird sound classification based on ECOC-SVM
Komatsu et al. Scene-dependent anomalous acoustic-event detection based on conditional Wavenet and I-vector
Huang et al. Multi-task learning deep neural networks for speech feature denoising.
Wang et al. Easyasr: A distributed machine learning platform for end-to-end automatic speech recognition
Wan Research on speech separation and recognition algorithm based on deep learning

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15885220

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15885220

Country of ref document: EP

Kind code of ref document: A1