WO2021043015A1

WO2021043015A1 - 语音识别方法及装置、神经网络训练方法及装置

Info

Publication number: WO2021043015A1
Application number: PCT/CN2020/110742
Authority: WO
Inventors: 王珺; 林永业; 苏丹; 俞栋
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2019-09-05
Filing date: 2020-08-24
Publication date: 2021-03-11
Also published as: JP2022531574A; EP3926623A4; CN110600018A; JP7337953B2; EP3926623A1; US20220004870A1; CN110600018B

Abstract

本申请提供一种语音识别方法及装置、神经网络训练方法及装置；涉及人工智能技术领域。该神经网络训练方法由电子设备执行，包括：获取样本数据，所述样本数据包括混合语音频谱及其标注音素；通过第一子网络从混合语音频谱中提取目标语音频谱；通过第二子网络对所述目标语音频谱进行适应性转换以得到中间过渡表征；通过第三子网络，基于所述中间过渡表征进行音素识别；根据所述音素识别的结果以及所述标注音素，对所述第一子网络、第二子网络以及第三子网络的参数进行更新。

Description

语音识别方法及装置、神经网络训练方法及装置

本申请要求于2019年9月5日提交中国专利局、申请号为201910838469.5、发明名称为“语音识别方法及装置、神经网络训练方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种实现语音识别的神经网络训练方法、实现语音识别的神经网络训练装置、语音识别方法、语音识别装置、电子设备以及计算机可读存储介质。

发明背景

随着科学技术的发展和硬件计算能力的大幅提升，目前越来越多的基于深度学习技术实现语音识别。

但声学场景中语音识别的实现往往受限于声学场景的变化性。举例而言，单声道语音信号受到非平稳噪声干扰的情形，如受背景音乐或多说话人干扰等，在实际应用场景中普遍存在。

尽管深度学习技术的引入为语音识别技术带来了巨大的性能改进，但传统的语音识别技术在这些复杂的环境中性能仍存在待优化之处。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本申请实施例的目的在于提供一种实现语音识别的神经网络训练方法、实现语音识别的神经网络训练装置、语音识别方法、语音识别装置、电子设备以及计算机可读存储介质，进而可以提升在复杂干扰声条件下的语音识别性能。

根据本申请的一个方面，提供一种实现语音识别的神经网络训练方法，由电子设备执行，其中，所述神经网络包括第一子网络，第二子网络和第三子网络，所述方法包括：

获取样本数据，所述样本数据包括混合语音频谱及其标注音素；

通过第一子网络从混合语音频谱中提取目标语音频谱；

通过第二子网络对所述目标语音频谱进行适应性转换以得到中间过渡表征；

通过第三子网络，基于所述中间过渡表征进行音素识别；

根据所述音素识别的结果以及所述标注音素，对所述第一子网络、第二子网络以及第三子网络的参数进行更新。

根据本申请的一个方面，提供一种基于神经网络的语音识别方法，由电子设备执行，其中，所述神经网络包括第一子网络，第二子网络和第三子网络，所述方法包括：

获取待识别的混合语音频谱；

通过第一子网络从混合语音频谱中提取目标语音频谱；

通过第三子网络，基于所述中间过渡表征进行音素识别。

根据本申请的一个方面，提供一种实现语音识别的神经网络训练装置，所述神经网络包括第一子网络，第二子网络和第三子网络，所述装置包括：

数据获取模块，用于获取样本数据，所述样本数据包括混合语音频谱及其标注音素；

目标语音提取模块，用于通过第一子网络从混合语音频谱中提取目标语音频谱；

适应性转换模块，用于通过第二子网络对所述目标语音频谱进行适应性转换以得到中间过渡表征；

语音识别模块，用于通过第三子网络，基于所述中间过渡表征进行音素识别；

参数更新模块，用于根据所述音素识别的结果以及所述标注音素，对所述第一子网络、第二子网络以及第三子网络的参数进行更新。

根据本申请的一个方面，提供一种基于神经网络的语音识别装置，其中，所述神经网络包括第一子网络，第二子网络和第三子网络，所述装置包括：

数据获取模块，用于获取待识别的混合语音频谱；

语音识别模块，用于通过第三子网络，基于所述中间过渡表征进行音素识别。

根据本申请的一个方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述神经网络训练方法或语音识别方法。

根据本申请的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述神经网络训练方法或语音识别方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图简要说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用本申请实施例的一种神经网络训练方法及装置的示例性系统架构的示意图；

图2示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图；

图3示意性示出了根据本申请的一个实施例的神经网络训练方法的流程图；

图4示意性示出了本申请的一个实施例中提取目标语音频谱的过程的流程图；

图5示意性示出了本申请的一个实施例中LSTM单元的信号流转图；

图6示意性示出了本申请的一个实施例中生成当前转换过程的隐含状态信息的流程图；

图7示意性示出了本申请的一个实施例中进行音素识别的过程的流程图；

图8示意性示出了根据本申请的一个实施例的语音识别方法的流程图；

图9示意性示出了根据本申请的一个实施例的自动语音识别系统的架构图；

图10A示意性示出了本申请的一个实施例中自动语音识别系统的识别效果参考图；

图10B示意性示出了本申请的一个实施例中自动语音识别系统的识别效果参考图；

图11示意性示出了根据本申请的一个实施例的神经网络训练装置的框图；

图12示意性示出了根据本申请的一个实施例的语音识别装置的框图。

实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本申请的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本申请的各方面变得模糊。

此外，附图仅为本申请的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图1示出了可以应用本申请实施例的一种实现语音识别的神经网络训练方法及装置、语音识别方法及装置的示例性应用环境的系统架构的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一个或多个，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以包括但不限于智能音箱、智能电视、智能电视盒子、台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

本申请实施例所提供的神经网络训练方法或语音识别方法可以由服务器105执行，相应的，神经网络训练方法或语音识别装置可以设置于服务器105中。本申请实施例所提供的神经网络训练方法或语音识别方法也可以由终端设备101、102、103执行，相应的，神经网络训练方法或语音识别装置也可以设置于终端设备101、102、103中。本申请实施例所提供的神经网络训练方法或语音识别方法还可以由终端设备101、102、103与服务器105共同执行，相应地，神经网络训练方法或语音识别装置可以设置于终端设备101、102、103与服务器105中，本示例性实施例中对此不做特殊限定。

举例而言，在一种示例性实施例中，可以是终端设备101、102、103在获取待识别的混合语音数据之后，对其进行编码并发送至服务器105；服务器105对接收到的混合语音数据进行解码，并提取其频谱特征，得到混合语音频谱；接着通过第一子网络从混合语音频谱中提取目标语音频谱，通过第二子网络对目标语音频谱进行适应性转换以得到中间过渡表征，通过第三子网络基于中间过渡表征进行音素识别；在完成识别之后，服务器105可以将识别结果返回至终端设备101、102、103。

图2示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。需要说明的是，图2示出的电子设备的计算机系统200仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图2所示，计算机系统200包括中央处理单元(CPU)201，其可以根据存储在只读存储器(ROM)202中的程序，或者从存储部分208加载到随机访问存储器(RAM)203中的程序，而执行各种适当的动作和处理，比如，下面描述的图3，图4，图6，图7和图8中描述的方法。在RAM 203中，还存储有系统操作所需的各种程序和数据。CPU 201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。

以下部件连接至I/O接口205：包括键盘、鼠标等的输入部分206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分207；包括硬盘等的存储部分208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器210上，以便于从其上读出的计算机程序根据需要被安装入存储部分208。

特别地，根据本申请的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，可以通过通信部分209从网络上下载和安装该计算机程序，和/或从可拆卸介质211安装该计算机程序。在该计算机程序被中央处理单元(CPU)201执行时，执行本申请的方法和装置中限定的各种功能。在一些实施例中，计算机系统200还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，语音处理技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

本申请中技术方案会涉及到上述语音处理技术。以下对本申请实施例的技术方案进行详细阐述：

对于混合语音的识别，通常包括语音分离阶段和音素识别阶段。一种相关技术中，提供了包括语音分离模型和音素识别模型的级联框架，从而允许对两个阶段分别独立的进行模块化研究。在这种模块化方法中，会在训练阶段对语音分离模型和音素识别模型分别进行训练。然而，语音分离模型在处理过程不可避免的会引入信号误差和信号失真，而这些信号误差和信号失真在音素识别模型的训练过程中是不曾考虑的，因此会导致这种级联框架的语音识别的性能急剧下降。

基于上述问题，发明人提供的一种解决思路中，是对语音分离模型和音素识别模型进行联合训练，从而可以在噪声鲁棒语音识别和多说话人语音识别任务中显著的减小识别错误率。举例而言：

在发明人提出的一种技术方案中，是提供一种独立框架，使语音分离阶段直接在梅尔滤波域中操作，从而与音素识别阶段在特征域上保持一致。但由于语音分离阶段一般不在梅尔滤波域中实现，因此该技术方案可能导致无法得到较优的语音分离结果；同时，语音分离算法在不断进步发展，而这种独立框架难以快速灵活地整合第三方算法。在发明人提出的另一种技术方案中，是提供一种联合框架，其中采用深度神经网络学习梅尔滤波逐帧仿射变换函数；但该方法难以有效的对复杂动态问题进行建模，进而难以处理复杂干扰声条件下的语音识别任务。

基于上述一个或多个问题，本示例实施方式提供了一种实现语音识别的神经网络训练方法。该神经网络训练方法可以应用于上述服务器105；也可以应用于上述终端设备101、102、103中的一个或多个。参考图3所示，该实现语音识别的神经网络训练方法可以包括以下步骤：

步骤S310.获取样本数据，所述样本数据包括混合语音频谱及其标注音素；

步骤S320.通过第一子网络从混合语音频谱中提取目标语音频谱；

步骤S330.通过第二子网络对所述目标语音频谱进行适应性转换以得到中间过渡表征；

步骤S340.通过第三子网络，基于所述中间过渡表征进行音素识别；

步骤S350.根据所述音素识别的结果以及所述标注音素，对所述第一子网络、第二子网络以及第三子网络的参数进行更新。

在本示例实施方式所提供的方法中，可以通过第二子网络对第一子网络提取的目标语音频谱进行适应性转换，得到可以输入第三子网络进行音素识别的中间过渡表征，从而可以完成对语音分离阶段和音素识别阶段的桥接，实现一种端到端的语音识别系统；在此基础上，对第一子网络、第二子网络和第三子网络进行联合训练，降低了语音分离阶段引入的信号误差和信号失真对音素识别阶段的性能影响；因此，在本示例实施方式所提供的方法可以提升在复杂干扰声条件下的语音识别性能，提升用户体验；同时，本示例实施方式中的第一子网络和第三子网络可以方便的整合第三方算法，具有更高灵活性。

下面，在另一实施例中，对上述步骤进行更加详细的说明。

在步骤S310中，获取样本数据，所述样本数据包括混合语音频谱及其标注音素。

本示例实施方式中，可以首先获取多组样本数据，每组样本数据可以包括混合语音以及对于混合语音的标注音素。混合语音可以为受到非平稳噪声干扰的语音信号，例如受背景音乐或多说话人干扰等，从而会出现不同音源的语音混叠的情况，进而导致接收到的语音为混合语音；混合语音的标注音素即表示该混合语音具体包括哪些音素；音素标注方式可以是人工标注，也可以是采用历史识别结果作为标注音素；本示例性实施例中对此不做特殊限定。此外，每组样本数据还可以包括该混合语音对应的参考语音。其中，所述参考语音例如可以是当说话人在安静环境下或者平稳噪声干扰环境下说话时，接收到的单声道语音信号；当然，也可以通过如聚类等其他方法预先从混合语音中提取得到参考语音。

在获取混合语音和参考语音之后，可以按照一定的帧长以及帧移对混合语音和参考语音进行分帧处理，得到混合语音在各帧的语音数据以及参考语音在各帧的语音数据。接着，可以提取混合语音数据以及参考语音的频谱特征。举例而言，本示例实施方式中，可以基于短时傅立叶变换(Short Time Fourier Transform，STFT)或者其他方式提取混合语音数据的频谱特征以及参考语音数据的频谱特征。

例如，本示例实施方式中可以将第n帧的混合语音数据表示为x(n)，混合语音数据x(n)可以认为是目标语音数据

和干扰语音数据s _I(n)的线性叠加，即

参考语音数据可以表示为s _s(n)。对于混合语音数据x(n)和参考语音数据s _s(n)进行短时傅里叶变换后，对短时傅里叶变换的结果取对数，即可得到混合语音数据和参考语音数据的频谱特征；例如，可以将混合语音数据对应的混合语音频谱表示为T×F维向量x，将参考语音数据对应的参考语音频谱表示为T×F维向量s _s；其中，T是总帧数，F是每帧的频带个数。

在步骤S320中，通过第一子网络从混合语音频谱中提取目标语音频谱。

本示例实施方式中，将以采用基于理想比率掩模(Ideal Ratio Mask，IRM)的方法提取目标语音频谱为例进行说明；但本示例性实施例中并不以此为限，在本申请的其他示例性实施例中，也可以采用其他方法提取目标语音频谱。参考图4所示，本示例实施方式中，可以通过下述步骤S410至步骤S440提取目标语音频谱。其中：

在步骤S410中，将所述混合语音频谱嵌入到多维向量空间，得到所述混合语音频谱每个时频窗口对应的嵌入向量。

举例而言，本示例实施方式中，可以通过深度神经网络模型将所述混合语音频谱嵌入到K维向量空间。例如，上述深度神经网络可以由多层双向长短时记忆网络(BiLSTM，Bi-Long Short-Term Memory)构成，如包括4层窥孔连接(peephole connection)的双向长短时记忆网络，每层双向长短时记忆网络可有600个隐节点等。当然，上述深度神经网络也可以替换为各种其它有效的网络模型；例如，卷积神经网络(CNN，Convolutional Neural Network)和其它网络结构相结合得到的模型，或者如时延网络、闸控卷积神经网络等其它模型；本申请中不限定深度神经网络的模型类型和拓扑结构。

以双向长短时记忆网络为例，其可以将混合语音频谱从向量空间

映射到更高维的向量空间

具体而言，得到的混合语音频谱的嵌入矩阵V如下：

其中Θ _extract表示双向长短时记忆网络

的网络参数；各时频窗口对应的嵌入向量为V _f，t；其中，t∈[1，T]，f∈[1，F]。

在步骤S420中，利用理想比率掩模对所述混合语音的各嵌入向量进行加权规整，得到与所述目标语音频谱对应的吸引子。

举例而言，本示例实施方式中，可以通过|s _s|/|x|计算理想比率掩模m _s；然后可以利用理想比率掩模m _s对所述混合语音的各嵌入向量进行加权规整，得到与所述目标语音频谱对应的吸引子a _s；其中，吸引子

此外，为了去除低能量频谱窗口噪声以得到有效帧，本示例实施方式中，还可以设置有监督标注w，其中有监督标注

通过有监督标注w，能够将语音频谱各帧的频谱分别与一频谱阈值比较，如果语音频谱某帧的频谱幅度小于频谱阈值，则该帧频谱的有监督标注取0；否则，取1。以频谱阈值为max(c)/100为例，有监督标注w可以如下所示：

相应的，与所述目标语音频谱对应的吸引子a _s可以如下所示：

其中，⊙表示矩阵的元素乘法。

在步骤S430中，通过计算所述混合语音的各嵌入向量与吸引子之间的相似度，得到与所述目标语音频谱对应的目标掩蔽矩阵。

举例而言，本示例实施方式中，可以计算所述混合语音的各嵌入向量与吸引子之间距离，并将各距离取值映射到[0,1]范围，从而表征各嵌入向量与吸引子之间的相似度。例如，可以通过下式计算所述混合语音的各嵌入向量V _f，t与吸引子a _s之间的相似度，得到与所述目标语音频谱对应的目标掩蔽矩阵

Sigmoid为S型函数，可以将变量映射到[0,1]范围，从而便于后续目标语音频谱的提取。此外，在本申请的其他示例性实施例中，也可以基于如tanh函数或者其他方式计算所述混合语音的各嵌入向量与吸引子之间的相似度，并得到与所述目标语音频谱对应的目标掩蔽矩阵，这同样属于本申请的保护范围。

在步骤S440中，基于所述目标掩蔽矩阵，从所述混合语音频谱中提取所述目标语音频谱。

本示例实施方式中，可以利用目标掩蔽矩阵

对上述混合语音频谱x进行加权，即可逐时频窗口提取上述混合语音频谱中的目标语音频谱；对于某时频窗口的混合语音频谱x _f，t而言，目标掩蔽矩阵越大，相应该时频窗口的频谱信息也将被提取得越多。举例而言，可以通过下式提取得到所述目标语音频谱

此外，本示例实施方式中，还可以获取在对各组所述样本数据进行训练时计算得到的上述吸引子，并计算各所述吸引子的均值，得到全局吸引子，从而便于在测试阶段，用以提取目标语音频谱。

在步骤S330中，通过第二子网络对所述目标语音频谱进行适应性转换以得到中间过渡表征。

本示例实施方式中，第二子网络用于桥接上述第一子网络和下述第三子网络；其输入为第一子网络提取的目标语音频谱(下文将记为S，S＝{S ₁，S ₂，...，S _T})，其输出的中间过渡表征的最终训练目标是最小化第三子网络的识别损失。基于此，本示例实施方式中，可以根据所述目标语音频谱的时频窗口顺序，对各时频窗口的目标语音频谱依次进行适应性转换；其中，针对一所述时频窗口的转换过程可以包括：根据当前转换过程针对的时频窗口的目标语音频谱和前一转换过程的隐含状态信息，生成当前转换过程的隐含状态信息；以及基于各所述隐含状态信息，得到当前转换过程针对的时频窗口的所述中间过渡表征。下面以基于LSTM(Long Short-Term Memory，长短时记忆)网络为例，对上述转换过程进行详细说明。

参考图5，LSTM网络为一个处理单元(以下简称LSTM单元)，LSTM单元通常包括遗忘门、输入门以及输出门；本示例实施方式中，可以通过一个LSTM单元执行一个上述转换过程。参考图6所示，图6为一个LSTM单元生成当前转换过程的隐含状态信息的过程，其可以包括下述步骤S610至步骤S650。其中：

在步骤S610中，根据当前时频窗口的目标语音频谱以及上一转换过程的隐含状态信息，计算候选状态信息、所述候选状态信息的输入权重、上一转换过程目标状态信息的遗忘权重和当前转换过程目标状态信息的输出权重。具体而言：

遗忘门用于决定从上一转换过程的目标状态信息中丢弃多少信息，所以遗忘权重用于表示上一转换过程的目标状态信息不被遗忘的(即能够保留的)权重；遗忘权重实质上可以为权重矩阵。示例性的，可以通过用于表征遗忘门的激活函数，对当前时频窗口的目标语音频谱以及上一转换过程的隐含状态信息进行编码，映射到0到1之间的数值，得到上一转换过程目标状态信息的遗忘权重。其中，0表示完全舍弃，1表示完全保留。例如，可以按照以下公式计算得到上一转换过程目标状态信息的遗忘权重f _t：

f _t＝σ(W _f·[h _t-1，S _t]+b _f)

其中，h _t-1表示上一转换过程的隐含状态信息，S _t表示当前时频窗口的目标语音频谱，σ表示激活函数Sigmod函数，W _f和b _f表示遗忘门中Sigmod函数的参数，[h _t-1，S _t]表示将h _t-1和S _t进行组合。

输入门用于决定当前输入的目标语音频谱中，有多少信息是重要且需要保留下来的。示例性的，可以通过用于表征输入门的激活函数，对当前时频窗口的目标语音频谱以及上一转换过程的隐含状态信息进行编码，得到候选状态信息以及所述候选状态信息的输入权重；其中，所述候选状态信息的输入权重用于决定候选状态信息中有多少新的信息可以加入到目标状态信息中。

例如，可以按照以下公式计算得到候选状态信息

其中，tanh表示激活函数为正曲双切函数，W _c和b _c表示输入门中tanh函数的参数。

并可以按照以下公式计算得到候选状态信息的输入权重i _t：

i _t＝σ(W _i·[h _t-1，S _t]+b _i)

其中，σ表示激活函数Sigmod函数，W _i和b _i表示输入门中Sigmod函数的参数。

输出门用于确定输出至下一个LSTM单元的隐含状态信息中应该包含哪些信息。示例性的，可以通过用于表征输出门的激活函数，对当前时频窗口的目标语音频谱以及上一转换过程的隐含状态信息进行编码，得到当前转换过程目标状态信息的输出权重。例如，可以按照以下公式计算得到候选状态信息o _t：

o _t＝σ(W _o·[h _t-1，S _t]+b _o)

其中，σ表示激活函数Sigmod函数，W _o和b _o表示输出门中Sigmod函数的参数。

在步骤S620中，根据所述遗忘权重对所述上一转换过程目标状态信息进行保留，得到第一中间状态信息。举例而言，得到的第一中间状态信息可以为

其中，C _t-1表示上一转换过程目标状态信息。

在步骤S630中，根据所述候选状态信息的输入权重对所述候选状态信息进行保留，得到第二中间状态信息。举例而言，得到的第二中间状态信息可以为

在步骤S640中，根据所述第一中间状态信息和第二中间状态信息，得到所述当前转换过程目标状态信息。举例而言，当前转换过程目标状态信息

在步骤S650中，根据所述当前转换过程目标状态信息的输出权重对所述当前转换过程目标状态信息进行保留，得到当前转换过程的隐含状态信息。举例而言，当前转换过程的隐含状态信息

进一步的，在上述适应性转换中，是对各时频窗口的目标语音频谱顺序进行适应性转换得到隐含状态信息h _t，即通过前向LSTM进行的适应性转换。本示例实施方式中，还可以通过双向长短时记忆(BiLSTM)网络进行适应性转换；更进一步的，在其他示例性实施例中，还可以使用窥孔连接的多层双向长短期记忆网络进行适应性转换，从而进一步的提升适应性转换的准确性。举例而言，可以在上述适应性转换过程的基础上，对各时频窗口的目标语音频谱逆序进行适应性转换得到隐含状态信息

然后将隐含状态信息h _t和隐含状态信息

进行拼接得到BiLSTM网络的输出，即隐含状态信息H _t，从而可以通过隐含状态信息H _t更好的表征双向时序依赖特征。

为了使隐含状态信息H _t能够更好的适配后续第三子网络，本示例实施方式中，还可以对所述各隐含状态信息进行以下一种或多种处理，得到当前转换过程针对的时频窗口的所述中间过渡表征。举例而言：

在fbank特征的标准计算过程中，会将输入的频谱进行平方运算，因此得到的fbank特征必然是非负的。为了匹配fbank特征的非负性，本示例实施方式中，可以对BiLSTM网络的输出进行平方处理，从而实现非负映射。此外，在本申请的其他示例性实施例中，也可以通过如ReLU(Rectified Linear Unit，线性整流函数)等其他方式实现非负映射，本示例性实施例中对此不做特殊限定。例如，非负映射结果可以如下式：

其中D表示中间过渡表征的维度，Θ _adapt表示双向长短时记忆网络

的网络参数。

在进行非负映射处理之后，还可以对

进行一系列的可微分运算，例如逐元素求对数、计算一阶差分、计算二阶差分等；此外，还可以执行全局均值方差归一化以及添加前后时频窗口的特征。例如，对于当前时频窗口，可以将当前时频窗口的特征、当前时频窗口之前W个时频窗口的特征以及当前时频窗口之后W 个时频窗口的特征，即共计2W+1个时频窗口的特征进行拼接，得到当前时频窗口的中间过渡表征；经过上述处理之后得到中间过渡表征

需要说明的是，在本申请的其他示例性实施例中，也可以从上述处理过程中选择部分处理过程执行，还可以选择其他方式进行处理，这些同样属于本申请的保护范围。

在步骤S340中，通过第三子网络，基于所述中间过渡表征进行音素识别。

本示例实施方式中，可以将上述第二子网络输出的中间过渡表征f输入至第三子网络，获得所述中间过渡表征包括的音素的后验概率y _t。举例而言，所述第三子网络可以是基于最优中心损失(Center-Loss-optimal)的卷积长短期记忆深度神经网络(Convolutional Long-Short-Term-Memory Deep-Neural-Network，CLDNN)，在下文可以将其表示为CL_CLDNN网络。中间过渡表征f输入至CL_CLDNN网络之后，可以进行如下式所示的运算：

y _t＝Softmax(Wu _t+b)

其中，u _t是CL_CLDNN网络倒数第二层(如下文所述的多个全连接层中的倒数第二层等)第t帧的输出；Softmax(z)＝e ^z/||e ^z|| ₁，可以用于计算音素的后验概率；Θ _recog＝{Γ，W，b}表示CL_CLDNN网络的参数。

下面，对CL_CLDNN网络的具体处理过程加以说明。参考图7所示，第三子网络可以通过下述步骤S710至步骤S730基于所述中间过渡表征进行音素识别。其中：

在步骤S710中，通过至少一个卷积层将多维滤波器应用于所述中间过渡表征，生成卷积层输出，从而可以降低谱差异性。例如，本示例实施方式中，可以包括两层卷积层，每层卷积层可以包括256个特征图；第一层卷积层可以采用9×9时域-频域滤波器，第二层可以采用4×3时域-频域滤波器。此外，由于最后一层卷积层的输出维度可能会很大，本示例实施方式中还可以在最后一层卷积层之后接一个线性层来进行降维。

在步骤S720中，在至少一个递归层中使用所述卷积层输出以生成递归层输出，从而实现时序特征建模。例如，本示例实施方式中，所述递归层可以包括多层长短期记忆网络；如可以在上述线性层之后接两层长短期记忆网络，每个长短期记忆网络可以采用832个处理单元、512维映射层来降维。在本申请的其他示例性实施例中，所述递归层也可以包括如GRU(Gated Recurrent Unit，门控循环单元)网络或者其他RNN(Recurrent Neural Networks，循环神经网络)结构，本示例性实施例中对此不做特殊限定。

在步骤S730中，将所述递归层输出提供至至少一个全连接层，并对所述全连接层的输出应用非线性函数，以获得所述中间过渡表征包括的音素的后验概率。本示例实施方式中，所述全连接层例如可以为两层DNN(Deep Neural Network，深度神经网络)结构；每层DNN结构可以包括1024个神经元，通过DNN结构可以将特征空间映射到更容易分类的输出层。输出层可以采用如上述Softmax函数或者tanh函数等非线性函数进行分类，从而获得所述中间过渡表征包括的音素的后验概率。

在步骤S350中，根据所述音素识别的结果以及所述标注音素，对所述第一子网络、第二子网络以及第三子网络的参数进行更新。

举例而言，本示例实施方式中，可以首先确定所述第一子网络、第二子网络以及第三子网络的联合损失函数。例如，本示例实施方式中可以基于上述中心损失(Center-Loss-optimal)和交叉熵损失作为联合损失函数；当然，在本申请的其他示例性实施例中，也可以采用其他损失作为联合损失函数，本示例性实施例中并不以此为限。

在确定联合损失函数之后，可以将所述音素识别的结果以及所述标注音素输入所述联合损失函数，计算得到联合损失函数值。在得到联合损失函数值之后，则可以根据所述联合损失函数值，对所述第一子网络、第二子网络以及第三子网络的参数进行更新。例如，可以以最小化联合损失函数值为训练目标，采用如随机梯度下降(Stochastic Gradient Descent，SGD)以及反向传播(Back Propagation，BP)等方法对第一子网络、第二子网络以及第三子网络的参数进行更新，直至收敛，如训练迭代次数达到最大次数或者联合损失函数值不再减小等。

本示例实施方式还提供了一种基于神经网络的语音识别方法，该神经网络可以通过上述示例性实施例中的训练方法训练得到。该语音识别方法可以应用于上述终端设备101、102、103中的一个或多个；也可以应用于上述服务器105。参考图8所示，该语音识别方法可以包括下述步骤S810至步骤S840。其中：

在步骤S810中，获取待识别的混合语音频谱。

本示例实施方式中，混合语音可以为受到非平稳噪声干扰的语音信号，例如受背景音乐或多说话人干扰等，从而会出现不同音源的语音混叠的情况，进而导致接收到的语音为混合语音。在获取混合语音之后，可以按照一定的帧长以及帧移对混合语音进行分帧处理，得到混合语音在各帧的语音数据。接着，可以提取混合语音数据的频谱特征。举例而言，本示例实施方式中，可以基于短时傅立叶变换(Short Time Fourier Transform，STFT)或者其他方式提取混合语音数据的频谱特征。

和干扰语音数据s _I(n)的线性叠加，即

对于混合语音数据x(n)进行短时傅里叶变换后，对短时傅里叶变换的结果取对数，即可得到混合语音数据频谱特征；例如，可以将混合语音数据对应的混合语音频谱表示为T×F维向量x；其中，T是总帧数，F是每帧的频带个数。

在步骤S820中，通过第一子网络从混合语音频谱中提取目标语音频谱。

本示例实施方式中，将以采用基于理想比率掩模(Ideal Ratio Mask，IRM)的方法提取目标语音频谱为例进行说明；但本示例性实施例中并不以此为限，在本申请的其他示例性实施例中，也可以采用其他方法提取目标语音频谱。举例而言：

首先，将所述混合语音频谱嵌入到多维向量空间，得到所述混合语音频谱每个时频窗口对应的嵌入向量。以双向长短时记忆网络为例，其可以将混合语音频谱从向量空间

映射到更高维的向量空间

具体而言，得到的混合语音频谱的嵌入矩阵V如下：

其中Θ _extract表示双向长短时记忆网络

接着，获取上述训练过程中步骤S320得到的全局吸引子

并通过计算所述混合语音的各嵌入向量与全局吸引子之间的相似度，得到与所述目标语音频谱对应的目标掩蔽矩阵。例如，可以通过下式计算所述混合语音的各嵌入向量V _f，t与全局吸引子

之间的相似度，得到与所述目标语音频谱对应的目标掩蔽矩阵

然后，基于所述目标掩蔽矩阵，从所述混合语音频谱中提取所述目标语音频谱。例如，可以通过下式提取得到所述目标语音频谱

在步骤S830中，通过第二子网络对所述目标语音频谱进行适应性转换以得到中间过渡表征。

本示例实施方式中，可以根据所述目标语音频谱的时频窗口顺序，对各时频窗口的目标语音频谱依次进行适应性转换；并且，针对一所述时频窗口的转换过程可以包括：根据当前转换过程针对的时频窗口的目标语音频谱和前一转换过程的隐含状态信息，生成当前转换过程的隐含状态信息；以及基于各所述隐含状态信息，得到当前转换过程针对的时频窗口的所述中间过渡表征。例如，本示例实施方式中，可以通过双向长短时记忆(BiLSTM)网络的各LSTM单元执行上述各个转换过程。

为了匹配fbank特征的非负性，本示例实施方式中，还可以对BiLSTM网络的输出进行平方处理，从而实现非负映射。例如，非负映射结果可以如下式：

的网络参数。

在进行非负映射处理之后，还可以对

进行一系列的可微分运算，例如逐元素求对数、计算一阶差分、计算二阶差分等；此外，还可以执行全局均值方差归一化以及添加前后时频窗口的特征。例如，对于当前时频窗口，可以将当前时频窗口的特征、当前时频窗口之前W个时频窗口的特征以及当前时频窗口之后W个时频窗口的特征，即共计2W+1个时频窗口的特征进行拼接，得到当前时频窗口的中间过渡表征；经过上述处理之后得到中间过渡表征

在步骤S840中，通过第三子网络，基于所述中间过渡表征进行音素识别。

本示例实施方式中，可以将上述第二子网络输出的中间过渡表征f输入至第三子网络，获得所述中间过渡表征包括的音素的后验概率y _t。举例而言，所述第三子网络可以是CL_CLDNN网络。中间过渡表征f输入至CL_CLDNN网络之后，可以进行如下式所示的运算：

y _t＝Softmax(Wu _t+b)

其中，u _t是CL_CLDNN网络倒数第二层(如下文所述的多个全连接层中的倒数第二层等)第t帧输出；Softmax(z)＝e ^z/||e ^z|| ₁，可以用于计算音素的后验概率；Θ _recog＝{Γ，W，b}表示CL_CLDNN网络的参数。

下面，以描述自动语音识别系统的实现为例，结合上述方法实现进行阐述。参考图9所示，自动语音识别系统可以包括第一子网络910、第二子网络920和第三子网络930。其中：

第一子网络910可以从混合语音频谱中提取目标语音频谱。参考图9所示，第一子网络可以包括窥孔连接的多层(如四层)BiLSTM网络，每层BiLSTM网络可以包括600个隐节点；同时，在最后一层BiLSTM网络之后可以接一个全连接层，用于将600维的隐含状态信息映射为24000维嵌入向量。混合语音频谱例如可以是采样率为16000Hz，分帧帧长为25ms、帧移为10ms的512维的短时傅立叶变换频谱特征。将混合语音频谱输入第一子网络910之后，即可以通过BiLSTM网络将其映射为嵌入向量；然后，可以计算嵌入向量与吸引子之间的相似度，得到目标掩蔽矩阵；进而，可以基于目标掩蔽矩阵，从混合语音频谱中提取目标语音频谱S。在训练阶段，还可以向第一子网络910输入参考语音频谱，从而可以根据参考语音频谱计算理想比率掩模，进而可以根据理想比率掩模对混合语音的各嵌入向量进行加权规整，得到所述吸引子。

第二子网络920可以用于对所述目标语音频谱进行适应性转换以得到中间过渡表征。参考图9所示，第二子网络920可以包括窥孔连接的多层(如两层)BiLSTM网络，每层BiLSTM网络可以包括600个隐节点。将第一子网络输出的目标语音频谱S输入BiLSTM网络之后，可以得到BiLSTM网络输出的隐含状态信息H，H＝{H ₁，H ₁，...，H _T}。接着，可以对隐含状态信息H进行非负映射、逐元素求对数、计算一阶差分、计算二阶差分、执行全局均值方差归一化以及添加前后时频窗口的特征等预设处理，得到中间过渡表征f。本示例实施方式中，中间过渡表征f例如可以为40维的fbank特征向量。

第三子网络930可以用于基于所述中间过渡表征进行音素识别。参考图9所示，第三子网络920可以包括CL_CLDNN网络。将中间过渡表征f输入至第三子网络之后，可以得到中间过渡表征包括的音素的后验概率y _t；以中文普通话为例，可以输出大约在1.2万个类别的音素上的后验概率。

在具体训练时，可以将样本数据的批量大小设置为24，将最初的学习速率α设置为10 ^-4，将学习速率的衰退系数设置为0.8，将收敛判断条件设置为综合损失函数值连续3次迭代(epoch)均没有改善，将嵌入向量的维度K设置为40，将梅尔滤波频带个数D设置为40，将添加前后时频窗口的特征时的时频窗口数量W设置为5，将中心损失的权重λ设置为0.01。此外，CL_CLDNN网络中的卷积层和LSTM网络的输出可以均进行批量归一化，以实现更快的收敛和更好的泛化。

参考图10A和图10B所示，是上述自动语音识别系统的语音识别效果参考图。图10A中为受背景音乐干扰的语音识别任务，图10B中为受其他说话人干扰的语音识别任务。在图10A和图10B中，纵轴通过相对单词错误率下降(Relative Word Error Rate Reduction,WERR)来表征识别效果，横轴表示不同分贝dB(分贝)的信噪比干扰测试条件，共五种信噪比：0dB、5dB、10dB、15dB和20dB。

在图10A和图10B中，线条P1和线条P4表示本示例实施方式中自动语音识别系统和基线系统对比得到的WERR；线条P2和线条P5表示现有先进自动语音识别系统(如采用DNN学习梅尔滤波逐帧仿射变换函数的鲁棒语音识别联合训练架构)和基线系统对比得到的WERR；线条P3表示本示例实施方式中自动语音识别系统结合目标说话人跟踪处理后，和基线系统对比得到的WERR。

其中，上述现有先进自动语音识别系统与本示例实施方式中自动语音识别系统在参数复杂度上相当；但从图10A和图10B可以看出，本示例实施方式中自动语音识别系统的WERR在两种识别任务下，均明显优于现有先进自动语音识别系统；这表明了本示例实施方式中自动语音识别系统能够对有时态复杂性的问题进行有效建模，从而进一步可以提升在复杂干扰声条件下的语音识别性能。

此外，除了识别性能得到显著提升之外，本示例实施方式中的自动语音识别系统还具有高度的灵活性，例如允许灵活的集成各种类型的语音分离模块和音素识别模块至第一子网络和第三子网络，且本示例实施方式中的自动语音识别系统不会以任何单个模块性能受损作为代价。

因此，将本示例实施方式中的自动语音识别系统应用到包括智能音箱、智能电视、在线语音识别系统、智能语音助手、同声传译以及虚拟人等多个项目和产品应用中，可以显著地改善自动语音识别的准确率，尤其是在复杂干扰环境中的识别性能；进而可以提升用户体验。

应当注意，尽管在附图中以特定顺序描述了本申请中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

进一步的，本示例实施方式中，还提供了一种实现语音识别的神经网络训练装置。该神经网络训练装置可以应用于服务器；也可以应用于终端设备。所述神经网络包括第一至第三子网络，参考图11所示，该神经网络训练装置1100可以包括数据获取模块1110、目标语音提取模块1120、适应性转换模块1130、语音识别模块1140以及参数更新模块1150。其中：

数据获取模块1110可以用于获取样本数据，所述样本数据包括混合语音频谱及其标注音素；

目标语音提取模块1120可以用于通过第一子网络从混合语音频谱中提取目标语音频谱；

适应性转换模块1130可以用于通过第二子网络对所述目标语音频谱进行适应性转换以得到中间过渡表征；

语音识别模块1140可以用于通过第三子网络，基于所述中间过渡表征进行音素识别；

参数更新模块1150可以用于根据所述音素识别的结果以及所述标注音素，对所述第一子网络、第二子网络以及第三子网络的参数进行更新。

在本申请的一种示例性实施例中，所述目标语音提取模块1120通过下述步骤从混合语音频谱中提取目标语音频谱：将所述混合语音频谱嵌入到多维向量空间，得到所述混合语音频谱每个时频窗口对应的嵌入向量；利用理想比率掩模对所述混合语音频谱的各嵌入向量进行加权规整，得到与所述目标语音频谱对应的吸引子；通过计算所述混合语音频谱的各嵌入向量与吸引子之间的相似度，得到与所述目标语音频谱对应的目标掩蔽矩阵；基于所述目标掩蔽矩阵，从所述混合语音频谱中提取所述目标语音频谱。

在本申请的一种示例性实施例中，所述装置还包括：

全局吸引子计算模块可以用于获取各所述样本数据对应的所述吸引子，并计算各所述吸引子的均值，得到全局吸引子。

在本申请的一种示例性实施例中，所述适应性转换模块1130通过下述步骤对所述目标语音频谱进行适应性转换：根据所述目标语音频谱的时频窗口顺序，对各时频窗口的目标语音频谱依次进行适应性转换；其中，针对一所述时频窗口的转换过程包括：

根据当前转换过程针对的时频窗口的目标语音频谱和前一转换过程的隐含状态信息，生成当前转换过程的隐含状态信息；以及基于各所述隐含状态信息，得到当前转换过程针对的时频窗口的所述中间过渡表征。

在本申请的一种示例性实施例中，所述适应性转换模块1130通过下述步骤生成当前转换过程的隐含状态信息：根据当前时频窗口的目标语音频谱以及上一转换过程的隐含状态信息，计算候选状态信息、所述候选状态信息的输入权重、上一转换过程目标状态信息的遗忘权重和当前转换过程目标状态信息的输出权重；根据所述遗忘权重对所述上一转换过程目标状态信息进行保留，得到第一中间状态信息；根据所述候选状态信息的输入权重对所述候选状态信息进行保留，得到第二中间状态信息；根据所述第一中间状态信息和第二中间状态信息，得到所述当前转换过程目标状态信息；根据所述当前转换过程目标状态信息的输出权重对所述当前转换过程目标状态信息进行保留，得到当前转换过程的隐含状态信息。

在本申请的一种示例性实施例中，所述适应性转换模块1130通过下述步骤基于各所述隐含状态信息得到当前转换过程针对的时频窗口的所述中间过渡表征：对各所述隐含状态信息进行以下一种或多种处理，得到当前转换过程针对的时频窗口的所述中间过渡表征：

非负映射、逐元素求对数、计算一阶差分、计算二阶差分、执行全局均值方差归一化以及添加前后时频窗口的特征。

在本申请的一种示例性实施例中，所述语音识别模块1140通过下述步骤基于所述中间过渡表征进行音素识别：通过至少一个卷积层将多维滤波器应用于所述中间过渡表征，生成卷积层输出；在至少一个递归层中使用所述卷积层输出以生成递归层输出；将所述递归层输出提供至至少一个全连接层，并对所述全连接层的输出应用非线性函数，以获得所述中间过渡表征包括的音素的后验概率。

在本申请的一种示例性实施例中，所述递归层包括长短期记忆网络。

在本申请的一种示例性实施例中，所述参数更新模块1150通过下述步骤对所述第一子网络、第二子网络以及第三子网络的参数进行更新：确定所述第一子网络、第二子网络以及第三子网络的联合损失函数；根据所述音素识别的结果、所述标注音素以及所述联合损失函数，计算联合损失函数值；根据所述联合损失函数值，对所述第一子网络、第二子网络以及第三子网络的参数进行更新。

在本申请的一种示例性实施例中，所述第一子网络包括窥孔连接的多层长短期记忆网络；所述第二子网络包括窥孔连接的多层长短期记忆网络。

进一步的，本示例实施方式中，还提供了一种基于神经网络的语音识别装置。语音识别装置可以应用于服务器；也可以应用于终端设备。所述神经网络包括第一至第三子网络，参考图12所示，该神经网络训练装置1200可以包括数据获取模块1210、目标语音提取模块1220、适应性转换模块1230以及语音识别模块1240。其中：

数据获取模块1210可以用于获取待识别的混合语音频谱；

目标语音提取模块1220可以用于通过第一子网络从混合语音频谱中提取目标语音频谱；

适应性转换模块1230可以用于通过第二子网络对所述目标语音频谱进行适应性转换以得到中间过渡表征；

语音识别模块1240可以用于通过第三子网络，基于所述中间过渡表征进行音素识别。

本申请示例实施方式所提供方法中，可以通过第二子网络对第一子网络提取的目标语音频谱进行适应性转换，得到可以输入第三子网络进行音素识别的中间过渡表征，从而可以完成对语音分离阶段和音素识别阶段的桥接，实现一种端到端的语音识别系统；在此基础上，对第一子网络、第二子网络和第三子网络进行联合训练，降低了语音分离阶段引入的信号误差和信号失真对音素识别阶段的性能影响；因此，本申请示例实施方式所提供方法可以提升在复杂干扰声条件下的语音识别性能，提升用户体验；同时，本申请示例实施方式中的第一子网络和第三子网络可以方便的整合第三方算法，具有更高灵活性。

上述装置中各模块或单元的具体细节已经在对应的方法示例性实施例中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备实现如上述实施例中所述的方法。例如，所述的电子设备可以实现上述示例性实施例中的各个步骤等。

需要说明的是，本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是，但不限于，电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

一种实现语音识别的神经网络训练方法，由电子设备执行，其中，所述神经网络包括第一子网络，第二子网络和第三子网络；所述方法包括：

获取样本数据，所述样本数据包括混合语音频谱及其标注音素；

通过所述第一子网络从混合语音频谱中提取目标语音频谱；

通过所述第二子网络对所述目标语音频谱进行适应性转换以得到中间过渡表征；

通过所述第三子网络，基于所述中间过渡表征进行音素识别；

根据所述音素识别的结果以及所述标注音素，对所述第一子网络、第二子网络以及第三子网络的参数进行更新。
根据权利要求1所述的神经网络训练方法，通过第一子网络从混合语音频谱中提取目标语音频谱，包括：

将所述混合语音频谱嵌入到多维向量空间，得到所述混合语音频谱每个时频窗口对应的嵌入向量；

利用理想比率掩模对所述混合语音频谱的各嵌入向量进行加权规整，得到与所述目标语音频谱对应的吸引子；

通过计算所述混合语音频谱的各嵌入向量与吸引子之间的相似度，得到与所述目标语音频谱对应的目标掩蔽矩阵；

基于所述目标掩蔽矩阵，从所述混合语音频谱中提取所述目标语音频谱。
根据权利要求2所述的神经网络训练方法，所述方法还包括：

获取各所述样本数据对应的所述吸引子，并计算各所述吸引子的均值，得到全局吸引子。
根据权利要求1所述的神经网络训练方法，所述通过第二子网络对所述目标语音频谱进行适应性转换，包括：

根据所述目标语音频谱的时频窗口顺序，对各时频窗口的目标语音频谱依次进行适应性转换；其中，针对一所述时频窗口的转换过程包括：

根据当前转换过程针对的时频窗口的目标语音频谱和前一转换过程的隐含状态信息，生成当前转换过程的隐含状态信息；以及

基于各所述隐含状态信息，得到当前转换过程针对的时频窗口的所述中间过渡表征。
根据权利要求4所述的神经网络训练方法，生成当前转换过程的隐含状态信息，包括：

根据当前时频窗口的目标语音频谱以及上一转换过程的隐含状态信息，计算候选状态信息、所述候选状态信息的输入权重、上一转换过程目标状态信息的遗忘权重和当前转换过程目标状态信息的输出权重；

根据所述遗忘权重对所述上一转换过程目标状态信息进行保留，得到第一中间状态信息；

根据所述候选状态信息的输入权重对所述候选状态信息进行保留，得到第二中间状态信息；

根据所述第一中间状态信息和第二中间状态信息，得到所述当前转换过程目标状态信息；

根据所述当前转换过程目标状态信息的输出权重对所述当前转换过程目标状态信息进行保留，得到当前转换过程的隐含状态信息。
根据权利要求4所述的神经网络训练方法，基于各所述隐含状态信息，得到当前转换过程针对的时频窗口的所述中间过渡表征，包括：

对各所述隐含状态信息进行以下一种或多种处理，得到当前转换过程针对的时频窗口的所述中间过渡表征：

非负映射、逐元素求对数、计算一阶差分、计算二阶差分、执行全局均值方差归一化以及添加前后时频窗口的特征。
根据权利要求1所述的神经网络训练方法，通过第三子网络基于所述中间过渡表征进行音素识别，包括：

通过至少一个卷积层将多维滤波器应用于所述中间过渡表征，生成卷积层输出；

在至少一个递归层中使用所述卷积层输出以生成递归层输出；

将所述递归层输出提供至至少一个全连接层，并对所述全连接层的输出应用非线性函数，以获得所述中间过渡表征包括的音素的后验概率。
根据权利要求7所述的神经网络训练方法，所述递归层包括长短期记忆网络。
根据权利要求1所述的神经网络训练方法，对所述第一子网络、第二子网络以及第三子网络的参数进行更新，包括：

确定所述第一子网络、第二子网络以及第三子网络的联合损失函数；

根据所述音素识别的结果、所述标注音素以及所述联合损失函数，计算联合损失函数值；

根据所述联合损失函数值，对所述第一子网络、第二子网络以及第三子网络的参数进行更新。
根据权利要求1～9任意一项所述的神经网络训练方法，所述第一子网络包括窥孔连接的多层长短期记忆网络；所述第二子网络包括窥孔连接的多层长短期记忆网络。
一种基于神经网络的语音识别方法，由电子设备执行，其中，所述神经网络包括第一子网络，第二子网络和第三子网络；所述方法包括：

获取待识别的混合语音频谱；

通过所述第一子网络从混合语音频谱中提取目标语音频谱；

通过所述第二子网络对所述目标语音频谱进行适应性转换以得到中间过渡表征；

通过所述第三子网络，基于所述中间过渡表征进行音素识别。
一种实现语音识别的神经网络训练装置，其中，所述神经网络包括第一子网络，第二子网络和第三子网络；所述装置包括：

数据获取模块，用于获取样本数据，所述样本数据包括混合语音频谱及其标注音素；

目标语音提取模块，用于通过第一子网络从混合语音频谱中提取目标语音频谱；

适应性转换模块，用于通过第二子网络对所述目标语音频谱进行适应性转换以得到中间过渡表征；

语音识别模块，用于通过第三子网络，基于所述中间过渡表征进行音素识别；

参数更新模块，用于根据所述音素识别的结果以及所述标注音素，对所述第一子网络、第二子网络以及第三子网络的参数进行更新。
根据权利要求12所述的装置，其中，所述目标语音提取模块进一步用于：

将所述混合语音频谱嵌入到多维向量空间，得到所述混合语音频谱每个时频窗口对应的嵌入向量；利用理想比率掩模对所述混合语音频谱的各嵌入向量进行加权规整，得到与所述目标语音频谱对应的吸引子；通过计算所述混合语音频谱的各嵌入向量与吸引子之间的相似度，得到与所述目标语音频谱对应的目标掩蔽矩阵；基于所述目标掩蔽矩阵，从所述混合语音频谱中提取所述目标语音频谱。
根据权利要求13所述的装置，其中，所述装置还包括：

全局吸引子计算模块，用于获取各所述样本数据对应的所述吸引子，并计算各所述吸引子的均值，得到全局吸引子。
根据权利要求12所述的装置，其中，所述适应性转换模块进一步用于：

根据所述目标语音频谱的时频窗口顺序，对各时频窗口的目标语音频谱依次进行适应性转换；其中，针对一所述时频窗口的转换过程包括：

根据当前转换过程针对的时频窗口的目标语音频谱和前一转换过程的隐含状态信息，生成当前转换过程的隐含状态信息；以及基于各所述隐含状态信息，得到当前转换过程针对的时频窗口的所述中间过渡表征。
根据权利要求15所述的装置，其中，所述适应性转换模块进一步用于：

根据当前时频窗口的目标语音频谱以及上一转换过程的隐含状态信息，计算候选状态信息、所述候选状态信息的输入权重、上一转换过程目标状态信息的遗忘权重和当前转换过程目标状态信息的输出权重；根据所述遗忘权重对所述上一转换过程目标状态信息进行保留，得到第一中间状态信息；根据所述候选状态信息的输入权重对所述候选状态信息进行保留，得到第二中间状态信息；根据所述第一中间状态信息和第二中间状态信息，得到所述当前转换过程目标状态信息；根据所述当前转换过程目标状态信息的输出权重对所述当前转换过程目标状态信息进行保留，得到当前转换过程的隐含状态信息。
根据权利要求15所述的装置，其中，所述适应性转换模块进一步用于：

基于各所述隐含状态信息得到当前转换过程针对的时频窗口的所述中间过渡表征：对所述各所述隐含状态信息进行以下一种或多种处理，得到当前转换过程针对的时频窗口的所述中间过渡表征：

非负映射、逐元素求对数、计算一阶差分、计算二阶差分、执行全局均值方差归一化以及添加前后时频窗口的特征。
一种基于神经网络的语音识别装置，其中，所述神经网络包括第一子网络，第二子网络和第三子网络；所述装置包括：

数据获取模块，用于获取待识别的混合语音频谱；

目标语音提取模块，用于通过所述第一子网络从混合语音频谱中提取目标语音频谱；

适应性转换模块，用于通过所述第二子网络对所述目标语音频谱进行适应性转换以得到中间过渡表征；

语音识别模块，用于通过所述第三子网络，基于所述中间过渡表征进行音素识别。
一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-11任一项所述的方法。
一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-11任一项所述的方法。