WO2019100998A1

WO2019100998A1 - 语音信号处理模型训练方法、电子设备及存储介质

Info

Publication number: WO2019100998A1
Application number: PCT/CN2018/115704
Authority: WO
Inventors: 陈联武; 于蒙; 罗敏; 苏丹
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2017-11-24
Filing date: 2018-11-15
Publication date: 2019-05-31
Also published as: CN110444214B; EP3611725A1; US11158304B2; EP3611725A4; CN109841220B; CN109841220A; EP3611725B1; US20200051549A1; CN110444214A

Abstract

一种语音信号处理模型训练方法、电子设备及存储介质。获取样本语音，确定样本语音的每个语音信号处理任务的任务输入特征（S100）；根据每个语音信号处理任务的训练损失函数，确定目标训练损失函数（S110）；将每个语音信号处理任务的任务输入特征，输入待训练的多任务神经网络，以最小化目标训练损失函数为训练目标，更新待训练的多任务神经网络的共享层和每个任务层的参数，直至待训练的多任务神经网络收敛，得到语音信号处理模型（S120）。通过多任务神经网络，降低计算复杂度，提高语音信号处理模型的训练效率。

Description

语音信号处理模型训练方法、电子设备及存储介质

本申请要求于2017年11月24日提交的申请号为201711191604.9、发明名称为“语音信号处理模型训练方法、装置、电子设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明实施例涉及语音处理技术领域，具体涉及一种语音信号处理模型训练方法、电子设备及存储介质。

背景技术

随着语音识别技术的发展，为了在复杂环境下保持较好的语音识别率，终端的语音信号处理技术的性能尤为重要；目前，一般的语音识别过程为，终端对输入的多通道语音进行语音信号处理，输出单通道语音，再将单通道语音送给语音后台服务器进行语音识别。

传统的语音信号处理过程一般包括多个语音信号处理任务，通过该多个语音信号处理任务递进协同的对输入的多通道语音进行处理，输出单通道语音。以智能音箱场景为例，图1示出了终端传统的语音信号处理过程，该过程由多个语音信号处理任务构成，该多个语音信号处理任务可具体包括：回声消除任务、语音检测任务、语音方向检测任务、麦克风阵列增强任务、单通道降噪任务、混响消除任务等；输入的多通道语音经过上述多个语音信号处理任务的协同处理后，可输出单通道语音，完成终端的语音信号处理。

随着深度学习技术的发展，神经网络技术应用的领域越来越广，为提高终端的语音信号处理性能，本领域中，采用利用神经网络优化终端的语音信号处理过程的技术。该技术通过使用神经网络训练语音信号处理模型，利用语音信号处理模型替代终端传统的语音信号处理过程，或者辅助终端传统的语音信号处理过程，来提高终端的语音信号处理性能；可见，基于神经网络进行语音信号处理模型的训练，具有提高语音信号处理性能等重要技术意义。

目前使用神经网络训练语音信号处理模型所面临的难题是，由于语音信号处理过程涉及的语音信号处理任务的数量较多，训练所涉及的计算复杂度较高，导致语音信号处理模型的训练效率较低。

发明内容

有鉴于此，本发明实施例提供一种语音信号处理模型训练方法、电子设备及存储介质，以降低训练语音信号处理模型的计算复杂度，提高语音信号处理模型的训练效率。

为实现上述目的，本发明实施例提供如下技术方案：

一方面，提供了一种语音信号处理模型训练方法，所述方法应用在电子设备上，包括：

获取样本语音，确定所述样本语音的每个语音信号处理任务的任务输入特征；

根据所述每个语音信号处理任务的训练损失函数，确定目标训练损失函数；

将所述样本语音的每个语音信号处理任务的任务输入特征，作为待训练的多任务神经网络的训练输入，以最小化目标训练损失函数为训练目标，对待训练的多任务神经网络的共享层和每个任务层的参数进行更新，直至待训练的多任务神经网络收敛，得到语音信号处理模型；

其中，所述待训练的多任务神经网络包括：共享层，和每个语音信号处理任务对应的任务层。

另一方面，本发明实施例还提供一种语音信号处理模型训练装置，所述装置应用在电子设备上，包括：

任务输入特征确定模块，用于获取样本语音，确定所述样本语音的每个语音信号处理任务的任务输入特征；

目标损失函数确定模块，用于根据所述每个各语音信号处理任务的训练损失函数，确定目标训练损失函数；

模型训练模块，用于将所述样本语音的每个语音信号处理任务的任务输入特征，作为所述待训练的多任务神经网络的训练输入，以最小化目标训练损失函数为训练目标，对所述待训练的多任务神经网络的共享层和每个任务层的参数进行更新，直至待训练的多任务神经网络收敛，得到语音信号处理模型；

另一方面，本发明实施例还提供一种电子设备，包括：至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述存储器存储的程序，所述程序用于：

另一方面，本发明实施例还提供一种存储介质，所述存储介质存储有适用于处理器执行的程序，所述程序用于：

本发明实施例中，通过多个语音信号处理任务的训练损失函数，确定目标训练损失函数，并基于多个语音信号处理任务的任务输入特征，基于作为多任务神经网络的训练输入，以最小化目标训练损失函数为训练目标，对待训练的多任务神经网络进行训练，得到语音信号处理模型。任务神经网络包括共享层和每个语音信号处理任务对应的任务层，基于该多任务神经网络训练得到语音信号处理模型，而不是相对于每一语音信号处理任务均单独进行神经网络的训练，有效的降低了训练语音信号处理模型的计算复杂度，提升了训练效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为传统的语音信号处理过程的示意图；

图2为传统的利用神经网络，训练得到语音信号处理模型的示意图；

图3为本发明实施例提供的多任务神经网络的结构示意图；

图4为本发明实施例提供的多任务神经网络的另一结构示意图；

图5为本发明实施例提供的语音信号处理模型训练方法的流程图；

图6为语音信号处理模型的训练示意图；

图7为本发明实施例提供的语音信号处理模型训练方法的另一流程图；

图8为语音信号处理模型的另一训练示意图；

图9为本发明实施例提供的语音信号处理模型训练方法的再一流程图；

图10为本发明实施例提供的语音信号处理模型训练方法的又一流程图；

图11为语音信号处理模型的应用场景示例图；

图12为语音信号处理模型的输出结果的使用示例图；

图13为本发明实施例提供的语音信号处理模型训练装置的结构框图；

图14为本发明实施例提供的语音信号处理模型训练装置的另一结构框图；

图15为本发明实施例提供的语音信号处理模型训练装置的再一结构框图；

图16为电子设备的硬件结构框图。

具体实施方式

图2为传统的利用神经网络，训练得到语音信号处理模型的示意图，如图2所示，针对语音信号处理过程所涉及的每个语音信号处理任务，分别的构建神经网络，每个神经网络对应有语音信号处理任务，分别的对每个语音信号处理任务的神经网络进行训练，当某一神经网络达到对应的语音信号处理任务的训练收敛条件时，完成该神经网络的训练，在每个神经网络训练完成后，将训练完成的每个神经网络联合形成语音信号处理模型；该过程存在的问题是，需要分别针对每个语音信号处理任务进行神经网络的训练，对于数量较多的语音信号处理任务而言，训练的计算复杂度较高；同时，每个神经网络相对独立，缺少语音信号处理任务之间的关联，导致训练得出的语音信号处理模型的性能具有一定的局限性。

基于此，本发明实施例考虑改进语音信号处理模型的神经网络结构，并基于改进后的神经网络结构进行语音信号处理模型的训练，降低训练语音信号处理模型的计算复杂度，提升训练效率；进一步在训练过程中体现语音信号处理任务之间的关联性，保障训练得出的语音信号处理模型具有可靠的性能。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提出了一种新型的多任务神经网络，该多任务神经网络通过改进语音信号处理模型的神经网络结构，可以达到降低训练语音信号处理模型的计算复杂度，进一步保障语音信号处理模型的性能可靠的效果。该多任务神经网络可如图3示，包括：共享层，和每个语音信号处理任务对应的任务层；

可选的，在本发明实施例中，共享层的输入可导入每个任务层，每个任务层输出该任务层对应的语音信号处理任务的任务处理结果；其中，共享层可以体现具有共性的语音信号处理任务之间的关联性，每个任务层可体现相应的语音信号处理任务的任务特性，使得每个任务层的输出结果能够更好的反映相应的语音信号处理任务的任务需求。

可选的，在本发明实施例中，共享层可定义为LSTM(Long Short Term Memory，长短期记忆)网络，作为一种可选示例，共享层可以是两层的LSTM网络；任务层可定义为MLP(Multi layer Perceptron，多层感知器)全连接网络，即每个任务层可以均是MLP全连接网络，作为一种可选示例，每个任务层可以均是一层的MLP全连接网络。

以图1所示多个语音信号处理任务为例，本发明实施例提供的多任务神经网络可以如图4所示，包括：

共享层，回声消除任务层、语音检测任务层、…、单通道降噪任务层、混响消除任务层。

显然，在具体的语音信号处理过程中，多个语音信号处理任务并不限于图1所示，还可以在图1所示多个语音信号处理任务的基础上，删减和/或增强了某些语音信号处理任务，本发明实施例对此不作具体限定。

基于上述本发明实施例提供的多任务神经网络，本发明实施例可进行该多任务神经网络的训练，得到语音信号处理模型。

在一种训练语音信号处理模型的可选实现上，本发明实施例可同时基于所有的语音信号处理任务训练多任务神经网络，更新多任务神经网络的共享层和每个任务层的参数；

可选的，图5示出了本发明实施例提供的语音信号处理模型训练方法的一种可选流程，该方法可应用于具有数据处理能力的电子设备，该电子设备可以为笔记本电脑、PC(Personal Computer，个人计算机)等具有数据处理能力的终端设备，也可以为网络侧的服务器，本发明实施例对此不作具体限定；参照图5，该方法流程可以包括：

步骤S100、电子设备获取样本语音，确定样本语音的每个语音信号处理任务的任务输入特征。

可选的，样本语音可以认为是训练语音信号处理模型所使用的样本，样本语音可以是多通道语音；本发明实施例所获取的样本语音的数量可以为多个，可以对每条样本语音，均确定出每个语音信号处理任务的任务输入特征。

对于终端的语音信号处理过程所涉及的多个语音信号处理任务，本发明实施例可对样本语音，分别获取每个语音信号处理任务的任务输入特征；可选的，终端的语音信号处理过程所涉及的多个语音信号处理任务可以如图1所示，当然，也可以在图1所示多个语音信号处理任务的基础上，删减语音信号处理任务，和/或，增强其他形式的语音信号处理任务；

可选的，为便于理解，作为一种可选示例，以多个语音信号处理任务包括：回声消除任务和语音检测任务为例；其中，该回声消除任务可用于进行单通道语音谱的估计，该语音检测任务可用于进行语音存在概率的估计。则本发明实施例可获取样本语音的回声消除任务的任务输入特征，具体如：样本语音的带噪单通道语音的频谱能量及标注为干净语音的频谱能量；获取样本语音的语音检测任务的任务输入特征，具体如：样本语音是否存在语音的标记值；其中，该标记值可以是0或者1，其中，0表示不存在语音，1表示存在语音。

显然，上段描述的语音信号处理任务仅是作为示例，语音信号处理过程实际所涉及的语音信号处理任务可能更多，本发明实施例可对样本语音，分别获取不同语音信号处理任务相应的任务输入特征，而不同的语音信号处理任务所对应的任务输入特征可能不同。

步骤S110、电子设备根据每个语音信号处理任务的训练损失函数，确定目标训练损失函数。

本发明实施例是通过训练所有的语音信号处理任务，来实现多任务神经网络的共享层和每个任务层的参数更新，因此训练所使用的总训练损失函数(称为目标训练损失函数)需基于每个语音信号处理任务的训练损失函数确定；

可选的，鉴于传统的分别针对每个语音信号处理任务，单独进行神经网络训练的方案，本发明实施例可确定出每个语音信号处理任务的训练损失函数；从而对于任一语音信号处理任务，本发明实施例可将该语音信号处理任务的训练损失函数，乘以该语音信号处理任务相应的权重，得到该语音信号处理任务相应的相乘结果，以此确定出每个语音信号处理任务相应的相乘结果后，进而将每个相乘结果相加，可得到目标训练损失函数；

示例的，设第i个语音信号处理任务的训练损失函数为L _i，a _i为第i个语音信号处理任务相应的权重，则可根据如下公式确定目标训练损失函数L _all：

其中，a _i的数值可以根据实际情况进行设置，也可统一设置为1；N为语音信号处理任务的总数。

步骤S120、电子设备将样本语音的每个语音信号处理任务的任务输入特征，作为多任务神经网络的训练输入，以最小化目标训练损失函数为训练目标，对多任务神经网络的共享层和每个任务层的参数进行更新，直至多任务神经网络收敛，得到语音信号处理模型。

在确定样本语音的每个语音信号处理任务的任务输入特征，及确定训练的目标训练损失函数后，本发明实施例可对多任务神经网络进行训练，以实现多任务神经网络的共享层和每个任务层的参数更新；具体的，本发明实施例可将样本语音的每个语音信号处理任务的任务输入特征，作为多任务神经网络的训练输入，以最小化目标训练损失函数为训练目标，对多任务神经网络进行训练，实现多任务神经网络的共享层和每个任务层的参数更新，直至多任务神经网络收敛，从而得到语音信号处理模型；其中，当该多任务神经网络达到收敛条件时时，则该多任务神经网络收敛，该收敛条件可以包括但不限于：训练的迭代次数达到最大次数，或者目标训练损失函数不再减小等，本发明实施例对此不做具体限定。

可选的，在确定训练输入和训练目标后，本发明实施例可使用随机梯度下降(Stochastic Gradient Descent，SGD)和/或反向传播(Back Propagation，BP)方法，对多任务神经网络的共享层和每个任务层的参数进行更新；

可选的，在以最小化目标训练损失函数为训练目标，对多任务神经网络的共享层和每个任务层的参数进行更新时，共享层的参数更新可根据目标训练损失函数实现，如在每次训练时，可使用随机梯度下降方法，根据每次训练得出的目标训练损失函数，更新共享层的参数；而任一语音信号处理任务对应的任务层的参数更新，可根据该语音信号处理任务的损失函数实现，如在每次训练时，可使用随机梯度下降方法，根据每次训练得出的该语音信号处理任务的训练损失函数，更新该语音信号处理任务对应的任务层的参数；从而既可通过共享层体现具有共性的语音信号处理任务之间的关联性，又可通过每个任务层体现相应的语音信号处理任务的任务特性，使得每个任务层的输出结果能够更好的反映相应的语音信号处理任务的任务需求。

可选的，作为一种示例，共享层可以是LSTM网络，一任务层可以是MLP全连接网络；更新多任务神经网络的共享层的参数可以如，更新LSTM网络的参数，包括但不限于更新LSTM网络的输入层到隐含层的连接参数、隐含层到输出层的连接参数或隐含层到隐含层之间的连接参数等；更新多任务神经网络的一任务层的参数可以如，更新MLP全连接网络的参数，包括但不限于更新MLP全连接网络的输入层到隐含层的连接参数、隐含层到输出层的连接参数等。

可选的，为便于理解，作为一种可选示例，若统一设置每个语音信号处理任务相应的权重为1，且以多语音信号处理任务包括：回声消除任务和语音检测任务为例；则进行语音信号处理模型的训练示意可如图6所示，过程如下：

将样本语音的回声消除任务和语音检测任务的输入特征，作为多任务神经网络的训练输入；以最小化回声消除任务的训练损失函数与语音检测任务的训练损失函数的和，为训练目标；对多任务神经网络的共享层，回声消除任务层和语音检测任务层的参数进行更新，直至多任务神经网络的迭代次数达到最大次，或者，回声消除任务的训练损失函数与语音检测任务的训练损失函数的和不再减小，得到语音信号处理模型。

具体的，在每次训练时，可根据每次训练得出的回声消除任务与语音检测任务的训练损失函数的和，更新多任务神经网络的共享层的参数；可根据每次训练得出的回声消除任务的训练损失函数，更新回声消除任务层的参数；可根据每次训练得出的语音检测任务的训练损失函数，更新语音检测任务层的参数。

可选的，一般而言，回声消除任务的训练损失函数可以如：所估计的干净语音频谱能量与真实值的差异值；语音检测任务的训练损失函数可以如：所估计的语音存在概率与真实值的差异值；相应的，若统一设置每个语音信号处理任务相应的权重为1，则可确定目标训练损失函数为：回声消除任务的训练损失函数与语音检测任务的训练损失函数的和；从而在进行多任务神经网络的训练时，可以最小化回声消除任务的训练损失函数与语音检测任务的训练损失函数的和，为训练目标。其中，最小化回声消除任务的训练损失函数与语音检测任务的训练损失函数的和具体可以为：最小化所估计的干净语音频谱能量与真实值的差异值，及所估计的语音存在概率与真实值的差异值的相加结果。

可见，图5所示的语音信号处理模型训练方法，可基于包括共享层和每个语音信号处理任务对应的任务层的多任务神经网络，将样本语音的每个语音信号处理任务的任务输入特征作为训练输入，进行多任务神经网络的共享层和每个任务层的参数更新，训练得到语音信号处理模型。由于本发明实施例是基于具有共享层和每个语音信号处理任务对应的任务层的多任务神经网络，根据样本语音的每个语音信号处理任务的任务输入特征，同时的进行多任务神经网络的共享层和每个任务层的参数更新训练，而不是相对于每一语音信号处理任务均单独进行神经网络的训练，因此，极大的降低了训练语音信号处理模型所涉及的计算复杂度，有效的降低了训练语音信号处理模型的计算复杂度，提升了语音信号处理模型的训练效率。

上述同时基于所有的语音信号处理任务训练多任务神经网络，来更新多任务神经网络的共享层和每个任务层的参数的方式，相比于传统的分别针对每个语音信号处理任务，单独训练神经网络的方式能够降低计算复杂度。进一步的，本发明实施例还提供了一种分阶段进行多任务神经网络训练的方案，该方案是基于语音信号处理过程中每个语音信号处理任务的任务特性所得到的方案，能够避免语音信号处理过程中每个语音信号处理任务间的差异较大，同时，该方案可以采用部分语音信号处理任务训练多任务神经网络，能够保障多任务神经网络的参数收敛性。

可选的，图7示出了本发明实施例提供的语音信号处理模型训练方法的另一种可选流程，该方法可应用于具有数据处理能力的电子设备，参照图7，该方法流程可以包括：

步骤S200、电子设备获取样本语音。

步骤S210、电子设备从语音信号处理过程的多个语音信号处理任务中，确定至少一个第一类语音信号处理任务。

可选的，作为一种实现，第一类语音信号处理任务可以是，语音信号处理过程涉及的多个语音信号处理任务中的基本任务；可以理解的是，基本任务可以认为是语音信号处理过程的多个语音信号处理任务中，相对于其他的语音信号处理任务具有辅助效果的任务；

作为一种可选示例，以多个语音信号处理任务包括：回声消除任务和语音检测任务为例；由于回声消除任务能够实现单通道语音谱的估计，能极大提升语音概率估计的准确度，因此回声消除任务可以认为是基本语音信号处理任务。

可选的，作为另一种可选实现，第一类语音信号处理任务可以认为是，语音信号处理过程涉及的多个语音信号处理任务中训练复杂度较高的任务；

其中，第一类语音信号处理任务的确定过程可以为：当语音信号处理任务的训练复杂度高于设定的复杂度阈值时，则确定该语音信号处理任务为第一类语音信号处理任务；否则，该语音信号处理任务不是第一类语音信号处理任务。

作为一种可选示例，以多个语音信号处理任务包括：回声消除任务和语音检测任务为例；由于回声消除任务所进行的单通道语音谱的估计，需要得到所有M个频带的干净语音能量值，该M一般为大于1的正整数，例如，M的值可以为512，而语音检测任务所进行的语音存在概率估计，需得到当前帧是否包含语音的单值估计，M远大于1，从训练复杂度的角度看，回声消除任务的训练复杂度远高于语音检测任务，因此回声消除任务可视为是训练复杂度较高的第一类语音信号处理任务。

在本发明实施例中，第一类语音信号处理任务的数量可以为一个或多个。

步骤S220、电子设备确定样本语音的第一类语音信号处理任务的任务输入特征，及样本语音的每个语音信号处理任务的任务输入特征。

在确定第一类语音信号处理任务后，针对样本语音，本发明实施例可确定样本语音的第一类语音信号处理任务的任务输入特征。其中，该确定第一类语音信号处理任务的任务输入特征可以为：确定样本语音的回声消除任务的任务输入特征；同时，对于语音信号处理过程涉及的每个语音信号处理任务，确定出样本语音的每个语音信号处理任务的任务输入特征。其中，确定每个语音信号处理任务的任务输入特征可以为：确定样本语音的回声消除任务的任务输入特征，和语音检测任务的任务输入特征等。

步骤S230、电子设备根据第一类语音信号处理任务的训练损失函数，确定第一目标训练损失函数；及根据每个语音信号处理任务的训练损失函数，确定目标训练损失函数。

可选的，对于第一类语音信号处理任务，本发明实施例可确定第一类语音信号处理任务的训练损失函数，在第一类语音信号处理任务的数量为至少一个的情况下，对于任一第一类语音信号处理任务，可将该第一类语音信号处理任务的训练损失函数，乘以该第一类语音信号处理任务相应的权重，得到该第一类语音信号处理任务的相乘结果，以确定出每个第一类语音信号处理任务的相乘结果后，进而将每个第一类语音信号处理任务的相乘结果相加，可得到第一目标训练损失函数。

可选的，设第i个第一类语音信号处理任务的训练损失函数为L1 _i，a1 _i为第i个第一类语音信号处理任务相应的权重，则第一目标训练损失函数L1 _all的确定可根据如下公式实现：

其中，N1为第一类语音信号处理任务的总数。

可选的，本发明实施例可以参照上文步骤S110部分所示，对每个语音信号处理任务进行处理，得到目标训练损失函数。

步骤S240、电子设备将样本语音的第一类语音信号处理任务的任务输入特征，作为多任务神经网络的训练输入，以最小化第一目标训练损失函数为训练目标，对多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新，直至多任务神经网络收敛，得到第一多任务神经网络。

可选的，本发明实施例可先基于第一类语音信号处理任务的任务输入特征，以最小化第一目标训练损失函数为训练目标，对初始的多任务神经网络进行训练。

在具体训练时，可对多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新；具体参数更新过程可以是：电子设备将样本语音的第一类语音信号处理任务的任务输入特征，作为多任务神经网络的训练输入，以最小化第一目标训练损失函数为训练目标，通过多次迭代的方式，更新多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数，直至达到最大迭代次数，或者第一目标训练损失函数不再减小，从而得到第一多任务神经网络。

可选的，本发明实施例可根据每次训练得出的第一目标训练损失函数，更新共享层的参数；而对于每一第一类语音信号处理任务对应的任务层，可根据每次训练得出的该第一类语音信号处理任务的训练损失函数，更新该第一类语音信号处理任务对应的任务层的参数。

步骤S250、电子设备将样本语音的每个语音信号处理任务的任务输入特征，作为第一多任务神经网络的训练输入，以最小化目标训练损失函数为训练目标，对多任务神经网络的共享层和每个语音信号处理任务对应的任务层的参数进行更新，直至第一多任务神经网络收敛，得到语音信号处理模型。

可选的，本发明实施例基于第一类语音信号处理任务的任务输入特征，以最小化第一目标训练损失函数为训练目标，对多任务神经网络进行训练，得到第一多任务神经网络后，可再基于每个语音信号处理任务的任务输入特征，以最小化目标训练损失函数为训练目标，对第一多任务神经网络进行训练，得到语音信号处理模型。

在具体训练时，可对第一多任务神经网络的共享层和每个语音信号处理任务对应的任务层的参数进行更新；具体参数更新过程可以是：将样本语音的每个语音信号处理任务的任务输入特征，作为第一多任务神经网络的训练输入，以最小化目标训练损失函数为训练目标，通过迭代的进行第一多任务神经网络的共享层和每个语音信号处理任务对应的任务层的参数更新，直至达到最大迭代次数，或者目标训练损失函数不再减小，从而得到语音信号处理模型；

可选的，本发明实施例可根据每次训练得出的目标训练损失函数，更新共享层的参数；而对于每一语音信号处理任务对应的任务层，可根据每次训练得出的该语音信号处理任务的训练损失函数，更新该语音信号处理任务对应的任务层的参数。

为便于理解步骤S240和步骤S250所示的先后训练过程，作为一种可选示例，若统一设置每个语音信号处理任务相应的权重为1，且以多个语音信号处理任务包括：回声消除任务和语音检测任务为例；则本发明实施例进行语音信号处理模型的训练过程可以如图8所示，过程如下：

先将样本语音的回声消除任务的输入特征，作为多任务神经网络的训练输入，以最小化回声消除任务的训练损失函数为训练目标，对多任务神经网络的共享层和回声消除任务对应的任务层的参数进行更新，直至多任务神经网络的迭代次数达到最大次，或者，回声消除任务的训练损失函数不再减小，得到第一多任务神经网络。其中，该回声消除任务的输入特征可以为：样本语音的带噪单通道语音的频谱能量及标注为干净语音的频谱能量；该训练目标可以为：最小化所估计的干净语音频谱能量与真实值的差异值。

进而，将样本语音的回声消除任务和语音检测任务的输入特征，作为第一多任务神经网络的训练输入；以最小化回声消除任务的训练损失函数与语音检测任务的训练损失函数的和，为训练目标；对第一多任务神经网络的共享层，回声消除任务和语音检测任务层的参数进行更新，直至第一多任务神经网络的迭代次数达到最大次，或者，回声消除任务的训练损失函数与语音检测任务的训练损失函数的和不再减小，得到语音信号处理模型。

可见，基于图7所示语音信号处理模型训练方法，本发明实施例可从多个语音信号处理任务中确定出基本任务，或者训练复杂度较高的任务，得到至少一个第一类语音信号处理任务；进而先以第一类语音信号处理任务的任务输入特征，作为多任务神经网络的训练输入，进行多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数更新训练，得到第一多任务神经网络；然后再以每个语音信号处理任务的任务输入特征，作为第一多任务神经网络的训练输入，进行第一多任务神经网络的共享层和每个任务层的参数更新训练，训练得到语音信号处理模型。

这个过程中，由于没有对每一语音信号处理任务均单独进行神经网络的训练，因此，降低了训练语音信号处理模型所涉及的计算复杂度；同时，先以第一类语音信号处理任务的输入特征进行多任务神经网络的训练，再以每个语音信号处理任务的任务输入特征，作为训练输入进行多任务神经网络的训练，可使得训练过程可体现语音信号处理任务之间的关联性，保障多任务神经网络的参数能够有效收敛，保障了训练得出的语音信号处理模型的可靠性能。

图7所示方法进行语音信号处理模型训练的过程中，是先根据第一类语音信号处理任务的任务输入特征，进行多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新，训练得到第一多任务神经网络；在训练得到第一多任务神经网络的过程中，由于第一类语音信号处理任务是语音信号处理过程中的基本任务或者训练复杂度较高的任务，因此，第一类语音信号处理任务对应的任务层的参数的可靠收敛，对于后续训练得出的语音信号处理模型的性能尤为关键。

可选的，本发明实施例中，还可以根据第一类语音信号处理任务的不同输入特征分多个阶段的，进行第一类语音信号处理任务对应的任务层的参数的收敛训练，以进一步保障第一类语音信号处理任务对应的任务层的参数的有效收敛。可选的，图9示出了本发明实施例提供的语音信号处理模型训练方法的再一种可选流程，需要说明的是，图9所示流程仅是可选的，在进行第一多任务神经网络的训练时，也可直接基于所有第一类语音信号处理任务的任务输入特征，直接进行第一多任务神经网络的训练，而不需如图9所示分多个阶段的进行第一多任务神经网络的训练；

可选的，图9所示方法可应用于具有数据处理能力的电子设备，参照图9，该方法流程可以包括：

步骤S300、电子设备获取样本语音。

步骤S310、电子设备从语音信号处理过程的多个语音信号处理任务中，确定至少一个第一类语音信号处理任务。

可选的，步骤S310的实现过程，为与步骤S210的过程同理的过程，步骤S310的描述可参照步骤S210部分描述，此处不再一一赘述。

步骤S320、电子设备确定样本语音的第一类语音信号处理任务的任务输入特征，及样本语音的每个类语音信号处理任务的任务输入特征；该第一类语音信号处理任务的任务输入特征包括：多份任务输入特征；一份任务输入特征所包含的特征数量为至少一个。

可选的，在本发明实施例中，对于一第一类语音信号处理任务而言，任一第一类语音信号处理任务的任务输入特征可以为多份，任一份任务输入特征所包含的特征数量可以为至少一个。

作为一种可选示例，以第一类语音信号处理任务包括回声消除任务为例，则对于回声消除任务，本发明实施例可设置多份任务输入特征，如设置回声消除任务的第一份任务输入特征为：带噪单通道语音的频谱能量，及标注为干净语音的频谱能量；设置回声消除任务的第二份任务输入特征为：多通道语音的频谱能量；设置回声消除任务的第三份任务输入特征为：多通道语音的频谱能量，及参考信号的频谱能量(如智能音箱播放的音乐)等。

步骤S330、电子设备根据第一类语音信号处理任务的训练损失函数，确定第一目标训练损失函数；及根据每个语音信号处理任务的训练损失函数，确定目标训练损失函数。

可选的，步骤S330的实现过程，为与步骤S230的过程同理的过程，步骤S330的介绍可参照步骤S230部分描述，此处不再一一赘述。

步骤S340、电子设备根据当前训练阶段，从样本语音的第一类语音信号处理任务的多份任务输入特征中，选取当前训练阶段相应的当前份任务输入特征；将该当前份任务输入特征，作为上一训练阶段训练完成的多任务神经网络的训练输入，以最小化第一目标训练损失函数为训练目标，对上一训练阶段训练完成的多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新，直至根据最后一份任务输入特征，训练的多任务神经网络达到收敛，得到第一多任务神经网络。

可选的，步骤S340可以认为是，电子设备根据样本语音的第一类语音信号处理任务的多份任务输入特征，分多个训练阶段递进的对多任务神经网络进行训练，得到第一多任务神经网络的一种可选实现，其中，一个训练阶段使用一份任务输入特征作为训练输入，且以最小化第一目标训练损失函数为训练目标；其中，分多个训练阶段递进的对多任务神经网络进行训练的过程可以为：分多个训练阶段递进的对多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新。另外，除通过步骤S340实现外，本发明实施例并不排除其他的，利用样本语音的第一类语音信号处理任务的多份任务输入特征，分多个训练阶段递进的对多任务神经网络进行训练的其他方式。

可选的，在步骤S340中，本发明实施例可分多个训练阶段的进行第一多任务神经网络的训练，从而依训练阶段的将第一类语音信号处理任务的每份任务输入特征，分别作为训练输入，对多任务神经网络进行训练，以得到第一多任务神经网络；且，在当前训练阶段中，第一类语音信号处理任务当前选取的当前份任务输入特征，作为上一训练阶段训练完成的多任务神经网络的训练输入。

可选的，作为示例，以第一类语音信号处理任务的任务输入特征包括三份，分别为第一份任务输入特征，第二份任务输入特征，第三份任务输入特征为例；则本发明实施例可先以第一份任务输入特征作为待训练的多任务神经网络的训练输入，以最小化第一目标训练损失函数为训练目标，对多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新，直至根据第一份任务输入特征，训练的多任务神经网络达到收敛，得到第一训练阶段训练完成的多任务神经网络；其中，以第一份任务输入特征作为待训练的多任务神经网络的训练输入的过程可以为：对于第一训练阶段，所选取的当前训练阶段的任务输入特征为第一份任务输入特征。

然后，以第二份任务输入特征作为第一训练阶段训练完成的多任务神经网络的训练输入，以最小化第一目标训练损失函数为训练目标，对第一训练阶段训练完成的多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新，直至根据第二份任务输入特征，训练的多任务神经网络达到收敛，得到第二训练阶段训练完成的多任务神经网络；其中，以第二份任务输入特征作为第一训练阶段训练完成的多任务神经网络的训练输入的过程可以为：对于第二训练阶段，所选取的当前训练阶段的任务输入特征为第二份任务输入特征。

再以第三份任务输入特征作为第二训练阶段训练完成的多任务神经网络的训练输入，以最小化第一目标训练损失函数为训练目标，对第二训练阶段训练完成的多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新，直至根据第三份任务输入特征，训练的多任务神经网网络达到收敛，得到第一多任务神经网络，完成基于第一类语音信号处理任务的多份任务输入特征，分多个训练阶段的训练得到第一多任务神经网络的过程。其中，以第三份任务输入特征作为第二训练阶段训练完成的多任务神经网络的训练输入的过程可以为：对于第三训练阶段，所选取的当前训练阶段的任务输入特征为第三份任务输入特征。

为便于理解，以第一类语音信号处理任务为回声消除任务为例，则回声消除任务的第一份任务输入特征为：带噪单通道语音的频谱能量，及标注为干净语音的频谱能量；回声消除任务的第二份任务输入特征为：多通道语音的频谱能量；回声消除任务的第三份任务输入特征为：多通道语音的频谱能量，及参考信号的频谱能量等；其中，该参考信号的频谱能量可以为：智能音箱播放的音乐。

相应的，本发明实施例可先以样本语音的带噪单通道语音的频谱能量，及标注为干净语音的频谱能量作为多任务神经网络的训练输入，以最小化所估计的干净语音频谱能量与真实值的差异值为训练目标，更新多任务神经网络的共享层和回声消除任务的任务层的参数，直至迭代次数达到最大次数或者训练目标不再减小。

然后，以样本语音的多通道语音的频谱能量作为上段训练完成的多任务神经网络的训练输入，以最小化所估计的干净语音频谱能量与真实值的差异值为训练目标，更新多任务神经网络的共享层和回声消除任务的任务层的参数，直至迭代次数达到最大次数或者训练目标不再减小，使得训练后的多任务神经网络具备多通道的空间滤波的能力。

在完成多通道训练之后，还可以样本语音的多通道语音的频谱能量，及参考信号的频谱能量作为上段训练完成的多任务神经网络的训练输入，以最小化所估计的干净语音频谱能量与真实值的差异值为训练目标，更新多任务神经网络的共享层和回声消除任务的任务层的参数，直至迭代次数达到最大次数或者训练目标不再减小，得到第一多任务神经网络，使得第一多任务神经网络能够较好地拟合多通道输入信号和参考信号。

可选的，上述的第一类语音信号处理任务的多份任务输入特征的示例仅是可选的，本发明实施例可根据具体情况，设置第一类语音信号处理任务的任务输入特征的份数，以及每份任务输入特征所包含的具体特征；如在上述的示例中，带噪单通道语音的频谱能量、标注为干净语音的频谱能量、和多通道语音的频谱能量的任务输入特征也可合并在一起训练。

步骤S350、电子设备将样本语音的每个语音信号处理任务的任务输入特征，作为第一多任务神经网络的训练输入，以最小化目标训练损失函数为训练目标，对第一多任务神经网络的共享层和每个语音信号处理任务对应的任务层的参数进行更新，直至第一多任务神经网络收敛，得到语音信号处理模型。

可选的，步骤S350的实现过程，为与步骤S250的过程同理的过程，步骤S350的介绍可参照步骤S250部分描述，此处不再一一赘述。

可选的，在得到第一多任务神经网络后，对于语音检测、方向检测和混响消除等语音信号处理任务而言，这些任务较为简单且互相之间相对独立，可以合并在一起训练，因此可在得到第一多任务神经网络后，结合样本语音的每个语音信号处理任务的任务输入特征，进行第一多任务神经网络的训练，得到语音信号处理模型。

需要说明的是，上述无论采用何种训练方式进行，在进行共享层和某一任务层的参数更新时，共享层的参数更新，基于当前训练所使用的所有任务的训练损失函数之和进行；而一任务层的参数更新，基于该任务层对应的任务的训练损失函数进行，从而可使得训练的语音信号处理模型既可通过共享层体现具有共性的语音信号处理任务之间的关联性，又可通过每个任务层体现相应的语音信号处理任务的任务特性。

对上述说明的语音信号处理模型的各种训练过程进行归纳、总结，则本发明实施例提供的语音信号处理模型训练方法的基本核心流程可以如图10所示，图10为本发明实施例提供的语音信号处理模型训练方法的又一种可选流程，参照图10，该方法流程可以包括：

步骤S400、电子设备获取样本语音，确定样本语音的每个语音信号处理任务的任务输入特征。

可选的，步骤S400的介绍可参照步骤S100部分描述，步骤S400的实现过程，为与步骤S100的过程同理的过程，此处不再一一赘述。

步骤S410、电子设备根据每个语音信号处理任务的训练损失函数，确定目标训练损失函数。

可选的，步骤S410的介绍可参照步骤S110部分描述，步骤S410的实现过程，为与步骤S110的过程同理的过程，此处不再一一赘述。

步骤S420、电子设备将样本语音的每个语音信号处理任务的任务输入特征，作为待训练的多任务神经网络的训练输入，以最小化目标训练损失函数为训练目标，对待训练的多任务神经网络的共享层和每个任务层的参数进行更新，直至待训练的多任务神经网络达到收敛，得到语音信号处理模型。

可选的，作为一种可选实现，在步骤S420中，待训练的多任务神经网络可以是初始的多任务神经网络(相应的过程可归结到由图5所示流程实现)；

可选的，作为另一种可选实现，在步骤S420中，待训练的多任务神经网络也可以是第一多任务神经网络，本发明实施例可利用图7所示方法流程中训练得到第一多任务神经网络的流程，先训练得到第一多任务神经网络，将第一多任务神经网络作为待训练的多任务神经网络；然后以图10所示方法，将样本语音的每个语音信号处理任务的任务输入特征，作为第一多任务神经网络的训练输入，以最小化目标训练损失函数为训练目标，对第一多任务神经网络的共享层和每个任务层的参数进行更新，直至第一多任务神经网络收敛，得到语音信号处理模型。

可选的，第一多任务神经网络的训练，可基于样本语音的第一类语音信号处理任务的任务输入特征实现；进一步，作为一种可选示例，第一类语音信号处理任务可以具有多份任务输入特征，本发明实施例可基于图9所示的第一多任务神经网络的训练流程，分多个训练阶段，训练得到第一多任务神经网络。

需要说明的是，上述的待训练的多任务神经网络无论是初始的多任务神经网络，还是第一多任务神经网络，待训练的多任务神经网络的结构必然是包括了共享层，和每个语音信号处理任务对应的任务层；而对于该共享层，是以最小化目标训练损失函数为训练目标，根据目标训练损失函数，对共享层的参数进行更新；对于任一语音信号处理任务对应的任务层，是以最小化目标训练损失函数为训练目标，根据该语音信号处理任务的训练损失函数，对该语音信号处理任务的任务层的参数进行更新。

本发明实施例提供的语音信号处理模型训练方法，可基于包括共享层和每个语音信号处理任务对应的任务层的多任务神经网络，训练得到语音信号处理模型，而不是相对于每一语音信号处理任务均单独进行神经网络的训练，有效的降低了训练语音信号处理模型的计算复杂度，提升了训练效率。

进一步，可在语音信号处理模型的训练过程中，通过先基于样本语音的第一类语音信号处理任务的任务输入特征进行训练，然后基于每个语音信号处理任务的任务输入特征进行训练，可挖掘出语音信号处理过程中多任务之间的关联性，提升语音信号处理性能，保障训练得到的语音信号处理模型的性能可靠。

在以上述方法流程训练得到语音信号处理模型后，可选的，本发明实施例可使用语音信号处理模型替代终端传统的语音信号处理过程，如具体可用语音信号处理模型的每个任务层的输出结果，替代终端传统的每个任务层对应语音信号处理任务的任务处理结果。

而在另一种实现上，本发明实施例可使用语音信号处理模型，辅助终端传统的语音信号处理过程，如具体可用语音信号处理模型的每个任务层的输出，辅助终端传统的相应的语音信号处理任务进行任务处理。

图11示出了语音信号处理模型的应用场景示例图，如图11所示，在训练得到语音信号处理模型，本发明实施例可使用语音信号处理模型对输入即时通讯客户端的待识别语音，进行前端的语音信号处理，然后输送到即时通讯应用的语音后台服务器进行语音识别；可选的，即时通讯客户端可将语音信号处理模型的每个任务层对待识别语音的输出，分别作为相应的语音信号处理任务的辅助处理信号，从而辅助每个语音信号处理任务的处理，提高了每个语音信号处理任务的结果输出的准确性。

参照图11，作为一种可选应用场景，在即时通讯客户端装载本发明实施例训练好的语音信号处理模型的基础上，具体应用过程可以包括：

S1、即时通讯客户端获取输入的待识别语音。

S2、即时通讯客户端根据待训练的语音信号处理模型，确定语音信号处理模型的每个任务层对待识别语音的输出结果。

其中，语音信号处理模型以最小化目标训练损失函数为训练目标，训练多任务神经网络得到；其中，目标训练损失函数根据每个语音信号处理任务的训练损失函数确定；多任务神经网络包括共享层，和每个语音信号处理任务对应的任务层。

S3、即时通讯客户端将每个任务层对待识别语音的输出结果，作为每个任务层对应的语音信号处理任务的任务处理结果，或，使用每个任务层对待识别语音的输出结果，辅助相应的语音信号处理任务进行任务处理，以得到前端的语音信号处理结果。

S4、即时通讯客户端将前端的语音信号处理结果，发送给语音后台服务器，以便语音后台服务器根据语音信号处理结果，对待识别语音进行语音识别。

可选的，图12示出了语音信号处理模型的输出结果的一种使用示例，参照图12，针对终端传统的回声消除任务，语音信号处理模型的回声消除任务层可输出待识别语音的语音谱估计结果，从而将该语音谱估计结果作为终端传统的回声消除任务的辅助处理信号，使得回声消除任务在处理时能够更好的区分参考信号和语音信号的比例，提升回声消除任务的输出结果的准确性；显然，在另一种实现上，本发明实施例也可直接将语音信号处理模型的回声消除任务层对待识别语音的输出结果，作为回声消除任务的输出结果。

针对语音检测任务，语音信号处理模型的语音检测任务层可输出待识别语音的输出结果，将该输出结果作为终端传统的语音检测任务的辅助处理信号，使得语音检测任务的输出结果的准确性得以提升；其中，可以将语音检测任务层的输出结果，与终端传统的语音检测任务的输出结果的加权平均值作为最后的语音检测任务的输出结果。显然，在另一种实现上，本发明实施例也可直接将语音信号处理模型的语音检测任务层对待识别语音的输出结果，作为语音检测任务的输出结果。

针对语音方向检测任务，语音信号处理模型的语音方向检测任务层可输出待识别语音的输出结果，从而用该输出结果辅助终端传统的语音方向检测任务，进行待识别语音的语音和噪声的估计，从而得到更为准确的语音方向估计结果；其中，语音方向检测任务层输出的待识别语音的输出结果可以为：待识别语音的语音/噪声谱估计结果。显然，在另一种实现上，本发明实施例也可直接将语音方向检测任务层输出的待识别语音的语音/噪声谱估计结果，作为语音方向检测任务的输出结果。

针对麦克风阵列增强任务，语音信号处理模型的麦克风阵列增强任务层可输出待识别语音的语音/噪声谱，以此辅助终端传统的麦克风阵列增强任务，从而更准确的估计出阵列算法的目标方向，以及阵列算法中所需要的噪声协方差矩阵等参数；显然，在另一种实现上，本发明实施例也可直接将麦克风阵列增强任务层的输出结果，作为麦克风阵列增强任务的输出结果。

针对单通道降噪任务，语音信号处理模型的单通道降噪任务层可输出待识别语音的语音/噪声谱，从而辅助终端传统的单通道降噪任务，实现单通道降噪任务中所需要的信噪比等关键参数的获取，提升单通道降噪任务的处理效果；显然，在另一种实现上，本发明实施例也可直接将单通道降噪任务层的输出结果，作为单通道降噪任务的输出结果。

针对混响消除任务，语音信号处理模型的混响消除任务层可输出房间混响估计，从而辅助终端传统的混响消除任务进行算法的参数调节，来控制混响消除的程度；显然，在另一种实现上，本发明实施例也可直接将混响消除任务层的输出结果，作为混响消除任务的输出结果。

可选的，上述描述的语音信号处理模型在待识别语音的语音信号处理过程中的应用仅是示例，可以理解为是在智能音箱场景下的语音信号处理过程的应用；显然，在不同的应用场景下，语音信号处理模型的应用方式可以根据实际情况适配调整，但不脱离使用语音信号处理模型替代终端传统的语音信号处理过程，或，使用语音信号处理模型，辅助终端传统的语音信号处理过程的思路。

下面对本发明实施例提供的语音信号处理模型训练装置进行介绍，下文描述的语音信号处理模型训练装置可以认为是，电子设备为实现本发明实施例提供的语音信号处理模型训练方法，所需设置的程序模块；下文描述的语音信号处理模型训练装置可与上文描述的语音信号处理模型训练方法相互对应参照。

图13为本发明实施例提供的语音信号处理模型训练装置的结构框图，该装置可应用于具有数据处理能力的电子设备，参照图13，该装置可以包括：

任务输入特征确定模块100，用于获取样本语音，确定样本语音的每个语音信号处理任务的任务输入特征；

目标损失函数确定模块200，用于根据每个语音信号处理任务的训练损失函数，确定目标训练损失函数；

模型训练模块300，用于将样本语音的每个语音信号处理任务的任务输入特征，作为待训练的多任务神经网络的训练输入，以最小化目标训练损失函数为训练目标，对待训练的多任务神经网络的共享层和每个任务层的参数进行更新，直至待训练的多任务神经网络收敛，得到语音信号处理模型；

其中，该待训练的多任务神经网络包括：共享层，和每个语音信号处理任务对应的任务层。

可选的，模型训练模块300，用于以最小化目标训练损失函数为训练目标，对待训练的多任务神经网络的共享层和每个任务层的参数进行更新，具体包括：

对于该共享层，以最小化目标训练损失函数为训练目标，根据目标训练损失函数，对共享层的参数进行更新；及对于任一语音信号处理任务对应的任务层，以最小化目标训练损失函数为训练目标，根据该语音信号处理任务的训练损失函数，对该语音信号处理任务的任务层的参数进行更新。

可选的，该待训练的多任务神经网络可以包括：第一多任务神经网络；相应的，图14示出了本发明实施例提供的语音信号处理模型训练装置的另一结构框图，结合图13和图14所示，该装置还可以包括：

第一网络训练模块400，用于从语音信号处理过程的多个语音信号处理任务中，确定至少一个第一类语音信号处理任务；确定样本语音的第一类语音信号处理任务的任务输入特征；根据第一类语音信号处理任务的训练损失函数，确定第一目标训练损失函数；将样本语音的第一类语音信号处理任务的任务输入特征，作为初始的多任务神经网络的训练输入，以最小化第一目标训练损失函数为训练目标，对初始的多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新，直至初始的多任务神经网络收敛，得到第一多任务神经网络。

可选的，第一网络训练模块400，用于从语音信号处理过程的多个语音信号处理任务中，确定至少一个第一类语音信号处理任务，具体包括：

确定该多个语音信号处理任务中的基本任务，将该基本任务确定为第一类语音信号处理任务，该基本任务为该多个语音信号处理任务中，相对于其他的语音信号处理任务具有辅助效果的任务。

可选的，第一网络训练模块400，还用于从语音信号处理过程的多个语音信号处理任务中，确定至少一个第一类语音信号处理任务，具体包括：

将该多个语音信号处理任务中，训练复杂度高于设定的复杂度阈值的语音信号处理任务，确定为第一类语音信号处理任务。

可选的，该第一网络训练模块400，用于根据第一类语音信号处理任务的训练损失函数，确定第一目标训练损失函数，具体包括：

对于任一第一类语音信号处理任务，将该第一类语音信号处理任务的训练损失函数，乘以该第一类语音信号处理任务相应的权重，得到该第一类语音信号处理任务的相乘结果，以确定出每个第一类语音信号处理任务的相乘结果；

将每个第一类语音信号处理任务的相乘结果相加，得到第一目标训练损失函数。

可选的，该样本语音的第一类语音信号处理任务的任务输入特征包括：多份任务输入特征；一份任务输入特征所包含的特征数量为至少一个；

相应的，第一网络训练模块400，用于将样本语音的第一类语音信号处理任务的任务输入特征，作为初始的多任务神经网络的训练输入，以最小化第一目标训练损失函数为训练目标，对初始的多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新，直至初始的多任务神经网络收敛，得到第一多任务神经网络，具体包括：

根据样本语音的第一类语音信号处理任务的多份任务输入特征，分多个训练阶段递进的对初始的多任务神经网络进行训练，得到第一多任务神经网络；其中，一个训练阶段使用样本语音的第一类语音信号处理任务的一份任务输入特征作为训练输入，且以最小化第一目标训练损失函数为训练目标。

可选的，第一网络训练模块400，用于根据样本语音的第一类语音信号处理任务的多份任务输入特征，分多个训练阶段递进的对初始的多任务神经网络进行训练，得到第一多任务神经网络，具体包括：

根据当前训练阶段，从该样本语音的第一类语音信号处理任务的多份任务输入特征中，选取该当前训练阶段相应的当前份任务输入特征；将该当前份任务输入特征，作为上一训练阶段训练完成的多任务神经网络的训练输入，以最小化第一目标训练损失函数为训练目标，对该上一训练阶段训练完成的多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新，直至根据最后一份任务输入特征，训练的多任务神经网络达到收敛，得到第一多任务神经网络。

可选的，在另一种实现上，该待训练的多任务神经网络可以包括：初始的多任务神经网络；该目标损失函数确定模块200，用于根据每个语音信号处理任务的训练损失函数，确定目标训练损失函数，具体包括：

对于任一语音信号处理任务，将该语音信号处理任务的训练损失函数，乘以该语音信号处理任务相应的权重，得到该语音信号处理任务相应的相乘结果，以确定出每个语音信号处理任务相应的相乘结果；

将每个语音信号处理任务相应的相乘结果相加，得到目标训练损失函数。

可选的，多任务神经网络中的共享层可以包括LSTM网络，每个语音信号处理任务对应的任务层可以包括：每个语音信号处理任务对应的MLP全连接网络；

可选的，模型训练模块300，用于对待训练的多任务神经网络的共享层和每个任务层的参数进行更新，可以具体包括：

对待训练的多任务神经网络的LSTM网络的输入层到隐含层的连接参数、隐含层到输出层的连接参数或隐含层到隐含层之间的连接参数进行更新；及，对每个语音信号处理任务对应的MLP全连接网络的输入层到隐含层的连接参数或隐含层到输出层的连接参数进行更新。

可选的，在训练得到语音信号处理模型后，可在语音前端的语音信号处理过程中进行应用；可选的，图15示出了本发明实施例提供的语音信号处理模型训练装置的再一结构框图，结合图14和图15所示，该装置还可以包括：

模型应用模块500，用于确定语音信号处理模型的每个任务层对待识别语音的输出结果；将每个任务层对待识别语音的输出结果，作为该每个任务层对应的语音信号处理任务的任务处理结果。

可选的，模型应用模块500，还用于确定该语音信号处理模型的每个任务层对待识别语音的输出结果；使用每个任务层对待识别语音的输出结果，辅助该每个任务层对应的语音信号处理任务进行任务处理。

可选的，模型应用模块500也可在图13所示装置中进行使用。

本发明实施例提供的语音信号处理模型训练装置可应用于电子设备中，可选的，该电子设备的硬件结构可以如图16所示，包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本发明实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；可选的，处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器；

其中，该存储器存储有程序，该处理器调用该程序，该程序用于：

获取样本语音，确定样本语音的每个语音信号处理任务的任务输入特征；根据该每个语音信号处理任务的训练损失函数，确定目标训练损失函数；将样本语音的每个语音信号处理任务的任务输入特征，作为待训练的多任务神经网络的训练输入，以最小化目标训练损失函数为训练目标，对待训练的多任务神经网络的共享层和每个任务层的参数进行更新，直至待训练的多任务神经网络收敛，得到语音信号处理模型；

可选的，该程序还用于：

对于该共享层，以最小化目标训练损失函数为训练目标，根据该目标训练损失函数，对该共享层的参数进行更新；

对于任一语音信号处理任务对应的任务层，以最小化目标训练损失函数为训练目标，根据该语音信号处理任务的训练损失函数，对该语音信号处理任务的任务层的参数进行更新。

可选的，该程序还用于：

从语音信号处理过程的多个语音信号处理任务中，确定至少一个第一类语音信号处理任务；

确定该样本语音的第一类语音信号处理任务的任务输入特征；

根据该第一类语音信号处理任务的训练损失函数，确定第一目标训练损失函数；

将该样本语音的第一类语音信号处理任务的任务输入特征，作为初始的多任务神经网络的训练输入，以最小化第一目标训练损失函数为训练目标，对该初始的多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新，直至该初始的多任务神经网络收敛，得到第一多任务神经网络。

可选的，该程序还用于：

将每个第一类语音信号处理任务的相乘结果相加，得到该第一目标训练损失函数。

可选的，该程序还用于：

确定该多个语音信号处理任务中的基本任务，将该基本任务确定为该第一类语音信号处理任务，该基本任务为该多个语音信号处理任务中，相对于其他的语音信号处理任务具有辅助效果的任务。

可选的，该程序还用于：

将该多个语音信号处理任务中，训练复杂度高于设定的复杂度阈值的语音信号处理任务，确定为该第一类语音信号处理任务。

可选的，该程序还用于：

根据该样本语音的第一类语音信号处理任务的多份任务输入特征，分多个训练阶段递进的对该初始的多任务神经网络进行训练，得到该第一多任务神经网络；

其中，一个训练阶段使用该样本语音的第一类语音信号处理任务的一份任务输入特征作为训练输入，且以最小化第一目标训练损失函数为训练目标。

可选的，该程序还用于：

根据当前训练阶段，从该样本语音的第一类语音信号处理任务的多份任务输入特征中，选取该当前训练阶段相应的当前份任务输入特征；

将该当前份任务输入特征，作为上一训练阶段训练完成的多任务神经网络的训练输入，以最小化第一目标训练损失函数为训练目标，对该上一训练阶段训练完成的多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新，直至根据最后一份任务输入特征，训练的多任务神经网络达到收敛，得到第一多任务神经网络。

可选的，该程序还用于：

对该待训练的多任务神经网络的LSTM网络的输入层到隐含层的连接参数、隐含层到输出层的连接参数或隐含层到隐含层之间的连接参数进行更新；

对该每个语音信号处理任务对应的MLP全连接网络的输入层到隐含层的连接参数或隐含层到输出层的连接参数进行更新。

可选的，该程序还用于：

确定语音信号处理模型的每个任务层对待识别语音的输出结果；

将每个任务层对待识别语音的输出结果，作为该每个任务层对应的语音信号处理任务的任务处理结果。

可选的，该程序还用于：

确定该语音信号处理模型的每个任务层对待识别语音的输出结果；

使用该每个任务层对待识别语音的输出结果，辅助该每个任务层对应的语音信号处理任务进行任务处理。

其中，该程序的细化功能和扩展功能可参照上文相应部分。

进一步，本发明实施例还提供一种存储介质，该存储介质可选如存储器，所述存储介质存储有适用于处理器执行的程序，所述程序用于：

获取样本语音，确定样本语音的每个语音信号处理任务的任务输入特征；根据每个语音信号处理任务的训练损失函数，确定目标训练损失函数；将样本语音的每个语音信号处理任务的任务输入特征，作为待训练的多任务神经网络的训练输入，以最小化目标训练损失函数为训练目标，对待训练的多任务神经网络的共享层和每个任务层的参数进行更新，直至待训练的多任务神经网络收敛，得到语音信号处理模型；其中，所述待训练的多任务神经网络包括：共享层，和每个语音信号处理任务对应的任务层。

可选的，所述程序的细化功能和扩展功能可参照上文相应部分。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的核心思想或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

一种语音信号处理模型训练方法，其特征在于，所述方法应用在电子设备上，包括：

获取样本语音，确定所述样本语音的每个语音信号处理任务的任务输入特征；

根据所述每个语音信号处理任务的训练损失函数，确定目标训练损失函数；

将所述样本语音的每个语音信号处理任务的任务输入特征，作为待训练的多任务神经网络的训练输入，以最小化目标训练损失函数为训练目标，对所述待训练的多任务神经网络的共享层和每个任务层的参数进行更新，直至所述待训练的多任务神经网络收敛，得到语音信号处理模型；

其中，所述待训练的多任务神经网络包括：共享层，和每个语音信号处理任务对应的任务层。
根据权利要求1所述的语音信号处理模型训练方法，其特征在于，所述以最小化目标训练损失函数为训练目标，对所述待训练的多任务神经网络的共享层和每个任务层的参数进行更新包括：

对于所述共享层，以最小化目标训练损失函数为训练目标，根据所述目标训练损失函数，对所述共享层的参数进行更新；

对于任一语音信号处理任务对应的任务层，以最小化目标训练损失函数为训练目标，根据所述语音信号处理任务的训练损失函数，对所述语音信号处理任务的任务层的参数进行更新。
根据权利要求1所述的语音信号处理模型训练方法，其特征在于，所述待训练的多任务神经网络包括：第一多任务神经网络；所述方法还包括：

从语音信号处理过程的多个语音信号处理任务中，确定至少一个第一类语音信号处理任务；

确定所述样本语音的第一类语音信号处理任务的任务输入特征；

根据所述第一类语音信号处理任务的训练损失函数，确定第一目标训练损失函数；

将所述样本语音的第一类语音信号处理任务的任务输入特征，作为初始的多任务神经网络的训练输入，以最小化第一目标训练损失函数为训练目标，对所述初始的多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新，直至所述初始的多任务神经网络收敛，得到第一多任务神经网络。
根据权利要求3所述的语音信号处理模型训练方法，其特征在于，所述从语音信号处理过程的多个语音信号处理任务中，确定至少一个第一类语音信号处理任务包括：

确定所述多个语音信号处理任务中的基本任务，将所述基本任务确定为所述第一类语音信号处理任务，所述基本任务为所述多个语音信号处理任务中，相对于其他的语音信号处理任务具有辅助效果的任务。
根据权利要求3所述的语音信号处理模型训练方法，其特征在于，所述从语音信号处理过程的多个语音信号处理任务中，确定至少一个第一类语音信号处理任务包括：

将所述多个语音信号处理任务中，训练复杂度高于设定的复杂度阈值的语音信号处理任务，确定为所述第一类语音信号处理任务。
根据权利要求1所述的语音信号处理模型训练方法，其特征在于，所述待训练的多任务神经网络包括：初始的多任务神经网络；所述根据每个语音信号处理任务的训练损失函数，确定目标训练损失函数包括：

对于任一语音信号处理任务，将所述语音信号处理任务的训练损失函数，乘以该语音信号处理任务相应的权重，得到该语音信号处理任务相应的相乘结果，以确定出每个语音信号处理任务相应的相乘结果；

将每个语音信号处理任务相应的相乘结果相加，得到目标训练损失函数。
根据权利要求1所述的语音信号处理模型训练方法，其特征在于，所述共享层包括长短期记忆LSTM网络，所述每个语音信号处理任务对应的任务层包括：每个语音信号处理任务对应的多层感知器MLP全连接网络；

所述对所述待训练的多任务神经网络的共享层和每个任务层的参数进行更新包括：

对所述待训练的多任务神经网络的LSTM网络的输入层到隐含层的连接参数、隐含层到输出层的连接参数或隐含层到隐含层之间的连接参数进行更新；

对所述每个语音信号处理任务对应的MLP全连接网络的输入层到隐含层的连接参数或隐含层到输出层的连接参数进行更新。
一种电子设备，其特征在于，包括：至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述存储器存储的程序，所述程序用于：

获取样本语音，确定所述样本语音的每个语音信号处理任务的任务输入特征；

根据所述每个语音信号处理任务的训练损失函数，确定目标训练损失函数；

将所述样本语音的每个语音信号处理任务的任务输入特征，作为待训练的多任务神经网络的训练输入，以最小化目标训练损失函数为训练目标，对待训练的多任务神经网络的共享层和每个任务层的参数进行更新，直至待训练的多任务神经网络收敛，得到语音信号处理模型；其中，所述待训练的多任务神经网络包括：共享层，和每个语音信号处理任务对应的任务层。
根据权利要求8所述的电子设备，其特征在于，所述程序还用于：

对于所述共享层，以最小化目标训练损失函数为训练目标，根据所述目标训练损失函数，对所述共享层的参数进行更新；

对于任一语音信号处理任务对应的任务层，以最小化目标训练损失函数为训练目标，根据所述语音信号处理任务的训练损失函数，对所述语音信号处理任务的任务层的参数进行更新。
根据权利要求8所述的电子设备，其特征在于，所述程序还用于：

从语音信号处理过程的多个语音信号处理任务中，确定至少一个第一类语音信号处理任务；

确定所述样本语音的第一类语音信号处理任务的任务输入特征；

根据所述第一类语音信号处理任务的训练损失函数，确定第一目标训练损失函数；

将所述样本语音的第一类语音信号处理任务的任务输入特征，作为初始的多任务神经网络的训练输入，以最小化第一目标训练损失函数为训练目标，对所述初始的多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新，直至所述初始的多任务神经网络收敛，得到第一多任务神经网络。
根据权利要求10所述的电子设备，其特征在于，所述程序还用于：

对于任一第一类语音信号处理任务，将所述第一类语音信号处理任务的训练损失函数，乘以所述第一类语音信号处理任务相应的权重，得到所述第一类语音信号处理任务的相乘结果，以确定出每个第一类语音信号处理任务的相乘结果；

将每个第一类语音信号处理任务的相乘结果相加，得到所述第一目标训练损失函数。
根据权利要求10所述的电子设备，其特征在于，所述程序还用于：

确定所述多个语音信号处理任务中的基本任务，将所述基本任务确定为所述第一类语音信号处理任务，所述基本任务为所述多个语音信号处理任务中，相对于其他的语音信号处理任务具有辅助效果的任务。
根据权利要求10所述的电子设备，其特征在于，所述程序还用于：

将所述多个语音信号处理任务中，训练复杂度高于设定的复杂度阈值的语音信号处理任务，确定为所述第一类语音信号处理任务。
根据权利要求10所述的电子设备，其特征在于，所述程序还用于：

根据所述样本语音的第一类语音信号处理任务的多份任务输入特征，分多个训练阶段递进的对所述初始的多任务神经网络进行训练，得到所述第一多任务神经网络；

其中，一个训练阶段使用所述样本语音的第一类语音信号处理任务的一份任务输入特征作为训练输入，且以最小化第一目标训练损失函数为训练目标。
根据权利要求12所述的电子设备，其特征在于，所述程序还用于：

根据当前训练阶段，从所述样本语音的第一类语音信号处理任务的多份任务输入特征中，选取所述当前训练阶段相应的当前份任务输入特征；

将所述当前份任务输入特征，作为上一训练阶段训练完成的多任务神经网络的训练输入，以最小化第一目标训练损失函数为训练目标，对所述上一训练阶段训练完成的多任务神经网络的共享层和第一类语音信号处理任务对应的任务层的参数进行更新，直至根据最后一份任务输入特征，训练的多任务神经网络达到收敛，得到第一多任务神经网络。
根据权利要求8所述的电子设备，其特征在于，所述程序还用于：

对于任一语音信号处理任务，将所述语音信号处理任务的训练损失函数，乘以该语音信号处理任务相应的权重，得到该语音信号处理任务相应的相乘结果，以确定出每个语音信号处理任务相应的相乘结果；

将每个语音信号处理任务相应的相乘结果相加，得到目标训练损失函数。
根据权利要求8所述的电子设备，其特征在于，所述程序还用于：

对所述待训练的多任务神经网络的LSTM网络的输入层到隐含层的连接参数、隐含层到输出层的连接参数或隐含层到隐含层之间的连接参数进行更新；

对所述每个语音信号处理任务对应的MLP全连接网络的输入层到隐含层的连接参数或隐含层到输出层的连接参数进行更新。
根据权利要求8所述的电子设备，其特征在于，所述程序还用于：

确定语音信号处理模型的每个任务层对待识别语音的输出结果；

将每个任务层对待识别语音的输出结果，作为所述每个任务层对应的语音信号处理任务的任务处理结果。
根据权利要求8所述的电子设备，其特征在于，所述程序还用于：

确定所述语音信号处理模型的每个任务层对待识别语音的输出结果；

使用所述每个任务层对待识别语音的输出结果，辅助所述每个任务层对应的语音信号处理任务进行任务处理。
一种存储介质，其特征在于，所述存储介质存储有适用于处理器执行的程序，所述程序用于：

获取样本语音，确定所述样本语音的每个语音信号处理任务的任务输入特征；

根据所述每个语音信号处理任务的训练损失函数，确定目标训练损失函数；

将所述样本语音的每个语音信号处理任务的任务输入特征，作为待训练的多任务神经网络的训练输入，以最小化目标训练损失函数为训练目标，对所述待训练的多任务神经网络的共享层和每个任务层的参数进行更新，直至所述待训练的多任务神经网络收敛，得到语音信号处理模型；

其中，所述待训练的多任务神经网络包括：共享层，和所述每个语音信号处理任务对应的任务层。