WO2021135628A1

WO2021135628A1 - 语音信号的处理方法、语音分离方法

Info

Publication number: WO2021135628A1
Application number: PCT/CN2020/126475
Authority: WO
Inventors: 王珺; 林永业
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2020-01-02
Filing date: 2020-11-04
Publication date: 2021-07-08
Also published as: EP3992965A4; CN111179962A; CN111179962B; US20220172737A1; EP3992965A1

Abstract

一种语音信号的处理方法、语音分离方法、装置、计算机设备及存储介质，属于语音技术领域。在训练过程中，能够基于学生模型的分离结果的准确性、教师模型和学生模型分离得到的结果之间的一致性，来使得教师模型能够对学生模型的训练起到一种平滑的作用，从而提升训练得到的语音分离模型的分离准确性的同时，还能够保持分离的稳定性，提高了训练的语音分离模型的分离能力。

Description

语音信号的处理方法、语音分离方法

本申请要求于2020年01月02日提交的申请号为202010003201.2、发明名称为“语音分离模型的训练方法、语音分离方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及语音技术领域，特别涉及一种语音信号的处理方法、语音分离方法、装置、计算机设备及存储介质。

背景技术

随着人工智能技术和电子设备的发展，语音已经成为人类与电子设备进行交互的重要方式之一。然而，由于干扰声源的存在，电子设备在复杂开放环境下语音识别的识别精度远没有达到令人满意的程度，原因在于难以将目标语音和干扰声源进行精准分离。现阶段，开发一种在复杂可变的输入环境中具有较强泛化性和鲁棒性的语音分离方法仍然是一项极具挑战性的任务。

发明内容

本公开实施例提供了一种语音信号的处理方法、语音分离方法、装置、计算机设备及存储介质。该技术方案如下：

一方面，提供了一种语音信号的处理方法，由计算机设备执行，包括：

将混合语音信号分别输入学生模型和教师模型，该混合语音信号标注有用于生成该混合语音信号的干净语音信号，该教师模型的模型参数基于该学生模型的模型参数配置；

基于该学生模型输出的信号和该混合语音信号中标注的该干净语音信号，确定准确性信息，该准确性信息用于表示该学生模型的分离准确程度；

基于该学生模型输出的信号和教师模型输出的信号，确定一致性信息，该一致性信息用于表示该学生模型和该教师模型的分离能力的一致程度；

基于多个准确性信息和多个一致性信息，调整该学生模型和该教师模型的模型参数，以获取语音分离模型。

在一种可能实现方式中，基于该学生模型输出的信号和该混合语音信号中标注的该干净语音信号，确定准确性信息包括下述任一项：

基于该学生模型输出的第一干净语音信号和该混合语音信号中标注的该干净语音信号，确定该准确性信息；

基于该学生模型输出的第一干扰信号和该混合语音信号中除了该干净语音信号以外的干扰信号，确定该准确性信息；

基于该学生模型输出的第一干净语音信号和该混合语音信号中标注的该干净语音信号，确定第一准确性信息；基于该学生模型输出的第一干扰信号和该混合语音信号中除了该干净语音信号以外的干扰信号，确定第二准确性信息；根据该第一准确性信息和该第二准确性信息，确定该准确性信息。

在一种可能实现方式中，基于该学生模型输出的信号和教师模型输出的信号，确定一致性信息包括下述任一项：

基于该学生模型输出的第一干净语音信号和该教师模型输出的第二干净语音信号，确定该一致性信息；

基于该学生模型输出的第一干扰信号和该教师模型输出的第二干扰信号，确定该一致性信息；

基于该学生模型输出的第一干净语音信号和该教师模型输出的第二干净语音信号，确定第一一致性信息，基于该学生模型输出的第一干扰信号和该教师模型输出的第二干扰信号，确定第二一致性信息，根据该第一一致性信息和该第二一致性信息，确定该一致性信息。

在一种可能实现方式中，基于该学生模型输出的第一干净语音信号和该教师模型输出的第二干净语音信号，确定该一致性信息包括：

基于该第一干净语音信号的短时时变抽象特征和该第二干净语音信号的短时时变抽象特征，确定该一致性信息。

基于该第一干净语音信号的短时时变抽象特征和该第二干净语音信号的短时时变抽象特征，确定第三一致性信息；

基于该第一干净语音信号的短时时变抽象特征和该第二干净语音信号的长时稳定抽象特征，确定第四一致性信息；

基于该第三一致性信息和该第四一致性信息的加权值，确定该一致性信息。

在一种可能实现方式中，调整该学生模型和该教师模型的模型参数包括：采用指数移动平均的方法，基于该学生模型的模型参数确定该教师模型的模型参数，采用确定好的该教师模型的模型参数对该教师模型进行配置。

在一种可能实现方式中，该方法还包括：

迭代多次执行将混合语音信号分别输入学生模型和教师模型，获取多个该准确性信息和多个该一致性信息，一次迭代过程对应于一个准确性信息和一个一致性信息；

获取语音分离模型包括：

响应于满足停止训练条件，将满足该停止训练条件的迭代过程所确定的学生模型输出为该语音分离模型。

在一种可能实现方式中，该学生模型和该教师模型采用排列不变式训练PIT方式进行信号分离；或，该学生模型和该教师模型采用突出导向选择机制进行信号分离。

一方面，提供了一种语音分离方法，由计算机设备执行，包括：

获取待分离的声音信号；

将该声音信号输入语音分离模型，该语音分离模型基于混合语音信号以及学生模型和教师模型协同迭代训练得到，该教师模型的模型参数基于该学生模型的模型参数配置；

通过该语音分离模型，对该声音信号中的干净语音信号进行预测，输出该声音信号的干净语音信号。

在一种可能实现方式中，该迭代过程的损失函数基于该学生模型的输出和该学生模型的训练输入之间的准确性信息、该学生模型的输出和该教师模型的输出之间的一致性信息构建。

在一种可能实现方式中，该迭代过程的损失函数基于下述信息构建：

该学生模型输出的第一干净语音信号和该混合语音信号中的干净语音信号之间的准确性信息、该学生模型输出的第一干净语音信号和该教师模型输出的第二干净语音信号之间的一致性信息；

或，该学生模型输出的第一干扰信号和该混合语音信号中的干扰信号之间的准确性信息、该学生模型输出的第一干净语音信号和该教师模型输出的第二干净语音信号之间的一致性信息；

或，该学生模型输出的第一干净语音信号和该混合语音信号中的干净语音信号之间的第一准确性信息、该学生模型输出的第一干扰信号和该混合语音信号中的干扰信号之间的第二准确性信息、该学生模型输出的第一干净语音信号和该教师模型输出的第二干净语音信号之间的第一一致性信息、该学生模型输出的第一干扰信号和该教师模型输出的第二干扰信号之间的第二一致性信息。

该学生模型输出的短时时变抽象特征和教师模型输出的短时时变抽象特征；或，

该学生模型输出的短时时变抽象特征和教师模型输出的短时时变抽象特征，以及，该学生模型输出的短时时变抽象特征和教师模型输出的长时稳定抽象特征。

一方面，提供了一种语音信号的处理装置，包括：

训练模块，用于将混合语音信号分别输入学生模型和教师模型，该混合语音信号标注有用于生成该混合语音信号的干净语音信号，该教师模型的模型参数基于该学生模型的模型参数配置；

准确性确定模块，用于基于该学生模型输出的信号和输入模型的混合语音信号中标注的该干净语音信号，确定准确性信息，该准确性信息用于表示该学生模型的分离准确程度；

一致性确定模块，用于基于该学生模型输出的信号和教师模型输出的信号，确定一致性信息，该准确性信息用于表示该学生模型和该教师模型的分离能力的一致程度；

调整模块，用于基于多个准确性信息和多个一致性信息，调整该学生模型和该教师模型的模型参数，以获取语音分离模型。

在一种可能实现方式中，准确性确定模块，用于执行下述任一步骤：

在一种可能实现方式中，一致性确定模块，用于执行下述任一步骤：

在一种可能实现方式中，一致性确定模块，用于基于该第一干净语音信号的短时时变抽象特征和该第二干净语音信号的短时时变抽象特征，确定该一致性信息。

在一种可能实现方式中，一致性确定模块，用于：

在一种可能实现方式中，该调整模块，用于采用指数移动平均的方法，基于该学生模型的模型参数确定该教师模型的模型参数，采用确定好的该教师模型的模型参数对该教师模型进行配置。

在一种可能实现方式中，该装置还包括迭代获取模块，用于迭代多次执行将混合语音信号分别输入学生模型和教师模型，获取多个该准确性信息和多个该一致性信息，一次迭代过程对应于一个准确性信息和一个一致性信息；

该迭代获取模块，还用于响应于满足停止训练条件，将满足该停止训练条件的迭代过程所确定的学生模型输出为该语音分离模型。

一方面，提供了一种语音分离装置，包括：

信号获取模块，用于获取待分离的声音信号；

输入模块，用于将该声音信号输入语音分离模型，该语音分离模型基于混合语音信号以及学生模型和教师模型协同迭代训练得到，该教师模型的模型参数基于该学生模型的模型参数配置；

预测模块，用于通过该语音分离模型，对该声音信号中的干净语音信号进行预测，输出该声音信号的干净语音信号。

一方面，提供了一种计算机设备，该计算机设备包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条计算机程序，该至少一条计算机程序由该一个或多个处理器加载并执行以实现如上述任一种可能实施方式的语音信号的处理方法或语音分离方法。

一方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行以实现如上述任一种可能实施方式的语音信号的处理方法或语音分离方法。

一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或该计算机程序包括一条或多条程序代码，该一条或多条程序代码存储在计算机可读存储介质中。计算机设备的一个或多个处理器能够从计算机可读存储介质中读取该一条或多条程序代码，该一个或多个处理器执行该一条或多条程序代码，使得计算机设备能够执行上述任一种可能实施方式的语音信号的处理方法或语音分离方法。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种语音分离模型的训练方法的实施环境的示意图；

图2是本申请实施例提供的一种语音分离模型的训练方法的原理示意图；

图3是本申请实施例提供的一种语音分离模型的训练方法的流程示意图；

图4是本申请实施例提供的一种学生模型处理混合语音信号的流程示意图；

图5是本申请实施例提供的学生模型内部的一种结构示意图；

图6是本申请实施例提供的一种语音分离方法的流程图；

图7是本申请实施例提供的一种语音分离模型的训练装置的结构示意图；

图8是本申请实施例提供的一种语音分离处理装置的结构示意图；

图9是本申请实施例提供的一种服务器的结构示意图；

图10是本申请实施例提供的一种终端的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

为了便于理解本申请实施例的技术过程，下面对本申请实施例所涉及的一些名词进行解释：

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音技术(Speech Technology)的关键技术有自动语音识别技术(Automatic Speech Recognition，ASR)和语音合成技术(Text To Speech，TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

近年来，监督学习的引入在解决语音分离方面取得了一些进展。但监督学习需要手工收集带标注的高质量训练样本，这个过程耗时耗力并且效率低下，此外，要让有标注的训练样本覆盖所有类型的实际应用场景亦是不切实际的。

有鉴于此，图1是本申请实施例提供的一种实施环境的示意图，参见图1，该实施环境中包括终端110和服务器140。终端110通过无线网络或有线网络与服务器140相连。

可选地，终端110的设备类型包括智能手机、平板电脑、智能音箱、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机、台式计算机及车载计算机等中的至少一种。终端110安装和运行有支持语音分离技术的应用程序。该应用程序可以是语音助手类应用程序，该语音助手类的应用程序还可以具有数据记录、音视频播放、翻译、数据查询等功能。示例性的，终端110是用户使用的终端，终端110中运行的应用程序内登录有用户账号。

可选地，服务器140包括一台服务器、多台服务器、云计算平台或者虚拟化中心中的至少一种。服务器140用于为支持语音分离的应用程序提供后台服务。可选地，服务器140承担主要语音分离处理工作，终端110承担次要语音分离处理工作；或者，服务器140承担次要语音分离处理工作，终端110承担主要语音分离处理工作；或者，服务器140或终端110分别可以单独承担语音分离处理工作。

可选地，服务器140包括：接入服务器、语音服务器和数据库。接入服务器用于为终端 110提供接入服务。语音服务器用于提供语音分离处理有关的后台服务。数据库可以包括语音信息数据库以及用户信息数据库等，基于服务器所提供的不同服务可以对应于不同数据库。语音服务器可以是一台或多台，当语音服务器是多台时，存在至少两台语音服务器用于提供不同的服务，和/或，存在至少两台语音服务器用于提供相同的服务，比如以负载均衡方式提供同一种服务，本申请实施例对此不加以限定。

终端110可以泛指多个终端中的一个，本实施例仅以终端110来举例说明。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量，此时上述实施环境中还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。

上述语音分离方法可以应用于车载终端、电视盒子、语音识别产品、声纹识别产品、智能语音助手以及智能音箱等产品，可以应用于上述产品前端，也可以通过终端和服务器之间的交互来实现。

以车载终端为例，车载终端可以采集语音信号，对语音信号进行语音分离，基于分离得到的干净语音信号进行语音识别，基于识别得到的语音内容信息来执行对应的驾驶控制或者处理过程。以自动语音识别产品为例，终端可以采集语音信号，将语音信号发送至服务器，由服务器对语音信号进行语音分离，再对分离得到的干净语音信号进行语音识别，基于识别得到的语音内容信息来进行记录或者后续的其他相应处理。

上述语音识别方法可以应用于车载终端、电视盒子、语音识别产品以及智能音箱等产品，可以应用于上述产品前端，也可以通过前端和服务器之间的交互来实现。

以车载终端为例，车载终端可以采集语音信号，对语音信号进行语音分离，基于分离得到的干净语音信号进行语音识别，基于识别得到的语音内容信息来执行对应的驾驶控制或者处理过程。车载终端还可以将语音信号发送至与车载终端连接的后台服务器，由后台服务器对接收到的语音信号进行语音分离和语音识别，得到与语音信号对应的语音内容。后台服务器可以响应于语音信号对应的语音内容，将语音内容或者对应的反馈信息发送至车载终端，车载终端基于获取到的语音内容或者反馈信息来执行对应的驾驶控制或者处理过程，例如开启或关闭天窗，开启或关闭导航系统以及开启或关闭照明灯光等操作。

需要说明的是，本申请实施例提供的语音分离方法可以应用于各种基于语音功能的产品中，上述描述仅仅是为了便于理解而进行的，并不能对本申请实施例造成不当限定。

在正式开始训练模型之前，可以先进行训练样本的生成，把干净语音信号和干扰信号进行混合，生成混合语音信号，将这类混合语音信号作为训练样本，并且对混合语音信号中的干净语音信号进行标注，以便后续进行损失函数的计算来实现模型训练。

混合语音信号的生成过程即可用下述公式(1)来表示：

X＝x+e (1)

其中，x表示干净语音信号的时频点，e表示干扰信号的时频点，X表示混合语音信号的时频点。

通过对混合语音信号中的干净语音信号进行标注，可以得到一组有标注的训练样本{X ⁽¹⁾,...,X ^(L)}，对混合语音信号中的干净语音信号不进行标注可以得到一组未标注的训练样本{X ^(L+1),...,X ^(L+U)}。

每个训练样本都由输入空间的一组时频点构成，也即是，{x＝X _t,f}t＝1...,T；f＝1...,F，在一些实施例中，以混合语音信号的时频点采用短时傅立叶谱(Short-time Fourier Transform，STFT)表示为例，则T表示输入帧的个数，F表示STFT频带个数。

图2是本申请实施例提供的一种语音分离模型的训练方法的原理示意图，参见图2，该训练所采用的网络结构包括学生模型和教师模型，在模型初始状态下，教师模型的模型参数基于学生模型的参数进行配置，在每次迭代过程中，在基于损失函数对学生模型的模型参数进行调整时，也相应基于调整后的学生模型来对教师模型的模型参数进行同步的调整，从而实现了一种分批交迭的模型训练方法。下面基于上述图2所示的原理示意图，再结合图3所示的方法流程图，对该语音分离模型的训练过程进行简要说明，参见图2和3所示的训练流程图，在训练过程中，可以包括下述步骤：

301、在任一次迭代过程中，计算机设备将作为训练样本的混合语音信号分别输入学生模型和教师模型，通过模型处理，学生模型输出第一干净语音信号和第一干扰信号，教师模型输出第二干净语音信号和第二干扰信号。

上述步骤301以单次迭代过程为例，示出了计算机设备将混合语音信号分别输入学生模型和教师模型的一种可能实施方式，其中，该混合语音信号标注有用于生成该混合语音信号的干净语音信号，该混合语音信号还包括除了该干净语音信号之外的干扰信号。可选地，学生模型对该混合语音信号进行处理，输出第一干净语音信号和第一干扰信号，教师模型对该混合语音信号进行处理，输出第二干净语音信号和第二干扰信号。

302、计算机设备基于学生模型输出的第一干净语音信号和用于生成混合语音信号的干净语音信号，确定该迭代过程的准确性信息，该准确性信息用于表示该学生模型的分离准确程度。

上述步骤302也即是计算机设备基于学生模型输出的信号和该混合语音信号中标注的该干净语音信号，确定准确性信息的一种可能实施方式。由于学生模型输出的信号包括第一干净语音信号和第一干扰信号，除了基于上述步骤302提供的确定准确性信息的方式之外，计算机设备还能够基于学生模型输出的第一干扰信号和混合语音信号中的干扰信号，确定该准确性信息，或者，将综合上述两种可能实施方式，并对两种实施方式所得的准确性信息进行加权，以获取最终的准确性信息，本申请实施例不对准确性信息的获取方式进行具体限定。

303、计算机设备基于学生模型输出的第一干净语音信号和教师模型输出的第二干净语音信号，确定该迭代过程的一致性信息，该一致性信息用于表示该学生模型和该教师模型的分离能力的一致程度。

上述步骤303也即是计算机设备基于学生模型输出的信号和该教师模型输出的信号，确定一致性信息的一种可能实施方式。由于学生模型输出的信号包括第一干净语音信号和第一干扰信号，教师模型输出的信号包括第二干净语音信号和第二干扰信号，除了基于上述步骤303提供的确定一致性信息的方式之外，计算机设备还能够基于学生模型输出的第一干扰信号和教师模型输出的第二干扰信号，确定该一致性信息，或者，将综合上述两种可能实施方式，并对两种实施方式所得的一致性信息进行加权，以获取最终的一致性信息，本申请实施例不对一致性信息的获取方式进行具体限定。

304、计算机设备基于每次迭代过程所确定的准确性信息和一致性信息，对该学生模型和该教师模型的模型参数进行调整，直到满足停止训练条件，将满足该停止训练条件的迭代过程所确定的学生模型输出为语音分离模型。

上述步骤304也即是计算机设备基于多个准确性信息和多个一致性信息，调整该学生模型和该教师模型的模型参数，以获取语音分离模型的一种可能实施方式，其中，一次迭代过程对应于一个准确性信息和一个一致性信息。通过迭代多次执行上述步骤301-303，也即迭代多次执行将混合语音信号分别输入学生模型和教师模型，能够获取到多个准确性信息和多个一致性信息，可选地，在对教师模型和学生模型的模型参数进行迭代调整的过程中，计算机设备响应于满足停止训练条件，将满足该停止训练条件的迭代过程所确定的学生模型输出为语音分离模型，或者，还可以将满足该停止训练条件的迭代过程所确定的教师模型输出为语音分离模型。

对于一次迭代过程来说，基于本次迭代过程所确定的准确性信息和一致性信息，确定损失函数值，基于损失函数值对学生模型的模型参数进行调整，基于调整后的模型参数，对教师模型的模型参数进行调整，基于调整后的模型，继续进行迭代训练，直到满足停止训练条件，将训练得到的学生模型作为语音分离模型。

上述学生模型的训练实际上可以理解为一种监督学习过程，而教师模型的训练可以理解为一种半监督学习过程，教师模型在整个训练过程中使得学生模型能够达到更好的收敛状态，使得训练得到的语音分离模型的分离能力更强，准确性和一致性更好。

通过本申请实施例提供的技术方案，在训练过程中，能够基于学生模型的分离结果的准确性、教师模型和学生模型分离得到的结果之间的一致性，从而提升训练得到的语音分离模型的分离准确性的同时，还能够保持分离的稳定性，大大提高了训练的语音分离模型的分离能力。

而教师模型对学生模型的训练进行平滑，是通过教师模型在每次迭代过程中模型参数随学生模型的模型参数变化而变化以及损失函数的构建过程中考虑到了教师模型和学生模型之间输出的一致性来进行，可选地，上述教师模型在每次迭代过程中的模型参数配置方式可以如下：采用指数移动平均(Exponential Moving Average，EMA)的方法，基于所述学生模型的模型参数确定所述教师模型的模型参数，采用确定好的所述教师模型的模型参数对所述教师模型进行配置。上述配置过程可以看做是一种对模型参数的平滑过程。

以教师模型中的编码器参数为例，在任一次迭代过程中，该教师模型的编码器参数的计算方法如下式(2)所示：

θ _l′＝αθ _l-1′+(1-α)θ _l (2)

其中，α是参数的平滑系数，l是迭代次数，l为大于1的正整数，θ、θ′分别是学生模型、教师模型中编码器的参数。

以教师模型中的抽象特征提取器参数为例，在任一次迭代过程中，该教师模型的抽象特征提取器参数的计算方法如下式(3)所示：

ψ _l′＝αψ _l-1′+(1-α)ψ _l (3)

其中，α是参数的平滑系数，l是迭代次数，l为大于1的正整数，ψ、ψ′分别是学生模型、教师模型中抽象特征提取器的参数。

需要说明的是，上述参数计算方式仅为基于学生模型的模型参数对教师模型的模型参数进行配置的几种示例，其计算方式还可以采用其他方式，其模型参数也可以涵盖其他参数类型，本申请实施例对此不做限定。

下面基于上述步骤对模型训练过程中模型内部处理流程进行示例性说明。

在任一次迭代过程中，将作为训练样本的混合语音信号分别输入学生模型和教师模型，通过模型处理，该学生模型输出第一干净语音信号和第一干扰信号，该教师模型输出第二干净语音信号和第二干扰信号。

其中，学生模型和教师模型可以采用相同的模型架构，也即是，该两个模型的处理流程可以同理，因此，下面先基于学生模型的模型架构和处理流程进行介绍。图4是本申请实施例提供的一种学生模型处理混合语音信号的流程示意图，图5是实现上述模型内部的一种结构示意图，参见图4，该流程具体包括以下步骤。

401、计算机设备把混合语音信号映射到一个高维向量空间，得到该混合语音信号对应的嵌入矩阵。

该步骤401为对混合语音信号进行特征转换的过程，可以将该混合语音信号转换为模型输入的形式，在一种可能实现方式中，计算机设备对混合语音信号进行分帧加窗，对每一帧做快速傅里叶变换(Fast Fourier Transform，FFT)，把时域信号转为频域信号，将得到的频域信号按时序排列起来即可得到表示混合语音信号的特征矩阵，将该特征矩阵映射到一个高维向量空间，即可得到混合语音信号对应的嵌入矩阵。

其中，混合语音信号的特征可以是短时傅里叶变化声谱特征、对数梅尔谱特征、梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)特征、或者上一个卷积神经网络(Convolutional Neural Networks，CNN)后预测得分，也可以是其他因素的特征，以及各种特征之间的组合，本申请实施例对此不做限定。

上述步骤401可以通过图5中的编码器501实现，现以所转换的特征为短时傅里叶变化声谱为例对编码器的处理过程做出说明：

将混合语音信号输入编码器，编码器获取混合语音信号的短时傅里叶变化声谱的特征矩阵，再将该特征矩阵映射到一个高维向量空间，输出混合语音信号对应的嵌入矩阵。例如，可以用

表示编码器对混合语音信号处理后得到的特征矩阵(T、F分别输入编码器的混合语音信号的帧的个数、频带个数)，则编码器将其映射到高维空间向量并输出混合语音信号的嵌入矩阵ν的过程可以表示为E _θ：

其中，θ为编码器的模型参数。

402、计算机设备从混合语音信号对应的嵌入矩阵中提取抽象特征。

该步骤402是特征提取的过程，所提取到的特征可以用于表征该混合语音信号，为后续的语音信号重建提供基础。

此步骤可以通过图5中的抽象特征提取器502实现，抽象特征提取器可以是一个自回归模型，例如，在因果系统中采用长短时记忆网络(Long Short Term Memory Networks，LSTM)模型，在非因果系统中采用双向长短时记忆网络(Bi-directional Long Short-Term Memory，Bi-LSTM)模型，基于混合语音信号对应的嵌入矩阵从中按时序地提取短时或长时抽象特征，也可以采用一种复发性(recurrent)模型或一种摘要函数，基于嵌入矩阵提取全局的抽象特征。本申请实施例对抽象特征提取器的具体模型结构和提取到的抽象特征的种类不做限定。

现以自回归模型为例，对抽象特征提取器的处理过程做出说明：

在一种可能实现方式中，给定一个权重P，特征提取的计算公式如下：

其中，c _t∈c，表示短时时变抽象特征，υ∈ν，表示嵌入矩阵，p∈P，表示权重，⊙表示元素点乘，t、f分别表示短时傅里叶变化声谱的帧索引、频带索引。

在一种可能实现方式中，还可以对上述特征提取所得到的特征进行整形，去除取值小于一定阈值的矩阵元素，从而消除低能量噪声对特征提取的影响。例如，在本申请实施例中，可以对特征矩阵进行归一化，将小于一定阈值的元素置为0，将其他元素置为1，举例说明，计算机设备可以对式(4)乘以一个二值阈值矩阵，这样有助于减轻低能量噪声对抽象特征提取过程的影响，此时，计算公式如下式(5)：

其中，w∈R ^TF，表示该二值阈值矩阵：

上述抽象特征提取器从嵌入矩阵ν中提取抽象特征c的过程可以简约表示为A _ψ：

其中ψ为抽象特征提取器的模型参数。

403、该计算机设备基于提取到的抽象特征、输入的混合语音信号以及编码器的输出，进行信号重建，得到第一干净语音信号。

基于上述输入来进行语音信号重建，可以得到一组新的语音信号，为下述语音信号对比，计算训练损失提供基础。为方便表示，在此将学生模型输出的语音信号命名为第一干净语音信号。

此步骤可以通过图5中的信号重建模块503实现，信号重建模块503可根据提取到的抽象特征、干净语音信号和嵌入矩阵的特征，采用任一种信号重建算法进行语音信号重建，以输出第一干净语音信号和第一干扰信号，所输出的第一干净语音信号和第一干扰信号可以用于计算本次迭代的损失函数值，并通过反向传播来训练模型。

在一种示例性结构中，编码器可以采用4层的Bi-LSTM结构，每个隐层结点数为600，能将600维的隐向量映射到257*40维的高维向量空间，输出层结点数为40，该编码器采用16KHz采样率，25ms窗长，10ms窗移，257个频带个数的参数设置对混合语音信号进行处理，每段训练语料随机降采样帧数为32。该编码器所连接的抽象特征提取器可以包含一个全连接层，能够将257*40维的隐向量映射到600维。而信号重建模块可以是一个2层的Bi-LSTM结构，每个隐层结点数为600。

上述编码器、抽象特征提取器以及信号重建模块可以根据实际应用的复杂程度和对性能的要求，对编码器、抽象特征提取器和信号重建模块中至少一个增加更多层级或改变其模型类型，本申请实施例不具体限定上述结构的模型类型和拓扑结构，其可以替换为其它各种有效的新型的模型结构，例如，长短时记忆网络，卷积神经网络、时延网络、闸控卷积神经网络等，以及各种网络结构相结合的模型。

上述实施例内容仅介绍了学生模型的模型结构和处理流程，而在本申请实施例中，教师模型与学生模型的模型架构和处理流程可以同理，当然，教师模型还可以采用稍微复杂一些的结构，用以提取不同时域特性的特征，从而基于该时域特性不同的特征，来进行信号重建，进一步基于重建出的结果来进行损失函数值的计算以及反向传播的模型训练。

例如，对于学生模型来说，可以基于上式(5)所示的方法来提取在时域上分辨率较高的抽象特征，也即是短时时变抽象特征，对于教师模型，也可以采用同理的过程来提取短时时变抽象特征，而在一种可能实现方式中，对于教师模型来说，可以在进行特征提取时，还可以提取在时域上分辨率较低的抽象特征，为了便于表述，称其为长时稳定抽象特征，该特征可以用下式(7)表示：

其中，c′ _L∈c′，表示长时稳定抽象特征，υ′∈ν′，表示高维嵌入矩阵，p′∈P′，表示权重，⊙表示元素点乘，t、f分别表示短时傅里叶变化声谱的帧索引、频带索引，w表示式(6)所示的二值阀值矩阵，当然，在该实施例中，也可以不乘以上述二值阈值矩阵，本申请对此不做限定。

这类在时域上分辨率较低的抽象特征，也即是长时稳定抽象特征适用于概括隐藏的说话人特征，而在时域上分辨率较高的抽象特征，也即是短时时变抽象特征，更适合与需要高时域分辨率的任务，例如，说话人的频谱重建等。

在训练学生模型的模型参数过程中，综合采用两类训练目标，第一类是旨在提高准确性的训练目标的有监督训练，第二类是教师模型和学生模型之间的一致性学习。

对于提高准确性的训练目标来说，需要基于所述学生模型输出的信号和所述混合语音信号中标注的所述干净语音信号，确定所述迭代过程的准确性信息，而该确定准确性信息的具体过程可以包括下述任一项：

第一种实现方式、基于所述学生模型输出的第一干净语音信号和所述混合语音信号中标注的所述干净语音信号，确定所述迭代过程的准确性信息。

第二种实现方式、基于所述学生模型输出的第一干扰信号和所述混合语音信号中标注的所述干净语音信号以外的干扰信号，确定所述迭代过程的准确性信息；

第三种实现方式、基于所述学生模型输出的第一干净语音信号和所述混合语音信号中标注的所述干净语音信号，确定所述迭代过程的第一准确性信息；基于所述学生模型输出的第一干扰信号和所述混合语音信号中标注的所述干净语音信号以外的干扰信号，确定所述迭代过程的第二准确性信息，根据所述第一准确性信息和所述第二准确性信息，确定所述迭代过程的准确性信息。

其中，该第一干净语音信号可以是例如公式(8)中所示的能量最大的语音信号，还可以是基于例如公式(9)的PIT算法所确定的语音信号，当然，还可以是基于其他方式所确定的语音信号，本申请实施例对此不做限定。

需要说明的是，上述准确性信息用于确定分离出的信号和作为参考的信号之间的差距，例如，该准确性信息可以是信号的频谱之间的均方误差(Mean-Square Error，MSE)，也可以是比例不变信噪比(Scale Invariant Signal to Noise Ratio,SI-SNR)目标函数，本申请实施例对此不做具体限定。

例如，以采用最直观的突出导向(salience-based)选择机制下的准确性计算为例，可以采用下述式(8)来计算能量最大的第一干净语音信号与已标注的干净语音信号之间的均方误差：

其中，x表示带标记的干净语音信号，X表示混合语音信号，c表示抽象特征，v表示嵌入矩阵，t、f分别表示短时傅里叶变化声谱的帧索引、频带索引。

又例如，以采用排列不变式训练方法(Permutation Invariant Training，PIT)的准确性计算为例，则可以采用下式(9)来计算所有可能的第一干净语音信号与已标注的干净语音信号以及所有可能的第一干扰信号和已标注的干扰信号之间MSE：

其中，x表示带标记的干净语音信号，X表示混合语音信号，e表示干扰信号，c表示抽象特征，v表示嵌入矩阵，t、f分别表示短时傅里叶变化声谱的帧索引、频带索引。

上述三种实现方式可以理解为一种对损失函数的构建方法，也即是，通过哪类输入输出来构建该损失函数，从而能够基于损失函数对模型进行反向传播的训练。而上述损失函数是以重建类型的目标函数，利用该目标函数的有监督的鉴别学习模型能够一定程度上保证学习到的表征对目标说话人语音信息的编码，使得通过结合语音分离任务的有监督的区分学习，能够使学生模型有效地估计出一个短时时变的抽象特征。

对于教师模型和学生模型之间的一致性学习来说，需要基于所述学生模型输出的信号和教师模型输出的信号，确定所述迭代过程的一致性信息，而该确定一致性信息的具体过程可以包括下述任一项：

第一种实现方式、基于所述学生模型输出的第一干净语音信号和所述教师模型输出的第二干净语音信号，确定所述迭代过程的一致性信息。

第二种实现方式、基于所述学生模型输出的第一干扰信号和所述教师模型输出的第二干扰信号，确定所述迭代过程的一致性信息。

第三种实现方式、基于所述学生模型输出的第一干净语音信号和所述教师模型输出的第二干净语音信号，确定所述迭代过程的第一一致性信息，基于所述学生模型输出的第一干扰信号和所述教师模型输出的第二干扰信号，确定所述迭代过程的第二一致性信息，根据所述第一一致性信息和所述第二一致性信息，确定所述迭代过程的一致性信息。

需要说明的是，上述一致性信息用于表示教师模型所估计的目标说话人频谱和学生模型所估计的目标说话人频谱之间的差距，例如，该一致性信息可以是信号的频谱之间的MSE，也可以是SI-SNR，本申请实施例对此不做具体限定。

上述三种实现方式可以理解为一种对损失函数的构建方法，也即是，通过哪类输入输出来构建该损失函数，从而能够基于损失函数对模型进行反向传播的训练。而此处所构建的损失函数是用于计算教师模型所估计的目标说话人频谱和学生模型所估计的目标说话人频谱之间的差距。

而对于教师模型来说，如上述实施例内容所涉及的，教师模型可以具有两类特征，一类是短时时变抽象特征，一类是长时稳定抽象特征，可以基于这两类特征来确定一致性信息，基于所述第一干净语音信号的短时时变抽象特征和教师模型输出的第二干净语音信号的短时时变抽象特征，确定所述迭代过程的第三一致性信息；基于所述第一干净语音信号的短时时变抽象特征和教师模型输出的第二干净语音信号的长时稳定抽象特征，确定所述迭代过程的第四一致性信息。可选地，基于该第三一致性信息和该第四一致性信息的加权值，构建所述迭代过程最终的一致性信息。

相应地，在构建损失函数时，可以仅基于学生模型和教师模型的短时时变抽象特征来构建，还可以是基于学生模型和教师模型的短时时变抽象特征以及教师模型的长时稳定抽象特征来构建。

例如，基于学生模型和教师模型的短时时变抽象特征来构建损失函数时，可以采用如下式(10)：

其中，X表示混合语音信号，c _t、c _t′分别表示学生模型、教师模型预测出的短时抽象特征，v、ν′分别表示学生模型、教师模型的嵌入矩阵，t、f分别表示短时傅里叶变化声谱的帧索引、频带索引。

例如，基于学生模型和教师模型的短时时变抽象特征以及教师模型的长时稳定抽象特征来构建损失函数时，可以采用如下式(11)：

其中，X表示混合语音信号，c _L′表示教师模型预测出的长时稳定抽象特征c表示学生模型预测出的短时时变抽象特征，v、ν′分别表示学生模型、教师模型的嵌入矩阵，t、f分别表示短时傅里叶变化声谱的帧索引、频带索引。

对于整个模型训练来说，需要结合准确性和一致性来进行，在每次迭代过程中，基于该次迭代过程所确定的准确性信息和一致性信息，对所述学生模型和所述教师模型的模型参数进行调整，直到满足停止训练条件，将满足所述停止训练条件的迭代过程所确定的学生模型输出为语音分离模型。上述过程是分别对训练目标为准确性的损失函数以及训练目标为模型之间的一致性的损失函数的构建分别进行的说明，而要结合上述准确性信息和一致性信息进行训练，则需要建立能够表达该准确性信息和一致性信息的联合损失函数。

在一种可能的实现方式中，在进行模型参数调整时，可以基于每次迭代过程所确定的所述第三一致性信息以及准确性信息，对所述学生模型和所述教师模型的模型参数进行调整，也即是，联合损失函数可以采用下式(12)来表示：

其中，

表示训练目标为准确性的损失函数，

表示训练目标为一致性的损失函数，具体可以为基于短时时变抽象特征的损失函数，λ为权重因子，λ可以是在神经网络迭代过程中不断优化，直至匹配到最优值。

在一种可能的实现方式中，在进行模型参数调整时，可以基于每次迭代过程所确定的所述第三一致性信息和所述第四一致性信息的加权值以及准确性信息，对所述学生模型和所述教师模型的模型参数进行调整。也即是，该联合损失函数可以采用下式(13)来表示：

其中，

训练目标为准确性的损失函数，

表示基于短时时变抽象特征和长时稳定抽象特征的损失函数，λ ₁、λ ₂为权重因子。

其中，λ ₁、λ ₂可以是在神经网络迭代过程中不断优化，直至匹配到最优值。

需要说明的是，上述停止训练条件可以是迭代次数达到目标次数、损失函数趋于平稳等条件，本申请实施例对此不做限定，例如，在模型训练过程中，若设置批处理数据的大小为32，初始学习率为0.0001，学习率的权重下降系数为0.8，则当模型的损失函数值连续3次迭代都没有改善时，认为训练达到收敛并结束训练。

本申请实施例提供的训练方法，能够自动学习到稳定的隐藏目标说话人的特征，无需额外的PIT处理、说话人追踪机制或者由专家定义的处理和调节等。另一方面，本申请中用到的基于一致性的训练不需要标注信息，可以挖掘海量未标注数据中的无监督信息，来帮助提高系统的鲁棒性和通用性。并且，本申请实施例经过试验，充分验证了基于学生-教师模型的一致性所训练的语音分离模型的有效性，在多种干扰环境多种信噪比的条件下，包括0dB-20dB的音乐背景声干扰、其他说话人干扰以及背景噪声干扰等条件下，该申请实施例的分离性能，在语音质量感知评估、短时客观可懂度以及信号失真比等指标以及稳定性方面，均表现优异。

基于上述训练所得到的语音分离模型，本申请实施例还提供了一种语音分离方法，参见图6所示的语音分离方法的流程图，该方法可以包括：

601、计算机设备获取待分离的声音信号。

602、计算机设备将该声音信号输入语音分离模型，该语音分离模型基于混合语音信号以及学生模型和教师模型协同迭代训练得到，该教师模型的模型参数基于该学生模型的模型参数配置。

603、计算机设备通过该语音分离模型，对该声音信号中的干净语音信号进行预测，输出该声音信号的干净语音信号。

需要说明的是，上述模型训练过程和该语音分离过程可以分别由不同计算机设备执行，在模型训练完成后，可以提供至前端或者应用侧的计算机设备来进行语音分离任务，而该语音分离任务可以是语音识别等任务中的一个用于对语音进行分离的子任务，在完成语音分离后，分离所得到的信号还可以用于进行语音识别等具体的处理过程中，本申请实施例对此不做限定。

图7是本公开实施例提供的一种语音分离模型的训练装置的结构示意图。参见图7，该装置包括：

训练模块701，用于在任一次迭代过程中，将作为训练样本的混合语音信号分别输入学生模型和教师模型，该混合语音信号标注有用于生成该混合语音信号的干净语音信号，该教师模型的模型参数基于该学生模型的模型参数配置；

也即是说，该训练模块701，用于将混合语音信号分别输入学生模型和教师模型，该混合语音信号标注有用于生成该混合语音信号的干净语音信号，该教师模型的模型参数基于该学生模型的模型参数配置；

准确性确定模块702，用于基于该学生模型输出的信号和输入模型的混合语音信号中标注的该干净语音信号，确定该迭代过程的准确性信息，该准确性信息用于表示该学生模型的分离准确程度；

也即是说，该准确性确定模块702，用于基于该学生模型输出的信号和该该混合语音信号中标注的干净语音信号，确定准确性信息，该准确性信息用于表示该学生模型的分离准确程度；

一致性确定模块703，用于基于该学生模型输出的信号和教师模型输出的信号，确定该迭代过程的一致性信息，该准确性信息用于表示该学生模型和该教师模型的分离能力的一致程度；

也即是说，该一致性确定模块703，用于基于该学生模型输出的信号和教师模型输出的信号，确定一致性信息，该准确性信息用于表示该学生模型和该教师模型的分离能力的一致程度；

调整模块704，用于基于每次迭代过程所确定的准确性信息和一致性信息，对该学生模型和该教师模型的模型参数进行调整，直到满足停止训练条件，将满足该停止训练条件的迭代过程所确定的学生模型输出为语音分离模型；

也即是说，该调整模块704，用于基于多个准确性信息和多个一致性信息，调整该学生模型和该教师模型的模型参数，以获取语音分离模型。

在一种可能实现方式中，准确性确定模块702，用于执行下述任一步骤：

基于该学生模型输出的第一干净语音信号和该混合语音信号中标注的该干净语音信号，确定该迭代过程的准确性信息；

基于该学生模型输出的第一干扰信号和该混合语音信号中标注的该干净语音信号以外的干扰信号，确定该迭代过程的准确性信息；

基于该学生模型输出的第一干净语音信号和该混合语音信号中标注的该干净语音信号，确定该迭代过程的第一准确性信息；基于该学生模型输出的第一干扰信号和该混合语音信号中标注的该干净语音信号以外的干扰信号，确定该迭代过程的第二准确性信息，根据该第一准确性信息和该第二准确性信息，确定该迭代过程的准确性信息。

在一种可能实现方式中，一致性确定模块703，用于执行下述任一步骤：

基于该学生模型输出的第一干净语音信号和该教师模型输出的第二干净语音信号，确定该迭代过程的一致性信息；

基于该学生模型输出的第一干扰信号和该教师模型输出的第二干扰信号，确定该迭代过程的一致性信息；

基于该学生模型输出的第一干净语音信号和该教师模型输出的第二干净语音信号，确定该迭代过程的第一一致性信息，基于该学生模型输出的第一干扰信号和该教师模型输出的第二干扰信号，确定该迭代过程的第二一致性信息，根据该第一一致性信息和该第二一致性信息，确定该迭代过程的一致性信息。

在一种可能实现方式中，该调整模块704，用于采用指数移动平均的方法，基于该学生模型的模型参数确定该教师模型的模型参数，采用确定好的该教师模型的模型参数对该教师模型进行配置。

在一种可能实现方式中，一致性确定模块703，用于基于该第一干净语音信号的短时时变抽象特征和教师模型输出的第二干净语音信号的短时时变抽象特征，确定该迭代过程的第三一致性信息(也即确定该一致性信息)。

在一种可能实现方式中，一致性确定模块703，用于：

基于该第一干净语音信号的短时时变抽象特征和教师模型输出的第二干净语音信号的短时时变抽象特征，确定该迭代过程的第三一致性信息；

基于该第一干净语音信号的短时时变抽象特征和教师模型输出的第二干净语音信号的长时稳定抽象特征，确定该迭代过程的第四一致性信息；

在一种可能实现方式中，基于图7的装置组成，该装置还包括迭代获取模块，用于迭代多次执行将混合语音信号分别输入学生模型和教师模型，获取多个该准确性信息和多个该一致性信息，一次迭代过程对应于一个准确性信息和一个一致性信息；

在一种可能实现方式中，该学生模型和该教师模型采用PIT方式进行信号分离；或，该学生模型和该教师模型采用突出导向选择机制进行信号分离。

需要说明的是：上述实施例提供的语音分离模型的训练装置在进行语音分离模型的训练时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音分离模型的训练装置与语音分离模型的训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8是本申请实施例提供的一种语音分离装置的结构示意图。参见图8，该装置包括：

信号获取模块801，用于获取待分离的声音信号；

输入模块802，用于将该声音信号输入语音分离模型，该语音分离模型基于混合语音信号以及学生模型和教师模型协同迭代训练得到，该教师模型的模型参数基于该学生模型的模型参数配置；

预测模块803，用于通过该语音分离模型，对该声音信号中的干净语音信号进行预测，输出该声音信号的干净语音信号。

需要说明的是：上述实施例提供的语音分离装置在进行语音分离时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音分离装置与语音分离方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在一个示例性实施例中，本申请实施例所涉及的计算机设备，包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条计算机程序，该至少一条计算机程序由该一个或多个处理器加载并执行如下操作：

在一种可能实现方式中，该至少一条计算机程序由该一个或多个处理器加载并执行下述任一项操作：

基于该学生模型输出的第一干净语音信号和该干净语音信号，确定第一准确性信息；基于该学生模型输出的第一干扰信号和该混合语音信号中除了该干净语音信号以外的干扰信号，确定第二准确性信息；根据该第一准确性信息和该第二准确性信息，确定该准确性信息。

在一种可能实现方式中，该至少一条计算机程序由该一个或多个处理器加载并执行下述如下操作：

采用指数移动平均的方法，基于该学生模型的模型参数确定该教师模型的模型参数，采用确定好的该教师模型的模型参数对该教师模型进行配置。

该至少一条计算机程序还由该一个或多个处理器加载并执行下述如下操作：

在另一个示例性实施例中，本申请实施例所涉及的计算机设备，包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条计算机程序，该至少一条计算机程序由该一个或多个处理器加载并执行如下操作：

获取待分离的声音信号；

对于本申请实施例提供的计算机设备，可以实现为一服务器，图9是本申请实施例提供的一种服务器的结构示意图，该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(central processing units，CPU)901和一个或多个的存储器902，其中，所述一个或多个存储器902中存储有至少一条计算机程序，所述至少一条计算机程序由所述一个或多个处理器901加载并执行以实现上述各个实施例提供的语音信号的处理方法(也即语音分离模型的训练方法)或语音分离方法。当然，该服务器900还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器900还可以包括其他用于实现设备功能的部件，在此不做赘述。

对于本申请实施例提供的计算机设备，可以实现为一终端，图10是本申请实施例提供的一种终端的结构示意图，该终端可以用于执行上述实施例中终端侧的方法。该终端1000可以是：智能手机、智能语音助手、智能音箱、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1000还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1000包括有：一个或多个处理器1001和一个或多个存储器1002。

处理器1001可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1001可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1001可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1001还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1002可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1002中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1001所执行以实现本申请中方法实施例提供的语音分离方法或语音分离模型的训练方法。

在一些实施例中，终端1000还可选包括有：外围设备接口1003和至少一个外围设备。处理器1001、存储器1002和外围设备接口1003之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1003相连。可选地，外围设备包括：射频电路1004、显示屏1005、摄像头组件1006、音频电路1007、定位组件1008和电源1009中的至少一种。

外围设备接口1003可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1001和存储器1002。在一些实施例中，处理器1001、存储器1002和外围设备接口1003被集成在同一芯片或电路板上；在一些其他实施例中，处理器1001、存储器1002和外围设备接口1003中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1004用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1004通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1004将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1004包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1004可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1004还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1005用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1005是触摸显示屏时，显示屏1005还具有采集在显示屏1005的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1001进行处理。此时，显示屏1005还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1005可以为一个，设置终端1000的前面板；在另一些实施例中，显示屏1005可以为至少两个，分别设置在终端1000的不同表面或呈折叠设计；在再一些实施例中，显示屏1005可以是柔性显示屏，设置在终端1000的弯曲表面上或折叠面上。甚至，显示屏1005还可以设置成非矩形的不规则图形，也即异形屏。显示屏1005可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件1006用于采集图像或视频。可选地，摄像头组件1006包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1006还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1007可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1001进行处理，或者输入至射频电路1004以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1000的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1001或射频电路1004的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1007还可以包括耳机插孔。

定位组件1008用于定位终端1000的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。定位组件1008可以是基于美国的GPS(Global Positioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源1009用于为终端1000中的各个组件进行供电。电源1009可以是交流电、直流电、一次性电池或可充电电池。当电源1009包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1000还包括有一个或多个传感器1010。该一个或多个传感器1010包括但不限于：加速度传感器1011、陀螺仪传感器1012、压力传感器1013、指纹传感器1014、光学传感器1015以及接近传感器1016。

加速度传感器1011可以检测以终端1000建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1011可以用于检测重力加速度在三个坐标轴上的分量。处理器1001可以根据加速度传感器1011采集的重力加速度信号，控制显示屏1005以横向视图或纵向视图进行用户界面的显示。加速度传感器1011还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1012可以检测终端1000的机体方向及转动角度，陀螺仪传感器1012可以与加速度传感器1011协同采集用户对终端1000的3D动作。处理器1001根据陀螺仪传感器1012采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1013可以设置在终端1000的侧边框和/或显示屏1005的下层。当压力传感器1013设置在终端1000的侧边框时，可以检测用户对终端1000的握持信号，由处理器1001根据压力传感器1013采集的握持信号进行左右手识别或快捷操作。当压力传感器1013设置在显示屏1005的下层时，由处理器1001根据用户对显示屏1005的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1014用于采集用户的指纹，由处理器1001根据指纹传感器1014采集到的指纹识别用户的身份，或者，由指纹传感器1014根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1001授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1014可以被设置终端1000的正面、背面或侧面。当终端1000上设置有物理按键或厂商Logo时，指纹传感器1014 可以与物理按键或厂商Logo集成在一起。

光学传感器1015用于采集环境光强度。在一个实施例中，处理器1001可以根据光学传感器1015采集的环境光强度，控制显示屏1005的显示亮度。可选地，当环境光强度较高时，调高显示屏1005的显示亮度；当环境光强度较低时，调低显示屏1005的显示亮度。在另一个实施例中，处理器1001还可以根据光学传感器1015采集的环境光强度，动态调整摄像头组件1006的拍摄参数。

接近传感器1016，也称距离传感器，通常设置在终端1000的前面板。接近传感器1016用于采集用户与终端1000的正面之间的距离。在一个实施例中，当接近传感器1016检测到用户与终端1000的正面之间的距离逐渐变小时，由处理器1001控制显示屏1005从亮屏状态切换为息屏状态；当接近传感器1016检测到用户与终端1000的正面之间的距离逐渐变大时，由处理器1001控制显示屏1005从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图10中示出的结构并不构成对终端1000的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括计算机程序的存储器，上述计算机程序可由处理器执行以完成上述实施例中的语音分离方法或语音分离模型的训练方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在一个示例性实施例中，该计算机可读存储介质中存储的至少一条计算机程序由处理器加载并执行如下操作：

在一种可能实现方式中，该至少一条计算机程序由处理器加载并执行下述任一项操作：

在一种可能实现方式中，该至少一条计算机程序由处理器加载并执行如下操作：

在一种可能实现方式中，该至少一条计算机程序由处理器加载并执行如下操作：采用指数移动平均的方法，基于该学生模型的模型参数确定该教师模型的模型参数，采用确定好的该教师模型的模型参数对该教师模型进行配置。

在一种可能实现方式中，该至少一条计算机程序还由处理器加载并执行如下操作：

在另一个示例性实施例中，该计算机可读存储介质中存储的至少一条计算机程序由处理器加载并执行如下操作：

获取待分离的声音信号；

示意性地，本申请实施例还提供一种计算机程序产品或计算机程序，该计算机程序产品或该计算机程序包括一条或多条程序代码，该一条或多条程序代码存储在计算机可读存储介质中。计算机设备的一个或多个处理器能够从计算机可读存储介质中读取该一条或多条程序代码，该一个或多个处理器执行该一条或多条程序代码，使得计算机设备能够执行上述各个实施例中涉及的语音信号的处理方法或语音分离方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种语音信号的处理方法，由计算机设备执行，其中，包括：

将混合语音信号分别输入学生模型和教师模型，所述混合语音信号标注有用于生成所述混合语音信号的干净语音信号，所述教师模型的模型参数基于所述学生模型的模型参数配置；

基于所述学生模型输出的信号和所述混合语音信号中标注的所述干净语音信号，确定准确性信息，所述准确性信息用于表示所述学生模型的分离准确程度；

基于所述学生模型输出的信号和所述教师模型输出的信号，确定一致性信息，所述一致性信息用于表示所述学生模型和所述教师模型的分离能力的一致程度；

基于多个所述准确性信息和多个所述一致性信息，调整所述学生模型和所述教师模型的模型参数，以获取语音分离模型。
根据权利要求1所述的方法，其中，所述基于所述学生模型输出的信号和所述混合语音信号中标注的所述干净语音信号，确定准确性信息包括下述任一项：

基于所述学生模型输出的第一干净语音信号和所述混合语音信号中标注的所述干净语音信号，确定所述准确性信息；

基于所述学生模型输出的第一干扰信号和所述混合语音信号中除了所述干净语音信号以外的干扰信号，确定所述准确性信息；以及

基于所述学生模型输出的第一干净语音信号和所述混合语音信号中标注的所述干净语音信号，确定第一准确性信息；基于所述学生模型输出的第一干扰信号和所述混合语音信号中除了所述干净语音信号以外的干扰信号，确定第二准确性信息；根据所述第一准确性信息和所述第二准确性信息，确定所述准确性信息。
根据权利要求1所述的方法，其中，所述基于所述学生模型输出的信号和所述教师模型输出的信号，确定一致性信息包括下述任一项：

基于所述学生模型输出的第一干净语音信号和所述教师模型输出的第二干净语音信号，确定所述一致性信息；

基于所述学生模型输出的第一干扰信号和所述教师模型输出的第二干扰信号，确定所述一致性信息；以及

基于所述学生模型输出的第一干净语音信号和所述教师模型输出的第二干净语音信号，确定第一一致性信息，基于所述学生模型输出的第一干扰信号和所述教师模型输出的第二干扰信号，确定第二一致性信息，根据所述第一一致性信息和所述第二一致性信息，确定所述一致性信息。
根据权利要求3所述的方法，其中，所述基于所述学生模型输出的第一干净语音信号和所述教师模型输出的第二干净语音信号，确定所述一致性信息包括：

基于所述第一干净语音信号的短时时变抽象特征和所述第二干净语音信号的短时时变抽象特征，确定所述一致性信息。
根据权利要求3所述的方法，其中，所述基于所述学生模型输出的第一干净语音信号和所述教师模型输出的第二干净语音信号，确定所述一致性信息包括：

基于所述第一干净语音信号的短时时变抽象特征和所述第二干净语音信号的短时时变抽象特征，确定第三一致性信息；

基于所述第一干净语音信号的短时时变抽象特征和所述第二干净语音信号的长时稳定抽象特征，确定第四一致性信息；

基于所述第三一致性信息和所述第四一致性信息的加权值，确定所述一致性信息。
根据权利要求1所述的方法，其中，所述调整所述学生模型和所述教师模型的模型参数包括：

采用指数移动平均的方法，基于所述学生模型的模型参数确定所述教师模型的模型参数，采用确定好的所述教师模型的模型参数对所述教师模型进行配置。
根据权利要求1至6中任一项所述的方法，其中，所述方法还包括：

迭代多次执行将混合语音信号分别输入学生模型和教师模型，获取多个所述准确性信息和多个所述一致性信息，一次迭代过程对应于一个准确性信息和一个一致性信息；

所述获取语音分离模型包括：

响应于满足停止训练条件，将满足所述停止训练条件的迭代过程所确定的学生模型输出为所述语音分离模型。
根据权利要求1所述的方法，其中，所述学生模型和所述教师模型采用排列不变式训练PIT方式进行信号分离；或，所述学生模型和所述教师模型采用突出导向选择机制进行信号分离。
一种语音分离方法，由计算机设备执行，其中，包括：

获取待分离的声音信号；

将所述声音信号输入语音分离模型，所述语音分离模型基于混合语音信号以及学生模型和教师模型协同迭代训练得到，所述教师模型的模型参数基于所述学生模型的模型参数配置；

通过所述语音分离模型，对所述声音信号中的干净语音信号进行预测，输出所述声音信号的干净语音信号。
根据权利要求9所述的方法，其中，所述迭代过程的损失函数基于所述学生模型的输出和所述学生模型的训练输入之间的准确性信息、所述学生模型的输出和所述教师模型的输出之间的一致性信息构建。
根据权利要求10所述的方法，其中，所述迭代过程的损失函数基于下述信息构建：

所述学生模型输出的第一干净语音信号和所述混合语音信号中的干净语音信号之间的准确性信息、所述学生模型输出的第一干净语音信号和所述教师模型输出的第二干净语音信号之间的一致性信息；

或，所述学生模型输出的第一干扰信号和所述混合语音信号中的干扰信号之间的准确性信息、所述学生模型输出的第一干净语音信号和所述教师模型输出的第二干净语音信号之间的一致性信息；

或，所述学生模型输出的第一干净语音信号和所述混合语音信号中的干净语音信号之间的第一准确性信息、所述学生模型输出的第一干扰信号和所述混合语音信号中的干扰信号之间的第二准确性信息、所述学生模型输出的第一干净语音信号和所述教师模型输出的第二干净语音信号之间的第一一致性信息、所述学生模型输出的第一干扰信号和所述教师模型输出的第二干扰信号之间的第二一致性信息。
根据权利要求10所述的方法，其中，所述迭代过程的损失函数基于下述信息构建：

所述学生模型输出的短时时变抽象特征和教师模型输出的短时时变抽象特征；或，

所述学生模型输出的短时时变抽象特征和教师模型输出的短时时变抽象特征，以及，所述学生模型输出的短时时变抽象特征和教师模型输出的长时稳定抽象特征。
一种语音信号的处理装置，其中，包括：

训练模块，用于将混合语音信号分别输入学生模型和教师模型，所述混合语音信号标注有用于生成所述混合语音信号的干净语音信号，所述教师模型的模型参数基于所述学生模型的模型参数配置；

准确性确定模块，用于基于所述学生模型输出的信号和输入模型的混合语音信号中标注的所述干净语音信号，确定准确性信息，所述准确性信息用于表示所述学生模型的分离准确程度；

一致性确定模块，用于基于所述学生模型输出的信号和所述教师模型输出的信号，确定一致性信息，所述一致性信息用于表示所述学生模型和所述教师模型的分离能力的一致程度；

调整模块，用于基于多个所述准确性信息和多个所述一致性信息，调整所述学生模型和所述教师模型的模型参数，以获取语音分离模型。
一种语音分离装置，其中，包括：

信号获取模块，用于获取待分离的声音信号；

输入模块，用于将所述声音信号输入语音分离模型，所述语音分离模型基于混合语音信号以及学生模型和教师模型协同迭代训练得到，所述教师模型的模型参数基于所述学生模型的模型参数配置；

预测模块，用于通过所述语音分离模型，对所述声音信号中的干净语音信号进行预测，输出所述声音信号的干净语音信号。
一种计算机设备，其中，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述一个或多个处理器加载并执行如权利要求1至权利要求8任一项所述的语音信号的处理方法。
一种计算机设备，其中，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述一个或多个处理器加载并执行如权利要求9至权利要求12任一项所述的语音分离方法。
一种计算机可读存储介质，其中，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由一个或多个处理器加载并执行如权利要求1至权利要求8任一项所述的语音信号的处理方法。
一种计算机可读存储介质，其中，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由一个或多个处理器加载并执行如权利要求9至权利要求12任一项所述的语音分离方法。