WO2021135577A1

WO2021135577A1 - 音频信号处理方法、装置、电子设备及存储介质

Info

Publication number: WO2021135577A1
Application number: PCT/CN2020/124132
Authority: WO
Inventors: 王珺; 林永业
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2020-01-02
Filing date: 2020-10-27
Publication date: 2021-07-08
Also published as: US20220165288A1; EP4006901A1; CN111179961A; EP4006901A4; CN111179961B; WO2021135577A9

Abstract

一种音频信号处理方法、装置、电子设备及存储介质，属于信号处理技术领域。通过对该混合音频信号进行嵌入处理，得到混合音频信号的嵌入特征，对嵌入特征进行泛化特征提取，能够提取得到混合音频信号中目标分量的泛化特征，由于目标分量的泛化特征具有较好的泛化能力和表达能力，能够良好地适用于不同的场景，因此提升了音频信号处理过程的鲁棒性和泛化性，提升了音频信号处理的准确性。

Description

音频信号处理方法、装置、电子设备及存储介质

本申请要求于2020年01月02日提交的申请号为2020100016363、发明名称为“音频信号处理方法、装置、电子设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及信号处理技术领域，特别涉及一种音频信号处理方法、装置、电子设备及存储介质。

背景技术

在信号处理领域中，“鸡尾酒会问题”是一个热门研究课题：在给定混合音频信号(说话人为两人或两人以上)的情况下，如何分离出鸡尾酒会中同时说话的每个人的独立音频信号？针对上述鸡尾酒会问题的解决方案称为语音分离技术。目前，通常是基于有监督学习的深度模型来进行语音分离，例如，基于有监督学习的深度模型包括DPCL(Deep Clustering，深度聚类网络)、DANet(Deep Attractor Network，深度吸引子网络)、ADANet(Anchored Deep Attractor Network，锚定深度吸引子网络)、ODANet(Online Deep Attractor Network，在线深度吸引子网络)等。

在上述过程中，有监督学习是指在获取标注后的训练数据之后，针对某一类特定场景训练出在对应场景下进行语音分离的深度模型。在实际应用中针对训练时没有标注过的音频信号，基于有监督学习的深度模型的鲁棒性和泛化性较差，导致在训练场景以外的情况下，基于有监督学习的深度模型在处理音频信号时准确性较差。

发明内容

本申请实施例提供了一种音频信号处理方法、装置、电子设备及存储介质，能够提升音频信号处理过程的准确性。技术方案如下：

一方面，提供了一种音频信号处理方法，应用于电子设备，该方法包括：

对混合音频信号进行嵌入处理，得到所述混合音频信号的嵌入特征；

对所述嵌入特征进行泛化特征提取，得到所述混合音频信号中目标分量的泛化特征，所述目标分量对应于所述混合音频信号中目标对象的音频信号；

基于所述目标分量的泛化特征进行音频信号处理。

在一种可能实施方式中，所述对混合音频信号进行嵌入处理，得到所述混合音频信号的嵌入特征包括：

将所述混合音频信号映射至嵌入空间，得到所述嵌入特征。

在一种可能实施方式中，所述对所述嵌入特征进行泛化特征提取，得到所述混合音频信号中目标分量的泛化特征包括：

对所述嵌入特征进行递归加权处理，得到所述目标分量的泛化特征。

将混合音频信号输入编码网络，通过所述编码网络对所述混合音频信号进行嵌入处理，得到所述混合音频信号的嵌入特征；

所述对所述嵌入特征进行泛化特征提取，得到所述混合音频信号中目标分量的泛化特征包括：

将所述嵌入特征输入萃取网络，通过所述萃取网络对所述嵌入特征进行泛化特征提取，得到所述混合音频信号中目标分量的泛化特征。

在一种可能实施方式中，所述萃取网络为自回归模型，所述将所述嵌入特征输入萃取网络，通过所述萃取网络对所述嵌入特征进行泛化特征提取，得到所述混合音频信号中目标分量的泛化特征包括：

将所述嵌入特征输入所述自回归模型，通过所述自回归模型对所述嵌入特征进行递归加权处理，得到所述目标分量的泛化特征。

在一种可能实施方式中，所述方法还包括：

基于未标注的样本混合信号，对教师模型和学生模型进行协同迭代训练，得到所述编码网络以及所述萃取网络，其中，所述学生模型包括第一编码网络和第一萃取网络，所述教师模型包括第二编码网络和第二萃取网络，所述第一编码网络的输出作为所述第一萃取网络的输入，所述第二编码网络的输出作为所述第二萃取网络的输入，每次迭代过程中的教师模型由上一次迭代过程的教师模型以及本次迭代过程的学生模型进行加权所得。

在一种可能实施方式中，所述基于未标注的样本混合信号，对教师模型和学生模型进行协同迭代训练，得到所述编码网络以及所述萃取网络包括：

在任一次迭代过程中，基于本次迭代过程的学生模型以及上一次迭代过程的教师模型，获取本次迭代过程的教师模型；

将所述未标注的样本混合信号分别输入本次迭代过程的教师模型和学生模型，分别输出所述样本混合信号中目标分量的教师泛化特征以及学生泛化特征；

基于所述样本混合信号、所述教师泛化特征或者所述学生泛化特征中至少一项，获取本次迭代过程的损失函数值；

若所述损失函数值不符合停止训练条件，对所述学生模型的参数进行调整，得到下一次迭代过程的学生模型，基于所述下一次迭代过程的学生模型执行下一次迭代过程；

若所述损失函数值符合所述停止训练条件，基于本次迭代过程的学生模型或教师模型，获取所述编码网络和所述萃取网络。

在一种可能实施方式中，所述基于所述样本混合信号、所述教师泛化特征或者所述学生泛化特征中至少一项，获取本次迭代过程的损失函数值包括：

获取所述教师泛化特征以及所述学生泛化特征之间的均方误差；

获取所述样本混合信号与所述学生泛化特征之间的互信息值；

将所述均方误差或者所述互信息值中至少一项确定为本次迭代过程的损失函数值。

在一种可能实施方式中，所述停止训练条件为在连续第一目标次数的迭代过程中所述均方误差没有减小；或，

所述停止训练条件为所述均方误差小于或等于第一目标阈值且所述互信息值大于或等于第二目标阈值；或，

所述停止训练条件为迭代次数到达第二目标次数。

在一种可能实施方式中，所述基于本次迭代过程的学生模型以及上一次迭代过程的教师模型，获取本次迭代过程的教师模型包括：

将上一次迭代过程的教师模型的参数集与第一平滑系数相乘，得到第一参数集；

将本次迭代过程的学生模型与第二平滑系数相乘，得到第二参数集，其中，所述第一平滑系数与所述第二平滑系数相加所得的数值为1；

将所述第一参数集与所述第二参数集之和确定为本次迭代过程的教师模型的参数集；

基于本次迭代过程的教师模型的参数集，对上一次迭代过程的教师模型进行参数更新，得到本次迭代过程的教师模型。

在一种可能实施方式中，所述基于本次迭代过程的学生模型或教师模型，获取所述编码网络和所述萃取网络包括：

分别将本次迭代过程的学生模型中第一编码网络和第一萃取网络，确定为所述编码网络和所述萃取网络；或，

分别将本次迭代过程的教师模型中第二编码网络和第二萃取网络，确定为所述编码网络和所述萃取网络。

在一种可能实施方式中，所述基于所述目标分量的泛化特征进行音频信号处理包括：

基于所述目标分量的泛化特征，对所述目标对象的音频信号进行文语转换，输出所述目标对象的音频信号对应的文本信息；或，

基于所述目标分量的泛化特征，对所述目标对象的音频信号进行声纹识别，输出所述目标对象的音频信号对应的声纹识别结果；或，

基于所述目标分量的泛化特征，生成所述目标对象的音频信号对应的应答语音，输出所述应答语音。

一方面，提供了一种音频信号处理装置，该装置包括：

嵌入处理模块，用于对所述混合音频信号进行嵌入处理，得到所述混合音频信号的嵌入特征；

特征提取模块，用于对所述嵌入特征进行泛化特征提取，得到所述混合音频信号中目标分量的泛化特征，所述目标分量对应于所述混合音频信号中目标对象的音频信号；

信号处理模块，用于基于所述目标分量的泛化特征进行音频信号处理。

在一种可能实施方式中，嵌入处理模块，用于将混合音频信号输入编码网络，通过所述编码网络对所述混合音频信号进行嵌入处理，得到所述混合音频信号的嵌入特征；

特征提取模块，用于将所述嵌入特征输入萃取网络，通过所述萃取网络对所述嵌入特征进行泛化特征提取，得到所述混合音频信号中目标分量的泛化特征，所述目标分量对应于所述混合音频信号中目标对象的音频信号。

在一种可能实施方式中，所述嵌入处理模块用于：

将所述混合音频信号映射至嵌入空间，得到所述嵌入特征。

在一种可能实施方式中，特征提取模块用于对所述嵌入特征进行递归加权处理，得到所述目标分量的泛化特征。

在一种可能实施方式中，所述萃取网络为自回归模型，所述特征提取模块用于：

在一种可能实施方式中，所述装置还包括：

训练模块，用于基于未标注的样本混合信号，对教师模型和学生模型进行协同迭代训练，得到所述编码网络以及所述萃取网络，其中，所述学生模型包括第一编码网络和第一萃取网络，所述教师模型包括第二编码网络和第二萃取网络，所述第一编码网络的输出作为所述第一萃取网络的输入，所述第二编码网络的输出作为所述第二萃取网络的输入，每次迭代过程中的教师模型由上一次迭代过程的教师模型以及本次迭代过程的学生模型进行加权所得。

在一种可能实施方式中，所述训练模块包括：

第一获取单元，用于在任一次迭代过程中，基于本次迭代过程的学生模型以及上一次迭代过程的教师模型，获取本次迭代过程的教师模型；

输出单元，用于将所述未标注的样本混合信号分别输入本次迭代过程的教师模型和学生模型，分别输出所述样本混合信号中目标分量的教师泛化特征以及学生泛化特征；

第二获取单元，用于基于所述样本混合信号、所述教师泛化特征或者所述学生泛化特征中至少一项，获取本次迭代过程的损失函数值；

参数调整单元，用于若所述损失函数值不符合停止训练条件，对所述学生模型的参数进行调整，得到下一次迭代过程的学生模型，基于所述下一次迭代过程的学生模型执行下一次迭代过程；

第三获取单元，用于若所述损失函数值符合所述停止训练条件，基于本次迭代过程的学生模型或教师模型，获取所述编码网络和所述萃取网络。

在一种可能实施方式中，所述第二获取单元用于：

所述停止训练条件为迭代次数到达第二目标次数。

在一种可能实施方式中，所述第一获取单元用于：

在一种可能实施方式中，所述第三获取单元用于：

在一种可能实施方式中，所述信号处理模块用于：

一方面，提供了一种电子设备，该电子设备包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器加载并执行以实现如上述任一种可能实现方式的音频信号处理方法所执行的操作。

一方面，提供了一种存储介质，该存储介质中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行以实现如上述任一种可能实现方式的音频信号处理方法所执行的操作。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还根据这些附图获得其他的附图。

图1是本申请实施例提供的一种音频信号处理方法的实施环境示意图；

图2是本申请实施例提供的一种音频信号处理方法的流程图；

图3是本申请实施例提供的一种编码网络及萃取网络的训练方法的流程图；

图4是本申请实施例提供的一种编码网络及萃取网络的训练方法的原理性示意图；

图5是本申请实施例提供的一种音频信号处理装置的结构示意图；

图6是本申请实施例提供的一种终端的结构示意图；

图7是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

本申请中术语“至少一个”是指一个或多个，“多个”的含义是指两个或两个以上，例如，多个第一位置是指两个或两个以上的第一位置。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括音频处理技术、计算机视觉技术、自然语言处理技术以及机器学习/深度学习等几大方向。

让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中音频处理技术(Speech Technology，也称语音处理技术)成为未来最被看好的人机交互方式之一，具体包括语音分离技术、自动语音识别技术(Automatic Speech Recognition，ASR)、语音合成技术(Text To Speech，TTS，也称文语转换技术)以及声纹识别技术等。

随着AI技术的发展，音频处理技术在多个领域展开了研究和应用，例如常见的智能音箱、智能语音助手、车载或电视盒子上的语音前端处理、ASR、语音识别产品、声纹识别产品等，相信随着AI技术的发展，音频处理技术将在更多的领域得到应用，发挥越来越重要的价值。

本申请实施例涉及音频处理技术领域内的语音分离技术，下面对语音分离技术进行简介：

语音分离的目标是将目标说话人的声音从背景干扰中分离出来，在音频信号处理中，语音分离属于最基本的任务类型之一，应用范围很广泛，包括听力假体、移动通信、鲁棒的自动语音识别以及说话人识别等。人类听觉系统能够轻易地将一个人的声音和另一个人的声音分离开来，即使在鸡尾酒会那样嘈杂的声音环境中，人耳也有能力专注于听某一个目标说话人的说话内容，因此，语音分离问题通常也被称为“鸡尾酒会问题”(cocktail party problem)。

由于麦克风采集到的音频信号中可能包括噪声、其他说话人的声音、混响等背景干扰，若不做语音分离，直接进行语音识别、声纹验证等下游任务，会大大降低下游任务的准确率，因此，在语音前端加上语音分离技术，能够将目标说话人的声音和其他背景干扰分离开来，从而能够提升下游任务的鲁棒性，使得语音分离技术逐渐成为现代音频处理系统中不可或缺的一环。

在一些实施例中，根据背景干扰的不同，语音分离任务分为三类：当干扰为噪声信号时，称为语音增强(Speech Enhancement)；当干扰为其他说话人时，称为多说话人分离(Speaker Separation)；当干扰为目标说话人自身声音的反射波时，称为解混响(De-reverberation)。

尽管基于有监督学习的深度模型在语音分离任务中取得了一定的成功，但根据广泛报道，如果在应用中遭遇到训练时没有标注过的噪声类型干扰，语音分离系统的准确性显著下降。

此外，研究表明只有一只耳朵功能正常的人更容易被干扰的声音分散注意力，同理，单通道(单耳的)语音分离在业内是非常困难的一个问题，因为相对于双声道或者多声道的输入信号而言，单通道的输入信号缺失了可用于定位声源的空间线索。

有鉴于此，本申请实施例提供一种音频处理方法，不仅能够适用于双声道或多声道的语音分离场景，而且能够适用于单通道的语音分离场景，同时还能够在(尤其是训练场景之外的)各类场景下提升音频处理过程的准确性。

图1是本申请实施例提供的一种音频信号处理方法的实施环境示意图。参见图1，在该实施环境中包括终端101和服务器102，终端101和服务器102均为电子设备。

在一些实施例中，终端101用于采集音频信号，在终端101上安装有音频信号的采集组件，例如麦克风等录音元件，或者，终端101还直接下载一段音频文件，将该音频文件进行解码得到音频信号。

在一些实施例中，终端101上安装有音频信号的处理组件，使得终端101独立实现本身实施例提供的音频信号处理方法，例如，该处理组件是一个DSP(Digital Signal Processing，数字信号处理器)，在DSP上运行本申请实施例提供的编码网络及萃取网络的程序代码，以提取采集组件所采集到的混合音频信号中目标分量的泛化特征，基于目标分量的泛化特征执行后续的音频处理任务，后续的音频处理任务包括但不限于：语音识别、声纹验证、文语转换、智能语音助理应答或者智能音箱应答中至少一项，本申请实施例不对音频处理任务的类型进行具体限定。

在一些实施例中，终端101在通过采集组件采集到混合音频信号之后，还将该混合音频信号发送至服务器102，由服务器对该混合音频信号进行音频处理，比如，在服务器上运行本申请实施例提供的编码网络及萃取网络的程序代码，以提取混合音频信号中目标分量的泛化特征，基于目标分量的泛化特征执行后续的音频处理任务，后续的音频处理任务包括但不限于：语音识别、声纹验证、文语转换、智能语音助理应答或者智能音箱应答中至少一项，本申请实施例不对音频处理任务的类型进行具体限定。

在一些实施例中，终端101和服务器102通过有线网络或无线网络相连。

服务器102用于处理音频信号，服务器102包括一台服务器、多台服务器、云计算平台或者虚拟化中心中的至少一种。可选地，服务器102承担主要计算工作，终端101承担次要计算工作；或者，服务器102承担次要计算工作，终端101承担主要计算工作；或者，终端101和服务器102两者之间采用分布式计算架构进行协同计算。

可选地，终端101泛指多个终端中的一个，终端101的设备类型包括但不限于：车载终端、电视机、智能手机、智能音箱、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机或者台式计算机中的至少一种。以下实施例，以终端包括智能手机来进行举例说明。

本领域技术人员知晓，上述终端101的数量更多或更少。比如上述终端101仅为一个，或者上述终端101为几十个或几百个，或者更多数量。本申请实施例对终端101的数量和设备类型不加以限定。

在一个示例性场景中，以终端101为车载终端为例，假设目标分量对应于混合音频信号中终端用户的音频信号，车载终端采集混合音频信号，基于本申请实施例提供的音频处理方法，提取到混合音频信号中目标分量的泛化特征之后，能够将用户的语音从混合音频信号中分离出来，萃取出用户的干净音频信号，在干净音频信号中不但去除了噪声干扰，而且还去除了其他说话人的声音干扰，基于上述干净音频信号，能够对用户的语音指令进行准确地解析和响应，提升了车载终端的音频处理准确率，提升了智能驾驶系统的智能性，优化了用户体验，在未来的5G(5th Generation wireless systems，第五代移动通信系统)时代，随着车联网的全面普及，将具有重要的应用价值。

在一个示例性场景中，以终端101为智能音箱为例，假设目标分量对应于混合音频信号中终端用户的音频信号，在智能音箱的播放环境中通常伴随着背景音乐干扰，智能音箱采集到携带干扰的混合音频信号，基于本申请实施例提供的音频处理方法，提取到混合音频信号中目标分量的泛化特征之后，能够将用户的语音从混合音频信号中分离出来，萃取出用户的干净音频信号，在干净音频信号中不但去除了背景音乐干扰，而且还去除了其他说话人的声音干扰，基于上述干净音频信号，能够对用户的语音指令进行准确地解析和响应，提升了智能音箱的音频处理准确率，优化了用户体验。

在一个示例性场景中，以终端101为智能手机为例，假设目标分量对应于混合音频信号中终端用户的音频信号，用户使用手机的环境通常是不可预测、复杂多变的，那么环境中携带的干扰类型也是多种多样的，针对传统的基于有监督学习的深度模型而言，若要收集覆盖各类场景的携带标注的训练数据显然是不切实际的，而在本申请实施例中，智能手机采集到携带干扰的混合音频信号，基于本申请实施例提供的音频处理方法，提取到混合音频信号中目标分量的泛化特征，不管在何种场景下，均能够将用户的语音从混合音频信号中分离出来，萃取出用户的干净音频信号，在干净音频信号中不但去除了背景音乐干扰，而且还去除了其他说话人的声音干扰，基于上述干净音频信号，能够对用户的语音指令进行准确地解析和响应，比如，用户在触发文语转换指令之后，录入了一段携带噪声干扰的语音，智能手机萃取到用户的干净音频信号之后，能够准确地将用户的语音转化为对应的文本，大大提升文语转换过程的准确性、精确性，提升了智能手机的音频处理准确率，优化了用户体验。

在上述各个场景均为本申请实施例所涉及的音频处理方法的示例性场景，不应构成对该音频处理方法的应用场景的限制，该音频处理方法可应用于各类音频处理的下游任务的前端，作为一个针对混合音频信号进行语音分离以及特征提取的预处理步骤，具有高可用性、可迁移性和可移植性，此外，针对较为困难的鸡尾酒会问题以及单通道语音分离问题，均具有良好的表现，下面进行详述。

图2是本申请实施例提供的一种音频信号处理方法的流程图。参见图2，该实施例应用于上述实施例中的终端101，或者应用于服务器102，或者应用于终端101与服务器102之间的交互过程，在本实施例中以应用于终端101为例进行说明，该实施例包括下述步骤：

201、终端获取混合音频信号。

其中，该混合音频信号中包括目标对象的音频信号，该目标对象是任何能够发声的客体，比如自然人、虚拟形象、智能客服、智能语音助手或者AI机器人中至少一项，例如，将混合音频信号中能量最大的说话人确定为目标对象，本申请实施例不对目标对象的类型进行具体限定。除了目标对象的音频信号之外，混合音频信号中还包括噪声信号或者其他对象的音频信号中至少一项，其他对象是指除了目标对象之外的任一对象，噪声信号包括白噪声、粉红噪声、褐色噪声、蓝噪声或者紫噪声中至少一项，本申请实施例不对噪声信号的类型进行具体限定。

在一些实施例中，在上述过程中，终端上安装有应用程序，用户在应用程序中触发音频采集指令之后，操作系统响应于音频采集指令，调用录音接口，驱动音频信号的采集组件(比如麦克风)以音频流的形式采集混合音频信号。在另一些实施例中，终端也从本地预存的音频中选择一段音频作为混合音频信号。在另一些实施例中，终端还从云端下载音频文件，对该音频文件进行解析得到混合音频信号，本申请实施例不对混合音频信号的获取方式进行具体限定。

202、终端将混合音频信号输入编码网络，通过该编码网络将该混合音频信号映射至嵌入空间，得到该混合音频信号的嵌入特征。

在上述过程中，由编码网络将输入信号(混合音频信号)从低维空间非线性地映射至高维的嵌入空间(embedding space)，也即是说，输入信号在嵌入空间的向量表示即为上述嵌入特征。

上述步骤202中，终端将混合音频信号输入编码网络(encoder)，通过编码网络对该混合音频信号进行嵌入(embedding)处理，得到混合音频信号的嵌入特征，相当于对混合音频信号进行了一次编码，得到表达能力更强的高维嵌入特征，使得后续提取目标分量的泛化特征时具有更高的准确性。

该步骤202为对混合音频信号进行嵌入处理，得到所述混合音频信号的嵌入特征的过程，该过程中以终端通过编码网络实现嵌入处理过程为例进行了说明，在另一些实施例中，该步骤202中，终端直接将混合音频信号映射至嵌入空间，得到该混合音频信号的嵌入特征。

在一些实施例中，嵌入处理过程通过映射实现，也即是，步骤202中，终端将所述混合音频信号映射至嵌入空间，得到所述嵌入特征。

203、终端将该嵌入特征输入自回归模型，通过该自回归模型对该嵌入特征进行递归加权处理，得到该混合音频信号中目标分量的泛化特征，该目标分量对应于该混合音频信号中目标对象的音频信号。

需要说明的是，由于混合音频信号通常为音频数据流的形式，也即是说，混合音频信号包括至少一个音频帧，那么相应地，混合音频信号的嵌入特征包括至少一个音频帧的嵌入特征。

在一些实施例中，上述自回归模型是一个LSTM(Long Short-Term Memory，长短期记忆)网络，在LSTM网络中包括输入层、隐藏层和输出层，在隐藏层中包括具有分层结构的多个记忆单元，每个记忆单元对应于输入层中混合音频信号的一个音频帧的嵌入特征。

对LSTM网络的任一层中任一个记忆单元，当该记忆单元接收到该音频帧的嵌入特征和本层内上一个记忆单元的输出特征时，对该音频帧的嵌入特征以及上一个记忆单元的输出特征进行加权变换，得到该记忆单元的输出特征，将该记忆单元的输出特征分别输出至本层内下一个记忆单元以及下一层内对应位置的记忆单元，每层内的每个记忆单元均执行上述操作，相当于在整个LSTM网络中执行了递归加权处理。

在上述基础上，终端将混合音频信号中多个音频帧的嵌入特征分别输入到第一层内的多个记忆单元，由第一层内的多个记忆单元对该多个音频帧的嵌入特征进行单向的递归加权变换，得到多个音频帧的中间特征，将该多个音频帧的中间特征分别输入到第二层的多个记忆单元，以此类推，直到最后一层的多个记忆单元输出多个音频帧中目标分量的泛化特征。

在一些实施例中，上述自回归模型还是一个BLSTM(Bidirectional Long Short-Term Memory，双向长短期记忆)网络，BLSTM网络中包括一个前向LSTM和一个后向LSTM，在BLSTM网络中也包括输入层、隐藏层和输出层，在隐藏层中包括分层结构的多个记忆单元，每个记忆单元对应于输入层中混合音频信号的一个音频帧的嵌入特征，但与LSTM不同的是，BLSTM中每个记忆单元不仅要执行前向LSTM对应的加权操作，还要执行后向LSTM对应的加权操作。

对BLSTM网络的任一层中任一个记忆单元，一方面，当该记忆单元接收到该音频帧的嵌入特征和本层内上一个记忆单元的输出特征时，对该音频帧的嵌入特征以及上一个记忆单元的输出特征进行加权变换，得到该记忆单元的输出特征，将该记忆单元的输出特征分别输出至本层内下一个记忆单元以及下一层内对应位置的记忆单元；另一方面，当该记忆单元接收到该音频帧的嵌入特征和本层内下一个记忆单元的输出特征时，对该音频帧的嵌入特征以及下一个记忆单元的输出特征进行加权变换，得到该记忆单元的输出特征，将该记忆单元的输出特征分别输出至本层内上一个记忆单元以及下一层内对应位置的记忆单元。每层内的每个记忆单元均执行上述操作，相当于在整个BLSTM网络中执行了递归加权处理。

在上述基础上，终端将混合音频信号中多个音频帧的嵌入特征分别输入到第一层内的多个记忆单元，由第一层内的多个记忆单元对该多个音频帧的嵌入特征进行双向(包括前向和后向)的递归加权变换，得到多个音频帧的中间特征，将该多个音频帧的中间特征分别输入到第二层的多个记忆单元，以此类推，直到最后一层的多个记忆单元输出多个音频帧中目标分量的泛化特征。

该步骤203为对所述嵌入特征进行递归加权处理，得到所述目标分量的泛化特征的过程，在一些实施例中，该得到泛化特征的过程通过萃取网络实现，也即是，该步骤203为将所述嵌入特征输入萃取网络，通过所述萃取网络对所述嵌入特征进行泛化特征提取，得到所述混合音频信号中目标分量的泛化特征的过程。在上述步骤203中，以萃取网络为自回归模型为例，说明了终端将该嵌入特征输入萃取网络(abstractor)，通过该萃取网络对该嵌入特征进行泛化特征提取，得到该混合音频信号中目标分量的泛化特征，这些泛化特征相当于目标对象的说话语音的一个抽象表征(abstract feature)，而并非是针对某一类型的干扰或者某一类型的下游任务而训练出来的特定特征，泛化特征能够在通常场景下具有良好的表达能力，使得基于泛化特征执行的音频信号处理的准确性得到普遍地提升。

在一些实施例中，萃取网络还是复发性(recurrent)模型、摘要函数、CNN(Convolutional Neural Networks，卷积神经网络)、TDNN(Time Delay Neural Network，时延神经网络)或者闸控卷积神经网络中至少一项，或者多个不同类型网络的组合，本申请实施例不对萃取网络的结构进行具体限定。

204、终端基于该目标分量的泛化特征进行音频信号处理。

在不同的任务场景下音频信号处理具有不同的含义，下面给出几个示例性说明：

在文语转换场景中，终端基于目标分量的泛化特征，对目标对象的音频信号进行文语转换，输出目标对象的音频信号对应的文本信息。可选地，在进行文语转换时，终端将目标分量的泛化特征输入至语音识别模型，通过语音识别模型将混合音频信号中目标对象的音频信号翻译为对应的文本信息，泛化特征能够良好地适用于文语转换场景，具有较高的音频信号处理准确性。

在声纹支付场景中，终端基于目标分量的泛化特征，对目标对象的音频信号进行声纹识别，输出目标对象的音频信号对应的声纹识别结果，进而基于声纹识别结果进行声纹支付。可选地，在进行声纹识别时，终端将目标分量的泛化特征输入至声纹识别模型，通过声纹识别模型验证混合音频信号中目标对象的音频信号是否为本人的声音，确定对应的声纹识别结果，若验证出声纹识别结果为“是本人的声音”之后，执行后续的支付操作，否则返回支付失败信息，泛化特征能够良好地适用于声纹支付场景，具有较高的音频信号处理准确性。

在智能语音交互场景中，终端基于目标分量的泛化特征，生成目标对象的音频信号对应的应答语音，输出该应答语音。可选地，在进行语音合成时，终端将目标分量的泛化特征输入至问答模型，通过问答模型提取混合音频信号中目标对象的音频信号的语义信息之后，基于该语义信息生成对应的应答语音，向用户输出该应答语音，泛化特征能够良好地适用于智能语音交互场景，具有较高的音频信号处理准确性。

以上仅为几种示例性的音频处理场景，而目标分量的泛化特征良好地适用于各类音频处理场景，根据音频处理场景的不同，下游的音频处理任务也不尽相同，音频信号处理的方式也就不尽相同，本申请实施例不对音频信号处理的方式进行具体限定。

上述所有可选技术方案，采用任意结合形成本申请的可选实施例，在此不再一一赘述。

本申请实施例提供的方法，通过对该混合音频信号进行嵌入处理，得到该混合音频信号的嵌入特征，对该嵌入特征进行泛化特征提取，能够提取得到该混合音频信号中目标分量的泛化特征，该目标分量对应于该混合音频信号中目标对象的音频信号，基于该目标分量的泛化特征进行音频信号处理，由于目标分量的泛化特征并非是针对某一类特定场景下的声音特征，具有较好的泛化能力和表达能力，因此基于目标分量的泛化特征进行音频信号处理时，能够良好地适用于不同的场景，提升了音频信号处理过程的鲁棒性和泛化性，提升了音频信号处理的准确性。

在上述实施例中，介绍了如何对混合音频信号进行目标分量的泛化特征提取，并基于目标分量的泛化特征来进行音频处理，也即是说，在上述实施例中终端能够从夹杂各类干扰的混合音频信号中，针对目标对象的音频信号(通常是目标说话人的声音)提取出鲁棒的、通用的表征(目标分量的泛化特征)。在本申请实施例中，将对如何获取上述音频信号处理方法中使用的编码网络以及萃取网络进行说明，提供一种基于无监督学习的编码网络及萃取网络的训练方法。

上述训练方法应用于上述实施环境中的终端101或者服务器102，在本实施例中以应用于服务器102为例进行说明，可选地，服务器102在训练得到编码网络和萃取网络之后，将训练好的编码网络及萃取网络发送至终端101，使得终端101执行上述实施例中的音频信号处理方法。

在训练过程中，服务器先获取未标注的样本混合信号，再基于未标注的样本混合信号，对教师模型和学生模型进行协同迭代训练，得到上述实施例中所使用的编码网络以及萃取网络。

其中，未标注的样本混合信号也即是未经过任何标注的训练数据，该样本混合信号中也包括目标对象的音频信号，该目标对象是任何能够发声的客体，比如自然人、虚拟形象、智能客服、智能语音助手或者AI机器人中至少一项，例如，将混合音频信号中能量最大的说话人确定为目标对象，本申请实施例不对目标对象的类型进行具体限定。除了目标对象的音频信号之外，样本混合信号中还包括噪声信号或者其他对象的音频信号中至少一项，噪声信号包括白噪声、粉红噪声、褐色噪声、蓝噪声或者紫噪声中至少一项，本申请实施例不对噪声信号的类型进行具体限定。

服务器获取样本混合信号的过程，与上述步骤201中终端获取混合音频信号的过程类似，这里不做赘述。需要说明的是，服务器还基于语音生成模型自动地生成一段未标注的样本混合信号，基于生成的样本混合信号完成后续的训练流程。

假设用χ表示训练集，χ中存在一组有标注的训练样本{X ⁽¹⁾，...，X ^(L)∈χ}，一组未标注的训练样本{X ^(L+1)，...，X ^(L+U)∈χ}，以及一组背景干扰和噪声样本{X ^(L+U+1)，...，X ^(L+U+N)∈χ}，每个训练样本(或噪声样本)是由输入空间的一组时频点{x＝X _t，f} _{t＝1...，T；f＝1...，F}构成的，X表示训练样本，t表示帧索引，f表示频带索引，T表示训练样本所包含的音频帧个数，F表示训练样本所包含的频带个数。

在本申请实施例提供的基于无监督学习的训练方法中，训练集中缺少有标注的训练样本，也即是说，L＝0，U≥1，N≥0。

图3是本申请实施例提供的一种编码网络及萃取网络的训练方法的流程图，请参考图3，在本申请实施例中，以任一次迭代过程为例，对教师模型和学生模型如何进行协同迭代训练进行说明，该实施例包括下述步骤：

301、在任一次迭代过程中，服务器基于本次迭代过程的学生模型以及上一次迭代过程的教师模型，获取本次迭代过程的教师模型。

其中，该学生模型包括第一编码网络和第一萃取网络，该教师模型包括第二编码网络和第二萃取网络，该第一编码网络的输出作为该第一萃取网络的输入，该第二编码网络的输出作为该第二萃取网络的输入。

可选地，每次迭代过程中的教师模型由上一次迭代过程的教师模型以及本次迭代过程的学生模型进行加权所得。在上述步骤301中，服务器通过执行下述几个子步骤来获取本次迭代过程的教师模型：

3011、服务器将上一次迭代过程的教师模型的参数集与第一平滑系数相乘，得到第一参数集。

在上述过程中，服务器将上一次迭代过程的教师模型中第二编码网络以及第二萃取网络的参数集分别与第一平滑系数相乘，得到第二编码网络以及第二萃取网络各自对应的第一参数集。

在一个示例中，假设第二编码网络的参数集用θ′表示，第二萃取网络的参数集用ψ′表示，第一平滑系数用α表示，本次迭代过程为第l(l≥2)次迭代过程，上一次迭代过程为第l-1次迭代过程，那么服务器将第l-1次迭代过程中所采用的教师模型中第二编码网络的参数集θ _l-1′以及第二萃取网络的参数集ψ _l-1′分别与第一平滑系数α相乘，即可得到第二编码网络对应的第一参数集αθ _l-1′以及第二萃取网络对应的第一参数集αψ _l-1′。

3012、服务器将本次迭代过程的学生模型与第二平滑系数相乘，得到第二参数集，其中，该第一平滑系数与该第二平滑系数相加所得的数值为1。

其中，本次迭代过程的学生模型是基于上一次迭代过程的学生模型进行参数调整而得到的。

在上述过程中，服务器将本次迭代过程的学生模型中第一编码网络以及第一萃取网络的参数集分别与第二平滑系数相乘，得到第一编码网络以及第一萃取网络各自对应的第二参数集。

基于上述示例，假设第一编码网络的参数集用θ表示，第一萃取网络的参数集用ψ表示，由于第一平滑系数与第二平滑系数相加所得的数值为1，那么第二平滑系数用1-α来表示，服务器将第l次迭代过程所采用的学生模型中第一编码网络的参数集θ _l以及第一萃取网络的参数集ψ _l分别与第二平滑系数1-α相乘，即可得到第一编码网络对应的第二参数集(1-α)θ _l以及第一萃取网络对应的第二参数集(1-α)ψ _l。

3013、服务器将该第一参数集与该第二参数集之和确定为本次迭代过程的教师模型的参数集。

在上述过程中，服务器将上一次迭代过程中教师模型的第二编码网络的第一参数集以及本次迭代过程中学生模型的第一编码网络的第二参数集之和确定为本次迭代过程的教师模型的第二编码网络的参数集，同理，将上一次迭代过程中教师模型的第二萃取网络的第一参数集以及本次迭代过程中学生模型的第一萃取网络的第二参数集之和确定为本次迭代过程的教师模型的第二萃取网络的参数集。

基于上述示例，服务器将第l-1次迭代过程中第二编码网络的第一参数集αθ _l-1′与第l次迭代过程中第一编码网络的第二参数集(1-α)θ _l之和确定为第l次迭代过程的教师模型中第二编码网络的参数集θ _l′，也即是说，第l次迭代过程的教师模型中第二编码网络的参数集θ _l′使用下述公式进行表示：

θ _l′＝αθ _l-1′+(1-α)θ _l

基于上述示例，服务器将第l-1次迭代过程中第二萃取网络的第一参数集αψ _l-1′与第l次迭代过程中第一萃取网络的第二参数集(1-α)ψ _l之和确定为第l次迭代过程的教师模型中第二萃取网络的参数集ψ _l′，也即是说，第l次迭代过程的教师模型中第二萃取网络的参数集ψ _l′使用下述公式进行表示：

ψ _l′＝αψ _l-1′+(1-α)ψ _l

3014、服务器基于本次迭代过程的教师模型的参数集，对上一次迭代过程的教师模型进行参数更新，得到本次迭代过程的教师模型。

在上述过程中，在获取到第l次迭代过程的教师模型中第二编码网络的参数集θ _l′以及第二萃取网络的参数集ψ _l′之后，服务器将第l-1次迭代过程的教师模型中第二编码网络的参数集θ _l-1′更新为上述θ _l′，将第l-1次迭代过程的教师模型中第二萃取网络的参数集ψ _l-1′更新为上述ψ _l′，从而得到第l次迭代过程的教师模型。

上述步骤3011-步骤3014，服务器能够基于一种指数移动平均(Exponential Moving Average，EMA)的方法来分别更新教师模型中第二编码网络以及第二萃取网络的参数集，比如，在第一次迭代过程中分别对教师模型和学生模型进行初始化(或者预训练)，保持教师模型和学生模型在第一次迭代过程中参数相同，接下来在第二次迭代过程中教师模型相当于第一次迭代过程中教师模型(与学生模型参数相同)与第二次迭代过程中学生模型的参数集的加权平均，随着学生模型与教师模型的一次次迭代，可知最终教师模型在本质上相当于多次历史迭代过程中学生模型的加权平均，基于这种EMA方法获取的教师模型能够较好地反映出多次历史迭代过程中学生模型的性能，有利于协同训练出具有更好的鲁棒性的学生模型。

302、服务器将未标注的样本混合信号分别输入本次迭代过程的教师模型和学生模型，分别输出该样本混合信号中目标分量的教师泛化特征以及学生泛化特征。

在上述步骤302中，对本次迭代过程的学生模型而言，服务器将未标注的样本混合信号输入本次迭代过程的学生模型中的第一编码网络，通过本次迭代过程的第一编码网络对样本混合信号进行嵌入处理，得到样本混合信号的学生嵌入特征，将样本混合信号的学生嵌入特征输入本次迭代过程的学生模型中的第一萃取网络，通过本次迭代过程的第一萃取网络对样本混合信号进行泛化特征提取，输出样本混合信号中目标分量的学生泛化特征，该目标分量对应于样本混合信号中目标对象的音频信号，上述过程与上述实施例中步骤202-步骤203类似，这里不做赘述。

在上述步骤302中，对本次迭代过程的教师模型而言，服务器将未标注的样本混合信号输入本次迭代过程的教师模型中的第二编码网络，通过本次迭代过程的第二编码网络对样本混合信号进行嵌入处理，得到样本混合信号的教师嵌入特征，将样本混合信号的教师嵌入特征输入本次迭代过程的教师模型中的第二萃取网络，通过本次迭代过程的第二萃取网络对样本混合信号进行泛化特征提取，输出样本混合信号中目标分量的教师泛化特征，该目标分量对应于样本混合信号中目标对象的音频信号，上述过程与上述实施例中步骤202-203类似，这里不做赘述。

在一个示例中，假设用x表示样本混合信号，用E _θ表示本次迭代过程中学生模型的第一编码网络(encoder)，其中θ表示第一编码网络的参数集，那么第一编码网络E _θ相当于对样本混合信号x作了一次非线性映射，将样本混合信号x从输入域映射到一个高维的嵌入(embedding)空间，输出样本混合信号的学生嵌入特征v，也即是说，第一编码网络E _θ的作用相当于下述映射关系：

在上述映射关系中，

表示单通道的样本混合信号的短时傅里叶谱(Short-Time Fourier Transform，STFT)，T表示输入的样本混合信号的音频帧个数，F表示STFT的频带个数，

表示第一编码网络E _θ的输入域，D表示嵌入空间的维度，

表示第一编码网络E _θ的输出域(也即是嵌入空间)，也即是说，第一编码网络E _θ表示一个连续可微的参数函数，能够将样本混合信号x从输入域

映射至嵌入空间

在一些实施例中，上述样本混合信号x的STFT特征是对数梅尔谱特征或者MFCC(Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数)特征中至少一项，或者，也是对数梅尔谱特征与MFCC特征之间的组合，或者，还包括自回归模型的后验预测得分、梅尔频谱特征或者其他因素的特征，本申请对STFT特征的类型不进行具体限定。

基于上述示例，假设用A _ψ表示本次迭代过程中学生模型的第一萃取网络(abstractor)，其中ψ表示第一萃取网络的参数集，那么第一萃取网络A _ψ的作用相当于下述映射关系：

在上述映射关系中，v表示样本混合信号的学生嵌入特征，p表示第一萃取网络A _ψ对学生嵌入特征v进行加权处理之后所得的特征，c表示样本混合信号中目标分量的学生泛化特征，此时的学生泛化特征c是由第一萃取网络A _ψ的输入特征v与输出特征p之间进行递归加权变换之后所得的特征，此外，

表示第一萃取网络A _ψ的输出域，T、F、D、

的含义与上述示例相同，这里不做赘述。

在一些实施例中，第一萃取网络为自回归模型，从而通过自回归模型，能够基于本地的学生嵌入特征按时序地构建离散的学生泛化特征，此时构建出的学生泛化特征可能是短时的，也是长时的，本申请实施例不对学生泛化特征的时间分辨率进行具体限定。

可选地，在因果系统(causal system)中上述自回归模型采用LSTM网络，因果系统又称非超前系统(nonanticipative system)，即输出不可能在输入到达之前出现的系统，也就是说系统某一时刻的输出，只取决于系统该时刻以及该时刻之前的输入，而与该时刻之后的输入无关，此时通过LSTM网络进行单向的递归加权处理，能够避免忽略掉前后音频帧之间在时序上因果关系。

可选地，在非因果系统(noncausal system)中上述自回归模型采用BLSTM网络，非因果系统是指当前时刻的输出不仅取决于当前的输入，还取决于将来的输入，因此通过BLSTM网络进行双向的递归加权处理，不仅能够考虑到各个音频帧之前的各个历史音频帧的作用，而且还能够考虑到各个音频帧之后的各个未来音频帧的作用，从而能够较好地保留各个音频帧之间的上下文信息(context)。

在上述情况中，假设给定了预测值p(也即是上述示例中第一萃取网络的输出特征)，那么学生泛化特征c采用下述公式进行表示：

在上述公式中，c _t∈c表示第t个音频帧的学生泛化特征，v _t∈v表示第t个音频帧的学生嵌入特征，p _t∈p表示第一萃取网络针对第t个音频帧所输出的预测值，⊙表示特征之间的点乘操作，t(t≥1)表示帧索引，f表示频带索引。

在一些实施例中，还将上述公式中的分子和分母分别乘以一个二值阈值矩阵w，能够有助于减轻样本混合信号中低能量噪声的干扰(相当于一个高通滤波器)，此时学生泛化特征c采用下述公式进行表示：

在上述公式中，w _t∈w表示第t个音频帧的二值阈值矩阵，且

其余各符号的含义与上一个公式中各符号的含义相同，这里不做赘述。

其中，对帧索引为t且频带索引为f的二值阈值矩阵w _t，f而言，该二值阈值矩阵w _t，f采用下述公式进行表示：

在上述公式中，X表示样本混合信号构成的训练集，也即是说，若训练集中帧索引为t且频带索引为f的样本混合信号X _t，f的能量值小于训练集中样本混合信号最大能量值的百分之一，那么将二值阈值矩阵w _t，f置为0，从而在计算学生泛化特征时，忽略掉样本混合信号X _t，f(低能量噪声)的干扰，否则，将二值阈值矩阵w _t，f置为1，对于低能量噪声之外的音频分量进行照常计算。

在上述过程中，针对每个音频帧都构建各自的学生泛化特征，这种离散的学生泛化特征c _t更适用于一些需要高时域分辨率信息的任务，比如针对目标说话人进行频谱重建。

在另一些实施例中，第一萃取网络还采用一种摘要函数或者一种复发性(recurrent)模型，从而通过摘要函数或者复发性模型，能够基于本地的学生嵌入特征构建出全局的学生泛化特征，本申请实施例不对第一萃取网络的类型进行具体限定。

其中，c、v、p、w、t、f均与上述各个公式中相同符号的含义一致，并且出于简洁的考虑，省略了c、v、p、w的维度索引下标，这里不做赘述。

上述公式中给出学生泛化特征c代表了一种跨越长时稳定的、全局的、“慢”(指低时域分辨率)的抽象表征，更加适用于一些仅需要低时域分辨率信息的任务，比如用于概括隐藏的目标说话人的特征。

303、服务器基于该样本混合信号、该教师泛化特征或者该学生泛化特征中至少一项，获取本次迭代过程的损失函数值。

由于在训练过程中采用的样本混合信号是未经过标注的，此时无法直接观察到隐藏在样本混合信号中的目标对象的音频信号，也即是说训练过程中采用隐式输入信号，那么传统的针对显式输入信号来计算损失函数值的方法将不再适用，其中，传统的针对显式输入信号计算损失函数值的方法包括NCE(Noise Contrastive Estimation，噪声对比估计)、DIM(Deep InfoMax，深度互信息最大化)等。

有鉴于此，本申请实施例针对学生模型提供一种计算模块(estimator)，该计算模块用于计算第一编码网络与第一萃取网络在每次迭代过程的损失函数值。

可选地，上述损失函数值包括教师泛化特征与学生泛化特征之间的均方误差(Mean Squared Error，MSE)或者样本混合信号与学生泛化特征之间的互信息值(Mutual Information，MI)中至少一项。

在上述步骤303中，服务器通过执行下述几个子步骤来获取本次迭代过程的损失函数值：

3031、服务器获取本次迭代过程的教师泛化特征以及学生泛化特征之间的均方误差。

在上述过程中，教师泛化特征与学生泛化特征之间的均方误差MSE采用下述公式进行表示：

在上述公式中，

表示教师泛化特征与学生泛化特征之间的均方误差MSE，t表示帧索引，f表示频带索引，x表示样本混合信号，sigmoid表示激活函数，

表示教师泛化特征c _t′的转置向量，v _t，f′表示教师嵌入特征，c _t ^T表示学生泛化特征c _t的转置向量，v _t，f表示学生嵌入特征。

3032、服务器获取样本混合信号与本次迭代过程的学生泛化特征之间的互信息值。

在上述过程中，假设学生模型包括第一编码网络E _θ、第一萃取网络A _ψ以及计算模块T _ω，其中，θ为第一编码网络E _θ的参数集，ψ为第一萃取网络A _ψ的参数集，ω为计算模块T _ω的参数集，此时，整个学生模型的参数集表示为Θ＝{θ，ψ，ω}。

在上述步骤302已经介绍了第一编码网络E _θ以及第一萃取网络A _ψ所等价的映射关系，这里不做赘述，此处将对计算模块T _ω的等价映射关系进行介绍，表达式如下：

上述映射关系的表达式表明，计算模块T _ω以学生嵌入特征v以及学生泛化特征c为输入，输出一个位于

输出域内的互信息值。

针对上述映射关系，将计算模块T _ω建模为如下公式：

T _ω＝D _ω○g○(E _θ，A _ψ)

在上述公式中，g表示将E _θ输出的学生嵌入特征与A _ψ输出的学生泛化特征联合在一起的函数，D _ω表示计算互信息值MI的函数。

在本申请实施例中，训练样本为未标注的受干扰的样本混合信号，这类样本混合信号的时频点x认为是由目标对象的音频信号的时频点x和干扰信号的时频点x′的线性混合，也即是说，x＝x+x′，样本混合信号所服从的分布为P≈p(x，c)，其中p为第一萃取网络根据样本混合信号x以及学生泛化特征c所确定的一个预测值。除此之外，训练样本中还包括干扰信号(纯干扰或者背景噪声)，即x＝x′，干扰信号所服从的提议分布(proposal distribution)为

在这种情况下，本申请实施例针对隐式输入信号提出一种简称为ImNICE(InfoMax Noise-Interference Contractive Estimation，基于互信息最大化的噪声-干扰对比估计)的损失函数，此时样本混合信号与学生泛化特征之间的互信息值MI(也即是ImNICE损失函数值)采用下述公式进行表示：

在上述公式中，

表示样本混合信号与学生泛化特征之间ImNICE损失函数值，Θ＝{θ，ψ，ω}表示整个学生模型的参数集，x表示输入信号中被学生模型预测为正样本的时频点，x服从上述分布P≈p(x，c)，x′表示输入信号中被学生模型预测为负样本的时频点，x′服从上述提议分布

也即是说，x′表示取自提议分布

的负样本时频点(对应于噪声或干扰信号)，E _P表示分布P的数学期望，

表示提议分布

的数学期望，c～A _ψ(E _θ(x))表示第一编码网络E _θ以及第一萃取网络A _ψ在作用于输入信号之后所得的学生泛化特征，此外，f _Θ(x，c)＝exp(T _ω(E _θ(x)，c))代表输入信号中被学生模型预测为正样本的时频点x与学生泛化特征c之间的互信息值，同理，f _Θ(x′，c)＝exp(T _ω(E _θ(x′)，c))代表输入信号中被学生模型预测为负样本的时频点x′与学生泛化特征c之间的互信息值。

需要说明的是，上述针对ImNICE损失函数值的定义相当于一种平均交叉熵损失，具体地，假设存在一个分布p和另一个分布q，那么p和q之间的平均交叉熵损失为：

H(p，q)＝-∑p log q

此时基于信息论的相关知识，推理出f _Θ(x，c)的最优解为

也即是说

f _Θ(x，c)视为是一种概率密度比值，这个概率密度比值能够用于估计输入的样本混合信号x与学生泛化特征c之间的互信息值。

针对传统的显式输入信号而言，根据互信息值的定义式来计算显式输入信号x与学生泛化特征c之间的互信息值，该定义式如下：

在上述过程中，I(x；c)表示显式输入信号x与学生泛化特征c之间的互信息值，p(x)为显式输入信号x服从的概率分布，p(x|c)为显式输入信号x在具备学生泛化特征c时的条件概率分布，p(x，c)为显式输入信号x与学生泛化特征c之间的联合分布。由于显式输入信号能够直接获取到p(x)或者p(x|c)，从而能够直接依据定义式来计算互信息值。

在本申请实施例中，由于输入的样本混合信号中不能直接观察到目标对象的音频信号，也即是说，样本混合信号是一种隐式输入信号(这是由无监督学习的性质而决定的)，那么在计算互信息值的时候，就无法像传统的显式输入信号那样，通过获取p(x)或者p(x|c)来计算互信息值，但是，基于本申请实施例引入的ImNICE损失函数值，避免了获取p(x)或者p(x|c)，而是通过获取f _Θ(x，c)来计算互信息值，由于f _Θ(x，c)正比于p(x|c)与p(x)之间的概率密度比值，因此f _Θ(x，c)能够表征互信息值，从而解决了在无监督学习中无法计算隐式输入信号与学生泛化特征之间的互信息值的问题。

需要说明的是，由于在上述ImNICE损失函数值中还引入了额外的统计约束P≈p(x，c)，这个统计约束p(x，c)为样本混合信号x与学生泛化特征c之间的联合分布，p(x，c)由教师模型来进行预测，在每次迭代过程中，教师模型的第二萃取网络A _ψ′执行下述操作：

A _ψ′：v→p，v×p→c

服务器取第二萃取网络A _ψ′计算得到的一个中间预测值p作为联合分布p(x，c)的估计值。

3033、服务器将该均方误差或者该互信息值中至少一项确定为本次迭代过程的损失函数值。

在上述过程中，服务器通过获取均方误差，能够保证教师模型和学生模型之间的一致性学习(consistency-based learning)，若不符合停止训练条件，通过下述步骤304更新学生模型的第一编码网络以及第一萃取网络的参数集，均方误差是典型的重建任务的损失函数，基于均方误差来进行一致性学习，能够在一定程度上保证中间学习到的学生泛化特征相对于目标对象的音频信号之间的稳定一致性。

在上述过程中，服务器通过获取互信息值，能够针对无监督学习的训练流程提供计算模块，用于获取学生模型中样本混合信号与学生泛化特征之间的互信息值，具体地，通过引入概率密度比值f _Θ(x，c)以及统计约束p(x，c)来估算学生模型的互信息值，训练目标是最小化均方误差且最大化互信息值。

304、若该损失函数值不符合停止训练条件，服务器对该学生模型的参数进行调整，得到下一次迭代过程的学生模型，基于该下一次迭代过程的学生模型执行下一次迭代过程。

可选地，该停止训练条件为在连续第一目标次数的迭代过程中该均方误差没有减小；或，该停止训练条件为该均方误差小于或等于第一目标阈值且该互信息值大于或等于第二目标阈值；或，该停止训练条件为迭代次数到达第二目标次数。

服务器获取学生模型在本次迭代过程的损失函数值之后，判断本次迭代过程的损失函数值是否满足停止训练条件，若不符合停止训练条件，基于上述步骤304更新得到下一次迭代过程的学生模型，进而返回执行上述步骤3011-步骤3014，获取下一次迭代过程的教师模型，基于下一次迭代过程的教师模型和学生模型执行与上述步骤302-步骤303类似的操作，从而完成下一次的迭代训练，以此类推，这里不做赘述，在经历过多次迭代之后，直到某一次迭代过程的损失函数值满足停止训练条件，执行下述步骤305。

305、若该损失函数值符合停止训练条件，服务器基于本次迭代过程的学生模型或教师模型，获取编码网络和萃取网络。

在一些实施例中，服务器基于本次迭代过程的学生模型获取编码网络和萃取网络，也即是说，服务器分别将本次迭代过程的学生模型中第一编码网络和第一萃取网络，确定为该编码网络和该萃取网络。

在一些实施例中，服务器还基于本次迭代过程的教师模型获取编码网络和萃取网络，也即是说，服务器分别将本次迭代过程的教师模型中第二编码网络和第二萃取网络，确定为该编码网络和该萃取网络。

在上述过程中，服务器基于未标注的样本混合信号，对教师模型和学生模型进行协同迭代训练，得到该编码网络以及该萃取网络，每次迭代过程中的教师模型由上一次迭代过程的教师模型以及本次迭代过程的学生模型进行加权所得。随着教师模型与学生模型的协同迭代训练和一致性学习，能够保证损失函数中均方误差趋于最小化且互信息值趋于最大化，若达到了停止训练条件，说明满足了预先设定的训练目标，不管是本次迭代过程的教师模型还是学生模型，均能够取为编码网络和萃取网络，本申请实施例不对基于教师模型还是学生模型来获取最终的编码网络及萃取网络进行具体限定。

图4是本申请实施例提供的一种编码网络及萃取网络的训练方法的原理性示意图，请参考图4，在训练集中设置一组未标注(unlabeled)的样本混合信号410(speech)以及一组干扰信号411(noises)，通过学生模型的第一编码网络420(或者教师模型的第二编码网络)，分别将样本混合信号410以及干扰信号411映射至高维的嵌入空间(embedding space)，得到样本混合信号410以及干扰信号411的学生嵌入特征412(或者教师嵌入特征)，通过学生模型的第一萃取网络421(或者教师模型的第二萃取网络)，分别对样本混合信号410以及干扰信号411的学生嵌入特征412(或者教师嵌入特征)进行递归加权处理，得到样本混合信号以及干扰信号的学生泛化特征413(或者教师泛化特征)，基于样本混合信号以及干扰信号的学生嵌入特征412以及学生泛化特征413，能够通过计算模块422获取本次迭代过程的损失函数值414(unsupervised loss，也即是无监督损失函数值)，该损失函数值414包括均方误差或者ImNICE损失函数值(互信息值)中至少一项，在一些实施例中，针对计算模块获取的互信息值，还绘制出互信息值的热力图415，在热力图415中浅色区域的时频点属于目标说话人的语音的概率较大，深色区域的时频点属于噪声或干扰的概率越大，也即是说，在热力图中随着颜色从浅到深，代表对应位置的时频点属于噪声的概率逐渐增大，便于直观地观察各个时频点服从的热力分布。

其中，为了简约的表示各个网络的输入与输出，采用χ表示第一编码网络420的输入信号(也即是样本混合信号410以及干扰信号411)，采用v表示第一编码网络420的输出信号(也即是学生嵌入特征412)，当然，第一萃取网络421的输入信号也为v，采用c表示第一萃取网络421的输出信号(也即是学生泛化特征413)，计算模块422的输入信号包括v以及c，采用R表示计算模块422所输出的损失函数值414。

在一个示例性场景中，在获取训练集中样本混合信号的STFT谱时，将采样率设置为16KHz，将STFT窗长设置为25ms，将STFT窗移设置为10ms，将STFT频带个数设置为257。在针对学生模型以及教师模型进行训练优化时，设置批处理数据的大小为32，初始学习率为0.0001，学习率的权重下降系数为0.8，此外，若模型的MSE(均方误差)损失连续3次迭代过程都没有改善时，认为训练达到收敛并停止训练。

在一个示例性场景中，针对学生模型的第一编码网络，将第一编码网络的输出层节点数设置为40，每段训练语料随机降采样帧数为32，计算ImNICE损失函数值时每个正样本对应的负样本个数为63，正样本预测概率p(x，c)的判定阈值为0.5。

在一个示例性场景中，第一编码网络为4层BLSTM网络，每个隐藏层(隐层)节点数为600，输出层为一个全连接层，能够将最后一个隐层输出的600维的隐向量(输出特征)映射到一个275*40维的高维嵌入空间v，得到一个275*40维的嵌入特征，将该275*40维的嵌入特征输入第一萃取网络，该第一萃取网络中包含一个全连接层和一个2层BLSTM网络，通过全连接层能够将275*40维的嵌入特征(本质上也是一个隐向量)映射到600维，将600维的隐向量输入到2层BLSTM网络中，其中每个隐层节点数为600，最终输出泛化特征，在计算模块中采用一个简单的加权矩阵(比如二值阈值矩阵)

用于计算向量之间的内积：T _ω(v，c)＝v ^Tωc，其中，T _ω(v，c)表示计算模块，v表示嵌入特征，v ^T表示嵌入特征的转置向量，ω表示加权矩阵，c表示泛化特征。

在上述过程中，超参数选取以及模型结构仅为一种示例性说明，在一些实施例中，根据复杂度和性能的需求，调整改变第一编码网络或第一萃取网络中BLSTM网络的层级数目，或者，还调整改变第一编码网络或第一萃取网络的网络结构，比如采用LSTM网络、CNN、TDNN或者闸控CNN中至少一项，此外，根据场景对模型内存占用的限制以及检测准确率的要求，还对第一编码网络或者第一萃取网络的网络结构进行拓展或者简化。

本申请实施例提供的方法，基于未标注的样本混合信号，对教师模型和学生模型进行协同迭代训练，得到该编码网络以及该萃取网络，每次迭代过程中的教师模型由上一次迭代过程的教师模型以及本次迭代过程的学生模型进行加权所得，随着教师模型与学生模型的协同迭代训练和一致性学习，能够从未标注的、有干扰的样本混合信号中，有效地学习到鲁棒的、可泛化的隐藏信号表征(也即是目标分量的泛化特征)，从而能够适用于各种各样的工业应用场景，有助于提升音频处理过程的准确性。

进一步地，当训练的数据场景和真实的测试场景差异越明显(也即是越不匹配)时，无监督系统所提取的泛化特征就具有越明显的优势，另外，在工业应用场景中往往存在大量的未标注数据，这些数据直接作为无监督系统的训练样本，而无需送去进行人工标注，避免了针对训练数据进行标注的人力成本，也即是说，无监督系统能够挖掘利用更多的训练数据。

在大多数采用语音增强、语音分离的工业应用中，带标注的训练数据(指包含目标对象的干净音频信号的训练样本)往往只能覆盖很小一部分的应用场景，大量的数据是无标注的，在传统的有监督系统中，需要对无标注的数据进行人工标注，耗费较高的人力成本，在本申请实施例中，提出了一种新颖的无监督损失函数，以及基于无监督学习的训练方法，能够开发海量的未标注训练数据，不必对未标注的训练数据进行人工标注，节约了人力成本，且提升了训练数据的获取效率。

此外，仅仅依靠有标注数据的监督学习存在鲁棒性差、泛化性差的问题，比如，一个仅仅采用监督学习针对某一类有干扰的说话环境中学习到的语音表征，往往不能适用于另一类干扰的背景噪声环境，而在本申请实施例中，无监督系统能够提取到目标分量的泛化特征，上述泛化特征并非是针对某一类干扰而进行提取的，而是在错综复杂的无标注数据中提取到的具有高鲁棒性、可泛化性的特征，能够适用于大多数的音频处理场景。

相较于传统的DANet、ADANet以及ODANet而言，首先，DANet在训练阶段需要数据库的embeddings(嵌入向量)分配作为输入，因此存在着训练-测试之间的embeddings中心不匹配的问题，其次，ADANet中通过引入PIT(Permutation Invariant Training，排列不变式训练方法)方法来缓解上述embeddings中心不匹配的问题，PIT方法通过计算所有可能的输入排列中所选目标函数的最低值来确定正确的输出排列，然而在遍布全排列的过程中，PIT方法自然会带来大量的计算复杂度，导致提取特征时的计算代价大量增加，最后，ODANet中针对每个音频帧估计一个抽象表征，基于该估计的抽象表征来计算未来时刻音频帧的掩膜(mask)，以此类推，然而，ODANet易于导致不稳定的目标说话人追踪以及mask估计，为了提升性能的稳定性，还需要额外引入专家定义的动态加权函数，并且还需要对上下文窗长进行仔细调整和选择。

而在本申请实施例中，不需要进行额外的PIT处理，因此能够保证较小的计算代价，不需要引入说话人追踪机制也无需进行专家定义处理和调节，因此能够大大节约编码网络和萃取网络的训练成本，而且基于无标注的训练数据，能够自动学习到隐藏的目标分量(通常是目标说话人)的泛化特征，基于上述泛化特征来进行音频处理，能够有效地解决鸡尾酒会问题，针对较为困难的单通道语音分离任务也具有良好的表现，能够适用于各类工业场景，具有较高的音频处理准确性。

图5是本申请实施例提供的一种音频信号处理装置的结构示意图，请参考图5，该装置包括：

嵌入处理模块501，用于对混合音频信号进行嵌入处理，得到该混合音频信号的嵌入特征；

特征提取模块502，用于对该嵌入特征进行泛化特征提取，得到该混合音频信号中目标分量的泛化特征，该目标分量对应于该混合音频信号中目标对象的音频信号；

信号处理模块503，用于基于该目标分量的泛化特征进行音频信号处理。

本申请实施例提供的装置，通过对混合音频信号进行嵌入处理，得到该混合音频信号的嵌入特征，对该嵌入特征进行泛化特征提取，能够提取得到该混合音频信号中目标分量的泛化特征，该目标分量对应于该混合音频信号中目标对象的音频信号，基于该目标分量的泛化特征进行音频信号处理，由于目标分量的泛化特征并非是针对某一类特定场景下的声音特征，具有较好的泛化能力和表达能力，因此基于目标分量的泛化特征进行音频信号处理时，能够良好地适用于不同的场景，提升了音频信号处理过程的鲁棒性和泛化性，提升了音频信号处理的准确性。

在一种可能实施方式中，嵌入处理模块501，用于将混合音频信号输入编码网络，通过该编码网络对该混合音频信号进行嵌入处理，得到该混合音频信号的嵌入特征；

特征提取模块502，用于将该嵌入特征输入萃取网络，通过该萃取网络对该嵌入特征进行泛化特征提取，得到该混合音频信号中目标分量的泛化特征，该目标分量对应于该混合音频信号中目标对象的音频信号。

在一种可能实施方式中，该嵌入处理模块501用于：

将该混合音频信号映射至嵌入空间，得到该嵌入特征。

在一种可能实施方式中，该特征提取模块502用于对所述嵌入特征进行递归加权处理，得到所述目标分量的泛化特征。

在一种可能实施方式中，该萃取网络为自回归模型，该特征提取模块502用于：

将该嵌入特征输入该自回归模型，通过该自回归模型对该嵌入特征进行递归加权处理，得到该目标分量的泛化特征。

在一种可能实施方式中，基于图5的装置组成，该装置还包括：

训练模块，用于基于未标注的样本混合信号，对教师模型和学生模型进行协同迭代训练，得到该编码网络以及该萃取网络，其中，该学生模型包括第一编码网络和第一萃取网络，该教师模型包括第二编码网络和第二萃取网络，该第一编码网络的输出作为该第一萃取网络的输入，该第二编码网络的输出作为该第二萃取网络的输入，每次迭代过程中的教师模型由上一次迭代过程的教师模型以及本次迭代过程的学生模型进行加权所得。

在一种可能实施方式中，基于图5的装置组成，该训练模块包括：

输出单元，用于将该未标注的样本混合信号分别输入本次迭代过程的教师模型和学生模型，分别输出该样本混合信号中目标分量的教师泛化特征以及学生泛化特征；

第二获取单元，用于基于该样本混合信号、该教师泛化特征或者该学生泛化特征中至少一项，获取本次迭代过程的损失函数值；

参数调整单元，用于若该损失函数值不符合停止训练条件，对该学生模型的参数进行调整，得到下一次迭代过程的学生模型，基于该下一次迭代过程的学生模型执行下一次迭代过程；

第三获取单元，用于若该损失函数值符合该停止训练条件，基于本次迭代过程的学生模型或教师模型，获取该编码网络和该萃取网络。

在一种可能实施方式中，该第二获取单元用于：

获取该教师泛化特征以及该学生泛化特征之间的均方误差；

获取该样本混合信号与该学生泛化特征之间的互信息值；

将该均方误差或者该互信息值中至少一项确定为本次迭代过程的损失函数值。

在一种可能实施方式中，该停止训练条件为在连续第一目标次数的迭代过程中该均方误差没有减小；或，

该停止训练条件为该均方误差小于或等于第一目标阈值且该互信息值大于或等于第二目标阈值；或，

该停止训练条件为迭代次数到达第二目标次数。

在一种可能实施方式中，该第一获取单元用于：

将本次迭代过程的学生模型与第二平滑系数相乘，得到第二参数集，其中，该第一平滑系数与该第二平滑系数相加所得的数值为1；

将该第一参数集与该第二参数集之和确定为本次迭代过程的教师模型的参数集；

在一种可能实施方式中，该第三获取单元用于：

分别将本次迭代过程的学生模型中第一编码网络和第一萃取网络，确定为该编码网络和该萃取网络；或，

分别将本次迭代过程的教师模型中第二编码网络和第二萃取网络，确定为该编码网络和该萃取网络。

在一种可能实施方式中，该信号处理模块503用于：

基于该目标分量的泛化特征，对该目标对象的音频信号进行文语转换，输出该目标对象的音频信号对应的文本信息；或，

基于该目标分量的泛化特征，对该目标对象的音频信号进行声纹识别，输出该目标对象的音频信号对应的声纹识别结果；或，

基于该目标分量的泛化特征，生成该目标对象的音频信号对应的应答语音，输出该应答语音。

需要说明的是：上述实施例提供的音频信号处理装置在处理音频信号时，仅以上述各功能模块的划分进行举例说明，应用中，根据需要而将上述功能分配由不同的功能模块完成，即将电子设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频信号处理装置与音频信号处理方法实施例属于同一构思，其具体实现过程详见音频信号处理方法实施例，这里不再赘述。

在一些实施例中，本申请实施例所涉及的电子设备是一种终端，图6是本申请实施例提供的一种终端的结构示意图，请参考图6，该终端600是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端600包括有：处理器601和存储器602。

处理器601包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602包括一个或多个计算机可读存储介质，该计算机可读存储介质是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器601所执行以实现如下步骤：

基于所述目标分量的泛化特征进行音频信号处理。

在一些实施例中，该至少一个程序代码用于被处理器601所执行以实现如下步骤：

将所述混合音频信号映射至嵌入空间，得到所述嵌入特征。

在一些实施例中，所述萃取网络为自回归模型，该至少一个程序代码用于被处理器601所执行以实现如下步骤：将所述嵌入特征输入所述自回归模型，通过所述自回归模型对所述嵌入特征进行递归加权处理，得到所述目标分量的泛化特征。

在一些实施例中，所述停止训练条件为在连续第一目标次数的迭代过程中所述均方误差没有减小；或，

所述停止训练条件为迭代次数到达第二目标次数。

该至少一个程序代码用于被处理器601所执行以实现如下步骤：

在一些实施例中，终端600还可选包括有：外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间通过总线或信号线相连。各个外围设备通过总线、信号线或电路板与外围设备接口603相连。具体地，外围设备包括：射频电路604、触摸显示屏605、摄像头组件606、音频电路607、定位组件608和电源609中的至少一种。

外围设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和外围设备接口603中的任意一个或两个在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路604还包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏605用于显示UI(User Interface，用户界面)。该UI包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号作为控制信号输入至处理器601进行处理。此时，显示屏605还用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605为一个，设置终端600的前面板；在另一些实施例中，显示屏605为至少两个，分别设置在终端600的不同表面或呈折叠设计；在再一些实施例中，显示屏605是柔性显示屏，设置在终端600的弯曲表面上或折叠面上。甚至，显示屏605还设置成非矩形的不规则图形，也即异形屏。显示屏605采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还包括闪光灯。闪光灯是单色温闪光灯，也是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，用于不同色温下的光线补偿。

音频电路607包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风为多个，分别设置在终端600的不同部位。麦克风还是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器是传统的薄膜扬声器，也是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅将电信号转换为人类可听见的声波，也将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还包括耳机插孔。

定位组件608用于定位终端600的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。定位组件608是基于美国的GPS(Global Positioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源609用于为终端600中的各个组件进行供电。电源609是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池支持有线充电或无线充电。该可充电电池还用于支持快充技术。

在一些实施例中，终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。

加速度传感器611检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611用于检测重力加速度在三个坐标轴上的分量。处理器601根据加速度传感器611采集的重力加速度信号，控制触摸显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还用于游戏或者用户的运动数据的采集。

陀螺仪传感器612检测终端600的机体方向及转动角度，陀螺仪传感器612与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据，实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器613设置在终端600的侧边框和/或触摸显示屏605的下层。当压力传感器613设置在终端600的侧边框时，检测用户对终端600的握持信号，由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在触摸显示屏605的下层时，由处理器601根据用户对触摸显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器614用于采集用户的指纹，由处理器601根据指纹传感器614采集到的指纹识别用户的身份，或者，由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器601授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614被设置终端600的正面、背面或侧面。当终端600上设置有物理按键或厂商Logo时，指纹传感器614与物理按键或厂商Logo集成在一起。

光学传感器615用于采集环境光强度。在一个实施例中，处理器601根据光学传感器615采集的环境光强度，控制触摸显示屏605的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏605的显示亮度；当环境光强度较低时，调低触摸显示屏605的显示亮度。在另一个实施例中，处理器601还根据光学传感器615采集的环境光强度，动态调整摄像头组件606的拍摄参数。

接近传感器616，也称距离传感器，通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中，当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时，由处理器601控制触摸显示屏605从亮屏状态切换为息屏状态；当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时，由处理器601控制触摸显示屏605从息屏状态切换为亮屏状态。

本领域技术人员理解，图6中示出的结构并不构成对终端600的限定，包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在一些实施例中，本申请实施例所涉及的电子设备是一种服务器，图7是本申请实施例提供的一种服务器的结构示意图，请参考图7，该服务器700可因配置或性能不同而产生比较大的差异，包括一个或一个以上处理器(Central Processing Units，CPU)701和一个或一个以上的存储器702，其中，该存储器702中存储有至少一条程序代码，该至少一条程序代码由该处理器701加载并执行以实现如下步骤：

基于所述目标分量的泛化特征进行音频信号处理。

在一些实施例中，该至少一个程序代码用于被处理器701所执行以实现如下步骤：

将所述混合音频信号映射至嵌入空间，得到所述嵌入特征。

在一些实施例中，所述萃取网络为自回归模型，该至少一个程序代码用于被处理器701所执行以实现如下步骤：将所述嵌入特征输入所述自回归模型，通过所述自回归模型对所述嵌入特征进行递归加权处理，得到所述目标分量的泛化特征。

所述停止训练条件为迭代次数到达第二目标次数。

该至少一个程序代码用于被处理器701所执行以实现如下步骤：

当然，该服务器700还具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器700还包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括至少一条程序代码的存储器，上述至少一条程序代码可由电子设备中的处理器执行以完成如下步骤：

基于所述目标分量的泛化特征进行音频信号处理。

在一些实施例中，该至少一个程序代码用于被电子设备中的处理器所执行以实现如下步骤：

将所述混合音频信号映射至嵌入空间，得到所述嵌入特征。

在一些实施例中，所述萃取网络为自回归模型，该至少一个程序代码用于被电子设备中的处理器所执行以实现如下步骤：将所述嵌入特征输入所述自回归模型，通过所述自回归模型对所述嵌入特征进行递归加权处理，得到所述目标分量的泛化特征。

所述停止训练条件为迭代次数到达第二目标次数。

该至少一个程序代码用于被电子设备中的处理器所执行以实现如下步骤：

例如，该计算机可读存储介质是ROM(Read-Only Memory，只读存储器)、RAM(Random-Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory，只读光盘)、磁带、软盘和光数据存储设备等。

本领域普通技术人员理解实现上述实施例的全部或部分步骤通过硬件来完成，也通过程序来指令相关的硬件完成，该程序存储于一种计算机可读存储介质中，上述提到的存储介质是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种音频信号处理方法，其特征在于，应用于电子设备，所述方法包括：

对混合音频信号进行嵌入处理，得到所述混合音频信号的嵌入特征；

对所述嵌入特征进行泛化特征提取，得到所述混合音频信号中目标分量的泛化特征，所述目标分量对应于所述混合音频信号中目标对象的音频信号；

基于所述目标分量的泛化特征进行音频信号处理。
根据权利要求1所述的方法，其特征在于，所述对混合音频信号进行嵌入处理，得到所述混合音频信号的嵌入特征包括：

将所述混合音频信号映射至嵌入空间，得到所述嵌入特征。
根据权利要求1所述的方法，其特征在于，所述对所述嵌入特征进行泛化特征提取，得到所述混合音频信号中目标分量的泛化特征包括：

对所述嵌入特征进行递归加权处理，得到所述目标分量的泛化特征。
根据权利要求1所述的方法，其特征在于，所述对混合音频信号进行嵌入处理，得到所述混合音频信号的嵌入特征包括：

将混合音频信号输入编码网络，通过所述编码网络对所述混合音频信号进行嵌入处理，得到所述混合音频信号的嵌入特征；

所述对所述嵌入特征进行泛化特征提取，得到所述混合音频信号中目标分量的泛化特征包括：

将所述嵌入特征输入萃取网络，通过所述萃取网络对所述嵌入特征进行泛化特征提取，得到所述混合音频信号中目标分量的泛化特征。
根据权利要求4所述的方法，其特征在于，所述萃取网络为自回归模型，所述将所述嵌入特征输入萃取网络，通过所述萃取网络对所述嵌入特征进行泛化特征提取，得到所述混合音频信号中目标分量的泛化特征包括：

将所述嵌入特征输入所述自回归模型，通过所述自回归模型对所述嵌入特征进行递归加权处理，得到所述目标分量的泛化特征。
根据权利要求4-5任一项所述的方法，其特征在于，所述方法还包括：

基于未标注的样本混合信号，对教师模型和学生模型进行协同迭代训练，得到所述编码网络以及所述萃取网络，其中，所述学生模型包括第一编码网络和第一萃取网络，所述教师模型包括第二编码网络和第二萃取网络，所述第一编码网络的输出作为所述第一萃取网络的输入，所述第二编码网络的输出作为所述第二萃取网络的输入，每次迭代过程中的教师模型由上一次迭代过程的教师模型以及本次迭代过程的学生模型进行加权所得。
根据权利要求6所述的方法，其特征在于，所述基于未标注的样本混合信号，对教师模型和学生模型进行协同迭代训练，得到所述编码网络以及所述萃取网络包括：

在任一次迭代过程中，基于本次迭代过程的学生模型以及上一次迭代过程的教师模型，获取本次迭代过程的教师模型；

将所述未标注的样本混合信号分别输入本次迭代过程的教师模型和学生模型，分别输出所述样本混合信号中目标分量的教师泛化特征以及学生泛化特征；

基于所述样本混合信号、所述教师泛化特征或者所述学生泛化特征中至少一项，获取本次迭代过程的损失函数值；

若所述损失函数值不符合停止训练条件，对所述学生模型的参数进行调整，得到下一次迭代过程的学生模型，基于所述下一次迭代过程的学生模型执行下一次迭代过程；

若所述损失函数值符合所述停止训练条件，基于本次迭代过程的学生模型或教师模型，获取所述编码网络和所述萃取网络。
根据权利要求7所述的方法，其特征在于，所述基于所述样本混合信号、所述教师泛化特征或者所述学生泛化特征中至少一项，获取本次迭代过程的损失函数值包括：

获取所述教师泛化特征以及所述学生泛化特征之间的均方误差；

获取所述样本混合信号与所述学生泛化特征之间的互信息值；

将所述均方误差或者所述互信息值中至少一项确定为本次迭代过程的损失函数值。
根据权利要求8所述的方法，其特征在于，所述停止训练条件为在连续第一目标次数的迭代过程中所述均方误差没有减小；或，

所述停止训练条件为所述均方误差小于或等于第一目标阈值且所述互信息值大于或等于第二目标阈值；或，

所述停止训练条件为迭代次数到达第二目标次数。
根据权利要求7所述的方法，其特征在于，所述基于本次迭代过程的学生模型以及上一次迭代过程的教师模型，获取本次迭代过程的教师模型包括：

将上一次迭代过程的教师模型的参数集与第一平滑系数相乘，得到第一参数集；

将本次迭代过程的学生模型与第二平滑系数相乘，得到第二参数集，其中，所述第一平滑系数与所述第二平滑系数相加所得的数值为1；

将所述第一参数集与所述第二参数集之和确定为本次迭代过程的教师模型的参数集；

基于本次迭代过程的教师模型的参数集，对上一次迭代过程的教师模型进行参数更新，得到本次迭代过程的教师模型。
根据权利要求7所述的方法，其特征在于，所述基于本次迭代过程的学生模型或教师模型，获取所述编码网络和所述萃取网络包括：

分别将本次迭代过程的学生模型中第一编码网络和第一萃取网络，确定为所述编码网络和所述萃取网络；或，

分别将本次迭代过程的教师模型中第二编码网络和第二萃取网络，确定为所述编码网络和所述萃取网络。
根据权利要求1所述的方法，其特征在于，所述基于所述目标分量的泛化特征进行音频信号处理包括：

基于所述目标分量的泛化特征，对所述目标对象的音频信号进行文语转换，输出所述目标对象的音频信号对应的文本信息；或，

基于所述目标分量的泛化特征，对所述目标对象的音频信号进行声纹识别，输出所述目标对象的音频信号对应的声纹识别结果；或，

基于所述目标分量的泛化特征，生成所述目标对象的音频信号对应的应答语音，输出所述应答语音。
一种音频信号处理装置，其特征在于，所述装置包括：

嵌入处理模块，用于对混合音频信号进行嵌入处理，得到所述混合音频信号的嵌入特征；

特征提取模块，用于对所述嵌入特征进行泛化特征提取，得到所述混合音频信号中目标分量的泛化特征，所述目标分量对应于所述混合音频信号中目标对象的音频信号；

信号处理模块，用于基于所述目标分量的泛化特征进行音频信号处理。
一种电子设备，其特征在于，所述电子设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述至少一条程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求12任一项所述的音频信号处理方法所执行的操作。
一种存储介质，其特征在于，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现如权利要求1至权利要求12任一项所述的音频信号处理方法所执行的操作。