WO2024082928A1

WO2024082928A1 - 语音处理方法、装置、设备和介质

Info

Publication number: WO2024082928A1
Application number: PCT/CN2023/121068
Authority: WO
Inventors: 崔国辉
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2022-10-21
Filing date: 2023-09-25
Publication date: 2024-04-25
Also published as: CN116978358A

Abstract

一种语音处理方法，包括：获取说话人的注册语音，并获取混合语音，混合语音包括多个发声对象的语音信息，多个发声对象包括说话人(202)；确定注册语音的注册语音特征(204)；依据注册语音特征，从混合语音中，提取出说话人的初步识别语音(206)；根据注册语音特征，确定注册语音和初步识别语音所包括语音信息之间的语音相似度(208)；及从初步识别语音中，滤除语音相似度小于预设相似度的语音信息，得到说话人的干净语音(210)。

Description

语音处理方法、装置、设备和介质

相关申请

本申请要求于2022年10月21日提交中国专利局，申请号为2022112978433、发明名称为“语音处理方法、装置、设备和介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，特别是涉及一种语音处理方法、装置、设备和介质。

背景技术

随着计算机技术的发展，出现了语音处理技术，语音处理技术是指对语音信号进行音频处理的技术。语音提取则属于语音处理技术中的其中一种，通过语音提取技术，可从复杂语音场景中提取用户感兴趣的声音。可以理解，复杂语音场景可以包括多人说话干扰、大混响、高背景噪音和音乐噪音等中的至少一种。比如，通过语音提取技术，用户可以从复杂语音场景中提取出自己感兴趣的对象的声音。传统技术中，通常直接对复杂语音进行语音提取，并将提取得到的语音直接作为最终要提取的对象的语音，但是，通过这种方式提取得到的语音经常会残留有较多噪声(比如，提取的语音中还包括其他对象的声音)，从而导致语音提取准确率较低。

发明内容

根据本申请提供的各种实施例，提供一种语音处理方法、装置、设备和介质。

第一方面，本申请提供了一种语音处理方法，所述方法包括：

获取说话人的注册语音，并获取混合语音，所述混合语音包括多个发声对象的语音信息，所述多个发声对象包括所述说话人；

确定所述注册语音的注册语音特征；

依据所述注册语音特征，从所述混合语音中，提取出所述说话人的初步识别语音；

根据所述注册语音特征，确定所述注册语音和所述初步识别语音所包括语音信息之间的语音相似度；及

从所述初步识别语音中，滤除语音相似度小于预设相似度的语音信息，得到所述说话人的干净语音。

第二方面，本申请提供了一种语音处理装置，所述装置包括：

获取模块，用于获取说话人的注册语音，并获取混合语音，所述混合语音包括多个发声对象的语音信息，所述多个发声对象包括所述说话人；

第一提取模块，用于确定所述注册语音的注册语音特征，依据所述注册语音特征，从所述混合语音中，提取出所述说话人的初步识别语音；

确定模块，用于根据所述注册语音特征，确定所述注册语音和所述初步识别语音所包括语音信息之间的语音相似度；及

过滤模块，用于从所述初步识别语音中，滤除语音相似度小于预设相似度的语音信息，得到所述说话人的干净语音。

第三方面，本申请提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机可读指令，该处理器执行计算机可读指令时执行本申请各方法实施例中的步骤。

第四方面，本申请提供了一种计算机可读存储介质，存储有计算机可读指令，该计算机可读指令被处理器执行时执行本申请各方法实施例中的步骤。

第五方面，本申请提供了一种计算机可读指令产品，包括计算机可读指令，计算机可读指令被处理器执行时执行本申请各方法实施例中的步骤。

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征、目的和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例或传统技术中的技术方案，下面将对实施例或传统技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据公开的附图获得其他的附图。

图1为一个实施例中语音处理方法的应用环境图；

图2为一个实施例中语音处理方法的流程示意图；

图3为一个实施例中语音提取网络的网络结构示意图；

图4为一个实施例中用于对混合语音进行语音提取的模型的网络结构示意图；

图5为一个实施例中一级语音提取网络的网络结构示意图；

图6为一个实施例中降噪网络的网络结构示意图；

图7为一个实施例中注册网络的网络结构示意图；

图8为另一个实施例中语音处理方法的应用环境图；

图9为一个实施例中语音处理方法的原理示意图；

图10为一个实施例中对初步识别语音进行过滤处理的原理示意图；

图11为另一个实施例中语音处理方法的流程示意图；

图12为一个实施例中语音处理装置的结构框图；

图13为一个实施例中计算机设备的内部结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供的语音处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他服务器上。其中，终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端102以及服务器104可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

终端102可获取说话人的注册语音，并获取混合语音，混合语音包括多个发声对象的语音信息，多个发声对象包括说话人。终端102可确定注册语音的注册语音特征，依据注册语音特征，从混合语音中，提取出说话人的初步识别语音。终端102可根据注册语音特征，确定注册语音和初步识别语音所包括语音信息之间的语音相似度。终端102可从初步识别语音中，滤除语音相似度小于预设相似度的语音信息，得到说话人的干净语音。

需要说明的是，本申请一些实施例中的语音处理方法使用到了人工智能技术。比如，注册语音的注册语音特征，则属于使用人工智能技术编码得到的特征，以及，说话人的初步识别语音，也属于使用人工智能技术识别得到的语音。

在一个实施例中，如图2所示，提供了一种语音处理方法，本实施例以该方法应用于图1中的终端102为例进行说明，包括以下步骤：

步骤202，获取说话人的注册语音，并获取混合语音，混合语音包括多个发声对象的语音信息，多个发声对象包括说话人。

其中，发声对象是可以发出声音的实体，可以是自然物或人造物，可以是活体或非活体。发声对象包括人物、动物或物体等中的至少一种。作为语音处理所针对目标的发声对象，可以称其为说话人，也可以称其为目标对象。可以理解，说话人是需要通过本申请的语音处理方法提取语音的对象。语音可以数字信号的形式存储为音频格式文件。

混合语音是包括多个发声对象各自语音信息的语音，这里多个发声对象可以均是用户，多个发声对象中的一个为说话人。混合语音包括说话人的语音信息。混合语音包括说话人的语音信息，可以理解为混合语音所记载的声音包括说话人的声音。

注册语音(Registered Voice)是预先针对说话人注册的干净的语音，是在一个语音数据库中预存储的该说话人的一段语音。可以理解，注册语音中基本上仅包括说话人的语音信息，不包括除说话人之外的其他发声对象的语音信息，或者除说话人之外的其他发声对象的语音信息非常少，可以忽略。

说话人可以在较为安静的环境下说一段话，终端可采集说话人说这一段话时的声音，生成注册语音。可以理解，这段话不包括除说话人之外的其他对象的声音。终端可采集说话人在安静的环境下所说的话，并根据说话人在安静的环境下所说的话，生成说话人的注册语音。安静可以是环境噪声的分贝数不超过预设分贝数。预设分贝数可以取30-40，也可以根据需要设置更低或更高的分贝数。

说话人可以在较为吵闹的环境下说一段话，终端可采集说话人说这一段话时的声音，生成混合语音。可以理解，这段话包括除说话人之外的其他发声对象的声音，还可以包括环境噪音。终端可采集说话人在吵闹的环境下所说的话，并根据说话人在吵闹的环境下所说的话，生成包括说话人的语音信息的混合语音。吵闹可以是环境噪声的分贝数超过预设分贝数。

在一个实施例中，终端可将说话人在安静的环境下所说的话对应的语音，直接作为说话人的注册语音。终端可将说话人在吵闹的环境下所说的话对应的语音，直接作为包括说话人的语音信息的混合语音。

步骤204，确定注册语音的注册语音特征。

其中，注册语音特征是注册语音的特征，可以表征说话人语音的特性，也可以称为说话人语音特征。终端可采用采用机器学习模型从注册语音中提取注册语音特征，还可以采用声学特征，如梅尔频率倒谱系数(MFCC，Mel Frequency Cepstrum Coefficient)、线性预测系数(LPC，Linear Predictive Coding)、线性预测倒谱系数(LPCC，Linear Prediction Cepstrum Coefficient)、线谱频率(LSF，Linear Spectral Frequency)、离散小波变换(Discrete Wavelet Transform)或感知线性预测(PLP，Perceptual Linear Predictive)中至少一种方式。终端可从注册语音中提取特征，得到注册语音的注册语音特征。注册语音的注册语音特征可以是即时提取的，也可以是预先提取并存储的。

步骤206，依据注册语音特征，从混合语音中，提取出说话人的初步识别语音。

注册语音特征可用于对混合语音中说话人的语音信息进行初步识别。初步识别是相对较为粗略的识别，用以从混合语音中提取出初步识别语音。初步识别语音，是对混合语音中说话人的语音信息进行初步识别得到的语音，可以理解，初步识别语音中除了包括说话人的语音信息，还有可能包括除说话人之外的其他发声对象的语音信息。初步识别语音是后续处理的基础，也可以称之为初始语音。

终端可从混合语音中，提取满足与注册语音特征相关联的条件的语音，得到说话人的初步识别语音。这里的条件，比如混合语音中的某段或某条语音信息与注册语音特征，二者的某个或某些语音参数的值满足预设的匹配条件。

终端可对注册语音进行特征提取，得到注册语音的注册语音特征。进而，终端可依据注册语音的注册语音特征，对混合语音中说话人的语音信息进行初步识别，即，对混合语音进行初步的语音提取，得到说话人的初步识别语音。

在一个实施例中，终端可对混合语音进行特征提取，得到混合语音的混合语音特征。进而，终端可根据混合语音特征和注册语音特征，对混合语音中说话人的语音信息进行初步识别，得到说话人的初步识别语音。其中，混合语音特征是混合语音的特征。

在一个实施例中，初步识别语音可以是通过预先训练的语音提取模型提取得到的。终端可将混合语音和注册语音的注册语音特征输入至语音提取网络，以通过语音提取网络对混合语音中说话人的语音信息进行初步识别，得到说话人的初步识别语音。语音提取网络可以采用卷积神经网络(CNN)。

步骤208，根据注册语音特征，确定注册语音和初步识别语音所包括语音信息之间的语音相似度。

终端可根据注册语音特征，确定注册语音和初步识别语音中语音信息之间的语音相似度。其中，语音相似度，是语音声音特性的相似度，基本跟语音内容所表达的内容无关。这里语音相似度具体是注册语音和初步识别语音中的语音信息之间的相似度。语音相似度越大，表示越相似，语音相似度越小，表示越不相似。

在一个实施例中，终端可对初步识别语音中的语音信息进行特征提取，得到语音信息特征。进而，终端可根据注册语音特征和语音信息特征，确定注册语音和初步识别语音中语音信息之间的语音相似度。

步骤210，从初步识别语音中，滤除语音相似度小于预设相似度的语音信息，得到说话人的干净语音。

终端可从初步识别语音中确定语音相似度小于预设相似度的语音信息，得到待过滤语音信息。终端可从初步识别语音中，滤除该待过滤语音信息，得到说话人的干净语音。

其中，待过滤语音信息，是初步识别语音中即将要进行过滤处理的语音信息。其中，干净语音，是说话人的干净的语音，可以理解，干净语音中仅包括说话人的语音信息，不包括除说话人之外的其他对象的语音信息。说话人的干净语音，是本申请各实施例的语音处理方法处理的结果，可以称之为目标语音。

终端可分别判断初步识别语音中的各个语音信息与注册语音之间的语音相似度是否小于预设相似度。若语音相似度小于预设相似度，则终端可将相应的语音信息作为待过滤语音信息。若语音相似度大于或等于预设相似度，可以理解，注册语音和相应语音信息之间的语音相似度较高，说明该语音信息大概率属于说话人对应的语音信息，此时，终端可将相应的语音信息保留。

预设相似度可以根据语音相似度的取值范围和过滤强度设定。预设相似度越小，过滤强度越小，越容易保留一些噪声；预设相似度越大，过滤强度越大，也越容易将说话人的声音也过滤。因此，预设相似度可在语音相似度取值范围内根据实际需要和测试效果确定。

终端可将初步识别语音中待过滤语音信息进行滤除。终端可在初步识别语音中，将待过滤语音信息置为静音，并根据初步识别语音中保留下来的语音信息，生成说话人的干净语音。保留下来的语音信息，是未置为静音的语音信息。

上述语音处理方法中，通过获取混合语音和说话人的注册语音，混合语音中包括说话人的语音信息。依据注册语音的注册语音特征，从混合语音中初步提取出说话人的初步识别语音，能够初步较为准确地提取到说话人的初步识别语音。进而，会在初步识别语音的基础上进行进阶地过滤处理，即，根据注册语音特征，确定注册语音和初步识别语音中语音信息之间的语音相似度，并从初步识别语音中过滤掉语音相似度小于预设相似度的语音信息，就可以将初步识别语音中残留的噪声过滤掉，从而得到更为干净的说话人的干净语音，提升语音提取的准确率。

在一个实施例中，依据注册语音特征，从混合语音中，提取出说话人的初步识别语音，包括：确定混合语音的混合语音特征；将混合语音特征和注册语音的注册语音特征进行融合，得到语音融合特征；及基于语音融合特征，对混合语音中说话人的语音信息进行初步识别，得到说话人的初步识别语音。

其中，语音融合特征，是将混合语音特征和注册语音的注册语音特征进行融合之后得到的语音特征。

终端可对混合语音进行特征提取，得到混合语音的混合语音特征，并将混合语音特征和注册语音的注册语音特征进行融合，得到语音融合特征。进而，终端可基于语音融合特征对混合语音中说话人的语音信息进行初步识别，得到说话人的初步识别语音。

在一个实施例中，终端可对混合语音进行傅里叶变换，获得傅里叶变换结果，并基于傅里叶变换结果进行特征提取，得到混合语音的混合语音特征。

在一个实施例中，终端可将混合语音特征和注册语音的注册语音特征进行特征拼接，并将拼接后的特征作为语音融合特征。

在一个实施例中，终端可将混合语音特征和注册语音的注册语音特征映射到相同维度后，进行加权求和或者加权求平均的运算，得到语音融合特征。

上述实施例中，通过将混合语音特征和注册语音的注册语音特征进行融合，可以得到包括混合语音特征和注册语音特征的语音融合特征，进而再基于语音融合特征对混合语音中说话人的语音信息进行初步识别，可以提升初步识别语音的提取准确率。

在一个实施例中，混合语音特征包括混合语音特征矩阵，语音融合特征包括语音融合特征矩阵，注册语音特征包括注册语音特征向量，将混合语音特征和注册语音的注册语音特征进行融合，得到语音融合特征，包括：将注册语音特征向量在时间维度上重复，以生成注册语音特征矩阵，注册语音特征矩阵的时间维度与混合语音特征矩阵的时间维度相同；及将混合语音特征矩阵和注册语音特征矩阵拼接，得到语音融合特征矩阵。

其中，时间维度，是时域中的语音信号的帧数所对应的维度。混合语音特征矩阵是混合语音特征对应的特征矩阵，是混合语音特征的具体体现形式。语音融合特征矩阵是语音融合特征对应的特征矩阵，是语音融合特征的具体体现形式。注册语音特征向量是注册语音特征对应的特征向量。注册语音特征矩阵是注册语音特征向量所组成的特征矩阵。

终端可获取混合语音特征矩阵时间维度的长度，以混合语音特征矩阵时间维度的长度为约束，将注册语音特征向量在时间维度上重复，以生成时间维度与混合语音特征矩阵的时间维度相同的注册语音特征矩阵。进而，终端可将混合语音特征矩阵和注册语音特征矩阵进行拼接，得到语音融合特征矩阵。

上述实施例中，通过将注册语音特征向量在时间维度上进行重复，以生成时间维度与混合语音特征矩阵的时间维度相同的注册语音特征矩阵，以便后续将混合语音特征矩阵和注册语音特征矩阵进行拼接，得到语音融合特征矩阵，提升特征融合的准确率。

在一个实施例中，确定混合语音的混合语音特征，包括：提取混合语音的幅度谱，得到第一幅度谱；对第一幅度谱进行特征提取，得到幅度谱特征；及对幅度谱特征进行特征提取，得到混合语音的混合语音特征。

其中，第一幅度谱是混合语音的幅度谱。幅度谱特征是第一幅度谱的特征。

终端可对时域下的混合语音进行傅里叶变换，得到频域下的混合语音的语音信息。终端可根据频域下的混合语音的语音信息，得到混合语音的第一幅度谱。进而，终端可对第一幅度谱进行特征提取，得到幅度谱特征，并对幅度谱特征进行特征提取，得到混合语音的混合语音特征。

上述实施例中，通过提取混合语音的第一幅度谱，以将时域的混合语音信号转换为频域的信号，并对第一幅度谱进行特征提取得到幅度谱特征，进而再对幅度谱特征进行特征提取，可以得到混合语音的混合语音特征，从而提升混合语音特征的准确率。

基于语音融合特征，对混合语音中说话人的语音信息进行初步识别，得到说话人的初步识别语音，包括：基于语音融合特征，对混合语音中说话人的语音信息进行初步识别，得到说话人的语音特征；对说话人的语音特征进行特征解码，得到第二幅度谱；及根据混合语音的相位谱将第二幅度谱进行变换，得到说话人的初步识别语音。

其中，说话人的语音特征，是反映说话人说话时声音特性的特征，可以称之为说话人的对象语音特征。第二幅度谱是对象语音特征解码后得到的幅度谱。

终端可基于语音融合特征对混合语音中说话人的语音信息进行初步识别，得到说话人的对象语音特征。进而，终端可将对象语音特征进行特征解码，得到第二幅度谱。终端可获取混合语音的相位谱，并根据混合语音的相位谱将第二幅度谱进行变换，得到说话人的初步识别语音。

在一个实施例中，第二幅度谱用于表征位于频域的语音信号。终端可根据混合语音的相位谱将第二幅度谱进行反傅里叶变换，得到位于时域的说话人的初步识别语音。

在一个实施例中，初步识别语音是通过语音提取网络提取得到的。如图3所示，语音提取网络包括傅里叶变换单元、编码器、长短期记忆单元和反傅里叶变换单元。可以理解，终端可通过语音提取网络中的傅里叶变换单元，提取混合语音的第一幅度谱。终端可通过语音提取网络中的编码器对第一幅度谱进行特征提取，得到幅度谱特征。终端可通过语音提取网络中的长短期记忆单元对幅度谱特征进行特征提取，得到混合语音的混合语音特征，并基于语音融合特征对混合语音中说话人的语音信息进行初步识别，得到说话人的对象语音特征，对对象语音特征进行特征解码，得到第二幅度谱。进而，终端可通过语音提取网络中的反傅里叶变换单元，根据混合语音的相位谱将第二幅度谱进行变换，得到说话人的初步识别语音。

上述实施例中，通过基于语音融合特征对混合语音中说话人的语音信息进行初步识别，可以得到说话人的对象语音特征。进而再通过对对象语音特征进行特征解码，可以得到第二幅度谱，根据混合语音的相位谱将第二幅度谱进行变换，以将频域的信号转换为时域的语音信号，得到说话人的初步识别语音，提升初步识别语音的提取准确率。

在一个实施例中，确定注册语音的注册语音特征，包括：提取注册语音的频率谱；根据频率谱，生成注册语音的梅尔频率谱；及对梅尔频率谱进行特征提取，得到注册语音的注册语音特征。

具体地，终端可对时域下的注册语音进行傅里叶变换，得到频域下的注册语音的语音信息。终端可根据频域下的注册语音的语音信息，得到注册语音的频率谱。进而，终端可根据注册语音的频率谱，生成注册语音的梅尔频率谱，并对梅尔频率谱进行特征提取，得到注册语音的注册语音特征。

在一个实施例中，语音信息包括语音片段；根据注册语音特征，确定注册语音和初步识别语音所包括语音信息之间的语音相似度，包括：针对初步识别语音中的每一个语音片段，确定语音片段对应的片段语音特征；根据片段语音特征和注册语音特征，确定注册语音和语音片段之间的语音相似度。

其中，片段语音特征是语音片段的语音特征。初步识别语音中包括多个语音片段。

终端可针对初步识别语音中的每一个语音片段，对该语音片段进行特征提取，得到该语音片段的片段语音特征，并根据该片段语音特征和注册语音特征，确定注册语音和语音片段之间的语音相似度。

在一个实施例中，终端可针对初步识别语音中的每一个语音片段，对该语音片段进行特征提取，得到该语音片段对应的片段语音特征。

在一个实施例中，片段语音特征包括片段语音特征向量，注册语音特征包括注册语音特征向量。终端可针对初步识别语音中的每一个语音片段，根据该语音片段的片段语音特征向量和注册语音特征向量，确定注册语音和该语音片段之间的语音相似度。

在一个实施例中，注册语音和语音片段之间的语音相似度可通过以下公式计算得到：

其中，A表示片段语音特征向量，B表示注册语音特征向量，cosθ表示注册语音和语音片段之间的语音相似度，θ表示片段语音特征向量和注册语音特征向量的夹角。

上述实施例中，通过根据片段语音特征和注册语音特征，确定注册语音和语音片段之间的语音相似度，可以提升注册语音和初步识别语音中语音信息之间的语音相似度的计算准确率。

在一个实施例中，针对初步识别语音中的每一个语音片段，确定语音片段对应的片段语音特征，包括：针对初步识别语音中的每一个语音片段，将语音片段进行重复，得到与注册语音的时间长度一致的重组语音；其中，重组语音包括多个语音片段；根据重组语音的重组语音特征确定语音片段对应的片段语音特征。

本实施例中，初步识别语音中语音信息包括语音片段，根据注册语音特征，确定注册语音和初步识别语音中语音信息之间的语音相似度，包括：按照注册语音的时间长度，对初步识别语音中的每一个语音片段分别进行重复，得到时间长度的重组语音；获取从重组语音提取的重组语音特征，根据重组语音特征确定初步识别语音中每一个语音片段对应的片段语音特征；及分别根据每个语音片段对应的片段语音特征和注册语音特征，确定注册语音和每个语音片段之间的语音相似度。

其中，重组语音是由多个相同的语音片段重组得到的语音，可以理解，重组语音中包括多个相同的语音片段。

终端可获取注册语音的时间长度，针对初步识别语音中的每一个语音片段，按照注册语音的时间长度将该语音片段进行重复，得到与注册语音的时间长度一致的重组语音。针对每一个语音片段，得到的重组语音包括多个相同的语音片段。终端可对重组语音进行特征提取，得到重组语音的重组语音特征，并根据重组语音的重组语音特征，确定该语音片段对应的片段语音特征。

在一个实施例中，终端可将重组语音的重组语音特征，直接作为该语音片段对应的片段语音特征。

上述实施例中，将语音片段进行重复处理，得到与注册语音的时间长度一致的、且包括多个相同的语音片段的重组语音，进而再根据重组语音的重组语音特征确定语音片段对应的片段语音特征，可以进一步提升注册语音和初步识别语音中语音信息之间的语音相似度的计算准确率。

在一个实施例中，根据注册语音特征，确定注册语音和初步识别语音所包括语音信息之间的语音相似度的步骤，以及从初步识别语音中，滤除语音相似度小于预设相似度的语音信息，得到说话人的干净语音的步骤，是在第一处理模式下执行的。

在一个实施例中，该语音处理方法还包括：在第二处理模式下，获取干扰语音，干扰语音，是依据注册语音特征，从混合语音中提取出的；获取混合语音的混合语音特征、初步识别语音的语音特征、以及干扰语音的语音特征；将混合语音特征和初步识别语音的语音特征，基于注意力机制融合，得到第一注意力特征；将混合语音特征和干扰语音的语音特征，基于注意力机制融合，得到第二注意力特征；及基于混合语音特征、第一注意力特征和第二注意力特征融合，并基于融合后的特征得到说话人的干净语音。

本实施例中，在第一处理模式下，终端可执行确定语音相似度及后续相应语音过滤步骤。在第二处理模式下，终端可依据注册语音特征从混合语音中还提取出干扰语音，干扰语音是在混合语音中干扰识别说话人的语音信息的语音。进一步地，在第二处理模式下，终端可将混合语音的混合语音特征和初步识别语音的语音特征基于注意力机制进行融合，得到第一注意力特征，以及将混合语音特征和干扰语音的语音特征基于注意力机制进行融合，得到第二注意力特征；基于混合语音特征、第一注意力特征和第二注意力特征进行融合，并基于融合后的特征得到说话人的干净语音。

其中，第一注意力特征，是将混合语音的混合语音特征和初步识别语音的语音特征基于注意力机制融合得到的特征。第二注意力特征，是将混合语音特征和干扰语音的语音特征基于注意力机制融合得到的特征。可以理解，将混合语音的混合语音特征和初步识别语音的语音特征基于注意力机制进行融合，是指将混合语音的混合语音特征和初步识别语音的语音特征分别乘以相应的注意力权重，以进行融合。还可以理解，将混合语音特征和干扰语音的语音特征基于注意力机制进行融合，是指将混合语音特征和干扰语音的语音特征，分别乘以相应的注意力权重，以进行融合。

处理模式是第一处理模式还是第二处理模式，决定了提取出说话人的干净语音的方式不同。处理模式可以预先配置或实时修改配置，也可以由用户自由选择。

在用户需要快速获取干净语音的情况下，响应于第一处理模式选择操作，终端可将当前处理模式确定为第一处理模式。在第一处理模式下，终端可根据注册语音特征，确定注册语音和初步识别语音中语音信息之间的语音相似度，从初步识别语音中确定语音相似度小于预设相似度的语音信息，得到待过滤语音信息，将初步识别语音中待过滤语音信息进行过滤处理，得到说话人的干净语音。

在用户需要获取高准确率的干净语音的情况下，响应于第二处理模式选择操作，终端可将当前处理模式确定为第二处理模式。在第二处理模式下，终端可将混合语音的混合语音特征和初步识别语音的语音特征基于注意力机制进行融合，得到第一注意力特征，以及将混合语音特征和干扰语音的语音特征基于注意力机制进行融合，得到第二注意力特征；基于混合语音特征、第一注意力特征和第二注意力特征进行融合，并基于融合后的特征得到说话人的干净语音。

在一个实施例中，终端可将混合语音特征、第一注意力特征和第二注意力特征直接进行特征融合，得到融合后的特征。进而，终端可基于融合后的特征确定说话人的干净语音。

在一个实施例中，终端可将混合语音和注册语音特征输入至预先训练的语音提取模型，以通过语音提取模型基于混合语音和注册语音特征进行语音提取，输出初步识别语音和干扰语音。

上述实施例中，在第一处理模式下，通过注册语音和初步识别语音中语音信息之间的语音相似度，对从混合语音中提取的初步识别语音进行进阶的语音过滤，得到更为干净的说话人的干净语音。可以理解，在第一处理模式下可以快速获得较为干净的干净语音，提升语音提取效率。在第二处理模式下，通过将混合语音的混合语音特征和初步识别语音的语音特征基于注意力机制进行融合，以及将混合语音特征和干扰语音的语音特征基于注意力机制进行融合，分别得到第一注意力特征和第二注意力特征。进而再基于混合语音特征、第一注意力特征和第二注意力特征确定说话人的干净语音。可以理解，相较于第一处理模式，在第二处理模式下可以获得更为干净的干净语音，进一步提升语音提取准确率。这样，提供两种处理模式供用户选择，可以提升语音提取的灵活性。

在一个实施例中，基于混合语音特征、第一注意力特征和第二注意力特征融合，并基于融合后的特征得到说话人的干净语音，包括：将混合语音特征、第一注意力特征、第二注意力特征和注册语音特征进行融合，并基于融合后的特征得到说话人的干净语音。

本实施例中，终端可将混合语音特征、第一注意力特征、第二注意力特征和注册语音特征进行特征融合，得到融合后的特征。进而，终端可基于融合后的特征确定说话人的干净语音。

上述实施例中，通过将混合语音特征、第一注意力特征、第二注意力特征和注册语音特征进行融合，可以使得融合后的特征更为准确，从而再基于更为准确的融合后的特征确定说话人的干净语音，可以进一步提升语音提取准确率。

在一个实施例中，初步识别语音和干扰语音是通过训练过的语音提取模型从混合语音中提取出的，方法还包括：将混合语音和注册语音特征输入至语音提取模型；通过语音提取模型，基于混合语音和注册语音特征，生成第一掩码信息和第二掩码信息；通过语音提取模型，根据第一掩码信息屏蔽混合语音中的干扰信息，得到说话人的初步识别语音；及通过语音提取模型，根据第二掩码信息屏蔽混合语音中说话人的语音信息，得到干扰语音。

本实施例中，初步识别语音和干扰语音是通过预先训练的语音提取模型从混合语音中提取出的；方法还包括：将混合语音和注册语音特征输入至语音提取模型，以通过语音提取模型基于混合语音和注册语音特征，生成第一掩码信息和第二掩码信息；根据第一掩码信息屏蔽混合语音中的干扰信息，得到说话人的初步识别语音；根据第二掩码信息屏蔽混合语音中说话人的语音信息，得到干扰语音。

其中，第一掩码信息，是用于屏蔽混合语音中的干扰信息的信息。第二掩码信息，是用于屏蔽混合语音中说话人的语音信息的信息。

终端可将混合语音和注册语音特征输入至预先训练的语音提取模型，以通过语音提取模型基于混合语音和注册语音特征，生成与输入的混合语音和注册语音特征对应的第一掩码信息和第二掩码信息。

进而，终端可根据第一掩码信息屏蔽混合语音中的干扰信息，生成说话人的初步识别语音，以及根据第二掩码信息屏蔽混合语音中说话人的语音信息，生成干扰说话人的语音信息的干扰语音。

在一个实施例中，终端可将混合语音和注册语音特征输入至语音提取模型，以通过语音提取模型基于已训练的模型参数，生成与混合语音和注册语音特征对应的第一掩码信息和第二掩码信息。

在一个实施例中，第一掩码信息包括第一屏蔽参数。可以理解，由于第一掩码信息是用于屏蔽混合语音中的干扰信息的，所以第一掩码信息包括第一屏蔽参数，以实现对混合语音中的干扰信息的屏蔽。具体地，终端可将第一屏蔽参数与混合语音的混合语音幅度谱相乘，得到说话人的语音信息对应的对象语音幅度谱，并根据对象语音幅度谱，生成说话人的初步识别语音。其中，混合语音幅度谱是混合语音的幅度谱。对象语音幅度谱是说话人的语音信息的幅度谱。

在一个实施例中，第二掩码信息包括第二屏蔽参数。可以理解，由于第二掩码信息是用于屏蔽混合语音中说话人的语音信息的，所以第二掩码信息包括第二屏蔽参数，以实现对混合语音中说话人的语音信息的屏蔽。具体地，终端可将第二屏蔽参数与混合语音的混合语音幅度谱相乘，得到混合语音中干扰信息对应的干扰幅度谱，并根据干扰幅度谱，生成干扰说话人的语音信息的干扰语音。其中，干扰幅度谱是混合语音中干扰信息的幅度谱。

上述实施例中，通过语音提取模型基于混合语音和注册语音特征，可以生成与混合语音和注册语音特征对应的第一掩码信息和第二掩码信息，进而根据第一掩码信息屏蔽混合语音中的干扰信息，可以得到说话人的初步识别语音，从而进一步提升了初步识别语音的提取准确率。以及，根据第二掩码信息屏蔽混合语音中说话人的语音信息，可以得到干扰语音，从而提升了干扰语音的提取准确率。

在一个实施例中，语音提取模型中预先训练好的模型参数中包括第一掩码映射参数和第二掩码映射参数；将混合语音和注册语音特征输入至语音提取模型，以通过语音提取模型基于混合语音和注册语音特征，生成第一掩码信息和第二掩码信息，包括：将混合语音和注册语音特征输入至语音提取模型，以通过第一掩码映射参数映射生成对应的第一掩码信息，以及通过第二掩码映射参数映射生成对应的第二掩码信息。

本实施例中，终端可基于语音提取模型的第一掩码映射参数、混合语音和注册语音特征，生成第一掩码信息。终端可基于语音提取模型的第二掩码映射参数、混合语音和注册语音特征，生成第二掩码信息。

其中，掩码映射参数，是将语音特征映射为掩码信息的相关参数。通过第一掩码映射参数可映射生成用来屏蔽混合语音中干扰信息的掩码信息，即第一掩码信息。通过第二掩码映射参数可映射生成用来屏蔽混合语音中说话人的语音信息的掩码信息，即第二掩码信息。

终端可将混合语音和注册语音特征输入至语音提取模型，以通过语音提取模型中的第一掩码映射参数，映射生成与输入的混合语音和注册语音特征对应的第一掩码信息，以及通过语音提取模型中的第二掩码映射参数，映射生成与输入的混合语音和注册语音特征对应的第二掩码信息。

上述实施例中，由于第一掩码信息和第二掩码信息是基于输入至语音提取模型的混合语音和注册语音特征，以及语音提取模型中预先训练好的第一掩码映射参数和第二掩码映射参数生成的，因此，第一掩码信息和第二掩码信息是可随着输入的不同而动态改变的。这样可以提升第一掩码信息和第二掩码信息的准确率，从而进一步提升初步识别语音和干扰语音的提取准确率。

在一个实施例中，混合语音的混合语音特征、初步识别语音的语音特征、以及干扰语音的语音特征，是将混合语音、初步识别语音和干扰语音分别输入至二级处理模型中的特征提取层后，由特征提取层提取的。

在一个实施例中，第一注意力特征，是由二级处理模型中的第一注意力单元，将混合语音特征和初步识别语音的语音特征进行注意力机制融合得到的。

在一个实施例中，第二注意力特征，是由二级处理模型中的第二注意力单元，将混合语音特征和干扰语音的语音特征进行注意力机制融合得到的。

终端在第二处理模式下，将混合语音、一级语音提取模型输出的初步识别语音和干扰语音分别输入至二级处理模型中的特征提取层进行特征提取，得到混合语音的混合语音特征、初步识别语音的语音特征和干扰语音的语音特征。

终端可将初步识别语音的语音特征和混合语音特征输入至二级处理模型中的第一注意力单元，以将混合语音的混合语音特征和初步识别语音的语音特征基于注意力机制进行融合，得到第一注意力特征。

终端可将干扰语音的语音特征和混合语音特征输入至二级处理模型中的第二注意力单元，以将混合语音的混合语音特征和干扰语音的语音特征基于注意力机制进行融合，得到第二注意力特征。

可以理解，用于对混合语音进行语音提取的模型包括一级语音提取模型和二级处理模型。其中，一级语音提取模型用于从混合语音中提取出初步识别语音和干扰语音。二级处理模型用于基于初步识别语音和干扰语音对混合语音进行进阶的语音提取，得到说话人的干净语音。

在一个实施例中，二级处理模型中包括特征提取层、第一注意力单元和第二注意力单元。在第二处理模式下，终端可将混合语音、一级语音提取模型输出的初步识别语音和干扰语音分别输入至二级处理模型中的特征提取层，以通过特征提取层对混合语音、初步识别语音和干扰语音分别进行特征提取，得到混合语音的混合语音特征、初步识别语音的语音特征和干扰语音的语音特征。终端可将初步识别语音的语音特征和混合语音特征输入至二级处理模型中的第一注意力单元，以通过第一注意力单元将混合语音的混合语音特征和初步识别语音的语音特征基于注意力机制进行融合，得到第一注意力特征。终端可将干扰语音的语音特征和混合语音特征输入至二级处理模型中的第二注意力单元，以通过第二注意力单元将混合语音的混合语音特征和干扰语音的语音特征基于注意力机制进行融合，得到第二注意力特征。

上述实施例中，通过一级语音提取模型提取初步识别语音和干扰语音，通过二级处理模型参考初步识别语音和干扰语音对混合语音进行进阶的语音提取，可以进一步提升语音提取准确率。

在一个实施例中，初步识别语音和干扰语音，是通过一级语音提取模型从混合语音中提取的，二级处理模型还包括特征融合层和二级语音提取模型，基于混合语音特征、第一注意力特征和第二注意力特征融合，并基于融合后的特征得到说话人的干净语音，包括：将混合语音特征、第一注意力特征、第二注意力特征和注册语音特征输入至特征融合层进行融合，得到语音融合特征；及将语音融合特征输入至二级语音提取模型，以通过二级语音提取模型基于语音融合特征得到说话人的干净语音。

其中，提取初步识别语音和干扰语音的语音提取模型为一级语音提取模型。二级处理模型还包括特征融合层和二级语音提取模型。终端可将混合语音特征、第一注意力特征、第二注意力特征和注册语音特征输入至特征融合层进行融合，得到语音融合特征；将语音融合特征输入至二级语音提取模型，以通过二级语音提取模型基于语音融合特征得到说话人的干净语音。

二级处理模型中除了包括特征提取层、第一注意力单元和第二注意力单元之外，还包括特征融合层和二级语音提取模型。终端可将混合语音特征、第一注意力特征、第二注意力特征和注册语音特征输入至二级处理模型中的特征融合层，以通过特征融合层对混合语音特征、第一注意力特征、第二注意力特征和注册语音特征进行融合，得到语音融合特征。进而，终端可将语音融合特征输入至二级处理模型中的二级语音提取模型，以通过二级语音提取模型基于语音融合特征得到说话人的干净语音。

在一个实施例中，终端可将语音融合特征输入至二级处理模型中的二级语音提取模型，以通过二级语音提取模型对语音融合特征进行特征提取，并基于提取到的特征生成说话人的干净语音。

在一个实施例中，如图4所示，用于对混合语音进行语音提取的模型包括一级语音提取模型和二级处理模型。其中，二级处理模型中包括第一特征提取层、第二特征提取层、第三特征提取层、第一注意力单元、第二注意力单元、特征融合层和二级语音提取模型。终端可将混合语音和注册语音特征输入至一级语音提取模型，以通过语音提取模型基于混合语音和注册语音特征，得到初步识别语音和干扰语音。

进而，终端可将混合语音、初步识别语音和干扰语音，分别输入至二级处理模型中的第一特征提取层、第二特征提取层和第三特征提取层，以对混合语音、初步识别语音和干扰语音分别进行特征提取，得到混合语音的混合语音特征、初步识别语音的语音特征和干扰语音的语音特征。

终端可将初步识别语音的语音特征和混合语音特征输入至二级处理模型中的第一注意力单元，以通过第一注意力单元将混合语音的混合语音特征和初步识别语音的语音特征基于注意力机制进行融合，得到第一注意力特征。

终端可将干扰语音的语音特征和混合语音特征输入至二级处理模型中的第二注意力单元，以通过第二注意力单元将混合语音的混合语音特征和干扰语音的语音特征基于注意力机制进行融合，得到第二注意力特征。

终端可将混合语音特征、第一注意力特征、第二注意力特征和注册语音特征输入至二级处理模型中的特征融合层，以通过特征融合层对混合语音特征、第一注意力特征、第二注意力特征和注册语音特征进行融合，得到语音融合特征。进而，终端可将语音融合特征输入至二级处理模型中的二级语音提取模型，以通过二级语音提取模型基于语音融合特征得到说话人的干净语音。

在一个实施例中，如图5所示，上述一级语音提取模型中包括傅里叶变换单元、编码器、长短期记忆单元、第一反傅里叶变换单元和第二反傅里叶变换单元。可以理解，终端可通过一级语音提取模型中的傅里叶变换单元，提取混合语音的混合语音幅度谱。

终端可通过一级语音提取模型中的编码器对混合语音幅度谱进行特征提取，得到幅度谱特征。终端可通过一级语音提取模型中的长短期记忆单元基于幅度谱特征生成第一掩码映射参数和第一掩码映射参数。

终端可将第一掩码映射参数与混合语音的混合语音幅度谱相乘，得到说话人的语音信息对应的对象语音幅度谱。终端可通过一级语音提取模型中的第一反傅里叶变换单元，根据混合语音的相位谱将对象语音幅度谱进行变换，得到说话人的初步识别语音。

终端可将第二掩码映射参数与混合语音的混合语音幅度谱相乘，得到混合语音中干扰信息对应的干扰幅度谱，终端可通过一级语音提取模型中的第二反傅里叶变换单元，根据混合语音的相位谱将干扰幅度谱进行变换，得到干扰语音。

上述实施例中，通过将混合语音特征、第一注意力特征、第二注意力特征和注册语音特征输入至二级处理模型的特征融合层进行融合，可以得到更为准确的语音融合特征，进而通过二级语音提取模型基于更为准确的语音融合特征，确定说话人的干净语音，可以进一步提取语音提取准确率。

在一个实施例中，获取说话人的注册语音，并获取混合语音，包括：获取初始混合语音和说话人的初始注册语音；初始混合语音中包括说话人的语音信息；分别对初始混合语音和初始注册语音进行降噪处理，得到混合语音和说话人的注册语音。

其中，初始混合语音是未经过降噪处理的混合语音。初始注册语音是未经过降噪处理的注册语音。

具体地，终端可分别获取初始混合语音和说话人的初始注册语音，其中，初始混合语音中包括说话人的语音信息。可以理解，初始混合语音和初始注册语音中含有噪声，比如，含有大混响、高背景噪音和音乐噪音等中的至少一种。终端可对初始混合语音进行降噪处理，得到混合语音。终端可对初始注册语音进行降噪处理，得到说话人的注册语音。

在一个实施例中，混合语音和注册语音是通过预先训练的降噪网络进行降噪处理得到的。具体地，终端可将获取的初始混合语音和说话人的初始注册语音，分别输入至降噪网络，以通过降噪网络对初始混合语音和初始注册语音进行降噪处理，得到混合语音和说话人的注册语音。

上述实施例中，通过分别对初始混合语音和初始注册语音进行降噪处理，可以去除掉初始混合语音和初始注册语音中的噪音，得到不含噪声的混合语音和注册语音，从而后续基于不含噪声的混合语音和注册语音进行语音提取，可以进一步提升语音提取的准确率。

在一个实施例中，初步识别语音是通过预先训练的语音处理模型生成得到的；语音处理模型包括降噪网络和语音提取网络；混合语音和注册语音是通过降噪网络进行降噪处理得到的。依据注册语音特征，从混合语音中，提取出说话人的初步识别语音，包括：将注册语音的注册语音特征输入至语音提取网络，以通过语音提取网络对混合语音中说话人的语音信息进行初步识别，得到说话人的初步识别语音。

本实施例中，语音处理模型包括降噪网络和语音提取网络。终端可将获取的初始混合语音和说话人的初始注册语音，分别输入至降噪网络，以通过降噪网络对初始混合语音和初始注册语音进行降噪处理，得到混合语音和说话人的注册语音。进而，终端可将混合语音和注册语音的注册语音特征输入至语音提取网络，以通过语音提取网络对混合语音中说话人的语音信息进行初步识别，得到说话人的初步识别语音。

在一个实施例中，如图6所示，降噪网络包括傅里叶变换单元、编码器、长短期记忆单元、解码器和反傅里叶变换单元。可以理解，噪声语音包括初始混合语音和初始注册语音。干净语音包括混合语音和注册语音。终端可将噪声语音输入至降噪网络，以通过降噪网络中的傅里叶变换单元对噪声语音进行傅里叶变换，得到噪声语音的幅度谱和相位谱，进而，通过降噪网络中的编码器对噪声语音的幅度谱进行特征编码，得到编码后的特征，再通过降噪网络中的长短期记忆单元对编码后的特征进行特征提取，并通过降噪网络中的解码器对提的特征进行解码，得到解码后的幅度谱，进而再通过降噪网络中的反傅里叶变换单元对解码后的幅度谱进行反傅里叶变换，得到干净语音。

上述实施例中，通过语音处理模型中的降噪网络对初始的混合语音和初始的注册语音进行降噪处理，可以得到不含噪声的混合语音和注册语音，提升语音降噪效果。进而通过语音提取网络对混合语音中说话人的语音信息进行初步识别，可以提升初步识别语音的提取准确率。

在一个实施例中，在获取到混合语音和注册语音后，分别通过训练过的降噪网络进行降噪，语音处理方法还包括：获取样本噪声语音，样本噪声语音是对作为参照的参考干净语音增加噪声得到；将样本噪声语音输入至待训练的降噪网络，以通过降噪网络对样本待降噪语音进行降噪，得到降噪后的预测语音；及根据预测语音和参考干净语音之间的差异，对待训练的降噪网络进行迭代训练，得到训练过的降噪网络。

本实施例中，混合语音和注册语音是通过预先训练的降噪网络进行降噪处理得到的。终端可获取样本噪声语音；样本噪声语音是通过对作为参照的参考干净语音增加噪声得到。终端可将样本噪声语音输入至待训练的降噪网络，以通过降噪网络对样本待降噪语音进行降噪处理，得到降噪后的预测语音。终端根据预测语音和参考干净语音之间的差异，对待训练的降噪网络进行迭代训练，得到预先训练的降噪网络。

其中，样本噪声语音是含有噪声的、且用于训练降噪网络的语音，样本噪声语音是通过对作为参照的干净语音增加噪声得到。参考干净语音是不含噪声的、且在训练降噪网络中起参照作用的语音。预测语音，是训练降噪网络过程中样本噪声语音经过降噪之后所预测得到的语音。

具体地，终端可获取作为参照的参考干净语音，并对参考干净语音增加噪声，得到样本噪声语音。进而，终端可将样本噪声语音输入至待训练的降噪网络，以通过降噪网络对样本待降噪语音进行降噪处理，得到降噪后的预测语音。终端可根据预测语音和参考干净语音之间的差异，对待训练的降噪网络进行迭代训练，得到预先训练的降噪网络。

在一个实施例中，终端可根据预测语音和参考干净语音之间的差异，确定降噪损失值，并根据降噪损失值，对待训练的降噪网络进行迭代训练，在迭代停止的情况下得到预先训练的降噪网络。

在一个实施例中，上述的降噪损失值可通过以下损失函数计算得到：

其中，代表参考干净语音，具体可以是参考干净语音本身，可以是参考干净语音的语音信号，可以是参考干净语音的能量值，还可以是参考干净语音在频域上各频率出现概率的概率分布。X代表预测语音，与相同种类，具体可以是预测语音本身，可以是预测语音的语音信号，可以是预测语音的能量值，还可以是预测语音在频域上各频率出现概率的概率分布。Loss_SDR表示降噪损失值。||·||表示范数函数，具体可以是L₂范数函数。

上述实施例中，通过预测语音和干净语音之间的差异，对待训练的降噪网络进行迭代训练，可以提升降噪网络的降噪能力。

在一个实施例中，初步识别语音是通过预先训练的语音提取网络提取得到的。该方法还包括：获取样本数据；样本数据包括样本混合语音和样本说话人的样本注册语音特征；样本混合语音是通过对样本说话人的样本干净语音增加噪声得到的；将样本数据输入至待训练的语音提取网络，以通过语音提取网络依据样本注册语音特征，对样本混合语音中样本说话人的样本语音信息进行识别，得到样本说话人的预测干净语音；根据预测干净语音和样本干净语音之间的差异，对待训练的语音提取网络进行迭代训练，得到预先训练的语音提取网络。

其中，样本数据是用于训练语音提取网络的数据。样本混合语音是用于训练语音提取网络的混合语音。样本说话人是训练语音提取网络过程中所涉及到的说话人。样本注册语音特征是用于训练语音提取网络的注册语音特征。样本干净语音是仅含样本说话人的语音信息的、且在训练语音提取网络中起参照作用的语音。预测干净语音，是训练语音提取网络过程中从样本混合语音中提取得到的样本说话人的语音。

终端可获取样本说话人的样本干净语音，并将样本说话人的样本干净语音增加噪声，得到样本混合语音。终端可获取样本说话人的样本注册语音，并对样本注册语音进行特征提取，得到样本说话人的样本注册语音特征。进而，终端可根据样本混合语音和样本说话人的样本注册语音特征一起作为样本数据。终端可将样本数据输入至待训练的语音提取网络，以通过语音提取网络依据样本注册语音特征，对样本混合语音中样本说话人的样本语音信息进行识别，得到样本说话人的预测干净语音，并根据预测干净语音和样本干净语音之间的差异，对待训练的语音提取网络进行迭代训练，得到预先训练的语音提取网络。

在一个实施例中，终端可根据预测干净语音和样本干净语音之间的差异，确定提取损失值，并根据提取损失值，对待训练的语音提取网络进行迭代训练，在迭代停止的情况下得到预先训练的语音提取网络。

在一个实施例中，上述的提取损失值可通过以下损失函数计算得到：

其中，i表示N个样本混合语音中的第i个，代表第i个样本混合语音，具体可以是第i个样本混合语音本身，可以是第i个样本混合语音的语音信号，可以是第i个样本混合语音的能量值，还可以是第i个样本混合语音在频域上各频率出现概率的概率分布。Y_i代表预测干净语音，具体可以是预测干净语音本身，可以是预测干净语音的语音信号，可以是预测干净语音的能量值，还可以是预测干净语音在频域上各频率出现概率的概率分布。Loss_MAE表示提取损失值。

上述实施例中，通过预测样本干净语音和样本干净语音之间的差异，对待训练的语音提取网络进行迭代训练，可以语音提取网络的语音提取准确率。

在一个实施例中，上述的语音处理模型还包括注册网络。注册语音特征是通过注册网络提取得到的。注册网络包括梅尔频率谱生成单元、长短期记忆单元和特征生成单元。如图7所示，终端可通过注册网络中的梅尔频率谱生成单元，提取注册语音的频率谱，并根据频率谱，生成注册语音的梅尔频率谱。终端可通过注册网络中的长短期记忆单元，对梅尔频率谱进行特征提取，得到多个特征向量。进而，终端可通过注册网络中的特征生成单元，在时间维度上对上述的多个特征向量求平均，得到注册语音的注册语音特征。

上述实施例中，通过提取注册语音的频率谱，以将时域的注册语音信号转换为频域的信号。进而再根据频率谱生成注册语音的梅尔频率谱，并对梅尔频率谱进行特征提取，可以提升注册语音特征的提取准确率。

在一个实施例中，获取说话人的注册语音，并获取混合语音，包括：响应于通话触发操作，确定通话触发操作指定的说话人，从预先存储的候选的注册语音中，确定说话人的注册语音；在基于通话触发操作与说话人对应的终端建立有语音通话的情况下，接收说话人对应的终端在语音通话中发送的混合语音。

本实施例中，终端响应于针对说话人的通话触发操作，从预先存储的候选的注册语音中，确定说话人的注册语音。终端在基于通话触发操作与说话人对应的终端建立语音通话的情况下，接收说话人对应的终端在语音通话中发送的混合语音。

在语音通话的场景下，用户可基于终端向说话人发起通话请求，即，终端可响应于用户针对说话人的通话触发操作，从预先存储的候选的注册语音中，查找说话人的注册语音。同时，终端可相应于通话触发操作，生成针对说话人的通话请求，并将通话请求发送至说话人对应的终端。在基于通话请求与说话人对应的终端建立语音通话的情况下，终端可接收说话人对应的终端在语音通话中发送的混合语音。

可以理解，终端可在语音通话过程中，依据注册语音的注册语音特征，对接收到的混合语音中说话人的语音信息进行初步识别，得到说话人的初步识别语音，根据注册语音特征，确定注册语音和初步识别语音中语音信息之间的语音相似度，从初步识别语音中确定语音相似度小于预设相似度的语音信息，得到待过滤语音信息，并将初步识别语音中待过滤语音信息进行过滤处理，得到说话人的干净语音。

上述实施例中，通过响应于针对说话人的通话触发操作，可以从预先存储的候选的注册语音中，确定说话人的注册语音。通过在基于通话触发操作与说话人对应的终端建立语音通话的情况下，接收说话人对应的终端在语音通话中发送的混合语音，可以实现在通话场景下提取说话人的语音，从而提升通话质量。

在一个实施例中，获取说话人的注册语音，并获取混合语音，包括：获取多媒体对象的多媒体语音；多媒体语音是包括多个说话人的语音信息的混合语音；响应于针对多媒体语音中说话人的指定操作，获取指定的说话人的标识；说话人是从多个发声对象中指定的需提取语音的说话人；从针对多媒体语音中各说话人预先存储的注册语音中，获取与说话人的标识具有映射关系的注册语音，得到说话人的注册语音。

本实施例中，终端可获取多媒体对象的多媒体语音，多媒体语音是包括多个发声对象的语音信息的混合语音。终端可响应于针对多媒体语音中的说话人的指定操作，获取指定的说话人的标识，说话人是多个发声对象中指定提取语音的发声对象。终端可从针对多媒体语音中各发声对象预先存储的注册语音中，获取与说话人的标识具有映射关系的注册语音，得到说话人的注册语音。多个发声对象可以是多个说话人，指定的说话人可以称之为目标说话人。

其中，多媒体对象是一种多媒体文件，多媒体对象包括视频对象和音频对象。多媒体语音是多媒体对象中的语音。标识是用于唯一标识说话人身份的字符串。

终端可从多媒体对象中提取多媒体语音，可以理解，该多媒体语音是包括多个说话人的语音信息的混合语音。终端可响应于针对多媒体语音中的说话人的指定操作，获取指定的说话人的标识，可以理解，说话人是多个说话人中指定提取语音的说话人。终端可从针对多媒体语音中各说话人预先存储的注册语音中，查找到与该标识具有映射关系的注册语音，作为指定的说话人的注册语音。

可以理解，终端可从多媒体语音中提取得到说话人的干净语音，具体地，终端可依据该说话人的注册语音的注册语音特征，对多媒体语音中说话人的语音信息进行初步识别，得到说话人的初步识别语音，根据注册语音特征，确定注册语音和初步识别语音中语音信息之间的语音相似度，从初步识别语音中确定语音相似度小于预设相似度的语音信息，得到待过滤语音信息，并将初步识别语音中待过滤语音信息进行过滤处理，得到说话人的干净语音。

上述实施例中，通过获取多媒体对象的多媒体语音，并响应于针对多媒体语音中的说话人的指定操作，可以获取指定的说话人的标识。进而从针对多媒体语音中各说话人预先存储的注册语音中，可以获取与说话人的标识具有映射关系的注册语音，得到说话人的注册语音，可以实现从多媒体对象中提取用户感兴趣的说话人的语音。可以快速指定提取干净语音的说话人并提取干净语音，避免因多人语音环境嘈杂导致无法听清而消耗额外的资源。

在一个实施例中，如图8所示，本申请的语音处理方法可应用于影视视频或语音通话中的语音提取场景。具体地，针对应用于影视视频的场景，终端可获取影视视频的视频语音，视频语音是包括多个说话人的语音信息的混合语音。终端可响应于针对视频语音中的说话人的指定操作，获取指定的目标说话人的标识，目标说话人是多个说话人中指定提取语音的说话人。终端可从针对视频语音中各说话人预先存储的注册语音中，获取与该标识具有映射关系的注册语音，得到目标说话人的注册语音。从而通过本申请的语音处理方法，基于注册语音从视频语音中提取出目标说话人的注册语音。针对应用于语音通话的场景，终端可响应于针对目标说话人的通话触发操作，从预先存储的候选的注册语音中，确定目标说话人的注册语音，在基于通话触发操作与目标说话人对应的终端建立语音通话的情况下，接收目标说话人对应的终端在语音通话中发送的混合语音。从而通过本申请的语音处理方法，基于注册语音从语音通话过程中获取的混合语音中，提取出目标说话人的干净语音。

在一个实施例中，干净语音是通过语音处理模型和过滤处理单元生成得到的，其中，语音处理模型包括降噪网络、注册网络和语音提取网络。如图9所示，终端可通过语音处理模型中的降噪网络对初始混合语音和初始注册语音分别进行降噪，得到降噪后的混合语音和降噪后的注册语音。终端可通过语音处理模型中的注册网络对降噪后的注册语音进行特别编码，得到注册语音特征。终端可根据注册语音特征，通过语音处理模型中的语音提取网络从降噪后的混合语音中提取得到初步识别语音。进而，终端再使用过滤处理单元，基于注册语音特征对初步识别语音进行过滤处理，得到说话人的干净语音。

在一个实施例中，如图10所示，终端使用过滤处理单元，基于注册语音特征对初步识别语音进行过滤处理，得到说话人的干净语音的具体实现如下：针对初步识别语音中的每一个语音片段，终端可通过上述的注册网络对该语音片段进行特征提取，得到该语音片段的片段语音特征，进而，终端可根据片段语音特征和注册语音特征，确定注册语音和该语音片段之间的语音相似度。终端可将相似度大于或等于预设语音相似度阈值的语音片段进行存储，并将相似度小于预设语音相似度阈值的语音片段置为静音。进而，终端可根据保留下来的语音片段，生成说话人的干净语音。

如图11所示，在一个实施例中，提供了一种语音处理方法，本实施例以该方法应用于图1中的终端102为例进行说明，该方法具体包括以下步骤：

步骤1102，获取混合语音和说话人的注册语音；混合语音中包括说话人的语音信息；语音信息包括语音片段。

步骤1104，将混合语音和注册语音特征输入至语音提取模型，基于混合语音和注册语音特征，在第一模式下至少成第一掩码信息，在第二模式下生成第一掩码信息和和第二掩码信息。可以理解，在第一模式下也可以生成第一掩码信息和和第二掩码信息。

步骤1106，根据第一掩码信息屏蔽混合语音中的干扰信息，得到说话人的初步识别语音。

步骤1108，根据第二掩码信息屏蔽混合语音中说话人的语音信息，得到干扰语音。

步骤1110，在第一处理模式下，针对初步识别语音中的每一个语音片段，将语音片段进行重复处理，得到与注册语音的时间长度一致的重组语音；其中，重组语音包括多个语音片段。

步骤1112，根据重组语音的重组语音特征确定语音片段对应的片段语音特征。

步骤1114，根据片段语音特征和注册语音特征，确定注册语音和语音片段之间的语音相似度。

步骤1116，从初步识别语音中确定语音相似度小于预设相似度的语音信息，得到待过滤语音信息。

步骤1118，将初步识别语音中待过滤语音信息进行过滤，得到说话人的干净语音。

步骤1120，在第二处理模式下，将混合语音的混合语音特征和初步识别语音的语音特征基于注意力机制进行融合，得到第一注意力特征，以及将混合语音特征和干扰语音的语音特征基于注意力机制进行融合，得到第二注意力特征。

步骤1122，将混合语音特征、第一注意力特征、第二注意力特征和注册语音特征进行融合，并基于融合后的特征得到说话人的干净语音。

本申请还提供一种应用场景，该应用场景应用上述的语音处理方法。具体地，该语音处理方法可应用于影视视频中语音提取的场景。可以理解，影视视频中包括影视语音(即混合语音)，该影视语音中包括多个演员(即说话人)的语音信息。具体地，终端可获取初始影视语音和目标演员的初始注册语音；初始影视语音中包括目标演员的语音信息；语音信息包括语音片段。将混合语音和注册语音特征输入至语音提取模型，以通过语音提取模型基于混合语音和注册语音特征，生成第一掩码信息和第二掩码信息。根据第一掩码信息屏蔽混合语音中的干扰信息，得到目标演员的初始影视语音；根据第二掩码信息屏蔽混合语音中目标演员的语音信息，得到干扰语音。

在第一处理模式下，针对初始影视语音中的每一个语音片段，终端可将语音片段进行重复处理，得到与注册语音的时间长度一致的重组语音；其中，重组语音包括多个语音片段。根据重组语音的重组语音特征确定语音片段对应的片段语音特征。根据片段语音特征和注册语音特征，确定注册语音和语音片段之间的语音相似度。从初始影视语音中确定语音相似度小于预设相似度的语音信息，得到待过滤语音信息。将初始影视语音中待过滤语音信息进行过滤处理，得到目标演员的干净语音。

在第二处理模式下，终端可将混合语音的混合语音特征和初始影视语音的语音特征基于注意力机制进行融合，得到第一注意力特征，以及将混合语音特征和干扰语音的语音特征基于注意力机制进行融合，得到第二注意力特征。将混合语音特征、第一注意力特征、第二注意力特征和注册语音特征进行融合，并基于融合后的特征得到目标演员的干净语音。通过本申请的语音处理方法，可以准确提取得到用户感兴趣的演员的声音，提升演员语音的提取准确率。

本申请还另外提供一种应用场景，该应用场景应用上述的语音处理方法。具体地，该语音处理方法可应用于语音通话中语音提取的场景。具体地，终端可响应于针对目标通话人(即说话人)的通话触发操作，从预先存储的候选的注册语音中，确定目标通话人的注册语音。在基于通话触发操作与目标通话人对应的终端建立语音通话的情况下，接收目标通话人对应的终端在语音通话中发送的通话语音(即混合语音)。可以理解，通过本申请的语音处理方法，可以从通话语音中提取出目标通话人的声音，以提升通话质量。

此外，本申请还另外提供一种应用场景，该应用场景应用上述的语音处理方法。具体地，该语音处理方法可应用于训练神经网络模型之前的针对训练数据的获取场景。具体地，训练神经网络模型需要大量的训练数据，通过本申请的语音处理方法可从复杂的混合语音中提取感兴趣的干净语音，以作为训练数据。通过本申请的语音处理方法，可快速获取到大批量的训练数据，相较于传统的人工提取的方式，节省了人力成本。

应该理解的是，虽然上述各实施例的流程图中的各个步骤按照顺序依次显示，但是这些步骤并不是必然按照顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图12所示，提供了一种语音处理装置1200，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：

获取模块1202，用于获取说话人的注册语音，并获取混合语音，混合语音包括多个发声对象的语音信息，多个发声对象包括说话人。

第一提取模块1204，用于确定注册语音的注册语音特征，依据注册语音特征，从混合语音中，提取出说话人的初步识别语音。

确定模块1206，用于根据注册语音特征，确定注册语音和初步识别语音所包括语音信息之间的语音相似度。

过滤模块1208，用于从初步识别语音中，滤除语音相似度小于预设相似度的语音信息，得到说话人的干净语音。

第一提取模块1204，还用于确定混合语音的混合语音特征；将混合语音特征和注册语音的注册语音特征进行融合，得到语音融合特征；及基于语音融合特征，对混合语音中说话人的语音信息进行初步识别，得到说话人的初步识别语音。

在一个实施例中，混合语音特征包括混合语音特征矩阵，语音融合特征包括语音融合特征矩阵，第一提取模块1204还用于将注册语音特征向量在时间维度上重复，以生成注册语音特征矩阵，注册语音特征矩阵的时间维度与混合语音特征矩阵的时间维度相同；及将混合语音特征矩阵和注册语音特征矩阵拼接，得到语音融合特征矩阵。

在一个实施例中，第一提取模块1204还用于提取混合语音的幅度谱，得到第一幅度谱；对第一幅度谱进行特征提取，得到幅度谱特征；及对幅度谱特征进行特征提取，得到混合语音的混合语音特征。

在一个实施例中，第一提取模块1204还用于基于语音融合特征，对混合语音中说话人的语音信息进行初步识别，得到说话人的语音特征；对说话人的语音特征进行特征解码，得到第二幅度谱；及根据混合语音的相位谱将第二幅度谱进行变换，得到说话人的初步识别语音。

在一个实施例中，第一提取模块1204还用于提取注册语音的频率谱；根据频率谱，生成注册语音的梅尔频率谱；及对梅尔频率谱进行特征提取，得到注册语音的注册语音特征。

在一个实施例中，初步识别语音中语音信息包括语音片段；确定模块1206还用于按照注册语音的时间长度，对初步识别语音中的每一个语音片段分别进行重复，得到时间长度的重组语音；获取从重组语音提取的重组语音特征，根据重组语音特征确定初步识别语音中每一个语音片段对应的片段语音特征；及分别根据每个语音片段对应的片段语音特征和注册语音特征，确定注册语音和每个语音片段之间的语音相似度。

在一个实施例中，在获取到混合语音和注册语音后，分别通过训练过的降噪网络进行降噪，装置1200还包括降噪网络训练模块，用于获取样本噪声语音，样本噪声语音是对作为参照的参考干净语音增加噪声得到；将样本噪声语音输入至待训练的降噪网络，以通过降噪网络对样本待降噪语音进行降噪，得到降噪后的预测语音；及根据预测语音和参考干净语音之间的差异，对待训练的降噪网络进行迭代训练，得到训练过的降噪网络。

在一个实施例中，确定模块1206，还用于在第一处理模式下，根据注册语音特征，确定注册语音和初步识别语音所包括语音信息之间的语音相似度。

过滤模块1208，还用于在第一处理模式下，从初步识别语音中，滤除语音相似度小于预设相似度的语音信息，得到说话人的干净语音。

在一个实施例中，装置1200还包括一级语音提取模型，用于在第二处理模式下，获取干扰语音，干扰语音，是依据注册语音特征，从混合语音中提取出的。

在一个实施例中，装置1200还包括二级处理模型，用于获取混合语音的混合语音特征、初步识别语音的语音特征、以及干扰语音的语音特征；将混合语音特征和初步识别语音的语音特征，基于注意力机制融合，得到第一注意力特征；将混合语音特征和干扰语音的语音特征，基于注意力机制融合，得到第二注意力特征；及基于混合语音特征、第一注意力特征和第二注意力特征融合，并基于融合后的特征得到说话人的干净语音。

在一个实施例中，二级处理模型还用于将混合语音特征、第一注意力特征、第二注意力特征和注册语音特征进行融合，并基于融合后的特征得到说话人的干净语音。

在一个实施例中，一级语音提取模型，还用于在输入了混合语音和注册语音特征后，基于混合语音和注册语音特征，生成第一掩码信息和第二掩码信息，根据第一掩码信息屏蔽混合语音中的干扰信息，得到说话人的初步识别语音，根据第二掩码信息屏蔽混合语音中说话人的语音信息，得到干扰语音。

在一个实施例中，一级语音提取模型中训练过的模型参数包括第一掩码映射参数和第二掩码映射参数，一级语音提取模型还用于基于语音提取模型的第一掩码映射参数、混合语音和注册语音特征，生成第一掩码信息；及基于语音提取模型的第二掩码映射参数、混合语音和注册语音特征，生成第二掩码信息。

第一注意力特征，是由二级处理模型中的第一注意力单元，将混合语音特征和初步识别语音的语音特征进行注意力机制融合得到的。

第二注意力特征，是由二级处理模型中的第二注意力单元，将混合语音特征和干扰语音的语音特征进行注意力机制融合得到的。

在一个实施例中，二级处理模型还包括特征融合层和二级语音提取模型，二级处理模型还用于将混合语音特征、第一注意力特征、第二注意力特征和注册语音特征输入至特征融合层进行融合，得到语音融合特征；及将语音融合特征输入至二级语音提取模型，以通过二级语音提取模型基于语音融合特征得到说话人的干净语音。

在一个实施例中，获取模块1202，还用于响应于通话触发操作，确定通话触发操作指定的说话人，从预先存储的候选的注册语音中，确定说话人的注册语音；在基于通话触发操作与说话人对应的终端建立有语音通话的情况下，接收说话人对应的终端在语音通话中发送的混合语音。

在一个实施例中，获取模块1202还用于获取多媒体对象的多媒体语音；多媒体语音是包括多个说话人的语音信息的混合语音；响应于针对多媒体语音中说话人的指定操作，获取指定的说话人的标识；说话人是从多个发声对象中指定的需提取语音的说话人；从针对多媒体语音中各说话人预先存储的注册语音中，获取与说话人的标识具有映射关系的注册语音，得到说话人的注册语音。

上述语音处理装置1200，通过获取混合语音和说话人的注册语音，混合语音中包括说话人的语音信息。依据注册语音的注册语音特征，从混合语音中初步提取出说话人的初步识别语音，能够初步较为准确地提取到说话人的初步识别语音。进而，会在初步识别语音的基础上进行进阶地过滤处理，即，根据注册语音特征，确定注册语音和初步识别语音中语音信息之间的语音相似度，并从初步识别语音中过滤掉语音相似度小于预设相似度的语音信息，就可以将初步识别语音中残留的噪声过滤掉，从而得到更为干净的说话人的干净语音，提升语音提取的准确率。

上述语音处理装置1200中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图13所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机可读指令。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机可读指令被处理器执行时以实现一种语音处理方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置，显示屏可以是液晶显示屏或电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机可读指令，该处理器执行计算机可读指令时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机可读指令，该计算机可读指令被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读指令产品，包括计算机可读指令，计算机可读指令被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种语音处理方法，包括：

获取说话人的注册语音，并获取混合语音，所述混合语音包括多个发声对象的语音信息，所述多个发声对象包括所述说话人；

确定所述注册语音的注册语音特征；

依据所述注册语音特征，从所述混合语音中提取出所述说话人的初步识别语音；

根据所述注册语音特征，确定所述注册语音和所述初步识别语音所包括语音信息之间的语音相似度；及

从所述初步识别语音中，滤除语音相似度小于预设相似度的语音信息，得到所述说话人的干净语音。
根据权利要求1所述的方法，所述依据所述注册语音特征，从所述混合语音中，提取出所述说话人的初步识别语音，包括：

确定所述混合语音的混合语音特征；

将所述混合语音特征和所述注册语音的注册语音特征进行融合，得到语音融合特征；及

基于所述语音融合特征，对所述混合语音中所述说话人的语音信息进行初步识别，得到所述说话人的初步识别语音。
根据权利要求2所述的方法，所述混合语音特征包括混合语音特征矩阵，所述语音融合特征包括语音融合特征矩阵，所述注册语音特征包括注册语音特征向量，所述将所述混合语音特征和所述注册语音的注册语音特征进行融合，得到语音融合特征，包括：

将所述注册语音特征向量在时间维度上重复，以生成注册语音特征矩阵，所述注册语音特征矩阵的时间维度与所述混合语音特征矩阵的时间维度相同；及

将所述混合语音特征矩阵和所述注册语音特征矩阵拼接，得到语音融合特征矩阵。
根据权利要求2或3所述的方法，所述确定所述混合语音的混合语音特征，包括：

提取所述混合语音的幅度谱，得到第一幅度谱；

对所述第一幅度谱进行特征提取，得到幅度谱特征；及

对所述幅度谱特征进行特征提取，得到所述混合语音的混合语音特征。
根据权利要求4所述的方法，所述基于所述语音融合特征，对所述混合语音中所述说话人的语音信息进行初步识别，得到所述说话人的初步识别语音，包括：

基于所述语音融合特征，对所述混合语音中所述说话人的语音信息进行初步识别，得到所述说话人的语音特征；

对所述说话人的语音特征进行特征解码，得到第二幅度谱；及

根据所述混合语音的相位谱将所述第二幅度谱进行变换，得到所述说话人的初步识别语音。
根据权利要求1至5中任一项所述的方法，所述确定所述注册语音的注册语音特征，包括：

提取所述注册语音的频率谱；

根据所述频率谱，生成所述注册语音的梅尔频率谱；及

对所述梅尔频率谱进行特征提取，得到所述注册语音的注册语音特征。
根据权利要求1至6中任一项所述的方法，所述初步识别语音中语音信息包括语音片段；所述根据所述注册语音特征，确定所述注册语音和所述初步识别语音中语音信息之间的语音相似度，包括：

按照所述注册语音的时间长度，对所述初步识别语音中的每一个语音片段分别进行重复，得到所述时间长度的重组语音；

获取从所述重组语音提取的重组语音特征，根据所述重组语音特征确定所述初步识别语音中每一个语音片段对应的片段语音特征；及

分别根据每个语音片段对应的所述片段语音特征和所述注册语音特征，确定所述注册语音和每个所述语音片段之间的语音相似度。
根据权利要求1至7中任一项所述的方法，在获取到所述混合语音和所述注册语音后，分别通过训练过的降噪网络进行降噪，所述方法还包括：

获取样本噪声语音，所述样本噪声语音是对作为参照的参考干净语音增加噪声得到；

将所述样本噪声语音输入至待训练的降噪网络，以通过所述降噪网络对所述样本待降噪语音进行降噪，得到降噪后的预测语音；及

根据所述预测语音和所述参考干净语音之间的差异，对所述待训练的降噪网络进行迭代训练，得到训练过的降噪网络。
根据权利要求1至8任一项所述的方法，所述根据所述注册语音特征，确定所述注册语音和所述初步识别语音所包括语音信息之间的语音相似度的步骤，以及所述从所述初步识别语音中，滤除语音相似度小于预设相似度的语音信息，得到所述说话人的干净语音的步骤，是在第一处理模式下执行的，所述方法还包括：

在第二处理模式下，获取干扰语音，所述干扰语音，是依据所述注册语音特征，从所述混合语音中提取出的；

获取所述混合语音的混合语音特征、所述初步识别语音的语音特征、以及所述干扰语音的语音特征；

将所述混合语音特征和所述初步识别语音的语音特征，基于注意力机制融合，得到第一注意力特征；

将所述混合语音特征和所述干扰语音的语音特征，基于注意力机制融合，得到第二注意力特征；及

基于所述混合语音特征、所述第一注意力特征和所述第二注意力特征融合，并基于融合后的特征得到所述说话人的干净语音。
根据权利要求9所述的方法，所述基于所述混合语音特征、所述第一注意力特征和所述第二注意力特征融合，并基于融合后的特征得到所述说话人的干净语音，包括：

将所述混合语音特征、所述第一注意力特征、所述第二注意力特征和所述注册语音特征进行融合，并基于融合后的特征得到所述说话人的干净语音。
根据权利要求10所述的方法，所述初步识别语音和所述干扰语音是通过训练过的语音提取模型从所述混合语音中提取出的，所述方法还包括：

将所述混合语音和所述注册语音特征输入至所述语音提取模型；

通过所述语音提取模型，基于所述混合语音和所述注册语音特征，生成第一掩码信息和第二掩码信息；

通过所述语音提取模型，根据所述第一掩码信息屏蔽所述混合语音中的干扰信息，得到所述说话人的初步识别语音；及

通过所述语音提取模型，根据所述第二掩码信息屏蔽所述混合语音中所述说话人的语音信息，得到干扰语音。
根据权利要求11所述的方法，所述语音提取模型中训练过的模型参数包括第一掩码映射参数和第二掩码映射参数，所述通过所述语音提取模型，基于所述混合语音和所述注册语音特征，生成第一掩码信息和第二掩码信息，包括：

基于所述语音提取模型的第一掩码映射参数、所述混合语音和所述注册语音特征，生成第一掩码信息；及

基于所述语音提取模型的第二掩码映射参数、所述混合语音和所述注册语音特征，生成第二掩码信息。
根据权利要求10至12任一项所述的方法，所述混合语音的混合语音特征、所述初步识别语音的语音特征、以及所述干扰语音的语音特征，是将所述混合语音、所述初步识别语音和所述干扰语音分别输入至二级处理模型中的特征提取层后，由所述特征提取层提取的；

所述第一注意力特征，是由所述二级处理模型中的第一注意力单元，将所述混合语音特征和所述初步识别语音的语音特征进行注意力机制融合得到的；及

所述第二注意力特征，是由所述二级处理模型中的第二注意力单元，将所述混合语音特征和所述干扰语音的语音特征进行注意力机制融合得到的。
根据权利要求13所述的方法，所述初步识别语音和所述干扰语音，是通过一级语音提取模型从所述混合语音中提取的，所述二级处理模型还包括特征融合层和二级语音提取模型，所述基于所述混合语音特征、所述第一注意力特征和所述第二注意力特征融合，并基于融合后的特征得到所述说话人的干净语音，包括：

将所述混合语音特征、所述第一注意力特征、所述第二注意力特征和所述注册语音特征输入至所述特征融合层进行融合，得到语音融合特征；及

将所述语音融合特征输入至所述二级语音提取模型，以通过所述二级语音提取模型基于所述语音融合特征得到所述说话人的干净语音。
根据权利要求1至14中任一项所述的方法，所述获取说话人的注册语音，并获取混合语音，包括：

响应于通话触发操作，确定所述通话触发操作指定的说话人，从预先存储的候选的注册语音中，确定所述说话人的注册语音；

在基于所述通话触发操作与所述说话人对应的终端建立有语音通话的情况下，接收所述说话人对应的终端在所述语音通话中发送的混合语音。
根据权利要求1至14中任一项所述的方法，所述获取说话人的注册语音，并获取混合语音，包括：

获取多媒体对象的多媒体语音；所述多媒体语音是包括多个说话人的语音信息的混合语音；

响应于针对多媒体语音中说话人的指定操作，获取指定的说话人的标识；所述说话人是从所述多个发声对象中指定的需提取语音的说话人；

从针对多媒体语音中各说话人预先存储的注册语音中，获取与所述说话人的标识具有映射关系的注册语音，得到所述说话人的注册语音。
一种语音处理装置，包括：

获取模块，用于获取说话人的注册语音，并获取混合语音，所述混合语音包括多个发声对象的语音信息，所述多个发声对象包括所述说话人；

第一提取模块，用于确定所述注册语音的注册语音特征，依据所述注册语音特征，从所述混合语音中，提取出所述说话人的初步识别语音；

确定模块，用于根据所述注册语音特征，确定所述注册语音和所述初步识别语音所包括语音信息之间的语音相似度；及

过滤模块，用于从所述初步识别语音中，滤除语音相似度小于预设相似度的语音信息，得到所述说话人的干净语音。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机可读指令，所述处理器执行所述计算机可读指令时执行权利要求1至16中任一项所述的方法。
一种计算机可读存储介质，存储有计算机可读指令，所述计算机可读指令被处理器执行时执行权利要求1至16中任一项所述的方法。
一种计算机可读指令产品，包括计算机可读指令，所述计算机可读指令被处理器执行时执行权利要求1至16中任一项所述的方法。