WO2022068675A1

WO2022068675A1 - 发声者语音抽取方法、装置、存储介质及电子设备

Info

Publication number: WO2022068675A1
Application number: PCT/CN2021/120026
Authority: WO
Inventors: 许家铭; 秦磊; 郝云喆; 徐波; 崔强强; 陈天珞
Original assignee: 华为技术有限公司; 中国科学院自动化研究所
Priority date: 2020-09-29
Filing date: 2021-09-24
Publication date: 2022-04-07
Also published as: CN114333767A

Abstract

一种发声者语音抽取方法、装置、存储介质及电子设备，用以提高语音识别的实时性，以便更好的适应实际应用场景。发声者语音抽取方法包括：采集环境中的混合语音，混合语音包括目标发声者的语音（S101）；基于混合语音，获得第一语音时域特征信息(S102)；基于已有的目标发声者的声纹信息，从第一语音时域特征信息中实时抽取目标发声者的第二语音时域特征信息(S103)；基于第二语音时域特征信息，获得目标发声者的语音段(S104)。

Description

发声者语音抽取方法、装置、存储介质及电子设备

本申请要求在2020年9月29日提交中国国家知识产权局、申请号为202011055886.1的中国专利申请的优先权，发明名称为“发声者语音抽取方法、装置、存储介质及电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，尤其设计一种发声者语音抽取方法、装置、存储介质及电子设备。

背景技术

目前自动语音识别(automatic speech recognition，ASR)技术已经能够在安静场景、单一说话人语音识别任务上取得令人印象深刻的效果，但复杂声学场景，尤其是嘈杂环境下多说话人语音识别任务，效果依然不能令人满意，这就是著名的鸡尾酒会问题。为了解决鸡尾酒会问题，研究人员付出了大量的努力，提出了众多解决方案，包括语音分离的方案和目标人语音抽取的方案。

其中，语音分离的方案必须提前获知混合语音中说话人的具体数目，而在现实场景中，说话人具体数目可能会动态变化，无法准确获取；而且该方案无法提前预知输出通道的说话人标签，即存在排列问题；并且该方案分离混合语音场景中所有说话人的语音，而实际上我们不一定对所有人都感兴趣，可能只对部分说话人感兴趣。因此，语音分离的方案不能很好的适应实际应用场景。

目标人语音抽取的方案旨在抽取出混合语音中指定说话人的语音，该方案可以更好的适应实际应用场景。然而，现有的目标人语音抽取的方案通常采用短时傅里叶变换(short-time Fourier transform，STFT)频域编码方式，因此该方案的实时性上限(即时延上限)受到STFT窗长的限制，其时延上限等于STFT的窗长，一般为32毫秒，因此具有实时处理能力低的缺点。然而，实际应用场景，如ASR或助听器前端等，对方案的实时处理能力有较高的要求。

发明内容

有鉴于此，本申请提供一种发声者语音抽取方法、装置、存储介质及电子设备，用以提高语音识别的实时性，以便更好的适应实际应用场景。

本申请的技术方案如下：

根据本申请实施例的第一方面，提供一种发声者语音抽取方法，所述方法包括：

采集环境中的混合语音，所述混合语音包括目标发声者的语音；

基于所述混合语音，获得第一语音时域特征信息；

基于已有的所述目标发声者的声纹信息，从所述第一语音时域特征信息中实时抽取所述目标发声者的第二语音时域特征信息；

基于所述第二语音时域特征信息，获得所述目标发声者的语音段。

在一可能的实现方式中，所述基于所述混合语音，获得第一语音时域特征信息，包括：

基于所述混合语音，获得第一单通道语音；

对所述第一单通道语音进行断句切分，得到包含预设类型声音的第一语音分段数据流；

通过预先训练的时域编码器对所述第一语音分段数据流进行处理，获得第一语音时域特征信息。

在一可能的实现方式中，在基于已有的所述目标发声者的声纹信息，从所述第一语音时域特征信息中实时抽取所述目标发声者的第二语音时域特征信息之前，该方法还包括：

采集所述目标发声者的语音；

基于所述目标发声者的语音，获得第二单通道语音；

对所述第二单通道语音进行断句切分，得到包含预设类型声音的第二语音分段数据流；

从所述第二语音分段数据流中提取所述目标发声者的语音特征信息；

基于所述目标发声者的语音特征信息，获得所述目标发声者的声纹信息。

在一可能的实现方式中，对单通道语音进行断句切分，得到包含预设类型声音的语音分段数据流，包括：

对于单通道语音中的任意一帧语音，检测该帧语音的能量大小，并根据预设能量阈值，确定该帧语音为有语音的语音帧还是无语音的语音帧；

对所述单通道语音中所有有语音的语音帧进行断句切分，得到包含预设类型声音的语音分段数据流。

在一可能的实现方式中，所述从所述第二语音分段数据流中提取所述目标发声者的语音特征信息，包括：

对所述第二语音分段数据流进行短时傅里叶变换，仅提取幅值部分的特征信息，作为所述目标发声者的语音特征信息。

在一可能的实现方式中，所述声纹信息为声纹向量，所述基于所述目标发声者的语音特征信息，获得所述目标发声者的声纹信息，包括：

将所述目标发声者的语音特征信息输入预先训练的声纹网络，得到所述声纹网络输出的所述目标发声者的声纹向量。

在一可能的实现方式中，所述声纹信息为声纹向量，所述基于已有的所述目标发声者的声纹信息，从所述第一语音时域特征信息中实时抽取所述目标发声者的第二语音时域特征信息，包括：

将所述第一语音时域特征信息切分为预设长度的片段；

将切分后的所述片段和已有的所述目标发声者的声纹向量输入预先训练的语音抽取网络，得到所述语音抽取网络实时输出的各个所述片段对应的所述目标发声者的第二语音时域特征信息；其中，当前片段对应的所述目标发声者的第二语音时域特征信息的提取依赖于历史片段处理过程中缓存的中间变量。

在一可能的实现方式中，在将切分后的所述片段和已有的所述目标发声者的声纹向量输入预先训练的语音抽取网络之前，该方法还包括：

获取训练样本集，所述训练样本集包括：混合语音和发声者的参考语音，其中，所述混合语音包括发声者的语音；

通过所述训练样本集，训练所述语音抽取网络，以使得所述语音抽取网络输出的第二语音时域特征信息为所述发声者的。

在一可能的实现方式中，所述基于所述第二语音时域特征信息，获得所述目标发声者的语音段，包括：

通过预先训练的时域解码器将所述第二语音时域特征信息恢复为离散的语音采样点；

将所述离散的语音采样点融合，获得所述目标发声者的语音段。

根据本申请实施例的第二方面，提供一种发声者语音抽取装置，所述装置包括：

第一语音采集模块，被配置为采集环境中的混合语音，所述混合语音包括目标发声者的语音；

混合语音编码模块，被配置为基于所述混合语音，获得第一语音时域特征信息；

语音抽取模块，被配置为基于已有的所述目标发声者的声纹信息，从所述第一语音时域特征信息中实时抽取所述目标发声者的第二语音时域特征信息；

语音解码模块，被配置为基于所述第二语音时域特征信息，获得所述目标发声者的语音段。

在一可能的实现方式中，所述混合语音编码模块包括：

第一单通道语音获取子模块，被配置为基于所述混合语音，获得第一单通道语音；

第一语音分段数据流获取子模块，被配置为对所述第一单通道语音进行断句切分，得到包含预设类型声音的第一语音分段数据流；

混合语音时域特征获取子模块，被配置为通过预先训练的时域编码器对所述第一语音分段数据流进行处理，获得第一语音时域特征信息。

在一可能的实现方式中，所述第一语音分段数据流获取子模块被配置为：

对于第一单通道语音中的任意一帧语音，检测该帧语音的能量大小，并根据预设能量阈值，确定该帧语音为有语音的语音帧还是无语音的语音帧；

对所述第一单通道语音中所有有语音的语音帧进行断句切分，得到包含预设类型声音的第一语音分段数据流。

在一可能的实现方式中，所述装置还包括：

第二语音采集模块，被配置为采集所述目标发声者的语音；

第二单通道语音获取模块，被配置为基于所述目标发声者的语音，获得第二单通道语音；

第二语音分段数据流获取模块，被配置为对所述第二单通道语音进行断句切分，得到包含预设类型声音的第二语音分段数据流；

语音特征提取模块，被配置为从所述第二语音分段数据流中提取所述目标发声者的语音特征信息；

声纹获取模块，被配置为基于所述目标发声者的语音特征信息，获得所述目标发声者的声纹信息。

在一可能的实现方式中，所述第二语音分段数据流获取模块被配置为：

对于第二单通道语音中的任意一帧语音，检测该帧语音的能量大小，并根据预设能量阈值，确定该帧语音为有语音的语音帧还是无语音的语音帧；

对所述第二单通道语音中所有有语音的语音帧进行断句切分，得到包含预设类型声音的第二语音分段数据流。

在一可能的实现方式中，所述语音特征提取模块被配置为：

在一可能的实现方式中，所述声纹信息为声纹向量，所述声纹获取模块被配置为：

在一可能的实现方式中，所述声纹信息为声纹向量，所述语音抽取模块被配置为：

将所述第一语音时域特征信息切分为预设长度的片段；

在一可能的实现方式中，所述装置还包括：训练模块；

所述训练模块被配置为：

在一可能的实现方式中，所述语音解码模块被配置为：

根据本申请实施例的第三方面，提供一种存储介质，其上存储有计算机程序，所述程序被处理器执行时实现第一方面或第一方面的任意可能的实现方式中的发声者语音抽取方法的步骤。

根据本申请实施例的第四方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面或第一方面的任意可能的实现方式中的发声者语音抽取方法的步骤。

本申请的实施例提供的技术方案至少带来以下有益效果：

本申请实施例提供的技术方案，一方面，利用目标发声者的声纹信息，从混合语音中实时抽取目标发声者的语音段，因此能够较好的适应实际应用场景。另一方面，该方案采用时域编码方式，编码窗长远远短于频域编码时的STFT窗长，因此具有较高的实时处理能力。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

图1为本申请实施例提供的一种发声者语音抽取方法的流程示意图；

图2为本申请实施例提供的发声者语音抽取装置的第一种结构示意图；

图3本申请实施例提供的发声者语音抽取装置中混合语音编码模块的结构示意图；

图4为本申请实施例提供的发声者语音抽取装置的第二种结构示意图；

图5为本申请实施例提供的发声者语音抽取装置的第三种结构示意图；

图6为本申请实施例提供的电子设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

参见图1，本申请实施例提供了一种发声者语音抽取方法，该方法可以用于电子设备中，例如终端，该方法可以包括如下步骤：

S101、采集环境中的混合语音，所述混合语音包括目标发声者的语音；

本申请实施例中，发声者可以为人、动物、乐器(如钢琴、小提琴、手风琴、长笛、二胡等)。

在一些实施例中，可以采用麦克风采集环境中的混合语音。

S102、基于所述混合语音，获得第一语音时域特征信息；

在一些实施例中，步骤S102中基于所述混合语音，获得第一语音时域特征信息，包括：

基于所述混合语音，获得第一单通道语音；

本申请实施例中，时域编码器可以将具有一种时间分辨率的信号映射到另一种时间分辨率的时域进行处理。

在一些实施例中，为了提高实时性，时域编码器中卷积层仅为单层，卷积窗口例如可以为2ms。

在一些实施例中，上述基于所述混合语音，获得第一单通道语音，包括：

对所述混合语音进行A/D转换和/或采样率转换，获得第一单通道语音。

例如，对混合语音进行采样率转换，得到16000采样率的第一单通道语音。

本申请实施例中，预设类型声音包括人声、动物声或乐器声。

在一些实施例中，上述对第一单通道语音进行断句切分，得到包含预设类型声音的第一语音分段数据流，包括：

例如，能量大于能量阈值的语音帧为有语音的语音帧，能量小于能量阈值的语音帧为无语音的语音帧(或称静音区)。

S103、基于已有的所述目标发声者的声纹信息，从所述第一语音时域特征信息中实时抽取所述目标发声者的第二语音时域特征信息；

在一些实施例中，声纹信息为声纹向量，步骤S103中基于已有的所述目标发声者的声纹信息，从所述第一语音时域特征信息中实时抽取所述目标发声者的第二语音时域特征信息，包括：

将所述第一语音时域特征信息切分为预设长度(例如100ms)的片段；

将切分后的所述片段和已有的所述目标发声者的声纹向量输入预先训练的语音抽取网络，得到所述语音抽取网络实时输出的各个所述片段对应的所述目标发声者的第二语音时域特征信息；其中，当前片段对应的所述目标发声者的第二语音时域特征信息的提取依赖于历史片段(历史片段指当前片段之前的片段)处理过程中缓存的中间变量。

本申请实施例中，语音抽取网络可以首先将输入的片段做正则化处理，之后经过一层卷积层降低特征维度，接下来和声纹向量做点乘，增强目标发声者的声音，再进一步经过时序整合，然后重复若干次声纹融合-时序整合的流程，最后得到该片段对应的目标发声者的第二语音时域特征信息，缓存本次语音抽取网络处理过程中该片段的中间变量。

本申请实施例中，语音抽取网络可以包括TCN(时间卷积网络)或DPRNN(双路径递归神经网络)。TCN或DPRNN能够有效地处理时序信息，捕获短时间尺度和长时间尺度的依赖关系。

本申请实施例中，语音抽取网络仅使用历史信息。例如，应用场景要求较高实时性时，可以设计正则化方式为因果正则化，若语音抽取网络包括TCN，可以设置TCN输入补齐方式，使TCN仅使用历史信息预测输出；若语音抽取网络包括DPRNN，可以设置DPRNN模块中intra-chunk LSTM为单向LSTM。当延时逐渐增加时，语音抽取网络性能会逐渐提高，这样方便语音抽取网络在实际部署时权衡延时和性能，做出针对性的设置。

需要指出的是，本申请实施例中时域编码器、时域解码器、声纹网络和语音抽取网络可以联合训练，也可以分开训练，本申请实施例对此并不进行限定。

在一些实施例中，时域编码器、时域解码器、声纹网络和语音抽取网络可以联合训练，在将切分后的所述片段和已有的所述目标发声者的声纹向量输入预先训练的语音抽取网络之前，该方法还包括：

在另一些实施例中，时域编码器、时域解码器、声纹网络和语音抽取网络可以分开训练，例如可以建立数据库，基于数据库进行训练，在将切分后的所述片段和已有的所述目标发声者的声纹向量输入预先训练的语音抽取网络之前，该方法还包括：

获取训练样本集，所述训练样本集包括：第一语音时域特征信息以及发声者的声纹向量；

需要指出的是，训练样本集中第一语音时域特征信息包含发声者的语音时域特征信息。

当然，语音抽取网络的训练也可以在其他设备上完成，然后在本设备上使用已训练的语音抽取网络，本申请实施例对此并不进行限定。

S104、基于所述第二语音时域特征信息，获得所述目标发声者的语音段。

在一些实施例中，步骤S104中基于所述第二语音时域特征信息，获得所述目标发声者的语音段，包括：

上述的发声者语音抽取方法，一方面，利用目标发声者的声纹信息，从混合语音中抽取目标发声者的语音段，因此能够较好的适应实际应用场景。另一方面，该方法采用时域编码方式，编码窗长远远短于频域编码时的STFT窗长，因此具有较高的实时处理能力。

在一些实施例中，在执行步骤S103基于已有的所述目标发声者的声纹信息，从所述第一语音时域特征信息中抽取所述目标发声者的第二语音时域特征信息之前，该方法还包括：

采集所述目标发声者的语音；

基于所述目标发声者的语音，获得第二单通道语音；

在一些实施例中，可以采用麦克风采集目标发声者的语音。

在一些实施例中，上述基于所述目标发声者的语音，获得第二单通道语音，包括：

对所述目标发声者的语音进行A/D转换和/或采样率转换，获得第二单通道语音。

例如，对目标发声者的语音进行采样率转换，得到16000采样率的第二单通道语音。

在一些实施例中，上述对第二单通道语音进行断句切分，得到包含预设类型声音的第二语音分段数据流，包括：

在一些实施例中，上述从所述第二语音分段数据流中提取所述目标发声者的语音特征信息，包括：

需要指出的是，本申请实施例中仅提取幅值部分的特征信息是为了后续便于提取声纹信息。

在一些实施例中，声纹信息为声纹向量，上述基于所述目标发声者的语音特征信息，获得所述目标发声者的声纹信息，包括：

在一些实施例中，声纹网络包括：LSTM(长短期记忆神经网络)、线性层和mean-pooling层。声纹网络整合时间尺度上的信息，然后在时间维度上做mean-pooling得到目标发声者高维空间上的声纹向量。

基于同一发明构思，参见图2，本申请实施例还提供了一种发声者语音抽取装置，包括：第一语音采集模块11、混合语音编码模块12、语音抽取模块13和语音解码模块14。

第一语音采集模块11，被配置为采集环境中的混合语音，所述混合语音包括目标发声者的语音；

混合语音编码模块12，被配置为基于所述混合语音，获得第一语音时域特征信息；

语音抽取模块13，被配置为基于已有的所述目标发声者的声纹信息，从所述第一语音时域特征信息中实时抽取所述目标发声者的第二语音时域特征信息；

语音解码模块14，被配置为基于所述第二语音时域特征信息，获得所述目标发声者的语音段，以识别该目标发声者的语音。

在一可能的实现方式中，如图3所示，混合语音编码模块12包括：

第一单通道语音获取子模块121，被配置为基于所述混合语音，获得第一单通道语音；

第一语音分段数据流获取子模块122，被配置为对所述第一单通道语音进行断句切分，得到包含预设类型声音的第一语音分段数据流；

混合语音时域特征获取子模块123，被配置为通过预先训练的时域编码器对所述第一语音分段数据流进行处理，获得第一语音时域特征信息。

在一可能的实现方式中，第一语音分段数据流获取子模块122被配置为：

在一可能的实现方式中，如图4所示，上述装置还包括：

第二语音采集模块15，被配置为采集所述目标发声者的语音；

第二单通道语音获取模块16，被配置为基于所述目标发声者的语音，获得第二单通道语音；

第二语音分段数据流获取模块17，被配置为对所述第二单通道语音进行断句切分，得到包含预设类型声音的第二语音分段数据流；

语音特征提取模块18，被配置为从所述第二语音分段数据流中提取所述目标发声者的语音特征信息；

声纹获取模块19，被配置为基于所述目标发声者的语音特征信息，获得所述目标发声者的声纹信息。

在一可能的实现方式中，第二语音分段数据流获取模块17被配置为：

在一可能的实现方式中，语音特征提取模块18被配置为：

在一可能的实现方式中，所述声纹信息为声纹向量，声纹获取模块19被配置为：

在一可能的实现方式中，所述声纹信息为声纹向量，语音抽取模块13被配置为：

将所述第一语音时域特征信息切分为预设长度的片段；

在一可能的实现方式中，如图5所示，上述装置还包括：训练模块20；

训练模块20被配置为：

在一可能的实现方式中，语音解码模块14被配置为：

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

基于同一发明构思，本申请实施例还提供了一种存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述任意可能的实现方式中的发声者语音抽取方法的步骤。

可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

基于同一发明构思，本申请实施例还提供了一种计算机程序产品，包括计算机程序，所述程序被处理器执行时实现上述任意可能的实现方式中的发声者语音抽取方法的步骤。

基于同一发明构思，参见图6，本申请实施例还提供了一种电子设备，包括存储器71(例如非易失性存储器)、处理器72及存储在存储器71上并可在处理器72上运行的计算机程序，处理器72执行所述程序时实现上述任意可能的实现方式中的发声者语音抽取方法的步骤。该电子设备例如可以为PC、终端。

如图6所示，该电子设备一般还可以包括：内存73、网络接口74、以及内部总线75。除了这些部件外，还可以包括其他硬件，对此不再赘述。

需要指出的是，上述发声者语音抽取装置可以通过软件实现，其作为一个逻辑意义上的装置，是通过其所在的电子设备的处理器72将非易失性存储器中存储的计算机程序指令读取到内存73中运行形成的。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

一种发声者语音抽取方法，其特征在于，所述方法包括：

采集环境中的混合语音，所述混合语音包括目标发声者的语音；

基于所述混合语音，获得第一语音时域特征信息；

基于已有的所述目标发声者的声纹信息，从所述第一语音时域特征信息中实时抽取所述目标发声者的第二语音时域特征信息；

基于所述第二语音时域特征信息，获得所述目标发声者的语音段。
根据权利要求1所述的方法，其特征在于，所述基于所述混合语音，获得第一语音时域特征信息，包括：

基于所述混合语音，获得第一单通道语音；

对所述第一单通道语音进行断句切分，得到包含预设类型声音的第一语音分段数据流；

通过预先训练的时域编码器对所述第一语音分段数据流进行处理，获得第一语音时域特征信息。
根据权利要求1所述的方法，其特征在于，在基于已有的所述目标发声者的声纹信息，从所述第一语音时域特征信息中实时抽取所述目标发声者的第二语音时域特征信息之前，该方法还包括：

采集所述目标发声者的语音；

基于所述目标发声者的语音，获得第二单通道语音；

对所述第二单通道语音进行断句切分，得到包含预设类型声音的第二语音分段数据流；

从所述第二语音分段数据流中提取所述目标发声者的语音特征信息；

基于所述目标发声者的语音特征信息，获得所述目标发声者的声纹信息。
根据权利要求2或3所述的方法，其特征在于，对单通道语音进行断句切分，得到包含预设类型声音的语音分段数据流，包括：

对于单通道语音中的任意一帧语音，检测该帧语音的能量大小，并根据预设能量阈值，确定该帧语音为有语音的语音帧还是无语音的语音帧；

对所述单通道语音中所有有语音的语音帧进行断句切分，得到包含预设类型声音的语音分段数据流。
根据权利要求3所述的方法，其特征在于，所述从所述第二语音分段数据流中提取所述目标发声者的语音特征信息，包括：

对所述第二语音分段数据流进行短时傅里叶变换，仅提取幅值部分的特征信息，作为所述目标发声者的语音特征信息。
根据权利要求3所述的方法，其特征在于，所述声纹信息为声纹向量，所述基于所述目标发声者的语音特征信息，获得所述目标发声者的声纹信息，包括：

将所述目标发声者的语音特征信息输入预先训练的声纹网络，得到所述声纹网络输出的所述目标发声者的声纹向量。
根据权利要求1-3、5、6任一项所述的方法，其特征在于，所述声纹信息为声纹向量，所述基于已有的所述目标发声者的声纹信息，从所述第一语音时域特征信息中实时抽取所述目标发声者的第二语音时域特征信息，包括：

将所述第一语音时域特征信息切分为预设长度的片段；

将切分后的所述片段和已有的所述目标发声者的声纹向量输入预先训练的语音抽取网络，得到所述语音抽取网络实时输出的各个所述片段对应的所述目标发声者的第二语音时域特征信息；其中，当前片段对应的所述目标发声者的第二语音时域特征信息的提取依赖于历史片段处理过程中缓存的中间变量。
根据权利要求7所述的方法，其特征在于，在将切分后的所述片段和已有的所述目标发声者的声纹向量输入预先训练的语音抽取网络之前，该方法还包括：

获取训练样本集，所述训练样本集包括：混合语音和发声者的参考语音，其中，所述混合语音包括发声者的语音；

通过所述训练样本集，训练所述语音抽取网络，以使得所述语音抽取网络输出的第二语音时域特征信息为所述发声者的。
根据权利要求2所述的方法，其特征在于，所述基于所述第二语音时域特征信息，获得所述目标发声者的语音段，包括：

通过预先训练的时域解码器将所述第二语音时域特征信息恢复为离散的语音采样点；

将所述离散的语音采样点融合，获得所述目标发声者的语音段。
一种发声者语音抽取装置，其特征在于，所述装置包括：

第一语音采集模块，被配置为采集环境中的混合语音，所述混合语音包括目标发声者的语音；

混合语音编码模块，被配置为基于所述混合语音，获得第一语音时域特征信息；

语音抽取模块，被配置为基于已有的所述目标发声者的声纹信息，从所述第一语音时域特征信息中实时抽取所述目标发声者的第二语音时域特征信息；

语音解码模块，被配置为基于所述第二语音时域特征信息，获得所述目标发声者的语音段。
根据权利要求10所述的装置，其特征在于，所述混合语音编码模块包括：

第一单通道语音获取子模块，被配置为基于所述混合语音，获得第一单通道语音；

第一语音分段数据流获取子模块，被配置为对所述第一单通道语音进行断句切分，得到包含预设类型声音的第一语音分段数据流；

混合语音时域特征获取子模块，被配置为通过预先训练的时域编码器对所述第一语音分段数据流进行处理，获得第一语音时域特征信息。
根据权利要求10所述的装置，其特征在于，所述装置还包括：

第二语音采集模块，被配置为采集所述目标发声者的语音；

第二单通道语音获取模块，被配置为基于所述目标发声者的语音，获得第二单通道语音；

第二语音分段数据流获取模块，被配置为对所述第二单通道语音进行断句切分，得到包含预设类型声音的第二语音分段数据流；

语音特征提取模块，被配置为从所述第二语音分段数据流中提取所述目标发声者的语音特征信息；

声纹获取模块，被配置为基于所述目标发声者的语音特征信息，获得所述目标发声者的声纹信息。
根据权利要求12所述的装置，其特征在于，所述语音特征提取模块被配置为：

对所述第二语音分段数据流进行短时傅里叶变换，仅提取幅值部分的特征信息，作为所述目标发声者的语音特征信息。
根据权利要求12所述的装置，其特征在于，所述声纹信息为声纹向量，所述声纹获取模块被配置为：

将所述目标发声者的语音特征信息输入预先训练的声纹网络，得到所述声纹网络输出的所述目标发声者的声纹向量。
根据权利要求10-14任一项所述的装置，其特征在于，所述声纹信息为声纹向量，所述语音抽取模块被配置为：

将所述第一语音时域特征信息切分为预设长度的片段；

将切分后的所述片段和已有的所述目标发声者的声纹向量输入预先训练的语音抽取网络，得到所述语音抽取网络实时输出的各个所述片段对应的所述目标发声者的第二语音时域特征信息；其中，当前片段对应的所述目标发声者的第二语音时域特征信息的提取依赖于历史片段处理过程中缓存的中间变量。
根据权利要求15所述的装置，其特征在于，所述装置还包括：训练模块；

所述训练模块被配置为：

获取训练样本集，所述训练样本集包括：混合语音和发声者的参考语音，其中，所述混合语音包括发声者的语音；

通过所述训练样本集，训练所述语音抽取网络，以使得所述语音抽取网络输出的第二语音时域特征信息为所述发声者的。
根据权利要求11所述的装置，其特征在于，所述语音解码模块被配置为：

通过预先训练的时域解码器将所述第二语音时域特征信息恢复为离散的语音采样点；

将所述离散的语音采样点融合，获得所述目标发声者的语音段。
一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1-9任一项所述方法的步骤。
一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-9任一项所述方法的步骤。