WO2019154107A1

WO2019154107A1 - 基于记忆性瓶颈特征的声纹识别的方法及装置

Info

Publication number: WO2019154107A1
Application number: PCT/CN2019/073101
Authority: WO
Inventors: 王志铭; 周俊; 李小龙
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2018-02-12
Filing date: 2019-01-25
Publication date: 2019-08-15
Also published as: CN108447490A; EP3719798A1; EP3719798A4; EP3955246A1; CN108447490B; EP3955246B1; EP3719798B1; US20200321008A1; TW201935464A; SG11202006090RA

Abstract

一种声纹识别的方法和装置，方法包括：从说话人音频中提取基本频谱特征（21）；将说话人音频输入深度神经网络DNN，从DNN的瓶颈层提取瓶颈特征，其中DNN包括连接到瓶颈层的时间递归层（22）；基于基本频谱特征和瓶颈特征，形成说话人音频的声学特征（23）；基于声学特征，提取说话人音频对应的身份认证矢量i-vector（24）；基于身份认证矢量i-vector，进行说话人识别（25）。

Description

基于记忆性瓶颈特征的声纹识别的方法及装置

相关申请的交叉引用

本专利申请要求于2018年2月12日提交的、申请号为201810146310.2、发明名称为“基于记忆性瓶颈特征的声纹识别的方法及装置”的中国专利申请的优先权，该申请的全文以引用的方式并入本文中。

技术领域

本说明书一个或多个实施例涉及计算机技术领域，尤其涉及声纹识别。

背景技术

声纹是基于说话人的音波频谱特征而提取的声学特征。如同指纹一样，声纹作为一种生物特征，能够反映说话人的特质和身份信息。声纹识别又称为说话人识别，是利用语音信号中含有的特定说话人信息来自动识别说话人身份的一种生物认证技术。该生物认证技术在身份认证、安全核身等诸多领域和场景中都有广阔的应用前景。

身份认证矢量i-vector(identity vector)模型是声纹识别系统中常用的一种模型。I-vector模型认为，语音中的说话人和信道信息均包含于一个低维的线性子空间之中，每段语音可以用该低维空间中一个固定长度的矢量表征，该矢量即为身份认证矢量i-vector。身份认证矢量i-vector具备良好的区分度，包含说话人的身份特征信息，是声纹识别以及语音识别的重要特征。基于i-vector的声纹识别一般包含以下过程：基于频谱特征计算声学统计量，根据声学统计量提取身份认证矢量i-vector,然后基于i-vector进行说话人识别。由此，i-vector的提取非常重要。然而，现有的声纹识别过程中对i-vector的提取不够全面。因此，需要更有效的方案，获取更加全面的声纹特征，进一步提高声纹识别的准确度。

发明内容

本说明书一个或多个实施例描述了一种方法和装置，能够从说话人音频中获取更加全面的声学特征，从而使得身份认证矢量的提取更加全面，声纹识别的准确度得到提升。

根据第一方面，提供了一种声纹识别的方法，包括：从说话人音频中提取第一频谱特征；将所述说话人音频输入记忆性深度神经网络DNN，从所述记忆性深度神经网络的瓶颈层提取瓶颈特征，其中所述记忆性深度神经网络DNN包括至少一个时间递归层和所述瓶颈层，所述至少一个时间递归层的输出连接到所述瓶颈层，所述瓶颈层的维度比所述记忆性深度神经网络DNN中其他隐含层的维度小；基于所述第一频谱特征和所述瓶颈特征，形成所述说话人音频的声学特征；基于所述声学特征，提取说话人音频对应的身份认证矢量；基于所述身份认证矢量，采用分类模型进行说话人识别。

在一个实施例中，上述第一频谱特征包括，梅尔频谱倒谱系数MFCC特征，以及所述MFCC特征的一阶差分特征和二阶差分特征。

在一种可能的设计中，上述至少一个时间递归层包括，基于长短期记忆LSTM模型的隐含层，或者基于LSTMP模型的隐含层，其中所述LSTMP模型为具有循环投影层的LSTM模型。

在另一种可能的设计中，上述至少一个时间递归层包括，基于前馈序列记忆FSMN模型的隐含层，或者基于cFSMN模型的隐含层，其中cFSMN模型为紧凑型FSMN模型。

根据一种实施方式，将说话人音频输入记忆性深度神经网络DNN包括：从所述说话人音频的连续多帧语音中提取第二频谱特征，将所述第二频谱特征输入所述记忆性深度神经网络DNN。

进一步地，在一个例子中，上述第二频谱特征为梅尔标度滤波器组FBank特征。

根据一个实施例，形成说话人音频的声学特征包括，将所述第一频谱特征和所述瓶颈特征进行拼接，从而形成所述声学特征。

根据第二方面，提供一种声纹识别的装置，包括：

第一提取单元，配置为从说话人音频中提取第一频谱特征；

第二提取单元，配置为将所述说话人音频输入记忆性深度神经网络DNN，从所述记忆性深度神经网络的瓶颈层提取瓶颈特征，其中所述记忆性深度神经网络DNN包括至少一个时间递归层和所述瓶颈层，所述至少一个时间递归层的输出连接到所述瓶颈层，所述瓶颈层的维度比所述记忆性深度神经网络DNN中其他隐含层的维度小；

特征组合单元，配置为基于所述第一频谱特征和所述瓶颈特征，形成所述说话人音频的声学特征；

矢量提取单元，配置为基于所述声学特征，提取说话人音频对应的身份认证矢量；

分类识别单元，配置为基于所述身份认证矢量，采用分类模型进行说话人识别。

根据第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

根据第四方面，提供了一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

通过本说明书实施例提供的方法及装置，设计了具有记忆功能的深度神经网络DNN，从这样的深度神经网络的瓶颈层中提取出具有记忆效应的瓶颈特征，包含在声学特征中。这样的声学特征更有益于反映说话者的与时序相关的韵律特征。基于这样的声学特征所提取的身份认证矢量i-vector可以更好地表征说话人的语音特质，特别是韵律特征，从而使得说话人识别的准确性得到提高。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书披露的一个实施例的实施场景示意图；

图2示出根据一个实施例的声纹识别方法的流程图；

图3示出深度神经网络中瓶颈层的示意图；

图4示出根据一个实施例的记忆性DNN的结构示意图；

图5示出根据另一实施例的记忆性DNN的结构示意图；

图6示出LSTM与LSTMP的对比；

图7示出根据另一实施例的记忆性DNN的结构示意图；

图8示出根据一个实施例的记忆性DNN的结构示意图；

图9示出根据另一实施例的记忆性DNN的结构示意图；

图10示出根据一个实施例的声纹识别装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

图1为本说明书披露的一个实施例的实施场景示意图。首先，说话人讲话形成说话人音频。说话人音频被输入到频谱提取单元，由频谱提取单元从中提取出基本的频谱特征。另一方面，说话人音频还被输入到深度神经网络DNN(Deep Neural Network)。在图1的实施例中，该深度神经网络DNN是带有记忆功能的神经网络，并且具有瓶颈层，相应地，瓶颈层的特征也是带有记忆效应的特征。从该带有记忆功能的DNN的瓶颈层中提取出瓶颈特征，与基本的频谱特征结合在一起，形成声学特征。然后，将该声学特征输入到身份认证矢量i-vector模型中，在其中基于声学特征计算声学统计量，并基于所述统计量i-vector，从而进行i-vector提取，以及说话人识别。如此，输出声纹识别的结果。

图2示出根据一个实施例的声纹识别方法的流程图。该方法流程的执行主体可以是任何具有计算、处理能力的装置、设备或系统。如图2所示，该实施例的声纹识别方法包括以下步骤：步骤21，从说话人音频中提取频谱特征；步骤22，将说话人音频输入记忆性深度神经网络DNN，从所述记忆性深度神经网络DNN的瓶颈层提取瓶颈特征，其中所述记忆性深度神经网络DNN包括至少一个时间递归层和所述瓶颈层，所述至少一个时间递归层的输出连接到所述瓶颈层，所述瓶颈层的维度比所述记忆性深度神经网络DNN中其他层的维度小；步骤23，基于所述基本频谱特征和所述瓶颈特征，形成所述说话人音频的声学特征；步骤24，基于所述声学特征，提取说话人音频对应的身份认证矢量；步骤25，基于所述身份认证矢量，进行说话人识别。以下描述上述各个步骤的具体执行过程。

首先，在步骤21，从说话人音频中提取频谱特征。可以理解，说话人音频是说话人讲话而形成的音频，可以被划分为多个语音段。步骤21提取的频谱特征为基本的频谱特征，特别是(单帧)短时频谱特征。

在一个实施例中，该频谱特征为梅尔频谱倒谱系数特征MFCC(Mel-frequency cepstral coefficient)。梅尔频率是基于人耳听觉特性提出来的，它与赫兹Hz频率成非线性对应关系。从说话人音频中提取MFCC特征一般包括以下步骤：预加重，分帧，加窗，傅里叶变换，梅尔滤波器组，离散余弦变换(DCT)等。其中预加重用于在一定程度提升高频部分，使信号的频谱变得平坦；分帧用于将语音按时间分成一系列帧；加窗步骤是采用窗函数增加帧左端和右端的连续性。接着，将音频进行傅里叶变换，从而将时域信号转换为频域信号。然后，利用梅尔滤波器组将频域信号的频率对应到梅尔刻度上，从而获得梅尔频谱。之后，通过离散余弦变换获得梅尔频谱的倒谱系数，进而可以获得倒谱梅尔频谱。进一步地，还可以对标准的倒谱参数MFCC进行动态差分参数的提取，从而获取差分特征，反映帧之间的动态变化特性。因此，一般地，在提取MFCC特征的基础上，还获取其一阶、二阶差分特征。例如，如果梅尔倒谱特征表征为20维，那么在差分参数提取阶段，还获取20维的一阶差分特征，和20维的二阶差分特征，由此形成60维向量。

在另一个实施例中，步骤21提取的基本频谱特征包括线性预测编码LPC(Linear Predictive Coding)特征，或感知线性预测PLP(perceptual linear predictive)特征。这些特征可以通过常规方法提取。还有可能提取其他的短时频谱特征作为基本特征。

然而，基本的短时频谱特征往往不足以表达说话人的全面信息。例如，MFCC特征不能很好地反映高频域的说话人特征信息。因此，常规技术已经通过引入深度神经网络DNN的瓶颈(bottleneck)特征，作为全面声学特征的补充。

常规的深度神经网络DNN是传统前馈人工神经网络的扩展，具有更多的隐含层数和更强的表达能力，近年来在语音识别领域得到应用。在语音识别中，深度神经网络DNN代替了高斯混合模型-隐马尔可夫模型(Gaussian mixture model-hidden Markov model,GMM-HMM)声学模型中GMM的部分，来表征HMM模型不同状态的发射概率。一般地，用于语音识别的DNN，其输入为拼接了前后多帧的声学特征，输出层通常采用softmax函数表征预测HMM状态音素的后验概率，从而对音素状态进行分类。

深度神经网络DNN具有这样的分类能力，在于它通过有监督的数据，学习获取到了有利于特定分类任务的特征表示。在包含有瓶颈层的DNN中，瓶颈层特征就是上述特征表示的很好体现。具体地，瓶颈层是DNN模型中，所包含的节点数，或称维度，较其他隐含层明显减少的一个隐含层。或者说，瓶颈层包含的节点数目比深度神经网络DNN中其他层的节点数目都要少。例如，在一个深度神经网络DNN中，其他各个隐含层节点数目为1024，而某一层的节点数目只有64，构成一个隐含层拓扑为1024-1024-64-1024-1024的DNN结构，那么中间这个节点数目仅为64的隐含层就会被称为瓶颈层。图3示出深度神经网络中瓶颈层的示意图。如图3所示，深度神经网络包含多个隐含层，其中节点数目较其他隐含层显著减少的隐含层就是上述瓶颈层。

瓶颈层中节点的激励值可以看作是输入信号的一种低维表示，也称为瓶颈特征。在用于语音识别而训练的DNN中，瓶颈特征可以包含更多说话人的语音信息。

在一个实施例中，为了更好地反映语音声学特征帧序列的上下文相关性，从而更好地抓住说话人音频中说话韵律的时序变化，在常规深度神经网络DNN的基础上进行改进，为其引入记忆功能，形成带记忆的或称记忆性的深度神经网络DNN。具体地，将带记忆的深度神经网络DNN设计为，包括至少一个时间递归层以及瓶颈层，上述时间递归层的输出连接到所述瓶颈层，如此使得瓶颈层的特征能够体现时序特征，从而具有“记忆”功能。于是，在步骤22，将说话人音频输入记忆性深度神经网络DNN，从所述记忆性深度神经网络DNN的瓶颈层提取记忆性的瓶颈特征。

在一个实施例中，上述时间递归层采用循环神经网络RNN(Recurrent Neural Networks)中的隐含层。更具体地，在一个实施例中，上述时间递归层采用长短期记忆LSTM(Long Short Time Memory)模型。

循环神经网络RNN是一种时间递归神经网络，可用于处理序列数据。在RNN中，一个序列当前的输出与其前面的输出相关联。具体的，RNN会对前面的信息进行记忆并应用于当前输出的计算中，即隐含层之间的节点是有连接的，并且隐含层的输入不仅包括输入层的输出还包括上一时刻该隐含层的输出。也就是说，第t次的隐含层状态可以表示为：

St＝f(U*Xt+W*St-1)

其中，Xt为第t次输入层的状态，St-1为第t-1次隐含层状态，f为计算函数，W,U为权重。如此，RNN将之前的状态循环回当前输入，从而考虑输入序列的时序影响。

在处理长期记忆的情况下，RNN存在长期依赖问题，训练比较困难，例如容易发生梯度溢出的问题。在RNN基础上提出的LSTM模型进一步解决了该长期依赖的问题。

根据LSTM模型，在重复网络模块中实现三个门计算，即输入门(input gate)、输出门(output gate)和遗忘门(forget gate)。遗忘门的设置可以让信息选择性通过，以此丢弃某些不再需要的信息，如此对输入的不必要的干扰信息进行判断和屏蔽，从而更好地对长期数据进行分析处理。

图4示出根据一个实施例的记忆性DNN的结构示意图。如图4所示，该深度神经网络DNN包含输入层，输出层和若干隐含层。这些隐含层中包括通过LSTM模型形成的时间递归层。该LSTM层的输出连接到瓶颈层，在瓶颈层之后是常规的隐含层。瓶颈层具有显著减小的维度，例如64维，128维。其他隐含层的维度例如是1024维，1500 维等等，均显著高于瓶颈层。LSTM的维度与其他常规隐含层可以相同也可以不同，但是同样地显著高于瓶颈层的维度。在一个典型例子中，常规隐含层维度为1024，LSTM层维度为800，瓶颈层维度为64，如此形成维度拓扑为1024-1024-800-64-1024-1024的深度神经网络DNN。

图5示出根据另一实施例的记忆性DNN的结构示意图。如图5所示，该深度神经网络DNN包含输入层，输出层和若干隐含层，隐含层中包括LSTMP(LSTM projected)层作为时间递归层。LSTMP层即具有循环投影层的LSTM架构。图6示出LSTM与LSTMP的对比。在常规LSTM架构中，LSTM层的循环连接由LSTM自身实现，也就是从输出单元直接连接到输入单元。而在LSTMP架构下，在LSTM层之后增加一个单独的线性投影层。这样，循环连接是从该循环投影层到LSTM层的输入。通过设置循环投影层中单元的数目，可以对LSTM层的节点数目进行投影降维。

LSTMP层中循环投影层的输出连接到瓶颈层，在瓶颈层之后是常规的隐含层。类似的，瓶颈层具有显著减小的维度，其他隐含层，包括LSTMP层，具有显著高的维度。在一个典型例子中，常规隐含层维度为1024，LSTM层维度为800，循环投影层的投影降维为512，如此形成维度拓扑为1024-800-512-64-1024-1024的深度神经网络DNN。

尽管在图4和图5的例子中，输入层直接连接到LSTM/LSTMP时间递归层，但是可以理解，也可以在时间递归层之前包含其他常规隐含层。

图7示出根据另一实施例的记忆性DNN的结构示意图。如图7所示，该深度神经网络DNN包含输入层，输出层和若干隐含层。这些隐含层中包括2个LSTM层，后一LSTM层的输出连接到瓶颈层，在瓶颈层之后是常规的隐含层。类似的，瓶颈层具有显著减小的维度，其他隐含层，包括2个LSTM层，具有显著高的维度。在一个典型例子中，常规隐含层维度为1024，2个LSTM层维度为800，瓶颈层维度为64，如此形成维度拓扑为1024-800-800-64-1024-1024的深度神经网络DNN。

在一个实施例中，可以将图7中的LSTM层替换为LSTMP层。在另一实施例中，可以在DNN中包含更多的LSTM层。

在一个实施例中，在深度神经网络DNN中采用前馈序列记忆模型FSMN(Feedforward Sequential Memory Networks)形成时间递归层。前馈序列记忆模型FSMN可以认为是在标准的前馈全连接神经网络的隐含层中设置了一些可学习的记忆模块，这些记忆模块使用抽头延迟线结构将长时上下文信息编码成固定大小的表达作为一种短时记忆机制。因此，FSMN对时序信号中的长时相关性(long-term dependency)进行建模而不需要使用反馈连接。针对语音识别来说，FSMN具有较佳的性能，并且训练过程更加简单高效。

在FSMN基础上,还提出了紧凑型FSMN，即cFSMN(compact FSMN)。cFSMN具有更加简化的模型结构。在cFSMN中，首先通过投影层对输入数据进行投影降维(例如降维到512)，然后通过记忆模型进行记忆处理，最后输出经记忆处理的特征数据(例如1024维)。

可以通过在深度神经网络DNN中引入FSMN模型，或者cFSMN模型，使得DNN带有记忆功能。

图8示出根据一个实施例的记忆性DNN的结构示意图。如图8所示，该深度神经网络DNN包含输入层，输出层和若干隐含层。这些隐含层中包括通过FSMN模型形成的时间递归层。该FSMN层的输出连接到瓶颈层，在瓶颈层之后是常规的隐含层。瓶颈层具有显著减小的维度。其他隐含层，包括上述FSMN层，维度均显著高于瓶颈层，例如是1024维，1500维等等。在一个典型例子中，FSMN层维度为1024，其他隐含层维度为2048，瓶颈层维度为64，如此形成维度拓扑为2048-1024-64-2048-2048的深度神经网络DNN。

图9示出根据另一实施例的记忆性DNN的结构示意图。如图9所示，该深度神经网络DNN包含输入层，输出层和若干隐含层。这些隐含层中包括2个cFSMN层，后一cFSMN层的输出连接到瓶颈层，在瓶颈层之后是常规的隐含层。类似的，瓶颈层具有显著减小的维度，其他隐含层，包括2个cFSMN层，具有显著高的维度。在一个典型例子中，常规隐含层维度为2048，2个cFSMN层维度为1024，瓶颈层维度为64，如此形成维度拓扑为2048-1024-1024-64-2048-2048的深度神经网络DNN。

可以理解，也可以将图9的cFSMN层替换为FSMN层。在另一实施例中，可以在DNN中包含更多的FSMN/cFSMN层。

在一个实施例中，还可以在深度神经网络DNN中采用其他时间递归的模型，从而形成带记忆功能的DNN。总体而言，带记忆功能的DNN中包括一个或多个时间递归层，并且时间递归层直接连接到瓶颈层，如此使得瓶颈层的特征能够反映时序影响，具有记忆效应。可以理解，时间递归层的数目越多，性能越好，但是网络复杂度越高；时间递归层的数目越少，网络模型的训练越简单。典型地，常常采用时间递归层的数目在1层到5层之间的DNN。

通过以上描述可以看到，深度神经网络DNN可以被设计为，在瓶颈层之前具有时间递归层。对于这样的带记忆功能的深度神经网络DNN，可以用常规方法对其进行语音识别的训练。经过训练的DNN所包含的瓶颈特征可以反映比基本频谱特征更加丰富的语音信息。并且由于该DNN在瓶颈层之前具有时间递归层，使得瓶颈特征也带有记忆功能，反映语音的时序影响。相应地，在图2的步骤22中，对以上具有记忆功能的深度神经网络DNN中的瓶颈层特征进行提取，从而获取带有记忆功能的瓶颈特征。

具体地，在步骤22，将说话人音频输入上述的记忆性深度神经网络DNN。在一个实施例中，将上述说话人音频中的连续多帧语音输入DNN，上述连续多帧例如包括回看10个历史帧，前看5帧，加上当前帧，一共为连续的16帧。对于这连续多帧语音，通常是将其基本频谱特征输入以上记忆性DNN。在一个实施例中，输入到DNN的基本频谱特征为梅尔频谱倒谱系数特征MFCC。在另一实施例中，输入到DNN的基本频谱特征为，梅尔标度滤波器组FBank(Mel-scale Filter Bank)特征。FBank特征是利用梅尔滤波器组将频域信号的频率对应到梅尔刻度上获得的频谱特征。换而言之，MFCC特征在FBank特征的基础上进行了进一步的离散余弦变换，FBank特征是MFCC在离散余弦变换之前的特征。

输入到记忆性DNN的基本频谱特征经过DNN的计算处理，在瓶颈层形成一系列瓶颈特征。具体而言，瓶颈层包含低维度的多个节点，这些节点在DNN处理频谱特征的前向计算过程中被赋予激励值。通过读取瓶颈层节点的激励值，提取上述瓶颈特征。

由此，在步骤21，从说话人音频中提取了基本的频谱特征，在步骤22，从带记忆功能的深度神经网络DNN中提取了瓶颈特征。基于此，在步骤23，将上述频谱特征和所述瓶颈特征进行结合，形成说话人音频的声学特征。在一个实施例中，将瓶颈特征与基本频谱特征进行拼接，从而形成说话人音频的声学特征。

例如，假定基本频谱特征包括20维的MFCC特征，以及各20维的MFCC一阶差分特征，二阶差分特征，瓶颈特征如瓶颈层维度一样，例如为64维，那么可以将以上60维的MFCC及其差分特征，和64维的瓶颈特征进行拼接，得到124维的向量作为声学特征Ot。当然，在其他例子中，声学特征Ot还有可能包含基于其他因素获取的更多特征。

接着，在步骤24，基于以上获取的声学特征，提取说话人音频对应的身份认证矢量，即i-vector。

i-vector模型建立在高斯混合模型-通用背景模型GMM-UBM(Gaussian mixture model-universal background model)所表征的高斯均值超矢量空间之上，它认为说话人信息和信道信息同时蕴含于一个低维的子空间之中。给定一段语音，其高斯均值超矢量M可以分解为如下形式：

M＝m+Tω

其中，m是说话人和信道无关分量，通常可以采用UBM的均值超矢量来代替；T是总体变化子空间矩阵；ω是包含了说话人和信道信息的变化因子，即i-vector。

为了计算和提取i-vector，需要计算各语音段的充分统计量(即Baum-Welch统计量)：

其中，

和

分别表示语音段k在第c个GMM混合分量上的零阶统计量、一阶统计量和二阶统计量，

表示语音段k在时间索引t处的声学特征，μ _c是GMM第c个混合分量的均值，

表示声学特征

对第c个GMM混合分量的后验概率。基于以上充分统计量，进行i-vector的映射和提取。

可以看到，i-vector的提取基于以上充分统计量的计算，而以上充分统计量的计算都是基于声学特征

根据图2的步骤21-23，声学特征

不仅包含了说话人音频的基本频谱信息，还包含了带记忆功能的深度神经网络DNN的瓶颈特征。如此，这样的声学特征

可以更好地表征语音段的韵律信息，相应地，基于该声学特征

所提取的i-vector可以更全面地表征说话人的语音特质。

接着，在步骤25，基于以上提取的身份认证矢量i-vector，进行说话人识别。具体地，可以将提取的i-vector作为身份特征，输入到分类器模型中，进行分类和说话人识别。上述分类器模型例如是概率线性鉴别性分析PLDA(probabilistic linear discriminant analysis)模型，该模型计算不同i-vector之间的似然比分数，根据该分数做出判决。在另一例子中，上述分类器模型例如是支持向量机SVM(support vector machine)模型。该模型是一个有监督的分类算法，通过找到一个分类平面，将数据分隔在平面两侧，从而达到分类的目的，从而实现对i-vector进行分类。

由上可知，由于声学特征中包含了记忆性的瓶颈特征，从而更好地表征语音段的韵律信息，相应地，基于该声学特征所提取的i-vector更全面地表征说话人的语音特质，进而，基于这样的i-vector所进行的说话人识别具有更高的识别准确性。

根据另一方面，本说明书的实施例还提供了一种声纹识别的装置。图10示出根据一个实施例的声纹识别装置的示意性框图。如图10所示，该装置100包括：第一提取单元110，配置为从说话人音频中提取第一频谱特征；第二提取单元120，配置为将所述说话人音频输入记忆性深度神经网络DNN，从所述记忆性深度神经网络的瓶颈层提取瓶颈特征，其中所述记忆性深度神经网络DNN包括至少一个时间递归层和所述瓶颈层，所述至少一个时间递归层的输出连接到所述瓶颈层，所述瓶颈层的维度比所述记忆性深度神经网络DNN中其他隐含层的维度小；特征组合单元130，配置为基于所述第一频谱特征和所述瓶颈特征，形成所述说话人音频的声学特征；矢量提取单元140，配置为基于所述声学特征，提取说话人音频对应的身份认证矢量；分类识别单元150，配置为基于所述身份认证矢量，采用分类模型进行说话人识别。

根据一个实施例，上述第一提取单元110所提取的第一频谱特征包括，梅尔频谱倒谱系数MFCC特征，以及所述MFCC特征的一阶差分特征和二阶差分特征。

在一个实施例中，第二提取单元120所基于的记忆性深度神经网络DNN中的时间递归层包括，基于长短期记忆LSTM模型的隐含层，或者基于LSTMP模型的隐含层，其中所述LSTMP模型为具有循环投影层的LSTM模型。

在另一实施例中，时间递归层还可以包括，基于前馈序列记忆FSMN模型的隐含层，或者基于cFSMN模型的隐含层，其中cFSMN模型为紧凑型FSMN模型。

在一个实施例中，上述第二提取单元120配置为：从所述说话人音频的连续多帧语音中提取第二频谱特征，将所述第二频谱特征输入所述深度神经网络DNN。

在一个实施例中，所述特征组合单元130配置为，将所述第一频谱特征和所述瓶颈特征进行拼接，从而形成所述声学特征。

通过以上描述的方法及装置，设计了具有记忆功能的深度神经网络DNN，从这样的深度神经网络的瓶颈层中提取出具有记忆效应的瓶颈特征，包含在声学特征中。这样的声学特征更有益于反映说话者的与时序相关的韵律特征。基于这样的声学特征所提取的身份认证矢量i-vector可以更好地表征说话人的语音特质，特别是韵律特征，从而使得说话人识别的准确性得到提高。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2所述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

一种声纹识别的方法，包括：

从说话人音频中提取第一频谱特征；

将所述说话人音频输入记忆性深度神经网络DNN，从所述记忆性深度神经网络的瓶颈层提取瓶颈特征，其中所述记忆性深度神经网络DNN包括至少一个时间递归层和所述瓶颈层，所述至少一个时间递归层的输出连接到所述瓶颈层，所述瓶颈层的维度比所述记忆性深度神经网络DNN中其他隐含层的维度小；

基于所述第一频谱特征和所述瓶颈特征，形成所述说话人音频的声学特征；

基于所述声学特征，提取说话人音频对应的身份认证矢量；

基于所述身份认证矢量，采用分类模型进行说话人识别。
根据权利要求1所述的方法，其中所述第一频谱特征包括，梅尔频谱倒谱系数MFCC特征，以及所述MFCC特征的一阶差分特征和二阶差分特征。
根据权利要求1所述的方法，其中所述至少一个时间递归层包括，基于长短期记忆LSTM模型的隐含层，或者基于LSTMP模型的隐含层，其中所述LSTMP模型为具有循环投影层的LSTM模型。
根据权利要求1所述的方法，其中所述至少一个时间递归层包括，基于前馈序列记忆FSMN模型的隐含层，或者基于cFSMN模型的隐含层，其中cFSMN模型为紧凑型FSMN模型。
根据权利要求1所述的方法，其中将所述说话人音频输入记忆性深度神经网络DNN包括：从所述说话人音频的连续多帧语音中提取第二频谱特征，将所述第二频谱特征输入所述记忆性深度神经网络DNN。
根据权利要求5所述的方法，其中所述第二频谱特征为梅尔标度滤波器组FBank特征。
根据权利要求1所述的方法，其中基于所述第一频谱特征和所述瓶颈特征，形成所述说话人音频的声学特征包括，将所述第一频谱特征和所述瓶颈特征进行拼接，从而形成所述声学特征。
一种声纹识别的装置，包括：

第一提取单元，配置为从说话人音频中提取第一频谱特征；

第二提取单元，配置为将所述说话人音频输入记忆性深度神经网络DNN，从所述记忆性深度神经网络的瓶颈层提取瓶颈特征，其中所述记忆性深度神经网络DNN包括至少一个时间递归层和所述瓶颈层，所述至少一个时间递归层的输出连接到所述瓶颈层，所述瓶颈层的维度比所述记忆性深度神经网络DNN中其他隐含层的维度小；

特征组合单元，配置为基于所述第一频谱特征和所述瓶颈特征，形成所述说话人音频的声学特征；

矢量提取单元，配置为基于所述声学特征，提取说话人音频对应的身份认证矢量；

分类识别单元，配置为基于所述身份认证矢量，采用分类模型进行说话人识别。
根据权利要求8所述的装置，其中所述第一频谱特征包括，梅尔频谱倒谱系数MFCC特征，以及所述MFCC特征的一阶差分特征和二阶差分特征。
根据权利要求8所述的装置，其中所述至少一个时间递归层包括，基于长短期记忆LSTM模型的隐含层，或者基于LSTMP模型的隐含层，其中所述LSTMP模型为具有循环投影层的LSTM模型。
根据权利要求8所述的装置，其中所述至少一个时间递归层包括，基于前馈序列记忆FSMN模型的隐含层，或者基于cFSMN模型的隐含层，其中cFSMN模型为紧凑型FSMN模型。
根据权利要求8述的装置，其中所述第二提取单元配置为：从所述说话人音频的连续多帧语音中提取第二频谱特征，将所述第二频谱特征输入所述记忆性深度神经网络DNN。
根据权利要求12所述的装置，其中所述第二频谱特征为梅尔标度滤波器组FBank特征。
根据权利要求8所述的装置，其中所述特征组合单元配置为，将所述第一频谱特征和所述瓶颈特征进行拼接，从而形成所述声学特征。
一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-7中任一项的所述的方法。
一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-7中任一项所述的方法。