WO2021051608A1

WO2021051608A1 - 一种基于深度学习的声纹识别方法、装置及设备

Info

Publication number: WO2021051608A1
Application number: PCT/CN2019/118402
Authority: WO
Inventors: 王健宗; 赵峰
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-09-20
Filing date: 2019-11-14
Publication date: 2021-03-25
Also published as: CN110767239A

Abstract

一种基于深度学习的声纹识别方法、装置及设备，其中，所述方法包括：获取目标人的认证语音，利用MFCC对认证语音进行特征提取，得到认证语音特征（101）；将认证语音特征输入神经网络模型进行认证处理（102）；根据认证处理结果对神经网络模型内部的函数的参数进行调整，得到能够对目标人语音的进行识别的目标神经网络模型（103）；利用MFCC对获取的待识别的语音进行特征提取，得到待识别的语音特征（104）；将待识别的语音特征输入目标神经网络模型进行语音识别处理，确定待识别的语音是否属于目标人（105）。利用训练得到的神经网络模型对语音进行识别，确定语音是否是目标人本人，语音识别过程比较快速精准，使得识别效率得到有效的提高。

Description

一种基于深度学习的声纹识别方法、装置及设备

技术领域

本申请涉及生物识别技术领域，特别是涉及一种基于深度学习的声纹识别方法、装置及设备。

背景技术

声纹识别是基于一些语音信号和注册的说话者录音来验证说话者身份的。通常，针对注册和测试语音提取富有说话者信息的低维特征，并使用一些算法操作将其映射到验证分数。变体包括文本相关的声纹识别，其语音内容固定为某个短语，以及文本无关的声纹识别，其语音内容随机。

目前业内的主要声纹识别系统是利用混合高斯模型以及i-vector模型，这些模型都是通过将声纹数字信息抽象成我们预想的模型，然后进行模型对比，一定程度上具有一定的局限性，需要按照人类预想的模型进行构建，但很多时候预想的模型处理效果并不理想。

发明内容

有鉴于此，本申请提供了一种基于深度学习的声纹识别方法、装置及设备。主要目的在于解决目前的声纹识别模型进行声纹识别效果不理想技术问题。

依据本申请的第一方面，提供了一种基于深度学习的声纹识别方法，所述方法包括：获取目标人的认证语音，利用MFCC对认证语音进行特征提取，得到认证语音特征；将所述认证语音特征输入神经网络模型进行认证处理，其中，DNN架构经过多人语音进行训练，获得能够对语音进行认证的函数，再将函数保存至DNN架构的最后一层得到神经网络模型；根据认证处理结果对所述神经网络模型内部的函数的参数进行调整，得到能够对目标人语音的进行识别的目标神经网络模型；利用MFCC对获取的待识别的语音进行特征提取，得到待识别的语音特征；将所述待识别的语音特征输入目标神经网络模型进行语音识别处理，确定所述待识别的语音是否属于目标人。

依据本申请的第二方面，提供了一种基于深度学习的声纹识别装置，所述装置包括：获取模块，用于获取目标人的认证语音，利用MFCC对认证语音进行特征提取，得到认证语音特征；认证模块，用于将所述认证语音特征输入神经网络模型进行认证处理，其中，DNN架构经过多人语音进行训练，获得能够对语音进行认证的函数，再将函数保存至DNN架构的最后一层得到神经网络模型；调整模块，用于根据认证处理结果对所述神经网络模型内部的函数的参数进行调整，得到能够对目标人语音的进行识别的目标神经网络模型；提取模块，用于利用MFCC对获取的待识别的语音进行特征提取，得到待识别的语音特征；处理模块，用于将所述待识别的语音特征输入目标神经网络模型进行语音识别处理，确定所述待识别的语音是否属于目标人。

依据本申请的第三方面，提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现第一方面所述基于深度学习的声纹识别方法的步骤。

依据本申请的第四方面，提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述基于深度学习的声纹识别的步骤。

借由上述技术方案，本申请提供的一种基于深度学习的声纹识别方法、装置及设备，利用多人的语音组成训练集对DNN架构进行学习训练，得到能够进行声纹识别的神经网络模型，并利用该神经网络模型对目标人的语音进行认证，在神经网络模型中形成与目标人语音相对应的函数，进而利用认证后的目标神经网络模型对语音进行识别，确定语音是否是目标人本人。这样根据每个人的声纹特点形成的目标神经网络模型的语音识别过程比较快速精准，使得识别效率得到有效的提高。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请的基于深度学习的声纹识别方法的一个实施例的流程图；

图2为本申请的DNN网络组成图；

图3为本申请的DNN架构组成图；

图4为本申请的基于深度学习的声纹识别装置的一个实施例的结构框图；

图5为本申请的计算机设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本申请实施例提供了一种基于深度学习的声纹识别方法，利用多人的语音组成训练集对DNN架构进行学习训练，得到能够进行声纹识别的神经网络模型，并利用该神经网络模型对目标人的语音进行认证，在神经网络模型中形成与目标人语音相对应的函数，进而利用认证后的神经网络模型对语音进行识别，确定语音是否是目标人本人。

如图1所示，本申请实施例提供了一种基于深度学习的声纹识别方法，包括如下步骤：

步骤101，获取目标人的认证语音，利用MFCC对认证语音进行特征提取，得到认证语音特征。

在该步骤中，该认证语音可以通过麦克风进行实时获取，也可以调取存储器中录音记录或者截取录音记录中的一部分语音作为认证语音。MFCC(Mel Frequency Cepstral Coefficents，梅尔频率倒谱系数)是在Mel标度频率域提取出来的倒谱参数，用于对语音进行特征提取。

步骤102，将认证语音特征输入神经网络模型进行认证处理，其中，DNN架构经过多人语音进行训练，获得能够对语音进行认证的函数，再将函数保存至DNN架构的最后一层得到神经网络模型。

在该步骤中，DNN架构是由DNN(Deep Neural Network，深度神经网络)构建而成的，DNN能够根据多个语音进行学习训练，这样有利于提高整个声纹识别过程的智能化。其中，多人语音为多个人发出的多段语音，每段语音均标记了带有发音者的标签，在训练过程中，将DNN架构的输出结果与该标签进行比对，确定输出结果是否正确。

步骤103，根据认证处理结果对神经网络模型内部的函数的参数进行调整，得到能够对目标人语音的进行识别的目标神经网络模型。

在该步骤中，经过调整后镶嵌在神经网络模型内部的函数能够与目标人的语音一一对应，这样在进行语音识别过程中，能够协助神经网络模型确定语音是否属于目标人，进而增加神经网络模型的识别效率和识别精度。

步骤104，利用MFCC对获取的待识别的语音进行特征提取，得到待识别的语音特征。

在该步骤中，由于目标神经网络模型的输入口无法直接将待识别的语音输入进去，因此，需要利用MFCC对该待识别的语音进行特征提取，得到能够输入目标神经网络的待识别的语音特征。

步骤105，将待识别的语音特征输入目标神经网络模型进行语音识别处理，确定待识别的语音是否属于目标人。

在该步骤中，经过MFCC处理后得到的待识别的语音特征有多个，将这多个待识别的语音特征进行排列，组成特征向量矩阵，然后再将该特征向量矩阵从目标神经网络模型的输入口输入，目标神经网络模型对特征向量矩阵进行处理后将输出结果从输出口输出。

本方案可以应用于语音识别，以及语音加密解密的过程，加密过程可以利用上述步骤101-103形成的目标神经网络，将该目标神经网络模型嵌入至加密文件中，当用户想要利用语音进行解密时，再利用步骤104和105，当目标神经网络模型输出的结果为“是目标人本人”时，确定解密成功，启动相应的功能。

通过上述技术方案，利用多人的语音组成训练集对DNN架构进行学习训练，得到能够进行声纹识别的神经网络模型，并利用该神经网络模型对目标人的语音进行认证，在神经网络模型中形成与目标人语音相对应的函数，进而利用认证后的目标神经网络模型对语音进行识别，确定语音是否是目标人本人。这样根据每个人的声纹特点形成的目标神经网络模型的语音识别过程比较快速精准，使得识别效率得到有效的提高。

在具体实施例中，在步骤102之前，方法还包括：

步骤A，收集多个发音者的训练语音，利用MFCC对训练语音进行特征提取，得到训练语音特征，其中，每段训练语音中包含有对应发音者的标签。

在该步骤中，该训练语音的声音是由多个人发出的，是为了保证训练出的神经网络模型能够适应各种不同人的音色，保证神经网络模型的识别效果。

并且每一段训练语音都需要进行MFCC处理，保证每一段语音都能够被输入至DNN架构中。

步骤B，利用训练语音特征对DNN架构进行训练处理。

在该步骤中，训练语音特征可随机或者按照发音首字母的排序输入至DNN架构中进行训练，训练过程中将输出结果与对应的标签进行比对，如果比对成功证明输出正确，如果比对失败证明输出错误，并根据输出结果对DNN架构进行调整保证DNN架构输出的正确率。

步骤C，对训练过程中DNN架构的输出数据进行统计，根据统计结果确定出能够对语音进行识别的函数。

在该步骤中，将DNN架构输出的数据整合在一起，并计算输出的正确率等数据，根据这些数据计算能够对语音进行识别的函数。

步骤D，将所述函数保存至所述DNN架构的最后一层中，得到能够对语音的进行识别的神经网络模型。

在该步骤中，将得到的函数，保存到DNN架构的最后一层，待DNN架构的前端部分对语音进行处理完成之后，将处理结果输入至最后一层利用该函数对语音进行进一步确定，保证语音识别精度。

通过上述技术方案，利用多个人的多段语音对DNN架构进行训练，得到相应的神经网络识别模型，这样能够保证神经网络识别模型的多样化，识别男女老幼等不同人的音色，并且还能利用函数对语音进行进一步确认处理，保证识别的准确率。

在具体实施例中，步骤A具体包括：

步骤A1，获取多个人的N段语音，将每段语音分成两部分，得到2N段训练语音，并将每部分添加与语音的发音者相对应的标签。

步骤A2，利用MFCC对2N段训练语音进行特征提取，得到2N段训练语音特征。

步骤A3，从2N段训练语音特征任意选取两段训练语音特征进行组合，得到N个语音特征组。

在上述方案中，将每段分成两部分，然后再重新组合成N个语音特征组，这样每组语音特征中的两段训练语音特征可能出自同一个人，也可能出自不同的人，这样就可以用来训练DNN架构识别相同或不同人的语音特点。保证DNN架构训练的多样化，进而提高训练效果。

在具体实施例中，步骤B具体包括：

步骤B1，构建两个DNN网络，并将两个DNN网络组合成DNN架构。

步骤B2，将每个语音特征组的两段训练语音特征分别输入DNN架构中的两个DNN网络进行处理。

步骤B3，将两个DNN网络的输出结果进行整合后输出整合结果，其中，整合结果中包含两段训练语音特征是否属于同一个发音人。

步骤B4，根据整合结果和输入的两段训练语音特征对应的标签的差异计算损失函数，并根据损失函数对DNN架构的参数进行调整。

在上述技术方案中，DNN架构包含两个DNN网络，分别用来处理语音特征组的两段训练语音特征，然后将两个DNN网络的输出结果进行比对确定两段训练语音特征是否来自同一个人，然后根据两段训练语音特征的标签确定判断结果是否正确，根据输出结果与标签的差异计算损失函数，根据损失函数对DNN 架构的参数进行调整后，再利用下一个语音特征组进行训练，并不断重复上述过程，直至所有的语音特征组全部训练完成为止。

另外，DNN架构训练完成后，还可以再收集多个人的多段语音作为测试集，将测试集中的语音按照上述步骤A1-A3进行处理后，并输入训练后的DNN架构中，进行识别，统计识别的正确率，如果正确率大于等于设定阈值，则证明DNN架构训练成功，如果正确率小于设定阈值，则证明DNN架构训练失败，重新选多个人的N段语音，对上述训练后的DNN架构进行再次训练，直到统计的的正确率大于等于设定阈值为止。

在具体实施例中，步骤C具体包括：

步骤C1，计算N个语音特征组中每个语音特征组的两段训练语音特征的偏移距离L(x，y)，其中，x和y分别表示两段训练语音特征。

在该步骤中，两个训练语音特征之间的声纹特征是不同的，有一定的偏移距离，该距离可以用下式表示：

L(x，y)＝x ^Ty-x ^TSx-y ^TSy+b

式中，S表示训练语音特征转换成特征向量后输入DNN网络中输出的向量矩阵，b表示设定的常数值，可以根据实际情况进行调整。

步骤C2，根据偏移距离，计算N个语音特征组中的每个语音特征组的两段训练语音特征属于同一个发音人的概率值Pr(x，y)，

步骤C3，统计训练过程中DNN架构的输出的同一个发音人的整合结果正确的语音特征组，组成集合P _same。

步骤C4，统计训练过程中DNN架构的输出的不同发音人的整合结果正确的语音特征组，组成集合P _diff。

步骤C5，计算能够对语音进行识别的函数E：

其中，K为设定权重值。

通过上述方案，得到能够对语音进行识别的函数E，然后再将该函数镶嵌至训练完成后的DNN架构中，就形成的最终的神经网络模型。

在具体实施例中，步骤B1具体包括：

步骤B11，为DNN网络设置M个隐藏层，用于对输入的训练语音特征进行处理。

步骤B12，在每个前M-1个隐藏层后面分别设置池化层，用于将隐藏层输出的处理结果进行聚合，计算平均差和标准偏差，并将所有池化层输出的结果进行整合发送至最后一个隐藏层。

在该步骤中，计算处理结果的平均数，并统计处理结果同平均数的离差绝对值的算术平均数作为平均差，计算处理结果均差平方的算术平均数的平方根作为标准偏差。然后将这些计算结果进行整合后发送至最后一个隐藏层，利用最后一个隐藏层中的神经元进行处理，然后得出对应语音特征属于哪个人的声音，并将该人对应的代表标记输出。

步骤B13，在DNN网络的输出口前设置线性输出层，最后一个隐藏层将整合结果发送至线性输出层，并从输出口输出。

在该步骤中，线性输出层将最后一个隐藏层输出的代表标记进行数据处理，转换成相应的代表符号(即，标签)。然后将该代表符号输出。

步骤B14，将设置好的两个DNN网络的线性输出层进行组合，得到DNN架构。

在该步骤中，两个DNN网络的线性输出层输出的结果进行比对，若相同则为同一个人的声音，若不同则为不同人的声音。然后将是否属于同一个人的声音，以及两段训练语音的发音者的代表符号进行输出，将代表符号与对应的标签进行比对，若相同证明识别正确，若不同证明识别错误。

通过上述方案，构建的DNN网络经过训练之后，能够更加准确的进行语音识别，识别效率和精度都能够得到有效的提高。

在具体实施例中，步骤101具体包括：

步骤1011，对认证语音利用高通滤波器进行预加重处理。

步骤1012，将预加重处理后的待识别的语音进行分帧处理。

步骤1013，将认证语音中的每一帧乘以汉明窗进行加窗处理，得到加窗后的认证语音帧。

步骤1014，对加窗后的认证语音帧进行快速傅里叶变换，得到对应的能量谱。

步骤1015，将能量谱通过三角带通滤波器，对所述能量谱进行平滑化，消除所述能量谱的谐波的作用。

步骤1016，对三角带通滤波器的输出结果进行计算对数能量，并进行离散余弦变换得到MFCC特征。

步骤1017，对MFCC特征进行归一化处理，利用语音活动检测工具过滤掉非语音帧，得到认证语音特征。

通过上述方案，利用MFCC对语音进行预处理，得到能够输入神经网络模型的语音特征，这样从低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器，对输入信号进行滤波。将每个带通滤波器输出的信号能量作为信号的基本特征，对此特征经过进一步处理后就可以作为语音的输入特征。由于这种特征不依赖于信号的性质，对输入信号不做任何的假设和限制，又利用了听觉模型的研究成果。因此，这种参数具有更好的鲁邦性，更符合人耳的听觉特性，而且当信噪比降低时仍然具有较好的识别性能。

另外，在利用DNN进行训练、认证以及识别过程中，对于将要输入的语音都要按照上述步骤1011-1017进行MFCC的特征提取过程。

通过上述实施例的基于深度学习的声纹识别方法，利用多人的语音组成训练集对DNN架构进行学习训练，得到能够进行声纹识别的神经网络模型，并利用该神经网络模型对目标人的语音进行认证，在神经网络模型中形成与目标人语音相对应的函数，进而利用认证后的目标神经网络模型对语音进行识别，确定语音是否是目标人本人。这样根据每个人的声纹特点形成的目标神经网络模型的语音识别过程比较快速精准，使得识别效率得到有效的提高。

在本申请的另一个实施例的基于深度学习的声纹识别方法中，包括如下步骤：

一、获取训练集

1、收集来自各种说话人的语音，对语音进行标注(标注说话人身份)作为训练集。

二、对训练集进行预处理

利用MFCC(Mel Frequency Cepstral Coefficents，梅尔频率倒谱系数)提取训练集中并抽取说话人特征，具体过程如下：

1、将训练集中的语音利用高通滤波器进行预加重处理。

2、对训练集进行分帧处理，训练集中语音的每一个字都有L个采样点，将L个采样点集合成一个观测单位，称为帧，为了避免相邻两帧的变化过大，因此会让两相邻帧之间有一段重叠区域，此重叠区域包含了H个取样点，通常H的值约为L的1/2或1/3。

3、对训练集进行加窗处理，将每一帧乘以汉明窗，以增加帧左端和右端的连续性。

4、对加窗后的训练集进行快速傅里叶变换，得到对应的能量谱。

5、将能量谱通过三角带通滤波器，对频谱进行平滑化，并消除谐波的作用，突显原先语音的共振峰。(因此一段语音的音调或音高，是不会呈现在MFCC参数内，换句话说，以MFCC为特征的语音辨识系统，并不会受到输入语音的音调不同而有所影响)此外，还可以降低运算量。

6、对三角带通滤波器的输出结果进行计算对数能量，然后再经离散余弦变换(DCT)得到20维MFCC特征，帧长为25ms。

7、在最多3秒的滑动窗口内进行均值归一化。将9个帧拼接在一起创建一个180维输入向量，用相同帧级的VAD(语音活动检测Voice Activity Detection)过滤掉非语音帧，得到过滤后的MFCC特征。

三、利用训练集进行训练得到神经网络模型

1、构建DNN网络架构。

用Kaldi语音识别工具包中的nnet3神经网络库构建前馈DNN(Deep Neural Network，深度神经网络算法)识别系统，如图2所示的DNN网络架构，设有隐藏层(NIN Layer)、池化层(Temporal Pooling)和线性输出层(linear Layer)，将两个DNN网络架构组合在一起如图3所示。

2、确定训练特征。

训练集中有多个说话人，每个说话人有多个语音段，每个语音段对应一个MFCC特征，将同一个说话人的两个MFCC特征组成一个特征pair。挑选N个不同说话人的特征pair，也就是N段特征pair组成训练特征。

3、进行训练

将2N段特征中任取两个特征X和Y(X和Y可以属于同一说话人，也可以属于不同说话人)分别输入图3中的两个DNN网络架构的隐藏层进行处理。

然后将处理结果输出至池化层，池化层将隐藏层的输出结果进行聚合，并计算其平均值和标准偏差。将这些数据整合在一起，发送到最终的隐藏层，最终的隐藏层将输出结果输入线性输出层，进行线性输出，根据输出结果确定损失函数，根据损失函数对神经网络进行调整，以完成神经网络的训练，重复上述过程直至所有训练集中的数据全部训练完成，得到能够对语音进行分类的DNN架构。

4、计算能够识别说话人的函数

确定训练集中的语音属于同一说话人的概率如公式(1)，Pr(x，y)是同一说话人概率，x、y指两个说话人语音的特征向量；

计算x和y之间的距离L(x，y)如等式2，其中，对称矩阵S和偏移b是DNN网络架构的常数输出。

确定神经网络模型对训练集进行训练时不同说话人和相同说话人分类正确的集合P _same和P _diff，得出如下等式(3)的函数，该函数能够得出对应语音是否属于同一说话人，其中K是指设定权重值。

L(x，y)＝x ^Ty-x ^TSx-y ^TSy+b (2)

5、将函数嵌入至训练好的DNN网络架构中，组成能够进行语音识别的神经网络模型。

四、利用神经网络模型进行语音识别

1、获取用户的认证语音，将该认证语音进行MFCC处理成认证语音特征后输入神经网络模型，经过神经网络模型认证后，形成能够识别用户的目标神经网络模型。

2、当用户想要进行语音识别时，录入待处理的语音，并对语音进行MFCC预处理，得到待处理的语音特征。

将待处理的语音特征输入目标神经网络模型进行识别处理，确定出该语音是否属于用户本人。如果是，则对应启动相应的功能。

进一步的，作为图1方法的具体实现，本申请实施例提供了一种基于深度学习的声纹识别装置，如图4所示，装置包括：依次连接的获取模块41、认证模块42、调整模块43、提取模块44和处理模块45。

获取模块41，用于获取目标人的认证语音，利用MFCC对认证语音进行特征提取，得到认证语音特征；

认证模块42，用于将认证语音特征输入神经网络模型进行认证处理，其中，DNN架构经过多人语音进行训练，获得能够对语音进行认证的函数，再将函数保存至DNN架构的最后一层得到神经网络模型；

调整模块43，用于根据认证处理结果对神经网络模型内部的函数的参数进行调整，得到能够对目标人语音的进行识别的目标神经网络模型；

提取模块44，用于利用MFCC对获取的待识别的语音进行特征提取，得到待识别的语音特征；

处理模块45，用于将待识别的语音特征输入目标神经网络模型进行语音识别处理，确定待识别的语音是否属于目标人。

在具体实施例中，装置还包括：收集模块，用于收集多个发音者的训练语音，利用MFCC对训练语音进行特征提取，得到训练语音特征，其中，每段训练语音中包含有对应发音者的标签；训练模块，用于利用训练语音特征对DNN架构进行训练处理；计算模块，用于对训练过程中DNN架构的输出数据进行统计，根据统计结果确定出能够对语音进行识别的函数；保存模块，用于将函数保存至DNN架构的最后一层中，得到能够对语音的进行识别的神经网络模型。

在具体实施例中，收集模块具体包括：划分单元，用于获取多个人的N段语音，将每段语音分成两部分，得到2N段训练语音，并将每部分添加与语音的发音者相对应的标签；提取单元，用于利用MFCC 对2N段训练语音进行特征提取，得到2N段训练语音特征；组合单元，用于从2N段训练语音特征任意选取两段训练语音特征进行组合，得到N个语音特征组。

在具体实施例中，训练模块具体包括：构建单元，用于构建两个DNN网络，并将两个DNN网络组合成DNN架构；输入单元，用于将每个语音特征组的两段训练语音特征分别输入DNN架构中的两个DNN网络进行处理；整合单元，用于将两个DNN网络的输出结果进行整合后输出整合结果，其中，整合结果中包含两段训练语音特征是否属于同一个发音人；调整训练单元，用于根据整合结果和输入的两段训练语音特征对应的标签的差异计算损失函数，并根据损失函数对DNN架构的参数进行调整。

在具体实施例中，计算模块具体包括：偏移距离计算单元，用于计算N个语音特征组中每个语音特征组的两段训练语音特征的偏移距离L(x，y)，其中，x和y分别表示两段训练语音特征；概率值计算单元，用于根据偏移距离，计算N个语音特征组中的每个语音特征组的两段训练语音特征属于同一个发音人的概率值Pr(x，y)，

统计单元，用于统计训练过程中DNN架构的输出的同一个发音人的整合结果正确的语音特征组，组成集合P _same；统计训练过程中DNN架构的输出的不同发音人的整合结果正确的语音特征组，组成集合P _diff；计算单元，用于计算能够对语音进行识别的函数E：

其中，K为设定权重值。

在具体实施例中，构建单元具体包括：设置单元，用于为DNN网络设置M个隐藏层，用于对输入的训练语音特征进行处理；在每个前M-1个隐藏层后面分别设置池化层，用于将隐藏层输出的处理结果进行聚合，计算平均差和标准偏差，并将所有池化层输出的结果进行整合发送至最后一个隐藏层；在DNN网络的输出口前设置线性输出层，最后一个隐藏层将整合结果发送至线性输出层，并从输出口输出；将设置好的两个DNN网络的线性输出层进行组合，得到DNN架构。

在具体实施例中，获取模块41具体包括：加重单元，用于对认证语音利用高通滤波器进行预加重处理；分帧单元，用于将预加重处理后的待识别的语音进行分帧处理；加窗单元，用于将认证语音中的每一帧乘以汉明窗进行加窗处理，得到加窗后的认证语音帧；变换单元，用于对加窗后的认证语音帧进行快速傅里叶变换，得到对应的能量谱；滤波单元，用于将能量谱通过三角带通滤波器，对所述能量谱进行平滑化，消除所述能量谱的谐波的作用；对数转换单元，用于对三角带通滤波器的输出结果进行计算对数能量，并进行离散余弦变换得到MFCC特征；归一化单元，用于对MFCC特征进行归一化处理，利用语音活动检测工具过滤掉非语音帧，得到认证语音特征。

基于上述图1所示方法和图4所示装置的实施例，为了实现上述目的，本申请实施例还提供了一种计算机设备，如图5所示，包括存储器52和处理器51，其中存储器52和处理器51均设置在总线53上存储器52存储有计算机程序，处理器51执行计算机程序时实现图1所示的基于深度学习的声纹识别方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储器(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

可选地，该设备还可以连接用户接口、网络接口、摄像头、射频(Radio Frequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的一种计算机设备的结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

基于上述如图1所示方法和图4所示装置的实施例，相应的，本申请实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1所示的基于深度学习的声纹识别方法。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理计算机设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与计算机设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。

通过应用本申请的技术方案，利用多人的语音组成训练集对DNN架构进行学习训练，得到能够进行声纹识别的神经网络模型，并利用该神经网络模型对目标人的语音进行认证，在神经网络模型中形成与目标人语音相对应的函数，进而利用认证后的目标神经网络模型对语音进行识别，确定语音是否是目标人本人。这样根据每个人的声纹特点形成的目标神经网络模型的语音识别过程比较快速精准，使得识别效率得到有效的提高。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

一种基于深度学习的声纹识别方法，其中，所述方法包括：

获取目标人的认证语音，利用MFCC对认证语音进行特征提取，得到认证语音特征；

将所述认证语音特征输入神经网络模型进行认证处理，其中，DNN架构经过多人语音进行训练，获得能够对语音进行认证的函数，再将函数保存至DNN架构的最后一层得到神经网络模型；

根据认证处理结果对所述神经网络模型内部的函数的参数进行调整，得到能够对目标人语音的进行识别的目标神经网络模型；

利用MFCC对获取的待识别的语音进行特征提取，得到待识别的语音特征；

将所述待识别的语音特征输入目标神经网络模型进行语音识别处理，确定所述待识别的语音是否属于目标人。
根据权利要求1所述的方法，在将所述认证语音特征输入神经网络模型进行认证处理之前，所述方法还包括：

收集多个发音者的训练语音，利用MFCC对所述训练语音进行特征提取，得到训练语音特征，其中，每段训练语音中包含有对应发音者的标签；

利用所述训练语音特征对DNN架构进行训练处理；

对训练过程中所述DNN架构的输出数据进行统计，根据统计结果确定出能够对语音进行识别的函数；

将所述函数保存至所述DNN架构的最后一层中，得到能够对语音的进行识别的神经网络模型。
根据权利要求2所述的方法，所述收集多个发音者的训练语音，利用MFCC对所述训练语音进行特征提取，得到训练语音特征，具体包括：

获取多个人的N段语音，将每段语音分成两部分，得到2N段训练语音，并将每部分添加与语音的发音者相对应的标签；

利用MFCC对2N段训练语音进行特征提取，得到2N段训练语音特征；

从所述2N段训练语音特征任意选取两段训练语音特征进行组合，得到N个语音特征组。
根据权利要求3所述的方法，利用所述训练语音特征对DNN架构进行训练处理，具体包括：

构建两个DNN网络，并将两个DNN网络组合成DNN架构；

将每个语音特征组的两段训练语音特征分别输入DNN架构中的两个DNN网络进行处理；

将两个DNN网络的输出结果进行整合后输出整合结果，其中，整合结果中包含所述两段训练语音特征是否属于同一个发音人；

根据整合结果和输入的两段训练语音特征对应的标签的差异计算损失函数，并根据损失函数对所述DNN架构的参数进行调整。
根据权利要求4所述的方法，所述对训练过程中所述DNN架构的输出数据进行统计，根据统计结果确定出能够对语音进行识别的函数，具体包括：

计算N个语音特征组中每个语音特征组的两段训练语音特征的偏移距离L(x，y)，其中，x和y分别表示两段训练语音特征；

根据所述偏移距离，计算N个语音特征组中的每个语音特征组的两段训练语音特征属于同一个发音人的概率值Pr(x，y)，

统计训练过程中所述DNN架构的输出的同一个发音人的整合结果正确的语音特征组，组成集合P _same；

统计训练过程中所述DNN架构的输出的不同发音人的整合结果正确的语音特征组，组成集合P _diff；

计算能够对语音进行识别的函数E：

其中，K为设定权重值。
根据权利要求4所述的方法，所述构建两个DNN网络，并将两个DNN网络组合成DNN架构，具体包括：

为DNN网络设置M个隐藏层，用于对输入的训练语音特征进行处理；

在每个前M-1个隐藏层后面分别设置池化层，用于将隐藏层输出的处理结果进行聚合，计算平均差和标准偏差，并将所有池化层输出的结果进行整合发送至最后一个隐藏层；

在所述DNN网络的输出口前设置线性输出层，所述最后一个隐藏层将整合结果发送至线性输出层，并从所述输出口输出；

将设置好的两个DNN网络的线性输出层进行组合，得到DNN架构。
根据权利要求1所述的方法，所述利用MFCC对认证语音进行特征提取，得到认证语音特征，具体包括：

对所述认证语音利用高通滤波器进行预加重处理；

将预加重处理后的待识别的语音进行分帧处理；

将认证语音中的每一帧乘以汉明窗进行加窗处理，得到加窗后的认证语音帧；

对所述加窗后的认证语音帧进行快速傅里叶变换，得到对应的能量谱；

将所述能量谱通过三角带通滤波器，对所述能量谱进行平滑化，消除所述能量谱的谐波的作用；

对三角带通滤波器的输出结果进行计算对数能量，并进行离散余弦变换得到MFCC特征；

对MFCC特征进行归一化处理，利用语音活动检测工具过滤掉非语音帧，得到认证语音特征。
一种基于深度学习的声纹识别装置，其中，所述装置包括：

获取模块，用于获取目标人的认证语音，利用MFCC对认证语音进行特征提取，得到认证语音特征；

认证模块，用于将所述认证语音特征输入神经网络模型进行认证处理，其中，DNN架构经过多人语音进行训练，获得能够对语音进行认证的函数，再将函数保存至DNN架构的最后一层得到神经网络模型；

调整模块，用于根据认证处理结果对所述神经网络模型内部的函数的参数进行调整，得到能够对目标人语音的进行识别的目标神经网络模型；

提取模块，用于利用MFCC对获取的待识别的语音进行特征提取，得到待识别的语音特征；

处理模块，用于将所述待识别的语音特征输入目标神经网络模型进行语音识别处理，确定所述待识别的语音是否属于目标人。
根据权利要求8所述的装置，所述装置还包括：

收集模块，用于收集多个发音者的训练语音，利用MFCC对训练语音进行特征提取，得到训练语音特征，其中，每段训练语音中包含有对应发音者的标签；

训练模块，用于利用训练语音特征对DNN架构进行训练处理；

计算模块，用于对训练过程中DNN架构的输出数据进行统计，根据统计结果确定出能够对语音进行识别的函数；

保存模块，用于将函数保存至DNN架构的最后一层中，得到能够对语音的进行识别的神经网络模型。
根据权利要求9所述的装置，收集模块包括：

划分单元，用于获取多个人的N段语音，将每段语音分成两部分，得到2N段训练语音，并将每部分添加与语音的发音者相对应的标签；

提取单元，用于利用MFCC对2N段训练语音进行特征提取，得到2N段训练语音特征；

组合单元，用于从2N段训练语音特征任意选取两段训练语音特征进行组合，得到N个语音特征组。
根据权利要求9所述的装置，所述训练模块包括：

构建单元，用于构建两个DNN网络，并将两个DNN网络组合成DNN架构；

输入单元，用于将每个语音特征组的两段训练语音特征分别输入DNN架构中的两个DNN网络进行处理；

整合单元，用于将两个DNN网络的输出结果进行整合后输出整合结果，其中，整合结果中包含两段训练语音特征是否属于同一个发音人；

调整训练单元，用于根据整合结果和输入的两段训练语音特征对应的标签的差异计算损失函数，并根据损失函数对DNN架构的参数进行调整。
根据权利要求9所述的装置，所述计算模块具体包括：

偏移距离计算单元，用于计算N个语音特征组中每个语音特征组的两段训练语音特征的偏移距离L(x，y)，其中，x和y分别表示两段训练语音特征；

概率值计算单元，用于根据偏移距离，计算N个语音特征组中的每个语音特征组的两段训练语音特征属于同一个发音人的概率值Pr(x，y)，

统计单元，用于统计训练过程中DNN架构的输出的同一个发音人的整合结果正确的语音特征组，组成集合P _same；统计训练过程中DNN架构的输出的不同发音人的整合结果正确的语音特征组，组成集合P _diff；

计算单元，用于计算能够对语音进行识别的函数E：

其中，K为设定权重值。
根据权利要求11所述的装置，所述构建单元具体包括：

设置单元，用于为DNN网络设置M个隐藏层，用于对输入的训练语音特征进行处理；在每个前M-1个隐藏层后面分别设置池化层，用于将隐藏层输出的处理结果进行聚合，计算平均差和标准偏差，并将所有池化层输出的结果进行整合发送至最后一个隐藏层；在DNN网络的输出口前设置线性输出层，最后一个隐藏层将整合结果发送至线性输出层，并从输出口输出；将设置好的两个DNN网络的线性输出层进行组合，得到DNN架构。
根据权利要求8所述的装置，所述获取模块包括：

加重单元，用于对认证语音利用高通滤波器进行预加重处理；

分帧单元，用于将预加重处理后的待识别的语音进行分帧处理；

加窗单元，用于将认证语音中的每一帧乘以汉明窗进行加窗处理，得到加窗后的认证语音帧；

变换单元，用于对加窗后的认证语音帧进行快速傅里叶变换，得到对应的能量谱；

滤波单元，用于将能量谱通过三角带通滤波器，对所述能量谱进行平滑化，消除所述能量谱的谐波的作用；

对数转换单元，用于对三角带通滤波器的输出结果进行计算对数能量，并进行离散余弦变换得到MFCC特征；

归一化单元，用于对MFCC特征进行归一化处理，利用语音活动检测工具过滤掉非语音帧，得到认证语音特征。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现一种基于深度学习的声纹识别方法的步骤，包括：

获取目标人的认证语音，利用MFCC对认证语音进行特征提取，得到认证语音特征；

将所述认证语音特征输入神经网络模型进行认证处理，其中，DNN架构经过多人语音进行训练，获得能够对语音进行认证的函数，再将函数保存至DNN架构的最后一层得到神经网络模型；

根据认证处理结果对所述神经网络模型内部的函数的参数进行调整，得到能够对目标人语音的进行识别的目标神经网络模型；

利用MFCC对获取的待识别的语音进行特征提取，得到待识别的语音特征；

将所述待识别的语音特征输入目标神经网络模型进行语音识别处理，确定所述待识别的语音是否属于目标人。
根据权利要求15所述的计算机设备，在将所述认证语音特征输入神经网络模型进行认证处理之前，所述方法还包括：

收集多个发音者的训练语音，利用MFCC对所述训练语音进行特征提取，得到训练语音特征，其中，每段训练语音中包含有对应发音者的标签；

利用所述训练语音特征对DNN架构进行训练处理；

对训练过程中所述DNN架构的输出数据进行统计，根据统计结果确定出能够对语音进行识别的函数；

将所述函数保存至所述DNN架构的最后一层中，得到能够对语音的进行识别的神经网络模型。
根据权利要求15所述的计算机设备，所述收集多个发音者的训练语音，利用MFCC对所述训练语音进行特征提取，得到训练语音特征，具体包括：

获取多个人的N段语音，将每段语音分成两部分，得到2N段训练语音，并将每部分添加与语音的发音者相对应的标签；

利用MFCC对2N段训练语音进行特征提取，得到2N段训练语音特征；

从所述2N段训练语音特征任意选取两段训练语音特征进行组合，得到N个语音特征组。
一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现一种基于深度学习的声纹识别方法的步骤，包括：

获取目标人的认证语音，利用MFCC对认证语音进行特征提取，得到认证语音特征；

将所述认证语音特征输入神经网络模型进行认证处理，其中，DNN架构经过多人语音进行训练，获得能够对语音进行认证的函数，再将函数保存至DNN架构的最后一层得到神经网络模型；

根据认证处理结果对所述神经网络模型内部的函数的参数进行调整，得到能够对目标人语音的进行识别的目标神经网络模型；

利用MFCC对获取的待识别的语音进行特征提取，得到待识别的语音特征；

将所述待识别的语音特征输入目标神经网络模型进行语音识别处理，确定所述待识别的语音是否属于目标人。
根据权利要求18所述的计算机存储介质，在将所述认证语音特征输入神经网络模型进行认证处理之前，所述方法还包括：

收集多个发音者的训练语音，利用MFCC对所述训练语音进行特征提取，得到训练语音特征，其中，每段训练语音中包含有对应发音者的标签；

利用所述训练语音特征对DNN架构进行训练处理；

对训练过程中所述DNN架构的输出数据进行统计，根据统计结果确定出能够对语音进行识别的函数；

将所述函数保存至所述DNN架构的最后一层中，得到能够对语音的进行识别的神经网络模型。
根据权利要求18所述的计算机存储介质，所述收集多个发音者的训练语音，利用MFCC对所述训练语音进行特征提取，得到训练语音特征，具体包括：

获取多个人的N段语音，将每段语音分成两部分，得到2N段训练语音，并将每部分添加与语音的发音者相对应的标签；

利用MFCC对2N段训练语音进行特征提取，得到2N段训练语音特征；

从所述2N段训练语音特征任意选取两段训练语音特征进行组合，得到N个语音特征组。