WO2019100606A1

WO2019100606A1 - 电子装置、基于声纹的身份验证方法、系统及存储介质

Info

Publication number: WO2019100606A1
Application number: PCT/CN2018/076113
Authority: WO
Inventors: 赵峰; 王健宗; 程宁; 郑斯奇; 肖京
Original assignee: 平安科技（深圳）有限公司
Priority date: 2017-11-21
Filing date: 2018-02-10
Publication date: 2019-05-31
Also published as: CN107993071A

Abstract

一种电子装置、基于声纹的身份验证方法、系统及存储介质，该方法包括：在接收到待进行身份验证的目标用户的语音数据后，调用预定的卷积神经网络CNN模型对该语音数据进行分帧和采样，得到语音采样数据(S1)；利用预设滤波器对该语音采样数据进行处理以提取预设类型声纹特征，并基于该预设类型声纹特征构建所述语音数据对应的声纹特征向量(S2)；将该声纹特征向量输入预先训练的背景信道模型，以构建出所述语音数据的当前声纹鉴别向量(S3)；计算该当前声纹鉴别向量与预存的该目标用户的标准声纹鉴别向量之间的空间距离，基于该空间距离对该用户进行身份验证，并生成验证结果(S4)。该方法能够提高身份验证的准确性及效率。

Description

电子装置、基于声纹的身份验证方法、系统及存储介质

优先权申明

本申请基于巴黎公约申明享有2017年11月21日递交的申请号为CN201711161344.0、名称为“电子装置、基于声纹的身份验证方法及存储介质”中国专利申请的优先权，该中国专利申请的整体内容以参考的方式结合在本申请中。

技术领域

本申请涉及通信技术领域，尤其涉及一种电子装置、基于声纹的身份验证方法、系统及存储介质。

背景技术

目前，很多大型金融公司的业务范围涉及保险、银行、投资等多个业务范畴，而每个业务范畴通常都需要同客户进行沟通，因此，对客户的身份验证也就成为保证业务安全的重要组成部分。为了满足业务的实时性需求，目前这类金融公司通常采用人工方式对客户的身份进行分析验证，但是由于客户群体庞大，单一依靠人工进行判别分析不仅费时费力、容易出错，而且也会极大地增加业务成本；另外，有些金融公司尝试采用语音自动识别的方式自动对用户的身份进行鉴别，然而，这类现有的语音自动识别方式的准确率低，有待改进。因此，如何提供准确性高的语音自动识别方案已经成为一个亟待解决的技术问题。

发明内容

本申请的目的在于提供一种电子装置、基于声纹的身份验证方法、系统及存储介质，旨在提高身份验证的准确性及效率。

为实现上述目的，本申请提供一种电子装置，所述电子装置包括存储器及与所述存储器连接的处理器，所述存储器中存储有可在所述处理器上运行的处理系统，所述处理系统被所述处理器执行时实现如下步骤：

分帧采样步骤，在接收到待进行身份验证的目标用户的语音数据后，调用预定的卷积神经网络CNN模型对该语音数据进行分帧和采样，得到语音采样数据；提取步骤，利用预设滤波器对该语音采样数据进行处理以提取预设类型声纹特征，并基于该预设类型声纹特征构建所述语音数据对应的声纹特征向量；构建步骤，将该声纹特征向量输入预先训练的背景信道模型，以构建出所述语音数据的当前声纹鉴别向量；验证步骤，计算该当前声纹鉴别向量与预存的该目标用户的标准声纹鉴别向量之间的空间距离，基于该空间距离对该用户进行身份验证，并生成验证结果。

为实现上述目的，本申请还提供一种基于声纹的身份验证方法，所述基于声纹的身份验证方法包括：

S1，在接收到待进行身份验证的目标用户的语音数据后，调用预定的卷积神经网络CNN模型对该语音数据进行分帧和采样，得到语音采样数据；S2，利用预设滤波器对该语音采样数据进行处理以提取预设类型声纹特征，并基于该预设类型声纹特征构建所述语音数据对应的声纹特征向量；S3，将该声纹特征向量输入预先训练的背景信道模型，以构建出所述语音数据的当前声纹鉴别向量；S4，计算该当前声纹鉴别向量与预存的该目标用户的标准声纹鉴别向量之间的空间距离，基于该空间距离对该用户进行身份验证，并生成验证结果。

为实现上述目的，本申请还提供一种基于声纹的身份验证系统，所述基于声纹的身份验证系统包括：

分帧采样模块，用于在接收到待进行身份验证的目标用户的语音数据后，调用预定的卷积神经网络CNN模型对该语音数据进行分帧和采样，得到语音采样数据；提取模块，用于利用预设滤波器对该语音采样数据进行处理以提取预设类型声纹特征，并基于该预设类型声纹特征构建所述语音数据对应的声纹特征向量；构建模块，用于将该声纹特征向量输入预先训练的背景信道模型，以构建出所述语音数据的当前声纹鉴别向量；验证模块，用于计算该当前声纹鉴别向量与预存的该目标用户的标准声纹鉴别向量之间的空间距离，基于该空间距离对该用户进行身份验证，并生成验证结果。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有处理系统，所述处理系统被处理器执行时实现步骤：

本申请的有益效果是：本申请在基于声纹对目标用户进行身份验证时，采用卷积神经网络模型对语音数据进行分帧和采样的语音处理，能够快速、有效地获取语音数据中有用的局部数据，基于语音采样数据提取声纹特征并构建声纹特征向量进行目标用户的身份验证，能够提高身份验证的准确性及效率。

附图说明

图1为本申请电子装置一实施例的硬件架构的示意图；

图2为本申请基于声纹的身份验证方法一实施例的流程示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本申请中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

参阅图1所示，图1为本申请电子装置一实施例的硬件架构的示意图。电子装置1是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。所述电子装置1可以是计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云，其中云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。

在本实施例中，电子装置1可包括，但不仅限于，可通过系统总线相互通信连接的存储器11、处理器12、网络接口13，存储器11存储有可在处理器12上运行的处理系统。需要指出的是，图1仅示出了具有组件11-13的电子装置1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

其中，存储器11包括内存及至少一种类型的可读存储介质。内存为电子装置1的运行提供缓存；可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中，可读存储介质可以是电子装置1的内部存储单元，例如该电子装置1的硬盘；在另一些实施例中，该非易失性存储介质也可以是电子装置1的外部存储设备，例如电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。本实施例中，存储器11的可读存储介质通常用于存储安装于电子装置1的操作系统和各类应用软件，例如本申请一实施例中的处理系统的程序代码等。此外，存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子装置1的总体操作，例如执行与所述其他设备进行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据，例如运行处理系统等。

所述网络接口13可包括无线网络接口或有线网络接口，该网络接口13通常用于在所述电子装置1与其他电子设备之间建立通信连接。本实施例中，网络接口13主要用于将电子装置1与其他设备相连，建立数据传输通道和通信连接，以接收待进行身份验证的目标用户的语音数据。

所述处理系统存储在存储器11中，包括至少一个存储在存储器11中的计算机可读指令，该至少一个计算机可读指令可被处理器器12执行，以实现本申请各实施例的方法；以及，该至少一个计算机可读指令依据其各部分所实现的功能不同，可被划为不同的逻辑模块。

在一实施例中，上述处理系统被所述处理器12执行时实现如下步骤：

分帧采样步骤，在接收到待进行身份验证的目标用户的语音数据后，调用预定的卷积神经网络CNN模型对该语音数据进行分帧和采样，得到语音采样数据；

本实施例中，语音数据由语音采集设备采集得到(语音采集设备例如为麦克风)。在采集语音数据时，应尽量防止环境噪声和语音采集设备的干扰。语音采集设备与目标用户保持适当距离，且尽量不用失真大的语音采集设备，电源优选使用市电，并保持电流稳定；在进行电话录音时应使用传感器。在分帧和采样之前，可以对语音数据进行去噪音处理，以进一步减少干扰。为了能够提取得到语音数据的声纹特征，所采集的语音数据为预设数据长度的语音数据，或者为大于预设数据长度的语音数据。

在一优选的实施例中，接收到的语音数据为一维语音数据，分帧采样步骤，具体包括：

对该语音数据进行分帧，将分帧后的语音数据以帧为行，以帧内数据为列，得到该语音数据对应的二维语音数据；采用预设规格的卷积核，并基于第一预设步长，对该二维语音数据进行卷积；对卷积后的语音数据按照第二预设步长进行最大池化maxpooling采样，得到所述语音采样数据。

其中，语音信号只在较短时间内呈现平稳性，分帧是将一段语音信号分成N段短时间的语音信号，并且为了避免丢失语音信号的连续性特征，相邻语音帧之间有一段重复区域，重复区域一般为帧长的1/2。在分帧后，每一帧都当成平稳信号来处理。

其中，预设规格的卷积核可以为5*5的卷积核，第一预设步长可以为1*1，第二预设步长可以为2*2。

提取步骤，利用预设滤波器对该语音采样数据进行处理以提取预设类型声纹特征，并基于该预设类型声纹特征构建所述语音数据对应的声纹特征向量；

声纹特征包括多种类型，例如宽带声纹、窄带声纹、振幅声纹等，本实施例预设类型声纹特征优选为语音采样数据的梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)，预设滤波器为梅尔滤波器。在构建对应的声纹特征向量时，将语音采样数据的声纹特征组成特征数据矩阵，该特征数据矩阵即为语音采样数据的声纹特征向量。

构建步骤，将该声纹特征向量输入预先训练的背景信道模型，以构建出所述语音数据的当前声纹鉴别向量；

本实施例中，该背景信道模型优选为高斯混合模型，利用该高斯混合模型来计算声纹特征向量，得出对应的当前声纹鉴别向量(即i-vector)。

具体地，该计算过程包括：

1)、选择高斯模型：首先，利用通用背景信道模型中的参数来计算每帧数据在不同高斯模型的似然对数值，通过对似然对数值矩阵每列并行排序，选取前N个高斯模型，最终获得一每帧数据在混合高斯模型中数值的矩阵：

Loglike＝E(X)*D(X) ^-1*X ^T-0.5*D(X) ^-1*(X. ²) ^T，

其中，Loglike为似然对数值矩阵，E(X)为通用背景信道模型训练出来的均值矩阵，D(X)为协方差矩阵，X为数据矩阵，X. ²为矩阵每个值取平方。

其中，似然对数值计算公式：loglikes _i＝C _i+E _i*Cov _i ^-1*X _i-X _i ^T*X _i*Cov _i ^-1，loglikes _i为似然对数值矩阵的第i行向量，C _i为第i个模型的常数项，E _i为第i个模型的均值矩阵，Cov _i为第i个模型的协方差矩阵，X _i为第i帧数据。

2)、计算后验概率：将每帧数据X进行X*XT计算，得到一个对称矩阵，可简化为下三角矩阵，并将元素按顺序排列为1行，变成一个N帧乘以该下三角矩阵个数纬度的一个向量进行计算，将所有帧的该向量组合成新的数据矩阵，同时将通用背景模型中计算概率的协方差矩阵，每个矩阵也简化为下三角矩阵，变成与新数据矩阵类似的矩阵，在通过通用背景信道模型中的均值矩阵和协方差矩阵算出每帧数据的在该选择的高斯模型下的似然对数值，然后进行Softmax回归，最后进行归一化操作，得到每帧在混合高斯模型后验概率分布，将每帧的概率分布向量组成概率矩阵。

3)、提取当前声纹鉴别向量：首先进行一阶，二阶系数的计算，一阶系数计算可以通过概率矩阵列求和得到：

其中，Gamma _i为一阶系数向量的第i个元素，loglikes _ji为似然对数值矩阵的第j行，第i个元素。

二阶系数可以通过概率矩阵的转置乘以数据矩阵获得：

X＝Loglike ^T*feats，其中，X为二阶系数矩阵，loglike为似然对数值矩阵，feats为特征数据矩阵。

在计算得到一阶，二阶系数以后，并行计算一次项和二次项，然后通过一次项和二次项计算当前声纹鉴别向量。

优选地，训练高斯混合模型的过程包括：

获取预设数量(例如十万个)的语音数据样本，对该语音数据样本进行处理得到预设类型声纹特征，并基于各语音数据样本对应的声纹特征构建对应的声纹特征向量；

将该声纹特征向量分为第一比例(例如0.75)的训练集和第二比例(例如0.25)的验证集，所述第一比例及第二比例的和小于等于1；

利用所述训练集中的声纹特征向量对高斯混合模型进行训练，并在训练完成后，利用所述验证集对训练后的高斯混合模型的准确率进行验证；

若所述准确率大于预设阈值，则模型训练结束，以训练后的高斯混合模型作为前述的背景信道模型，或者，若所述准确率小于等于预设阈值，则增加所述语音数据样本的数量，并基于增加后的语音数据样本重新进行训练。

其中，在利用训练集中的声纹特征向量对高斯混合模型进行训练时，抽取出来的D维声纹特征对应的似然概率可用K个高斯分量表示为：

其中，P(x)为语音数据样本由高斯混合模型生成的概率(混合高斯模型)，w _k为每个高斯模型的权重，p(x|k)为样本由第k个高斯模型生成的概率，K为高斯模型数量。

整个高斯混合模型的参数可以表示为：{w _i,μ _i,Σ _i}，w _i为第i个高斯模型的权重，μ _i为第i个高斯模型的均值，∑ _i为第i个高斯模型的协方差。训练该高斯混合模型可以用非监督的EM算法，目标函数采用最大似然估计，即通过选择参数使对数似然函数最大。训练完成后，得到高斯混合模型的权重向量、常数向量、N个协方差矩阵、均值乘以协方差的矩阵等，即为一个训练好的高斯混合模型。

本实施例预先训练的背景信道模型为通过对大量语音数据的挖掘与比对训练得到，这一模型可以在最大限度保留用户的声纹特征的同时，精确刻画用户说话时的背景声纹特征，并能够在识别时将这一特征去除，而提取用户声音的固有特征，能够较大地提高用户身份验证的准确率及效率。

验证步骤，计算该当前声纹鉴别向量与预存的该目标用户的标准声纹鉴别向量之间的空间距离，基于该空间距离对该用户进行身份验证，并生成验证结果。

本实施例中，向量与向量之间的距离有多种，包括余弦距离及欧氏距离等等，优选地，本实施例的空间距离为余弦距离，余弦距离为利用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。

其中，标准声纹鉴别向量为预先获得并存储的声纹鉴别向量，标准声纹鉴别向量在存储时携带其对应的用户的标识信息，其能够准确代表对应的用户的身份。在计算空间距离前，根据用户提供的标识信息获得存储的标准声纹鉴别向量。

其中，在计算得到的空间距离小于等于预设距离阈值时，验证通过，反之，则验证失败。

与现有技术相比，本实施例在基于声纹对目标用户进行身份验证时，采用卷积神经网络模型对语音数据进行分帧和采样的语音处理，能够快速、有效地获取语音数据中有用的局部数据，基于语音采样数据提取声纹特征并构建声纹特征向量进行目标用户的身份验证，能够提高身份验证的准确性及效率；此外，本实施例充分利用了人声中与声道相关的声纹特征，这种声纹特征并不需要对文本加以限制，因而在进行识别与验证的过程中有较大的灵活性。

在一优选的实施例中，在上述图1的实施例的基础上，上述的提取步骤包括：

对所述语音采样数据进行预加重及加窗处理，对每一个加窗进行傅立叶变换得到对应的频谱，将所述频谱输入梅尔滤波器以输出得到梅尔频谱；

在梅尔频谱上进行倒谱分析以获得梅尔频率倒谱系数MFCC，基于所述梅尔频率倒谱系数MFCC组成对应的声纹特征向量。

本实施例中，预加重处理实际是高通滤波处理，滤除低频数据，使得语音数据中的高频特性更加突显，具体地，高通滤波的传递函数为：H(Z)＝1-αZ ^-1，其中，Z为语音数据，α为常量系数，优选地，α的取值为0.97；由于语音采样数据在分帧之后在一定程度上背离原始语音，因此，需要对语音采样数据进行加窗处理。

本实施例中，在梅尔频谱上进行倒谱分析例如为取对数、做逆变换，逆变换一般是通过DCT离散余弦变换来实现，取DCT后的第2个到第13个系数作为梅尔频率倒谱系数MFCC。梅尔频率倒谱系数MFCC即为这帧语音采样数据的声纹特征，将每帧的梅尔频率倒谱系数MFCC组成特征数据矩阵，该特征数据矩阵即为语音采样数据的声纹特征向量。

本实施例取语音采样数据梅尔频率倒谱系数MFCC组成对应的声纹特征向量，由于其比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统，因此能够提高身份验证的准确性。

在一优选的实施例中，在上述图1的实施例的基础上，所述验证步骤，具体包括：

计算该当前声纹鉴别向量与预存的该目标用户的标准声纹鉴别向量之间的余弦距离：

为所述标准声纹鉴别向量，

为当前声纹鉴别向量；若所述余弦距离小于或者等于预设的距离阈值，则生成验证通过的信息；若所述余弦距离大于预设的距离阈值，则生成验证不通过的信息。

本实施例中，在存储目标用户的标准声纹鉴别向量时可以携带目标用户的标识信息，在验证用户的身份时，根据当前声纹鉴别向量的标识信息匹配得到对应的标准声纹鉴别向量，并计算当前声纹鉴别向量与匹配得到的标准声纹鉴别向量之间的余弦距离，以余弦距离来验证目标用户的身份，提高身份验证的准确性。

如图2所示，图2为本申请基于声纹的身份验证方法一实施例的流程示意图，该基于声纹的身份验证方法包括以下步骤：

步骤S1，在接收到待进行身份验证的目标用户的语音数据后，调用预定的卷积神经网络CNN模型对该语音数据进行分帧和采样，得到语音采样数据；

步骤S2，利用预设滤波器对该语音采样数据进行处理以提取预设类型声纹特征，并基于该预设类型声纹特征构建所述语音数据对应的声纹特征向量；

步骤S3，将该声纹特征向量输入预先训练的背景信道模型，以构建出所述语音数据的当前声纹鉴别向量；

具体地，该计算过程包括：

Loglike＝E(X)*D(X) ^-1*X ^T-0.5*D(X) ^-1*(X. ²) ^T，

其中，似然对数值计算公式：loglikes _i＝C _i+E _i*Cov _i ^-1*X _i-X _i ^T*X _i*Cov _i ^-1，loglikes _i为似然对数值矩阵的第i行向量，C _i为第i个模型的常数项，E _i为第 i个模型的均值矩阵，Cov _i为第i个模型的协方差矩阵，X _i为第i帧数据。

二阶系数可以通过概率矩阵的转置乘以数据矩阵获得：

优选地，训练高斯混合模型的过程包括：

步骤S4，计算该当前声纹鉴别向量与预存的该目标用户的标准声纹鉴别向量之间的空间距离，基于该空间距离对该用户进行身份验证，并生成验证结果。

在一优选的实施例中，在上述图2的实施例的基础上，上述的步骤S2包括：

在一优选的实施例中，在上述图2的实施例的基础上，所述步骤S4，具体包括：

为所述标准声纹鉴别向量，

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有处理系统，所述处理系统被处理器执行时实现上述的基于声纹的身份验证方法的步骤。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种电子装置，其特征在于，所述电子装置包括存储器及与所述存储器连接的处理器，所述存储器中存储有可在所述处理器上运行的处理系统，所述处理系统被所述处理器执行时实现如下步骤：

分帧采样步骤，在接收到待进行身份验证的目标用户的语音数据后，调用预定的卷积神经网络CNN模型对该语音数据进行分帧和采样，得到语音采样数据；

提取步骤，利用预设滤波器对该语音采样数据进行处理以提取预设类型声纹特征，并基于该预设类型声纹特征构建所述语音数据对应的声纹特征向量；

构建步骤，将该声纹特征向量输入预先训练的背景信道模型，以构建出所述语音数据的当前声纹鉴别向量；

验证步骤，计算该当前声纹鉴别向量与预存的该目标用户的标准声纹鉴别向量之间的空间距离，基于该空间距离对该用户进行身份验证，并生成验证结果。
根据权利要求1所述的电子装置，其特征在于，所述分帧采样步骤，具体包括：

对该语音数据进行分帧，将分帧后的语音数据以帧为行，以帧内数据为列，得到该语音数据对应的二维语音数据；

采用预设规格的卷积核，并基于第一预设步长，对该二维语音数据进行卷积；

对卷积后的语音数据按照第二预设步长进行最大池化maxpooling采样，得到所述语音采样数据。
根据权利要求1或2所述的电子装置，其特征在于，所述提取步骤，具体包括：

对所述语音采样数据进行预加重及加窗处理，对每一个加窗进行傅立叶变换得到对应的频谱，将所述频谱输入梅尔滤波器以输出得到梅尔频谱；

在梅尔频谱上进行倒谱分析以获得梅尔频率倒谱系数MFCC，基于所述梅尔频率倒谱系数MFCC组成对应的声纹特征向量。
根据权利要求1或2所述的电子装置，其特征在于，所述验证步骤，具体包括：

计算该当前声纹鉴别向量与预存的该目标用户的标准声纹鉴别向量之间的余弦距离：

为所述标准声纹鉴别向量，
为当前声纹鉴别向量；

若所述余弦距离小于或者等于预设的距离阈值，则生成验证通过的信息；

若所述余弦距离大于预设的距离阈值，则生成验证不通过的信息。
根据权利要求1或2所述的电子装置，其特征在于，所述背景信道模型为高斯混合模型，所述处理系统被所述处理器执行时实现如下步骤：

获取预设数量的语音数据样本，对该语音数据样本进行处理得到预设类型声纹特征，并基于各语音数据样本对应的声纹特征构建对应的声纹特征向量；

将该声纹特征向量分为第一比例的训练集和第二比例的验证集，所述第一比例及第二比例的和小于等于1；

利用所述训练集中的声纹特征向量对高斯混合模型进行训练，并在训练完成后，利用所述验证集对训练后的高斯混合模型的准确率进行验证；

若所述准确率大于预设阈值，则模型训练结束，以训练后的高斯混合模型作为所述背景信道模型，或者，若所述准确率小于等于预设阈值，则增加所述语音数据样本的数量，并基于增加后的语音数据样本重新进行训练。
一种基于声纹的身份验证方法，其特征在于，所述基于声纹的身份验证方法包括：

S1，在接收到待进行身份验证的目标用户的语音数据后，调用预定的卷积神经网络CNN模型对该语音数据进行分帧和采样，得到语音采样数据；

S2，利用预设滤波器对该语音采样数据进行处理以提取预设类型声纹特征，并基于该预设类型声纹特征构建所述语音数据对应的声纹特征向量；

S3，将该声纹特征向量输入预先训练的背景信道模型，以构建出所述语音数据的当前声纹鉴别向量；

S4，计算该当前声纹鉴别向量与预存的该目标用户的标准声纹鉴别向量之间的空间距离，基于该空间距离对该用户进行身份验证，并生成验证结果。
根据权利要求6所述的基于声纹的身份验证方法，其特征在于，所述步骤S1包括：

对该语音数据进行分帧，将分帧后的语音数据以帧为行，以帧内数据为列，得到该语音数据对应的二维语音数据；

采用预设规格的卷积核，并基于第一预设步长，对该二维语音数据进行卷积；

对卷积后的语音数据按照第二预设步长进行最大池化maxpooling采样，得到所述语音采样数据。
根据权利要求6或7所述的基于声纹的身份验证方法，其特征在于，所述步骤S2包括：

对所述语音采样数据进行预加重及加窗处理，对每一个加窗进行傅立叶变换得到对应的频谱，将所述频谱输入梅尔滤波器以输出得到梅尔频谱；

在梅尔频谱上进行倒谱分析以获得梅尔频率倒谱系数MFCC，基于所述梅尔频率倒谱系数MFCC组成对应的声纹特征向量。
根据权利要求6或7所述的基于声纹的身份验证方法，其特征在于，所述步骤S4包括：

计算该当前声纹鉴别向量与预存的该目标用户的标准声纹鉴别向量之间的余弦距离：

为所述标准声纹鉴别向量，
为当前声纹鉴别向量；

若所述余弦距离小于或者等于预设的距离阈值，则生成验证通过的信息；

若所述余弦距离大于预设的距离阈值，则生成验证不通过的信息。
根据权利要求6或7所述的基于声纹的身份验证方法，其特征在于，所述背景信道模型为高斯混合模型，所述步骤S3之前包括：

获取预设数量的语音数据样本，对该语音数据样本进行处理得到预设类型声纹特征，并基于各语音数据样本对应的声纹特征构建对应的声纹特征向量；

将该声纹特征向量分为第一比例的训练集和第二比例的验证集，所述第一比例及第二比例的和小于等于1；

利用所述训练集中的声纹特征向量对高斯混合模型进行训练，并在训练完成后，利用所述验证集对训练后的高斯混合模型的准确率进行验证；

若所述准确率大于预设阈值，则模型训练结束，以训练后的高斯混合模型作为所述背景信道模型，或者，若所述准确率小于等于预设阈值，则增加所述语音数据样本的数量，并基于增加后的语音数据样本重新进行训练。
一种基于声纹的身份验证系统，其特征在于，所述基于声纹的身份验证系统包括：

分帧采样模块，用于在接收到待进行身份验证的目标用户的语音数据后，调用预定的卷积神经网络CNN模型对该语音数据进行分帧和采样，得到语音采样数据；

提取模块，用于利用预设滤波器对该语音采样数据进行处理以提取预设类型声纹特征，并基于该预设类型声纹特征构建所述语音数据对应的声纹特征向量；

构建模块，用于将该声纹特征向量输入预先训练的背景信道模型，以构建出所述语音数据的当前声纹鉴别向量；

验证模块，用于计算该当前声纹鉴别向量与预存的该目标用户的标准声纹鉴别向量之间的空间距离，基于该空间距离对该用户进行身份验证，并生成验证结果。
根据权利要求11所述的基于声纹的身份验证系统，其特征在于，所述分帧采样模块，具体用于对该语音数据进行分帧，将分帧后的语音数据以帧为行，以帧内数据为列，得到该语音数据对应的二维语音数据；采用预设规格的卷积核，并基于第一预设步长，对该二维语音数据进行卷积；对卷积后的语音数据按照第二预设步长进行最大池化maxpooling采样，得到所述语音采样数据。
根据权利要求11或12所述的基于声纹的身份验证系统，其特征在于，所述提取模块，具体用于对所述语音采样数据进行预加重及加窗处理，对每一个加窗进行傅立叶变换得到对应的频谱，将所述频谱输入梅尔滤波器以输出得到梅尔频谱；在梅尔频谱上进行倒谱分析以获得梅尔频率倒谱系数MFCC，基于所述梅尔频率倒谱系数MFCC组成对应的声纹特征向量。
根据权利要求11或12所述的基于声纹的身份验证系统，其特征在于，所述验证模块，具体用于：

计算该当前声纹鉴别向量与预存的该目标用户的标准声纹鉴别向量之间的余弦距离：

为所述标准声纹鉴别向量，
为当前声纹鉴别向量；若所述余弦距离小于或者等于预设的距离阈值，则生成验证通过的信息；若所述余弦距离大于预设的距离阈值，则生成验证不通过的信息。
根据权利要求11或12所述的基于声纹的身份验证系统，其特征在于，所述背景信道模型为高斯混合模型，还包括：

获取模块，用于获取预设数量的语音数据样本，对该语音数据样本进行处理得到预设类型声纹特征，并基于各语音数据样本对应的声纹特征构建对应的声纹特征向量；

划分模块，用于将该声纹特征向量分为第一比例的训练集和第二比例的验证集，所述第一比例及第二比例的和小于等于1；

训练模块，用于利用所述训练集中的声纹特征向量对高斯混合模型进行训练，并在训练完成后，利用所述验证集对训练后的高斯混合模型的准确率进行验证；

处理模块，用于若所述准确率大于预设阈值，则模型训练结束，以训练后的高斯混合模型作为所述背景信道模型，或者，若所述准确率小于等于预设阈值，则增加所述语音数据样本的数量，并基于增加后的语音数据样本重新进行训练。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有处理系统，所述处理系统被处理器执行时实现步骤：

分帧采样步骤，在接收到待进行身份验证的目标用户的语音数据后，调用预定的卷积神经网络CNN模型对该语音数据进行分帧和采样，得到语音采样数据；

提取步骤，利用预设滤波器对该语音采样数据进行处理以提取预设类型声纹特征，并基于该预设类型声纹特征构建所述语音数据对应的声纹特征向量；

构建步骤，将该声纹特征向量输入预先训练的背景信道模型，以构建出所述语音数据的当前声纹鉴别向量；

验证步骤，计算该当前声纹鉴别向量与预存的该目标用户的标准声纹鉴别向量之间的空间距离，基于该空间距离对该用户进行身份验证，并生成验证结果。
根据权利要求16所述的计算机可读存储介质，其特征在于，所述分帧采样步骤，具体包括：

对该语音数据进行分帧，将分帧后的语音数据以帧为行，以帧内数据为列，得到该语音数据对应的二维语音数据；

采用预设规格的卷积核，并基于第一预设步长，对该二维语音数据进行卷积；

对卷积后的语音数据按照第二预设步长进行最大池化maxpooling采样，得到所述语音采样数据。
根据权利要求16或17所述的计算机可读存储介质，其特征在于，所述提取步骤，具体包括：

对所述语音采样数据进行预加重及加窗处理，对每一个加窗进行傅立叶变换得到对应的频谱，将所述频谱输入梅尔滤波器以输出得到梅尔频谱；

在梅尔频谱上进行倒谱分析以获得梅尔频率倒谱系数MFCC，基于所述梅尔频率倒谱系数MFCC组成对应的声纹特征向量。
根据权利要求16或17所述的计算机可读存储介质，其特征在于，所述验证步骤，具体包括：

计算该当前声纹鉴别向量与预存的该目标用户的标准声纹鉴别向量之间的余弦距离：

为所述标准声纹鉴别向量，
为当前声纹鉴别向量；

若所述余弦距离小于或者等于预设的距离阈值，则生成验证通过的信息；

若所述余弦距离大于预设的距离阈值，则生成验证不通过的信息。
根据权利要求16或17所述的计算机可读存储介质，其特征在于，所述背景信道模型为高斯混合模型，所述处理系统被所述处理器执行时实现如下步骤：

获取预设数量的语音数据样本，对该语音数据样本进行处理得到预设类型声纹特征，并基于各语音数据样本对应的声纹特征构建对应的声纹特征向量；

将该声纹特征向量分为第一比例的训练集和第二比例的验证集，所述第一比例及第二比例的和小于等于1；

利用所述训练集中的声纹特征向量对高斯混合模型进行训练，并在训练完成后，利用所述验证集对训练后的高斯混合模型的准确率进行验证；

若所述准确率大于预设阈值，则模型训练结束，以训练后的高斯混合模型作为所述背景信道模型，或者，若所述准确率小于等于预设阈值，则增加所述语音数据样本的数量，并基于增加后的语音数据样本重新进行训练。