WO2018166187A1

WO2018166187A1 - 服务器、身份验证方法、系统及计算机可读存储介质

Info

Publication number: WO2018166187A1
Application number: PCT/CN2017/105031
Authority: WO
Inventors: 王健宗; 查高密; 程宁; 肖京
Original assignee: 平安科技（深圳）有限公司
Priority date: 2017-03-13
Filing date: 2017-09-30
Publication date: 2018-09-20
Also published as: TWI641965B; WO2018166112A1; TW201833810A; CN107517207A; CN107068154A

Abstract

本发明涉及一种服务器、身份验证方法、系统及计算机可读存储介质，服务器包括存储器及与存储器连接的处理器，存储器中存储有可在处理器上运行的身份验证系统，身份验证系统被处理器执行时实现如下步骤：在收到身份验证请求后，随机向该客户端发送语音获取文本；接收客户端发送的用户播报的密码语音，识别出密码语音对应的密码字符；若密码字符与该语音获取文本对应的标准密码字符一致，则构建该密码语音的当前声纹特征向量，并根据预定的映射关系确定对应的标准声纹特征向量，利用预先确定的距离计算公式计算当前声纹特征向量与所确定的标准声纹特征向量之间的距离，根据距离对用户进行身份验证。本发明能够提高身份验证的安全性。

Description

服务器、身份验证方法、系统及计算机可读存储介质

优先权申明

本申请基于巴黎公约申明享有2017年03月13日递交的申请号为CN201710147695.X、名称为“基于声纹识别的身份验证的方法及系统”中国专利申请的优先权，该中国专利申请的整体内容以参考的方式结合在本申请中。

本申请基于巴黎公约申明享有2017年08月20日递交的申请号为CN201710715433.9、名称为“服务器、身份验证方法及计算机可读存储介质”中国专利申请的优先权，该中国专利申请的整体内容以参考的方式结合在本申请中。

技术领域

本发明涉及通信技术领域，尤其涉及一种服务器、身份验证方法、系统及计算机可读存储介质。

背景技术

目前，大型金融公司的业务范围涉及保险、银行、投资等多个业务范畴，每个业务范畴通常都需要同客户进行沟通，沟通的方式有多种(例如电话沟通或者面对面沟通等)。在进行沟通之前，对客户的身份进行验证成为保证业务安全的重要组成部分。

为了满足业务的实时性需求，金融公司很多采用人工方式对客户的身份进行分析验证，但由于客户群体庞大，依靠人工进行判别分析以对验证客户的身份的方式准确性不高，效率也低，为了解决这个问题，在现有的其他方案，金融公司还采用一种声纹方案进行身份验证，但该种方案并不能排除不法分子利用虚假录音通过声纹身份验证，具有一定的安全性隐患。

发明内容

本发明的目的在于提供一种服务器、身份验证方法、系统及计算机可读存储介质，旨在提高身份验证的安全性。

为实现上述目的，本发明提供一种服务器，所述服务器包括存储器及与所述存储器连接的处理器，所述存储器中存储有可在所述处理器上运行的身份验证系统，所述身份验证系统被所述处理器执行时实现如下步骤：

S1，在收到客户端发送的携带身份标识的身份验证请求后，随机向该客户端发送供用户响应的语音获取文本；

S2，接收客户端基于所述语音获取文本发送的用户播报的密码语音，并对所述密码语音进行字符识别，识别出所述密码语音对应的密码字符；

S3，若所述密码字符与该语音获取文本对应的标准密码字符一致，则构建该密码语音的当前声纹特征向量，并根据预定的身份标识与标准声纹特征向量的映射关系确定该用户的身份标识对应的标准声纹特征向量，利用预先确定的距离计算公式计算当前声纹特征向量与所确定的标准声纹特征向量之间的距离，根据所述距离对用户进行身份验证。

为实现上述目的，本发明还提供一种服务器，所述服务器包括存储器及与所述存储器连接的处理器，所述存储器中存储有可在所述处理器上运行的基于声纹识别的身份验证的系统，所述基于声纹识别的身份验证的系统被所述处理器执行时实现如下步骤：

S101，在接收到进行身份验证的用户的语音数据后，获取所述语音数据的声纹特征，并基于所述声纹特征构建对应的声纹特征向量；

S102，将所述声纹特征向量输入预先训练生成的背景信道模型，以构建出所述语音数据对应的当前声纹鉴别向量；

S103，计算所述当前声纹鉴别向量与预存的该用户的标准声纹鉴别向量之间的空间距离，基于所述距离对该用户进行身份验证，并生成验证结果。

为实现上述目的，本发明还提供一种身份验证方法，所述身份验证方法包括：

为实现上述目的，本发明还提供一种身份验证系统，所述身份验证系统包括：

发送模块，用于在收到客户端发送的携带身份标识的身份验证请求后，随机向该客户端发送供用户响应的语音获取文本；

字符识别模块，用于接收客户端基于所述语音获取文本发送的用户播报的密码语音，并对所述密码语音进行字符识别，识别出所述密码语音对应的密码字符；

身份验证模块，用于若所述密码字符与该语音获取文本对应的标准密码字符一致，则构建该密码语音的当前声纹特征向量，并根据预定的身份标识与标准声纹特征向量的映射关系确定该用户的身份标识对应的标准声纹特征向量，利用预先确定的距离计算公式计算当前声纹特征向量与所确定的标准声纹特征向量之间的距离，根据所述距离对用户进行身份验证。

为实现上述目的，本发明还提供一种基于声纹识别的身份验证的系统，所述基于声纹识别的身份验证的系统包括：

构建模块，用于在接收到进行身份验证的用户的语音数据后，获取所述语音数据的声纹特征，并基于所述声纹特征构建对应的声纹特征向量；

输入模块，用于将所述声纹特征向量输入预先训练生成的背景信道模型，以构建出所述语音数据对应的当前声纹鉴别向量；

身份验证模块，用于计算所述当前声纹鉴别向量与预存的该用户的标准声纹鉴别向量之间的空间距离，基于所述距离对该用户进行身份验证，并生成验证结果。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有身份验证系统，所述身份验证系统被处理器执行时实现上述的身份验证方法的步骤。

本发明还提供另一种计算机可读存储介质，所述计算机可读存储介质上存储有基于声纹识别的身份验证的系统，所述基于声纹识别的身份验证的系统被处理器执行时实现上述的身份验证方法的步骤。

本发明的有益效果是：若他人利用已有或已准备的虚假录音进行身份验证，由于发送的语音获取文本的随机性，则所识别的得到的密码字符应与对应的标准密码字符不一致，这样能够防止他人利用已有或已准备的虚假录音进行身份验证；如果他人录制自己的声音进行身份验证，则无法通过之后的声纹特征验证。因此，本实施例相当于进行两次身份验证，具有双重验证的效果，在保证用户身份验证的准确率及效率的同时，提高身份验证的安全性。

附图说明

图1为本发明各个实施例一可选的应用环境示意图；

图2为本发明身份验证系统一实施例的结构示意图；

图3为本发明身份验证方法一实施例的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

参阅图1所示，是本发明身份验证方法的较佳实施例的应用环境示意图。该应用环境示意图包括服务器1及终端设备2。服务器1可以通过网络、近场通信技术等适合的技术与终端设备2进行数据交互。

终端设备2上安装有用于向服务器1发送身份验证请求的客户端，终端设备2包括，但不限于，任何一种可与用户通过键盘、鼠标、遥控器、触摸板或者声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant，PDA)、游戏机、交互式网络电视(Internet Protocol Television,IPTV)、智能式穿戴式设备、导航装置等等的可移动设备，或者诸如数字TV、台式计算机、笔记本、服务器等等的固定终端。

所述服务器1是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。所述服务器1可以是计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云，其中云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。

在本实施例中，服务器1可包括，但不仅限于，可通过系统总线相互通信连接的存储器11、处理器12、网络接口13，存储器11存储有可在处理器12上运行的身份验证系统。需要指出的是，图1仅示出了具有组件11-13的服务器1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

其中，存储器11包括内存及至少一种类型的可读存储介质。内存为服务器1的运行提供缓存；可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中，可读存储介质可以是服务器1的内部存储单元，例如该服务器1的硬盘；在另一些实施例中，该非易失性存储介质也可以是服务器1的外部存储设备，例如服务器1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。本实施例中，存储器11的可读存储介质通常用于存储安装于服务器1的操作系统和各类应用软件，例如本发明一实施例中的身份验证系统的程序代码等。此外，存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述服务器1的总体操作，例如执行与所述终端设备2进行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据，例如运行身份验证系统等。

所述网络接口13可包括无线网络接口或有线网络接口，该网络接口13通常用于在所述服务器1与其他电子设备之间建立通信连接。本实施例中，网络接口13主要用于将服务器1与一个或多个终端设备2相连，在服务器1与一个或多个终端设备2之间建立数据传输通道和通信连接。

所述身份验证系统存储在存储器11中，包括至少一个存储在存储器11中的计算机可读指令，该至少一个计算机可读指令可被处理器器12执行，以实现本申请各实施例的方法；以及，该至少一个计算机可读指令依据其各部分所实现的功能不同，可被划为不同的逻辑模块，如图2所示，身份验证系统划为发送模块1、字符识别模块2及身份验证模块3。

在一实施例中，上述身份验证系统被所述处理器12执行时实现如下步骤：

步骤S1，在收到客户端发送的携带身份标识的身份验证请求后，随机向该客户端发送供用户响应的语音获取文本；

其中，用户在客户端上进行操作，向服务器发送携带身份标识的身份验证请求，服务器接收到该身份验证请求后，随机向客户端发送供用户响应的语音获取文本。

其中，身份标识可以是用户的身份证号或者用户的手机号码等等；供用户响应的语音获取文本有多种，服务器向客户端随机发送其中的一种，目的在于防止他人利用已有的虚假录音进行身份验证。该语音获取文本可以是需要语音录制的随机密码对应的文本，或者，可以是需要语音录制的随机密码的提问的文本。例如，语音获取文本为“请录制一串数字***”，用户根据该语音获取文本进行响应时录制“请录制一串数字***”的语音，又如，语音获取文本为提问文本“你的出生地在哪里”，用户根据该语音获取文本进行响应时录制“我的出生地在***”。

步骤S2，接收客户端基于所述语音获取文本发送的用户播报的密码语音，并对所述密码语音进行字符识别，识别出所述密码语音对应的密码字符；

本实施例中，用户在客户端录制该密码语音的方式可以为：用户根据语音获取文本，在用户按压预先确定的物理按键或者虚拟按键后，控制声音录制单元进行语音录制，在用户释放该按键后，停止语音录制，所录制的语音作为密码语音发送给服务器。

其中，在进行密码语音录制时，应尽量防止环境噪声和语音录制设备的干扰。语音录制设备与用户保持适当距离，且尽量不用失真大的语音录制设备，电源优选使用市电，并保持电流稳定；在进行电话录音时应使用传感器。

服务器接收到该密码语音后，对该密码语音进行字符识别，即将密码语音转化为一个个的字符，其中，可以直接将密码语音转化为字符，可以对密码语音进行去噪音处理，以进一步减少干扰。为了能够提取得到密码语音的声纹特征，所录制的密码语音为预设数据长度的语音数据，或者为大于预设数据长度的语音数据。

步骤S3，若所述密码字符与该语音获取文本对应的标准密码字符一致，则构建该密码语音的当前声纹特征向量，并根据预定的身份标识与标准声纹特征向量的映射关系确定该用户的身份标识对应的标准声纹特征向量，利用预先确定的距离计算公式计算当前声纹特征向量与所确定的标准声纹特征向量之间的距离，根据所述距离对用户进行身份验证。

本实施例中，语音获取文本有多种，服务器上预存的标准密码字符也有多种，语音获取文本分别与标准密码字符一一对应。在识别出密码语音对应的密码字符后，获取与所发送的语音获取文本对应的标准密码字符，判断所识别的得到的密码字符与对应的标准密码字符是否一致。

如果所识别的得到的密码字符应与对应的标准密码字符一致，则进一步构建该密码语音的当前声纹特征向量。其中，声纹特征包括多种类型，例如宽带声纹、窄带声纹、振幅声纹等，本实施例的声纹特征优选地为语音数据的梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)。在构建对应的声纹特征向量时，将密码语音的声纹特征组成特征数据矩阵，该特征数据矩阵即为密码语音的声纹特征向量。

向量与向量之间的距离有多种，包括余弦距离及欧氏距离等等，优选地，本实施例的当前声纹特征向量与所确定的标准声纹特征向量之间的距离为余弦距离，余弦距离为利用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。

其中，标准声纹特征向量为预先存储的声纹特征向量。在计算距离前，根据用户标识获得对应的标准声纹特征向量。

其中，在计算得到的距离小于等于预设距离阈值时，验证通过，反之，则验证失败。

与现有技术相比，若他人利用已有或已准备的虚假录音进行身份验证，由于发送的语音获取文本的随机性，则所识别的得到的密码字符应与对应的标准密码字符不一致，这样能够防止他人利用已有或已准备的虚假录音进行身份验证；如果他人录制自己的声音进行身份验证，则无法通过之后的声纹特征验证。因此，本实施例相当于进行两次身份验证，具有双重验证的效果，在保证用户身份验证的准确率及效率的同时，提高身份验证的安全性。

在一优选的实施例中，为了防止密码语音的音频质量影响声纹特征验证的结果，在上述图1的实施例的基础上，所述步骤S2包括：接收客户端发送的用户播报的密码语音，分析所述密码语音是否可用，若所述密码语音不可用，则提示客户端重新进行密码语音的录制，或者，若所述密码语音可用，则对所述密码语音进行字符识别。

其中，密码语音是否可用是基于下述的分析：分析用户说话部分时长是否大于预设时长、密码语音的背景噪音音量是否小于第一预设音量和/或说话音量大于第二预设音量，若上述中的分析结果均满足则该密码语音可用，可以执行后续的字符识别等操作；反之，若用户说话部分时长小于预设时长，或密码语音的背景噪音音量大于等于第一预设音量，或说话音量小于等于第二预设音量，则该密码语音不可用，此时，提示客户端重新进行密码语音的录制。

在一优选的实施例中，所述身份验证系统被所述处理器执行时，还实现如下步骤：若所述密码字符与该语音获取文本对应的标准密码字符不一致，则再次随机向该客户端发送供用户响应的语音获取文本；累计向客户端发送的语音获取文本的次数，若所述次数大于等于预设次数，则终止对所述身份验证请求的响应。

若用户录制了错误的密码语音，即密码字符与该语音获取文本对应的标准密码字符不一致时，可以提供再次随机向该客户端发送供用户响应的语音获取文本的机会，同时，为了防止过多的密码验证浪费计算机资源，可以限定密码验证的次数小于预设次数，即累计向客户端发送的语音获取文本的次数小于预设次数，并在该次数大于等于预设次数时终止对身份验证请求的响应。

在一优选的实施例中，在上述实施例的基础上，上述步骤S3中构建该密码语音的当前声纹特征向量的步骤包括：利用预设滤波器对所述密码语音进行处理以进行预设类型声纹特征的提取，并基于提取的预设类型声纹特征构建该密码语音对应的声纹特征向量；将构建的声纹特征向量输入预先训练的背景信道模型，以构建出所述当前声纹特征向量。

其中，预设滤波器优选为梅尔滤波器。首先，对所述密码语音进行预加重、分帧和加窗处理；本实施例中，在接收到进行身份验证的用户的密码语音后，对密码语音进行处理。其中，预加重处理实际是高通滤波处理，滤除低频数据，使得密码语音中的高频特性更加突显，具体地，高通滤波的传递函数为：H(Z)＝1-αZ^-1，其中，Z为语音数据，α为常量系数，优选地，α的取值为0.97；由于声音信号只在较短时间内呈现平稳性，因此将一段声音信号分成N段短时间的信号(即N帧)，且为了避免声音的连续性特征丢失，相邻帧之间有一段重复区域，重复区域一般为每帧长的1/2；在对密码语音进行分帧后，每一帧信号都当成平稳信号来处理，但吉布斯效应的存在，密码语音的起始帧和结束帧是不连续的，在分帧之后，更加背离原始语音，因此，需要对密码语音进行加窗处理。

对每一个加窗进行傅立叶变换得到对应的频谱；

将所述频谱输入梅尔滤波器以输出得到梅尔频谱；

在梅尔频谱上面进行倒谱分析以获得梅尔频率倒谱系数MFCC，基于所述梅尔频率倒谱系数MFCC组成对应的声纹特征向量。其中，倒谱分析例如为取对数、做逆变换，逆变换一般是通过DCT离散余弦变换来实现，取DCT后的第2个到第13个系数作为MFCC系数。梅尔频率倒谱系数MFCC即为这帧密码语音的声纹特征，将每帧的梅尔频率倒谱系数MFCC组成特征数据矩阵，该特征数据矩阵即为密码语音的声纹特征向量。

然后，将声纹特征向量输入预先训练生成的背景信道模型，优选地，该背景信道模型为高斯混合模型，利用该背景信道模型来计算声纹特征向量，得出对应的当前声纹特征向量(即i-vector)。

具体地，该计算过程包括：

1)、选择高斯模型：首先，利用通用背景信道模型中的参数来计算每帧数据在不同高斯模型的似然对数值，通过对似然对数值矩阵每列并行排序，选取前N个高斯模型，最终获得一每帧数据在混合高斯模型中数值的矩阵：

Loglike＝E(X)*D(X)^-1*X^T-0.5*D(X)^-1*(X.²)^T，

其中，Loglike为似然对数值矩阵，E(X)为通用背景信道模型训练出来的均值矩阵，D(X)为协方差矩阵，X为数据矩阵，X.²为矩阵每个值取平方。

2)、计算后验概率：将每帧数据X进行X*XT计算，得到一个对称矩阵，可简化为下三角矩阵，并将元素按顺序排列为1行，变成一个N帧乘以该下三角矩阵个数纬度的一个向量进行计算，将所有帧的该向量组合成新的数据矩阵，同时将通用背景模型中计算概率的协方差矩阵，每个矩阵也简化为下三角矩阵，变成与新数据矩阵类似的矩阵，在通过通用背景信道模型中的均值矩阵和协方差矩阵算出每帧数据的在该选择的高斯模型下的似然对数值，然后进行Softmax回归，最后进行归一化操作，得到每帧在混合高斯模型后验概率分布，将每帧的概率分布向量组成概率矩阵。

3)、提取当前声纹特征向量：首先进行一阶，二阶系数的计算，一阶系数计算可以通过概率矩阵列求和得到：

其中，Gamma_i为一阶系数向量的第i个元素，loglikes_ji为概率矩阵的第j行，第i个元素。

二阶系数可以通过概率矩阵的转置乘以数据矩阵获得：

X＝Loglike^T*feats，其中，X为二阶系数矩阵，loglike为概率矩阵，feats为特征数据矩阵。

在计算得到一阶，二阶系数以后，并行计算一次项和二次项，然后通过一次项和二次项计算得到当前声纹特征向量。

在一优选的实施例中，在上述实施例的基础上，上述步骤S3中利用预先确定的距离计算公式计算当前声纹特征向量与所确定的标准声纹特征向量之间的距离，根据所述距离对用户进行身份验证的步骤包括：计算所述当前声纹鉴别向量与所确定的标准声纹特征向量之间的余弦距离：

其中，

为所述标准声纹特征向量，

为当前声纹特征向量。若所述余弦距离小于或者等于预设的距离阈值，则身份验证通过；若所述余弦距离大于预设的距离阈值，则身份验证不通过。

本发明还提供另一种服务器，该服务器与上述图1的服务器的硬件架构类似，包括存储器及与存储器连接的处理器，且通过网络接口与外部的终端设备连接。所不同的是，存储器中存储有可在所述处理器上运行的基于声纹识别的身份验证的系统，基于声纹识别的身份验证的系统存储在存储器中，包括至少一个存储在存储器中的计算机可读指令，该至少一个计算机可读指令可被处理器器执行，以实现本申请各实施例的方法；以及，该至少一个计算机可读指令依据其各部分所实现的功能不同，可被划为不同的逻辑模块，基于声纹识别的身份验证的系统可划为构建模块、输入模块及身份验证模块。

该基于声纹识别的身份验证的系统被所述处理器执行时实现如下步骤：

本实施例中，语音数据由语音采集设备采集得到(语音采集设备例如为麦克风)，语音采集设备将采集的语音数据发送给基于声纹识别的身份验证的系统。

在采集语音数据时，应尽量防止环境噪声和语音采集设备的干扰。语音采集设备与用户保持适当距离，且尽量不用失真大的语音采集设备，电源优选使用市电，并保持电流稳定；在进行电话录音时应使用传感器。在提取语音数据中的声纹特征之前，可以对语音数据进行去噪音处理，以进一步减少干扰。为了能够提取得到语音数据的声纹特征，所采集的语音数据为预设数据长度的语音数据，或者为大于预设数据长度的语音数据。

声纹特征包括多种类型，例如宽带声纹、窄带声纹、振幅声纹等，本实施例的声纹特征为优选地为语音数据的梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)。在构建对应的声纹特征向量时，将语音数据的声纹特征组成特征数据矩阵，该特征数据矩阵即为语音数据的声纹特征向量。

其中，将声纹特征向量输入预先训练生成的背景信道模型，优选地，该背景信道模型为高斯混合模型，利用该背景信道模型来计算声纹特征向量，得出对应的当前声纹鉴别向量(即i-vector)。

具体地，该计算过程包括：

Loglike＝E(X)*D(X)^-1*X^T-0.5*D(X)^-1*(X.²)^T，

3)、提取当前声纹鉴别向量：首先进行一阶，二阶系数的计算，一阶系数计算可以通过概率矩阵列求和得到：

二阶系数可以通过概率矩阵的转置乘以数据矩阵获得：

在计算得到一阶，二阶系数以后，并行计算一次项和二次项，然后通过一次项和二次项计算当前声纹鉴别向量。

优选地，背景信道模型为高斯混合模型，在上述步骤S101之前包括：

获取预设数量的语音数据样本，并获取各语音数据样本对应的声纹特征，并基于各语音数据样本对应的声纹特征构建各语音数据样本对应的声纹特征向量；

将各语音数据样本对应的声纹特征向量分为第一比例的训练集和第二比例的验证集，所述第一比例及第二比例的和小于等于1；

利用所述训练集中的声纹特征向量对高斯混合模型进行训练，并在训练完成后，利用所述验证集对训练后的高斯混合模型的准确率进行验证；

若所述准确率大于预设阈值，则模型训练结束，以训练后的高斯混合模型作为所述步骤S102的背景信道模型，或者，若所述准确率小于等于预设阈值，则增加所述语音数据样本的数量，并基于增加后的语音数据样本重新进行训练。

其中，在利用训练集中的声纹特征向量对高斯混合模型进行训练时，抽取出来的D维声纹特征对应的似然概率可用K个高斯分量表示为：

其中，P(x)为语音数据样本由高斯混合模型生成的概率(混合高斯模型)，w_k为每个高斯模型的权重，p(x|k)为样本由第k个高斯模型生成的概率，K为高斯模型数量。

整个高斯混合模型的参数可以表示为：{w_i,μ_i,Σ_i}，w_i为第i个高斯模型的权重，μ_i为第i个高斯模型的均值，∑_i为第i个高斯模型的协方差。训练该高斯混合模型可以用非监督的EM算法。训练完成后，得到高斯混合模型的权重向量、常数向量、N个协方差矩阵、均值乘以协方差的矩阵等，即为一个训练后的高斯混合模型。

向量与向量之间的距离有多种，包括余弦距离及欧氏距离等等，优选地，本实施例的空间距离为余弦距离，余弦距离为利用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。

其中，标准声纹鉴别向量为预先获得并存储的声纹鉴别向量，标准声纹鉴别向量在存储时携带其对应的用户的标识信息，其能够准确代表对应的用户的身份。在计算空间距离前，根据用户提供的标识信息获得存储的声纹鉴别向量。

其中，在计算得到的空间距离小于等于预设距离阈值时，验证通过，反之，则验证失败。

与现有技术相比，本实施例预先训练生成的背景信道模型为通过对大量语音数据的挖掘与比对训练得到，这一模型可以在最大限度保留用户的声纹特征的同时，精确刻画用户说话时的背景声纹特征，并能够在识别时将这一特征去除，而提取用户声音的固有特征，能够较大地提高用户身份验证的准确率，并提高身份验证的效率；此外，本实施例充分利用了人声中与声道相关的声纹特征，这种声纹特征并不需要对文本加以限制，因而在进行识别与验证的过程中有较大的灵活性。

如图3所示，图3为本发明身份验证方法一实施例的流程示意图，该身份验证方法包括以下步骤：

在一优选的实施例中，为了防止密码语音的音频质量影响声纹特征验证的结果，在上述图3的实施例的基础上，所述步骤S2包括：接收客户端发送的用户播报的密码语音，分析所述密码语音是否可用，若所述密码语音不可用，则提示客户端重新进行密码语音的录制，或者，若所述密码语音可用，则对所述密码语音进行字符识别。

在一优选的实施例中，在上述图3的实施例的基础上，该身份验证方法还包括如下步骤：若所述密码字符与该语音获取文本对应的标准密码字符不一致，则再次随机向该客户端发送供用户响应的语音获取文本；累计向客户端发送的语音获取文本的次数，若所述次数大于等于预设次数，则终止对所述身份验证请求的响应。

对每一个加窗进行傅立叶变换得到对应的频谱；

将所述频谱输入梅尔滤波器以输出得到梅尔频谱；

具体地，该计算过程包括：

Loglike＝E(X)*D(X)^-1*X^T-0.5*D(X)^-1*(X.²)^T，

二阶系数可以通过概率矩阵的转置乘以数据矩阵获得：

其中，

为所述标准声纹特征向量，

在一优选的实施例中，在上述实施例的基础上，背景信道模型为高斯混合模型，训练背景信道模型包括：

若所述准确率大于预设阈值，则模型训练结束，以训练后的高斯混合模型作为上述待应用的背景信道模型，或者，若所述准确率小于等于预设阈值，则增加所述语音数据样本的数量，并基于增加后的语音数据样本重新进行训练。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

一种服务器，其特征在于，所述服务器包括存储器及与所述存储器连接的处理器，所述存储器中存储有可在所述处理器上运行的身份验证系统，所述身份验证系统被所述处理器执行时实现如下步骤：

S1，在收到客户端发送的携带身份标识的身份验证请求后，随机向该客户端发送供用户响应的语音获取文本；

S2，接收客户端基于所述语音获取文本发送的用户播报的密码语音，并对所述密码语音进行字符识别，识别出所述密码语音对应的密码字符；

S3，若所述密码字符与该语音获取文本对应的标准密码字符一致，则构建该密码语音的当前声纹特征向量，并根据预定的身份标识与标准声纹特征向量的映射关系确定该用户的身份标识对应的标准声纹特征向量，利用预先确定的距离计算公式计算当前声纹特征向量与所确定的标准声纹特征向量之间的距离，根据所述距离对用户进行身份验证。
根据权利要求1所述的服务器，其特征在于，所述步骤S2包括：

接收客户端发送的用户播报的密码语音，分析所述密码语音是否可用，若所述密码语音不可用，则提示客户端重新进行密码语音的录制，或者，若所述密码语音可用，则对所述密码语音进行字符识别。
根据权利要求1或2所述的服务器，其特征在于，所述身份验证系统被所述处理器执行时，还实现如下步骤：

若所述密码字符与该语音获取文本对应的标准密码字符不一致，则再次随机向该客户端发送供用户响应的语音获取文本；

累计向客户端发送的语音获取文本的次数，若所述次数大于等于预设次数，则终止对所述身份验证请求的响应。
根据权利要求1或2所述的服务器，其特征在于，所述构建该密码语音的当前声纹特征向量的步骤包括：

利用预设滤波器对所述密码语音进行处理以进行预设类型声纹特征的提取，并基于提取的预设类型声纹特征构建该密码语音对应的声纹特征向量；

将构建的声纹特征向量输入预先训练的背景信道模型，以构建出所述当前声纹特征向量；

所述利用预先确定的距离计算公式计算当前声纹特征向量与所确定的标准声纹特征向量之间的距离，根据所述距离对用户进行身份验证的步骤包括：

计算所述当前声纹鉴别向量与所确定的标准声纹特征向量之间的余弦距离：
为所述标准声纹特征向量，
为当前声纹特征向量；

若所述余弦距离小于或者等于预设的距离阈值，则身份验证通过；

若所述余弦距离大于预设的距离阈值，则身份验证不通过。
一种服务器，其特征在于，所述服务器包括存储器及与所述存储器连接的处理器，所述存储器中存储有可在所述处理器上运行的基于声纹识别的身份验证的系统，所述基于声纹识别的身份验证的系统被所述处理器执行时实现如下步骤：

S101，在接收到进行身份验证的用户的语音数据后，获取所述语音数据的声纹特征，并基于所述声纹特征构建对应的声纹特征向量；

S102，将所述声纹特征向量输入预先训练生成的背景信道模型，以构建出所述语音数据对应的当前声纹鉴别向量；

S103，计算所述当前声纹鉴别向量与预存的该用户的标准声纹鉴别向量之间的空间距离，基于所述距离对该用户进行身份验证，并生成验证结果。
根据权利要求5所述的服务器，其特征在于，所述步骤S101包括：

S1011，对所述语音数据进行预加重、分帧和加窗处理；

S1012，对每一个加窗进行傅立叶变换得到对应的频谱；

S1013，将所述频谱输入梅尔滤波器以输出得到梅尔频谱；

S1014，在梅尔频谱上面进行倒谱分析以获得梅尔频率倒谱系数MFCC，基于所述梅尔频率倒谱系数MFCC组成对应的声纹特征向量。
根据权利要求5所述的服务器，其特征在于，所述步骤S103包括：

S1031，计算所述当前声纹鉴别向量与预存的该用户的标准声纹鉴别向量之间的余弦距离：
为所述标准声纹鉴别向量，
为当前声纹鉴别向量；

S1032，若所述余弦距离小于或者等于预设的距离阈值，则生成验证通过的信息；

S1033，若所述余弦距离大于预设的距离阈值，则生成验证不通过的信息。
一种身份验证方法，其特征在于，所述身份验证方法包括：

S1，在收到客户端发送的携带身份标识的身份验证请求后，随机向该客户端发送供用户响应的语音获取文本；

S2，接收客户端基于所述语音获取文本发送的用户播报的密码语音，并对所述密码语音进行字符识别，识别出所述密码语音对应的密码字符；

S3，若所述密码字符与该语音获取文本对应的标准密码字符一致，则构建该密码语音的当前声纹特征向量，并根据预定的身份标识与标准声纹特征向量的映射关系确定该用户的身份标识对应的标准声纹特征向量，利用预先确定的距离计算公式计算当前声纹特征向量与所确定的标准声纹特征向量之间的距离，根据所述距离对用户进行身份验证。
根据权利要求8所述的身份验证方法，其特征在于，所述步骤S2包括：

接收客户端发送的用户播报的密码语音，分析所述密码语音是否可用，若所述密码语音不可用，则提示客户端重新进行密码语音的录制，或者，若所述密码语音可用，则对所述密码语音进行字符识别。
根据权利要求8或9所述的身份验证方法，其特征在于，所述步骤S2之后还包括：

若所述密码字符与该语音获取文本对应的标准密码字符不一致，则再次随机向该客户端发送供用户响应的语音获取文本；

累计向客户端发送的语音获取文本的次数，若所述次数大于等于预设次数，则终止对所述身份验证请求的响应。
根据权利要求8或9所述的身份验证方法，其特征在于，所述构建该密码语音的当前声纹特征向量的步骤包括：

利用预设滤波器对所述密码语音进行处理以进行预设类型声纹特征的提取，并基于提取的预设类型声纹特征构建该密码语音对应的声纹特征向量；

将构建的声纹特征向量输入预先训练的背景信道模型，以构建出所述当前声纹特征向量；

所述利用预先确定的距离计算公式计算当前声纹特征向量与所确定的标准声纹特征向量之间的距离，根据所述距离对用户进行身份验证的步骤包括：

计算所述当前声纹鉴别向量与所确定的标准声纹特征向量之间的余弦距离：
为所述标准声纹特征向量，
为当前声纹特征向量；

若所述余弦距离小于或者等于预设的距离阈值，则身份验证通过；

若所述余弦距离大于预设的距离阈值，则身份验证不通过。
根据权利要求11所述的身份验证方法，其特征在于，所述背景信道模型为高斯混合模型，所述训练背景信道模型包括：

获取预设数量的语音数据样本，并获取各语音数据样本对应的声纹特征，并基于各语音数据样本对应的声纹特征构建各语音数据样本对应的声纹特征向量；

将各语音数据样本对应的声纹特征向量分为第一比例的训练集和第二比例的验证集，所述第一比例及第二比例的和小于等于1；

利用所述训练集中的声纹特征向量对高斯混合模型进行训练，并在训练完成后，利用所述验证集对训练后的高斯混合模型的准确率进行验证；

若所述准确率大于预设阈值，则模型训练结束，以训练后的高斯混合模型作为所述背景信道模型，或者，若所述准确率小于等于预设阈值，则增加所述语音数据样本的数量，并基于增加后的语音数据样本重新进行训练。
一种身份验证方法，其特征在于，所述身份验证方法包括：

S101，在接收到进行身份验证的用户的语音数据后，获取所述语音数据的声纹特征，并基于所述声纹特征构建对应的声纹特征向量；

S102，将所述声纹特征向量输入预先训练生成的背景信道模型，以构建出所述语音数据对应的当前声纹鉴别向量；

S103，计算所述当前声纹鉴别向量与预存的该用户的标准声纹鉴别向量之间的空间距离，基于所述距离对该用户进行身份验证，并生成验证结果。
根据权利要求13所述的身份验证方法，其特征在于，所述步骤S101包括：

S1011，对所述语音数据进行预加重、分帧和加窗处理；

S1012，对每一个加窗进行傅立叶变换得到对应的频谱；

S1013，将所述频谱输入梅尔滤波器以输出得到梅尔频谱；

S1014，在梅尔频谱上面进行倒谱分析以获得梅尔频率倒谱系数MFCC，基于所述梅尔频率倒谱系数MFCC组成对应的声纹特征向量。
根据权利要求13所述的身份验证方法，其特征在于，所述步骤S103包括：

S1031，计算所述当前声纹鉴别向量与预存的该用户的标准声纹鉴别向量之间的余弦距离：
为所述标准声纹鉴别向量，
为当前声纹鉴别向量；

S1032，若所述余弦距离小于或者等于预设的距离阈值，则生成验证通过的信息；

S1033，若所述余弦距离大于预设的距离阈值，则生成验证不通过的信息。
根据权利要求13至15任一项所述的身份验证方法，其特征在于，所述背景信道模型为高斯混合模型，所述步骤S101之前包括：

获取预设数量的语音数据样本，并获取各语音数据样本对应的声纹特征，并基于各语音数据样本对应的声纹特征构建各语音数据样本对应的声纹特征向量；

将各语音数据样本对应的声纹特征向量分为第一比例的训练集和第二比例的验证集，所述第一比例及第二比例的和小于等于1；

利用所述训练集中的声纹特征向量对高斯混合模型进行训练，并在训练完成后，利用所述验证集对训练后的高斯混合模型的准确率进行验证；

若所述准确率大于预设阈值，则模型训练结束，以训练后的高斯混合模型作为所述步骤S102的背景信道模型，或者，若所述准确率小于等于预设阈值，则增加所述语音数据样本的数量，并基于增加后的语音数据样本重新进行训练。
一种身份验证系统，其特征在于，所述身份验证系统包括：

发送模块，用于在收到客户端发送的携带身份标识的身份验证请求后，随机向该客户端发送供用户响应的语音获取文本；

字符识别模块，用于接收客户端基于所述语音获取文本发送的用户播报的密码语音，并对所述密码语音进行字符识别，识别出所述密码语音对应的密码字符；

身份验证模块，用于若所述密码字符与该语音获取文本对应的标准密码字符一致，则构建该密码语音的当前声纹特征向量，并根据预定的身份标识与标准声纹特征向量的映射关系确定该用户的身份标识对应的标准声纹特征向量，利用预先确定的距离计算公式计算当前声纹特征向量与所确定的标准声纹特征向量之间的距离，根据所述距离对用户进行身份验证。
一种基于声纹识别的身份验证的系统，其特征在于，所述基于声纹识别的身份验证的系统包括：

构建模块，用于在接收到进行身份验证的用户的语音数据后，获取所述语音数据的声纹特征，并基于所述声纹特征构建对应的声纹特征向量；

输入模块，用于将所述声纹特征向量输入预先训练生成的背景信道模型，以构建出所述语音数据对应的当前声纹鉴别向量；

身份验证模块，用于计算所述当前声纹鉴别向量与预存的该用户的标准声纹鉴别向量之间的空间距离，基于所述距离对该用户进行身份验证，并生成验证结果。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有身份验证系统，所述身份验证系统被处理器执行时实现如权利要求8至12中任一项所述的身份验证方法的步骤。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有基于声纹识别的身份验证的系统，该基于声纹识别的身份验证的系统被处理器执行时实现如权利要求13至16中任一项的身份验证方法的步骤。