WO2021082420A1

WO2021082420A1 - 声纹认证方法、装置、介质及电子设备

Info

Publication number: WO2021082420A1
Application number: PCT/CN2020/092943
Authority: WO
Inventors: 冯晨; 王健宗; 彭俊清
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-11-01
Filing date: 2020-05-28
Publication date: 2021-05-06
Also published as: CN110956966B; CN110956966A

Abstract

本申请提供了一种声纹认证方法、装置、介质及电子设备，可在人工智能深度学习中实现。该方法包括：获取目标用户在预设时间段前的声纹信息、年龄、性别和所处环境；将目标用户在预设时间段前的声纹信息、年龄、性别和所处环境输入第一预测模型得到预测声纹信息；采集当前用户的待认证声纹信息；将预测声纹信息与待认证声纹信息进行匹配，以获得第一匹配度；若第一匹配度超过第一预设阈值，则将当前用户确定为目标用户。由于在预测声纹信息时考虑了目标用户的年龄、性别和所处环境，使以该预测声纹信息为标准识别出的目标用户不受时间的干扰。本申请能够进行声纹认证。

Description

声纹认证方法、装置、介质及电子设备

本申请要求于2019年11月01日提交中国专利局、申请号为2019110598438，发明名称为“声纹认证方法、装置、介质及电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及通信技术领域，特别涉及一种声纹认证方法、装置、介质及电子设备。

背景技术

由于声纹识别是生物识别技术的一种，通过对语音进行处理可生成用于指示该语音输入者身份信息的身份向量，通过计算两段语音的身份向量之间的相似度来确定这两段语音的输入者是否为同一用户。

在声纹技术的研究过程中，发明人意识到，随着时间的变化，人的声纹也会发生变化，而且时间越长，人的声纹变化也越大，若采集到的声纹信息的时间与预先注册声纹模型的时间相隔较远，则有可能会导致认证失败。

发明内容

本申请旨在提供一种声纹认证方法、装置、介质及电子设备，能够提高声纹认证的准确性。

根据本申请实施例的一个方面，提供了一种声纹认证方法，包括：获取目标用户在预设时间段前的声纹信息、年龄、性别和所处环境；将所述目标用户在预设时间段前的声纹信息、年龄、性别和所处环境输入第一预测模型得到预测声纹信息；采集当前用户的待认证声纹信息；将所述预测声纹信息与所述待认证声纹信息进行匹配，以获得第一匹配度；若所述第一匹配度超过第一预设阈值，则将所述当前用户确定为所述目标用户。

根据本申请实施例的一个方面，提供了一种声纹认证装置，包括：获取模块，用于获取目标用户在预设时间段前的声纹信息、年龄、性别和所处环境；第一预测模块，用于将所述目标用户在预设时间段前的声纹信息、年龄、性别和所处环境输入第一预测模型得到预测声纹信息；采集模块，用于采集当前用户的待认证声纹信息；匹配模块，用于将所述预测声纹信息与所述待认证声纹信息进行匹配，以获得第一匹配度；确定模块，若所述第一匹配度超过第一预设阈值，则将所述当前用户确定为所述目标用户。

根据本申请实施例的一个方面，提供了一种电子装置，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上所述的声纹认证方法。

根据本申请实施例的一个方面，提供了一种计算机可读程序介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行如上所述的声纹认证方法。

本申请的实施例提供的技术方案可以包括以下有益效果：

在本申请的一些实施例所提供的技术方案中，通过获取目标用户在预设时间段前的声纹信息、年龄、性别和所处环境；将目标用户在预设时间段前的声纹信息、年龄、性别和所处环境输入第一预测模型得到预测声纹信息，使得到的预测声纹信息能够考虑到目标用户的性别随着年龄的增大时声纹信息产生的变化，使得到的预测声纹信息能够考虑到目标用户在不同环境中声纹信息的变化。再将预测声纹信息与待认证声纹信息进行匹配，以获得第一匹配度；若第一匹配度超过第一预设阈值，则将当前用户确定为目标用户。由于在预测声纹信息时考虑了目标用户的年龄、性别和所处环境，使以该预测声纹信息为标准识别出的目标用户不受时间的干扰，解决了现有技术中采集到的声纹信息的时间与预先注册声纹模型的时间相隔较远导致认证失败的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图；

图2示意性示出了根据本申请的一个实施例的声纹认证方法的流程图；

图3示意性示出了根据本申请的一个实施例的声纹认证方法的流程图；

图4示意性示出了根据本申请的一个实施例的声纹认证装置的框图；

图5是根据一示例性实施例示出的一种电子设备的硬件示意图；

图6是根据一示例性实施例示出的一种用于实现上述声纹认证方法的计算机可读存储介质。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本申请实施例的技术方案的示例性系统架构100的示意图。

如图1所示，系统架构100可以包括终端设备(如图1中所示智能手机101、平板电脑102和便携式计算机103中的一种或多种，当然也可以是台式计算机等等)、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线通信链路、无线通信链路等等。

应该理解，图1中的终端设备、网络104和服务器105的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络104、和服务器105。比如服务器105可以是多个服务器组成的服务器集群等。

在本申请的一个实施例中，服务器105可以获取目标用户从终端设备输入的声纹信息。目标用户可以通过终端设备中的客户端或网页输入声纹信息、年龄、性别和所处环境。服务器105将目标用户在预设时间段前的声纹信息、年龄、性别和所处环境输入第一预测模型得到预测声纹信息，使得到的预测声纹信息能够考虑到目标用户的性别随着年龄的增大时产生的变化，使得到的预测声纹信息能够考虑到目标用户在不同环境中的变化。再将预测声纹信息与待认证声纹信息进行匹配，以获得第一匹配度；若第一匹配度超过第一预设阈值，则将当前用户确定为目标用户。由于在预测声纹信息时考虑了目标用户的年龄、性别和所处环境，使以该预测声纹信息为标准识别出的目标用户不受时间的干扰，解决了现有技术中因为采集到的声纹信息的时间与预先注册声纹模型的时间相隔较远导致认证失败的问题。

需要说明的是，本申请实施例所提供的声纹认证方法一般由服务器105执行，相应地，声纹认证装置一般设置于服务器105中。但是，在本申请的其它实施例中，终端设备也可以与服务器105具有相似的功能，从而执行本申请实施例所提供的声纹认证方法。

以下对本申请实施例的技术方案的实现细节进行详细阐述：

图2示意性示出了根据本申请的一个实施例的声纹认证方法的流程图，该声纹认证方法的执行主体可以是服务器，比如可以是图1中所示的服务器105。

参照图2所示，该声纹认证方法至少包括步骤S210至步骤S250，详细介绍如下：

在步骤S210中，获取目标用户在预设时间段前的声纹信息、年龄、性别和所处环境。

在本申请的一个实施例中，声纹信息可以是一段录音，也可以是从一段录音中提取出的具有某种特征的声纹信息。所处环境可以包括目标用户工作环境、生活环境、语言环境等。

在本申请的一个实施例中，可以获取目标用户在多个预设时间段前的声纹信息、年龄和所处环境。通过获取目标用户在多个预设时间段前的声纹信息、年龄和所处环境，能够得到目标用户的声纹变化趋势，更加准确的预测出目标用户的预测声纹信息。

具体例如，可以获取目标用户的性别，并获取1年前、2年前、3年前目标用户的声纹信息、年龄及所处环境，预测模型根据目标用户在1年前、2年前、3年前的声纹变化趋势，能够更加准确的预测声纹信息。

在该实施例中，当目标用户处于青春期变声阶段时，可以获取目标用户变声前和变声中各个阶段的声纹信息，由于该实施例中在预测声纹信息时考虑到了目标用户的性别、年龄，使该实施例中的方案能够准确预测出目标用户在变声期中和变声期结束后的预测声纹信息。

在步骤S220中，将目标用户在预设时间段前的声纹信息、年龄、性别和所处环境输入第一预测模型得到预测声纹信息。

在本申请的一个实施例中，预测声纹信息可以是目标用户在当前时间的声纹信息，也可以是目标用户在未来某个时间的声纹信息。

在本申请的一个实施例中，第一预测模型采用以下方法预先训练：获取用于对第一预测模型进行训练的样本数据集合，其中，样本数据集合中的每条样本数据均包括同一用户在预设时间段前的声纹信息、年龄、性别和所处环境以及该用户在当前时间的声纹信息；将样本数据集合中的每条样本数据包含的该用户在预设时间段前的声纹信息、年龄、性别和所处环境作为第一预测模型的输入，将样本数据集合中的每条样本数据包含的该用户在当前时间的声纹信息作为第一预测模型输出的预测声纹信息，对第一预测模型进行训练；将第一预测模型输出的预测声纹信息与该用户在当前时间实际的声纹信息进行比较，如果不一致，调整第一预测模型，使得输出的当前的声纹信息与该用户在当前时间实际的声纹信息一致。

在步骤S230中，采集当前用户的待认证声纹信息。

在本申请的一个实施例中，通过录音设备记录当前用户的待认证的语音，然后对该待认证的语音进行特征提取以获得待认证声纹信息。可以提取该待认证的语音的MFCC特征作为当前用户的待认证声纹信息。也可以基于Gammatone滤波器组提取当前用户的听觉倒谱系数特征作为当前用户的待认证声纹信息。

在步骤S240中，将预测声纹信息与待认证声纹信息进行匹配，以获得第一匹配度。

在本申请的一个实施例中，可以获取通过预测模型得到的预测声纹信息，再将该预测声纹信息与待认证声纹信息进行匹配，以获得第一匹配度。可以通过线性判别模型对该预测声纹信息与待认证声纹信息进行打分，将得到的分数作为第一匹配度。

在上述实施例中，可在目标用户认证的相关应用本地，将预测声纹信息与待认证声纹信息进行匹配，也可通用将预测声纹信息与待认证声纹信息上传至相关服务器，在相关服务器中将预测声纹信息与待认证声纹信息进行匹配。

在本申请的一个实施例中，可以通过以下步骤将预测声纹信息与待认证声纹信息进行匹配，获得第一匹配度。

首先，基于人耳耳蜗听觉模型提取目标用户在预设时间段前的声纹信息的听觉倒谱系数特征，将听觉倒谱系数特征输入第一深度神经网络模型得到深度瓶颈特征；再将听觉倒谱系数特征和深度瓶颈特征按照公式Y＝aG+bB计算，得到目标用户在预设时间段前的声纹信息的融合特征Y，其中，G为听觉倒谱系数特征，B为深度瓶颈特征，系数a和b预先通过以下过程获得：获取目标用户在预设时间段前的声纹信息样本集合，求使语音区分度R取最小值时a与b的值，0≤a≤1，0≤b≤1，a+b＝1，

其中，N为目标用户在预设时间段前的声纹信息样本集合中的声纹数，Y _i与Y _j分别为基于在声纹信息样本集合中目标用户的第i条语音和第j条语音的听觉倒谱系数特征G和深度瓶颈特征B按照 Y＝aG+bB得到的融合特征；将待认证声纹信息的融合特征与预测声纹信息的融合特征进行比较，以获得第一匹配度。

在本实施例中，目标用户的声纹语音区分度越小，在声纹信息样本集合中目标用户的声纹信息特征越统一，使目标用户的语音区分度达到最小值，能够更加容易识别出待认证声纹信息是否来自于目标用户。此外，将从目标用户的声纹信息中提取出的两种特征进行融合得到融合特征，得到的融合特征也更加能代表目标用户的声纹信息。

在步骤S250中，若第一匹配度超过第一预设阈值，则将当前用户确定为目标用户。

当第一匹配度大于或等于第一预设阈值时，说明当前预测声纹信息与待认证声纹信息的相似度达到要求，可以确定当前用户与目标用户为同一人，能够将当前用户识别为目标用户。

在本申请的一个实施例中，若第一匹配度小于第一预设阈值，则将当前用户识别为非目标用户。可以收集该非目标用户的待认证声纹信息进行存储，使目标用户能够知道有哪些人试图对其设备进行解锁。

在本申请的一个实施例中，还可以将目标用户在预设时间段前的声纹信息的听觉倒谱系数特征输入堆叠降噪自编码网络模型得到目标用户在预设时间段前的声纹信息的迁移特征；将迁移特征输入第二深度神经网络模型得到迁移深度瓶颈特征；再将听觉倒谱系数特征和迁移深度瓶颈特征按照公式Y ₁＝aG+bB ₁计算，得到目标用户在预设时间段前的声纹信息的迁移融合特征Y ₁，其中，G为听觉倒谱系数特征，B ₁为迁移深度瓶颈特征；再将待认证声纹信息的迁移融合特征与预测声纹信息的迁移融合特征进行比较，以获得第三匹配度；再基于第一匹配度和第三匹配度，判断当前用户是否为目标用户。

在上述施例中，可以计算第一匹配度和第三匹配度的加权和，若当前用户的待认证声纹信息超过第三设定阈值，则确定当前用户为目标用户。

在上述实施例中，由于堆叠降噪自编码网络模型具有鲁棒的特征提取能力，使用堆叠降噪自编码网络模型处理听觉倒谱系数特征得到的迁移特征，能够更加准确的表示声纹信息。

图3示意性示出了根据本申请的一个实施例的声纹认证方法的流程图，该声纹认证方法的执行主体可以是服务器，比如可以是图1中所示的服务器105。

参照图3所示，该声纹认证方法至少包括步骤S310至步骤S390，详细介绍如下：

在步骤S310中，获取目标用户在预设时间段前的声纹信息、年龄、性别和所处环境。

在步骤S320中，将目标用户在预设时间段前的声纹信息、年龄、性别和所处环境输入第一预测模型得到预测声纹信息。

在步骤S330中，采集当前用户的待认证声纹信息。

在步骤S340中，将预测声纹信息与待认证声纹信息进行匹配，以获得第一匹配度。

在步骤S350中，若第一匹配度超过第一预设阈值，则将当前用户确定为目标用户。

在步骤S360中，获取目标用户在预设时间段前的人脸图像信息。

在本申请的一个实施例中，人脸图像信息可以为从目标用户的人脸图像中提取出来的人脸特征信息。可以在目标用户的人脸图像中的五官边缘和脸的外轮廓建立多个特征点，将多个特征点和连接特征点之间的连线作为目标用户的人脸图像信息。

在步骤S370中，将目标用户在预设时间段前的人脸图像、年龄、性别输入第二预测模型获得预测人脸图像信息。

在本申请的一个实施例中，第二预测模型采用以下方法预先训练：获取用于对第二预测模型进行训练的图像样本数据集合，其中，图像样本数据集合中的每条图像样本数据均包括同一用户在预设时间段前的人脸图像、年龄和性别以及该用户在当前时间的人脸图像；将图像样本数据中的每条图像样本数据包含的该用户预设时间段前的人脸图像、年龄和性别作为第二预测模型的输入，将图像样本数据中的每条图像样本数据包含的该用户的当前时间的人脸图像作为第二预测模型的输出作为预测人脸图像信息，对第二预测进行训练；将第二预测模型输出的该用户在当前时间的人脸图像与该用户当前时间实际的人脸图像进行比较，如果不一致，调整第二预测模型，使得输出的同一用户在当前时间的人脸图像与实际的人脸图像一致。

在步骤S380中，采集当前用户的待认证人脸图像信息。

在本申请的一个实施例中，可以通过相机拍摄得到当前用户的待认证人脸图像，然后对该待认证人脸图像进行特征提取以获得待认证图像信息。可以在待认证人脸图像中的五官边缘和脸的外轮廓建立多个特征点，将多个特征点和连接特征点之间的连线作为待认证图像信息。

在步骤S390中，将预测人脸图像信息与待认证人脸图像信息进行匹配，以获得第二匹配度。

在本申请的一个实施例中，可以通过预测模型预测得到目标用户的预测人脸图像信息，并将该当前预测人脸图像信息与当前用户的待认证人脸图像信息进行匹配，以获得第二匹配度，通过对该第二匹配度进行打分，然后根据打分结果确定目标用户的预测人脸图像信息与当前用户的待认证人脸图像信息的相似度。可以将预测人脸图像信息与待认证人脸图像信息中的五官和脸型的特征点进行匹配，将匹配的特征点数占总点数的百分比作为第二匹配度。

在步骤S3100中，将第一匹配度和第二匹配度进行加权和计算以获得总匹配度；若总匹配度大于第二预设阈值，则确定当前用户为目标用户。

在本申请的一个实施例中，可以对第一匹配度和第二匹配度各赋予50％权重，进行加权求和以得到加权后的总匹配度。

在本申请的一个实施例中，可以将第一匹配度、第二匹配度和第三匹配度进行加权和计算后和第四预设阈值比较，若达到第四预设阈值，则确定当前用户为目标用户。其中，第一匹配度、第二匹配度和第三匹配度的权重根据需要设定。

由于随着时间的推移，目标用户的相貌也会随着年龄的增长而改变，而且不同性别的目标用户，其相貌的变化趋势也存在区别。上述实施例通过对目标用户在设定时间段前的声纹信息和人脸图像同时进行预测，然后将预测后的声纹信息和人脸图像结合在一起对当前用户进行识别，识别的准确度更高。

在本申请的一个实施例中，在获取目标用户在预设时间段前的声纹信息之后，可以对声纹信息进行降噪处理得到纯语音数据，可以采用基于谱相减的语音增强算法对声纹信息进行去噪处理，以消除录音设备造成的噪声，得到纯语音数据。再对纯语音数据进行分帧，基于人耳耳蜗听觉模型提取每帧语音数据中的梅尔倒谱系数特征。具体地，对得到的纯语音数据按照帧长25ms，帧移10ms进行分帧，并通过MFCC(Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数)特征，对每帧语音数据做短时分析得到MFCC特征并继续计算其一阶和二阶差分，分别提取MFCC特征、MFCC特征的一阶差分、MFCC特征的二阶差分的前13维特征向量拼接成为一个39维的特征向量，再将每帧声纹信息的39维特征向量、年龄、性别和所处环境输入第一预测模型，以获得每帧的预测声纹信息，再根据每帧的预测声纹信息得到预测声纹信息。可以是将每帧的预测声纹信息拼接组合以得到预测声纹信息。

在上述实施例中通过第一预测模型对每帧的特征向量进行预测，并将预测后的预测值组合成预测声纹信息，以使得到的声纹预测的结果更加准确。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的任务处理时间方法。对于本申请装置实施例中未披露的细节，请参照本申请上述的任务处理时间方法的实施例。

图4示意性示出了根据本申请的一个实施例的任务处理时间装置的框图。

参照图4所示，根据本申请的一种声纹认证装置400，包括获取模块401、第一预测模块402、采集模块403、匹配模块404和确定模块405。

在本申请的一些实施例中，基于前述方案，获取模块401用于获取目标用户在预设时间段前的声纹信息、年龄、性别和所处环境；第一预测模块402用于将目标用户在预设时间段前的声纹信息、年龄、性别和所处环境输入第一预测模型得到预测声纹信息；采集模块403用于采集当前用户的待认证声纹信息；匹配模块404用于将预测声纹信息与待认证声纹信息进行匹配，以获得第一匹配度；确定模块405用于若第一匹配度超过第一预设阈值，则将当前用户确定为目标用户。

在本申请的一些实施例中，基于前述方案，第一预测模块402配置为：对声纹信息进行降噪处理得到纯语音数据；对纯语音数据进行分帧，基于人耳耳蜗听觉模型提取每帧语音数据中的听觉倒谱系数特征；将目标用户在预设时间段前的声纹信息、年龄、性别和所处环境输入第一预测模型得到预测声纹信息包括：将年龄、性别、所处环境及每帧的听觉倒谱系数特征输入第一预测模型，以获得每帧的预测声纹信息；根据每帧的预测声纹信息得到预测声纹信息。

在本申请的一些实施例中，基于前述方案，声纹认证装置还包括：第二预测模块，用于获取目标用户在预设时间段前的人脸图像信息；将目标用户预设时间段前的人脸图像、年龄、性别输入第二预测模型获得预测人脸图像信息；采集当前用户的待认证人脸图像信息；将预测人脸图像信息与待认证人脸图像信息进行匹配，以获得第二匹配度；所述匹配模块404配置为：将第一匹配度和第二匹配度进行加权和计算以获得总匹配度；若总匹配度大于第二预设阈值，则确定当前用户为目标用户。

在本申请的一些实施例中，基于前述方案，匹配模块404配置为：基于人耳耳蜗听觉模型提取目标用户在预设时间段前的声纹信息的听觉倒谱系数特征，将听觉倒谱系数特征输入第一深度神经网络模型得到深度瓶颈特征；将听觉倒谱系数特征和深度瓶颈特征按照公式Y＝aG+bB计算，得到目标用户在预设时间段前的声纹信息的融合特征Y，其中，G为听觉倒谱系数特征，B为深度瓶颈特征，系数a和b预先通过以下过程获得：获取目标用户在预设时间段前的声纹信息样本集合，求使语音区分度R取最小值时a与b的值，0≤a≤1,0≤b≤1,a+b＝1,

其中，N为目标用户在预设时间段前的声纹信息样本集合中的声纹数，Y _i与Y _j分别为基于在声纹信息样本集合中目标用户的第i条语音和第j条语音的听觉倒谱系数特征G和深度瓶颈特征B按照Y＝aG+bB得到的融合特征；将待认证声纹信息的融合特征与预测声纹信息的融合特征进行比较，以获得第一匹配度。

在本申请的一些实施例中，基于前述方案，匹配模块404还配置为：将目标用户在预设时间段前的声纹信息的听觉倒谱系数特征输入堆叠降噪自编码网络模型得到目标用户在预设时间段前的声纹信息的迁移特征；将迁移特征输入第二深度神经网络模型得到迁移深度瓶颈特征；将听觉倒谱系数特征和迁移深度瓶颈特征按照公式Y ₁＝aG+bB ₁计算，得到目标用户在预设时间段前的声纹信息的迁移融合特征Y ₁，其中，G为听觉倒谱系数特征，B ₁为迁移深度瓶颈特征；将待认证声纹信息的迁移融合特征与预测声纹信息的迁移融合特征进行比较，以获得第三匹配度；基于第一匹配度和第三匹配度，判断当前用户是否为目标用户。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图5来描述根据本申请的这种实施方式的电子设备50。图5显示的电子设备50仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图5所示，电子设备50以通用计算设备的形式表现。电子设备50的组件可以包括但不限于：上述至少一个处理单元51、上述至少一个存储单元52、连接不同系统组件(包括存储单元52和处理单元51)的总线53、显示单元54。

其中，存储单元存储有程序代码，程序代码可以被处理单元51执行，使得处理单元51执行本说明书上述“实施例方法”部分中描述的根据本申请各种示例性实施方式的步骤。

存储单元52可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)521和/或高速缓存存储单元522，还可以进一步包括只读存储单元(ROM)523。

存储单元52还可以包括具有一组(至少一个)程序模块525的程序/实用工具524，这样的程序模块525包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线53可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备50也可以与一个或多个外部设备(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备50交互的设备通信，和/或与使得该电子设备50能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口55进行。并且，电子设备50还可以通过网络适配器56与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器56通过总线53与电子设备50的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备50使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本申请实施方式的方法。

根据本申请一个实施例，还提供了一种计算机可读存储介质，所述计算机可读存储介质可以是非易失性，也可以是易失性。其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本申请的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的步骤。

参考图6所示，描述了根据本申请的实施方式的用于实现上述方法的程序产品60，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种声纹认证方法，其中，包括：

获取目标用户在预设时间段前的声纹信息、年龄、性别和所处环境；

将所述目标用户在预设时间段前的声纹信息、年龄、性别和所处环境输入第一预测模型得到预测声纹信息；

采集当前用户的待认证声纹信息；

将所述预测声纹信息与所述待认证声纹信息进行匹配，以获得第一匹配度；

若所述第一匹配度超过第一预设阈值，则将所述当前用户确定为所述目标用户。
根据权利要求1所述的声纹认证方法，其中，在所述获取目标用户预设时间段前的声纹信息之后，所述方法包括：

对所述声纹信息进行降噪处理得到纯语音数据；

对所述纯语音数据进行分帧，基于人耳耳蜗听觉模型提取每帧语音数据中的听觉倒谱系数特征；

所述将所述目标用户在预设时间段前的声纹信息、年龄、性别和所处环境输入第一预测模型得到预测声纹信息包括：将年龄、性别、所处环境及每帧的听觉倒谱系数特征输入第一预测模型，以获得每帧的预测声纹信息；

根据所述每帧的预测声纹信息得到所述预测声纹信息。
根据权利要求1所述的声纹认证方法，其中，所述方法还包括：

获取所述目标用户在预设时间段前的人脸图像信息；

将所述目标用户预设时间段前的人脸图像、年龄、性别输入第二预测模型获得预测人脸图像信息；

采集所述当前用户的待认证人脸图像信息；

将所述预测人脸图像信息与所述待认证人脸图像信息进行匹配，以获得第二匹配度；

在所述获得第一匹配度之后，所述方法还包括：

将所述第一匹配度和所述第二匹配度进行加权和计算以获得总匹配度；若所述总匹配度大于第二预设阈值，则确定所述当前用户为所述目标用户。
根据权利要求1所述的声纹认证方法，其中，所述将所述预测声纹信息与所述待认证声纹信息进行匹配，以获得第一匹配度，包括：

基于人耳耳蜗听觉模型提取所述目标用户在预设时间段前的声纹信息的听觉倒谱系数特征，将所述听觉倒谱系数特征输入第一深度神经网络模型得到深度瓶颈特征；

将所述听觉倒谱系数特征和所述深度瓶颈特征按照公式Y＝aG+bB计算，得到所述目标用户在预设时间段前的声纹信息的融合特征Y，其中，G为所述听觉倒谱系数特征，B为所述深度瓶颈特征，系数a和b预先通过以下过程获得：获取所述目标用户在预设时间段前的声纹信息样本集合，求使语音区分度R取最小值时a与b的值，

0≤a≤1,0≤b≤1,a+b＝1,
其中，N为所述目标用户在所述预设时间段前的声纹信息样本集合中的声纹数，Y _i与Y _j分别为基于在声纹信息样本集合中所述目标用户的第i条语音和第j条语音的听觉倒谱系数特征G和深度瓶颈特征B按照Y＝aG+bB得到的所述融合特征；

将所述待认证声纹信息的融合特征与所述预测声纹信息的融合特征进行比较，以获得第一匹配度。
根据权利要求4所述的声纹认证方法，其中，所述基于人耳耳蜗听觉模型提取所述预设时间段前的声纹信息的听觉倒谱系数特征之后，所述方法还包括：

将所述目标用户在预设时间段前的声纹信息的听觉倒谱系数特征输入堆叠降噪自编码网络模型得到所述目标用户在预设时间段前的声纹信息的迁移特征；

将所述迁移特征输入第二深度神经网络模型得到迁移深度瓶颈特征；

将所述听觉倒谱系数特征和所述迁移深度瓶颈特征按照公式Y ¹＝aG+bB ¹计算，得到所述目标用户在预设时间段前的声纹信息的迁移融合特征Y1，其中，G为所述听觉倒谱系数特征，B ¹为所述迁移深度瓶颈特征；

将所述待认证声纹信息的迁移融合特征与所述预测声纹信息的迁移融合特征进行比较，以获得第三匹配度；

基于所述第一匹配度和所述第三匹配度，判断所述当前用户是否为所述目标用户。
根据权利要求1-5任一项所述的声纹认证方法，其中，所述采集当前用户的待认证声纹信息，包括：

提取当前用户的待认证的语音的MFCC特征作为所述当前用户的待认证声纹信息。
根据权利要求1-5任一项所述的声纹认证方法，其中，所述采集当前用户的待认证声纹信息，包括：

基于Gammatone滤波器组提取当前用户的待认证的语音的听觉倒谱系数特征作为所述当前用户的待认证声纹信息。
一种声纹认证装置，其中，包括：

获取模块，用于获取目标用户在预设时间段前的声纹信息、年龄、性别和所处环境；

第一预测模块，用于将所述目标用户在预设时间段前的声纹信息、年龄、性别和所处环境输入第一预测模型得到预测声纹信息；

采集模块，用于采集当前用户的待认证声纹信息；

匹配模块，用于将所述预测声纹信息与所述待认证声纹信息进行匹配，以获得第一匹配度；

确定模块，若所述第一匹配度超过第一预设阈值，则将所述当前用户确定为所述目标用户。
一种电子设备，其中，包括存储器和处理器，所述处理器、和所述存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述存储器的所述程序指令，其中：

获取目标用户在预设时间段前的声纹信息、年龄、性别和所处环境；

将所述目标用户在预设时间段前的声纹信息、年龄、性别和所处环境输入第一预测模型得到预测声纹信息；

采集当前用户的待认证声纹信息；

将所述预测声纹信息与所述待认证声纹信息进行匹配，以获得第一匹配度；

若所述第一匹配度超过第一预设阈值，则将所述当前用户确定为所述目标用户。
根据权利要求9所述的电子设备，其中，所述处理器，还用于：

对所述声纹信息进行降噪处理得到纯语音数据；

对所述纯语音数据进行分帧，基于人耳耳蜗听觉模型提取每帧语音数据中的听觉倒谱系数特征；

所述将所述目标用户在预设时间段前的声纹信息、年龄、性别和所处环境输入第一预测模型得到预测声纹信息包括：将年龄、性别、所处环境及每帧的听觉倒谱系数特征输入第一预测模型，以获得每帧的预测声纹信息；

根据所述每帧的预测声纹信息得到所述预测声纹信息。
根据权利要求9所述的电子设备，其中，所述处理器，还用于：

获取所述目标用户在预设时间段前的人脸图像信息；

将所述目标用户预设时间段前的人脸图像、年龄、性别输入第二预测模型获得预测人脸图像信息；

采集所述当前用户的待认证人脸图像信息；

将所述预测人脸图像信息与所述待认证人脸图像信息进行匹配，以获得第二匹配度；

在所述获得第一匹配度之后，所述方法还包括：

将所述第一匹配度和所述第二匹配度进行加权和计算以获得总匹配度；若所述总匹配度大于第二预设阈值，则确定所述当前用户为所述目标用户。
根据权利要求9所述的电子设备，其中，所述处理器，还用于：

基于人耳耳蜗听觉模型提取所述目标用户在预设时间段前的声纹信息的听觉倒谱系数特征，将所述听觉倒谱系数特征输入第一深度神经网络模型得到深度瓶颈特征；

将所述听觉倒谱系数特征和所述深度瓶颈特征按照公式Y＝aG+bB计算，得到所述目标用户在预设时间段前的声纹信息的融合特征Y，其中，G为所述听觉倒谱系数特征，B为所述深度瓶颈特征，系数a和b预先通过以下过程获得：获取所述目标用户在预设时间段前的声纹信息样本集合，求使语音区分度R取最小值时a与b的值，

0≤a≤1,0≤b≤1,a+b＝1,
其中，N为所述目标用户在所述预设时间

段前的声纹信息样本集合中的声纹数，Y _i与Y _j分别为基于在声纹信息样本集合中所述目标用户的第i条语音和第j条语音的听觉倒谱系数特征G和深度瓶颈特征B按照Y＝aG+bB得到的所述融合特征；

将所述待认证声纹信息的融合特征与所述预测声纹信息的融合特征进行比较，以获得第一匹配度。
根据权利要求12所述的电子设备，其中，所述处理器，还用于：

将所述目标用户在预设时间段前的声纹信息的听觉倒谱系数特征输入堆叠降噪自编码网络模型得到所述目标用户在预设时间段前的声纹信息的迁移特征；

将所述迁移特征输入第二深度神经网络模型得到迁移深度瓶颈特征；

将所述听觉倒谱系数特征和所述迁移深度瓶颈特征按照公式Y ¹＝aG+bB ¹计算，得到所述目标用户在预设时间段前的声纹信息的迁移融合特征Y ¹，其中，G为所述听觉倒谱系数特征，B1为所述迁移深度瓶颈特征；

将所述待认证声纹信息的迁移融合特征与所述预测声纹信息的迁移融合特征进行比较，以获得第三匹配度；

基于所述第一匹配度和所述第三匹配度，判断所述当前用户是否为所述目标用户。
根据权利要求9-13任一项所述的电子设备，其中，所述处理器，还用于：

提取当前用户的待认证的语音的MFCC特征作为所述当前用户的待认证声纹信息。
根据权利要求9-13任一项所述的电子设备，其中，所述处理器，还用于：

基于Gammatone滤波器组提取当前用户的待认证的语音的听觉倒谱系数特征作为所述当前用户的待认证声纹信息。
一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，用于实现以下步骤：

获取目标用户在预设时间段前的声纹信息、年龄、性别和所处环境；

将所述目标用户在预设时间段前的声纹信息、年龄、性别和所处环境输入第一预测模型得到预测声纹信息；

采集当前用户的待认证声纹信息；

将所述预测声纹信息与所述待认证声纹信息进行匹配，以获得第一匹配度；

若所述第一匹配度超过第一预设阈值，则将所述当前用户确定为所述目标用户。
根据权利要求16所述的计算机可读存储介质，其中，所述程序指令被处理器执行时，还用于实现以下步骤：

对所述声纹信息进行降噪处理得到纯语音数据；

对所述纯语音数据进行分帧，基于人耳耳蜗听觉模型提取每帧语音数据中的听觉倒谱系数特征；

所述将所述目标用户在预设时间段前的声纹信息、年龄、性别和所处环境输入第一预测模型得到预测声纹信息包括：将年龄、性别、所处环境及每帧的听觉倒谱系数特征输入第一预测模型，以获得每帧的预测声纹信息；

根据所述每帧的预测声纹信息得到所述预测声纹信息。
根据权利要求16所述的计算机可读存储介质，其中，所述程序指令被处理器执行时，还用于实现以下步骤：

获取所述目标用户在预设时间段前的人脸图像信息；

将所述目标用户预设时间段前的人脸图像、年龄、性别输入第二预测模型获得预测人脸图像信息；

采集所述当前用户的待认证人脸图像信息；

将所述预测人脸图像信息与所述待认证人脸图像信息进行匹配，以获得第二匹配度；

在所述获得第一匹配度之后，所述方法还包括：

将所述第一匹配度和所述第二匹配度进行加权和计算以获得总匹配度；若所述总匹配度大于第二预设阈值，则确定所述当前用户为所述目标用户。
根据权利要求16所述的计算机可读存储介质，其中，所述程序指令被处理器执行时，还用于实现以下步骤：

基于人耳耳蜗听觉模型提取所述目标用户在预设时间段前的声纹信息的听觉倒谱系数特征，将所述听觉倒谱系数特征输入第一深度神经网络模型得到深度瓶颈特征；

将所述听觉倒谱系数特征和所述深度瓶颈特征按照公式Y＝aG+bB计算，得到所述目标用户在预设时间段前的声纹信息的融合特征Y，其中，G为所述听觉倒谱系数特征，B为所述深度瓶颈特征，系数a和b预先通过以下过程获得：获取所述目标用户在预设时间段前的声纹信息样本集合，求使语音区分度R取最小值时a与b的值，

0≤a≤1,0≤b≤1,a+b＝1,
其中，N为所述目标用户在所述预设时间段前的声纹信息样本集合中的声纹数，Y _i与Y _j分别为基于在声纹信息样本集合中所述目标用户的第i条语音和第j条语音的听觉倒谱系数特征G和深度瓶颈特征B按照Y＝aG+bB得到的所述融合特征；

将所述待认证声纹信息的融合特征与所述预测声纹信息的融合特征进行比较，以获得第一匹配度。
根据权利要求19所述的计算机可读存储介质，其中，所述程序指令被处理器执行时，还用于实现以下步骤：

将所述目标用户在预设时间段前的声纹信息的听觉倒谱系数特征输入堆叠降噪自编码网络模型得到所述目标用户在预设时间段前的声纹信息的迁移特征；

将所述迁移特征输入第二深度神经网络模型得到迁移深度瓶颈特征；

将所述听觉倒谱系数特征和所述迁移深度瓶颈特征按照公式Y ¹＝aG+bB ¹计算，得到所述目标用户在预设时间段前的声纹信息的迁移融合特征Y ¹，其中，G为所述听觉倒谱系数特征，B ¹为所述迁移深度瓶颈特征；

将所述待认证声纹信息的迁移融合特征与所述预测声纹信息的迁移融合特征进行比较，以获得第三匹配度；

基于所述第一匹配度和所述第三匹配度，判断所述当前用户是否为所述目标用户。