WO2016054991A1

WO2016054991A1 - 声纹信息管理方法、装置以及身份认证方法、系统

Info

Publication number: WO2016054991A1
Application number: PCT/CN2015/091260
Authority: WO
Inventors: 熊剑
Original assignee: 阿里巴巴集团控股有限公司; 熊剑
Priority date: 2014-10-10
Filing date: 2015-09-30
Publication date: 2016-04-14
Also published as: CN105575391A; EP3206205B1; JP6671356B2; EP3206205A1; US10593334B2; SG10201903085YA; US20170221488A1; KR20170069258A; SG11201702919UA; HK1224074A1; CN105575391B; JP2017534905A; EP3206205A4

Abstract

一种声纹信息管理方法、装置以及身份认证方法、系统，其通过对相关系统存储的历史语音文件进行过滤，得到第一用户的语音信息（S12），并通过文本识别处理得到该语音信息对应的文本信息（S13），并将该语音信息和对应的文本信息编辑为第一用户的基准声纹信息；由于该基准声纹信息中的文本信息和语音信息都是基于上述历史语音文件得到的，不是相关系统预设的，即是非公开的，任何用户都无法预知执行身份认证时需要复读的文本信息的具体内容，从而无法提前录制对应的声音文件，也即无法通过播放提前录制的声音文件达到认证成功的目的。基于该声纹信息管理进行身份认证，认证结果更准确，不存在安全隐患，账户的安全性更高。

Description

声纹信息管理方法、装置以及身份认证方法、系统

技术领域

本申请涉及声纹识别技术领域，尤其涉及一种声纹信息管理方法、装置以及身份认证方法、系统。

背景技术

声纹是指用电声学仪器显示的携带言语信息的声波频谱。不同人说相同的话，其产生的声波不同，相应的声波频谱，即声纹信息也不同。因此，通过比对声纹信息可以判断对应的说话人是否相同，即实现基于声纹识别的身份认证；该基于声纹识别的身份认证方式可以广泛应用于各种账户管理系统，用于保证账户的安全性。

相关技术中，在利用声纹识别技术实现身份认证前，首先需要用户读出预设文本信息，采集此时用户的声音信号，分析得到对应的声纹信息，作为该用户的基准声纹信息，存入声纹库；在实现身份认证时，同样要求被认证人读出上述预设文本信息，采集被认证人的声音信号，分析得到对应的声纹信息，通过比对该声纹信息与声纹库中的基准声纹信息，就可以判断出被认证人是否为用户本人。

以上技术中，用于身份认证的文本信息已在声纹库建立时被公开，相应的，进行身份认证时要求被认证人读出的文本信息也是已知的，如果提前录制用户本人读出该文本信息时的声音文件，则任何人都可以通过播放该提前录制的声音文件使得认证成功。可见，现有基于声纹识别的身份认证方式存在严重的安全隐患。

发明内容

为克服相关技术中存在的问题，本申请提供一种声纹信息管理方法、装置以及身份认证方法、系统。

本申请第一方面提供一种声纹信息管理方法，该方法包括如下步骤：

获取第一用户与第二用户通话产生的历史语音文件；

对所述历史语音文件执行过滤处理，得到所述第一用户的语音信息；

对所述语音信息执行文本识别处理，得到所述语音信息对应的文本信息；

将所述语音信息和对应的文本信息编辑为所述第一用户的基准声纹信息，并存储所述基准声纹信息和所述第一用户的身份标识符。

结合第一方面，在第一方面第一种可行的实施方式中，所述声纹信息管理方法还包括：

将所述文本信息切分为多个子文本信息，并标记每个子文本信息的起止时间；

根据子文本信息的起止时间从所述语音信息中分别截取每个子文本信息对应的子语音信息。

结合第一方面第一种可行的实施方式，在第一方面第二种可行的实施方式中，将所述语音信息和对应的文本信息编辑为所述第一用户的基准声纹信息，包括：

将每对子语音信息和子文本信息分别编辑为所述第一用户的一条基准声纹信息。

结合第一方面，在第一方面第三种可行的实施方式中，存储所述基准声纹信息和所述第一用户的身份标识符，包括：

判断是否存在对应的第二文本信息与待存储的第一基准声纹信息中的第一文本信息相同，且对应的第二身份标识符与所述第一基准声纹信息对应的第一身份标识符也相同的第二基准声纹信息；

如果不存在所述第二基准声纹信息，则直接存储所述第一基准声纹信息和所述第一身份标识符；

如果存在所述第二基准声纹信息，则比较所述第一基准声纹信息中的第一语音信息和所述第二基准声纹信息中的第二语音信息的质量，如果所述第一语音信息的质量低于所述第二语音信息，则删除所述第一基准声纹信息；

如果所述第一语音信息的质量高于所述第二语音信息，则删除所述第二基准声纹信息，并存储所述第一基准声纹信息和所述第一身份标识符。

本申请第二方面提供一种声纹信息管理装置，该装置包括：

语音过滤器，用于获取第一用户与第二用户通话产生的历史语音文件，并对所述历史语音文件执行过滤处理，得到所述第一用户的语音信息；

文本识别器，用于对所述语音信息执行文本识别处理，得到所述语音信息对应的文本信息；

声纹生成器，用于将所述语音信息和对应的文本信息编辑为所述第一用户的基准声纹信息，并存储所述基准声纹信息和所述第一用户的身份标识符。

结合第二方面，在第二方面第一种可行的实施方式中，所述声纹信息管理装置还包括：

文本切割器，用于将所述文本信息切分为多个子文本信息，并标记每个子文本信息的起止时间；

声纹切割器，用于根据子文本信息的起止时间从所述语音信息中分别截取每个子文本信息对应的子语音信息。

结合第二方面第一种可行的实施方式，在第二方面第二种可行的实施方式中，所述声纹生成器将所述语音信息和对应的文本信息编辑为所述第一用户的基准声纹信息，包括：

结合第二方面，在第二方面第三种可行的实施方式中，所述声纹生成器存储所述基准声纹信息和所述第一用户的身份标识符，包括：

本申请第三方面提供一种身份认证方法，该方法包括如下步骤：

获取第一用户与第二用户通话产生的历史语音文件；

将所述语音信息和对应的文本信息编辑为所述第一用户的基准声纹信息，并存储所述基准声纹信息和所述第一用户的身份标识符；

获取待认证用户的身份标识符对应的基准声纹信息；

输出获取到的基准声纹信息中的文本信息，并接收对应的待认证语音信息；

将获取到的基准声纹信息中的语音信息与所述待认证语音信息进行匹配，如果匹配成功，则判定待认证用户认证成功，如果匹配失败，则判定待认证用户认证失败。

结合第三方面，在第三方面第一种可行的实施方式中，所述身份认证方法还包括：

结合第三方面第一种可行的实施方式，在第三方面第二种可行的实施方式中，将所述语音信息和对应的文本信息编辑为所述第一用户的基准声纹信息，包括：

结合第三方面，在第三方面第三种可行的实施方式中，存储所述基准声纹信息和所述第一用户的身份标识符，包括：

本申请第四方面提供一种身份认证系统；该系统包括：

声纹生成器，用于将所述语音信息和对应的文本信息编辑为所述第一用户的基准声纹信息，并存储所述基准声纹信息和所述第一用户的身份标识符；

声纹提取器，用于获取待认证用户的身份标识符对应的基准声纹信息；

识别前置器，用于输出获取到的基准声纹信息中的文本信息，并接收对应的待认证语音信息；

声纹匹配器，用于将获取到的基准声纹信息中的语音信息与所述待认证语音信息进行匹配，如果匹配成功，则判定待认证用户认证成功，如果匹配失败，则判定待认证用户认证失败。

结合第四方面，在第四方面第一种可行的实施方式中，所述身份认证系统还包括：

结合第四方面第一种可行的实施方式，在第四方面第二种可行的实施方式中，所述声纹生成器将所述语音信息和对应的文本信息编辑为所述第一用户的基准声纹信息，包括：

结合第四方面，在第四方面第三种可行的实施方式中，所述声纹生成器存储所述基准声纹信息和所述第一用户的身份标识符，包括：

由以上技术方案可知，本申请通过对相关系统存储的历史语音文件进行过滤，得到第一用户的语音信息，并通过文本识别处理得到该语音信息对应的文本信息，并将该语音信息和对应的文本信息编辑为第一用户的基准声纹信息；由于该基准声纹信息中的文本信息和语音信息都是基于上述历史语音文件得到的，不是相关系统预设的，即是非公开的，故无论第一用户，还是第二用户，还是其他任何用户都无法预知执行身份认证时需要复读的文本信息的具体内容，从而无法提前录制对应的声音文件，也即无法通过播放提前录制的声音文件达到认证成功的目的。因此，相对于现有基于声纹识别的身份认证方式，基于本申请提供的声纹信息管理方法进行身份认证，认证结果更准确，不存在安全隐患，账户的安全性更高。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本申请实施例提供的一种声纹信息管理方法的流程图。

图2是本申请实施例提供的另一种声纹信息管理方法的流程图。

图3是本申请实施例提供的存储基准声纹信息的方法流程图。

图4是本申请实施例提供的一种声纹信息管理系统的结构框图。

图5是本申请实施例提供的另一种声纹信息管理系统的结构框图。

图6是本申请实施例提供的一种身份认证方法的流程图。

图7是本申请实施例提供的另一种身份认证方法的流程图。

图8是本申请实施例提供的一种身份认证系统的结构框图。

图9是本申请实施例提供的另一种身份认证系统的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是本申请实施例提供的一种声纹信息管理方法的流程图，该声纹信息管理方法应用于一种账户管理系统。如图1所示，该声纹信息管理方法，包括以下步骤。

S11、获取第一用户与第二用户通话产生的历史语音文件。

上述第一用户可以为在账户管理系统中存在对应的私有账户的注册用户，相应的，第二用户可以为账户管理系统的服务人员。

S12、对所述历史语音文件执行过滤处理，得到所述第一用户的语音信息。

S13、对所述语音信息执行文本识别处理，得到所述语音信息对应的文本信息。

S14、将所述语音信息和对应的文本信息编辑为所述第一用户的基准声纹信息，并存储基准声纹信息和所述第一用户的身份标识符。

一般的，为便于业绩统计、服务质量评估、纠纷处理等，账户管理系统会对注册用户与服务人员之间的语音通话过程进行录音并存储对应的语音文件。有鉴于此，本申请实施例将账户管理系统存储的历史语音文件中的机器提示音、服务人员的声音信息等滤除，得到注册用户的语音信息，通过对该语音信息进行文本识别处理，得到该语音信息对应的文本信息，该语音信息和对应的文本信息就可以作为该注册用户的一组基准声纹信息。分别针对每个注册用户执行上述步骤，就可以得到每个注册用户对应的基准声纹信息，完成声纹库的创建。

由以上方法可知，本申请实施例通过对相关系统存储的历史语音文件进行过滤，得到第一用户的语音信息，并通过文本识别处理得到该语音信息对应的文本信息，并将该语音信息和对应的文本信息编辑为第一用户的基准声纹信息；由于该基准声纹信息中的文本信息和语音信息都是基于上述历史语音文件得到的，不是相关系统预设的，即是非公开的，故无论第一用户，还是第二用户，还是其他任何用户都无法预知执行身份认证时需要复读的文本信息的具体内容，从而无法提前录制对应的声音文件，也即无法通过播放提前录制的声音文件达到认证成功的目的。因此，相对于现有基于声纹识别的身份认证方式，基于本申请实施例提供的声纹信息管理方法进行身份认证，认证结果更准确，不存在安全隐患，账户的安全性更高。

在本申请一个可行的实施例中，可以随机的获取第一用户与第二用户任意一次通话过程对应的一个历史语音文件，使得声纹库中身份标识符与基准声纹信息一一对应。由于无法预知实际获取到的历史语音文件对应哪一次通话过程，也就无法预知得到的基准声纹信息中的文本信息的具体内容；因此，基于本实施例执行身份认证，可以保证认证结果的准确性，提高账户的安全性。

在本申请另一个可行的实施例中，也可以获取第一用户对应的所有历史语音文件，每个历史语音文件都可以对应至少一组基准声纹信息，使得声纹库中一个身份标识符可以对应多组基准声纹信息(即第一用户存在多组基准声纹信息)；相应的，可以随机的获取任意一组基准声纹信息，来执行身份认证。由于每组基准声纹信息中的文本信息都是非公开的，执行身份认证时获取到的基准声纹信息也无法预知，故用于执行身份认证的文本信息的具体内容也无法预知，从而无法提前录制对应的声音文件，也就无法通过播放提前录制的声音文件达到认证成功的目的；因此，基于本实施例执行身份认证，可以保证认证结果的准确性，提高账户的安全性。

图2是本申请另一实施例提供的声纹信息管理方法的流程图，该声纹信息管理方法应用于一种账户管理系统。如图2所示，该声纹信息管理方法，包括以下步骤。

S21、获取第一用户与第二用户通话产生的历史语音文件。

S22、对所述历史语音文件执行过滤处理，得到所述第一用户的语音信息。

S23、对所述语音信息执行文本识别处理，得到所述语音信息对应的文本信息。

S24、将所述文本信息切分为多个子文本信息，并标记每个子文本信息的起止时间。

S25、根据子文本信息的起止时间从所述语音信息中分别截取每个子文本信息对应的子语音信息。

S26、将每对子语音信息和子文本信息分别编辑为所述第一用户的一条基准声纹信息，并存储各条基准声纹信息和第一用户的身份标识符。

由于历史语音文件为一段时间内第一用户与第二用户之间的通话录音文件，故过滤得到的语音信息中包含第一用户的多段声音信息，相应的通过文本识别得到的文本信息包含多个句子或短语。本申请实施例将文本信息切分为多个子文本信息(每个子文本信息可以为一个句子、一个短语或一个词语)；同时，为切分得到的每个子文本信息标记起止时间，根据该起止时间在语音信息中截取该子文本信息对应的子语音信息(也即根据子文本信息切分语音信息)。例如，文本信息中“我的账号被锁定了”这一句子由语音信息的00:03至00:05时段识别得到，则将“我的账号被锁定了”切分为一个子文本信息，其起止时间即为00:03至00:05，相应的，将语音信息中00:03至00:05时段的语音信息截取出来，即得到“我的账号被锁定了”这一子文本信息对应的子语音信息。通过对文本信息和语音信息的切分，可以得到多对子文本信息和子语音信息，按照预定格式分别将其编辑为基准声纹信息，则得到同一用户对应的多条基准声纹信息。

本申请实施例中，将子语音信息和对应的子文本信息编辑为基准声纹信息，可以包括：将子语音信息处理为对应的子声纹信息，并为该子声纹信息设置文件名，文件名的格式可以为“声纹编号.文件格式后缀”，如0989X.WAV；存储该子声纹信息，以及该子声纹信息对应的第一用户的身份标识符、子文本信息等信息；基于以上声纹信息管理方法得到的声纹库的存储结构如表1所示。

表1声纹库存储结构示例

用户ID	用户声纹编号	子文本信息	子声纹信息
139XXXXXXXX	1	非常满意	0989X.WAV
139XXXXXXXX	2	为什么还没有退款	0389X.WAV
189XXXXXXXX	1	我很生气	0687X.WAV
189XXXXXXXX	2	账号被锁定	0361X.WAV

表1中，每一行对应声纹库中的一条基准声纹信息；以身份标识符(即用户ID)为主键，用于声纹信息的查询和调用；用户声纹编号用于标记同一用户ID对应的基准声纹信息的个数。以用户ID“139XXXXXXXX”为例，当接收到对该用户ID的身份认证请求时，从上述声纹库中查询“139XXXXXXXX”对应的基准声纹信息，可以得到多条查询结果，从中随机提取一条作为本次认证的基准声纹信息，例如提取该用户ID对应的2号基准声纹信息作为本次认证的基准声纹信息，输出其中的子文本信息“为什么还没有退款”；接收待认证用户复读该子文件信息得到的待认证语音信息，将其处理为待认证声纹信息，比较该待认证声纹信息和声纹库中提取的子声纹信息“0389X.WAV”，如果二者匹配，则判定身份认证成功，即认为待认证用户即为“139XXXXXXXX”对应的第一用户；反之，如果二者不匹配，则判定身份认证失败。

由以上技术方案可知，本申请实施例通过对系统存储的历史语音文件进行过滤处理，得到第一用户的语音信息；通过对该语音信息进行文本识别处理，得到对应的文本信息；将识别出的文本信息切分为多个子文本信息，并根据每个子文本信息的起止时间从上述语音信息中截取对应的子语音信息，分别将每对子文本信息和子语音信息编辑为一条基准声纹信息，存入声纹库，使得每个第一用户都具备多条基准声纹信息；当需要执行身份认证时，从待认证的身份标识符对应的多条基准声纹信息中随机选取一条即可。由于执行身份认证时获取到的基准声纹信息是随机的，故无法预知需要待认证用户复读的文本信息的具体内容，因此，基于本实施例得到的声纹库执行身份认证，可以保证认证结果的准确性，提高账户的安全性。另外，本实施例中，每条基准声纹信息中的子文本信息都很简短，可以减少复读文本信息所需的时间，减少声纹比较所消耗的时间，提高认证效率。

本申请实施例提供的声纹信息管理方法，不仅可以创建新的声纹库，还可以对所创建的声纹库进行更新，例如添加新用户对应的基准声纹信息，为老用户添加新的基准声纹信息。对于新用户，只需获取该新用户对应的历史语音文件，并执行上述步骤S12至S4，或步骤S22至S26，就可以得到该新用户对应的基准声纹信息。由于随着时间的推移，同一用户对应的历史语音文件也不断增加，因此，对于老用户，可以获取对应的新增历史语音文件，并执行上述步骤，就可以实现为该老用户添加新的基准声纹信息。

基于本申请实施例提供的声纹信息管理方法，可以为第一用户设置一条或多条基准声纹信息。当为同一第一用户设置多条基准声纹信息时，需要保证该第一用户对应的任意两条基准声纹信息中的文本信息不同。然而，实际应用中，不可避免的会遇到以下情况：不同历史语音文件识别出内容相同的文本信息，或者同一文本信息切分出内容相同的多个子文本信息，使得同一子文本信息对应多个子语音信息；此时，本申请实施例采用图3所示的方法完成基准声纹信息的存储。为便于描述，假设待存储的基准声纹信息为由第一文本信息和第一语音信息构成的第一基准声纹信息，如图3所示，本申请实施例中存储第一基准声纹信息的过程包括以下步骤：

S31、判断是否存在满足对比条件的第二基准声纹信息，如果存在，则执行步骤S32，否则执行步骤S34。

其中，上述对比条件包括：第二基准声纹信息对应的第二文本信息与第一基准声纹信息中的第一文本信息相同，且第二基准声纹信息对应的第二身份标识符与第一基准声纹信息对应的第一身份标识符也相同。

S32、判断所述第一基准声纹信息中的第一语音信息的质量是否高于所述第二基准声纹信息中的第二语音信息的质量，如果是，则执行步骤S33，否则执行步骤S35。

S33、删除所述第二基准声纹信息，并执行步骤S34。

S34、存储所述第一基准声纹信息和对应的第一身份标识符。

S35、删除所述第一基准声纹信息。

上述步骤S31中，判断是否存在上述第二基准声纹信息，其查找范围至少包括已存储在声纹库中的基准声纹信息，还可以包括与第一基准声纹信息同步生成、尚未存储的基准声纹信息。如果不存在上述第二基准声纹信息，则直接存储第一基准声纹信息。如果查找到上述第二基准声纹信息，说明同一第一用户、同一文本信息存在至少两个不同的语音信息，此时，对第一基准声纹信息中的第一语音信息的质量，和第二基准声纹信息中的第二语音信息的质量进行比较，如果第一语音信息的质量高于第二语音信息，则存储第一基准声纹信息，同时删除第二基准声纹信息，如果第一语音信息的质量低于第二语音信息，则直接删除第一基准声纹信息，即对于同一文本信息，只保留质量最高的语音信息，以提高身份认证过程中语音信息对比结果的准确率、降低对比难度。

基于上述存储过程，可以实现以下三种声纹库更新方式：1)增加新用户的基准声纹信息；2)增加老用户对应的文本信息不同的基准声纹信息；3)将声纹库中语音信息质量较低的基准声纹信息替换为语音信息质量更高的基准声纹信息。

由以上技术方案可知，本申请实施例对于得到的新的基准声纹信息，不是直接将其存入声纹库，而是先判断是否存储有与该基准声纹信息中的文本信息以及对应的身份标识符分别相同的另一基准声纹信息，如果存在，则比较两个基准声纹信息中的语音信息的质量，保留语音信息质量较高的基准声纹信息，删除语音信息质量较低的基准声纹信息。因此，本申请实施例不仅可以保证所存储的基准声纹信息中，同一身份标识符(也即同一第一用户)对应的任意两条基准声纹信息中的文本信息都不同，还可以保证每一种文本信息对应的语音信息的质量最高；在基于本申请实施例执行身份认证时，基于质量更高的语音信息进行声纹对比，可以保证认证的准确性，提高认证效率。

图4为本申请实施例提供的一种声纹信息管理系统的结构框图；该声纹信息管理系统可以应用于一种账户管理系统。如图4所示，该声纹信息管理系统100包括：语音过滤器110、文本识别器120和声纹生成器130。

该语音过滤器110被配置为，获取第一用户与第二用户通话产生的历史语音文件，并对所述历史语音文件执行过滤处理，得到所述第一用户的语音信息。

该文本识别器120被配置为，对所述语音信息执行文本识别处理，得到所述语音信息对应的文本信息。

该声纹生成器130被配置为，将所述语音信息和对应的文本信息编辑为所述第一用户的基准声纹信息，并存储所述基准声纹信息和所述第一用户的身份标识符。

由以上结构可知，本申请实施例通过对相关系统存储的历史语音文件进行过滤，得到第一用户的语音信息，并通过文本识别处理得到该语音信息对应的文本信息，并将该语音信息和对应的文本信息编辑为第一用户的基准声纹信息；由于该基准声纹信息中的文本信息和语音信息都是基于上述历史语音文件得到的，不是相关系统预设的，即是非公开的，故无论第一用户，还是第二用户，还是其他任何用户都无法预知执行身份认证时需要复读的文本信息的具体内容，从而无法提前录制对应的声音文件，也即无法通过播放提前录制的声音文件达到认证成功的目的。因此，相对于现有基于声纹识别的身份认证方式，基于本申请实施例提供的声纹信息管理方法进行身份认证，认证结果更准确，不存在安全隐患，账户的安全性更高。

图5为本申请实施例提供的另一种声纹信息管理系统的结构框图；该声纹信息管理系统可以应用于一种账户管理系统。如图5所示，该声纹信息管理系统200包括：语音过滤器210、文本识别器220、文本切割器240、声纹切割器250和声纹生成器230。

该语音过滤器210被配置为，获取第一用户与第二用户通话产生的历史语音文件，并对所述历史语音文件执行过滤处理，得到所述第一用户的语音信息。

该文本识别器220被配置为，对所述语音信息执行文本识别处理，得到所述语音信息对应的文本信息。

该文本切割器240被配置为，将所述文本信息切分为多个子文本信息，并标记每个子文本信息的起止时间。

该声纹切割器250被配置为，根据子文本信息的起止时间从所述语音信息中分别截取每个子文本信息对应的子语音信息。

该声纹生成器230被配置为，将每对子语音信息和子文本信息分别编辑为所述第一用户的一条基准声纹信息，并存储各条基准声纹信息和所述第一用户的身份标识符。

由以上结构可知，本申请实施例通过对系统存储的历史语音文件进行过滤处理，得到第一用户的语音信息；通过对该语音信息进行文本识别处理，得到对应的文本信息；将识别出的文本信息切分为多个子文本信息，并根据每个子文本信息的起止时间从上述语音信息中截取对应的子语音信息，分别将每对子文本信息和子语音信息编辑为一条基准声纹信息，存入声纹库，使得每个第一用户都具备多条基准声纹信息；当需要执行身份认证时，从待认证的身份标识符对应的多条基准声纹信息中随机选取一条即可。由于执行身份认证时获取到的基准声纹信息是随机的，故无法预知需要待认证用户复读的文本信息的具体内容，从而无法提前录制对应的声音文件，也即无法通过播放提前录制的声音文件达到认证成功的目的，因此，基于本实施例得到的声纹库执行身份认证，可以保证认证结果的准确性，提高账户的安全性。另外，本实施例中，每条基准声纹信息中的子文本信息都很简短，可以减少复读文本信息所需的时间，减少声纹比较所消耗的时间，提高认证效率。

本申请实施例提供的声纹信息管理系统中，为实现存储所述基准声纹信息和所述第一用户的身份标识符的功能，上述声纹生成器130及声纹生成器230可以被配置为：

如果存在所述第二基准声纹信息，则比较所述第一基准声纹信息中的第一语音信息和所述第二基准声纹信息中的第二语音信息的质量，如果所述第一语音信息的质量低于所述第二语音信息，则直接删除所述第一基准声纹信息；

基于以上配置的声纹生成器，本申请实施例不仅可以保证所存储的基准声纹信息中，同一用户对应的任意两条基准声纹信息中的文本信息都不同，还可以保证每一种文本信息对应的语音信息的质量最高；从而在基于本申请实施例执行身份认证时，基于质量更高的语音信息进行声纹对比，可以保证认证的准确性，提高认证效率。

图6为本申请实施例提供的一种身份认证方法的流程图；该身份认证方法可以应用于一种账户管理系统。参照图6，该身份认证方法包括如下步骤。

S41、获取第一用户与第二用户通话产生的历史语音文件。

其中，上述第一用户可以为在账户管理系统中存在对应的私有账户的注册用户，相应的，第二用户可以为账户管理系统的服务人员。

S42、对所述历史语音文件执行过滤处理，得到所述第一用户的语音信息。

S43、对所述语音信息执行文本识别处理，得到所述语音信息对应的文本信息。

S44、将所述文本信息和对应的语音信息编辑为所述第一用户的基准声纹信息，并存储基准声纹信息和所述第一用户的身份标识符。

S45、获取待认证用户的身份标识符对应的基准声纹信息。

S46、输出获取到的基准声纹信息中的文本信息，并接收对应的待认证语音信息。

S47、将获取到的基准声纹信息中的语音信息与所述待认证语音信息进行匹配，如果匹配成功，则判定待认证用户认证成功，如果匹配失败，则判定待认证用户认证失败。

图7为本申请实施例提供的另一种身份认证方法的流程图；该身份认证方法可以应用于一种账户管理系统。参照图7，该身份认证方法包括如下步骤。

S51、获取第一用户与第二用户通话产生的历史语音文件。

S52、对所述历史语音文件执行过滤处理，得到所述第一用户的语音信息。

S53、对所述语音信息执行文本识别处理，得到所述语音信息对应的文本信息。

S54、将所述文本信息切分为多个子文本信息，并标记每个子文本信息的起止时间。

S55、根据子文本信息的起止时间从所述语音信息中分别截取每个子文本信息对应的子语音信息。

S56、将每对子语音信息和子文本信息分别编辑为所述第一用户的一条基准声纹信息，并存储各条基准声纹信息和所述第一用户的身份标识符。

S57、获取待认证用户的身份标识符对应的基准声纹信息。

S58、输出获取到的基准声纹信息中的子文本信息，并接收对应的待认证语音信息。

S59、将获取到的基准声纹信息中的子语音信息与所述待认证语音信息进行匹配，如果匹配成功，则判定待认证用户认证成功，如果匹配失败，则判定待认证用户认证失败。

由以上方法可知，本申请实施例将识别得到的文本信息切分为多个子文本信息，并根据其起止时间截取对应的子语音信息，将每个子文本信息和对应的子语音信息编辑为一条基准声纹信息，使得第一用户具备多条基准声纹信息；当需要执行身份认证时，从待认证的身份标识符对应的多条基准声纹信息中随机选取一条即可。由于执行身份认证时获取到的基准声纹信息是随机的，故无法预知需要待认证用户复读的文本信息的具体内容，从而无法提前录制对应的声音文件，也即无法通过播放提前录制的声音文件达到认证成功的目的，因此，本实施例提供的身份认证方法，可以保证认证结果的准确性，提高账户的安全性。另外，本实施例中，每条基准声纹信息中的子文本信息都很简短，可以减少复读文本信息所需的时间，减少声纹比较所消耗的时间，提高认证效率。

本申请实施例提供的身份认证方法，也可以采用图3所示的方法完成基准声纹信息的存储，不仅可以保证所存储的基准声纹信息中，同一用户对应的任意两条基准声纹信息中的文本信息都不同，还可以保证每一种文本信息对应的语音信息的质量最高；在基于本申请实施例执行身份认证时，基于质量更高的语音信息进行声纹对比，可以保证认证的准确性，提高认证效率。

图8为本申请实施例提供的一种身份认证系统的结构框图，该身份认证系统可以应用于一种账户管理系统。参照图8，该身份认证系统300包括：语音过滤器310、文本识别器320、声纹生成器330、声纹提取器360、识别前置器370和声纹匹配器380。

该语音过滤器310被配置为，获取第一用户与第二用户通话产生的历史语音文件，并对所述历史语音文件执行过滤处理，得到所述第一用户的语音信息。

该文本识别器320被配置为，对所述语音信息执行文本识别处理，得到所述语音信息对应的文本信息。

该声纹生成器330被配置为，将所述语音信息和对应的文本信息编辑为所述第一用户的基准声纹信息，并存储所述基准声纹信息和所述第一用户的身份标识符。

该声纹提取器360被配置为，获取待认证用户的身份标识符对应的基准声纹信息。

该识别前置器370被配置为，输出获取到的基准声纹信息中的文本信息，并接收对应的待认证语音信息。

该声纹匹配器380被配置为，将获取到的基准声纹信息中的语音信息与所述待认证语音信息进行匹配，如果匹配成功，则判定待认证用户认证成功，如果匹配失败，则判定待认证用户认证失败。

上述结构中，识别前置器370用于实现身份认证系统与待认证用户的交互；除了用于输出声纹提取器360获取到的基准声纹信息中的文本信息，接收待认证用户输入的待认证语音信息外，还可以接收待认证用户的身份认证请求，并在接收到身份认证请求后触发声纹提取器360，以及向待认证用户输出声纹匹配器380得到的认证结果。

图9为本申请实施例提供的一种身份认证系统的结构框图，该身份认证系统可以应用于一种账户管理系统。参照图9，该身份认证系统400包括：语音过滤器410、文本识别器420、文本切割器440、声纹切割器450、声纹生成器430、声纹提取器460、识别前置器470和声纹匹配器480。

该语音过滤器410被配置为，获取第一用户与第二用户通话产生的历史语音文件，并对所述历史语音文件执行过滤处理，得到所述第一用户的语音信息。

该文本识别器420被配置为，对所述语音信息执行文本识别处理，得到所述语音信息对应的文本信息。

该文本切割器440被配置为，将所述文本信息切分为多个子文本信息，并标记每个子文本信息的起止时间。

该声纹切割器450被配置为，根据子文本信息的起止时间从所述语音信息中分别截取每个子文本信息对应的子语音信息。

该声纹生成器430被配置为，将每对子语音信息和子文本信息分别编辑为所述第一用户的一条基准声纹信息，并存储各条基准声纹信息和所述第一用户的身份标识符。

该声纹提取器460被配置为，获取待认证用户的身份标识符对应的基准声纹信息。

该识别前置器470被配置为，输出获取到的基准声纹信息中的子文本信息，并接收对应的待认证语音信息。

该声纹匹配器480被配置为，将获取到的基准声纹信息中的子语音信息与所述待认证语音信息进行匹配，如果匹配成功，则判定待认证用户认证成功，如果匹配失败，则判定待认证用户认证失败。

由以上结构可知，本申请实施例将识别得到的文本信息切分为多个子文本信息，并根据其起止时间截取对应的子语音信息，将每个子文本信息和对应的子语音信息编辑为一条基准声纹信息，使得第一用户具备多条基准声纹信息；当需要执行身份认证时，从根据待认证用户对应的身份标识符确定对应的多条基准声纹信息，并从中随机选取一条用于本次身份认证。由于执行身份认证时获取到的基准声纹信息是随机的，故无法预知需要待认证用户复读的文本信息的具体内容，从而无法提前录制对应的声音文件，也即无法通过播放提前录制的声音文件达到认证成功的目的，因此，本实施例提供的身份认证系统，可以保证认证结果的准确性，提高账户的安全性。另外，本实施例中，每条基准声纹信息中的子文本信息都很简短，可以减少复读文本信息所需的时间，减少声纹比较所消耗的时间，提高认证效率。

本申请实施例提供的身份认证系统中，为实现存储所述基准声纹信息和对应的用户身份标识符的功能，上述声纹生成器330及声纹生成器430可以被配置为：

如果不存在所述第二基准声纹信息，则直接存储所述第一基准声纹信息和所述第一用户的身份标识符；

如果所述第一语音信息的质量高于所述第二语音信息，则删除所述第二基准声纹信息，并存储所述第一基准声纹信息和对应的用户身份标识符。

基于以上配置的声纹生成器，本申请实施例不仅可以保证所存储的基准声纹信息中，同一身份标识符对应的任意两条基准声纹信息中的文本信息都不同，还可以保证每一种文本信息对应的语音信息的质量最高；在基于本申请实施例执行身份认证时，基于质量更高的语音信息进行声纹对比，可以保证认证的准确性，提高认证效率。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

一种声纹信息管理方法，其特征在于，包括：

获取第一用户与第二用户通话产生的历史语音文件；

对所述历史语音文件执行过滤处理，得到所述第一用户的语音信息；

对所述语音信息执行文本识别处理，得到所述语音信息对应的文本信息；

将所述语音信息和对应的文本信息编辑为所述第一用户的基准声纹信息，并存储所述基准声纹信息和所述第一用户的身份标识符。
根据权利要求1所述的声纹信息管理方法，其特征在于，还包括：

将所述文本信息切分为多个子文本信息，并标记每个子文本信息的起止时间；

根据子文本信息的起止时间从所述语音信息中分别截取每个子文本信息对应的子语音信息。
根据权利要求2所述的声纹信息管理方法，其特征在于，将所述语音信息和对应的文本信息编辑为所述第一用户的基准声纹信息，包括：

将每对子语音信息和子文本信息分别编辑为所述第一用户的一条基准声纹信息。
根据权利要求1所述的声纹信息管理方法，其特征在于，存储所述基准声纹信息和所述第一用户的身份标识符，包括：

判断是否存在对应的第二文本信息与待存储的第一基准声纹信息中的第一文本信息相同，且对应的第二身份标识符与所述第一基准声纹信息对应的第一身份标识符也相同的第二基准声纹信息；

如果不存在所述第二基准声纹信息，则直接存储所述第一基准声纹信息和所述第一身份标识符；

如果存在所述第二基准声纹信息，则比较所述第一基准声纹信息中的第一语音信息和所述第二基准声纹信息中的第二语音信息的质量，如果所述第一语音信息的质量低于所述第二语音信息，则删除所述第一基准声纹信息；

如果所述第一语音信息的质量高于所述第二语音信息，则删除所述第二基准声纹信息，并存储所述第一基准声纹信息和所述第一身份标识符。
一种声纹信息管理系统，其特征在于，包括：

语音过滤器，用于获取第一用户与第二用户通话产生的历史语音文件，并对所述历史语音文件执行过滤处理，得到所述第一用户的语音信息；

文本识别器，用于对所述语音信息执行文本识别处理，得到所述语音信息对应的文本信息；

声纹生成器，用于将所述语音信息和对应的文本信息编辑为所述第一用户的基准声纹信息，并存储所述基准声纹信息和所述第一用户的身份标识符。
根据权利要求5所述的声纹信息管理系统，其特征在于，还包括：

文本切割器，用于将所述文本信息切分为多个子文本信息，并标记每个子文本信息的起止时间；

声纹切割器，用于根据子文本信息的起止时间从所述语音信息中分别截取每个子文本信息对应的子语音信息。
根据权利要求6所述的声纹信息管理系统，其特征在于，所述声纹生成器将所述语音信息和对应的文本信息编辑为所述第一用户的基准声纹信息，包括：

将每对子语音信息和子文本信息分别编辑为所述第一用户的一条基准声纹信息。
根据权利要求5所述的声纹信息管理系统，其特征在于，所述声纹生成器存储所述基准声纹信息和所述第一用户的身份标识符，包括：

判断是否存在对应的第二文本信息与待存储的第一基准声纹信息中的第一文本信息相同，且对应的第二身份标识符与所述第一基准声纹信息对应的第一身份标识符也相同的第二基准声纹信息；

如果不存在所述第二基准声纹信息，则直接存储所述第一基准声纹信息和所述第一身份标识符；

如果存在所述第二基准声纹信息，则比较所述第一基准声纹信息中的第一语音信息和所述第二基准声纹信息中的第二语音信息的质量，如果所述第一语音信息的质量低于所述第二语音信息，则删除所述第一基准声纹信息；

如果所述第一语音信息的质量高于所述第二语音信息，则删除所述第二基准声纹信息，并存储所述第一基准声纹信息和所述第一身份标识符。
一种身份认证方法，其特征在于，包括：

获取第一用户与第二用户通话产生的历史语音文件；

对所述历史语音文件执行过滤处理，得到所述第一用户的语音信息；

对所述用户语音信息语音信息执行文本识别处理，得到所述用户语音信息语音信息对应的文本信息；

将所述语音信息和对应的文本信息编辑为所述第一用户的基准声纹信息，并存储基准声纹信息和所述第一用户的身份标识符；

获取待认证用户的身份标识符对应的基准声纹信息；

输出获取到的基准声纹信息中的文本信息，并接收对应的待认证语音信息；

将获取到的基准声纹信息中的语音信息与所述待认证语音信息进行匹配，如果匹配成功，则判定待认证用户认证成功，如果匹配失败，则判定待认证用户认证失败。
根据权利要求9所述的身份认证系统，其特征在于，还包括：

将所述文本信息切分为多个子文本信息，并标记每个子文本信息的起止时间；

根据子文本信息的起止时间从所述语音信息中分别截取每个子文本信息对应的子语音信息。
根据权利要求10所述的身份认证系统，其特征在于，将所述语音信息和对应的文本信息编辑为所述第一用户的基准声纹信息，包括：

将每对子语音信息和子文本信息分别编辑为所述第一用户的一条基准声纹信息。
根据权利要求9所述的身份认证系统，其特征在于，存储基准声纹信息和所述第一用户的身份标识符，包括：

判断是否存在对应的第二文本信息与待存储的第一基准声纹信息中的第一文本信息相同，且对应的第二身份标识符与所述第一基准声纹信息对应的第一身份标识符也相同的第二基准声纹信息；

如果不存在所述第二基准声纹信息，则直接存储所述第一基准声纹信息和所述第一身份标识符；

如果存在所述第二基准声纹信息，则比较所述第一基准声纹信息中的第一语音信息和所述第二基准声纹信息中的第二语音信息的质量，如果所述第一语音信息的质量低于所述第二语音信息，则删除所述第一基准声纹信息；

如果所述第一语音信息的质量高于所述第二语音信息，则删除所述第二基准声纹信息，并存储所述第一基准声纹信息和所述第一身份标识符。
一种身份认证系统，其特征在于，包括：

语音过滤器，用于获取第一用户与第二用户通话产生的历史语音文件，并对所述历史语音文件执行过滤处理，得到所述第一用户的语音信息；

文本识别器，用于对所述语音信息执行文本识别处理，得到所述语音信息对应的文本信息；

声纹生成器，用于将所述语音信息和对应的文本信息编辑为所述第一用户的基准声纹信息，并存储基准声纹信息和所述第一用户的身份标识符；

声纹提取器，用于获取待认证用户的身份标识符对应的基准声纹信息；

识别前置器，用于输出获取到的基准声纹信息中的文本信息，并接收对应的待认证语音信息；

声纹匹配器，用于将获取到的基准声纹信息中的语音信息与所述待认证语音信息进行匹配，如果匹配成功，则判定待认证用户认证成功，如果匹配失败，则判定待认证用户认证失败。
根据权利要求13所述的身份认证系统，其特征在于，还包括：

文本切割器，用于将所述文本信息切分为多个子文本信息，并标记每个子文本信息的起止时间；

声纹切割器，用于根据子文本信息的起止时间从所述语音信息中分别截取每个子文本信息对应的子语音信息。
根据权利要求14所述的身份认证系统，其特征在于，所述声纹生成器将所述语音信息和对应的文本信息编辑为所述第一用户的基准声纹信息，包括：

将每对子语音信息和子文本信息分别编辑为所述第一用户的一条基准声纹信息。
根据权利要求13所述的身份认证系统，其特征在于，所述声纹生成器存储基准声纹信息和所述第一用户的身份标识符，包括：

判断是否存在对应的第二文本信息与待存储的第一基准声纹信息中的第一文本信息相同，且对应的第二身份标识符与所述第一基准声纹信息对应的第一身份标识符也相同的第二基准声纹信息；

如果不存在所述第二基准声纹信息，则直接存储所述第一基准声纹信息和所述第一身份标识符；

如果存在所述第二基准声纹信息，则比较所述第一基准声纹信息中的第一语音信息和所述第二基准声纹信息中的第二语音信息的质量，如果所述第一语音信息的质量低于所述第二语音信息，则删除所述第一基准声纹信息；

如果所述第一语音信息的质量高于所述第二语音信息，则删除所述第二基准声纹信息，并存储所述第一基准声纹信息和所述第一身份标识符。