WO2019140823A1

WO2019140823A1 - 语音验证方法、装置、计算机设备和计算机可读存储介质

Info

Publication number: WO2019140823A1
Application number: PCT/CN2018/088696
Authority: WO
Inventors: 黄创茗
Original assignee: 平安科技（深圳）有限公司
Priority date: 2018-01-16
Filing date: 2018-05-28
Publication date: 2019-07-25
Also published as: CN108305633A; CN108305633B

Abstract

本申请涉及一种身份验证方法，包括：获取待验证语音信息和相应的用户标识；从该待验证语音信息中提取待验证的声纹特征和待验证文本；获取当前场景类型；查询与该当前场景类型匹配、且与该用户标识对应的特征模型；通过该特征模型，将该待验证文本转换为参考声纹特征；比较该待验证的声纹特征和该参考声纹特征，得到语音验证结果；当该语音验证结果表示验证通过时，则根据该待验证的声纹特征对该特征模型进行再训练；使用再训练后的特征模型更新与该当前场景类型匹配、且与该用户标识对应的特征模型。

Description

语音验证方法、装置、计算机设备和计算机可读存储介质

相关申请的交叉引用

本申请要求于2018年01月16日提交中国专利局，申请号为2018100417643，申请名称为“语音验证方法、装置、计算机设备和计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及一种语音验证方法、装置、计算机设备和计算机可读存储介质。

背景技术

由于每两个人的生物特征都不相同，因此通过识别用户的生物特征，可以准确的确认用户的身份。识别人体的生物特征需要精密度高的传感器，而这些精密度高的传感器一般而言体积都较大。

目前，随着传感器元件的技术得到飞速的提升，传感器元件的精度、体积和价格都得到了长足的进步，因此在移动终端上也可以实现通过识别生物特征来验证用户身份的方法。而识别用户的声纹就是传统技术中较为常见的一种验证方法。

然而，发明人意识到，传统技术中的语音验证方法仅能够保证用户的声音不变的情况下验证成功，在用户声音出现变化时，都会使得传统的语音验证方法失效，验证的召回率很低。

发明内容

根据本申请公开的各种实施例，提供一种语音验证方法、装置、计算机设备和存储介质。

一种语音验证方法，包括：

获取待验证语音信息和相应的用户标识；

从该待验证语音信息中提取待验证的声纹特征和待验证文本；

获取当前场景类型；

查询与该当前场景类型匹配、且与该用户标识对应的特征模型；

通过该特征模型，将该待验证文本转换为参考声纹特征；

比较该待验证的声纹特征和该参考声纹特征，得到语音验证结果；

当该语音验证结果表示验证通过时，则根据该待验证的声纹特征对该特征模型进行再训练；及

使用再训练后的特征模型更新与该当前场景类型匹配、且与该用户标识对应的特征模型。

一种语音验证装置，包括：

信息获取模块，用于获取待验证语音信息和相应的用户标识；

信息提取模块，用于从该待验证语音信息中提取待验证的声纹特征和待验证文本；

类型获取模块，用于获取当前场景类型；

模型查询模块，用于查询与该当前场景类型匹配、且与该用户标识对应的特征模型；

特征转换模块，用于通过该特征模型，将该待验证文本转换为参考声纹特征；

特征比较模块，用于比较该待验证的声纹特征和该参考声纹特征，得到语音验证结果

再训练模块，用于当该验证结果表示验证通过时，则根据该待验证的声纹特征对该特征模型进行再训练；及

模型更新模块，用于使用再训练后的特征模型更新与该当前场景类型匹配、且与该用户标识对应的特征模型。

一种计算机设备，包括存储器和一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取待验证语音信息和相应的用户标识；

获取当前场景类型；

通过该特征模型，将该待验证文本转换为参考声纹特征；

一个或多个存储有计算机可读指令的非易失性存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：

获取待验证语音信息和相应的用户标识；

获取当前场景类型；

通过该特征模型，将该待验证文本转换为参考声纹特征；

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为根据一个或多个实施例中语音验证方法的应用场景图。

图2为根据一个或多个实施例中语音验证方法的流程示意图。

图3为另一个实施例中语音验证方法的流程示意图。

图4为根据一个或多个实施例中语音验证装置的框图。

图5为另一个实施例中语音验证装置的框图。

图6为根据一个或多个实施例中语音验证装置的框图。

图7为另一个实施例中语音验证装置的框图。

图8为根据一个或多个实施例中语音验证装置的框图。

图9为根据一个或多个实施例中计算机设备的框图。

具体实施方式

为了使本申请的技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的语音验证方法，可以应用于如图1所示的应用环境中。终端110通过网络与服务器120通过网络进行通信，用户100通过输入装置操作终端110。终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在其中一个实施例中，如图2所示，提供了一种语音验证方法，以该方法应用于图1中的终端为例进行说明，但该方法不限定于仅仅在终端上实施，具体包括以下步骤：

S202，获取待验证语音信息和相应的用户标识。

待验证语音信息是语音验证中被验证的语音信息。用户标识是用户身份的标识。

在其中一个实施例中，终端采集到待验证语音信息后，将该待验证语音信息发送至服务器。服务器接收到待验证语音信息后，选取与发送该待验证语音信息的终端相应的用户标识。

S204，从该待验证语音信息中提取待验证的声纹特征和待验证文本。

声纹特征是声纹的特征信息。声纹是语音信息的声波频谱。特征是描述客体共有的特性的信息，客体可以是声纹。特征具体可以是MFCC(Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数)特征、PLP(perceptual linear prediction，感知线性预测)特征和LPC(Linear Predictive Coding，线性预测分析)等中的至少一种，也可以是频谱、鼻音、发音和语速等中的至少一种。待验证的声纹特征是语音验证中被验证的声纹特征。待验证文本是语音验证中被验证的文本信息。待验证文本具体是待验证语音信息以文本形式记载的信息。

在其中一个实施例中，服务器从待验证语音信息中提取待验证的声纹特征和待验证文本，将提取出的待验证的声纹特征和待验证文本反馈回相应的终端。

S206，获取当前场景类型。

场景类型是场景的类型。场景具体是获取待验证语音信息时的地点、时间、天气和环境等的组合。当前场景类型具体是获取待验证语音信息时场景的类型。

在其中一个实施例中，终端获取采集待验证语音信息时的位置信息和时间信息，将获取的位置信息和时间信息发送至服务器。服务器根据接收到的位置信息和时间信息获取相应的天气信息和环境信息，并根据该位置信息、时间信息、天气信息和环境信息确定终端当前的场景类型。

S208，查询与该当前场景类型匹配、且与该用户标识对应的特征模型。

特征模型具体可以是用户个人的声纹特征的集合，特征模型可以用于模拟用户的声纹特征。

在其中一个实施例中，终端在将终端相应的当前场景类型和用户标识反馈至服务器后，服务器从数据库中查询与当前场景类型匹配、且与用户标识对应的特征模型。

S210，通过该特征模型，将该待验证文本转换为参考声纹特征。

参考声纹特征是语音验证时待验证声纹特征的参照对象。

在其中一个实施例中，服务器将待验证文本通过特征模型转换成语音信息，并从转换得到的语音信息中提取参考声纹特征。

S212，比较该待验证的声纹特征和该参考声纹特征，得到语音验证结果。

在其中一个实施例中，服务器比较待验证的声纹特征和参考声纹特征后，将得到的语音验证结果反馈回终端。若该语音验证结果表示验证通过时，则终端根据该语音验证结果将相应的应用程序解锁。若该语音验证结果表示验证未通过时，则终端重新获取待验证语音信息。

S214，当该语音验证结果表示验证通过时，则根据该待验证的声纹特征对该特征模型进行再训练。

根据待验证的声纹特征对特征模型进行再训练，具体可以是对比待验证的声纹特征和特征模型，将待验证的声纹特征中出现频率高的声纹特征加入特征模型中。

在其中一个实施例中，服务器在检测到语音验证结果表示验证通过时，则从待验证的声纹特征中选取出现频率高于预设阈值的声纹特征，将选取出的声纹特征与特征模型进行对比，若选取出的声纹特征与特征模型中相应的声纹特征相差小于预设值，则将选取出的声纹特征加入特征模型中。

S216，使用再训练后的特征模型更新与该当前场景类型和该用户标识匹配的特征模型。

本实施例中，在获取待验证语音信息和相应的用户标识后，从待验证语音信息中提取声纹特征和待验证文本。通过获取当前的场景类型，查询与当前场景类型匹配、且与用户标识对应的特征模型，由于待验证语音信息是在当前的场景类型相应的场景下获取到的，因此待验证语音信息与当前场景类型匹配，待验证的声纹特征也与当前场景类型匹配。通过特征模型将待验证文本转换为参考声纹特征，该参考声纹特征自然也与当前场景类型匹配。在参考声纹特征和待验证的声纹特征都与当前场景类型匹配时，通过比较该待验证的声纹特征和该参考声纹特征，得到的语音验证结果就可以准确地反映待验证语音信息是否是用户本人的语音信息，从而可以在用户声音发生变化时，也能够识别出用户本人的声音。而且在验证通过时，使用待验证的声纹特征对与当前场景类型匹配、且与用户标识对应的特征模型再训练并更新，也可以提高与这个场景类型相应的特征模型的有效性，进而提高语音验证的召回率。

在其中一个实施例中，该获取待验证语音信息和相应的用户标识，包括：获取身份验证指令；响应于该身份验证指令，获取用户标识；查询对应于该用户标识预配置的文本；当未查询到该文本时，随机生成文本；反馈随机生成的该文本；采集与反馈的该文本相匹配的待验证语音信息。

身份验证指令是激活语音验证的指令。预配置的文本具体是用于认证用户身份的语音信息相应的文本信息。随机生成文本，具体可以是在文本列表中随机选取文本信息，也可以是根据字典随机生成文本信息。

在其中一个实施例中，终端获取用户通过触摸屏触发的身份验证指令，响应于该身份验证指令，在数据库中获取相应的用户标识，在获取用户标识后，查询对应于该用户标识的预配置的文本。当查询到预配置的文本时，在终端的显示屏上显示正在采集语音信息的标识。当未查询到预配置的文本时，根据字典随机生成文本，将随机生成的文本在显示屏上显示，并采集待验证语音信息。

在其中一个实施例中，终端获取用户通过触摸屏触发的身份验证指令，将该身份验证指令反馈值服务器。服务器在数据库中获取相应的用户标识，并查询对应于该用户标识的预配置的文本。当查询到预配置的文本时，向终端反馈开始采集待验证语音信息的指令。当未查询到预配置的文本时，根据字典随机生成文本，将随机生成的文本发送至终端。

本实施例中，通过获取用户标识，查询对应于用户标识的预配置的文本。如果查询到预配置的文本，就可以直接采集待验证语音信息，使得语音验证很快捷。如果未查询到预配置的文本，则随机生成文本，也能够提高安全性。

在其中一个实施例中，该从该待验证语音信息中提取待验证的声纹特征和待验证文本，包括：解析该待验证语音信息，得到相应的声波信号；将该声波信号分帧，得到每一帧的声波信号；对该每一帧的声波信号进行傅立叶变换，得到相应的频谱；从该频谱中提取单帧声纹特征；根据每一帧的单帧声纹特征生成该待验证语音信息的声纹特征；将该声纹特征转化为待验证文本。

声波信号是声波的频率和幅度变化的信息。声波信号具体是以声音的频率为纵坐标，以时间为横坐标，反映声音的频率随时间变化的信息。分帧是将连续的若干个时间点设为一帧。将声波信号分帧，具体可以是将声波信号按照预设的帧长，将一个完整的声波信号划分为若干个横坐标区间大小为帧长的声波信号。

傅立叶变换是将时域函数转换成频域函数的公式。频谱是声音的频率分布的信息。频谱具体是以声音的频率为横坐标，频率分量的振幅及其相位为纵坐标，表示的是一个静态时间点上各频率正弦波的幅值大小的分布状况。对每一帧的声波信号进行傅立叶变换，得到相应的频谱，具体可以是将每一帧的声波信号相应的三角函数，转换成每一帧时间内的频谱。

在其中一个实施例中，终端解析待验证语音信息，得到相应的声波信号，将该声波信号分帧，并将分帧后的声波信号与窗函数相乘后得到的信号进行傅立叶变换，得到相应的频谱。从频谱中提取单帧声纹特征，根据每一帧的单帧声纹特征生成该待验证语音信息的声纹特征，根据每一帧声波信号的声纹特征相应的状态号，确定每一帧声波信号的状态，并将确定的状态进行组合，得到相应的字符，根据得到的字符生成待验证文本。窗函数是对声波信号进行截断的函数。

本实施例中，通过将声波信号转换成频谱，可以获得待验证语音信息中更多的信息，从而获取更多的声纹特征，使得语音验证更加准确。

在其中一个实施例中，该方法还包括：采集当前的噪音信息；根据采集的噪音信息生成抗干扰模型；在解析得到声波信号后，通过该抗干扰模型将解析得到的声波信号修正后，执行该将该声波信号分帧，得到每一帧的声波信号的步骤。

噪音信号是对待验证语音信息造成干扰的声音信号。噪音信号具体可以是周围环境发出的声音，例如风声、雨声和读书声等中的至少一种。抗干扰模型具体是用于过滤待验证的声波信号中噪音信号的模型。通过抗干扰模型将解析得到的声波信号修正，具体可以是将抗干扰模型与解析得到的声波信号叠加，也可以是从解析得到的声波信号中滤去抗干扰模型。

本实施例中，通过采集当前的噪音信号，生成抗干扰模型，可以根据抗干扰模型修正声波信号，从而使得解析得到的声波信号更加的精准，提高了声纹验证的准确率。

在其中一个实施例中，该获取当前场景类型包括：获取采集该待验证语音信息的时间信息和/或地理位置信息；查询与该时间信息和/或地理位置信息相匹配的预设场景类型；将查询到的预设场景类型作为当前场景类型。

时间信息是采集待验证语音信息的时间。时间信息具体包括日期和日内时间点，日内时间点包括时、分和秒。地理位置信息是采集待验证语音信息所在的地理位置。地理位置信息具体包括城市标识和建筑标识，建筑标识具体可以是运动场、住宅、医院、公司、地铁站和马路等中的至少一种。

在其中一个实施例中，终端获取采集待验证语音信息的日内时间点，例如是早晨6点整，再获取终端当前所在的地理位置信息，例如是深圳南山区深圳湾公园，根据终端上的传感器获取到终端在获取到待验证语音信息之前的30分钟内都在移动，且保持匀速8千米每小时，则查询到预设场景类型为“户外慢跑”，则终端将“户外慢跑”作为当前场景类型。

在其中一个实施例中，终端获取到当前所在的地理位置信息，例如是在家中，则直接选取的预设场景类型为“家中”，并将“家中”作为当前场景类型。

在其中一个实施例中，终端检测到连接的WIFI(Wireless Fidelity，基于IEEE 802.11b标准的无线局域网)为预设的安全WIFI，则直接选取的预设场景类型为“安全位置”，并将“安全位置”作为当前场景类型。

本实施例中，通过获取采集待验证语音信息的时间信息和/或地理位置信息，查询匹配的预设场景类型，将查询到的预设场景类型作为当前场景类型，可以选取到相应的特征模型，从而使得待验证语音信息匹配的场景类型和特征模型匹配的场景类型一致，从而尽可能减小场景对待验证语音信息的影像，进而提高语音验证的返回率。

在其中一个实施例中，该获取当前场景类型包括：获取采集该待验证语音信息的时间信息和地理位置信息；查找与该时间信息和该地理位置信息相匹配的天气信息；查询与该天气信息相匹配的预设场景类型；将查询到的预设场景类型作为当前场景类型。

天气信息是一个地区内天气现象的信息。天气信息具体包括气温、气压、湿度、风、云、雾、雨、闪、雪、霜、雷、雹、霾等。

在其中一个实施例中，终端获取采集待验证语音信息的日期和日内时间点，例如是12月18日下午3点整，再获取终端当前所在的地理位置信息，例如深圳市福田区平安大厦，根据获取的日期和地理位置信息在天气预报系统中查询当前的天气信息，例如多云、当前温度12摄氏度、东北风5级，以及对比12月17日下午3点整降温5摄氏度，则查询到的预设场景类型为“易感冒”。将查询到的“易感冒”作为当前场景类型。

本实施例中，通过获取采集待验证语音信息的时间信息和/或地理位置信息，查询匹配的天气信息，并查询与天气信息匹配的预设场景类型，将查询到的预设场景类型作为当前场景类型，可以选取到相应的特征模型，从而使得待验证语音信息匹配的场景类型和特征模型匹配的场景类型一致，从而尽可能减小场景对待验证语音信息的影像，进而提高语音验证的返回率。

在其中一个实施例中，该方法还包括：获取公共特征模型；获取与预设场景类型和该用户标识相对应的训练语音样本；根据该训练语音样本将该公共特征模型进行再训练，得到与该预设场景类型和该用户标识相匹配的特征模型。

公共特征模型是通用的特征模型。公共特征模型具体是同一种类型的声音所通用的特征模型，例如男声、童声或女声等。训练语音样本是训练特征模型所采集的语音信息。具体地，采集训练语音样本的时期在选取公共特征模型后一个月至三个月之间，具体时间取决于采集训练语音样本的频率。

在其中一个实施例中，服务器在模型库中选取与用户的声纹匹配的GMM-UBM(Gaussian Markov Model-Uniform Background Model，高斯混合模型—通用背景模型)，在训练期内通过采集的训练语音样本，不断地训练GMM-UBM，将GMM-UBM训练成与用户的用户标识相匹配的特征模型。在服务器对GMM-UBM训练时，检测到训练语音样本的声纹特征与其它时间收集到的声纹特征变化较大，则获取终端的地理位置信息、时间信息和天气信息等场景信息，将获取到的场景信息标识为场景类型。

本实施例中，通过使用训练语音样本对公共特征模型进行再训练，可以快速地训练出特征模型，使得效率变高。

如图3所示，在其中一个实施例中，还提供了一种语音验证方法，该方法具体包括以下的步骤：

S302，终端获取身份验证指令。

S304，终端响应于该身份验证指令，获取用户标识。

S306，终端查询对应于该用户标识预配置的文本。

S308，当终端未查询到该文本时，随机生成文本。

S310，终端反馈随机生成的该文本。

S312，终端采集当前的噪音信息。

S314，终端采集与反馈的该文本相匹配的待验证语音信息。

S316，终端将采集的噪音信息和待验证语音信息反馈至服务器。

S318，服务器根据噪音信息生成抗干扰模型。

S320，服务器解析该待验证语音信息，得到相应的声波信号。

S322，服务器在解析得到声波信号后，通过该抗干扰模型将解析得到的声波信号修正后。

S324，服务器将该声波信号分帧，得到每一帧的声波信号。

S326，服务器对该每一帧的声波信号进行傅立叶变换，得到相应的频谱。

S328，服务器从该频谱中提取单帧声纹特征。

S330，服务器根据每一帧的单帧声纹特征生成该待验证语音信息的声纹特征。

S332，服务器将该声纹特征转化为待验证文本。

S334，终端获取采集该待验证语音信息的时间信息和地理位置信息。

S336，终端将时间信息和地理位置信息反馈至服务器后，服务器查找与该时间信息和该地理位置信息相匹配的天气信息。

S338，服务器查询与该天气信息相匹配的预设场景类型。

S340，服务器将查询到的预设场景类型作为当前场景类型。

S342，服务器查询与该当前场景类型匹配、且与该用户标识对应的特征模型。

S344，服务器通过该特征模型，将该待验证文本转换为参考声纹特征。

S346，服务器比较该待验证的声纹特征和该参考声纹特征，得到语音验证结果。

上述语音验证方法，在获取待验证语音信息和相应的用户标识后，从待验证语音信息中提取声纹特征和待验证文本。通过获取当前的场景类型，查询与当前场景类型匹配、且与用户标识对应的特征模型，由于待验证语音信息是在当前的场景类型相应的场景下获取到的，因此待验证语音信息与当前场景类型匹配，待验证的声纹特征也与当前场景类型匹配。通过特征模型将待验证文本转换为参考声纹特征，该参考声纹特征自然也与当前场景类型匹配。在参考声纹特征和待验证的声纹特征都与当前场景类型匹配时，通过比较该待验证的声纹特征和该参考声纹特征，得到的语音验证结果就可以准确地反映待验证语音信息是否是用户本人的语音信息，从而可以在用户声音发生变化时，也能够识别出用户本人的声音。而且在验证通过时，使用待验证的声纹特征对与当前场景类型匹配、且与用户标识对应的特征模型再训练并更新，也可以提高与这个场景类型相应的特征模型的有效性，进而提高语音验证的召回率。

应该理解的是，虽然图2和3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2和3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在其中一个实施例中，如图4所示，提供了一种语音验证装置400，包括：信息获取模块402、信息提取模块404、类型获取模块406、模型查询模块408、特征转换模块410、特征比较模块412、再训练模块413和模型更新模块415，其中：信息获取模块402，用于获取待验证语音信息和相应的用户标识；信息提取模块404，用于从该待验证语音信息中提取待验证的声纹特征和待验证文本；类型获取模块406，用于获取当前场景类型；模型查询模块408，用于查询与该当前场景类型匹配、且与该用户标识对应的特征模型；特征转换模块410，用于通过该特征模型，将该待验证文本转换为参考声纹特征；特征比较模块412，用于比较该待验证的声纹特征和该参考声纹特征，得到语音验证结果；再训练模块413，用于当该语音验证结果表示验证通过时，则根据该待验证的声纹特征对该特征模型进行再训练；模型更新模块415，用于使用再训练后的特征模型更新与该当前场景类型匹配、且与该用户标识对应的特征模型。

上述语音验证装置400，在获取待验证语音信息和相应的用户标识后，从待验证语音信息中提取声纹特征和待验证文本。通过获取当前的场景类型，查询与当前场景类型匹配、且与用户标识对应的特征模型，由于待验证语音信息是在当前的场景类型相应的场景下获取到的，因此待验证语音信息与当前场景类型匹配，待验证的声纹特征也与当前场景类型匹配。通过特征模型将待验证文本转换为参考声纹特征，该参考声纹特征自然也与当前场景类型匹配。在参考声纹特征和待验证的声纹特征都与当前场景类型匹配时，通过比较该待验证的声纹特征和该参考声纹特征，得到的语音验证结果就可以准确地反映待验证语音信息是否是用户本人的语音信息，从而可以在用户声音发生变化时，也能够识别出用户本人的声音。而且在验证通过时，使用待验证的声纹特征对与当前场景类型匹配、且与用户标识对应的特征模型再训练并更新，也可以提高与这个场景类型相应的特征模型的有效性，进而提高语音验证的召回率。

如图5所示，在其中一个实施例中，信息获取模块402，包括：指令获取模块402a，用于获取身份验证指令；标识获取模块402b，用于响应于该身份验证指令，获取用户标识；文本查询模块402c，用于查询对应于该用户标识预配置的文本；文本生成模块402d，用于当未查询到该文本时，随机生成文本；文本反馈模块402e，用于反馈随机生成的该文本；信息采集模块402f，用于采集与反馈的该文本相匹配的待验证语音信息。

如图6所示，在其中一个实施例中，信息提取模块404，包括：信息解析模块404a，用于解析该待验证语音信息，得到相应的声波信号；信号分帧模块404b，用于将该声波信号分帧，得到每一帧的声波信号；信号变换模块404c，用于对该每一帧的声波信号进行傅立叶变换，得到相应的频谱；特征提取模块404d，用于从该频谱中提取单帧声纹特征；特征生成模块404e，用于根据每一帧的单帧声纹特征生成该待验证语音信息的声纹特征；文本转化模块404f，用于将该声纹特征转化为待验证文本。

在其中一个实施例中，信息获取模块402，还用于采集当前的噪音信息；信息提取模块404，还用于根据采集的噪音信息生成抗干扰模型；在解析得到声波信号后，通过该抗干扰模型将解析得到的声波信号修正后，执行该将该声波信号分帧，得到每一帧的声波信号的步骤。

如图7所示，在其中一个实施例中，类型获取模块406，包括：场景获取模块406a，用于获取采集该待验证语音信息的时间信息和/或地理位置信息；类型查询模块406b，用于查询与该时间信息和/或地理位置信息相匹配的预设场景类型；类型确定模块406c，用于将查询到的预设场景类型作为当前场景类型。

在其中一个实施例中，场景获取模块406a，还用于获取采集该待验证语音信息的时间信息和地理位置信息；上述类型获取模块406，还包括：天气获取模块406d，用于查找与该时间信息和该地理位置信息相匹配的天气信息；类型查询模块406b，还用于查询与该天气信息相匹配的预设场景类型；类型确定模块406c，还用于将查询到的预设场景类型作为当前场景类型。

如图8所示，在其中一个实施例中，上述语音验证装置400，还包括：模型获取模块414，用于获取公共特征模型；样本获取模块416，用于获取与预设场景类型和该用户标识相对应的训练语音样本；模型训练模块418，用于根据该训练语音样本将该公共特征模型进行再训练，得到与该预设场景类型和该用户标识相匹配的特征模型。

关于语音验证装置的具体限定可以参见上文中对于语音验证方法的限定，在此不再赘述。上述语音验证装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在其中一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机可读指令。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种语音验证方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在其中一个实施例中，提供了一种计算机设备，包括存储器和一个或多个处理器，存储器中储存有计算机可读指令，计算机可读指令被处理器执行时，使得一个或多个处理器实现本申请任意一个实施例中提供的语音验证方法的步骤。

上述计算机设备，在获取待验证语音信息和相应的用户标识后，从待验证语音信息中提取声纹特征和待验证文本。通过获取当前的场景类型，查询与当前场景类型匹配、且与用户标识对应的特征模型，由于待验证语音信息是在当前的场景类型相应的场景下获取到的，因此待验证语音信息与当前场景类型匹配，待验证的声纹特征也与当前场景类型匹配。通过特征模型将待验证文本转换为参考声纹特征，该参考声纹特征自然也与当前场景类型匹配。在参考声纹特征和待验证的声纹特征都与当前场景类型匹配时，通过比较该待验证的声纹特征和该参考声纹特征，得到的语音验证结果就可以准确地反映待验证语音信息是否是用户本人的语音信息，从而可以在用户声音发生变化时，也能够识别出用户本人的声音。而且在验证通过时，使用待验证的声纹特征对与当前场景类型匹配、且与用户标识对应的特征模型再训练并更新，也可以提高与这个场景类型相应的特征模型的有效性，进而提高语音验证的召回率。

在其中一个实施例中，提供了一个或多个存储有计算机可读指令的非易失性存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器实现本申请任意一个实施例中提供的语音验证方法的步骤。

上述计算机可读存储介质，在获取待验证语音信息和相应的用户标识后，从待验证语音信息中提取声纹特征和待验证文本。通过获取当前的场景类型，查询与当前场景类型匹配、且与用户标识对应的特征模型，由于待验证语音信息是在当前的场景类型相应的场景下获取到的，因此待验证语音信息与当前场景类型匹配，待验证的声纹特征也与当前场景类型匹配。通过特征模型将待验证文本转换为参考声纹特征，该参考声纹特征自然也与当前场景类型匹配。在参考声纹特征和待验证的声纹特征都与当前场景类型匹配时，通过比较该待验证的声纹特征和该参考声纹特征，得到的语音验证结果就可以准确地反映待验证语音信息是否是用户本人的语音信息，从而可以在用户声音发生变化时，也能够识别出用户本人的声音。而且在验证通过时，使用待验证的声纹特征对与当前场景类型匹配、且与用户标识对应的特征模型再训练并更新，也可以提高与这个场景类型相应的特征模型的有效性，进而提高语音验证的召回率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种语音验证方法，包括：

获取待验证语音信息和相应的用户标识；

从所述待验证语音信息中提取待验证的声纹特征和待验证文本；

获取当前场景类型；

查询与所述当前场景类型匹配、且与所述用户标识对应的特征模型；

通过所述特征模型，将所述待验证文本转换为参考声纹特征；

比较所述待验证的声纹特征和所述参考声纹特征，得到语音验证结果；

当所述语音验证结果表示验证通过时，则根据所述待验证的声纹特征对所述特征模型进行再训练；及

使用再训练后的特征模型更新与所述当前场景类型匹配、且与所述用户标识对应的特征模型。
根据权利要求1所述的方法，其特征在于，所述获取待验证语音信息和相应的用户标识，包括：

获取身份验证指令；

响应于所述身份验证指令，获取用户标识；

查询对应于所述用户标识预配置的文本；

当未查询到所述文本时，随机生成文本；

反馈随机生成的所述文本；及

采集与反馈的所述文本相匹配的待验证语音信息。
根据权利要求1所述的方法，其特征在于，所述从所述待验证语音信息中提取待验证的声纹特征和待验证文本，包括：

解析所述待验证语音信息，得到相应的声波信号；

将所述声波信号分帧，得到每一帧的声波信号；

对所述每一帧的声波信号进行傅立叶变换，得到相应的频谱；

从所述频谱中提取单帧声纹特征；

根据每一帧的单帧声纹特征生成所述待验证语音信息的声纹特征；及

将所述声纹特征转化为待验证文本。
根据权利要求3所述的方法，其特征在于，还包括：

采集当前的噪音信息；

根据采集的噪音信息生成抗干扰模型；及

在解析得到声波信号后，通过所述抗干扰模型将解析得到的声波信号修正后，执行所述将所述声波信号分帧，得到每一帧的声波信号的步骤。
根据权利要求1所述的方法，其特征在于，所述获取当前场景类型包括：

获取采集所述待验证语音信息的时间信息和/或地理位置信息；

查询与所述时间信息和/或地理位置信息相匹配的预设场景类型；及

将查询到的预设场景类型作为当前场景类型。
根据权利要求1所述的方法，其特征在于，所述获取当前场景类型包括：

获取采集所述待验证语音信息的时间信息和地理位置信息；

查找与所述时间信息和所述地理位置信息相匹配的天气信息；

查询与所述天气信息相匹配的预设场景类型；及

将查询到的预设场景类型作为当前场景类型。
根据权利要求1至6中任一项所述的方法，其特征在于，还包括：

获取公共特征模型；

获取与预设场景类型和所述用户标识相对应的训练语音样本；及

根据所述训练语音样本将所述公共特征模型进行再训练，得到与所述预设场景类型和所述用户标识相匹配的特征模型。
一种语音验证装置，包括：

信息获取模块，用于获取待验证语音信息和相应的用户标识；

信息提取模块，用于从所述待验证语音信息中提取待验证的声纹特征和待验证文本；

类型获取模块，用于获取当前场景类型；

模型查询模块，用于查询与所述当前场景类型匹配、且与所述用户标识对应的特征模型；

特征转换模块，用于通过所述特征模型，将所述待验证文本转换为参考声纹特征；

特征比较模块，用于比较所述待验证的声纹特征和所述参考声纹特征，得到语音验证结果

再训练模块，用于当所述语音验证结果表示验证通过时，则根据所述待验证的声纹特征对所述特征模型进行再训练；及

模型更新模块，用于使用再训练后的特征模型更新与所述当前场景类型匹配、且与所述用户标识对应的特征模型。
根据权利要求6所述的装置，其特征在于，所述信息获取模块，包括：

指令获取模块，用于获取身份验证指令；

标识获取模块，用于响应于该身份验证指令，获取用户标识；

文本查询模块，用于查询对应于该用户标识预配置的文本；

文本生成模块，用于当未查询到该文本时，随机生成文本；

文本反馈模块，用于反馈随机生成的该文本；

信息采集模块，用于采集与反馈的该文本相匹配的待验证语音信息。
根据权利要求6所述的装置，其特征在于，所述信息提取模块，包括：

信息解析模块，用于解析该待验证语音信息，得到相应的声波信号；

信号分帧模块，用于将该声波信号分帧，得到每一帧的声波信号；

信号变换模块，用于对该每一帧的声波信号进行傅立叶变换，得到相应的频谱；

特征提取模块，用于从该频谱中提取单帧声纹特征；

特征生成模块，用于根据每一帧的单帧声纹特征生成该待验证语音信息的声纹特征；

文本转化模块，用于将该声纹特征转化为待验证文本。
一种计算机设备，包括存储器及一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取待验证语音信息和相应的用户标识；

从所述待验证语音信息中提取待验证的声纹特征和待验证文本；

获取当前场景类型；

查询与所述当前场景类型匹配、且与所述用户标识对应的特征模型；

通过所述特征模型，将所述待验证文本转换为参考声纹特征；

比较所述待验证的声纹特征和所述参考声纹特征，得到语音验证结果；

当所述语音验证结果表示验证通过时，则根据所述待验证的声纹特征对所述特征模型进行再训练；及

使用再训练后的特征模型更新与所述当前场景类型匹配、且与所述用户标识对应的特征模型。
根据权利要求11所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

获取身份验证指令；

响应于所述身份验证指令，获取用户标识；

查询对应于所述用户标识预配置的文本；

当未查询到所述文本时，随机生成文本；

反馈随机生成的所述文本；及

采集与反馈的所述文本相匹配的待验证语音信息。
根据权利要求11所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

解析所述待验证语音信息，得到相应的声波信号；

将所述声波信号分帧，得到每一帧的声波信号；

对所述每一帧的声波信号进行傅立叶变换，得到相应的频谱；

从所述频谱中提取单帧声纹特征；

根据每一帧的单帧声纹特征生成所述待验证语音信息的声纹特征；及

将所述声纹特征转化为待验证文本。
根据权利要求13所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

采集当前的噪音信息；

根据采集的噪音信息生成抗干扰模型；及

在解析得到声波信号后，通过所述抗干扰模型将解析得到的声波信号修正后，执行所述将所述声波信号分帧，得到每一帧的声波信号的步骤。
根据权利要求11所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

获取采集所述待验证语音信息的时间信息和/或地理位置信息；

查询与所述时间信息和/或地理位置信息相匹配的预设场景类型；及

将查询到的预设场景类型作为当前场景类型。
一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取待验证语音信息和相应的用户标识；

从所述待验证语音信息中提取待验证的声纹特征和待验证文本；

获取当前场景类型；

查询与所述当前场景类型匹配、且与所述用户标识对应的特征模型；

通过所述特征模型，将所述待验证文本转换为参考声纹特征；

比较所述待验证的声纹特征和所述参考声纹特征，得到语音验证结果；

当所述语音验证结果表示验证通过时，则根据所述待验证的声纹特征对所述特征模型进行再训练；及

使用再训练后的特征模型更新与所述当前场景类型匹配、且与所述用户标识对应的特征模型。
根据权利要求16所述的存储介质，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

获取身份验证指令；

响应于所述身份验证指令，获取用户标识；

查询对应于所述用户标识预配置的文本；

当未查询到所述文本时，随机生成文本；

反馈随机生成的所述文本；及

采集与反馈的所述文本相匹配的待验证语音信息。
根据权利要求16所述的存储介质，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

解析所述待验证语音信息，得到相应的声波信号；

将所述声波信号分帧，得到每一帧的声波信号；

对所述每一帧的声波信号进行傅立叶变换，得到相应的频谱；

从所述频谱中提取单帧声纹特征；

根据每一帧的单帧声纹特征生成所述待验证语音信息的声纹特征；及

将所述声纹特征转化为待验证文本。
根据权利要求18所述的存储介质，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

采集当前的噪音信息；

根据采集的噪音信息生成抗干扰模型；及

在解析得到声波信号后，通过所述抗干扰模型将解析得到的声波信号修正后，执行所述将所述声波信号分帧，得到每一帧的声波信号的步骤。
根据权利要求16所述的存储介质，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

获取采集所述待验证语音信息的时间信息和/或地理位置信息；

查询与所述时间信息和/或地理位置信息相匹配的预设场景类型；及

将查询到的预设场景类型作为当前场景类型。