WO2018129869A1

WO2018129869A1 - 声纹验证方法和装置

Info

Publication number: WO2018129869A1
Application number: PCT/CN2017/090171
Authority: WO
Inventors: 柳岸
Original assignee: 中兴通讯股份有限公司
Priority date: 2017-01-11
Filing date: 2017-06-27
Publication date: 2018-07-19
Also published as: CN108319829A; CN108319829B

Abstract

一种声纹验证方法和装置，其中，该方法包括：采集待验证的语音信息；在语音信息对应的声音波形中，提取声纹特征；将声音波形和预存的标准声音波形进行波形匹配，将声纹特征和预存的标准声纹特征进行特征匹配；以及如果波形匹配和特征匹配都匹配成功，则声纹验证通过。

Description

声纹验证方法和装置

技术领域

本公开涉及身份验证技术领域，例如涉及一种声纹验证方法和装置。

背景技术

随着语音技术的逐渐成熟，语音识别、从文本到语言(Text To Speech，TTS)合成、语种识别、声纹识别等多项技术被应用到语音领域。由于声纹具有唯一性，在建立声纹模型后，将用户输入的声纹与该声纹模型进行匹配，可以通过这种方式验证用户身份。

声纹虽然具有唯一性，但无法避免恶意模拟，比如：通过录音等手段模拟用户的声纹，可以成功通过身份验证，因此采用声纹进行身份验证存在安全隐患。

发明内容

一种声纹验证方法和装置，可以解决恶意模拟用户的声纹，通过身份验证的问题。

一种声纹验证方法，包括：

采集待验证的语音信息；

在所述语音信息对应的声音波形中，提取声纹特征；

将所述声音波形和预存的标准声音波形进行波形匹配，将所述声纹特征和预存的标准声纹特征进行特征匹配；以及

如果所述波形匹配和所述特征匹配都匹配成功，则声纹验证通过。

可选的，在所述采集待验证的语音信息之前，所述方法还包括：

截取用户输入的语音片段；以及

将所述语音片段的声音波形存储为所述预存的标准声音波形。

根据截取的所述语音片段生成随机密码并存储所述随机密码。

可选的，所述采集待验证的语音信息，包括：

获取预先存储的随机密码；

提示用户通过语音方式输入获取的所述随机密码；以及

采集所述用户通过语音方式输入的所述随机密码，作为待验证的语音信息。

可选的，将所述声音波形和预存的标准声音波形进行波形匹配，将所述声纹特征和预存的标准声纹特征进行特征匹配，包括：

将所述声音波形和预存的标准声音波形进行波形匹配，如果所述波形匹配不成功，则声纹验证不通过；如果所述波形匹配成功，则将所述声纹特征和预存的标准声纹特征进行特征匹配，如果所述特征匹配成功，则声纹验证通过，如果所述特征匹配不成功，则声纹验证不通过；

或者，

将所述声纹特征和预存的标准声纹特征进行特征匹配，如果所述特征匹配不成功，则声纹验证不通过；如果所述特征匹配成功，则将所述声音波形和预存的标准声音波形进行波形匹配，如果所述波形匹配成功，则声纹验证通过，如果所述波形匹配不成功，则声纹验证不通过。

可选的，在所述语音信息对应的声音波形中，提取声纹特征，包括：

将所述声音波形转换为声波频谱，在所述声波频谱中提取声纹特征。

一种声纹验证装置，包括：

采集模块，设置为采集待验证的语音信息；

提取模块，设置为在所述语音信息对应的声音波形中，提取声纹特征；以及

验证模块，设置为将所述声音波形和预存的标准声音波形进行波形匹配，将所述声纹特征和预存的标准声纹特征进行特征匹配；以及如果所述波形匹配和所述特征匹配都匹配成功，则声纹验证通过。

可选的，所述采集模块，还设置为：

在采集待验证的语音信息之前，截取用户输入的语音片段；以及

可选的，所述采集模块，还设置为：在所述采集待验证的语音信息之前，根据截取的所述语音片段生成随机密码并存储所述随机密码。

可选的，所述采集模块设置为：

获取预先存储的随机密码；

提示用户通过语音方式输入获取的所述随机密码；以及

可选的，所述验证模块设置为：

或者，

一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为执行上述方法。

一种终端设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行上述的方法。

以上技术方案不但对声纹特征进行匹配验证，还要对声音波形进行匹配验证，两个匹配验证都通过，才认定声纹验证通过。这样即便用户的声纹特征被恶意模拟，也不会发生声纹特征和声音波形同时被模拟的情况，进而通过以上技术方案避免了用户的声纹特征被恶意模拟，可以通过身份验证的问题。

附图说明

图1是第一实施例的声纹验证方法的流程图；

图2是第二实施例的声纹验证方法的流程图；

图3是第三实施例的声纹验证装置的结构图；以及

图4是一实施例的终端设备的硬件结构示意图。

具体实施方式

以下结合附图以及实施例，对以下技术方案进行详细说明。此处所描述的实施例仅仅用以解释技术方案。在不冲突的情况下，以下实施例以及实施例中的技术特征可以相互任意组合。

实施例一

本实施例提供一种声纹验证方法。图1是第一实施例的声纹验证方法的流程图。本实施例的执行主体可以为终端设备。

在步骤110中，采集待验证的语音信息。

在启动终端设备的声纹验证功能后，终端设备可以采集用户输入的语音信息，该语音信息为待验证的语音信息。在本实施例中，该语音信息可以是用户通过语音输入的语音密码。声纹可以是语音中蕴含的、能表征和标识说话人的语音特征。声纹特征可以是从说话人的语音中提取出来的、可以表征该说话人语音的个性特征的参数。采集语音信息可以包括：

启动声纹验证功能，提示用户语音通过语音输入语音密码，其中，语音密码可以是一段文字或数字，用户可以读出该段文字或数字；以及

通过终端设备的麦克风(Microphone)采集用户输入的语音密码。语音信号为语音信息的载体，语音信号为具有波形的声音，用户读出的语音密码承载在声音波形中。

在步骤120中，在该语音信息对应的声音波形中，提取声纹特征。

声音波形在终端设备中可以是采用二进制表示的串行比特流，声音波形承载用户输入的语音信息的波形。在输入同一语音密码时，由于多个用户的音色可能不同，说话方式也可能不同，导致多个用户的声音波形不同。

可以通过傅里叶变换将声音波形转换为声波频谱，在声波频谱中提取声纹特征。声纹特征可以综合表征声音的波长、频率、强度和节奏。每个用户的声纹特征具有唯一性。所述声纹特征可以是线性预测系数(Linear Prediction Coefficient，LPC)、感知线性预测(Perceptual Linear Predictive，PLP)系数或者梅尔倒谱系数(Mel-frequency Cepstrum Coefficient，MFCC)。

在步骤130中，将该声音波形和预存的标准声音波形进行波形匹配，将该声纹特征和预存的标准声纹特征进行特征匹配。

标准声音波形可以为使用终端设备的合法用户预先输入的语音信息的声音波形。

可以截取用户输入的语音片段；将截取的语音片段的声音波形作为标准声音波形进行存储；以及根据截取的语音片段生成随机密码并存储所述随机密码(语音密码)。语音片段可以是在用户输入的语音信息中截取的部分语音信息。例如：用户输入语音信息“今天天气不错”，在该语音信息中截取的部分语音信息可以是“天气不错”，该“天气不错”即是语音片段。可选地，随机密码可以是对语音片段进行语音识别而形成的文本信息。

在采集待验证的语音信息时，可以获取预先存储的随机密码；提示用户通过语音方式输入获取的所述随机密码；以及采集所述用户通过语音方式输入的所述随机密码，可以将采集的随机密码作为待验证的语音信息。

标准声纹特征合法用户的声纹特征。可以预先采集合法用户输入的语音信息，根据该语音信息提取出合法用户的声纹特征并存储为标准声纹特征。

波形匹配和特征匹配可以同时进行，或者按先后顺序进行。按先后顺序进行匹配时，可以先进行波形匹配，再进行特征匹配；也可以先进行特征匹配，再进行波形匹配。

波形匹配可以是计算用户输入的语音信号的声音波形和标准声音波形的相似度，如果波形的相似度大于预设的波形相似度阈值，则认定波形匹配，如果波形的相似度小于或等于预设的波形相似度阈值，则认定波形不匹配。波形相似度阈值为经验值或实验获得的值，例如为98％。

特征匹配可以是计算用户输入的语音信号的声纹特征和标准声纹特征的相似度，如果特征的相似度大于预设的特征相似度阈值，则认定特征匹配，如果特征的相似度小于或等于预设的特征相似度阈值，则认定特征不匹配。特征相似度阈值为经验值或实验获得的值，例如为98％。

在步骤140中，如果波形匹配和特征匹配都匹配成功，则声纹验证通过。

声纹验证通过，说明待验证的语音信息合法，输入该待验证的语音信息的用户为合法用户。

如果波形匹配和特征匹配中的一个或两个匹配失败，则声纹验证不通过。声纹验证不通过，说明输入待验证的语音信息的用户为非法用户。

本实施例不但对声纹特征进行匹配验证，还要对声音波形进行匹配验证，两个匹配验证都通过，才认定声纹验证通过。即便用户的声纹特征被恶意模拟，也不会发生声纹特征和声音波形同时被模拟的情况，避免了用户的声纹特征被恶意模拟，通过身份验证的现象，提升身份验证的安全性。

实施例二

在本实施例中，可以先将声音波形和预存的标准声音波形进行波形匹配，如果所述波形匹配不成功，则声纹验证不通过；如果波形匹配成功，则再将声纹特征和预存的标准声纹特征进行特征匹配；如果特征匹配成功，则声纹验证通过，如果所述特征匹配不成功，则声纹验证不通过。也可以先将声纹特征和预存的标准声纹特征进行特征匹配，如果所述特征匹配不成功，则声纹验证不通过；如果特征匹配成功，则将声音波形和预存的标准声音波形进行波形匹配，如果波形匹配成功，则声纹验证通过，如果所述波形匹配不成功，则声纹验证不通过。

图2是第二实施例的声纹验证方法的流程图。

在步骤210中，提取用户的标准声纹特征。

提示用户输入语音信息，录制用户输入的语音信息，在该语音信息中，提取用户的声纹特征，将用户的声纹特征存储到声纹模型库中。

该步骤210可以在终端设备初始化时进行。

在步骤220中，截取用户输入的语音片段。

为了提升声纹验证的安全性，可以在每次声纹验证通过之后，截取用户输入的语音片段，将该语音片段对应的标准声音波形以及根据语音片段生成的随机密码用在下一次声纹验证中，每次进行声纹验证，用户可以输入新生成的随机密码，使用新存储的标准声音波形。在首次进行声纹验证时，可以在提取标准声纹特征时所使用的语音信息中，截取语音片段，根据该语音片段生成随机密码，并将该语音片段的声音波形作为标准声音波形。

在步骤230中，根据该语音片段生成随机密码并存储随机密码，以及将该语音片段的声音波形作为标准声音波形进行存储。

可选的，在用户使用语音功能的过程中，录制用户输入的语音信息；在录制的所述语音信息中，截取多个语音片段；将多个所述语音片段的声音波形都作为标准声音波形进行存储。可以根据每个所述语音片段生成一个随机密码；并存储多个所述语音片段分别对应的随机密码。

例如：在用户通话过程中，录制通话内容，截取用户的语音片段，根据该语音片段生成随机密码，并将该语音片段的声音波形作为标准声音波形。

在步骤240中，在进行声纹验证时，提示用户语音输入与语音片段对应的随机密码。

用户可以启动终端设备的声纹验证功能进行本次声纹验证。在存储的多个随机密码中，获取其中一个随机密码，在屏幕中显示该随机密码，并提示用户通过语音方式输入该随机密码。例如：语音片段为“天气不错”，可以提示用户语音输入“天气不错”。

在步骤250中，采集该用户根据所述提示语音输入的随机密码，形成待验证的语音信息。

在步骤260中，将该语音信息的声音波形和标准声音波形进行波形匹配。如果波形匹配成功，则执行步骤270；如果波形匹配失败，则执行步骤290。

在步骤270中，将该语音信息的声纹特征和标准声纹特征进行特征匹配。如果特征匹配成功，则执行步骤280；如果特征匹配失败，则执行步骤290。

在步骤280中，声纹验证通过。

在步骤290中，声纹验证不通过。

本实施例的当前需要用户输入的语音片段与前一次需要用户输入的语音片段不同，当前使用的标准声音波形与前一次使用的标准声音波形不同，在进行特征匹配之前，可以先确定用户的声音波形是否和存储的语音片段的声音波形是否匹配，在波形匹配成功的前提下，进行特征匹配，提高了用户身份验证的安全性。

实施例三

本实施例提供一种声纹验证装置。图3是第三实施例的声纹验证装置的结构图。本实施例的所述装置可以设置在终端设备中。

该装置包括：采集模块310、提取模块320以及验证模块33。

采集模块310设置为采集待验证的语音信息。

提取模块320设置为在所述语音信息对应的声音波形中，提取声纹特征。

验证模块330设置为将所述声音波形和预存的标准声音波形进行波形匹配，将所述声纹特征和预存的标准声纹特征进行特征匹配；以及如果所述波形匹配和所述特征匹配都匹配成功，则声纹验证通过。

在一个实施例中，采集模块310，还可以设置为在采集待验证的语音信息之前，截取用户输入的语音片段；以及将所述语音片段的声音波形存储为为所述预存的标准声音波形。

在一实施例中，采集模块310，还可以设置为在所述采集待验证的语音信息之前，根据截取的所述语音片段生成随机密码并存储所述随机密码。

在一实施例中，采集模块310可以设置为获取预先存储的随机密码；提示用户通过语音方式输入获取的所述随机密码；以及采集所述用户通过语音方式输入的所述随机密码作为待验证的语音信息。

在一实施例中，验证模块330可以设置为：将所述声音波形和预存的标准声音波形进行波形匹配，如果所述波形匹配不成功，则声纹验证不通过；如果所述波形匹配成功，则将所述声纹特征和预存的标准声纹特征进行特征匹配，如果所述特征匹配成功，则声纹验证通过，如果所述特征匹配不成功，则声纹验证不通过；或者，验证模块330可以设置为：将所述声纹特征和预存的标准声纹特征进行特征匹配，如果所述特征匹配不成功，则声纹验证不通过；如果所述特征匹配成功，则将所述声音波形和预存的标准声音波形进行波形匹配，如果所述波形匹配成功，则声纹验证通过，如果所述波形匹配不成功，则声纹验证不通过。

本实施例所述的装置的功能在图1～2所示的方法实施例中进行了描述，故本实施例的描述中未详尽之处，可以参见前述实施例中的相关说明。

本实施例提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为执行上述任一实施例中的方法。

本实施例提供了一种终端设备的硬件结构示意图。参见图4，该终端设备包括：

至少一个处理器(processor)40，图4中以一个处理器40为例；存储器(memory)41、语音输入设备(如麦克风)42以及显示器43；还可以包括通信接口(Communications Interface)44和总线45。其中，处理器40、存储器41、语音输入设备(如麦克风)42、显示器43以及通信接口44可以通过总线45完成相互间的通信。语音输入设备(如麦克风)42可以采集语音信息。显示器43可以显示供用户读取的随机密码。通信接口44可以接收信号，也可以传输语音数据、图像数据或视频数据。处理器40可以调用存储器41中的逻辑指令，以执行上述实施例的方法。

此外，上述的存储器41中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器41作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序，如上述实施例中的方法对应的程序指令或模块。处理器40通过运行存储在存储器41中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。

存储器41可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器41可以包括高速随机存取存储器，还可以包括非易失性存储器。

以上技术方案可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括一个或多个指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行上述实施例所述方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质，包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

工业实用性

一种声纹验证方法和装置，避免了用户的声纹特征被恶意模拟时，通过身份验证的现象，提高了声纹验证的安全性。

Claims

一种声纹验证方法，包括：

采集待验证的语音信息；

在所述语音信息对应的声音波形中，提取声纹特征；

将所述声音波形和预存的标准声音波形进行波形匹配，将所述声纹特征和预存的标准声纹特征进行特征匹配；以及

如果所述波形匹配和所述特征匹配都匹配成功，则声纹验证通过。
如权利要求1所述的方法，在所述采集待验证的语音信息之前，所述方法还包括：

截取用户输入的语音片段；以及

将所述语音片段的声音波形存储为所述预存的标准声音波形。
如权利要求2所述的方法，在所述采集待验证的语音信息之前，所述方法还包括：

根据截取的所述语音片段生成随机密码并存储所述随机密码。
如权利要求3所述的方法，所述采集待验证的语音信息，包括：

获取预先存储的随机密码；

提示用户通过语音方式输入获取的所述随机密码；以及

采集所述用户通过语音方式输入的所述随机密码，作为待验证的语音信息。
如权利要求1所述的方法，其中，将所述声音波形和预存的标准声音波形进行波形匹配，将所述声纹特征和预存的标准声纹特征进行特征匹配，包括：

将所述声音波形和预存的标准声音波形进行波形匹配，如果所述波形匹配不成功，则声纹验证不通过；如果所述波形匹配成功，则将所述声纹特征和预存的标准声纹特征进行特征匹配，如果所述特征匹配成功，则声纹验证通过，如果所述特征匹配不成功，则声纹验证不通过；

或者，

将所述声纹特征和预存的标准声纹特征进行特征匹配，如果所述特征匹配不成功，则声纹验证不通过；如果所述特征匹配成功，则将所述声音波形和预存的标准声音波形进行波形匹配，如果所述波形匹配成功，则声纹验证通过，如果所述波形匹配不成功，则声纹验证不通过。
如权利要求1所述的方法，其中，在所述语音信息对应的声音波形中，提取声纹特征，包括：

将所述声音波形转换为声波频谱，在所述声波频谱中提取声纹特征。
一种声纹验证装置，包括：

采集模块，设置为采集待验证的语音信息；

提取模块，设置为在所述语音信息对应的声音波形中，提取声纹特征；以及

验证模块，设置为将所述声音波形和预存的标准声音波形进行波形匹配，将所述声纹特征和预存的标准声纹特征进行特征匹配；以及如果所述波形匹配和所述特征匹配都匹配成功，则声纹验证通过。
如权利要求7所述的装置，其中，所述采集模块，还设置为：

在采集待验证的语音信息之前，截取用户输入的语音片段；以及

将所述语音片段的声音波形存储为所述预存的标准声音波形。
如权利要求8所述的装置，其中，所述采集模块，还设置为：在所述采集待验证的语音信息之前，根据截取的所述语音片段生成随机密码并存储所述随机密码。
如权利要求9所述的装置，其中，所述采集模块设置为：

获取预先存储的随机密码；

提示用户通过语音方式输入获取的所述随机密码；以及

采集所述用户通过语音方式输入的所述随机密码，作为待验证的语音信息。
如权利要求7所述的装置，其中，所述验证模块设置为：

将所述声音波形和预存的标准声音波形进行波形匹配，如果所述波形匹配不成功，则声纹验证不通过；如果所述波形匹配成功，则将所述声纹特征和预存的标准声纹特征进行特征匹配，如果所述特征匹配成功，则声纹验证通过，如果所述特征匹配不成功，则声纹验证不通过；

或者，

将所述声纹特征和预存的标准声纹特征进行特征匹配，如果所述特征匹配不成功，则声纹验证不通过；如果所述特征匹配成功，则将所述声音波形和预存的标准声音波形进行波形匹配，如果所述波形匹配成功，则声纹验证通过，如果所述波形匹配不成功，则声纹验证不通过。
如权利要求7所述的方法，其中，在所述语音信息对应的声音波形中，提取声纹特征，包括：

将所述声音波形转换为声波频谱，在所述声波频谱中提取声纹特征。
一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为执行权利要求1-6中任一项的方法。