WO2021127994A1

WO2021127994A1 - 一种声纹识别方法、装置、设备和储存介质

Info

Publication number: WO2021127994A1
Application number: PCT/CN2019/127967
Authority: WO
Inventors: 陈昊亮; 罗伟航
Original assignee: 广州国音智能科技有限公司
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2021-07-01
Also published as: CN111149154A; CN111149154B

Abstract

一种声纹识别方法、装置、设备和储存介质，其中方法包括：获取待识别语音（101）；提取待识别语音的第一语谱图（102）；将第一语谱图输入到预置受限玻尔兹曼机中进行特征提取（103）；将提取的特征输入到预置SVM分类器中，得到待识别语音的识别结果（104）。该方法通过预置受限玻尔兹曼机对提取的样本语音的第一语谱图进行特征提取，将提取的特征输入到预置SVM分类器中进行分类识别，解决了现有的声纹识别方法通过人工比对频谱图进行识别，存在的识别效率低和准确率低的技术问题。

Description

一种声纹识别方法、装置、设备和储存介质

技术领域

本申请涉及声纹识别技术领域，尤其涉及一种声纹识别方法、装置、设备和储存介质。

背景技术

声纹识别是指通过未知说话人或不确定说话人的语音声学特征与已知说话人的语音声学特征进行综合分析比对，做出两者是否同一的结论的过程。现有的声纹识别方法通常是将样本语音的频谱图与检材语音的频谱图进行人工比对，得到声纹识别结果，该方法存在效率低和识别准确率低的问题。

发明内容

本申请提供了一种声纹识别方法、装置、设备和储存介质，用于解决现有的声纹识别方法通过人工比对频谱图进行识别，存在的识别效率低和准确率低的技术问题。

有鉴于此，本申请第一方面提供了一种声纹识别方法，包括：

获取待识别语音；

提取所述待识别语音的第一语谱图；

将所述第一语谱图输入到预置受限玻尔兹曼机中进行特征提取；

将提取的特征输入到预置SVM分类器中，得到所述待识别语音的识别结果。

优选地，所述将所述第一语谱图输入到预置受限玻尔兹曼机中进行特征提取，之前还包括：

获取训练样本语音数据集；

提取所述训练样本语音数据集中的训练样本语音的第二语谱图；

将所述第二语谱图输入到受限玻尔兹曼机，对所述受限玻尔兹曼机进行优化训练，得到目标参数，所述目标参数包括权重参数、可视单元的偏置和隐藏单元的偏置；

基于多目标优化算法对所述隐藏单元的偏置进行优化，得到优化后的所述受限玻尔兹曼机；

将所述第二语谱图输入到优化后的所述受限玻尔兹曼机进行特征提取，使得优化后的所述受限玻尔兹曼机输出声纹特征；

将所述声纹特征输入到SVM分类器中，对所述SVM分类器进行训练；

计算所述SVM分类器对训练样本语音数据集的识别率；

当所述识别率小于阈值时，返回所述将所述第二语谱图输入到受限玻尔兹曼机，对所述受限玻尔兹曼机进行优化训练，得到目标参数的步骤；

当所述识别率大于或等于所述阈值时，得到训练好的所述受限玻尔兹曼机和训练好的所述SVM分类器，将训练好的所述受限玻尔兹曼机作为所述预置受限玻尔兹曼机，将训练好的所述SVM分类器作为所述预置SVM分类器。

优选地，所述基于多目标优化算法对所述隐藏单元的偏置进行优化，得到优化后的所述受限玻尔兹曼机，包括：

在所述隐藏单元的偏置中随机选取若干个偏置参数，生成第一偏置数据集；

基于多目标优化算法对所述第一偏置数据集进行优化，得到第二偏置数据集；

基于所述第二偏置数据集对所述第一偏置数据集中的偏置参数进行更新，得到优化后的所述受限玻尔兹曼机。

优选地，所述提取所述待识别语音的第一语谱图，之前还包括：

对所述待识别语音进行预处理。

本申请第二方面提供了一种声纹识别装置，包括：

第一获取模块，用于获取待识别语音；

第一提取模块，用于提取所述待识别语音的第一语谱图；

第二提取模块，用于将所述第一语谱图输入到预置受限玻尔兹曼机中进行特征提取；

识别模块，用于将提取的特征输入到预置SVM分类器中，得到所述待识别语音的识别结果。

优选地，还包括：

第二获取模块，用于获取训练样本语音数据集；

第三提取模块，用于提取所述训练样本语音数据集中的训练样本语音的第二语谱图；

第一训练模块，用于将所述第二语谱图输入到受限玻尔兹曼机，对所述受限玻尔兹曼机进行优化训练，得到目标参数，所述目标参数包括权重参数、可视单元的偏置和隐藏单元的偏置；

优化模块，用于基于多目标优化算法对所述隐藏单元的偏置进行优化，得到优化后的所述受限玻尔兹曼机；

第四提取模块，用于将所述第二语谱图输入到优化后的所述受限玻尔兹曼机进行特征提取，使得优化后的所述受限玻尔兹曼机输出声纹特征；

第二训练模块，用于将所述声纹特征输入到SVM分类器中，对所述SVM分类器进行训练；

计算模块，用于计算所述SVM分类器对训练样本语音数据集的识别率；

触发模块，用于当所述识别率小于阈值时，触发所述第一训练模块；

输出模块，用于当所述识别率大于或等于所述阈值时，得到训练好的所述受限玻尔兹曼机和训练好的所述SVM分类器，将训练好的所述受限玻尔兹曼机作为所述预置受限玻尔兹曼机，将训练好的所述SVM分类器作为所述预置SVM分类器。

优选地，所述优化模块具体用于：

优选地，还包括：

预处理模块，用于对所述待识别语音进行预处理。

本申请第三方面提供了一种声纹识别设备，所述设备包括处理器以及存储器；

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令第一方面任一种所述的声纹识别方法。

本申请第四方面提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面任一种所述的声纹识别方法。

从以上技术方案可以看出，本申请具有以下优点：

本申请提供了一种声纹识别方法，包括：获取待识别语音；提取待识别语音的第一语谱图；将第一语谱图输入到预置受限玻尔兹曼机中进行特征提取；将提取的特征输入到预置SVM分类器中，得到待识别语音的识别结果。本申请通过预置受限玻尔兹曼机对提取的样本语音的第一语谱图进行特征提取，将提取的特征输入到预置SVM分类器中进行分类识别，不需要通过人工比对频谱图的识别方式进行声纹识别，解决了现有的声纹识别方法通过人工比对频谱图进行识别，存在的识别效率低和准确率低的技术问题。

附图说明

图1为本申请实施例中提供的一种声纹识别方法的一个流程示意图；

图2为本申请实施例中提供的一种声纹识别方法的另一个流程示意图；

图3为本申请实施例中提供的一种声纹识别装置的一个结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，请参阅图1，本申请提供的一种声纹识别方法的一个实施例，包括：

步骤101、获取样本语音。

需要说明的是，可以通过语音录制设备获得样本语音。

步骤102、提取待识别语音的第一语谱图。

需要说明的是，可以通过语谱图仪获取待识别语音的第一语谱图。

步骤103、将第一语谱图输入到预置受限玻尔兹曼机中进行特征提取。

需要说明的是，其中，预置受限玻尔兹曼机可以是训练好的受限玻尔兹曼机。

步骤104、将提取的特征输入到预置SVM分类器中，得到待识别语音的识别结果。

需要说明的是，预置SVM分类器可以是训练好的SVM分类器。

本申请实施例中的声纹识别方法，通过预置受限玻尔兹曼机对提取的样本语音的第一语谱图进行特征提取，将提取的特征输入到预置SVM分类器中进行分类识别，解决了现有的声纹识别方法通过人工比对频谱图进行识别，存在的识别效率低和准确率低的技术问题。

为了便于理解，请参阅图2，本申请提供的一种声纹识别方法的另一个实施例，包括：

步骤201、获取训练样本语音数据集。

需要说明的是，可以在声纹识别数据库中获取训练样本语音数据集。

步骤202、提取训练样本语音数据集中的训练样本语音的第二语谱图。

需要说明的是，可以通过语谱图仪获取训练样本语音的第二语谱图，在提取第二语谱图之前，可以对训练样本语音数据集中的训练样本语音进行去噪预处理，降低环境噪声或通道噪声对识别结果的影响。

步骤203、将第二语谱图输入到受限玻尔兹曼机，对受限玻尔兹曼机进行优化训练，得到目标参数。

需要说明的是，目标参数包括权重参数、可视单元的偏置和隐藏单元的偏置。

步骤204、基于多目标优化算法对隐藏单元的偏置进行优化，得到优化后的受限玻尔兹曼机。

需要说明的是，在隐藏单元的偏置中随机选取若干个偏置参数，生成第一偏置数据集；基于多目标优化算法对第一偏置数据集进行优化，得到第二偏置数据集，其中，采用多目标优化算法对数据集进行优化属于现有技术，在此，不再对优化的具体过程进行赘述；基于第二偏置数据集对第一偏置数据集中的偏置参数进行更新，具体是将第二偏置数据集的配置参数替换第一偏置数据集中的偏置参数，得到优化后的受限玻尔兹曼机。

步骤205、将第二语谱图输入到优化后的受限玻尔兹曼机进行特征提取，使得优化后的受限玻尔兹曼机输出声纹特征。

需要说明的是，采用优化后的受限玻尔兹曼机进行特征提取，提取的特征有利于提高识别率。

步骤206、将声纹特征输入到SVM分类器中，对SVM分类器进行训练。

步骤207、计算SVM分类器对训练样本语音数据集的识别率。

需要说明的是，识别率为正确识别的训练样本语音数量与训练样本语音数据集的数量的比值。

步骤208、当识别率小于阈值时，返回步骤203，当识别率大于或等于阈值时，得到训练好的受限玻尔兹曼机和训练好的SVM分类器，将训练好的受限玻尔兹曼机作为预置受限玻尔兹曼机，将训练好的SVM分类器作为预置SVM分类器。

需要说明的是，需要说明的是，当识别率小于阈值时，说明受限玻尔兹曼机和SVM分类器均未训练好，返回步骤203，继续迭代训练；当识别率大于或等于阈值时，得到训练好的受限玻尔兹曼机和训练好的SVM分类器，训练好的受限玻尔兹曼机和训练好的SVM分类器可以用于声纹识别。

步骤209、获取样本语音。

需要说明的是，可以通过语音录制设备获得样本语音。

步骤210、提取待识别语音的第一语谱图。

需要说明的是，可以通过语谱图仪获取待识别语音的第一语谱图，在提取待识别语音的第一语谱图前可以对待识别语音进行去噪预处理，以降低噪声对识别结果的影响。

步骤211、将第一语谱图输入到预置受限玻尔兹曼机中进行特征提取。

步骤212、将提取的特征输入到预置SVM分类器中，得到待识别语音的识别结果。

需要说明的是，步骤211和步骤212与步骤103和步骤104一致，在此不再进行赘述。

为了便于理解，请参阅图3，本申请提供的一种声纹识别装置的一个实施例，包括：

第一获取模块301，用于获取待识别语音。

第一提取模块302，用于提取待识别语音的第一语谱图。

第二提取模块303，用于将第一语谱图输入到预置受限玻尔兹曼机中进行特征提取。

识别模块304，用于将提取的特征输入到预置SVM分类器中，得到待识别语音的识别结果。

进一步地，还包括：

第二获取模块305，用于获取训练样本语音数据集。

第三提取模块306，用于提取训练样本语音数据集中的训练样本语音的第二语谱图。

第一训练模块307，用于将第二语谱图输入到受限玻尔兹曼机，对受限玻尔兹曼机进行优化训练，得到目标参数，目标参数包括权重参数、可视单元的偏置和隐藏单元的偏置。

优化模块308，用于基于多目标优化算法对隐藏单元的偏置进行优化，得到优化后的所述受限玻尔兹曼机。

第四提取模块309，用于将第二语谱图输入到优化后的受限玻尔兹曼机进行特征提取，使得优化后的受限玻尔兹曼机输出声纹特征。

第二训练模块310，用于将声纹特征输入到SVM分类器中，对SVM分类器进行训练。

计算模块311，用于计算SVM分类器对训练样本语音数据集的识别率。

触发模块312，用于当识别率小于阈值时，触发第一训练模块。

输出模块313，用于当识别率大于或等于阈值时，得到训练好的受限玻尔兹曼机和训练好的SVM分类器，将训练好的受限玻尔兹曼机作为预置受限玻尔兹曼机，将训练好的SVM分类器作为预置SVM分类器。

进一步地，优化模块308具体用于：

在隐藏单元的偏置中随机选取若干个偏置参数，生成第一偏置数据集；

基于多目标优化算法对第一偏置数据集进行优化，得到第二偏置数据集；

基于第二偏置数据集对第一偏置数据集中的偏置参数进行更新，得到优化后的受限玻尔兹曼机。

进一步地，还包括：

预处理模块314，用于对待识别语音进行预处理。

本申请提供了一种声纹识别设备的一个实施例，设备包括处理器以及存储器；

存储器用于存储程序代码，并将程序代码传输给处理器；

处理器用于根据程序代码中的指令执行前述声纹识别方法实施例中的声纹识别方法。

本申请提供了一种计算机可读存储介质的一个实施例，计算机可读存储介质用于存储程序代码，程序代码用于执行前述声纹识别方法实施例中的声纹识别方法

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以通过一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-Only Memory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种声纹识别方法，其特征在于，包括：

获取待识别语音；

提取所述待识别语音的第一语谱图；

将所述第一语谱图输入到预置受限玻尔兹曼机中进行特征提取；

将提取的特征输入到预置SVM分类器中，得到所述待识别语音的识别结果。
根据权利要求1所述的声纹识别方法，其特征在于，所述将所述第一语谱图输入到预置受限玻尔兹曼机中进行特征提取，之前还包括：

获取训练样本语音数据集；

提取所述训练样本语音数据集中的训练样本语音的第二语谱图；

将所述第二语谱图输入到受限玻尔兹曼机，对所述受限玻尔兹曼机进行优化训练，得到目标参数，所述目标参数包括权重参数、可视单元的偏置和隐藏单元的偏置；

基于多目标优化算法对所述隐藏单元的偏置进行优化，得到优化后的所述受限玻尔兹曼机；

将所述第二语谱图输入到优化后的所述受限玻尔兹曼机进行特征提取，使得优化后的所述受限玻尔兹曼机输出声纹特征；

将所述声纹特征输入到SVM分类器中，对所述SVM分类器进行训练；

计算所述SVM分类器对训练样本语音数据集的识别率；

当所述识别率小于阈值时，返回所述将所述第二语谱图输入到受限玻尔兹曼机，对所述受限玻尔兹曼机进行优化训练，得到目标参数的步骤；

当所述识别率大于或等于所述阈值时，得到训练好的所述受限玻尔兹曼机和训练好的所述SVM分类器，将训练好的所述受限玻尔兹曼机作为所述预置受限玻尔兹曼机，将训练好的所述SVM分类器作为所述预置SVM分类器。
根据权利要求2所述的声纹识别方法，其特征在于，所述基于多目标优化算法对所述隐藏单元的偏置进行优化，得到优化后的所述受限玻尔兹曼机，包括：

在所述隐藏单元的偏置中随机选取若干个偏置参数，生成第一偏置数据集；

基于多目标优化算法对所述第一偏置数据集进行优化，得到第二偏置数据集；

基于所述第二偏置数据集对所述第一偏置数据集中的偏置参数进行更新，得到优化后的所述受限玻尔兹曼机。
根据权利要求1所述的声纹识别方法，其特征在于，所述提取所述待识别语音的第一语谱图，之前还包括：

对所述待识别语音进行预处理。
一种声纹识别装置，其特征在于，包括：

第一获取模块，用于获取待识别语音；

第一提取模块，用于提取所述待识别语音的第一语谱图；

第二提取模块，用于将所述第一语谱图输入到预置受限玻尔兹曼机中进行特征提取；

识别模块，用于将提取的特征输入到预置SVM分类器中，得到所述待识别语音的识别结果。
根据权利要求5所述的声纹识别装置，其特征在于，还包括：

第二获取模块，用于获取训练样本语音数据集；

第三提取模块，用于提取所述训练样本语音数据集中的训练样本语音的第二语谱图；

第一训练模块，用于将所述第二语谱图输入到受限玻尔兹曼机，对所述受限玻尔兹曼机进行优化训练，得到目标参数，所述目标参数包括权重参数、可视单元的偏置和隐藏单元的偏置；

优化模块，用于基于多目标优化算法对所述隐藏单元的偏置进行优化，得到优化后的所述受限玻尔兹曼机；

第四提取模块，用于将所述第二语谱图输入到优化后的所述受限玻尔兹曼机进行特征提取，使得优化后的所述受限玻尔兹曼机输出声纹特征；

第二训练模块，用于将所述声纹特征输入到SVM分类器中，对所述SVM分类器进行训练；

计算模块，用于计算所述SVM分类器对训练样本语音数据集的识别率；

触发模块，用于当所述识别率小于阈值时，触发所述第一训练模块；

输出模块，用于当所述识别率大于或等于所述阈值时，得到训练好的所述受限玻尔兹曼机和训练好的所述SVM分类器，将训练好的所述受限玻尔兹曼机作为所述预置受限玻尔兹曼机，将训练好的所述SVM分类器作为所述预置SVM分类器。
根据权利要求6所述的声纹识别装置，其特征在于，所述优化模块具体用于：

在所述隐藏单元的偏置中随机选取若干个偏置参数，生成第一偏置数据集；

基于多目标优化算法对所述第一偏置数据集进行优化，得到第二偏置数据集；

基于所述第二偏置数据集对所述第一偏置数据集中的偏置参数进行更新，得到优化后的所述受限玻尔兹曼机。
根据权利要求5所述的声纹识别装置，其特征在于，还包括：

预处理模块，用于对所述待识别语音进行预处理。
一种声纹识别设备，其特征在于，所述设备包括处理器以及存储器；

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行权利要求1-4任一项所述的声纹识别方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-4任一项所述的声纹识别方法。