WO2022134587A1

WO2022134587A1 - 声纹识别方法、装置、存储介质及计算机设备

Info

Publication number: WO2022134587A1
Application number: PCT/CN2021/109597
Authority: WO
Inventors: 王德勋; 徐国强
Original assignee: 深圳壹账通智能科技有限公司
Priority date: 2020-12-22
Filing date: 2021-07-30
Publication date: 2022-06-30
Also published as: CN112466311A; CN112466311B

Abstract

提供了一种声纹识别方法、装置、计算机设备及存储介质。该方法包括：获取待识别用户的声纹数据（101）；提取声纹数据对应的声纹特征（102）；将声纹特征输入至预设声纹识别模型进行声纹识别，得到待识别用户对应的声纹识别结果，其中，预设声纹识别模型中的超参数是通过预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的（103）。该方法通过构建余弦边缘损失函数，自动调整声纹识别模型的超参数，确保超参数设定的准确度，提升声纹识别模型的识别精度。

Description

声纹识别方法、装置、存储介质及计算机设备

本申请要求于2020年12月22日提交中国专利局、申请号为202011526763.1，申请名称为“声纹识别方法、装置、存储介质及计算机设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请属于人工智能技术领域，尤其涉及一种声纹识别方法、装置、存储介质及计算机设备。

背景技术

声纹识别技术目前已逐渐应用在声纹锁、金融反欺诈、智能客服等多个领域中，并持续输出有作用的决策，为了得到识别精度较高的声纹识别模型，训练过程中除了必要的数据支撑，还需要对模型的超参数进行精细调整。

目前，在声纹识别的过程中，通常通过人为手动的方式对声纹识别模型的超参数进行调整，进而依据调整后的模型进行声纹识别。然而，申请人意识到，这种超参数的设定方式过于依赖业务人员的人为经验，很可能会导致超参数的设定不够准确，进而影响声纹识别模型的识别精度。

技术问题

本申请提供了一种声纹识别方法、装置、存储介质及计算机设备，能够提升声纹识别模型的识别精度。

技术解决方案

根据本申请的第一个方面，提供一种声纹识别方法，包括：

获取待识别用户的声纹数据；

提取所述声纹数据对应的声纹特征；

将所述声纹特征输入至预设声纹识别模型进行声纹识别，得到所述待识别用户对应的声纹识别结果，其中，所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的。

根据本申请的第二个方面，提供一种声纹识别装置，包括：

获取单元，用于获取待识别用户的声纹数据；

提取单元，用于提取所述声纹数据对应的声纹特征；

识别单元，用于将所述声纹特征输入至预设声纹识别模型进行声纹识别，得到所述待识别用户对应的声纹识别结果，其中，所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的。

根据本申请的第三个方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：

获取待识别用户的声纹数据；

提取所述声纹数据对应的声纹特征；

根据本申请的第四个方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤：

获取待识别用户的声纹数据；

提取所述声纹数据对应的声纹特征；

有益效果

本申请提供的一种声纹识别方法、装置、存储介质及计算机设备，能够保证声纹识别模型中超参数设定的准确度，提升声纹识别模型的识别精度。

附图说明

图1示出了本申请实施例提供的一种声纹识别方法流程图；

图2示出了本申请实施例提供的另一种声纹识别方法流程图；

图3示出了本申请实施例提供的关系曲线图；

图4示出了本申请实施例提供的一种声纹识别装置的结构示意图；

图5示出了本申请实施例提供的另一种视声纹识别装置的结构示意图；

图6示出了本申请实施例提供的一种计算机设备的实体结构示意图。

本申请的实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

目前，在声纹识别的过程中，通常通过人为手动的方式对声纹识别模型的超参数进行调整，进而依据调整后的模型进行声纹识别。然而，这种超参数的设定方式过于依赖业务人员的人为经验，很可能会导致超参数的设定不够准确，进而影响声纹识别模型的识别精度。

为了解决上述问题，本申请实施例提供了一种视频帧语义信息的提取方法，如图1所示，所述方法包括：

101、获取待识别用户的声纹数据。

其中，待识别用户为需要通过声纹识别进行身份确认的用户，为了解决现有技术中人为手动调整声纹识别模型的超参数，造成声纹识别模型的识别精度较低的问题，本申请实施例通过构建余弦边缘损失函数，根据该余弦边缘损失函数，确定声纹识别模型在最佳收敛情况下的样本声纹数据与类别权重的向量夹角及其对应的分类概率，进而根据该向量夹角及其对应的分类概率，自动调整声纹识别模型中的超参数。

对于本申请实施例，声纹识别技术可以应用不同的场景中，例如，声纹锁对待识别用户的声纹数据进行识别，根据声纹识别结果判断其是否为有解锁权限的用户，如果待识别用户为有解锁权限的用户，则声纹锁会启动解锁指令；如果待识别用户是没有解锁权限的用户，则声纹锁不会启动解锁指令，具体地，在进行声纹识别之前，可以利用标准的声纹采集设备或者终端采集待识别用户的声纹数据，以便根据采集的声纹数据对待识别用户的身份进行确认。

102、提取所述声纹数据对应的声纹特征。

对于本申请实施例，可以将声纹数据对应的梅尔倒谱系数作为声纹数据对应的声纹特征，具体地，在对声纹数据进行特征提取之前需要对声纹数据进行预处理，该预处理过程具体包括预加重、分帧和加窗函数处理，从而使得待识别用户的声纹数据变得平坦，即将声纹数据的每N个采用点合成一个观测单位(帧)，帧的左右端具有连续性，在对待识别用户的声纹数据进行预处理之后，需要对预处理后的声纹数据进行快速傅里叶转换，得到转换后的声纹数据，之后将转换后的声纹数据输入Mel滤波器，计算转换后的声纹数据通过Mel滤波器后的声纹能量，接着根据声纹数据对应的声纹能量，计算声纹数据对应的梅尔倒谱系数，并将该梅尔倒谱系数确定为待识别用户的声纹数据对应的声纹特征，以便依据声纹数据对应的声纹特征，进行声纹识别。

103、将所述声纹特征输入至预设声纹识别模型进行声纹识别，得到所述待识别用户对应的声纹识别结果。

其中，所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的，该预设声纹识别模型具体可以为神经网络模型，提取的声纹特征输入该声纹识别模型进行声纹识别，具体公式如下：

y＝softmax(Wx+b)

其中，x为待识别用户对应的声纹特征，W和b为神经网络模型中的参数，y为待识别用户为不同权限用户的概率值，例如，有声纹锁解锁权限的用户分别为A、B和C，如果从神经网络模型输出的结果中确定待识别用户为用户A的概率值为0.2，为用户B的概率值为0.1，为用户C的概率值为0.5，为其他用户的概率值为0.2，则可以认为待识别用户为用户C，其具有解锁权限，声纹锁会启动解锁指令；如果从神经网络模型输出的结果中确定待识别用户为用户A的概率值为0.2，为用户B的概率值为0.1，为用户C的概率值为0.2，为其他用户的概率值为0.5，则可以认为待识别用户为没有权限的用户，声纹锁不会启动解锁指令。

此外，利用声纹识别模型进行声纹识别之前，需要对其进行训练，具体地，从样本声纹库中获取大量样本声纹数据，并根据样本声纹数据对应的用户进行样本标注，利用标注后的样本声纹数据对初始神经网络模型进行训练，构建预设声纹识别模型，在对模型训练的过程中，还需要不断优化调整预设声纹识别模型的超参数，以便提高预设声纹识别模型的识别精度，具体在设定超参数的过程中，可以构建余弦边缘损失函数，根据该预先边缘损失函数，确定预设声纹识别模型在最佳收敛状态下样本声纹数据与类别权重的夹角向量及其对应的分类概率值，进而根据该夹角向量及其对应的分类概率值，自动调整预设声纹识别模型的超参数，确保超参数设置的准确度，提升预设声纹识别模型的识别精度。

本申请实施例提供的一种声纹识别方法，与目前人为手动调整声纹识别模型的超参数的方式相比，本申请能够获取待识别用户的声纹数据；并提取所述声纹数据对应的声纹特征；与此同时，将所述声纹特征输入至预设声纹识别模型进行声纹识别，得到所述待识别用户对应的声纹识别结果，其中，所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的，由此通过确定预设声纹识别模型在最佳收敛状态下样本声纹数据与类别权重的向量夹角及其对应的分类概率，能够对声纹识别模型中的超参数进行自动调整，同时能够保证声纹识别模型中超参数设定的准确度，提升声纹识别模型的识别精度。

进一步的，为了更好的说明上述声纹识别模型中超参数的设置过程，作为对上述实施例的细化和扩展，本申请实施例提供了另一种声纹识别方法，如图2所示，所述方法包括：

201、获取样本声纹数据，并根据所述样本声纹数据，构建所述预设声纹识别模型对应的余弦边缘损失函数。

对于本申请实施例，预设样本声纹库中存储有大量样本声纹数据，为了对预设声纹识别模型中的超参数进行优化调整，需要构建余弦边缘损失函数，以便根据余弦边缘损失函数和样本声纹数据，自动设定超参数的值，本申请实施例中余弦边缘损失函数的具体公式

如下：

其中，L _lmc为余弦边缘损失函数，y _i为第i个样本的真实标签，P _i,yi为第i个样本被正确预测为yi的概率值，θ _j为输入的样本声纹数据与第j类参数权重的向量夹角，

为输入的样本声纹数据与真实标签y _i参数权重的向量夹角，s和m分别为需要设定的超参数，为本申请实施例中主要的优化目标。

202、基于所述余弦边缘损失函数，确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值。

对于本申请实施例，为了确定预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值，步骤202具体包括：根据所述余弦边缘损失函数，绘制所述超参数在不同取值下的向量夹角和分类概率值之间的关系曲线；基于所述关系曲线，确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值。进一步地，所述基于所述关系曲线，确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值，包括：计算样本声纹数据与类别权重之间的向量夹角的平均值；根据所述关系曲线，确定所述预设声纹识别模型在最佳收敛状态下样本声纹数据与类别权重之间的向量夹角趋于0°和90°时，所述样本声纹数据分别对应的分类概率值；根据所述关系曲线，确定所述预设声纹识别模型在最佳收敛状态下样本声纹数据与类别权重之间的向量夹角趋于所述平均值时，所述样本声纹数据对应的分类概率值。

具体地，根据构建的余弦边缘损失函数，分别绘制超参数s在不同取值情况下的关系曲线图，如图3所示，该关系曲线图中横坐标为

纵坐标为Pi,yi，根据该曲线图可以得知样本声纹数据与类别权重之间的向量夹角和分类概率值之间的关系，从图3中可知，当j不等于yi时，

基本维持在90°附近，且当

基本维持在0时，P _i,yi维持在1附近。与此同时，在预设声纹识别模型收敛状态达到最佳时，当

等于当前所有样本声纹数据的中位数或者均值θ _med时，P _i,yi在

处有最大的梯度值，从图3中可以得到，此时P _i,yi的值为0.5，即

进而可以将从关系曲线图中得到的结论代入至余弦边缘损失函数估算超参数s和m的值。

203、根据所述向量夹角和所述分类概率值，确定所述预设声纹识别模型对应的超参数。

对于本申请实施例，为了根据所述向量夹角和所述分类概率值，估算所述预设声纹识别模型对应的第一超参数s和第二超参数m，步骤203具体包括：将所述样本声纹数据与类别权重之间的向量夹角趋于0°和90°时，所述样本声纹数据分别对应的分类概率值代入至所述余弦边缘损失函数，估算所述预设声纹识别模型对应的第一超参数；将所述样本声纹数据与类别权重之间的向量夹角趋于所述平均值时，所述样本声纹数据对应的分类概率值代入至所述余弦边缘损失函数，估算所述预设声纹识别模型对应的第二超参数。

具体地，由上图可知，当j不等于y _i时，

基本维持在90°附近，且当

基本维持在0时，P _i,yi维持在1附近，将该结论代入到上述公式中，得出：

其中，C为总类别数，将C-1记做Bi，此外，当

接近0时，P _i,yi接近1，代入上述公式，得到：

假设P _i,yi为接近1的浮点数，例如0.999或0.99，代入简化后得到s的表达式：

与此同时，在声纹识别模型收敛状态达到最佳时，当

处有最大的梯度值，可以从图中得到，此时P _i,yi的值为0.5，即

简化后的m表达式如下：

综上所述推导出了超参数s和m自动赋值算法，其中，p为接近1的浮点数，也代表曲线的上界，一般设置为0.999，Bi与θ _med皆与当前批次训练样本有关，可通过统计直接得到。需要说明的书，如果样本声纹数据量较大，则可以分批训练，逐渐调整超参数s和m的值，以达到最优效果。

204、获取待识别用户的声纹数据。

对于本申请实施例，在进行声纹识别之前，可以利用保准的声纹采集设备或者终端采集待识别用户的声纹数据，以便根据采集的声纹数据对待识别用户的身份进行确认。

205、提取所述声纹数据对应的声纹特征。

对于本申请实施例，为了待识别用户的声纹特征，步骤205具体包括：对所述声纹数据进行快速傅里叶转换，得到转换后的声纹数据，并对所述转换后的声纹数据进行滤波处理，得到所述声纹数据对应的声纹能量；根据所述声纹能量，计算所述声纹数据对应的梅尔倒谱系数，并将所述梅尔倒谱系数确定为所述声纹数据对应的声纹特征。

具体地，在对声纹数据进行特征提取之前，需要对声纹数据进行预处理，该预处理过程具体包括预加重、分帧和加窗函数处理，从而使得待识别用户的声纹数据变得平坦，即将声纹数据的每N个采用点合成一个观测单位(帧)，帧的左右端具有连续性，在对待识别用户的声纹数据进行预处理之后，需要对预处理后的声纹数据进行快速傅里叶转换，得到转换后的声纹数据，之后将转换后的声纹数据输入Mel滤波器，计算转换后的声纹数据通过Mel滤波器后的语音能量，接着根据声纹数据对应的语音能量，计算声纹数据对应的梅尔倒谱系数，并将该梅尔倒谱系数确定为待识别用户的声纹特征，梅尔倒谱系数的具体计算公式如下：

其中，s(m)代表声纹数据经过第m个滤波器后输出的语音能量，M为滤波器的总个数，C(n)为梅尔倒谱系数，n代表梅尔倒谱系数的阶数，L通常可取12-16，s(m)语音能量的具体计算公式如下：

其中，

为对声纹数据的频谱取模平方得到语音数据的功率谱，H _m(k)为滤波器的频率，K为傅里叶变换的点数。由此按照上述公式，能够计算出待识别用户的声纹数据对应的梅尔倒谱系数，并将其确定为声纹数据对应的声纹特征，以便根据该声纹数据对应的声纹特征，进行声纹识别。

206、将所述声纹特征输入至预设声纹识别模型进行声纹识别，得到所述待识别用户对应的声纹识别结果。

其中，所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的。对于本申请实施例，为了确定待识别用户的声纹识别结果，步骤206具体包括：将所述声纹特征输入至预设声纹识别模型进行声纹识别，得到所述待识别用户为不同权限用户的概率值；根据所述待识别用户为不同权限用户的概率值，确定所述待识别用户对应的声纹识别结果。

例如，有声纹锁解锁权限的用户分别为a、b和c，如果从预设声纹识别模型输出的结果中确定待识别用户为用户a的概率值为0.5，为用户b的概率值为0.1，为用户c的概率值为0.2，为其他用户的概率值为0.2，则可以认为待识别用户为用户a，其具有解锁权限，声纹锁会启动解锁指令；如果从声纹识别模型输出的结果中确定待识别用户为用户a的概率值为0.2，为用户b的概率值为0.1，为用户c的概率值为0.2，为其他用户的概率值为0.5，则可以认为待识别用户为没有权限的用户，声纹锁不会启动解锁指令。

本申请实施例提供的另一种声纹识别方法，与目前人为手动调整声纹识别模型的超参数的方式相比，本申请能够获取待识别用户的声纹数据；并提取所述声纹数据对应的声纹特征；与此同时，将所述声纹特征输入至预设声纹识别模型进行声纹识别，得到所述待识别用户对应的声纹识别结果，其中，所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的，由此通过确定预设声纹识别模型在最佳收敛状态下样本声纹数据与类别权重的向量夹角及其对应的分类概率，能够对声纹识别模型中的超参数进行自动调整，同时能够保证声纹识别模型中超参数设定的准确度，提升声纹识别模型的识别精度。

进一步地，作为图1的具体实现，本申请实施例提供了一种声纹识别装置，如图4所示，所述装置包括：获取单元31、提取单元32和识别单元33。

所述获取单元31，可以用于获取待识别用户的声纹数据。所述获取单元31是本装置中获取待识别用户的声纹数据的主要功能模块。

所述提取单元32，可以用于提取所述声纹数据对应的声纹特征。所述提取单元32是本装置中提取所述声纹数据对应的声纹特征的主要功能模块，也是核心模块。

所述识别单元33，可以用于将所述声纹特征输入至预设声纹识别模型进行声纹识别，得到所述待识别用户对应的声纹识别结果，其中，所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的。所述识别单元33是本装置中将所述声纹特征输入至预设声纹识别模型进行声纹识别，得到所述待识别用户对应的声纹识别结果的主要功能模块，也是核心模块。

在具体应用场景中，为了提取所述声纹数据对应的声纹特征，如图5所示，所述提取单元32，包括：滤波模块321和计算模块322。

所述滤波模块321，可以用于对所述声纹数据进行快速傅里叶转换，得到转换后的声纹数据，并对所述转换后的声纹数据进行滤波处理，得到所述声纹数据对应的声纹能量。

所述计算模块322，可以用于根据所述声纹能量，计算所述声纹数据对应的梅尔倒谱系数，并将所述梅尔倒谱系数确定为所述声纹数据对应的声纹特征。

在具体应用场景中，为了确定所述待识别用户对应的声纹识别结果，所述识别单元33，包括：识别模块331和确定模块332。

所述识别模块331，可以用于将所述声纹特征输入至预设声纹识别模型进行声纹识别，得到所述待识别用户为不同权限用户的概率值。

所述确定模块332，可以用于根据所述待识别用户为不同权限用户的概率值，确定所述待识别用户对应的声纹识别结果。

在具体应用场景中，为自动调整所述声纹识别模型中的超参数，所述装置还包括：确定单元34。

所述获取单元31，还可以用于获取样本声纹数据，并根据所述样本声纹数据，构建所述预设声纹识别模型对应的余弦边缘损失函数。

所述确定单元34，可以用于基于所述余弦边缘损失函数，确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值。

所述确定单元34，还可以用于根据所述向量夹角和所述分类概率值，确定所述预设声纹识别模型对应的超参数。

进一步地，为了确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值，所述确定单元34，包括：绘制模块341和确定模块342。

所述绘制模块341，可以用于根据所述余弦边缘损失函数，绘制所述超参数在不同取值下的向量夹角和分类概率值之间的关系曲线。

所述确定模块342，可以用于基于所述关系曲线，确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值。

进一步地，为了确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值，所述确定模块342，包括：计算子模块和确定子模块。

所述计算子模块，可以用于计算样本声纹数据与类别权重之间的向量夹角的平均值。

所述确定子模块，可以用于根据所述关系曲线，确定所述预设声纹识别模型在最佳收敛状态下样本声纹数据与类别权重之间的向量夹角趋于0°和90°时，所述样本声纹数据分别对应的分类概率值。

所述确定子模块，还可以用于根据所述关系曲线，确定所述预设声纹识别模型在最佳收敛状态下样本声纹数据与类别权重之间的向量夹角趋于所述平均值时，所述样本声纹数据对应的分类概率值。

进一步地，所述超参数包括第一超参数和第二超参数，为了自动设置预设声纹识别模型中的第一超参数和第二超参数，所述确定单元34还包括：第一估算模块343和第二估算模块344。

所述第一估算模块342，可以用于将所述样本声纹数据与类别权重之间的向量夹角趋于0°和90°时，所述样本声纹数据分别对应的分类概率值代入至所述余弦边缘损失函数，估算所述预设声纹识别模型对应的第一超参数。

所述第二估算模块344，可以用于将所述样本声纹数据与类别权重之间的向量夹角趋于所述平均值时，所述样本声纹数据对应的分类概率值代入至所述余弦边缘损失函数，估算所述预设声纹识别模型对应的第二超参数。

需要说明的是，本申请实施例提供的一种声纹识别装置所涉及各功能模块的其他相应描述，可以参考图1所示方法的对应描述，在此不再赘述。

基于上述如图1所示方法，相应的，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：获取待识别用户的声纹数据；提取所述声纹数据对应的声纹特征；将所述声纹特征输入至预设声纹识别模型进行声纹识别，得到所述待识别用户对应的声纹识别结果，其中，所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的。另外，所述计算机可读存储介质可以是非易失性，也可以是易失性。

基于上述如图1所示方法和如图4所示装置的实施例，本申请实施例还提供了一种计算机设备的实体结构图，如图6所示，该计算机设备包括：处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机程序，其中存储器42和处理器41均设置在总线43上所述处理器41执行所述程序时实现以下步骤：获取待识别用户的声纹数据；提取所述声纹数据对应的声纹特征；将所述声纹特征输入至预设声纹识别模型进行声纹识别，得到所述待识别用户对应的声纹识别结果，其中，所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的。

通过本申请的技术方案，本申请能够获取待识别用户的声纹数据；并提取所述声纹数据对应的声纹特征；与此同时，将所述声纹特征输入至预设声纹识别模型进行声纹识别，得到所述待识别用户对应的声纹识别结果，其中，所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的，由此通过确定预设声纹识别模型在最佳收敛状态下样本声纹数据与类别权重的向量夹角及其对应的分类概率，能够对声纹识别模型中的超参数进行自动调整，同时能够保证声纹识别模型中超参数设定的准确度，提升声纹识别模型的识别精度。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本申请的保护范围之内。

Claims

一种声纹识别方法，其中，包括：

获取待识别用户的声纹数据；

提取所述声纹数据对应的声纹特征；

将所述声纹特征输入至预设声纹识别模型进行声纹识别，得到所述待识别用户对应的声纹识别结果，其中，所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的。
如权利要求1所述的方法，其中，所述提取所述声纹数据对应的声纹特征，包括：

对所述声纹数据进行快速傅里叶转换，得到转换后的声纹数据，并对所述转换后的声纹数据进行滤波处理，得到所述声纹数据对应的声纹能量；

根据所述声纹能量，计算所述声纹数据对应的梅尔倒谱系数，并将所述梅尔倒谱系数确定为所述声纹数据对应的声纹特征。
如权利要求1所述的方法，其中，所述将所述声纹特征输入至预设声纹识别模型进行声纹识别，得到所述待识别用户对应的声纹识别结果，包括：

将所述声纹特征输入至预设声纹识别模型进行声纹识别，得到所述待识别用户为不同权限用户的概率值；

根据所述待识别用户为不同权限用户的概率值，确定所述待识别用户对应的声纹识别结果。
如权利要求1所述的方法，其中，在所述获取待识别用户的声纹数据之前，所述方法还包括：

获取样本声纹数据，并根据所述样本声纹数据，构建所述预设声纹识别模型对应的余弦边缘损失函数；

基于所述余弦边缘损失函数，确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值；

根据所述向量夹角和所述分类概率值，确定所述预设声纹识别模型对应的超参数。
如权利要求4所述的方法，其中，所述基于所述余弦边缘损失函数，确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值，包括：

根据所述余弦边缘损失函数，绘制所述超参数在不同取值下的向量夹角和分类概率值之间的关系曲线；

基于所述关系曲线，确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值。
如权利要求5所述的方法，其中，所述基于所述关系曲线，确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值，包括：

计算样本声纹数据与类别权重之间的向量夹角的平均值；

根据所述关系曲线，确定所述预设声纹识别模型在最佳收敛状态下样本声纹数据与类别权重之间的向量夹角趋于0°和90°时，所述样本声纹数据分别对应的分类概率值；

根据所述关系曲线，确定所述预设声纹识别模型在最佳收敛状态下样本声纹数据与类别权重之间的向量夹角趋于所述平均值时，所述样本声纹数据对应的分类概率值。
如权利要求6所述的方法，其中，所述超参数包括第一超参数和第二超参数，所述根据所述向量夹角和所述分类概率值，确定所述预设声纹识别模型对应的超参数，包括：

将所述样本声纹数据与类别权重之间的向量夹角趋于0°和90°时，所述样本声纹数据分别对应的分类概率值代入至所述余弦边缘损失函数，估算所述预设声纹识别模型对应的第一超参数；

将所述样本声纹数据与类别权重之间的向量夹角趋于所述平均值时，所述样本声纹数据对应的分类概率值代入至所述余弦边缘损失函数，估算所述预设声纹识别模型对应的第二超参数。
一种声纹识别装置，其中，包括：

获取单元，用于获取待识别用户的声纹数据；

提取单元，用于提取所述声纹数据对应的声纹特征；

识别单元，用于将所述声纹特征输入至预设声纹识别模型进行声纹识别，得到所述待识别用户对应的声纹识别结果，其中，所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的。
一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述计算机程序被处理器执行时实现如下步骤：

获取待识别用户的声纹数据；

提取所述声纹数据对应的声纹特征；

将所述声纹特征输入至预设声纹识别模型进行声纹识别，得到所述待识别用户对应的声纹识别结果，其中，所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的。
如权利要求9所述的计算机设备，其中，所述提取所述声纹数据对应的声纹特征，包括：

对所述声纹数据进行快速傅里叶转换，得到转换后的声纹数据，并对所述转换后的声纹数据进行滤波处理，得到所述声纹数据对应的声纹能量；

根据所述声纹能量，计算所述声纹数据对应的梅尔倒谱系数，并将所述梅尔倒谱系数确定为所述声纹数据对应的声纹特征。
如权利要求9所述的计算机设备，其中，所述将所述声纹特征输入至预设声纹识别模型进行声纹识别，得到所述待识别用户对应的声纹识别结果，包括：

将所述声纹特征输入至预设声纹识别模型进行声纹识别，得到所述待识别用户为不同权限用户的概率值；

根据所述待识别用户为不同权限用户的概率值，确定所述待识别用户对应的声纹识别结果。
如权利要求9所述的计算机设备，其中，在所述获取待识别用户的声纹数据之前，所述计算机程序被处理器执行时还实现如下步骤：

获取样本声纹数据，并根据所述样本声纹数据，构建所述预设声纹识别模型对应的余弦边缘损失函数；

基于所述余弦边缘损失函数，确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值；

根据所述向量夹角和所述分类概率值，确定所述预设声纹识别模型对应的超参数。
如权利要求12所述的计算机设备，其中，所述基于所述余弦边缘损失函数，确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值，包括：

根据所述余弦边缘损失函数，绘制所述超参数在不同取值下的向量夹角和分类概率值之间的关系曲线；

基于所述关系曲线，确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值。
如权利要求13所述的计算机设备，其中，所述基于所述关系曲线，确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值，包括：

计算样本声纹数据与类别权重之间的向量夹角的平均值；

根据所述关系曲线，确定所述预设声纹识别模型在最佳收敛状态下样本声纹数据与类别权重之间的向量夹角趋于0°和90°时，所述样本声纹数据分别对应的分类概率值；

根据所述关系曲线，确定所述预设声纹识别模型在最佳收敛状态下样本声纹数据与类别权重之间的向量夹角趋于所述平均值时，所述样本声纹数据对应的分类概率值。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其中，所述计算机程序被处理器执行时实现如下步骤：

获取待识别用户的声纹数据；

提取所述声纹数据对应的声纹特征；

将所述声纹特征输入至预设声纹识别模型进行声纹识别，得到所述待识别用户对应的声纹识别结果，其中，所述预设声纹识别模型中的超参数是通过所述预设声纹识别模型在最佳收敛状态下的样本声纹数据与类别权重的向量夹角及其对应的分类概率值确定的。
如权利要求15所述的计算机可读存储介质，其中，所述提取所述声纹数据对应的声纹特征，包括：

对所述声纹数据进行快速傅里叶转换，得到转换后的声纹数据，并对所述转换后的声纹数据进行滤波处理，得到所述声纹数据对应的声纹能量；

根据所述声纹能量，计算所述声纹数据对应的梅尔倒谱系数，并将所述梅尔倒谱系数确定为所述声纹数据对应的声纹特征。
如权利要求15所述的计算机可读存储介质，其中，所述将所述声纹特征输入至预设声纹识别模型进行声纹识别，得到所述待识别用户对应的声纹识别结果，包括：

将所述声纹特征输入至预设声纹识别模型进行声纹识别，得到所述待识别用户为不同权限用户的概率值；

根据所述待识别用户为不同权限用户的概率值，确定所述待识别用户对应的声纹识别结果。
如权利要求15所述的计算机可读存储介质，其中，在所述获取待识别用户的声纹数据之前，所述计算机程序被处理器执行时还实现如下步骤：

获取样本声纹数据，并根据所述样本声纹数据，构建所述预设声纹识别模型对应的余弦边缘损失函数；

基于所述余弦边缘损失函数，确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值；

根据所述向量夹角和所述分类概率值，确定所述预设声纹识别模型对应的超参数。
如权利要求18所述的计算机可读存储介质，其中，所述基于所述余弦边缘损失函数，确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值，包括：

根据所述余弦边缘损失函数，绘制所述超参数在不同取值下的向量夹角和分类概率值之间的关系曲线；

基于所述关系曲线，确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值。
如权利要求19所述的计算机可读存储介质，其中，所述基于所述关系曲线，确定所述预设声纹识别模型处于最佳收敛状态时样本声纹数据与类别权重之间的向量夹角及其对应的分类概率值，包括：

计算样本声纹数据与类别权重之间的向量夹角的平均值；

根据所述关系曲线，确定所述预设声纹识别模型在最佳收敛状态下样本声纹数据与类别权重之间的向量夹角趋于0°和90°时，所述样本声纹数据分别对应的分类概率值；

根据所述关系曲线，确定所述预设声纹识别模型在最佳收敛状态下样本声纹数据与类别权重之间的向量夹角趋于所述平均值时，所述样本声纹数据对应的分类概率值。