WO2019214047A1

WO2019214047A1 - 建立声纹模型的方法、装置、计算机设备和存储介质

Info

Publication number: WO2019214047A1
Application number: PCT/CN2018/094888
Authority: WO
Inventors: 蔡元哲; 王健宗; 程宁; 肖京
Original assignee: 平安科技（深圳）有限公司
Priority date: 2018-05-08
Filing date: 2018-07-06
Publication date: 2019-11-14
Also published as: JP2020524308A; JP6906067B2; CN108806696A; US20200294509A1; SG11202002083WA; CN108806696B; US11322155B2

Abstract

一种建立声纹模型的方法、装置、计算机设备和存储介质，方法包括：将语音信号中的语音声学特征集合成多个簇结构；计算多个簇结构的平均值和标准差后进行坐标变换以及激活函数计算，得到特征向量参数；然后根据特征向量参数得到声纹模型。该声纹模型，可以降低声纹模型的声音识别错误率。

Description

建立声纹模型的方法、装置、计算机设备和存储介质

[0001] 本申请要求于 2018年 5月 8日提交中国专利局、申请号为 201810433792X，发明名称为“建立声纹模型的方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

[0002] 本申请涉及到计算机技术领域，特别是涉及到一种建立声纹模型的方法、装置、计算机设备和存储介质。

背景技术

[0003] 声纹是用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明，声纹不仅具有特定性，而且有相对稳定性的特点。成年以后，人的声音可保持长期相对稳定不变。声纹识别算法通过学习声音图谱中抽取各种语音特征，建立识别模型，从而来确认说话人。目前的声纹识别方法，对于长声音文本（说话人语音长度超过 1分钟以上的）效果很好，但是对于短声音文本（说话人语音长度少于 1分钟，例如 20s左右）来说，识别的错误率还比较高。

[0004] 因此，如何建立一种可以降低短声音文本识别的错误率的声纹模型是亟需解决的问题。

发明概述

技术问题

[0005] 本申请的主要目的为提供一种建立降低短声音文本的识别错误率的声纹模型的方法、装置、计算机设备和存储介质。

问题的解决方案

技术解决方案

[0006] 为了实现上述发明目的，本申请提出一种建立声纹模型的方法，包括：

[0007] 对输入的目标用户的语音信号分帧，分别提取分帧后的语音信号的语音声学特征；

[0008] 将多个所述语音声学特征输入基于神经网络训练的深度学习模型中，集合成至少一个簇结构；

[0009] 计算至少一个所述簇结构的平均值和标准差；

[0010] 将所述平均值和标准差进行坐标变换以及激活函数计算，得到特征向量参数；

[0011] 将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型，得到与所述目标用户对应的声纹模型，所述声纹模型用于验证输入的语音信号是否为所述目标用户的。

[0012] 本申请还提供一种建立声纹模型的装置，包括：

[0013] 提取模块，用于对输入的目标用户的语音信号分帧，分别提取分帧后的语音信号的语音声学特征；

[0014] 簇结构模块，用于将多个所述语音声学特征输入基于神经网络训练的深度学习模型中，集合成至少一个簇结构；

[0015] 计算模块，用于计算至少一个所述簇结构的平均值和标准差；

[0016] 特征向量模块，用于将所述平均值和标准差进行坐标变换以及激活函数计算，得到特征向量参数；

[0017] 模型模块，用于将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型，得到与所述目标用户对应的声纹模型，所述声纹模型用于验证输入的语音信号是否为所述目标用户的。

[0018] 本申请还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现上述任一项所述方法的步骤。

[0019] 本申请还提供一种计算机非易失性可读存储介质，其上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现上述任一项所述的方法的步骤。发明的有益效果

有益效果

[0020] 本申请的建立声纹模型的方法、装置、计算机设备和存储介质，将提取出的语音声学特征基于深度神经网络训练中得出簇结构，然后将簇结构进行坐标映射和激活函数计算，得出的声纹模型，可以降低声纹模型的声音识别错误率。对附图的简要说明附图说明

[0021] 图 1为本申请一实施例的建立声纹模型的方法的流程示意图；

[0022] 图 2为本申请一实施例的建立声纹模型的方法的 S2步骤的流程示意图；

[0023] 图 3为本申请一实施例的建立声纹模型的方法的 S22步骤的流程示意图；

[0024] 图 4为本申请一实施例的建立声纹模型的方法的 S5步骤的流程示意图；

[0025] 图 5为本申请一实施例的建立声纹模型的方法的 S 1步骤的流程示意图；

[0026] 图 6为本申请一实施例的建立声纹模型的方法的 S 11步骤的流程示意图；

[0027] 图 7为本申请一实施例的建立声纹模型的方法的流程示意图；

[0028] 图 8为本申请一实施例的建立声纹模型的方法的 S 1步骤的流程示意图；

[0029] 图 9为本申请一实施例的建立声纹模型的装置的结构示意图；

[0030] 图 10为本申请一实施例的建立声纹模型的装置的簇结构模块的结构示意图； [0031] 图 11为本申请一实施例的建立声纹模型的装置的模型模块的结构示意图；

[0032] 图 12为本申请一实施例的建立声纹模型的装置的提取模块的结构示意图；

[0033] 图 13是本申请一实施例的建立声纹模型的装置的结构示意图；

[0034] 图 14是本申请一实施例的建立声纹模型的装置的提取模块的结构示意图；

[0035] 图 15为本申请一实施例的计算机设备的结构示意框图。

实施该发明的最佳实施例

本发明的最佳实施方式

[0036] 参照图 1，本申请实施例提供一种建立声纹模型的方法，包括步骤：

[0037] S1、对输入的目标用户的语音信号分帧，分别提取分帧后的语音信号的语音声学特征；

[0038] S2、将多个所述语音声学特征输入基于神经网络训练的深度学习模型中，集合成至少一个簇结构；

[0039] S3、计算至少一个所述簇结构的平均值和标准差；

[0040] S4、将所述平均值和标准差进行坐标变换以及激活函数计算，得到特征向量参数；

[0041] S5、将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型，得到与所述目标用户对应的声纹模型，所述声纹模型用于验证输入的语音信号是否为所述目标用户的。

[0042] 如上述步骤 S1所述，声纹是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的发声器官 (舌、牙齿、喉头、肺、鼻腔)在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹都有差异。语音信号是一种搭载着特定的信息模拟信号，其来源是由人发出的声音信号转换成的语音信号。每个人的声纹不一样，因而，相同的人说出同样的话产生的声音而后转换成的语音信号也是不一样的。因而，语音信号里所包含的语音声学特征也是不一样的。语音声学特征是每个人发出的声音中包含的声纹信息。分帧是指将连续的语音信号分成多段。人在正常讲话的语速下，音素的持续时间大约是 50~200毫秒，所以帧长一般取为小于 50毫秒。从微观上来看，它又必须包括足够多的振动周期。语音的音频，男声在 100赫兹左右，女声在 200赫兹左右，换算成周期就是 10毫秒和 5 毫秒。一般一帧要包含多个周期，所以一般取至少 20毫秒。所谓的语音信号包括一段连续的语音，例如一个句子、一段话等。所述语音声学特征可为所述语音片段的梅尔频率倒谱系数 (MFCC)，或感知线性预测系数 (PLP)，或滤波器组特征 (Filter Bank Feature)等。当然，所述语音声学特征也可为所述语音片段的原始语音数据。将目标用户的语音信号中的语音声学特征提取出来，是将需要建立声纹模型的人说话的声音信号提取出来，非目标用户说话产生的语音信号则不进行提取。语音声学特征是从一段连续的语音信号中提取出来的包含有人说话的部分的语音信号，因而也是一段连续的语音信号。将语音信号分帧后，得到多段语音信号，分别提取出每段语音信号的语音声学特征，则得到多个语音声学特征。

[0043] 如上述步骤 S2所述，语音声学特征是从分帧的语音信号中提取出来的，是一段语音信号，将该语音信号输入到神经网络训练模型中，目的是将语音声学特征进行集合计算，方便统计与计算语音声学特征。簇结构是对一个或多个语音声学特征的集合计算结果，能体现出多个语音声学特征集合在一起的相同的共性特征。

[0044] 如上述步骤 S3所述，将多个语音声学特征输入基于神经网络的深度学习模型后，输出得到至少一个簇结构 x-1、 x-2、 x-1、 ...xn, 假设簇结构是一个 p维向量，则 xn=(xil,xi2,...,xip) ^T (i=l,2,...n)。计算这些簇结构的均值和标准差。得到簇结构的平均值和标准差。其中，计算多个簇结构的平均值的方法为:首先根据公式：

，计算每个分量的平均值，然后再根据公式： xO=(xl,x2,...,xj) ^T，计算出 p维的平均向量，将 p维的平均向量组合形成簇结构的平均值： E(x)。计算多个簇结构的标准差的公式为: D(x)=E{ [x- E(x)][x-E(x)] ^T}_°

[0045] 如上述步骤 S4所述，将上述的 E(x)和 D(x)经过 a级映射和 b级映射。其中， a级映射是将簇结构的平均值和标准差进行坐标变换， b级映射是将簇结构的平均值和标准差通过激活函数计算后得出一个非线性结果，该结果即为建立声纹模型的特征向量参数。

[0046] 如上述步骤 S5所述，系统将特征向量参数以及目标用户的身份验证结果输入到预设的基础模型，得到目标用户的声纹模型，该声纹模型接收到语音信号后，判断产生语音信号的人是否是目标用户说话的声音。基础模型是指神经网络模型，例如 BP神经网络模型。 BP神经网络是一种对非线性可微分函数进行权值训练的多层网络。它的最大特点是仅仅借助样本数据，无需建立系统的数学模型，就可对系统实现由 m个输入神经元的模式向量 p组成的 pm空间到 yn空间 n (为输出节点数)的高度非线性映射。上述 a级映射和 b级映射，两个映射的过程不分先后。 b 级映射的激活函数可以采用 Sigmoid， Sigmoid函数是一个在生物学中常见的 S型的函数，也称为 S型生长曲线，主要用作神经网络的阈值函数，在物理意义上最为接近生物神经元，其非线性激活函数的形式是 o(x)=l/(l₊e A 该公式中， _x是输入的语音声学特征， e是自然常数，是数学科的一种法则，约为 2.71828。

[0047] 参照图 2, 本实施例中，所述深度学习模型包括多层模型层，所述将多个所述语音声学特征输入基于神经网络训练的深度学习模型中，集合成至少一个簇结构的步骤包括：

[0048] S21、将多个所述语音声学特征输入深度学习模型中；

[0049] S22、选取多个所述语音声学特征中的任一时间节点 t，以距离该时间节点 t的每 tn时间内的语音声学特征建立第 n模型层， n为正整数；

[0050] S23、选择所述多层模型层中的目标模型层，并获取所述目标模型层上生成的至少一个簇结构。

[0051] 如上述步骤 S21所述，多个语音声学特征均是从一段连续的语音信号中提取出来的，因而多个语音声学特征也是连续的。将多个所述语音声学特征输入到深度学习模型中时，也是按照时间顺序来输入的。

[0052] 如上述步骤 S22所述，多个语音声学特征均是一段连续的声音信号，合在一起也是一段连续的声音信号，在该多个语音声学特征中，选取任一时间节点 t，然后以距离 t时刻在 tn时间段内的语音声学特征进行集合，在其中一个模型层上形成簇结构。由于深度学习模型具有多层模型层，每个模型层上选择的时间节点 t 与距离 t时刻的时间段 tn不一样，每层模型层生成的簇结构的数量是不完全相同的。比如该多个语音声学特征一共有 10秒，即 10000ms，选择时间节点是第 2000 ms , 建立第一模型层，每间隔 tl(lms)的时间内建立第一模型层，则第一模型层共有 10000帧。然后建立第二模型层，取 t2为 2ms，每隔 2ms的时间内建立第二模型层，第二模型层共有 500帧。

[0053] 如上述步骤 S23所述，经过深度学习模型学习后，得到了多个模型层，每个模型层中均有多个簇结构，系统再选择其中一个模型层作为目标模型层，选择目标模型层上的簇结构作为后续生成声纹模型的参数。

[0054] 参照图 3 , 在一具体实施例中，建立 5层模型层，上述步骤 S22包括如下步骤：

[0055] 5221、选择多个所述语音声学特征中的任一时间节点 t，以距离该时间节点 t的每 tl时间内的语音声学特征建立第一模型层；

[0056] 5222、在第一模型层上，以距离该时间节点 t的每 t2时间内的语音声学特征建立第二模型层；

[0057] 5223、在第二模型层上，以距离该时间节点 t的每 t3时间内的语音声学特征建立第三模型层；

[0058] 5224、在第三模型层上，以距离该时间节点 t的每 t4时间内的语音声学特征建立第四模型层；

[0059] 5225、在第四模型层上，以距离该时间节点 t的每 t5时间内的语音声学特征建立第五模型层，其中， tl<t2<t3<t4<t5。

[0060] 如上述 S221步骤所述，选取任一时间节点 t，比如该语音声学特征有 10秒，即 1 0000ms , 选择时间节点是第 2000ms , 建立第一模型层，每间隔 tl(lms)的时间内建立第一模型层，则第一模型层共有 10000帧。

[0061] 在步骤 S222中，在第一模型层的基础上，仍然是选择时间节点是第 2000ms，每隔 t2(2ms)的时刻内建立第二模型层，则第二模型层共有 5000帧。在步骤 S223中，在第二模型层的基础上，仍然是选择时间节点是第 2000ms，每隔 t3(3ms)的时刻内建立第三模型层，则第三模型层共有 3334帧。在步骤 S224中，在第三模型层的基础上，仍然是选择时间节点是第 2000ms，每隔 t4(4ms)的时刻内建立第四模型层，则第四模型层共有 2500帧。在步骤 S225中，在第四模型层的基础上，仍然是选择时间节点是第 2000ms，每隔 t5(8ms)的时刻内建立第二模型层，则第二模型层共有 1250帧。最终，将这第五模型层上的 1250帧集合成为簇结构，经过五层深度学习模型，最终得到 1250个簇结构。

[0062] 参照图 4, 进一步地，本实施例中，所述将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型，得到与所述目标用户对应的声纹模型的步骤，包括：

[0063] S51、将所述声纹模型的特征向量参数进行降维；

[0064] S52、将所述降维后的特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型，得到声纹模型。

[0065] 上述步骤中，系统利用基于概率的线性判别分析 (Linear Discriminant Analysis ， LDA) 来进行降维。之后进行目标用户的声纹的模型设计。同时，输出层采取 Softmax函数计算结果，所有节点均采用 [-0.05~0.05]区间的均匀随机权重初始化，偏置初始为 0, 得到最终的声纹模型。 softmax函数的输入是一个向量，而其输出也是一个向量，向量中的每个元素都是介于 0和 1之间的概率值。偏置训练模型的时候，每一次训练得到的训练集预测标签与原始真实标签的偏离程度，如果此偏离程度过小，则会导致过拟合的发生，因为可能将训练集中的噪声也学习了。所以说偏置刻画了学习算法本身的拟合能力，如果拟合能力不好，偏置较大，出现欠拟合；反之拟合能力过好，偏置较小，容易出现过拟合。在训练的时候可以发现这个偏置理论上应该是逐渐变小的，表明我们的模型正在不断学习有用的东西。

[0066] 参照图 5 , 本实施例中，所述提取分帧后的语音信号的语音声学特征的步骤包括：

[0067] S11、将分帧后的语音信号进行快速傅里叶变换计算，得到能量谱；

[0068] S12、将所述能量谱输入梅尔尺度的三角滤波器组，输出共振峰特征；

[0069] S13、将所述共振峰特征经离散余弦变换，得到语音声学特征。

[0070] 在上述步骤 S11中，将分帧后提取出的有效语音信号进行快速傅里叶变换，将时域的语音信号转换成频域的能量谱。快速傅里叶变换 (FFT) ，是离散傅氏变换的快速算法，它是根据离散傅氏变换的奇、偶、虚、实等特性，对离散傅立叶变换的算法进行改进获得的。

[0071] 在上述步骤 S12中，共振峰是反映声道谐振特性的重要特征，它代表了发音信息的最直接的来源，而且人在语音感知中利用了共振峰信息。所以共振峰是语音信号处理中非常重要的特征参数，已经广泛地用作语音识别的主要特征和语音编码传输的基本信息。共振峰信息包含在频率包络之中，因此共振峰参数提取的关键是估计自然语音频谱包络，一般认为谱包络中的最大值就是共振峰。之后将能量谱输入梅尔尺度的三角滤波器计算每个滤波器组输出的对数能量，滤波器组输出的特征又称为 Filter Bank(FBANK)特征。使用梅尔刻度滤波器组过滤，这一目的是因为频域信号有很多冗余，滤波器组可以对频域的幅值进行精简，每一个频段用一个值来表示；过滤的具体步骤是将快速傅里叶变换后得到的频谱分别跟每一个滤波器进行频率相乘累加，得到的值即为该帧数据在在该滤波器对应频段的能量值。

[0072] 在上述步骤 S 13中，将共振峰特征经对数能量计算后，经离散余弦变换就可得到 MFCC系数 (mel frequency cepstrum coefficient) , 亦即 MFCC声学特征。由于人耳对声音的感知并不是线性的，用 log这种非线性关系更好描述。取完 log以后才可以进行倒谱分析。因此，将能量值进行对数计算，得到对数能量。因为离散余弦变换的结果没有虚部，更好计算，因此，将对数能量进行离散余弦变换，最终得到 MFCC系数 (mel frequency cepstrum coefficient) , 亦即 MFCC声学特征。 [0073] 进一步地，上述得到声纹模型的步骤之后包括：

[0074] S6、将待验证语音信号输入所述声纹模型中，得到所述声纹模型输出的身份验证结果。

[0075] 如上述步骤 S6所述，建立好声纹模型后，该声纹模型具有一个接收语音信号的端口。当接收到语音信号后，该声纹模型将该语音信号进行计算，若是目标用户的语音信号，则输出目标正确的信号；若不是目标用户的语音信号，则输出目标错误的信号。

[0076] 参照图 6 , 进一步地，所述将分帧后的语音信号进行快速傅里叶变换计算的步骤包括：

[0077] Si l l、将分帧后的语音信号进行预加重处理；

[0078] S112、将预加重处理后的语音信号加窗；

[0079] S113、通过语音端点检测，提取出含有说话声音的有效部分语音信号；

[0080] S114、将所述有效部分语音信号进行快速傅里叶变换计算。

[0081] 在上述步骤 Si l l中，将语音信号进行预加重处理，因语音信号里还包含有一些杂音、噪音，如果直接将语音信号进行声纹建模处理，会得到一些包含杂音、噪音的影响，建立出来的模型不准确，会导致识别错误率的提升。直接提取有效语音，就是采用语音端点检测的方法来实现，即识别该语音中是从哪一时刻开始是人开始讲话，哪一时刻开始是人结束讲话。语音端点检测的主要依据原理是：包含有人讲话语音的音频文件的语音频谱比不包含有人语音的音频文件的语音频谱高，因此，在提取出有效语音前，先将语音信号进行预加重，即放大语音信号，使含有人讲话部分的频谱更高，两者的差更明显，更好的进行语音端点检测。

[0082] 在上述步骤 S112中，语音信号处理常常要达到的一个目标，就是弄清楚语音中各个频率成分的分布。做这件事情的数学工具是傅里叶变换。傅里叶变换要求输入信号是平稳的。而语音在宏观上来看是不平稳的。但是从微观上来看，语音信号就可以看成平稳的，就可以截取出来做傅里叶变换了。加窗的目的是让一帧信号的幅度在两端渐变到 0。渐变到 0对傅里叶变换有好处，可以提高变换结果（即频谱）的分辨率。 [0083] 在上述步骤 S113中，因语音信号里还包含有一些杂音、噪音，如果直接将语音信号进行声纹建模处理，会得到一些包含杂音、噪音的影响，建立出来的模型不准确，直接导致加大识别错误率。直接提取有效语音，就是采用语音端点检测的方法来实现，即识别该语音中是从哪一时刻开始是人开始讲话，哪一时刻开始是人结束讲话。通过端点检测，区分语音与噪声，并提取出有效的语音部分。人在说话时也会有停顿。提取出有效部分的语音，即将人说话时人停顿时的噪音部分去掉，只提取出人说话部分的有效语音。

[0084] 在上述步骤 S114中，快速傅里叶变换（FFT），是离散傅氏变换的快速算法，它是根据离散傅氏变换的奇、偶、虚、实等特性，对离散傅立叶变换的算法进行改进获得的。这样可以计算得出一段语音中说话人的语音声学特征。

[0085] 参照图 7 , 进一步地，所述得到声纹模型的步骤之后包括：

[0086] S7、接收用户对所述声纹模型标记的属性信息，所述属性信息包括所述目标用户的性别、年龄、民族。

[0087] 在上述 S7步骤中，将声纹模型建立后，系统接收用户对声纹模型添加的标记，标记该声纹模型对应的目标用户的个人信息，包括性别、年龄、民族、身高、体重等。因为声纹信息与发声的器官有关，发声控制器官包括声带、软颚、舌头、牙齿、唇等；发声共鸣器包括咽腔、口腔、鼻腔。发声的器官相近的人，发出的声音具有一定的共性或比较接近，因此，属性信息相同的人的声纹信息会有比较相近。收集多个人的声纹信息后，将其进行归纳总结，便于找出声纹信息与人的一些关系。

[0088] 参照图 8 , 进一步地，本实施例中，所述提取分帧后的语音信号的语音声学特征的步骤包括：

[0089] S14、识别输入的分帧后的语音信号的语音内容；

[0090] S15、判断所述语音内容的发声部位；

[0091] S16、根据所述发声部位将所述语音信号拆分；

[0092] S17、分别对拆分后的语音信号提取语音声学特征。

[0093] 在上述步骤 S14中，识别输入的分帧后的语音信号的语音内容，即通过语音识别的手段，将语音信号识别出来，识别出说话人的具体说话文本信息。 [0094] 在上述步骤 S15中，判断所述语音内容的发声部位，是根据上述 S14中识别出的语音内容，读取该语音内容的拼音或者是音标，根据拼音或者音标的内容来判断发声部位。常用的主要发声部位有喉、舌头、鼻、牙齿等。例如在普通话中，根据不同的声母确定对应的发声部位。具体的声母与发声部位对应的表格如下：

[0095] [表 1]

[0096] 在上述步骤 S16中，判断语音内容的发声部位后，上溯回查语音信号的发声部位，根据语音信号对应的发声部位，将语音信号拆分成多段，每一段语音信号都对应一个发声部位。例如，一段时长为 10秒的语音信号，第 0-2秒的语音内容中均包含有 b或 p或 m的声母，第 3-5秒的语音内容均包含有 j或 q或 x的声母，第 6-1 0秒的语音内容均包含有 d或 t或 n或 1的声母，那么，将该语音信号拆分成三段语音信号。第一段是第 0-2秒的语音内容，第二段是第 3-5秒的语音内容，第三段是第 6- 10秒的语音内容。

[0097] 在上述步骤 S17对这三段语音内容分别提取声学特征，然后分别输入后面的深度学习模型中进行计算。

[0098] 综上所述，本申请的建立声纹模型的方法，将提取出的语音声学特征基于深度神经网络训练中得出簇结构，然后将簇结构进行坐标映射和激活函数计算，得出的声纹模型，可以降低声纹模型的声音识别错误率。

[0099] 参照图 9，本申请还提出一种建立声纹模型的装置，包括：

[0100] 提取模块 1，用于对输入的目标用户的语音信号分帧，分别提取分帧后的语音信号的语音声学特征； [0101] 簇结构模块 2, 用于将多个所述语音声学特征输入基于神经网络训练的深度学习模型中，集合成至少一个簇结构；

[0102] 计算模块 3，用于计算至少一个所述簇结构的平均值和标准差；

[0103] 特征向量模块 4, 用于将所述平均值和标准差进行坐标变换以及激活函数计算，得到特征向量参数；

[0104] 模型模块 5 , 用于将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型，得到与所述目标用户对应的声纹模型，所述声纹模型用于验证输入的语音信号是否为所述目标用户的。

[0105] 本实施例中，提取模块 1中的声纹是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的发声器官 (舌、牙齿、喉头、肺、鼻腔)在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹都有差异。语音信号是一种搭载着特定的信息模拟信号，其来源是由人发出的声音信号转换成的语音信号。每个人的声纹不一样，因而，相同的人说出同样的话产生的声音而后转换成的语音信号也是不一样的。因而，语音信号里所包含的语音声学特征也是不一样的。语音声学特征是每个人发出的声音中包含的声纹信息。分帧是指将连续的语音信号分成多段。人在正常讲话的语速下，音素的持续时间大约是 50~200毫秒，所以帧长一般取为小于 50毫秒。从微观上来看，它又必须包括足够多的振动周期。语音的音频，男声在 100赫兹左右，女声在 200赫兹左右，换算成周期就是 1 0毫秒和 5毫秒。一般一帧要包含多个周期，所以一般取至少 20毫秒。所谓的语音信号包括一段连续的语音，例如一个句子、一段话等。所述语音声学特征可为所述语音片段的梅尔频率倒谱系数 (MFCC)，或感知线性预测系数 (PLP)，或滤波器组特征 (Filter Bank Feature)等。当然，所述语音声学特征也可为所述语音片段的原始语音数据。提取模块 1将目标用户的语音信号中的语音声学特征提取出来，是将需要建立声纹模型的人说话的声音信号提取出来，非目标用户说话产生的语音信号则不进行提取。语音声学特征是从一段连续的语音信号中提取出来的包含有人说话的部分的语音信号，因而也是一段连续的语音信号。提取模块 1将语音信号分帧后，得到多段语音信号，分别提取出每段语音信号的语音声学特征，则得到多个语音声学特征。

[0106] 语音声学特征是从分帧的语音信号中提取出来的，是一段语音信号，簇结构模块 2将该语音信号输入到神经网络训练模型中，目的是将语音声学特征进行集合计算，方便统计与计算语音声学特征。簇结构模块 2是将该段语音声学特征的集合，能体现出多个语音声学特征集合在一起的相同的共性特征。

[0107] 计算模块 3将多个语音声学特征输入基于神经网络的深度学习模型后，输出得到至少一个簇结构 x-1、 x-2、 x-1、 ...xn，假设簇结构是一个 p维向量，则 xn=(xil, xi2,...,xip) ^T (i=l,2,...n)。计算这些簇结构的均值和标准差。得到簇结构的平均值和标准差。其中，计算多个簇结构的平均值的方法为:首先计算模块 3根据公式

，计算每个分量的平均值，然后计算模块 3再根据公式： xO=(xl,x2,...,xj) ^T 计算出 p维的平均向量，计算模块 3将 p维的平均向量组合形成簇结构的平均值： E(x )。计算模块 3计算多个簇结构的标准差的公式为: D(x)=E{ [x- E(x)][x-E(x)] ^T}。

[0108] 特征向量模块 4将上述的 E(x)和 D(x)经过 a级映射和 b级映射。其中， a级映射是将簇结构的平均值和标准差进行坐标变换， b级映射是将簇结构的平均值和标准差通过激活函数计算后得出一个非线性结果，该结果即为建立声纹模型的特征向量参数。

[0109] 然后模型模块 5将特征向量参数以及目标用户的身份验证结果输入到预设的基础模型，得到目标用户的声纹模型，该声纹模型接收到语音信号后，判断产生语音信号的人是否是目标用户说话的声音。基础模型是指神经网络模型，例如 B P神经网络模型。 BP神经网络是一种对非线性可微分函数进行权值训练的多层网络。它的最大特点是仅仅借助样本数据，无需建立系统的数学模型，就可对系统实现由 m个输入神经元的模式向量 p组成的 pm空间到 yn空间 n (为输出节点数)的高度非线性映射。上述 a级映射和 b级映射，两个映射的过程不分先后。 b级映射的激活函数可以采用 Sigmoid， Sigmoid函数是一个在生物学中常见的 S型的函数，也称为 S型生长曲线，主要用作神经网络的阈值函数，在物理意义上最为接近生物神经元，其非线性激活函数的形式是 o(x)=l/(l₊e 该公式中， _X是输入的语音声学特征， e是自然常数，是数学科的一种法则，约为 2.71828。

[0110] 参照图 10, 本实施例中，所述深度学习模型包括多层模型层，所述簇结构模块 2包括：

[0111] 输入单元 21，用于将多个所述语音声学特征输入深度学习模型中；

[0112] 建立单元 22, 用于选取多个所述语音声学特征中的任一时间节点 t，以距离该时间节点 t的每 tn时间内的语音声学特征建立第 n模型层， n为正整数；

[0113] 选择单元 23 , 用于选择所述多层模型层中的目标模型层，并获取所述目标模型层上生成的至少一个簇结构。

[0114] 本实施例中，多个语音声学特征均是从一段连续的语音信号中提取出来的，因而多个语音声学特征也是连续的。输入单元 21将多个所述语音声学特征输入到深度学习模型中时，也是按照时间顺序来输入的。

[0115] 多个语音声学特征均是一段连续的声音信号，合在一起也是一段连续的声音信号，在该多个语音声学特征中中，建立单元 22选取任一时间节点 t，然后以距离 t 时刻在 tn时间段内的语音声学特征集合，在其中一个模型层上形成簇结构。由于深度学习模型具有多层模型层，每个模型层上选择的时间节点 t与距离 t时刻的时间段 tn不一样，每层模型层生成的簇结构的数量是不完全相同的。比如该多个语音声学特征一共有 10秒，即 10000ms，选择时间节点是第 2000ms，建立单元 22建立第一模型层，每间隔 tl(lms)的时间内建立第一模型层，则第一模型层共有 100 00帧。然后建立单元 22建立第二模型层，取 2为 2ms，每隔 2ms的时间内建立第二模型层，第二模型层共有 500帧。

[0116] 经过深度学习模型学习后，得到了多个模型层，每个模型层中均有多个簇结构，选择单元 23再选择其中一个模型层上的簇结构作为后续生成声纹模型的参数

[0117] 参照图 11，进一步地，所述模型模块 4包括：

[0118] 降维单元 51，用于将所述声纹模型的特征向量参数进行降维；

[0119] 模型单元 52, 用于将所述降维后的特征向量参数输入预设的基础模型，得到声纹模型。 [0120] 本实施例中，降维单元 51利用基于概率的线性判别分析 (Linear Discriminant Analysis, LDA) 来进行降维。之后模型单元 52进行目标用户的声纹的模型设计。同时，输出层采取 Softmax函数计算结果，所有节点均采用 [-0.05~0.05]区间的均匀随机权重初始化，偏置初始为 0, 得到最终的声纹模型。 softmax函数的输入是一个向量，而其输出也是一个向量，向量中的每个元素都是介于 0和 1之间的概率值。偏置训练模型的时候，每一次训练得到的训练集预测标签与原始真实标签的偏离程度，如果此偏离程度过小，则会导致过拟合的发生，因为可能将训练集中的噪声也学习了。所以说偏置刻画了学习算法本身的拟合能力，如果拟合能力不好，偏置较大，出现欠拟合；反之拟合能力过好，偏置较小，容易出现过拟合。在训练的时候可以发现这个偏置理论上应该是逐渐变小的，表明我们的模型正在不断学习有用的东西。

[0121] 参照图 12，进一步地，所述提取模块 1包括：

[0122] 计算单元 11，用于将分帧后的语音信号进行快速傅里叶变换计算，得到能量谱

[0123] 输入单元 12, 用于将所述能量谱输入梅尔尺度的三角滤波器组，输出共振峰特征；

[0124] 变换单元 13 , 用于将所述共振峰特征经离散余弦变换，得到语音声学特征。

[0125] 本实施例中，计算单元 11将分帧后提取出的有效语音信号进行快速傅里叶变换，将时域的语音信号转换成频域的能量谱。快速傅里叶变换 (FFT) ，是离散傅氏变换的快速算法，它是根据离散傅氏变换的奇、偶、虚、实等特性，对离散傅立叶变换的算法进行改进获得的。共振峰是反映声道谐振特性的重要特征，它代表了发音信息的最直接的来源，而且人在语音感知中利用了共振峰信息。所以共振峰是语音信号处理中非常重要的特征参数，已经广泛地用作语音识别的主要特征和语音编码传输的基本信息。共振峰信息包含在频率包络之中，因此共振峰参数提取的关键是估计自然语音频谱包络，一般认为谱包络中的最大值就是共振峰。之后输入模块 12将能量谱输入梅尔尺度的三角滤波器组计算每个滤波器组输出的对数能量，滤波器组输出的特征又称为 Filter Bank(FBANK)特征。使用梅尔刻度滤波器组过滤，这一目的是因为频域信号有很多冗余，滤波器组可以对频域的幅值进行精简，每一个频段用一个值来表示；过滤的具体步骤是将快速傅里叶变换后得到的频谱分别跟每一个滤波器进行频率相乘累加，得到的值即为该帧数据在在该滤波器对应频段的能量值。将共振峰特征经对数能量计算后，经变换单元 13进行离散余弦变换就可得到 MFCC系数 (mel frequency cepstrum coefficient)，亦即 MFCC声学特征。由于人耳对声音的感知并不是线性的，用 log这种非线性关系更好描述。取完 log以后才可以进行倒谱分析。因此，将能量值进行对数计算，得到对数能量。因为离散余弦变换的结果没有虚部，更好计算，因此，将对数能量进行离散余弦变换，最终得到 MFCC系数 (mel frequency cepstrum coefficient) , 亦即 MFCC声学特征。

[0126] 进一步地，上述建立声纹模型的装置还包括：

[0127] 验证模块 6 , 用于将待验证语音信号输入所述声纹模型中，得到所述声纹模型输出的身份验证结果。

[0128] 本实施例中，建立好声纹模型后，该声纹模型具有一个接收语音信号的端口。

验证模块 6接收到语音信号后，该声纹模型将该语音信号进行计算，若是目标用户的语音信号，则验证模块 6输出目标正确的信号；若不是目标用户的语音信号，则验证模块 6输出目标错误的信号。

[0129] 参照图 13 , 进一步地，所述建立声纹模型的装置还包括：

[0130] 属性模块 7，用于接收用户对所述声纹模型标记的属性信息，所述属性信息包括所述目标用户的性别、年龄、民族。

[0131] 本实施例中，将声纹模型建立后，属性模块 7接收用户对声纹模型添加的标记，标记该声纹模型对应的目标用户的个人信息，包括性别、年龄、民族、身高、体重等。因为声纹信息与发声的器官有关，发声控制器官包括声带、软颚、舌头、牙齿、唇等；发声共鸣器包括咽腔、口腔、鼻腔。发声的器官相近的人，发出的声音具有一定的共性或比较接近，因此，属性信息相同的人的声纹信息会有比较相近。收集多个人的声纹信息后，将其进行归纳总结，便于找出声纹信息与人的一些关系。

[0132] 参照图 14，进一步地，所述提取模块 1还包括：

[0133] 识别单元 14, 用于识别输入的分帧后的语音信号的语音内容； [0134] 判断单元 15 , 用于判断所述语音内容的发声部位；

[0135] 拆分单元 16 , 用于根据所述发声部位将所述语音信号拆分；

[0136] 提取单元 17 , 用于分别对拆分后的语音信号提取语音声学特征。

[0137] 本实施例中，识别单元 14识别输入的语音信号的语音内容，即通过语音识别的手段，将语音信号识别出来，识别出说话人的具体说话文本信息。

[0138] 判断单元 15判断所述语音内容的发声部位，是根据上述识别单元 14中识别出的语音内容，读取该语音内容的拼音或者是音标，根据拼音或者音标的内容来判断发声部位。常用的主要发声部位有喉、舌头、鼻、牙齿等。例如在普通话中，根据不同的声母确定对应的发声部位。具体的声母与发声部位对应的表格如下：

[0139] [表 2]

[0140] 判断单元 15判断语音内容的发声部位后，拆分单元 16上溯回查语音信号的发声部位，然后拆分单元 16根据语音信号对应的发声部位，将语音信号拆分成多段，每一段语音信号都对应一个发声部位。例如，一段时长为 10秒的语音信号，第 0-2秒的语音内容中均包含有 b或 p或 m的声母，第 3-5秒的语音内容均包含有 j或 q或 x的声母，第 6-10秒的语音内容均包含有 d或 t或 n或 1的声母，那么，拆分单元 1 6将该语音信号拆分成三段语音信号。第一段是第 0-2秒的语音内容，第二段是第 3-5秒的语音内容，第三段是第 6-10秒的语音内容。然后提取单元 17分别对这三段语音内容提取出声学特征，然后分别输入后面的深度学习模型中计算。

[0141] 综上所述，本申请的建立声纹模型的装置，将提取出的语音声学特征基于深度神经网络训练中得出簇结构，然后将簇结构进行坐标映射和激活函数计算，得出的声纹模型，可以降低声纹模型的声音识别错误率。

[0142] 参照图 15，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图 15所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储建立声纹模型等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令在执行时，执行如上述各方法的实施例的流程。本领域技术人员可以理解，图 15中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

[0143] 本申请一实施例还提供一种计算机非易失性可读存储介质，其上存储有计算机可读指令，该计算机可读指令在执行时，执行如上述各方法的实施例的流程。以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

权利要求书

[权利要求 1] 一种建立声纹模型的方法，其特征在于，包括：

对输入的目标用户的语音信号分帧，分别提取分帧后的语音信号的语音声学特征；

将多个所述语音声学特征输入基于神经网络训练的深度学习模型中，集合成至少一个簇结构；

计算至少一个所述簇结构的平均值和标准差；

将所述平均值和标准差进行坐标变换以及激活函数计算，得到特征向量参数；

将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型，得到与所述目标用户对应的声纹模型，所述声纹模型用于验证输入的语音信号是否为所述目标用户的。

[权利要求 2] 如权利要求 i所述的建立声纹模型的方法，其特征在于，所述深度学习模型包括多层模型层，所述将多个所述语音声学特征输入基于神经网络训练的深度学习模型中，集合成至少一个簇结构的步骤包括：将多个所述语音声学特征输入深度学习模型中；选取多个所述语音声学特征中的任一时间节点 t，以距离该时间节点 t 的每 tn时间内的语音声学特征建立第 n模型层， n为正整数；选择所述多层模型层中的目标模型层，并获取所述目标模型层上生成的至少一个簇结构。

[权利要求 3] 如权利要求 1所述的建立声纹模型的方法，其特征在于，所述将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型，得到与所述目标用户对应的声纹模型的步骤，包括：

将所述声纹模型的特征向量参数进行降维；

将所述降维后的特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型，得到声纹模型。

[权利要求 4] 如权利要求 1所述的建立声纹模型的方法，其特征在于，所述提取分帧后的语音信号的语音声学特征的步骤包括：将分帧后的语音信号进行快速傅里叶变换计算，得到能量谱；

将所述能量谱输入梅尔尺度的三角滤波器组，输出共振峰特征；将所述共振峰特征经离散余弦变换，得到语音声学特征。

[权利要求 5] 如权利要求 1所述的建立声纹模型的方法，其特征在于，所述得到声纹模型的步骤之后包括：

将待验证语音信号输入所述声纹模型中，得到所述声纹模型输出的身份验证结果。

[权利要求 6] 如权利要求 1所述的建立声纹模型的方法，其特征在于，所述得到声纹模型的步骤之后包括：

接收用户对所述声纹模型标记的属性信息，所述属性信息包括所述目标用户的性别、年龄、民族。

[权利要求 7] 一种建立声纹模型的装置，其特征在于，包括：提取模块，用于对输入的目标用户的语音信号分帧，分别提取分帧后的语音信号的语音声学特征；簇结构模块，用于将多个所述语音声学特征输入基于神经网络训练的深度学习模型中，集合成至少一个簇结构；计算模块，用于计算至少一个所述簇结构的平均值和标准差；特征向量模块，用于将所述平均值和标准差进行坐标变换以及激活函数计算，得到特征向量参数；模型模块，用于将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型，得到与所述目标用户对应的声纹模型，所述声纹模型用于验证输入的语音信号是否为所述目标用户的。

[权利要求 8] 如权利要求 7所述的建立声纹模型的装置，其特征在于，所述深度学习模型包括多层模型层，所述簇结构模块包括：输入单元，用于将多个所述语音声学特征输入深度学习模型中；建立单元，用于选取多个所述语音声学特征中的任一时间节点 t，以距离该时间节点 t的每 tn时间内的语音声学特征建立第 n模型层， n为正整数；选择单元，用于选择所述多层模型层中的目标模型层，并获取所述目标模型层上生成的至少一个簇结构。

[权利要求 9] 如权利要求 7所述的建立声纹模型的装置，其特征在于，所述模型模块包括：降维单元，用于将所述声纹模型的特征向量参数进行降维；模型单元，用于将所述降维后的特征向量参数输入预设的基础模型，得到声纹模型。

[权利要求 10] 如权利要求 7所述的建立声纹模型的装置，其特征在于，所述提取模块包括：计算单元，用于将分帧后的语音信号进行快速傅里叶变换计算，得到能量谱；输入单元，用于将所述能量谱输入梅尔尺度的三角滤波器组，输出共振峰特征；变换单元，用于将所述共振峰特征经离散余弦变换，得到语音声学特征。

[权利要求 11] 如权利要求 7所述的建立声纹模型的装置，其特征在于，所述建立声纹模型的装置还包括：验证模块，用于将待验证语音信号输入所述声纹模型中，得到所述声纹模型输出的身份验证结果。

[权利要求 12] 如权利要求 7所述的建立声纹模型的装置，其特征在于，所述建立声纹模型的装置还包括：属性模块 7 , 用于接收用户对所述声纹模型标记的属性信息，所述属性信息包括所述目标用户的性别、年龄、民族

[权利要求 13] 一种计算机设备，包括存储器和处理器，所述存储器存储有计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现一种建立声纹模型的方法，该建立声纹模型的方法，包括：对输入的目标用户的语音信号分帧，分别提取分帧后的语音信号的语音声学特征 ; 将多个所述语音声学特征输入基于神经网络训练的深度学习模型中，集合成至少一个簇结构；计算至少一个所述簇结构的平均值和标准差；将所述平均值和标准差进行坐标变换以及激活函数计算，得到特征向量参数；将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型，得到与所述目标用户对应的声纹模型，所述声纹模型用于验证输入的语音信号是否为所述目标用户的。

[权利要求 14] 如权利要求 13所述的计算机设备，其特征在于，所述深度学习模型包括多层模型层，所述将多个所述语音声学特征输入基于神经网络训练的深度学习模型中，集合成至少一个簇结构的步骤包括：将多个所述语音声学特征输入深度学习模型中；选取多个所述语音声学特征中的任一时间节点 t，以距离该时间节点 t的每 tn时间内的语音声学特征建立第 n模型层， n为正整数；选择所述多层模型层中的目标模型层，并获取所述目标模型层上生成的至少一个簇结构。

[权利要求 15] 如权利要求 13所述的计算机设备，其特征在于，所述将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型，得到与所述目标用户对应的声纹模型的步骤，包括：将所述声纹模型的特征向量参数进行降维；将所述降维后的特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型，得到声纹模型。

[权利要求 16] 如权利要求 13所述的计算机设备，其特征在于，所述提取分帧后的语音信号的语音声学特征的步骤包括：将分帧后的语音信号进行快速傅里叶变换计算，得到能量谱；将所述能量谱输入梅尔尺度的三角滤波器组，输出共振峰特征；将所述共振峰特征经离散余弦变换，得到语音声学特征。

[权利要求 17] 一种计算机非易失性可读存储介质，其上存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现一种建立声纹模型的方法，该建立声纹模型的方法，包括：对输入的目标用户的语音信号分帧，分别提取分帧后的语音信号的语音声学特征；将多个所述语音声学特征输入基于神经网络训练的深度学习模型中，集合成至少一个簇结构；计算至少一个所述簇结构的平均值和标准差；将所述平均值和标准差进行坐标变换以及激活函数计算，得到特征向量参数；将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型，得到与所述目标用户对应的声纹模型，所述声纹模型用于验证输入的语音信号是否为所述目标用户的。

[权利要求 18] 如权利要求 17所述的计算机非易失性可读存储介质，其特征在于，所述深度学习模型包括多层模型层，所述将多个所述语音声学特征输入基于神经网络训练的深度学习模型中，集合成至少一个簇结构的步骤包括：将多个所述语音声学特征输入深度学习模型中；选取多个所述语音声学特征中的任一时间节点 t，以距离该时间节点 t的每 tn时间内的语音声学特征建立第 n模型层， n为正整数；选择所述多层模型层中的目标模型层，并获取所述目标模型层上生成的至少一个簇结构。

[权利要求 19] 如权利要求 17所述的计算机非易失性可读存储介质，其特征在于，所述将所述特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型，得到与所述目标用户对应的声纹模型的步骤，包括：将所述声纹模型的特征向量参数进行降维；将所述降维后的特征向量参数以及所述目标用户的身份验证结果输入预设的基础模型，得到声纹模型。

[权利要求 20] 如权利要求 17所述的计算机非易失性可读存储介质，其特征在于，所述提取分帧后的语音信号的语音声学特征的步骤包括：将分帧后的语音信号进行快速傅里叶变换计算，得到能量谱；将所述能量谱输入梅尔尺度的三角滤波器组，输出共振峰特征；将所述共振峰特征经离散余弦变换，得到语音声学特征。