WO2023036016A1

WO2023036016A1 - 一种应用于电力作业中的声纹识别的方法及系统

Info

Publication number: WO2023036016A1
Application number: PCT/CN2022/115882
Authority: WO
Inventors: 莫梓樱; 朱明增; 覃秋勤; 吕鸣; 刘小兰; 陈极万; 韩竞; 李和峰; 蒋志儒; 黄新华; 胡凯博; 欧健美; 温黎明; 周素君; 马红康; 宋嗣皇; 梁维; 梁朝聪; 罗晨怡; 梁豪
Original assignee: 广西电网有限责任公司贺州供电局
Priority date: 2021-09-07
Filing date: 2022-08-30
Publication date: 2023-03-16
Also published as: CN113823291A

Abstract

本发明公开了一种应用于电力作业中的声纹识别的方法及系统，其方法包括：采集电力作业场景中不同人的声纹信息；去除所述声纹信息中的噪声和干扰信息；将去噪后的声纹信息进行非负矩阵分解NMF提取特征；基于NMF处理的声纹信息获取声纹信息的语谱图；对语谱图基于卷积神经网络CNN声纹识别算法处理；基于卷积神经网络训练模型输出声纹识别结果。在本发明实施例在特征提取阶段使用NMF提取特征，并将多维特征进行融合，可以得到更加准确的识别效果。

Description

一种应用于电力作业中的声纹识别的方法及系统

技术领域

本发明涉及计算机技术领域，尤其涉及一种应用于电力作业中的声纹识别的方法及系统。

背景技术

目前保证电网的安全运行，需要对电网工作人员的业务技能提出了一定要求，工作人员只有具有良好的业务技能才能保证电网稳定与安全地运行，所以必须保证专业人员具有自己独一无二的身份特征来实施操作。身份认证技术大致分为两个分支：一是身份标识输入，如使用用户名、密码登录的账户模式；二是通过身份标识物，即钥匙、证件等。这两种方式已经被绝大多数人所接受并被广泛使用。但是一些不法之徒通过非法手段获得他人的身份标识后，就可以顺利地通过检测，冒充他人，最终对电网系统造成重大损失。对于这种问题，基于生物特性识别和文本识别的身份认证技术就应运而生。声纹是生物特征的一种，对于人体来说，声纹是长期稳定的特征信号，通过声纹鉴别技术可以区分不同个体。因为每个人的声道和发音器官具有差异，而且身体状况、生活环境等后天的因素都会造成不同的人发出的语音在语谱图上呈现出差异性，因此这种特征具有独特性，利用这一特性，可以使用机器学习及人工智能的方法实现不同说话人的识别。

申请号为202011634585.4的发明公开了一种声纹识别方法。该方法主要包括以下步骤：获取音频文件；对文件进行剪裁处理以得到有效音频文件；对有效音频文件进行加密处理，获得加密音频信息；发送声纹识别请求，该请求包括所述加密音频信息。

申请号为201610641491.7的发明公开了一种声纹识别系统。本发明的方法、装置和声纹识别系统，通过实时地采集声音的信道特征，优先选择带有信道特征的声纹模型进行模式匹配，建立声纹模型库以及声纹模型，可有效解决信道差异对声纹识别性能的影响。

基于传统密码认证的身份识别技术不安全，信息一旦泄露就会被盗用，其次它的便捷性也很差，使用者需要记住账号密码并且进行繁琐的手动输入，如果忘记账号或密码，还需要进行找回密码的操作。现有的声纹识别技术使用传统的概率学模型或者单一的机器学习方法进行特征的训练，识别效果不够好，最终的识别准确率达不到预期效果。

发明内容

本发明的目的在于克服现有技术的不足，本发明提供了一种应用于电力作业中的声纹识别的方法及系统，使得最终识别准确率能达到提升。

为了解决上述技术问题，本发明实施例提供了一种应用于电力作业中的声纹识别的方法，所述方法包括：

采集电力作业场景中不同人的声纹信息；

去除所述声纹信息中的噪声和干扰信息；

将去噪后的声纹信息进行非负矩阵分解NMF提取特征；

基于NMF处理的声纹信息获取声纹信息的语谱图；

对语谱图基于卷积神经网络CNN声纹识别算法处理；

基于卷积神经网络训练模型输出声纹识别结果。

所述去除所述声纹信息中的噪声和干扰信息包括：

对采集的声纹信息进行信号离散化处理；

基于一阶高频数字滤波器对离散化处理后的声纹信息进行信号放大处理；

对信号放大处理后的声纹信息进行信号分段处理。

所述一阶高频数字滤波器的传递函数H为：

其中，H是传递函数，A定义为能量放大的系数，取值范围为0.9<A<1，z代表z变换因子，语音信号经过放大加强后为：

其中，

是放大后的信号，s(n)和s(n-1)是放大前不同时间段的信号。

所述对信号放大处理后的声纹信息进行信号分段处理包括：

对语音信号进行分段后的表达式如下：

s _w(n)＝s(n)w(n)；

其中：w(n)为所用窗函数。

所述将去噪后的声纹信息进行非负矩阵分解NMF提取特征包括：

采用非负矩阵分解NMF提取特征，分解过程如下：

其中，Q为原始高维数据矩阵，W为构造第一元素的非负值矩阵、H为构造第二元素的非负值矩阵，

为分解误差。

所述基于NMF处理的声纹信息获取声纹信息的语谱图包括：

对NMF处理的声纹信息进行短时傅里叶变换STFT；

进行离散傅里叶变换DFT；

计算能量谱密度函数P。

所述对语谱图基于卷积神经网络CNN声纹识别算法处理包括：

将语谱图作为CNN的输入，经过卷积层处理；

随后进行卷积神经网络CNN的池化处理；

最后经过卷积神经网络CNN的全连接层处理。

相应的，本发明实施例还提供了一种应用于电力作业中的声纹识别的系统，所述系统包括：

采集模块，用于采集电力作业场景中不同人的声纹信息；

去噪模块，用于去除所述声纹信息中的噪声和干扰信息；

特征提取模块，用于将去噪后的声纹信息进行非负矩阵分解NMF提取特征；

语谱图模块，用于基于NMF处理的声纹信息获取声纹信息的语谱图；

CNN模块，用于对语谱图基于卷积神经网络CNN声纹识别算法处理；

结果输出模块，用于基于卷积神经网络训练模型输出声纹识别结果

所述去噪模块对采集的声纹信息进行信号离散化处理；基于一阶高频数字滤波器对离散化处理后的声纹信息进行信号放大处理；对信号放大处理后的声纹信息进行信号分段处理。

所述CNN模块将语谱图作为CNN的输入，经过卷积层处理；随后进行卷积神经网络CNN的池化处理；最后经过卷积神经网络CNN的全连接层处理。

在本发明实施例中通过将采集的语音信号转换为语谱图形式，随后将语谱图作为输入数据，采用卷积神经网络训练模型，并进一步得到声纹识别结果，提升了整体的识别效果；在特征提取阶段使用NMF提取特征，并将多维特征进行融合，可以得到更加准确的识别效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例中的应用于电力作业中的声纹识别的方法流程图；

图2是本发明实施例中的应用于电力作业中的声纹识别的系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例中所涉及的应用于电力作业中的声纹识别的方法，其方法包括：采集电力作业场景中不同人的声纹信息；去除所述声纹信息中的噪声和干扰信息；将去噪后的声纹信息进行非负矩阵分解NMF提取特征；基于NMF处理的声纹信息获取声纹信息的语谱图；对语谱图基于卷积神经网络CNN声纹识别算法处理；基于卷积神经网络训练模型输出声纹识别结果。这里通过将采集的语音信号转换为语谱图形式，随后将语谱图作为输入数据，采用卷积神经网络训练模型，并进一步得到声纹识别结果，提升了整体的识别效果；在特征提取阶段使用NMF提取特征，并将多维特征进行融合，可以得到更加准确的识别效果。

具体的，图1示出了本发明实施例中的应用于电力作业中的声纹识别的方法流程图，包括：

S101、采集电力作业场景中不同人的声纹信息；

语音采集部分可以获取不同人的声纹信息，接下来进行数据预处理过程，数据预处理主要是为了去除采集的语音信息的噪声和干扰信息，其涉及到信号离散化、信号放大处理、信号分段处理等。

S102、对采集的声纹信息进行信号离散化处理；

这里的信号离散化处理中，工作人员通过发声器官直接向外部空间输出的声音信号为一维时间序列，也就是模拟信号，但是计算机只能处理数字信号，因此要对连续信号先进行离散化，随后再提取和处理信号特征。根据香农采样定理，采样频率最要等于采集工作人员声音信号频率的2倍，这样才能保证离散化后的信号尽可能地保留原始数据信息。

S103、基于一阶高频数字滤波器对离散化处理后的声纹信息进行信号放大处理；

这里的信号放大处理中，工作人员发出的语音信号的能量主要分布在低频段，高频段较少，信号传播导致的衰减会使部分信号信息遗失，因此可将经过上述步骤处理的信号输入一阶高频数字滤波器，从而达到使其能量增强的目的。

所述一阶高频数字滤波器的传递函数H为：

其中，

是放大后的信号，s(n)和s(n-1)是放大前不同时间段的信号。

S104、对信号放大处理后的声纹信息进行信号分段处理；

这里的信号分段处理中，语音信号一般是非平稳信号，难以直接处理，可将语音信号看成是由多帧组成的信号，对语音信号进行分段后，其表达式如下：

s _w(n)＝s(n)w(n)；

其中：w(n)为所用窗函数。

S105、将去噪后的声纹信息进行非负矩阵分解NMF提取特征；

这里的特征提取主要是尽可能地提取主要特征参数，为后续的训练和测试提供输入数据。本发明实施例中采用NMF非负矩阵分解提取特征，分解过程如下：

为分解误差。

此外，目标函数选择基于欧几里得距离的目标函数，如下式：

常见的声纹特征参数分别是LPCC、MFCC、PLP、CQCC，他们各有自己的侧重点，本发明采用多特征融合的方法训练模型。

S106、对NMF处理的声纹信息进行短时傅里叶变换STFT；

过预处理后的信号进行短时傅里叶变换STFT，变换过程可以描述为如下数学表达式，其中S _n为分段后的信号：

S107、进行离散傅里叶变换DFT；

随后进行离散傅里叶变换DFT，其中，w代表频率，e ^jw为复变函数，n、m、k为采样计数点，N为语音长度。

S108、计算能量谱密度函数P；

然后计算能量谱密度函数P：

P(n,k)＝|S(n,k)| ²＝(S(n,k))×(conj(S(n,k)))

S109、获取声纹信息的语谱图；

基于上述S105-S109步骤生成语谱图后，将语谱图作为CNN的输入。在语谱图的基础上，本发明实施例提出了用于分类及特征匹配的CNN声纹识别算法，首先获取语谱图，在进入CNN声纹识别算法过程。

S110、将语谱图作为CNN的输入，经过卷积层处理；

在生成语谱图后，将语谱图作为CNN的输入，经过卷积层处理，卷积层处理过程如下：

其中，a ^[l-1]为输入，l表示第l层，ψ ^[l]为激活函数，

表示偏置。

S111、随后进行卷积神经网络CNN的池化处理；

随后进行池化处理，处理过程如下：

其中，

为池化函数，f ^[l]为卷积核。

S112、最后经过卷积神经网络CNN的全连接层处理；

后经过全连接层处理输出结果，全连接层处理过程如下：

其中，w表示权重。

S113、基于卷积神经网络训练模型输出声纹识别结果。

以上图1所示的方法通过将采集的语音信号转换为语谱图形式，随后将语谱图作为输入数据，采用卷积神经网络训练模型，并进一步得到声纹识别结果，提升了整体的识别效果；在特征提取阶段使用NMF提取特征，并将多维特征进行融合，可以得到更加准确的识别效果。

相应的，图2示出了本发明实施例中的应用于电力作业中的声纹识别的系统结构示意图，所述系统包括：

采集模块，用于采集电力作业场景中不同人的声纹信息；

去噪模块，用于去除所述声纹信息中的噪声和干扰信息；

需要说明的是，该去噪模块对采集的声纹信息进行信号离散化处理；基于一阶高频数字滤波器对离散化处理后的声纹信息进行信号放大处理；对信号放大处理后的声纹信息进行信号分段处理。

需要说明的是，这里的信号放大处理中，工作人员发出的语音信号的能量主要分布在低频段，高频段较少，信号传播导致的衰减会使部分信号信息遗失，因此可将经过上述步骤处理的信号输入一阶高频数字滤波器，从而达到使其能量增强的目的。

需要说明的是，这里的信号离散化处理中，工作人员通过发声器官直接向外部空间输出的声音信号为一维时间序列，也就是模拟信号，但是计算机只能处理数字信号，因此要对连续信号先进行离散化，随后再提取和处理信号特征。根据香农采样定理，采样频率最要等于采集工作人员声音信号频率的2倍，这样才能保证离散化后的信号尽可能地保留原始数据信息。

需要说明的是，该CNN模块将语谱图作为CNN的输入，经过卷积层处理；随后进行卷积神经网络CNN的池化处理；最后经过卷积神经网络CNN的全连接层处理。

需要说明的是，该语谱图模块对NMF处理的声纹信息进行短时傅里叶变换STFT；进行离散傅里叶变换DFT；计算能量谱密度函数P。

需要说明的是，这里特征提取模块的特征提取主要是尽可能地提取主要特征参数，为后续的训练和测试提供输入数据。

以上图2所示的系统通过将采集的语音信号转换为语谱图形式，随后将语谱图作为输入数据，采用卷积神经网络训练模型，并进一步得到声纹识别结果，提升了整体的识别效果；在特征提取阶段使用NMF提取特征，并将多维特征进行融合，可以得到更加准确的识别效果。

以上对本发明实施例所进行了详细介绍，本文中应采用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

一种应用于电力作业中的声纹识别的方法，其特征在于，所述方法包括：

采集电力作业场景中不同人的声纹信息；

去除所述声纹信息中的噪声和干扰信息；

将去噪后的声纹信息进行非负矩阵分解NMF提取特征；

基于NMF处理的声纹信息获取声纹信息的语谱图；

对语谱图基于卷积神经网络CNN声纹识别算法处理；

基于卷积神经网络训练模型输出声纹识别结果。
如权利要求1所述的应用于电力作业中的声纹识别的方法，其特征在于，所述去除所述声纹信息中的噪声和干扰信息包括：

对采集的声纹信息进行信号离散化处理；

基于一阶高频数字滤波器对离散化处理后的声纹信息进行信号放大处理；

对信号放大处理后的声纹信息进行信号分段处理。
如权利要求2所述的应用于电力作业中的声纹识别的方法，其特征在于，所述一阶高频数字滤波器的传递函数H为：

其中，H是传递函数，A定义为能量放大的系数，取值范围为0.9<A<1，z代表z变换因子，语音信号经过放大加强后为：

其中，
是放大后的信号，s(n)和s(n-1)是放大前不同时间段的信号。
如权利要求3所述的应用于电力作业中的声纹识别的方法，其特征在于，所述对信号放大处理后的声纹信息进行信号分段处理包括：

对语音信号进行分段后的表达式如下：

s _w(n)＝s(n)w(n)；

其中：w(n)为所用窗函数。
如权利要求1所述的应用于电力作业中的声纹识别的方法，其特征在于，所述将去噪后的声纹信息进行非负矩阵分解NMF提取特征包括：

采用非负矩阵分解NMF提取特征，分解过程如下：

其中，Q为原始高维数据矩阵，W为构造第一元素的非负值矩阵、H为构造第二元素的非负值矩阵，
为分解误差。
如权利要求1所述的应用于电力作业中的声纹识别的方法，其特征在于，所述基于NMF处理的声纹信息获取声纹信息的语谱图包括：

对NMF处理的声纹信息进行短时傅里叶变换STFT；

进行离散傅里叶变换DFT；

计算能量谱密度函数P。
如权利要求1至6任一项所述的应用于电力作业中的声纹识别的方法，其特征在于，所述对语谱图基于卷积神经网络CNN声纹识别算法处理包括：

将语谱图作为CNN的输入，经过卷积层处理；

随后进行卷积神经网络CNN的池化处理；

最后经过卷积神经网络CNN的全连接层处理。
一种应用于电力作业中的声纹识别的系统，其特征在于，所述系统包括：

采集模块，用于采集电力作业场景中不同人的声纹信息；

去噪模块，用于去除所述声纹信息中的噪声和干扰信息；

特征提取模块，用于将去噪后的声纹信息进行非负矩阵分解NMF提取特征；

语谱图模块，用于基于NMF处理的声纹信息获取声纹信息的语谱图；

CNN模块，用于对语谱图基于卷积神经网络CNN声纹识别算法处理；

结果输出模块，用于基于卷积神经网络训练模型输出声纹识别结果
如权利要求8所述的应用于电力作业中的声纹识别的系统，其特征在于，所述去噪模块对采集的声纹信息进行信号离散化处理；基于一阶高频数字滤波器对离散化处理后的声纹信息进行信号放大处理；对信号放大处理后的声纹信息进行信号分段处理。
如权利要求8所述的应用于电力作业中的声纹识别的系统，其特征在于，所述CNN模块将语谱图作为CNN的输入，经过卷积层处理；随后进行卷积神经网络CNN的池化处理；最后经过卷积神经网络CNN的全连接层处理。