WO2022116570A1

WO2022116570A1 - 一种基于麦克风阵列的工业设备故障信号定位与识别方法

Info

Publication number: WO2022116570A1
Application number: PCT/CN2021/109200
Authority: WO
Inventors: 栾峰; 李旭; 张子明; 吴艳; 韩月娇; 张殿华
Original assignee: 东北大学
Priority date: 2020-12-04
Filing date: 2021-07-29
Publication date: 2022-06-09
Also published as: CN112560913B; US20230152187A1; CN112560913A

Abstract

一种基于麦克风阵列的工业设备故障信号定位与识别方法，采集声音信号，分为训练集、验证集和测试集；对训练集中的声音信号进行特征提取，提取频谱图的相位谱图和幅度谱图；将特征提取模块的输出作为输入被送到卷积神经网络，在每层CNN网络中，使用2D CNN来学习频谱图中的平移不变性；在每层CNN之间，使用批量归一化对输出进行归一化，并沿着频率轴使用最大池化层来降低维数；将来自CNN层的输出，送到RNN层；使用线性激活函数；将全连接层的输出输入到两个并行的全连接层分支，分别用于故障识别和故障定位。使用基于音频信号的非接触式方法，受环境和接触限制更小，故障定位与故障识别同步进行，提高运行效率。

Description

一种基于麦克风阵列的工业设备故障信号定位与识别方法

技术领域

本发明涉及一种工业设备故障信号定位与识别技术，具体为一种基于麦克风阵列的工业设备故障信号定位与识别方法。

背景技术

随着现代自动化程度的愈加广泛和科技的飞速发展，各行各业都日益趋向智能化、高速化和自动化。在各种机械设备中不仅设备内的各部分密切联系，不同设备之间也相关紧密，最终形成一系列复杂的生产系统。在生产过程中运用先进的故障诊断技术，把机械设备的检测维修列入到生产过程中，实现机械设备可预知，不仅可以延长设备的使用时间，而且还避免了灾难性事故的发生，从一定角度来看，间接的给企业带来巨大的经济效益。

目前常用的故障检测的方法是基于振动。然而在许多实际的生产环境中，由于其工作条件或是设备的精度等因素的限制，接收振动信号的传感器的安装其实并不能实现。而且在高压、高温、高负载、高湿度或是高度腐蚀的工作环境中，传感器所接受到的振动信号其实并不完全只包含器件的信息，也会掺杂很多干扰信息。通过麦克风阵列采集到机械设备运行过程中的声音信号来分析其工作状态已经成为诊断技术较为新颖的解决方案。这进一步解决了传感器放置不便且受到工作环境影响诊断结果的难题，同时从振动信号转为对声音信号分析这一改进，已经不需要过多的机械专业性知识和经验性的判断，从某种层面上降低了故障诊断技术的入门水平，也打破了局限性。

神经网络具有良好的数据拟合功能，利于处理多变量、非线性、强耦合等的复杂问题，然而，目前基于神经网络的故障识别方法没有将故障识别与故障定位二者结合，所估计故障的位置都是相对静止不动的；另外，目前的方法都是使用分类器，从而以固定角度估计故障存在的可能性，导致故障信号定位的精度有限。

发明内容

针对现有技术中工业设备故障信号定位与识别掺杂干扰信息导致故障信号定位的精度有限等不足，本发明要解决的问题是提供一种基于麦克风阵列的工业设备故障信号定位与识别方法，使故障信号的定位具备更高的分精度。

为解决上述技术问题，本发明采用的技术方案是：

本发明提供一种基于麦克风阵列的工业设备故障信号定位与识别方法，包括以下步骤：

1)采集声音信号，将其分为训练集、验证集和测试集；

2)对训练集中的声音信号进行特征提取，将信号进行离散傅里叶变换来提取频谱图的相位谱图和幅度谱图；

3)将特征提取模块的输出作为输入被送到卷积神经网络，在每层CNN网络中，使用2D CNN来学习频谱图中的平移不变性。

4)在每层CNN之间，使用批量归一化对输出进行归一化，并沿着频率轴使用最大池化层来降低维数；

5)将来自CNN层的输出，送到RNN层用来学习音频信号的时间上下文信息；

6)输入一层全连接层，包含D个节点，使用线性激活函数；

7)将全连接层的输出输入到两个并行的全连接层分支，分别用于故障识别和故障定位；

8)使用验证集验证模型的性能指标，使用测试集验证模型的泛化能力。

步骤4)中，沿着频率轴使用最大池化层来降低维数，包括：

401)将上一层的输出结果根据池化滤波器的大小进行分割区块，选择每个区块的最大值来表示特征值；

402)平均池化在分割的区块中，取区块的平均值作为特征值；

403)池化层输出结果通过如下公式计算：

其中，O是输出图像的尺寸，I表示输出入图像的尺寸，P _s为池化层的尺寸，S为移动步长。

步骤5)中，将来自CNN层的输出，送到RNN层用来学习音频信号的时间上下文信息，包括：

501)CNN网络输出的维度被重塑成长度为2B个特征向量的T帧序列，被送到RNN层用来学习音频信号的时间上下文信息；

502)RNN层选用长短期记忆网络，每层LSTM包含C个节点，使用tanh激活函数，此时维度从(T×2×B)调整为(T×C)维度；其中T为特征序列帧长度，B为卷积核数量，C为每层LSTM网络节点数。

步骤7)中，将全连接层的输出输入到两个并行的全连接层分支，具体为：

声音识别分支中，由具有sigmoid激活函数的全连接层组成，包含2个节点，每个节点对应于重叠声源中的两个声音，使用sigmoid激活函数可以同时识别这两个声音类别。

步骤8)中，用验证集验证模型的性能指标，具体为：

801)采用以下公式进行DOA误差计算：

其中，

表示第t个时间帧中的所有实际DOA值，

表示第t个时间帧中的所有预测DOA值，T表示测试集的所有时间帧长度，

是第t个时间帧中

的DOA数量，如果

表示预测的声源数量，即预测结果为单声源，则

为1；如果预测结果为重叠声源，则

为2，H表示匈牙利算法，DOA误差越小，代表网络模型预测精度越高；

802)采用以下公式分别计算分类指标的精确率和召回率，公式分别如下：

其中，TP为将正类预测为正类数，FP为将负类预测为正类数，FN为将正类预测为负类数，TN为将负类预测为负类数；

803)计算精确率和召回率的调和均值F ₁，在0到1之间，值越大代表网络模型的识别性能越好，F ₁计算公式为：

其中，TP(t)是在第t个时间帧，实际和预测都是活跃的声音类别的数量，FP(t)是在第t个时间帧，预测中活跃但实际不活跃的声音类别的数量，FN(t)表示在预测中不活跃但实际活跃的声音类别数量；T表示测试集上的总时间帧长度。

本发明具有以下有益效果及优点：

1.本发明使用基于音频信号的非接触式方法，而非基于振动的接触式方法，受环境和接触限制更小；定位使用的是回归算法，相对于常规的分类器方法，分辨率更高，并且并行运行故障定位与故障识别分支，两者同步进行的，同时得到结果，提高了运行效率。

2.本发明方法通过串联CNN与RNN，搭建卷积递归神经网络，利用CNN学习声音的频谱结构信息，RNN学习时间上下文信息，实现了动态故障定位和跟踪，而且定位精度远高于CNN模型；针对多处故障数据集，设计改进的卷积递归神经网络，对多处故障进行识别与定位，并且在每个时间帧上预测重叠故障各自的DOA。

3.本发明方法对于包含更多故障类别的重叠故障场景，只需调整卷积递归神经网络模型的故障类别数量等参数，允许无缝集成到更加广泛的故障定位任务中，基于神经网络采用回归方式预测故障的DOA，其优点是网络不限于一组DOA角度，可以作为高分辨率连续DOA估计器执行。

附图说明

图1为本发明基于神经网络的多故障定位与识别方法的流程图；

图2A为本发明方法中多故障的实际重叠声源图；

图2B为本发明方法中多故障的识别结果的重叠声源预测图；

图3A为本发明方法中的实际方位角图；

图3B为本发明方法中的实际方位角图；

图4A为本发明方法中的实现仰角图；

图4B为本发明方法中的预测仰角图。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

如图1所示，本发明提供一种基于麦克风阵列的工业设备故障信号定位与识别方法，串联CNN和RNN，使用CNN提取声音的频谱信息，随后这些特征作为RNN的输入做进一步的时间建模，与单独计算相比提升了定位精度。同时加入了故障识别分支，实现了多故障的识别与定位，且两者是同时进行的，具有很高的运行效率。

本发明包括以下步骤：

1)采集声音信号，将其分为训练集、验证集和测试集；

6)输入一层全连接层，包含D个节点，使用线性激活函数；

步骤1)中，建立的坐标系为以声源平面为XOY平面，以麦克风阵列在XOY平面的投影点为坐标原点O，建立空间直角坐标系O-XYZ。伞形阵列中心是网络摄像头的位置，用于捕捉目标声源移动的视频数据。声源所在的平面XOY与阵列平面平行，且两个平面是同轴的。

同时在不同位置播放不同声音信号。设置麦克风阵列通道数K＝16，音频采样频率f＝12800Hz，摄像头每秒视频帧数FPS＝25，开始采集，采集时间300秒，此时TDMS文件中包含音频数据和视频数据两个部分。

将采集到的声音信号分为训练集、验证集和测试集，各集合间保持独立。

步骤2)中，对于K通道的音频信号中的每一通道信号，使用长度为 M＝1024且50％重叠的汉明窗截取信号，并进行离散傅里叶变换来提取频谱图的相位谱图和幅度谱图，使用M/2个包含基频和各次谐波的正频率部分作为单独的特征。特征提取模块的输出是T帧的特征序列，维度为T×M/2×(2K)，其中2K维度由K维度幅度分量和K维度相位分量组成。

步骤3)中，CNN网络具体为：卷积层的主要功能是将前一层输出的特征图与卷积核进行卷积运算，其结果作为这一层的输出。卷积核大小为3×3，数量为B个，其沿着时间-频率-通道轴作用，卷积运算之后输出图像的尺寸大小为：

其中O为输出图像的尺寸，I是输入图像的尺寸，K为卷积核的尺寸，S是卷积核移动的步长，P表示填充数。使用ReLU对每层CNN的输出进行激活。ReLU公式为：y＝max(0,x)。

卷积核沿着时间-频率-通道轴作用，使用ReLU对每层CNN的输出进行激活。

步骤4)中，沿着频率轴使用最大池化层来降低维数，包括：

402)平均池化在分割的区块中，取区块的平均值作为特征值；

403)池化层输出结果通过如下公式计算：

池化层可以将参数矩阵极大地缩小，从而降低模型训练的复杂度，减少信息的冗余度其次，还能防止模型过拟合。

在每层CNN之间，使用批量归一化对输出进行归一化，特征序列长度T帧保持不变，当每层CNN的最大池化值为(8，8，4)时，具有B个卷积核的最后一层CNN之后是T×2×B维的输出，其中降为2的频率维度是最大池化的结果。这样频谱图张量(T×M/2×2K)通过这样3层CNN网络后，维度降为T×2×B。

其中序列长度T、CNN的最大池化值分别为在控制变量法下单独改变该参数的值，观察DOA误差的变化，取DOA误差最小时对应的值。序列长度T与DOA误差的关系如表1所示。CNN的最大池化值与DOA误差的关系如表2所示。

表1为特征序列长度对DOA误差影响：

实验	特征序列长度	DOA误差
1	16	2.27

2	32	1.62
3	64	1.91
4	128	2.38
5	256	2.53

可以看出在特征序列长度T取32时，DOA误差最小。

表2为最大池化值对DOA误差影响：

实验	每层CNN的最大池化值	DOA误差
1	(8，2，2)	4.73
2	(8，2，4)	4.24
3	(8，2，8)	2.76
4	(8，4，2)	4.15
5	(8，4，4)	2.52
6	(8，4，8)	1.92
7	(8，8，2)	2.53
8	(8，8，4)	1.62
9	(8，8，8)	2.73

当三层CNN的最大池化值分别为8、8、4时，卷积递归神经网络预测的DOA误差最小。

502)RNN层选用长短期记忆网络，每层LSTM包含C个节点，使用tanh激活函数，此时维度从(T×2×B)调整为(T×C)维度；其中T为特征序列帧长度，B为卷积核数量，C为每层LSTM网络节点数；

其中RNN与CNN层数的选取是根据在不同情况下计算DOA误差，取其中最小的DOA误差得到的，CNN-RNN网络层数与DOA关系如表3。

表3为CNN-RNN层数对DOA误差的影响：

实验	CNN-RNN层数	DOA误差
1	0CNN-1LSTM	6.48
2	0CNN-2LSTM	5.54
3	0CNN-3LSTM	5.74
4	1CNN-0LSTM	6.43
5	1CNN-1LSTM	5.42
6	1CNN-2LSTM	5.21
7	1CNN-3LSTM	6.03
8	2CNN-0LSTM	4.71
9	2CNN-1LSTM	4.07
10	2CNN-2LSTM	3.82
11	2CNN-3LSTM	3.29
12	3CNN-0LSTM	3.13
13	3CNN-1LSTM	2.17
14	3CNN-2LSTM	1.62
15	3CNN-3LSTM	2.48
16	4CNN-1LSTM	2.94

17

4CNN-2LSTM

2.53

根据上图，可知在3层CNN，2层LSTM时效果最好。

CNN与RNN层节点数量的选取也是根据固定其他变量时，计算不同节点数量时的DOA误差，选取DOA误差最小时对应的节点数量得到。节点数与DOA误差关系如表4。

表4为CNN、RNN层节点数量对DOA误差影响：

CNN节点数	RNN节点数	DOA误差
32	32	2.81
32	64	1.17
32	128	2.71
64	32	4.01
64	64	2.43
64	128	1.62
128	32	2.43
128	64	2.11
128	128	3.03

当每层CNN节点数量为32时，且RNN层节点数量为CNN的两倍时，DOA误差最小。取这个数值为CNN-RNN网络节点数值。

步骤6)中，输入一层全连接层，具体为：

全连接层将前面全连接神经元的输出值连接在一个神经元中。依靠全连接神经网络，将其转换成一个一维的输出神经元，输出公式为：

其中，

为第l层中第j个神经元的输出值，

为第(l-1)层第i个神经元的输出，作为第l层的输入，f(·)表示激活函数，M _j表示为l层输入数据的集合，

表示为第l层第j个神经元的偏置项，

表示为第l层的第j个神经元与输入的第i个神经元的连接权重。

经过全连接层后，数据的维度被调整为T×D。

步骤7)的故障识别分支中，由具有sigmoid激活函数的全连接层组成，包含2个节点，每个节点对应于故障中的不同类型的故障信号，使用sigmoid激活函数可以同时识别这两个故障类别。故障定位分支中的全连接层，包含2×2个节点，分别对应两个声源的方位角、仰角，使用线性激活函数。

步骤8)中，采用以下公式进行DOA误差计算：

其中，

表示第t个时间帧中的所有实际DOA值(实际DOA值表示空间中声源的实际方位角和仰角值)，

是第t个时间帧中

的DOA数量，如果

表示预测的声源数量，即预测结果为单声源，则

为1；如果预测结果为重叠声源，则

其中，TP(True Positive)为将正类预测为正类数，FP(False Positive)：为将负类预测为正类数，FN(False Negative)：为将正类预测为负类数，TN(True Negative)：为将负类预测为负类数；

803)计算精确率和召回率的调和均值F ₁(F-Score)，在0到1之间，值越大代表网络模型的识别性能越好，F ₁计算公式为：

其中，TP(t)是在第t个时间帧，实际和预测都是活跃的声音类别的数量，FP(t)是在第t个时间帧，预测中活跃但实际不活跃的声音类别的数量，FN(t)表示在预测中不活跃但实际活跃的声音类别数量，T表示测试集上的总时间帧长度。

本步骤使用DOA误差作为实验的评估指标，DOA误差是预测DOA与实际DOA之间的平均角度误差，设

表示第t个时间帧中的所有实际DOA值(实际DOA值表示空间中故障的实际方位角和仰角值)，

表示第t个时间帧中的所有预测DOA值，T表示测试集的所有时间帧长度。H为匈牙利算法，用于解决分配问题，通过使用预测和实际DOA之间的球面距离来预测它们之间的成对成本，即将各个预测DOA与对应的实际DOA进行匹配 ^[48]。匈牙利算法计算公式如下：

H＝arccos(sinφ _Psinφ _R+cosφ _Pcosφ _Rcos(λ _R-λ _P))

其中，实际DOA的方位角、仰角记为(φ _R,λ _R)，预测DOA的方位角、仰角记为(φ _P,λ _P)。DOA误差越小，代表网络模型预测精度越高。

将数据分为split1、split2、split3、split4四个独立的部分，分别作为训练集、验证集和测试集，对模型进行交叉训练与验证，验证结果如表5所示：

表5为交叉验证集的结果：

将最佳参数集合代入网络模型，一组交叉验证上模型的训练时间约为2.5小时，共658305个参数，训练完成后，测试集上只需极短的时间。从四个交叉验证中，故障识别分支的F ₁值大约为0.975，表明提出的卷积递归神经网络成功地识别了故障，而且识别率很高。当训练集为split1、split2，验证集为split4，测试集上取得了最低DOA误差，即split3中预测故障的DOA与实际DOA之间的平均角度误差为2.62度。

故障识别的结果比较如图2A～2B所示。定位中方向角与仰角结果比较如图3A～3B和图4A～4B所示。

本发明方法通过串联CNN与RNN，搭建卷积递归神经网络，利用CNN学习声音的频谱结构信息，RNN学习时间上下文信息，此网络实现了动态故障定位和跟踪，而且定位精度远高于CNN模型。针对多处故障数据集，设计改进的卷积递归神经网络，对多处故障进行识别与定位，并且在每个时间帧上预测重叠故障各自的DOA。此外，对于包含更多故障类别的重叠故障场景，只需调整卷积递归神经网络模型的故障类别数量等参数，允许无缝集成到更加广泛的故障定位任务中。本文基于神经网络采用回归方式预测故障的DOA，其优点是网络不限于一组DOA角度，可以作为高分辨率连续DOA估计器执行。

Claims

一种基于麦克风阵列的工业设备故障信号定位与识别方法，其特征在于包括以下步骤：

1)采集声音信号，将其分为训练集、验证集和测试集；

2)对训练集中的声音信号进行特征提取，将信号进行离散傅里叶变换来提取频谱图的相位谱图和幅度谱图；

3)将特征提取模块的输出作为输入被送到卷积神经网络，在每层CNN网络中，使用2D CNN来学习频谱图中的平移不变性；

4)在每层CNN之间，使用批量归一化对输出进行归一化，并沿着频率轴使用最大池化层来降低维数；

5)将来自CNN层的输出，送到RNN层用来学习音频信号的时间上下文信息；

6)输入一层全连接层，包含D个节点，使用线性激活函数；

7)将全连接层的输出输入到两个并行的全连接层分支，分别用于故障识别和故障定位；

8)使用验证集验证模型的性能指标，使用测试集验证模型的泛化能力。
根据权利要求1所述的基于麦克风阵列的工业设备故障信号定位与识别方法，其特征在于步骤4)中，沿着频率轴使用最大池化层来降低维数，包括：

401)将上一层的输出结果根据池化滤波器的大小进行分割区块，选择每个区块的最大值来表示特征值；

402)平均池化在分割的区块中，取区块的平均值作为特征值；

403)池化层输出结果通过如下公式计算：

其中，O是输出图像的尺寸，I表示输出入图像的尺寸，P _s为池化层的尺寸，S为移动步长。
根据权利要求1所述的基于麦克风阵列的工业设备故障信号定位与识别方法，其特征在于步骤5)中，将来自CNN层的输出，送到RNN层用来学习音频信号的时间上下文信息，包括：

501)CNN网络输出的维度被重塑成长度为2B个特征向量的T帧序列，被送到RNN层用来学习音频信号的时间上下文信息；

502)RNN层选用长短期记忆网络，每层LSTM包含C个节点，使用tanh激活函数，此时维度从(T×2×B)调整为(T×C)维度；其中T为特征序列帧长度，B为卷积核数量，C为每层LSTM网络节点数。
根据权利要求1所述的基于麦克风阵列的工业设备故障信号定位与识别方法，其特征在于步骤7)中，将全连接层的输出输入到两个并行的全连接层分支，具体为：

声音识别分支中，由具有sigmoid激活函数的全连接层组成，包含2个节点，每个节点对应于重叠声源中的两个声音，使用sigmoid激活函数可以同时识别这两个声音类别。
根据权利要求1所述的基于麦克风阵列的工业设备故障信号定位与识别方法，其特征在于步骤8)中，用验证集验证模型的性能指标，具体为：

801)采用以下公式进行DOA误差计算：

其中，
表示第t个时间帧中的所有实际DOA值，
表示第t个时间帧中的所有预测DOA值，T表示测试集的所有时间帧长度，
是第t个时间帧中
的DOA数量，如果
表示预测的声源数量，即预测结果为单声源，则
为1；如果预测结果为重叠声源，则
为2，H表示匈牙利算法，DOA误差越小，代表网络模型预测精度越高；

802)采用以下公式分别计算分类指标的精确率和召回率，公式分别如下：

其中，TP为将正类预测为正类数，FP为将负类预测为正类数，FN为将正类预测为负类数，TN为将负类预测为负类数；

803)计算精确率和召回率的调和均值F ₁，在0到1之间，值越大代表网络模型的识别性能越好，F ₁计算公式为：

其中，TP(t)是在第t个时间帧，实际和预测都是活跃的声音类别的数量，FP(t)是在第t个时间帧，预测中活跃但实际不活跃的声音类别的数量，FN(t)表示在预测中不活跃但实际活跃的声音类别数量；T表示测试集上的总时间帧长度。