WO2024021246A1

WO2024021246A1 - 基于持续学习的跨设备增量轴承故障诊断方法

Info

Publication number: WO2024021246A1
Application number: PCT/CN2022/118373
Authority: WO
Inventors: 沈长青; 陈博戬; 李林; 孔林; 谭陆洋; 王冬; 石娟娟; 黄伟国; 朱忠奎
Original assignee: 苏州大学
Priority date: 2022-07-25
Filing date: 2022-09-13
Publication date: 2024-02-01
Also published as: CN115270956A; CN115270956B

Abstract

一种基于持续学习的跨设备增量轴承故障诊断方法，包括构建跨设备增量轴承健康状态数据集，按设备划分不同阶段的诊断任务（S101）；使用第一个设备的诊断任务数据构建初始诊断模型，筛选典例（S102）；基于初始诊断模型引入神经元级微调和分类器得到诊断模型（S103）；将典例与下一个设备的轴承故障诊断任务数据共同训练诊断模型，使用损失函数缩小当前阶段的诊断模型与上一阶段的诊断模型在上一阶段诊断任务数据上表现的差异，筛选典例（S104）；重复步骤S104，使用当前的诊断模型诊断所有已学习任务的轴承故障，得到轴承故障诊断结果（S105）。上述方法采用持续学习方法构建一个不断积累和复用知识的诊断模型，能解决灾难性遗忘问题，以适应跨设备增量轴承故障诊断的需求。

Description

基于持续学习的跨设备增量轴承故障诊断方法

技术领域

本发明涉及轴承故障诊断和深度学习技术领域，尤其是指一种基于持续学习的跨设备增量轴承故障诊断方法。

背景技术

目前旋转机械设备的高速、重载以及自动化程度要求不断提高所表现出来的动态信号更加复杂，现代状态监测技术已经能够实现对复杂装备多测点、全寿命的数据采集，进而获得海量的数据，但同时导致对动态信号的处理和其中健康状态信息的特征提取带来较大难度。传统的故障诊断方法有基于振动信号提取故障特征频率、短时傅里叶变换、经验模式分解、稀疏表示方法等。这些方法已经较为成熟，但对目前的机械设备状态信号而言，基于信号处理的方法不具备处理大量信号数据中故障数据密度低、干扰强且在变工况下表现多样性的能力。

近年来，随着人工智能、机器学习领域的快速发展，越来越多的基于机器学习的旋转机械智能故障诊断方法被提出。基于机器学习的故障诊断一般包括信号采集，特征提取，故障识别与预测等步骤。这种方法大大简化了故障诊断过程，提高了诊断效率，但是由于多为浅层网络，结构简单，层次有限，其有效性取决于前期预处理提取特征的有效性，在面对大量结构复杂的设备状态信号时处理能力有限。因此，许多学者利用深度学习优秀的自适应特征学习与提取能力，克服了浅层模型难以表征信号与健康状况之间复杂的映射关系的不足，取得了不错的效果。然而，这些方法都是基于两个假设：训练数据与测试数据同分布且训练数据足够多。但是在实际工程中，机械设备运行工况多变且故障发生具有偶然性，获得的样本难以满足以上两个假设，因而直接影响故障诊断的结果。

随着迁移学习的快速发展，借助其在跨领域、跨分布间的知识挖掘和迁移能力，针对标签样本受限(极小样本或无样本)问题或者变工况问题的迁移学习解决方案在机械故障诊断领域也得到了发展。但是迁移学习仅能满足单一目标任务的故障诊断，即源域和目标域给定条件下完成一次迁移即可，由于机械设备故障本身与运行工况的多样性，在面对新的任务时，模型的泛化能力大大下降，通用性较差；另一方面，迁移学习不涉及对知识的积累，在面对源域数据对应工况下的设备状态识别任务时，往往表现较差，与工程实际中的需求不符。由于运行工况的复杂多变，一个机械系统中多个子机器经常会产生意外故障，导致跨设备增量诊断问题的出现，使得通过预收集半完备的故障数据训练的深度诊断模型和深度迁移诊断模型失效，因此需要重新训练模型以识别新的故障类型。然而，使用新类型的数据直接训练深度模型将导致旧故障类的识别表现断崖式下降，这称为灾难性遗忘。灾难性遗忘一直是深度学习领域的一个重要问题，同样，在故障诊断领域，需要研究解决由意外故障引起的深度诊断模型的灾难性遗忘问题，以建立可靠性、泛化性和通用性更强的持续故障诊断模型。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术存在的问题，提出一种基于持续学习的跨设备增量轴承故障诊断方法，以解决现有基于深度学习和迁移学习的故障诊断模型不能解决跨设备轴承故障问题。

为解决上述技术问题，本发明提供一种基于持续学习的跨设备增量轴承故障诊断方法，包括以下步骤：

S101:利用加速度传感器采集多个不同设备上的轴承振动信号构建跨设备增量轴承健康状态数据集，并将数据集按照设备划分为不同阶段的轴承故障诊断任务；

S102:在初始阶段使用第一个设备的轴承故障诊断任务数据训练ResNet-32，构建初始诊断模型，并筛选该阶段各个故障类型的典例；

S103:在增量阶段引入神经元级微调对初始诊断模型进行修改，得到双分支残差自适应聚合网络，并使用最近邻典例分类器或余弦标准化分类器取代初始诊断模型的全连接层分类器，得到诊断模型；

S104:将典例与下一个设备的轴承故障诊断任务数据共同训练所述诊断模型，使用增量阶段的损失函数缩小当前阶段的诊断模型与上一阶段的诊断模型在上一阶段诊断任务数据上表现的差异，并通过双层优化方案优化聚合权重和模型参数，训练完成后筛选该阶段各个故障类型的典例；

S105:重复步骤S104，当完成当前阶段任务的学习后，使用当前的诊断模型诊断所有已学习任务的轴承故障，得到轴承故障诊断结果，并验证诊断模型克服灾难性遗忘的能力。

在本发明的一个实施例中，所述利用加速度传感器采集多个不同设备上的轴承振动信号构建跨设备增量轴承健康状态数据集，并将数据集按照设备划分为不同阶段的轴承故障诊断任务，包括：

利用加速度传感器采集多个不同设备上的轴承振动信号构建跨设备增量轴承健康状态数据集D；

按照设备划分不同阶段的诊断任务，假设第n个设备的诊断任务用T _n表示，T _n的数据为

其中P ⁿ是任务T _n的故障数据样本的数量，

表示T _n中的第i个样本，

表示

的健康状态标签，J _n表示在任务T _n之前学习的故障类型C _0:n-1＝{C ₀,C ₁,K,C _n-1}的数量，K _n表示任务T _n中学习的故障类型C _n的数量。

在本发明的一个实施例中，所述使用第一个设备的轴承故障诊断任务数据训练ResNet-32，构建初始诊断模型，并筛选该阶段各个故障类型的典例进行存储，包括：

在初始阶段利用任务T ₀的数据

训练ResNet-32学习故障类型C ₀得到初始诊断模型Θ ₀，其中

初始诊断模型Θ ₀的损失函数为：

其中δ是真实标签；

在完成此阶段模型训练后，使用特征提取器F ₀通过herding算法选取训练样本作为此阶段学习的故障类型的典例。

在本发明的一个实施例中，所述使用特征提取器F ₀通过herding算法选取训练样本作为此阶段学习的故障类型的典例，包括：

使用

表示故障类型c的训练样本，则c的类平均为

其中P _c是类c的训练样本的数量，每个典例ε通过

计算得到类c的典例 m _c＝(ε ₀,ε ₁,K,ε _t-1)，其中t表示典例数量。

在本发明的一个实施例中，引入神经元级微调对初始阶段诊断模型进行修改，得到双分支残差自适应聚合网络，包括：

利用双分支残差自适应聚合网络替换初始阶段诊断模型的单分支ResNet-32，其中，双分支残差自适应聚合网络包含动态分支和稳态分支，动态分支使用参数级微调，稳态分支使用神经元级微调。

在本发明的一个实施例中，动态分支使用参数级微调，稳态分支使用神经元级微调，包括：

所述动态分支使用的参数级微调在训练时使用初始诊断模型参数初始化后用训练数据微调该分支所有参数；

所述稳态分支使用神经元级微调在使用初始诊断模型参数初始化后将冻结模型网络参数，并赋予每个神经元一个缩放权重，并使用各个阶段任务训练微调。

在本发明的一个实施例中，所述使用最近邻典例分类器或余弦标准化分类器取代初始诊断模型的全连接层分类器进行分类的方法，包括：

所述最近邻典例分类器通过计算各类典例的特征均值

进行分类，其中y＝0,1,K,J _n+K _n-1，P _y是m _y中样本的数量，F(·)是当前阶段的特征提取器，假设输入故障样本x，则通过

预测类型；

所述余弦标准化分类器通过计算特征与各类学习得到的原型之间的余弦相似度进行分类，在初始阶段通过

计算输入x为类c的预测概率，其中θ ⁰为初始阶段全连接分类层参数，h ⁰＝F ₀(x)为初始阶段提取的特征；在增量阶段通过

计算输入x为类c的预测概率，其中θ ⁿ为学习得到的每个类的原型，h ⁿ＝F _n(x)为增量阶段n提取的特征，

表示l ₂归一化，

η是可学习缩放参数。

在本发明的一个实施例中，存储的典例与下一个设备的轴承故障诊断任务数据共同训练所述诊断模型，包括：

利用初始阶段存储的典例和下一个设备的轴承故障诊断任务数据训练双分支残差自适应聚合网络，分别赋予每个残差块层的动态残差块和稳态残差块的自适应聚合权重ω _α和ω _β；

使用赋予了自适应聚合权重的所述双分支残差自适应聚合网络对训练数据x ^[0]进行特征提取，在第n个残差块层，动态残差块和稳态残差块提取的特征分别为

得到第n个残差块层的聚合特征为

其中W ⁰表示初始阶段被冻结的参数，f ^[n]为第n个残差块层的特征提取过程，

在本发明的一个实施例中，所述增量阶段的损失函数包括分类交叉熵损失函数、分类级知识蒸馏损失函数和特征级知识蒸馏损失函数；所述分类交叉熵损失函数为

所述分类级知识蒸馏损失函数

其中

和

分别为旧模型的软标签和新模型的软预测，T表示温度参数；所述特征级知识蒸馏损失为

其中

和

分别为当前阶段的诊断模型与上一阶段的诊断模型所提取的归一化特征，

度量了二者之间的余弦相似度。

在本发明的一个实施例中，通过双层优化方案优化聚合权重和模型参数，包括：

所述双层优化方案包括上层问题

和下层问题

所述下层问题通过

更新模型参数Θ _n，其中μ ₁是下层问题学习率；

所述上层问题利用对该阶段学习的任务数据D _n随机采样得到

构建平衡数据

通过

更新自适应聚合权重，其中μ ₂是上层问题学习率。

在本发明的一个实施例中，所述增量阶段训练得到的诊断模型需能完成所有已学任务，因此测试数据包含所有已学习故障类C _0:n，以验证所述诊断模型克服灾难性遗忘的能力。

本发明的上述技术方案相比现有技术具有以下优点：

本发明采用持续学习方法构建一个不断积累和复用知识的诊断模型，以适应跨设备增量轴承故障诊断的需求，与传统的深度学习方法相比，本发明能解决灾难性遗忘问题，更加符合工业应用的实际场景。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明。

图1为本发明所提供的基于持续学习的跨设备增量轴承故障诊断方法的流程图。

图2为本发明所提供的双分支残差自适应聚合网络的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

请参考图1，图1为本发明所提供的基于持续学习的跨设备增量轴承故障诊断方法的具体实施例的流程图，具体操作步骤如下：

步骤S101：利用加速度传感器采集多个不同设备上的轴承振动信号构建跨设备增量轴承健康状态数据集，并将数据集按照设备划分为不同阶段的轴承故障诊断任务；

步骤S102:在初始阶段使用第一个设备的轴承故障诊断任务数据训练ResNet-32，构建初始诊断模型，并筛选该阶段各个故障类型的典例；

步骤S103:在增量阶段引入神经元级微调对初始诊断模型进行修改，得到双分支残差自适应聚合网络，并使用最近邻典例分类器或余弦标准化分类器取代初始诊断模型的全连接层分类器，得到诊断模型；

步骤S104:将典例与下一个设备的轴承故障诊断任务数据共同训练所述诊断模型，使用增量阶段的损失函数缩小当前阶段的诊断模型与上一阶段的诊断模型在上一阶段诊断任务数据上表现的差异在旧任务数据上表现的差异，并通过双层优化方案优化聚合权重和模型参数，训练完成后筛选该阶段各个故障类型的典例；

步骤S105:重复步骤S104，当完成当前阶段任务的学习后，使用当前的诊断模型诊断所有已学习任务的轴承故障，得到轴承故障诊断结果，并验证诊断模型克服灾难性遗忘的能力。

本发明所提供的基于持续学习的跨设备增量轴承故障诊断方法，首先通过加速度传感器采集多个不同设备上的轴承振动信号构建跨设备增量轴承健康状态数据集，按设备划分不同阶段的诊断任务，模拟实际场景中子机器意外故障的发生造成了跨设备轴承故障而导致的诊断任务增加；使用第一个设备的轴承故障诊断任务数据训练ResNet-32，构建初始诊断模型，筛选各故障类型的典例存储；接着引入神经元级微调对初始诊断模型进行修改，得到双分支残差自适应聚合网络，作为后续增量阶段的特征提取器，以保证模型持续学习新任务时维持模型的可塑性和稳定性的平衡，并使用最近邻典例分类器或余弦标准化分类器取代初始诊断模型的全连接层分类器，得到诊断模型，从而能够避免类偏置问题；存储的典例与下一个设备的故障数据一同训练诊断模型，以唤醒模型对旧知识的记忆，克服深度学习模型的灾难性遗忘，通过聚合权重维持模型的可塑性和稳定性的平衡，使用增量阶段的损失函数缩小新旧模型在旧任务数据上表现的差异，并通过双层优化方案优化聚合权重和模型参数，完成训练后，选取此阶段数据的典例存储；重复上述训练过程，当完成当前阶段任务的学习后，使用当前的诊断模型诊断所有已学习任务的轴承故障，得到轴承故障诊断结果，并验证诊断模型克服灾难性遗忘的能力；即本发明采用了持续学习方法，构建一个不断积累和复用知识的诊断模型，以适应跨设备增量轴承故障诊断的需求。

进一步的，所述步骤S101具体包括以下步骤：

步骤S101.1：使用多个试验台采集所需实验数据，构建跨设备增量轴承健康状态数据集。

步骤S101.2：根据实际场景，划分不同阶段的诊断任务。假设第n个机器设备诊断任务用T _n表示，T _n的数据为

其中P ⁿ是任务T _n的故障数据样本的数量。用J _n表示在任务T _n之前学习的故障类型

的数量，K _n表示任务T _n中学习的故障类型C _n的数量，那么J _n+1＝K _n+J _n，所以

表示T _n中的第i个样本，

表示

的健康状态标签。

如表1所列，使用三个机器设备的轴承故障数据集划分不同阶段的诊断任务。每个数据集有6种故障类型，共计18种故障类型。每个故障类型有100个训练样本和100个测试样本。三个数据集按顺序进行学习。例如，ABC代表在阶段0、增量阶段1和增量阶段2分别完成数据集A、B、C的诊断任务。

表1跨设备增量轴承故障数据集描述

进一步的，所述步骤S102具体包括以下步骤：

S102.1：在初始阶段(也指阶段0)利用诊断任务T ₀的数据

训练原始的ResNet-32学习故障类C ₀得到初始诊断模型Θ ₀，ResNet-32的详细结构如表2所示。模型的损失函数为分类交叉熵损失函数：

其中δ是真实标签。所述初始模型参数Θ ₀的更新过程为常规的

表2骨干网络ResNet-32的结构化参数

S102.2：训练完成后，利用分类层前的特征提取器F ₀通过herding算法选取一定数量的典例M ₀。用

表示故障类型c的训练样本，则c的类平均为

其中P _c是类c的训练样本的数量。选取的典例数量为5，则每个典例ε通过

计算得到类c的典例m _c＝(ε ₀,ε ₁,K,ε _t-1)。

进一步的，所述步骤S103具体包括以下步骤：

S103.1：对初始诊断模型进行重新设计和修改，引入神经元级微调表征模型稳定性，得到双分支残差自适应聚合网络，其结构如图2所示，将双分支残差自适应聚合网络作为后续增量阶段的特征提取器，以保证模型持续学习新任务时维持模型的可塑性和稳定性的平衡。

所述动态分支使用的参数级微调，如图2(a)所示，在训练时使用初始模型参数初始化后用训练数据微调该分支所有参数α，动态分支可以快速学习新任务，因此可表征模型的可塑性

所述稳态分支使用的神经元级微调，如图2(b)所示，在使用初始模型参数初始化后将冻结模型网络参数，并赋予每个神经元一个缩放权重β，接着用各阶段任务训练微调β。假设稳态分支第k层卷积神经网络包含Q个神经元，所述神经元权重为初始模型冻结的参数

所述缩放权重为

则第k层卷积神经网络的输入为x _k-1，输出为x _k＝(W _keβ _k)x _k-1，其中e为哈达玛积。稳态分支由于冻结了初始阶段的所有参数，且待学习的参数远少于动态分支，因此具有克服灾难性遗忘的能力，能表征模型的稳定性。

利用双分支残差自适应聚合网络替换原始的ResNet-32，双分支聚合网络结构如图2(c)所示。

S103.2：使用两种可以避免类偏置问题的分类器，即最近邻典例分类器和余弦标准化分类器，代替原始的全连接层分类器。

所述最近邻典例分类器通过计算各类典例的特征均值

进行分类，其中y＝0,1,K,J _n+K _n-1，P _y是m _y中样本的数量，F(·)是当前阶段的特征提取器，假设输入故障样本x，那么通过

预测类型；

所述余弦标准化分类器通过计算特征与各类学习得到的原型之间的余弦相似度进行分类。在初始阶段通过

计算输入x为类c的预测概率，其中θ ⁰为初始阶段全连接分类层参数，h ⁰＝F ₀(x)为初始阶段提取的特征；在增量阶段n，使用余弦标准化分类器，即通过

表示l ₂归一化，

η是可学习缩放参数，通过η控制经过softmax处理的预测概率在[-1,1]范围内；

通过最近邻典例分类器和余弦标准化分类器均可避免新旧类分类偏置问题。

进一步的，所述步骤S104具体包括以下步骤：

S104.1：以增量阶段1为例，利用所述初始阶段保留的典例M ₀和该阶段任务数据D ₁训练双分支残差自适应聚合网络，每个残差块层的动态残差块和稳态残差块表征的可塑性和稳定性需要平衡，因此，分别赋予自适应聚合权重ω _α和ω _β，如图2(c)所示；

所述训练数据x ^[0]通过双分支聚合网络提取特征，在第n个残差块层，动态残差块和稳态残差块提取的特征分别为

其中W ⁰来自阶段0的被冻结的参数，f ^[n]为第n个残差块层的特征提取过程；

所述第n个残差块层的聚合特征为

其中

S104.2：所述增量阶段的损失函数为分类交叉熵损失

和知识蒸馏损失

其中，

和

分别为旧模型在旧故障类的软标签和新模型在旧故障类的硬标签，温度T通常大于1。通过知识蒸馏损失缩小了新模型在旧故障类C _0:n-1上的表现与旧模型的差异，新模型中旧类的相似性分布被近似约束为旧模型中旧类的相似性分布。所述增量阶段的损失函数为

其中0＜λ≤1。

S104.2：所述增量阶段的损失函数为分类交叉熵损失函数，分类级知识蒸馏损失函数和特征级知识蒸馏损失函数组成；

所述分类交叉熵损失函数为

所述分类级知识蒸馏损失函数

其中

和

分别为旧模型的软标签和新模型的软预测，温度参数T通常大于1，新旧模型在同一样本的预测被约束为相似以克服灾难性遗忘；

所述特征级知识蒸馏损失为

其中

和

分别为新旧模型提取的归一化特征，

度量了二者之间的余弦相似度。特征级知识蒸馏损失鼓励新旧模型提取的同一样本的特征相似，进一步克服模型的灾难性遗忘；

所述增量阶段的损失函数为

其中随着学习任务的数量增加，需要保存的旧知识的程度也会增加，因此缩放参数为

所述自适应聚合权重和模型参数的最优化互相制约，即诊断模型Θ _n参数的更新需要固定自适应聚合权重，而适应自聚合权重ω ⁿ的更新需要固定模型参数，因此采取双层优化方案；

所述双层优化方案分为上层问题

和下层问题

所述下层问题通过

更新模型参数Θ _n，其中μ ₁是下层问题学习率；

所述上层问题中的自适应聚合权重的更新为平衡模型的可塑性与稳定性，利用对该阶段学习的任务数据D _n随机采样得到

构建平衡数据

通过

更新自适应聚合权重，其中μ ₂是上层问题学习率。

进一步的，所述步骤S105具体包括以下步骤：

所述增量阶段n(也指增量阶段2)训练得到的诊断模型Θ _n需能完成所有已学任务，因此测试数据包含所有已学习故障类C _0:n，以验证模型克服灾难性遗忘的能力。

表3六种任务顺序下的诊断精度

如表3所示，在六种任务顺序下，重复五次实验，两种微调的诊断精度体现了不采取持续学习的深度学习诊断模型的灾难性遗忘，而本发明方法能有效解决灾难性遗忘，实现连续的跨设备增量轴承故障诊断。

综上所述，本发明基于持续学习方法设计了一种能实现跨设备增量轴承故障诊断方法。与传统的深度学习方法相比，本发明能解决灾难性遗忘问题，更合符工业应用的实际场景。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

一种基于持续学习的跨设备增量轴承故障诊断方法，其特征在于，包括以下步骤：

S101:利用加速度传感器采集多个不同设备上的轴承振动信号构建跨设备增量轴承健康状态数据集，并将数据集按照设备划分为不同阶段的轴承故障诊断任务；

S102:在初始阶段使用第一个设备的轴承故障诊断任务数据训练ResNet-32，构建初始诊断模型，并筛选该阶段各个故障类型的典例；

S103:在增量阶段引入神经元级微调对初始诊断模型进行修改，得到双分支残差自适应聚合网络，并使用最近邻典例分类器或余弦标准化分类器取代初始诊断模型的全连接层分类器，得到诊断模型；

S104:将典例与下一个设备的轴承故障诊断任务数据共同训练所述诊断模型，使用增量阶段的损失函数缩小当前阶段的诊断模型与上一阶段的诊断模型在上一阶段诊断任务数据上表现的差异，并通过双层优化方案优化聚合权重和模型参数，训练完成后筛选该阶段各个故障类型的典例；

S105:重复步骤S104，当完成当前阶段任务的学习后，使用当前的诊断模型诊断所有已学习任务的轴承故障，得到轴承故障诊断结果，并验证诊断模型克服灾难性遗忘的能力。
如权利要求1所述的基于持续学习的跨设备增量轴承故障诊断方法，其特征在于，所述利用加速度传感器采集多个不同设备上的轴承振动信号构建跨设备增量轴承健康状态数据集，并将数据集按照设备划分为不同阶段的轴承故障诊断任务，包括：

利用加速度传感器采集多个不同设备上的轴承振动信号构建跨设备增量轴承健康状态数据集D；

按照设备划分不同阶段的诊断任务，假设第n个设备的诊断任务用T _n表示，T _n的数据为
其中P ⁿ是任务T _n的故障数据样本的数量，
表示T _n中的第i个样本，
表示
的健康状态标签，J _n表示在任务T _n之前学习的故障类型C _0:n-1＝{C ₀,C ₁,K,C _n-1}的数量，K _n表示任务T _n中学习的故障类型C _n的数量。
如权利要求2所述的基于持续学习的跨设备增量轴承故障诊断方法，其特征在于，所述使用第一个设备的轴承故障诊断任务数据训练ResNet-32，构建初始诊断模型，并筛选该阶段各个故障类型的典例进行存储，包括：

在初始阶段利用任务T ₀的数据
训练ResNet-32学习故障类型C ₀得到初始诊断模型Θ ₀，其中
初始诊断模型Θ ₀的损失函数为：
其中δ是真实标签；

在完成此阶段模型训练后，使用特征提取器F ₀通过herding算法选取训练样本作为此阶段学习的故障类型的典例。
如权利要求3所述的基于持续学习的跨设备增量轴承故障诊断方法，其特征在于，所述使用特征提取器F ₀通过herding算法选取训练样本作为此阶段学习的故障类型的典例，包括：

使用
表示故障类型c的训练样本，则c的类平均为
其中P _c是类c的训练样本的数量，每个典例ε通过
计算得到类c的典例
其中t表示典例数量。
如权利要求1所述的基于持续学习的跨设备增量轴承故障诊断方法，其特征在于：引入神经元级微调对初始阶段诊断模型进行修改，得到双分支残差自适应聚合网络，包括：

利用双分支残差自适应聚合网络替换初始阶段诊断模型的单分支ResNet-32，其中，双分支残差自适应聚合网络包含动态分支和稳态分支，动态分支使用参数级微调，稳态分支使用神经元级微调。
如权利要求5所述的基于持续学习的跨设备增量轴承故障诊断方法，其特征在于：动态分支使用参数级微调，稳态分支使用神经元级微调，包括：

所述动态分支使用的参数级微调在训练时使用初始诊断模型参数初始化后用训练数据微调该分支所有参数；

所述稳态分支使用神经元级微调在使用初始诊断模型参数初始化后将冻结模型网络参数，并赋予每个神经元一个缩放权重，并使用各个阶段任务训练微调。
如权利要求1所述的基于持续学习的跨设备增量轴承故障诊断方法，其特征在于，所述使用最近邻典例分类器或余弦标准化分类器取代初始诊断模型的全连接层分类器进行分类的方法，包括：

所述最近邻典例分类器通过计算各类典例的特征均值
进行分类，其中y＝0,1,K,J _n+K _n-1，P _y是m _y中样本的数量，F(·)是当前阶段的特征提取器，假设输入故障样本x，则通过
预测类型；

所述余弦标准化分类器通过计算特征与各类学习得到的原型之间的余弦相似度进行分类，在初始阶段通过
计算输入x为类c的预测概率，其中θ ⁰为初始阶段全连接分类层参数，h ⁰＝F ₀(x)为初始阶段提取的特征；在增量阶段通过
计算输入x为类c的预测概率，其中θ ⁿ为学习得到的每个类的原型，h ⁿ＝F _n(x)为增量阶段n提取的特征，
表示l ₂归一化，
η是可学习缩放参数。
如权利要求6所述的基于持续学习的跨设备增量轴承故障诊断方法，其特征在于，存储的典例与下一个设备的轴承故障诊断任务数据共同训练所述诊断模型，包括：

利用初始阶段存储的典例和下一个设备的轴承故障诊断任务数据训练双分支残差自适应聚合网络，分别赋予每个残差块层的动态残差块和稳态残差块的自适应聚合权重ω _α和ω _β；

使用赋予了自适应聚合权重的所述双分支残差自适应聚合网络对训练数据x ^[0]进行特征提取，在第n个残差块层，动态残差块和稳态残差块提取的特征分别为
得到第n个残差块层的聚合特征为
其中W ⁰表示初始阶段被冻结的参数，f ^[n]为第n个残差块层的特征提取过程，
如权利要求1所述的基于持续学习的跨设备增量轴承故障诊断方法，其特征在于，所述增量阶段的损失函数包括分类交叉熵损失函数、分类级知识蒸馏损失函数和特征级知识蒸馏损失函数；所述分类交叉熵损失函数为
所述分类级知识蒸馏损失函数
其中

和
分别为旧模型的软标签和新模型的软预测，T表示温度参数；所述特征级知识蒸馏损失为
其中
和
分别为当前阶段的诊断模型与上一阶段的诊断模型所新旧模型提取的归一化特征，
度量了二者之间的余弦相似度。
如权利要求1所述的基于持续学习的跨设备增量轴承故障诊断方法，其特征在于，通过双层优化方案优化聚合权重和模型参数，包括：

所述双层优化方案包括上层问题
和下层问题

所述下层问题通过
更新模型参数Θ _n，其中μ ₁是下层问题学习率；

所述上层问题利用对该阶段学习的任务数据D _n随机采样得到
构建平衡数据
通过
更新自适应聚合权重，其中μ ₂是上层问题学习率。