WO2022141213A1

WO2022141213A1 - 一种智慧城市智轨车辆故障基因预测方法及系统

Info

Publication number: WO2022141213A1
Application number: PCT/CN2020/141464
Authority: WO
Inventors: 刘辉; 杨睿; 李燕飞; 夏雨
Original assignee: 中南大学
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2022-07-07
Also published as: AU2020471210B2; AU2020471210A1

Abstract

一种智慧城市智轨车辆故障基因预测方法及系统，采集列车部件的振动数据X _h ₍₀₎＝[e ₁，e ₂，e ₃，...，e _n]∈R，其中，e ₁，e ₂，...，e _n代表列车上每一个采样点的振动信息；将所述振动数据编码为DNA序列，提取所述DNA序列的特征，并排列组合以形成可预测的DNA序列，即候选车辆部件故障基因；利用所述候选车辆部件故障基因训练ESNs深度回声状态网络，得到预测模型。可以准确预测车辆故障。

Description

一种智慧城市智轨车辆故障基因预测方法及系统

技术领域

本发明涉及车辆故障检测领域，具体是一种智慧城市智轨车辆故障基因预测方法及系统。

背景技术

21世纪10年代以来，交通拥堵问题、能源危机问题、环境污染问题、土地短缺问题等对城市交通提出了挑战。为了在舒适性、安全性、节能环保等方面做的更好，新一代的城市客运Autonomous Rail Rapid Transit(ART)自主轨道列车出现在人们的视野当中。ART被用于解决大城市郊区和小城市地区的交通问题，它不依赖于现有的铁轨，而是可以通过对地通信和线控专项技术来实现自主无轨道的自动驾驶，大大降低了人力物力的损耗。然而，对于ART智轨列车的故障检测手段尚存在很大的空白，目前大都采用类似于城轨列车的原始检测方法。如公开号为CN203732247U的专利采用物理压力弹簧开关的方法进行单元故障信号的诊断。该方法存在一定的运用局限性，且故障检测手段不能根据列车车况自适应的调整，故障预警方面存在研究空白也是亟需解决的问题。

发明内容

本发明所要解决的技术问题是，针对现有技术不足，提供一种智慧城市智轨车辆故障基因预测方法及系统，提高故障预警准确性。

为解决上述技术问题，本发明所采用的技术方案是：一种智慧城市智轨车辆故障基因预测方法，包括以下步骤：

1)采集列车部件的振动数据X _h(0)＝[e ₁,e ₂,e ₃,...,e _n]∈R，其中，e ₁,e ₂,...,e _n代表列车上每一个采样点的振动信息；n表示采样点个数；

2)将所述振动数据编码为DNA序列，提取所述DNA序列的特征，并排列组合以形成可预测的DNA序列，即候选车辆部件故障基因；

3)利用所述候选车辆部件故障基因训练ESNs深度回声状态网络，得到预测模型；

基于DNA编码的预测建模可以深度开发列车部件振动数据中的潜在信息，从而得到更精准的故障预测。

优选地，还包括：

4)根据实时采集的振动数据，利用所述预测模型预测车辆故障。所得预测模型可以帮助行业管理人员预测城市智轨列车设备出现的故障，从而在故障发生之前提前维修。

步骤2)中，将所述振动数据编码为DNA序列的具体实现过程包括：

A)选中采集的原始振动信号X的第g列样本，将所述第g列样本赋值到初始的DNA螺旋序列数据矩阵X _h(0)，赋值后的矩阵表示为X _g；

B)计算赋值后的DNA螺旋序列数据矩阵X _g与最大投影值矩阵X _h(z-1)在子空间中的正交投影，得到维度为U的数据矩阵集合Y；z是投影值的序号；h(z-1)是最大投影值；最大投影值正规化后为G，即垂直投影，最小投影值h(0)为0，即平行投影，从最小值开始投影角度每变化一个数值Υ，投影值增大

Z为投影值数量；

C)将所述数据矩阵集合Y划分为由A，T，C，G四种碱基元素表达的U维特征向量；将A，T，C，G整合为DNA序列S＝S ₁,S ₂,S ₃,...,S _N；其中，N为DNA序列长度。

基于连续投影法降维的振动数据编码可将原始振动信号转换为由A，T，C，G四种碱基元素表达的U维特征向量，避免丢失有效信息。

步骤2)中，候选车辆部件故障基因V _s表示为：V _s＝(W ₁₁,W ₁₂,...,W _UU,C ₁,...,C _U,D ₁,...,D _U)；其中，碱基B _i转移到碱基B _j的概率

n _i为单个碱基点B _i在DNA序列S中出现的次数；B _i为DNA序列S中第i个数据点位置的碱基；1≤i≤U；U指碱基元素所代表特征向量的维度；N为DNA序列S的长度；n _ij为碱基对B _iB _j在DNA序列S中出现的次数；碱基含量

碱基位置比

DNA序列S中碱基B _i出现的位置标记为S _i，s _i是S _i中的值。对可编码基因序列碱基对进行特征提取可以找出其中最具代表性的特征，用低维度的数据表达尽可能多的高维度信息，这也可以避免建模过程中模型过拟合。

步骤3)的具体实现过程包括：

A)将车辆部件故障基因V _s随机划分为训练集和测试集；初始化多目标灰狼优化算法的迭代次数m、预期精度；

B)将所述训练集、ESNs深度回声状态网络模型储蓄池的初始层数θ ₀和每一层储蓄池矩阵谱的初始半径κ ₀作为ESNs深度回声状态网络模型的输入，以具有储蓄池层数θ _m和储蓄池矩阵谱半径κ _m的ESNs深度回声状态网络模型作为输出，训练ESNs深度回声状态网络模型；

C)将所述测试集、储蓄池层数θ _m和储蓄池矩阵谱半径κ _m作为多目标灰狼优化算法两个目标优化函数的输入，计算两个目标优化函数的值；

D)根据两个所述目标优化函数的值的乘积，更新ESNs深度回声状态网络储蓄池层数和每一层储蓄池矩阵谱半径的搜索路径，使得下一次两个目标函数值的乘积大于当前次两个目标函数值的乘积，从而得到新的储蓄池层数θ _m+1和储蓄池矩阵谱半径κ _m+1；

E)迭代次数加1，将新的储蓄池层数θ _m+1和储蓄池矩阵谱半径κ _m+1作为多目标灰狼优化算法目标优化函数的输入，返回步骤C)，直至多目标灰狼优化算法目标优化函数值达到预期精度或完成所设定的迭代次数，完成ESNs深度回声状态网络训练，并获取最优参数θ _optimal和κ _optimal，该最优参数θ _optimal和κ _optimal对应的ESNs深度回声状态网络模型即预测模型。

ESNs深度回声状态网络模型具有优秀的数据拟合能力，经过多目标灰狼优化算法优化过参数的ESNs深度回声状态网络模型具有更小的预测误差，可以更准确的预测车辆故障。

两个所述目标优化函数表达式为：

其中，θ是储蓄池层数，κ是储蓄池矩阵谱半径，

是将θ和κ代入ESNs模型输出的的预测值，

是所有预测值的平均值；V _t是DNA序列的真实值，

是所有真实值的平均值；N是DNA序列的长度，且1≤t≤N，下标CT表示车体故障，ZXJ表示转向架故障，QY表示牵引传动控制系统故障，ZD表示制动系统故障，LJ表示车端连接装置故障，SL表示受流装置故障，SB表示车辆内部设备和驾驶室设备故障；

NSE和KGE是用于衡量模型稳定性的指标，以这两个指标为基础设置目标函数进行优化可以使预测模型具有更强的鲁棒性。

还包括：将预判定的候选车辆部件故障基因V _s作为聚类模型的输入，搭建模板库。搭建模板库可以帮助行业有关人员对比当前故障和历史故障的异同，从而采取更精准的维修操作。

搭建模板库的具体实现过程包括：

步骤1：将连续投影法降维得到的预判定的候选车辆部件故障基因V _s作为随机邻接嵌入算法的输入，得到高维数据点V _i和V _j的条件概率p _j|i、低维数据点v _i和v _j的条件概率q _j|i，将条件概率最小化，得到最小化的高维数据的条件概率p _j|i和最小化的低维数据的条件概率q _ij；

步骤2：依据条件概率最小化结果计算出高低维条件概率差异的最小值p _ij，

通过梯度下降法最小化代价函数L：

得到最优解

将所述最优解

作为tSNE聚类算法的聚类结果输出；所述聚类结果对应ART城市智轨车辆的模板库template：

template＝[CT,ZXJ,QY,ZD,LJ,SL,SB]；

其中，CT,ZXJ,QY,ZD,LJ,SL,SB为DNA序列模板库中的故障类别；CT：车体故障；ZXJ：转向架故障；QY：牵引传动控制系统故障；ZD：制动系统故障；LJ：车端连接装置故障；SL：受流装置故障；SB：车辆内部设备和驾驶室设备故障；n代表数据样本数，KL表示散度。

连续投影法降维和t-SNE聚类相结合的方法避免了车辆故障有效信息大量丢失的不利情况，柔和聚类可以得到更可靠的模板库信息。

步骤4)之后，还包括：

5)判断所述预测模型输出的预测序列对应故障类别是否与所述模板库中的故障类别匹配，若所述故障类别从属于模板库中某一故障类别中的子类别，则将所述故障类别划入该故障类别中，记为旧类故障

若所述故障类别不属于模板库中的任何一类，则将预测序列对应的故障类别添加进模板库，并标记为新的故障类型

模板库比对机制帮助有关人员快速识别当前故障，模板库更新机制帮助完善模板库的内容，从而容纳更多故障信息。

本发明的方法还包括：

利用预测模型对实时采集的振动数据进行预测，再利用DNA螺旋序列解码及虚拟模板库实现预测结果的可视化；具体实现过程包括：对预测模型输出的预测结果进行二进制逆编码转换，其中，二进制逆编码转换后的预测结果中的腺嘌呤、胸腺嘧啶的结合碱基对被解码后对应数字0，即设备故障程度未达到警戒线阈值，鸟嘌呤、C胞嘧啶的结合碱基对被解码后对应数字1，即设备故障程度达到了警戒线阈值，必须进行检修修复。

本发明还提供了一种智慧城市智轨车辆故障基因预测系统，其包括计算机设备；所述计算机设备被配置或编程为用于执行上述方法的步骤。

与现有技术相比，本发明所具有的有益效果为：

1)本发明在现有智轨车辆故障诊断技术的基础上，提供了一种基于DNA序列模板库的精准故障预测方法。无线传感网络与高低频振动测量仪器相结合的数据采集模块可收集大量历史故障信号，多源振动信号的数据编码模块将振动信号转换为可编码的基因序列，可编码碱基对的DNA序列特征提取模块可筛选出预判定的候选车辆部件故障基因、DNA序列模板库模块的搭建可以帮助行业有关人员比对新检测故障与历史故障的异同、可编码DNA螺旋序列深度学习的故障预警建模模块可预测列车部件潜在的故障、基于多目标优化的DNA螺旋序列预测策略模块可提升故障预警的精度、DNA序列螺旋解码及虚拟模板库的故障可视化模块帮助维修人员快速识别故障类型。

2)本发明搭建了可编码故障模块的DNA序列模板库，对应城市智轨车辆的七大部件(车体、转向架、牵引传动控制系统、制动系统、车端连接装置、受流装置、车辆内部设备和驾驶室设备)。故障模板库作为虚拟故障的匹配模板，为训练可靠的故障预警模型提供了准确方向。精准完善的故障信息库更有利于工作人员比对自主轨道列车新老设备的故障异同从而进行故障检修。

3)本发明提出了一种自主轨道列车的故障诊断多故障预测匹配的建模方法，在智轨列车的各大部件上安装振动传感器，采集实时振动数据信号，并通过无线传感网络(WSN)进行传输，并建立深度回声状态网络(ESNs)以进行设备故障的多目标优化预测，极大地提高了故障预测的准确性。

4)围绕数据采集、原始信号螺旋编码解码、基因信号转化、基因序列特征提取、建立故障模块的DNA序列模板库、故障预测等环节搭建了一个完整的系统框架，基于时效性的兼顾，本发明的模型可以被嵌入到Hadoop大数据平台中进行训练，提高训练速度。

附图说明

图1为本发明实施例方法原理图。

具体实施方式

如图1，本发明实施例具体实现过程如下：

步骤1：新型智轨列车部件历史故障数据采集

本发明运用高、低频传感器和电动式传感器采集各型号城市智轨车辆部件的历史振动信息数据，技术更迭很大程度上降低了传感器的普及应用成本。另外，无线传感网络(WSN)扮演了重要的角色，运用该方法可以将多辆列车的振动信号及时上传整合到数据集成平台，步骤1涉及到的信息采集模块包括车辆部件振动幅度采集模块、振动频率采集模块和振动周期采集模块。采集到的信息包括车辆部件的振动幅度A、频率f、周期T等信号，需通过滤波器进行数据过滤，最后得到原始振动信号X。

本发明中：低频振动测量：相对式动圈型电动传感器；高频振动测量：惯性式动圈型电动传感器。电动式传感器可对一些民用工业入车辆等的重要部件进行振动测试。

步骤2：多源振动信号的DNA螺旋序列数据编码转换

为了完成对爆炸信息的有效存储，采集到的多源振动数据需要被编码为DNA序列，编码后的振动信号其特征表现更加明显且易区分，从而便于后续的预测工作。DNA序列的碱基数据排列开后在数学表现上是高维或超高维的矩阵，为了有效利用这些数据，需要对其进行稳健鲁棒降维处理。对DNA螺旋序列进行连续投影算法(SPA)处理可实现快速降维以解决共线性问题，需调整的参数少且思想简单(参见Soares S F C,Gomes A A,Araujo M C U,et al.The successive projections algorithm[J].TrAC Trends in Analytical Chemistry,2013,42:84-98.)。它相比传统的降维方法具有高效、可解释性强的特点。能有效的降低数据的维度且保持关键信息不丢失。

首先给定一个初始的原始振动信号序列数据(即步骤1中采集到的新型智轨列车部件原始振动信号)矩阵X _h(0)＝[e ₁,e ₂,e ₃,...,e _n]∈R，其中矩阵的每一列代表一个DNA螺旋序列数据样本，e ₁,e ₂,...,e _n代表每一个基础高低频振动传感器采集到的振动信息，采样频率为0.2s。在第一次迭代之前，选中采集的原始振动信号X的第g列样本赋值到初始的DNA螺旋序列数据矩阵X _h(0)，赋值后的矩阵表示为X _g。接下来一步需要对赋值后的DNA螺旋序列数据矩阵X _g与最大投影值矩阵X _h(z-1)在子空间中的正交投影进行计算：

h(z)＝arg(max(||FX _g||,g∈E)) (2)

式中，F为投影算子，即初始螺旋序列正交于其他螺旋序列的投影；h(z-1)是最大投影值；h(0)为最小投影值，后续以此类推，共Z个投影；其中最大投影值正规化后为G，即垂直投影，最小投影为0，即平行投影，从最小值开始投影角度每变化一个数值Υ，投影值增大

z是投影值的序号。

经过连续投影算法(SPA)降维处理后得到的维度为U的数据矩阵集合Y可以被表示如下：

Y＝{x _h(z)；z＝0,1,2,3,...,U-1} (3)

其中初始螺旋序列X _h(0)的选择十分关键，直接影响了算法的精度，该算法本质上可以看作是一种矩阵投影。在本发明中对应的则是数据类型维度的转化，振动信号被映射成一组低维度的基因表达，这些基因代表发生故障部件的表达情况。

在步骤2中，需将步骤1中采集到的设备振动信号X进行基因序列的转化。根据需要保留信息的程度来定义降维维度U，连续投影法(SPA)将原始振动数据降维后得到Y，Y作为一整组数据的集合，其矩阵中数据的幅值大小有高有低，根据经验阈值，将数据进行归一化处理，此处粗略的先将Y按照25％一个碱基占比的比例将Y划分为4类，即A，T，C，G，归一化后幅值处于[0.75，1]的数据定义为A类，然后根据各部位设备传感器数量的配比，来调整A，T，C， G的最终占比。经过连续投影算法(SPA)降维处理后的振动样本数据被定义为由A，T，C，G四种碱基元素表达的U维特征向量，即后续步骤所需的经过转化的可编码基因序列信号，此处的目的是将数据划分为4类。为了方便表示，分别用B ₁,B ₂,B ₃,B ₄代替“A，T，C，G”四种碱基表达。经过预处理后的振动信号被转化为可编码的基因序列。

步骤3：可编码的基因序列的碱基对特征提取

经过编码转换后的DNA序列还不具备可供高效高精度预测的特性，需要进行特征提取的操作来将设备故障的深度表达提取出来，并排列组合以形成可预测的DNA序列。

将经过步骤1(历史故障数据采集)、步骤2(DNA螺旋序列数据编码转换)处理后的U维可编码基因序列信号输入到故障特征提取模块。该环节通过计算转化后的基因序列中碱基的含量、位置以及转移概率几个特征来进行独立的自主轨道列车故障部件的DNA序列特征提取。

A1.将步骤2中降维得到的可编码基因序列定义为S＝S ₁,S ₂,S ₃,...,S _N，其长度为N，如果该DNA序列中第k(1≤k≤N)个数据点位置的碱基为B _i(1≤i≤U)，则记为S _k＝B _i；对于连续两个碱基点的情况，如果第l(1≤l≤N-1)个数据点位置的碱基为B _i，第l+1个数据点位置的碱基为B _j，记为S _lS _l+1＝B _iB _j(1≤i,j≤U)。

A2.定义碱基转移概率W _ij。首先将n _i定为单个碱基点B _i在DNA序列S中出现的次数，此外，对于连续两个点碱基的情况，定义n _ij为碱基对B _iB _j在DNA序列S中出现的次数。具体计算式为：

对于特殊情况，如果碱基B _i没有出现在DNA序列S当中，或者出现但是只出现在最后一次，那么此时可以视W _ij的分子分母为0，即W _ij＝0。

补充说明，

这是因为：

所以可将W _ij视为碱基B _i转移到碱基B _j的概率，即碱基转移概率向量。

A3.定义碱基含量C _i。DNA序列S中碱基B _i(1≤i≤U)的含量可以被如下表达式记录：

对于U维碱基来说，其含量向量为C ₁,C ₂,C ₃,...,C _U。

A4.定义碱基位置比D _i。将DNA序列S中碱基B _i(1≤i≤U)出现的位置标记为S _i，叠加表达式如下：

转化得到碱基位置比D _i，数学表达式如下所示：

对于U维碱基来说，其位置比向量为D ₁,D ₂,D ₃,...,D _U。

可编码基因序列经特征提取后，可得到能利用的U维向量。将上述步骤计算得到的基转移概率向量、碱基含量向量、碱基位置比向量进行整合可得到V _s＝(W ₁₁,W ₁₂,...,W _UU,C ₁,...,C _U,D ₁,...,D _U)。这些特征向量被定义为预判定的候选车辆部件故障基因。

步骤4：建立故障模块的DNA序列模板库

步骤3提取出的候选故障基因特征向量在此环节被输入到(t分布随机邻域嵌入)t-SNE聚类模型当中，经过精细的聚类划分来建立故障模块的DNA序列模板库。模板库对应到城市智轨车辆的7大板块，分别是车体(CT)库、转向架(ZXJ)库、牵引传动控制系统(QY)库、制动系统(ZD)库、车端连接装置(LJ)库、受流装置(SL)库、车辆内部设备和驾驶室设备(SB)库。其中括号中的简写代表获取基因序列表达的标签。值得一提的是，如过直接用连续投影算法(SPA)将振动信号降到3维空间则会丢失大量关键信息，所以在本发明中先用连续投影算法(SPA)降到一个中小型的多维空间U，并用多维碱基特征来表达，最后再利用t-SNE聚类方法得到最后的聚类结果，这样可以达到柔和聚类的效果。每个聚类结果对应一个部件的故障，聚类出的结果被输送到步骤5的预测器模型当中进行训练，然后再利用DNA序列模板进行二次的详细划分。t-SNE是一种可以探索高维数据的非线性降维的算法，在本发明中车辆故障模块t-SNE的DNA序列聚类方法如下：

B1.首先通过随机邻接嵌入(SNE)来把数据进行转化，数据间的高维欧几里得距离被转化后表示为相似的条件概率，具体的，候选车辆部件故障基因高维数据点V _i、V _j的条件概率p _j|i的数学计算给出如下：

式中，V _i,V _j是DNA序列S中的数据点，σ _i是以数据点V _i,V _j为中心的高斯方差。

B2.高维数据点到低维数据点的转化。同样的，对于低维数据点v _i,v _j而言，其条件概率q _j|i的计算方法也是类似的：

在这一过程当中，随机邻域嵌入算法尝试讲条件概率的差异最小化。对于t-SNE来说，设v服从t分布，则可以得到：

其中，s为预判定的候选车辆部件故障基因的序号。

B3.测量高低维度条件概率差异之和的最小值。在这一环节中，SNE使用梯度下降法来最小化Kullback-Leibler差异距离，同时SNE的代价函数将注意力投放到了映射数据的局部结构，更进一步的，运用t-SNE的重尾分布来减轻优化该函数的拥挤问题。为了使P和Q的分布尽可能接近，则需要使KL的散度尽可能的小，并计算p _ij：

KL散度的值越小，两个分布之间的距离越近。当散度KL＝0，时，则说明P和Q的分布是相同的。如果降维后特征空间中的点的概率分布近似于原始特征空间中的点的概率分布，则可以得到定义良好的聚类，此处通过梯度下降法最小化代价函数：

B4.迭代寻优，对变量目标函数L进行寻优，不断更新低维数据点，直至得到对应所求的最优解

该最优解为可以表达为CT、ZXJ、QY、ZD、LJ、SL和SB的几簇。

其中，y为迭代过程中迭代次数，y _max为最大迭代总次数，η为学习率，α(y)为学习动量，低维数据的集合

此环节需要大量历史故障数据作为支撑。模板库对应故障类型，一种基因特征表现对应到一种部件的故障，最后系统发出诊断预警报告。最终得到的最优解

聚类结果可以表达为CT、ZXJ、QY、ZD、LJ、SL、SB的几簇，可视化表达为7个ART城市智轨车辆大部件的DNA序列的聚类模板。由聚类结果对应得到的模板库表达如下所示：

template＝[CT,ZXJ,QY,ZD,LJ,SL,SB] (16)

CT：车体；ZXJ：转向架；QY：牵引传动控制系统；ZD：制动系统；LJ：车端连接装置；SL：受流装置；SB：车辆内部设备和驾驶室设备。聚类形成的模板库通过至此，故障模块的DNA序列模板库搭建完成。

具体地，模板库的搭建可以总结为：

a：将经过连续投影法(SPA)降维得到的预判定的候选车辆部件故障基因V _s作为随机邻接嵌入(SNE)算法的输入来分别得到高维数据点V _i、V _j和低维数据点v _i,v _j的条件概率p _j|i和q _j|i，并进一步将条件概率最小化得到最小化的高维数据的条件概率p _j|i和最小化的低维数据的条件概率q _ij。

b：依据条件概率最小化结果计算出高低维条件概率差异的最小值，并计算

通过梯度下降法最小化代价函数L，其中n为数据样本的数量，最后根据上述结果来计算得到最优解

也就是说将最优解

作为tSNE聚类算法的聚类结果输出。这些输出的聚类信息熵簇对应7个ART城市智轨车辆大件的DNA序列的聚类模板。

步骤5：可编码DNA螺旋序列的多目标优化深度学习故障预警建模

将预判定的候选车辆部件故障基因归一化后输入模型进行城市智轨列车设备的故障预测训练。具体的建模过程如下：

C1.设置训练集和测试集。按照训练集、测试集分别60％，40％的比例将输入模型的数据进行划分，此外，预测模型的评价指标设定为纳什萨克利夫效率(NSE)指数，克林古普塔效率(KGE)指数，数值越接近1代表模型的性能越好。

C2.搭建与智轨列车设备部件DNA序列特征模板库形成映射关系的深度学习预测模型，并进行模型参数的优化。深度回声状态网络中储蓄池的层数和每一层储蓄池矩阵谱的半径的设定对预测模型的预测精度起到很大的影响作用。为了使ESNs模型的性能得到再一次的提升，多目标灰狼优化算法(MOGWO)被用于进行ESNs的储蓄池的层数和每一层储蓄池矩阵谱的半径参数寻优。参数寻优过程与ESNs建模过程同时进行，具体实施细节如下：

1)选定优化算法、初始化参数：选择多目标灰狼优化算法进行ESNs模型的参数优化。优化算法的迭代次数设置为200，预期精度为

当达到预设迭代次数或满足预期精度时迭代停止。

2)设定优化变量：将深度回声状态网络储蓄池的层数θ和每一层储蓄池矩阵谱的半径κ设定为需要优化的变量。在本环节中，深度回声状态网络的储蓄池节点被初始设定为15，网络各层的输入输出层层相对，继而学习可编码数据的深度特征表示。

3)模型训练。将所述训练集、ESNs深度回声状态网络模型储蓄池的初始层数θ ₀和每一层储蓄池矩阵谱的初始半径κ ₀作为ESNs深度回声状态网络模型的输入，以具有储蓄池层数θ _m和储蓄池矩阵谱半径κ _m的ESNs深度回声状态网络模型作为输出，训练ESNs深度回声状态网络模型。

4)进行模型参数的多目标优化(参见MIRJALILI S,SAREMI S,MIRJALILI S M,et al.Multi-objective grey wolf optimizer[J].Expert Systems With Applications,2016,47:106-19.)。为了进一步提升模型性能，将多目标灰狼优化算法嵌入领导者选择机制和存档储存机制来提高收敛能力。将所述测试集、储蓄池层数θ _m和储蓄池矩阵谱半径κ _m作为多目标灰狼优化算法目标优化函数的输入，计算目标优化函数值；其中m表示当前迭代次数，0≤m≤200。

设置优化目标函数为最大化各类设备的纳什萨克利夫效率(NSE)指数和克林古普塔效率(KGE)指数，当目标函数object1和目标函数object2通过多目标优化取到综合最优时，会形成一组同时包含多个(θ,κ)的帕累托面解集，该解集上每一(θ,κ)都对应两个目标函数值的综合最优，优化函数值可以被计算如下：

其中，θ是储蓄池层数，κ是储蓄池矩阵谱半径，

是将θ和κ代入ESNs模型输出的预测值，V _t是DNA碱基序列的真实值，N是DNA序列的长度，且1≤t≤N，下标CT表示车体故障，ZXJ表示转向架故障，QY表示牵引传动控制系统故障，ZD表示制动系统故障，LJ表示车端连接装置故障，SL表示受流装置故障，SB表示车辆内部设备和驾驶室设备故障。

5)根据两个所述目标优化函数的值的乘积来更新ESNs深度回声状态网络储蓄池的层数和每一层储蓄池矩阵谱的半径的搜索路径，使得下一次两个目标函数值的乘积大于当前次两个目标函数值的乘积，得到新的储蓄池层数θ _m+1和储蓄池矩阵谱半径κ _m+1。

6)迭代次数加1，将新的储蓄池层数θ _m+1和储蓄池矩阵谱半径κ _m+1作为多目标灰狼优化算法目标优化函数的输入，返回步骤4)，直至多目标灰狼优化算法目标优化函数值达到预期或完成所设定的迭代次数，完成ESNs深度回声状态网络训练，并获取最优参数θ _optimal和κ _optimal，该最优参数θ _optimal和κ _optimal对应的ESNs深度回声状态网络模型即预测模型。

当DNA碱基序列的预测值贴近真实值时，就说明预测模型训练合理，准确的完成了设备的故障预测任务。预测出来的结果可以对应步骤4模板库中的template＝[CT,ZXJ,QY,ZD,LJ,SL,SB]七类故障，判断所述预测模型输出的预测序列对应故障类别是否与模板库中的故障类别匹配，若所述故障类别从属于模板库中某一故障类别中的子故障，则将所述故障类别划入该故障的模板库中，记为旧类故障

若所述故障类别不属于模板库中的任何一类，则进行模板库的更新，直接将该预测结果添加进模板库，并标记为新故障

DNA序列模板库为预测模型后续的训练指引了方向。

步骤6：DNA螺旋序列解码及虚拟模板库的故障可视化

在本发明中，原始的振动数据被进行了编码转化和特征提取等步骤，其目的是使原本特性不明显的原始序列的深度特征表达被抽取出来，然后将这一易区分的深度特征序列输入到预测模型当中进行训练，训练好的模型预测出的序列结果依旧是深度特征表达，每个DNA片段的预测结果被首尾相连后形成完整的碱基序列编码，相应的故障对应到虚拟DNA模板库中的具体类型。然而结果的表现形式不是具象的，所以要对其进行DNA序列解码和故障可视化，以还原到数据类型对应于原始振动数据的预测数据。为了实现城市智轨电车设备的故障预测结果可视化，利用步骤5得到的预测模型对实时采集的振动数据进行预测，再对预测模型输出的预测结果(该ART城市智轨车辆故障预测输出结果的编码机制是基于步骤3的碱基编码体系的，所以其序列的构成建立在A，T，G，C碱基的基础上通过深度学习预测建模得到)进行二进制逆编码转换。此处，将预测输出结果进行解码操作，以显示为0/1状态，即完成预测结果的可视化，以实现及时预警。其中，A(腺嘌呤)、T(胸腺嘧啶)的结合碱基对被解码后对应数字0，即设备故障程度未达到警戒线阈值，G(鸟嘌呤)、C(胞嘧啶)的结合碱基对被解码后对应数字1，即设备故障程度达到了警戒线阈值，必须进行检修修复。而故障的预警模型搭建也可以为ART城市智轨车辆的安全稳定运行提供可靠的保障。

DNA故障螺旋序列解码编码的优势明显，对于爆炸式的信息存储，DNA序列数据存储方法为信息收发和保存提供了无限可能，且存储时间完全能够满足大数据时代的信息使用需求。

步骤7：分布式系统基础架构嵌入

综合本发明提出方法的时耗性以及实际工程中智轨设备维修的实时性需要，可将模块嵌入分布式系统基础架构以加快模型训练和自学习更新速度，从而更大程度上的满足应用需求。可用的分布式系统基础架构包括MapReduce、Apache Spark、Hadoop等(参见DittrichJ,Quiané-Ruiz J A.Efficient big data processing in Hadoop MapReduce[J].Proceedings of the VLDB Endowment,2012,5(12):2014-2015.)。这些大规模数据处理的分析引擎和集群计算系统具有高效性、易用性、通用性和兼容性等特征，可以极大的满足使用需求。

Claims

一种智慧城市智轨车辆故障基因预测方法，其特征在于，包括以下步骤：

1)采集列车部件的振动数据X _h(0)＝[e ₁,e ₂,e ₃,...,e _n]∈R，其中，e ₁,e ₂,...,e _n代表列车上每一个采样点的振动信息；n表示采样点个数；

2)将所述振动数据编码为DNA序列，提取所述DNA序列的特征，并排列组合所述特征，形成可预测的DNA序列，即候选车辆部件故障基因；

3)利用所述候选车辆部件故障基因训练ESNs深度回声状态网络，得到预测模型；

优选地，还包括：

4)根据实时采集的振动数据，利用所述预测模型预测车辆故障。
根据权利要求1所述的一种智慧城市智轨车辆故障基因预测方法，其特征在于，步骤2)中，将所述振动数据编码为DNA序列的具体实现过程包括：

A)选中采集的原始振动信号X的第g列样本，将所述第g列样本赋值到初始的DNA螺旋序列数据矩阵X _h(0)，赋值后的矩阵表示为X _g；

B)计算赋值后的DNA螺旋序列数据矩阵X _g与最大投影值矩阵X _h(z-1)在子空间中的正交投影，得到维度为U的数据矩阵集合Y；z是投影值的序号；h(z-1)是最大投影值；最大投影值正规化后为G，即垂直投影，最小投影值h(0)为0，即平行投影，从最小值开始投影角度每变化一个数值Υ，投影值增大
Z为投影值数量；

C)将所述数据矩阵集合Y划分为由A，T，C，G四种碱基元素表达的U维特征向量；将A，T，C，G整合为DNA序列S＝S ₁,S ₂,S ₃,...,S _N；其中，N为DNA序列长度。
根据权利要求2所述的一种智慧城市智轨车辆故障基因预测方法，其特征在于，步骤2)中，候选车辆部件故障基因V _s表示为：V _s＝(W ₁₁,W ₁₂,...,W _UU,C ₁,...,C _U,D ₁,...,D _U)；其中，碱基B _i转移到碱基B _j的概率
n _i为单个碱基点B _i在DNA序列S中出现的次数；B _i为DNA序列S中第i个数据点位置的碱基；1≤i≤U；U指碱基元素所代表特征向量的维度；N为DNA序列S的长度；n _ij为碱基对B _iB _j在DNA序列S中出现的次数；碱基含量
碱基位置比
DNA序列S中碱基B _i出现的位置标记为S _i，s _i是S _i中的值。
根据权利要求1～3之一所述的一种智慧城市智轨车辆故障基因预测方法，其特征在于，步骤3)的具体实现过程包括：

A)将车辆部件故障基因V _s随机划分为训练集和测试集；初始化多目标灰狼优化算法的迭代次数m、预期精度；

B)将所述训练集、ESNs深度回声状态网络模型储蓄池的初始层数θ ₀和每一层储蓄池矩阵谱的初始半径κ ₀作为ESNs深度回声状态网络模型的输入，以具有储蓄池层数θ _m和储蓄池矩阵谱半径κ _m的ESNs深度回声状态网络模型作为输出，训练ESNs深度回声状态网络模型；

C)将所述测试集、储蓄池层数θ _m和储蓄池矩阵谱半径κ _m作为多目标灰狼优化算法两个目标优化函数的输入，计算两个目标优化函数的值；

D)根据两个所述目标优化函数的值的乘积，更新ESNs深度回声状态网络储蓄池层数和每一层储蓄池矩阵谱半径的搜索路径，使得下一次两个目标函数值的乘积大于当前次两个目标函数值的乘积，从而得到新的储蓄池层数θ _m+1和储蓄池矩阵谱半径κ _m+1；

E)迭代次数加1，将新的储蓄池层数θ _m+1和储蓄池矩阵谱半径κ _m+1作为多目标灰狼优化算法目标优化函数的输入，返回步骤C)，直至多目标灰狼优化算法目标优化函数值达到预期精度或完成所设定的迭代次数，完成ESNs深度回声状态网络训练，并获取最优参数θ _optimal和κ _optimal，该最优参数θ _optimal和κ _optimal对应的ESNs深度回声状态网络模型即预测模型。
根据权利要求4所述的一种智慧城市智轨车辆故障基因预测方法，其特征在于，两个所述目标优化函数表达式为：

其中，θ是储蓄池层数，κ是储蓄池矩阵谱半径，
是将θ和κ代入ESNs模型输出的的预测值，
是所有预测值的平均值；V _t是DNA序列的真实值，
是所有真实值的平均值；N是DNA序列的长度，且1≤t≤N，下标CT表示车体故障，ZXJ表示转向架故障，QY表示牵引传动控制系统故障，ZD表示制动系统故障，LJ表示车端连接装置故障，SL表示受流装置故障，SB表示车辆内部设备和驾驶室设备故障；
根据权利要求1～5之一所述的一种智慧城市智轨车辆故障基因预测方法，其特征在于，还包括：将预判定的候选车辆部件故障基因V _s作为聚类模型的输入，搭建模板库。
根据权利要求6所述的一种智慧城市智轨车辆故障基因预测方法，其特征在于，搭建模板库的具体实现过程包括：

步骤1：将连续投影法降维得到的预判定的候选车辆部件故障基因V _s作为随机邻接嵌入算法的输入，得到高维数据点V _i和V _j的条件概率p _j|i、低维数据点v _i和v _j的条件概率q _j|i，将条件概率最小化，得到最小化的高维数据的条件概率p _j|i和最小化的低维数据的条件概率q _ij；

步骤2：依据条件概率最小化结果计算出高低维条件概率差异的最小值p _ij，
通过梯度下降法最小化代价函数L：
得到最优解
将所述最优解
作为tSNE聚类算法的聚类结果输出；所述聚类结果对应ART城市智轨车辆的模板库template：template＝[CT,ZXJ,QY,ZD,LJ,SL,SB]；

其中，CT,ZXJ,QY,ZD,LJ,SL,SB为DNA序列模板库中的故障类别；CT：车体故障；ZXJ：转向架故障；QY：牵引传动控制系统故障；ZD：制动系统故障；LJ：车端连接装置故障；SL：受流装置故障；SB：车辆内部设备和驾驶室设备故障；KL表示散度。
根据权利要求7所述的一种智慧城市智轨车辆故障基因预测方法，其特征在于，步骤4)之后，还包括：

5)判断所述预测模型输出的预测序列对应故障类别是否与所述模板库中的故障类别匹配，若所述故障类别从属于模板库中某一故障类别中的子类别，则将所述故障类别划入该故障类别中，记为旧类故障
若所述故障类别不属于模板库中的任何一类，则将预测序列对应的故障类别添加进模板库，并标记为新的故障类型
根据权利要求1～8之一所述的一种智慧城市智轨车辆故障基因预测方法，其特征在于，还包括：

利用预测模型对实时采集的振动数据进行预测，再利用DNA螺旋序列解码及虚拟模板库实现预测结果的可视化；具体实现过程包括：对预测模型输出的预测结果进行二进制逆编码转换，其中，二进制逆编码转换后的预测结果中的腺嘌呤、胸腺嘧啶的结合碱基对被解码后对应数字0，即设备故障程度未达到警戒线阈值，鸟嘌呤、C 胞嘧啶的结合碱基对被解码后对应数字1，即设备故障程度达到了警戒线阈值，必须进行检修修复。
一种智慧城市智轨车辆故障基因预测系统，其特征在于，包括计算机设备；所述计算机设备被配置或编程为用于执行权利要求1～9之一所述方法的步骤。