WO2023138140A1

WO2023138140A1 - 基于宽度混合森林回归的mswi过程二噁英排放软测量方法

Info

Publication number: WO2023138140A1
Application number: PCT/CN2022/127864
Authority: WO
Inventors: 汤健; 夏恒; 崔璨麟; 乔俊飞
Original assignee: 北京工业大学
Priority date: 2022-01-19
Filing date: 2022-10-27
Publication date: 2023-07-27
Also published as: CN114398836A

Abstract

一种基于宽度混合森林回归的MSWI过程二噁英排放软测量方法，基于BLS框架，以非微分基学习器替换神经元构建面向小样本高维数据的BHFR软测量模型，BHFR软测量模型包括特征映射层、潜在特征提取层、特征增强层和增量学习层的构建：首先，构建由随机森林和完全随机森林组成的混合森林组进行高维特征映射；其次，依据贡献率对全联接混合矩阵的特征空间进行潜在特征提取，采用信息度量准则降低模型复杂度和计算消耗；然后，基于所提取潜在信息训练特征增强层以增强特征表征能力；最后，通过增量式学习策略构建增量学习层，采用Moore-Penrose伪逆获得权重矩阵，进而实现高精度建模。在高维基准数据集和工业过程DXN数据集上验证了所提方法的有效性和合理性。

Description

基于宽度混合森林回归的MSWI过程二噁英排放软测量方法

技术领域

本发明涉及二噁英排放软测量技术领域，特别是涉及一种基于宽度混合森林回归的MSWI过程二噁英排放软测量方法。

背景技术

城市固废焚烧(Municipal Solid Waste Incineration，MSWI)是目前世界范围内解决城市“垃圾围城”困境的主要方式之一，具有无害化、减量化和资源化等显著优势。二噁英(Dioxin，DXN)作为MSWI过程排放的有组织废气中具有持久性和剧毒性的有机污染物，是造成焚烧建厂存在“邻避现象”的主要原因，也是MSWI过程必须最小化控制的重要环保指标之一。基于高分辨气相色谱-高分辨质谱(HRGC/HRMS)的离线化验分析方法是目前用于检测DXN排放浓度的主要手段，存在技术难度大、时间滞后性大、人力与经济成本高等缺点，已经成为阻碍MSWI过程实现实时优化控制的关键因素之一。因此，DXN排放浓度的在线检测已成为MSWI过程的首要挑战问题。

针对上述问题，利用可在线检测的DXN关联物构建关联模型进而间接获得DXN浓度的在线间接检测方法成为热点；然而，其存在设备复杂、成本高、干扰因素多、预测精度无法保证等问题，同时其在本质上也是一种结合数据建模的检测手段。相较于离线分析和在线间接检测方法而言，基于工业集散控制系统采集的易检测过程数据驱动的软测量技术是解决DXN无法在线检测问题的有效途径，具有稳定、精准和快速响应等特点。软测量技术已在石油、化工和炼钢等复杂工业过程的难测参数检测中广泛应用。

发明内容

本发明的目的是提供一种基于宽度混合森林回归的MSWI过程二噁英排放软测量方法，以MSWI过程DXN排放浓度检测为目标，提出了基于宽度混合森林回归(Broad Hybrid Forest Regression，BHFR)的软测量建模算法。

为实现上述目的，本发明提供了如下方案：

一种基于宽度混合森林回归的MSWI过程二噁英排放软测量方法，基于BLS框架，以非微分基学习器替换神经元构建面向小样本高维数据的BHFR软测量模型，所述BHFR软测量模型包括特征映射层、潜在特征提取层、特征增强层和增量学习层的构建，具体包括以下步骤：

S1，构建特征映射层，构建由随机森林RF和完全随机森林CRF组成的混合森林组对高维特征进行映射；

S2，构建潜在特征提取层，依据贡献率对全联接混合矩阵的特征空间进行潜在特征提取，基于信息度量准则保证潜在有价值信息的最大化传递和最小化冗余，降低模型复杂度和计算消耗；

S3，构建特征增强层，基于所提取的潜在特征训练特征增强层以进一步增强特征表征能力；

S4，构建增量学习层，通过增量式学习策略构建增量学习层，采用Moore-Penrose伪逆获得权重矩阵，进而实现BHFR软测量模型的高精度建模；

S5，采用高维基准数据集和工业过程DXN数据集验证所述软测量模型；

S6，采用步骤S1-S5建立的软测量模型，对MSWI过程二噁英排放进行软测量。

进一步的，所述步骤S1，构建特征映射层，构建由随机森林RF和完全随机森林CRF组成的混合森林组对高维特征进行映射，具体包括：

设原始数据为{X,y}，其中

是原始输入数据，N _Raw是原始数据的数量，M是原始输入数据的维数，其来源于MSWI过程的六个不同阶段，以秒为单位在DCS系统采集与存储，

是DXN排放浓度的输出真值，其来源于采用离线检测法得到排放物DXN检测样本；以特征映射层的第nth个混合森林组为例描述特征映射层的建模过程：

对{X,y}进行Bootstrap和随机子空间RSM采样，获得混合森林组模型的J个训练子集，如下：

其中，

和

为第J个训练子集的输入和输出，

和

表示特征映射层中对第nth个混合森林组的Bootstrap和RSM采样，P _Bootstrap表示Bootstrap采样概率；

基于

训练包含J个决策树的混合森林算法，其中特征映射层中的第nth个混合森林组的第jth个决策树表示如下：

其中，L表示决策树叶节点数量，I(·)表示指示函数，c _l采用递归分裂方式计算；

RF中决策树的分裂损失函数Ω _i(·)表示为：

其中，Ω _i(s,v)表示第sth个特征的值v作为切分准则的损失函数值，y _L表示左叶节点的DXN排放浓度真值向量，E[y _L]表示y _L的数学期望，y _R表示右叶节点的DXN排放浓度真值向量，E[y _R]表示y _R的数学期望，

表示左叶节点第i个DXN排放浓度真值，

表示右叶节点第i个DXN排放浓度真值，c _L表示左叶节点DXN排放浓度预测输出，c _R表示右叶节点DXN排放浓度预测输出；

通过最小化Ω _i(s,v)，将训练集

切分为两个树节点，如下：

其中，

和

表示切分后左右两个树节点所包含的样本集，N _L和N _R分别表示

和

中的样本数量；

当前左右树节点的DXN排放浓度预测输出值输出值

和

为样本真值的期望，如下：

其中，y _L和y _R表示

和

中的DXN排放浓度真值向量，E[y _L]和E[y _R]表示y _L和y _R的数学期望；

与RF不同，CRF中决策树分裂采用完全随机选择方式，表示为，

其中，

表示完全随机选取第sth个特征的值v作为切分点；

被随机分裂的左右树节点的DXN排放浓度预测输出值

和

为样本真值的期望，如下：

通过上述过程，第nth个混合森林组

可表示为，

其中，

表示第nth个随机森林，

表示第nth个完全随机森林；

进而，第nth个映射特征Z _n可表示为

其中，

表示第nth组混合森林对来源于MSWI过程六个不同阶段的原始输入数据第1个样本的映射特征，

表示第nth组混合森林对来源于MSWI过程六个不同阶段的原始输入数据第n _Rawth个样本的映射特征，

表示第nth组混合森林对来源于MSWI过程六个不同阶段的原始输入数据第N _Rawth个样本的映射特征；

最终，特征映射层的输出表示为：

其中，Z ₁为第1个映射特征，Z ₂为第2个映射特征，Z _N为第N个映射特征，映射特征矩阵Z ^N包含N _Raw个样本和2N维特征。

进一步的，所述步骤S2，构建潜在特征提取层，依据贡献率对全联接混合矩阵的特征空间进行潜在特征提取，基于信息度量准则保证潜在有价值信息的最大化传递和最小化冗余，降低模型复杂度和计算消耗，具体包括：

首先，来源于MSWI过程六个不同阶段的原始输入数据X与特征映射矩阵Z ^N组合得到全联接混合矩阵A，表示为：

其中，A含N _Raw个样本和(M+2N)维特征；

接着，考虑到A的维数远高于原始数据，此处利用PCA最小化A中的冗余信息，计算A的相关矩阵R，如下：

进一步，对R进行奇异值分解，得到(M+2N)个特征值和相应特征向量，如下：

R＝U _(M+2N)Σ _(M+2N)V _(M+2N) (13)

其中，U _(M+2N)表示(M+2N)阶正交矩阵，Σ _(M+2N)表示(M+2N)阶对角矩阵，V _(M+2N)表示(M+2N)阶正交矩阵；

其中，σ ₁>σ ₂>…>σ _(M+2N)表示由大到小排列的特征值；

然后，根据设定潜在特征贡献阈值η，确定最终的主成分数量，

其中，潜在特征数量Q _PCA□(M+2N)；

基于上述确定的Q _PCA个潜在特征，获得特征值集合

对应的特征向量矩阵

即A的投影矩阵；然后，对A进行特征投影以实现冗余信息的最小化处理，将获得潜在特征记为X ^PCA，即

其中，

表示前Q _PCA个潜在特征的特征向量；

进一步，计算所选潜在特征X ^PCA与真值

间的互信息值I ^MI，如下：

其中，

表示第qth个潜在特征

与DXN排放浓度真值y的联合概率分布，

表示第qth个潜在特征

的边缘概率分布，p(y)表示DXN排放浓度真值y的边缘概率分布；

接着，通过信息最大化选择机制以保证所选择潜在特征与真值的相关性，表示为：

其中，

表示Q _PCA个潜在特征

与真值y的互信息值，ζ表示最大化信息的阈值，

表示与DXN排放浓度真值y信息相关度最大的

个潜在特征；

最终，获得包括

个潜在特征的新数据集

并设定提取后维数

进一步的，所述步骤S3中，构建特征增强层，基于所提取的潜在特征训练特征增强层以进一步增强特征表征能力，具体包括：

首先对新数据集{X′,y}进行基于Bootstrap和RSM的采样，获取混合森林算法的第个J训练子集，如下：

其中，

和

为第个J训练子集的输入和输出，X′和y为新训练集的输入和输出，

表示对第kth个混合森林组的Bootstrap采样，

表示对第kth个混合森林组的RSM采样；

接着，以第kth个混合森林组中第j个RF的构建为例，如下：

其中，

表示特征增强层中第kth个混合森林组中RF的第jth个决策树；L表示决策树叶节点的数量；c _l采用递归分裂方式计算，具体过程公式(3)-(5)；

进而，可得到特征增强层中第kth个混合森林组中的RF模型，其表示为，

然后，类似地以第kth个混合森林组中的第j个CRF的构建为例，如下：

其中，

表示特征增强层中第kth个混合森林组中CRF的第jth个决策树；c _l采用递归分裂方式计算，具体过程见公式(6)-(7)；

进而，可得到特征增强层中第kth个混合森林组的CRF模型，其表示为，

通过上述过程，得到第kth个混合森林组

进而，第kth个增强特征可表示如下：

其中，

表示第kth个混合森林组对新数据中第1个样本的增强映射，

表示第kth个混合森林组对新数据中第n _Rawth个样本的增强映射，

表示第kth个混合森林组对新数据中第N _Rawth个样本的增强映射；

最后，特征增强层的输出H ^K表示如下：

其中，H ₁为第1个增强特征，H ₂为第2个增强特征，H _K为第K个增强特征；

当不考虑增量学习策略时，BHFR模型的表示如下：

其中，G ^K表示特征映射层与特征增强层输出的组合，即G ^K＝[Z ^N|H ^K]，其包含N _Raw个样本和(2N+2K)维特征；W ^K表示特征映射层和特征增强层与输出层间的权重，其计算如下：

W ^K＝(λΙ+[G ^K] ^TG ^K) ^-1[G ^K] ^TY (27)

其中，Ι表示单位矩阵，λ表示正则项系数；相应地，G ^K的伪逆计算可表示为：

进一步的，所述步骤S4，构建增量学习层，通过增量式学习策略构建增量学习层，采用Moore-Penrose伪逆获得权重矩阵，进而实现BHFR软测量模型的高精度建模，具体包括：

首先，对新数据集{X′,y}进行基于Bootstrap和RSM的采样，获取混合森林算法训练子集，过程如下：

其中，

和

为混合森林算法第个J训练子集的输入和输出，X′和y为新训练集的输入和输出，

和

表示增量学习层中第pth个混合森林组的Bootstrap采样和RSM采样；

接着，构建第pth个混合森林组中的决策树

和

其过程与特征映射层和特征增量层相同，此处不再赘述；

进一步，当增加1个混合森林组后，特征映射层、特征增量层和增量学习层的输出G ^K+1表示如下：

其中，G ^k＝[Z ⁿ|H ^k]包含N _Raw个样本和(2N+2K)维特征，G ^K+1包含N _Raw个样本和(2N+2K+2J)维特征；

然后，进行G ^K+1的Moore-Penrose逆矩阵的递推更新，如下：

其中，矩阵C和矩阵D的计算如下：

C＝H _K+1-G ^KD (32)

进而，G ^K+1的Moore-Penrose逆矩阵的递推公式如下：

进一步，计算特征映射层、特征增量层和增量学习层与输出层间权重的更新矩阵W ^K+1，如下：

其中，W ^K＝(λΙ+[G ^K] ^TG ^K) ^-1[G ^K] ^TY；

由于采用上述伪逆更新策略只需要计算增量学习层混合森林组的伪逆矩阵，因此能够实现快速的增量式学习；

进一步，根据训练误差的收敛程度实现自适应增量学习；

定义误差的收敛阈值为θ _Con用以确定增量学习中混合森林组的数量p；相应地，BHFR模型的增量学习训练误差表示如下：

其中，

表示增量学习第p+1个与第p个混合森林组的训练误差值，

和

表示包含p个和p+1个混合森林组的BHFR模型训练误差；

最终，所提BHFR软测量模型的预测输出

为，

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明提供的基于宽度混合森林回归的MSWI过程二噁英排放软测量方法，建立了基于BHFR的软测量模型，其结合了宽度学习建模、集成学习和潜在特征提取等算法，1)基于宽度学习系统框架，采用非微分学习器构建了包含特征映射层、潜在特征提取层、特征增强层和增量学习层的软测量模型；2)利用信息全联接、潜在特征提取和互信息度量对BHFR模型内部信息进行处理，有效保证了BHFR模型内部特征信息的传递最大化和冗余度最小化；3)采用混合森林组为映射单元实现建模过程的增量学习，通过伪逆策略快速计算输出层权重矩阵，再利用训练误差的收敛程度自适应调整增量学习，实现了高精度的软测量建模。在高维基准数据集和工业过程DXN数据集上验证了所提方法的有效性和合理性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例基于宽度混合森林回归的MSWI过程二噁英排放软测量方法流程图；

图2是本发明实施例城市固废焚烧过程工艺流程图；

图3是本发明实施例训练误差收敛曲线；

图4a是本发明实施例DXN数据集中训练集的拟合曲线；

图4b是本发明实施例DXN数据集中验证集的拟合曲线；

图4c是本发明实施例DXN数据集中测试集的拟合曲线。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供的基于宽度混合森林回归的MSWI过程二噁英排放软测量方法，包括如下步骤：

基于BLS框架，以非微分基学习器替换神经元构建面向小样本高维数据的BHFR软测量模型，所述BHFR软测量模型包括特征映射层、潜在特征提取层、特征增强层和增量学习层的构建，具体包括以下步骤：

MSWI过程包含固废储运、固废焚烧、余热锅炉、蒸汽发电、烟气净化和烟气排放等工艺阶段，以日处理量800吨的炉排式MSWI过程为例，其工艺流程如图2所示。

结合DXN分解、生成、吸附和排放的全流程对各阶段的主要功能描述如下：

1)固废储运阶段：环卫车辆从城市各收集站点将MSW运输至MSWI电厂，经称重记录后从卸料平台倾倒至固废储存池中未发酵区，然后由固废抓斗对其进行混合搅拌，再抓取至发酵区，经3～7天发酵和脱水以保证MSW焚烧的低位热值。研究表明，原生MSW中含有微量DXN(约0.8ng TEQ/Kg)，并含有DXN生成反应所需的多种含氯化合物。

2)固废焚烧阶段：固废抓斗将发酵后的MSW投放至进料斗，经进料器将MSW推送到焚烧炉内，依次经过干燥、燃烧1、燃烧2和燃烬炉排后，MSW中的可燃成分随之完全燃烧；所需助燃空气由一次风机和二次风机从炉排下方和炉膛中部注入，最终燃烧产生的灰渣从燃烬炉排末端落至捞渣机，经水冷后送入炉渣池。为保证原生MSW中含有的以及焚烧时产生的DXN在炉内高温燃烧条件下能够被完全分解，炉膛燃烧过程需严格控制烟气温度在850℃以上、高温烟气在炉内停留时间超过2秒、确保足够大的烟气湍流度等工艺要求。

3)余热锅炉阶段：炉膛产生的高温烟气(高于850℃)经引风机抽吸进入余热锅炉系统，先后经过过热器、蒸发器和省煤器设备，高温烟气与锅炉汽包液态水进行热交换后产生高温蒸汽，进而实现对高温烟气的降温处理，使余热锅炉出口的烟气温度低于200℃(即烟气G1)。从DXN生成机理的角度，高温烟气经余热锅炉降温时，导致DXN生成的化学反应包括高温气相合成反应(800℃～500℃)、前驱物合成(450℃～200℃)和从头合成(350℃～250℃)等，但目前还暂无统一的定论。

4)蒸汽发电阶段：利用余热锅炉产生的高温蒸汽推动汽轮发电机，将机械能转变成电能，实现厂级用电的自给自足和剩余电量的上网供电，实现资源化和获取经济效益。

5)烟气净化阶段：MSWI过程的烟气净化主要包含脱硝(NO _x)、脱硫(HCL、HF、SO ₂ 等)、脱重金属(Pb、Hg、Cd等)、吸附二噁英(DXN)和除尘(颗粒物)等一系列过程，进而实现焚烧烟气污染物排放达标的目的。采用活性炭喷射系统吸附焚烧烟气中DXN，是目前应用最广泛的技术手段，吸附后的DXN富集于飞灰中。

6)烟气排放阶段：经降温和净化处理后的含有微量DXN的焚烧烟气(即烟气G2)由引风机抽吸经烟囱排放至大气中。MSWI过程的不间断、长时间的运行特性导致烟囱内壁颗粒物中附着大量DXN(即记忆效应)，在何种工况下存在释放的可能性还是目前的研究难题。

目前，面向MSWI过程的DXN软测量检测研究主要集中针对排放阶段(即烟气G3)的DXN浓度检测，本申请研究重点是构建G3烟气处的软测量模型。

本申请所提BHFR建模策略包含特征映射层、潜在特征提取层、特征增强层和增量学习层四个主要部分。

如图1中，

表示原始数据，其中

是原始输入数据，N _Raw是原始数据的数量，M是原始输入数据的维数，其来源于上述MSWI过程的六个不同阶段，以秒为单位在DCS系统采集与存储，

是DXN排放浓度的输出真值，其来源于采用离线检测法得到排放物二噁英DXN检测样本；{DT ₁,…,DT _J}表示混合森林算法中的J个决策树模型，DT ₁为第1个决策树模型，DT _J为第J个决策树模型；Bootstrap和RSM表示对输入数据进行样本和特征采样；{RF _n,CRF _n}表示第n个混合森林组模型，RF _n和CRF _n表示第n个RF和CRF模型；

表示特征映射层中包含N个混合森林组模型；Z ^N表示特征映射层的输出；H ^K表示特征增强层的输出；[X|Z ^N]表示原始数据与Z ^N的全联接混合矩阵；

表示经潜在特征提取后的新训练数据；

表示特征增强层包含的K个混合森林组模型；

表示增量学习层中包含的P个混合森林组模型；W ^K+P表示最终的权重矩阵。

各部分的主要功能如下：

1)特征映射层：将来源于MSWI过程六个不同阶段的原始输入数据

通过特征映射层的N个混合森林组

进行特征映射，得到映射输出矩阵Z ^N；

2)潜在特征提取层：利用主成分分析对由原始输入数据

与特征映射层输出Z ^N组成的全联接混合矩阵[X|Z ^N]进行潜在特征提取，去除特征空间的冗余信息，进一步通过所提取的潜在特征与DXN排放浓度的输出真值y的互信息确定潜在特征维数并得到新训练集

3)特征增强层：以新训练集

作为输入，通过特征增强层的K个混合森林组

组进行特征映射，得到增强层输出矩阵H ^K；

4)增量学习层：以新训练集

作为输入，以混合森林组为最小单位逐步增加并更新权重W ^K+P，直到训练误差收敛。

从本质上讲，BHFR是以RF和CRF为基元构成的混合森林组作为基础映射单元取代原始BLS中的神经元；所述步骤S1，构建特征映射层，构建由随机森林RF和完全随机森林CRF组成的混合森林组对高维特征进行映射，具体包括：

设原始数据为{X,y}，其中

其中，

和

为第J个训练子集的输入和输出，

和

基于

RF中决策树的分裂损失函数Ω _i(·)表示为：

表示左叶节点第i个DXN排放浓度真值，

通过最小化Ω _i(s,v)，将训练集

切分为两个树节点，如下：

其中，

和

中的样本数量；

当前左右树节点的DXN排放浓度预测输出值输出值

和

为样本真值的期望，如下：

其中，y _L和y _R表示

和

其中，

表示完全随机选取第sth个特征的值v作为切分点；

被随机分裂的左右树节点的DXN排放浓度预测输出值

和

为样本真值的期望，如下：

通过上述过程，第nth个混合森林组

可表示为，

其中，

表示第nth个随机森林，

表示第nth个完全随机森林；

进而，第nth个映射特征Z _n可表示为

其中，

最终，特征映射层的输出表示为：

为了避免信息传递过程中的信息丢失导致的过拟合现象，本申请所提BHFR采用全联接策略实现特征映射层与特征增强层、增量学习层之间的信息传递。同时，为了保证模型训练过程中信息冗余最小化，此处采用主成分分析(Principal Component Analysis，PCA)提取全联接混合矩阵特征空间的潜在特征，再利用互信息进一步筛选与真值信息最大化相关的潜在特征，进而实现对高维数据的降维处理。

所述步骤S2，构建潜在特征提取层，依据贡献率对全联接混合矩阵的特征空间进行潜在特征提取，基于信息度量准则保证潜在有价值信息的最大化传递和最小化冗余，降低模型复杂度和计算消耗，具体包括：

其中，A含N _Raw个样本和(M+2N)维特征；

R＝U _(M+2N)Σ _(M+2N)V _(M+2N) (13)

其中，σ ₁>σ ₂>…>σ _(M+2N)表示由大到小排列的特征值；

其中，潜在特征数量Q _PCA□(M+2N)；

基于上述确定的Q _PCA个潜在特征，获得特征值集合

对应的特征向量矩阵V _QPCA，即A的投影矩阵；然后，对A进行特征投影以实现冗余信息的最小化处理，将获得潜在特征记为X ^PCA，即

其中，

表示前Q _PCA个潜在特征的特征向量；

进一步，计算所选潜在特征X ^PCA与真值

间的互信息值I ^MI，如下：

其中，

表示第qth个潜在特征

与DXN排放浓度真值y的联合概率分布，

表示第qth个潜在特征

其中，

表示Q _PCA个潜在特征

与真值y的互信息值，ζ表示最大化信息的阈值，

表示与DXN排放浓度真值y信息相关度最大的

个潜在特征；

最终，获得包括

个潜在特征的新数据集

并设定提取后维数

所述步骤S3中，构建特征增强层，基于所提取的潜在特征训练特征增强层以进一步增强特征表征能力，具体包括：

其中，

和

表示对第kth个混合森林组的Bootstrap采样，

表示对第kth个混合森林组的RSM采样；

接着，以第kth个混合森林组中第j个RF的构建为例，如下：

其中，

通过上述过程，得到第kth个混合森林组

进而，第kth个增强特征可表示如下：

其中，

表示第kth个混合森林组对新数据中第1个样本的增强映射，

最后，特征增强层的输出H ^K表示如下：

当不考虑增量学习策略时，BHFR模型的表示如下：

W ^K＝(λΙ+[G ^K] ^TG ^K) ^-1[G ^K] ^TY (27)

本申请所提的BHFR以混合森林组为基本单元依据训练误差的收敛程度实现增量学习。所述步骤S4，构建增量学习层，通过增量式学习策略构建增量学习层，采用Moore-Penrose伪逆获得权重矩阵，进而实现BHFR软测量模型的高精度建模，具体包括：

其中，

和

接着，构建第pth个混合森林组中的决策树

和

其过程与特征映射层和特征增量层相同，此处不再赘述；

然后，进行G ^K+1的Moore-Penrose逆矩阵的递推更新，如下：

其中，矩阵C和矩阵D的计算如下：

C＝H _K+1-G ^KD (32)

进而，G ^K+1的Moore-Penrose逆矩阵的递推公式如下：

其中，W ^K＝(λΙ+[G ^K] ^TG ^K) ^-1[G ^K] ^TY；

进一步，根据训练误差的收敛程度实现自适应增量学习；

其中，

表示增量学习第p+1个与第p个混合森林组的训练误差值，

和

表示包含p个和p+1个混合森林组的BHFR模型训练误差；

最终，所提BHFR软测量模型的预测输出

为，

本申请采用某MSWI电厂的实际DXN数据进行工业验证。DXN数据源自于北京某MSWI焚烧发电厂，共涵盖了2009-2020年的DXN排放浓度建模数据141组，DXN真值为2小时采样化验后的折算浓度，对缺失数据和异常变量进行剔除后的输入变量为116维，相应地取值为当前DXN真值采样时间段内的均值。

本申请选取均方根误差(Root Mean Square Error，RMSE)、平均绝对误差MAE和决定系数(Coefficient of Determination，R ²)共三个评价指标比较不同方法的性能，计算如下：

其中，N为数据的数量，y _i为第i个真值，

为第i个预测值，

为均值。

在DXN数据集中，BHFR方法的参数设置为：决策树叶节点最小样本数N _smples为7， RSM特征选择数量

决策树的数量N _tree为10，特征映射层和特征增强层中混合森林组的数量N _Forest均为10，潜在特征贡献率阈值η为0.9，正则化参数λ为2^-10。

类似基准数据集，首先基于全联接混合矩阵和特征空间A确定用于特征增强层和增量学习层潜在特征数量。在DXN数据集中A的特征维数为316维。当潜在特征贡献率阈值η为0.9时，DXN数据集中选择的潜在特征数量分别为35个。接着，计算35个潜在特征与DXN真值间的互信息值。将互信息阈值ζ设置为0.75，DXN数据集中被选的潜在特征数量为6个。

进一步，预设增量学习层的混合森林组单元数量为1000，相应地BHFR模型的训练误差与混合森林组数量间的关系如图3所示。

由图3所示的训练误差曲线可知，BHFR在DXN数据集上的训练过程可收敛至某一确定下限值。

然后，采用RF、DFR、DFR-clfc和BLS-NN与所提BHFR进行对比，参数设置为：(1)RF，决策树叶节点最小样本数N _smples为3，RSM特征选择数量为

决策树的数量N _tree为500；(2)DFR，决策树叶节点最小样本数N _smples为3，RSM特征选择数量为

决策树的数量N _tree为500，每层中RF和CRF模型的数量N _RF和N _CRF均为2，总层数设置为50；(3)DFR-clfc，决策树叶节点最小样本数N _smples为3，RSM特征选择数量为

决策树的数量N _tree为500，每层中RF和CRF模型的数量N _RF和N _CRF均为2，总层数设置为50；(4)BLS-NN，特征节点数N _m为5，增强节点数N _e为41，神经元数量N _n为9和正则化参数λ为2^30。上述方法在相同条件下重复20次实验，其统计结果和预测曲线如表1和图4a-4c所示。

表1 DXN数据集实验结果

由表1和图4a-4c可知：1)RF在训练、验证和测试中的RMSE、MAE和R ²指标均值统计结果均优于DFR，但在稳定性指标上弱于DFR；2)DFR和DFR-clfc，在建模精度上与RF接近，同时建模稳定性要好于RF，其中DFR-clfc在训练、验证和测试集的精度略高于DFR，但DFR的稳定性更好；3)BLS-NN对训练数据出现了明显的过拟合，其在验证和测试集中的泛化性能和稳定性上均表现最差，表明BLS-NN难以适用于本申请中的真实工业过程的小样本高维数据；4)BHFR在测试集中的RMSE、MAE和R ²指标的均值统计结果均为最佳，稳定性仅弱于DFR，表明BHFR具有良好的泛化性能和稳定性。

综上可知，DXN软测量建模实验表明本申请所提BHFR具有比经典RF、DFR极其改进版DFR-clfc更好的训练学习能力，同时在测试集上的建模精度和对数据的拟合程度也强于RF、DFR、DFR-clfc和BLS-NN，体现了其在构建DXN软测量模型中的明显优势。

本发明提供的基于宽度混合森林回归的MSWI过程二噁英排放软测量方法，建立了基于BHFR的软测量模型，其结合了宽度学习建模、集成学习和潜在特征提取等算法，1)基于宽度学习系统框架，采用非微分学习器构建了包含特征映射层、潜在特征提取层、特征增强层和增量学习层的软测量模型；2)利用信息全联接、潜在特征提取和互信息度量对BHFR模型内部信息进行处理，有效保证了BHFR模型内部特征信息的传递最大化和冗余度最小化；3)采用混合森林组为映射单元实现建模过程的增量学习，通过伪逆策略快速计算输出层权重矩阵，再利用训练误差的收敛程度自适应调整增量学习，实现了高精度的软测量建模。在高维基准数据集和工业过程DXN数据集上验证了所提方法的有效性和合理性。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

一种基于宽度混合森林回归的MSWI过程二噁英排放软测量方法，基于BLS框架，以非微分基学习器替换神经元构建面向小样本高维数据的BHFR软测量模型，其特征在于，所述BHFR软测量模型包括特征映射层、潜在特征提取层、特征增强层和增量学习层的构建，具体包括以下步骤：

S1，构建特征映射层，构建由随机森林RF和完全随机森林CRF组成的混合森林组对高维特征进行映射；

S2，构建潜在特征提取层，依据贡献率对全联接混合矩阵的特征空间进行潜在特征提取，基于信息度量准则保证潜在有价值信息的最大化传递和最小化冗余，降低模型复杂度和计算消耗；

S3，构建特征增强层，基于所提取的潜在特征训练特征增强层以进一步增强特征表征能力；

S4，构建增量学习层，通过增量式学习策略构建增量学习层，采用Moore-Penrose伪逆获得权重矩阵，进而实现BHFR软测量模型的高精度建模；

S5，采用高维基准数据集和工业过程DXN数据集验证所述软测量模型；

S6，采用步骤S1-S5建立的软测量模型，对MSWI过程二噁英排放进行软测量。
根据权利要求1所述的基于宽度混合森林回归的MSWI过程二噁英排放软测量方法，其特征在于，步骤S1，构建特征映射层，构建由随机森林RF和完全随机森林CRF组成的混合森林组对高维特征进行映射，具体包括：

设原始数据为{X,y}，其中
是原始输入数据，N _Raw是原始数据的数量，M是原始输入数据的维数，其来源于MSWI过程的六个不同阶段，以秒为单位在DCS系统采集与存储，
是DXN排放浓度的输出真值，其来源于采用离线检测法得到排放物DXN检测样本；以特征映射层的第nth个混合森林组为例描述特征映射层的建模过程：

对{X,y}进行Bootstrap和随机子空间RSM采样，获得混合森林组模型的J个训练子集，如下：

其中，
和
为第J个训练子集的输入和输出，
和
表示特征映射层中对第nth个混合森林组的Bootstrap和RSM采样，P _Bootstrap表示Bootstrap采样概率；

基于
训练包含J个决策树的混合森林算法，其中特征映射层中的第nth个混合森林组的第jth个决策树表示如下：

其中，L表示决策树叶节点数量，I(·)表示指示函数，c _l采用递归分裂方式计算；

RF中决策树的分裂损失函数Ω _i(·)表示为：

其中，Ω _i(s,v)表示第sth个特征的值v作为切分准则的损失函数值，y _L表示左叶节点的DXN排放浓度真值向量，E[y _L]表示y _L的数学期望，y _R表示右叶节点的DXN排放浓度真值向量，E[y _R]表示y _R的数学期望，
表示左叶节点第i个DXN排放浓度真值，
表示右叶节点第i个DXN排放浓度真值，c _L表示左叶节点DXN排放浓度预测输出，c _R表示右叶节点DXN排放浓度预测输出；

通过最小化Ω _i(s,v)，将训练集
切分为两个树节点，如下：

其中，
和
表示切分后左右两个树节点所包含的样本集，N _L和N _R分别表示
和
中的样本数量；

当前左右树节点的DXN排放浓度预测输出值输出值
和
为样本真值的期望，如下：

其中，y _L和y _R表示
和
中的DXN排放浓度真值向量，E[y _L]和E[y _R]表示y _L和y _R的数学期望；

与RF不同，CRF中决策树分裂采用完全随机选择方式，表示为，

其中，
表示完全随机选取第sth个特征的值v作为切分点；

被随机分裂的左右树节点的DXN排放浓度预测输出值
和
为样本真值的期望，如下：

通过上述过程，第nth个混合森林组
可表示为，

其中，
表示第nth个随机森林，
表示第nth个完全随机森林；

进而，第nth个映射特征Z _n可表示为

其中，
表示第nth组混合森林对来源于MSWI过程六个不同阶段的原始输入数据第1个样本的映射特征，
表示第nth组混合森林对来源于MSWI过程六个不同阶段的原始输入数据第n _Rawth个样本的映射特征，
表示第nth组混合森林对来源于MSWI过程六个不同阶段的原始输入数据第N _Rawth个样本的映射特征；

最终，特征映射层的输出表示为：

其中，Z ₁为第1个映射特征，Z ₂为第2个映射特征，Z _N为第N个映射特征，映射特征矩阵Z ^N包含N _Raw个样本和2N维特征。
根据权利要求2所述的基于宽度混合森林回归的MSWI过程二噁英排放软测量方法，其特征在于，所述步骤S2，构建潜在特征提取层，依据贡献率对全联接混合矩阵的特征空间进行潜在特征提取，基于信息度量准则保证潜在有价值信息的最大化传递和最小化冗余，降低模型复杂度和计算消耗，具体包括：

首先，来源于MSWI过程六个不同阶段的原始输入数据X与特征映射矩阵Z ^N组合得到全联接混合矩阵A，表示为：

其中，A含N _Raw个样本和(M+2N)维特征；

接着，考虑到A的维数远高于原始数据，此处利用PCA最小化A中的冗余信息，计算A的相关矩阵R，如下：

进一步，对R进行奇异值分解，得到(M+2N)个特征值和相应特征向量，如下：

R＝U _(M+2N)Σ _(M+2N)V _(M+2N) (13)

其中，U _(M+2N)表示(M+2N)阶正交矩阵，Σ _(M+2N)表示(M+2N)阶对角矩阵，V _(M+2N)表示(M+2N)阶正交矩阵；

其中，σ ₁>σ ₂>…>σ _(M+2N)表示由大到小排列的特征值；

然后，根据设定潜在特征贡献阈值η，确定最终的主成分数量，

其中，潜在特征数量Q _PCA□(M+2N)；

基于上述确定的Q _PCA个潜在特征，获得特征值集合
对应的特征向量矩阵V _QPCA，即A的投影矩阵；然后，对A进行特征投影以实现冗余信息的最小化处理，将获得潜在特征记为X ^PCA，即

其中，
表示前Q _PCA个潜在特征的特征向量；

进一步，计算所选潜在特征X ^PCA与真值
间的互信息值I ^MI，如下：

其中，
表示第qth个潜在特征
与DXN排放浓度真值y的联合概率分布，
表示第qth个潜在特征
的边缘概率分布，p(y)表示DXN排放浓度真值y的边缘概率分布；

接着，通过信息最大化选择机制以保证所选择潜在特征与真值的相关性，表示为：

其中，
表示Q _PCA个潜在特征
与真值y的互信息值，ζ表示最大化信息的阈值，
表示与DXN排放浓度真值y信息相关度最大的
个潜在特征；

最终，获得包括
个潜在特征的新数据集
并设定提取后维数
根据权利要求3所述的基于宽度混合森林回归的MSWI过程二噁英排放软测量方法，其特征在于，所述步骤S3中，构建特征增强层，基于所提取的潜在特征训练特征增强层以进一步增强特征表征能力，具体包括：

首先对新数据集{X′,y}进行基于Bootstrap和RSM的采样，获取混合森林算法的第个J训练子集，如下：

其中，
和
为第个J训练子集的输入和输出，X′和y为新训练集的输入和输出，
表示对第kth个混合森林组的Bootstrap采样，
表示对第kth个混合森林组的RSM采样；

接着，以第kth个混合森林组中第j个RF的构建为例，如下：

其中，
表示特征增强层中第kth个混合森林组中RF的第jth个决策树；L表示决策树叶节点的数量；c _l采用递归分裂方式计算，具体过程公式(3)-(5)；

进而，可得到特征增强层中第kth个混合森林组中的RF模型，其表示为，

然后，类似地以第kth个混合森林组中的第j个CRF的构建为例，如下：

其中，
表示特征增强层中第kth个混合森林组中CRF的第jth个决策树；c _l采用递归分裂方式计算，具体过程见公式(6)-(7)；

进而，可得到特征增强层中第kth个混合森林组的CRF模型，其表示为，

通过上述过程，得到第kth个混合森林组
进而，第kth个增强特征可表示如下：

其中，
表示第kth个混合森林组对新数据中第1个样本的增强映射，
表示第kth个混合森林组对新数据中第n _Rawth个样本的增强映射，
表示第kth个混合森林组对新数据中第N _Rawth个样本的增强映射；

最后，特征增强层的输出H ^K表示如下：

其中，H ₁为第1个增强特征，H ₂为第2个增强特征，H _K为第K个增强特征；

当不考虑增量学习策略时，BHFR模型的表示如下：

其中，G ^K表示特征映射层与特征增强层输出的组合，即G ^K＝[Z ^N|H ^K]，其包含N _Raw个样本和(2N+2K)维特征；W ^K表示特征映射层和特征增强层与输出层间的权重，其计算如下：

W ^K＝(λΙ+[G ^K] ^TG ^K) ^-1[G ^K] ^TY (27)

其中，Ι表示单位矩阵，λ表示正则项系数；相应地，G ^K的伪逆计算可表示为：
根据权利要求4所述的基于宽度混合森林回归的MSWI过程二噁英排放软测量方法，其特征在于，所述步骤S4，构建增量学习层，通过增量式学习策略构建增量学习层，采用Moore-Penrose伪逆获得权重矩阵，进而实现

BHFR软测量模型的高精度建模，具体包括：

首先，对新数据集{X′,y}进行基于Bootstrap和RSM的采样，获取混合森林算法训练子集，过程如下：

其中，
和
为混合森林算法第个J训练子集的输入和输出，X′和y为新训练集的输入和输出，
和
表示增量学习层中第pth个混合森林组的Bootstrap采样和RSM采样；

接着，构建第pth个混合森林组中的决策树
和
其过程与特征映射层和特征增量层相同，此处不再赘述；

进一步，当增加1个混合森林组后，特征映射层、特征增量层和增量学习层的输出G ^K+1表示如下：

其中，G ^k＝[Z ⁿ|H ^k]包含N _Raw个样本和(2N+2K)维特征，G ^K+1包含N _Raw个样本和(2N+2K+2J)维特征；

然后，进行G ^K+1的Moore-Penrose逆矩阵的递推更新，如下：

其中，矩阵C和矩阵D的计算如下：

C＝H _K+1-G ^KD (32)

进而，G ^K+1的Moore-Penrose逆矩阵的递推公式如下：

进一步，计算特征映射层、特征增量层和增量学习层与输出层间权重的更新矩阵W ^K+1，如下：

其中，W ^K＝(λΙ+[G ^K] ^TG ^K) ^-1[G ^K] ^TY；

由于采用上述伪逆更新策略只需要计算增量学习层混合森林组的伪逆矩阵，因此能够实现快速的增量式学习；

进一步，根据训练误差的收敛程度实现自适应增量学习；

定义误差的收敛阈值为θ _Con用以确定增量学习中混合森林组的数量p；相应地，BHFR模型的增量学习训练误差表示如下：

其中，
表示增量学习第p+1个与第p个混合森林组的训练误差值，
和
表示包含p个和p+1个混合森林组的BHFR模型训练误差；

最终，所提BHFR软测量模型的预测输出
为：