WO2023273249A1

WO2023273249A1 - 基于tsvm模型的智能电能表自动化检定系统异常检测方法

Info

Publication number: WO2023273249A1
Application number: PCT/CN2021/141547
Authority: WO
Inventors: 庄葛巍; 顾臻; 贺青; 周磊; 张静月; 冯秀庆; 苏鹏涛; 潘晔
Original assignee: 国网上海市电力公司; 上海欣能信息科技发展有限公司
Priority date: 2021-06-30
Filing date: 2021-12-27
Publication date: 2023-01-05
Also published as: CN113484817A; AU2021335237A1

Abstract

一种基于TSVM模型的智能电能表自动化检定系统异常检测方法，包括如下步骤：S1：对包含少量异常数据的待测检定表位误差实验数据进行特征提取、构建特征向量，并进行预处理形成数据样本；S2：人工标记部分样本；S3：利用标记样本与未标记样本以半监督方式训练获得基于TSVM的异常检测模型；S4：利用基于TSVM的异常检测模型对检定表位异常状态进行动态预测。该方法具有准确度高、在线检测、节省检测成本等优点。

Description

基于TSVM模型的智能电能表自动化检定系统异常检测方法

技术领域

本发明涉及一种智能电能表自动化检定系统异常检测方法，尤其是涉及一种基于直推式支持向量机(Transductive Support Vector Machine，TSVM)模型的智能电能表自动化检定系统异常检测方法。

背景技术

电能表为电力交易提供贸易结算依据，因此，电能表检定工作的重要性日益凸显。随着智能电网建设工作的不断推进，智能电能表的需求日益增长，为应对激增的智能电能表检定需求，高检定效率的自动化检定系统应运而生。但智能电能表检定系统在长期不间断的运行过程中，接驳环节可能出现机械疲劳甚至老化，引起检定结果异常。

目前，计量中心是定期让自动化检定系统流水线停运，开展人工检查，确保各检定单元处于健康的运行状态，但该方法无法及时获悉自动化检定系统所监控的流水线相关的风险信息，使得检定系统在下一次人工检查前仍将服务于试验项目，这将导致出现大规模试验结果偏差的风险，虽然通过缩短人工检查的时间间隔，可以在一定程度上降低上述情况发生的可能性，但会大幅降低流水线的检定效率，同时增加人力和运维成本。因此，实现对自动化检定系统上各检定表位接驳环节机械性能的在线评价，对于提升自动化检定系统的可靠性具有重要意义。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于TSVM模型的智能电能表自动化检定系统异常检测方法。

本发明的目的可以通过以下技术方案来实现：

一种基于TSVM模型的智能电能表自动化检定系统异常检测方法，该方法包括如下步骤：

S1：对包含少量异常数据的待测检定表位误差实验数据进行特征提取、构建特征向量，并进行预处理形成数据样本；

S2：人工标记部分样本；

S3：利用标记样本与未标记样本以半监督方式训练获得基于TSVM的异常检测模型；

S4：利用基于TSVM的异常检测模型对检定表位异常状态进行动态预测。

优选地，步骤S1构建特征向量的方式为：获取每个检定表位在不同检定实验项目下的历史误差实验数据，对每一个检定实验项目下历史误差实验数据分别进行特征值提取，并将所有检定实验项目下的特征值组合为相应检定表位的特征向量。

优选地，所述的特征值包括历史误差实验数据的最大值、最小值、期望、方差、偏度和峰度。

优选地，步骤S1中预处理包括对每个表位的特征向量的标准化以及降维处理。

优选地，所述的标准化方式为：

其中，x为待处理特征向量中的特征值，u为待处理特征向量中特征值的期望，S为待处理特征向量中特征值的标准差，z为经标准化后的特征值。

优选地，所述的降维处理包括主成分分析法。

优选地，步骤S2具体为：

基于数据样本，采用无监督异常检测算法初步筛选出“异常表位”；

对初步筛选出的“异常表位”进行人工排查并标记，根据人工排查结果确定正常表位和异常表位，对人工排查的检定表位对应的数据样本进行标记形成标记样本。

优选地，所述的无监督异常检测算法包括孤立森林算法、局部异常因子算法和一类支持向量机算法。

优选地，步骤S3中进行模型训练时标记样本的数量小于未标记样本的数量。

优选地，该方法还包括对基于TSVM的异常检测模型的优化，具体为：利用模型预测出待检测样本中的异常数据，人工排查并标记，然后用所有获得人工标记的样本构建标记样本库，从中选取距离分类边界较近的数据点构成新的标记样本，与未标记样本按照半监督方式再次训练模型完成优化；用优化后的模型对标记样本库中的数据点进行预测，计算标记样本的预测状态与真实状态之间差异的比率，其值小于人为设定的阈值时，判定该模型性能满足预测准确度条件，模型可直接对待检测数据集进行预测。

与现有技术相比，本发明具有如下优点：

(1)本发明利用少量的标记样本和大量的无标记样本采用半监督方式构建基于TSVM的异常检测模型，跟其他方法相比，能有效减少人工检查的代价；

(2)本发明基于同一检定表位产生的历史误差实验数据，分别统计每个检定实验项目数据中的最大值、最小值，计算其期望、方差、偏度和峰度，用于描述该检定表位的数据分布的平均水平、离散程度、不对称性和极端异常值占比，将表位异常状态转换为数据分布的异常，使得通过数据进行表位状态分析成为可能，同时实现表位异常状态的在线评估，降低了对流水线的影响，提高了检定工作效率；

(3)本发明中采用的主成分分析(PCA)方法，有效对检定表位样本数据的维度进行降纬，有效解决了高纬度情况下数据样本稀疏、距离计算困难的难题，降低了异常检测的难度；

(4)本发明能够在工作过程中不断获取新的标记样本与未标记样本继续按照半监督训练方式对基于TSVM的异常检测模型进行扩展及优化，持续提高模型的准确度。

附图说明

图1为本发明一种基于TSVM模型的智能电能表自动化检定系统异常检测方法的流程框图；

图2为本发明实施例中不同维度下的样本特征信息保留占比；

图3为采用本发明实际应用中进行智能电能表自动化检定系统异常检测的流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。注意，以下的实施方式的说明只是实质上的例示，本发明并不意在对其适用物或其用途进行限定，且本发明并不限定于以下的实施方式。

实施例

如图1所示，本实施例提供一种基于TSVM模型的智能电能表自动化检定系统异常检测方法，该方法包括如下步骤：

S1：对包含少量异常数据的待测检定表位误差实验数据进行特征提取、构建特征向量，并进行预处理形成数据样本。

具体地：假设智能电能表自动化检定系统一条流水线包含30个检定单元，每一个检定单元的试验数据集包含60个检定表位样本，在每一次的检定任务中，来自同一批次的智能电能表被随机的分配到不同表位中，进行多项不同的误差试验，所得到的误差试验数据除了反应智能电能表本身的质量问题外，还可以间接反映检定装置本身的问题。

假定同一批次的智能电能表的计量性能具有相同的分布特征，在所有检定表位均处于正常状态且状态一致时，认为处在同一检定单元的60个检定表位所对应的误差试验数据也应该具有相同的分布特征，当某个检定表位出现例如锈蚀、变形等故障时，其分布特征将与其他表位不同，表现为“异常”数据点。为便于在海量的误差实验数据中提取数据分布特征值，对在同一检定表位产生的海量误差实验数据进行相关统计量的计算：基于同一检定表位产生的数据，分别统计每个实验项目数据中的最大值、最小值，计算其期望、方差、偏度和峰度，用于描述该检定表位的数据分布的平均水平、离散程度、不对称性和极端异常值占比，将表位异常状态转换为数据分布的异常。

因此，上述步骤S1中构建特征向量的方式为：获取每个检定表位在不同检定实验项目下的历史误差实验数据，对每一个检定实验项目下历史误差实验数据分别进行特征值提取，并将所有检定实验项目下的特征值组合为相应检定表位的特征向量，特征值包括历史误差实验数据的最大值、最小值、期望、方差、偏度和峰度。

检定系统下一条流水线包含30个检定单元，每一个检定单元的试验数据集包含60个检定表位样本，即{X1，X2……X60}，分别计算每个表位对应每一项误差试验数据的最值、期望、方差、偏度和峰度，构建每个表位样本的特征向量，以进行m项误差实验为例，则每个样本包含6m个特征值，即6m个维度。

为防止较大尺度的数据弱化其他特征数据的影响，致异常因子算法的预测性能降低，将样本的各个特征值缩放到相同的尺度下，采用标准化特征缩放处理数据，公式如下：

其中，x为待处理特征向量中的特征值，u为待处理特征向量中特征值的期望，S为待处理特征向量中特征值的标准差，z为经标准化后的特征值。标准化可以使样本的所有特征保持均值为0，方差为1。

每个检定表位样本的数据维度高达60维度，该情况下的数据样本稀疏、距离计算困难，会给异常检测增加难度，因此需要对特征向量进行降维处理，主成分分析(Principal Component Analysis，PCA)是最常用的一种降维方法，具体地：

输入样本集：D＝{X ₁，X ₂，……，X ₅₉，X ₆₀}。下列公式中X _i表示不同的样本，i取1-60的整数；

对所有样本进行中心化：

计算样本的协方差矩阵XX ^T；

对协方差矩阵XX ^T做特征值分解；

取最大的d’个特征值所对应的特征向量W ₁，W ₂……，W _d’；

降维后的维度d’由用户指定，不同维度下的数据特征信息占比不同，用户可通过设定想要保留的特征信息占比来确定d’的取值。智能电能表自动化检定系统的数据样本在不同d’值时对应的特征保留信息占比如图2所示，标准化后的样本数据，若要保留接近99.9％的特征信息，需要数据维度在40维以上，即用于异常检测算法分析的有效数据维数为40维度。

S2：人工标记部分样本，具体为：

对初步筛选出的“异常表位”进行人工排查并标记，根据人工排查结果确定正常表位和异常表位，对人工排查的检定表位对应的数据样本进行标记形成标记样本，其中，无监督异常检测算法包括孤立森林算法(Isolation Forest，Iforest)、局部异常因子算法(Local Outlier Factor，LOF)和一类支持向量机算法(One-Class Support Vector Machine，OCSVM)。Iforest算法对全局异常检测的效果较好，适合对连续型、较高维度的数据进行异常检测。Iforest算法是多次二叉树式的划分过程，每次随机抽取数据集的特征，随机取值作为划分依据对数据集进行划分，经过多次迭代，直到在森林中形成一棵孤立的树。在树中处于较低高度的样本数据点，被判为异常数据点的可能性越大。LOF算法对全局异常点的检测效果不如Iforest，但对数据分布比较集中、异常比重较小的数据集的局部异常检测效果较好。LOF算法是基于密度的离群点检测方法，通过计算样本点的第K邻域(非全局)来确定局部可达密度，通过比较样本点与其邻域点的局部可达密度来判断样本是否为异常点，样本点的密度越低，越可能是异常点。OCSVM是一种经过修改的支持向量机类型，适合奇异值检测以及样本不平衡场景，对高维度、大样本数据的异常检测效果好。OCSVM模型的训练样本仅为一类数据，通过建立出可代表该类数据的模型，获取数据集的分布形状，从而在检测过程中，判断待预测的数据样本是否与训练样本同属于一类数据。

标记样本的选取原则是尽量减少标记代价，选择最可能是异常数据点的样本进行标注，在排除表位故障的同时，还有助于较快发现新的异常类型。为了选择出适用于智能电能表自动化检定系统数据的无监督异常检测算法，选择机器学习库中的Letter高维异常数据集来检测三种无监督异常检测算法的准确率，其数据维度以及异常程度与经过PCA降维处理的智能电能表自动化检定系统数据相似，Letter数据集的维度为32，样本量为1600，其中异常样本数为100，采用交叉验证法优化模型算法的参数，实验结果如表1所示：

表1无监督异常检测的平均准确率

异常检测算法	Iforest	LOF	OCSVM
平均准确率	89％	91％	67％

S3：利用标记样本与未标记样本以半监督方式训练获得基于TSVM的异常检测模型，进行模型训练时标记样本的数量小于未标记样本的数量。

TSVM作为半监督支持向量机模型的代表，与标准的二分类器SVM一样，TSVM是解决二分类问题的算法。该算法将尝试未标记样本作为正常数据点或异常数据点的所有组合，试图从中找到一个超平面，能够让包括标记样本和未标记样本在内所有样本之间的间隔最大化。

已知样本类型的标记样本D _l＝{(x ₁，y ₁)(x ₂，y ₂)，……，(x _l，y _l)}和未标记样本D _u＝{x _l+1,x _l+2，……，x _m}，其中y _i∈{-1，+1}，-1表示该样本类型为异常，+1表示该样本类型为正常，D _l中的样本数量小于D _u，TSVM算法的目标是为待标记样本找寻最合适的标记：

其中

使得：

s.t.y _i(w ^Tx _i+b)≥1-ε _i，i＝1,2,……,l

ε _i≥0，i＝1，2，……，m

式中，(w，b)为一个超平面；ε _i是与所有样本一一对应的松弛向量；C _l与C _u分别是代表标记样本权重的折中参数与未标记样本权重的折中参数。TSVM通过多次迭代找寻上式的近似解。

该方法还包括对基于TSVM的异常检测模型的优化，具体为：利用模型预测出待检测样本中的异常数据，人工排查并标记，然后用所有获得人工标记的样本构建标记样本库，从中选取距离分类边界较近的数据点构成新的标记样本，与未标记样本按照半监督方式再次训练模型完成优化；用优化后的模型对标记样本库中的数据点进行预测，计算标记样本的预测状态与真实状态之间差异的比率，其值小于人为设定的阈值时，判定该模型性能满足预测准确度条件，模型可直接对待检测数据集进行预测。

本实施例采用2020年11月10日到2020年11月13日，批次号为JYL20002的智能电能表自动化检定系统检定数据开展，具体如下：

步骤1：数据特征提取及降维处理。

该条检定系统下流水线共有30个检定单元，每个检定单元的数据集包含60个检定表位样本，基于每个检定表位产生的十项误差实验数据，构建其特征向量，每个样本的特征向量包含60个特征值，以1号检定单元的1号检定表位为例，其各项特征值如表2所示：

表2表位样本的特征值(1号样本为例)

对1号检定单元的60个样本的特征向量进行标准化处理和PCA降维，由原先的60维度降至40维度，降维后的数据特征如表3所示：

表3经过PCA降维后的特征数据

步骤2：通过无监督异常检测算法筛选出“异常表位”，交由人工进行检查，在排除故障的同时获得标记样本；

考虑到检定单元之间还可能存在标准表误差不同以及电气回路存在故障等问题，在获取标记样本时，以同一检定单元的表位样本作为待测数据集，采用LOF异常检测算法，通过表位的特征数据计算该检定单元中每个表位的异常因子数值(表征每个样本的异常程度)，然后采用箱型图法对同一检定单元的60个表位样本的异常因子数值进行异常筛选，筛选出最可能是异常数据点的表位样本，交由人工对“异常表位”进行检查。将无监督式异常检测算法应用于该批次(JYL20002)的30个检定单元，可以得到1800个检定表位的异常因子数值，其中1号检定单元的60个检定表位的异常因子数值如表4所示：

表4无监督异常算法结果

应用箱型图方法对上述异常因子数值进行异常检测，取上线阈值1.39758作为判定值，1号检定单元中被判定为异常的表位为：11、32、34、35、51、52和53号，经过人工检查发现，11、51、53故障，而32、34、35、52无故障，同样的无监督异常检测算法应用于整条流水线数据，判定为异常的表位有322个，经过人工核查，其中无故障的表位有230个，显而易见，无监督异常检测在智能电能表异常检测方面的应用存在误判率较高的问题。

步骤3：采用TSVM模型预测结果；

TSVM利用无监督异常筛选与人工检查获取到的小标记样本集训练出一个初始SVM，接着使用该学习器对未标记样本进行打标，这样所有样本都有了标记，基于这些有标记的样本重新训练SVM，之后再寻找易出错样本不断调整。

为了检测模型性能，本发明采用了机器学习中将样本随机划分为训练集和测试集的方法，但与直接将样本进行随机划分的应用不同，本发明是将该流水线中检定表位的误差实验数据随机划分为“训练集”和“测试集”，用于模拟流水线在两次不同工作过程中得到的检定数据集，再经过特征提取、标准化和降维处理得到训练样本与测试样本。

训练样本中包括标记样本和未标记样本，以1号单元为例，其中经过人工检测的11、32、34、35、51、52和53号表位样本数据可作为有标记样本Xi，用-1和+1表示检定表位的正常和故障状态：

D _l＝{(X ₁₁，-1),(X ₃₂，+1),(X ₃₄，+1),(X ₃₅，+1),(X ₅₁，-1),(X ₅₂，+1),(X ₅₃，-1)}

而未经过人工核查的其他表位可作为未标记样本集：

D _u＝{X ₁，X ₂，……，X ₁₀,X ₁₂……X ₃₁,X ₃₃,X ₃₆……X ₅₀,X ₅₄……X ₆₀}

利用标记样本与未标记样本按照半监督方式训练得到TSVM模型，该模型对“测试集”进行预测，其预测结果与无监督异常检测算法结果对比如表5所示：

表5 TSVM与LOF异常检测结果对比

通过模型预测结果可以看出，相比无监督异常检测模型而言，本发明所构建的TSVM模型具有更高准确率。

如图3所示，本发明的方法在得到异常表位预测结果后，最后能够用于辅助专业人员对检定表位开展定点复核，找出确实存在异常的检定表位，从而降低自动化检定系统运维成本，保障自动化检定流水线检定准确度，做到精准定位异常点精准消缺。

本发明提出了构建基于TSVM模型的异常检测模型的方法：面对不纯净的检定表位样本，首先以无监督方式筛选出最可疑的表位样本，再交由人工进行标记，在排除表位故障的同时，获得部分标记样本数据，然后利用标记样本与未标记样本来构建TSVM模型。实验结果表明，本发明所构建的异常检测模型可以实现流水线表位异常的在线检测，减少由于停运检修带来的工作量，能提高流水线的工作效率；本发明算法模型与无监督异常检测方法对比，基于半监督学习方式的TSVM模型具有更高的精准度，并且该模型能够通过主动学习方式，选取有利的标记样本训练模型，达到提升模型性能的目的，这为智能电能表自动化检定系统在今后的工作过程不断优化和改进TSVM模型性能提供了思路。

上述实施方式仅为例举，不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施，且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。

Claims

一种基于TSVM模型的智能电能表自动化检定系统异常检测方法，其特征在于，该方法包括如下步骤：

S1：对包含少量异常数据的待测检定表位误差实验数据进行特征提取、构建特征向量，并进行预处理形成数据样本；

S2：人工标记部分样本；

S3：利用标记样本与未标记样本以半监督方式训练获得基于TSVM的异常检测模型；

S4：利用基于TSVM的异常检测模型对检定表位异常状态进行动态预测。
根据权利要求1所述的一种基于TSVM模型的智能电能表自动化检定系统异常检测方法，其特征在于，步骤S1构建特征向量的方式为：获取每个检定表位在不同检定实验项目下的历史误差实验数据，对每一个检定实验项目下历史误差实验数据分别进行特征值提取，并将所有检定实验项目下的特征值组合为相应检定表位的特征向量。
根据权利要求2所述的一种基于TSVM模型的智能电能表自动化检定系统异常检测方法，其特征在于，所述的特征值包括历史误差实验数据的最大值、最小值、期望、方差、偏度和峰度。
根据权利要求1所述的一种基于TSVM模型的智能电能表自动化检定系统异常检测方法，其特征在于，步骤S1中预处理包括对每个表位的特征向量的标准化以及降维处理。
根据权利要求4所述的一种基于TSVM模型的智能电能表自动化检定系统异常检测方法，其特征在于，所述的标准化方式为：

其中，x为待处理特征向量中的特征值，u为待处理特征向量中特征值的期望，S为待处理特征向量中特征值的标准差，z为经标准化后的特征值。
根据权利要求4所述的一种基于TSVM模型的智能电能表自动化检定系统异常检测方法，其特征在于，所述的降维处理包括主成分分析法。
根据权利要求1所述的一种基于TSVM模型的智能电能表自动化检定系统异常检测方法，其特征在于，步骤S2具体为：

基于数据样本，采用无监督异常检测算法初步筛选出“异常表位”；

对初步筛选出的“异常表位”进行人工排查并标记，根据人工排查结果确定正常表位和异常表位，对人工排查的检定表位对应的数据样本进行标记形成标记样本。
根据权利要求7所述的一种基于TSVM模型的智能电能表自动化检定系统异常检测方法，其特征在于，所述的无监督异常检测算法包括孤立森林算法、局部异常因子算法和一类支持向量机算法。
根据权利要求1所述的一种基于TSVM模型的智能电能表自动化检定系统异常检测方法，其特征在于，步骤S3中进行模型训练时标记样本的数量小于未标记样本的数量。
根据权利要求1所述的一种基于TSVM模型的智能电能表自动化检定系统异常检测方法，其特征在于，该方法还包括对基于TSVM的异常检测模型的优化，具体为：利用模型预测出待检测样本中的异常数据，人工排查并标记，然后用所有获得人工标记的样本构建标记样本库，从中选取距离分类边界较近的数据点构成新的标记样本，与未标记样本按照半监督方式再次训练模型完成优化；用优化后的模型对标记样本库中的数据点进行预测，计算标记样本的预测状态与真实状态之间差异的比率，其值小于人为设定的阈值时，判定该模型性能满足预测准确度条件，模型可直接对待检测数据集进行预测。