WO2022262320A1

WO2022262320A1 - 基于知识图谱的配电网cim模型信息补全方法及系统

Info

Publication number: WO2022262320A1
Application number: PCT/CN2022/078964
Authority: WO
Inventors: 郑世明; 黄园芳; 段新辉; 罗宗杰; 吴莉琳; 徐沛东; 林荣秋; 王志强; 陈宇钊; 赵永发; 魏焱; 徐达艺; 王晓明; 李玲; 付振宇; 吴超成; 曹彦朝; 文彬; 李琦; 李旺军
Original assignee: 广东电网有限责任公司湛江供电局
Priority date: 2021-06-15
Filing date: 2022-03-03
Publication date: 2022-12-22
Also published as: CN113254669A; CN113254669B

Abstract

一种基于知识图谱的配电网CIM模型信息补全方法及系统，相比于CoR-PRA方法中的随机游走策略，通过采用广度优先搜索策略进行路径搜索，降低了搜索空间，减小了路径特征爆炸的概率，搜索耗时更少，生成源实体子图和目标实体子图的效率更高；相比于CoR-PRA方法提取单一图特征，通过提取源实体子图与目标实体子图之间的多种图特征，丰富了路径特征量，减小了识别结果对高质量数据集的依赖程度；通过对特征集只保留二值化特征的处理方式，避免了CoR-PRA方法中路径特征需要较大计算量的概率计算过程。

Description

基于知识图谱的配电网CIM模型信息补全方法及系统

本申请要求于2021年6月15日提交至中国专利局、申请号为202110658047.7、发明名称为“基于知识图谱的配电网CIM模型信息补全方法及系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及配电网调度技术领域，尤其涉及一种基于知识图谱的配电网CIM模型信息补全方法。

背景技术

长期以来，各级电力系统对电网模型的维护是分散的，彼此之间无法共享，即使在同级应用系统之间，对电网模型的需求也各不相同，建模侧重点也不相同，为系统间信息交互带来了困难。为实现异构系统中信息的交互，国际电工委员会制定了IECC61970/61890标准，并定义公共信息模型(简称CIM模型，英文全称为Common Information Model)作为电力系统间模型转换的基础模型。

但是，即使如此，在实际场景中，由于工作人员维护不当或异构系统交互时机不当，配电网CIM模型存在拓扑信息缺失、属性信息缺失和模型拼接不完整的情况，导致基于CIM模型拓扑建模时出现拓扑建模不准确、设备参数不完整的问题。

发明内容

本申请提供了一种基于知识图谱的配电网CIM模型信息补全方法及系统，用于解决基于CIM模型拓扑建模时出现拓扑建模不准确、设备参数不完整的技术问题。

有鉴于此，本申请第一方面提供了一种基于知识图谱的配电网CIM模型信息补全方法，包括以下步骤：

S1、根据配电网设备以及各配电网设备之间联络的线路中提取出来的实体元素构建配电网CIM模型知识图谱；

S2、根据知识推理任务提取所述配电网CIM模型知识图谱中的源实体、推理关系和目标实体，从而构成推理关系三元组；

S3、基于广度优先搜索策略，根据所述源实体和所述目标实体分别进行路径搜索，从而生成源实体子图和目标实体子图；

S4、提取所述源实体子图和所述目标实体子图中的多种特征；

S5、对步骤S4中提取的多种特征进行二值化处理，对经二值化处理后的多种特征取并集，从而生成特征集；

S6、根据所述源实体和所述目标实体的映射关系以及所述特征集，生成特征矩阵；

S7、采用ID3决策树分类器对所述特征矩阵进行训练，并以所述源实体和所述目标实体的推理关系作为输出构建决策树模型；

S8、通过向所述决策树模型导入两个测试实体，从而判断是否能输出所述两个测试实体的预测推理关系，当上述判断为是时，则将所述预测推理关系补充至所述配电网CIM模型知识图谱中，从而补全所述配电网CIM模型知识图谱。

优选地，所述步骤S1具体包括：

S101、以配电网设备作为实体，以各配电网设备之间联络的线路作为关系，构建实体关系三元组；

S102、在CIM模型中提取所述实体的属性值作为尾实体，对所述实体关系三元组进行补充，生成知识图谱的三元组；

S103、根据所述知识图谱的三元组构建配电网CIM模型知识图谱。

优选地，所述步骤S1之后，所述步骤S2之前包括：

根据专家知识库在所述配电网CIM模型知识图谱中截取预定范围的知识图谱作为原始数据集。

优选地，所述步骤S3具体包括：

采用广度优先搜索策略以所述源实体为起点进行路径搜索，生成路径长度为预设路径长度阈值的源实体子图；采用广度优先搜索策略以所述目标实体为起点进行路径搜索，生成路径长度为所述预设路径长度阈值的目标实体子图。

优选地，所述步骤S4具体包括：根据所述源实体子图和所述目标实体子图提取类PRA路径特征、类PRA相似泛化路径特征、类PRA任意泛化路径特征、bigram路径特征、one-sided特征和one-sided比较特征。

优选地，所述类PRA路径特征的提取过程包括：

S401、假设所述源实体子图和所述目标实体子图中分别存在相应的所述源实体和所述目标实体到同一中间实体x的路径，则以该中间实体x作为链接节点生成所述源实体和所述目标实体之间的PRA全路径为，

P(h→t|Γ _h→t)＝P(h→t|Γ _h→x,Γ _h→x ^-1)

＝{h-π ₁-x ₁-...π _n-x _n-t} 公式1

公式1中，h→t表示从源实体h出发抵达至目标实体t过程中所包含的所有实体集合；Γ _h→t表示从源实体h出发抵达至目标实体t过程中所包含的所有路径类型集合；P(h→t|Γ _h-t)表示源实体h和目标实体t之间的PRA全路径；Γ _h→x表示目标实体t出发抵达至中间实体x过程中所包含的所有路径类型集合；Γ _h→x ^-1表示对Γ _h→x进行路径方向翻转后的路径特征集合；x _n表示第n个中间实体，n＝1,2,...,n；π _n表示第n个路径类型，路径类型由推理关系三元组决定；{h-π ₁-x ₁-...π _n-x _n-t}等效于图结构，具体为，

公式2中，

表示为图结构，

表示知识图谱中的实体关系三元组(h,π ₁,x ₁)，h为实体关系三元组中的首实体，x ₁表示实体关系三元组中的尾实体，π ₁表示首实体和尾实体之间的路径类型；

S402、根据所述源实体和所述目标实体之间的PRA全路径生成类PRA路径特征为，

T _PRA＝Γ _h→t＝{π ₁-π ₂-...-π _n} 公式3

公式3中，T _PRA表示类PRA路径特征；

相应的，所述类PRA相似泛化路径特征的提取过程包括：

S411、通过PRA算法获取各个实体间的路径；

S412、对经PRA算法获得的各个实体的路径进行张量分解，得出路径类型的向量空间；

S413、将步骤S402中得到的所述类PRA路径特征中的每个路径类型替换为所述路径类型的向量空间中的与其相似的路径类型，则生成类PRA相似泛化路径特征为，

T _similar＝Γ _h→t'＝{π ₁-π ₂-...-π _x'-...-π _n} π _x'＝π _x 公式4

公式4中，T _similar表示类PRA相似泛化路径特征；Γ _h→t'表示从源实体h出发抵达至目标实体t过程中使用相似路径类型代替对应路径类型的路径集合；π _x表示类PRA路径特征中第x个的路径类型；π _x'表示与π _x相对应的相似的路径类型，且在路径集合Γ _h→t'中只允许有一个π _x'；

相应的，所述类PRA任意泛化路径特征的提取过程包括：

S421、假设步骤S402中得到的所述类PRA路径特征中的每个路径类型在步骤S412中得到的所述向量空间中存在与路径类型相似的任意向量，且所述与路径类型相似的任意向量为任意值向量，则将该与路径类型相似的任意向量引至步骤S401中得出的所述类PRA路径特征中，得出类PRA任意泛化路径特征为，

T _any＝Γ _h→t(any)＝{π ₁-any-...-π _n} 公式5

公式5中，any表示为与路径类型相似的任意向量，T _any表示类PRA任意泛化路径特征，Γ _h→t(any)表示从源实体h出发抵达至目标实体t过程中使用与路径类型相似的任意向量代替对应的路径类型的路径集合；

相应的，所述bigram路径特征的提取过程包括：

S431、通过将所述源实体和所述目标实体分别增设标签以进行路径类型化，通过所述源实体和所述目标实体之间的PRA全路径得出下式为，

P(h→t|Γ _h→t) _bigram＝{@h@-π ₁-x ₁-...-π _n-@t@} 公式6

公式6中，@h@表示源实体的路径类型化，@t@表示目标实体的路径类型化；

S432、将路径P(h→t|Γ _h→t) _bigram中每个相邻的路径类型创建bigram特征，从而得到bigram特征路径为，

公式7中，T _bigram表示bigram路径特征，path-pop(P(h→t|Γ _h→t))表示路径P(h→t|Γ _h→t)中的路径类型的总数量；

相应的，one-sided特征的提取过程包括：

S442、将所述源实体子图和所述目标实体子图中的每个实体和对应的路径类型的映射关系(π，x)的特征作为one-sided特征，从而得出one-sided特征为，

T _one＝{T _source-1,...,T _source-i,...,T _source-m,T _target-1,...,T _target-j,...,T _target-n} 公式8

公式8中，T _source-1表示来自源实体子图中的路径类型与首实体对的特征，T _source-m表示来自源实体子图中的路径类型与尾实体对的特征，m＝deg(h)，deg(h)表示来自源实体子图中的实体的度；T _target-1表示来自目标实体子图中的路径类型与首实体对的特征；T _target-n表示来自目标实体子图中的路径类型与尾实体对的特征，n＝det(t)，det(t)表示来自目标实体子图中的实体的度；T _source-i表示源实体与第i个源实体相连的中间实体的one-side特征，T _source-i表示为下式：

T _source-i＝s:-π-:i _s 公式9

公式9中，s代表源实体，-π-则代表路径类型及路径类型的两端，i _s表示第i个与源实体相连的中间实体；

T _target-j表示目标实体与第j个目标实体相连的中间实体的one-side特征，T _target-j表示为下式：

T _target-j＝t:-π-:i _t 公式10

公式10中，t表示目标实体，-π-则代表路径类型及路径类型的两端，i _t表示第i个与目标实体相连的中间实体；

相应的，one-sided比较特征的提取过程包括：

S451、假设所述源实体和中间实体之间存在路径P(s→x|Γ _s→x)，且所述目标实体与中间实体y之间存在路径P(t→y|Γ _t→y)；

S452、通过对所述路径P(s→x|Γ _s→x)和所述路径P(t→y|Γ _t→y)进行路径搜索，当所述路径P(s→x|Γ _s→x)和所述路径P(t→y|Γ _t→y)存在相同的路径特征集合，则定义one-sided比较特征为，

优选地，步骤S5具体包括：

S501、将所述类PRA路径特征、所述类PRA相似泛化路径特征、所述类PRA任意泛化路径特征、所述bigram路径特征、所述one-sided特征和所述one-sided比较特征均进行二值化处理，具体为，

公式12中，T _i表示第i个特征表示，T _i'表示第i个特征二值化处理后的特征表示，

表示空；

S502、将步骤S501中二值化处理后的特征取并集，生成特征集，具体为，

T _SFE-BFS＝T _PRA'∪T _similar'∪T _any'∪T _bigram'∪T _onesided'∪T _comparison' 公式13

公式13中，T _SFE-BFS表示特征集，T _PRA'表示二值化后的类PRA路径特征，T _similar'表示二值化后的类PRA相似泛化路径特征，T _any'表示二值化后的类PRA任意泛化路径特征，T _bigram'表示二值化后的bigram路径特征，T _onesided'表示二值化后的one-sided特征，T _comparison'表示二值化后的one-sided比较特征；

S503、以所述特征集为列，以所述源实体和对应的所述目标实体的映射关系为行，生成对应的特征矩阵为，

公式14中，m为源实体和对应的目标实体的映射关系的总数。

优选地，步骤S7中的所述ID3决策树分类器中的信息增益为，

公式15中，|S|表示训练集S中包含的样本数，|S ^v|表示训练集S ^v中包含的样本数，N表示特征，V表示总样本，v表示总样本中第v个样本；

步骤S7中的所述ID3决策树分类器中的信息熵为，

公式16中，S表示训练集集合，c表示第c类样本，n表示第c样本的样本子集数量，p代表样本子集。

优选地，步骤S8之后还包括：

S9、将所述两个测试实体及其对应的预测推理关系以XML语句插至配电网CIM模型的XML文件中。

第二方面，本发明还提供了一种基于知识图谱的配电网CIM模型信息补全系统，包括：

构建模块，用于根据配电网设备以及各配电网设备之间联络的线路中提取出来的实体元素构建配电网CIM模型知识图谱；

实体提取模块，用于根据知识推理任务提取所述配电网CIM模型知识图谱中的源实体、推理关系和目标实体，从而构成推理关系三元组；

路径搜索模块，用于基于广度优先搜索策略，根据所述源实体和所述目标实体分别进行路径搜索，从而生成源实体子图和目标实体子图；

特征提取模块，用于对所述源实体子图和所述目标实体子图进行多种特征提取；

特征集模块，用于对所述特征提取模块提取的特征进行二值化处理，对经二值化处理后的多种特征取并集，从而生成特征集；

特征矩阵模块，用于根据所述源实体和所述目标实体的映射关系以及所述特征集，生成特征矩阵；

模型训练模块，用于采用ID3决策树分类器对所述特征矩阵进行训练，并以所述源实体和所述目标实体的推理关系作为输出构建决策树模型；

补全模块，用于通过向所述决策树模型导入两个测试实体，从而判断是否能输出所述两个测试实体的预测推理关系，还用于当上述判断为是时，则将所述预测推理关系补充至所述配电网CIM模型知识图谱中，从而补全所述配电网CIM模型知识图谱。

从以上技术方案可以看出，本申请实施例具有以下优点：

本发明通过采用广度优先搜索策略进行路径搜索，生成更加简单的源实体子图和目标实体子图创建特征空间，降低了搜索空间，抽取的特征量更多，耗时更少，相比于CoR-PRA方法中的随机游走策略，通过采用广度优先搜索策略进行路径搜索，降低了搜索空间，减小了路径特征爆炸的概率，抽取特征量更多，耗时更少；通过提取源实体子图与目标实体子图之间的多种图特征，丰富了路径特征量，减少了识别结果对高质量数据集的依赖程度；通过对特征集只保留二值化特征的处理方式，避免了路径特征中需要较大计算量的概率计算过程。

附图说明

图1为本申请实施例提供的一种基于知识图谱的配电网CIM模型信息补全方法的流程图；

图2为本申请实施例提供的一种基于知识图谱的配电网CIM模型信息补全系统的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

通过本发明人发现，在现有方案中的基于知识推理的主配网统一管理模型信息补全方法，其使用CoR-PRA方法对电网管理模型进行特征提取和链接预测，具体为，首先根据路径搜索算法以源实体节点和目标实体节点为起点生成路径长度小于某个阈值的路径集合；其次通过PRA计算路径特征的概率，将路径特征进行翻转后放入常量候选集中；然后根据概率计算结果生成候选的常量路径；最后对每一个可能的组合生成更长的路径特征候选集。依据特征候选集作为更新基础实现对未来态主网和配网的知识图谱进行更新。

但通过上述方案进行知识图谱更新，存在以下问题：

1)尽管CoR-PRA方法采用了随机游走策略来降低搜索空间，当PRA(Path Ranking Algorithm，路径排序算法)应用在关系丰富且连接稠密的知识图谱上时，依然会面临路径特征爆炸的问题，路径特征爆炸会导致特征量过多，计算量大，也有可能会导致知识图谱更新出现过拟合现象。

2)CoR-PRA搜索路径特征时进行概率计算，需要较大计算量。

3)CoR-PRA方法提取的特征较为单一，只有源实体节点和目标节点之间的路径特征，特征量过少，识别结果只能依赖高质量的数据集。

为此，请参见图1，本发明提供了一种基于知识图谱的配电网CIM模型信息补全方法，包括以下步骤：

S2、根据知识推理任务提取配电网CIM模型知识图谱中的源实体、推理关系和目标实体，从而构成推理关系三元组；

S3、基于广度优先搜索策略，根据源实体和目标实体分别进行路径搜索，从而生成源实体子图和目标实体子图；

S4、提取源实体子图和目标实体子图中的多种特征；

S6、根据源实体和目标实体的映射关系以及特征集，生成特征矩阵；

S7、采用ID3决策树分类器对特征矩阵进行训练，并以源实体和目标实体的推理关系作为输出构建决策树模型；

需要说明的是，ID3决策树分类器，即Iterative Dichotomiser 3决策树分类器，迭代二叉树3代，是Ross Quinlan发明的一种决策树算法。

S8、通过向决策树模型导入两个测试实体，从而判断是否能输出两个测试实体的预测推理关系，当上述判断为是时，则将预测推理关系补充至配电网CIM模型知识图谱中，从而补全配电网CIM模型知识图谱。

以下为本发明提供的一种基于知识图谱的配电网CIM模型信息补全方法的具体描述。

进一步地，在步骤S1中具体包括：

S102、在CIM模型中提取实体的属性值作为尾实体，对实体关系三元组进行补充，生成知识图谱的三元组；

假设存在一个配电网设备A，它的型号为LGJ-50，那么，配电网设备A为实体，型号代表属性，LGJ-50就是尾实体，需将该尾实体补充至实体关系三元组中，生成知识图谱的三元组。

S103、根据知识图谱的三元组构建配电网CIM模型知识图谱。

进一步地，步骤S1之后，步骤S2之前包括：

根据专家知识库在配电网CIM模型知识图谱中截取预定范围的知识图谱作为原始数据集。

需要说明的是，专家知识库包括专家过往进行的数据分析、逻辑判断的先验知识，例如：在配电网CIM模型中包含了大量设备，当需要进行电气的潮流计算时，通过专家知识库可以得出进行潮流计算需要哪些设备；或在进行关系推理时，可以将通过专家知识库得出将推理关系的范围由全部CIM模型缩减到部分CIM模型、由线路的全拓扑缩减到部分拓扑，减少数据量的同时减小了搜索空间。

通过对配电网CIM模型知识图谱进行适当的范围截取，可以减小搜索空间，避免冗余路径特征向量的生成。

进一步地，步骤S3具体包括：

采用广度优先搜索策略以源实体为起点进行路径搜索，生成路径长度为预设路径长度阈值的源实体子图；采用广度优先搜索策略以目标实体为起点进行路径搜索，生成路径长度为预设路径长度阈值的目标实体子图。

具体地，采用广度优先搜索策略以源实体h为起点，以l为路径长度阈值进行路径，生成源实体子图G _h，以目标实体t为起点，同样以l为路径长度阈值生成目标实体子图G _t，通过广度优先搜索策略减少无意义的路径特征，提升了路径搜索的效率。

为了进一步提升搜索效率，由于源实体子图和目标实体子图的搜索过程是一致的，如果在路径搜索过程中，某个中间实体x对应的目标实体中有很多相同的路径类型π _i连接着不同的实体节点，那么这个路径类型π _i不会作为当前广度优先搜索路径中的一个路径特征，而是把当前中间实体x当做源实体子图以及目标实体子图过程中的结束实体，并路径搜索终止。

进一步地，步骤S4具体包括：根据源实体子图和目标实体子图提取类PRA路径特征、类PRA相似泛化路径特征、类PRA任意泛化路径特征、bigram路径特征、one-sided特征和one-sided比较特征。

bigram路径特征也即二元模型路径特征、one-sided特征也即单侧特征，one-sided比较特征也即单侧比较特征，PRA(Path Ranking Algorithm)是一种将关系路径作为特征的推理算法。

可以理解的是，上述所提取的特征均是图论知识中关于图结构的特征，用于丰富路径特征量，避免特征量单一需要依赖大量高精度的数据集才能识别结果。

进一步地，类PRA路径特征的提取过程包括：

S401、假设源实体子图和目标实体子图中分别存在相应的源实体和目标实体到同一中间实体x的路径，则以该中间实体x作为链接节点生成源实体和目标实体之间的PRA全路径为，

P(h→t|Γ _h→t)＝P(h→t|Γ _h→x,Γ _h→x ^-1)

＝{h-π ₁-x ₁-...π _n-x _n-t} 公式1

公式1中，h→t表示从源实体h出发抵达至目标实体t过程中所包含的所有实体集合；Γ _h→t表示从源实体h出发抵达至目标实体t过程中所包含的所有路径类型集合；P(h→t|Γ _h-t)表示源实体h和目标实体t之间的PRA 全路径；Γ _h→x表示目标实体t出发抵达至中间实体x过程中所包含的所有路径类型集合；Γ _h→x ^-1表示对Γ _h→x进行路径方向翻转后的路径特征集合；x _n表示第n个中间实体，n＝1,2,...,n；π _n表示第n个路径类型，路径类型由推理关系三元组决定；{h-π ₁-x ₁-...π _n-x _n-t}等效于图结构，具体为，

公式2中，

表示为图结构，

S402、根据源实体和目标实体之间的PRA全路径生成类PRA路径特征为，

T _PRA＝Γ _h→t＝{π ₁-π ₂-...-π _n} 公式3

公式3中，T _PRA表示类PRA路径特征；

需要说明的是，公式3为公式1的子集，因此，通过公式1容易得出公式3，同时，公式1中的路径量中没有实体节点量(但不包括源实体、目标实体以及中间实体)；

相应的，类PRA相似泛化路径特征的提取过程包括：

S411、通过PRA算法获取各个实体间的路径；

需要说明的是，通过张量分解后得到路径类型的向量空间为本领域公知常识，在此不再赘述。

S413、将步骤S402中得到的类PRA路径特征中的每个路径类型替换为路径类型的向量空间中的与其相似的路径类型，则生成类PRA相似泛化路径特征为，

公式4中，T _similar表示类PRA相似泛化路径特征；Γ _h→t'表示从源实体h 出发抵达至目标实体t过程中使用相似路径类型代替对应路径类型的路径集合；π _x表示类PRA路径特征中第x个的路径类型；π _x'表示与π _x相对应的相似的路径类型，且在路径集合Γ _h→t'中只允许有一个π _x'；

需要说明的是，为了减少特征提取时出现特征空间组合爆炸的情况，一次只允许用类似的关系π _x'替换一个关系；同时，在判断路径类型对应的相似路径类型中，需要根据两个路径特征向量在向量空间中的距离是否小于预设距离阈值来判定是否为相似路径类型，当上述判断为是时，即判定为相似路径类型，当上述判断为否时，则判定为非相似路径类型。

相应的，类PRA任意泛化路径特征的提取过程包括：

S421、假设步骤S402中得到的类PRA路径特征中的每个路径类型在步骤S412中得到的向量空间中存在与路径类型相似的任意向量，且与路径类型相似的任意向量为任意值向量，则将该与路径类型相似的任意向量引至步骤S401中得出的类PRA路径特征中，得出类PRA任意泛化路径特征为，

T _any＝Γ _h→t(any)＝{π ₁-any-...-π _n} 公式5

需要说明的是，路径类型相似的任意向量即为与路径类型在向量空间中的距离小于预设的距离阈值。

相应的，bigram路径特征的提取过程包括：

S431、通过将源实体和目标实体分别增设标签以进行路径类型化，通过源实体和目标实体之间的PRA全路径得出下式为，

P(h→t|Γ _h→t) _bigram＝{@h@-π ₁-x ₁-...-π _n-@t@} 公式6

需要说明的是，实体和路径类型具有不同的性质，为了让实体具有路径类型的性质，则向实体上增设标签进行表示路径类型，以使得实体具有路径类型的性质。

需要说明的是，在广度优先搜索的过程中，会对实体进行实体或路径类型进行标记，例如：从实体A到实体B需要依次经过路径a、b、c，则按照经过的顺序，则相邻的路径类型为a和b相邻，b和c相邻。

相应的，one-sided特征的提取过程包括：

S442、将源实体子图和目标实体子图中的路径类型与尾实体对(π，x)的特征作为one-sided特征，从而得出one-sided特征为，

T _source-i＝s:-π-:i _s 公式9

T _target-j＝t:-π-:i _t 公式10

需要说明的是，在广度优先搜索过程中，可以将源实体子图和目标实体子图中的路径类型与尾实体对(π，x)进行记录，其中，(π，x)表示为源实体子图和目标实体子图中的尾实体和对应的路径类型，同时，记录过程也即one-sided特征提取的过程。

其中，度表示图中与节点关联的边的数量。

相应的，one-sided比较特征的提取过程包括：

S451、假设源实体和中间实体之间存在路径P(s→x|Γ _s→x)，且目标实体与中间实体y之间存在路径P(t→y|Γ _t→y)；

S452、通过对路径P(s→x|Γ _s→x)和路径P(t→y|Γ _t→y)进行路径搜索，当路径P(s→x|Γ _s→x)和路径P(t→y|Γ _t→y)存在相同的路径特征集合，则定义one-sided比较特征为，

需要说明的是，当路径P(s→x|Γ _s→x)和路径P(t→y|Γ _t→y)不存在相同的路径特征集合，则相应的one-sided比较特征为空。

进一步地，步骤S5具体包括：

S501、将类PRA路径特征、类PRA相似泛化路径特征、类PRA任意泛化路径特征、bigram路径特征、one-sided特征和one-sided比较特征均进行二值化处理，具体为，

表示空；

S503、以特征集为列，以源实体和对应的目标实体的映射关系为行，

[根据细则91更正 31.05.2022]　
生成对应的特征矩阵为，

公式14中，m为源实体和对应的目标实体的映射关系的总数。

进一步地，步骤S7中的ID3决策树分类器中的信息增益为，

步骤S7中的ID3决策树分类器中的信息熵为，

进一步地，步骤S8之后还包括：

S9、将两个测试实体及其对应的预测推理关系以XML语句插至配电网CIM模型的XML文件中。

另外，参见图2，以下为实现本发明提供的一种基于知识图谱的配电网CIM模型信息补全方法的系统，包括：

构建模块100，用于根据配电网设备以及各配电网设备之间联络的线路中提取出来的实体元素构建配电网CIM模型知识图谱；

实体提取模块200，用于根据知识推理任务提取配电网CIM模型知识图谱中的源实体、推理关系和目标实体，从而构成推理关系三元组；

路径搜索模块300，用于基于广度优先搜索策略，根据源实体和目标实体分别进行路径搜索，从而生成源实体子图和目标实体子图；

特征提取模块400，用于对源实体子图和目标实体子图进行多种特征提取；

特征集模块500，用于对特征提取模块提取的特征进行二值化处理，对经二值化处理后的多种特征取并集，从而生成特征集；

特征矩阵模块600，用于根据源实体和目标实体的映射关系以及特征集，生成特征矩阵；

模型训练模块700，用于采用ID3决策树分类器对特征矩阵进行训练，并以源实体和目标实体的推理关系作为输出构建决策树模型；

补全模块800，用于通过向决策树模型导入两个测试实体，从而判断是否能输出两个测试实体的预测推理关系，还用于当上述判断为是时，则将预测推理关系补充至配电网CIM模型知识图谱中，从而补全配电网CIM模型知识图谱。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

基于知识图谱的配电网CIM模型信息补全方法，其特征在于，包括以下步骤：

S1、根据配电网设备以及各配电网设备之间联络的线路中提取出来的实体元素构建配电网CIM模型知识图谱；

S2、根据知识推理任务提取所述配电网CIM模型知识图谱中的源实体、推理关系和目标实体，从而构成推理关系三元组；

S3、基于广度优先搜索策略，根据所述源实体和所述目标实体分别进行路径搜索，从而生成源实体子图和目标实体子图；

S4、提取所述源实体子图和所述目标实体子图中的多种特征；

S5、对步骤S4中提取的多种特征进行二值化处理，对经二值化处理后的多种特征取并集，从而生成特征集；

S6、根据所述源实体和所述目标实体的映射关系以及所述特征集，生成特征矩阵；

S7、采用ID3决策树分类器对所述特征矩阵进行训练，并以所述源实体和所述目标实体的推理关系作为输出构建决策树模型；

S8、通过向所述决策树模型导入两个测试实体，从而判断是否能输出所述两个测试实体的预测推理关系，当上述判断为是时，则将所述预测推理关系补充至所述配电网CIM模型知识图谱中，从而补全所述配电网CIM模型知识图谱。
根据权利要求1所述的基于知识图谱的配电网CIM模型信息补全方法，其特征在于，所述步骤S1具体包括：

S101、以配电网设备作为实体，以各配电网设备之间联络的线路作为关系，构建实体关系三元组；

S102、在CIM模型中提取所述实体的属性值作为尾实体，对所述实体关系三元组进行补充，生成知识图谱的三元组；

S103、根据所述知识图谱的三元组构建配电网CIM模型知识图谱。
根据权利要求1所述的基于知识图谱的配电网CIM模型信息补全方法，其特征在于，所述步骤S1之后，所述步骤S2之前包括：

根据专家知识库在所述配电网CIM模型知识图谱中截取预定范围的知识图谱作为原始数据集。
根据权利要求1所述的基于知识图谱的配电网CIM模型信息补全方法，其特征在于，所述步骤S3具体包括：

采用广度优先搜索策略以所述源实体为起点进行路径搜索，生成路径长度为预设路径长度阈值的源实体子图；采用广度优先搜索策略以所述目标实体为起点进行路径搜索，生成路径长度为所述预设路径长度阈值的目标实体子图。
根据权利要求2所述的基于知识图谱的配电网CIM模型信息补全方法，其特征在于，所述步骤S4具体包括：根据所述源实体子图和所述目标实体子图提取类PRA路径特征、类PRA相似泛化路径特征、类PRA任意泛化路径特征、bigram路径特征、one-sided特征和one-sided比较特征。
根据权利要求5所述的基于知识图谱的配电网CIM模型信息补全方法，其特征在于，所述类PRA路径特征的提取过程包括：

S401、假设所述源实体子图和所述目标实体子图中分别存在相应的所述源实体和所述目标实体到同一中间实体x的路径，则以该中间实体x作为链接节点生成所述源实体和所述目标实体之间的PRA全路径为，

P(h→t|Γ _h→t)＝P(h→t|Γ _h→x,Γ _h→x ^-1)

＝{h-π ₁-x ₁-...π _n-x _n-t}      公式1

公式1中，h→t表示从源实体h出发抵达至目标实体t过程中所包含的所有实体集合；Γ _h→t表示从源实体h出发抵达至目标实体t过程中所包含的所有路径类型集合；P(h→t|Γ _h-t)表示源实体h和目标实体t之间的PRA全路径；Γ _h→x表示目标实体t出发抵达至中间实体x过程中所包含的所有路径类型集合；Γ _h→x ^-1表示对Γ _h→x进行路径方向翻转后的路径特征集合；x _n表示第n个中间实体，n＝1,2,...,n；π _n表示第n个路径类型，路径类型由推理关系三元组决定；{h-π ₁-x ₁-...π _n-x _n-t}等效于图结构，具体为，

公式2中，
表示为图结构，
表示知识图谱中的实体关系三元组(h,π ₁,x ₁)，h为实体关系三元组中的首实体，x ₁表示实体关系三元组中的尾实体，π ₁表示首实体和尾实体之间的路径类型；

S402、根据所述源实体和所述目标实体之间的PRA全路径生成类PRA路径特征为，

T _PRA＝Γ _h→t＝{π ₁-π ₂-...-π _n}   公式3

公式3中，T _PRA表示类PRA路径特征；

相应的，所述类PRA相似泛化路径特征的提取过程包括：

S411、通过PRA算法获取各个实体间的路径；

S412、对经PRA算法获得的各个实体的路径进行张量分解，得出路径类型的向量空间；

S413、将步骤S402中得到的所述类PRA路径特征中的每个路径类型替换为所述路径类型的向量空间中的与其相似的路径类型，则生成类PRA相似泛化路径特征为，

T _similar＝Γ _h→t'＝{π ₁-π ₂-...-π _x'-...-π _n} π _x'＝π _x    公式4

公式4中，T _similar表示类PRA相似泛化路径特征；Γ _h→t'表示从源实体h出发抵达至目标实体t过程中使用相似路径类型代替对应路径类型的路径集合；π _x表示类PRA路径特征中第x个的路径类型；π _x'表示与π _x相对应的相似的路径类型，且在路径集合Γ _h→t'中只允许有一个π _x'；

相应的，所述类PRA任意泛化路径特征的提取过程包括：

S421、假设步骤S402中得到的所述类PRA路径特征中的每个路径类型在步骤S412中得到的所述向量空间中存在与路径类型相似的任意向量，且所述与路径类型相似的任意向量为任意值向量，则将该与路径类型相似的任意向量引至步骤S401中得出的所述类PRA路径特征中，得出类PRA任意泛化路径特征为，

T _any＝Γ _h→t(any)＝{π ₁-any-...-π _n}      公式5

公式5中，any表示为与路径类型相似的任意向量，T _any表示类PRA任意泛化路径特征，Γ _h→t(any)表示从源实体h出发抵达至目标实体t过程中使用与路径类型相似的任意向量代替对应的路径类型的路径集合；

相应的，所述bigram路径特征的提取过程包括：

S431、通过将所述源实体和所述目标实体分别增设标签以进行路径类型化，通过所述源实体和所述目标实体之间的PRA全路径得出下式为，

P(h→t|Γ _h→t) _bigram＝{@h@-π ₁-x ₁-...-π _n-@t@}     公式6

公式6中，@h@表示源实体的路径类型化，@t@表示目标实体的路径类型化；

S432、将路径P(h→t|Γ _h→t) _bigram中每个相邻的路径类型创建bigram特征，从而得到bigram特征路径为，

公式7中，T _bigram表示bigram路径特征，path-pop(P(h→t|Γ _h→t))表示路径P(h→t|Γ _h→t)中的路径类型的总数量；

相应的，one-sided特征的提取过程包括：

S442、将所述源实体子图和所述目标实体子图中的每个实体和对应的路径类型的映射关系(π，x)的特征作为one-sided特征，从而得出one-sided特征为，

T _one＝{T _source-1,...,T _source-i,...,T _source-m,T _t arg et-1,...,T _t arg et-j,...,T _t arg et-n}  公式8

公式8中，T _source-1表示来自源实体子图中的路径类型与首实体对的特征，T _source-m表示来自源实体子图中的路径类型与尾实体对的特征，m＝deg(h)，deg(h)表示来自源实体子图中的实体的度；T _t arg et-1表示来自目标实体子图中的路径类型与首实体对的特征；T _t arg et-n表示来自目标实体子图中的路径类型与尾实体对的特征，n＝det(t)，det(t)表示来自目标实体子图中的实体的度；T _source-i表示源实体与第i个源实体相连的中间实体的one-side特征，T _source-i表示为下式：

T _source-i＝s:-π-:i _s      公式9

公式9中，s代表源实体，-π-则代表路径类型及路径类型的两端，i _s表示第i个与源实体相连的中间实体；

T _target-j表示目标实体与第j个目标实体相连的中间实体的one-side特征，T _target-j表示为下式：

T _target-j＝t:-π-:i _t        公式10

公式10中，t表示目标实体，-π-则代表路径类型及路径类型的两端，i _t表示第i个与目标实体相连的中间实体；

相应的，one-sided比较特征的提取过程包括：

S451、假设所述源实体和中间实体之间存在路径P(s→x|Γ _s→x)，且所述目标实体与中间实体y之间存在路径P(t→y|Γ _t→y)；

S452、通过对所述路径P(s→x|Γ _s→x)和所述路径P(t→y|Γ _t→y)进行路径搜索，当所述路径P(s→x|Γ _s→x)和所述路径P(t→y|Γ _t→y)存在相同的路径特征集合，则定义one-sided比较特征为，
根据权利要求5所述的基于知识图谱的配电网CIM模型信息补全方法，其特征在于，步骤S5具体包括：

S501、将所述类PRA路径特征、所述类PRA相似泛化路径特征、所述类PRA任意泛化路径特征、所述bigram路径特征、所述one-sided特征和所述one-sided比较特征均进行二值化处理，具体为，

公式12中，T _i表示第i个特征表示，T _i'表示第i个特征二值化处理后的特征表示，
表示空；

S502、将步骤S501中二值化处理后的特征取并集，生成特征集，具体为，

T _SFE-BFS＝T _PRA'∪T _similar'∪T _any'∪T _bigram'∪T _onesided'∪T _comparison' 公式13

公式13中，T _SFE-BFS表示特征集，T _PRA'表示二值化后的类PRA路径特征，T _similar'表示二值化后的类PRA相似泛化路径特征，T _any'表示二值化后的类PRA任意泛化路径特征，T _bigram'表示二值化后的bigram路径特征，T _onesided'表示二值化后的one-sided特征，T _comparison'表示二值化后的one-sided比较特征；

S503、以所述特征集为列，以所述源实体和对应的所述目标实体的映射关系为行，生成对应的特征矩阵为，

公式14中，m为源实体和对应的目标实体的映射关系的总数。
根据权利要求1所述的基于知识图谱的配电网CIM模型信息补全方法，其特征在于，步骤S7中的所述ID3决策树分类器中的信息增益为，

公式15中，|S|表示训练集S中包含的样本数，|S ^v|表示训练集S ^v中包含的样本数，N表示特征，V表示总样本，v表示总样本中第v个样本；

步骤S7中的所述ID3决策树分类器中的信息熵为，

公式16中，S表示训练集集合，c表示第c类样本，n表示第c样本的样本子集数量，p代表样本子集。
根据权利要求1所述的基于知识图谱的配电网CIM模型信息补全方法，其特征在于，步骤S8之后还包括：

S9、将所述两个测试实体及其对应的预测推理关系以XML语句插至配电网CIM模型的XML文件中。
一种基于知识图谱的配电网CIM模型信息补全系统，其特征在于，包括：

构建模块，用于根据配电网设备以及各配电网设备之间联络的线路中提取出来的实体元素构建配电网CIM模型知识图谱；

实体提取模块，用于根据知识推理任务提取所述配电网CIM模型知识图谱中的源实体、推理关系和目标实体，从而构成推理关系三元组；

路径搜索模块，用于基于广度优先搜索策略，根据所述源实体和所述目标实体分别进行路径搜索，从而生成源实体子图和目标实体子图；

特征提取模块，用于对所述源实体子图和所述目标实体子图进行多种特征提取；

特征集模块，用于对所述特征提取模块提取的特征进行二值化处理，对经二值化处理后的多种特征取并集，从而生成特征集；

特征矩阵模块，用于根据所述源实体和所述目标实体的映射关系以及所述特征集，生成特征矩阵；

模型训练模块，用于采用ID3决策树分类器对所述特征矩阵进行训练，并以所述源实体和所述目标实体的推理关系作为输出构建决策树模型；

补全模块，用于通过向所述决策树模型导入两个测试实体，从而判断是否能输出所述两个测试实体的预测推理关系，还用于当上述判断为是时，则将所述预测推理关系补充至所述配电网CIM模型知识图谱中，从而补全所述配电网CIM模型知识图谱。