WO2021184630A1

WO2021184630A1 - 基于知识图谱定位排污对象的方法及相关设备

Info

Publication number: WO2021184630A1
Application number: PCT/CN2020/104753
Authority: WO
Inventors: 陈功
Original assignee: 平安国际智慧城市科技股份有限公司
Priority date: 2020-03-19
Filing date: 2020-07-27
Publication date: 2021-09-23
Also published as: CN111460167A

Abstract

一种基于知识图谱定位排污对象的方法及相关设备，通过构建企业的知识图谱，提高对企业异常排污行为识别与监控的准确性，所述方法包括：通过自然语言处理算法对预置数据抽取并存储到预置图数据库中，得到目标知识图谱；在预置时长内对目标企业进行排污监测，得到排污监测数据；对排污监测数据进行预处理，得到标准时序数据集；对标准时序数据集进行特征提取和特征融合，得到待识别特征数据；通过训练好的模型对待识别特征数据进行预测，得到预测结果；根据待识别特征数据和预测结果从目标企业的目标知识图谱中获取判别依据数据，并对排污异常的目标企业发送预警信息。

Description

基于知识图谱定位排污对象的方法及相关设备

本申请要求于2020年3月19日提交中国专利局、申请号为202010193960.X、发明名称为“基于知识图谱定位排污对象的方法及相关设备”的中国专利申请的优先权，其全部内容通过引用结合在申请中。

技术领域

本申请涉及知识关系分析领域，尤其涉及基于知识图谱定位排污对象的方法及相关设备。

背景技术

排污企业监管一直是环境保护工作的重中之重，监管不到位，出现偷排、数据造假等异常排污行为直接影响地区的环境质量与人们的生活质量；但企业众多、监管人员有限，异常排污的识别具备需要大量人力且人员经验要求高，时效性要求强等特性，使得目前很难对排污企业进行有效监管。

目前已有产品只是对企业最终排放污染物进行监控，但是由于监测设备质量与运维情况良莠不齐，使得测量数据不准确，而且企业也存在弄虚作假等行为，使得粗放管理，发明人意识到只依靠末端排放监测的一刀切管理方式难以对企业异常排污行为进行有效识别与监管，导致定位排污对象准确率比较低。

发明内容

本申请的主要目的在于解决了现有测量设备存在测量数据不准确，以及企业存在异常排污行为导致定位排污对象准确率比较低的技术问题。

为实现上述目的，本申请第一方面提供了一种基于知识图谱定位排污对象的方法，包括：通过自然语言处理算法对预置数据抽取三元组，并将所述三元组存储到预置图数据库中，得到目标知识图谱，所述目标知识图谱用于指示目标企业的生产标准、排污标准以及法律法规依据条款；在预置时长内对所述目标企业进行排污监测，得到排污监测数据；对所述排污监测数据进行预处理，得到标准时序数据集；对所述标准时序数据集进行特征提取和特征融合，得到待识别特征数据；通过训练好的模型对所述待识别特征数据进行预测，得到预测结果，并根据所述预测结果设置目标标签，将所述目标标签添加到所述目标知识图谱中，所述预测结果用于指示排污异常的目标企业；根据所述待识别特征数据和所述预测结果从所述目标企业的目标知识图谱中获取判别依据数据，并对所述排污异常的目标企业发送预警信息，所述预警信息用于指示按照所述判别依据数据对所述目标企业进行检测。

本申请第二方面提供了一种基于知识图谱定位排污对象的设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：通过自然语言处理算法对预置数据抽取三元组，并将所述三元组存储到预置图数据库中，得到目标知识图谱，所述目标知识图谱用于指示目标企业的生产标准、排污标准以及法律法规依据条款；在预置时长内对所述目标企业进行排污监测，得到排污监测数据；对所述排污监测数据进行预处理，得到标准时序数据集；对所述标准时序数据集进行特征提取和特征融合，得到待识别特征数据；通过训练好的模型对所述待识别特征数据进行预测，得到预测结果，并根据所述预测结果设置目标标签，将所述目标标签添加到所述目标知识图谱中，所述预测结果用于指示排污异常的目标企业；根据所述待识别特征数据和所述预测结果从所述目标企业的目标知识图谱中获取判别依据数据，并对所述排污异常的目标企业发送预警信息，所述预警信息用于按照所述判别依据数据对所述目标企业进行检测。

本申请的第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如下步骤：通过自然语言处理算法对预置数据抽取三元组，并将所述三元组存储到预置图数据库中，得到目标知识图谱，所述目标知识图谱用于指示目标企业的生产标准、排污标准以及法律法规依据条款；在预置时长内对所述目标企业进行排污监测，得到排污监测数据；对所述排污监测数据进行预处理，得到标准时序数据集；对所述标准时序数据集进行特征提取和特征融合，得到待识别特征数据；通过训练好的模型对所述待识别特征数据进行预测，得到预测结果，并根据所述预测结果设置目标标签，将所述目标标签添加到所述目标知识图谱中，所述预测结果用于指示排污异常的目标企业；根据所述待识别特征数据和所述预测结果从所述目标企业的目标知识图谱中获取判别依据数据，并对所述排污异常的目标企业发送预警信息，所述预警信息用于按照所述判别依据数据对所述目标企业进行检测。

本申请第四方面提供了一种基于知识图谱定位排污对象的装置，包括：抽取单元，用于通过自然语言处理算法对预置数据抽取三元组，并将所述三元组存储到预置图数据库中，得到目标知识图谱，所述目标知识图谱用于指示目标企业的生产标准、排污标准以及法律法规依据条款；监测单元，用于在预置时长内对所述目标企业进行排污监测，得到排污监测数据；预处理单元，用于对所述排污监测数据进行预处理，得到标准时序数据集；提取融合单元，用于对所述标准时序数据集进行特征提取和特征融合，得到待识别特征数据；预测单元，用于通过训练好的模型对所述待识别特征数据进行预测，得到预测结果，并根据所述预测结果设置目标标签，将所述目标标签添加到所述目标知识图谱中，所述预测结果用于指示排污异常的目标企业；判别预警单元，用于根据所述待识别特征数据和所述预测结果从所述目标企业的目标知识图谱中获取判别依据数据，并对所述排污异常的目标企业发送预警信息，所述预警信息用于按照所述判别依据数据对所述目标企业进行检测。

本申请提供的技术方案中，通过自然语言处理算法对预置数据抽取三元组，并将所述三元组存储到预置图数据库中，得到目标知识图谱，所述目标知识图谱用于指示目标企业的生产标准、排污标准以及法律法规依据条款；在预置时长内对所述目标企业进行排污监测，得到排污监测数据；对所述排污监测数据进行预处理，得到标准时序数据集；对所述标准时序数据集进行特征提取和特征融合，得到待识别特征数据；通过训练好的模型对所述待识别特征数据进行预测，得到预测结果，并根据所述预测结果设置目标标签，将所述目标标签添加到所述目标知识图谱中，所述预测结果用于指示排污异常的目标企业；根据所述待识别特征数据和所述预测结果从所述目标企业的目标知识图谱中获取判别依据数据，并对所述排污异常的目标企业发送预警信息，所述预警信息用于指示按照所述判别依据数据对所述目标企业进行检测。本申请实施例中，通过结合知识图谱和人工智能技术，实现企业异常排污智能识别，同时通过结论验证，循环改进识别算法，最终达到精准识别企业异常排污行为，高效监管排污企业，提升区域环境质量的目的。

附图说明

图1为本申请实施例中基于知识图谱定位排污对象的方法的一个实施例示意图；

图2为本申请实施例中基于知识图谱定位排污对象的方法的另一个实施例示意图；

图3为本申请实施例中基于知识图谱定位排污对象的装置的一个实施例示意图；

图4为本申请实施例中基于知识图谱定位排污对象的装置的另一个实施例示意图；

图5为本申请实施例中基于知识图谱定位排污对象的设备的一个实施例示意图。

具体实施方式

本申请实施例提供了一种基于知识图谱定位排污对象的方法及相关设备，用于通过结合知识图谱和人工智能技术，实现企业异常排污智能识别，同时通过结论验证，循环改进识别算法，最终达到精准识别企业异常排污行为，高效监管排污企业，提升区域环境质量的目的。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例进行描述。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本申请实施例的具体流程进行描述，请参阅图1，本申请实施例中基于知识图谱定位排污对象的方法的一个实施例包括：

101、通过自然语言处理算法对预置数据抽取三元组，并将三元组存储到预置图数据库中，得到目标知识图谱，目标知识图谱用于指示目标企业的生产标准、排污标准以及法律法规依据条款；

可以理解的是，本申请的执行主体可以为基于知识图谱定位排污对象的装置，还可以是终端或者服务器，具体此处不做限定。本申请实施例以服务器为执行主体为例进行说明。

服务器通过自然语言处理算法对预置数据抽取三元组，并将三元组存储到预置图数据库中，得到目标知识图谱，目标知识图谱用于指示目标企业的生产标准、排污标准以及法律法规依据条款，其中，预置数据包括目标企业的原始信息、环保法律法规数据、环境保护行业标准数据以及污水综合排放标准数据。其中，知识图谱是一种揭示实体之间关系的语义网络，可以对现实世界的事物及其相互关系进行形式化描述。三元组是知识图谱的一种通用表示方式，即G＝(E，R，S)，其中E＝e1，e2，…，e|E|是知识库中的实体集合，共包含|E|种不同实体，R＝r1，r2，…，r|E|是知识库中的关系集合，共包含|R|种不同关系，

代表目标知识图谱中三元组的集合。

可以理解的是，构建重点行业的目标知识图谱主要是通过分析重点行业的特征，构建本行业内的生产标准、排污标准以及法律法规标准。

102、在预置时长内对目标企业进行排污监测，得到排污监测数据；

服务器在预置时长内对目标企业进行监测，得到排污监测数据，其中，排污监测数据具有时序性，也就是同一现象在不同时刻上的连续监测值排列而成的一组数字序列，数字序列具有规律性。预置时长为预设一段时长，比如15天。进一步地，服务器通过预置设备在预置时长内采集目标企业的排污监测数据。

103、对排污监测数据进行预处理，得到标准时序数据集；

服务器对排污监测数据进行预处理，得到标准时序数据集。具体的，服务器对排污监测数据填补空缺值；服务器对填补后的排污监测数据进行平滑处理，平滑处理主要是用于处理排污监测数据中的随机错误或偏差数据；对平滑处理后的排污监测数据删除孤立数据，得到标准时序数据集，其中，孤立数据为异常数据。

104、对标准时序数据集进行特征提取和特征融合，得到待识别特征数据；

服务器对标准时序数据集进行特征提取和特征融合，得到待识别特征数据。其中，对标准时序数据集在时刻轴上进行采样也称为提取特征，其对应的采样值为特征值，特征提取是在分类前对数据时刻采样值上进行归约，减少数据量同时提高分类准确性。特征融合是指将多个特征相互融合成一个特征。

具体的，服务器通过预置算法对标准时序数据集进行特征提取，得到第一特征矢量；服务器对第一特征矢量进行特征融合，得到第二特征矢量；服务器根据预置特征阈值对第一特征矢量和第二特征矢量进行筛选，得到待识别特征数据。

105、通过训练好的模型对待识别特征数据进行预测，得到预测结果，并根据预测结果设置目标标签，将目标标签添加到目标知识图谱中，预测结果用于指示排污异常的目标企业；

服务器通过训练好的模型对待识别特征数据进行预测，得到预测结果，并根据预测结果设置目标标签，服务器将目标标签添加到目标知识图谱中，预测结果用于指示排污异常的目标企业，可以理解的是，根据训练好的模型自动提取待识别特征数据的特征，并根据特征计算对应的权重，根据特征和对应的权重计算得到预测结果，其中，预测结果是一个基于二分类的结果数据，通过训练好的模型判别目标企业属于正常排污还是属于异常排污。

106、根据待识别特征数据和预测结果从目标企业的目标知识图谱中获取判别依据数据，并对排污异常的目标企业发送预警信息，预警信息用于人员按照判别依据数据对目标企业进行检测。

服务器根据待识别特征数据和预测结果从目标企业的目标知识图谱中获取判别依据数据，并对排污异常的目标企业发送预警信息，预警信息用于指示目标监察人员按照判别依据数据对目标企业进行检测。其中，判别依据数据包括生产标准、排污标准以及法律法规依据条款，具体的，服务器根据预测结果确定排污异常的目标企业的唯一标识；服务器根据目标企业的唯一标识确定目标知识图谱；服务器根据待识别特征数据和预测结果从目标知识图谱中读取判别依据数据，判别依据数据包括生产标准、排污标准以及法律法规依据条款；服务器对排污异常的目标企业发送预警信息，预警信息用于指示按照判别依据数据对目标企业进行检测。

可以理解的是，服务器对目标企业发送预警信息后，现场的目标监察人员会依据生产标准、排污标准以及法律法规依据条款对目标企业进行现场勘查，得到勘查结果，勘查结果与预测结果可以一致，也可以不一致。

本申请实施例中，通过结合知识图谱和人工智能技术，实现企业异常排污智能识别，同时通过结论验证，循环改进识别算法，最终达到精准识别企业异常排污行为，高效监管排污企业，提升区域环境质量的目的。

请参阅图2，本申请实施例中基于知识图谱定位排污对象的方法的另一个实施例包括：

201、获取预置结构化数据，并对预置结构化数据进行数据整合，得到第一数据，预置结构化数据包括环保法律法规数据、环境保护行业标准数据以及污水综合排放标准数据；

服务器获取预置结构化数据，并对预置结构化数据进行数据整合，得到第一数据，预置结构化数据包括环保法律法规数据、环境保护行业标准数据以及污水综合排放标准数据。具体的，服务器定期从预置网页中采集环保法律法规数据、环境保护行业标准数据以及污水综合排放标准数据，其中预置网页包括环保部门网页；服务器将环保法律法规数据、环境保护行业标准数据以及污水综合排放标准数据设置为预置结构化数据；服务器对预置结构化数据进行数据整合，得到第一数据。

202、获取目标企业的唯一标识，并根据目标企业的唯一标识读取目标企业的原始信息；

服务器获取目标企业的唯一标识，并根据目标企业的唯一标识读取目标企业的原始信息，该原始信息包括基本信息、排口信息、生产信息、设施信息，监测信息、监管信息以及运行台账。其中，基本信息包括排污许可证、监测因子、排放标准以及排放量，排口信息包括废水排口和废气排口，生产信息包括产品、产能、原料、辅料和燃料，设施信息包括生产设施、废水治理设施和废气治理设施，监测信息包括实时监测数据以及历史监测数据，监管信息包括监察执法信息、信访投诉信息和行政处罚信息，运行台账包括生产设施台账和治理设施台账。

203、通过自然语言处理算法对目标企业的原始信息进行知识抽取，得到第二数据，知识抽取包括实体抽取、关系抽取和属性抽取；

服务器通过自然语言处理算法对目标企业的原始信息进行知识抽取，得到第二数据，知识抽取包括实体抽取、关系抽取和属性抽取。其中第二数据采用三元组进行标识，三元组包括(实体1，关系，实体2)或者(实体、属性，属性值)。自然语言处理算法(neuro-linguistic programming，NLP)包括命名实体识别、句法依存以及实体关系识别。

需要说明的是，三元组包括实体1、关系、实体2、概念、属性、属性值等，其中，实体是知识图谱中的基本元素，不同的实体间存在不同的关系；概念是指集合、类别、对象类型、事物的种类，例如人物或者地理；属性是指对象可能具有的属性、特征、特性、特点以及参数，例如国籍或者生日；属性值是指对象指定属性的值，例如中国。每个实体采用一个全局唯一标识表示，每个属性与属性值对用来表示实体的内在特性，而关系用来连接两个实体并表示属性与关系之间的关联。

204、对第一数据和第二数据进行知识融合，知识融合包括本体对齐、实体链接以及数据融合；

服务器对第一数据和第二数据进行知识融合，知识融合包括本体对齐、实体链接以及数据融合。由于知识图谱中的知识来源广泛，存在知识质量良莠不齐、来自不同数据源的知识重复、知识间的关联不够明确等问题，所以必须要进行知识的融合。知识融合是高层次的知识组织，使来自不同知识源的知识在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新步骤，达到数据、信息、方法、经验以及人的思想的融合，形成高质量的知识库。

205、通过预设的企业画像标签模型对知识融合后的数据进行匹配处理，得到目标企业的标签数据，标签数据采用三元组形式表示；

服务器通过预设的企业画像标签模型对知识融合后的数据进行匹配处理，得到目标企业的标签数据，标签数据采用三元组形式表示。进一步地，服务器将知识融合后的数据输入到预设的企业画像标签模型中，服务器通过预设的企业画像标签模型中的元素对知识融合后的数据进行匹配处理，得到知识融合后的数据的对应分类；服务器根据知识融合后的数据的对应分类确定目标企业的标签数据，标签数据采用三元组形式表示。其中，一个标签数据一般由一个三元组的集合表示，其中，三元组(a，b，c)表示目标企业a给排污行为b打上了c标签。

206、根据目标企业的标签数据生成目标企业的目标知识图谱，并将目标知识图谱存储到预置图数据库中；

服务器根据目标企业的标签数据生成目标企业的目标知识图谱，并将目标知识图谱存储到预置图数据库中。可以理解的是，构建重点行业的知识图谱主要是通过分析重点行业的特征，构建本行业内的生产标准，排污标准，以及法律法规标准。

207、在预置时长内对目标企业进行排污监测，得到排污监测数据；

服务器在预置时长内对目标企业进行监测，得到排污监测数据，其中，排污监测数据具有时序性，也就是同一现象在不同时刻上的连续监测值排列而成的一组数字序列，数字序列具有规律性。预置时长为预设一段时长，比如7天。进一步地，服务器通过预置设备在预置时长内采集目标企业的排污监测数据。

208、对排污监测数据进行预处理，得到标准时序数据集；

209、对标准时序数据集进行特征提取和特征融合，得到待识别特征数据；

服务器对标准时序数据集进行特征提取和特征融合，得到待识别特征数据。其中，特征提取就是将已有特征生成一个较低维数的特征空间，将原始特征中的相关信息映射到少数几个特征上，并将不相关信息丢弃。

具体的，首先，服务器根据预置算法对标准时序数据集进行特征提取，得到第一特征矢量，标准时序数据集包括平稳序列数据和非平稳序列数据。其中，预置算法包括统计特征提取算法、神经网络特征提取算法以及变换特征提取算法。可选的，当检测到标准时序数据集中存在非平稳序列数据时，服务器对非平稳序列数据进行差分运算，也就是差分预处理，得到平稳序列数据；服务器采用自回归滑动平均模型对平稳序列数据进行拟合，得到模型系数，将模型系数设置为第一特征矢量。

其次，服务器对第一特征矢量进行特征融合，得到第二特征矢量，进一步地，服务器根据预置特征融合算法将两个或两个以上的第一特征矢量组合成为第二特征矢量，其中，预置特征融合算法包括基于贝叶斯理论的特征融合算法。可以理解的是，融合多个第一特征矢量通常比第一特征矢量具有更好的分类性能，同时融合的多种第一特征矢量之间相关性较小。

最后，服务器根据预置阈值对第一特征矢量和第二特征矢量进行筛选，得到待识别特征数据。进一步地，服务器设置预置特征阈值；服务器选择卡方检验算法对第一特征矢量和第二特征矢量进行计算，得到特征校验值；服务器对特征校验值大于预置特征阈值的第一特征矢量和第二特征矢量进行筛选，得到待识别特征数据。例如，服务器为斜率均值设置预置特征阈值A，服务器将斜率均值大于预置特征阈值A的第一特征矢量和第二特征矢量设置为待识别特征数据。

210、通过训练好的模型对待识别特征数据进行预测，得到预测结果，并根据预测结果设置目标标签，将目标标签添加到目标知识图谱中，预测结果用于指示排污异常的目标企业；

具体的，服务器通过训练好的模型对待识别特征数据按照预置规则进行标注，预置规则用于指示对待识别特征数据进行二分类标注类别，其中，二分类标注类别用于区分待识别特征数据属于正常排放指标数据，还是属于异常排放指标数据。待识别特征数据包括对异常数据比较敏感的指标数据。进一步地，服务器基于标注的待识别特征数据判断目标企业是否排污异常，得到预测结果，并基于预测结果设置目标标签。例如，服务器标注预置特征阈值A为“突变频繁”标签，也就是目标标签，并将目标标签添加到目标知识图谱中。

可选的，服务器从预置训练样本集中选取待训练的样本数据和测试数据；服务器采用待训练的样本数据对预设的学习模型进行迭代训练，得到已训练的模型，预置模型包括随机森林模型和神经网络模型；服务器采用测试数据对已训练的模型进行测试，得到训练好的模型。

进一步地，服务器从待训练的样本数据中随机抽取N个样本子集，生成N个决策树；服务器在每一个节点随机抽取m小于M个变量，得到分割该节点的候选变量，每一个节点处的变量数量相同。M为预置常量；服务器根据M个决策树生成随机森林模型,并对生成的随机森林模型进行二次训练，得到已训练的模型，二次训练用于优化不同的决策树每个节点的权重。其中，终端节点的所属类别由节点对应的众数类别决定，对于新类别的样本数据，服务器采用所有的决策树对其分类，其类别由多数原则生成。

211、根据待识别特征数据和预测结果从目标企业的目标知识图谱中获取判别依据数据，并对排污异常的目标企业发送预警信息，预警信息用于按照判别依据数据对目标企业进行检测。

服务器根据待识别特征数据和预测结果从目标企业的目标知识图谱中获取判别依据数据，并对排污异常的目标企业发送预警信息，预警信息用于指示按照判别依据数据对目标企业进行检测。其中，判别依据数据包括生产标准、排污标准以及法律法规依据条款，具体的，服务器根据预测结果确定排污异常的目标企业的唯一标识；服务器根据目标企业的唯一标识确定目标知识图谱；服务器根据待识别特征数据和预测结果从目标知识图谱中读取判别依据数据，判别依据数据包括生产标准、排污标准以及法律法规依据条款；服务器对排污异常的目标企业发送预警信息，预警信息用于指示按照判别依据数据对目标企业进行检测。

需要说明的是，服务器对目标企业发送预警信息后，现场的目标监察人员会依据生产标准、排污标准以及法律法规依据条款对目标企业进行现场勘查，得到勘查结果，勘查结果与预测结果可以一致，也可以不一致。例如，预测结果为A企业，但是勘察结果确定不是A企业，那么勘查结果与预测结果不一致。

可选的，服务器获取返回的勘查结果，并将返回的勘查结果与预测结果进行比较；若返回的勘查结果与识别理结果不一致时，服务器将待识别特征数据进行重新标注，并设置为新的样本数据；服务器根据新的样本数据对训练好的模型进行迭代训练；服务器根据新的样本数据更新目标标签。

可以理解的是，当勘查结果与预测结果不一致时，将新的监测数据更新迭代训练好的模型，使得训练好的模型对监测数据的预测结果更准确。

上面对本申请实施例中基于知识图谱定位排污对象的方法进行了描述，下面对本申请实施例中基于知识图谱定位排污对象的装置进行描述，请参阅图3，本申请实施例中基于知识图谱定位排污对象的装置的一个实施例包括：

抽取单元301，用于通过自然语言处理算法对预置数据抽取三元组，并将三元组存储到预置图数据库中，得到目标知识图谱，目标知识图谱用于指示目标企业的生产标准、排污标准以及法律法规依据条款；

监测单元302，用于在预置时长内对目标企业进行排污监测，得到排污监测数据；

预处理单元303，用于对排污监测数据进行预处理，得到标准时序数据集；

提取融合单元304，用于对标准时序数据集进行特征提取和特征融合，得到待识别特征数据；

预测单元305，用于通过训练好的模型对待识别特征数据进行预测，得到预测结果，并根据预测结果设置目标标签，将目标标签添加到目标知识图谱中，预测结果用于指示排污异常的目标企业；

判别预警单元306，用于根据待识别特征数据和预测结果从目标企业的目标知识图谱中获取判别依据数据，并对排污异常的目标企业发送预警信息，预警信息用于按照判别依据数据对目标企业进行检测。

请参阅图4，本申请实施例中基于知识图谱定位排污对象的装置的另一个实施例包括：

可选的，抽取单元301还可以具体用于：

获取预置结构化数据，并对预置结构化数据进行数据整合，得到第一数据，预置结构化数据包括环保法律法规数据、环境保护行业标准数据以及污水综合排放标准数据；

获取目标企业的唯一标识，并根据目标企业的唯一标识读取目标企业的原始信息；

通过自然语言处理算法对目标企业的原始信息进行知识抽取，得到第二数据，知识抽取包括实体抽取、关系抽取和属性抽取；

对第一数据和第二数据进行知识融合，知识融合包括本体对齐、实体链接以及数据融合；

通过预设的企业画像标签模型对知识融合后的数据进行匹配处理，得到目标企业的标签数据，标签数据采用三元组形式表示；

根据目标企业的标签数据生成目标企业的目标知识图谱，并将目标知识图谱存储到预置图数据库中。

可选的，提取融合单元304还可以进一步包括：

提取子单元3041，用于通过预置算法对标准时序数据集进行特征提取，得到第一特征矢量，标准时序数据集包括平稳序列数据和非平稳序列数据；

融合子单元3042，用于对第一特征矢量进行特征融合，得到第二特征矢量；

筛选子单元3043，用于根据预置特征阈值对第一特征矢量和第二特征矢量进行筛选，得到待识别特征数据。

可选的，提取子单元3041还可以具体用于：

当检测到标准时序数据集中存在非平稳序列数据时，对非平稳序列数据进行差分运算，得到平稳序列数据；

采用自回归滑动平均模型对平稳序列数据进行拟合，得到模型系数，将模型系数设置为第一特征矢量。

可选的，筛选子单元3043还可以具体用于：

通过卡方检验算法对第一特征矢量和第二特征矢量进行计算，得到特征校验值；

对特征校验值大于预置特征阈值的第一特征矢量和第二特征矢量进行筛选，得到待识别特征数据。

可选的，基于知识图谱定位排污对象的装置还包括：

选取单元307，用于从预置训练样本集中选取待训练的样本数据和测试数据；

第一训练单元308，用于采用待训练的样本数据对预置模型进行迭代训练，得到已训练的模型，预置模型包括随机森林模型和神经网络模型；

测试单元309，用于采用测试数据对已训练的模型进行测试，得到训练好的模型。

可选的，基于知识图谱定位排污对象的装置还包括：

判断单元310，用于获取返回的勘查结果，并判断返回的勘查结果与预测结果是否一致；

标注单元311，若返回的勘查结果与预测结果不一致，则用于将待识别特征数据进行重新标注，并设置为新的样本数据；

第二训练单元312，用于根据新的样本数据对训练好的模型进行迭代训练；

更新单元313，用于根据新的样本数据更新目标标签。

上面图3和图4从模块化功能实体的角度对本申请实施例中的基于知识图谱定位排污对象的装置进行详细描述，下面从硬件处理的角度对本申请实施例中基于知识图谱定位排污对象的设备进行详细描述。

图5是本申请实施例提供的一种基于知识图谱定位排污对象的设备的结构示意图，该基于知识图谱定位排污对象的设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)501(例如，一个或一个以上处理器)和存储器509，一个或一个以上存储应用程序507或数据506的存储介质508(例如一个或一个以上海量存储设备)。其中，存储器509和存储介质508可以是短暂存储或持久存储。存储在存储介质508的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对基于知识图谱定位排污对象的设备中的一系列指令操作。更进一步地，处理器501可以设置为与存储介质508通信，在基于知识图谱定位排污对象的设备500上执行存储介质508中的一系列指令操作。

基于知识图谱定位排污对象的设备500还可以包括一个或一个以上电源502，一个或一个以上有线或无线网络接口503，一个或一个以上输入输出接口504，和/或，一个或一个以上操作系统505，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5中示出的基于知识图谱定位排污对象的设备结构并不构成对基于知识图谱定位排污对象的设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本申请还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，也可以为易失性计算机可读存储介质。计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如下步骤：

通过自然语言处理算法对预置数据抽取三元组，并将所述三元组存储到预置图数据库中，得到目标知识图谱，所述目标知识图谱用于指示目标企业的生产标准、排污标准以及法律法规依据条款；在预置时长内对所述目标企业进行排污监测，得到排污监测数据；对所述排污监测数据进行预处理，得到标准时序数据集；对所述标准时序数据集进行特征提取和特征融合，得到待识别特征数据；训练好的模型对所述待识别特征数据进行预测，得到预测结果，并根据所述预测结果设置目标标签，将所述目标标签添加到所述目标知识图谱中，所述预测结果用于指示排污异常的目标企业；根据所述待识别特征数据和所述预测结果从所述目标企业的目标知识图谱中获取判别依据数据，并对所述排污异常的目标企业发送预警信息，所述预警信息用于按照所述判别依据数据对所述目标企业进行检测。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种基于知识图谱定位排污对象的方法，其中，所述基于知识图谱定位排污对象的方法包括：

通过自然语言处理算法对预置数据抽取三元组，并将所述三元组存储到预置图数据库中，得到目标知识图谱，所述目标知识图谱用于指示目标企业的生产标准、排污标准以及法律法规依据条款；

在预置时长内对所述目标企业进行排污监测，得到排污监测数据；

对所述排污监测数据进行预处理，得到标准时序数据集；

对所述标准时序数据集进行特征提取和特征融合，得到待识别特征数据；

通过训练好的模型对所述待识别特征数据进行预测，得到预测结果，并根据所述预测结果设置目标标签，将所述目标标签添加到所述目标知识图谱中，所述预测结果用于指示排污异常的目标企业；

根据所述待识别特征数据和所述预测结果从所述目标企业的目标知识图谱中获取判别依据数据，并对所述排污异常的目标企业发送预警信息，所述预警信息用于按照所述判别依据数据对所述目标企业进行检测。
根据权利要求1所述的基于知识图谱定位排污对象的方法，其中，所述通过自然语言处理算法对预置数据抽取三元组，并将所述三元组存储到预置图数据库中，得到目标知识图谱，所述目标知识图谱用于指示目标企业的生产标准、排污标准以及法律法规依据条款，包括：

获取预置结构化数据，并对所述预置结构化数据进行数据整合，得到第一数据，所述预置结构化数据包括环保法律法规数据、环境保护行业标准数据以及污水综合排放标准数据；

获取目标企业的唯一标识，并根据所述目标企业的唯一标识读取所述目标企业的原始信息；

通过自然语言处理算法对所述目标企业的原始信息进行知识抽取，得到第二数据，所述知识抽取包括实体抽取、关系抽取和属性抽取；

对所述第一数据和所述第二数据进行知识融合，所述知识融合包括本体对齐、实体链接以及数据融合；

通过预设的企业画像标签模型对知识融合后的数据进行匹配处理，得到所述目标企业的标签数据，所述标签数据采用三元组形式表示；

根据所述目标企业的标签数据生成所述目标企业的目标知识图谱，并将所述目标知识图谱存储到预置图数据库中。
根据权利要求1所述的基于知识图谱定位排污对象的方法，其中，所述对所述标准时序数据集进行特征提取和特征融合，得到待识别特征数据，包括：

通过预置算法对所述标准时序数据集进行特征提取，得到第一特征矢量，所述标准时序数据集包括平稳序列数据和非平稳序列数据；

对所述第一特征矢量进行特征融合，得到第二特征矢量；

根据预置特征阈值对所述第一特征矢量和所述第二特征矢量进行筛选，得到待识别特征数据。
根据权利要求3所述的基于知识图谱定位排污对象的方法，其中，所述通过预置算法对所述标准时序数据集进行特征提取，得到第一特征矢量，所述标准时序数据集包括平稳序列数据和非平稳序列数据，包括：

当检测到所述标准时序数据集中存在非平稳序列数据时，对所述非平稳序列数据进行差分运算，得到平稳序列数据；

采用自回归滑动平均模型对所述平稳序列数据进行拟合，得到模型系数，将模型系数设置为第一特征矢量。
根据权利要求3所述的基于知识图谱定位排污对象的方法，其中，所述根据预置特征阈值对所述第一特征矢量和所述第二特征矢量进行筛选，得到待识别特征数据，包括：

通过卡方检验算法对所述第一特征矢量和所述第二特征矢量进行计算，得到特征校验值；

对所述特征校验值大于所述预置特征阈值的所述第一特征矢量和所述第二特征矢量进行筛选，得到待识别特征数据。
根据权利要求1所述的基于知识图谱定位排污对象的方法，其中，所述通过自然语言处理算法对预置数据抽取三元组，并将所述三元组存储到预置图数据库中，得到目标知识图谱，所述目标知识图谱用于指示目标企业的生产标准、排污标准以及法律法规依据条款之前，所述基于知识图谱定位排污对象的方法还包括：

从预置训练样本集中选取待训练的样本数据和测试数据；

采用所述待训练的样本数据对预置模型进行迭代训练，得到已训练的模型，所述预置模型包括随机森林模型和神经网络模型；

采用所述测试数据对所述已训练的模型进行测试，得到训练好的模型。
根据权利要求1-6中任一项所述的基于知识图谱定位排污对象的方法，其中，所述根据所述待识别特征数据和所述预测结果从所述目标企业的目标知识图谱中获取判别依据数据，并对所述排污异常的目标企业发送预警信息，所述预警信息用于按照所述判别依据数据对所述目标企业进行检测之后，所述基于知识图谱定位排污对象的方法还包括：

获取返回的勘查结果，并判断所述返回的勘查结果与所述预测结果是否一致；

若所述返回的勘查结果与所述预测结果不一致，则将所述待识别特征数据进行重新标注，并设置为新的样本数据；

根据所述新的样本数据对所述训练好的模型进行迭代训练；

根据所述新的样本数据更新所述目标标签。
一种基于知识图谱定位排污对象的设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

通过自然语言处理算法对预置数据抽取三元组，并将所述三元组存储到预置图数据库中，得到目标知识图谱，所述目标知识图谱用于指示目标企业的生产标准、排污标准以及法律法规依据条款；

在预置时长内对所述目标企业进行排污监测，得到排污监测数据；

对所述排污监测数据进行预处理，得到标准时序数据集；

对所述标准时序数据集进行特征提取和特征融合，得到待识别特征数据；

通过训练好的模型对所述待识别特征数据进行预测，得到预测结果，并根据所述预测结果设置目标标签，将所述目标标签添加到所述目标知识图谱中，所述预测结果用于指示排污异常的目标企业；

根据所述待识别特征数据和所述预测结果从所述目标企业的目标知识图谱中获取判别依据数据，并对所述排污异常的目标企业发送预警信息，所述预警信息用于按照所述判别依据数据对所述目标企业进行检测。
根据权利要求8所述的基于知识图谱定位排污对象的设备，其中，所述处理器执行所述计算机可读指令实现所述通过自然语言处理算法对预置数据抽取三元组，并将所述三元组存储到预置图数据库中，得到目标知识图谱，所述目标知识图谱用于指示目标企业的生产标准、排污标准以及法律法规依据条款时，包括以下步骤：

获取预置结构化数据，并对所述预置结构化数据进行数据整合，得到第一数据，所述预置结构化数据包括环保法律法规数据、环境保护行业标准数据以及污水综合排放标准数据；

获取目标企业的唯一标识，并根据所述目标企业的唯一标识读取所述目标企业的原始信息；

通过自然语言处理算法对所述目标企业的原始信息进行知识抽取，得到第二数据，所述知识抽取包括实体抽取、关系抽取和属性抽取；

对所述第一数据和所述第二数据进行知识融合，所述知识融合包括本体对齐、实体链接以及数据融合；

通过预设的企业画像标签模型对知识融合后的数据进行匹配处理，得到所述目标企业的标签数据，所述标签数据采用三元组形式表示；

根据所述目标企业的标签数据生成所述目标企业的目标知识图谱，并将所述目标知识图谱存储到预置图数据库中。
根据权利要求8所述的基于知识图谱定位排污对象的设备，其中，所述处理器执行所述计算机可读指令实现所述对所述标准时序数据集进行特征提取和特征融合，得到待识别特征数据时，包括以下步骤：

通过预置算法对所述标准时序数据集进行特征提取，得到第一特征矢量，所述标准时序数据集包括平稳序列数据和非平稳序列数据；

对所述第一特征矢量进行特征融合，得到第二特征矢量；

根据预置特征阈值对所述第一特征矢量和所述第二特征矢量进行筛选，得到待识别特征数据。
根据权利要求10所述的基于知识图谱定位排污对象的设备，其中，所述处理器执行所述计算机可读指令实现所述通过预置算法对所述标准时序数据集进行特征提取，得到第一特征矢量，所述标准时序数据集包括平稳序列数据和非平稳序列数据时，包括以下步骤：

当检测到所述标准时序数据集中存在非平稳序列数据时，对所述非平稳序列数据进行差分运算，得到平稳序列数据；

采用自回归滑动平均模型对所述平稳序列数据进行拟合，得到模型系数，将模型系数设置为第一特征矢量。
根据权利要求10所述的基于知识图谱定位排污对象的设备，其中，所述处理器执行所述计算机可读指令实现所述根据预置特征阈值对所述第一特征矢量和所述第二特征矢量进行筛选，得到待识别特征数据时，包括以下步骤：

通过卡方检验算法对所述第一特征矢量和所述第二特征矢量进行计算，得到特征校验值；

对所述特征校验值大于所述预置特征阈值的所述第一特征矢量和所述第二特征矢量进行筛选，得到待识别特征数据。
根据权利要求8所述的基于知识图谱定位排污对象的设备，其中，所述处理器执行所述计算机可读指令实现所述通过自然语言处理算法对预置数据抽取三元组，并将所述三元组存储到预置图数据库中，得到目标知识图谱，所述目标知识图谱用于指示目标企业的生产标准、排污标准以及法律法规依据条款之前时，还包括以下步骤：

从预置训练样本集中选取待训练的样本数据和测试数据；

采用所述待训练的样本数据对预置模型进行迭代训练，得到已训练的模型，所述预置模型包括随机森林模型和神经网络模型；

采用所述测试数据对所述已训练的模型进行测试，得到训练好的模型。
根据权利要求8-13中任一项所述的基于知识图谱定位排污对象的设备，所述处理器执行所述计算机可读指令实现所述根据所述待识别特征数据和所述预测结果从所述目标企业的目标知识图谱中获取判别依据数据，并对所述排污异常的目标企业发送预警信息，所述预警信息用于按照所述判别依据数据对所述目标企业进行检测之后时，包括以下步骤：

获取返回的勘查结果，并判断所述返回的勘查结果与所述预测结果是否一致；

若所述返回的勘查结果与所述预测结果不一致，则将所述待识别特征数据进行重新标注，并设置为新的样本数据；

根据所述新的样本数据对所述训练好的模型进行迭代训练；

根据所述新的样本数据更新所述目标标签。
一种计算机可读存储介质，所述计算机可读存储介质中存储计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如下步骤：

通过自然语言处理算法对预置数据抽取三元组，并将所述三元组存储到预置图数据库中，得到目标知识图谱，所述目标知识图谱用于指示目标企业的生产标准、排污标准以及法律法规依据条款；

在预置时长内对所述目标企业进行排污监测，得到排污监测数据；

对所述排污监测数据进行预处理，得到标准时序数据集；

对所述标准时序数据集进行特征提取和特征融合，得到待识别特征数据；

通过训练好的模型对所述待识别特征数据进行预测，得到预测结果，并根据所述预测结果设置目标标签，将所述目标标签添加到所述目标知识图谱中，所述预测结果用于指示排污异常的目标企业；

根据所述待识别特征数据和所述预测结果从所述目标企业的目标知识图谱中获取判别依据数据，并对所述排污异常的目标企业发送预警信息，所述预警信息用于按照所述判别依据数据对所述目标企业进行检测。
根据权利要求15所述的计算机可读存储介质，当所述计算机指令在计算机上运行时，使得计算机还执行以下步骤：

获取预置结构化数据，并对所述预置结构化数据进行数据整合，得到第一数据，所述预置结构化数据包括环保法律法规数据、环境保护行业标准数据以及污水综合排放标准数据；

获取目标企业的唯一标识，并根据所述目标企业的唯一标识读取所述目标企业的原始信息；

通过自然语言处理算法对所述目标企业的原始信息进行知识抽取，得到第二数据，所述知识抽取包括实体抽取、关系抽取和属性抽取；

对所述第一数据和所述第二数据进行知识融合，所述知识融合包括本体对齐、实体链接以及数据融合；

通过预设的企业画像标签模型对知识融合后的数据进行匹配处理，得到所述目标企业的标签数据，所述标签数据采用三元组形式表示；

根据所述目标企业的标签数据生成所述目标企业的目标知识图谱，并将所述目标知识图谱存储到预置图数据库中。
根据权利要求15所述的计算机可读存储介质，当所述计算机指令在计算机上运行时，使得计算机还执行以下步骤：

通过预置算法对所述标准时序数据集进行特征提取，得到第一特征矢量，所述标准时序数据集包括平稳序列数据和非平稳序列数据；

对所述第一特征矢量进行特征融合，得到第二特征矢量；

根据预置特征阈值对所述第一特征矢量和所述第二特征矢量进行筛选，得到待识别特征数据。
根据权利要求17所述的计算机可读存储介质，当所述计算机指令在计算机上运行时，使得计算机还执行以下步骤：

当检测到所述标准时序数据集中存在非平稳序列数据时，对所述非平稳序列数据进行差分运算，得到平稳序列数据；

采用自回归滑动平均模型对所述平稳序列数据进行拟合，得到模型系数，将模型系数设置为第一特征矢量。
根据权利要求17所述的计算机可读存储介质，当所述计算机指令在计算机上运行时，使得计算机还执行以下步骤：

通过卡方检验算法对所述第一特征矢量和所述第二特征矢量进行计算，得到特征校验值；

对所述特征校验值大于所述预置特征阈值的所述第一特征矢量和所述第二特征矢量进行筛选，得到待识别特征数据。
一种基于知识图谱定位排污对象的装置，其中，所述基于知识图谱定位排污对象的装置包括：

抽取单元，用于通过自然语言处理算法对预置数据抽取三元组，并将所述三元组存储到预置图数据库中，得到目标知识图谱，所述目标知识图谱用于指示目标企业的生产标准、排污标准以及法律法规依据条款；

监测单元，用于在预置时长内对所述目标企业进行排污监测，得到排污监测数据；

预处理单元，用于对所述排污监测数据进行预处理，得到标准时序数据集；

提取融合单元，用于对所述标准时序数据集进行特征提取和特征融合，得到待识别特征数据；

预测单元，用于通过训练好的模型对所述待识别特征数据进行预测，得到预测结果，并根据所述预测结果设置目标标签，将所述目标标签添加到所述目标知识图谱中，所述预测结果用于指示排污异常的目标企业；

判别预警单元，用于根据所述待识别特征数据和所述预测结果从所述目标企业的目标知识图谱中获取判别依据数据，并对所述排污异常的目标企业发送预警信息，所述预警信息用于按照所述判别依据数据对所述目标企业进行检测。