WO2024065952A1

WO2024065952A1 - 一种遥感卫星资讯推荐方法、系统及设备

Info

Publication number: WO2024065952A1
Application number: PCT/CN2022/129937
Authority: WO
Inventors: 玉龙飞雪; 万伟; 王冠珠; 唐珂; 黄涛; 王浩天; 李辉; 刘国栋; 乔亦实; 闫大鹏; 张帅
Original assignee: 中国四维测绘技术有限公司
Priority date: 2022-09-30
Filing date: 2022-11-04
Publication date: 2024-04-04
Also published as: CN115640458A

Abstract

本发明涉及一种遥感卫星资讯推荐方法、系统及设备，包括：采集卫星资讯文本并进行初步处理，将资讯文本组织为预设的数据存储结构并存储；对存储的资讯文本进行智能标签匹配，得到带有标签及置信度的卫星资讯；利用上述带有标签及置信度的卫星资讯，构建卫星知识图谱；根据用户的查询内容，对上述存储的卫星资讯进行初步召回；基于构建的卫星知识图谱，挖掘上述召回资讯结果的关联资讯，作为推荐候选资讯集；对上述推荐候选资讯集中的候选资讯进行相关性评测，根据评测结果进行最终推荐。

Description

一种遥感卫星资讯推荐方法、系统及设备

本申请要求于2022年9月30日提交中国专利局、申请号为202211216697.7、发明名称为“一种遥感卫星资讯推荐方法、系统及设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明专利涉及智能推荐技术领域，具体为一种遥感卫星资讯的推荐方法、系统架构、装置、设备及存储介质。

背景技术

随着卫星遥感技术的迅猛发展，全球进入了一个对地观测的新时代。遥感卫星发射数量整体不断增加，商用遥感卫星比例逐渐提高，基于卫星遥感数据的商业化应用层出不穷，取得了巨大的社会经济效益。同时，互联网的蓬勃发展，遥感卫星相关信息量大幅增长。在海量的资讯中快速定位符合用户需求的有效信息，并进一步对目标信息进行深度挖掘、关联分析以及趋势研究，对于卫星遥感领域的国家战略、行业研究、商业分析等应用具有重要意义。

一方面，遥感卫星行业范围广，相关资讯涉及到遥感卫星制造、卫星发射服务、地面设备制造、遥感卫星运营、遥感卫星应用服务等多个环节。另一方面，遥感卫星信息专业化程度高，获取遥感卫星情报需要具备专业领域的知识。目前常用的推荐方法有基于关键词推荐和基于用户行为推荐，其中基于关键词的检索推荐，由于上下文语义信息缺失，割裂了数据的关联性，使得召回的遥感卫星信息效果不佳，信息利用率不高；基于用户行为的推荐算法，经常会受到用户与对象之间的行为关系数据的稀疏性影响，同时新用户或者新物品进行推荐时存在的冷启动问题也会导致推荐效果不佳。

知识图谱本质上一种语义网络，其中蕴含着大量实体与实体之间的关系。通过构建关于商业遥感卫星资讯的图谱信息，并将资讯标签映射为知识图谱的实体，一定程度上弥补了标签之间潜在的语义关联信息的丢失，这样可以有效解决数据稀疏的问题，以提高系统性能和推荐效果。

发明内容

本发明解决的技术问题是：为解决上述存在的问题，本发明提供一种遥感卫星资讯的智能推荐方法、系统及设备。

本发明解决技术的方案是：一种遥感卫星资讯推荐方法，包括：

采集卫星资讯文本并进行初步处理，将资讯文本组织为预设的数据存储结构并存储；

对存储的资讯文本进行智能标签匹配，得到带有标签及置信度的卫星资讯；

利用上述带有标签及置信度的卫星资讯，构建卫星知识图谱；

根据用户的查询内容，对上述存储的卫星资讯进行初步召回；

基于构建的卫星知识图谱，挖掘上述召回资讯结果的关联资讯，作为推荐候选资讯集；

对上述推荐候选资讯集中的候选资讯进行相关性评测，根据评测结果进行最终推荐。

优选的，所述系统所述初步处理包括：

从新闻网站、遥感卫星运营商官网以及各国航天政府机构网站进行多线程爬取，获取卫星资讯的原始文本信息；

选择检索引擎作为卫星资讯的存储组件；

通过抽取、转换清洗、加载流程对原始文本信息进行处理，将资讯文本组织为预设的数据存储结构并存储至上述检索引擎。

优选的，所述系统所述的检索引擎选择ES全文检索引擎，全文检索引擎以集群的方式进行部署。

优选的，所述系统得到带有标签及置信度的卫星资讯包括：

提取检索引擎中遥感卫星领域的关键词作为标签，形成卫星资讯标签库；

设计可配置的智能标签匹配模型，所述匹配模型概括不同特征的标签对资讯文本的匹配逻辑，并能计算得到标签于资讯文本的匹配置信度；

利用所述智能标签匹配模型对存储的资讯文本进行智能标签匹配，得到带有标签及置信度的卫星资讯。

优选的，所述系统所述可配置的智能标签匹配模型包括标签匹配策略、标签匹配模式、结果置信度计算模式三部分；

所述的标签匹配策略中存储预先设计的多个匹配策略；

所述标签匹配模式用于根据需求从标签匹配策略中选择不同的匹配策略组成单策略模式或组合匹配模式；

所述结果置信度计算模式中存储不同的置信度计算模式。

优选的，所述系统所述匹配策略包括正则标签匹配策略、文本相似度标签匹配策略、深度学习标签匹配策略；

所述正则标签匹配策略适用于遥感卫星领域的专业词组或固定表达构成的标签匹配；

所述文本相似度标签匹配策略用于使用资讯与标准表述的文本相似度来判断是否满足标签匹配，所述标准为参考标准，是标签特征设计的概括性表述；

所述深度学习标签匹配策略以资讯文本作为输入，标签匹配得分作为输出进行网络训练；网络输出的得分超过设置的阈值，则认为标签匹配，得分作为置信度。

优选的，所述系统通过最大通用性的表设计方式，将智能标签匹配模型的配置方式存放在MySQL数据库中，保证智能标签匹配模型的开闭原则，使匹配策略能够进行灵活快速地迭代。

优选的，所述系统最大通用型的表设计内容包括：

设计验证阶段：卫星资讯文本数量小于500，匹配策略和标签匹配模式为：正则匹配策略或文本相似度匹配策略的单策略模式；结果置信度计算模式为直接使用单一策略的置信度结果作为模型的最终置信度结果；

开发实施阶段：卫星资讯文本数量500-2000，匹配策略和标签匹配模式为：正则匹配+深度学习标签匹配策略；或者文本相似度+深度学习标签匹配策略的组合策略模式；结果置信度计算模式为求取不同策略置信度结果的平均值作为模型的最终置信度结果；

试运行阶段：卫星资讯文本数量2000-5000时，匹配策略和标签匹配模式为：正则匹配+深度学习标签匹配策略；或者文本相似度+深度学习标签匹配策略的组合策略模式；结果置信度计算模式为求取不同策略置信度结果的加权平均值作为模型的最终置信度结果；

运行阶段：卫星资讯文本数量大于5000时，匹配策略和标签匹配模式为：深度学习标签匹配策略的单策略模式，结果置信度计算模式为直接使用单一策略的置信度结果作为模型的最终置信度结果。

优选的，所述系统对匹配结果进行人工校验，其中，设计验证阶段以及开发实施阶段均辅以人工全校验；试运行阶段辅以人工定期抽样校验；运行阶段辅以人工不定期抽样校验。

优选的，所述系统开发实施阶段，资讯每增加预设的篇幅，深度学习网络迭代更新一次，整个开发实施阶段，更新次数为10-20次。

优选的，所述系统深度学习网络由嵌入层、2层双向LSTM层、3层全连接层构成；以资讯文本作为输入，标签匹配得分作为输出进行网络训练；网络输出的得分超过设置的阈值，则认为标签匹配，得分作为置信度。

优选的，所述系统所述构建卫星知识图谱包括：

将卫星资讯标签库的每一个标签以标签实体的形式，存入图数据库；

将资讯文本以资讯实体的形式，存入图数据库；

建立资讯实体与标签实体之间的关系，即匹配关系；

使用知识图谱抽取工具从资讯实体的文本属性中，抽取的遥感卫星相关知识实体、关系、属性；

使用知识图谱融合工具对上述得到的实体进行融合对齐；

将上述抽取融合后的实体、关系、属性批量存入图数据库，完成遥感卫星知识领域的知识图谱构建。

优选的，所述系统通过构建图谱增强型语义分析网络，对上述候选资讯进行相关性评测。

优选的，所述系统所述图谱增强型语义分析网络包括上下文特征分析网络、标签特征分析网络、图谱特征分析网络；

所述上下文特征分析网络于抽象和分析资讯文本本身的语义特征信息；

所述标签特征分析网络用于提取抽象和分析标签特征信息；

所述图谱特征分析网络用于提取抽象和分析图谱特征信息。

优选的，所述系统所述相关性评测包括：

S1、对当前资讯文本和推荐候选资讯集中的候选资讯文本分别执行如下处理：

利用上下文特征分析网络将资讯文本经过语句随机采样，随机生成待分析文本集合，并映射为低维空间中的句向量，形成上下文特征矩阵，从所述上下文特征矩阵中进一步抽象文本上下文特征；

利用标签特征分析网络将资讯文本的标签实体进行向量化，乘以标签的置信度信息，组成标签特征矩阵；对所述标签特征矩阵进行进一步特征抽象；

利用图谱特征分析网络将资讯文本的非标签实体作为相对深度的隐藏关联信息载体，映射到低维空间形成实体/关系向量，组成图嵌入特征矩阵，对所述图嵌入特征矩阵进行进一步图谱特征的提取抽象；

S2、将S1中针对每个候选资讯文本的处理结果分别与当前资讯文本的处理结果进行链接后，再通过全连接网络，最后输出表征两篇文本的关联程度的输出评测结果；

上述两篇文本为当前资讯文本与推荐候选资讯集中的每篇候选资讯文本，当前资讯文本为用户从初步召回的卫星资讯中点开的一篇资讯文本。

一种遥感卫星资讯推荐系统，包括卫星资讯采集及存储模块、卫星资讯标签智能匹配模块、遥感卫星领域知识图谱构建模块、卫星资讯查询推荐模块；

所述卫星资讯采集及存储模块，用于采集卫星资讯文本并进行初步处理，将资讯文本组织为预设的数据存储结构并存储；

所述卫星资讯标签智能匹配模块，用于对存储的资讯文本进行智能标签匹配，得到带有标签及置信度的卫星资讯；

所述遥感卫星领域知识图谱构建模块，用于利用上述带有标签及置信度的卫星资讯，构建卫星知识图谱；

所述卫星资讯查询推荐模块，根据输入的查询内容，对卫星资讯采集及存储模块存储的卫星资讯进行初步召回；基于构建的卫星知识图谱，挖掘上述召回资讯结果的关联资讯，作为推荐候选资讯集；对上述推荐候选资讯集中的候选资讯进行相关性评测，根据评测结果进行最终推荐。

优选的，所述系统还包括资讯检索接口，用户通过该接口进行标签筛选、关键词查询或者时间范围查询，查询内容输入至卫星资讯查询推荐模块。

优选的，所述系统还包括资讯详情接口，用户通过该接口查看资讯详情信息，用户查看的资讯作为当前资讯文本，资讯详情接口同时返回当前资讯文档的推荐结果。

优选的，所述系统还包括卫星资讯统计报告生成模块以及统计报告管理接口；

用户通过统计报告管理接口上传、修改、删除、或查询自定义的统计报告模板及历史生成的统计报告；所述卫星资讯统计报告生成模块根据统计报告模板生成统计报告。

一种遥感卫星资讯推荐设备，包括客户端和服务端；

所述客户端设置资讯检索接口、资讯详情接口、统计报告管理接口；通过接口与服务端进行交互；

还包括，用户通过资讯检索接口进行标签筛选、关键词查询或者时间范围查询，查询内容以检索请求表单的形式发送至服务端；

用户通过资讯详情接口查看资讯详情信息，向服务端发送资讯详情请求表单；资讯详情接口同时返回服务端发送的当前资讯文档的推荐结果。

用户通过统计报告管理接口上传、修改、删除、或查询自定义的统计报告模板及历史生成的统计报告；

所述服务端运行所述的方法，对客户端的接口输入进行响应。

优选的，客户端为WEB浏览器，服务端由服务层和数据层构成，服务层运行所述的方法，数据层包括数据存储组件以及组件部署的服务器。

本发明与现有技术相比的有益效果是：

本发明提出了一种基于标签和知识图谱的遥感卫星资讯推荐方法和系统架构，为用户在海量互联网信息中准确获取卫星遥感资讯提供了一种解决方案。该方法不需要用户历史的行为偏好数据模型，通过构建标签库和智能标签匹配策略，同时构建卫星遥感专业领域的知识图谱，资讯以及资讯标签都将作为图谱的一类实体，增强了标签间的潜在语义关联。用户通过搜索或筛选标签对感兴趣的资讯内容进行初步过滤，系统通过图谱中的实体关联信息找到用户可能感兴趣的资讯进行推荐，并通过图谱增强型语义分析网络进行资讯相关性评测，使得推荐结果更丰富、准确。本发明为资讯查询与推荐、信息的关联分析提供了一套全流程系统架构。

附图说明

图1是本发明所述系统的框架示意图；

图2是本发明智能标签匹配模块流程图；

图3是本发明的知识图谱创建流程图；

图4是本发明的遥感卫星知识图谱模型示意图；

图5是本发明图谱增强型语义分析网络结构示意图；

图6是本发明遥感卫星资讯推荐系统交互流程示意图。

具体实施方式

下面结合实施例对本发明作进一步阐述。

一种遥感卫星资讯推荐方法,包括：

第一方面，卫星资讯的高效采集及存储方法，包括：采集公开的或是订阅的卫星资讯，并对资讯进行初步处理，处理过程包括资讯内容翻译，资讯内容冗余HTML标签清洗，文本内容修正等；选型资讯存储组件，设计资讯的存储结构，索引结构；资讯信息清理处理完成后，组织资讯信息为设计好的数据存储结构，资讯批量入库。

第二方面，对第一方面中获取得到的卫星资讯实施智能标签匹配，包括：提取检索引擎中遥感卫星领域的关键词作为标签，形成卫星资讯标签库；设计优化可灵活配置的智能标签匹配模型，以适用于项目实施的不同阶段针对性地对资讯进行打标。

进一步的，步骤(2)卫星资讯实施智能标签匹配包括以下步骤：

首先，本发明设计抽象了三种标签匹配策略，包括正则标签匹配策略、文本相似度标签匹配策略、深度学习标签匹配策略。不同匹配策略概括了不同特征的标签对资讯文本的匹配逻辑，并能计算得到标签于资讯文本的匹配置信度。

然后，以上述标签匹配策略为基础，本发明使用数据库设计了一种基于配置的标签匹配模型。该模型通过配置实现不同策略的灵活插拔、组合、切换及置信度的计算。

在项目实施的不同阶段，通过调整标签匹配模型来针对性支持各个阶段下，数据规模变化、不同的成本控制考虑等带来的不同需求。

第三方面，针对上述第二方面得到的带有标签及置信度的卫星资讯，构建卫星知识图谱，包括：

将标签库的每一个标签以标签实体的形式，存入图数据库；

将资讯文档以资讯实体的形式，存入图数据库；

建立资讯实体与标签实体之间的关系，即匹配关系；

使用知识图谱抽取工具从资讯实体的文本属性中，抽取更细粒度的遥感卫星相关知识实体、关系、属性；

使用知识图谱融合工具对上述得到的实体进行融合对齐；

第四方面，基于第二方面的带标签的资讯以及第三方面构建的卫星知识图谱，创建卫星资讯推荐方法，包括以下步骤：

通过用户输入的检索内容(包括标签筛选或关键词查询等)，对卫星资讯进行初步召回；

构建图谱增强型语义分析网络，对上述候选资讯进行相关性评测，根据评测结果进行最终推荐。

第五方面，卫星资讯查询、推荐及统计报告生成交互设计，包括但不限于：

资讯检索接口，用户基于标签筛选，关键词查询，或时间范围查询相关资讯文档；

资讯详情接口，用户通过接口查看资讯详情信息，接口同时返回基于当前资讯文档的推荐结果；

统计报告管理接口，用户通过接口上传、修改、删除、查询自定义的统计报告模板及历史生成的统计报告；用户通过接口，将感兴趣的文档加入统计报告模板，报告生成后异步发送至用户邮箱。

本发明还提供一种遥感卫星资讯推荐系统，系统包括卫星资讯的高效采集及存储模块、卫星资讯标签智能匹配模块、遥感卫星领域知识图谱构建模块、卫星资讯查询推荐模块、卫星资讯统计报告生成模块。

本发明还提供一种遥感卫星资讯推荐设备，设备包括客户端和服务端。本发明中的方法、系统、设备中的相同功能描述可以采用同样的处理方式，因此，重复的不进行过多赘述。下面以一实例对本发明做详细说明。

一种遥感卫星资讯推荐设备包括客户端和服务端，客户端为WEB浏览器，用户通过WEB页面，使用接口与服务端进行交互；服务端由服务层和数据层构成，服务层包括WEB后端应用程序、算法服务应用程序及程序部署的服务器，数据层包括ES(Elasticsearch，全文检索引擎)、MySQL(关系型数据库)、Neo4J(图形数据库)、Redis(key-value存储系统)等数据存储组件及组件部署的服务器，服务层主要实现的是一种遥感卫星资讯推荐系统/方法的内容。设备架构如图1所示。具体如下：

1、卫星资讯高效采集及存储模块：

利用Python的Scrapy、Newspaper框架，从航天类新闻网站SpaceNews、防务新闻网、遥感卫星运营商官网如Maxar公司、空客防务与航天公司(ADS)，政府间国际组织如欧空局(ESA)、地球观测组织(GEO)，各国航天政府机构如美国国家航空航天局(NASA)、中国国家航天局(CNSA)等进行多线程爬取，这些原始文本信息一般都是以HTML网页和PDF文档进行存储；

使用ES全文检索引擎，作为卫星资讯的存储组件，以提供资讯的全文检索能力，提供快速查询能力。设计卫星资讯文档的索引结构，包括字段、字段数据类型、字段分词行为等。ES以集群的方式进行部署，使用3个Master节点，3个Data节点的组织架构，以提供容错及负载均衡的能力，提高系统的可用性和检索性能。

通过ETL(抽取、转换清洗、加载)流程对原始采集资料(原始资讯文本)进行处理，过程包括对原始文档中的冗余标签，特殊字符等进行清洗；对接翻译API接口，如百度、有道，对非中文资讯进行翻译并保存翻译结果；对接纠错API，对资讯内容进行修正；组织资讯信息为设计好的文档结构，调用ES的batch操作API将资讯数据批量入库。

卫星资讯在ES中的主要索引设计如下：

表1

本实施案例中，以爬取的两篇资讯为示例，本发明通过以上方式，处理得到的成果形式如下(主要以在es中的存放形式展示)：

2、卫星资讯智能标签匹配模块，具体流程图如图2所示：

(1)首先进行标签库构建。利用关键词挖词工具，在百度百科和WIKI百科中提取出遥感卫星领域的关键词作为标签，基于卫星领域专有名词(如“NASA”，表示与资讯关联的机构，卫星设备等)、领域专业知识(如“对地观测”、“地面站”等)、资讯特征词(如“火箭发射”，表示资讯关联的事件)等，构建适用于卫星资讯的标签库。对每个标签归纳设计出能够表征该标签特点的正则表达式，或者规范性文本表述，用于后续标签匹配策略构建。

(2)智能标签匹配模型构建。

基于资讯类型、来源、主题相关性，以及项目实施不同阶段资讯的规模、维护成本等方面的考虑，本发明以策略模式为指导思想，面对修改关闭面对拓展开放为设计原则，创新性地提出了一种基于数据库的，灵活的配置即用的标签匹配模型设计，以支持不同情况下变化的资讯文本标签匹配需求。

本发明提出的标签匹配模型主要包括三个部分：标签匹配策略、标签匹配模式、结果置信度计算模式。

标签匹配策略为匹配算法逻辑信息的抽象化结构表达，匹配策略本身的实现逻辑不与方案主体应用逻辑耦合，而是以第三方应用的方式提供接口或服务。本发明抽象了以下三种基本策略：

①正则表达式匹配策略

正则表达式匹配策略适用于遥感卫星领域的专业词组或固定表达构成的标签匹配，该类型的标签，常以为明文的形式出现在资讯文本中。本发明为每个标签设定一组(至少一个)正则表达式，表示匹配该标签的文本应该符合的正则特征，如:“遥感卫星[影图]像”、“[Ee](arth)？[Oo](bservation)？[Ss](atellite)？”。若某标签(tagA)设定的正则表达式为n个，某篇资讯(articalA)匹配了其中的m个正则表达式，那么可以将

作为资讯articalA匹配标签tagA的置信度(置信度用于表征某文档匹配某标签的正确程度)，当confidence>confidence_threshold(自定义的置信度阈值)，才会为articalA打上tagA标签，并且tagA及confidence将与articalA绑定更新到ES中。

②文本相似度匹配策略

文本相似度匹配策略适用于：针对具有某种特征标签的卫星资讯，资讯中对于该种标签的表征相对灵活，枚举其表征的正则表达相较困难。此时可以为该种标签特征设计一种概括性的表述，作为一个参考标准，对于每个资讯，使用资讯与该标准表述的文本相似度来判断是否满足标签匹配。

本发明使用BM25算法结合空间向量模型来计算文本相似度：

标签的标准表述为q，资讯文本为d，将q进行分词后，使用BM25算法分别计算每个词条分别基于q，d的相关度得分，作为词条的权重，以权重构建q和d的空间向量，计算两向量之间的余弦，作为相似得分。若相似的分大于设置的阈值，则判定该篇资讯的匹配该标签。相似度得分将作为标签的置信度，和标签一起绑定资讯并更新存入ES。置信度计算方法如下：

逆文档频率：

BM25得分：

余弦相似度：

③深度学习标签匹配策略

本发明搭建了由嵌入层、2层双向LSTM层、3层全连接层构成的深度学习网络。以资讯文档作为输入，标签匹配得分作为输出进行网络训练。网络输出的得分超过设置的阈值，则认为标签匹配，得分作为置信度，和对应的标签一起与资讯文档绑定后更新存入ES。

基于上述策略，标签匹配模型可以选择不同的匹配模式(单策略模式，组合匹配模式)和不同的置信度计算模式(平均、加权、最大)，匹配模型以配置记录的方式存放在MySQL数据库中，本发明通过最大通用性的表设计(如表3所示)，保证了匹配模型的开闭原则，使匹配策略可以进行灵活快速地迭代。

本发明提出的智能标签匹配模型设计益处在于：对于不同特征的标签和资讯，或在项目实施的不同阶段，往往需要标签匹配过程采用不同的具有针对性地技术方案。本发明提出的基于配置的可灵活插拔、组合、切换的标签匹配模型设计，可以对上述不同情况下的标签匹配需求提供支持。

项目初期，标签及文档较少，月增量大概为300篇资讯，对应使用了20个标签，本发明中将资讯数量少于500时定义为项目初期，此时标签匹配模型设置为单策略模式，对于多数特征相对明确，方便使用有限枚举的正则表征的标签，使用正则标签匹配策略；对于少数特征表示起来相对复杂的标签，则使用文本相识度标签匹配策略。单策略匹配计算得到的置信度结果直接作为模型输出置信度结果。这种方式方便项目在初期快速落地实现，并能产出数据成果。需要说明的是，初期由于数据样本有限并且模型迭代不够成熟，得到的匹配结果并不完全准确，需要辅以人工校验。

随着资讯数据规模增大，当资讯量在500-2000篇，可以基于小样本集训练深度神经网络。此时标签匹配模型设置为组合策略模式，标签策略使用正则标签匹配策略+深度学习匹配策略或文本相似度标签匹配策略+深度学习匹配策略。此时置信度计算模式采用取平均。同样，因为模型迭代不成熟，需要辅以人工校验。资讯每增加500篇，深度学习网络迭代更新一次。

当资讯量达到2000-5000时，训练集已经具有一定规模，此时深度学习网络泛化性能有所提高，置信度计算模式调整为取加权求和，深度神经网络准确率达到0.8，权重分配为0.4/0.6。同时考虑到人工校验维护的成本，人工校验调整为抽样校验。

当资讯量达到5000-10000时，随着学习网络迭代优化，准确率提升至0.95，此时认为模型性能趋于稳定，采用深度学习单匹配策略，网络输出结果直接作为匹配置信度，人工校验调整为不定期抽样校验。资讯量超过10000时，同样可以采用该阶段的方式处理。

表2标签匹配模型

其中，标签匹配策略相关配置定义如下，以结构化数据存储在MySQL数据库中，具体设计如下：

表3策略配置数据结构

字段	字段描述	类型
id	自增主键	int
tag	标签	varchar
match_mode	匹配模式	int

regex	正则表达式	varchar
similarity_scentence	相似度比较标签表述标准参考	text
similarity_api	文本相似度匹配模型接口	varchar
dl_api	深度神经网络匹配模型接口	varchar
confidence_calcu_mode	多模型置信度组合模式	varchar
confidence_threshold	置信度阈值	float

其中，标签匹配过程核心代码如下：

本发明使用以下示例对上述打标过程进行描述：

“商业遥感卫星”、“卫星发射”作为遥感卫星领域常用关键词，作为标签被纳入标签库。上述两个标签设计的标签匹配模式如下(正则匹配策略)：

表4正则标签匹配模式

字段	Tag1	Tag2
id	1	2
tag	商业遥感卫星	卫星发射
match_mode	4	4
regex	商业、遥感卫星、遥感数据	卫星、火箭、发射
similarity_scentence	-	-
similarity_api	-	-
dl_api	-	-
confidence_calcu_mode	-	-
confidence_threshold	0.6	0.6

对于方面一中示例的两篇文档，第一篇匹配正则卫星、火箭、发射、遥感数据、商业、遥感卫星。按照方面二中描述的正则匹配策略，应该为该资讯文档匹配标签“商业遥感卫星”，置信度为1(1>阈值0.6)，同时为该资讯匹配标签“卫星发射”，置信度为1(1>阈值0.6)；第二篇资讯匹配正则商业、遥感卫星、卫星、火箭、发射，同样应该匹配标签“商业遥感卫星”、“卫星发射”，置信度分别为0.67、1。

经过人工审核后，标签与文档绑定更新存储到ES如：

(3)卫星知识图谱构建方法模块，具体流程图如图3所示：

基于开源深度学习的知识图谱抽取工具DeepKE对卫星资讯进行实体、关系、属性抽取后，使用开源知识图谱融合工具OpenEA对实体进行对齐，最后将实体、关系等导入图数据库NEO4J构建知识图谱。具体步骤为：

人工准备卫星资讯知识样本，包括资讯文本及预标注的卫星知识实体、属性、关系。将数据输入DeepKE相应模块(NER、RE、AE)进行模型训练，使用训练好的知识抽取模型如图3，对资讯文本数据进行知识抽取，并将抽取结果导入Neo4J图数据库。

需要说明的是，实体指客观存在的事物，一般指名词，比如卫星编号、机构名、运行轨道、设备型号；关系指实体之间相互联系的方式，一般指两个实体之间的动词，比如发射、运行、装载；属性指实体所具备的某一特征，如分辨率，速度等。

本实施示例中，基于爬取的两篇新闻资讯，使用训练好的知识抽取模型对资讯文本数据进行知识抽取，并将抽取结果导入NEO4J图数据库，结果如图4所示。

(4)卫星资讯推荐方法模块，具体流程图如图5所示：

第四方面，基于上述带标签资讯以及卫星知识图谱，本发明提出一种卫星资讯推荐方法，通过知识图谱得到关联资讯，作为推荐候选，并通过本发明提出的图谱增强型语义分析网络，用于对推荐候选结果进行评测，评测满足要求的资讯最终会被推荐给用户。

具体实施方案如下：

1)通过用户选取的标签，或输入的全文检索关键词，构建ES的query查询语句(term或match)，ES通过TF/IDF算法进行资讯文档的召回；

2)针对上述召回的资讯文档，构建文档关联实体的cypher查询语句，通过实体间的关联关系，找到该文档的一度、二度关联文档，作为推荐候选；

3)使用本发明提出的图谱增强型语义分析网络，以当前文档及候选文档作为网络的输入，经过网络计算，得到表征候选文档与当前文档相关性的评测得分，得分超过阈值的候选资讯，按照得分排序后作为最终的推荐结果返回给用户。

上述3中提到的图谱增强型语义分析网络主体由三部分组成，分别为上下文特征分析网络、标签特征分析网络、图谱特征分析网络。上下文特征分析，主要用于抽象和分析资讯文本本身的语义特征信息。标签特征分析，主要用于提取抽象和分析标签实体特征信息。图谱特征分析，主要用于提取抽象和分析图谱特征信息。具体网络计算步骤如下：

1)首先，上下文特征分析网络的具体处理过程为，当前资讯与指定的候选资讯文本分别经过语句随机采样，随机生成待分析文本集合，待分析集合文本通过PV-DBOW模型映射为低维空间中的句向量，形成上下文特征矩阵，矩阵会通过transformer层和双向LSTM层进一步抽象文本上下文特征。

2)然后，资讯的关联实体分为标签实体和非标签实体，标签实体本身作为对资讯具有某种特征概括性的一种表征，本发明使用标签特征分析网络对其进行处理，具体过程为，标签通过PV-DBOW进行向量化，乘以各标签的置信度信息，组成标签特征矩阵，矩阵将通过多层感知机进行进一步特征抽象；

3)最后，卫星图谱信息作为卫星资讯间相对深度隐藏关联信息的载体，本发明使用图谱特征分析网络对其进行处理，具体过程为，通过TransE、TransH网络将图谱实体/关系等信息映射到低维空间形成实体/关系向量，组成图嵌入特征矩阵，矩阵将通过KGCNN网络进行进一步图谱特征的提取抽象。

4)当前资讯文本和指定的推荐候选资讯文本分别执行上述处理，分别得到两组3种抽象特征结果矩阵，将每种矩阵分别进行链接后，再通过卷积、全连接等网络，最后输出评测结果y’，表征两篇文本的关联程度，为最终推荐决策提供参考。

本发明提出的图谱增强型语义分析网络，与构建的知识图谱能够相互补充。图谱构建完成后，通过图计算，能够快速获取资讯间的关联关系，关联结果直观，可解释性强，但相关性无法量化度量。图谱增强型语义分析网络可量化地计算出资讯间的相关性，但计算量大，并且计算结果可解释性差。本发明先使用图计算得到推荐候选，再使用图谱增强型语义分析网络对候选资讯与当前资讯进行相关性计算，使推荐过程效率和效果达到平衡最优。

(5)构建卫星资讯查询推荐模块，卫星资讯统计报告生成模块，具体流程图如图6所示：

本实施示例中，由客户端发起基于标签或关键词、时间范围的检索请求表单；

服务端接收请求，并构建query检索语句，由ES全文检索引擎基于倒排索引进行全文检索后返回，并组织为应答数据结构，返回给客户端，完成请求的响应。

客户端发起资讯详情请求表单；

服务端接收请求，通过资讯查询并得到资讯Document详情信息，同时构建Cypher查询语句，基于知识图谱一度(二度)关联知识进行相关资讯内容的召回，召回的文档和当前文档共同作为参数，通过图谱增强型语义分析网络计算得到相关性评测结果，评测得分高于阈值的资讯加入推荐文档集，最后组织当前文档详情信息以及推荐文档集信息为应答数据结构，返回给客户端，完成请求的响应。

客户端发起资讯统计报告生成的请求表单；

服务端接收请求，基于指定模板预先设定统计指标，构建query(ES)、sql(MYSQL)、cypher(NEO4J)统计查询语句，召回的数据与指定加入报告的资讯文档列表一起，通过以Word文件拆分重组、JFreeChart、thymeleaf为基础的模板引擎框架，完成报告模板的内容填充、样式设置、图形绘制，生成定制化报告，并保存到数据库，同时通过异步的方式下发致用户邮箱。

本实施示例还包含并不限于以下内容：卫星资讯的多维度检索、客户端定制化创建报告模板、模板管理、报告管理、报告预览、下载等。

本发明虽然已以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改，因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰，均属于本发明技术方案的保护范围。

本发明未详细说明部分属于本领域技术人员的公知常识。

Claims

一种遥感卫星资讯推荐方法，其特征在于包括：

采集卫星资讯文本并进行初步处理，将资讯文本组织为预设的数据存储结构并存储；

对存储的资讯文本进行智能标签匹配，得到带有标签及置信度的卫星资讯；

利用上述带有标签及置信度的卫星资讯，构建卫星知识图谱；

根据用户的查询内容，对上述存储的卫星资讯进行初步召回；

基于构建的卫星知识图谱，挖掘上述召回资讯结果的关联资讯，作为推荐候选资讯集；

对上述推荐候选资讯集中的候选资讯进行相关性评测，根据评测结果进行最终推荐。
根据权利要求1所述的方法，其特征在于：所述初步处理包括：

从新闻网站、遥感卫星运营商官网以及各国航天政府机构网站进行多线程爬取，获取卫星资讯的原始文本信息；

选择检索引擎作为卫星资讯的存储组件；

通过抽取、转换清洗、加载流程对原始文本信息进行处理，将资讯文本组织为预设的数据存储结构并存储至上述检索引擎。
根据权利要求2所述的方法，其特征在于：所述的检索引擎选择ES全文检索引擎，全文检索引擎以集群的方式进行部署。
根据权利要求1所述的方法，其特征在于：得到带有标签及置信度的卫星资讯包括：

提取检索引擎中遥感卫星领域的关键词作为标签，形成卫星资讯标签库；

设计可配置的智能标签匹配模型，所述匹配模型概括不同特征的标签对资讯文本的匹配逻辑，并能计算得到标签于资讯文本的匹配置信度；

利用所述智能标签匹配模型对存储的资讯文本进行智能标签匹配，得到带有标签及置信度的卫星资讯。
根据权利要求4所述的方法，其特征在于：所述可配置的智能标签匹配模型包括标签匹配策略、标签匹配模式、结果置信度计算模式三部分；

所述的标签匹配策略中存储预先设计的多个匹配策略；

所述标签匹配模式用于根据需求从标签匹配策略中选择不同的匹配策略组成单策略模式或组合匹配模式；

所述结果置信度计算模式中存储不同的置信度计算模式。
根据权利要求5所述的方法，其特征在于：所述匹配策略包括正则标签匹配策略、文本相似度标签匹配策略、深度学习标签匹配策略；

所述正则标签匹配策略适用于遥感卫星领域的专业词组或固定表达构成的标签匹配；

所述文本相似度标签匹配策略用于使用资讯与标准表述的文本相似度来判断是否满足标签匹配，所述标准为参考标准，是标签特征设计的概括性表述；

所述深度学习标签匹配策略以资讯文本作为输入，标签匹配得分作为输出进行网络训练；网络输出的得分超过设置的阈值，则认为标签匹配，得分作为置信度。
根据权利要求5所述的方法，其特征在于：通过最大通用性的表设计方式，将智能标签匹配模型的配置方式存放在MySQL数据库中，保证智能标签匹配模型的开闭原则，使匹配策略能够进行灵活快速地迭代。
根据权利要求7所述的方法，其特征在于：最大通用型的表设计内容包括：

设计验证阶段：卫星资讯文本数量小于500，匹配策略和标签匹配模式为：正则匹配策略或文本相似度匹配策略的单策略模式；结果置信度计算模式为直接使用单一策略的置信度结果作为模型的最终置信度结果；

开发实施阶段：卫星资讯文本数量500-2000，匹配策略和标签匹配模式为：正则匹配+深度学习标签匹配策略；或者文本相似度+深度学习标签匹配策略的组合策略模式；结果置信度计算模式为求取不同策略置信度结果的平均值作为模型的最终置信度结果；

试运行阶段：卫星资讯文本数量2000-5000时，匹配策略和标签匹配模式为：正则匹配+深度学习标签匹配策略；或者文本相似度+深度学习标签匹配策略的组合策略模式；结果置信度计算模式为求取不同策略置信度结果的加权平均值作为模型的最终置信度结果；

运行阶段：卫星资讯文本数量大于5000时，匹配策略和标签匹配模式为：深度学习标签匹配策略的单策略模式，结果置信度计算模式为直接使用单一策略的置信度结果作为模型的最终置信度结果。
根据权利要求8所述的方法，其特征在于：对匹配结果进行人工校验，其中，设计验证阶段以及开发实施阶段均辅以人工全校验；试运行阶段辅以人工定期抽样校验；运行阶段辅以人工不定期抽样校验。
根据权利要求8所述的方法，其特征在于：开发实施阶段，资讯每增加预设的篇幅，深度学习网络迭代更新一次，整个开发实施阶段，更新次数为10-20次。
根据权利要求6所述的方法，其特征在于：深度学习网络由嵌入层、2层双向LSTM层、3层全连接层构成；以资讯文本作为输入，标签匹配得分作为输出进行网络训练；网络输出的得分超过设置的阈值，则认为标签匹配，得分作为置信度。
根据权利要求4所述的方法，其特征在于：所述构建卫星知识图谱包括：

将卫星资讯标签库的每一个标签以标签实体的形式，存入图数据库；

将资讯文本以资讯实体的形式，存入图数据库；

建立资讯实体与标签实体之间的关系，即匹配关系；

使用知识图谱抽取工具从资讯实体的文本属性中，抽取的遥感卫星相关知识实体、关系、属性；

使用知识图谱融合工具对上述得到的实体进行融合对齐；

将上述抽取融合后的实体、关系、属性批量存入图数据库，完成遥感卫星知识领域的知识图谱构建。
根据权利要求1所述的方法，其特征在于：通过构建图谱增强型语义分析网络，对上述候选资讯进行相关性评测。
根据权利要求13所述的方法，其特征在于：所述图谱增强型语义分析网络包括上下文特征分析网络、标签特征分析网络、图谱特征分析网络；

所述上下文特征分析网络于抽象和分析资讯文本本身的语义特征信息；

所述标签特征分析网络用于提取抽象和分析标签特征信息；

所述图谱特征分析网络用于提取抽象和分析图谱特征信息。
根据权利要求14所述的方法，其特征在于：所述相关性评测包括：

S1、对当前资讯文本和推荐候选资讯集中的候选资讯文本分别执行如下处理：

利用上下文特征分析网络将资讯文本经过语句随机采样，随机生成待分析文本集合，并映射为低维空间中的句向量，形成上下文特征矩阵，从所述上下文特征矩阵中进一步抽象文本上下文特征；

利用标签特征分析网络将资讯文本的标签实体进行向量化，乘以标签的置信度信息，组成标签特征矩阵；对所述标签特征矩阵进行进一步特征抽象；

利用图谱特征分析网络将资讯文本的非标签实体作为相对深度的隐藏关联信息载体，映射到低维空间形成实体/关系向量，组成图嵌入特征矩阵，对所述图嵌入特征矩阵进行进一步图谱特征的提取抽象；

S2、将S1中针对每个候选资讯文本的处理结果分别与当前资讯文本的处理结果进行链接后，再通过全连接网络，最后输出表征两篇文本的关联程度的输出评测结果；

上述两篇文本为当前资讯文本与推荐候选资讯集中的每篇候选资讯文本，当前资讯文本为用户从初步召回的卫星资讯中点开的一篇资讯文本。
一种遥感卫星资讯推荐系统，其特征在于：包括卫星资讯采集及存储模块、卫星资讯标签智能匹配模块、遥感卫星领域知识图谱构建模块、卫星资讯查询推荐模块；

所述卫星资讯采集及存储模块，用于采集卫星资讯文本并进行初步处理，将资讯文本组织为预设的数据存储结构并存储；

所述卫星资讯标签智能匹配模块，用于对存储的资讯文本进行智能标签匹配，得到带有标签及置信度的卫星资讯；

所述遥感卫星领域知识图谱构建模块，用于利用上述带有标签及置信度的卫星资讯，构建卫星知识图谱；

所述卫星资讯查询推荐模块，根据输入的查询内容，对卫星资讯采集及存储模块存储的卫星资讯进行初步召回；基于构建的卫星知识图谱，挖掘上述召回资讯结果的关联资讯，作为推荐候选资讯集；对上述推荐候选资讯集中的候选资讯进行相关性评测，根据评测结果进行最终推荐。
根据权利要求16所述的系统，其特征在于：还包括资讯检索接口，用户通过该接口进行标签筛选、关键词查询或者时间范围查询，查询内容输入至卫星资讯查询推荐模块。
根据权利要求16所述的系统，其特征在于：还包括资讯详情接口，用户通过该接口查看资讯详情信息，用户查看的资讯作为当前资讯文本，资讯详情接口同时返回当前资讯文档的推荐结果。
根据权利要求16所述的系统，其特征在于：还包括卫星资讯统计报告生成模块以及统计报告管理接口；

用户通过统计报告管理接口上传、修改、删除、或查询自定义的统计报告模板及历史生成的统计报告；所述卫星资讯统计报告生成模块根据统计报告模板生成统计报告。
一种遥感卫星资讯推荐设备，其特征在于：包括客户端和服务端；

所述客户端设置资讯检索接口、资讯详情接口、统计报告管理接口；通过接口与服务端进行交互；

用户通过资讯检索接口进行标签筛选、关键词查询或者时间范围查询，查询内容以检索请求表单的形式发送至服务端；

用户通过资讯详情接口查看资讯详情信息，向服务端发送资讯详情请求表单；资讯详情接口同时返回服务端发送的当前资讯文档的推荐结果。

用户通过统计报告管理接口上传、修改、删除、或查询自定义的统计报告模板及历史生成的统计报告；

所述服务端运行权利要求1-15之一所述的方法，对客户端的接口输入进行响应。
根据权利要求20所述的设备，其特征在于：客户端为WEB浏览器，服务端由服务层和数据层构成，服务层运行权利要求1-15之一所述的方法，数据层包括数据存储组件以及组件部署的服务器。