WO2023137700A1

WO2023137700A1 - 一种面向城市决策和评估的多尺度信息目录构建系统

Info

Publication number: WO2023137700A1
Application number: PCT/CN2022/073175
Authority: WO
Inventors: 李攀; 周婵; 孙立群; 张涌; 宁立
Original assignee: 中国科学院深圳先进技术研究院
Priority date: 2022-01-21
Filing date: 2022-01-21
Publication date: 2023-07-27

Abstract

本申请属于数据分析领域，具体涉及一种面向城市决策和评估的多尺度信息目录构建系统，包括：数据收集模块，用于在收集原始数据过程中，将收集的原始数据进行记录；数据预处理模块，用于对原始数据的异常值、缺失值进行智能处理，填补缺失值降低冗余性；搜索工具模块，用于对数据进行高维提炼，将关联度较高的信息聚类；数据访问与反馈模块，用于根据不同用户历史的访问信息与反馈信息，通过人工智能自动学习未被发现的数据信息相关性，并反馈到数据收集模块。本申请通过将获得的数据信息相关性反馈到数据收集模块，使整个系统具备自我学习的能力，输出结果随大量数据的训练、长时间的优化而越来越精确，进而提高数据信息的查询便利性、索引准确性。

Description

一种面向城市决策和评估的多尺度信息目录构建系统

技术领域

本申请涉及数据分析领域，具体而言，涉及一种面向城市决策和评估的多尺度信息目录构建系统。

背景技术

信息技术与经济社会的交汇融合引发了数据迅猛增长，数据已成为国家基础性战略资源，大数据正日益对全球生产、流通、分配、消费活动以及经济运行机制、社会生活方式和国家治理能力产生重要影响。大规模数据是21世纪重要的基础信息资源和战略资源之一,做好数据信息目录处理有利于各部门宏观决策和科学研究、有利于加快国民经济建设与发展进程，促进信息目录为社会、国民经济建设、科学研究等提供服务。

现阶段,我国正在准备着手整合不同尺度、不同维度的数据，将各个部门提交的原始数据通过预处理，得到一份可以包含目前绝大部分信息的信息目录。然而，由于数据的冗余与离散，又没有一种能够简单描述数据库中数据信息的数据目录,从整体上展示现有数据的存储信息状况,因此不能被充分利用来满足科学研究和社会需求,导致研究人员取数据比较困难，需要花费更多宝贵的时间分析、研究大规模数据特征。

在数据收集方面，目前的解决方案仅仅将各部门的数据做汇总，并没有考虑到不同部门、不同时期所收集的数据可能存在差异性、时效性；现有的数据预处理工作是将收集到的数据做简单的融合，对缺失值、异常值以近邻补齐的方法来实现，不能做到对多领域的数据进行有机混合、智能填充；在数据的搜索工具上，现有的技术和方法只能做到对关键词、关键字的匹配搜索，不能实现较高层次的语义理解搜索，而且在专业领域的术语上不能做到通用理解，导致多词一意，加大搜索的难度；在数据访问及用户反馈上，现有技术做不到随着用户的历史访问信息迭代修改搜索建议。因此需要一种能自动化处理并补全收集到的原始信息，然后对多尺度、多领域的数据做统一的融合，最后可以对用户反馈改进搜索建议的信息目录方法来辅助城市决策；所以，为全面推进数据信息的查询便利性、索引准确性，迫切的需要构建一种面向城市决策与评估的多尺度信息目录构建系统。

发明内容

本申请实施例提供了一种面向城市决策和评估的多尺度信息目录构建系统，以提高数据信息的查询便利性及索引准确性。

根据本申请的一实施例，提供了一种面向城市决策和评估的多尺度信息目录构建系统，包括以下步骤：

数据收集模块，用于在收集原始数据过程中，将收集的原始数据按照时间、领域进行记录；

数据预处理模块，用于原始数据的异常值、缺失值进行智能处理，并对多尺度、多领域的数据进行交叉式融合，填补缺失值降低冗余性；

搜索工具模块，用于对数据进行高维提炼，拓展出数据背后的相关性并对其进行关联，将关联度较高的信息聚类；

数据访问与反馈模块，用于根据不同用户历史的访问信息与反馈信息，通过人工智能自动学习未被发现的数据信息相关性，并将新学习的数据信息相关性反馈到数据收集模块；

数据收集模块、数据预处理模块、搜索工具模块及数据访问与反馈模块依次连接，数据访问与反馈模块与数据收集模块连接。

本申请实施例采取的技术方案还包括：数据收集模块包括：

时间记录子模块，用于在原始数据收集过程中，将收集到的单个部门提交的原始数据记录为单一的时间序列；

多信息协同子模块，用于将单个部门提交的同一领域的多种数据进行简易标签标注。

本申请实施例采取的技术方案还包括：在原始数据收集过程中，将收集到的单个部门提交的原始数据记录为单一的时间序列具体为：

构建信息数据时间表，时间表包含数据信息、时间信息、预留该数据的标签信息位置；

多信息协同子模块通过扫描数据得到简易标签，并填到时间表中。

本申请实施例采取的技术方案还包括：数据预处理模块包括：

异常值修正子模块，用于对原始数据的异常值、缺失值做出自动化检测，标记该类数据并采用临近均值的方法进行临时填充；

数据融合子模块，用于对多尺度、多领域标签相似的数据进行交叉式融合，填补缺失值降低冗余性。

本申请实施例采取的技术方案还包括：标记该类数据并采用临近均值的方法进行临时填充具体为：

通过单分类支持向量机的技术进行做出自动化检测。

本申请实施例采取的技术方案还包括：对数据进行高维提炼，拓展出数据背后的相关性并对其进行关联，将关联度较高的信息聚类具体为：

通过采用知识图谱技术寻找数据中的内在联系并提取出来。

本申请实施例采取的技术方案还包括：数据访问与反馈模块包括：

历史访问信息模块，用于将用户访问的历史信息保存，并结合该历史信息更新当前的搜索结果。

本申请实施例采取的技术方案还包括：通过使用长短期记忆网络设计历史访问信息模块；

长短期记忆网络对单独的用户指定精确的搜索建议，通过记录每一次搜索的反馈来完善长短期记忆网络的搜索算法。

本申请实施例采取的技术方案还包括：长短期记忆网络根据查阅时间的长短来判断搜索建议的相关度。

本申请实施例采取的技术方案还包括：数据收集模块、数据预处理模块、搜索工具模块及数据访问与反馈模块通过主板连接。

相对于现有技术，本申请实施例产生的有益效果在于：本申请实施例中的面向城市决策和评估的多尺度信息目录构建系统，包括：数据收集模块，用于在收集原始数据过程中，将收集的原始数据按照时间、领域进行记录；数据预处理模块，用于对原始数据的异常值、缺失值进行智能处理，并对多尺度、多领域的数据进行交叉式融合，填补缺失值降低冗余性；搜索工具模块，用于对数据进行高维提炼，拓展出数据背后的相关性并对其进行关联，将关联度较高的信息聚类；数据访问与反馈模块，用于根据不同用户历史的访问信息与反馈信息，通过人工智能自动学习未被发现的数据信息相关性，并将新学习的数据信息相关性反馈到数据收集模块。本申请通过自动化处理并补全收集到的原始信息，然后对多尺度、多领域的数据做统一的融合，最后通过将获得的数据信息相关性反馈到数据收集模块，使整个系统具备自我学习的能力，输出结果随大量数据的训练、长时间的优化而越来越精确，进而提高数据信息的查询便利性、索引准确性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请面向城市决策和评估的多尺度信息目录构建系统的模块图；

图2为本申请面向城市决策和评估的多尺度信息目录构建系统的功能示意图；

图3为本申请信息数据时间表结构图；

图4为本申请单分类支持向量机示意图；

图5为本申请知识图谱结构示意图；

图6为本申请长短期记忆网络结构示意图；

图7为本申请搜索机制反馈优化示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

参见图1和图2，根据本申请一实施例，提供了一种面向城市决策和评估的多尺度信息目录构建系统，包括：

数据收集模块100，用于在收集原始数据过程中，将收集的原始数据按照时间、领域进行记录；

数据预处理模块200，用于原始数据的异常值、缺失值进行智能处理，并对多尺度、多领域的数据进行交叉式融合，填补缺失值降低冗余性；

搜索工具模块300，用于对数据进行高维提炼，拓展出数据背后的相关性并对其进行关联，将关联度较高的信息聚类；

数据访问与反馈模块400，用于根据不同用户历史的访问信息与反馈信息，通过人工智能自动学习未被发现的数据信息相关性，并将新学习的数据信息相关性反馈到数据收集模块100；

数据收集模块100、数据预处理模块200、搜索工具模块300及数据访问与反馈模块400依次连接，数据访问与反馈模块400与数据收集模块100连接。

本申请通过自动化处理并补全收集到的原始信息，然后对多尺度、多领域的数据做统一的融合，最后通过将获得的数据信息相关性反馈到数据收集模块100，使整个系统具备自我学习的能力，输出结果随大量数据的训练、长时间的优化而越来越精确，进而提高数据信息的查询便利性、索引准确性。

本申请公开了一种面向城市决策和评估的多尺度信息目录构建系统，该系统由收集数据模块、数据预处理模块200、搜索工具模块300、数据访问与反馈模块400来实现多尺度信息目录的构建，并将此信息目录应用在城市决策与评估中。本申请可应用在数据分析领域，通过融合多尺度、多场景、多种来源的数据可以得到应对城市决策的宏观信息指标，保证城市决策的准确性与长期性。

数据收集模块100、数据预处理模块200、搜索工具模块300及数据访问与反馈模块400通过主板连接，并可通过主板进行数据传递。

实施例中，数据收集模块100包括：

具体为，数据收集模块100包含时间记录子模块、多信息协同子模块，时间记录子模块将原始数据在收集过程中收集到的单个政务部门提交的原始数据记录为单一的时间序列，多信息协同子模块将单个政务部门提交的同一领域多种数据(例如交通部门提交的交通阻塞时间、交通事故发生率等)做好简易标签标注。通过按照时间、不同领域做好记录，为后续的数据迭代、数据相关性判断做好前期准备。

为了解决数据收集过程中时间信息混乱，单部门信息庞杂缺乏相关性等问题，本申请在数据收集时通过设计时间记录子模块，在应对多部门、长时间跨度、高维数据信息时能够准确定位到需要的时间维度，做好数据的更新、缓存工作。

具体实现为构建信息数据时间表，表中除了包含数据信息、时间信息还包括预留该数据的标签信息位置，为下一步多信息协同做准备。在多信息协同子模块通过扫描数据得到简易标签，并填到时间表中，而标签的确定可以参照历史数据信息。信息数据时间表如图3所示。单个政务部门提交了多个信息表，每次提交都显示在自己的时间轴上(图3中仅画出单次提交的数据表)，每个数据表都预留了多个标签位置，方便后期根据实际情况调整。通过本申请设计的数据收集模块100可以方便的在之后的数据处理中快速查找到各部门精确的信息历史记录，而且对之后的数据融合提供了良好基础。

实施例中，数据预处理模块200包括：

具体为，数据预处理模块200包含异常值修正子模块、数据融合子模块，异常值修正子模块对原始数据的异常值、缺失值等通过单分类支持向量机(One-class SVM)的方法做出自动化检测，标记此类数据采用临近均值的方法进行临时填充，数据融合子模块对多尺度、多领域标签相似的数据进行交叉式融合，填补缺失值降低冗余性。

由于收集到的数据量庞大，在收集过程中难免遇到数据出错而未被发现，例如数据的缺失，录入错误等形成异常值、缺失值。为了保证数据的正确性不受到异常点的扰动，为本申请设计了异常值修正子模块，通过单分类支持向量机的技术找到数据中的离群点，并对其实行临近平均值填充，保证数据的合理性。此操作自动进行，可人工操作控制选取离群点的范围，以适用多种的应用场景。单分类支持向量机示意图如图4所示，圆点为正常数据，可将坐标原点视为离群点，即异常数据。通过支持向量机的算法找到基本上将所有的数据点与坐标原点在特征空间(圆点所在空间)分离开，并且最大化分离超平面到原点的距离(即实线，虚线同样可以分离但是实线效果最好，鲁棒性最强)。

找到离群点之后记录并采用临近平均值填充：通过计算临近数据的平均值来估计离群点应有的数据。将整理好的数据进行多部门的数据融合，通过数据收集模块100得到的信息标签将相关联的多部门数据进行结合，互相验证。判断是否有相同含义的数据，检验数据是否有冲突，如有冲突以时间轴最新为准。

在数据预处理模块200中将多部门、多场景、多尺度的数据检验后进行初步融合，为之后信息目录的构建打下基础。

实施例中，对数据进行高维提炼，拓展出数据背后的相关性并对其进行关联，将关联度较高的信息聚类具体为：

通过采用知识图谱技术寻找数据中的内在联系并提取出来。

具体为，搜索工具模块300主要采用知识图谱技术的方法对数据进行高维提炼，拓展出数据背后的相关性并对其进行关联，将关联度较高的信息聚类，以提供更好的搜索建议与搜索连接。

现有的数据规模大而分类细致，想要从中提取详细信息比较容易，而对于城市的决策与估计，需要能从海量的高维数据中找出相关性较强的关联数据。假设城市要规划一条道路，涉及的问题有路径规划、交通阻塞影响、经济发展适用性等等问题，这需要查找当地经济水平数据以确定道路修建的经费、误工时间；查找当地地质情况以确定路线；查找当地汽车保有量以确定道路宽度等等。所以需要本申请采用知识图谱的技术以寻找到海量数据中的内在联系并提取出来。

传统的搜索是靠网页之间的超链接实现网页的搜索，而语义搜索是直接对事物进行搜索，比如人、物、机构、地点等，这些事物可以来自文本、图片、视频、音频、物联网设备等。知识图谱和语义技术提供了关于这些事物的分类、属性和关系的描述，这样搜索引擎就可以直接对事物进行搜索。比如想知道A地到B地的路径规划，那么在进行搜素时，搜索引擎会把这句话进行分解，获得“A地”，“B地”，“路径规划”，再与现有的知识库中的词条进行匹配，最后展现在用面前。传统的搜索模式下，进行这样的搜索后得到的通常是包含其中关键词的网页链接，因此还需要在多个网页中进行筛选；可以看出基于知识图谱的搜索更加便捷与准确。

知识图谱也可以用于辅助进行数据分析与决策；不同来源的知识通过知识融合进行集成，通过知识图谱和语义技术增强数据之间的关联，用户可以更直观地对数据进行分析。知识图谱结构简图如图5所示。

通过知识图谱技术，本申请将后处理的数据信息进行高维提炼，对相关的词条进行信息聚类，展示在相关搜索建议中。通过搜索工具模块300，本申请实现了对海量细分数据的高维提炼，获得数据当中的内在联系，当输入搜索词条时可以智能挑选出合适的相关信息而不用去相关词条链接中去人工寻找。

实施例中，数据访问与反馈模块400包括：

历史访问信息模块，用于将用户访问的历史信息保存，并结合该历史信息更新当前的搜索结果；本实施例中通过使用长短期记忆网络设计历史访问信息模块；长短期记忆网络对单独的用户指定精确的搜索建议，通过记录每一次搜索的反馈来完善长短期记忆网络的搜索算法。

具体为，数据访问与反馈模块400主要实现根据不同用户历史的访问信息与反馈信息，通过长短期记忆网络(LSTM)的技术自动学习之前未被发现的数据信息相关性，将学到的信息相关性保存并应用到初始的数据提取中，优化整个方法的运行。

以往的搜索中，搜索结果是普适性的，即输入相同词条会得到一致的搜索结果，在城市决策数据中，数据的安全信息很重要，所以访问此类信息需要特定的账户权限，因此应该依据不同账户的搜索历史给出针对性的搜索结果，这比普适性的结果要更精确。本申请通过使用长短期记忆网络设计了历史访问信息模块，可以将用户访问的历史信息保存，并结合历史信息更新当前的搜索结果。长短期记忆网络如图6。

实施例中，长短期记忆网络根据查阅时间的长短来判断搜索建议的相关度。

具体为，通过长短期记忆网络对单独的用户指定精确的搜索建议，这只是利用了历史信息。本申请给出的搜索建议不可能完全匹配当前搜索的需要，本申请通过记录每一次搜索的反馈来完善自身的搜索算法，当搜索用户输入词条，搜索工具给出搜索数据后，用户查阅时间短的搜索建议被视为弱相关，降低相关数据的权重；查阅时间长视为相关联性较强；查阅完某条数据后直接退出视为强相关(获取到满意答案)。用户反馈优化机制如图7所示。

用户反馈中获得的词条相关性还可以反馈到数据收集模块100，有利于标签的标注。用户反馈机制的不断优化，使整个流程具备自我学习的能力，输出结果随大量数据的训练、长时间的优化而越来越精确。

现有技术的缺陷包括：

1.现有技术中，在处理大规模的政务数据方面，由于其数据源分散、数据相对割裂、应用及服务碎片化，使得难以有方法对整个城市的各种数据构建信息目录，仅能处理单一部门的信息数据。

2.现有技术中功能较为单一，对原始数据没有很好的保存与及时更新，导致数据混乱，通过本申请的数据收集模块100与数据预处理模块200处理，可以实现数据有序的保存与更新。

3.在构建数据目录或信息目录时，现有技术只能做到根据搜索词条找到相关超链接，需要人工筛选链接的可用性、关联性，本申请直接将相关性数据整理后呈现出来，数据直接可以使用而且包含多领域的信息，节省人工查找的时间，提高查找的精度。

4.本申请应对城市决策的私密性，设计了针对单个用户的搜索建议，并可以根据历史信息，当前搜索结果来学习调整下一次的搜索建议。

本申请的有益效果在于：

1.本申请中设计了一种多尺度的信息目录构建方法可以应用在大数据时代的信息收集与处理，帮助城市决策与评估。

2.本申请在数据收集与处理中设计了一种信息数据时间表来存放数据，并采用单分类支持向量机来检测数据的正确性，通过临近均值的方法完善数据。

3.本申请在信息搜索上采用了知识图谱来提取大规模、精细化、多尺度数据的内在联系，通过聚类将相关性较强的抽象高维信息连接，方便临近搜索。

4.本申请考虑到用户的访问与反馈，通过长短期记忆网络实现融合特定用户的搜索习惯、搜索历史，以便对其做出精准搜索，反馈优化机制也能保证搜索结果更加符合用户的搜索习惯。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

一种面向城市决策和评估的多尺度信息目录构建系统，其特征在于，包括：

数据收集模块，用于在收集原始数据过程中，将收集的原始数据按照时间、领域进行记录；

数据预处理模块，用于所述原始数据的异常值、缺失值进行智能处理，并对多尺度、多领域的数据进行交叉式融合，填补缺失值降低冗余性；

搜索工具模块，用于对数据进行高维提炼，拓展出数据背后的相关性并对其进行关联，将关联度较高的信息聚类；

数据访问与反馈模块，用于根据不同用户历史的访问信息与反馈信息，通过人工智能自动学习未被发现的数据信息相关性，并将新学习的数据信息相关性反馈到所述数据收集模块；

所述数据收集模块、数据预处理模块、搜索工具模块及数据访问与反馈模块依次连接，所述数据访问与反馈模块与所述数据收集模块连接。
根据权利要求1所述的面向城市决策和评估的多尺度信息目录构建系统，其特征在于，所述数据收集模块包括：

时间记录子模块，用于在所述原始数据收集过程中，将收集到的单个部门提交的原始数据记录为单一的时间序列；

多信息协同子模块，用于将单个部门提交的同一领域的多种数据进行简易标签标注。
根据权利要求2所述的面向城市决策和评估的多尺度信息目录构建系统，其特征在于，所述在所述原始数据收集过程中，将收集到的单个部门提交的原始数据记录为单一的时间序列具体为：

构建信息数据时间表，所述时间表包含数据信息、时间信息、预留该数据的标签信息位置；

所述多信息协同子模块通过扫描数据得到简易标签，并填到所述时间表中。
根据权利要求1所述的面向城市决策和评估的多尺度信息目录构建系统，其特征在于，所述数据预处理模块包括：

异常值修正子模块，用于对所述原始数据的异常值、缺失值做出自动化检测，标记该类数据并采用临近均值的方法进行临时填充；

数据融合子模块，用于对多尺度、多领域标签相似的数据进行交叉式融合，填补缺失值降低冗余性。
根据权利要求4所述的面向城市决策和评估的多尺度信息目录构建系统，其特征在于，所述标记该类数据并采用临近均值的方法进行临时填充具体为：

通过单分类支持向量机的技术进行做出自动化检测。
根据权利要求1所述的面向城市决策和评估的多尺度信息目录构建系统，其特征在于，所述对数据进行高维提炼，拓展出数据背后的相关性并对其进行关联，将关联度较高的信息聚类具体为：

通过采用知识图谱技术寻找数据中的内在联系并提取出来。
根据权利要求1所述的面向城市决策和评估的多尺度信息目录构建系统，其特征在于，所述数据访问与反馈模块包括：

历史访问信息模块，用于将用户访问的历史信息保存，并结合该历史信息更新当前的搜索结果。
根据权利要求7所述的面向城市决策和评估的多尺度信息目录构建系统，其特征在于，通过使用长短期记忆网络设计所述历史访问信息模块；

所述长短期记忆网络对单独的用户指定精确的搜索建议，通过记录每一次搜索的反馈来完善所述长短期记忆网络的搜索算法。
根据权利要求8所述的面向城市决策和评估的多尺度信息目录构建系统，其特征在于，所述长短期记忆网络根据查阅时间的长短来判断所述搜索建议的相关度。
根据权利要求1-9任意一项的所述的面向城市决策和评估的多尺度信息目录构建系统，其特征在于，所述数据收集模块、数据预处理模块、搜索工具模块及数据访问与反馈模块通过主板连接。