WO2023016192A1 - 一种防止泄露敏感信息的数据共享开放方法及系统 - Google Patents

一种防止泄露敏感信息的数据共享开放方法及系统 Download PDF

Info

Publication number
WO2023016192A1
WO2023016192A1 PCT/CN2022/106225 CN2022106225W WO2023016192A1 WO 2023016192 A1 WO2023016192 A1 WO 2023016192A1 CN 2022106225 W CN2022106225 W CN 2022106225W WO 2023016192 A1 WO2023016192 A1 WO 2023016192A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
sensitive information
task
processing
sharing
Prior art date
Application number
PCT/CN2022/106225
Other languages
English (en)
French (fr)
Inventor
马昌军
李毅
沈自然
徐斌
Original Assignee
南京莱斯网信技术研究院有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 南京莱斯网信技术研究院有限公司 filed Critical 南京莱斯网信技术研究院有限公司
Publication of WO2023016192A1 publication Critical patent/WO2023016192A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Definitions

  • the first aspect of the present invention discloses a data sharing and opening method for preventing leakage of sensitive information, including:
  • S5. Provide data sharing and opening services based on the processed data and data sharing and opening rules.
  • step S1 includes:
  • the sensitive attribute includes whether the data information item contains sensitive information, the type of sensitive information, and the sensitivity level.
  • the determination of data sensitive attributes is usually based on personal experience, combined with the attributes of the data itself and the business background, which has the disadvantages of inefficiency, non-objectiveness, and non-uniform scale.
  • a standardized judgment model can be generated to solve the above-mentioned problems of manual calibration.
  • labels are used to calibrate the sensitive attributes of each information item of the data, and the sensitive attributes of each single information item can be calibrated; Sensitive information is calibrated.
  • Sensitive information may be included in a single item of information, such as personal contact information; it may also be included in a combination of specific information items, such as a piece of information that includes attributes such as ID number, place of origin, and date of birth, even if the The rules have desensitized the relevant positions of the ID number, and it is still possible to uniquely determine the natural person associated with the record from the desensitized data combined with the place of origin and date of birth information, which will lead to the leakage of personal sensitive information.
  • For the form of sensitive information that combines multiple information items it is easy to ignore manual verification and calibration, but by solidifying it into the data calibration module, the accuracy of sensitive information discovery can be improved.
  • the task types of the data processing tasks in the step S3 include offline processing tasks and real-time processing tasks, and the offline processing tasks can periodically perform data processing on raw data to obtain static data, And store the static data in the database or file system, the static data can be directly shared or opened to the outside world;
  • the real-time processing task refers to the dynamic execution of data processing tasks when receiving data sharing or data opening requests, obtaining dynamic data, and submitting requests to The party sends dynamic data;
  • the data processing task is scheduled and executed by the system according to the task type.
  • the task type is an offline processing task
  • the offline processing task is executed to generate static data
  • the task type is a real-time processing task
  • the data sharing or opening requests perform real-time processing tasks, generate dynamic data, and send dynamic data to the requesting party.
  • the second aspect provides an open data sharing system that prevents sensitive information from leaking, including an original data repository, a metadata repository, a data calibration module, a rule management module, a task management module, a data processing module, a data sharing website, and a data open site,
  • the metadata repository is used to save metadata information, including data format, storage method, access method, whether it can be shared, whether it can be opened, and the tag data generated after analysis by the data calibration module.
  • the tag data includes whether Contains sensitive information, sensitive information type and sensitivity level;
  • the data calibration module is connected with the original data repository, the metadata repository and the rule management module, and is used to identify and calibrate the sensitive information contained in the original data, the type of sensitive information, and the sensitivity level;
  • the rule management module is connected with the data calibration module and the metadata storage library, and is used to generate a data processing rule library according to the calibration results;
  • the task management module is connected with the rule management module and the data processing module, and is used to generate data processing tasks according to the data processing rule base, and manage the data processing tasks;
  • the task types of the data processing tasks include offline processing tasks and real-time processing tasks; said management includes starting, stopping and scheduling tasks;
  • the data processing module is connected to the original data storage library, and is connected to the data sharing website and the data opening website through a network isolation device; the data processing module is used to receive the scheduling of the task management module, and perform offline processing tasks or real-time processing tasks ;
  • the data sharing website displays the shared database, shared data file system and shared data service interface on the website in the form of a data resource directory, and provides data application/authorization, online/offline, authority management, traffic management and log Audit function.
  • the open data website displays open databases, open data file systems and open data service interfaces on the website in the form of a data resource directory, and provides data application/authorization, online/offline, authority management, traffic management and log Audit function.
  • the rule management module includes a rule engine that matches corresponding data processing rules according to the data storage mode and shared open attributes by reading the sensitive information metadata in the metadata repository.
  • the open data sharing method and system for preventing leakage of sensitive information described in the present invention can automatically identify the sensitive information, sensitive information type and sensitivity level contained in the original data, and combine machine learning, rule engine and other technical means to automatically generate data processing task, and provide data sharing and data opening services based on the processed data.
  • efficient and automatic data sharing and opening can be realized, and private data can be well protected from being disclosed.
  • FIG. 2 is a flowchart of a data sharing and opening method for preventing leakage of sensitive information according to an embodiment of the present invention.
  • the first embodiment of the present invention discloses a data sharing and opening method for preventing leakage of sensitive information, as shown in FIG. 2 , including:
  • S5. Provide data sharing and opening services based on the processed data and the data sharing and opening rules.
  • the data sharing and opening rules are set according to business needs, including unconditional sharing and opening, only some fields can be shared and opened, and fields need to be desensitized. Shareable and open etc.
  • the specific execution method of the step S1 is as follows:
  • a decision tree algorithm may be used as an optional implementation manner.
  • the decision tree is a simple and widely used classifier.
  • the training set is constructed by quantifying the business attributes of the data, whether the data contains sensitive information in the corresponding business scenario, the type of sensitive information, and the sensitivity level Form a decision tree. And in the process of use, the sensitive attributes of data in new business scenarios can be continuously added to the training set, and the decision tree can be continuously improved to improve the robustness of the decision tree.
  • the sensitive attribute includes whether the data information item contains sensitive information, the type of sensitive information, and the sensitivity level.
  • step S103 labels are used to mark the sensitive attributes of each information item in the data, and the sensitive attributes of each single information item can be marked; the sensitive attributes included in the combination of multiple information items can also be information to calibrate.
  • the data processing task in step S3 includes more than one subtask, extraction task and data loading task, and the subtasks are used to process data according to a processing rule in the data processing rule base,
  • the data processing includes sensitive information desensitization, encryption, deformation and replacement;
  • the extraction task is used to extract the original data, and the data loading task is used to output the processed data to a file, database or data warehouse, etc.
  • the specific execution method of the step S3 is as follows:
  • the task types of the data processing tasks in step S3 include offline processing tasks and real-time processing tasks, and the offline processing tasks can periodically perform data processing on raw data to obtain static data, and Static data is stored in the database or file system, and the static data can be directly shared or opened to the outside world;
  • the real-time processing task means that when a data sharing or data opening request is received, the data processing task is dynamically performed to obtain dynamic data and send it to the requesting party. dynamic data;
  • the second embodiment of the present invention discloses an open data sharing system that prevents sensitive information from leaking, as shown in Figure 1, including an original data repository, a metadata repository, a data calibration module, a rule management module, a task management module, a data processing Modules, data sharing websites and data open websites:
  • the original data repository is used to save the original data that needs to be shared or opened, and the original data includes structured data, semi-structured data and unstructured data.
  • Metadata repository used to save metadata information, including data format, storage method, access method, whether it can be shared, whether it can be opened, and the tag data generated after analysis by the data calibration module, such as whether it contains sensitive information, sensitive information type, sensitivity level, etc.
  • the data calibration module is connected with the original data repository, the metadata repository and the rule management module, and is used to identify and calibrate the sensitive information contained in the original data, the type of sensitive information and the sensitivity level;
  • the rule management module is connected with the data calibration module and the metadata storage library, and is used to generate a data processing rule base according to the calibration results;
  • the task management module is connected with the rule management module and the data processing module, and is used to generate data processing tasks according to the data processing rule base, and manage the data processing tasks;
  • the task types of the data processing tasks include offline processing tasks and real-time processing tasks;
  • Said management includes starting, stopping and scheduling of tasks;
  • the data processing module is connected to the original data storage library, and is connected to the data sharing website and the data opening website through a network isolation device; the data processing module is a computing engine for data processing tasks, and is used to receive the scheduling of the task management module and perform Related offline or real-time data processing work.
  • the data is converted and stored in the shared library, open library or file system corresponding to the shared open website in the form of files; for real-time tasks, the data service interface can be generated according to the configuration, and the corresponding interface can be implemented in the background, and the The service interface is registered to a shared website or an open website to provide services externally.
  • data sharing websites are used to exchange data or provide data services between various departments within the government or their affiliated units; open data websites are used to provide data or data services to the public.
  • the data calibration module includes a sensitive data analysis model, through machine learning and model training, to collect and analyze raw data, and determine whether each raw data contains sensitive information, sensitive information type and sensitivity level, and Generate corresponding tags and save to metadata repository.
  • the data sharing website, open website data and data processing modules are physically isolated through isolation equipment to prevent unauthorized or unprocessed data from being shared or opened, and to protect the data contained in the original data. Sensitive information is not disclosed.
  • the data sharing website, data open website, original data repository, metadata repository, data calibration module, task management module, data processing module and raw data are physically isolated, and data exchange is realized through a one-way gatekeeper and security equipment to Further reduce the risk of sensitive information being leaked.
  • the present invention provides a method and system for data sharing and opening to prevent sensitive information from being leaked. There are many methods and approaches for realizing this technical solution.
  • the above description is only a specific implementation of the present invention.
  • some improvements and modifications can also be made, and these improvements and modifications should also be regarded as the protection scope of the present invention. All components that are not specified in this embodiment can be realized by existing technologies.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Storage Device Security (AREA)

Abstract

一种防止泄露敏感信息的数据共享开放方法及系统,系统包括原始数据存储库、元数据存储库、数据标定模块、任务管理模块、数据处理模块、数据共享网站和数据开放网站。该方法包括对原始数据所包含的信息敏感进行识别并标定;根据标定结果生成数据处理规则;根据数据处理规则生成数据处理任务;执行处理任务对原始数据所包含的敏感信息进行处理;基于处理后的数据对外提供数据共享和开放服务。该方法及系统能够有效识别数据中的敏感信息,并自动将转换后的数据抽取到物理隔离的共享库、开放库对外提供数据服务,或以数据服务接口的形式对外提供数据共享开放服务,可有效避免敏感信息泄露,且具有极高的处理效率。

Description

一种防止泄露敏感信息的数据共享开放方法及系统 技术领域
本发明属于数据共享开放技术领域,尤其涉及一种防止泄露敏感信息的数据共享开放方法及系统。
背景技术
随着信息化发展不断深入,不同系统、不同组织或者不同个体之间必然存在数据共享开放的需求。数据流通成为数据时代中释放数据红利和价值主要手段和途径。
而数据共享不可避免涉及到敏感信息保护的问题,如个人隐私信息、商业敏感信息等,如果不进行处理,会存在敏感信息泄露的风险。
目前主要的数据共享、数据开放过程是经过申请、审核、授权访问的形式,通过人工识别敏感信息、判定数据的共享范围和共享形式、配置数据脱敏方法等。
而随着数据共享开放的需求越来越广泛,上述方式存在效率低下、审查尺度难以统一等问题,因而会导致诸多问题,如:人工效率低下,周期过长;存在审核不严、导致敏感数据泄露的风险;惧怕担责,导致数据不敢共享等。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种防止泄露敏感信息的数据共享开放方法及系统。
为了解决上述技术问题,本发明第一方面公开了一种防止泄露敏感信息的数据共享开放方法,包括:
S1、对原始数据所包含的敏感信息进行识别并标定;
S2、根据标定结果生成数据处理规则库;
S3、根据数据处理规则库生成数据处理任务;
S4、执行数据处理任务,对原始数据所包含的敏感信息进行处理;
S5、基于处理后的数据和数据共享开放规则对外提供数据共享和开放服务。
结合第一方面,进一步的,所述的步骤S1包括:
S101、对原始数据进行抽样;
S102、结合机器学习算法,判断抽样数据是否包含敏感信息,以及所述敏感信息 的敏感信息类型和敏感等级等。如数据是否包含个人身份证号、个人联系方式、个人地址、银行卡号等。
S103、根据判断结果,使用标签对数据各信息项的敏感属性进行标定;所述敏感属性包括数据信息项是否包含敏感信息、敏感信息类型以及敏感等级。
数据敏感属性的判定,通常根据个人经验、结合数据本身的属性和业务背景综合判断,具有低效、不客观、尺度不统一等缺点。而采用机器学习的方法,经过训练,可以生成一个标准化的判定模型,从而解决人工标定的上述问题。
结合第一方面,进一步的,所述的步骤S103中使用标签对数据各信息项的敏感属性进行标定,可对各单信息项的敏感属性进行标定;也可以对多个信息项的组合所包含的敏感信息进行标定。
敏感信息既有可能包含在单个信息项中,如个人联系方式;也可能包含在一些特定的信息项的组合中,如一条信息中同时包含了身份证号码、籍贯和出生日期等属性,即使按照规则对身份证号相关位置进行了脱敏,仍然有可能从脱敏后的数据结合籍贯和出生日期信息唯一确定该条记录所关联的自然人个体,即导致个人敏感信息的泄露。对于多个信息项组合的敏感信息形式,人工审核标定极容易忽略,而通过固化到数据标定模块中,则可以提高敏感信息发现的准确率。
结合第一方面,进一步的,所述的步骤S2根据标定结果,结合机器学习算法,制定数据处理规则,形成数据处理规则库;所述数据处理规则包括数据脱敏、变形、字段屏蔽、字符串替换等。
结合第一方面,进一步的,所述的步骤S3中数据处理任务包括一个以上的子任务、抽取任务和数据加载任务,所述子任务用于根据数据处理规则库中的一条处理规则对数据进行处理,所述对数据进行处理包括敏感信息脱敏、加密、变形和替换;所述抽取任务用于抽取原始数据,所述数据加载任务用于对处理后的数据输出到文件、数据库或数据仓库等,供数据共享和开放使用;
步骤S3包括:
S301、根据数据处理规则库中的每一条处理规则,生成对数据进行处理的一个子任务;
S302、将一个以上的子任务连接在一起,并在第一个子任务前增加数据抽取任务、 在最后一个子任务后增加数据加载任务,生成数据处理任务。
结合第一方面,进一步的,所述的步骤S3中的数据处理任务的任务类型包括离线处理任务和实时处理任务,所述离线处理任务能够周期性地对原始数据进行数据处理,获得静态数据,并将静态数据存入数据库或文件系统,静态数据能够直接对外共享或开放;所述实时处理任务指在收到数据共享或数据开放请求时,动态执行数据处理任务,获得动态数据,并向请求方发送动态数据;
所述的步骤S4中,数据处理任务根据任务类型由系统调度执行,当任务类型为离线处理任务时,则执行离线处理任务,生成静态数据;当任务类型为实时处理任务时,则在收到数据共享或开放请求时,执行实时处理任务,生成动态数据,并向请求方发送动态数据。
第二方面,提供了一种防止泄露敏感信息的数据共享开放系统,包括原始数据存储库、元数据存储库、数据标定模块、规则管理模块、任务管理模块、数据处理模块、数据共享网站和数据开放网站,
所述原始数据存储库,用于保存需要被共享或开放的原始数据,所述原始数据包括结构化的数据、半结构化数据和非结构化数据;
所述元数据存储库,用于保存元数据信息,包括数据格式、存储方式、访问方式,是否可以共享、是否可以开放,以及经数据标定模块分析后生成的标签数据,所述标签数据包括是否包含敏感信息、敏感信息类型和敏感等级;
所述数据标定模块,与原始数据存储库、元数据存储库和规则管理模块连接,用于对原始数据所包含的敏感信息、敏感信息类型和敏感等级进行识别并标定;
所述规则管理模块,与数据标定模块、元数据存储库连接,用于根据标定结果生成数据处理规则库;
所述任务管理模块,与规则管理模块和数据处理模块连接,用于根据数据处理规则库生成数据处理任务,对数据处理任务进行管理;所述数据处理任务的任务类型包括离线处理任务和实时处理任务;所述管理包括任务的启动、停止和调度;
所述数据处理模块,与原始数据存储库连接,并通过网络隔离设备与数据共享网站和数据开放网站连接;所述数据处理模块用于接收任务管理模块的调度,执行离线处理任务或实时处理任务;
所述数据共享网站,以数据资源目录的形式,将共享数据库、共享数据文件系统和共享数据服务接口展现在网站上,并提供数据申请/授权、上线/下线、权限管理、流量管理和日志审计功能。
所述数据开放网站,以数据资源目录的形式,将开放数据库、开放数据文件系统和开放数据服务接口展现在网站上,并提供数据申请/授权、上线/下线、权限管理、流量管理和日志审计功能。
结合第二方面,进一步的,所述数据标定模块包含一个敏感数据分析模型,通过机器学习和模型训练,实现采集分析原始数据,并判定各原始数据是否包含敏感信息、敏感信息类型和敏感等级,并生成相应的标签,保存到元数据存储库。
结合第二方面,进一步的,所述规则管理模块,包含一个规则引擎,通过读取元数据存储库中的敏感信息元数据,根据数据存储方式和共享开放属性,匹配对应的数据处理规则。
结合第二方面,进一步的,数据共享网站、数据开放网站、原始数据存储库、元数据存储库、数据标定模块、任务管理模块、数据处理模块及原始数据是物理隔离的,通过单向网闸和安全设备实现数据交换,以进一步降低敏感信息被泄露的风险。
有益效果:
本发明所述的防止泄露敏感信息的数据共享开放方法及系统可以自动识别原始数据中所包含的敏感信息、敏感信息类型和敏感等级,并结合机器学习、规则引擎等技术手段,自动生成数据处理任务,并基于处理后的数据提供数据共享和数据开放服务。借助该方法及系统实现高效自动化的数据共享和开放,且能很好的保护隐私数据不被泄露。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1为本发明实施例所述的一种防止泄漏敏感信息的数据共享开放系统结构图。
图2为本发明实施例所述的一种防止泄漏敏感信息的数据共享开放方法处理流程图。
具体实施方式
下面将结合附图,对本发明的实施例进行描述。
本发明第一实施例公开一种防止泄露敏感信息的数据共享开放方法,如图2所示,包括:
S1、对原始数据所包含的敏感信息进行识别并标定;
S2、根据标定结果生成数据处理规则库;
S3、根据数据处理规则库生成数据处理流程和任务;
S4、执行数据处理任务,对原始数据所包含的敏感信息进行处理;
S5、基于处理后的数据和数据共享开放规则对外提供数据共享和开放服务,所述数据共享开放规则根据业务需要设置,包括无条件共享开放、仅部分字段可共享开放和需对字段进行脱敏后方可共享开放等。
第一实施例中,所述的步骤S1的具体执行方法如下:
S101、对原始数据进行抽样;所述原始数据包括结构化的数据、半结构化数据和非结构化数据,对于结构化数据,不同数据的相同列,其数据格式、含义等都是一样的,仅需要抽样即可获取其数据属性;对于非结构化数据,需要进行全文扫描和标定。
S102、结合机器学习算法,判断抽样的数据是否包含敏感信息,以及所述敏感信息的敏感信息类型和敏感等级等,如数据是否包含个人身份证号、个人联系方式、个人地址、银行卡号等。本实施例中,可以使用分类技术对抽样的数据进行分类管理,通过机器学习引擎,实施有监督机器学习,最终实现自动标定抽样数据的敏感属性。
在本实施例中,可以使用决策树算法作为一种可选实现方式。决策树是一种简单而又被广泛使用的分类器,具体实施中,通过对数据的业务属性、对应业务场景中该数据是否包含敏感信息、敏感信息类型以及敏感等级进行量化,来构建训练集形成决策树。并可以在使用过程中,持续将新的业务场景中数据的敏感属性加入训练集,对决策树持续改进以提高决策树的鲁棒性。
S103、根据判断结果,使用标签对数据各信息项的敏感属性进行标定;所述敏感属性包括数据信息项是否包含敏感信息、敏感信息类型以及敏感等级。
第一实施例中,所述的步骤S103中使用标签对数据各信息项的敏感属性进行标定,可对各单信息项的敏感属性进行标定;也可以对多个信息项的组合所包含的敏感信息进行标定。
第一实施例中,所述的步骤S2根据标定结果,结合机器学习算法制定数据处理规则库。所述数据处理规则包括数据脱敏、变形、字段屏蔽和字符串替换等;本实施例中,可以采用决策树算法作为一种可选的实现方式。将数据的敏感属性、各类数据处理规则对敏感信息的保护效果等进行量化,实施有监督学习形成决策树,并持续把新的数据处理规则加入训练集。
第一实施例中,所述的步骤S3中数据处理任务包括一个以上的子任务、抽取任务和数据加载任务,所述子任务用于根据数据处理规则库中的一条处理规则对数据进行处理,所述对数据进行处理包括敏感信息脱敏、加密、变形和替换;所述抽取任务用于抽取原始数据,所述数据加载任务用于对处理后的数据输出到文件、数据库或数据仓库等,供数据共享和开放使用;
所述的步骤S3的具体执行方法如下:
S301、根据数据处理规则库中的每一条处理规则,生成对数据进行处理的一个子任务;
S302、将一个以上的子任务连接在一起,并在第一个子任务前增加数据抽取任务、在最后一个子任务后增加数据加载任务,生成数据处理任务。
第一实施例中,所述的步骤S3中的数据处理任务的任务类型包括离线处理任务和实时处理任务,所述离线处理任务能够周期性地对原始数据进行数据处理,获得静态数据,并将静态数据存入数据库或文件系统,静态数据能够直接对外共享或开放;所述实时处理任务指在收到数据共享或数据开放请求时,动态执行数据处理任务,获得动态数据,并向请求方发送动态数据;
所述的步骤S4中,数据处理任务根据任务类型由系统调度执行,当任务类型为离线处理任务时,则执行离线处理任务,生成静态数据;当任务类型为实时处理任务时,则在收到数据共享或开放请求时,执行实时处理任务,生成动态数据,并向请求方发送动态数据。
本发明第二实施例公开一种防止泄露敏感信息的数据共享开放系统,如图1所示,包括原始数据存储库、元数据存储库、数据标定模块、规则管理模块、任务管理模块、数据处理模块、数据共享网站和数据开放网站:
原始数据存储库,用于保存需要被共享或开放的原始数据,所述原始数据包括结 构化的数据、半结构化数据和非结构化数据。
元数据存储库,用于保存元数据信息,包括数据格式、存储方式、访问方式,是否可以共享、是否可以开放,以及经数据标定模块分析后生成的标签数据,如是否包含敏感信息、敏感信息类型、敏感等级等。
数据标定模块,与原始数据存储库、元数据存储库和规则管理模块连接,用于对原始数据所包含的敏感信息、敏感信息类型和敏感等级进行识别并标定;
规则管理模块,与数据标定模块、元数据存储库连接,用于根据标定结果生成数据处理规则库;
任务管理模块,与规则管理模块、数据处理模块连接,用于根据数据处理规则库生成数据处理任务,对数据处理任务进行管理;所述数据处理任务的任务类型包括离线处理任务和实时处理任务;所述管理包括任务的启动、停止和调度;
数据处理模块,与原始数据存储库连接,并通过网络隔离设备与数据共享网站和数据开放网站连接;所述数据处理模块是数据处理任务的计算引擎,用于接收任务管理模块的调度,并进行相关的离线或实时数据处理工作。对于离线任务,把数据转换后存入共享库、开放库或者以文件形式存入共享开放网站对应的文件系统;对于实时任务,可根据配置生成数据服务接口,和对应的接口后台实现,并将服务接口注册到共享网站或开放网站以对外提供服务。
数据共享网站,以数据资源目录的形式,把共享数据库、共享数据文件系统和共享数据服务接口展现在网站上,并提供数据申请/授权、上线/下线、权限管理、流量管理、日志审计等流程和功能。
数据开放网站,以数据资源目录的形式,把开放数据库、开放数据文件系统和开放数据服务接口展现在网站上,并提供数据申请/授权、上线/下线、权限管理、流量管理、日志审计等流程和功能。
例如,针对政务数据处理,数据共享网站用于将政府内部各部门或其所属单位之间的数据交换或提供数据服务;数据开放网站用于面向社会公众提供数据或数据服务。
第二实施例中,所述的数据标定模块包含一个敏感数据分析模型,通过机器学习和模型训练,实现采集分析原始数据,并判定各原始数据是否包含敏感信息、敏感信息类型和敏感等级,并生成相应的标签,保存到元数据存储库。
第二实施例中,所述的规则管理模块,包含一个规则引擎,通过读取元数据存储库中的敏感信息元数据,根据数据的存储类型和共享开放属性,匹配对应的数据处理规则。
第二实施例中,所述的数据共享网站、开放网站数据和数据处理模块之间通过隔离设备实现物理隔离,防止未经授权或未经处理的数据被共享或开放,保护原始数据所包含的敏感信息不被泄露。
数据共享网站、数据开放网站、原始数据存储库、元数据存储库、数据标定模块、任务管理模块、数据处理模块及原始数据是物理隔离的,通过单向网闸和安全设备实现数据交换,以进一步降低敏感信息被泄露的风险。
本发明提供了一种防止泄露敏感信息的数据共享开放方法及系统,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (10)

  1. 一种防止泄露敏感信息的数据共享开放方法,其特征在于,包括:
    S1、对原始数据所包含的敏感信息进行识别并标定;
    S2、根据标定结果生成数据处理规则库;
    S3、根据数据处理规则库生成数据处理任务;
    S4、执行数据处理任务,对原始数据所包含的敏感信息进行处理;
    S5、基于处理后的数据和数据共享开放规则对外提供数据共享和开放服务。
  2. 根据权利要求1所述的一种防止泄露敏感信息的数据共享开放方法,其特征在于,所述的步骤S1包括:
    S101、对原始数据进行抽样;
    S102、结合机器学习算法,判断抽样数据是否包含敏感信息,以及所述敏感信息的敏感信息类型和敏感等级;
    S103、根据判断结果,使用标签对数据各信息项的敏感属性进行标定;所述敏感属性包括数据信息项是否包含敏感信息、敏感信息类型以及敏感等级。
  3. 根据权利要求2所述的一种防止泄露敏感信息的数据共享开放方法,其特征在于,所述的步骤S103中使用标签对数据各信息项的敏感属性进行标定,可对各单信息项的敏感属性进行标定;也可以对多个信息项的组合所包含的敏感信息进行标定。
  4. 根据权利要求1所述的一种防止泄露敏感信息的数据共享开放方法,其特征在于,所述的步骤S2根据标定结果,结合机器学习算法,制定数据处理规则,形成数据处理规则库;所述数据处理规则包括数据脱敏、变形、字段屏蔽和字符串替换。
  5. 根据权利要求1所述的一种防止泄露敏感信息的数据共享开放方法,其特征在于,所述的步骤S3中数据处理任务包括一个以上的子任务、抽取任务和数据加载任务,所述子任务用于根据数据处理规则库中的一条处理规则对数据进行处理,所述对数据进行处理包括敏感信息脱敏、加密、变形和替换;所述抽取任务用于抽取原始数据,所述数据加载任务用于对处理后的数据输出到文件、数据库或数据仓库,供数据共享和开放使用;
    所述步骤S3包括:
    S301、根据数据处理规则库中的每一条处理规则,生成对数据进行处理的一个子任务;
    S302、将一个以上的子任务连接在一起,并在第一个子任务前增加数据抽取任务、在最后一个子任务后增加数据加载任务,生成数据处理任务。
  6. 根据权利要求1所述的一种防止泄露敏感信息的数据共享开放方法,其特征在于,所述的步骤S3中的数据处理任务的任务类型包括离线处理任务和实时处理任务,所述离线处理任务能够周期性地对原始数据进行数据处理,获得静态数据,并将静态数据存入数据库或文件系统,静态数据能够直接对外共享或开放;所述实时处理任务指在收到数据共享或数据开放请求时,动态执行数据处理任务,获得动态数据,并向请求方发送动态数据;
    所述的步骤S4中,数据处理任务根据任务类型由系统调度执行,当任务类型为离线处理任务时,则执行离线处理任务,生成静态数据;当任务类型为实时处理任务时,则在收到数据共享或开放请求时,执行实时处理任务,生成动态数据,并向请求方发送动态数据。
  7. 一种防止泄露敏感信息的数据共享开放系统,其特征在于,包括原始数据存储库、元数据存储库、数据标定模块、规则管理模块、任务管理模块、数据处理模块、数据共享网站和数据开放网站,
    所述原始数据存储库,用于保存需要被共享或开放的原始数据,所述原始数据包括结构化的数据、半结构化数据和非结构化数据;
    所述元数据存储库,用于保存元数据信息,包括数据格式、存储方式、访问方式,是否可以共享、是否可以开放,以及经数据标定模块分析后生成的标签数据,所述标签数据包括是否包含敏感信息、敏感信息类型和敏感等级;
    所述数据标定模块,与原始数据存储库、元数据存储库和规则管理模块连接,用于对原始数据所包含的敏感信息、敏感信息类型和敏感等级进行识别并标定;
    所述规则管理模块,与数据标定模块、元数据存储库连接,用于根据标定结果生成数据处理规则库;
    所述任务管理模块,与规则管理模块和数据处理模块连接,用于根据数据处理规则库生成数据处理任务,对数据处理任务进行管理;所述数据处理任务的任务类型包括离线处理任务和实时处理任务;所述管理包括任务的启动、停止和调度;
    所述数据处理模块,与原始数据存储库连接,并通过网络隔离设备与数据共享网 站和数据开放网站连接;所述数据处理模块用于接收任务管理模块的调度,执行离线处理任务或实时处理任务;
    所述数据共享网站,以数据资源目录的形式,将共享数据库、共享数据文件系统和共享数据服务接口展现在网站上,并提供数据申请/授权、上线/下线、权限管理、流量管理和日志审计功能;
    所述数据开放网站,以数据资源目录的形式,将开放数据库、开放数据文件系统和开放数据服务接口展现在网站上,并提供数据申请/授权、上线/下线、权限管理、流量管理和日志审计功能。
  8. 根据权利要求7所述的一种防止泄露敏感信息的数据共享开放系统,其特征在于,所述数据标定模块包含一个敏感数据分析模型,通过机器学习和模型训练,实现采集分析原始数据,并判定各原始数据是否包含敏感信息、敏感信息类型和敏感等级,并生成相应的标签,保存到元数据存储库。
  9. 根据权利要求7所述的一种防止泄露敏感信息的数据共享开放系统,其特征在于,所述规则管理模块,包含一个规则引擎,通过读取元数据存储库中的敏感信息元数据,根据数据存储方式和共享开放属性,匹配对应的数据处理规则。
  10. 根据权利要求7所述的一种防止泄露敏感信息的数据共享开放系统,其特征在于,数据共享网站、数据开放网站、原始数据存储库、元数据存储库、数据标定模块、任务管理模块、数据处理模块及原始数据是物理隔离的,通过单向网闸和安全设备实现数据交换。
PCT/CN2022/106225 2021-08-11 2022-07-18 一种防止泄露敏感信息的数据共享开放方法及系统 WO2023016192A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110917980.1 2021-08-11
CN202110917980.1A CN113626865A (zh) 2021-08-11 2021-08-11 一种防止泄露敏感信息的数据共享开放方法及系统

Publications (1)

Publication Number Publication Date
WO2023016192A1 true WO2023016192A1 (zh) 2023-02-16

Family

ID=78384299

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/106225 WO2023016192A1 (zh) 2021-08-11 2022-07-18 一种防止泄露敏感信息的数据共享开放方法及系统

Country Status (2)

Country Link
CN (1) CN113626865A (zh)
WO (1) WO2023016192A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117077201A (zh) * 2023-08-30 2023-11-17 国网山东省电力公司德州供电公司 一种基于多域联合的高密级数据共享防泄漏方法及系统
CN117708847A (zh) * 2023-12-04 2024-03-15 广州智租信息科技有限责任公司 基于数据压缩与加密的3c产品租赁平台数据处理方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113626865A (zh) * 2021-08-11 2021-11-09 南京莱斯网信技术研究院有限公司 一种防止泄露敏感信息的数据共享开放方法及系统
CN114238280A (zh) * 2021-12-20 2022-03-25 中电金信软件有限公司 构建金融敏感信息标准库的方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170206365A1 (en) * 2016-01-15 2017-07-20 FinLocker LLC Systems and/or methods for enabling cooperatively-completed rules-based data analytics of potentially sensitive data
CN107480549A (zh) * 2017-06-28 2017-12-15 银江股份有限公司 一种面向数据共享的敏感信息脱敏方法及系统
CN108304726A (zh) * 2017-01-13 2018-07-20 中国移动通信集团贵州有限公司 数据脱敏方法和装置
CN109344258A (zh) * 2018-11-28 2019-02-15 中国电子科技网络信息安全有限公司 一种智能化自适应敏感数据识别系统及方法
CN110851860A (zh) * 2019-10-23 2020-02-28 国网天津市电力公司电力科学研究院 一种基于匿名化隐私技术的用电数据脱敏算法模型构建方法
CN113626865A (zh) * 2021-08-11 2021-11-09 南京莱斯网信技术研究院有限公司 一种防止泄露敏感信息的数据共享开放方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529329A (zh) * 2016-10-11 2017-03-22 中国电子科技网络信息安全有限公司 一种用于大数据的脱敏系统及脱敏方法
CN111400765B (zh) * 2020-03-25 2021-11-02 支付宝(杭州)信息技术有限公司 一种隐私数据的访问方法、装置及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170206365A1 (en) * 2016-01-15 2017-07-20 FinLocker LLC Systems and/or methods for enabling cooperatively-completed rules-based data analytics of potentially sensitive data
CN108304726A (zh) * 2017-01-13 2018-07-20 中国移动通信集团贵州有限公司 数据脱敏方法和装置
CN107480549A (zh) * 2017-06-28 2017-12-15 银江股份有限公司 一种面向数据共享的敏感信息脱敏方法及系统
CN109344258A (zh) * 2018-11-28 2019-02-15 中国电子科技网络信息安全有限公司 一种智能化自适应敏感数据识别系统及方法
CN110851860A (zh) * 2019-10-23 2020-02-28 国网天津市电力公司电力科学研究院 一种基于匿名化隐私技术的用电数据脱敏算法模型构建方法
CN113626865A (zh) * 2021-08-11 2021-11-09 南京莱斯网信技术研究院有限公司 一种防止泄露敏感信息的数据共享开放方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117077201A (zh) * 2023-08-30 2023-11-17 国网山东省电力公司德州供电公司 一种基于多域联合的高密级数据共享防泄漏方法及系统
CN117077201B (zh) * 2023-08-30 2024-03-29 国网山东省电力公司德州供电公司 一种基于多域联合的高密级数据共享防泄漏方法及系统
CN117708847A (zh) * 2023-12-04 2024-03-15 广州智租信息科技有限责任公司 基于数据压缩与加密的3c产品租赁平台数据处理方法

Also Published As

Publication number Publication date
CN113626865A (zh) 2021-11-09

Similar Documents

Publication Publication Date Title
WO2023016192A1 (zh) 一种防止泄露敏感信息的数据共享开放方法及系统
US11036771B2 (en) Data processing systems for generating and populating a data inventory
US10282370B1 (en) Data processing systems for generating and populating a data inventory
US20160210470A1 (en) Record level data security
CN111639914A (zh) 区块链案件信息管理方法、装置、电子设备和存储介质
US11687650B2 (en) Utilization of deceptive decoy elements to identify data leakage processes invoked by suspicious entities
US11704438B2 (en) Systems and method of contextual data masking for private and secure data linkage
US11947706B2 (en) Token-based data security systems and methods with embeddable markers in unstructured data
US10776514B2 (en) Data processing systems for the identification and deletion of personal data in computer systems
CN114186275A (zh) 隐私保护方法、装置、计算机设备及存储介质
CN113612766A (zh) 数据治理装置、方法、计算机设备及存储介质
CN113902574A (zh) 协议数据处理方法、装置、计算机设备及存储介质
US7693185B1 (en) Method and apparatus for creation and management of intelligent packets
US11429697B2 (en) Eventually consistent entity resolution
Kenyon et al. Big data science for predicting insurance claims fraud
CN114862246A (zh) 政策匹配方法及相关装置
CN114356885A (zh) 一种科技服务项目智能匹配方法、存储介质及设备
CN111782967A (zh) 信息处理方法、装置、电子设备和计算机可读存储介质
Dzikria et al. ISO 15489 Attributes Prioritization in Electronic Document Management System of the First Level Healthcare Facilities
Ospanova et al. Building a model of the integrity of information resources within an enterprise management system
US20240070319A1 (en) Dynamically updating classifier priority of a classifier model in digital data discovery
US20230325852A1 (en) Method and system for automation of due diligence
US12008137B2 (en) Systems and method of contextual data masking for private and secure data linkage
Barboi et al. Client registries: identifying and linking patients
US20240184923A1 (en) Token-based data security systems and methods with embeddable markers in unstructured data

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22855175

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE