WO2023231341A1 - 数据资产风险发现方法和装置 - Google Patents

数据资产风险发现方法和装置 Download PDF

Info

Publication number
WO2023231341A1
WO2023231341A1 PCT/CN2022/135312 CN2022135312W WO2023231341A1 WO 2023231341 A1 WO2023231341 A1 WO 2023231341A1 CN 2022135312 W CN2022135312 W CN 2022135312W WO 2023231341 A1 WO2023231341 A1 WO 2023231341A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
metadata
node
nodes
newly added
Prior art date
Application number
PCT/CN2022/135312
Other languages
English (en)
French (fr)
Inventor
郝泳栋
Original Assignee
蚂蚁区块链科技(上海)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 蚂蚁区块链科技(上海)有限公司 filed Critical 蚂蚁区块链科技(上海)有限公司
Publication of WO2023231341A1 publication Critical patent/WO2023231341A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供一种数据资产风险发现方法和装置,方法包括:获取目标数据资产中针对元数据和操作数据的新增数据;元数据包括数据存储单元的描述数据,操作数据为针对数据存储单元的访问行为数据;获取预先建立的目标数据资产对应的数据血缘图谱;数据血缘图谱基于元数据和操作数据的历史数据建立;数据血缘图谱包括节点和连接边,节点基于元数据确定,连接边基于操作数据确定,其体现了节点之间的关联关系;节点的属性值标识了相应元数据对应的数据存储单元的风险信息;根据新增数据,更新数据血缘图谱;根据更新后的数据血缘图谱,确定与新增数据相关的节点的属性值,根据属性值确定新增数据的风险信息。能够提升风险发现的效率。

Description

数据资产风险发现方法和装置
本申请要求于2022年06月02日提交中国国家知识产权局、申请号为202210620381.8、申请名称为“数据资产风险发现方法和装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及数据资产风险发现方法和装置。
背景技术
随着企业对数据安全理念的认知提升,急需针对数据资产风险发现的解决方案。上述风险发现通常包括识别数据资产中的敏感数据,以便针对识别出的敏感数据进行处理,防止敏感数据的泄露风险。
敏感数据又称为隐私数据(private data),即秘密数据,是指不想被他人或无关人等获知的信息,从隐私的所有者的角度,可以将隐私数据分为个人隐私数据和共同隐私数据,其中个人隐私数据包括可以用来定位或者识别个人的信息(如电话号码、地址、信用卡号等)和敏感信息(如个人健康情况、财务信息、公司重要文件等)。共同隐私数据主要以家庭隐私为主,如家庭经济情况等。隐私数据的泄露和滥用极易引起各种个人和公共安全问题。
传统的数据资产风险发现技术方案,大多在一定判定规则下,由服务器对数据资产做全遍历,以发现或者说识别出数据资产中的敏感数据。随着数据量级膨胀,为了保证一定的发现效率,就需要增加服务器的数量,通常地服务器的数量与数据资产量级将以正相关的关系协同增长,服务器的数量的增加会导致成本增长,成本增长的同时,发现效率并未得到相同程度的增长,而是呈现缓增长趋势。
发明内容
本说明书一个或多个实施例描述了一种数据资产风险发现方法和装置,不再由服务器对数据资产做全遍历,而是根据数据之间的关联关系来进行风险发现,从而在不依赖服务器的数量增长的前提下,能够提升风险发现的效率。
第一方面,提供了一种数据资产风险发现方法,方法包括:
获取目标数据资产中针对元数据和操作数据的新增数据;所述元数据包括针对所述目标数据资产的数据存储单元的描述数据,所述操作数据为针对所述数据存储单元的访问行为数据;
获取预先建立的所述目标数据资产对应的数据血缘图谱;所述数据血缘图谱基于所述元数据和操作数据的历史数据而建立;所述数据血缘图谱包括节点和连接边,节点基于元数据而确定,连接边基于操作数据而确定,其体现了节点之间的关联关系;节点的属性值标识了相应元数据对应的数据存储单元的风险信息;
根据所述新增数据,更新所述数据血缘图谱;
根据更新后的数据血缘图谱,确定与所述新增数据相关的节点的属性值,根据所述属性值确定所述新增数据的风险信息。
在一种可能的实施方式中,所述目标数据资产属于结构化数据,其数据存储单元通过数据库、数据表和数据列来标识。
进一步地,所述节点对应于数据列。
进一步地,所述关联关系包括节点之间的生成关系,所述生成关系为第一节点基于第二节点而生成。
在一种可能的实施方式中,所述元数据的风险信息包括风险分类信息和/或风险分级信息,所述风险分类信息用于指示对应的数据存储单元中数据是否属于敏感数据,所述风险分级信息用于指示敏感数据的级别。
在一种可能的实施方式中,所述获取目标数据资产中针对元数据和操作数据的新增数据,包括:
获取针对目标数据资产进行操作的结构化查询语言(structured query language,SQL)语句;
解析所述SQL语句,根据其中涉及的元数据和操作数据确定所述新增数据。
在一种可能的实施方式中,所述新增数据包括,针对第一存储单元的第一元数据和第一操作数据;所述更新所述数据血缘图谱包括:
若所述数据血缘图谱中不包含对应于所述第一元数据的节点,则在所述数据血缘图谱中添加对应于所述第一元数据的第一节点;
根据所述第一操作数据确定与所述第一元数据具有关联关系的第二元数据,以及所述关联关系的第一类型;
在第一节点和所述第二元数据对应的第二节点之间建立第一类型的连接边。
在一种可能的实施方式中,所述新增数据中包括针对新增的第一存储单元的第一元数据;所述根据更新后的数据血缘图谱,确定与所述新增数据相关的节点的属性值,包括:
在更新后的数据血缘图谱中,将所述第一元数据对应的节点作为初始节点,从该初始节点出发,查找与该初始节点具有预设关联关系的目标节点;
若查找到所述目标节点,则将所述目标节点的属性值作为所述初始节点的属性值。
进一步地,所述预设关联关系包括节点之间的生成关系,且所述初始节点基于所述目标节点而生成。
进一步地,所述根据更新后的数据血缘图谱,确定与所述新增数据相关的节点的属性值,还包括:
若未查找到所述目标节点,则获取风险信息的判定规则;
根据所述新增数据,从所述目标数据资产中进行抽样,得到若干抽样数据;
对所述若干抽样数据分别利用所述判定规则,识别其风险信息,以综合确定所述新增数据的风险信息;
根据所述新增数据的风险信息,确定所述初始节点的属性值。
第二方面,提供了一种数据资产风险发现装置,装置包括:
第一获取单元,用于获取目标数据资产中针对元数据和操作数据的新增数据;所述元数据包括针对所述目标数据资产的数据存储单元的描述数据,所述操作数据为针对所述数据存储单元的访问行为数据;
第二获取单元,用于获取预先建立的所述目标数据资产对应的数据血缘图谱;所述数据血缘图谱基于所述元数据和操作数据的历史数据而建立;所述数据血缘图谱包括节点和连接边,节点基于元数据而确定,连接边基于操作数据而确定,其体现了节点之间的关联关系;节点的属性值标识了相应元数据对应的数据存储单元的风险信息;
更新单元,用于根据所述第一获取单元获取的新增数据,更新所述第二获取单元获取的数据血缘图谱;
确定单元,用于根据所述更新单元得到的更新后的数据血缘图谱,确定与所述新增数据相关的节点的属性值,根据所述属性值确定所述新增数据的风险信息。
第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执 行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
通过本说明书实施例提供的方法和装置,首先获取目标数据资产中针对元数据和操作数据的新增数据;所述元数据包括针对所述目标数据资产的数据存储单元的描述数据,所述操作数据为针对所述数据存储单元的访问行为数据;然后获取预先建立的所述目标数据资产对应的数据血缘图谱;所述数据血缘图谱基于所述元数据和操作数据的历史数据而建立;所述数据血缘图谱包括节点和连接边,节点基于元数据而确定,连接边基于操作数据而确定,其体现了节点之间的关联关系;节点的属性值标识了相应元数据对应的数据存储单元的风险信息;接着根据所述新增数据,更新所述数据血缘图谱;最后根据更新后的数据血缘图谱,确定与所述新增数据相关的节点的属性值,根据所述属性值确定所述新增数据的风险信息。由上可见,本说明书实施例,基于图计算进行数据资产风险发现,通过图谱的方式描绘数据全生命周期的流转行为和流转特征,能够快速确定新增数据的风险信息,例如,实时判定数据敏感、行为敏感,支持实时敏感信息决策和处理,从而在不依赖服务器的数量增长的前提下,能够提升风险发现的效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书披露的一个实施例的实施场景示意图;
图2示出根据一个实施例的数据资产风险发现方法流程图;
图3示出根据一个实施例的数据血缘图谱的组成示意图;
图4示出根据一个实施例的数据资产风险发现的系统结构图;
图5示出根据一个实施例的数据资产风险发现装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及数据资产风险发现,上述风险发现通常包括识别数据资产中的敏感数据,以便针对识别出的敏感数据进行处理,防止敏感数据的泄露风险,可选地,还可以防止针对数据资产的异常操作的风 险。异常操作也称为有风险的行为,容易导致敏感数据泄露、系统故障等后果,通常包括绕过平台脱敏机制采集敏感数据、非法撞库等。数据资产通常属于结构化数据,可以采用数据库存储数据,数据库包括多个数据表,每个数据表包括多个字段,风险发现的首要任务就是需要确定各字段是否属于敏感数据,其中,字段对应于列。
参照图1,表一为数据库中原有的数据表,表一中包括的字段1属于敏感数据,针对数据库的操作为创建表二,表二中的字段1与表一中的字段1属于截断的关系,表二中的字段2与表一中的字段1也属于截断的关系,也就是说,表二中的字段1和字段2是通过提取表一中的字段1对应的字符串的子串而得到,例如,表一中的字段1对应的字符串为abcd,相应地,表二中的字段1对应于该字符串的子串ab,表二中的字段2对应于该字符串的子串cd。可以理解的是,表二中的字段1和字段2与表一中的字段1是具有关联关系的。
参照图1,表一为数据库中原有的数据表,表一中包括的字段1属于敏感数据,针对数据库的操作为创建表三,表三中的字段1与表一中的字段1属于复制的关系,也就是说,表三中的字段1与表一中的字段1相同,例如,表一中的字段1对应的字符串为abcd,相应地,表三中的字段1对应的字符串也为abcd。可以理解的是,表三中的字段1与表一中的字段1是具有关联关系的。
上述关联关系可以称为血缘关系,血缘关系用于刻画数据与数据之间的上下游关系,以字段和字段之间的关系为例,通常包括复制、截断、拼接、转换等,体现了一个字段的数据经过一定的处理得到另一个字段的数据。
本说明书实施例,基于对数据资产的操作语句的解析,能自动解析出其中涉及的元数据和操作数据,元数据包括针对数据资产的数据存储单元的描述数据,操作数据为针对数据存储单元的访问行为数据,该操作数据反映了不同数据存储单元之间的关联关系,然后基于上述关联关系,能够快速确定新增数据的风险信息,例如,实时判定数据敏感、行为敏感,支持实时敏感信息决策和处理,从而在不依赖服务器的数量增长的前提下,能够提升风险发现的效率。
图2示出根据一个实施例的数据资产风险发现方法流程图,该方法可以基于图1所示的实施场景。如图2所示,该实施例中数据资产风险发现方法包括以下步骤:步骤21,获取目标数据资产中针对元数据和操作数据的新增数据;所述元数据包括针对所述目标数据资产的数据存储单元的描述数据,所述操作数据为针对所述数据存储单元的访问行为数据;步骤22,获取预先建立的所述目标数据资产对应的数据血缘图谱;所述数据血缘图谱 基于所述元数据和操作数据的历史数据而建立;所述数据血缘图谱包括节点和连接边,节点基于元数据而确定,连接边基于操作数据而确定,其体现了节点之间的关联关系;节点的属性值标识了相应元数据对应的数据存储单元的风险信息;步骤23,根据所述新增数据,更新所述数据血缘图谱;步骤24,根据更新后的数据血缘图谱,确定与所述新增数据相关的节点的属性值,根据所述属性值确定所述新增数据的风险信息。下面描述以上各个步骤的具体执行方式。
首先在步骤21,获取目标数据资产中针对元数据和操作数据的新增数据;所述元数据包括针对所述目标数据资产的数据存储单元的描述数据,所述操作数据为针对所述数据存储单元的访问行为数据。可以理解的是,操作对象对应于数据存储单元,访问行为可以但不限于包括创建一个数据表,在已有数据表中添加字段等。
在一个示例中,所述目标数据资产属于结构化数据,其数据存储单元通过数据库、数据表和数据列来标识。
可以理解的是,一个数据库通常包括多个数据表,一个数据表又包括多个数据列,在描述一个数据列时,通常还要指明该数据列所属的数据表和数据库。例如,采用全局唯一标识符(globally unique identifier,GUID)作为数据列的标识,其具体形式为project_name.table_name.column_name,其中,project_name代表数据库,table_name代表数据表,column_name代表数据列。元数据可以用于描述目标数据资产中的数据列。
在一个示例中,所述获取目标数据资产中针对元数据和操作数据的新增数据,包括:
获取针对目标数据资产进行操作的结构化查询语言(structured query language,SQL)语句;
解析所述SQL语句,根据其中涉及的元数据和操作数据确定所述新增数据。
该示例中,针对数据库的各种行为操作均可以通过执行SQL语句来实现,对所述SQL语句进行解析,得到行为操作涉及的若干个数据存储单元,以及该若干个数据存储单元之间的关联关系,其中单个数据存储单元为数据列或数据表。可以理解的是,上述关联关系可以包括字段和字段之间的关系,字段和数据表之间的关系,数据表和数据表之间的关系,数据存储单元对应于元数据,关联关系对应于操作数据。
上述解析SQL语句可以称为SQL解析,SQL解析可以用于解析其中涉及的元数据和操作数据,其中,涉及的元数据可以为数据库中原有的数据列,也可以为数据库中新增的数据列,相应地,操作数据可以体现的是,数据库中原有的数据列与数据库中新增的数据列之间的关联关系。所述新增数据可以包括两部分的内容,新增的元数据和新增的操作数据。
例如下列SQL:
createtablep1.t2from(select c1 from p1.t1);
通过SQL解析可以得到:
数据表t2中的数据列p1.t2.c1是基于数据表t1中的数据列p1.t1.c1创建的,其中,数据表t2中的数据列p1.t2.c1对应于新增的元数据,针对该元数据的操作数据就是新增的操作数据。
目前对于SQL解析有成熟的第三方库可以使用,此处不再赘述原理。
然后在步骤22,获取预先建立的所述目标数据资产对应的数据血缘图谱;所述数据血缘图谱基于所述元数据和操作数据的历史数据而建立;所述数据血缘图谱包括节点和连接边,节点基于元数据而确定,连接边基于操作数据而确定,其体现了节点之间的关联关系;节点的属性值标识了相应元数据对应的数据存储单元的风险信息。可以理解的是,上述风险信息具体可以为数据存储单元是否属于敏感数据的信息,也就是说,是否存在敏感数据泄露的风险。
在一个示例中,所述目标数据资产属于结构化数据,其数据存储单元通过数据库、数据表和数据列来标识,所述节点对应于数据列。
进一步地,所述关联关系包括节点之间的生成关系,所述生成关系为第一节点基于第二节点而生成。
本说明书实施例,第一节点基于第二节点而生成,可以是第一节点对应的数据存储单元通过复制第二节点对应的数据存储单元存储的数据而生成,还可以是第一节点对应的数据存储单元通过截断第二节点对应的数据存储单元存储的数据而生成。
本说明书实施例,不排除所述数据血缘图谱中还包括其他类型的节点,例如,对应于数据表的节点,此时,所述关联关系还包括数据列与数据表之间的归属关系。
在一个示例中,所述元数据的风险信息包括风险分类信息和/或风险分级信息,所述风险分类信息用于指示对应的数据存储单元中数据是否属于敏感数据,所述风险分级信息用于指示敏感数据的级别。
该示例中,可以预先划分多个级别,例如,高、中、低三个级别,每个级别的敏感数据只能供相应权限等级的用户访问,而其他用户不能访问。
本说明书实施例,可以基于SQL解析来建立数据血缘图谱,SQL解析是用于构建数据血缘关系的基石,主要是解析SQL中描述的字段和表,字段和字段,以及表和表之间的继承关系,通常字段间关系可以包括复制(copy),截断(substr),拼接(concat)等;表 之间关系为依赖(depend);字段和表之间的关系为属于(belong)。可以使用三元组表示解析出的血缘关系(source_node,target_node,relation)。其中source_node为源节点的标识;target_node为目标节点的标识;relation为节点间关系。
图3示出根据一个实施例的数据血缘图谱的组成示意图,参照图3,该数据血缘图谱中包括两种类型的节点,一种类型的节点用于表示数据表,例如,节点t1和节点t2;另一种类型的节点用于表示数据列,例如,节点c1、节点c2、…、节点c7。该数据血缘图谱中还包括两种类型的连接边,一种类型的连接边为用于表示数据列的节点与用于表示数据表的节点之间的连接边,该连接边表示二者之间的归属关系,例如,节点c3和节点t1之间的连接边;另一种类型的连接边为两个用于表示数据列的节点之间的连接边,该连接边表示二者之间的生成关系,例如,节点c1和节点c7之间的连接边,其中连接边的方向为由节点c1指向节点c7,表示节点c7根据节点c1而生成,节点c1的属性值标识了相应元数据对应的数据存储单元的数据属于敏感数据,且敏感数据的级别为高。
接着在步骤23,根据所述新增数据,更新所述数据血缘图谱。可以理解的是,所述新增数据可以包括新增的元数据和/或新增的操作数据,相应地,更新所述数据血缘图谱具体可以包括,在所述数据血缘图谱中增加节点和/或连接边。
在一个示例中,所述新增数据包括,针对第一存储单元的第一元数据和第一操作数据;所述更新所述数据血缘图谱包括:
若所述数据血缘图谱中不包含对应于所述第一元数据的节点,则在所述数据血缘图谱中添加对应于所述第一元数据的第一节点;
根据所述第一操作数据确定与所述第一元数据具有关联关系的第二元数据,以及所述关联关系的第一类型;
在第一节点和所述第二元数据对应的第二节点之间建立第一类型的连接边。
该示例中,更新所述数据血缘图谱既包括了在所述数据血缘图谱中增加节点,又包括了在所述数据血缘图谱中增加连接边。
最后在步骤24,根据更新后的数据血缘图谱,确定与所述新增数据相关的节点的属性值,根据所述属性值确定所述新增数据的风险信息。可以理解的是,由于节点的属性值标识了相应元数据对应的数据存储单元的风险信息,因此找到与所述新增数据相关的节点后,可以将该相关的节点的属性值所标识的风险信息作为所述新增数据的风险信息。
在一个示例中,所述新增数据中包括针对新增的第一存储单元的第一元数据;所述根据更新后的数据血缘图谱,确定与所述新增数据相关的节点的属性值,包括:
在更新后的数据血缘图谱中,将所述第一元数据对应的节点作为初始节点,从该初始节点出发,查找与该初始节点具有预设关联关系的目标节点;
若查找到所述目标节点,则将所述目标节点的属性值作为所述初始节点的属性值。
进一步地,所述预设关联关系包括节点之间的生成关系,且所述初始节点基于所述目标节点而生成。
可以理解的是,节点之间的关联关系可以通过连接边的属性信息来体现,该属性信息可以标识出节点之间是否为生成关系;初始节点基于所述目标节点而生成,也就是说,目标节点为父节点,初始节点为子节点,或者说,目标节点为初始节点的上游节点,初始节点为目标节点的下游节点,节点之间的上下游关系可以通过连接边的方向来体现。
进一步地,所述根据更新后的数据血缘图谱,确定与所述新增数据相关的节点的属性值,还包括:
若未查找到所述目标节点,则获取风险信息的判定规则;
根据所述新增数据,从所述目标数据资产中进行抽样,得到若干抽样数据;
对所述若干抽样数据分别利用所述判定规则,识别其风险信息,以综合确定所述新增数据的风险信息;
根据所述新增数据的风险信息,确定所述初始节点的属性值。
可以理解的是,若未查找到与初始节点具有预设关联关系的目标节点,则需要对该初始节点对应的数据存储单元中存储的数据进行识别,例如,该数据存储单元为一个数据列,则可以对该数据列的数据进行抽样,得到若干抽样数据,根据各抽样数据的识别结果,确定该数据列的识别结果。举例来说,一个数据列共有1000条数据,可以从中抽样出20条数据,识别这20条数据中的每条数据是否属于敏感数据,若识别出其中超过预设比例的数据属于敏感数据,则确定该数据列属于敏感数据。
其中,上述判定规则可以为能够直接识别其风险信息的规则,例如,通过规定字符串的字符数目、字符类型等来确定是否属于敏感数据;上述判定规则还可以为能够间接识别其风险信息的规则,例如,通过指定的神经网络模型来确定是否属于敏感数据。
通过本说明书实施例提供的方法,首先获取目标数据资产中针对元数据和操作数据的新增数据;所述元数据包括针对所述目标数据资产的数据存储单元的描述数据,所述操作数据为针对所述数据存储单元的访问行为数据;然后获取预先建立的所述目标数据资产对应的数据血缘图谱;所述数据血缘图谱基于所述元数据和操作数据的历史数据而建立;所述数据血缘图谱包括节点和连接边,节点基于元数据而确定,连接边基于操作数据而确 定,其体现了节点之间的关联关系;节点的属性值标识了相应元数据对应的数据存储单元的风险信息;接着根据所述新增数据,更新所述数据血缘图谱;最后根据更新后的数据血缘图谱,确定与所述新增数据相关的节点的属性值,根据所述属性值确定所述新增数据的风险信息。由上可见,本说明书实施例,基于图计算进行数据资产风险发现,通过图谱的方式描绘数据全生命周期的流转行为和流转特征,能够快速确定新增数据的风险信息,例如,实时判定数据敏感、行为敏感,支持实时敏感信息决策和处理,从而在不依赖服务器的数量增长的前提下,能够提升风险发现的效率。
图4示出根据一个实施例的数据资产风险发现的系统结构图。参照图4,该系统结构可以划分为数据处理服务单元41、数据保护服务单元42、数据血缘服务单元43和图计算引擎44。其中,数据处理服务单元41,用于提供数据资产的存储和计算服务,数据资产为结构化数据,并且可以将数据资产对应的元数据和操作数据,提供给数据保护服务单元42和数据血缘服务单元43;数据保护服务单元42,用于提供数据资产的风险发现服务,上述风险发现通常包括识别数据资产中的敏感数据,以便针对识别出的敏感数据进行处理,防止敏感数据的泄露风险;数据血缘服务单元43,用于定期生成数据血缘关系,并增量同步到图数据库中,该图数据库可以称为数据血缘图谱,可以理解的是,血缘关系包括字段与字段之间的关系、字段与表之间的关系、表与表之间的关系;图计算引擎44,用于完成与数据血缘图谱相关的查询计算工作。数据保护服务单元42在进行风险发现时,可以通过向数据血缘服务单元43查询数据血缘图谱,根据数据血缘图谱所体现的节点间的血缘关系,来进行风险发现,从而有效提高风险发现效率。此外,数据血缘服务单元43从数据处理服务单元41获取操作数据,从数据保护服务单元42获取元数据,可以理解的是,数据保护服务单元42从数据处理服务单元41获取元数据和操作数据后,可以缓存该元数据,并提供给数据血缘服务单元43。
本说明书实施例,基于图计算技术,通过数据资产之间的关联关系,做敏感度传染,数据发现不再依赖于队列遍历,而是通过数据血缘图谱发现,假设数据资产间存在强关系,数据量级增长并不会带来服务器资源的正相关增长。通过高效的图游走能力,突破传统架构的离线局限,实现近线甚至在线敏感数据发现及实时预警,高效保障数据资产安全。于此同时,基于数据血缘关系,可以挖掘到数据敏感下的行为敏感,进而通过历史可疑敏感行为,预测敏感行为,实现事前、事中、事后,全场景风险控制。
根据另一方面的实施例,还提供一种数据资产风险发现装置,该装置用于执行本说明书实施例提供的方法。图5示出根据一个实施例的数据资产风险发现装置的示意性框图。 如图5所示,该装置500包括:
第一获取单元51,用于获取目标数据资产中针对元数据和操作数据的新增数据;所述元数据包括针对所述目标数据资产的数据存储单元的描述数据,所述操作数据为针对所述数据存储单元的访问行为数据;
第二获取单元52,用于获取预先建立的所述目标数据资产对应的数据血缘图谱;所述数据血缘图谱基于所述元数据和操作数据的历史数据而建立;所述数据血缘图谱包括节点和连接边,节点基于元数据而确定,连接边基于操作数据而确定,其体现了节点之间的关联关系;节点的属性值标识了相应元数据对应的数据存储单元的风险信息;
更新单元53,用于根据所述第一获取单元51获取的新增数据,更新所述第二获取单元52获取的数据血缘图谱;
确定单元54,用于根据所述更新单元53得到的更新后的数据血缘图谱,确定与所述新增数据相关的节点的属性值,根据所述属性值确定所述新增数据的风险信息。
可选地,作为一个实施例,所述目标数据资产属于结构化数据,其数据存储单元通过数据库、数据表和数据列来标识。
进一步地,所述节点对应于数据列。
进一步地,所述关联关系包括节点之间的生成关系,所述生成关系为第一节点基于第二节点而生成。
可选地,作为一个实施例,所述元数据的风险信息包括风险分类信息和/或风险分级信息,所述风险分类信息用于指示对应的数据存储单元中数据是否属于敏感数据,所述风险分级信息用于指示敏感数据的级别。
可选地,作为一个实施例,所述第一获取单元51包括:
获取子单元,用于获取针对目标数据资产进行操作的结构化查询语言SQL语句;
解析子单元,用于解析所述获取子单元获取的SQL语句,根据其中涉及的元数据和操作数据确定所述新增数据。
可选地,作为一个实施例,所述新增数据包括,针对第一存储单元的第一元数据和第一操作数据;所述更新单元53包括:
节点添加子单元,用于若所述数据血缘图谱中不包含对应于所述第一元数据的节点,则在所述数据血缘图谱中添加对应于所述第一元数据的第一节点;
确定子单元,用于根据所述第一操作数据确定与所述第一元数据具有关联关系的第二元数据,以及所述关联关系的第一类型;
边建立子单元,用于在所述节点添加子单元添加的第一节点和所述确定子单元确定的第二元数据对应的第二节点之间建立第一类型的连接边。
可选地,作为一个实施例,所述新增数据中包括针对新增的第一存储单元的第一元数据;所述确定单元54包括:
查找子单元,用于在更新后的数据血缘图谱中,将所述第一元数据对应的节点作为初始节点,从该初始节点出发,查找与该初始节点具有预设关联关系的目标节点;
第一确定子单元,用于若所述查找子单元查找到所述目标节点,则将所述目标节点的属性值作为所述初始节点的属性值。
进一步地,所述预设关联关系包括节点之间的生成关系,且所述初始节点基于所述目标节点而生成。
进一步地,所述确定单元54还包括:
获取子单元,用于若所述查找子单元未查找到所述目标节点,则获取风险信息的判定规则;
抽样子单元,用于根据所述新增数据,从所述目标数据资产中进行抽样,得到若干抽样数据;
识别子单元,用于对所述抽样子单元得到的若干抽样数据分别利用所述获取子单元获取的判定规则,识别其风险信息,以综合确定所述新增数据的风险信息;
第二确定子单元,用于根据所述识别子单元得到的新增数据的风险信息,确定所述初始节点的属性值。
通过本说明书实施例提供的装置,首先第一获取单元51获取目标数据资产中针对元数据和操作数据的新增数据;所述元数据包括针对所述目标数据资产的数据存储单元的描述数据,所述操作数据为针对所述数据存储单元的访问行为数据;然后第二获取单元52获取预先建立的所述目标数据资产对应的数据血缘图谱;所述数据血缘图谱基于所述元数据和操作数据的历史数据而建立;所述数据血缘图谱包括节点和连接边,节点基于元数据而确定,连接边基于操作数据而确定,其体现了节点之间的关联关系;节点的属性值标识了相应元数据对应的数据存储单元的风险信息;接着更新单元53根据所述新增数据,更新所述数据血缘图谱;最后确定单元54根据更新后的数据血缘图谱,确定与所述新增数据相关的节点的属性值,根据所述属性值确定所述新增数据的风险信息。由上可见,本说明书实施例,基于图计算进行数据资产风险发现,通过图谱的方式描绘数据全生命周期的流转行为和流转特征,能够快速确定新增数据的风险信息,例如,实时判定数据敏感、行 为敏感,支持实时敏感信息决策和处理,从而在不依赖服务器的数量增长的前提下,能够提升风险发现的效率。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (22)

  1. 一种数据资产风险发现方法,所述方法包括:
    获取目标数据资产中针对元数据和操作数据的新增数据;所述元数据包括针对所述目标数据资产的数据存储单元的描述数据,所述操作数据为针对所述数据存储单元的访问行为数据;
    获取预先建立的所述目标数据资产对应的数据血缘图谱;所述数据血缘图谱基于所述元数据和操作数据的历史数据而建立;所述数据血缘图谱包括节点和连接边,节点基于元数据而确定,连接边基于操作数据而确定,其体现了节点之间的关联关系;节点的属性值标识了相应元数据对应的数据存储单元的风险信息;
    根据所述新增数据,更新所述数据血缘图谱;
    根据更新后的数据血缘图谱,确定与所述新增数据相关的节点的属性值,根据所述属性值确定所述新增数据的风险信息。
  2. 如权利要求1所述的方法,其中,所述目标数据资产属于结构化数据,其数据存储单元通过数据库、数据表和数据列来标识。
  3. 如权利要求2所述的方法,其中,所述节点对应于数据列。
  4. 如权利要求3所述的方法,其中,所述关联关系包括节点之间的生成关系,所述生成关系为第一节点基于第二节点而生成。
  5. 如权利要求1所述的方法,其中,所述元数据的风险信息包括风险分类信息和/或风险分级信息,所述风险分类信息用于指示对应的数据存储单元中数据是否属于敏感数据,所述风险分级信息用于指示敏感数据的级别。
  6. 如权利要求1所述的方法,其中,所述获取目标数据资产中针对元数据和操作数据的新增数据,包括:
    获取针对目标数据资产进行操作的结构化查询语言SQL语句;
    解析所述SQL语句,根据其中涉及的元数据和操作数据确定所述新增数据。
  7. 如权利要求1所述的方法,其中,所述新增数据包括,针对第一存储单元的第一元数据和第一操作数据;所述更新所述数据血缘图谱包括:
    若所述数据血缘图谱中不包含对应于所述第一元数据的节点,则在所述数据血缘图谱中添加对应于所述第一元数据的第一节点;
    根据所述第一操作数据确定与所述第一元数据具有关联关系的第二元数据,以及所述关联关系的第一类型;
    在第一节点和所述第二元数据对应的第二节点之间建立第一类型的连接边。
  8. 如权利要求1所述的方法,其中,所述新增数据中包括针对新增的第一存储单元的第一元数据;所述根据更新后的数据血缘图谱,确定与所述新增数据相关的节点的属性值,包括:
    在更新后的数据血缘图谱中,将所述第一元数据对应的节点作为初始节点,从该初始节点出发,查找与该初始节点具有预设关联关系的目标节点;
    若查找到所述目标节点,则将所述目标节点的属性值作为所述初始节点的属性值。
  9. 如权利要求8所述的方法,其中,所述预设关联关系包括节点之间的生成关系,且所述初始节点基于所述目标节点而生成。
  10. 如权利要求8所述的方法,其中,所述根据更新后的数据血缘图谱,确定与所述新增数据相关的节点的属性值,还包括:
    若未查找到所述目标节点,则获取风险信息的判定规则;
    根据所述新增数据,从所述目标数据资产中进行抽样,得到若干抽样数据;
    对所述若干抽样数据分别利用所述判定规则,识别其风险信息,以综合确定所述新增数据的风险信息;
    根据所述新增数据的风险信息,确定所述初始节点的属性值。
  11. 一种数据资产风险发现装置,所述装置包括:
    第一获取单元,用于获取目标数据资产中针对元数据和操作数据的新增数据;所述元数据包括针对所述目标数据资产的数据存储单元的描述数据,所述操作数据为针对所述数据存储单元的访问行为数据;
    第二获取单元,用于获取预先建立的所述目标数据资产对应的数据血缘图谱;所述数据血缘图谱基于所述元数据和操作数据的历史数据而建立;所述数据血缘图谱包括节点和连接边,节点基于元数据而确定,连接边基于操作数据而确定,其体现了节点之间的关联关系;节点的属性值标识了相应元数据对应的数据存储单元的风险信息;
    更新单元,用于根据所述第一获取单元获取的新增数据,更新所述第二获取单元获取的数据血缘图谱;
    确定单元,用于根据所述更新单元得到的更新后的数据血缘图谱,确定与所述新增数据相关的节点的属性值,根据所述属性值确定所述新增数据的风险信息。
  12. 如权利要求11所述的装置,其中,所述目标数据资产属于结构化数据,其数据存 储单元通过数据库、数据表和数据列来标识。
  13. 如权利要求12所述的装置,其中,所述节点对应于数据列。
  14. 如权利要求13所述的装置,其中,所述关联关系包括节点之间的生成关系,所述生成关系为第一节点基于第二节点而生成。
  15. 如权利要求11所述的装置,其中,所述元数据的风险信息包括风险分类信息和/或风险分级信息,所述风险分类信息用于指示对应的数据存储单元中数据是否属于敏感数据,所述风险分级信息用于指示敏感数据的级别。
  16. 如权利要求11所述的装置,其中,所述第一获取单元包括:
    获取子单元,用于获取针对目标数据资产进行操作的结构化查询语言SQL语句;
    解析子单元,用于解析所述获取子单元获取的SQL语句,根据其中涉及的元数据和操作数据确定所述新增数据。
  17. 如权利要求11所述的装置,其中,所述新增数据包括,针对第一存储单元的第一元数据和第一操作数据;所述更新单元包括:
    节点添加子单元,用于若所述数据血缘图谱中不包含对应于所述第一元数据的节点,则在所述数据血缘图谱中添加对应于所述第一元数据的第一节点;
    确定子单元,用于根据所述第一操作数据确定与所述第一元数据具有关联关系的第二元数据,以及所述关联关系的第一类型;
    边建立子单元,用于在所述节点添加子单元添加的第一节点和所述确定子单元确定的第二元数据对应的第二节点之间建立第一类型的连接边。
  18. 如权利要求11所述的装置,其中,所述新增数据中包括针对新增的第一存储单元的第一元数据;所述确定单元包括:
    查找子单元,用于在更新后的数据血缘图谱中,将所述第一元数据对应的节点作为初始节点,从该初始节点出发,查找与该初始节点具有预设关联关系的目标节点;
    第一确定子单元,用于若所述查找子单元查找到所述目标节点,则将所述目标节点的属性值作为所述初始节点的属性值。
  19. 如权利要求18所述的装置,其中,所述预设关联关系包括节点之间的生成关系,且所述初始节点基于所述目标节点而生成。
  20. 如权利要求18所述的装置,其中,所述确定单元还包括:
    获取子单元,用于若所述查找子单元未查找到所述目标节点,则获取风险信息的判定规则;
    抽样子单元,用于根据所述新增数据,从所述目标数据资产中进行抽样,得到若干抽样数据;
    识别子单元,用于对所述抽样子单元得到的若干抽样数据分别利用所述获取子单元获取的判定规则,识别其风险信息,以综合确定所述新增数据的风险信息;
    第二确定子单元,用于根据所述识别子单元得到的新增数据的风险信息,确定所述初始节点的属性值。
  21. 一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-10中任一项的所述的方法。
  22. 一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-10中任一项的所述的方法。
PCT/CN2022/135312 2022-06-02 2022-11-30 数据资产风险发现方法和装置 WO2023231341A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210620381.8A CN114969819A (zh) 2022-06-02 2022-06-02 数据资产风险发现方法和装置
CN202210620381.8 2022-06-02

Publications (1)

Publication Number Publication Date
WO2023231341A1 true WO2023231341A1 (zh) 2023-12-07

Family

ID=82960474

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/135312 WO2023231341A1 (zh) 2022-06-02 2022-11-30 数据资产风险发现方法和装置

Country Status (2)

Country Link
CN (1) CN114969819A (zh)
WO (1) WO2023231341A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117874686A (zh) * 2024-03-11 2024-04-12 中信证券股份有限公司 异常数据定位方法、装置、电子设备和计算机可读介质
CN117874686B (zh) * 2024-03-11 2024-05-10 中信证券股份有限公司 异常数据定位方法、装置、电子设备和计算机可读介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114969819A (zh) * 2022-06-02 2022-08-30 蚂蚁区块链科技(上海)有限公司 数据资产风险发现方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111694858A (zh) * 2020-04-28 2020-09-22 平安科技(深圳)有限公司 数据血缘分析方法、装置、设备及计算机可读存储介质
CN113486008A (zh) * 2021-06-30 2021-10-08 平安信托有限责任公司 数据血缘分析方法、装置、设备及存储介质
CN113672653A (zh) * 2021-08-09 2021-11-19 支付宝(杭州)信息技术有限公司 识别数据库中的隐私数据的方法和装置
CN113672977A (zh) * 2021-08-13 2021-11-19 支付宝(杭州)信息技术有限公司 隐私数据处理方法和装置
CN114969819A (zh) * 2022-06-02 2022-08-30 蚂蚁区块链科技(上海)有限公司 数据资产风险发现方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111694858A (zh) * 2020-04-28 2020-09-22 平安科技(深圳)有限公司 数据血缘分析方法、装置、设备及计算机可读存储介质
CN113486008A (zh) * 2021-06-30 2021-10-08 平安信托有限责任公司 数据血缘分析方法、装置、设备及存储介质
CN113672653A (zh) * 2021-08-09 2021-11-19 支付宝(杭州)信息技术有限公司 识别数据库中的隐私数据的方法和装置
CN113672977A (zh) * 2021-08-13 2021-11-19 支付宝(杭州)信息技术有限公司 隐私数据处理方法和装置
CN114969819A (zh) * 2022-06-02 2022-08-30 蚂蚁区块链科技(上海)有限公司 数据资产风险发现方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117874686A (zh) * 2024-03-11 2024-04-12 中信证券股份有限公司 异常数据定位方法、装置、电子设备和计算机可读介质
CN117874686B (zh) * 2024-03-11 2024-05-10 中信证券股份有限公司 异常数据定位方法、装置、电子设备和计算机可读介质
CN117891979B (zh) * 2024-03-15 2024-05-17 中信证券股份有限公司 血缘图谱构建方法、装置、电子设备和可读介质

Also Published As

Publication number Publication date
CN114969819A (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
CN110291517B (zh) 图数据库中的查询语言互操作性
US20220006828A1 (en) System and user context in enterprise threat detection
WO2021012553A1 (zh) 一种数据处理方法及相关设备
CN112131882A (zh) 一种多源异构网络安全知识图谱构建方法及装置
US8670146B1 (en) Using bit arrays in incremental scanning of content for sensitive data
WO2020010702A1 (zh) 日志搜索方法、系统、计算机设备和存储介质
US20220100852A1 (en) Distributed security introspection
US8316120B2 (en) Applicability detection using third party target state
US20170178026A1 (en) Log normalization in enterprise threat detection
CN110225029B (zh) 注入攻击检测方法、装置、服务器及存储介质
EP3407564A1 (en) Detection system for network security threats
US11416631B2 (en) Dynamic monitoring of movement of data
US20230040635A1 (en) Graph-based impact analysis of misconfigured or compromised cloud resources
WO2023231341A1 (zh) 数据资产风险发现方法和装置
US20200342008A1 (en) System for lightweight objects
US11803429B2 (en) Managing alert messages for applications and access permissions
US20200175172A1 (en) Orchestration of vulnerability scanning and issue tracking for version control technology
US11537735B2 (en) Trusted enterprise data assets via data confidence fabrics
US11768889B1 (en) Evaluating configuration files for uniform resource indicator discovery
US9009731B2 (en) Conversion of lightweight object to a heavyweight object
Holmqvist et al. Cachematic-automatic invalidation in application-level caching systems
US11568060B2 (en) Modular taint analysis with access paths
US11128653B1 (en) Automatically generating a machine-readable threat model using a template associated with an application or service
US11196766B2 (en) Detecting denial of service attacks in serverless computing
US20210089497A1 (en) Method, device, and computer program product for managing data object

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22944642

Country of ref document: EP

Kind code of ref document: A1