WO2023165272A1 - 数据存储及查询 - Google Patents

数据存储及查询 Download PDF

Info

Publication number
WO2023165272A1
WO2023165272A1 PCT/CN2023/071518 CN2023071518W WO2023165272A1 WO 2023165272 A1 WO2023165272 A1 WO 2023165272A1 CN 2023071518 W CN2023071518 W CN 2023071518W WO 2023165272 A1 WO2023165272 A1 WO 2023165272A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
storage
layer
query
block
Prior art date
Application number
PCT/CN2023/071518
Other languages
English (en)
French (fr)
Inventor
朱炳鹏
江进
付治钧
宋杰
袁琳
Original Assignee
蚂蚁云创数字科技(北京)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 蚂蚁云创数字科技(北京)有限公司 filed Critical 蚂蚁云创数字科技(北京)有限公司
Publication of WO2023165272A1 publication Critical patent/WO2023165272A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书的实施例提供数据存储及查询方法、装置及数据库系统。数据库系统包括内存层和数据存储介质。在进行数据存储时,先将待存储数据存储到内存层中的内存表。在内存表被存满数据时,将内存表的存储数据逐层写入数据存储介质。在针对数据存储介质逐层写入时,对待写入存储数据与当前分层存储层的数据存储文件中的全部存储数据进行数据合并;将合并后的存储数据的Value切分为主数据块以及对应的附加数据块,并确定出各个主数据块以及对应附加数据块在数据存储介质的存储位置。然后,将各个主数据块以及对应附加数据块存储到数据存储介质的对应存储位置。在进行数据查询时,自数据库系统的内存层起逐层进行数据查询。

Description

数据存储及查询 技术领域
本说明书实施例通常涉及数据存储领域,尤其涉及可适用于大Value数据存储的数据存储方法及装置、数据查询方法及装置以及数据库系统。
背景技术
在传统数据存储机制中,数据库系统会将待存储数据处理为Key-Value(KV)数据,并将KV数据存储到数据库系统中的内存层或数据存储介质中。为了提升数据写入性能,数据库系统采用分层组织方式对待存储数据进行数据组织,例如,采用类LSM Tree的结构,然后将数据组织后的待存储数据划分到不同的数据存储文件中,并将不同的数据存储文件存储到内存层或数据存储介质的不同分层存储层中。例如,数据库系统计算待存储数据的Key的哈希值,并根据所计算出的哈希值,将该Key所对应的Value划分到不同的哈希值范围(Hash Range),然后基于Hash Range将待存储数据划分至不同的数据存储文件中。
在专利公开号为CN113407550A的发明专利申请案中公开了一种数据存储及查询方案。在该数据存储及查询方案中,在进行数据存储时,数据存储装置先将待存储数据存储在内存层并按照基于哈希的索引机制确定对应的数据索引。在内存层所存储数据满足预定条件后,将内存层的数据写入数据存储介质,按照基于完美哈希的索引机制生成对应的数据索引文件,并将数据索引文件加载到内存层。在进行数据查询时,数据查询装置先查询内存层的内存数据,在内存数据中不存在匹配结果时,在内存层中存储的数据存储介质的数据索引文件中进行索引查询,并根据查询到的数据索引向数据存储介质发起数据读取,由此获取对应的查询数据。
然而,数据库系统可以支持多模态的哈希键值数据存储,例如,支持普通KV存储,也可以支持类似HBase的宽表数据存储,或者也可以通过将点和一度边的数据编码在一起组成一个值来支持图存储。
当待存储数据中的Value特别大时,例如当宽表的某个Key包含了非常多的数据列(Column),或者一个图节点有非常多的一度边(比如,一个名人明星可能有几千万或上亿支持者,这意味着这个图节点存在几千万或上亿条一度边)时,或者普通KV存储时自身Value特别大。在这种情况下,如果简单地将Value放在一起存储,查询时需要IO读取的数据会非常大,从而给存储引擎服务端带来严重系统开销,同时造成较高的查询延迟,严重制约了数据查询性能。
发明内容
鉴于上述,本说明书实施例提供数据存储及查询方案。在该数据存储及查询方案中,数据库系统包括内存层和具有分层存储结构的数据存储介质。在进行数据存储时,先将待存储数据存储在数据库系统的内存层中的内存表。在内存表被存满数据时,将内存表的存储数据逐层写入数据存储介质。在针对数据存储介质逐层写入时,对待写入存储数据与当前分层存储层的数据存储文件中的全部存储数据进行数据合并;将合并后的存储数据的Value切分为主数据块以及对应的附加数据块,并确定出各个主数据块以及对应附加数据块在数据存储介质的存储位置,然后将各个主数据块以及对应附加数据块存储到数据存储介质的对应存储位置。在进行数据查询查询时,自数据库系统的内存层起逐层进行数据查询。按照这种数据存储及查询方案,通过将大Value切分成多个数据块存储到数据存储文件中,在数据查询时根据查询条件和主数据块中的元数据信息,按需读取附加数据块,从而提高大Value数据的存储和查询效率,降低数据库系统的系统开销。
根据本说明书实施例的一个方面,提供一种数据存储方法,包括:将待存储数据写入数据库系统的内存层的内存表,所述待存储数据包括Key-Value对中的Value;响应于所述内存表写满,自所述数据库系统的数据存储介质的存储层中的顶层分层存储层开始,按照下述方式对所述内存表的存储数据逐层执行数据写入,直到不再触发下层数据写入:读取当前分层存储层的数据存储文件中的全部存储数据;将所写入的上层存储数据与所读取的存储数据合并;将合并后的存储数据中与每个Key对应的Value切分为主数据块以及对应的附加数据块;分别基于各个主数据块所对应的key的普通哈希值和完美哈希值,确定各个主数据块所在数据存储文件以及各个主数据块在所在数据存储文件中的偏移量,每个数据存储文件对应一个基于key的普通哈希值的哈希值范围;以及根据所确定出的所在数据存储文件以及在所在数据存储文件中的偏移量,对各个主数据块 以及对应的附加数据块进行数据写入,所写入的每个主数据块包括元数据,所述元数据包括附加数据块个数、各个附加数据块在数据存储文件中的偏移量和数据长度。
可选地,在上述方面的一个示例中,各个主数据块中的一个或多个主数据块不包括对应的附加数据块,以及针对不包括附加数据块的主数据块,在写入数据存储文件时不包括元数据。
可选地,在上述方面的一个示例中,所述下层数据写入响应于所述当前分层存储层中的一个或多个数据存储文件在完成当前数据写入后的文件大小达到或超过预定阈值而触发,所写入的存储数据包括所述当前分层存储层中达到或超过所述预定阈值的数据存储文件中的存储数据。
可选地,在上述方面的一个示例中,所述数据存储文件中的附加数据块被连续存储或分开存储。
可选地,在上述方面的一个示例中,所述合并后的存储数据按照下述数据切分算法中的一种数据切分算法执行数据切分:基于数据查询频次的数据切分算法;基于原始数据表中的数据列的数据切分算法;基于数据时间戳范围的数据切分算法;基于边类型、边数量或边索引的图数据切分算法。
可选地,在上述方面的一个示例中,所述数据存储介质的存储层的分层层数包括预定层数,和/或各个分层存储层分别包括预定数目个数据存储文件。
可选地,在上述方面的一个示例中,各个分层存储层所包括的数据存储文件数目自上而下逐层增加。
根据本说明书的实施例的另一方面,提供一种数据查询方法,包括:响应于接收到用户发起的数据查询请求,在数据库系统的内存层的内存表中进行数据查询,所述数据库系统按照如上所述的数据存储方法进行数据存储;响应于针对所述内存层的数据查询结果未完全满足所述数据查询请求中的数据查询条件,自所述数据库系统的存储层的顶层分层存储层开始,按照下述方式执行数据查询,直到完全满足所述数据查询条件或者完成底层分层存储层查询:响应于针对所述内存层或上层分层存储层的数据查询结果未完全满足所述数据查询条件,根据所述数据查询请求的目标数据的key的普通哈希值定位当前分层存储层中的数据存储文件以及根据所述key的完美哈希值定位主数据块在数据存储文件中的偏移量和数据长度;基于所定位的主数据块的偏移量和数据长度,从所在数据存储文件中读取主数据块;对所读取的主数据块进行解析以获取数据查询结果;响应于针对所述主数据块的数据查询结果未完全满足所述数据查询条件,获取所述主数据块中记录的附加数据块的偏移量和数据长度;基于所获取的附加数据块的偏移量和数据长度,从所在数据存储文件中读取所有附加数据块;对所读取的各个附加数据块进行解析以获取数据查询结果;以及将所得到的所有数据查询结果提供给所述用户。
可选地,在上述方面的一个示例中,各个附加数据块的数据读取并行执行。
根据本说明书的实施例的另一方面,提供一种数据存储装置,包括:内存写入单元,将待存储数据写入数据库系统的内存层的内存表,所述待存储数据包括Key-Value对中的Value;以及数据存储介质写入单元,响应于所述内存表写满,将所述内存表的存储数据写入所述数据库系统的数据存储介质,其中,所述数据存储写入单元包括:数据读取模块,读取当前分层存储层的数据存储文件中的全部存储数据;数据合并模块,将所写入的上层存储数据与所读取的存储数据合并;数据切分模块,将合并后的存储数据中与每个Key对应的Value切分为主数据块以及对应的附加数据块;存储位置确定模块,分别基于各个主数据块所对应的key的普通哈希值和完美哈希值,确定各个主数据块所在数据存储文件以及各个主数据块在所在数据存储文件中的偏移量,每个数据存储文件对应一个基于key的普通哈希值的哈希值范围;以及数据写入模块,根据所确定出的所在数据存储文件以及在所在数据存储文件中的偏移量,对各个主数据块以及对应的附加数据块进行数据写入,所写入的每个主数据块包括元数据,所述元数据包括附加数据块个数、各个附加数据块在数据存储文件中的偏移量和数据长度,其中,所述数据存储写入单元自所述数据库系统的数据存储介质的存储层中的顶层分层存储层开始,对所述内存表的存储数据执行逐层数据写入,直到不再触发下层数据写入。
可选地,在上述方面的一个示例中,所述数据存储介质写入单元响应于所述当前分层存储层中的一个或多个数据存储文件的文件大小达到或超过预定阈值,对所述当前分层存储层中达到或超过所述预定阈值的数据存储文件中的存储数据执行下层数据写入。
可选地,在上述方面的一个示例中,所述数据切分模块按照下述数据切分算法中的一种数据切分算法对所述合并后的存储数据执行数据切分:基于数据查询频次的数据切分算法;基于原始数据表中的数据列的数据切分算法;基于数据时间戳范围的数据切分 算法;基于边类型、边数量或边索引的图数据切分算法。
可选地,在上述方面的一个示例中,所述数据存储介质的存储层的分层层数包括预定层数,和/或各个分层存储层分别包括预定数目个数据存储文件。
可选地,在上述方面的一个示例中,各个分层存储层所包括的数据存储文件数目自上而下逐层增加。
根据本说明书的实施例的另一方面,提供一种数据查询装置,包括:内存查询单元,响应于接收到用户发起的数据查询请求,在数据库系统的内存层的内存表中进行数据查询,所述数据库系统按照如上所述的数据存储方法进行数据存储;数据存储介质查询单元,响应于针对所述内存层的数据查询结果未完全满足所述数据查询请求中的数据查询条件,对所述数据库系统的数据存储介质进行数据查询:以及查询结果提供单元,将所得到的所有数据查询结果提供给所述用户,其中,所述数据存储介质查询单元包括:主数据块定位模块,响应于针对所述内存层或上层分层存储层的数据查询结果未完全满足所述数据查询条件,根据所述数据查询请求的目标数据的key的普通哈希值定位当前分层存储层中的数据存储文件以及根据所述key的完美哈希值定位主数据块在数据存储文件中的偏移量和数据长度;主数据块读取模块,基于所定位的主数据块的偏移量和数据长度,从所在数据存储文件中读取主数据块;主数据块查询模块,对所读取的主数据块进行解析以获取数据查询结果;附加数据块定位模块,响应于针对所述主数据块的数据查询结果未完全满足所述数据查询条件,获取所述主数据块中记录的附加数据块的偏移量和数据长度;附加数据块读取模块,基于所获取的附加数据块的偏移量和数据长度,从所在数据存储文件中读取所有附加数据块;附加数据块查询模块,对所读取的各个附加数据块进行解析以获取数据查询结果;其中,所述数据存储介质查询单元自所述数据库系统的存储层的顶层分层存储层开始执行数据查询,直到完全满足所述数据查询条件或者完成底层分层存储层查询。
可选地,在上述方面的一个示例中,所述附加数据块读取模块从所在数据存储文件中并行读取各个附加数据块。
根据本说明书的实施例的另一方面,提供一种数据库系统,包括:如上所述的数据存储装置;如上所述的数据查询装置;内存层;以及数据存储介质。
根据本说明书的实施例的另一方面,提供一种数据存储装置,包括至少一个处理器、与所述至少一个处理器耦合的存储器以及存储在所述存储器中的计算机程序,所述至少一个处理器执行所述计算机程序来实现如上所述的数据存储方法。
根据本说明书的实施例的另一方面,提供一种计算机可读存储介质,其存储有可执行指令,所述指令当被执行时使得处理器执行如上所述的数据存储方法。
根据本说明书的实施例的另一方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行来实现如上所述的数据存储方法。
根据本说明书的实施例的另一方面,提供一种数据查询装置,包括至少一个处理器、与所述至少一个处理器耦合的存储器以及存储在所述存储器中的计算机程序,所述至少一个处理器执行所述计算机程序来实现如上所述的数据查询方法。
根据本说明书的实施例的另一方面,提供一种计算机可读存储介质,其存储有可执行指令,所述指令当被执行时使得处理器执行如上所述的数据查询方法。
根据本说明书的实施例的另一方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行来实现如上所述的数据查询方法。
附图说明
图1示出了根据本说明书的实施例的数据库系统的示例示意图。
图2示出了根据本说明书的实施例的数据存储介质的示例示意图。
图3示出了根据本说明书的实施例的数据存储文件的示例示意图。
图4示出了根据本说明书的实施例的数据存储方法的示例流程图。
图5示出了根据本说明书的实施例的针对数据存储介质的逐层数据写入方法的示例流程图。
图6示出了根据本说明书的实施例的待存储的原始数据的示例示意图。
图7示出了根据本说明书的实施例的数据合并过程的示例流程图。
图8示出了根据本说明书的实施例的数据查询方法的示例流程图。
图9示出了根据本说明书的实施例的数据存储装置的示例方框图。
图10示出了根据本说明书的实施例的数据查询装置的示例方框图。
图11示出了根据本说明书的实施例的基于计算机系统实现的数据存储装置的示例 示意图。
图12示出了根据本说明书的实施例的基于计算机系统实现的数据查询装置的示例示意图。
具体实施方式
如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。
在结合附图描述根据本说明书的实施例之前,先对本说明书的实施例中提及的几个术语进行简要说明。
普通哈希运算是指利用普通哈希函数来对数据进行哈希运算。按照普通哈希函数进行哈希运算可能会出现哈希冲突(Hash Collision)。换言之,针对两个不同数据,按照普通哈希函数进行哈希运算可能会得到相同哈希值。
完美哈希运算是一种不会出现哈希冲突的哈希运算,其基于完美哈希函数(Perfect Hash Function)将N个输入整数数据集映射到M个整数空间,其中,N≤M。在完美哈希运算时,对于给定的数据集,任意的Key1和Key2,经过完美哈希函数H的处理后所得到的哈希值都不相同,即,H(Key1)!=H(Key2)。
在本说明书中,原始数据被处理为键值对(Key-Value,KV)数据,并且将各个Key对应的Value存储到数据库系统中。原始数据的示例可以包括但不限于普通KV数据,宽表数据,图数据等。针对普通KV数据,每个Key对应一个Value。对于宽表数据和图数据处理后的KV数据,对于一个Key可能会存在多个数据列(Column),或者一个图节点存在多条一度边,换言之,一个Key可以对应多个Value。在本说明书中,待存储数据包括KV数据中的Value,其指代要存储到数据库系统中的数据。
下面将参照附图描述根据本说明书的实施例的数据库系统、数据存储方法、数据存储装置、数据查询方法及数据查询装置。
图1示出了根据本说明书的实施例的数据库系统100的示例示意图。数据库系统100也可以称为数据库应用的服务端,用于提供数据存储服务和数据查询服务。数据库系统100例如可以利用具有计算能力的设备实现。
如图1所示,数据库系统100包括内存层110和数据存储介质120。内存层110可以包括由至少一个内存(例如,计算机设备的内存)组成的内存池。内存层110也可以称为内存储器和主存储器。内存层110例如可以用于暂时存放计算设备的CPU中的运算数据以及与例如磁盘(Disk)等外部数据存储介质交换的数据。数据存储介质120也可以称为外部存储器。在计算设备读取数据存储介质120中的数据时,需要通过向数据存储介质发起例如IO操作的数据读取操作来将数据存储介质120中的数据读取到内存中。数据存储介质120例如可以是各种非易失性存储介质,比如,磁盘设备、存储卡等。磁盘是指利用磁记录技术存储数据的存储器。磁盘的示例例如可以包括各种形式的(Soft Disk)软盘和硬盘(Hard Disk)。
数据库系统100还包括数据存储装置130。数据存储装置130被配置为将待存储数据存储到数据库系统的内存层110或者数据存储介质120。
数据库系统100还包括数据查询装置140。数据查询装置140被配置为响应于用户发起的数据查询请求在数据库系统的内存层110或者数据存储介质120中进行数据查询,并将数据查询结果提供给用户。
在本说明书的一些实施例中,数据存储介质可被分层为至少两个分层存储层,该至少两个分层存储层中的各个分层存储层之间构成层次关系,由此构成分层存储层结构。图2示出了根据本说明书的实施例的数据存储介质120的示例示意图。
如图2所示,数据存储介质120被分层为3个分层存储层,即,分层存储层L0、分层存储层L1和分层存储层L2。分层存储L0是分层存储层结构的顶层存储层,分层存储层L1是分层存储层L0的下层分层存储层,分层存储层L2是分层存储层L1的下层分层存储层。分层存储层结构的分层层数可以是预先设置的预定数目层。
各个分层存储层可以包括预定数目个数据存储文件(例如,Bin文件)。在一些实施例中,各个分层存储层的数据存储文件个数可以相同。在一些实施例中,各个分层存储层的数据存储文件个数可以不同。例如,在一些示例中,在对数据存储介质进行分层时,为各个分层存储层设置的数据存储文件个数可以自顶层分层存储层开始逐层依序增 加。如图2所示,为分层存储L0、分层存储层L1和分层存储层L2设置的Bin文件的个数自顶层存储层L0起自上向下依序增加,即,分层存储层L0包含1个Bin文件,分层存储层L0包含2个Bin文件,以及分层存储层L2包含4个Bin文件。图2示出的仅仅是数据存储介质的分层存储结构的示例。在其他实施例中,可以采用包含其它数目个数据存储文件的分层存储结构。优选地,每个分层存储层所包含的数据存储文件的个数可以为2的幂数。
分层存储层中的数据存储文件用于存储待存储数据的Value。在将待存储数据的Value写入数据存储文件时,需要将待存储数据中每个Key所对应的Value切分为主数据以及对应的附加块数据,并且基于该Key确定所对应的Value在数据存储文件中的存储位置(即,相对于数据存储文件首地址的偏移量)。然后,将所切分出的主数据以及对应的附加块数据写入对应的数据存储文件中。
图3示出了根据本说明书的实施例的数据存储文件的示例示意图。
在图3的示例中,数据存储文件包括多个主数据块,例如,主数据块1、主数据块2到主数据块M。每个主数据块对应一个Key的部分或全部Value。可选地,每个主数据块还可以包括一个或多个附加数据块。例如,主数据块1可以包括附加数据块1、附加数据块2到附加数据块N。附加数据块1到N用于存储其主数据块所对应的Key的剩余Value。换言之,对于待存储数据中的一个Key的Value,可以将其切分为一个主数据块以及一个或多个附加数据块。在一个Key的Value不大的情况下,可以将其所有Value切分为主数据块,而无需附加数据块。
在本说明书的数据存储文件中,如图3所示,各个Key所对应的主数据块被连续存储,并且各个Key所对应的主数据块在数据存储文件中的存储位置可以基于该Key的完美哈希值确定。此外,各个主数据块的对应附加数据块可以被连续存储,如图3中所示,也可以分开存储。
在写入数据存储文件时,主数据块除了记录所包含的子数据块之外,还需要包含对应的元数据(如果存在附加数据块)。元数据包括附加数据块个数、各个附加数据块在数据存储文件中的偏移量和数据长度。如图3所示,针对主数据块1,其包括N个附加数据块,从而其附加数据块个数为N。此外,元数据还记录附加数据块1到N在数据存储文件中的偏移量以及对应的数据长度。元数据中记录的附加数据块的偏移量用于指示附加数据块在数据存储文件中的存储位置的首地址相对于数据存储文件的首地址的偏移量。各个附加数据块被记录到数据存储文件的相应位置处,所记录的附加数据块可以包含1个或多个子数据块。例如,附加数据块1包含子数据块X+1到子数据块X+Y。
图4示出了根据本说明书的实施例的数据存储方法的示例流程图。图4中示出的数据存储方法可以由数据库系统中的数据存储装置130执行。在一些实施例中,数据存储装置130可以被实现为数据库系统(数据库应用服务端)的用于实现数据存储的线程(下文中称为数据存储线程)。
如图4所示,在需要将待存储数据写入数据库系统时,将待存储数据写入数据库系统的内存层的内存表(MemTable)。例如,在410,数据存储线程监测是否接收到待存储数据。待存储数据例如可以是用户经由数据库应用的客户端设备输入的待存储数据。如果未接收到待存储数据,则数据存储线程持续进行监测。如果接收到待存储数据,则在420,数据存储线程将待存储数据写入内存表MemTable。
图6示出了根据本说明书的实施例的待存储的原始数据的示例示意图。如图6所示,待存储的原始数据是键值对数据。每条键值对数据可以包括由1个键(Key)和至少一个值(Value)组成的键值对(即,Key-Value)。在图3的示例中,每条键值对数据的Key为数据ID,例如,用户的身份证号码、注册号码、系统编号等。Value_1表示用户姓名,Value_2表示用户年龄,以及Value_5表示用户职业等。在本说明书中,术语“待存储数据”是指原始数据中的Value。
在430,判断内存层中的内存表是否写满。如果判断为内存表写满,则在440,自数据库系统的数据存储介质的存储层中的顶层分层存储层开始,按照逐层写入方式将内存表的存储数据写入数据存储介质的存储层。如果判断为内存表未写满,则当前数据存储过程结束。可选地,可以返回到410,继续监测是否接收到待存储数据。
图5示出了根据本说明书的实施例的针对数据存储介质的逐层数据写入方法500的示例流程图。图5示出的示例是逐层数据写入过程的当前分层存储层的数据写入过程。
如图5所示,在触发针对当前分层存储层的数据写入时,在510,读取当前分层存储层的所有存储数据,即,当前分层存储层中的所有数据存储文件(Bin文件)中的存储数据。数据写入可以响应于内存表写满或者上层分层存储层中的一个或多个数据存储 文件的文件大小达到或超过预定阈值而触发。所写入的存储数据包括内存表的存储数据或者上层分层存储层中达到或超过预定阈值的数据存储文件中的存储数据。
在520,将所写入的存储数据与所读取的当前分层存储层中的存储数据合并。图7示出了根据本说明书的实施例的数据合并过程的示例流程图。如图7所示,在进行数据合并时,对于同一Key,如果Value的取值发生更新,则使用新数据来替换旧数据,比如,ID1所对应的数据。或者,如果第一数据具有旧数据中不存在的Key,则增加该Key所对应的数据,比如,ID5所对应的数据。然后,基于内存层中的更新后的存储数据,使用基于哈希的第一索引机制来生成对应的内存数据索引。
在530,将合并后的存储数据切分为各个主数据块以及对应的附加数据块。例如,可以每个key所对应的存储数据切分为主数据块以及对应的附加数据块。
在一些实施例中,可以按照数据切分算法对合并后的存储数据执行数据切分。数据切分算法的示例可以包括但不限于:基于数据使用频次的数据切分算法;基于原始数据表中的数据列的数据切分算法;基于数据时间戳范围的数据切分算法;基于边类型、边数量或边索引的图数据切分算法。
基于数据使用频次的数据切分算法是指根据Value是否是常用Value进行的数据切分。Value是否是常用Value可以基于本领域的各种适用方法来确定,例如,可以通过数据查询命中频次(或数据使用频次)是否超过预定值来确定。按照这种数据切分算法,可以将常用Value存储在主数据块,而将不常用Value存储到附加数据块,由此使得大部分数据查询可以避免读取附加数据块。
基于原始数据表中的数据列的数据切分算法是指基于原始数据表(例如,宽表)中的数据列进行的数据切分。例如,针对具有大Value的宽表,可以按照宽表的Column来进行数据切分。基于数据时间戳范围的数据切分算法是指基于待存储数据的时间戳进行的数据切分。按照这种数据切分方法,每个数据块包含一定时间戳范围内的存储数据。基于边类型、边数量或边索引的图数据切分算法是适用于图数据的数据切分算法。在这种数据切分算法中,可以按照边的类型、边的数量或者边索引来对图数据进行数据切分。
在540,分别基于各个主数据块所对应的key的普通哈希值和完美哈希值,确定各个主数据块所在数据存储文件以及各个主数据块在所在数据存储文件中的偏移量。每个数据存储文件对应一个哈希值范围。
在本说明书中,每个分层存储层被设置为对应一个第一哈希值范围,该第一哈希值范围例如可以是一个整数范围,比如,[0,K-1],其中,K为2的幂数。每个分层存储层中的各个数据存储文件所对应的哈希值范围为该分层存储层的哈希值范围除以该分层存储层的数据存储文件个数。例如,针对图2中的数据存储介质,分层存储层L0中的数据存储文件的哈希值范围为[0,K-1],分层存储层L1中的2个数据存储文件的哈希值范围分别为[0,K/2-1]和[K/2,K-1],以及分层存储层L1中的4个数据存储文件的哈希值范围分别为[0,K/4-1],[K/4,K/2-1],[K/2,3K/4-1]和[3K/4,K-1]。
在进行存储位置确定时,首先,基于各个主数据块所对应的key的普通哈希值,确定各个主数据块所在数据存储文件。例如,计算各个主数据块所对应的key的普通哈希值,然后基于主数据块所对应的key的普通哈希值,确定该普通哈希值所在的哈希值范围,由此确定出所在数据存储文件。针对各个主数据块,如果基于普通哈希运算所计算出的哈希值超出所设置的第一哈希值范围(即,分层存储层所对应的哈希值范围),则以第一哈希值范围的哈希值个数为模进行取模运算,所得到的余数为普通哈希值。在确定出各个主数据块所在数据存储文件后,针对每个数据存储文件,基于该数据存储文件中包含的所有主数据块的Key,确定出该数据存储文件所对应的完美哈希函数,并利用所确定出的完美哈希函数来对该数据存储文件中的各个主数据块的Key进行完美哈希运算,由此确定出各个主数据块在所在数据存储文件中的偏移量。
在如上确定出各个主数据块的存储位置后,在550,根据所确定出的所在数据存储文件及在所在数据存储文件中的偏移量,对各个主数据块及对应的附加数据块进行数据写入。在所写入的主数据块还包括一个或多个附加数据块时,所写入的主数据块还包括元数据,所述元数据包括附加数据块个数、各个附加数据块在数据存储文件中的偏移量和数据长度,由此,利用元数据定位各个附加数据块的存储位置并进行附加数据块写入。
可选地,在将内存表的存储数据写入数据存储介质的存储层后,可从内存表中删除相应存储数据,由此释放内存层中的相应存储空间。此外,可选地,在分层存储层的存储数据被写入到下层分层存储层后,也可以从该分层存储层中删除对应的存储数据。
回到图5,在如上完成主数据块及其对应附加数据块的数据写入后,在560,判断是否触发下层数据写入。例如,判断当前分层存储层中的一个或多个数据存储文件的文件 大小是否达到或超过预定阈值。如果当前分层存储层中的一个或多个数据存储文件的文件大小达到或超过预定阈值,则触发下层数据写入,即对当前分层存储层中文件大小达到或超过预定阈值的一个或多个数据存储文件的存储数据执行下层数据写入。如果当前分层存储层中的所有数据存储文件的文件大小都未达到预定阈值,则数据存储过程结束。
下面以一个示例为例说明根据本说明书的实施例的数据存储过程。在该示例中,数据库系统包括内存和硬盘,硬盘分为L0-L3层级。内存、L0层和L1层存储有数据。所存储的存储数据为用户信息系统中的用户数据,其中,key为用户id,value为用户的各种信息。针对用户id1,内存中记录了用户id1的名字,L0层中记录了用户id1的地址,以及L1层中记录了用户id1的电话号码。
假设需要插入用户id1的身份证号。内存表中的数据使用链表存储,由此在内存表中插入用户id1的身份证号后,用户id1的链表将存在两项信息,一项信息是新插入的身份证号,一项信息是原来保存的名字。
如果插入身份证号后内存表存满,则需要将内存表的存储数据合并到L0层的Bin文件中。在这种情况下,需要从L0层中读取L0层的bin文件中存储的旧数据(例如,电话号码等子数据),将所读取的电话号码与内存表的存储数据(例如,用户id1的身份证、名字等子数据)合并,并将合并后的数据写入L0层的新bin文件中。电话号码、身份证和名字等子数据可以一起放入Bin文件的主数据块中,也可以分开放在Bin文件的主数据块和附加数据块中。例如,名字是最常访问的子数据,身份证号和电话号码是不常用的子数据,则可以将名字放在主数据块中,以及将身份证号、电话号码分别放在2个附加块中。此外,在子数据太多的情况下,如果放在一个主数据块中,则会使得主数据块太大,由此可以将这些子数据切分成大小合适的主块和附加块。这里,主数据块和附加数据块的数据切分方式可以是自定义方式。
在完成内存表到L0层的数据写入后,如果L0层的Bin文件大小达到预定阈值,则需要将L0层的Bin文件与L1层的Bin文件合并,并写入L1层中由此得到L1层的新Bin文件。L1层的数据写入过程与上面L0层的数据写入过程类似,在此不再赘述。
如上参照附图描述了根据本说明书的实施例的数据存储过程。在按照上述数据存储方法将数据存储到数据库系统中后,可响应于用户发起的数据查询请求来进行数据查询。
图8示出了根据本说明书的实施例的数据查询方法800的示例流程图。图8中的数据查询方法可以由数据库系统中的数据查询装置执行。数据查询装置可以被实现为数据库系统(数据库应用服务端)的用于实现数据查询的线程(下文中称为数据查询线程)。
如图8所示,在810,响应于接收到用户发起的数据查询请求,在数据库系统的内存层的内存表中进行数据查询。在一个示例中,数据查询请求可以包括待查询目标数据的Key以及数据查询条件。
在完成针对内存表的数据查询得到针对内存表的数据查询结果后,在820,判断针对内存表的数据查询是否完全满足数据查询请求中的数据查询条件。即,判断数据查询请求中需要查询的数据查询条件是否都完成了对应的数据查询。例如,假设内存层的内存表中仅仅存储用户id1的身份证、名字,而数据查询条件指示需要查询用户id1的身份证、名字和注册日期,则由于内存表中没有注册日期,从而针对内存表的数据查询未完全满足数据查询请求中的数据查询条件。
如果针对内存表的数据查询完全满足数据查询请求中的数据查询条件,则在811,将针对内存表的数据查询得到的数据查询结果提供给用户。
如果针对内存表的数据查询未完全满足数据查询请求中的数据查询条件,则自数据库系统的存储层的顶层分层存储层开始,逐层执行数据查询,直到完全满足数据查询条件或者完成底层分层存储层查询。具体地,循环执行块803到810的操作。
在803,针对当前分层存储层,根据数据查询请求的待查询目标数据的key的普通哈希值定位当前分层存储层中的数据存储文件,并且根据待查询目标数据的key的完美哈希值定位主数据块在数据存储文件中的偏移量和数据长度。
例如,通过使用对目标数据的key执行普通哈希运算得到普通哈希值,然后确定普通哈希值落在当前分层存储层的哪个数据存储文件的哈希值范围内,由此定位出目标数据所在的数据存储文件。在定位出所在的数据存储文件后,基于该数据存储文件所对应的完美哈希函数,对目标数据的key执行完美哈希运算得到完美哈希值,由此定位出主数据块在数据存储文件中的偏移量,并基于下一主数据块在数据存储文件中的偏移量确定出该主数据块的数据长度。在进行数据存储时,由于各个主数据块的Key已知并且连续存储,从而可以获悉各个主数据块的偏移量。
在定位出主数据块在数据存储文件中的偏移量和数据长度后,在804,基于所定位 出的主数据块的偏移量和数据长度,从所在数据存储文件中读取主数据块。例如,数据查询线程可以设置主数据块的回调函数,并向操作系统发送异步IO读取请求,由操作系统向数据存储介质发起IO数据读取操作,由此从数据存储介质的对应分层存储层的数据存储文件中读取主数据块。
在从数据存储介质读取主数据块后,在805,对所读取的主数据块进行解析,并在解析后的主数据块中进行数据查询以获取数据查询结果。
在得到针对主数据块的数据查询结果后,在806,判断完成主数据块的数据查询后是否完全满足数据查询请求中的数据查询条件。如果完成主数据块的数据查询后完全满足数据查询请求中的数据查询条件,则在811,将针对内存表以及主数据块的数据查询得到的数据查询结果提供给用户。
如果完成主数据块的数据查询后未完全满足数据查询请求中的数据查询条件,则在807,获取主数据块中记录的附加数据块的偏移量和数据长度。即,从解析后的主数据块中获取各个附加数据块的偏移量和数据长度。
在808,基于所获取的各个附加数据块的偏移量和数据长度,从所在数据存储文件中读取所有附加数据块。例如,在判断为需要执行附加数据块查询后,数据查询线程可以设置附加数据块的回调函数,根据主数据块中记录的附加数据块的偏移量和数据长度,针对每个附加数据块,向操作系统发送IO读取请求,由操作系统向数据存储介质发起IO数据读取操作来从数据存储介质读取附加数据块。在当前分层存储层的附加数据块被操作系统返回后,数据查询线程调用附加数据块的回调函数执行处理。例如,附加数据块的回调函数可以对返回的附加数据块的数目计数,当所有附加数据块都返回后,开始解码处理所有附加数据块。在一个示例中,各个附加数据块的数据读取可以并行执行。
在809,对所读取的各个附加数据块进行解析以获取数据查询结果。对所读取的附加数据块进行解析,并在解析后的附加数据块中进行数据查询以获取数据查询结果。
在得到针对附加数据块的数据查询结果后,在810,判断完成附加数据块的数据查询后是否完全满足数据查询请求中的数据查询条件。如果完成附加数据块的数据查询后完全满足数据查询请求中的数据查询条件,则在811,将针对内存表、主数据块以及附加数据块的数据查询得到的数据查询结果提供给用户。这里,针对主数据块以及附加数据块的数据查询结果包括直到当前分层存储层为止(包括当前分层存储层)的所有分层存储层的主数据块以及附加数据块的数据查询结果。
如果完成附加数据块的数据查询后未完全满足数据查询请求中的数据查询条件,则返回到803,针对下一分层存储层执行803到810的数据查询处理。
利用上述数据存储及数据查询方案,由于在每个分层存储层中,同一Key的Value可以分开存储在主数据块以及一个或多个附加数据块,并且在进行数据查询时,首先在主数据块中进行查询,只有在主数据块中不存在目标数据时才执行针对附加数据块的数据查询,即,针对附加数据块实行按需查询,从而可以降低数据查询时的数据查询量,由此提升数据查询效率。
图9示出了根据本说明书的实施例的数据存储装置900的示例方框图。如图9所示,数据存储装置900可以包括内存写入单元910和数据存储介质写入单元920。数据存储介质写入单元920包括数据读取模块921、数据合并模块923、数据切分模块925、存储位置确定模块927和数据写入模块929。
内存写入单元910被配置为将待存储数据写入数据库系统的内存层的内存表,所述待存储数据包括Key-Value对。内存写入单元910的操作可以参考上面参照图4的420描述的操作。
数据存储介质写入单元920被配置为响应于内存表写满,将内存表的存储数据写入数据库系统的数据存储介质。具体地,数据存储写入单元920中的数据读取模块921、数据合并模块923、数据切分模块925、存储位置确定模块927和数据写入模块929,自数据库系统的数据存储介质的存储层中的顶层分层存储层开始,对内存表的存储数据执行逐层数据写入,直到不再触发下层数据写入。
数据读取模块921被配置为读取当前分层存储层的数据存储文件中的全部存储数据。数据合并模块923被配置为将所写入的上层存储数据与所读取的存储数据合并。
数据切分模块925被配置为将合并后的存储数据中与每个Key对应的Value切分为主数据块以及对应的附加数据块。
存储位置确定模块927被配置为分别基于各个主数据块所对应的key的普通哈希值和完美哈希值,确定各个主数据块所在数据存储文件以及各个主数据块在所在数据存储文件中的偏移量,每个数据存储文件对应一个哈希值范围。
数据写入模块929被配置为根据所确定出的所在数据存储文件以及在所在数据存储文件中的偏移量,对各个主数据块以及对应的附加数据块进行数据写入,所写入的每个主数据块包括元数据,所述元数据包括附加数据块个数、各个附加数据块在数据存储文件中的偏移量和数据长度。
在一些实施例中,数据存储介质写入单元920可以响应于当前分层存储层中的一个或多个数据存储文件的文件大小达到或超过预定阈值,对当前分层存储层中达到或超过预定阈值的数据存储文件中的存储数据执行下层数据写入。
在一些实施例中,数据切分模块925可以被配置为按照下述数据切分算法中的一种数据切分算法对所述合并后的存储数据执行数据切分:基于数据使用频次的数据切分算法;基于原始数据表中的数据列的数据切分算法;基于数据时间戳范围的数据切分算法;基于边类型、边数量或边索引的图数据切分算法。
图10示出了根据本说明书的实施例的数据查询装置1000的示例方框图。如图10所示,数据查询装置1000包括内存查询单元1010、数据存储介质查询单元1020和查询结果提供单元1030。数据存储介质查询单元1020包括主数据块定位模块1021、主数据块读取模块1022、主数据块查询模块1023、附加数据块定位模块1024、附加数据块读取模块1025和附加数据块查询模块1026。
内存查询单元1010被配置为响应于接收到用户发起的数据查询请求,在数据库系统的内存层的内存表中进行数据查询。内存查询单元1010的操作可以参考上面参照图8的801描述的操作。
数据存储介质查询单元1020被配置为响应于针对内存层的数据查询结果未完全满足所述数据查询请求中的数据查询条件,对数据库系统的数据存储介质进行数据查询。数据存储介质查询单元1020自数据库系统的存储层的顶层分层存储层开始执行数据查询,直到完全满足数据查询条件或者完成底层分层存储层查询。
具体地,在针对每个分层存储层进行数据查询时,主数据块定位模块1021、主数据块读取模块1022、主数据块查询模块1023、附加数据块定位模块1024、附加数据块读取模块1025和附加数据块查询模块1026执行下述操作。
主数据块定位模块1021被配置为响应于针对内存层或上层分层存储层的数据查询结果未完全满足数据查询条件,根据数据查询请求的目标数据的key的普通哈希值定位当前分层存储层中的数据存储文件,以及根据目标数据的key的完美哈希值定位主数据块在数据存储文件中的偏移量和数据长度。主数据块读取模块1022被配置为基于所定位的主数据块的偏移量和数据长度,从所在数据存储文件中读取主数据块。主数据块查询模块1023被配置为对所读取的主数据块进行解析以获取数据查询结果。
附加数据块定位模块1024被配置为响应于针对主数据块的数据查询结果未完全满足数据查询条件,获取主数据块中记录的附加数据块的偏移量和数据长度。附加数据块读取模块1025被配置为基于所获取的附加数据块的偏移量和数据长度,从所在数据存储文件中读取所有附加数据块。附加数据块查询模块1026被配置为对所读取的各个附加数据块进行解析以获取数据查询结果。
查询结果提供单元1030被配置为将所得到的所有数据查询结果提供给用户。
如上参照图1到图10,对根据本说明书实施例的数据存储方法、数据存储装置、数据查询方法、数据查询装置以及数据库系统进行了描述。上面的查询存储装置和数据查询装置可以采用硬件实现,也可以采用软件或者硬件和软件的组合来实现。
图11示出了根据本说明书的实施例的基于计算机系统实现的数据存储装置1100的示意图。数据存储装置1100可包括至少一个处理器1110、存储器(例如,非易失性存储器)1120、内存1130和通信接口1140,并且至少一个处理器1110、存储器1120、内存1130和通信接口1140经由总线1160连接在一起。至少一个处理器1110执行在存储器中存储或编码的至少一个计算机可读指令(即,上述以软件形式实现的元素)。
在一个实施例中,在存储器中存储计算机可执行指令,其当执行时使得至少一个处理器1110:将待存储数据写入数据库系统的内存层的内存表,所述待存储数据包括Key-Value对中的Value;响应于所述内存表写满,自所述数据库系统的数据存储介质的存储层中的顶层分层存储层开始,按照下述方式对所述内存表的存储数据逐层执行数据写入,直到不再触发下层数据写入:读取当前分层存储层的数据存储文件中的全部存储数据;将所写入的上层存储数据与所读取的存储数据合并;将合并后的存储数据中与每个Key对应的Value切分为主数据块以及对应的附加数据块;分别基于各个主数据块所对应的key的普通哈希值和完美哈希值,确定各个主数据块所在数据存储文件以及各个主数据块在所在数据存储文件中的偏移量,每个数据存储文件对应一个基于key的普通 哈希值的哈希值范围;以及根据所确定出的所在数据存储文件以及在所在数据存储文件中的偏移量,对各个主数据块以及对应的附加数据块进行数据写入,所写入的每个主数据块包括元数据,所述元数据包括附加数据块个数、各个附加数据块在数据存储文件中的偏移量和数据长度。
应该理解,在存储器中存储的计算机可执行指令当执行时使得至少一个处理器1110进行本说明书的各个实施例中以上结合图1-图7以及图9描述的各种操作和功能。
图12示出了根据本说明书的实施例的基于计算机系统实现的数据查询装置1200的示意图。数据查询装置1200可包括至少一个处理器1210、存储器(例如,非易失性存储器)1220、内存1230和通信接口1240,并且至少一个处理器1210、存储器1220、内存1230和通信接口1240经由总线1260连接在一起。至少一个处理器1210执行在存储器中存储或编码的至少一个计算机可读指令(即,上述以软件形式实现的元素)。
在一个实施例中,在存储器中存储计算机可执行指令,其当执行时使得至少一个处理器1210:响应于接收到用户发起的数据查询请求,在数据库系统的内存层的内存表中进行数据查询,数据库系统按照如上所述的数据存储方法进行数据存储;响应于针对内存层的数据查询结果未完全满足数据查询请求中的数据查询条件,自数据库系统的存储层的顶层分层存储层开始,按照下述方式执行数据查询,直到完全满足数据查询条件或者完成底层分层存储层查询:响应于针对内存层或上层分层存储层的数据查询结果未完全满足数据查询条件,根据数据查询请求的目标数据的key的普通哈希值定位当前分层存储层中的数据存储文件以及根据所述key的完美哈希值定位主数据块在数据存储文件中的偏移量和数据长度;基于所定位的主数据块的偏移量和数据长度,从所在数据存储文件中读取主数据块;对所读取的主数据块进行解析以获取数据查询结果;响应于针对主数据块的数据查询结果未完全满足数据查询条件,获取主数据块中记录的附加数据块的偏移量和数据长度;基于所获取的附加数据块的偏移量和数据长度,从所在数据存储文件中读取所有附加数据块;对所读取的各个附加数据块进行解析以获取数据查询结果;以及将所得到的所有数据查询结果提供给用户。
应该理解,在存储器中存储的计算机可执行指令当执行时使得至少一个处理器1210执行本说明书的各个实施例中以上结合图8以及图10描述的各种操作和功能。
根据一个实施例,提供了一种比如机器可读介质(例如,非暂时性机器可读介质)的程序产品。机器可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被机器执行时,使得机器执行本说明书的各个实施例中以上结合图1-图10描述的各种操作和功能。具体地,可以提供配有可读存储介质的系统或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。
在这种情况下,从可读介质读取的程序代码本身可实现上述任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。
可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上或云上下载程序代码。
根据一个实施例,提供一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序当被处理器执行时,使得处理器执行本说明书的各个实施例中以上结合图1-图10描述的各种操作和功能。
本领域技术人员应当理解,上面公开的各个实施例可以在不偏离发明实质的情况下做出各种变形和修改。因此,本发明的保护范围应当由所附的权利要求书来限定。
上述各流程和各系统结构图中不是所有的步骤和单元都是必须的,可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的,可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构,也可以是逻辑结构,即,有些单元可能由同一物理实体实现,或者,有些单元可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
以上各实施例中,硬件单元或模块可以通过机械方式或电气方式实现。例如,一个硬件单元、模块或处理器可以包括永久性专用的电路或逻辑(如专门的处理器,FPGA或ASIC)来完成相应操作。硬件单元或处理器还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器),可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。
上面结合附图阐述的具体实施方式描述了示例性实施例,但并不表示可以实现的或 者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。
本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说,对本公开内容进行的各种修改是显而易见的,并且,也可以在不脱离本公开内容的保护范围的情况下,将本文所定义的一般性原理应用于其它变型。因此,本公开内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims (23)

  1. 一种数据存储方法,包括:
    将待存储数据写入数据库系统的内存层的内存表,所述待存储数据包括Key-Value对中的Value;
    响应于所述内存表写满,自所述数据库系统的数据存储介质的存储层中的顶层分层存储层开始,按照下述方式对所述内存表的存储数据逐层执行数据写入,直到不再触发下层数据写入:
    读取当前分层存储层的数据存储文件中的全部存储数据;
    将所写入的上层存储数据与所读取的存储数据合并;
    将合并后的存储数据中与每个Key对应的Value切分为主数据块以及对应的附加数据块;
    分别基于各个主数据块所对应的key的普通哈希值和完美哈希值,确定各个主数据块所在数据存储文件以及各个主数据块在所在数据存储文件中的偏移量,每个数据存储文件对应一个哈希值范围;以及
    根据所确定出的所在数据存储文件以及在所在数据存储文件中的偏移量,对各个主数据块以及对应的附加数据块进行数据写入,所写入的每个主数据块包括元数据,所述元数据包括附加数据块个数、各个附加数据块在数据存储文件中的偏移量和数据长度。
  2. 如权利要求1所述的数据存储方法,其中,所述各个主数据块中的一个或多个主数据块不包括对应的附加数据块,以及针对不包括附加数据块的主数据块,在写入数据存储文件时不包括元数据。
  3. 如权利要求1所述的数据存储方法,其中,所述下层数据写入响应于所述当前分层存储层中的一个或多个数据存储文件在完成当前数据写入后的文件大小达到或超过预定阈值而触发,所写入的存储数据包括所述当前分层存储层中达到或超过所述预定阈值的数据存储文件中的存储数据。
  4. 如权利要求1所述的数据存储方法,其中,所述数据存储文件中的附加数据块被连续存储或分开存储。
  5. 如权利要求1所述的数据存储方法,其中,所述合并后的存储数据按照下述数据切分算法中的一种数据切分算法执行数据切分:
    基于数据使用频次的数据切分算法;
    基于原始数据表中的数据列的数据切分算法;
    基于数据时间戳范围的数据切分算法;
    基于边类型、边数量或边索引的图数据切分算法。
  6. 如权利要求1所述的数据存储方法,其中,所述数据存储介质的存储层的分层层数包括预定层数,和/或各个分层存储层分别包括预定数目个数据存储文件。
  7. 如权利要求6所述的数据存储方法,其中,各个分层存储层所包括的数据存储文件数目自上而下逐层增加。
  8. 一种数据查询方法,包括:
    响应于接收到用户发起的数据查询请求,在数据库系统的内存层的内存表中进行数据查询,所述数据库系统按照如权利要求1到7中任一所述的方法进行数据存储;
    响应于针对所述内存层的数据查询结果未完全满足所述数据查询请求中的数据查询条件,自所述数据库系统的存储层的顶层分层存储层开始,按照下述方式执行数据查询,直到完全满足所述数据查询条件或者完成底层分层存储层查询:
    响应于针对所述内存层或上层分层存储层的数据查询结果未完全满足所述数据查询条件,根据所述数据查询请求的目标数据的key的普通哈希值定位当前分层存储层中的数据存储文件以及根据所述key的完美哈希值定位主数据块在数据存储文件中的偏移量和数据长度;
    基于所定位的主数据块的偏移量和数据长度,从所在数据存储文件中读取主数据块;
    对所读取的主数据块进行解析以获取数据查询结果;
    响应于针对所述主数据块的数据查询结果未完全满足所述数据查询条件,获取所述主数据块中记录的附加数据块的偏移量和数据长度;
    基于所获取的附加数据块的偏移量和数据长度,从所在数据存储文件中读取所有附加数据块;
    对所读取的各个附加数据块进行解析以获取数据查询结果;以及
    将所得到的所有数据查询结果提供给所述用户。
  9. 如权利要求8所述的数据查询方法,其中,各个附加数据块的数据读取并行执 行。
  10. 一种数据存储装置,包括:
    内存写入单元,将待存储数据写入数据库系统的内存层的内存表,所述待存储数据包括Key-Value对中的Value;以及
    数据存储介质写入单元,响应于所述内存表写满,将所述内存表的存储数据写入所述数据库系统的数据存储介质,
    其中,所述数据存储写入单元包括:
    数据读取模块,读取当前分层存储层的数据存储文件中的全部存储数据;
    数据合并模块,将所写入的上层存储数据与所读取的存储数据合并;
    数据切分模块,将合并后的存储数据中与每个Key对应的Value切分为主数据块以及对应的附加数据块;
    存储位置确定模块,分别基于各个主数据块所对应的key的普通哈希值和完美哈希值,确定各个主数据块所在数据存储文件以及各个主数据块在所在数据存储文件中的偏移量,每个数据存储文件对应一个哈希值范围;以及
    数据写入模块,根据所确定出的所在数据存储文件以及在所在数据存储文件中的偏移量,对各个主数据块以及对应的附加数据块进行数据写入,所写入的每个主数据块包括元数据,所述元数据包括附加数据块个数、各个附加数据块在数据存储文件中的偏移量和数据长度,
    其中,所述数据存储写入单元自所述数据库系统的数据存储介质的存储层中的顶层分层存储层开始,对所述内存表的存储数据执行逐层数据写入,直到不再触发下层数据写入。
  11. 如权利要求10所述的数据存储装置,其中,所述数据存储介质写入单元响应于所述当前分层存储层中的一个或多个数据存储文件的文件大小达到或超过预定阈值,对所述当前分层存储层中达到或超过所述预定阈值的数据存储文件中的存储数据执行下层数据写入。
  12. 如权利要求10所述的数据存储装置,其中,所述数据切分模块按照下述数据切分算法中的一种数据切分算法对所述合并后的存储数据执行数据切分:
    基于数据使用频次的数据切分算法;
    基于原始数据表中的数据列的数据切分算法;
    基于数据时间戳范围的数据切分算法;
    基于边类型、边数量或边索引的图数据切分算法。
  13. 如权利要求10所述的数据存储装置,其中,所述数据存储介质的存储层的分层层数包括预定层数,和/或各个分层存储层分别包括预定数目个数据存储文件。
  14. 如权利要求13所述的数据存储装置,其中,各个分层存储层所包括的数据存储文件数目自上而下逐层增加。
  15. 一种数据查询装置,包括:
    内存查询单元,响应于接收到用户发起的数据查询请求,在数据库系统的内存层的内存表中进行数据查询,所述数据库系统按照如权利要求1到7中任一所述的方法进行数据存储;
    数据存储介质查询单元,响应于针对所述内存层的数据查询结果未完全满足所述数据查询请求中的数据查询条件,对所述数据库系统的数据存储介质进行数据查询:以及
    查询结果提供单元,将所得到的所有数据查询结果提供给所述用户,
    其中,所述数据存储介质查询单元包括:
    主数据块定位模块,响应于针对所述内存层或上层分层存储层的数据查询结果未完全满足所述数据查询条件,根据所述数据查询请求的目标数据的key的普通哈希值定位当前分层存储层中的数据存储文件以及根据所述key的完美哈希值定位主数据块在数据存储文件中的偏移量和数据长度;
    主数据块读取模块,基于所定位的主数据块的偏移量和数据长度,从所在数据存储文件中读取主数据块;
    主数据块查询模块,对所读取的主数据块进行解析以获取数据查询结果;
    附加数据块定位模块,响应于针对所述主数据块的数据查询结果未完全满足所述数据查询条件,获取所述主数据块中记录的附加数据块的偏移量和数据长度;
    附加数据块读取模块,基于所获取的附加数据块的偏移量和数据长度,从所在数据存储文件中读取所有附加数据块;
    附加数据块查询模块,对所读取的各个附加数据块进行解析以获取数据查询结果;
    其中,所述数据存储介质查询单元自所述数据库系统的存储层的顶层分层存储层开始执行数据查询,直到完全满足所述数据查询条件或者完成底层分层存储层查询。
  16. 如权利要求15所述的数据查询装置,其中,所述附加数据块读取模块从所在数据存储文件中并行读取各个附加数据块。
  17. 一种数据库系统,包括:
    如权利要求10到14中任一所述的数据存储装置;
    如权利要求15或16所述的数据查询装置;
    内存层;以及
    数据存储介质。
  18. 一种数据存储装置,包括:
    至少一个处理器,
    与所述至少一个处理器耦合的存储器,以及
    存储在所述存储器中的计算机程序,所述至少一个处理器执行所述计算机程序来实现如权利要求1到7中任一所述的数据存储方法。
  19. 一种计算机可读存储介质,其存储有可执行指令,所述指令当被执行时使得处理器执行如权利要求1到7中任一所述的数据存储方法。
  20. 一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行来实现如权利要求1到7中任一所述的数据存储方法。
  21. 一种数据查询装置,包括:
    至少一个处理器,
    与所述至少一个处理器耦合的存储器,以及
    存储在所述存储器中的计算机程序,所述至少一个处理器执行所述计算机程序来实现如权利要求8或9所述的数据查询方法。
  22. 一种计算机可读存储介质,其存储有可执行指令,所述指令当被执行时使得处理器执行如权利要求8或9所述的数据查询方法。
  23. 一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行来实现如权利要求8或9所述的数据查询方法。
PCT/CN2023/071518 2022-03-03 2023-01-10 数据存储及查询 WO2023165272A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210203048.7 2022-03-03
CN202210203048.7A CN114328545B (zh) 2022-03-03 2022-03-03 数据存储及查询方法、装置及数据库系统

Publications (1)

Publication Number Publication Date
WO2023165272A1 true WO2023165272A1 (zh) 2023-09-07

Family

ID=81030299

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2023/071518 WO2023165272A1 (zh) 2022-03-03 2023-01-10 数据存储及查询

Country Status (2)

Country Link
CN (1) CN114328545B (zh)
WO (1) WO2023165272A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117785890A (zh) * 2024-02-27 2024-03-29 支付宝(杭州)信息技术有限公司 一种基于lsm树的数据遍历查询方法及相关设备

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114328545B (zh) * 2022-03-03 2022-07-08 北京蚂蚁云金融信息服务有限公司 数据存储及查询方法、装置及数据库系统
CN116303580A (zh) * 2023-05-06 2023-06-23 支付宝(杭州)信息技术有限公司 数据查询方法、装置及数据库系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016021264A (ja) * 2015-10-23 2016-02-04 株式会社東芝 メモリシステムのデータ管理方法
CN108319602A (zh) * 2017-01-17 2018-07-24 广州市动景计算机科技有限公司 数据库管理方法及数据库系统
CN109189759A (zh) * 2018-08-01 2019-01-11 华为技术有限公司 Kv存储系统中的数据读取方法、数据查询方法、装置及设备
CN113407550A (zh) * 2021-08-19 2021-09-17 支付宝(杭州)信息技术有限公司 数据存储及查询方法、装置及数据库系统
CN113961514A (zh) * 2021-12-20 2022-01-21 支付宝(杭州)信息技术有限公司 数据查询方法及装置
CN114328545A (zh) * 2022-03-03 2022-04-12 北京蚂蚁云金融信息服务有限公司 数据存储及查询方法、装置及数据库系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1318934C (zh) * 2005-01-18 2007-05-30 利特国际有限公司 具有分层式存储结构的便携式数据存储装置的数据加密和解密方法
CN101620618B (zh) * 2009-07-24 2011-11-30 中兴通讯股份有限公司 内存存储数据的维护方法与装置
CN102118433A (zh) * 2010-12-27 2011-07-06 网宿科技股份有限公司 多层次的分布式集群系统
EP2629212A1 (en) * 2012-02-14 2013-08-21 Alcatel Lucent Method for storing and searching tagged content items in a distributed system
US9390055B2 (en) * 2012-07-17 2016-07-12 Coho Data, Inc. Systems, methods and devices for integrating end-host and network resources in distributed memory
CN104536959B (zh) * 2014-10-16 2018-03-06 南京邮电大学 一种Hadoop存取海量小文件的优化方法
CN107783993B (zh) * 2016-08-25 2021-11-30 阿里巴巴集团控股有限公司 数据的存储方法和装置
CN113515518A (zh) * 2020-04-10 2021-10-19 腾讯科技(深圳)有限公司 数据存储方法、装置、计算机设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016021264A (ja) * 2015-10-23 2016-02-04 株式会社東芝 メモリシステムのデータ管理方法
CN108319602A (zh) * 2017-01-17 2018-07-24 广州市动景计算机科技有限公司 数据库管理方法及数据库系统
CN109189759A (zh) * 2018-08-01 2019-01-11 华为技术有限公司 Kv存储系统中的数据读取方法、数据查询方法、装置及设备
CN113407550A (zh) * 2021-08-19 2021-09-17 支付宝(杭州)信息技术有限公司 数据存储及查询方法、装置及数据库系统
CN113961514A (zh) * 2021-12-20 2022-01-21 支付宝(杭州)信息技术有限公司 数据查询方法及装置
CN114328545A (zh) * 2022-03-03 2022-04-12 北京蚂蚁云金融信息服务有限公司 数据存储及查询方法、装置及数据库系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117785890A (zh) * 2024-02-27 2024-03-29 支付宝(杭州)信息技术有限公司 一种基于lsm树的数据遍历查询方法及相关设备

Also Published As

Publication number Publication date
CN114328545B (zh) 2022-07-08
CN114328545A (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
WO2023165272A1 (zh) 数据存储及查询
US8719237B2 (en) Method and apparatus for deleting duplicate data
US10642515B2 (en) Data storage method, electronic device, and computer non-volatile storage medium
US8756238B2 (en) Index searching using a bloom filter
WO2013086969A1 (zh) 重复数据查找方法、装置及系统
TW201841122A (zh) 鍵值儲存樹
US10783115B2 (en) Dividing a dataset into sub-datasets having a subset of values of an attribute of the dataset
WO2014090097A1 (zh) 一种数据存储方法和装置
TW201837720A (zh) 用於多串流儲存裝置之串流選擇
CN110347651B (zh) 基于云存储的数据同步方法、装置、设备及存储介质
WO2013182054A1 (zh) 内存检索、实时检索系统和方法、计算机存储介质
US20130067237A1 (en) Providing random access to archives with block maps
CN110764706A (zh) 存储系统、数据管理方法及存储介质
CN113407550A (zh) 数据存储及查询方法、装置及数据库系统
WO2014000458A1 (zh) 小文件处理方法及装置
US10810174B2 (en) Database management system, database server, and database management method
WO2023083234A1 (zh) 图状态数据管理
US11704298B2 (en) Measuring and improving index quality in a distributed data system
TWI420333B (zh) 分散式的重複數據刪除系統及其處理方法
JP6113816B1 (ja) 情報処理システム、情報処理装置、及びプログラム
WO2019174558A1 (zh) 一种数据索引方法及装置
JP5494817B2 (ja) ストレージシステム、データ管理装置、方法及びプログラム
US20130111164A1 (en) Hardware compression using common portions of data
CN116303580A (zh) 数据查询方法、装置及数据库系统
JP2010191903A (ja) 分散ファイルシステムのストライピング種別選択方法及びその分散ファイルシステム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23762673

Country of ref document: EP

Kind code of ref document: A1