WO2014090097A1

WO2014090097A1 - 一种数据存储方法和装置

Info

Publication number: WO2014090097A1
Application number: PCT/CN2013/088286
Authority: WO
Inventors: 陈峥; 邓大付
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2012-12-14
Filing date: 2013-12-02
Publication date: 2014-06-19
Also published as: US20150331619A1; CN103870492A; CN103870492B; US9377959B2

Abstract

本发明实施方式提出了一种数据存储方法和装置。在第一数据块中存储定长键及其值，其中所述存储定长键包括：统一存储各个定长键的公共前缀，并分别存储各个定长键去除公共前缀后的剩余部分；在第二数据块存储变长键及其值，其中所述存储变长键包括：全量存储基准键类型的变长键，而对前缀压缩键类型的变长键执行前缀压缩。

Description

一种数据存储方法和装置

相关文件

本申请要求于 2012年 12月 14日提交中国专利局、申请号为 201210541207.0、发明名称为"一种基于键排序的数据存储方法和装置"的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明实施方式涉及信息处理技术领域，更具体地，涉及一种数据存储方法和装置。发明背景

键-值（ key-value )分布式存储系统具有查询速度快、存放数据量大、支持高并发（如支持多个并发的查询过程）等优点，非常适合通过主键进行查询，但不能进行复杂的条件查询。如果辅以实时搜索引擎（ Real-Time Search Engine )进行复杂条件检索、全文检索，就可以替代并发性能较低的 MySQL等关系型数据库，达到高并发、高性能，节省服务器数量的目的。

发明内容

本发明实施方式提出一种数据存储方法，可以提高存储空间的利用率。

本发明实施方式还提出一种数据存储装置，可以提高存储空间的利用率。

本发明实施方式的具体方案如下：

一种数据存储方法，该方法包括：

在第一数据块中存储定长键及其值，其中所述存储定长键包括：统一存储各个定长键的公共前缀，并分别存储各个定长键去除公共前缀后的剩余部分；

在第二数据块存储变长键及其值，其中所述存储变长键包括：全量存储基准键类型的变长键，而对前缀压缩键类型的变长键执行前缀压缩。

一种数据存储装置，该装置包括定长键存储单元和变长键存储单元，其中：定长键存储单元，用于在在第一数据块中存储定长键及其值，其中所述存储定长键包括：统一存储各个定长键的公共前缀，并分别存储各个定长键去除公共前缀后的剩余部分；

变长键存储单元，用于在第二数据块存储变长键及其值，其中所述存储变长键包括：全量存储基准键类型的变长键，而对前缀压缩键类型的变长键执行前缀压缩。

从上述技术方案可以看出，变长键数据块内釆用前缀压缩方式，可以有效减小数据的存储空间，提高机器磁盘利用率。附图简要说明

以下附图仅为本发明技术方案的一些例子，本发明并不局限于图中示出的特征。以下附图中，相似的标号表示相似的元素：

图 1是一个实施例的计算设备的结构示意图；

图 2为本发明实施方式的文件格式示意图；

图 3为本发明实施方式的数据存储方法流程图；

图 4为本发明实施例用于存储具有定长键的记录的数据块存储结构示意图；图 5为根据本发明实施方式的将定长键写入数据块的过程示意图；

图 6为本发明实施例的用于存储具有变长键的记录的数据块存储结构示意图；图 7为本发明实施例的将变长键写入数据块的过程示意图。

图 8为本发明实施例的布隆过滤器的存储结构示意图。

图 9为本发明实施例的将块索引信息写入索引块的过程示意图。

图 10为本发明实施例的文件头的存储结构示意图。

图 11为本发明实施例的将记录写入文件的流程示意图；

图 12为本发明实施例的文件读取方法示意图；

图 13为本发明实施例的读取记录流程示意图；

图 14为本发明实施例的数据存储装置结构图。

图 15为本发明实施例的数据存储装置结构图。

实施本发明的方式

为了描述上的简洁和直观，下文通过描述若干代表性的实施例来对本发明的方案进行阐述。实施例中大量的细节仅用于帮助理解本发明的方案。但是很明显，本发明的技术方案实现时可以不局限于这些细节。为了避免不必要地模糊了本发明的方案，一些实施方式没有进行细致地描述，而是仅给出了框架。下文中， "包括"是指 "包括但不限于"， "根据…… "是指 "至少根据 ··· ···，但不限于仅根据…… "。由于汉语的语言习惯，下文中没有特别指出一个成分的数量时，意味着该成分可以是一个也可以是多个，或可理解为至少一个。

图 1是一个实施例的计算设备的结构示意图。如图 1所示，计算机 100可以是能够实现本发明各例子提供的方法和软件系统的计算设备。例如，计算机 100可以是个人电脑或便携设备，例如笔记本电脑、平板电脑、手机或智能手机，等。计算机 100还可以是与上述设备通过网络相连的服务器。

计算机 100可以具有不同的性能和特征。各种可能的实现方式都在本文的保护范围内。例如，计算机 100可以包括按键区 /键盘 156, 还可以包括一个显示器 154, 如液晶显示器（LCD ), 或者具有高级功能的显示器，例如触摸感应 2D或 3D显示器。一个例子中，一个具有 web功能的计算机 100可以包括一个或多个物理键盘或虚拟键盘，以及大容量存储装置 130。

计算机 100也可以包括或允许各种操作系统 141 ,例如 WindowsTM或 LinuxTM 操作系统，或移动操作系统，如 iOSTM , AndroidTM , 或 Windows MobileTM等。计算机 100可以包括或运行各种应用程序 142, 例如数据存储应用 145。数据存储应用 145能够将有序的记录（record )以本发明实施例的文件格式存储到非易失性存储装置 130中。

此外，计算机 100可以包括一个或多个处理器可读的非易失性存储介质 130和一个或多个与存储介质 130通信的处理器 122。例如，处理器可读的非易失性存储介质 130可以是 RAM、闪存、 ROM、 EPROM、 EEPROM、寄存器、硬盘、移动硬盘、 CD-ROM, 或其它各种形式的非易失性存储介质。存储介质 130可以存储一系列指令或包含指令的单元和 /或模块，用于完成本发明各种实施例的操作。处理器可以执行上述指令，完成各种实施例中的操作。

在本发明实施方式中提出一种数据持久化的文件格式，可以基于 key 排序，支持定长、变长 key以及值（ value ) , 而且 key可以带前缀压缩。而且，在本发明实施方式中，以数据块（block ) 为存储单位，有利于 10和解析的力度。

优选在本发明实施方式的数据块内釆用前缀压缩方式以及对每个数据块进行压缩，从而有效减小数据的存储空间，并提高机器磁盘利用率，当读取数据时，可以依据索引块以及数据块内部的有序性，快速定位查询的数据。

本发明实施方式的键排序的数据存储方法可以包括以下步骤。

在第一数据块中存储定长键及其值，其中所述存储定长键包括：统一存储各个定长键的公共前缀，并分别存储各个定长键去除公共前缀后的剩余部分。

其中，在本发明实施方式中，上述步骤的执行顺序并无任何限定。

在这里，第一数据块专门用于存储定长键及其值，第二数据块专门用于存储变长键及其值。

一个例子中，可以根据预先设置的阈值长度和阈值差分将变长键划分为基准键类型和前缀压缩键类型，其中：将当前变长键与上一个基准键进行前缀比较，如果相同前缀串小于所述阈值长度，则判定该当前变长键为基准键类型；

将当前变长键与上一个基准键进行前缀比较，如果相同前缀串大于所述阈值长度与阈值差分的和，则判定该当前变长键为基准键类型；

将当前变长键与上一个基准键进行前缀比较，如果相同前缀串大于所述阈值长度而小于所述阈值长度与阈值差分的和，则判定该当前变长键为前缀压缩键类型。

一个例子中，前缀压缩键类型的变长键执行前缀压缩包括：

针对前缀压缩键类型的变长键，存储该前缀压缩键类型的变长键与上一个基准键的公共前缀的长度，以及存储该前缀压缩键类型的变长键去除该公共前缀后的剩余部分。

在一个实施方式中，当判定将定长键及其值存储到第一数据块失败时，压缩所述第一数据块，并分配存储緩冲区；当压缩后第一数据块的大小小于所述存储緩冲区时，将所述压缩后第一数据块写入所述存储緩冲区；

当判定将变长键及其值存储到第二数据块失败时，压缩所述第二数据块，并分配存储緩冲区；当压缩后第二数据块的大小小于所述存储緩冲区时，将所述压缩后第二数据块写入所述存储緩冲区。

一个例子中，该方法还可以包括：

当判定将定长键及其值存储到第一数据块成功时，将所述定长键及其值的布隆过滤器信息写入到布隆过滤器中；

当判定将变长键及其值存储到第二数据块成功时，将所述定长键及其值的布隆过滤器信息写入到布隆过滤器中。

在一个实施方式中，可以设置读取緩冲区，并当判定该读取操作的读取长度小于所述緩冲区且该当前数据块不是最后数据块时，取出下一数据块的起始地址并记录下一数据块的长度并继续读取，直到读取长度大于所述緩冲区的长度为止。

本发明实施方式的一种文件格式由数据块（包括数据块 1、数据块 2, —直到数据块 n )、布隆过滤器，索引块，文件头部（包括文件头和文件头长度）组成。

在数据块部分存储有序的记录（record ), 该记录分为 Key和值（ value )。对于 Key部分，可以划分为定长 Key和变长 Key。

可以将同一类型的 Key及其 Value存放在相同的数据块中，比如在数据块 1专门存放定长 Key及其 Value;在数据块 2专门存放变长 Key及其 Value,等等。而且，专门存放同一类型的 Key及其 Value的数据块的数目可以有多个。在存放定长 Key及其 Value的数据块中，对于各个定长 Key的公共前缀（ prefix ) 优选只存一份，而针对每个 key只存该 key去除公共前缀后的剩余部分（即不同部门 remainder )。

在存放变长 Key及其 Value的数据块，可以依据预先设定的阈值长度 ( threshold length ) 和阈值差分 ( threshold diff ) 区分基准（base ) key 和前缀压缩（prefix compressed ) key。对于 base key, 执行全量存储；对于 prefix compressed key, 贝¹ J 存该当前 refix compressed key与前一个 base key的 prefix长度 (变长整型压缩 )，然后存放该 refix compressed key的 remainder邵分。

存放定长 Key及其 Value的数据块以及存放变长 Key及其 Value的数据块中，对于 value部分（变长；)，可以存放隶属于同一个 key的所有 cell的压缩结果。

基于上述文件结构，当所有的 block存满记录（ record )后，顺序写入文件中。如果该 block常驻内存（常驻内存的 block, 需要文件写入器（比如： SSTable writer ) 来进行管理，若 SSTable writer消失，则常驻内存的 block也消失，需要用户构建 SSTable读取器 SSTable reader, 调用 SSTable writer的 Assign方法 swap out已 dump 的 block ), 则分配 block, 将 block hold在 SSTable writer中；如果该 block不常驻内存，则直接 dump block到 SSTable。

当所有 block写完之后，会写入文件的元数据（即 bloom filter, block index, header, header length信息），此时文件写入器（writer )写入完毕。

对于变长 Key, 基于本发明实施方式文件格式的 block在进行写入（push ) record时，需要分配临时空间用来存储键偏移（ key offset )，基准偏移（ base offset ), 键（key ) , 数据偏移（data offset ) 和数据（data ) 。

( 1 )当在写入第一条记录 record时，设置当前 Key、 Data在 Key offset, Data offset临时分配区域的偏移量（第一条时，偏移量为 0 ) , 并计算当前 key是否可以成为 base key , 如果可以则记录 base offset (当前 key为基准进行压缩，此 key不进行压缩），并将 key, data存放到临时分配区。

( 2 )每次 push—条记录时，将当前 key与前一条记录的基准 key进行前缀比较 (获取前一条记录的 base offset, 相同前缀串大于阈值 ( thresholdjen, 可设置）时，进行前缀压缩，该 key对应的 base offset中存放前一条记录的基准 Key的偏移，得到压缩后相同前缀的长度 ( var int表示），然后在 key临时分配区内，接着上次写入的结束位置，写入相同前缀的长度（var int表示）和不同部分的 key; 在 data offset, data临时分配区写入 data的偏移和 data数据。 ( 3 )每次 push—条记录时，将当前 key与前一条记录的基准 key进行前缀比较，相同前缀串小于阈值时，不进行前缀压缩，该 key为基准 key进行存储， base offset中设为当前 key的偏移（当前 key为基准进行压缩，此 key不进行压缩），然后在 key临时分配区内，接着上次写入的结束位置，写入 key; 在 data offset, data临时分配区写入 data的偏移和 data数据

( 4 )在每次 push—条记录时，计算 block存储区已使用的空间大小，临时分配空间区域的大小之和，若大于 block size , 则该 block已经写满，当前 record 未写入。此时，考虑是否将 base offset, key, data offset, data临时分配的区域写入 block未使用的区域。

对于定长 Key, 每次 Push—条记录时，计算当前已经 push记录的最长公共串，当 block写满时，已求出最长公共串的长度以及最长公共串， block内存的存储结构是先存储最长公共串，接着存放每个 key的剩余串，然后存放 data数据，最后存放头部 block header。

对于基于本发明实施方式的文件格式的数据块的读取（get ) 操作，主要包括：当在进行 get record时，依据 record的索引，在 block中进行查找；或者依据 key在 block中查找 record对应索引。

( 1 )才艮据 record索引，找 key offset和 base offset, 依据 base offset 可以判断当前记录 record的 key是否进行过前缀压缩，若未进行前缀压缩，则直接读取 key; 若进行前缀压缩，则依据 base offset找到 base key , 和当前存储 key的位置获取前缀串的长度（ var int ) , 然后还原 key。

( 2 )根据 record索引，找到 data的 offset, 获取当前记录的 data域。

( 3 )根据 key查找 record索引，主要依据二分查找进行快速定位。

本发明实施方式的布隆过滤器 bloom filter是一个特殊的退化 Hash Table。退化到不处理 Collision , 不存储 Key值； bloom filter可以设置 hash次数，依据 hash次数，以及每条 record的 key计算该记录在 bitmap中的位置，并进行设置。

在读取记录时，依据 bloom filter进行第一层的过滤，根据 hash次数，以及每条 record的 key计算该记录对应 bitmap中的位置是否被设置为 1 ,如果不为 1 , 这当前的 key不存在文件中，若为 1 , 则可能存在文件中，并依据文件中 block index的 end key在文件中查找。

本发明实施方式的索引块（ Block Index )的存储方式（变长 key ,定长 value ) 与 block的存储方式相似。 key字段为 cell key, 存储每个数据块的最后一条 cell 的全量 key (行键（ row key ) + cfid + column ) , value字段是数据块在文件中的偏移（offset length) , 以及当前 row key的长度 (row key length)。

本发明实施方式的文件头（ Header )存放文件相关信息以及各个部分的偏移和长度，有利于快速定位各个部分，省去从文件开始进行遍历导致的系统资源浪费。

在该文件头中可以设置：

( 1 ) 文件写入 record的 KV类型；

(2) 每个 block的压缩方法；

(3) 对固定长度的 key,为 Key的长度；对非固定长度的 Key,为 0;

(4) 对固定长度的 data,该值为 data的长度；非固定长度的，为 0；

(5) 用于非定长 key选取 basekey的；与上一个 basekey的公共前缀串长度阈值；

(6) 用于非定长 key选取 basekey的阈值；表示与前一个 key的公共前缀串长度和与当前 basekey的公共前缀串长度的差值；

(7) 文件 id号；

( 8) 文件是否常驻内存；

( 9 ) table no号；

( 10) LGid号；

( 11 ) s stable的 i己录数；

( 12) sstable压缩前的长度；

( 13) sstable压缩后的长度;

( 14) block的大小；

( 15) 索引块的压缩后的长度；

( 16) 索引块压缩前的长度；

( 17) 索引块的偏移量；

( 18) bloomfilter块的偏移量；

( 19) bloomfilter块的长度；

( 20 ) bloomfilter的 hash数目；

( 21 ) bloomfilter的冲突概率；

(22) sstable创建时 ;

(23) sstable row的数目；

( 24) sstable cell的数目。

基于上述详细描述，本发明提出了一种记录数据的写入方法。

在本发明实施方式中，首先写入 record到 Block中；若写入成功，则写当前 record的 bloomfilter信息到 bloomfilter结构；若写入失败，则表明当前 Block 数据已满，压缩当前 Block,依据 write buffer中未使用空间大小和 Block的大小，分配合适的 write buffer, 若当前 write buffer空间足够，则将 Block写入 write buffer即可；若 write buffer空间不足时，则将现有的 write buffer进行写入磁盘。 write buffer相等于一层 cache , 緩存已经写入的若干个 Block , —次性的写入多个 Block到磁盘。

其中，每次 Block写入的过程，都会将该 Block最后一条 key记录写入 Block Index结构。

当所有的 record写完后， bloomfilter和 Block Index 已经产生，依次写入 bloomfilter和 Block Index, 并将 bloomfilter和 Block Index的位置信息记录到 SSTable Header里面。

接着，文件头（Header )写磁盘。）最后，记录文件头长度（ Header Length ) 到磁盘。本发明实施例提出的一种文件格式（以下将这种文件格式称为 sstable格式，将这种格式的文件称为 sstable文件）。可以利用该文件格式将数据进行永久保存，也称为数据持久化。该文件格式可以存储具有定长、变长键以及值的记录（record )。一条记录包括键 ( key )和值（ value )。后文也将一个键和与该键同属于一条记录的值简称为键及其值，或者键及其相应的值，或者将当前记录的键和值简称为当前键、当前值。键是该记录的关键字，可以是用户输入的，也可以是通过其它方式生成的。

图 2为本发明实施方式的文件格式示意图。如图 2所示，文件格式由数据块（包括数据块 1、数据块 2, ··· ···数据块 n )、和元数据（meta data )组成。元数据包括布隆过滤器，索引块，文件头部（包括文件头和文件头长度）。

数据块（block )用于存储记录，记录可以是有序的或无序的。一个例子中，数据块中可以存储已根据键进行排序的记录。

布隆过滤器（bloom filter )是一个特殊的退化哈希表（ Hash Table )。退化到不处理冲突（Collision ), 不存储键值。布隆过滤器存储各个记录是否在该文件中的信息（也称为布隆过滤器信息）。写入一条记录时，可以依据预设的 hash次数和该记录的键，计算该记录在位图（BitMap ) 中的位置，并设置该位置的值，以表示该键存在于该文件中。例如，当该记录在位图中的位置的值不为 1时，表示该记录不存在于该文件中；当该记录在位图中的位置的值为 1时，表示该记录可能存在于该文件中。当查询一个键时，可以依据预设的 hash次数和该键，计算该键在位图（ BitMap ) 中的位置，并根据该位置的值确定该键是否存在于该文件中

索引块（index block )部分用于存储各个数据块的位置信息和各个数据块中存储的键的范围信息。一个例子中，当存储的记录是经过键排序的，例如，按照键的 ASCII码进行排序，则可以在索引块中记录各个数据块中存储的最后一个键作为块索引键（end key ), 这样，就可以根据索引块中的块索引键确定存储有该记录的数据块，并根据该数据块的位置读取数据块，从而在数据块中查找该记录。

文件头部（包括 header和 header length )用于存放文件的信息以及各个部分的偏移和长度，有利于快速定位各个部分，省去从文件开始处进行遍历导致的系统资源浪费。

基于上述文件格式，一个例子中的 sstable文件生成过程包括：将记录写入到数据块（也简称为块）中；若写入成功，则将当前记录的布隆过滤器信息写入布隆过滤器结构；当一个块写满时，将块索引信息写入索引块部分；当所有块写完之后，会写入文件的元数据（meta数据），此时文件写入完毕。

在本发明实施方式中，以数据块（block ) 为存储单位，可提高 10吞吐量和提高解析效率，加快解析速度。

一个例子中，将记录写入磁盘中的 sstable文件时，可以先在内存中为该文件分配存储緩冲区（write buffer ); 在内存中为一个数据块分配多个临时存储区域，并向各临时存储区域写入记录的各项信息，例如可为数据块结构中的各部分分别分配临时存储区域。若写入失败，则表明当前数据块已满，依据存储緩冲区（write buffer ) 中未使用空间大小和当前数据块的大小，判断存储緩冲区空间是否足够。若当前存储緩冲区空间足够，则将数据块写入存储緩冲区；若存储緩冲区空间不足时，则将现有的存储緩冲区进行写入磁盘，然后重新分配存储緩冲区来存放当前数据块以及后续可能有的数据块。存储緩冲区相当于一层 cache,用于緩存已经写入的若干个块，然后将这些块一次性写入到磁盘中，减少与磁盘的交互，加速写入速度。从而提高写入磁盘的效率。其它例子也可以釆用其它緩存机制，例如，每写满一个块就将该块写入磁盘，等，本发明对此不作限定。

一个例子中，在将块写入文件时，可以先对块进行压缩，写入压缩后的块，可以节省存储空间。

记录中的键可以是定长键或变长键。定长键的长度等于预设的值，变长键的长度没有固定的值。一个例子中，可以将同一类型的键及其值存放在相同的数据块中，比如在数据块 1专门存放定长键及其值；在数据块 2专门存放变长键及其值，等等。存放同一类型的键及其值的数据块的数目可以有多个。

图 3为本发明实施方式的数据存储方法流程图。如图 3所示，该方法可以包括以下步骤。

步骤 S11 : 在第一数据块中存储定长键及其值，其中所述存储定长键包括：存储各个定长键的公共前缀，并分别存储各个定长键去除公共前缀后的剩余部分。步骤 S12: 在第二数据块存储变长键及其值，其中所述存储变长键包括：全量存储基准键类型的变长键，而对前缀压缩键类型的变长键执行前缀压缩。

其中，在本发明实施方式中，针对步骤 S11和步骤 S12的执行顺序并无任何限定。

下文中将专门用于存储定长键及其值的数据块称为第一数据块，将专门用于存储变长键及其值的数据块称为第二数据块。可以根据预设每个数据块的大小，这个预设的大小可以由用户设置或者以其他方式确定。可以设置所有数据块具有相同的大小，也可以针对第一数据块和第二数据块分别设置其大小。

一个例子中，存放定长键时，第一数据块中可以只存一份各个定长键的公共前缀 ( common prefix ), 并且存各个键去除公共前缀后的剩余部分（即不同的部分， remainder )。

图 4为本发明实施例用于存储具有定长键的记录的数据块的存储结构示意图。如图 4所示，该数据块由块头部（ block header ) 401、数据偏移（data offset ) 402、数据（ data ) 403、键剩余部分（ remainder key ) 404和键公共前缀 ( common prefix key ) 405这几个部分（也称为区域， field )组成。

块头部 401存储该数据块的信息，可根据需要定义，例如，可以包括键公共前缀 405存储的公共前缀的长度。

键公共前缀 405是指该数据块中存放的所有键的公共前缀部分。

数据偏移 402、数据 403和键剩余部分 404分别包括多个存储单元（ cell ), 每个部分的每个存储单元对应一条记录。数据块中的每个记录都对应剩余键部分 404 的一个存储单元、数据偏移 402的一个存储单元和数据 404的一个存储单元，也即，在数据块中得到一条记录对应的三个存储单元的信息，再加上键公共前缀 405就能还原出该 i己录 ( key+value )。

键剩余部分 404存放各个键去除公共前缀后的剩余部分。

数据偏移 402存放各个数据 (即各记录中的 value )在 block中的存储位置相对一个起始位置的偏移量，用于在 block中定位各 value。

数据 403存储各记录中的 value。

图 5为本发明实施例的将定长键写入数据块的过程示意图。如图 5所示，可以在内存中为如图 4所述的第一数据块的块头部 401、数据偏移 402、数据 403、键剩余部分 404和键公共前缀 405分别分配临时存储空间 501、 502、 503、 504、 505。将公共前缀写入键临时存储空间 505 , 并将公共前缀的长度写入临时存储空间 501。写入一条记录时，从该记录的键前缀中去除与公共前缀相同的部分后，将键的剩余部分写入该记录对应的临时存储空间 504中的存储单元。将该记录的值写入该记录对应的临时存储空间 503 中的存储单元，并将该存储单元在临时存储空间 503 中的偏移量写入临时存储空间 502中该记录对应的存储单元。

每次写入一条记录时，可以计算上述临时存储空间 501、 502、 503、 504、 505 的大小之和。若该和大于等于预设的数据块大小（size ), 则该数据块已经写满，当前记录未写入，即当前记录存储失败。将临时存储空间 502、 503、 504、 505按照数据块的存储结构（例如，按照如图 4所示的存储结构）分别写入存储緩冲区（write buffer )中，并且在块头部的临时存储空间 501分别记录写入的各部分的信息，例如数据偏移 402、数据 403、键剩余部分 404和键公共前缀 405在数据块中的位置（如偏移量等）。最后将临时存储空间 501写入存储緩冲区。至此，完成了第一数据块的写入过程。如果仍有尚未写入的带有定长键的记录，可以重新分配临时存储空间并重复上述数据块的写入过程，已生成新的数据块。

其中，定长键公共前缀的确定方法可以根据实际需要确定。例如，可以根据分配的用于存储键剩余部分 404的临时存储空间的大小预测该数据块中能存储的记录条数，然后读取相应数目的记录的键，得到这些键的公共前缀。

一个例子中，当判定将定长键及其值存储到第一数据块失败时，确定该第一数据块已满。可以对所述第一数据块进行压缩以减小数据的存储空间。当压缩后第一数据块的大小小于存储緩冲区可用空间时，将所述压缩后第一数据块写入所述存储緩冲区。

一个例子中，存放变长键时，可以将变长键可以分为基准（base )键和前缀压缩（prefix compressed )键。对于基准键，执行全量存储，即存储完整的键。对于前缀压缩键，则存放该当前前缀压缩键与其基准键的前缀相同部分（后文简称为相同前缀或相同前缀串）的长度，然后存放该前缀压缩键除去相同前缀后的剩余部分（后文将这一步骤简称为前缀压缩，或者变长整型压缩 )。

图 6为本发明实施例的用于存储变长键的数据块的存储结构示意图。如图 6所示，该数据块由块头部（ block header ) 601、数据偏移（data offset ) 602、基准偏移 ( base offset ) 603、键偏移（ key offset ) 604、数据（ data ) 605、键（ key ) 606组成。

块头部 601存储该数据块的信息，可以根据需要定义。

数据偏移 602、基准偏移 603、键偏移 604、数据 605和键 606分别包括多个存储单元（cell ), 每个部分的每个存储单元对应一条记录。数据块中的每个记录都在数据偏移 602、基准偏移 603、键偏移 604、数据 605和键 606中具有对应的一个存储单元，也即，在数据块部分找到一条记录对应的五个存储单元的信息就能还原出该记录 ( key+value )。

数据偏移 602存储各个数据 (即各记录中的 value )在 block中的存储位置相对一个起始位置的偏移量，用于在 block中定位数据。

数据 605存储各个记录中的 value。

基准偏移 603存储各个键的基准键在该数据块中的存储位置相对一个起始位置的偏移量（即基准键的键偏移），用于在 block中定位各个键的基准键。基准键的基准偏移设为 0。

键偏移 604存储各个键在该数据块中的存储位置相对一个起始位置的偏移量，用于在 block中定位各个键。

键 606存储各个键与其基准键的相同前缀的长度和去除该相同前缀后的剩余部分。

一个例子中，可以将当前数据块中写入的第一条记录的键作为基准键，根据该基准键对后续记录的键进行前缀压缩。

一个例子中，对前缀压缩键类型的变长键执行前缀压缩包括：存储该前缀压缩键类型的变长键与其基准键的相同前缀的长度，以及存储该前缀压缩键类型的变长键去除该相同前缀后的剩余部分。

在数据块内釆用前缀压缩方式可以减小数据的存储空间，并提高机器磁盘利用率。

一个数据块中也可以有一个或者多个基准键，可以通过预设的方法将变长键划分为基准键类型和前缀压缩键类型，即判定一个变长键作为基准键或者前缀压缩键。

一个例子中，可以根据预先设置的阈值长度（ threshold_len )将变长键划分为基准键类型和前缀压缩键类型。例如，将当前变长键与当前基准键（即上一个键的基准键；当前键被确定为基准键时，为了区分当前键和前一个键的基准键，也将前一个键的基准键称为上一个基准键）进行前缀比较，如果相同前缀串的长度小于所述阈值长度，则判定该当前变长键为基准键类型；将当前变长键与当前基准键进行前缀比较，如果相同前缀串的长度大于所述阈值长度，则判定该当前变长键为前缀压缩键类型。阈值长度可根据需要设置。

一个例子中，还可以根据预先设置的阈值差分将变长键划分为基准键类型和前缀压缩键类型。计算当前键与前一个键的相同前缀串的长度，记为第一长度。计算当前键与当前基准键的公共前缀串的长度，记为第二长度。如果第一长度小于第二长度与阈值差分之和，则确定当前基准键为当前键的基准键，则将当前基准键的键偏移作为当前键的基准偏移；若第一长度大于或等于第二长度与阈值差分之和，则确定当前键为基准键，对当前键不进行压缩，将当前键的基准偏移设为 0。一个例子中，可以直接判断当前键与前一个键的相同前缀串的长度是否小于阈值长度与阈值差分之和，若该长度小于该和，则该变长键作为前缀压缩键，当前基准键为该变长键的基准键；若该长度大于或等于该和，则该变长键作为基准键。

图 7为本发明实施例的将变长键写入数据块的过程示意图。如图 7所示的例子中，将记录写入图 6所示格式的数据块时，可以在内存中为块头部 601、数据偏移 602、基准偏移 603、键偏移 604、数据 605、键 606分别分配临时存储空间 701、 702、 703、 704、 705、 706。

向数据块写入第一条记录时，以该第一条记录的键作为基准键，由于基准键不进行压缩，因此将完整的键存放到用于存储键的临时存储空间 706中该记录对应的存储单元（例如，第一个记录可以对应各临时存储空间的第一个存储单元 )。将该键的基准偏移存放到用于存储基准偏移的临时存储空间 703 中该记录对应的存储单元。基准键的基准偏移可以设置为 0。将该记录的数据（即 value )存放到用于存储数据的临时存储空间 705 中该记录对应的存储单元。将当前键在临时存储空间 706 的偏移量（相对该区域起始位置的相对位置）写入用于存储键偏移的临时存储空间 704中该记录对应的存储单元。将当前记录的数据在临时存储空间 705 中的偏移量 (相对该区域起始位置的相对位置）写入用于存储数据偏移的临时存储空间 702中该记录对应的存储单元。第一个记录的键偏移量和其相应的数据偏移量可以均设为 0。

向数据块写入后续的每一条记录时，计算当前记录的键是否可以成为基准键。如果确定当前键为基准键，则确定当前键的基准偏移为 0, 并将该完整的键（因为基准键不进行压缩）和基准偏移存放到临时存储空间 706、 703中当前记录对应的存储单元。如果确定当前键为前缀压缩键，将当前基准键的键偏移写入临时存储空间 703 中当前记录对应的存储单元，对该键进行前缀压缩，即将当前键与基准键的相同前缀的长度（var int表示）和不同部分（即当前键除去相同前缀后剩余的部分）存放到临时存储空间 706中当前记录对应的存储单元。将当前记录的键偏移、数据偏移和数据分别存放到临时存储空间 704、 702和 705中当前记录对应的存储单元。这样，就完成了一个变长键的写入。

一个例子中，确定当前基准键的方法可以包括：获取前一条记录的基准偏移以确定当前基准键。一个例子中，确定当前基准键的方法可以包括：在写入记录的过程中保存当前的基准键的信息，例如当前基准键的键偏移等。例如，可以分配一个临时存储空间用来暂存当前的基准键的信息。这样就可以根据保存的当前基准键的信息得到当前的基准键。确定当前键作为基准键时，可以将保存的当前基准键的信息更新为当前键的信息，如当前键的键偏移。其它例子也可以利用其它方法确定当前的基准键。

一个例子中，每次写入一条记录时，可以计算上述临时存储空间 701、 702、 703、 704、 705、 706 的大小之和。若该和大于等于预设的数据块大小（size ), 则该数据块已经写满，当前记录未写入，即当前记录存储失败。将临时存储空间 702、 703、 704、 705、 706按照数据块的存储结构（例如，按照如图 6所示的存储结构）分别写入存储緩冲区（write buffer ) 中，并且在临时存储空间 701分别记录写入的各部分的信息，例如数据偏移 602、基准偏移 603、键偏移 604、数据 605、键 606在数据块中的位置（如偏移量等）。最后将临时存储空间 701写入存储緩冲区。至此，完成了第二数据块的写入过程。如果仍有尚未写入的带有变长键的记录，可以重新分配临时存储空间并重复上述数据块的写入过程，已生成新的第二数据块。

一个例子中，每次写入一条记录时或者数据块写满时，可以计算块存储区（即上述存储緩冲区）已使用的空间大小和各临时分配空间区域的大小之和，若该和大于等于所述存储緩冲区的大小（size ), 则该块存储区已经写满，当前记录或数据块未写入，即当前记录或数据块存储失败；若该和小于上述存储緩冲区的大小，将存储有当前记录的基准偏移、键、数据偏移、数据的临时存储空间写入上述存储緩冲区中未使用的区域。

一个例子中，当判定将变长键及其值存储到第二数据块失败时，可以压缩所述第二数据块。当压缩后第二数据块的大小小于所述存储緩冲区的未用空间时，将所述压缩后第二数据块写入所述存储緩冲区。对每个数据块进行压缩可以有效减小数据的存储空间。

一个例子中，在数据块中存放变长的 value (即 value的长度不固定）时，可以存放对应于同一个键的所有存储单元（cell ) 的压缩结果，即存储压缩后的 value, 这样可以减 ' j、数据的存储空间。

一个例子中，基于图 2所示文件结构，当所有的块（例如一个存储緩冲区中的所有块，或者多个存储緩冲区中所有的块）存满记录后，可以将所有块顺序写入 sstable格式的文件中。例如，当记录是根据键排序后的，则可以根据存放的键的顺序将块顺序写入 sstable文件中。如果一个数据块常驻内存，则将该数据块保存（ hold ) 在文件写入器（writer )中；如果该数据块不常驻内存，则直接将其写入 sstable文件。常驻内存的数据块，需要文件写入器来进行管理，需要用户构建文件读取器（ reader, 例如， s stable reader )来读取。读取时，调用文件读取器的方法 (例如 As sign方法，可以由函数来实现）来置换（swap out ) 已写入文件中的数据块。文件写入器和文件读取器是提供给用户的一个接口，用于管理常驻内存的块。

当所有块写完之后，会写入文件的元数据，此时文件写入完毕。文件的元数据包括布隆过滤器，块索引、文件头、文件头长度的信息。

图 8为本发明实施例的布隆过滤器的存储结构示意图。如图 8所示的例子中，布隆过滤器为一个一维数组或矢量，例如表示为 {vl, v2, ..., vn}。其中的每个元素对应文件中存放的一个记录的键的信息。

一个例子中，当判定将定长键及其值存储到第一数据块成功时，将所述定长键及其值的布隆过滤器信息写入到布隆过滤器中；当判定将变长键及其值存储到第二数据块成功时，将所述变长键及其值的布隆过滤器信息写入到布隆过滤器中。

键的布隆过滤器信息可以根据预设的计算方法得到，例如可以预设对键进行 hash计算的次数等。布隆过滤器信息表示该键在布隆过滤器中的位置，该位置的值则表示该键是否存在于该文件中。一个例子中，一个键的布隆过滤器信息为 1时，表示该键可能存在于该文件中；一个键的布隆过滤器信息不为 1 (例如为 0或者空 null )时，表示该键不存在于该文件中。搜索一个键时，可以根据预设的计算方法得到这个键的布隆过滤器信息，从布隆过滤器中获取该布隆过滤器信息指示的位置的值，然后就可以根据获得的值判断该键是否有可能存在在该文件中了。

当所有的记录写完后，布隆过滤器即写入完成。在将所有数据块写入文件后，将布隆过滤器写入文件。一个例子中，可以在内存中分配一块临时存储空间用于临时存储布隆过滤器，当所有记录存放完毕后，将临时存储空间中的布隆过滤器写入磁盘中的 sstable文件中。

图 9为本发明实施例的将块索引信息写入索引块的过程示意图。如图 9所示，索引块包括索引块头部 901、数据偏移 902、基准偏移 903、块索引偏移 904、数据 905、块索引键 906。

索引块头部 901用于存储该索引块的信息，包括索引块中各区域的起始位置、长度等。

文件中的每个数据块在索引块的数据偏移 902、数据 905、基准偏移 903、块索引偏移 904和块索引键 906分别对应一个存储单元。根据数据偏移 902、数据 905、基准偏移 903、块索引偏移 904和块索引键 906中存储的一个数据的各项信息就可以找到这个数据块在文件中的位置。

索引块的存储方式与存放变长键的数据块（即第二数据块）的存储方式相似，也可以看做是存储一系列变长 key+value, 每个变长 key+value对应一个数据块。

索引块中存储的每个 key对应每个数据块的最后一个存储单元（ cell )的全量键 ( end key ), 即完整的键，例如，可以包括行键（ row key ) + 列族 ID ( cfid ) + 列 ( column )。例如，对于存放定长键的第一数据块，该 key为该第一数据块中最后一个键的完整形式，即公共前缀 +键剩余部分；对于存放变长键的第二数据块，该 key 为该第二数据块中最后一个键的完整形式，即最后一个键为基准键时，该 key为键 606中最后一个键，最后一个键为前缀压缩键时，该 key为根据该最后一个键的基准偏移得到的基准键、键中存储的与基准键的相同前缀长度和不同部分恢复得到的完整的前缀压缩键。一个例子中，可以在将记录写入数据块的时候记录最后一个写入成功的键，当数据块写满时，将记录的最后一个写入成功的键写入索引块中。

索引块中存储的每个 value对应每个数据块在文件中的位置，例如偏移量（ offset length )和当前 row key的长度 ( row key length )。可以在将数据块写入文件时，在索引块中写入该数据块在文件中的位置。

与第二数据块的存储方法类似，索引块中对应一个数据块的各部分中，数据偏移 902存放该数据块的 value (即数据块在文件中的位置）在索引块中的存储位置；数据 905存储相应数据块在文件中的位置（偏移量）；块索引偏移 904存储相应数据块的最后一个键 ( end key )在该索引块中的存储位置；基准偏移 903存储该数据块的 end key在该索引块中的基准 key (不是该 end key在数据块中的基准 key )在该索引块中的存储位置；块索引键 906存储该数据块的 end key与其在该索引块中的基准键的公共前缀长度和该 end key除去公共前缀的剩余部分。

每次数据块写入完毕，会将该数据块最后一条记录的键写入索引块结构。每次将数据块写入文件时，会将该数据块在文件中的位置信息写入索引块结构。将各数据块相应的 end key和 value写入索引块的过程与将变长键及其相应的 value写入第二数据块的过程相似，这里不再赘述。

当所有的记录写完后，索引块写入完成。在将布隆过滤器写入文件后，将索引块写入文件。一个例子中，可以在内存中分配一块临时存储空间用于临时存储索引块，当所有数据块和布隆过滤器写入磁盘中的文件后，将临时存储空间中的索引块写入磁盘中的文件中。

一个例子中，也可以在内存中暂存文件，将文件各部分写入内存中的文件后，将内存中的完整文件转存入磁盘中。因此，本发明的各实施例可以釆用不同的文件生成方式，本发明对此不作限定。

当所有的记录写完后，依次向文件中写入各数据块、布隆过滤器和索引块，并将布隆过滤器和索引块的位置信息记录到文件头（ Header )。

图 10 为本发明实施例的文件头的存储结构示意图。文件头存放文件相关信息以及各个部分的偏移和长度，有利于快速定位各个部分，省去从文件开始进行遍历导致的系统资源浪费。一个例子的文件头结构可以如图 10所示，该文件头可以设置以下部分。

(1) 键-值类型（KVtype), 表示文件写入的记录的 KV类型。一个例子中， KV type 包括两种键类型（变长键、定长键）和两种值类型（变长值、定长值）两两组合得到的四种情况。

(2) 压缩类型，表示每个块的压缩方法。

(3) 定长键的长度，对固定长度的键，为键的长度；对非固定长度的键，为

0。

( 4 ) 定长值长度，对固定长度的数据 (即 value ), 该值为数据的长度；非固定长度的数据，该值为 0。

(5) 阈值长度，即前述一个例子中用于确定变长键是否作为基准键的参数、表示与当前基准键的公共前缀串的长度的阈值。

(6) 阈值差分，即前述一个例子中用于确定变长键是否作为基准键的参数之 (7) 文件 id号，表示该文件的标识；

(8) In memory type, 表示该文件是否常驻内存；

(9) Table No, 用于上层应用调用；

( 10) Lg ID, 用于上层应用调用；

(11) 记录数，表示该 sstable文件中存放的记录的数量；

( 12) 压缩前长度，表示该 sstable文件压缩前的长度；

(13) 压缩后长度，表示该 sstable文件压缩后的长度； ( 14 ) 数据块的大小，表示各数据块的大小，即前述判断数据块是否写满的参数，可以由用户设定；

( 15 ) 索引块的压缩后的长度；

( 16 ) 索引块压缩前的长度；

( 17 ) 索引块的偏移量；

( 18 ) 布隆过滤器的偏移量；

( 19 ) 布隆过滤器的长度；

( 20 ) 布隆过滤器的 hash 次数，即前述例子中用于计算键的布隆过滤器信息的参数之一；

( 21 ) 布隆过滤器的冲突概率；

( 22 ) sstable创建时间戳，表示该 sstable文件的创建时间；

( 23 ) 行的数目，表示该 sstable文件中行（ row ) 的数目；

( 24 ) Cell数，表示该 sstable文件中 cell的数目。

最后，将文件头 ( Header )和文件头长度 ( Header Length )写入文件。至此，文件写入完毕。

写入流程也是一次性写入多个 Block块，减少与磁盘的交互，加速写入速度。图 11 为本发明实施例的将记录写入文件的流程示意图。如图 1 1 的记录 ( record )数据写入流程所示，该方法可以包括以下步骤。

步骤 S201 : 将记录写入当前的数据块（block ) (也简称为块），其中对于定长键所对应的记录写入专门存储定长键及其值的数据块，对于变长键所对应的记录写入专门存储变长键及其值的数据块。存储定长键包括：在专门存储定长键及其值的数据块中，统一存储各个定长键的公共前缀，并分别存储各个定长键去除公共前缀后的剩余部分；在专门存储变长键及其值的数据块中，存储变长键及其值，其中存储变长键包括：全量存储基准键类型的变长键，而对前缀压缩键类型的变长键执行前缀压缩。

步骤 S202: 判断步骤 S201中的记录写入是否成功，如果是则执行步骤 S211及其后续步骤；否则执行步骤 S203及其后续步骤。

步骤 S203: 判断当前数据块是否为空，如果是则返回参数错误，并退出本流程，如果不为空则执行步骤 S204及其后续步骤。

步骤 S204: 压缩当前的数据块。

步骤 S205: 判断当前数据块压缩是否成功，如果不成功，则返回压缩出错，并退出本流程，如果成功，则执行步骤 S206及其后续流程。

步骤 S206: 判断当前緩冲区（write_buffer )是否为空且当前块压缩后是否大于緩冲区的大小，如果是则执行步骤 S208及其后续步骤，否则执行步骤 S207及其后续步骤。

步骤 S207: 判断剩余空间是否能写入当前的数据块，如果是则执行步骤 S210 及其后续步骤，否则执行步骤 S209及其后续步骤。

步骤 S208: 重新申请緩冲区空间，并执行步骤 S210及其后续步骤。

步骤 S209: 启动 dump, 并结束本流程。

步骤 S210: 将当前数据块写入緩冲区，保留索引，緩存数据块，并重置当前的数据块。

步骤 S211 : 写入当前数据块的布隆过滤器信息。

对于基于本发明文件格式所存储的记录的读取方式，依次读取 Header Length, 文件格式头 ( header ), Block index, BloomFiler等基本信息。

本发明实施例中，存储的记录可以是预先排好顺序的，例如按照记录的键的 ASCII码进行排序的。这样，当读取数据时，可以依据索引块以及数据块内部数据的有序性，快速定位查询的数据。

下面的描述以文件中存储有预先根据键排好顺序的记录为例来说明从文件中读取数据的方法。

一个例子中，对于基于图 2所述文件格式所存储的记录，可以依次读取文件头长度（ header length )、文件格式头（header ), 索引块、布隆过滤器等基本信息。

图 12为本发明实施例的文件读取方法示意图。如图 12所示，该方法可以包括以下步骤。

步骤 S31 , 读取文件的文件头长度 ( header length ) 区域（field ), 获取文件头 ( header ) 区域的长度。

步骤 S32, 根据文件头的长度读取文件头区域。

步骤 S33 , 根据文件头区域中的信息读取索引块（index block ) 区域。例如，可以根据文件头中的索引块的偏移量确定索引块在文件中的起始位置，然后根据文件头中的索引块压缩后的长度或者索引块压缩前的长度从上述起始位置开始读取出索引块。

步骤 S34, 根据文件头区域中的信息读取布隆过滤器（bloom filter ) 区域。例如，可以根据文件头中的布隆过滤器的偏移量确定布隆过滤器在文件中的起始位置，然后根据文件头中的布隆过滤器长度从上述起始位置开始读取出文件中的布隆过滤器。

步骤 S35 , 通知上层打开 sstable文件的过程完成。

文件打开完成后，就可以根据读取出的布隆过滤器和索引块的内容查找记录了。

一个例子中，可以依据键（例如，收到用户输入的所要搜索的键）在文件中查找记录。由于记录在文件中的存放顺序是按照键排序的，因此根据键进行的查找过程可以依据二分法查找，从而定位记录。

一个例子中，在搜索一个键（以下称为目标键）时，可以先依据布隆过滤器进行第一层的过滤，即根据文件头中的 hash次数计算该键对应布隆过滤器 bitmap中的位置，然后跟布隆过滤器 bitmap中该位置的值判断该键是否存在在文件中。例如，该值如果不为 1 , 则该键不存在该文件中；若为 1 , 则该键可能存在该文件中，并依据索引块中存放的各数据块的 end key在文件中查找具有该键的记录。

一个例子中，由于记录是根据键的顺序存放在各数据块中的，则可以利用二分法在索引块中查找可能存放有该目标键的数据块。

例如，可以从索引块头部读取索引块中键偏移区域的位置和长度。获取键偏移区域中的选定的一个位置上的键偏移（例如键偏移区域中间的一个键偏移）。获取该键偏移对应的键、该键的基准偏移，恢复该键。如前所述，索引块中存储的键为各数据块中的最后一个键，值为各数据块在文件中的位置。将恢复出的键跟目标键比较，如果相等，则直接读取这个键对应的数据块，然后读取该数据块中存储的最后一个键及其对应的值，即为要找的记录。如果恢复出的键不等于目标键，则需要确定目标键是否存在于恢复出的键所在的数据块或者恢复出的键所在的数据块的后一个数据块中，如果也不是，则仍需要重复上述查找过程，根据恢复的键是否大于目标键确定即将搜索的键偏移的位置范围。例如，如果键是按照从小到大的顺序排序的，如果恢复出的键大于目标键，则获取恢复出的键之前的一个键，判断该前一个键是否等于目标键，如果等于目标键，则获取该前一个键所在的记录即为要找的记录，如果仍大于目标键，则在键偏移区域起始位置和该前一个键所在的位置之间按照上述方法继续寻找目标键；如果恢复出的键小于目标键，则获取恢复出的键之后的一个键，判断该后一个键是否等于目标键，如果等于目标键，则获取该后一个键所在的记录即为要找的记录，如果仍小于目标键，则在键偏移区域末尾位置和该后一个键所在的位置之间按照上述方法继续寻找目标键。当判断目标键的大小介于索引块中两个相邻的键时，则确定目标键可能存放在后一个键所在的数据块中，可以读取该数据块，然后在该数据块中查找该目标键。

一个例子中，当确定目标键可能存放的数据块时，可以根据该数据块在索引块中对应的数据偏移获取数据，即该数据块在文件中的位置。然后根据该位置和文件头中的数据块大小从文件的相应位置读取出该数据块。

由于同一个数据块对应的各项信息在索引块中（或者同一个记录对应的各项信息在数据块中）具有相同的存放顺序，键偏移在键偏移区域的存放序号也就是其相应的基准偏移和数据偏移在基准偏移区域和数据偏移区域的存放序号。根据键偏移获取对应的基准偏移和数据偏移的方法有很多种。

例如，当键偏移、基准偏移、数据偏移均为定长时，可根据键偏移在键偏移区域的位置计算该键偏移在键偏移区域的序号，然后即可根据基准偏移的长度以及该序号在基准偏移区域得到该键对应的基准偏移，从而从基准偏移中取得该键的基准键的位置。该键对应的数据偏移以及数据的获取方法相同。

又例如，可以在各键偏移、基准偏移、数据偏移中存储其在各自区域的序号，获取一个键的键偏移后，就能得到该记录在数据块中（或者该数据块在索引块中）的各项信息的序号，然后在基准偏移区域获取该序号对应的基准偏移。获取该键对应的数据偏移的方法同上。

在读取出的数据块中寻找目标键的方法与上述在索引块中寻找目标键的方法相似。当记录是按照键的顺序存储时，也可以釆用二分法，即从键存储区域中选定一个位置（例如区域中间的位置），获取该位置存储的键，与目标键进行比较，然后进一步缩小查找范围。例如，当记录是按照键从小到大的顺序存储在数据块中，则从数据块头部读取键偏移区域的起始位置和长度。从键偏移区域中选择一个位置，例如中间的位置，获取该位置的键偏移，根据该键偏移获取该键。将恢复出的键与目标键进行对比，如果恢复出的键与目标键相等时，该键对应的记录就是要找的记录；如果恢复出的键大于目标键，则在键偏移区域的起始位置与上述选定位置选定一个新的位置，重复上述查找过程；如果恢复出的键小于目标键，则在键偏移区域的末尾位置与上述选定位置选定一个新的位置，重复上述查找过程。

从一个键在数据块中的存储位置（键偏移）恢复该键的方法与前面介绍两种数据块的存储结构有关。

对于定长键（可从文件头中的键-值类型（KV type ) 的值判断文件中存放的是定长键），可以从数据块头部读取公共前缀的位置和长度，从数据块中读取公共前缀；从数据块头部读取键剩余部分区域的位置，根据键偏移确定该键对应的键剩余部分的存放位置，读取该键的键剩余部分，将公共前缀加在键剩余部分前面就恢复出了该键。

对于变长键（可从文件头中的键-值类型（KV type ) 的值判断文件中存放的是变长键），可以从数据块头部读取各个区域的位置和长度，从数据块中读取键和基准偏移，进而读取出基准键，读取出键中的相同前缀长度和不同部分，将基准键前缀中截取相同前缀长度的串，加上该键的不同部分，就恢复出了这个键。在存储变长键的数据块中根据一个键的键偏移获取其相应的基准偏移的方法与上面在索引块中根据一个键（数据块的 end key )的键偏移获取该键对应的基准偏移的方法相同，不再赘述。

利用键偏移恢复记录的时，可以获取该键对应的数据偏移，然后从数据块头部获取数据部分的位置，根据数据偏移读取出该键对应的值，即可根据键（key )和值 ( value )恢复出记录（key+value )。根据键偏移获取其相应的数据偏移的方法与上面在索引块中根据一个键（数据块的 end key )的键偏移获取该键对应的数据偏移的方法相同，不再赘述。

一个例子中，读取记录时，可以设置读取緩冲区，并当判定该读取操作的读取长度小于所述緩冲区且该当前数据块不是最后数据块时，取出下一数据块的起始地址并记录下一数据块的长度并继续读取，直到读取长度大于所述緩冲区的长度为止。其它例子也可以釆用其它的緩存方法读取文件。

对于 Block的读取，则是依据用户的请求寻找（ seek )到用户 key (即用户输入的目标键）所在的位置后，加载 key所在的 Block块，读取用户需要的信息。

数据块分为预取读和延迟读：预取读是一次性的读多个 Block块；延迟读是聚集多次读，即接收多个读请求后，然后一次性的读多个 Block块。

根据预取读和聚集的多次读信息，计算读取的起始 block块和 Read Buffer的大小，计算所需要读取的 block数目以及读取的长度， block块的起始位置和长度在 Block Index中获取。

首先获取起始块的开始地址，若当前 Block块是 SSTable文件最后一块，直接获取最后一块的长度并记录后返回；若不是 SSTable文件最后一块，获取下一 Block 块的起始地址和长度。

若是预取读方式，则读取长度小于 Read Buffer的长度，且当前 Block块不是最后一个 Block块，取下一 Block块的起始地址，并记录下一块的长度，直到读取长度大于 Read Buffer长度为止结束。

若是延迟读方式，则聚集每次读取的 Block块信息，然后获取起始块的开始地址和读取方式与预取读方式类似。

预取读与延迟读本质都是一次性的读取多个 Block块，尽量减少读取磁盘时的寻道和转动，加速磁盘读取。

图 13为本发明实施例的读取记录流程示意图。如图 13所示的记录（record )数据读取流程，该方法可以包括以下步骤。

步骤 S41 : 获取起始数据块的起始地址。

步骤 S42: 判断当前数据块是否是最后一块，如果是则执行步骤 S43及其后续步骤，否则执行步骤 S44及其后续步骤。

步骤 S43: 获取最后一块数据块的长度并记录，然后返回，并退出本流程。步骤 S44: 获取下一数据块的起始地址以及当前数据块的长度。

步骤 S45: 判断是否执行预取操作，如果不执行，则退出本流程，如果执行，则执行步骤 S46及其后续步骤。

步骤 S46: 判断读取长度是否小于最大读取大小（ KMaxReadSize ) 并且不是最后一块数据块，如果是则执行步骤 S47 及其后续步骤，否则执行步骤 S48 及其后续步骤。

步骤 S47: 取得再下一块数据块的起始地址，记录下一数据块的长度。步骤 S48: 判断读取长度是否大于等于最大读取大小（KMaxReadSize ) , 如果是则退出本流程，如果不是则执行步骤 S49。

步骤 S49: 取得最后一块数据块长度并记录。

基于上述详细分析，本发明实施方式还提出了一种键排序的数据存储装置。图 14为本发明实施例的数据存储装置结构图。如图 14所示，该装置包括定长键存储单元 1401和变长键存储单元 1402。

定长键存储单元 1401 , 用于在在第一数据块中存储定长键及其值，其中所述存储定长键包括：统一存储各个定长键的公共前缀，并分别存储各个定长键去除公共前缀后的剩余部分；

变长键存储单元 1402, 用于在第二数据块存储变长键及其值，其中所述存储变长键包括：全量存储基准键类型的变长键，而对前缀压缩键类型的变长键执行前缀压缩。

图 15为本发明实施例的数据存储装置结构图。如图 15所示，该装置包括定长键存储单元 1501和变长键存储单元 1502, 其功能与图 14所示的定长键存储单元 1401和变长键存储单元 1402类似。

一个例子中，该装置还可以包括键类型区分单元 1503。

键类型区分单元 1503 用于根据预先设置的阈值长度和阈值差分将变长键划分为基准键类型和前缀压缩键类型；其中：将当前变长键与上一个基准键进行前缀比较，如果相同前缀串小于所述阈值长度，则判定该当前变长键为基准键类型；将当前变长键与上一个基准键进行前缀比较，如果相同前缀串大于所述阈值长度与阈值差分的和，则判定该当前变长键为基准键类型；将当前变长键与上一个基准键进行前缀比较，如果相同前缀串大于所述阈值长度而小于所述阈值长度与阈值差分的和，则判定该当前变长键为前缀压缩键类型。

一个例子中，定长键存储单元 1501 , 用于针对前缀压缩键类型的变长键，存储该前缀压缩键类型的变长键与上一个基准键的公共前缀的长度，以及存储该前缀压缩键类型的变长键去除该公共前缀后的剩余部分。

一个例子中，该装置还可以包括数据块间压缩单元 1504。

数据块间压缩单元 1504用于当判定将定长键及其值存储到第一数据块失败时，压缩所述第一数据块；当判定将变长键及其值存储到第二数据块失败时，压缩所述第二数据块。

一个例子中，该装置还可以包括存储緩冲单元 1505。

存储緩冲单元 1505用于分配存储緩冲区，并当压缩后第一数据块的大小小于所述存储緩冲区时，将所述压缩后第一数据块写入所述存储緩冲区；当压缩后第二数据块的大小小于所述存储緩冲区时，将所述压缩后第二数据块写入所述存储緩冲区。

一个例子中，该装置还可以包括布隆过滤器 1506。

布隆过滤器 1506用于当判定将定长键及其值存储到第一数据块成功时，将所述定长键及其值的布隆过滤器信息写入其中；当判定将变长键及其值存储到第二数据块成功时，将所述定长键及其值的布隆过滤器信息写入其中。

一个例子中，该装置还可以包括读取緩冲单元 1507。

读取緩冲单元 1507用于设置读取緩冲区，并当判定该读取操作的读取长度小于所述緩冲区且该当前数据块不是最后数据块时，取出下一数据块的起始地址并记录下一数据块的长度并继续读取，直到读取长度大于所述緩冲区的长度为止。

一个例子中，该装置还可以包括数据块索引存储单元 1508。

数据块索引存储单元 1508 用于存储第一数据块和第二数据块的最后一条单元 ( cell )的全量键，并存储第一数据块和第二数据块在数据存储文件中的偏移量以及当前行键的长度。

一个例子中，该装置还可以包括键类型区分单元。

一个例子中，该键类型区分单元用于将当前变长键与当前基准键进行前缀比较，如果相同前缀串小于所述阈值长度，则判定该当前变长键为基准键类型；如果相同前缀串大于或等于所述阈值长度，则判定该当前变长键为前缀压缩键类型。

一个例子中，该键类型区分单元用于将当前变长键与所述第二数据块中存放的前一个键进行前缀比较，如果相同前缀串大于或者等于所述阈值长度与阈值差分的和，则判定该当前变长键为基准键类型；如果相同前缀串小于所述阈值长度与阈值差分的和，则判定该当前变长键为前缀压缩键类型。

一个例子中，该键类型区分单元用于获取当前变长键与所述第二数据块中存放的前一个键的相同前缀串的第一长度，获取当前变长键与当前基准键的相同前缀串的第二长度，如果第一长度大于或者等于所述第二长度与阈值差分的和，则判定该当前变长键为基准键类型，如果第一长度小于所述第二长度与阈值差分的和，则判定该当前变长键为前缀压缩键类型。

一个例子中，所述变长键存储单元用于针对前缀压缩键类型的变长键，存储该前缀压缩键类型的变长键与当前基准键的公共前缀的长度，以及存储该前缀压缩键类型的变长键去除该公共前缀后的剩余部分。

一个例子中，该装置还可以包括数据块索引存储单元。

数据块索引存储单元用于将所述第一数据块存储到文件中时，将所述第一数据块在文件中的位置信息存储到索引块；将所述第二数据块存储到文件中时，将所述第二数据块在文件中的位置信息存储到索引块；将所述索引块存储到所述文件中。

一个例子中，该装置还可以包括布隆过滤器。

布隆过滤器用于当判定将定长键及其值存储到第一数据块成功时，将所述定长键及其值的布隆过滤器信息写入到布隆过滤器中；当判定将变长键及其值存储到第二数据块成功时，将所述定长键及其值的布隆过滤器信息写入到布隆过滤器中；将所述布隆过滤器存储到所述文件中。

一个例子中，该装置还可以包括数据块间压缩单元。

数据块间压缩单元用于压缩所述第一数据块或者所述第二数据块，将压缩后的所述第一数据块或者所述第二数据块存储到文件中。

一个例子中，该装置还可以包括值压缩单元。值压缩单元用于所述将存储到第一数据块包括：压缩所述定长键对应的值，将压缩后的值提供给所述定长键存储单元以存储到第一数据块；所述将变长键及其值存储到第二数据块包括：压缩所述值，将压缩后的值提供给所述变长键存储单元以存储到第二数据块。

一个例子中，所述定长键存储单元用于按照预先根据所述定长键排序后的顺序将所述定长键及其值存储到所述第一数据块中；

所述数据块索引存储单元用于将所述第一数据块中存储的最后一个定长键和所述第一数据块在所述文件中的起始位置和长度存储到所述索引块中；

所述变长键存储单元用于按照预先根据所述变长键排序后的顺序将所述变长键及其值存储到所述第二数据块中；

所述数据块索引存储单元用于将所述第二数据块中存储的最后一个变长键和所述第二数据块在所述文件中的起始位置和长度存储到所述索引块中。

可以将图 14所示装置集成到各种通信网络的硬件实体当中。

实际上，可以通过多种形式来具体实施本发明实施方式所提出的基于键排序的数据存储装置。比如，可以遵循一定规范的应用程序接口，将基于键排序的数据存储装置编写为存储服务器中的插件程序，也可以将其封装为应用程序以供用户自行下载使用。当编写为插件程序时，可以将其实施为 ocx、 dll、 cab等多种插件形式。也可以通过 Flash插件、 RealPlayer插件、 MMS插件、 MIDI五线谱插件、 ActiveX 插件等具体技术来实施本发明实施方式所提出的基于键排序的数据存储装置。

可以通过指令或指令集存储的储存方式将本发明实施方式所提出的基于键排序的数据存储方法存储在各种存储介质上。这些存储介质包括但是不局限于：软盘、光盘、 DVD、硬盘、闪存、 U盘、 CF卡、 SD卡、 MMC卡、 SM卡、记忆棒（ Memory Stick )、 xD卡等。

另外，还可以将本发明实施方式所提出的基于键排序的数据存储方法应用到基于闪存（Nand flash ) 的存储介质中，比如 U盘、 CF卡、 SD卡、 SDHC卡、 MMC 卡、 SM卡、记忆棒、 xD卡等。

综上所述，在本发明实施方式中，在第一数据块中存储定长键及其值，其中所述存储定长键包括：统一存储各个定长键的公共前缀，并分别存储各个定长键去除公共前缀后的剩余部分；在第二数据块存储变长键及其值，其中所述存储变长键包括：全量存储基准键类型的变长键，而对前缀压缩键类型的变长键执行前缀压缩。由此可见，应用本发明实施方式之后，变长键数据块内釆用前缀压缩方式，以及优选对每个数据块进行压缩，因此可以有效减小数据的存储空间，提高机器磁盘利用率。

另外，不同于现有技术中以单个 Key为存储单位，本发明实施方式以数据块为存储单元，因此可以有利于 10和解析的力度。

而且，本发明实施方式在读取数据时，可以依据索引块以及数据块内部的有序性，快速定位查询的数据，从而提高查询效率。

需要说明的是，上述各流程和各结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。各模块的划分仅仅是为了便于描述釆用的功能上的划分，实际实现时，一个模块可以分由多个模块实现，多个模块的功能也可以由同一个模块实现，这些模块可以位于同一个设备中，也可以位于不同的设备中。

各实施例中的硬件模块可以以机械方式或电子方式实现。例如，一个硬件模块可以包括专门设计的永久性电路或逻辑器件（如专用处理器，如 FPGA或 ASIC )用于完成特定的操作。硬件模块也可以包括由软件临时配置的可编程逻辑器件或电路 (如包括通用处理器或其它可编程处理器）用于执行特定操作。至于具体釆用机械方式，或是釆用专用的永久性电路，或是釆用临时配置的电路（如由软件进行配置）来实现硬件模块，可以根据成本和时间上的考虑来决定。

本发明还提供了一种机器可读的存储介质，存储用于使一机器执行如本文所述方法的指令。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机（或 CPU或 MPU )读出并执行存储在存储介质中的程序代码。此外，还可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作。还可以将从存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的 CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘（如 CD-ROM ^ CD-R、 CD-RW ^ DVD-ROM ^ DVD-RAM ^ DVD-RW、 DVD+RW )、磁带、非易失性存储卡和 ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

综上所述，权利要求的范围不应局限于以上描述的例子中的实施方式，而应当将说明书作为一个整体并给予最宽泛的解释。

Claims

权利要求书

1、一种数据存储方法，其特征在于，该方法包括：

2、根据权利要求 1所述的数据存储方法，其特征在于，该方法进一步包括：将当前变长键与当前基准键进行前缀比较，如果相同前缀串小于所述阈值长度，则判定该当前变长键为基准键类型；如果相同前缀串大于或等于所述阈值长度，则判定该当前变长键为前缀压缩键类型。

3、根据权利要求 1所述的数据存储方法，其特征在于，该方法进一步包括：将当前变长键与所述第二数据块中存放的前一个键进行前缀比较，如果相同前缀串大于或者等于所述阈值长度与阈值差分的和，则判定该当前变长键为基准键类型；如果相同前缀串小于所述阈值长度与阈值差分的和，则判定该当前变长键为前缀压缩键类型。

4、根据权利要求 1所述的数据存储方法，其特征在于，该方法进一步包括：获取当前变长键与所述第二数据块中存放的前一个键的相同前缀串的第一长度，获取当前变长键与当前基准键的相同前缀串的第二长度，如果第一长度大于或者等于所述第二长度与阈值差分的和，则判定该当前变长键为基准键类型，如果第一长度小于所述第二长度与阈值差分的和，则判定该当前变长键为前缀压缩键类型。

5、根据权利要求 1所述的数据存储方法，其特征在于，所述对前缀压缩键类型的变长键执行前缀压缩包括：

针对前缀压缩键类型的变长键，存储该前缀压缩键类型的变长键与当前基准键的公共前缀的长度，以及存储该前缀压缩键类型的变长键去除该公共前缀后的剩余部分。

6、根据权利要求 1所述的数据存储方法，其特征在于，进一步包括：将所述第一数据块存储到文件中时，将所述第一数据块在文件中的位置信息存储到索引块；

将所述第二数据块存储到文件中时，将所述第二数据块在文件中的位置信息存储到索引块；将所述索引块存储到所述文件中。

7、根据权利要求 1或 6所述的数据存储方法，其特征在于，该方法进一步包括：当判定将定长键及其值存储到第一数据块成功时，将所述定长键及其值的布隆过滤器信息写入到布隆过滤器中；

当判定将变长键及其值存储到第二数据块成功时，将所述定长键及其值的布隆过滤器信息写入到布隆过滤器中；

将所述布隆过滤器存储到所述文件中。

8、根据权利要求 1所述的数据存储方法，其特征在于，进一步包括：压缩所述第一数据块或者所述第二数据块，将压缩后的所述第一数据块或者所述第二数据块存储到文件中。

9、根据权利要求 1所述的数据存储方法，其特征在于，

所述将定长键及其值存储到第一数据块包括：压缩所述值，存储压缩后的值；所述将变长键及其值存储到第二数据块包括：压缩所述值，存储压缩后的值。

10、根据权利要求 6所述的数据存储方法，其特征在于，

所述在第一数据块中存储定长键及其值包括：按照预先根据所述定长键排序后的顺序将所述定长键及其值存储到所述第一数据块中；

所述将第一数据块在文件中的位置信息存储到索引块包括：将所述第一数据块中存储的最后一个定长键和所述第一数据块在所述文件中的起始位置和长度存储到所述索引块中；

所述在第二数据块中存储变长键及其值包括：按照预先根据所述变长键排序后的顺序将所述变长键及其值存储到所述第二数据块中；

所述将第二数据块在文件中的位置信息存储到索引块包括：将所述第二数据块中存储的最后一个变长键和所述第二数据块在所述文件中的起始位置和长度存储到所述索引块中。

11、一种数据存储装置，其特征在于，该装置包括定长键存储单元和变长键存储单元，其中：

定长键存储单元，用于在在第一数据块中存储定长键及其值，其中所述存储定长键包括：统一存储各个定长键的公共前缀，并分别存储各个定长键去除公共前缀后的剩余部分；

12、根据权利要求 11所述的数据存储装置，其特征在于，该装置进一步包括键类型区分单元；

键类型区分单元，用于将当前变长键与当前基准键进行前缀比较，如果相同前缀串小于所述阈值长度，则判定该当前变长键为基准键类型；如果相同前缀串大于或等于所述阈值长度，则判定该当前变长键为前缀压缩键类型。

13、根据权利要求 11所述的数据存储装置，其特征在于，该装置进一步包括键类型区分单元；

键类型区分单元，用于将当前变长键与所述第二数据块中存放的前一个键进行前缀比较，如果相同前缀串大于或者等于所述阈值长度与阈值差分的和，则判定该当前变长键为基准键类型；如果相同前缀串小于所述阈值长度与阈值差分的和，则判定该当前变长键为前缀压缩键类型。

14、根据权利要求 11所述的数据存储装置，其特征在于，该装置进一步包括键类型区分单元；

键类型区分单元，用于获取当前变长键与所述第二数据块中存放的前一个键的相同前缀串的第一长度，获取当前变长键与当前基准键的相同前缀串的第二长度，如果第一长度大于或者等于所述第二长度与阈值差分的和，则判定该当前变长键为基准键类型，如果第一长度小于所述第二长度与阈值差分的和，则判定该当前变长键为前缀压缩键类型。

15、根据权利要求 11所述的数据存储装置，其特征在于，

所述变长键存储单元用于针对前缀压缩键类型的变长键，存储该前缀压缩键类型的变长键与当前基准键的公共前缀的长度，以及存储该前缀压缩键类型的变长键去除该公共前缀后的剩余部分。

16、根据权利要求 11所述的数据存储装置，其特征在于，进一步包括数据块索引存储单元；

数据块索引存储单元，用于将所述第一数据块存储到文件中时，将所述第一数据块在文件中的位置信息存储到索引块；将所述第二数据块存储到文件中时，将所述第二数据块在文件中的位置信息存储到索引块；将所述索引块存储到所述文件中。

17、根据权利要求 11或 16所述的数据存储装置，其特征在于，进一步包括布隆过滤器；其中：

布隆过滤器，用于当判定将定长键及其值存储到第一数据块成功时，将所述定长键及其值的布隆过滤器信息写入到布隆过滤器中；当判定将变长键及其值存储到第二数据块成功时，将所述定长键及其值的布隆过滤器信息写入到布隆过滤器中；将所述布隆过滤器存储到所述文件中。

18、根据权利要求 11所述的数据存储装置，其特征在于，进一步包括数据块间压缩单元，其中：

数据块间压缩单元，用于压缩所述第一数据块或者所述第二数据块，将压缩后的所述第一数据块或者所述第二数据块存储到文件中。

19、根据权利要求 11所述的数据存储装置，其特征在于，进一步包括值压缩单元，其中：

值压缩单元，用于所述将存储到第一数据块包括：压缩所述定长键对应的值，将压缩后的值提供给所述定长键存储单元以存储到第一数据块；所述将变长键及其值存储到第二数据块包括：压缩所述值，将压缩后的值提供给所述变长键存储单元以存储到第二数据块。

20、根据权利要求 16所述的数据存储装置，其特征在于，

所述定长键存储单元用于按照预先根据所述定长键排序后的顺序将所述定长键及其值存储到所述第一数据块中；