WO2013138953A1

WO2013138953A1 - 数据存储与查询方法

Info

Publication number: WO2013138953A1
Application number: PCT/CN2012/000534
Authority: WO
Inventors: 聂磊; 徐志伟; 李国杰; 刘晶杰; 岳强
Original assignee: 广东电子工业研究院有限公司
Priority date: 2012-03-20
Filing date: 2012-04-18
Publication date: 2013-09-26
Also published as: EP2706468A4; US20140222778A1; EP2706468A1; CN102663007A; CN102663007B; US9367585B2

Abstract

公开了计算机应用技术领域中的一种支持敏捷开发和横向扩展的数据存储与查询方法。其中将数据抽象为一个二元组（Key，MiniTable），任意MniTable(去除数据集合）由唯一的Key标识；MiniTable由若干数据行组成，并且由预先定义的模式限制数据行的结构，行按模式定义的主键进行排序；利用去除数据集合之间依赖关系的方法获取系统的横向扩展能力，同时保留数据集合内部数据之间的依赖关系以支持类SQL语法，从而获取敏捷开发的特性。该方法可以应用于支持海量数据的横向扩展模式和支持短开发周期的敏捷开发模式的数据管理系统。

Description

技术领域

本发明涉及计算机应用技术领域，特别涉及一种支持敏捷开发和横向扩展的数据存储与查询方法。

背景技术

随着互联网的飞速发展，特别是在线社交网络（Social Networks ) 在线社交媒体（Social Media) 等新型 Web 2.0业务的出现，互联网产业对数据管理系统提出了两个重要的挑战。

1、互联网中的数据呈指数增长，业界称之为 "海量数据（Big Data)"。海量数据给现有的纵向扩展数据管理系统带来了巨大的压力。数据管理系统已成为大量互联网服务系统中的瓶颈。

2、互联网行业的业务变化迅速，产品开发周期短。特别是社交网站，其产品开发周期均以天作为度量单位。作为互联网产品基础部件的数据管理系统必须支持敏捷开发模式以降低产品的开发周期。

因此，同时满足支持海量数据的横向扩展模式和支持短开发周期的敏捷开发模式的数据管理系统是构建互联网服务系统的关键。

到目前为止，主要有两大类数据管理技术支持横向扩展模式。

1、 Key-Value Store。该技术把数据抽象为一个二维向量 (Key, Value)。 Key 是数据存储与查询的唯一标识符， Value为特定 Key对应的数据内容。 Key-Value Store有三个基本原语。 Boolean Put(Key， Value): 存储 (Key, Value), 若存入成功返回 True, 存入失败则返回 False。 Boolean Del(Key): 删除 (Key, Value), 若删除成功返回 True, 删除失败或不存在对应 Key则返回 False。 String Get(Key), 获取 Key对应的 Value,若失败或不存在对应 Key则返回 NULL。由于任意两个 (Key, Value)对之间不存在依赖关系，因此可以利用一致性哈希或 B+树实现 Key-Value Store的横向扩展。

2、 Key-Row Store (或称之为 Big Table)。该技术把数据抽象为一个嵌套 n+1 维向量 (Key, (SubKey 1， Value 1), (SubKey 2， Value 2)， ......， (SubKey n, Value n))₀

Key是数据行存储与查询的唯一标识符，每一数据行包含多个数据，通过 SubKey 获取对应的 Value。 Key-Row Store有五个基本原语。 Boolean Put(Key, SubKey, Value): 在 Key对应数据行中加入 (SubKey, Value), 若存入成功返回 True, 存入失败则返回 False。 Boolean Del(Key): 删除 Key对应的数据行，若删除成功返回 True, 删除失败或不存在对应 Key则返回 False。 Boolean Del(Key, SubKey): 删除 Key对应数据行中的 (SubKey, Value),若删除成功返回 True,删除失败或不存在对应 Key或 SubKey则返回 False。 String Get(Key), 获取 Key对应数据行，若失败或不存在对应 Key则返回 NULL。 String Get(Key, SubKey), 获取 Key对应数据行中 SubKey对应的 Value, 若失败或不存在对应 Key或 SubKey则返回 NULL。与 Key- Value Store相同，数据行与数据行之间没有依赖关系，同样可以利用一致性哈希或 B+树实现 Key-Row Store的横向扩展。

虽然如上两种技术支持横向扩展模式，满足互联网产业对数据管理系统的第一个挑战，但是这两种技术均只提供简单原语，而这些简单原语难以快速地构建具有复杂逻辑的应用，因此不支持敏捷开发模式，不能满足互联网产业对数据管理系统的第二个挑战。

目前， SQL语言，因其标准统一、语义丰富、结构简单，已成为使数据管理系统支持敏捷开发的主要技术。但是兼容 SQL语义将会使得数据与数据之间相互依赖，从而失去横向扩展的特性。因此目前兼容 SQL语义的关系数据库只能依赖纵向扩展，不能满足互联网大数据的挑战。

发明内容

本发明解决的技术问题在于提供一种数据存储与査询方法，其中数据存储包括对数据的创建和更新；本方法在满足横向扩展特性同时，支持类 SQL语法，更适合敏捷开发模式。

本发明解决上述技术问题的技术方案是：

将数据抽象为一个二元组 (Key, MiniTable),任意 MiniTable (去除数据集合）由唯一的 Key标识； MiniTable由若干数据行组成，并且由预先定义的模式限制数据行的结构，行按模式定义的主键进行排序；

Key-MiniTable模式有三个基本原语和三个物理实体，三个物理实体分别为：客户端，利用三个基本原语向 Key服务器发起请求，并接收请求结果；

Key服务器，接收客户端发起的请求，查找 Key对应 MiniTable所处 MiniTable 服务器的 IP地址及端口号，据此转发该请求给对应 MiniTable服务器；

MiniTable服务器，接收 Key服务器转发的请求，解析该请求的类 SQL语句，生成执行计划，并在分布式存储系统中获取和写入数据，完成请求返回结果给客户端。

Key-MiniTable模式的三个基本原语为：

1 ) Boolean Create (Key, 列名 1:数据类型，列名 2:数据类型， ......，列名 n:数据类型， PRIMARY KEY: 列名），创建一个标识为 Key的 MiniTable, 并定义该 MiniTable的模式；若创建成功返回 True, 创建失败则返回 False;

2) Boolean Delete (Key),删除 Key对应的 MiniTable;若删除成功返回 True, 删除失败或不存在对应 Key则返回 False;

3) String Query (Key,类 SQL语句)，在 Key对应的 MiniTable内部执行类 SQL语句， Query原语返回其参数中类 SQL语句的返回值；类 SQL语句包括十个保留字： Select Where, Inserts Update, Delete^ Order By、 Limit、 Distinct、 And 、 Or; 六个运算符： =、 >、 >=、 <=、 <、 o; 保留字与运算符的语法和语义与 SQL标准定义相同。

每个 MiniTable的大小受限，一般小于等于 64M, 便于将整个 MiniTable放入 Hadoop分布式文件系统的一个数据块中；两个不同 MiniTable之间不能做关系数据库中的 join等表间操作，不需多个表进行联合加锁; Key不仅是 MiniTable 的身份标识，也是 MiniTable在分布式存储系统中的存储位置标识。

MiniTable采用日志格式记录数据，添加、删除与修改数据均在文件末尾写入日志；在 MiniTable文件大小接近数据块最大容量时执行日志归并，生成新的曰志文件； Key服务器和 MiniTable服务器在做任何操作之前均将操作写入系统日志文件，在操作完成或失败时也将返回值写入系统日志文件。

Key服务器有三个核心数据结构：

1 ) B+树：存储 Key与地址号之间的对应关系；

2) 地址转换表：存储地址号与 IP地址和端口号之间的对应关系；

3 ) MiniTable服务器监控表：存储每一个地址号对应 MiniTable服务器的负载情况；

当 Key服务器收到一个原语请求时，检查是否是合法 Query原语；若是合法 Query原语，则从 B+树中査询 Key对应的地址号；若 Key不存在，则返回 Key不存在信息；若 Key存在，则在地址转换表中査询地址号对应的 IP地址和端口号；若 IP地址和端口号不存在，则返回错误；若存在，则将该请求转发给 IP地址和端口号对应的 MiniTable服务器；

若请求不是合法 Queiy原语，则检査是否为合法 Create原语;若是合法 Create 原语，则在 B+树中査询是否存在给定的 Key; 若 Key存在，则返回 Key己存在信息；若 Key不存在，则根据调度算法和 MiniTable服务器监控表分配一个地址号，更新 MiniTable服务器监控表，利用地址号査询对应的 IP地址和端口号，并转发请求给对应的 MiniTable服务器；

若请求不是合法 Create 原语，则检査是否为合法 Delete原语；若是合法 Delete原语，则在 B+树中査询是否存在给定的 Key; 若 Key不存在，返回 Key 不存在信息；若 Key存在，则在地址转换表中査询地址号对应的 IP地址和端口号，并删除 B+树中对应的 Key, 更新 MiniTable服务器监控表，査询 IP地址和端口号，转发请求给对应的 MiniTable服务器。

MiniTable服务器有两个核心数据结构：

1 ) 内存表：根据缓存策略，将部分 MiniTable存储在内存中；

2) MiniTable锁：记录已加锁的 MiniTable;

MiniTable服务器收到 Key服务器转发的请求后，对请求做语义解析，判断请求操作的 MiniTable是否加锁；若加锁则将该请求加入等待队列；若未加锁，则对 MiniTable加锁，并生成执行计划；之后，判断 MiniTable是否在内存表中，若在内存表中直接执行请求；若不在内存表中，则进一步判断是否有足够内存空间；若没有，则根据调度策略，将部分 MiniTable写入分布式文件系统；写入时比较 MiniTable内存版本与文件版本的区别，仅将更新的部分以日志压缩格式写入；在获取足够内存空间后，从分布式文件系统读入 MiniTable文件，解压縮；将 MiniTable 日志文件转换为数据格式存入内存表；之后执行请求，解锁 MiniTable, 并返回结果。

本发明可以构建一个数据管理系统，支持对数据的存储（包括创建和更新）与査询，并且该系统满足如下两个重要性质。 1 )敏捷开发：对 MiniTable内部数据的操作支持类 SQL语法，从而可以快速地实现复杂逻辑查询和复杂条件插入。 2) 横向扩展：通过 Key-MiniTable模式，去除 MiniTable之间的依赖关系，从而可以通过增加服务器数量，拟线性地扩展系统的容量和吞吐量，以支持亿量级的 MiniTable和十万每秒量级的请求。

附图说明

下面结合附图对本发明进一步说明：

图 1是本发明 Key-MiniTable系统结构图；

图 2是 Key服务器执行流程图；

图 3是 MiniTable服务器执行流程图。

具体实施方式

见图 1所示，是本发明中 Key-MiniTable系统结构图。 Key-MiniTable系统建立在分布式文件系统之上，例如 Hadoop分布式文件系统（HDFS)。存入分布式文件系统的数据分为两部分：

1、 MiniTable日志文件： MiniTable存储在数据块中。为了提高访问和缓存性能， MiniTable的数据大小不超过数据块最大容量（一般为 64M)。为了提到写入性能， MiniTable采用日志格式记录数据，添加、删除与修改数据均在文件末尾写入日志。在 MiniTable文件大小接近数据块最大容量时执行日志归并，生成新的日志文件。

2、系统日志文件： Key服务器和 MiniTable服务器在做任何操作之前均将操作写入系统日志文件，在操作完成或失败时也将返回值写入系统日志文件。维护系统日志文件使系统发生故障时可以恢复到之前的正常状态。

当需要创建、更新或删除数据时，用户使用客户端向 Key服务器发起一个原语请求。

Key服务器执行流程如图 2所示。 Key服务器有三个核心数据结构：

1、 B+树：存储 Key与地址号之间的对应关系。 2、地址转换表：存储地址号与 IP地址和端口号之间的对应关系。

3、 MiniTable服务器监控表：存储每一个地址号对应 MiniTable服务器的负载情况。

当 Key服务器收到一个原语请求时，检査是否是合法 Query原语。若是合法 Query原语，则从 B+树中査询 Key对应的地址号。若 Key不存在，则返回 Key不存在信息。若 Key存在，则在地址转换表中査询地址号对应的 IP地址和端口号。若 IP地址和端口号不存在，则返回错误。若存在，则将该请求转发给 IP地址和端口号对应的 MiniTable服务器。

若请求不是合法 Query原语,则检查是否为合法 Create原语。若是合法 Create 原语，则在 B+树中查询是否存在给定的 Key。若 Key存在，则返回 Key已存在信息。若 Key不存在，则根据调度算法和 MiniTable服务器监控表分配一个地址号，更新 MiniTable服务器监控表，利用地址号査询对应的 IP地址和端口号，并转发请求给对应的 MiniTable服务器。

若请求不是合法 Create 原语，则检査是否为合法 Delete原语。若是合法 Delete原语，则在 B+树中查询是否存在给定的 Key。若 Key不存在，返回 Key 不存在信息。若 Key存在，则在地址转换表中査询地址号对应的 IP地址和端口号，并删除 B+树中对应的 Key, 更新 MiniTable服务器监控表，査询 IP地址和端口号，转发请求给对应的 MiniTable服务器。

见图 3所示，是 MiniTable服务器执行流程图。

MiniTable服务器有两个核心数据结构：

1、内存表：根据缓存策略，将部分 MiniTable存储在内存中。

2、 MiniTable锁：记录已加锁的 MiniTable。

MiniTable服务器收到 Key服务器转发的请求后，对请求做语义解析。判断请求操作的 MiniTable是否加锁。若加锁则将该请求加入等待队列。若未加锁，则对 MiniTable加锁，并生成执行计划。之后，判断 MiniTable是否在内存表中。若在内存表中直接执行请求。若不在内存表中，则进一步判断是否有足够内存空间。若没有，则根据调度策略，将部分 MiniTable写入分布式文件系统。写入时比较 MiniTable内存版本与文件版本的区别，仅将更新的部分以日志压缩格式写入。在获取足够内存空间后，从分布式文件系统读入 MiniTable文件，解压缩。将 MiniTable 日志文件转换为数据格式存入内存表。之后执行请求，解锁 MiniTable, 并返回结果。本发明利用去除数据集合之间依赖关系的方法获取系统的横向扩展能力，同时保留数据集合内部数据之间的依赖关系以支持类 SQL语法，从而获取敏捷开发的特性。

Claims

权利要求书

1、一种支持敏捷开发和横向扩展的数据存储与査询方法，其特征在于：将数据抽象为一个二元组 (Key, MiniTable), 任意 MiniTable由唯一的 Key标识； MiniTable由若干数据行组成，并且由预先定义的模式限制数据行的结构，行按模式定义的主键进行排序；

2、根据权利要求 1所述的数据存储与査询方法，其特征在于: Key-MiniTable 模式的三个基本原语为：

1 ) Boolean Create (Key,列名 1:数据类型，列名 2:数据类型, ......，列名 n:数据类型， PRIMARY KEY: 列名），创建一个标识为 Key的 MiniTable, 并定义该 MiniTable的模式；若创建成功返回 True, 创建失败则返回 False;

3 ) String Query (Key,类 SQL语句)，在 Key对应的 MiniTable内部执行类 SQL语句， Query原语返回其参数中类 SQL语句的返回值；类 SQL语句包括十个保留字： Select、 Where > Insert、 Update, Delete > Order By> Limit、 Distinct、 And 、 Or; 六个运算符： =、 >、 >=、 <=、 <、 o; 保留字与运算符的语法和语义与 SQL标准定义相同。

3、根据权利要求 1所述的数据存储与査询方法，其特征在于：每个 MiniTable 的大小受限，一般小于等于 64M，便于将整个 MiniTable放入 Hadoop分布式文件系统的一个数据块中；两个不同 MiniTable之间不能做关系数据库中的 join等表间操作，不需多个表进行联合加锁； Key不仅是 MiniTable的身份标识，也是 MiniTable在分布式存储系统中的存储位置标识。

4、根据权利要求 2所述的数据存储与査询方法，其特征在于:每个 MiniTable 的大小受限，一般小于等于 64M，便于将整个 MiniTable放入 Hadoop分布式文件系统的一个数据块中；两个不同 MiniTable之间不能做关系数据库中的 join等表间操作，不需多个表进行联合加锁； Key不仅是 MiniTable的身份标识，也是 MiniTable在分布式存储系统中的存储位置标识。

5、根据权利要求 1至 4任一项所述的数据存储与査询方法，其特征在于： MiniTable采用日志格式记录数据，添加、删除与修改数据均在文件末尾写入日志；在 MiniTable文件大小接近数据块最大容量时执行日志归并，生成新的日志文件； Key服务器和 MiniTable服务器在做任何操作之前均将操作写入系统日志文件，在操作完成或失败时也将返回值写入系统日志文件。

6、根据权利要求 1至 4任一项所述的数据存储与查询方法，其特征在于： Key服务器有三个核心数据结构：

1 ) B+树：存储 Key与地址号之间的对应关系；

当 Key服务器收到一个原语请求时，检査是否是合法 Query原语；若是合法 Query原语，则从 B+树中査询 Key对应的地址号；若 Key不存在，则返回 Key不存在信息；若 Key存在，则在地址转换表中査询地址号对应的 IP地址和端口号；若 IP地址和端口号不存在，则返回错误；若存在，则将该请求转发给 IP地址和端口号对应的 MiniTable服务器；

若请求不是合法 Query原语，则检査是否为合法 Create原语；若是合法 Create 原语，则在 B+树中查询是否存在给定的 Key; 若 Key存在，则返回 Key已存在信息；若 Key不存在，则根据调度算法和 MiniTable服务器监控表分配一个地址号，更新 MiniTable服务器监控表，利用地址号査询对应的 IP地址和端口号，并转发请求给对应的 MiniTable服务器；

若请求不是合法 Create 原语，则检查是否为合法 Delete原语；若是合法 Delete原语，则在 B+树中査询是否存在给定的 Key; 若 Key不存在，返回 Key 不存在信息；若 Key存在，则在地址转换表中査询地址号对应的 IP地址和端口号，并删除 B+树中对应的 Key, 更新 MiniTable服务器监控表，査询 IP地址和端口号，转发请求给对应的 MiniTable服务器。

7、根据权利要求 5所述的数据存储与查询方法，其特征在于： Key服务器有三个核心数据结构：

1 ) B+树：存储 Key与地址号之间的对应关系；

当 Key服务器收到一个原语请求时，检査是否是合法 Query原语；若是合法 Query原语，则从 B+树中査询 Key对应的地址号；若 Key不存在，则返回 Key不存在信息；若 Key存在，则在地址转换表中查询地址号对应的 IP地址和端口号；若 IP地址和端口号不存在，则返回错误；若存在，则将该请求转发给 IP地址和端口号对应的 MiniTable服务器；

若请求不是合法 Query原语，则检査是否为合法 Create原语;若是合法 Create 原语，则在 B+树中査询是否存在给定的 Key; 若 Key存在，则返回 Key已存在信息；若 Key不存在，则根据调度算法和 MiniTable服务器监控表分配一个地址号，更新 MiniTable服务器监控表，利用地址号査询对应的 IP地址和端口号，并转发请求给对应的 MiniTable服务器；

若请求不是合法 Create原语，则检査是否为合法 Delete原语；若是合法 Delete原语，则在 B+树中查询是否存在给定的 Key; 若 Key不存在，返回 Key 不存在信息；若 Key存在，则在地址转换表中査询地址号对应的 IP地址和端口号，并删除 B+树中对应的 Key, 更新 MiniTable服务器监控表，査询 IP地址和端口号，转发请求给对应的 MiniTable服务器。

8、根据权利要求 1至 4任一项所述的数据存储与查询方法，其特征在于：

MiniTable服务器有两个核心数据结构-

1 ) 内存表：根据缓存策略，将部分 MiniTable存储在内存中；

2) MiniTable锁：记录已加锁的 MiniTable;

MiniTable服务器收到 Key服务器转发的请求后，对请求做语义解析，判断请求操作的 MiniTable是否加锁；若加锁则将该请求加入等待队列；若未加锁，则对 MiniTable加锁，并生成执行计划；之后，判断 MiniTable是否在内存表中，若在内存表中直接执行请求；若不在内存表中，则进一步判断是否有足够内存空间；若没有，则根据调度策略，将部分 MiniTable写入分布式文件系统；写入时比较 MiniTable内存版本与文件版本的区别，仅将更新的部分以日志压缩格式写入；在获取足够内存空间后，从分布式文件系统读入 MiniTable文件，解压缩；将 MiniTable 日志文件转换为数据格式存入内存表；之后执行请求，解锁 MiniTable, 并返回结果。

9、根据权利要求 5所述的数据存储与査询方法，其特征在于： MiniTable服务器有两个核心数据结构：

1 ) 内存表：根据缓存策略，将部分 MiniTable存储在内存中；

2) MiniTable锁：记录已加锁的 MiniTable;

MiniTable服务器收到 Key服务器转发的请求后，对请求做语义解析，判断请求操作的 MiniTable是否加锁；若加锁则将该请求加入等待队列；若未加锁，则对 MiniTable加锁，并生成执行计划；之后，判断 MiniTable是否在内存表中，若在内存表中直接执行请求；若不在内存表中，则进一步判断是否有足够内存空间；若没有，则根据调度策略，将部分 MiniTable写入分布式文件系统；写入时比较 MiniTable内存版本与文件版本的区别，仅将更新的部分以日志压縮格式写入；在获取足够内存空间后，从分布式文件系统读入 MiniTable文件，解压缩; 将 MiniTable 日志文件转换为数据格式存入内存表；之后执行请求，解锁 MiniTable, 并返回结果。

10、根据权利要求 6所述的数据存储与查询方法，其特征在于：

MiniTable服务器有两个核心数据结构：

1 ) 内存表：根据缓存策略，将部分 MiniTable存储在内存中；

2) MiniTable锁：记录已加锁的 MiniTable;

11、根据权利要求 7所述的数据存储与査询方法，其特征在于：

MiniTable服务器有两个核心数据结构：

1 ) 内存表：根据缓存策略，将部分 MiniTable存储在内存中；

2) MiniTable锁：记录已加锁的 MiniTable;

MiniTable服务器收到 Key服务器转发的请求后，对请求做语义解析，判断请求操作的 MiniTable是否加锁；若加锁则将该请求加入等待队列；若未加锁，则对 MiniTable加锁，并生成执行计划；之后，判断 MiniTable是否在内存表中，若在内存表中直接执行请求；若不在内存表中，则进一步判断是否有足够内存空间；若没有，则根据调度策略，将部分 MiniTable写入分布式文件系统；写入时比较 MiniTable内存版本与文件版本的区别，仅将更新的部分以日志压縮格式写入；在获取足够内存空间后，从分布式文件系统读入 MiniTable文件，解压缩；将 MiniTable 日志文件转换为数据格式存入内存表；之后执行请求，解锁 MiniTable, 并返回结果。