WO2019105420A1

WO2019105420A1 - 数据查询

Info

Publication number: WO2019105420A1
Application number: PCT/CN2018/118249
Authority: WO
Inventors: 丁远普; 李日光
Original assignee: 新华三大数据技术有限公司
Priority date: 2017-11-30
Filing date: 2018-11-29
Publication date: 2019-06-06
Also published as: EP3683697A4; EP3683697A1; CN109101516A; JP7018516B2; CN109101516B; US11269881B2; US20200372028A1; JP2021502655A

Abstract

一种数据查询方法、系统及连接器。该方法包括：查询器向连接器发送SparkSQL查询指令（41），其中，所述SparkSQL查询指令包括HBase表的表标识、所述HBase表的元数据以及与所述元数据对应的属性值；所述连接器在接收到所述SparkSQL查询指令后，若存储器存在与所述表标识和所述元数据对应的索引表，则生成第一Phoenix查询指令，并将所述第一Phoenix查询指令发送给所述存储器（42），其中，所述索引表用于记录HBase表的元数据的属性值与HBase表的行键的对应关系，所述第一Phoenix查询指令包括所述表标识、所述元数据以及所述属性值；所述存储器在接收到所述第一Phoenix查询指令后，从与所述表标识和所述元数据对应的所述索引表中，获取与所述属性值对应的行键，从与所述表标识对应的HBase表中，获取与所述行键对应的行数据（43），并将所述行数据返回给所述连接器（44）；以及所述连接器在接收到所述行数据后，将所述行数据返回给所述查询器（45）。

Description

数据查询

相关申请的交叉引用

本申请基于并要求2017年11月30日递交的中国专利申请201711235855.2的优先权，其所有内容通过引用包含于此。

背景技术

HBase数据库是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，用于提供对大型数据集的随机地、实时地读写访问服务。其中，该HBase数据库以数据表(本文中称为HBase表)的形式存储数据，HBase表可以由行和列族组成，如表1所示，为HBase表的示例。行键(RowKey)是索引，列族(ColumnFamily)可以由一个或者多个列组成，表1中姓名、地址、年龄、手机号、邮箱等为元数据，每个元数据对应多个属性值，例如姓名对应的属性值有张三、李四。

表1

附图说明

图1是本公开一种实施方式中的数据查询系统的结构图；

图2是本公开一种实施方式中的数据查询系统的结构图；

图3是本公开一种实施方式中的索引表的创建方法的流程图；

图4是本公开一种实施方式中的数据查询方法的流程图；

图5是本公开一种实施方式中的数据存储方法的流程图；

图6是本公开另一种实施方式中的数据查询方法的流程图；

图7是本公开一种实施方式中的连接器的硬件结构的示意图。

具体实施方式

基于表1所示的HBase表结构，根据行键可以快速的检索到数据。例如，当接收到查询请求时，若查询请求包括的行键是001，则从HBase表中查询到的内容是第一行的数据，因此，返回第一行的数据。若查询请求未包括行键，而是包括某个元数据的属性值，如北京，则无法通过行键快速查询到对应的数据，而是需要对整个HBase表进行全表扫描，以查询到包含“北京”的一行数据，查询性能很低。

为此，本公开实施例提出一种数据查询方法，可以应用于包括存储器、查询器和连接器的数据查询系统。查询器、存储器和连接器可以部署在同一个服务器，也可以部署在不同服务器。若查询器、存储器和连接器部署在同一个服务器，则查询器、存储器和连接器是该服务器的三个功能模块，例如，查询器可以是实现数据查询功能的SQL(Structured Query Language，结构化查询语言)引擎，存储器可以是实现数据存储功能的数据库，连接器可以是实现连接功能的中间件。若查询器、存储器和连接器部署在不同服务器，则查询器、存储器和连接器是三个独立服务器。

参见图1所示，为上述数据查询系统的结构示意图，其中：

在使用HBase数据库存储数据时，存储器可以采用Phoenix组件实现数据的存储，Phoenix组件用于提供对HBase数据库的SQL支持，这样，存储器在接收到SQL请求时，可以根据SQL请求对HBase数据库中的数据进行操作。

查询器可以采用SparkSQL引擎(一种基于Spark的分布式SQL引擎)实现数据的查询，该SparkSQL引擎可以开放多个接入外部数据源(DataSource)的接口，例如，JDBC(Java DataBase Connectivity，java数据库连接)、ODBC(Open Database Connectivity，开放数据库连接)、API(Application Programming Interface，应用程序编程接口)等接口。SparkSQL引擎还可以支持更多格式的数据源，例如，JSON(Java Script Object Notation，Java脚本对象标记)、Parquet(列式存储格式)、avro(数据序列化的系统)、CSV(Comma Separated Values，逗号分隔值文)等格式。

存储器采用Phoenix组件实现数据的存储，查询器采用SparkSQL引擎实现数据的查询，也就是说，查询器能够处理SparkSQL指令，而存储器能够处理Phoenix指令，因此，查询器发送SparkSQL指令后，若存储器接收到SparkSQL指令，将无法处理该SparkSQL指令；同理，存储器发送Phoenix指令后，若查询器接收到Phoenix指令，将无法处理该Phoenix指令。基于此，还可以在存储器与查询器之间部署连接器，连接器用于实现SparkSQL指令与Phoenix指令的转换。本公开实施例中，可以在存储器中创建索引表，该索引表用于记录HBase表中元数据的属性值与行键的对应关系(例如表1中，记录“北京”与“001”的对应关系)。这样，若Phoenix指令没有包括行键“001”，而是包括属性值“北京”，则存储器通过属性值“北京”查询索引表，得到行键“001”，然后，通过行键“001”查询表1所示的HBase表，得到第一行的数据。上述方式不需要对HBase表进行全表扫描，从而提高查询性能，并提升查询效率。

本公开实施例中，可以涉及如下过程之一或者任意组合：索引表创建过程，数据查询过程，数据存储过程，索引表删除过程和索引表获取过程。

参见图2所示，查询器可以提供SparkSQL创建接口，基于该SparkSQL创建接口，能够生成并发送SparkSQL创建指令，SparkSQL创建指令用于创建索引表。连接器可以提供 SparkSQL创建接口和Phoenix创建接口，基于SparkSQL创建接口，连接器能够解析SparkSQL创建指令的内容，基于该Phoenix创建接口，连接器能够根据从SparkSQL创建指令解析得到的内容生成并发送Phoenix创建指令，该Phoenix创建指令用于创建索引表。存储器可以提供Phoenix创建接口，基于该Phoenix创建接口，存储器能够解析Phoenix创建指令的内容，并根据该内容创建索引表。

参见图2所示，查询器可以提供SparkSQL查询接口，基于该SparkSQL查询接口，查询器能够生成并发送SparkSQL查询指令，SparkSQL查询指令用于查询数据，并能够处理针对SparkSQL查询指令的SparkSQL响应指令。

连接器可以提供SparkSQL查询接口和Phoenix查询接口。基于SparkSQL查询接口，连接器能够解析SparkSQL查询指令的内容，基于Phoenix查询接口，连接器能够根据从SparkSQL查询指令解析得到的内容生成并发送Phoenix查询指令。此外，基于Phoenix查询接口，连接器还能够解析针对Phoenix查询指令的Phoenix响应指令的内容，基于SparkSQL查询接口，连接器能够根据从Phoenix响应指令解析得到的内容生成并发送SparkSQL响应指令。

存储器可以提供Phoenix查询接口，基于Phoenix查询接口，存储器能够解析Phoenix查询指令的内容，并进行查询，根据查询结果生成并发送Phoenix响应指令。

参见图2所示，查询器可以提供SparkSQL存储接口，基于该SparkSQL存储接口，能够生成并发送SparkSQL存储指令，SparkSQL存储指令用于存储数据。连接器可以提供SparkSQL存储接口和Phoenix存储接口，基于SparkSQL存储接口，连接器能够解析SparkSQL存储指令的内容，基于Phoenix存储接口，连接器能够根据从SparkSQL存储指令解析得到的内容生成并发送Phoenix存储指令，该Phoenix存储指令用于存储数据。存储器可以提供Phoenix存储接口，基于该Phoenix存储接口，存储器能够解析Phoenix存储指令的内容，并根据该内容存储相关数据。

参见图2所示，查询器可以提供SparkSQL删除接口，基于该SparkSQL删除接口，能够生成并发送SparkSQL删除指令，SparkSQL删除指令用于删除索引表。连接器可以提供SparkSQL删除接口和Phoenix删除接口，基于SparkSQL删除接口，连接器能够解析SparkSQL删除指令的内容，基于Phoenix删除接口，连接器能够根据从SparkSQL删除指令解析得到的内容生成并发送Phoenix删除指令，该Phoenix删除指令用于删除索引表。存储器可以提供Phoenix删除接口，基于该Phoenix删除接口，存储器能够解析Phoenix删除指令的内容，并根据该内容删除索引表。

参见图2所示，查询器可以提供SparkSQL获取接口，基于该SparkSQL获取接口，查询器能够生成并发送SparkSQL获取指令，SparkSQL获取指令用于获取索引表，并能够处理针对SparkSQL获取指令的SparkSQL响应指令。

连接器可以提供SparkSQL获取接口和Phoenix获取接口。基于SparkSQL获取接口，连接器能够解析SparkSQL获取指令的内容，基于Phoenix获取接口，连接器能够根据从 SparkSQL获取指令解析得到的内容生成并发送Phoenix获取指令。此外，基于Phoenix获取接口，连接器还能够解析针对Phoenix获取指令的Phoenix响应指令的内容，基于SparkSQL获取接口，连接器能够根据从Phoenix响应指令解析得到的内容生成并发送SparkSQL响应指令。

存储器可以提供Phoenix获取接口，基于Phoenix获取接口，存储器能够解析Phoenix获取指令的内容，获取索引表，生成并发送Phoenix响应指令。

在上述应用场景下，结合图3所示的流程，对索引表创建过程进行说明。

步骤31，查询器向连接器发送SparkSQL创建指令(用于创建索引表)。

其中，SparkSQL创建指令包括HBase表的表标识、HBase表的元数据。例如，若为表1所示的HBase表创建索引表，且将元数据“手机号”作为索引表的索引，则该SparkSQL创建指令可以包括该HBase表的表标识、元数据“手机号”。

步骤32，连接器在接收到SparkSQL创建指令后，根据该SparkSQL创建指令生成Phoenix创建指令，并将该Phoenix创建指令发送给存储器。

具体的，连接器可以从SparkSQL创建指令中解析出HBase表的表标识、该HBase表的元数据，并根据该表标识、该元数据生成Phoenix创建指令，即该Phoenix创建指令包括HBase表的表标识、HBase表的元数据(如“手机号”)。

步骤33，存储器在接收到Phoenix创建指令后，从该表标识对应的HBase表中，获取该元数据对应的属性值、该属性值对应的行键，创建与该表标识、该元数据对应的索引表，并在该索引表中记录该属性值与该行键的对应关系。

例如，存储器可以从表1中，获取元数据“手机号”对应的属性值18611111111，该属性值对应的行键001，并在索引表中记录属性值18611111111与行键001的对应关系，以此类推，得到如表2所示的索引表。

表2

手机号	行键
18611111111	001
18622222222	002
18633333333	003
18644444444	004

在一个例子中，假设表1所示的HBase表的表标识为A，则存储器创建表2的索引表后，还可以将HBase表的表标识A、元数据“手机号”发送给连接器，连接器在本地的映射表中记录该表标识和该元数据的对应关系，该对应关系表示存储器中存在与该表标识和该元数据对应的索引表。

基于上述处理流程，可以完成索引表的创建，进一步的，还可以基于该索引表完成数据查询。

以下结合图4所示的流程，对数据查询过程进行说明。

步骤41，查询器向连接器发送SparkSQL查询指令(用于查询数据)。

其中，SparkSQL查询指令包括HBase表的表标识、元数据以及与该元数据对应的属性值。例如，若从表1所示的HBase表中查询“18611111111”对应的数据，则SparkSQL查询指令可以包括HBase表的表标识A、元数据“手机号”、与“手机号”对应的属性值“18611111111”。

步骤42，连接器在接收到该SparkSQL查询指令后，若存储器中存在与该表标识和该元数据对应的索引表，则生成第一Phoenix查询指令、并发送给存储器。若该存储器中不存在与该表标识和该元数据对应的索引表，则生成第二Phoenix查询指令、并发送给存储器。

连接器在接收到该SparkSQL查询指令后，从该SparkSQL查询指令中解析出HBase表的表标识、元数据以及与该元数据对应的属性值。然后，连接器可以判断存储器中是否存在与该表标识和该元数据对应的索引表。

第一Phoenix查询指令包括HBase表标识、元数据、以及与该元数据对应的属性值。

第二Phoenix查询指令包括HBase表标识以及与元数据对应的属性值。或者，第二Phoenix查询指令包括HBase表标识、元数据以及与元数据对应的属性值。

其中，针对“连接器判断存储器是否存在与该表标识和该元数据对应的索引表”的过程，可以包括：

方式一、若连接器本地维护有上述映射表，则：连接器在从SparkSQL查询指令中解析出表标识和元数据后，可以查询映射表中是否存在该表标识和该元数据的对应关系，如果是，则可以确定存储器存在与该表标识和该元数据对应的索引表；如果否，则可以确定存储器不存在该索引表。

方式二、连接器在从SparkSQL查询指令中解析出表标识和元数据后，向存储器发送Phoenix管理指令，该Phoenix管理指令包括该表标识和该元数据。存储器在接收到该Phoenix管理指令后，查询本地是否存在与该表标识和该元数据对应的索引表，并向连接器发送包括查询结果的Phoenix响应指令。连接器可以根据该查询结果，确定存储器是否存在与该表标识、该元数据对应的索引表。

步骤43，存储器在接收到上述第一Phoenix查询指令后，从与表标识和元数据对应的索引表中，获取与属性值对应的行键，并从该表标识对应的HBase表中，获取该行键对应的一行数据(即行数据)。

例如，存储器可以从第一Phoenix查询指令中解析出表标识A、元数据“手机号”、属性值“18611111111”。与表标识A和元数据“手机号”对应的索引表如表2所示，存储器可以从表2中获取属性值“18611111111”对应的行键001；表标识A对应的HBase表如表1所示，存储器可以从表1中获取行键001对应的行数据，包括“001、张三、北京、28、18611111111”。

在另一个例子中，存储器在接收到第二Phoenix查询指令后，可以从第二Phoenix查询指令中解析出表标识A、属性值“张三”，该表标识A对应的HBase表如表1所示，对表1进行全表扫描，得到“张三”对应的行数据，包括“001、张三、北京、28、18611111111”。

其中，连接器在生成Phoenix查询指令时，该Phoenix查询指令还可以包括特定标记，用于表示Phoenix查询指令为第一Phoenix查询指令或第二Phoenix查询指令。存储器在接收到第一Phoenix查询指令时，可以先查询索引表，然后查询HBase表；存储器在接收到第二Phoenix查询指令时，可以直接查询HBase表。

步骤44，存储器在获取到行数据后，将该行数据返回给连接器。

步骤45，连接器在接收到该行数据后，将该行数据返回给查询器。

存储器可以生成针对第一Phoenix查询指令或第二Phoenix查询指令的Phoenix响应指令，将Phoenix响应指令发送给连接器，该Phoenix响应指令包括查询到的行数据。连接器接收到Phoenix响应指令后，从Phoenix响应指令中解析出该查询到的行数据，生成针对SparkSQL查询指令的SparkSQL响应指令，并将SparkSQL响应指令发送给查询器，查询器从SparkSQL响应指令中解析出该行数据。

基于上述处理流程，可以完成数据的查询。

此外，还可以基于上述索引表完成数据存储，以下结合图5所示的流程图，对数据存储过程进行说明。

步骤51，查询器向连接器发送SparkSQL存储指令(用于存储数据)。

其中，SparkSQL存储指令包括HBase表的表标识、HBase表的至少一个元数据、每个元数据对应的属性值、以及行键。例如，若需要在表1所示的HBase表中存储如下数据：行键“005”、姓名“韩七”、地址“深圳”、年龄“50”、手机号“18655555555”，则SparkSQL存储指令可以包括如下内容：HBase表的表标识A、元数据“姓名”和属性值“韩七”的对应关系、元数据“地址”和属性值“深圳”的对应关系、元数据“年龄”和属性值“50”的对应关系、元数据“手机号”和属性值“18655555555”的对应关系、以及行键“005”。

步骤52，连接器在接收到该SparkSQL存储指令后，根据该SparkSQL存储指令生成第一Phoenix存储指令和/或第二Phoenix存储指令，并将第一Phoenix存储指令和/或第二Phoenix存储指令发送给存储器。

连接器在接收到该SparkSQL存储指令后，从该SparkSQL存储指令中解析出HBase表的表标识、HBase表的至少一个元数据、每个元数据对应的属性值、以及行键。

针对每个元数据执行如下操作：若存储器存在与该表标识和该元数据对应的索引表，则根据该SparkSQL存储指令生成第一Phoenix存储指令，并发送给存储器；否则不需要生成第一Phoenix存储指令。第一Phoenix存储指令包括所述表标识、所述元数据、所述元数据对应的属性值、以及行键。

此外，针对SparkSQL存储指令中的每个元数据，连接器判断存储器是否存在与该表标识和该元数据对应的索引表，具体判断方式参见步骤42，不再赘述。

例如，针对元数据“姓名”、“地址”、“年龄”，判断结果为存储器不存在对应的索引表，结束流程。针对元数据“手机号”，判断结果为存储器存在对应的索引表，则连接器可以生成第一Phoenix存储指令，该第一Phoenix存储指令包括该表标识A、元数据“手机号”、属性值“18655555555”、行键005。

连接器在接收到该SparkSQL存储指令后，还可以生成第二Phoenix存储指令，第二Phoenix存储指令包括所述表标识、所述至少一个元数据、所述每个元数据对应的属性值、所述行键。

其中，第一Phoenix存储指令可以指示存储器在索引表中存储数据，第二Phoenix存储指令可以指示存储器在HBase表中存储数据。

连接器在生成Phoenix存储指令时，该Phoenix存储指令还可以包括特定标记，用于表示Phoenix存储指令为第一Phoenix存储指令或第二Phoenix存储指令。存储器收到第一Phoenix存储指令时，执行步骤54；存储器收到第二Phoenix存储指令时，执行步骤53。

步骤53，存储器在接收到第二Phoenix存储指令后，在该表标识对应的HBase表中，记录该行键以及每个元数据对应的属性值。

例如，存储器从第二Phoenix存储指令中解析出HBase表的表标识A、元数据“姓名”和属性值“韩七”的对应关系、元数据“地址”和属性值“深圳”的对应关系、元数据“年龄”和属性值“50”的对应关系、元数据“手机号”和属性值“18655555555”的对应关系、行键“005”，因此，在表1所示的HBase表中，增加一行数据，如表3中所示的行键为005的一行数据。

表3

若该HBase表中已经存在第二Phoenix存储指令包括的行键，则可以在该HBase表的该对应的各个元数据中行键对应的位置，添加第二Phoenix存储指令包括的相应的属性值；若该HBase表中不存在第二Phoenix存储指令包括的行键，则可以在HBase表添加新的数据行，并在该新的数据行记录该第二Phoenix存储指令包括的行键和各个元数据的属性值。

步骤54，存储器在接收到第一Phoenix存储指令后，在与该表标识和该元数据对应的索引表中，记录该元数据的属性值与该行键的对应关系。

例如，存储器从第一Phoenix存储指令解析出表标识A、元数据“手机号”、属性值“18655555555”、行键005，因此，可以在表2所示的索引表中记录属性值“18655555555”与行键“005”的对应关系，得到表4所示的索引表。

表4

手机号	行键
18611111111	001
18622222222	002
18633333333	003
18644444444	004
18655555555	005

基于索引表还可以实现索引表的删除，以下对索引表删除过程进行说明。

情况一、查询器向连接器发送SparkSQL删除指令，该SparkSQL删除指令包括HBase表的表标识、该HBase表的元数据。连接器在接收到SparkSQL删除指令后，根据该SparkSQL删除指令生成Phoenix删除指令，并可以将该Phoenix删除指令发送给存储器，该Phoenix删除指令可以包括该表标识和该元数据。存储器在接收到Phoenix删除指令后，从Phoenix删除指令中解析出HBase表的表标识、该HBase表的元数据，并删除与该表标识和该元数据对应的索引表。

例如，Phoenix删除指令中包括表标识A、元数据“手机号”，则存储器中存在表4所示的索引表时，存储器可以根据该Phoenix删除指令将表4删除。

情况二、查询器向连接器发送SparkSQL删除指令，该SparkSQL删除指令可以包括HBase表的表标识、该HBase表的元数据、与该元数据对应的属性值。

连接器在接收到该SparkSQL删除指令后，可以根据该SparkSQL删除指令生成Phoenix删除指令，并可以将该Phoenix删除指令发送给存储器，其中，该Phoenix删除指令可以包括该表标识、该元数据和该元数据对应的属性值。

存储器在接收到该Phoenix删除指令后，可以从Phoenix删除指令中解析出HBase表的表标识、该HBase表的元数据、该元数据对应的属性值，并可以从该表标识、该元数据对应的索引表中，删除该属性值对应的行数据。

例如，Phoenix删除指令中包括表标识(如表A)、元数据(如手机号)、属性值(如18655555555)，则存储器中存在表4所示的索引表时，存储器可以根据该Phoenix删除指令将表4中相应的数据删除，删除后的索引表如表2所示。

基于索引表还可以实现索引表的获取，以下对索引表获取过程进行说明。

情况一、查询器向连接器发送SparkSQL获取指令，该SparkSQL获取指令包括HBase表的表标识、该HBase表的元数据。连接器在接收到SparkSQL获取指令后，根据该SparkSQL获取指令生成Phoenix获取指令，并可以将该Phoenix获取指令发送给存储器，该Phoenix获取指令可以包括该表标识和该元数据。

存储器在接收到Phoenix获取指令后，从Phoenix获取指令中解析出HBase表的表标识、该HBase表的元数据，并获取该表标识、该元数据对应的索引表，然后，可以通过连接器将该表标识、该元数据对应的索引表返回给查询器。

针对“通过连接器将该表标识、该元数据对应的索引表返回给查询器”的过程，存储器可以向连接器发送针对Phoenix获取指令的Phoenix响应指令，该Phoenix响应指令包括该索引表，然后，连接器可以向查询器发送针对SparkSQL获取指令的SparkSQL响应指令，该SparkSQL响应指令包括该索引表。

例如，Phoenix获取指令中包括表标识(如表A)、元数据(如手机号)，则存储器中存在表4所示的索引表时，存储器可以根据该Phoenix获取指令将表4返回给查询器。

情况二、查询器向连接器发送SparkSQL获取指令，该SparkSQL获取指令可以包括HBase表的表标识、该HBase表的元数据、与该元数据对应的属性值。

连接器在接收到该SparkSQL获取指令后，可以根据该SparkSQL获取指令生成Phoenix获取指令，并可以将该Phoenix获取指令发送给存储器，其中，该Phoenix获取指令可以包括该表标识、该元数据和该元数据对应的属性值。

存储器在接收到该Phoenix获取指令后，可以从该Phoenix获取指令中解析出HBase表的表标识、该HBase表的元数据、该元数据对应的属性值，并可以从该表标识、该元数据对应的索引表中，获取该属性值对应的行数据。

然后，存储器通过连接器将该行数据返回给查询器。具体的，存储器可以向连接器发送针对Phoenix获取指令的Phoenix响应指令，该Phoenix响应指令可以包括该行数据，然后，连接器可以向查询器发送针对SparkSQL获取指令的SparkSQL响应指令，该SparkSQL响应指令可以包括该行数据。

例如，Phoenix获取指令中包括表标识(如表A)、元数据(如手机号)、属性值(如18655555555)，则存储器中存在表4所示的索引表时，存储器可以根据该Phoenix获取指令将表4中相应的行数据(包括“手机号”“18655555555”、“行键”“005”)返回给查询器。

基于上述技术方案，本公开实施例中，通过创建索引表，并在索引表中记录HBase表的元数据的属性值、HBase表的行键的对应关系，这样，在接收到Phoenix查询指令后，即使在Phoenix查询指令中未包括HBase表的行键，而是包括HBase表的元数据对应的属性值，则可以通过该属性值查询索引表，得到该HBase表的行键，然后使用HBase表的行键查询该HBase表，从而得到对应的行数据。上述方式不用对整个HBase表进行全表扫描，可以提升查询性能。

在实际应用中，为了避免一个HBase表的内容太多，导致查询复杂，则存储器可以存储多个HBase表，以两个HBase表为例，为区分方便，将一个HBase表称为HBase表，其表标识为第一表标识，如表1为HBase表，第一表标识为表A。另一个HBase表称为该HBase表对应的关联HBase表，关联HBase表的表标识为第二表标识，如表5所示，为关联HBase表的示例，第二表标识为表B。

表5

本应用场景下，在建立HBase表、关联HBase表时，为了将HBase表和关联HBase表中的数据进行关联，则HBase表和关联HBase表需要具有相同的元数据，如表1和表5中，具有相同的元数据“手机号”。而且，在为表1所示的HBase表创建索引表时，该索引表中的索引需要是该元数据，即在采用图3所示的流程创建索引表时，SparkSQL创建指令包括的元数据可以为“手机号”，这样，索引表记录的是元数据“手机号”对应的属性值与行键的对应关系。

在上述应用场景下，结合图6所示的流程图，对数据查询过程进行说明。

步骤61，查询器向连接器发送SparkSQL关联查询指令，该SparkSQL关联查询指令包括HBase表的第一表标识、该HBase表对应的关联HBase表的第二表标识。

其中，在该SparkSQL关联查询指令中，可以只包括第一表标识(如表A)和第二表标识(如表B)，而未包括元数据、该元数据对应的属性值等内容。

步骤62，连接器在接收到SparkSQL关联查询指令后，根据SparkSQL关联查询指令生成第一Phoenix关联查询指令，并将第一Phoenix关联查询指令发送给存储器。

其中，连接器可以从SparkSQL关联查询指令中解析出第一表标识和第二表标识，然后，连接器可以生成包括该第二表标识的第一Phoenix关联查询指令。

在一个例子中，连接器可以从SparkSQL关联查询指令中解析出两个表标识，为了区分这两个表标识，则可以获取这两个表标识对应的HBase表的数据量，将数据量大的表标识确定为第一表标识，将数据量小的表标识确定为第二表标识。在确定出第二表标识后，就可以生成包括第二表标识的第一Phoenix关联查询指令。

通常情况下，在建立HBase表、关联HBase表时，HBase表的数据量大于关联HBase表的数据量，因此，HBase表的表标识为第一表标识，关联HBase表的表标识为第二表标识。反之，若HBase表的数据量小于关联HBase表的数据量，则HBase表的表标识为第二表标识，关联HBase表的表标识为第一表标识，其处理流程相同，仍然是生成包括第二表标识的第一Phoenix关联查询指令，不再赘述。

总之，是将HBase表和关联HBase表中的数据量较小的一方的表标识作为第二表标识。

在一个例子中，连接器确定出第二表标识后，还可以判断第二表标识对应的表的数据量是否小于阈值，如果是，才生成包括第二表标识的第一Phoenix关联查询指令，然后执行后续步骤。如果否，则不再生成第一Phoenix关联查询指令，而是直接从存储器获取该第一表标识对应的HBase表、该第二表标识对应的关联HBase表，然后将HBase表和关联HBase表发送给查询器，对此过程不再赘述。

在一个例子中，针对“连接器获取表标识对应的HBase表的数据量”的过程，连接器可以从存储器获取表标识对应的HBase表的数据量，对此不做限制。

步骤63，存储器在接收到第一Phoenix关联查询指令后，从该第二表标识对应的关联HBase表中，获取所有第一类行数据，并将所有第一类行数据返回给连接器；其中，每个第一类行数据均包括至少一个元数据对应的属性值。

例如，存储器可以从第二表标识“表B”对应的关联HBase表中，获取到所有第一类行数据，即获取表5的所有内容，然后，存储器可以将所有的第一类行数据均返回给连接器。例如，返回的内容可以包括第一类行数据1(行键011、手机号18611111111、身份证号100000000000000000)、第一类行数据2(行键012、手机号18622222222、身份证号200000000000000000)，以此类推。

在一个例子中，存储器可以向连接器发送针对所述第一Phoenix关联查询指令的Phoenix响应指令，且该Phoenix响应指令可以包括上述所有第一类行数据。

步骤64，针对每个第一类行数据中的每个元数据执行如下操作：若存储器存在该第一表标识(SparkSQL关联查询指令包括的第一表标识)、该元数据对应的索引表，则连接器生成第二Phoenix关联查询指令，将第二Phoenix关联查询指令发送给存储器，第二Phoenix关联查询指令包括该第一表标识、该元数据、该元数据对应的属性值；存储器接收到第二Phoenix关联查询指令后，从该第一表标识、该元数据对应的索引表中，获取该属性值对应的行键，并从该第一表标识对应的HBase表中，获取该行键对应的第二类行数据，并将该第二类行数据返回给连接器；连接器将该第一类行数据和该第二类行数据进行关联后返回给查询器。

此外，若存储器不存在该第一表标识、该元数据对应的索引表，则连接器可以不再生成第二Phoenix关联查询指令，而是继续进行其它元数据的分析。

例如，针对第一类行数据1的元数据“身份证号”，由于存储器不存在第一表标识(表A)、元数据“身份证号”对应的索引表，因此不生成第二Phoenix关联查询指令。针对第一类行数据1的元数据“手机号”，由于存储器存在第一表标识(表A)、元数据“手机号”对应的索引表，因此，连接器生成第二Phoenix关联查询指令，将第二Phoenix关联查询指令发送给存储器，第二Phoenix关联查询指令包括第一表标识(表A)、元数据“手机号”、该元数据对应的属性值“18611111111”。

存储器接收到第二Phoenix关联查询指令后，第一表标识(表A)、元数据“手机号”对应的索引表如表2所示，即从表2中获取属性值“18611111111”对应的行键“001”，第一表标识(表A)对应的HBase表如表1所示，即从表1中获取行键“001”对应的第二类行数据1“001、张三、北京、28、18611111111”，然后将第二类行数据1返回给连接器。连接器将第一类行数据1和第二类行数据1进行关联，并将关联后的第一类行数据1和第二类行数据1返回给查询器。

经过上述处理，连接器完成第一类行数据1与第二类行数据1的关联，然后，连接器还可以对第一类行数据2、第一类行数据3、第一类行数据4进行关联，其关联过程与第一类行数据1的关联过程类似，在此不再重复赘述。

在上述实施例中，连接器需要判断存储器是否存在该第一表标识、该元数据对应的索引表，具体判断方式可以参见步骤42所示，在此不再赘述。

在上述实施例中，针对“存储器将第二类行数据返回给连接器”的过程，存储器向连接器发送针对第二Phoenix关联查询指令的Phoenix响应指令，该Phoenix响应指令可以包括所述第二类行数据，从而将第二类行数据返回给连接器。

在上述实施例中，针对“连接器将第一类行数据和第二类行数据进行关联后，返回给查询器”的过程，连接器可以向查询器发送针对SparkSQL关联查询指令的SparkSQL响应指令，该SparkSQL响应指令可以包括该第一类行数据和该第二类行数据，从而将该第一类行数据和该第二类行数据返回给查询器。

例如，连接器可以向查询器发送多个SparkSQL响应指令，SparkSQL响应指令1包括第一类行数据1和第二类行数据1，SparkSQL响应指令2包括第一类行数据2和第二类行数据2，以此类推。或者，连接器可以向查询器发送一个SparkSQL响应指令，该SparkSQL响应指令包括第一类行数据1和第二类行数据1的关联关系、第一类行数据2和第二类行数据2的关联关系，以此类推。

经过上述处理，查询器就可以得到HBase表和关联HBase表中的第一类行数据和第二类行数据的关联关系，不需要查询器关联，节省查询器的工作量。

基于上述技术方案，当关联HBase表的数据量较小时，可以由连接器对第一类行数据和第二类行数据进行关联，并将关联后的第一类行数据和第二类行数据发送给查询器。这样，可以避免将HBase表和关联HBase表返回给查询器，由查询器对HBase表中的第一类行数据与关联HBase表中的第二类行数据进行关联，大幅度提升HBase表和关联HBase表的查询性能，减少IO操作。

基于与上述方法同样的申请构思，本公开实施例中还提出一种连接器，其硬件结构可以参见图7所示。其中，该连接器可以包括机器可读存储介质601、处理器602，该机器可读存储介质601、处理器602可经由系统总线603通信。

其中，机器可读存储介质601可以存储连接器在上述流程中所执行的操作对应的机器可执行指令。处理器602可以加载并执行机器可执行指令，以实现上述连接器的操作。该连接器的操作可以包括：接收从查询器发送的SparkSQL查询指令，其中，所述SparkSQL查询指令包括HBase表的表标识、所述HBase表的元数据以及与所述元数据对应的属性值；若存储器存在与所述表标识和所述元数据对应的索引表，则生成第一Phoenix查询指令，并将所述第一Phoenix查询指令发送给所述存储器，其中，所述索引表用于记录HBase表的元数据的属性值与HBase表的行键的对应关系，所述第一Phoenix查询指令包括所述表标识、所述元数据以及所述属性值，并使得所述存储器从与所述表标识和所述元数据对应的索引表中，获取与所述属性值对应的行键，从与所述表标识对应的HBase表中，获取与所述行键对应的行数据，并将所述行数据返回给所述连接器；以及将接收到的所述行数据返回给所述查询器。

在一个例子中，机器可执行指令还促使处理器602执行如下操作：接收从所述查询器发送的SparkSQL创建指令，其中，所述SparkSQL创建指令包括HBase表的表标识以及所述HBase表的元数据；以及生成Phoenix创建指令，并将所述Phoenix创建指令发送给所述存储器，其中，所述Phoenix创建指令包括所述表标识以及所述元数据，并使得所述存储器从与所述表标识对应的HBase表中，获取与所述元数据对应的属性值以及与所述属性值对应的行键，创建与所述表标识和所述元数据对应的索引表，并在所述索引表中记录所述属性值与所述行键的对应关系。

在一个例子中，机器可执行指令还促使处理器602执行如下操作：接收从所述查询器发送的SparkSQL存储指令，其中，所述SparkSQL存储指令包括HBase表的表标识、HBase表的至少一个元数据、与每个元数据对应的属性值以及行键；以及针对每个元数据执行如下操作：若所述存储器存在与所述表标识和所述元数据对应的索引表，则生成第一Phoenix存储指令，并将所述第一Phoenix存储指令发送给所述存储器，其中，所述第一Phoenix存储指令包括所述表标识、所述元数据、与所述元数据对应的属性值以及与所述属性值对应的行键，并使得所述存储器在与所述表标识和所述元数据对应的索引表中，记录所述属性值与所述行键的对应关系。

在一个例子中，机器可执行指令还促使处理器602执行如下操作：生成第二Phoenix存储指令，并将所述第二Phoenix存储指令发送给所述存储器，其中，所述第二Phoenix存储指令包括所述表标识、所述至少一个元数据、与所述每个元数据对应的属性值以及所述行键，并使得所述存储器在与所述表标识对应的HBase表中，记录所述行键与所述每个元数据对应的属性值的对应关系。

在一个例子中，机器可执行指令还促使处理器602执行如下操作：接收从所述查询器发送的SparkSQL删除指令；以及生成Phoenix删除指令，并将所述Phoenix删除指令发送给所述存储器，其中，所述Phoenix删除指令为如下指令之一：包括HBase表的表标识以及HBase表的元数据，并使得所述存储器删除与所述表标识和所述元数据对应的索引表的指令；以及包括HBase表的表标识、HBase表的元数据以及与所述元数据对应的属性值，并使得所述存储器从与所述表标识和所述元数据对应的索引表中删除与所述属性值对应的行数据的指令。

在一个例子中，机器可执行指令还促使处理器602执行如下操作：接收从所述查询器发送的SparkSQL获取指令；生成Phoenix获取指令，并将所述Phoenix获取指令发送给所述存储器，其中，所述Phoenix获取指令为如下指令之一：包括HBase表的表标识以及HBase表的元数据，并使得所述存储器将与所述表标识和所述元数据对应的索引表返回给所述连接器的指令；以及包括HBase表的表标识、HBase表的元数据以及与所述元数据对应的属性值，并使得所述存储器从与所述表标识和所述元数据对应的索引表中，获取与所述属性值对应的行数据，并将所述行数据返回给所述连接器的指令；以及在接收到所述索引表或者所述行数据后，将所述索引表或者所述行数据返回给所述查询器。

在一个例子中，机器可执行指令还促使处理器602执行如下操作：接收从所述查询器发送的SparkSQL关联查询指令，其中，所述SparkSQL关联查询指令包括HBase表的第一表标识以及与所述HBase表对应的关联HBase表的第二表标识；生成第一Phoenix关联查询指令，并将所述第一Phoenix关联查询指令发送给所述存储器，其中，所述第一Phoenix关联查询指令包括所述第二表标识，并使得所述存储器从与所述第二表标识对应的关联HBase表中，获取所有第一类行数据，并将所有第一类行数据返回给所述连接器，每个第一类行数据均包括与至少一个元数据对应的属性值；以及针对每个第一类行数据中的每个元数据执行如下操作：若所述存储器存在与所述第一表标识和所述元数据对应的索引表，则生成第二Phoenix关联查询指令，并将所述第二Phoenix关联查询指令发送给所述存储器，其中，所述第二Phoenix关联查询指令包括所述第一表标识、所述元数据以及与所述元数据对应的属性值，并使得所述存储器从与所述第一表标识和所述元数据对应的索引表中，获取与所述属性值对应的行键，并从与所述第一表标识对应的HBase表中，获取与所述行键对应的第二类行数据，并将所述第二类行数据返回给所述连接器；以及将所述第一类行数据和所述第二类行数据进行关联后，返回给所述查询器。

作为一个实施例，机器可读存储介质601可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：RAM(Radom Access Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

以上所述仅为本公开的实施例而已，并不用于限制本公开。对于本领域技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本公开的权利要求范围之内。

Claims

一种数据查询方法，包括：

查询器向连接器发送SparkSQL查询指令，其中，所述SparkSQL查询指令包括HBase表的表标识、所述HBase表的元数据以及与所述元数据对应的属性值；

所述连接器在接收到所述SparkSQL查询指令后，若存储器存在与所述表标识和所述元数据对应的索引表，则生成第一Phoenix查询指令，并将所述第一Phoenix查询指令发送给所述存储器，其中，所述索引表用于记录HBase表的元数据的属性值与HBase表的行键的对应关系，所述第一Phoenix查询指令包括所述表标识、所述元数据以及所述属性值；

所述存储器在接收到所述第一Phoenix查询指令后，从与所述表标识和所述元数据对应的所述索引表中，获取与所述属性值对应的行键，从与所述表标识对应的HBase表中，获取与所述行键对应的行数据，并将所述行数据返回给所述连接器；以及

所述连接器在接收到所述行数据后，将所述行数据返回给所述查询器。
根据权利要求1所述的方法，其中，所述方法还包括：

所述查询器向所述连接器发送SparkSQL创建指令，其中，所述SparkSQL创建指令包括HBase表的表标识以及所述HBase表的元数据；

所述连接器在接收到所述SparkSQL创建指令后，生成Phoenix创建指令，并将所述Phoenix创建指令发送给所述存储器，其中，所述Phoenix创建指令包括所述表标识以及所述元数据；以及

所述存储器在接收到所述Phoenix创建指令后，从与所述表标识对应的HBase表中，获取与所述元数据对应的属性值以及与所述属性值对应的行键，创建与所述表标识和所述元数据对应的索引表，并在索引表中记录所述属性值与所述行键的对应关系。
根据权利要求1所述的方法，其中，所述方法还包括：

所述查询器向所述连接器发送SparkSQL存储指令，其中，所述SparkSQL存储指令包括HBase表的表标识、HBase表的至少一个元数据、与每个元数据对应的属性值以及行键；

所述连接器在接收到所述SparkSQL存储指令后，针对每个元数据执行如下操作：若所述存储器存在与所述表标识和所述元数据对应的索引表，则生成第一Phoenix存储指令，并将所述第一Phoenix存储指令发送给所述存储器，其中，所述第一Phoenix存储指令包括所述表标识、所述元数据、与所述元数据对应的属性值以及与所述属性值对应的行键；以及

所述存储器在接收到所述第一Phoenix存储指令后，在与所述表标识和所述元数据对应的索引表中，记录所述属性值与所述行键的对应关系。
根据权利要求3所述的方法，其中，所述方法还包括：

所述连接器在接收到所述SparkSQL存储指令后，生成第二Phoenix存储指令，并将所述第二Phoenix存储指令发送给所述存储器，其中，所述第二Phoenix存储指令包括所述表标识、所述至少一个元数据、与所述每个元数据对应的属性值以及所述行键；以及

所述存储器在接收到所述第二Phoenix存储指令后，在与所述表标识对应的HBase表中，记录所述行键与每个元数据对应的属性值的对应关系。
根据权利要求1所述的方法，其中，所述方法还包括：

所述查询器向所述连接器发送SparkSQL删除指令；

所述连接器在接收到所述SparkSQL删除指令后，生成Phoenix删除指令，并将所述Phoenix删除指令发送给所述存储器，其中，所述Phoenix删除指令包括HBase表的表标识以及HBase表的元数据，或者，所述Phoenix删除指令包括HBase表的表标识、HBase表的元数据以及与所述元数据对应的属性值；以及

所述存储器在接收到所述Phoenix删除指令后，若所述Phoenix删除指令包括HBase表的表标识以及HBase表的元数据，则删除与所述表标识和所述元数据对应的索引表；若所述Phoenix删除指令包括HBase表的表标识、HBase表的元数据以及与所述元数据对应的属性值，则从与所述表标识和所述元数据对应的索引表中删除与所述属性值对应的行数据。
根据权利要求1所述的方法，其中，所述方法还包括：

所述查询器向所述连接器发送SparkSQL获取指令；

所述连接器在接收到所述SparkSQL获取指令后，生成Phoenix获取指令，并将所述Phoenix获取指令发送给所述存储器，其中，所述Phoenix获取指令包括HBase表的表标识以及HBase表的元数据，或者，所述Phoenix获取指令包括HBase表的表标识、HBase表的元数据以及与所述元数据对应的属性值；

所述存储器在接收到所述Phoenix获取指令后，若所述Phoenix获取指令包括HBase表的表标识以及HBase表的元数据，则将与所述表标识和所述元数据对应的索引表返回给所述连接器；若所述Phoenix获取指令包括HBase表的表标识、HBase表的元数据以及与所述元数据对应的属性值，则从与所述表标识和所述元数据对应的索引表中，获取与所述属性值对应的行数据，并将所述行数据返回给所述连接器；以及

所述连接器在接收到所述索引表或者所述行数据后，将所述索引表或者所述行数据返回给所述查询器。
根据权利要求1所述的方法，其中，所述方法还包括：

所述查询器向所述连接器发送SparkSQL关联查询指令，其中，所述SparkSQL关联查询指令包括HBase表的第一表标识以及与所述HBase表对应的关联HBase表的第二表标识；

所述连接器在接收到所述SparkSQL关联查询指令后，生成第一Phoenix关联查询指令，并将所述第一Phoenix关联查询指令发送给所述存储器，其中，所述第一Phoenix关联查询指令包括所述第二表标识；

所述存储器在接收到所述第一Phoenix关联查询指令后，从与所述第二表标识对应的关联HBase表中，获取所有第一类行数据，并将所有第一类行数据返回给所述连接器，其中，每个第一类行数据均包括与至少一个元数据对应的属性值；以及

针对每个第一类行数据中的每个元数据执行如下操作：

若所述存储器存在与第一表标识和所述元数据对应的索引表，则所述连接器生成第二Phoenix关联查询指令，并将所述第二Phoenix关联查询指令发送给所述存储器，其中，所述第二Phoenix关联查询指令包括所述第一表标识、所述元数据以及与所述元数据对应的属性值；

所述存储器在接收到所述第二Phoenix关联查询指令后，从与所述第一表标识和所述元数据对应的索引表中，获取与所述属性值对应的行键，并从与所述第一表标识对应的HBase表中，获取与所述行键对应的第二类行数据，并将所述第二类行数据返回给所述连接器；以及

所述连接器将所述第一类行数据和所述第二类行数据进行关联后，返回给所述查询器。
一种数据查询系统，包括：

查询器，用于向连接器发送SparkSQL查询指令，其中，所述SparkSQL查询指令包括HBase表的表标识、所述HBase表的元数据以及与所述元数据对应的属性值；

所述连接器，用于在接收到所述SparkSQL查询指令后，若存储器存在与所述表标识和所述元数据对应的索引表，则生成第一Phoenix查询指令，并将所述第一Phoenix查询指令发送给所述存储器，其中，所述索引表用于记录HBase表的元数据的属性值与HBase表的行键的对应关系，所述第一Phoenix查询指令包括所述表标识、所述元数据以及所述属性值；

所述存储器，用于在接收到所述第一Phoenix查询指令后，从与所述表标识和所述元数据对应的所述索引表中，获取与所述属性值对应的行键，从与所述表标识对应的HBase表中，获取与所述行键对应的行数据，并将所述行数据返回给所述连接器，

其中，所述连接器还用于在收到所述行数据后，将所述行数据返回给所述查询器。
根据权利要求8所述的数据查询系统，其中，

所述查询器还用于向所述连接器发送SparkSQL创建指令，其中，所述SparkSQL创建指令包括HBase表的表标识以及所述HBase表的元数据；

所述连接器还用于在接收到所述SparkSQL创建指令后，生成Phoenix创建指令，并将所述Phoenix创建指令发送给所述存储器，其中，所述Phoenix创建指令包括所述表标识以及所述元数据；以及

所述存储器还用于在接收到所述Phoenix创建指令后，从与所述表标识对应的HBase表中，获取与所述元数据对应的属性值以及与所述属性值对应的行键，创建与所述表标识和所述元数据对应的索引表，并在索引表中记录所述属性值与所述行键的对应关系。
根据权利要求8所述的数据查询系统，其中，

所述查询器还用于向所述连接器发送SparkSQL存储指令，其中，所述SparkSQL存储指令包括HBase表的表标识、HBase表的至少一个元数据、与每个元数据对应的属性值以及行键；

所述连接器还用于在接收到所述SparkSQL存储指令后，针对每个元数据执行如下操作：若所述存储器存在与所述表标识和所述元数据对应的索引表，则生成第一Phoenix存储指令，并将所述第一Phoenix存储指令发送给所述存储器，其中，所述第一Phoenix存储指令包括所述表标识、所述元数据、与所述元数据对应的属性值以及与所述属性值对应的行键；以及

所述存储器还用于在接收到所述第一Phoenix存储指令后，在与所述表标识和所述元数据对应的索引表中，记录所述属性值与所述行键的对应关系。
根据权利要求10所述的数据查询系统，其中，

所述连接器还用于在接收到所述SparkSQL存储指令后，生成第二Phoenix存储指令，并将所述第二Phoenix存储指令发送给所述存储器，其中，所述第二Phoenix存储指令包括所述表标识、所述至少一个元数据、与所述每个元数据对应的属性值以及所述行键；以及

所述存储器还用于在接收到所述第二Phoenix存储指令后，在与所述表标识对应的HBase表中，记录所述行键与每个元数据对应的属性值的对应关系。
根据权利要求8所述的数据查询系统，其中，

所述查询器还用于向所述连接器发送SparkSQL删除指令；

所述连接器还用于在接收到所述SparkSQL删除指令后，生成Phoenix删除指令，并将所述Phoenix删除指令发送给所述存储器，其中，所述Phoenix删除指令包括HBase表的表标识以及HBase表的元数据，或者，所述Phoenix删除指令包括HBase表的表标识、HBase表的元数据以及与所述元数据对应的属性值；以及

所述存储器还用于在接收到所述Phoenix删除指令后，若所述Phoenix删除指令包括HBase表的表标识以及HBase表的元数据，则删除与所述表标识和所述元数据对应的索引表；若所述Phoenix删除指令包括HBase表的表标识、HBase表的元数据以及与所述元数据对应的属性值，则从与所述表标识和所述元数据对应的索引表中删除与所述属性值对应的行数据。
根据权利要求8所述的数据查询系统，其中，

所述查询器还用于向所述连接器发送SparkSQL获取指令；

所述连接器还用于在接收到所述SparkSQL获取指令后，生成Phoenix获取指令，并将所述Phoenix获取指令发送给所述存储器，其中，所述Phoenix获取指令包括HBase表的表标识以及HBase表的元数据，或者，所述Phoenix获取指令包括HBase表的表标识、HBase表的元数据以及与所述元数据对应的属性值；

所述存储器还用于在接收到所述Phoenix获取指令后，若所述Phoenix获取指令包括HBase表的表标识以及HBase表的元数据，则将与所述表标识和所述元数据对应的索引表返回给所述连接器；若所述Phoenix获取指令包括HBase表的表标识、HBase表的元数据以及与所述元数据对应的属性值，则从与所述表标识和所述元数据对应的索引表中，获取与所述属性值对应的行数据，并将所述行数据返回给所述连接器；以及

所述连接器还用于在接收到所述索引表或者所述行数据后，将所述索引表或者所述行数据返回给所述查询器。
根据权利要求8所述的数据查询系统，其中，

所述查询器还用于向所述连接器发送SparkSQL关联查询指令，其中，所述SparkSQL关联查询指令包括HBase表的第一表标识以及与HBase表对应的关联HBase表的第二表标识；

所述连接器还用于在接收到所述SparkSQL关联查询指令后，生成第一Phoenix关联查询指令，并将所述第一Phoenix关联查询指令发送给所述存储器，其中，所述第一Phoenix关联查询指令包括所述第二表标识；

所述存储器还用于在接收到所述第一Phoenix关联查询指令后，从与所述第二表标识对应的关联HBase表中，获取所有第一类行数据，并将所有第一类行数据返回给所述连接器，其中，每个第一类行数据均包括与至少一个元数据对应的属性值；以及

针对每个第一类行数据中的每个元数据，

若所述存储器存在与所述第一表标识和所述元数据对应的索引表，则所述连接器还用于生成第二Phoenix关联查询指令，并将所述第二Phoenix关联查询指令发送给所述存储器，其中，所述第二Phoenix关联查询指令包括所述第一表标识、所述元数据以及与所述元数据对应的属性值；

所述存储器还用于在接收到所述第二Phoenix关联查询指令后，从与所述第一表标识和所述元数据对应的索引表中，获取与所述属性值对应的行键，并从与所述第一表标识对应的HBase表中，获取与所述行键对应的第二类行数据，并将所述第二类行数据返回给所述连接器；以及

所述连接器还用于将所述第一类行数据和所述第二类行数据进行关联后，返回给所述查询器。
一种连接器，包括：

处理器；以及

存储有机器可执行指令的机器可读存储介质，

其中，通过读取并执行所述机器可执行指令，所述处理器被使得：

接收从查询器发送的SparkSQL查询指令，其中，所述SparkSQL查询指令包括HBase表的表标识、所述HBase表的元数据以及与所述元数据对应的属性值；

若存储器存在与所述表标识和所述元数据对应的索引表，则生成第一Phoenix查询指令，并将所述第一Phoenix查询指令发送给所述存储器，其中，所述索引表用于记录HBase表的元数据的属性值与HBase表的行键的对应关系，所述第一Phoenix查询指令包括所述表标识、所述元数据以及所述属性值，并使得所述存储器从与所述表标识和所述元数据对应的索引表中，获取与所述属性值对应的行键，从与所述表标识对应的HBase表中，获取与所述行键对应的行数据，并将所述行数据返回给所述连接器；以及

将接收到的所述行数据返回给所述查询器。
根据权利要求15所述的连接器，其中，所述机器可执行指令还促使所述处理器：

接收从所述查询器发送的SparkSQL创建指令，其中，所述SparkSQL创建指令包括HBase表的表标识以及所述HBase表的元数据；以及

生成Phoenix创建指令，并将所述Phoenix创建指令发送给所述存储器，其中，所述Phoenix创建指令包括所述表标识以及所述元数据，并使得所述存储器从与所述表标识对应的HBase表中，获取与所述元数据对应的属性值以及与所述属性值对应的行键，创建与所述表标识和所述元数据对应的索引表，并在所述索引表中记录所述属性值与所述行键的对应关系。
根据权利要求15所述的连接器，其中，所述机器可执行指令还促使所述处理器：

接收从所述查询器发送的SparkSQL存储指令，其中，所述SparkSQL存储指令包括HBase表的表标识、HBase表的至少一个元数据、与每个元数据对应的属性值以及行键；以及

针对每个元数据执行如下操作：若所述存储器存在与所述表标识和所述元数据对应的索引表，则生成第一Phoenix存储指令，并将所述第一Phoenix存储指令发送给所述存储器，其中，所述第一Phoenix存储指令包括所述表标识、所述元数据、与所述元数据对应的属性值以及与所述属性值对应的行键，并使得所述存储器在与所述表标识和所述元数据对应的索引表中，记录所述属性值与所述行键的对应关系。
根据权利要求17所述的连接器，其中，所述机器可执行指令还促使所述处理器：

生成第二Phoenix存储指令，并将所述第二Phoenix存储指令发送给所述存储器，其中，所述第二Phoenix存储指令包括所述表标识、所述至少一个元数据、与所述每个元数据对应的属性值以及所述行键，并使得所述存储器在与所述表标识对应的HBase表中，记录所述行键与所述每个元数据对应的属性值的对应关系。
根据权利要求15所述的连接器，其中，所述机器可执行指令还促使所述处理器：

接收从所述查询器发送的SparkSQL删除指令；以及

生成Phoenix删除指令，并将所述Phoenix删除指令发送给所述存储器，其中，所述Phoenix删除指令为如下指令之一：

包括HBase表的表标识以及HBase表的元数据，并使得所述存储器删除与所述表标识和所述元数据对应的索引表的指令；以及

包括HBase表的表标识、HBase表的元数据以及与所述元数据对应的属性值，并使得所述存储器从与所述表标识和所述元数据对应的索引表中删除与所述属性值对应的行数据的指令。
根据权利要求15所述的连接器，其中，所述机器可执行指令还促使所述处理器：

接收从所述查询器发送的SparkSQL获取指令；

生成Phoenix获取指令，并将所述Phoenix获取指令发送给所述存储器，其中，所述 Phoenix获取指令为如下指令之一：

包括HBase表的表标识以及HBase表的元数据，并使得所述存储器将与所述表标识和所述元数据对应的索引表返回给所述连接器的指令；以及

包括HBase表的表标识、HBase表的元数据以及与所述元数据对应的属性值，并使得所述存储器从与所述表标识和所述元数据对应的索引表中，获取与所述属性值对应的行数据，并将所述行数据返回给所述连接器的指令；以及

在接收到所述索引表或者所述行数据后，将所述索引表或者所述行数据返回给所述查询器。
根据权利要求15所述的连接器，其中，所述机器可执行指令还促使所述处理器：

接收从所述查询器发送的SparkSQL关联查询指令，其中，所述SparkSQL关联查询指令包括HBase表的第一表标识以及与所述HBase表对应的关联HBase表的第二表标识；

生成第一Phoenix关联查询指令，并将所述第一Phoenix关联查询指令发送给所述存储器，其中，所述第一Phoenix关联查询指令包括所述第二表标识，并使得所述存储器从与所述第二表标识对应的关联HBase表中，获取所有第一类行数据，并将所有第一类行数据返回给所述连接器，每个第一类行数据均包括与至少一个元数据对应的属性值；以及

针对每个第一类行数据中的每个元数据执行如下操作：

若所述存储器存在与所述第一表标识和所述元数据对应的索引表，则生成第二Phoenix关联查询指令，并将所述第二Phoenix关联查询指令发送给所述存储器，其中，所述第二Phoenix关联查询指令包括所述第一表标识、所述元数据以及与所述元数据对应的属性值，并使得所述存储器从与所述第一表标识和所述元数据对应的索引表中，获取与所述属性值对应的行键，并从与所述第一表标识对应的HBase表中，获取与所述行键对应的第二类行数据，并将所述第二类行数据返回给所述连接器；以及

将所述第一类行数据和所述第二类行数据进行关联后，返回给所述查询器。