WO2015062182A1

WO2015062182A1 - 大规模分布异构数据的虚拟化方法

Info

Publication number: WO2015062182A1
Application number: PCT/CN2014/071942
Authority: WO
Inventors: 刘祥涛; 谢毅; 岳强; 季统凯
Original assignee: 广东电子工业研究院有限公司
Priority date: 2013-11-04
Filing date: 2014-02-10
Publication date: 2015-05-07
Also published as: EP2891993A4; EP2891993A1; US20160267155A1; CN103617175A; US9715536B2

Abstract

本发明涉及计算机应用技术领域，尤其是一种大规模分布异构数据的虚拟化方法。本发明包括三层结构和两级映射；三层结构指的是根据数据抽象级别的不同，由低到高将数据模型分为三个层次：物理层、虚拟表层、虚拟视图层，每一层都有自己特有的数据模型；两级映射分别为PV映射和VV映射，指的是层与层之间数据模型的转换机制。本发明解决了分布异构数据的虚拟化；可以用于数据的互联互通处理上。

Description

大规模分布异构数据的虚拟化方法

技术领域

本发明涉及计算机应用技术领域，尤其是一种大规模分布异构数据的虚拟化方法。

背景技术

在企业信息化建设过程中，由于各业务系统建设和实施数据管理系统的阶段性、技术性以及其它经济和人为因素的影响，导致企业在发展过程中积累了大量采用不同存储方式的业务数据；包括采用的数据管理系统也大不相同，从简单的文件数据库到复杂的网络数据库，构成了企业的异构数据源。这些分散的不同业务的数据管理系统虽然能够满足业务数据存储和管理要求，但在许多情况下，企业领导要做出一项决策，往往需要查询多个基于各种异构数据源的业务系统和外部系统，进行大量数据分析后才能做出决策。

因此，异构数据源的整合与集成是企业信息化建设过程经常遇到的一个现实问题。也是制约企业各种应用信息系统建设和数据共享程度，以及信息化建设投资重复或负担重的一个重要因素。

数据资源整合过程中的一项关键技术就是如何对异构数据进行虚拟化，抽象出一个统一的数据模型，以屏蔽底层数据资源访问的分布性和异构性，实现数据的互联互通以及全局统一的数据视图。

发明内容

本发明解决的技术问题在于提供一种大规模分布异构数据的虚拟化方法；可以有效的解决大规模分布异构数据的描述、组织、定位和访问，提供全局统一的数据结构以及访问接口。

本发明解决上述技术问题的技术方案是：

所述方法由三层结构、两级映射两个部分实现；

所述的三层结构包括物理层、虚拟表层、虚拟视图层；

所述的物理层由各种分布、异构的数据源组成，每一种数据源都有自己专有的数据结构、访问接口；这些数据源包括数据库系统、文件系统、 Web Service; 所述的虚拟表层对物理层的数据资源进行封装和抽象，通过虚拟化机制，将物理层的数据源统一表示成简单的二维关系，即虚拟表；虚拟表和物理表一一对应，映射信息存储在元数据管理器中；

所述的虚拟视图层直接面向用户，虚拟视图为用户提供满足应用需求的数据规范或者业务模式；所述的虚拟视图是一个二维关系，由一个或者多个虚拟表通过关系算子运算而成，虚拟视图与虚拟表的关系为 1 : n的关系，一个虚拟视图对应一个或者多个虚拟表，映射信息存储在元数据管理器中；

所述的两级映射包括 PV映射和 W映射；

所述的 PV映射为第一级映射，负责物理层的物理表到虚拟表层的虚拟表之间的映射； PV映射主要包括三个方面：结构映射、类型映射、地址映射；所述的结构将异构的数据结构统一映射成标准的二维关系，也就是虚拟表；类型映射将多样的数据类型统一映射成单一的字符串型；地址映射将物理数据源的物理地址统一映射成虚拟地址，形成一个全局统一的地址空间，屏蔽数据源的物理分布性；

所述的 VV 映射为第二级映射，负责虚拟表层的虚拟表到虚拟视图层的虚拟视图之间的映射；主要是实现数据内容映射，即：通过关系算子的运算，将虚拟表中的数据转换成虚拟视图中的数据，将基础的数据加工、映射成业务所需要的数据。所述的虚拟表层的虚拟表由表名和字段列表两部分组成，虚拟表中的字段只有一种数据类型，为字符串型；在与物理层数据源交互时，会转化成数据源真实的数据类型；每一个虚拟表及其字段都有一个虚拟地址，虚拟地址是一个

11位的十进制编码，中间一位是标志位，虚拟表的虚拟地址中该标志位为 "9"; 所有的虚拟地址构成一个全局的地址空间。

所述的虚拟视图由表名和字段列表组成；所述的关系算子包括选择、投影、连接、力口、聚合等；所述的虚拟视图之间也可以进行关系运算，产生更复杂的虚拟视图；虚拟视图也设有虚拟地址，虚拟地址的中间标志位为 " 5 "。

所述的 PV映射实现的关键数据结构记录在一个元数据表 metapv中； metapv 的主要字段如下表所示：

metapv表结构

所述的 VV映射实现的关键数据结构记录在一个元数据表 metavv中； metavv 的主要字段如下表所示： metavv表结构

本发明的方法可以对分布、异构的数据进行虚拟化，抽象出一个统一的数据模型，屏蔽底层数据资源访问的分布性和异构性，实现数据的互联互通以及全局统一的数据视图。本发明支持多种数据库系统（MySQL、 Oracle, SQL Server, DB2 ) 以及文件系统（Excel文件、 KV文件）。附图说明

下面结合附图对本发明进一步说明：

图 1是本发明的三层结构虚拟化模型图；

图 2是本发明的虚拟化模型示例图。

具体实施方式

如图 1所示，本发明核心内容有两个：

(1)三层结构：该方法根据数据抽象级别的不同，由低到高将数据模型分为三个层次：物理层（Physical Layer )、虚拟表层（Virtual Table Layer)、虚拟视图层（Virtual View Layer), 每一层都有自己特有的数据模型，数据模型包括两个部分：

a)数据结构：数据在系统中的逻辑表达形式；亍为操作：表现在数据的访问接口。

(2)两级映射：指的是层与层之间数据模型的转换机制，两级映射指的是： a)第一级映射：物理层到虚拟表层的映射，简称 " PV映射"； b)第二级映射：虚拟表层到虚拟视图层的映射，简称 " VV映射"。

1、物理层

物理层由各种分布、异构的数据源组成，每一种数据源都有自己专有的数据结构、访问接口。这些数据源包括：

(1)数据库系统：如 Mysql、 Oracle. DB2以及 SQL Server, 每种数据库虽然均使用二维关系表作为其逻辑数据结构，然而对二维关系表的访问接口不尽相同；

(2)文件系统：文件系统是一种非结构化的数据模型，且大部分的文件系统遵循的是 POSIX标准的接口，这和数据库系统遵循的 SQL访问接口标准完全不同；

(3) Web Service: 这类数据源提供的数据模型就根据灵活，通常在业界没有标准可循，基本上是各个服务提供商自己定义，因此，其数据结构和访问接口具有很大的随意性。

2、虚拟表层

该层对物理层的数据资源进行封装和抽象，通过虚拟化机制，将物理层的数据源统一表示成简单的二维关系，即虚拟表。虚拟表和物理表一一对应，映射信息存储在元数据管理器中。虚拟表由两部分组成：表名和字段列表。虚拟表中的字段只有一种数据类型，为字符串型（String)。在与物理层数据源交互时，会转化成数据源真实的数据类型。每一个虚拟表及其字段都有一个虚拟地址，虚拟地址是一个 11位的十进制编码，中间一位是标志位，虚拟表的虚拟地址中该标志位为 "9"。所有的虚拟地址构成一个全局的地址空间。虚拟表层解决了底层数据源的异构性和分布性问题。

3、虚拟视图层

虚拟视图层直接面向用户，虚拟视图为用户提供满足应用需求的数据规范，或者业务模式。与虚拟表一样，虚拟视图也是一个二维关系，由表名和字段列表组成。虚拟视图也有虚拟地址，虚拟地址的中间标志位为 "5"。虚拟视图是由一个或者多个虚拟表通过关系算子运算而成，这些关系算子包括选择、投影、连接、力口、聚合等。因此，虚拟视图与虚拟表的关系为 1 : n的关系，一个虚拟视图对应一个或者多个虚拟表，映射信息存储在元数据管理器中。如图 2所示，虚拟视图 VV1、 VV2分别是由虚拟表 VT1和 VT2、 VT3和 VT4通过 Join算子执行运算的结果。此外，虚拟视图之间也可以进行关系运算，产生更复杂的虚拟视图，如虚拟表 VV1和 VV2通过 Union运算产生 VV3。虚拟视图层解决了用户的业务需求，用户可以根据个性化需求，构建满足要求的虚拟视图。

4、 PV映射

PV映射为第一级映射，负责物理层的物理表到虚拟表层的虚拟表之间的映射。 PV映射的内容主要包括三个方面：

( 1 ) 结构映射：物理数据源的数据结构多样，包括结构化、半结构化、以及非结构化，结构映射负责将这些异构的数据结构统一映射成标准的二维关系，也就是虚拟表。

(2) 类型映射：物理数据源的数据类型也存在多样性，包括整型、字符串型、布尔型、日期型等，且这些数据类型的具体定义在各个数据库中也不尽相同，类型映射负责将这些多样的数据类型统一映射成单一的字符串型。

(3 ) 地址映射：物理数据源分布在多个服务器上，形成多个地址空间，地址映射负责将物理数据源的物理地址统一映射成虚拟地址，形成一个全局统一的地址空间，屏蔽数据源的物理分布性。

5、 VV映射

VV映射为第二级映射，负责虚拟表层的虚拟表到虚拟视图层的虚拟视图之间的映射。 VV映射的主要功能是实现数据内容映射， SP :通过关系算子的运算， VV映射将虚拟表中的数据转换成虚拟视图中的数据，将基础的数据加工、映射成业务所需要的数据。

6、 PV映射的实现

实现 PV映射的关键数据结构记录在一个元数据表 metapv中。 metapv的主要字段如表 1所示。

表 1 metapv表结构

7、 VV映射的实现

实现 VV映射的关键数据结构记录在一个元数据表 metavv中。 metavv的主要字段如表 2所示。表 2 metavv表结构字段名字段类型说明 wld varchar(l l) 虚拟视图的虚拟地址，共 11位 name varchar(80) 虚拟视图的名字 creator varchar(40) 虚拟视图的创建者 joinor text 参与连接运算的字段列表 attributes mediumtext 虚拟视图到虚拟表的字段映射 groupby varchar(255) 参加聚合运算的字段列表 groupbyhaving text 聚合后的过滤条件 orderby varchar(80) 参与排序运算的字段列表 fetchnumber varchar(80) 每一页的记录数

description varchar(255) 虚拟视图的描述信息

createTime varchar(20) 虚拟视图的创建时间

Claims

权利要求书

1、一种大规模分布异构数据的虚拟化方法，其特征在于：所述方法由三层结构、两级映射两个部分实现；

所述的三层结构包括物理层、虚拟表层、虚拟视图层；

所述的两级映射包括 PV映射和 W映射；

所述的 VV 映射为第二级映射，负责虚拟表层的虚拟表到虚拟视图层的虚拟视图之间的映射；主要是实现数据内容映射，即：通过关系算子的运算，将虚拟表中的数据转换成虚拟视图中的数据，将基础的数据加工、映射成业务所需要的数据。

2、根据权利要求 1所述的虚拟化方法，其特征在于：所述的虚拟表层的虚拟表由表名和字段列表两部分组成，虚拟表中的字段只有一种数据类型，为字符串型；在与物理层数据源交互时，会转化成数据源真实的数据类型；每一个虚拟表及其字段都有一个虚拟地址，虚拟地址是一个 11位的十进制编码，中间一位是标志位，虚拟表的虚拟地址中该标志位为 "9"; 所有的虚拟地址构成一个全局的地址空间。

3、根据权利要求 1所述的虚拟化方法，其特征在于：所述的虚拟视图由表名和字段列表组成；所述的关系算子包括选择、投影、连接、力口、聚合等；所述的虚拟视图之间也可以进行关系运算，产生更复杂的虚拟视图；虚拟视图也设有虚拟地址，虚拟地址的中间标志位为 "5 "。

4、根据权利要求 2所述的虚拟化方法，其特征在于：所述的虚拟视图由表名和字段列表组成；所述的关系算子包括选择、投影、连接、力口、聚合等；所述的虚拟视图之间也可以进行关系运算，产生更复杂的虚拟视图；虚拟视图也设有虚拟地址，虚拟地址的中间标志位为 "5 "。

5、根据权利要求 1至 4任一项所述的虚拟化方法，其特征在于：所述的 PV 映射实现的关键数据结构记录在一个元数据表 metapv中； metapv的主要字段如下表所示： metapv表结构

序号字段名字段类型说明

1 vtld varchar(l l) 虚拟表的虚拟地址，共 11位

2 name varchar(255) 虚拟表的名字

数据源的类型，如 Oracle、 DB2、

3 dsType varchar(40)

MySQL. SQL Server. Excel等

4 dsName varchar(255) 数据源的名字

5 tableName varchar(255) 物理表的名字 6 dsUid varchar(40) 访问数据源的用户名

7 dsPasswd varchar(40) 访问数据源的密码

物理表到虚拟表之间的字段映

8 attributes mediumtext

射关系

9 creator varchar(40) 虚拟表的创建者

10 description varchar(255) 虚拟表的描述信息

11 createTime varchar(20) 虚拟表的创建时间

6、根据权利要求 1至 4任一项所述的虚拟化方法，其特征在于：所述的 VV 映射实现的关键数据结构记录在一个元数据表 metavv中； metavv的主要字段如下表所示： metavv表结构

7、根据权利要求 5所述的虚拟化方法，其特征在于：所述的 VV映射实现键数据结构记录在一个元数据表 metavv中； metavv的主要字段如下表所示: metavv表结构字段名字段类型说明

wld varchar(l l) 虚拟视图的虚拟地址，共 11位 name varchar(80) 虚拟视图的名字 creator varchar(40) 虚拟视图的创建者 joinor text 参与连接运算的字段列表 attributes mediumtext 虚拟视图到虚拟表的字段映射 groupby varchar(255) 参加聚合运算的字段列表 groupbyhaving text 聚合后的过滤条件 orderby varchar(80) 参与排序运算的字段列表 fetchnumber varchar(80) 每一页的记录数

description varchar(255) 虚拟视图的描述信息

createTime varchar(20) 虚拟视图的创建时间