WO2015062182A1 - 大规模分布异构数据的虚拟化方法 - Google Patents

大规模分布异构数据的虚拟化方法 Download PDF

Info

Publication number
WO2015062182A1
WO2015062182A1 PCT/CN2014/071942 CN2014071942W WO2015062182A1 WO 2015062182 A1 WO2015062182 A1 WO 2015062182A1 CN 2014071942 W CN2014071942 W CN 2014071942W WO 2015062182 A1 WO2015062182 A1 WO 2015062182A1
Authority
WO
WIPO (PCT)
Prior art keywords
virtual
mapping
data
varchar
layer
Prior art date
Application number
PCT/CN2014/071942
Other languages
English (en)
French (fr)
Inventor
刘祥涛
谢毅
岳强
季统凯
Original Assignee
广东电子工业研究院有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 广东电子工业研究院有限公司 filed Critical 广东电子工业研究院有限公司
Priority to EP14805772.2A priority Critical patent/EP2891993A4/en
Priority to US14/400,890 priority patent/US9715536B2/en
Publication of WO2015062182A1 publication Critical patent/WO2015062182A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/188Virtual file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/256Integrating or interfacing systems involving database management systems in federated or virtual databases

Definitions

  • the present invention relates to the field of computer application technologies, and in particular, to a method for virtualizing distributed heterogeneous data on a large scale.
  • the enterprise has accumulated a large number of business data using different storage methods in the development process;
  • the data management system used is also very different, from a simple file database to a complex network database, which constitutes a heterogeneous data source for the enterprise.
  • these decentralized data management systems for different services can meet the requirements of business data storage and management, in many cases, business leaders have to make a decision, often need to query multiple business systems based on heterogeneous data sources and External systems, after extensive data analysis, can make decisions.
  • a key technology in the process of data resource integration is how to virtualize heterogeneous data, abstract a unified data model to shield the distribution and heterogeneity of the underlying data resource access, and realize data interconnection and global unification. Data view.
  • the technical problem solved by the present invention is to provide a virtualization method for large-scale distribution of heterogeneous data; it can effectively solve the description, organization, location, and access of large-scale distributed heterogeneous data, and provide a global system.
  • a data structure and access interface
  • the method is implemented by a three-layer structure and a two-level mapping
  • the three-layer structure includes a physical layer, a virtual surface layer, and a virtual view layer;
  • the physical layer is composed of various distributed and heterogeneous data sources, each of which has its own proprietary data structure and access interface; the data sources include a database system, a file system, and a Web Service;
  • the virtual surface layer encapsulates and abstracts the data resources of the physical layer.
  • the data source of the physical layer is uniformly represented as a simple two-dimensional relationship, that is, a virtual table; the virtual table and the physical table are in one-to-one correspondence, and the mapping information is stored in the virtual table.
  • the metadata manager In the metadata manager;
  • the virtual view layer directly faces the user, and the virtual view provides the user with a data specification or a business model that satisfies the application requirement;
  • the virtual view is a two-dimensional relationship, which is calculated by one or more virtual tables through a relational operator.
  • the relationship between the virtual view and the virtual table is 1: n, one virtual view corresponds to one or more virtual tables, and the mapping information is stored in the metadata manager;
  • the two-level mapping includes a PV mapping and a W mapping
  • the PV mapping is a first-level mapping, and is responsible for mapping between a physical table of a physical layer and a virtual table of a virtual surface layer; the PV mapping mainly includes three aspects: a structure mapping, a type mapping, and an address mapping; Heterogeneous data structures are uniformly mapped into a standard two-dimensional relationship, that is, a virtual table; type mapping uniformly maps multiple data types into a single string type; address mapping uniformly maps physical addresses of physical data sources into virtual addresses, Form a global unified address space to shield the physical distribution of the data source;
  • the VV mapping is a second-level mapping, and is responsible for mapping between the virtual table of the virtual surface layer and the virtual view of the virtual view layer; mainly implementing data content mapping, that is, by the operation of the relational operator, the virtual table is The data is converted into data in the virtual view, and the underlying data is processed and mapped into data required by the business.
  • the virtual table of the virtual table layer is composed of a table name and a field list.
  • the field in the virtual table has only one data type and is a string type; when interacting with the physical layer data source, it is converted into real data of the data source. Type; each virtual table and its fields have a virtual address, the virtual address is a
  • the virtual view is composed of a table name and a field list; the relationship operator includes selection, projection, connection, force, aggregation, etc.; the virtual view can also perform a relational operation to generate a more complex virtual view.
  • the virtual view also has a virtual address with a "5" in the middle of the virtual address.
  • the key data structure of the PV mapping implementation is recorded in a metadata table metapv; the main fields of the metapv are shown in the following table:
  • Metavv table structure The key data structure implemented by the VV mapping is recorded in a metadata table metavv; the main fields of metavv are as follows: Metavv table structure
  • the method of the invention can virtualize distributed and heterogeneous data, abstract a unified data model, shield the distribution and heterogeneity of the underlying data resource access, realize data interconnection and global unified data view.
  • the invention supports multiple database systems (MySQL, Oracle, SQL Server, DB2) and file systems (Excel files, KV files).
  • FIG. 2 is a diagram showing an example of a virtualization model of the present invention.
  • Three-layer structure This method divides the data model into three levels according to different levels of data abstraction: Physical Layer, Virtual Table Layer, Virtual View Layer (Virtual View) Layer), each layer has its own unique data model, number
  • the model consists of two parts:
  • Data structure The logical representation of the data in the system
  • ⁇ Operation The access interface that is represented in the data.
  • Two-level mapping refers to the transformation mechanism of the data model between layers.
  • the two-level mapping refers to: a) First-level mapping: mapping from physical layer to virtual surface layer, referred to as "PV mapping”; b Second-level mapping: mapping from virtual surface layer to virtual view layer, referred to as "VV mapping”.
  • the physical layer consists of various distributed and heterogeneous data sources. Each data source has its own proprietary data structure and access interface. These data sources include:
  • Database system For example, Mysql, Oracle.DB2 and SQL Server, although each database uses a two-dimensional relational table as its logical data structure, the access interfaces to the two-dimensional relational table are not the same;
  • File system The file system is an unstructured data model, and most of the file systems follow the POSIX standard interface, which is completely different from the SQL access interface standard that the database system follows;
  • This layer encapsulates and abstracts the data resources of the physical layer.
  • the data source of the physical layer is uniformly represented as a simple two-dimensional relationship, that is, a virtual table.
  • the virtual table corresponds to the physical table one by one, and the mapping information is stored in the metadata manager.
  • a virtual table consists of two parts: a table name and a list of fields. The fields in the virtual table have only one data type and are string (String).
  • String string
  • Every virtual table and its fields have a virtual place Address, the virtual address is an 11-digit decimal code, the middle bit is the flag bit, and the flag is "9" in the virtual address of the virtual table. All virtual addresses form a global address space.
  • the virtual surface layer addresses the heterogeneity and distribution of the underlying data sources.
  • the virtual view layer is directly oriented to the user, and the virtual view provides the user with a data specification that satisfies the application requirements, or a business model.
  • a virtual view is also a two-dimensional relationship consisting of a table name and a list of fields.
  • the virtual view also has a virtual address, and the middle address of the virtual address is "5".
  • a virtual view is created by one or more virtual tables through a relational operator, including selection, projection, connection, force, aggregation, and so on. Therefore, the relationship between the virtual view and the virtual table is a 1: n relationship, one virtual view corresponds to one or more virtual tables, and the mapping information is stored in the metadata manager. As shown in Fig.
  • the virtual views VV1 and VV2 are the results of the operations performed by the join operators by the virtual tables VT1 and VT2, VT3, and VT4, respectively.
  • relational operations can be performed between virtual views to produce more complex virtual views, such as virtual tables VV1 and VV2 that generate VV3 through Union operations.
  • the virtual view layer solves the business needs of users, and users can construct virtual views that meet the requirements according to their individual needs.
  • the PV maps to the first level map and is responsible for mapping between the physical table of the physical layer and the virtual table of the virtual surface layer.
  • the content of PV mapping mainly includes three aspects:
  • Structure mapping The data structure of the physical data source is diverse, including structured, semi-structured, and unstructured.
  • the structure mapping is responsible for uniformly mapping these heterogeneous data structures into a standard two-dimensional relationship, that is, a virtual table. .
  • Type mapping The data types of physical data sources are also diverse, including integers, string types, booleans, date types, etc., and the specific definitions of these data types are also different in each database. Type mapping Responsible for mapping these diverse data types into a single string.
  • Address mapping Physical data sources are distributed on multiple servers to form multiple address spaces.
  • the address mapping is responsible for uniformly mapping the physical address of the physical data source into a virtual address, forming a global unified address space, and shielding the physical distribution of the data source.
  • the VV maps to a second level map and is responsible for mapping between the virtual table of the virtual surface layer and the virtual view of the virtual view layer.
  • the main function of the VV mapping is to implement data content mapping.
  • SP Through the operation of the relational operator, the VV mapping converts the data in the virtual table into the data in the virtual view, and processes and maps the basic data into the data required by the business.
  • the key data structures that implement PV mapping are recorded in a metadata table metapv.
  • the main fields of metapv are shown in Table 1.

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及计算机应用技术领域,尤其是一种大规模分布异构数据的虚拟化方法。本发明包括三层结构和两级映射;三层结构指的是根据数据抽象级别的不同,由低到高将数据模型分为三个层次:物理层、虚拟表层、虚拟视图层,每一层都有自己特有的数据模型;两级映射分别为PV映射和VV映射,指的是层与层之间数据模型的转换机制。本发明解决了分布异构数据的虚拟化;可以用于数据的互联互通处理上。

Description

大规模分布异构数据的虚拟化方法
技术领域
本发明涉及计算机应用技术领域, 尤其是一种大规模分布异构数据的虚拟 化方法。
背景技术
在企业信息化建设过程中, 由于各业务系统建设和实施数据管理系统的阶 段性、 技术性以及其它经济和人为因素的影响, 导致企业在发展过程中积累了 大量采用不同存储方式的业务数据; 包括采用的数据管理系统也大不相同, 从 简单的文件数据库到复杂的网络数据库, 构成了企业的异构数据源。 这些分散 的不同业务的数据管理系统虽然能够满足业务数据存储和管理要求, 但在许多 情况下, 企业领导要做出一项决策, 往往需要查询多个基于各种异构数据源的 业务系统和外部系统, 进行大量数据分析后才能做出决策。
因此, 异构数据源的整合与集成是企业信息化建设过程经常遇到的一个现 实问题。 也是制约企业各种应用信息系统建设和数据共享程度, 以及信息化建 设投资重复或负担重的一个重要因素。
数据资源整合过程中的一项关键技术就是如何对异构数据进行虚拟化, 抽 象出一个统一的数据模型, 以屏蔽底层数据资源访问的分布性和异构性, 实现 数据的互联互通以及全局统一的数据视图。
发明内容
本发明解决的技术问题在于提供一种大规模分布异构数据的虚拟化方法; 可以有效的解决大规模分布异构数据的描述、 组织、 定位和访问, 提供全局统 一的数据结构以及访问接口。
本发明解决上述技术问题的技术方案是:
所述方法由三层结构、 两级映射两个部分实现;
所述的三层结构包括物理层、 虚拟表层、 虚拟视图层;
所述的物理层由各种分布、 异构的数据源组成, 每一种数据源都有自己专 有的数据结构、访问接口;这些数据源包括数据库系统、文件系统、 Web Service; 所述的虚拟表层对物理层的数据资源进行封装和抽象, 通过虚拟化机制, 将物理层的数据源统一表示成简单的二维关系, 即虚拟表; 虚拟表和物理表一 一对应, 映射信息存储在元数据管理器中;
所述的虚拟视图层直接面向用户, 虚拟视图为用户提供满足应用需求的数 据规范或者业务模式; 所述的虚拟视图是一个二维关系, 由一个或者多个虚拟 表通过关系算子运算而成, 虚拟视图与虚拟表的关系为 1 : n的关系, 一个虚拟 视图对应一个或者多个虚拟表, 映射信息存储在元数据管理器中;
所述的两级映射包括 PV映射和 W映射;
所述的 PV映射为第一级映射,负责物理层的物理表到虚拟表层的虚拟表之 间的映射; PV映射主要包括三个方面: 结构映射、 类型映射、 地址映射; 所述 的结构将异构的数据结构统一映射成标准的二维关系, 也就是虚拟表; 类型映 射将多样的数据类型统一映射成单一的字符串型; 地址映射将物理数据源的物 理地址统一映射成虚拟地址, 形成一个全局统一的地址空间, 屏蔽数据源的物 理分布性;
所述的 VV 映射为第二级映射, 负责虚拟表层的虚拟表到虚拟视图层的虚 拟视图之间的映射; 主要是实现数据内容映射, 即: 通过关系算子的运算, 将 虚拟表中的数据转换成虚拟视图中的数据, 将基础的数据加工、 映射成业务所 需要的数据。 所述的虚拟表层的虚拟表由表名和字段列表两部分组成, 虚拟表中的字段 只有一种数据类型, 为字符串型; 在与物理层数据源交互时, 会转化成数据源 真实的数据类型; 每一个虚拟表及其字段都有一个虚拟地址, 虚拟地址是一个
11位的十进制编码, 中间一位是标志位, 虚拟表的虚拟地址中该标志位为 "9"; 所有的虚拟地址构成一个全局的地址空间。
所述的虚拟视图由表名和字段列表组成; 所述的关系算子包括选择、 投影、 连接、 力口、 聚合等; 所述的虚拟视图之间也可以进行关系运算, 产生更复杂的 虚拟视图; 虚拟视图也设有虚拟地址, 虚拟地址的中间标志位为 " 5 "。
所述的 PV映射实现的关键数据结构记录在一个元数据表 metapv中; metapv 的主要字段如下表所示:
metapv表结构
Figure imgf000005_0001
所述的 VV映射实现的关键数据结构记录在一个元数据表 metavv中; metavv 的主要字段如下表所示: metavv表结构
Figure imgf000006_0001
本发明的方法可以对分布、 异构的数据进行虚拟化, 抽象出一个统一的数 据模型, 屏蔽底层数据资源访问的分布性和异构性, 实现数据的互联互通以及 全局统一的数据视图。本发明支持多种数据库系统(MySQL、 Oracle, SQL Server, DB2 ) 以及文件系统 (Excel文件、 KV文件)。 附图说明
下面结合附图对本发明进一步说明:
图 1是本发明的三层结构虚拟化模型图;
图 2是本发明的虚拟化模型示例图。
具体实施方式
如图 1所示, 本发明核心内容有两个:
(1)三层结构: 该方法根据数据抽象级别的不同, 由低到高将数据模型分为 三个层次: 物理层 (Physical Layer )、 虚拟表层 (Virtual Table Layer)、 虚拟视图层(Virtual View Layer), 每一层都有自己特有的数据模型, 数 据模型包括两个部分:
a)数据结构: 数据在系统中的逻辑表达形式; 亍为操作: 表现在数据的访问接口。
(2)两级映射: 指的是层与层之间数据模型的转换机制, 两级映射指的是: a)第一级映射: 物理层到虚拟表层的映射, 简称 " PV映射"; b)第二级映射: 虚拟表层到虚拟视图层的映射, 简称 " VV映射"。
1、 物理层
物理层由各种分布、 异构的数据源组成, 每一种数据源都有自己专有的数 据结构、 访问接口。 这些数据源包括:
(1)数据库系统: 如 Mysql、 Oracle. DB2以及 SQL Server, 每种数据库虽 然均使用二维关系表作为其逻辑数据结构, 然而对二维关系表的访问接 口不尽相同;
(2)文件系统: 文件系统是一种非结构化的数据模型, 且大部分的文件系统 遵循的是 POSIX标准的接口, 这和数据库系统遵循的 SQL访问接口标 准完全不同;
(3) Web Service: 这类数据源提供的数据模型就根据灵活, 通常在业界没有 标准可循, 基本上是各个服务提供商自己定义, 因此, 其数据结构和访 问接口具有很大的随意性。
2、 虚拟表层
该层对物理层的数据资源进行封装和抽象, 通过虚拟化机制, 将物理层的 数据源统一表示成简单的二维关系, 即虚拟表。 虚拟表和物理表一一对应, 映 射信息存储在元数据管理器中。 虚拟表由两部分组成: 表名和字段列表。 虚拟 表中的字段只有一种数据类型, 为字符串型 (String)。 在与物理层数据源交互 时, 会转化成数据源真实的数据类型。 每一个虚拟表及其字段都有一个虚拟地 址, 虚拟地址是一个 11位的十进制编码, 中间一位是标志位, 虚拟表的虚拟地 址中该标志位为 "9"。 所有的虚拟地址构成一个全局的地址空间。 虚拟表层解 决了底层数据源的异构性和分布性问题。
3、 虚拟视图层
虚拟视图层直接面向用户, 虚拟视图为用户提供满足应用需求的数据规范, 或者业务模式。 与虚拟表一样, 虚拟视图也是一个二维关系, 由表名和字段列 表组成。 虚拟视图也有虚拟地址, 虚拟地址的中间标志位为 "5"。 虚拟视图是 由一个或者多个虚拟表通过关系算子运算而成, 这些关系算子包括选择、 投影、 连接、 力口、 聚合等。 因此, 虚拟视图与虚拟表的关系为 1 : n的关系, 一个虚拟 视图对应一个或者多个虚拟表, 映射信息存储在元数据管理器中。 如图 2所示, 虚拟视图 VV1、 VV2分别是由虚拟表 VT1和 VT2、 VT3和 VT4通过 Join算子 执行运算的结果。 此外, 虚拟视图之间也可以进行关系运算, 产生更复杂的虚 拟视图, 如虚拟表 VV1和 VV2通过 Union运算产生 VV3。 虚拟视图层解决了 用户的业务需求, 用户可以根据个性化需求, 构建满足要求的虚拟视图。
4、 PV映射
PV映射为第一级映射, 负责物理层的物理表到虚拟表层的虚拟表之间的映 射。 PV映射的内容主要包括三个方面:
( 1 ) 结构映射: 物理数据源的数据结构多样, 包括结构化、 半结构化、 以 及非结构化, 结构映射负责将这些异构的数据结构统一映射成标准的 二维关系, 也就是虚拟表。
(2) 类型映射: 物理数据源的数据类型也存在多样性, 包括整型、 字符串 型、 布尔型、 日期型等, 且这些数据类型的具体定义在各个数据库中 也不尽相同, 类型映射负责将这些多样的数据类型统一映射成单一的 字符串型。
(3 ) 地址映射: 物理数据源分布在多个服务器上, 形成多个地址空间, 地 址映射负责将物理数据源的物理地址统一映射成虚拟地址, 形成一个 全局统一的地址空间, 屏蔽数据源的物理分布性。
5、 VV映射
VV映射为第二级映射,负责虚拟表层的虚拟表到虚拟视图层的虚拟视图之 间的映射。 VV映射的主要功能是实现数据内容映射, SP :通过关系算子的运算, VV映射将虚拟表中的数据转换成虚拟视图中的数据, 将基础的数据加工、 映射 成业务所需要的数据。
6、 PV映射的实现
实现 PV映射的关键数据结构记录在一个元数据表 metapv中。 metapv的主 要字段如表 1所示。
表 1 metapv表结构
Figure imgf000009_0001
7、 VV映射的实现
实现 VV映射的关键数据结构记录在一个元数据表 metavv中。 metavv的主 要字段如表 2所示。 表 2 metavv表结构 字段名 字段类型 说明 wld varchar(l l) 虚拟视图的虚拟地址, 共 11位 name varchar(80) 虚拟视图的名字 creator varchar(40) 虚拟视图的创建者 joinor text 参与连接运算的字段列表 attributes mediumtext 虚拟视图到虚拟表的字段映射 groupby varchar(255) 参加聚合运算的字段列表 groupbyhaving text 聚合后的过滤条件 orderby varchar(80) 参与排序运算的字段列表 fetchnumber varchar(80) 每一页的记录数
description varchar(255) 虚拟视图的描述信息
createTime varchar(20) 虚拟视图的创建时间

Claims

权 利 要 求 书
1、 一种大规模分布异构数据的虚拟化方法, 其特征在于: 所述方法由三层 结构、 两级映射两个部分实现;
所述的三层结构包括物理层、 虚拟表层、 虚拟视图层;
所述的物理层由各种分布、 异构的数据源组成, 每一种数据源都有自己专 有的数据结构、访问接口;这些数据源包括数据库系统、文件系统、 Web Service; 所述的虚拟表层对物理层的数据资源进行封装和抽象, 通过虚拟化机制, 将物理层的数据源统一表示成简单的二维关系, 即虚拟表; 虚拟表和物理表一 一对应, 映射信息存储在元数据管理器中;
所述的虚拟视图层直接面向用户, 虚拟视图为用户提供满足应用需求的数 据规范或者业务模式; 所述的虚拟视图是一个二维关系, 由一个或者多个虚拟 表通过关系算子运算而成, 虚拟视图与虚拟表的关系为 1 : n的关系, 一个虚拟 视图对应一个或者多个虚拟表, 映射信息存储在元数据管理器中;
所述的两级映射包括 PV映射和 W映射;
所述的 PV映射为第一级映射,负责物理层的物理表到虚拟表层的虚拟表之 间的映射; PV映射主要包括三个方面: 结构映射、 类型映射、 地址映射; 所述 的结构将异构的数据结构统一映射成标准的二维关系, 也就是虚拟表; 类型映 射将多样的数据类型统一映射成单一的字符串型; 地址映射将物理数据源的物 理地址统一映射成虚拟地址, 形成一个全局统一的地址空间, 屏蔽数据源的物 理分布性;
所述的 VV 映射为第二级映射, 负责虚拟表层的虚拟表到虚拟视图层的虚 拟视图之间的映射; 主要是实现数据内容映射, 即: 通过关系算子的运算, 将 虚拟表中的数据转换成虚拟视图中的数据, 将基础的数据加工、 映射成业务所 需要的数据。
2、 根据权利要求 1所述的虚拟化方法, 其特征在于: 所述的虚拟表层的虚 拟表由表名和字段列表两部分组成, 虚拟表中的字段只有一种数据类型, 为字 符串型; 在与物理层数据源交互时, 会转化成数据源真实的数据类型; 每一个 虚拟表及其字段都有一个虚拟地址, 虚拟地址是一个 11位的十进制编码, 中间 一位是标志位, 虚拟表的虚拟地址中该标志位为 "9"; 所有的虚拟地址构成一 个全局的地址空间。
3、 根据权利要求 1所述的虚拟化方法, 其特征在于: 所述的虚拟视图由表 名和字段列表组成; 所述的关系算子包括选择、 投影、 连接、 力口、 聚合等; 所 述的虚拟视图之间也可以进行关系运算, 产生更复杂的虚拟视图; 虚拟视图也 设有虚拟地址, 虚拟地址的中间标志位为 "5 "。
4、 根据权利要求 2所述的虚拟化方法, 其特征在于: 所述的虚拟视图由表 名和字段列表组成; 所述的关系算子包括选择、 投影、 连接、 力口、 聚合等; 所 述的虚拟视图之间也可以进行关系运算, 产生更复杂的虚拟视图; 虚拟视图也 设有虚拟地址, 虚拟地址的中间标志位为 "5 "。
5、 根据权利要求 1至 4任一项所述的虚拟化方法, 其特征在于: 所述的 PV 映射实现的关键数据结构记录在一个元数据表 metapv中; metapv的主要字段如 下表所示: metapv表结构
序号 字段名 字段类型 说明
1 vtld varchar(l l) 虚拟表的虚拟地址, 共 11位
2 name varchar(255) 虚拟表的名字
数据源的类型, 如 Oracle、 DB2、
3 dsType varchar(40)
MySQL. SQL Server. Excel等
4 dsName varchar(255) 数据源的名字
5 tableName varchar(255) 物理表的名字 6 dsUid varchar(40) 访问数据源的用户名
7 dsPasswd varchar(40) 访问数据源的密码
物理表到虚拟表之间的字段映
8 attributes mediumtext
射关系
9 creator varchar(40) 虚拟表的创建者
10 description varchar(255) 虚拟表的描述信息
11 createTime varchar(20) 虚拟表的创建时间
6、 根据权利要求 1至 4任一项所述的虚拟化方法, 其特征在于: 所述的 VV 映射实现的关键数据结构记录在一个元数据表 metavv中; metavv的主要字段如 下表所示: metavv表结构
Figure imgf000013_0001
7、 根据权利要求 5所述的虚拟化方法, 其特征在于: 所述的 VV映射实现 键数据结构记录在一个元数据表 metavv中; metavv的主要字段如下表所示: metavv表结构 字段名 字段类型 说明
wld varchar(l l) 虚拟视图的虚拟地址, 共 11位 name varchar(80) 虚拟视图的名字 creator varchar(40) 虚拟视图的创建者 joinor text 参与连接运算的字段列表 attributes mediumtext 虚拟视图到虚拟表的字段映射 groupby varchar(255) 参加聚合运算的字段列表 groupbyhaving text 聚合后的过滤条件 orderby varchar(80) 参与排序运算的字段列表 fetchnumber varchar(80) 每一页的记录数
description varchar(255) 虚拟视图的描述信息
createTime varchar(20) 虚拟视图的创建时间
PCT/CN2014/071942 2013-11-04 2014-02-10 大规模分布异构数据的虚拟化方法 WO2015062182A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP14805772.2A EP2891993A4 (en) 2013-11-04 2014-02-10 METHOD FOR VIRTUALIZING EXTENSIVE DISTRIBUTED HETEROGENIC DATA
US14/400,890 US9715536B2 (en) 2013-11-04 2014-02-10 Virtualization method for large-scale distributed heterogeneous data

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310539465.XA CN103617175A (zh) 2013-11-04 2013-11-04 一种用于大规模分布异构数据的虚拟化方法
CN201310539465.X 2013-11-04

Publications (1)

Publication Number Publication Date
WO2015062182A1 true WO2015062182A1 (zh) 2015-05-07

Family

ID=50167878

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2014/071942 WO2015062182A1 (zh) 2013-11-04 2014-02-10 大规模分布异构数据的虚拟化方法

Country Status (4)

Country Link
US (1) US9715536B2 (zh)
EP (1) EP2891993A4 (zh)
CN (1) CN103617175A (zh)
WO (1) WO2015062182A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100261A (zh) * 2020-09-14 2020-12-18 南京国睿信维软件有限公司 基于异构数据源连接的物模型建模方法
CN116450609A (zh) * 2023-04-14 2023-07-18 北京友友天宇系统技术有限公司 基于统一语法在异构数据源上建模的方法及设备

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133889B (zh) * 2014-07-30 2017-04-19 国云科技股份有限公司 一种数据库虚拟化微内核数据源注册与封装方法
CN104156419B (zh) * 2014-08-03 2019-07-26 广东电子工业研究院有限公司 一种异构数据源的实体化方法及其引擎
JP6344675B2 (ja) 2014-08-12 2018-06-20 華為技術有限公司Huawei Technologies Co.,Ltd. ファイル管理方法、分散記憶システムおよび管理ノード
CN104462559B (zh) * 2014-12-25 2018-08-07 广东电子工业研究院有限公司 一种主流关系型数据库表模式对象化和虚拟化方法
CN106933842B (zh) * 2015-12-29 2020-09-22 阿里巴巴集团控股有限公司 一种数据库查询方法和装置
CN106980514B (zh) * 2016-01-19 2020-08-07 阿里巴巴集团控股有限公司 配置数据的更新方法和装置
US10904824B2 (en) * 2016-09-02 2021-01-26 Intel Corporation Virtual private network
CN108268524A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 数据库聚合处理方法及装置
CN107943945B (zh) * 2017-11-24 2018-12-11 清华大学 一种大数据分析开发平台中异构算子管理方法
CN110069492A (zh) * 2017-12-04 2019-07-30 复旦大学 民机技术出版物与培训数据集成方法
CN111209229B (zh) * 2019-12-30 2021-12-21 苏州艾利特机器人有限公司 一种基于虚拟设备的现场总线方法
CN113076366B (zh) * 2021-04-09 2023-01-24 南京邮电大学 一种智慧灯杆虚拟化方法
CN113254953A (zh) * 2021-04-28 2021-08-13 深圳市鹰硕技术有限公司 权限分配管理方法、装置、在线教育系统及存储介质
CN114398366B (zh) * 2021-12-28 2022-12-27 重庆允成互联网科技有限公司 一种异构数据输入方法及数据工厂配置系统
US20240045884A1 (en) * 2022-08-05 2024-02-08 Open Text Sa Ulc System and method for cloud-based replication of data

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101000618A (zh) * 2006-12-25 2007-07-18 华为技术有限公司 建立无连接的数据编程模型的方法、装置及其应用
CN101187937A (zh) * 2007-10-30 2008-05-28 北京航空航天大学 网格环境下模式复用的异构数据库访问和集成方法
CN101201842A (zh) * 2007-10-30 2008-06-18 北京航空航天大学 数字博物馆网格及其构造方法
US20080281802A1 (en) * 2006-03-03 2008-11-13 International Business Machines Corporation Building A Unified Query That Spans Heterogeneous Environments

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7185016B1 (en) * 2000-09-01 2007-02-27 Cognos Incorporated Methods and transformations for transforming metadata model
US7627552B2 (en) * 2003-03-27 2009-12-01 Microsoft Corporation System and method for filtering and organizing items based on common elements
US7251653B2 (en) * 2004-06-30 2007-07-31 Microsoft Corporation Method and system for mapping between logical data and physical data
US7853947B2 (en) * 2004-09-30 2010-12-14 Citrix Systems, Inc. System for virtualizing access to named system objects using rule action associated with request
WO2009032710A2 (en) * 2007-08-29 2009-03-12 Nirvanix, Inc. Filing system and method for data files stored in a distributed communications network
US8201029B2 (en) * 2008-01-31 2012-06-12 International Business Machines Corporation Method and apparatus for operating system event notification mechanism using file system interface
US9519636B2 (en) * 2008-10-15 2016-12-13 Business Objects S.A. Deduction of analytic context based on text and semantic layer
US7930447B2 (en) * 2008-10-17 2011-04-19 International Business Machines Corporation Listing windows of active applications of computing devices sharing a keyboard based upon requests for attention
US8132168B2 (en) * 2008-12-23 2012-03-06 Citrix Systems, Inc. Systems and methods for optimizing a process of determining a location of data identified by a virtual hard drive address
US8671105B2 (en) * 2010-09-03 2014-03-11 Tata Consultancy Services Limited Data integration using conceptual modeling framework
US8346788B1 (en) * 2011-03-29 2013-01-01 Emc Corporation Techniques for mapping data models using an intermediate processing layer

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080281802A1 (en) * 2006-03-03 2008-11-13 International Business Machines Corporation Building A Unified Query That Spans Heterogeneous Environments
CN101000618A (zh) * 2006-12-25 2007-07-18 华为技术有限公司 建立无连接的数据编程模型的方法、装置及其应用
CN101187937A (zh) * 2007-10-30 2008-05-28 北京航空航天大学 网格环境下模式复用的异构数据库访问和集成方法
CN101201842A (zh) * 2007-10-30 2008-06-18 北京航空航天大学 数字博物馆网格及其构造方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2891993A4 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100261A (zh) * 2020-09-14 2020-12-18 南京国睿信维软件有限公司 基于异构数据源连接的物模型建模方法
CN112100261B (zh) * 2020-09-14 2024-04-09 南京国睿信维软件有限公司 基于异构数据源连接的物模型建模方法
CN116450609A (zh) * 2023-04-14 2023-07-18 北京友友天宇系统技术有限公司 基于统一语法在异构数据源上建模的方法及设备
CN116450609B (zh) * 2023-04-14 2024-01-30 北京友友天宇系统技术有限公司 基于统一语法在异构数据源上建模的方法及设备

Also Published As

Publication number Publication date
EP2891993A4 (en) 2016-04-13
EP2891993A1 (en) 2015-07-08
US20160267155A1 (en) 2016-09-15
CN103617175A (zh) 2014-03-05
US9715536B2 (en) 2017-07-25

Similar Documents

Publication Publication Date Title
WO2015062182A1 (zh) 大规模分布异构数据的虚拟化方法
Lv et al. BIM big data storage in WebVRGIS
EP2580691B1 (en) Scalable rendering of large spatial databases
WO2016101301A1 (zh) 关系型数据库表模式对象化和虚拟化机制
US20200356688A1 (en) Data access authority management method, apparatus, terminal device and storage medium
CN107895046B (zh) 一种异构数据集成平台
US20130103725A1 (en) Storing graph data in a column-oriented data store
CN107291925A (zh) 一种基于业务模型的审批数据沉淀方法
CN109165262A (zh) 一种关系型大表的分片集群系统及其分片方法
Peng et al. An analysis platform of road traffic management system log data based on distributed storage and parallel computing techniques
Yin et al. A MySQL-Based Software System of Urban Land Planning Database of Shanghai in China.
JP6371136B2 (ja) データ仮想化サーバ、データ仮想化サーバにおけるクエリ処理方法及びクエリ処理プログラム
Zhang et al. Research on data integration of smart grid based on iec61970 and cloud computing
Dawei et al. Exploration on big data oriented data analyzing and processing technology
El Banhawy et al. A native enhanced elastic extension tables multi-tenant database
CN104239008A (zh) 并行数据库管理系统及设计方案
Li et al. Application and Development of Database Technology in the Background of Big Data
Ahuja et al. An approach for virtualization and integration of heterogeneous cloud databases
Deng et al. Research on the harvest and cascade of catalogue service in GeoGlobe Service Platform
DeSilva et al. Using streaming data and Apache Flink to infer energy consumption
Lei et al. A cloud computing application in land resources information management
Singh et al. E-Government database: A Retrospective study
Mathew et al. Parallel implementation of fuzzy clustering algorithm based on MapReduce computing model of hadoop ea detailed survey
Kharade et al. International Journal of Computer Sciences and Engineering Open Access
Wang et al. Research on the Optimization of Spark Big Table Equal Join

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 14400890

Country of ref document: US

REEP Request for entry into the european phase

Ref document number: 2014805772

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2014805772

Country of ref document: EP

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14805772

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE