WO2021109777A1

WO2021109777A1 - 一种数据文件的导入方法及装置

Info

Publication number: WO2021109777A1
Application number: PCT/CN2020/126454
Authority: WO
Inventors: 陆平; 刘志文; 郭啸; 孙洪玲
Original assignee: 中兴通讯股份有限公司
Priority date: 2019-12-03
Filing date: 2020-11-04
Publication date: 2021-06-10
Also published as: CN112905676A

Abstract

一种数据文件的导入方法及装置，其中，上述方法包括将待入库的数据文件拆分为数据文件分片（S101），将该数据文件分片并发导入数据库（S103），可以解决相关技术中数据库的数据导入效率较低的问题。

Description

一种数据文件的导入方法及装置

技术领域

本公开涉及通信领域，具体而言，涉及一种数据文件的导入方法及装置。

背景技术

信息业务的发展带来了数据量的与日俱增，数据库在信息系统中承担着不可或缺的数据桥梁作用。分布式数据库是用计算机网络将物理上分散的多个数据库单元连接起来组成的一个逻辑上统一的数据库，有着存储量大、业务并发量高、可扩展性好的特点，其应用日益广泛。在分布式数据库的应用场景中，数据的备份、恢复和迁移等是常见操作，这就要求数据库系统提供完备可靠的数据导入功能。

目前数据库的导入功能基本是由业务插入的方式实现，也就是连接分布式存储节点上层的数据库代理节点执行插入语句队列。该技术成熟但性能低，在大数据量导入的情况下会对代理节点造成比较大的压力。该方法采用的串行执行业务的模式，往往耗时过长，严重影响了分布式数据库的数据导入服务性能。

针对相关技术中数据库的数据导入效率较低的问题，尚不存在解决方案。

发明内容

本公开实施例提供了一种数据文件的导入方法及装置，以至少解决相关技术中数据库的数据导入效率较低的问题。

根据本公开的一个实施例，提供了一种数据文件的导入方法，包括：将待入库的数据文件拆分为数据文件分片；将所述数据文件分片并发导入数据库。

根据本公开的另一个实施例，提供了一种数据文件的导入装置，包括：

拆分模块，设置为将待入库的数据文件拆分为数据文件分片；导入模块，设置为将所述数据文件分片并发导入数据库。

根据本公开的又一个实施例，还提供了一种计算机可读的存储介质，所述计算机可读的存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本公开的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本公开实施例，由于将待入库的数据文件拆分为数据文件分片，将所述数据文件分片并发导入数据库，因此，可以解决相关技术中数据库的数据导入效率较低的问题，达到提高数据导入效率的效果。

附图说明

此处所说明的附图用来提供对本公开的进一步理解，构成本申请的一部分，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。在附图中：

图1是根据本公开实施例的数据文件的导入方法的流程图；

图2是根据本公开实施例的数据文件的导入装置的结构框图；

图3是根据本公开可选实施例的分布式数据库并发数据导入系统架构图；

图4是根据本公开可选实施例的并发数据导入业务流程图；

图5是根据本公开可选实施例的数据文件拆分原理示意图；

图6是根据本公开可选实施例的分布式数据库并发导入数据流方向图；

图7是根据本公开可选实施例的存储节点管理监控模块业务及反馈模式示意图；

图8是根据本公开可选实施例的数据导入服务平台业务失败处理流程图；

图9是根据本公开可选实施例的应用于大数据平台的并发导入系统模块组网图；

图10是根据本公开可选实施例的应用于大数据平台的并发导入业务处理流程图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本公开。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

在本实施例中提供了一种可以运行于数据导入服务平台的数据文件的导入方法，图1是根据本公开实施例的数据文件的导入方法的流程图，如图1所示，该流程包括如下步骤：

步骤S101，将待入库的数据文件拆分为数据文件分片；

步骤S103，将数据文件分片并发导入数据库。

通过上述步骤，由于将待入库的数据文件拆分为数据文件分片，再将数据文件分片并发导入数据库，解决了相关技术中数据库的数据导入效率较低的问题，提高了数据导入效率。

可选地，上述步骤的执行主体可以为与分布式数据库能够进行交互的数据导入服务平台等，但不限于此。

在一个可选的实施方式中，将待入库的数据文件拆分为数据文件分片，包括：获取数据字典信息；根据数据字典信息将待入库的数据文件拆分为数据文件分片，其中，所示数据字典信息中包括数据文件分发策略。

需要说明的是，数据字典是元数据服务器的存储表信息的方式，数据字典中包含了建表语句(也就是表定义)，表定义里面可以包含有数据文件分发策略。

在一个可选的实施方式中，根据数据字典信息将待入库的数据文件拆分为数据文件分片，还包括：根据数据字典信息对待入库的数据文件进行校验，得到校验正确的数据文件。

需要说明的是，可以对按顺序对数据文件逐列校验。还需要说明的是，如有校验失败的数据，则可以进行失败数据的反馈，以便进一步处理。

在一个可选的实施方式中，根据数据字典信息将待入库的数据文件拆分为数据文件分片，还包括：对数据文件进行改造，得到改造后的数据文件。

需要说明的是，还可以对校验正确的数据文件进行改造，以对数据文件进行进一步的修饰。

需要说明的是，在一个可选的实施方式中，可以对经校验、改造之后的数据进行拆分；例如，在整个数据文件全部校验、改造完成之后，对数据文件进行拆分，或者，以列为单位，对每一列数据进行校验、改造、拆分，直至完成对整个数据文件的拆分。

在一个可选的实施方式中，将数据文件分片并发导入数据库，包括：根据数据文件分片的分发信息将数据文件分片发送至对应的目的存储节点，其中，分发信息是根据数据文件分发策略确定的，分发信息中包括数据文件分片的目的存储节点信息。

在一个可选的实施方式中，根据数据文件分片的分发信息将数据文件分片发送至对应的目的存储节点，包括：向目的存储节点的管理模块发送下载指令，其中，下载指令用于指示管理模块下载对应的数据文件分片；接收管理模块反馈的数据文件分片的下载状态。

需要说明的是，在一个可选的实施方式中，还可以对下载失败的分片进行失败分析，以便于进一步下载。

在一个可选的实施方式中，根据数据文件分片的分发信息将数据文件分片发送至对应的目的存储节点，还包括：向目的存储节点的管理模块发送导入命令，其中，导入命令用于指示管理模块向存储节点导入数据文件分片；接收管理模块反馈的数据文件分片的的导入状态。

需要说明的是，在一个可选的实施方式中，还可以对导入失败的数据文件进行进一步处理，例如分析失败原因等，以便于调整之后继续导入。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本公开各个实施例所述的方法。

在本实施例中还提供了一种数据文件的导入装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图2是根据本公开实施例的数据文件的导入装置的结构框图，如图2所示，该装置包括：

拆分模块22，设置为将待入库的数据文件拆分为数据文件分片；

导入模块24，设置为将数据文件分片并发导入数据库。

通过上述模块，由于将待入库的数据文件拆分为数据文件分片，再将数据文件分片并发导入数据库，解决了相关技术中数据库的数据导入效率较低的问题，提高了数据导入效率。

可选地，拆分模块，包括：

获取单元，设置为获取数据字典信息；

拆分单元，设置为根据数据字典信息将待入库的数据文件拆分为数据文件分片，其中，所示数据字典信息中包括数据文件分发策略。

可选地，拆分单元，包括：校验子单元，设置为根据数据字典信息对待入库的数据文件进行校验，得到校验正确的数据文件。

可选地，拆分单元，还包括：改造子单元，设置为对数据文件进行改造，得到改造后的数据文件。

可选地，导入模块，包括：发送单元，设置为根据数据文件分片的分发信息将数据文件分片发送至对应的目的存储节点，其中，分发信息是根据数据文件分发策略确定的，分发信息中包括数据文件分片的目的存储节点信息。

可选地，发送单元，包括：

第一发送子单元，设置为向目的存储节点的管理模块发送下载指令，其中，下载指令用于指示管理模块下载对应的数据文件分片；

第一接收子单元，设置为接收管理模块反馈的数据文件分片的下载状态。

可选地，发送单元，还包括：

第二发送子单元，设置为向目的存储节点的管理模块发送导入命令，其中，导入命令用于指示管理模块向存储节点导入数据文件分片；

第二接收子单元，设置为接收管理模块反馈的数据文件分片的的导入状态。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

可选实施方式

本公开实施例涉及数据库技术领域，尤其涉及分布式数据库的并发导入技术。该技术通过解析数据分布策略、获取分发节点、拆分数据文件，从而直连存储节点进行批量导入，以达到多节点并发导入提升数据迁移性能的效果。

本公开实施例提出一种分布式数据库并发数据导入技术，克服了现有分布式数据库导入方式中存在的效率低、缺乏中间反馈、不适用于海量数据场景的问题和缺陷，提供一种直连存储节点进行批量并发导入的技术方案，通过数据分布策略的解析对文件进行拆分和下发，避免了在数据导入过程中海量业务访问业务节点耗时较长的问题，优化分布式数据库的数据导入性能，并建立及时反馈机制。

本公开实施例所述的并发数据导入系统主要包含两个部分：分布式数据库平台和数据导入服务平台。其中，分布式数据库平台是分布式数据库的实体与核心，主要负责数据存储与系统状态的管理和监控；数据导入服务平台设置为提供从外部数据平台到内部分布式数据库系统的批量数据导入服务。图3是根据本公开可选实施例的分布式数据库并发数据导入系统架构图，分布式并发数据导入系统架构如图3所示：

分布式数据库平台中又包含存储节点、存储节点管理监控模块和元数据服务模块，各模块的功能如下：

(1)存储节点：负责数据存储。

(2)存储节点管理监控：负责实时监控该节点的运行状态与统计信息。在数据导入过程中，存储节点执行数据导入，管理监控模块为存储节点提供服务响应、文件收发、状态反馈等外围服务。

(3)元数据服务：分布式数据库系统所有元信息都由其保存和管理，为其他模块提供其所需要的元数据信息。

数据导入服务平台中包含数据文件处理模块、文件分发模块和导入状态统计模块，各模块功能如下：

(1)数据文件处理：提供与外部系统的数据交换接口，接收用户批量导入命令，对待入库数据文件根据数据分布策略进行拆分。

(2)文件分发：直连分布式存储节点以及存储节点管理监控模块，进行文件下发。

(3)导入状态统计：接收各存储节点管理监控模块的导入状态反馈，统计上报。

其中，数据文件处理模块可以从元数据服务模块处获取数据分布策略，而文件分发模块和分布式存储节点以及存储节点管理监控模块组成了完成的数据导入业务流程，导入状态统计反馈模块则为用户提供状态反馈，构成完整的业务服务。

图4是根据本公开可选实施例的并发数据导入业务流程图，本实施例所述的分布式数据库并发数据导入方法包括以下步骤，详细的业务总体处理流程如图4：

第一步：数据文件处理

步骤11、数据导入服务平台接收客户端的导入命令，从外部系统获取要导入数据库的数据文件。

步骤12、数据导入服务平台向元数据服务模块获取每张表的表定义和数据分布等数据字典信息。

步骤13、根据数据分布策略进行拆分数据文件。

第二步：数据文件下发

步骤21、数据导入服务平台发送消息，通知存储节点管理监控模块下载数据文件。

步骤22、存储节点管理监控模块下载该分片所需导入的拆分数据文件。

步骤23、存储节点管理监控模块将下载状态统计上报给数据导入服务平台。

第三步：数据文件导入

步骤31、数据导入服务平台通知存储节点管理监控模块进行数据导入。

步骤32、各存储节点管理监控模块发起业务，将数据文件导入存储节点。

步骤33、存储节点管理监控模块将导入状态统计上报给数据导入服务平台。

第四步、导入状态统计与上报

步骤41、数据导入服务平台汇总各节点上报的导入状态信息。

步骤42、数据导入服务平台将导入结果反馈给业务系统。

文件拆分是数据文件处理模块的核心步骤，将文件按照分发策略拆分为数据分片，图5是根据本公开可选实施例的数据文件拆分原理示意图，如图5示意，过程如下：

(1)根据集群号、数据库名、表名，向管理系统(例如元数据服务器)请求元数据DDL，然后在本地建立表文件结构，生成表元数据缓存。

(2)对文件数据按行分析。本模块借鉴、复用、修改了开源数据库的处理逻辑(Mariadb)，数据分析逻辑为按照表元数据缓存对导入数据文件每个列字段顺序分析，例如先读取导入文件获取一行中的一个列数据，用元数据校验该列数据是否正确。如此顺序分析每一个列数据直到一行结束。此种方法能够检查行数据错误，例如：列数据与字段不匹配、少列数据、多列数据等。

(3)文件数据特性改造。本模块将校验过的行数据缓存下来，可以对该数据改造以支持新特性，例如：支持DB2数据库空字符串导入、支持容忍导入文件最大错误行、支持少列数据补齐、支持条件导入等。

(4)行数据分发过程。如上行数据分析阶段，对各个字段校验正确的列数据构造Item对象，使用封装好的分发算法计算出目的分发节点，写入相应的分片数据缓存，计算错误的行数据写入错误文件缓存，从而保证用户数据不丢失。

(5)本模块处理结束后则删除创建的表文件及元数据缓存，结束该功能，减少与其他模块耦合的程度。

图6是根据本公开可选实施例的分布式数据库并发导入数据流方向图，分布式数据库并发导入数据流的方向如图6所示，本系统与外部系统(例如大数据平台)的接口采用文件接口方式，这样可以避免两个系统的强耦合，双方都遵循共同的文件接口规范来处理数据交换。大数据平台是分布式数据库系统平台的一个数据来源，按照约定的文件格式生成数据文件，并把这些数据文件传输存放到约定的文件目录下。数据文件由数据导入服务平台按一定规则读取，并被解析和拆分成符合分发策略的数据文件分片，通过FTP/SFTP协议传输到各存储节点管理监控模块上。最后，数据文件分片由存储节点管理模块执行入库操作变为存储于分布式数据库中的数据。

大批量数据导入过程中，由于网络、硬件、业务等问题，可能出现导入业务部分失败的问题。本系统针对数据文件导入过程中可能出现的失败阶段，都借助存储节点管理监控模块及时作出反馈，包含数据文件和业务阶段信息，便于定位问题。图7是根据本公开可选实施例的存储节点管理监控模块业务及反馈模式示意图，存储节点管理监控模块的业务逻辑参考图7，作为数据导入服务平台和各节点数据库之间的桥梁，主要负责下载数据文件分片、控制存储节点导入数据，以及监控业务状态，向数据导入服务平台做出及时反馈。在数据文件下载失败或存储节点导入数据失败的情况下，分析失败原因并反馈给数据导入服务平台，反馈信息包括数据分片信息，便于数据导入服务平台对失败文件做相应的处理。

图8是根据本公开可选实施例的数据导入服务平台业务失败处理流程图，如图8所示，若有导入业务失败，数据导入服务平台汇总各存储节点管理监控模块的失败反馈，将失败文件整理并存放于特定目录下待人工处理，并将失败信息反馈给外部业务系统。

采用本实施例所述方法和装置，优化了分布式数据库的数据导入性能，达到了直连多节点并发导入的效果，节省了批量数据导入多存储节点的时间，并建立了及时反馈机制。

在一个可选的实施方式中，本实施例还可以应用于大数据平台的分布式数据库并发导入系统，下面介绍分布式并发导入系统与大数据平台结合应用的实施例，图9是根据本公开可选实施例的应用于大数据平台的并发导入系统模块组网图，本实施例系统架构如图9所示，其中两个系统之间通过文件接口耦合。

图10是根据本公开可选实施例的应用于大数据平台的并发导入业务处理流程图，如图10所示，本实施例业务处理流程按照如下步骤操作：

步骤1，大数据平台按照约定的文件格式生成数据文件，并通过FTP或者其他文件传输协议把数据文件存放到约定的文件目录下。

步骤2，大数据平台向数据导入服务器发送导入命令。

步骤3，数据导入服务器根据集群号、库名、表名信息向元数据服务器发送获取元数据请求消息。

步骤4，数据导入服务器解析元数据响应，解析数据分发策略，将数据文件拆分为分片文件。

步骤5，数据导入服务器向数据库服务器的管理监控程序发送下载文件请求，明确数据文件分片的位置和文件名。

步骤6，管理监控程序通过FTP/SFTP协议，从数据导入服务器下载该节点对应的文件分片。

步骤7，数据导入服务器向管理监控程序发送导入文件请求。

步骤8，管理监控程序执行LOAD DATA INFILE将文件导入数据库。

步骤9，数据导入服务器汇总各节点的文件导入情况反馈，将汇总失败数据文件，按需求转存。

步骤10，向大数据平台反馈导入结果，若存在失败文件，反馈失败原因以及对应文件分片信息。

本公开的实施例还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

步骤S1，将待入库的数据文件拆分为数据文件分片；

步骤S2，将数据文件分片并发导入数据库。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本公开的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

步骤S1，将待入库的数据文件拆分为数据文件分片；

步骤S2，将数据文件分片并发导入数据库。

显然，本领域的技术人员应该明白，上述的本公开的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本公开不限制于任何特定的硬件和软件结合。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

一种数据文件的导入方法，包括：

将待入库的数据文件拆分为数据文件分片；

将所述数据文件分片并发导入数据库。
根据权利要求1所述的方法，其中，将待入库的所述数据文件拆分为所述数据文件分片，包括：

获取数据字典信息；

根据所述数据字典信息将待入库的所述数据文件拆分为所述数据文件分片，其中，所示数据字典信息中包括数据文件分发策略。
根据权利要求2所述的方法，其中，根据所述数据字典信息将待入库的所述数据文件拆分为所述数据文件分片，包括：

根据所述数据字典信息对待入库的所述数据文件进行校验，得到校验正确的所述数据文件。
根据权利要求2所述的方法，其中，根据所述数据字典信息将待入库的数据文件拆分为数据文件分片，还包括：

对所述数据文件进行改造，得到改造后的所述数据文件。
根据权利要求1至4中的任一项所述的方法，其中，将所述数据文件分片并发导入数据库，包括：

根据所述数据文件分片的分发信息将所述数据文件分片发送至对应的目的存储节点，其中，所述分发信息是根据数据文件分发策略确定的，所述分发信息中包括所述数据文件分片的目的存储节点信息。
根据权利要求5所述的方法，其中，根据所述数据文件分片的分发信息将所述数据文件分片发送至对应的目的存储节点，包括：

向所述目的存储节点的管理模块发送下载指令，其中，所述下载指令用于指示所述管理模块下载对应的所述数据文件分片；

接收所述管理模块反馈的所述数据文件分片的下载状态。
根据权利要求5所述的方法，其中，根据所述数据文件分片的分发信息将所述数据文件分片发送至对应的目的存储节点，还包括：

向所述目的存储节点的管理模块发送导入命令，其中，所述导入命令用于指示所述管理模块向所述存储节点导入所述数据文件分片；

接收所述管理模块反馈的所述数据文件分片的的导入状态。
一种数据文件的导入装置，包括：

拆分模块，设置为将待入库的数据文件拆分为数据文件分片；

导入模块，设置为将所述数据文件分片并发导入数据库。
根据权利要求8所述的装置，其中，所述拆分模块，包括：

获取单元，设置为获取数据字典信息；

拆分单元，设置为根据所述数据字典信息将待入库的所述数据文件拆分为所述数据文件分片，其中，所示数据字典信息中包括数据文件分发策略。
根据权利要求9所述的装置，其中，所述拆分单元，包括：

校验子单元，设置为根据所述数据字典信息对待入库的所述数据文件进行校验，得到校验正确的所述数据文件。
根据权利要求9所述的装置，其中，所述拆分单元，还包括：

改造子单元，设置为对所述数据文件进行改造，得到改造后的所述数据文件。
根据权利要求8至11中的任一项所述的装置，其中，所述导入模块，包括：

发送单元，设置为根据所述数据文件分片的分发信息将所述数据文件分片发送至对应的目的存储节点，其中，所述分发信息是根据数据文件分发策略确定的，所述分发信息中包括所述数据文件分片的目的存储节点信息。
根据权利要求12所述的装置，其中，所述发送单元，包括：

第一发送子单元，设置为向所述目的存储节点的管理模块发送下载指令，其中，所述下载指令用于指示所述管理模块下载对应的所述数据文件分片；

第一接收子单元，设置为接收所述管理模块反馈的所述数据文件分片的下载状态。
根据权利要求12所述的装置，其中，所述发送单元，还包括：

第二发送子单元，设置为向所述目的存储节点的管理模块发送导入命令，其中，所述导入命令用于指示所述管理模块向所述存储节点导入所述数据文件分片；

第二接收子单元，设置为接收所述管理模块反馈的所述数据文件分片的的导入状态。
一种计算机可读的存储介质，所述计算机可读的存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。
一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。