WO2020238858A1

WO2020238858A1 - 数据迁移方法、装置、及计算机可读存储介质

Info

Publication number: WO2020238858A1
Application number: PCT/CN2020/092128
Authority: WO
Inventors: 周伟; 曾岩
Original assignee: 深圳前海微众银行股份有限公司
Priority date: 2019-05-30
Filing date: 2020-05-25
Publication date: 2020-12-03
Also published as: CN110162517A

Abstract

本申请公开了一种数据迁移方法、装置、及计算机可读存储介质。该方法包括：循环读取预设配置文件，从所述预设配置文件中读取到迁入消息，获取迁出集群服务器；调用第一预设框架远程登录至迁出集群服务器，在迁出集群服务器上执行查询迁入消息中库表的建表语句，并将建表语句输出至迁出集群服务器的预先指定文件下的指定目录中；调用第二预设框架对迁出集群服务器上的建表语句进行同步，并对同步后的建表语句进行表格式化解析，得到迁移信息和可执行的建表语句；执行可执行的建表语句创建对应的hive表，并基于迁移信息将对应的数据文件迁移至hive表中。

Description

数据迁移方法、装置、及计算机可读存储介质

本申请要求2019年5月30日申请的，申请号为201910461350.0，名称为“数据迁移方法、装置、设备及计算机可读存储介质”的中国专利申请的优先权，在此将其全文引入作为参考。

技术领域

本申请涉及金融科技(Fintech)技术领域，尤其涉及一种数据迁移方法、装置、及计算机可读存储介质。

背景技术

随着计算机技术的发展，越来越多的技术(大数据、分布式、区块链Blockchain、人工智能等)应用在金融领域，传统金融业正在逐步向金融科技(Fintech)转变，但由于金融行业的安全性、实时性要求，也对技术提出了更高的要求。

随着信息技术的不断发展，信息的数据量持续增长，各种企业的数据也迎来了爆发式增长，因此，迫切需要运算处理大规模数据的能力。而Hadoop(海杜普)作为具有分布式存储和计算能力的开源项目，其采用并行计算框架进行高效的分布式计算，并拥有自己的分布式文件系统HDFS，可提供可扩展、健壮的数据存储，因而很快就得到各个行业的重视，被广泛应用于金融、商业、教育等领域。

分布式系统作为海量数据存储系统，需要解决的一个重要问题便是决定数据在集群中的分布策略，当某一数据库集群的存储能力和处理能力达到集群能力的上限，此时则需要通过数据迁移的方式缓解原有服务器的存储压力和负载压力。目前，在数据迁移过程中，通常是分别对hdfs数据文件和hive(是基于Hadoop的一个数据仓库工具)元数据两部分进行迁移的，具体的，先通过磁盘拷贝、distcp(分布式拷贝)等方式来跨大数据集群迁移dhfs数据文件，然后从hivemetastore(一种存储hive元数据的服务)中批量导出迁移hive表结构和分区值(即hive元数据)。在上述数据迁移过程需人工分次输入待迁移的集群和库表，导致数据迁移效率也较低，无法做到按需批量迁移。

发明概述

技术问题

问题的解决方案

技术解决方案

本申请的主要目的在于提供一种数据迁移方法、装置、及计算机可读存储介质，旨在解决相关的数据迁移效率低、无法按需批量迁移的问题。

为实现上述目的，本申请提供一种数据迁移方法，所述数据迁移方法包括：

循环读取预设配置文件，从所述预设配置文件中读取到迁入消息，获取所述迁入消息中的迁出集群服务器；

调用第一预设框架远程登录至所述迁出集群服务器，在所述迁出集群服务器上执行查询所述迁入消息中库表的建表语句，并将所述建表语句输出至所述迁出集群服务器的预先指定文件下的指定目录中；

调用第二预设框架对所述迁出集群服务器上的建表语句进行同步，并对同步后的建表语句进行表格式化解析，得到迁移信息和可执行的建表语句；

执行所述可执行的建表语句，创建对应的hive表，并基于所述迁移信息将对应的数据文件迁移至所述hive表中。

在一实施例中，所述迁移信息包括分区信息和数据文件存储位置，所述基于所述迁移信息将对应的数据文件迁移至所述hive表中的步骤包括：

判断所述分区信息为不存在分区还是为存在分区；

若所述分区信息为不存在分区，则调用预设接口，获取与所述数据文件存储位置对应的数据文件，并将获取到的数据文件迁移至所述hive表中。

在一实施例中，所述判断所述分区信息为不存在分区还是为存在分区的步骤之后，还包括：

若所述分区信息为存在分区，则调用所述第一预设框架远程登录至所述迁出集群服务器，在所述迁出集群服务器上执行查询所述库表的分区值，并将所述分区值输出至所述迁出集群服务器的预先指定文件下的指定目录中；

调用所述第二预设框架对所述迁出集群服务器上的分区值进行同步，并对同步后的分区值进行分区格式化解析，得到可执行的添加分区的命令；

执行所述添加分区的命令，在所述hive表中添加对应的分区；

调用所述预设接口，获取与所述数据文件存储位置对应的数据文件，并将获取到的数据文件迁移至所述hive表对应的分区中。

在一实施例中，所述数据迁移方法还包括：

通过所述预设接口获取迁移前数据文件的大小和迁移后数据文件的大小；

确定所述迁移前数据文件的大小和所述迁移后数据文件的大小不一致，生成对应的错误提示信息。

在一实施例中，所述第一预设框架为expect+ssh框架，所述第二预设框架为expect+scp框架，所述预设接口为分布式拷贝distcp接口。

此外，为实现上述目的，本申请还提供一种数据迁移装置，所述数据迁移装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据迁移程序，所述数据迁移程序被所述处理器执行时实现以下步骤：

在一实施例中，所述迁移信息包括分区信息和数据文件存储位置，所述数据迁移程序被所述处理器执行时实现以下步骤：

判断所述分区信息为不存在分区还是为存在分区；

在一实施例中，所述数据迁移程序被所述处理器执行时实现以下步骤：

执行所述添加分区的命令，在所述hive表中添加对应的分区；

此外，为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有数据迁移程序，所述数据迁移程序被处理器执行时实现如上所述的数据迁移方法的步骤。

本申请提供一种数据迁移方法、装置、及计算机可读存储介质，通过循环读取预设配置文件，在从读取到迁入消息时，获取该迁入消息中的迁出集群服务器；调用第一预设框架远程登录至迁出集群服务器，在迁出集群服务器上执行查询迁入消息中库表的建表语句，并将建表语句输出至迁出集群服务器的预先指定文件下的指定目录中；调用第二预设框架对迁出集群服务器上的建表语句进行同步，并对同步后的建表语句进行表格式化解析，得到迁移信息和可执行的建表语句；执行该可执行的建表语句，创建对应的hive表，并基于该迁移信息将对应的数据文件迁移至该创建得到的hive表中。通过上述方式，本申请可实现完整的hive表跨集群迁移，且可直接通过读取配置文件中的迁入消息而智能实现按需批量迁移，相比于相关数据迁移过程中需人工分次输入待迁移的集群和库表，本申请可减少人为干预，从而提升迁移的整体效率。

发明的有益效果

对附图的简要说明

附图说明

图1为本申请实施例方案涉及的硬件运行环境的设备结构示意图；

图2为本申请数据迁移方法第一实施例的流程示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

发明实施例

本发明的实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，图1为本申请实施例方案涉及的硬件运行环境的设备结构示意图。

本申请实施例数据迁移设备可以是智能手机，也可以是PC(Personal Computer，个人计算机)、平板电脑、便携计算机等终端设备。

如图1所示，该数据迁移设备可以包括：处理器1001，例如CPU，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如Wi-Fi接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的数据迁移设备结构并不构成对数据迁移设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据迁移程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的数据迁移程序，并执行以下数据迁移方法的各个步骤。

基于上述硬件结构，提出本申请数据迁移方法的各实施例。

本申请提供一种数据迁移方法。

参照图2，图2为本申请数据迁移方法第一实施例的流程示意图。

在本实施例中，该数据迁移方法包括：

步骤S10，循环读取预设配置文件，从所述预设配置文件中读取到迁入消息，获取所述迁入消息中的迁出集群服务器；

计算机技术的发展和大数据的来临，计算机技术在金融机构(如银行、保险、证券、理财机构)的应用也越来越广，现在的金融机构中在进行数据迁移，对迁移效率、迁移准确性的要求更高。由于数据量越来越多，目前的金融机构进行数据迁移时，通常是分别对hdfs数据文件和hive(是基于Hadoop的一个数据仓库工具)元数据两部分进行迁移的，其迁移方案是隔离的、不完整的，且数据迁移过程需人工分次输入待迁移的集群和库表，导致数据迁移效率也较低，无法做到按需批量迁移，这种情况严重不符合金融机构的要求。

本实施例的数据迁移方法是由数据迁移设备实现的，该设备以迁入集群服务器为例进行说明，其中，集群服务器是一种可以与hadoop(一种分布式系统的基础架构)集群进行交互的服务器，迁入集群服务器是指数据所迁移至的目标hadoop集群所对应的服务器，例如，从B hadoop集群将B库下的a、b、c表迁移至Ahadoop集群中E库对应的a、b、c表，此时，则将A hadoop集群所对应的服务器称作迁入集群服务器，将B hadoop集群所对应的服务器称作迁出集群服务器。在本实施例中，各集群服务器会循环读取预设配置文件，当从预设配置文件中读取到迁入消息时，即读取到要将另一集群的数据迁入至该迁入集群服务器的迁入消息时，此时，则获取该迁入消息中的迁出集群服务器。其中，该预设配置文件用于记录需要进行数据迁移的集群信息和库表信息，可人为进行批量设定，也可以在工作人员通过软件发起数据迁移请求时，根据该数据迁移请求来自动进行设定。例如，上述例中，当需要从B hadoop集群将B库下的a、b、c表迁移至A hadoop集群中E库对应的a、b、c表，对应的，可在该预设配置文件中配置：

B a E a

B b E b

B c E c

对应的，A集群服务器在启动主程序后，可循环读取该预设配置文件，当从所述预设配置文件中读取到迁入消息时，可获取得到该迁入消息中的迁出集群服务器为B集群服务器。

步骤S20，调用第一预设框架远程登录至所述迁出集群服务器，在所述迁出集群服务器上执行查询所述迁入消息中库表的建表语句，并将所述建表语句输出至所述迁出集群服务器的预先指定文件下的指定目录中；

在获取到迁出集群服务器之后，调用第一预设框架远程登录至迁出集群服务器，以在迁出集群服务器上执行查询迁入消息中库表的建表语句，并将建表语句输出至迁出集群服务器的预先指定文件下的指定目录中。其中，第一预设框架为expect+ssh框架，expect是一种用来实现自动交互功能的软件，ssh为secure shell的缩写，是一种加密网络协议，其常见的应用程序包括远程命令行登录和远程命令执行，但任何网络服务都可以通过ssh进行安全保护，liunx(一种操作系统)下可用expect实现ssh自动登录并执行脚本。

步骤S30，调用第二预设框架对所述迁出集群服务器上的建表语句进行同步，并对同步后的建表语句进行表格式化解析，得到迁移信息和可执行的建表语句；

然后，调用第二预设框架对迁出集群服务器上的建表语句进行同步，并对同步后的建表语句进行表格式化解析，以得到迁移信息和可执行的建表语句。其中，第二预设框架为expect+scp框架，expect是一种用来实现自动交互功能的软件，scp为secure copy的缩写，是一种用于跨服务器加密的传输命令，可使用expect+scp去跨机器传输文件、自动同步文件。在对同步后的建表语句进行表格式化解析时，可采用liunx的sed(一项Linux指令)或awk(一种文本处理工具)文本处理工具进行表格式化解析。具体的，为了防止表在所要迁入的集群(如上例中a集群)已存在而报错，需先通过sed将create table字符替换成create table if not exists，然后判断表a是否要指定存储路径，若已指定，则将建表语句中的location后的路径替换为指定的路径；若未指定，则将建表语句后的location这行之后的属性全部删除，使用默认的路径与表其他属性，即可得到可执行的建表语句。此外，在进行表格式化解析后，还可解析得到迁移信息，其中迁移信息包括分区信息和数据文件存储位置。

步骤S40，执行所述可执行的建表语句，创建对应的hive表，并基于所述迁移信息将对应的数据文件迁移至所述hive表中。

最后，执行该可执行的建表语句，以创建对应的hive表，并基于该迁移信息将对应的数据文件迁移至该创建得到的hive表中。

其中，所述迁移信息包括分区信息和数据文件存储位置，步骤“基于所述迁移信息将对应的数据文件迁移至所述hive表中”包括：

步骤a1，判断所述分区信息为不存在分区还是为存在分区；

步骤a2，若所述分区信息为不存在分区，则调用预设接口，获取与所述数据文件存储位置对应的数据文件，并将获取到的数据文件迁移至所述hive表中。

若分区信息为不存在分区，此时，则调用预设接口，获取与数据文件存储位置对应的数据文件(即存储于数据文件存储位置下的数据文件)，进而将获取到的数据文件迁移至hive表中。其中，该预设接口为distcp(分布式拷贝)接口。当然，在具体实施例中，还可以通过磁盘拷贝的方式来进行数据文件的迁移。

此外，在步骤a2之后，还包括：

步骤a3，若所述分区信息为存在分区，则调用所述第一预设框架远程登录至所述迁出集群服务器，在所述迁出集群服务器上执行查询所述库表的分区值，并将所述分区值输出至所述迁出集群服务器的预先指定文件下的指定目录中；

若分区信息为存在分区，此时，则需调用第一预设框架远程登录至迁出集群服务器，以在迁出集群服务器上执行查询库表的分区值，并将分区值输出至迁出集群服务器的预先指定文件下的指定目录中。其中，第一预设框架为expect+ssh框架，expect是一种用来实现自动交互功能的软件，ssh为secure shell的缩写，是一种加密网络协议，其常见的应用程序包括远程命令行登录和远程命令执行，但任何网络服务都可以通过ssh进行安全保护，liunx(一种操作系统)下可用expect实现ssh自动登录并执行脚本。

步骤a4，调用所述第二预设框架对所述迁出集群服务器上的分区值进行同步，并对同步后的分区值进行分区格式化解析，得到可执行的添加分区的命令；

然后，调用第二预设框架对迁出集群服务器上的分区值进行同步，并对同步后的分区值进行分区格式化解析，以得到可执行的添加分区的命令。其中，第二预设框架为expect+scp框架。在对同步后的分区值进行分区格式化解析时，可采用liunx的sed或awk文本处理工具进行表格式化解析。具体的，先处理分区文件中内容：1)先删除分区文件中的第一行，2)将/替换成为′，3)将＝替换成为＝′，4)在每一行前面添加partition(，5)在每一行末尾添加)；然后，再拼接useE；alter table A add if not exists字符，就格式化成了hive的可执行的添加分区的命令了。例如上例中，在B集群a表上查出来的分区值为：

partition

ds＝20150529/city＝sz

ds＝20150529/city＝sh

通过调用expect+scp框架处理完分区文件中的内容后，可将分区转换成：

partition(ds＝′20150529′，city＝′sz′)

partition(ds＝′20190519′，city＝′sh′)

最后，可得到在A集群中可执行添加语句格式为：

use E；alter table A add if not exists partition(ds＝′20150529′，city＝′sz′)

partition(ds＝′20190519′，city＝′sh′)

步骤a5，执行所述添加分区的命令，在所述hive表中添加对应的分区；

步骤a6，调用所述预设接口，获取与所述数据文件存储位置对应的数据文件，并将获取到的数据文件迁移至所述hive表对应的分区中。

在得到可执行的添加分区的命令后，执行该添加分区的命令，以在创建得到的hive表中添加对应的分区。进而，调用预设接口，获取与数据文件存储位置对应你的数据文件，并将获取到的数据文件迁移至该hive表对应的分区中。其中，该预设接口为distcp接口。

本申请实施例提供一种数据迁移方法，通过循环读取预设配置文件，在从读取到迁入消息时，获取该迁入消息中的迁出集群服务器；调用第一预设框架远程登录至迁出集群服务器，以在迁出集群服务器上执行查询迁入消息中库表的建表语句，并将建表语句输出至迁出集群服务器的预先指定文件下的指定目录中；调用第二预设框架对迁出集群服务器上的建表语句进行同步，并对同步后的建表语句进行表格式化解析，以得到迁移信息和可执行的建表语句；执行该可执行的建表语句，以创建对应的hive表，并基于该迁移信息将对应的数据文件迁移至该创建得到的hive表中。通过上述方式，本申请实施例可实现完整的hive表跨集群迁移，且可直接通过读取配置文件中的迁入消息而智能实现按需批量迁移，相比于相关数据迁移过程中需人工分次输入待迁移的集群和库表，本申请实施例可减少人为干预，从而提升迁移的整体效率。

进一步的，基于图2所示的第一实施例，提出本申请数据迁移方法的第二实施例。

在本实施例中，该数据迁移方法还包括：

步骤A，通过所述预设接口获取迁移前数据文件的大小和迁移后数据文件的大小；

在本实施例中，在数据迁移完成后，可对迁移前后的数据文件大小进行校验，以检测数据是否被完整迁移。具体的，可通过该预设接口获取迁移前数据文件的大小和迁移后数据文件的大小，其中，该预设接口为dictcp接口。

步骤B，确定所述迁移前数据文件的大小和所述迁移后数据文件的大小不一致，生成对应的错误提示信息。

然后，检测迁移前数据文件的大小和迁移后数据文件的大小是否相一致，若迁移前数据文件的大小和迁移后数据文件的大小不一致，则说明数据迁移过程中存在问题，此时，则生成对应的错误提示信息，具体的，可在日志文件中显示该错误提示信息。

在相关技术中，需另写脚本来校验迁移前后数据文件的大小，以检测数据迁移是否成功，而本实施例中，在通过distcp接口进行迁移时，可直接获取到迁移前后的数据文件大小，进而自动进行校验，因而可实现智能自动完成数据校验，以检测数据迁移是否成功。

本申请具体可应用在金融机构中的数据迁移过程中，例如银行机构在进行机房的迁移时，需把原机房的旧集群上的数据迁移至新机房的新集群上，可预先在预设配置文件中设定迁移信息，然后启动新机房各新集群对应的集群服务器的主程序，进而使得各集群服务器通过循环读取预设配置文件，在从预设配置文件中读取到迁入消息时，获取该迁入消息中的迁出集群服务器；调用第一预设框架远程登录至迁出集群服务器，以在迁出集群服务器上执行查询迁入消息中库表的建表语句，并将建表语句输出至迁出集群服务器的预先指定文件下的指定目录中；调用第二预设框架对迁出集群服务器上的建表语句进行同步，并对同步后的建表语句进行表格式化解析，以得到迁移信息和可执行的建表语句；执行该可执行的建表语句，以创建对应的hive表，并基于该迁移信息将对应的数据文件迁移至该创建得到的hive表中。通过上述方式，可实现完整的hive表跨集群迁移，且可直接通过读取配置文件中的迁入消息而智能实现按需批量迁移，从而将旧集群上的数据迁移至新集群上，相比于相关数据迁移过程中需人工分次输入待迁移的集群和库表，本申请实施例可减少人为干预，从而提升迁移的整体效率。

本申请还提供一种数据迁移装置。

所述数据迁移装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据迁移程序，所述数据迁移程序被所述处理器执行时实现以下步骤：

进一步地，所述迁移信息包括分区信息和数据文件存储位置，所述数据迁移程序被所述处理器执行时实现以下步骤：

判断所述分区信息为不存在分区还是为存在分区；

进一步地，所述数据迁移程序被所述处理器执行时实现以下步骤：

执行所述添加分区的命令，在所述hive表中添加对应的分区；

进一步地，所述第一预设框架为expect+ssh框架，所述第二预设框架为expect+scp框架，所述预设接口为分布式拷贝distcp接口。

其中，上述数据迁移程序被执行时所实现的方法与上述数据迁移方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

本申请还提供一种计算机可读存储介质，该计算机可读存储介质上存储有数据迁移程序，所述数据迁移程序被处理器执行时实现如以上任一项实施例所述的数据迁移方法的步骤。

本申请计算机可读存储介质的具体实施例与上述数据迁移方法各实施例基本相同，在此不作赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种数据迁移方法，其中，所述数据迁移方法包括：

循环读取预设配置文件，从所述预设配置文件中读取到迁入消息，获取所述迁入消息中的迁出集群服务器；

调用第一预设框架远程登录至所述迁出集群服务器，在所述迁出集群服务器上执行查询所述迁入消息中库表的建表语句，并将所述建表语句输出至所述迁出集群服务器的预先指定文件下的指定目录中；

调用第二预设框架对所述迁出集群服务器上的建表语句进行同步，并对同步后的建表语句进行表格式化解析，得到迁移信息和可执行的建表语句；以及

执行所述可执行的建表语句，创建对应的hive表，并基于所述迁移信息将对应的数据文件迁移至所述hive表中。
如权利要求1所述的数据迁移方法，其中，所述迁移信息包括分区信息和数据文件存储位置，所述基于所述迁移信息将对应的数据文件迁移至所述hive表中的步骤包括：

判断所述分区信息为不存在分区还是为存在分区；以及

若所述分区信息为不存在分区，则调用预设接口，获取与所述数据文件存储位置对应的数据文件，并将获取到的数据文件迁移至所述hive表中。
如权利要求2所述的数据迁移方法，其中，所述判断所述分区信息为不存在分区还是为存在分区的步骤之后，还包括：

若所述分区信息为存在分区，则调用所述第一预设框架远程登录至所述迁出集群服务器，在所述迁出集群服务器上执行查询所述库表的分区值，并将所述分区值输出至所述迁出集群服务器的预先指定文件下的指定目录中；

调用所述第二预设框架对所述迁出集群服务器上的分区值进行同步，并对同步后的分区值进行分区格式化解析，得到可执行的添加分区的命令；

执行所述添加分区的命令，在所述hive表中添加对应的分区；以及调用所述预设接口，获取与所述数据文件存储位置对应的数据文件，并将获取到的数据文件迁移至所述hive表对应的分区中。
如权利要求2所述的数据迁移方法，其中，所述数据迁移方法还包括：

通过所述预设接口获取迁移前数据文件的大小和迁移后数据文件的大小；

确定所述迁移前数据文件的大小和所述迁移后数据文件的大小不一致，生成对应的错误提示信息。
如权利要求2至4中任一项所述的数据迁移方法，其中，所述第一预设框架为expect+ssh框架，所述第二预设框架为expect+scp框架，所述预设接口为分布式拷贝distcp接口。
一种数据迁移装置，其中，所述数据迁移装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据迁移程序，所述数据迁移程序被所述处理器执行时实现以下步骤：

循环读取预设配置文件，从所述预设配置文件中读取到迁入消息，获取所述迁入消息中的迁出集群服务器；

调用第一预设框架远程登录至所述迁出集群服务器，在所述迁出集群服务器上执行查询所述迁入消息中库表的建表语句，并将所述建表语句输出至所述迁出集群服务器的预先指定文件下的指定目录中；

调用第二预设框架对所述迁出集群服务器上的建表语句进行同步，并对同步后的建表语句进行表格式化解析，得到迁移信息和可执行的建表语句；以及

执行所述可执行的建表语句，创建对应的hive表，并基于所述迁移信息将对应的数据文件迁移至所述hive表中。
如权利要求6所述的数据迁移装置，其中，所述迁移信息包括分区信息和数据文件存储位置，所述数据迁移程序被所述处理器执行时实现以下步骤：

判断所述分区信息为不存在分区还是为存在分区；以及

若所述分区信息为不存在分区，则调用预设接口，获取与所述数据文件存储位置对应的数据文件，并将获取到的数据文件迁移至所述hive表中。
如权利要求7所述的数据迁移装置，其中，所述数据迁移程序被所述处理器执行时实现以下步骤：

若所述分区信息为存在分区，则调用所述第一预设框架远程登录至所述迁出集群服务器，在所述迁出集群服务器上执行查询所述库表的分区值，并将所述分区值输出至所述迁出集群服务器的预先指定文件下的指定目录中；

调用所述第二预设框架对所述迁出集群服务器上的分区值进行同步，并对同步后的分区值进行分区格式化解析，得到可执行的添加分区的命令；

执行所述添加分区的命令，在所述hive表中添加对应的分区；以及调用所述预设接口，获取与所述数据文件存储位置对应的数据文件，并将获取到的数据文件迁移至所述hive表对应的分区中。
一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有数据迁移程序，所述数据迁移程序被处理器执行时实现如权利要求1至5中任一项所述的数据迁移方法的步骤。