WO2017028394A1

WO2017028394A1 - 一种基于实例的分布式数据恢复方法和装置

Info

Publication number: WO2017028394A1
Application number: PCT/CN2015/095766
Authority: WO
Inventors: 赖春波; 薛英飞; 王仆; 赵博
Original assignee: 北京百度网讯科技有限公司
Priority date: 2015-08-20
Filing date: 2015-11-27
Publication date: 2017-02-23
Also published as: US20180150536A1; US10783163B2; CN105045917A; CN105045917B

Abstract

一种基于实例的分布式数据恢复方法，所述方法包括：检测到发生宕机的非主节点（302）；将属于宕机节点的多个二级存储单元分配给至少一个在线节点（304）；对日志所存放的实例进行Hash归类并分配到多个线程（306）；以及在所述在线节点内部并行恢复多个一级存储单元的数据（308）。实现了分布式数据库中宕机节点数据在节点中的并行恢复。

Description

一种基于实例的分布式数据恢复方法和装置

相关申请的交叉引用

本申请要求于2015年08月20日提交的中国专利申请号为“201510515919.9”的优先权，其全部内容作为整体并入本申请中。

技术领域

本发明涉及数据库领域，具体涉及一种基于实例的分布式数据恢复方法和装置。

背景技术

随着互联网的发展，分布式数据库得到了越来越广泛的应用，因而对其可靠性的要求也不断提高。为了降低中断服务的时间，数据库集群节点宕机后所进行的数据恢复方法就显得至关重要。目前业界所使用的分布式数据恢复方法是将宕机节点的数据分配给多个在线节点进行恢复，而在每个节点内部采用单一线程，或者通过对日志记录排序等重操作后实现多线程恢复。使用这些方法恢复数据明显存在宕机节点数据恢复效率低，对节点利用率低的缺点。

发明内容

本发明实施例提供了一种基于实例的分布式数据恢复方法，可以在分布式数据库系统宕机时，进行并行数据恢复，提高数据恢复效率与节点利用率，从而提高数据库系统的可用性。

本申请的一个方面提供一种基于实例的分布式数据恢复方法，包括：

检测到发生宕机的非主节点，将属于宕机节点的多个二级存储单元分配给至少一个在线节点，对日志所存放的实例进行Hash归类并分配到多个线程，以及在在线节点内部并行恢复多个一级存储单元的数据。

本申请第一方面的一种示例性的实施方式中，三级存储单元存有二级存储节点的索引，多个二级存储单元中的每一个存储有多个一级存储单元的索引，多个一级存储单元中的每一个存储有一个实例，并且多个一级存储单元中存储的数据是按照实例有序的，非主节点与主节点共同构成集群中的节点，非主节点中的每个管理二级存储单元索引的一级存储单元，主节点管理三级存储单元和二级存储单元。

此外，在数据恢复过程中，利用Hash归类以使得相同的实例的日志映射到同一线程，从而根据实例的不同将日志分配到多个线程；至少一个在线节点按照日志的内容在自己的进程内进行逻辑重演恢复数据。在至少一个在线节点完成数据恢复后，将二级存储单元的管理节点更改为执行恢复操作的在线节点。

本申请的第二方面提供一种装置，包括主节点设备和非主节点设备，主节点设备用于管理主节点，非主节点设备用于管理非主节点。

本申请第二方面的一种示例性的实施方式中，主节点设备包括用于检测发生宕机的非主节点的检测模块，以及用于将对应于宕机节点的多个二级存储单元分配给至少一个在线节点的分配模块。

此外，非主节点设备包括：接收模块，用于分配至非主节点的有关对应于宕机节点的多个二级存储单元的信息；扫描模块，用于扫描宕机节点日志；以及处理模块，用于进行Hash归类以使得相同的实例的日志映射到多个线程中的同一个。

其中，分配装置还用于当至少一个在线节点完成数据恢复后，将二级存储单元的管理节点更改为执行恢复操作的在线节点。接收模块还用于接收宕机节点的网络地址和端口命名。

本申请的有益效果为：在节点宕机后，通过对日志中存放的实例进行Hash归类，分配到多个线程，使在线节点在节点内部并行地恢复数据。从而提高了数据恢复效率与对节点的利用率。

附图说明

图1是本发明的实施例提供的一种分布式数据系统整体框架图；

图2是本发明的实施例提供的基于实例的数据存储结构框图；

图3是本发明的实施例提供的基于实例的分布式数据恢复方法的数据恢复流程图；

图4是本发明的实施例提供的基于实例的分布式数据恢复方法在数据恢复过程中，Hash归类过程的示意图；

图5是本发明的实施例提供的一种主节点设备的示例性框图；

图6是本发明的实施例提供的一种非主节点设备的示例性框图；以及

图7是本发明的实施例提供的一种计算机系统的结构示意图。

具体实施方式

本发明提供了一种基于实例的分布式数据恢复方法，以下结合说明书附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

图1是本发明的实施例提供的一种分布式数据系统整体框架图，但是应理解，本发明实施例并不局限于图1所示的架构。

在本实施例中，数据库集群中存在两种节点：主节点100和非主节点102。在一个集群中，通常配置一个主节点100。在另一种实施方式中，也可以配置多个备用主节点，但只有一个主节点处于工作状态。从图1中可以看出，还包括多个非主节点102。在数据库系统正常工作的状态下，多个节点均在线运行，称为在线节点，如图1中由数字104标示。在分布式数据库中随时会有节点宕机的情况出现，在这种情况下，非主节点102又分为N1(1≤N1＜N2)个宕机节点106和N2(N1＜N2＜N，其中记非节点总数为N)个在线节点104。主节点100与非主节点102一起共同管理数据库中的数据。在分布式数据库中，数据以文件的形式存在于分布式文件系统108中，文件系统108固定地存在于存储器。节点可以对文件系统108中的数据进行读写操作。文件系统108中的日志(Log)110记录了节点对于数据的所有改动(包括插入、删除等)，因而分布式文件系统对于节点是共享的。

图2是本发明的实施例提供的基于实例的数据存储结构框图。在本实例中，技术实现是以实例的存储为基础的。具体地，实例可以为存储对象，例如机器名(如服务器名)、程序名等。此外，数据库为三个层级的存储结构，实例存储于一级存储单元(如SSTABLE)202中。其他两个层级分别为二级存储单元(如Leaf Tablet)204和三级存储单元(如Root Tablet)206。

可选地，数据库存储结构中包括多个一级存储单元202，一级存储结构202可以是数据库中最小的存储单元，每个一级存储单元202里的数据是按照主键有序的。实例名作为主键的一部分包含于主键中，因而存储的数据是按照实例有序的。此外，每个一级存储单元202中只存储一个实例的数据，每个一级存储单元202的序号是唯一的。数据库存储结构还可包括多个二级存储单元204，且二级存储单元204可以是集群主节点100元数据存储的最小单位。每个二级存储单元204中存放有按照主键有序的一级存储单元202的索引。此外，数据库存储结构还可包括一个或多个三级存储单元206，三级存储单元206用来索引二级存储单元204，在其中存放有按照主键有序的指向二级存储单元204的索引。

更进一步，在本发明的实施例提供的集群，非主节点102管理一级存储单元202，每一个非主节点102管理一个或多个由二级存储单元204索引的一级存储单元202。一个二级存储单元204不能跨多个节点管理，即一个二级存储单元204中索引的一级存储单元202只能由一个非主节点102管理。具体地，如图2所示，一级存储单元208和210不能分属于两个非主节点管理。此外，当一个一级存储单元不可同时由两个不同的二级存储单元索引。具体地，如图2中所示，一级存储单元212不可同时被二级存储单元214和216索引。主节点100管理二级存储单元204和三级存储单元206。

图3是本发明的实施例提供的基于实例的分布式数据恢复方法的数据恢复流程图。在本发明提供的一个实施例中，某一时刻集群中的某个节点宕机。根据本发明提供的方法，数据恢复可以包括如下步骤。

步骤302中，主节点100检测到发生宕机的节点。

根据本发明提供的一个实施例，即如图2中所示的一种示例性的数据库存储结构，主节点100管理着该索引了宕机节点106所管理的多个一级存储单元202的二级存储单元204。在这种实施方式中，主节点100 将宕机节点106管理的多个一级存储存储单元对应的二级存储单元分配给在线节点104，如步骤304。

根据上文说述，对应于一个非主节点102的二级存储单元202可以有多个。在一个实施方式中，为保证数据恢复效率，在执行步骤304时，主节点100将对应于该宕机节点106的多个二级存储单元202均匀分配给多个在线节点104。在另一个实施方式中，每个节点的日志会存放在以该节点的网络地址和端口命名的目录中，在将二级存储单元204分配给在线节点104时，同时将要恢复的宕机节点106的网路地址和端口通知给在线节点。从而使在线节点104可以在日志中找到该宕机节点106的日志区域。

在步骤306，通过对日志进行Hash归类，并将归类后的日志分配到多个线程。

在步骤308，在完成Hash归类并分配线程后，于在线节点104内部多线程并行地进行数据恢复。

进一步的，在一些实施方式中，多个在线节点104在节点内部按照所分配的多个线程，根据日志所存储的内容对宕机节点106的操作进行逻辑重演。

在一个实施方式中，在线节点104完成数据恢复后，主节点可以在三级存储单元206中给原宕机节点106对应的二级存储单元重新分配对应关系，并且将这些二级存储单元对应到恢复它们的在线节点，如步骤310。

图4是本发明的实施例提供的基于实例的分布式数据恢复方法在数据恢复过程中，Hash归类过程的示意图。在本发明提供的实施例中，进行数据恢复过程时，在线节点104根据宕机节点106的网络地址和端口找到该节点日志的存放位置402后，在线节点对日志文件进行逐条扫描。因为每条日志记录中均存有关于二级存储单元204的信息，使得在线节点在对日志的扫描过程中可以找到需要由自己恢复的日志，每发现一条相符的日志，则对该条日志进行Hash归类。

具体地，在一个实施方式中，阶段404的Hash归类方法可以为如下过程。根据实例的存储形式，将日志记录中记载的实例名进行转换。在本实施例中，实例可以为机器名、程序名等，则相当于字符串。可以将字符串转换成ASC II码。然后，将转换后的ASC II码累加，并将所得的和取为一个32bit的整型数字。再对该数字对恢复线程数量取模，得到恢复该实例的线程ID。因为实例名是唯一的，所以相应的线程ID也是唯一的。即，经过这样的转换后，每个实例对应唯一的一个线程。因此可以将存有宕机节点106的日志按照实例映射为多个并行的数据恢复线程。

本申请的第二方面提供了一种用于基于实例的分布式数据库数据恢复的装置。该装置包括主节点设备和非主节点设备。

图5示出了本发明的实施例提供的一种主节点设备的示例性框图。可选择地，主节点设备500包括检测模块502和分配模块504。在一个实施方式中，检测模块502用于检测发生宕机的非主节点102。分配模块504用于将对应于宕机节点106的多个二级存储单元204分配给至少一个在线节点104。在另一个实施方式中，所提供的分配模块504还可以用于，当在线节点104完成数据恢复后，将二级存储单元204的管理节点更改为执行恢复操作的在线节点104。

图6示出了本发明的实施例提供的一种非主节点设备的示例性框图。可选择地，非主节点设备600包括：接收模块602、扫描模块604以及处理模块606。

在一个实施方式中，接收模块602用于分配至非主节点的有关对应于宕机节点106的多个二级存储单元204的信息。扫描模块604用于扫描宕机节点日志。处理模块606用于进行Hash归类以使得相同的实例的日志110映射到多个线程中的同一个。在另一个实施方式中，所提供的接收模块602还用于接收宕机节点106的网络地址和端口命名，以使得用于数据恢复的在线节点104通过接收到的网络地址和端口命名在文件系统108中找到宕机节点106的日志110所在的区域。

本领域技术人员应理解上述实施例方法的全部或部分是可通过计算机程序指示相关硬件来完成的，所述的程序可存储于计算机可读的存储介质中。执行程序时，可包括上述方法的实施例的流程。

下面参考图7，其示出了适于用来实现本申请实施例的设备的计算机系统700的结构示意图。

如图7所示，计算机系统700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，程序被一个或者一个以上的处理器用来执行描述于本申请的认证方法。

本发明的描述是为教导本领域技术人员实现本发明的最佳方式而已，不能因此限定本发明的权利范围，因此依照本发明的权利要求的等同变化，仍属本发明所涵盖的范围。

Claims

一种基于实例的分布式数据恢复方法，包括：

检测到发生宕机的非主节点；

将对应于所述发生宕机的非主节点的多个二级存储单元分配给至少一个在线节点；

对日志所存放的实例进行Hash归类并分配到所述在线节点内部的多个线程；以及

在所述多个线程内并行恢复多个一级存储单元的数据。
根据权利要求1所述的方法，其中，所述二级存储节点的索引存于三级存储单元，所述多个二级存储单元中的每一个存储有所述多个一级存储单元的索引，所述多个一级存储单元中的每一个存储有一个实例，并且所述多个一级存储单元中存储的数据是按照所述实例有序的。
根据权利要求1或2所述的方法，其中，主节点与非主节点共同构成集群中的节点，所述非主节点中的每个管理所述二级存储单元索引的所述一级存储单元，所述主节点管理所述三级存储单元和所述二级存储单元。
根据权利要求1所述的方法，其中，将对应于所述宕机节点的多个二级存储单元均匀地分配给至少一个在线节点。
根据权利要求1所述的方法，其中，利用Hash归类以使得相同的所述实例的日志映射到所述多个线程中的同一个，从而根据所述实例的不同将所述日志分配到多个所述线程。
根据权利要求5所述的方法，其中，所述Hash归类步骤为：对日志记录中记载的实例名进行转换，将字符串的每个字符转变成 ASC II码后累加，并将所得的和取为一个32bit的整型数字；以及，对该数字对恢复线程数量取模，得到恢复该实例的线程ID。
根据权利要求1所述的方法，其中，所述至少一个在线节点按照所述日志的内容在自己的进程内进行逻辑重演恢复数据。
根据权利要求1所述的方法，还包括：

在所述至少一个在线节点完成数据恢复后，将所述二级存储单元的管理节点更改为执行恢复操作的在线节点。
一种用于权利要求1所述的方法的装置，包括：

主节点设备，用于管理二级存储单元和三级存储单元；以及

非主节点设备，用于管理一级存储单元。
根据权利要求9所述的一种用于权利要求1所述的方法的装置，其中，主节点设备包括：

检测模块，用于检测发生宕机的非主节点；以及

分配模块，用于将对应于宕机节点的多个所述二级存储单元分配给至少一个在线节点。
根据权利要求9所述的一种用于权利要求1所述的方法的装置，其中，非主节点设备包括：

接收模块，用于接收分配至所述非主节点的有关对应于宕机节点的多个二级存储单元的信息；

扫描模块，用于扫描所述宕机节点日志；以及

处理模块，用于进行Hash归类以使得相同的所述实例的日志映射到多个线程中的同一个。
根据权利要求10所述的一种基于实例的分布式数据恢复装置，其中，分配装置还用于当所述至少一个在线节点完成数据恢复后，将所述二级存储单元的管理节点更改为执行恢复操作的在线节点。
根据权利要求11所述的一种用于权利要求1所述的方法的装置，其中，接收模块还用于接收所述宕机节点的网络地址和端口命名。
一种设备，包括：

处理器；和

存储器，

所述存储器中存储有能够被所述处理器执行的计算机可读指令，在所述计算机可读指令被执行时，所述处理器：

检测发生宕机的非主节点；

将对应于所述发生宕机的非主节点的多个二级存储单元分配给至少一个在线节点；

对日志所存放的实例进行Hash归类并分配到所述在线节点内部的多个线程；以及

在所述多个线程内并行恢复多个一级存储单元的数据。
一种非易失性计算机存储介质，所述计算机存储介质存储有能够被处理器执行的计算机可读指令，当所述计算机可读指令被处理器执行时，所述处理器：

检测发生宕机的非主节点；

将对应于所述发生宕机的非主节点的多个二级存储单元分配给至少一个在线节点；

对日志所存放的实例进行Hash归类并分配到所述在线节点内部的多个线程；以及

在所述多个线程内并行恢复多个一级存储单元的数据。