WO2015096142A1

WO2015096142A1 - 一种Hadoop集群中数据备份的方法、设备及系统

Info

Publication number: WO2015096142A1
Application number: PCT/CN2013/090723
Authority: WO
Inventors: 王朱珍
Original assignee: 华为技术有限公司
Priority date: 2013-12-27
Filing date: 2013-12-27
Publication date: 2015-07-02
Also published as: CN105052110B; CN105052110A

Abstract

本发明公开了一种Hadoop集群中数据备份的方法，包括：获取每个计算节点所具有的各种应用能力值，确定所述各种应用能力值中对待调整数据块的处理效率影响最大的应用能力值，以及所述待调整数据块的备份数量N，所述N为大于1的整数，确定所述每个计算节点中所述影响最大的应用能力值最强的前N个可用计算节点，将所述待调整数据块备份到确定的所述前N个可用计算节点上。本发明实施例提供的方法，可以将数据块备份到处理该数据块能力最强的计算节点上，从而提高了数据处理的效率。

Description

一种 Hadoop集群中数据备份的方法、设备及系统技术领域

本发明涉及数据存储领域，具体涉及一种 Hadoop集群中数据备份的方法、设备及系统。

背景技术

Hadoop集群的基础是分布式文件系统（ Hadoop Distributed File System, HDFS )。在现有的 HDFS中每个数据块通常都有 3个副本，数据块副本的放置位置对于 Hadoop集群的可靠性和性能来说至关重要。

现有 Hadoop集群的数据块副本备份策略是为每个数据块保存 3个副本：第一个副本在当前请求所在的计算节点，第二个副本保存在与当前计算节点不在同一机架的另一机架中的一个计算节点上，第三个副本在当前请求所在的计算节点所在机架的另一个节点上。具体选择的节点由负载均衡机制确定。

本发明的发明人发现，现有 Hadoop集群的数据块副本备份策略没有充分考虑计算节点间异构的情况，无法充分最优化利用各个计算节点的处理能力，数据块并没有备份到处理该数据块能力最强的计算节点上。

发明内容

本发明实施例提供一种 Hadoop集群中数据备份的方法，可以将数据块备份到处理该数据块能力最强的计算节点上，从而提高了数据处理的效率。本发明实施例还提供了相应的设备及系统。

本发明第一方面提供一种 Hadoop集群中数据备份的方法，包括：获取每个计算节点所具有的各种应用能力值；

确定所述各种应用能力值中对待调整数据块的处理效率影响最大的应用能力值，以及所述待调整数据块的备份数量 N, 所述 N为大于 1的整数；

确定所述每个计算节点中所述影响最大的应用能力值最强的前 N个可用计算节点；

将所述待调整数据块备份到确定的所述前 N个可用计算节点上。

结合第一方面，在第一种可能的实现方式中，所述确定所述各种应用能力值中对待调整数据块的处理效率影响最大的应用能力值，包括：

将需要备份 N份的所述待调整数据块预先备份到 N个预选择的计算节点上，所述 N个预选择的计算节点分別具有所述各种应用能力值中一种最大的应用能力值；

在所述 N个预选择的计算节点分別对所述待调整数据块进行处理时，记录所述 N个预选择的计算节点各自对所述待调整数据块的处理效率；

根据所述 N个预选择的计算节点各自对所述待调整数据块的处理效率，确定所述各种应用能力值中对待调整数据块的处理效率影响最大的应用能力值。

结合第一方面第一种可能的实现方式，在第二种可能的实现方式中，所述将所述待调整数据块备份到确定的所述前 N个可用计算节点上，包括：

将所述待调整数据块，从所述 N个预选择的计算节点迁移备份到所述前 N 个可用计算节点。

结合第一方面、第一方面第一种或第二种可能的实现方式，在第三种可能的实现方式中，所述获取每个计算节点所具有的各种应用能力值，包括；获取所述每个计算节点的硬件参数；

根据预置的所述各种应用能力值与所述硬件参数的对应关系，从所述硬件参数中选择与所述各种应用能力值对应的硬件参数，计算所述各种应用能力值。

结合第一方面、第一方面第一种至第三种可能的实现方式中的任意一种，在第四种可能的实现方式中，所述获取每个计算节点所具有的各种应用能力值之后，所述方法还包括：

根据所述各种应用能力值构建全局有序节点链表，所述全局有序节点链表为按照所述各种应用能力值中每种应用能力值大小顺序排列的计算节点链表；对应的，所述确定所述每个计算节点中所述影响最大的应用能力值最强的前 N个可用计算节点，包括：

从所述全局有序节点链表中所述影响最大的应用能力值下，查找所述影响最大的应用能力值最强的前 N个可用计算节点。

结合第一方面、第一方面第一种至第四种可能的实现方式中的任意一种，在第五种可能的实现方式中，所述确定所述每个计算节点中所述影响最大的应用能力值最强的前 N个可用计算节点，包括：

根据所述影响最大的应用能力值和所述每个计算节点的负载能力参数，确定所述每个计算节点中所述影响最大的应用能力值最强的前 N个可用计算节点。

结合第一方面、第一方面第一种至第五种可能的实现方式中的任意一种，在第六种可能的实现方式中，当所述前 N个可用计算节点中包含从未存放过所述待调整数据块的新计算节点，且在确定所述最大的应用能力值时，未考虑所述新计算节点所具有的一种应用能力值，而且所述一种应用能力值满足预置条件时，所述方法还包括：

重新确定所述各种应用能力值中，对待调整数据块的处理效率影响最大的应用能力值。

结合第一方面、第一方面第一种至第六种可能的实现方式中的任意一种，在第七种可能的实现方式中，所述将所述待调整数据块备份到确定的所述前 N 个可用计算节点上之后，所述方法还包括：

获取所述待调整数据块被访问次数的表征参数，所述被访问次数的表征参数为所述待调整数据块在预置时间段内被访问的次数；

根据所述被访问次数的表征参数，确定增加或减少所述待调整数据块的备份数量。

结合第一方面第七种可能的实现方式，在第八种可能的实现方式中，所述根据所述被访问次数的表征参数，确定增加或减少所述待调整数据块的备份数量，包括：

当所述被访问次数的表征参数满足增加所述待调整数据块的备份数量的条件时，在除出所述前 N个可用计算节点之外的剩余计算节点中选择新的备份计算节点，并在所述新的备份计算节点下增加备份，所述新的备份计算节点为所述剩余计算节点中所述影响最大的应用能力值排序在前第一预置数量的可用计算节点。

结合第一方面第七种可能的实现方式，在第九种可能的实现方式中，所述根据所述被访问次数的表征参数，确定增加或减少所述待调整数据块的备份数量，包括：

当所述被访问次数的表征参数满足减少所述待调整数据块的备份数量的条件时，确定所述前 N个可用计算节点中所述影响最大的应用能力值最小的第二预置数量的计算节点，并删除所述第二预置数量的计算节点下的所述待调整数据块，所述第二预置数量小于^

本发明第二方面提供一种控制数据备份的设备，包括：

获取单元，用于获取每个计算节点所具有的各种应用能力值；

第一确定单元，用于确定所述获取单元获取的所述各种应用能力值中对待调整数据块的处理效率影响最大的应用能力值，以及所述待调整数据块的备份数量 N, 所述 N为大于 1的整数；

第二确定单元，用于确定所述每个计算节点中所述第一确定单元确定的所述影响最大的应用能力值最强的前 N个可用计算节点；

调度单元，用于将所述待调整数据块备份到所述第二确定单元确定的所述前 N个可用计算节点上。

结合第二方面，在第一种可能的实现方式中，所述第一确定单元包括：备份子单元，用于将需要备份 N份的所述待调整数据块预先备份到 N个预选择的计算节点上，所述 N个预选择的计算节点分別具有所述各种应用能力值中一种最大的应用能力值；

记录子单元，用于在所述 N个预选择的计算节点分別对所述备份子单元备份的所述待调整数据块进行处理时，记录所述 N个预选择的计算节点各自对所述待调整数据块的处理效率；

确定子单元，用于根据所述记录子单元记录的所述 N个预选择的计算节点各自对所述待调整数据块的处理效率，确定所述各种应用能力值中对待调整数据块的处理效率影响最大的应用能力值。

结合第二方面第一种可能的实现方式，在第二种可能的实现方式中，所述调度单元，用于将所述待调整数据块，从所述 N个预选择的计算节点迁移备份到所述前 N个可用计算节点。结合第二方面、第二方面第一种或第二种可能的实现方式，在第三种可能的实现方式中，

所述获取单元，用于获取所述每个计算节点的硬件参数，根据预置的所述各种应用能力值与所述硬件参数的对应关系，从所述硬件参数中选择与所述各种应用能力值对应的硬件参数，计算所述各种应用能力值。

结合第二方面、第二方面第一种至第三种可能的实现方式中的任意一种，在第四种可能的实现方式中，所述设备还包括：

建表单元，用于根据所述获取单元获取的所述各种应用能力值构建全局有序节点链表，所述全局有序节点链表为按照所述各种应用能力值中每种应用能力值大小顺序排列的计算节点链表；

所述第二确定单元，用于从所述建表单元建立的所述全局有序节点链表中所述影响最大的应用能力值下，查找所述影响最大的应用能力值最强的前 N个可用计算节点。

结合第二方面、第二方面第一种至第四种可能的实现方式中的任意一种，所述第二确定单元，用于根据所述影响最大的应用能力值和所述每个计算节点的负载能力参数，确定所述每个计算节点中所述影响最大的应用能力值最强的前 N个可用计算节点。

结合第二方面、第二方面第一种至第五种可能的实现方式中的任意一种，在第六种可能的实现方式中，当所述前 N个可用计算节点中包含从未存放过所述待调整数据块的新计算节点，且在确定所述最大的应用能力值时，未考虑所述新计算节点所具有的一种应用能力值，而且所述一种应用能力值满足预置条件时，所述方法还包括：

所述第一确定单元，还用于重新确定所述各种应用能力值中，对待调整数据块的处理效率影响最大的应用能力值。

结合第二方面、第二方面第一种至第六种可能的实现方式中的任意一种，在第七种可能的实现方式中，

所述获取单元，还用于获取所述待调整数据块被访问次数的表征参数，所述被访问次数的表征参数为所述待调整数据块在预置时间段内被访问的次数；所述第二确定单元，还用于根据所述被访问次数的表征参数，确定增加或减少所述待调整数据块的备份数量。

结合第二方面第七种可能的实现方式，在第八种可能的实现方式中，所述第二确定单元，用于当所述被访问次数的表征参数满足增加所述待调整数据块的备份数量的条件时，在除出所述前 N个可用计算节点之外的剩余计算节点中选择新的备份计算节点，并在所述新的备份计算节点下增加备份，所述新的备份计算节点为所述剩余计算节点中所述影响最大的应用能力值排序在前第一预置数量的可用计算节点。

结合第二方面第七种可能的实现方式，在第九种可能的实现方式中，所述第二确定单元，用于当所述被访问次数的表征参数满足减少所述待调整数据块的备份数量的条件时，确定所述前 N个可用计算节点中所述影响最大的应用能力值最小的第二预置数量的计算节点，并删除所述第二预置数量的计算节点下的所述待调整数据块，所述第二预置数量小于 N。

本发明第三方面提供一种主节点设备，包括：输入设备、输出设备、存储器和处理器，

其中，所述处理器用于执行如下步骤：

获取每个计算节点所具有的各种应用能力值；

本发明第四方面提供一种 Hadoop集群系统，包括：主节点设备和多个计算节点；

所述多个计算节点用于存储待调整数据块和处理所述待调整数据块；所述主节点设备用于获取每个计算节点所具有的各种应用能力值，确定所述各种应用能力值中对待调整数据块的处理效率影响最大的应用能力值，以及所述待调整数据块的备份数量 N, 所述 N为大于 1的整数，确定所述每个计算节点中所述影响最大的应用能力值最强的前 N个可用计算节点，将所述待调整数据块备份到确定的所述前 N个可用计算节点上。

本发明实施例采用获取每个计算节点所具有的各种应用能力值，确定所述各种应用能力中对待调整数据块的处理效率影响最大的应用能力，以及所述待调整数据块的备份数量 N, 所述 N为大于 1的整数，确定所述每个计算节点中所述影响最大的应用能力值最强的前 N个可用计算节点，将所述待调整数据块备份到确定的所述前 N个可用计算节点上。与现有技术中数据块并没有备份到处理该数据块能力最强的计算节点上相比，本发明实施例提供的方法，可以将数据块备份到处理该数据块能力最强的计算节点上，从而提高了数据处理的效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作筒单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图 1是本发明实施例中数据备份的方法的一实施例示意图；

图 2是本发明实施例中数据备份的方法的另一实施例示意图；

图 3是本发明实施例中控制数据备份的设备的一实施例示意图；

图 4是本发明实施例中控制数据备份的设备的另一实施例示意图；图 5是本发明实施例中控制数据备份的设备的另一实施例示意图；图 6是本发明实施例中主节点设备的一实施例示意图；

图 7是本发明实施例中集群系统的一实施例示意图。

具体实施方式

本发明实施例提供一种 Hadoop集群中数据备份的方法，可以将数据块备份到处理该数据块能力最强的计算节点上，从而提高了数据处理的效率。本发明实施例还提供了相应的设备及系统。以下分別进行详细说明。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

Hadoop是一个分布式系统基础架构，由 Apache基金会所开发。用户可以充分利用 Hadoop集群的威力高速运算和存储。 Hadoop实现了一个分布式文件系统（ Hadoop Distributed File System ) , 筒称 HDFS。 HDFS有着高容错性的特点，并且设计用来部署在低廉的（low-cost )硬件上。而且它提供高传输率（high throughput )来访问应用程序的数据，适合那些有着超大数据集（ large data set ) 的应用程序。

参阅图 1 , 本发明实施例提供的 Hadoop集群中数据备份的方法的一实施例包括：

101、获取每个计算节点所具有的各种应用能力值。

各种应用可以包括为计算、输入（Input, 1 ) /输出（Output, 0 )、图像处理和流媒体等应用。

各种应用能力值可以通过下面的方式获取：

以计算能力值和 I/O能力值为例进行说明：

获取每个计算节点的计算能力值一一 X

X可以由计算节点的架构、型号确定来确定，架构、型号越新、速度越快的 CPU, 对应的 X值越大。

当然，获取每个计算节点的计算能力值时还可以有次计算能力值时还可以考虑核心数、緩存（Cache ) 大小、延迟、内存总线带宽等。

获取每个计算节点的 I/O能力值一一 Y

计算节点的 I/O能力值 Y可以由 Cache延迟、内存延迟、底层存储访问延迟、网络 10延迟确定，当然，还可以考虑 Cache大小、内存大小等因素。

关于各种应用能力值的获取，可以是将各种硬件的能力参数以具体数值的形式表示出来，然后，按照统一的计算规则将具体数值代入，可以求出一个具体的应用能力值，例如：一个计算节点的计算能力值通过硬件参数折算出的具体数值得到，计算的结果为 0.95 , 那么该计算节点的计算能力值就为 0.95 , I/O 能力值也按这种硬件参数折算具体数值的方法计算得到，计算出的 I/O能力值为 0.60。

102、确定所述各种应用能力值中对待调整数据块的处理效率影响最大的应用能力值，以及所述待调整数据块的备份数量 N, 所述 N为大于 1的整数。

例如：待调整数据块有 3个备份，这 3个备份分別存储在三个不同的计算节点上，这三个计算节点分別处理该待调整数据块，记录每个计算节点对该数据块的处理效率，例如：处理时间，处理时间最短的计算节点对该待调整数据块影响最大，如果该处理时间最短的计算节点的各种应用能力值中计算能力值最大，则说明计算应用能力值对该待调整数据块影响最大。

103、确定所述每个计算节点中所述影响最大的应用能力值最强的前 N个可用计算节点。

因为在步骤 101中已经计算出了每个计算节点的各种应用能力值，所以在确定出计算能力值对所述待调整数据块影响最大时，就可以根据备份数量 N确定计算能力值最大的前 N个可用计算节点，因为有的计算节点可能负载过重，这样，即使该计算节点的计算能力值很大，也不适合再选择该计算节点备份待调整数据块。

也就是说，在确定计算能力值最大的前 N个可用计算节点时，要先排除负载过重，但计算能力值又在前 N的计算节点。

104、将所述待调整数据块备份到确定的所述前 N个可用计算节点上。本发明实施例采用获取每个计算节点所具有的各种应用能力值，确定所述各种应用能力值中对待调整数据块的处理效率影响最大的应用能力值，以及所述待调整数据块的备份数量 N, 所述 N为大于 1的整数，确定所述每个计算节点中所述影响最大的应用能力值最强的前 N个可用计算节点，将所述待调整数据块备份到确定的所述前 N个可用计算节点上。与现有技术中数据块并没有备份到处理该数据块能力最强的计算节点上相比，本发明实施例提供的方法，可以将数据块备份到处理该数据块能力最强的计算节点上，从而提高了数据处理的效率。

可选地，在上述图 1对应的实施例的基础上，本发明实施例提供的数据备份的方法的另一实施例中，所述确定所述各种应用能力值中对待调整数据块的处理效率影响最大的应用能力值，可以包括：

根据所述 N个预选择的计算节点各自对所述待调整数据块的处理效率，确定所述各种应用能力值中对待调整数据块的处理效率影响最大的应用能力值。本发明实施例中，以 N取 3为例，在选择计算节点时，按照预置的策略选择三个不同应用能力值最大的计算节点，例如： A计算节点的计算能力值在所有计算节点中最强， B计算节点的 I/O能力值在所有计算节点中最强， C计算节点的图像处理能力值在所有计算节点中最强。同时 A、 B、 C计算节点的其他能力值最弱或较弱是最好的，这样可以避免可种不同能力值之间的耦合和干扰。

当然，应用类型不限于计算、 1/0、图像处理，还可以有其他类型，但需要备份的数量可能会小于应用类型，所以只会选择需要备份数量的计算节点。

在、 B、 C三个计算节点分別对待调整数据块进行处理时，记录 A、 B、 C 三个计算节点处理该待调整数据块的时间，例如：记录的结果是 A计算节点处理待调整数据块最快，用时最短，则可以确定计算应用能力值对该待调整数据块影响最大。

可选地，在上述图 1对应的可选实施例的基础上，本发明实施例提供的数据备份的方法的另一实施例中，所述将所述待调整数据块备份到确定的所述前 N个可用计算节点上，可以包括：

本发明实施例中，在确定出计算应用能力值对待调整数据块影响最大时，可以确定计算能力值最强的前 N个可用计算节点，例如：考虑到负载均衡，确定出计算节点 A、计算节点 D和计算节点 E为计算能力值最强的前 3个可用计算节点，则可以将备份在计算节点 B上的待调整数据块迁移到计算节点 D上，将计算节点 C上的待调整数据块迁移到计算节点 E上。

可选地，在上述图 1对应的实施例或可选实施例的基础上，本发明实施例提供的数据备份的方法的另一实施例中，所述获取每个计算节点所具有的各种应用能力值，可以包括；

获取所述每个计算节点的硬件参数；

本发明实施例中 ,每个计算节点的硬件参数可以包括计算节点处理器的架构、型号、核心数、緩存（Cache ) 大小、内存总线带宽、 Cache延迟、内存延迟、底层存储访问延迟、网络 10延迟等。

例如：计算能力值可以由计算节点的架构、型号来确定，则可以选择算节点的架构、型号的硬件参数，例如：计算节点的架构参数为 0.8, 型号的硬件参数为 0.7,计算能力值与硬件参数的对应关系为: X =a*架构参数 +b*型号参数， a和 b分別为权重系数，当 a=0.7, b=0.5时，可以计算出 X=0.91。

按照这种方式，可以分別计算出每个计算节点的各应用能力值。

可选地，在上述图 1对应的实施例或可选实施例的基础上，本发明实施例提供的数据备份的方法的另一实施例中，所述获取每个计算节点所具有的各种应用能力值之后，所述方法还可以包括：

本发明实施例中，全局有序节点链表中记录了每种应用能力值下按照该应用能力值的大小排序的计算节点。可以参阅表 1对全局有序节点链表进行理解：表 1 : 全局有序节点链表计算应用 I/O应用图像处理应用流媒体应用

A B C D

B C A A

C D B E

D A E B

E E D C

从表 1中可以获知，计算节点 A的计算能力值最大，计算节点 B的 I/O能力值最大，计算节点 C的图像处理能力值最大，计算节点 D的流媒体能力值最大。

这样，在确定与所述影响最大的应用能力值类別对应的应用能力值最强的前 N个可用计算节点时，例如：确定计算能力最强的前 3个计算节点，就可以从表 1中直接查找到计算节点八、 B、 C。

当然表 1中只是举例说明，实际上集群中会有很多个计算节点，应用类型也不限于表 1中的 4个。

可选地，在上述图 1对应的实施例或可选实施例的基础上，本发明实施例提供的数据备份的方法的另一实施例中，所述确定所述每个计算节点中所述影响最大的应用能力值最强的前 N个可用计算节点，可以包括：

本发明实施例中，负载能力参数可以是计算节点目前的负载量，例如： 80%, 如果确定出计算节点 A、 B、 C的计算能力值对待调整数据块影响最大，但其中计算节点 C的负载过重，负载过重可以理解为：一个计算节点的负载量超过 70%时，就认为负载过重，当然，具体负载过重的定义可以预先设置，不限定为是 70%。这样，当计算节点 C的负载过重时，则可以再考虑计算能力值排在第四位的计算节点 D, 当计算节点 D的负载没有过重时，则可以确定出计算能力值最强的前 3个可用计算节点分別为、 8和0。

可选地，在上述图 1对应的实施例或可选实施例的基础上，本发明实施例提供的数据备份的方法的另一实施例中，当所述前 N个可用计算节点中包含从未存放过所述待调整数据块的新计算节点，且在确定所述最大的应用能力值时，未考虑所述新计算节点所具有的一种应用能力值，而且所述一种应用能力值满足预置条件时，所述方法还可以包括：

本发明实施例中，当确定的对待调整数据块影响最大的应用能力值为计算能力值，而且计算能力值排在前 3个的可用计算节点分別为 A、 B和 D, 在该待调整数据块最初备份时，只备份在了计算节点 A、 B、 C上，计算节点 D的流媒体能力值最大，所以，最初判断对待调整数据块影响最大的应用能力值时，没有评估流媒体能力值对该待调整数据块的影响。这样，就需要将待调整数据块迁移到计算节点 D上，重新评估一下流媒体能力值对待调整数据块的影响是否是最大的。

对于，本发明实施例中的所述新计算节点所具有的一种应用能力值满足预置条件可以为计算节点 D在流媒体能力值全局有序节点链表的前半部分。

可选地，在上述图 1对应的实施例或可选实施例的基础上，本发明实施例提供的数据备份的方法的另一实施例中，所述将所述待调整数据块备份到确定的所述前 N个可用计算节点上之后，所述方法还可以包括：

本发明实施例中，被访问次数的表征参数可以为被访问的频率，也可以为被访问的密度，被访问频度可以用预置时间段内被访问的次数来表示，被访问的密度可以用单位时间内被访问的次数来表示。

当一个数据块频繁被访问时，说明对该数据块的需求量较大，可以增加该数据块的备份数量，当一个数据块很久没有被访问时，说明对该数据块的需求很小，可以减少该数据块的备份数量，例如：在初始状态，每个数据块都备份 3份，这样，对于需求量大的数据块，就可以增加备份，调整到备份 4份或 5份，对于需求量少的数据，就可以减少备份，只备份 1份或者 2份。这样针对需求量大的数据块增加备份数量可以提升数据的可用性，进而提升数据处理响应时间，针对需求量小的数据块减少备份数量，既不会影响数据的可用性与数据的处理响应时间，还可以提高存储空间利用率。

对于监控数据块被访问的频度和密度可以采用优化时间窗技术，设置一个数据块的被访问密度与被访问频度的变化阈值，例如 20% , 当连续两次获取的被访问密度与被访问频度的变化范围小于阈值，那么，暂时停止时间窗采样，等待时间 T之后再次采样，如果变化量仍然不超过阈值，那么等待 2T时间之后再次采样，然后是等待 4T时间、等待 8T时间，以此类推。这样可以有效控制采样开销。

根据统计结果，将可以数据块分为四种类別，分別为 Hot类、 Normal类、 Cooled类和 Cold类。其中， Cold类对应的访问频度的预置范围为 [0,X)， Normal 类对应的访问频度的预置范围为 [Χ ,Υ) , Cooled类对应的访问频度的预置范围为 [Υ ,Ζ) , Hot类对应的访问频度的预置范围为 [Z ,R)，其中， R > Z > Y > X > 0。

Hot类：

数据访问密度与访问频度都超过阈值的数据，需要增加备份数量来提高数据的可用性以及提升数据处理的响应时间，可以将备份数量由 3份增加到 4份或 5份。

Normal类：

刚创建的数据默认的类別，一般备份数量为 3份。

Cooled类：

Hot数据块被访问密度与被访问频度下降后，当前数据块的备份数超过 3 份，需要减少数据块的备份数到 Normal水平。

Cold类：

数据被访问密度与被访问频度都很低的数据，需要减少备份数，提高存储空间利用率。对此类数据，副本数可以为 1份或 2份。

可选地，在上一个可选实施例的基础上，本发明实施例提供的数据备份的方法的另一实施例中，所述根据所述被访问次数的表征参数，确定增加或减少所述待调整数据块的备份数量，可以包括：

本发明实施例中，针对被访问密度与被访问频度大的数据，增加数据块备份数量可以提高数据可用性，提升数据处理的响应时间。增加备份数量时，选择计算节点的依据是在除出所述前 N个可用计算节点之外的剩余计算节点中选择新的备份计算节点，并在所述新的备份计算节点下增加备份，所述新的备份计算节点为所述剩余计算节点中所述影响最大的应用能力值排序在前第一预置数量的可用计算节点，以保证新增数据的处理效率仍然 4艮高。

例如：当计算能力值对数据块的影响最大，该数据块已经在计算节点 A、 B、 C上备份，如果要将该数据块的备份数量增加到 5份，计算节点 D和 E的计算能力值在所有计算节点的计算能力排序中，是紧排在 C之后的，所以当计算节点 D和 E的负载没有超负荷时，就可以在将数据块备份到计算节点 D和计算节点 E下。

本发明实施例中，例如：当计算能力值对数据块的影响最大，该数据块已经在计算节点 A、 B、 C上备份，如果要将该数据块的备份数量减少到 1份，则可以保留计算节点 A上的数据块，删除计算节点 8和(上的数据块。这样保证保留的数据块具有最高的处理效率。与现有技术中数据块并没有备份到处理该数据块能力最强的计算节点上相比，本发明实施例提供的主节点设备，可以将数据块备份到处理该数据块能力最强的计算节点上，从而提高了数据处理的效率。

为了便于理解，下面以一个具体的应用场景为例，说明本发明实施例中

Hadoop集群中数据备份的方法的过程：

以集群中有两个机架为例，分別为机架 A和机架 B, 机架 A中有 4个计算节点，分別为计算节点 Al、计算节点 A2、计算节点 A3和计算节点 A4, 机架 B中有 4个计算节点分別为计算节点 Bl、计算节点 B2、计算节点 B3和计算节点 B4。

获取上述机架 A和机架 B中 8个计算节点各自的计算能力值、 I/O能力值、图像处理能力值和流媒体能力值。

依据各能力值，创建全局有序节点链表，全局有序节点链表可以参阅表 2 进行理解。

表 2: 全局有序节点链表

例如：有 4个数据块，这 4个数据块分別是数据块 1、数据块 2、数据块 3和数据块 4, 数据块 1受计算能力值影响最大，数据块 2受 I/O能力值影响最大，数据块 3受图像处理能力值影响最大，数据块 4受流媒体能力值影像最大，如果要将这 4个数据都备份 3份，一个机架下备份两份，另一个机架下备份一份的备份方案，而且假设每个计算节点都处于负载均衡状态下，没有超负荷的计算节点，则最优的备份方案可以参阅图 2进行理解，数据块 1要在机架 A上备份两份，机架 B上备份一份时，则在计算节点 Al、 B1和 A3上各备份一份数据块 1。数据块 2要在机架 A上备份两份，机架 B上备份一份时，则在计算节点 A3、 B3和 4上各备份一份数据块 2。数据块 3要在机架 A上备份一份，机架 B上备份两份时，则在计算节点 B2、 A2和 B1上各备份一份，数据块 4要在机架 A上备份一份，机架 B上备份两份时，则在计算节点 A4、 B4和 B3上各备份一份数据块 4。

如果采用时间窗技术，确定出数据块 1被频繁访问，数据块 2的被访问频率正常，数据块 3的被访问频率正常，数据块 4的被访问频率很低，则可以将数据块 1的备份数量增加到 4份，将数据块 4的备份数量减少到 2块，在增加数据块 1 时，计算节点 B3的计算能力相比与其他没有存储数据块 1的计算节点，计算能力最强，可以在机架 B的计算节点 B3下增加一个数据块 1的备份，在减少数据块 4时，计算节点 A4的流媒体能力比计算节点 B4和 B3的流媒体能力要弱，所以可以删除计算节点 B3下的数据块 4。

参阅图 3, 本发明实施例提供的控制数据备份的设备的一实施例包括：获取单元 201 , 用于获取每个计算节点所具有的各种应用能力值；第一确定单元 202,用于确定所述获取单元 201获取的所述各种应用能力值中对待调整数据块的处理效率影响最大的应用能力值，以及所述待调整数据块的备份数量 N, 所述 N为大于 1的整数；

第二确定单元 203 , 用于确定所述每个计算节点中所述第一确定单元 202 确定的所述影响最大的应用能力值最强的前 N个可用计算节点；

调度单元 204,用于将所述待调整数据块备份到所述第二确定单元 203确定的所述前 N个可用计算节点上。

本发明实施例中，获取单元 201获取每个计算节点所具有的各种应用能力调整数据块的处理效率影响最大的应用能力值，以及所述待调整数据块的备份数量 N, 所述 N为大于 1的整数，第二确定单元 203确定所述每个计算节点中所述第一确定单元 202确定的所述影响最大的应用能力值最强的前 N个可用计算节点，调度单元 204将所述待调整数据块备份到所述第二确定单元 203确定的所述前 N个可用计算节点上。与现有技术中数据块并没有备份到处理该数据块能力最强的计算节点上相比，本发明实施例提供的设备，可以将数据块备份到处理该数据块能力最强的计算节点上，从而提高了数据处理的效率。

可选地，在上述图 3对应的实施例的基石出上，参阅图 4, 本发明实施例提供的主节点设备的另一实施例中，所述第一确定单元 202包括：

备份子单元 2021 , 用于将需要备份 N份的所述待调整数据块预先备份到 N 个预选择的计算节点上，所述 N个预选择的计算节点分別具有所述各种应用能力值中一种最大的应用能力值；

记录子单元 2022, 用于在所述 N个预选择的计算节点分別对所述备份子单元 2021备份的所述待调整数据块进行处理时，记录所述 N个预选择的计算节点各自对所述待调整数据块的处理效率；

确定子单元 2023, 用于根据所述记录子单元 2022记录的所述 N个预选择的计算节点各自对所述待调整数据块的处理效率，确定所述各种应用能力值中对待调整数据块的处理效率影响最大的应用能力值。

可选地，在上述图 4对应的实施例的基础上，本发明实施例提供的主节点设备的另一实施例中，

所述调度单元 204, 用于将所述待调整数据块，从所述 N个预选择的计算节点迁移备份到所述前 N个可用计算节点。

可选地，在上述图 3或图 4对应的实施例的基石出上，本发明实施例提供的主节点设备的另一实施例中，

所述获取单元 201 , 用于获取所述每个计算节点的硬件参数，根据预置的所述各种应用能力值与所述硬件参数的对应关系，从所述硬件参数中选择与所述各种应用能力值对应的硬件参数，计算所述各种应用能力值。

可选地，在上述图 3对应的实施例的基石出上，参阅图 5, 本发明实施例提供的主节点设备的另一实施例中，所述设备还包括：

建表单元 205,用于根据所述获取单元 201获取的所述各种应用能力值构建全局有序节点链表，所述全局有序节点链表为按照所述各种应用能力值中每种应用能力值大小顺序排列的计算节点链表；所述第二确定单元 203 ,用于从所述建表单元 205建立的所述全局有序节点链表中所述影响最大的应用能力值下，查找所述影响最大的应用能力值最强的前 N个可用计算节点。

可选地，在上述图 3-图 5对应的任一实施例的基础上，本发明实施例提供的主节点设备的另一实施例中，

所述第二确定单元 203 , 用于根据所述影响最大的应用能力值和所述每个计算节点的负载能力参数，确定所述每个计算节点中所述影响最大的应用能力值最强的前 N个可用计算节点。

可选地，在上述图 3-图 5对应的任一实施例的基础上，本发明实施例提供的主节点设备的另一实施例中，当所述前 N个可用计算节点中包含从未存放过所述待调整数据块的新计算节点，且在确定所述最大的应用能力值时，未考虑所述新计算节点所具有的一种应用能力值，而且所述一种应用能力值满足预置条件时，

所述第一确定单元 202, 还用于重新确定所述各种应用能力值中，对待调整数据块的处理效率影响最大的应用能力值。

所述获取单元 201 ,还用于获取所述待调整数据块被访问次数的表征参数，所述被访问次数的表征参数为所述待调整数据块在预置时间段内被访问的次数；

所述第二确定单元 203 , 还用于根据所述被访问次数的表征参数，确定增加或减少所述待调整数据块的备份数量。

可选地，在上一实施例的基石出上，本发明实施例提供的主节点设备的另一实施例中，

所述第二确定单元 203 , 用于当所述被访问次数的表征参数满足增加所述待调整数据块的备份数量的条件时，在除出所述前 N个可用计算节点之外的剩余计算节点中选择新的备份计算节点，并在所述新的备份计算节点下增加备份，所述新的备份计算节点为所述剩余计算节点中所述影响最大的应用能力值排序在前第一预置数量的可用计算节点。

所述第二确定单元 203 , 用于当所述被访问次数的表征参数满足减少所述待调整数据块的备份数量的条件时，确定所述前 N个可用计算节点中所述影响最大的应用能力值最小的第二预置数量的计算节点，并删除所述第二预置数量的计算节点下的所述待调整数据块，所述第二预置数量小于

图 6是本发明实施例主节点设备 200的结构示意图。主节点设备 200可包括输入设备 210、输出设备 220、处理器 230和存储器 240。

存储器 240可以包括只读存储器和随机存取存储器，并向处理器 230提供指令和数据。存储器 240的一部分还可以包括非易失性随机存取存储器 ( NVRAM )。

存储器 240存储了如下的元素，可执行模块或者数据结构，或者它们的子集，或者它们的扩展集：

操作指令：包括各种操作指令，用于实现各种操作。

操作系统：包括各种系统程序，用于实现各种基础业务以及处理基于硬件的任务。

在本发明实施例中，处理器 230通过调用存储器 240存储的操作指令（该操作指令可存储在操作系统中），执行如下操作：

获取每个计算节点所具有的各种应用能力值；

本发明实施例中，主节点设备 200可以将数据块备份到处理该数据块能力最强的计算节点上，从而提高了数据处理的效率。

处理器 230控制主节点设备 200的操作，处理器 230还可以称为 CPU( Central Processing Unit, 中央处理单元）。存储器 240可以包括只读存储器和随机存取存储器，并向处理器 230提供指令和数据。存储器 240的一部分还可以包括非易失性随机存取存储器（NVRAM )。具体的应用中，网络设备 20的各个组件通过总线系统 250耦合在一起，其中总线系统 250除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线系统 250。

上述本发明实施例揭示的方法可以应用于处理器 230中，或者由处理器 230 实现。处理器 230可能是一种集成电路芯片，具有信号的处理能力。在实现过件形式的指令完成。上述的处理器 230可以是通用处理器、数字信号处理器 ( DSP )、专用集成电路（ASIC )、现成可编程门阵列（FPGA )或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器 240, 处理器 230读取存储器 240中的信息，结合其硬件完成上述方法的步骤。

可选地，处理器 230用于将需要备份 N份的所述待调整数据块预先备份到 N 个预选择的计算节点上，所述 N个预选择的计算节点分別具有所述各种应用能力值中一种最大的应用能力值，在所述 N个预选择的计算节点分別对所述待调整数据块进行处理时，记录所述 N个预选择的计算节点各自对所述待调整数据块的处理效率，根据所述 N个预选择的计算节点各自对所述待调整数据块的处理效率，确定所述各种应用能力值中对待调整数据块的处理效率影响最大的应用能力值。

可选地，处理器 230用于将所述待调整数据块，从所述 N个预选择的计算节点迁移备份到所述前 N个可用计算节点。

可选地，处理器 230用于获取所述每个计算节点的硬件参数，根据预置的所述各种应用能力值与所述硬件参数的对应关系，从所述硬件参数中选择与所述各种应用能力值对应的硬件参数，计算所述各种应用能力值。

可选地，处理器 230用于根据所述各种应用能力值构建全局有序节点链表，所述全局有序节点链表为按照所述各种应用能力值中每种应用能力值大小顺序排列的计算节点链表，从所述全局有序节点链表中所述影响最大的应用能力值下，查找所述影响最大的应用能力值最强的前 N个可用计算节点。

可选地，处理器 230用于根据所述影响最大的应用能力值和所述每个计算节点的负载能力参数，确定所述每个计算节点中所述影响最大的应用能力值最强的前 N个可用计算节点。

可选地，处理器 230用于当所述前 N个可用计算节点中包含从未存放过所述待调整数据块的新计算节点，且在确定所述最大的应用能力值时，未考虑所述新计算节点所具有的一种应用能力值，而且所述一种应用能力值满足预置条件时，重新确定所述各种应用能力值中，对待调整数据块的处理效率影响最大的应用能力值。

可选地，处理器 230还用于获取所述待调整数据块被访问次数的表征参数，所述被访问次数的表征参数为所述待调整数据块在预置时间段内被访问的次数，根据所述被访问次数的表征参数，确定增加或减少所述待调整数据块的备份数量。

可选地，处理器 230用于当所述被访问次数的表征参数满足增加所述待调整数据块的备份数量的条件时，在除出所述前 N个可用计算节点之外的剩余计算节点中选择新的备份计算节点，并在所述新的备份计算节点下增加备份，所述新的备份计算节点为所述剩余计算节点中所述影响最大的应用能力值排序在前第一预置数量的可用计算节点。

可选地，处理器 230用于当所述被访问次数的表征参数满足减少所述待调整数据块的备份数量的条件时，确定所述前 N个可用计算节点中所述影响最大的应用能力值最小的第二预置数量的计算节点，并删除所述第二预置数量的计算节点下的所述待调整数据块，所述第二预置数量小于 N。

参阅图 7, 本发明实施例提供的 Hadoop集群系统的一实施例包括主节点设备 200和多个计算节点 300, 主节点设备 200和多个计算节点 300通信连接，图中只画出了 4个计算节点 300, 实际上可以有艮多个。

所述多个计算节点 300用于存储待调整数据块和处理所述待调整数据块；所述主节点设备 200用于获取每个计算节点所具有的各种应用能力值，确定所述各种应用能力值中对待调整数据块的处理效率影响最大的应用能力值，以及所述待调整数据块的备份数量 Ν, 所述 Ν为大于 1的整数，确定所述每个计算节点中所述影响最大的应用能力值最强的前 Ν个可用计算节点，将所述待调整数据块备份到确定的所述前 Ν个可用计算节点上。本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括： ROM、 RAM, 磁盘或光盘等。

以上对本发明实施例所提供的 Hadoop集群中数据备份的方法、设备以及了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

权利要求

1、一种 Hadoop集群中数据备份的方法，其特征在于，包括：

获取每个计算节点所具有的各种应用能力值；

2、根据权利要求 1所述的方法，其特征在于，所述确定所述各种应用能力值中对待调整数据块的处理效率影响最大的应用能力值，包括：

3、根据权利要求 2所述的方法，其特征在于，所述将所述待调整数据块备份到确定的所述前 N个可用计算节点上，包括：

4、根据权利要求 1-3任一所述的方法，其特征在于，所述获取每个计算节点所具有的各种应用能力值，包括；

获取所述每个计算节点的硬件参数；

5、根据权利要求 1-4任一所述的方法，其特征在于，所述获取每个计算节点所具有的各种应用能力值之后，所述方法还包括：

6、根据权利要求 1-5任一所述的方法，其特征在于，所述确定所述每个计算节点中所述影响最大的应用能力值最强的前 N个可用计算节点，包括：

7、根据权利要求 1-6任一所述的方法，其特征在于，当所述前 N个可用计算节点中包含从未存放过所述待调整数据块的新计算节点，且在确定所述最大的应用能力值时，未考虑所述新计算节点所具有的一种应用能力值，而且所述一种应用能力值满足预置条件时，所述方法还包括：

8、根据权利要求 1-7任一所述的方法，其特征在于，所述将所述待调整数据块备份到确定的所述前 N个可用计算节点上之后，所述方法还包括：

9、根据权利要求 8所述的方法，其特征在于，所述根据所述被访问次数的表征参数，确定增加或减少所述待调整数据块的备份数量，包括：

10、根据权利要求 8所述的方法，其特征在于，所述根据所述被访问次数的表征参数，确定增加或减少所述待调整数据块的备份数量，包括：

当所述被访问次数的表征参数满足减少所述待调整数据块的备份数量的条件时，确定所述前 N个可用计算节点中所述影响最大的应用能力值最小的第二预置数量的计算节点，并删除所述第二预置数量的计算节点下的所述待调整数据块，所述第二预置数量小于

11、一种控制数据备份的设备，其特征在于，包括：

12、根据权利要求 11所述的设备，其特征在于，所述第一确定单元包括：备份子单元，用于将需要备份 N份的所述待调整数据块预先备份到 N个预选择的计算节点上，所述 N个预选择的计算节点分別具有所述各种应用能力值中一种最大的应用能力值；

13、根据权利要求 12所述的设备，其特征在于，

所述调度单元，用于将所述待调整数据块，从所述 N个预选择的计算节点迁移备份到所述前 N个可用计算节点。

14、根据权利要求 11-13任一所述的设备，其特征在于，

15、根据权利要求 11-14任一所述的设备，其特征在于，所述设备还包括：建表单元，用于根据所述获取单元获取的所述各种应用能力值构建全局有序节点链表，所述全局有序节点链表为按照所述各种应用能力值中每种应用能力值大小顺序排列的计算节点链表；

16、根据权利要求 11-15任一所述的设备，其特征在于，

所述第二确定单元，用于根据所述影响最大的应用能力值和所述每个计算节点的负载能力参数，确定所述每个计算节点中所述影响最大的应用能力值最强的前 N个可用计算节点。

17、根据权利要求 11-16任一所述的设备，其特征在于，当所述前 N个可用计算节点中包含从未存放过所述待调整数据块的新计算节点，且在确定所述最大的应用能力值时，未考虑所述新计算节点所具有的一种应用能力值，而且所述一种应用能力值满足预置条件时，所述方法还包括：

18、根据权利要求 11-17任一所述的设备，其特征在于，

19、根据权利要求 18所述的设备，其特征在于，

所述第二确定单元，用于当所述被访问次数的表征参数满足增加所述待调整数据块的备份数量的条件时，在除出所述前 N个可用计算节点之外的剩余计算节点中选择新的备份计算节点，并在所述新的备份计算节点下增加备份，所述新的备份计算节点为所述剩余计算节点中所述影响最大的应用能力值排序在前第一预置数量的可用计算节点。

20、根据权利要求 18所述的设备，其特征在于，

所述第二确定单元，用于当所述被访问次数的表征参数满足减少所述待调整数据块的备份数量的条件时，确定所述前 N个可用计算节点中所述影响最大的应用能力值最小的第二预置数量的计算节点，并删除所述第二预置数量的计算节点下的所述待调整数据块，所述第二预置数量小于 N。

21、一种主节点设备，其特征在于，包括：输入设备、输出设备、存储器和处理器，

其中，所述处理器用于执行如下步骤：

获取每个计算节点所具有的各种应用能力值；

22、一种 Hadoop集群系统，其特征在于，包括：主节点设备和多个计算节点；