WO2017206667A1

WO2017206667A1 - 分布式部署Hadoop集群的方法及装置

Info

Publication number: WO2017206667A1
Application number: PCT/CN2017/083207
Authority: WO
Inventors: 高林林
Original assignee: 中兴通讯股份有限公司
Priority date: 2016-06-03
Filing date: 2017-05-05
Publication date: 2017-12-07
Also published as: CN107463582B; CN107463582A

Abstract

一种分布式部署Hadoop集群的方法及装置，其中，该方法包括：接收用于部署Hadoop集群的模板信息，其中，模板信息用于指示Hadoop集群的任务信息和主机信息，任务信息用于描述需要Hadoop集群完成的任务（S202）；根据主机信息采集Hadoop集群的至少一个主机的参数信息，其中，每个主机被配置为部署至少一个组件，组件由代理器（A1、A2、An）部署，被配置为执行对应的任务（S204）；根据任务信息和参数信息对至少一个组件部署任务（S206）。

Description

分布式部署Hadoop集群的方法及装置

技术领域

本申请涉及通信领域，例如涉及一种分布式部署Hadoop集群的方法及装置。

背景技术

相关技术的Hadoop是一个分布式系统基础架构，是由Apache基金会所开发的分布式基础架构，Hadoop不是一个缩写，而是一个虚构的名字，据称可能与该集群创建者的孩子的一个玩具名字相关，没有实际的意义。Hadoop是一个开发和运行处理大规模数据的软件平台及开源软件框架，实现在大量计算机组成的集群中对海量数据进行分布式计算，用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的威力高速运算和存储。

相关技术中，分布式部署Hadoop集群的需要管理人员了解Hadoop生态圈及集群内各主机硬件资源情况，对部署Hadoop集群管理人员提出了较高要求，而且容易出错。采用手动配置Hadoop集群，步骤繁琐，效率低下，特别是大规模Hadoop集群环境下，动态扩容和缩容等弹性管理困难。

然而，目前实现Hadoop自动化部署的系统存在以下问题：

在部署Hadoop集群前，根据集群环境软硬件信息及部署的组件，设计Hadoop集群网络拓扑结构；该方案对集群管理人员要求较高，需要集群管理人员熟悉环境软硬件信息和Hadoop生态圈；在没有集群管理人员干预的情况下，自动化部署系统则任意分配Master和Slave等节点，无法合理分配和利用集群硬件及系统负载信息；

Hadoop集群组件版本包下载源单一，导致Hadoop集群部署时间不可控等缺点。

Hadoop集群部署对运维人员提出较高要求，需要其熟悉Hadoop生态圈；了解集群内各节点资源信息；设计Hadoop集群网络拓扑；2、Hadoop集群组件节点分配任意；3、Hadoop集群部署时间较长。

针对相关技术中存在的上述问题，目前尚未发现有效的解决方案。

发明内容

本公开实施例提供了一种分布式部署Hadoop集群的方法及装置，以至少解决相关技术中由于人为部署Hadoop集群导致操作复杂，部署时间长的问题。

根据本公开的一个实施例，提供了一种分布式部署Hadoop集群的方法，包括：根据Hadoop集群的主机信息采集所述Hadoop集群的至少一个主机的参数信息，其中，每个所述主机被配置为部署至少一个组件，所述组件由代理器部署，被配置为执行对应的任务；根据所述Hadoop集群的任务信息和所述参数信息对至少一个所述组件部署任务。

可选地，所述方法还包括：

接收用于部署所述Hadoop集群的模板信息，其中，所述模板信息用于指示所述Hadoop集群的所述任务信息和所述主机信息，所述任务信息用于描述需要所述Hadoop集群完成的任务。

可选地，所述参数信息包括以下至少之一：主机操作系统信息、主机网络信息、主机CPU信息、主机内存信息、主机CPU利用率、主机内存使用率、主机磁盘IO使用率、主机网络时延、主机平均IO操作等待时间、主机磁盘信息、主机内组件的进程信息。

可选地，根据所述任务信息和所述参数信息对所述Hadoop集群内的至少一个组件部署任务包括：根据所述任务信息和所述参数信息生成部署任务列表，其中，所述部署任务列表包括所述任务信息、执行所述任务所需的所述参数信息，以及所述任务的优先级；从所述部署任务列表中选择优先级最高的任务下发给对应的组件。

可选地，所述优先级与所述任务的属性和/或执行所述任务的所述参数信息相关。

可选地，在根据所述模板信息和所述参数信息对至少一个所述组件部署任务之后，所述方法还包括：监控所述至少一个组件的任务执行进度和/或日志信息。

可选地，所述模板信息包括以下至少之一：Hadoop集群主机个数、需要部署的Hadoop集群组件信息、Hadoop分布式文件系统HDFS副本个数、Hadoop 集群各组件客户端连接数和超时时间、主机网络地址、主机用户名及密码、日志存储盘信息、数据存储盘信息、元数据存储盘信息。

可选地，在接收用于部署Hadoop集群的模板信息之后，所述方法还包括：解析所述模板信息并验证所述模板信息的合法性。

根据本公开的另一个实施例，提供了一种分布式部署Hadoop集群的装置，包括：采集模块，被配置为根据Hadoop集群的主机信息采集所述Hadoop集群的至少一个主机的参数信息，其中，每个所述主机包括至少一个组件，所述组件由代理器部署，被配置为执行对应的任务；部署模块，被配置为根据所述Hadoop集群的任务信息和所述参数信息对至少一个所述组件部署任务。

可选地，所述装置还包括：

接收模块，被配置为接收用于部署所述Hadoop集群的模板信息，其中，所述模板信息用于指示所述Hadoop集群的所述任务信息和所述主机信息，所述任务信息用于描述需要所述Hadoop集群完成的任务。

可选地，部署模块还包括：生成单元，被配置为根据所述任务信息和所述参数信息生成部署任务列表，其中，所述部署任务列表包括所述任务信息、执行所述任务所需的所述参数信息，以及所述任务的优先级；选择单元，被配置为从所述部署任务列表中选择优先级最高的任务下发给对应的组件。

可选地，所述装置还包括：监控模块，被配置为在所述部署模块根据所述模板信息和所述参数信息对至少一个所述组件部署任务之后，监控所述至少一个组件的任务执行进度和/或日志信息。

本公开实施例还提供了一种非暂态计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为执行上述方法。

本公开实施例还提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行上述的方法。

通过本公开，接收用于部署Hadoop集群的模板信息，其中，所述模板信息用于指示所述Hadoop集群的任务信息和主机信息，所述任务信息用于描述需要所述Hadoop集群完成的任务；根据所述主机信息采集所述Hadoop集群的至少一个主机的参数信息，其中，每个所述主机被配置为部署至少一个组件，所述组件由代理器部署，被配置为执行对应的任务；根据所述任务信息和所述参数信息对至少一个所述组件部署任务。由于接收了任务信息和主机信息，并通过采集参数信息获取了主机和组件的负载情况，因此可以合理对Hadoop集群的各个主机和组件部署任务，可以解决相关技术中由于人为部署Hadoop集群导致操作复杂，部署时间长的问题。

附图概述

此处所说明的附图用来提供对本公开的理解，构成本申请的一部分，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。在附图中：

图1为本公开实施例的分布式部署Hadoop集群的总体结构框架图；

图2是根据本公开实施例的分布式部署Hadoop集群的方法的流程图；

图3是根据本公开实施例的分布式部署Hadoop集群的装置的结构框图；

图4是根据本公开实施例的分布式部署Hadoop集群的装置的可选结构框图一；

图5是根据本公开实施例的分布式部署Hadoop集群的装置的可选结构框图二；

图6是本实施例分布式部署Hadoop集群系统中代理器的结构框架图；

图7是本实施例的初始状态时代理器的部署流程；

图8是本实施例的Hadoop集群部署方法的流程图；

图9是本实施例的Hadoop集群部署方法的时序图；以及

图10是根据本公开实施例的电子设备的结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本公开。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例1

本申请实施例可以运行于图1所示的网络架构上，图1为本公开实施例的分布式部署Hadoop集群的总体结构框架图，如图1所示，该网络架构包括：部署Hadoop集群的管理系统、Hadoop集群，其中，部署Hadoop集群的管理系统包括各个功能模块和执行代理节点，Hadoop集群也包括多个分散的执行任务的代理节点，部署系统和Hadoop集群进行通信连接。

在本实施例中提供了一种运行于上述部署Hadoop集群的管理系统的分布式部署Hadoop集群的方法，图2是根据本公开实施例的分布式部署Hadoop集群的方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，接收用于部署Hadoop集群的模板信息，其中，模板信息用于指示Hadoop集群的任务信息和主机信息，任务信息用于描述需要Hadoop集群完成的任务；

步骤S204，根据主机信息采集Hadoop集群的至少一个主机的参数信息，其中，每个主机被配置为部署至少一个组件，组件由代理器部署，被配置为执行对应的任务；可选的，部署任务由代理器执行。

步骤S206，根据任务信息和参数信息对至少一个组件部署任务。

通过上述步骤，接收用于部署Hadoop集群的模板信息，其中，模板信息用于指示Hadoop集群的任务信息和主机信息，任务信息用于描述需要Hadoop集群完成的任务；根据主机信息采集Hadoop集群的至少一个主机的参数信息，其中，每个主机被配置为部署至少一个组件，组件由代理器部署，被配置为执行对应的任务；根据任务信息和参数信息对至少一个组件部署任务。由于接收了任务信息和主机信息，并通过采集参数信息获取了主机和组件的负载情况，因此可以合理对Hadoop集群的各个主机和组件部署任务，可以解决相关技术中由于人为部署Hadoop集群导致操作复杂，部署时间长的问题。

可选地，上述步骤的执行主体可以为Hadoop集群的控制端，客户端等，但不限于此。

可选的，参数信息可以但不限于为：主机操作系统信息、主机网络信息、主机CPU信息(如核心数、主频大小)、主机内存信息、主机CPU利用率、主机内存使用率、主机磁盘IO使用率、主机网络时延、主机平均IO操作等待时间、主机磁盘信息、主机内组件的进程信息。

可选的，模板信息可以但不限于为：Hadoop集群主机个数、需要部署的Hadoop集群组件信息、Hadoop分布式文件系统HDFS副本个数、Hadoop集群各组件客户端连接数和超时时间、主机网络地址、主机用户名及密码、日志存储盘信息、数据存储盘信息、元数据存储盘信息。

在根据本实施例的可选实施方式中，根据任务信息和参数信息对Hadoop集群内的至少一个组件部署任务包括：

S11，根据任务信息和参数信息生成部署任务列表，其中，部署任务列表包括任务信息、执行任务所需的参数信息，以及任务的优先级；

S12，从部署任务列表中选择优先级最高的任务下发给对应的组件。可选的，优先级与任务的属性和/或执行任务的参数信息相关。

可选的，在根据模板信息和参数信息对至少一个组件部署任务之后，方法还包括：

监控至少一个组件的任务执行进度和/或日志信息。

可选的，在接收用于部署Hadoop集群的模板信息之后，方法还包括：解析模板信息并验证模板信息的合法性。在模板信息合法的情况下，才去执行后续步骤。合法的部署模板至少要包含但不限于以下内容：Hadoop集群节点个数、需要部署的Hadoop集群组件信息、HDFS副本个数、Hadoop集群各组件客户端连接数和超时时间、主机网络地址、用户名及密码、日志存储盘、数据存储盘、元数据存储盘等信息。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件实现。基于这样的理解，本公开的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本公开各个实施例的方法。

实施例2

在本实施例中还提供了一种分布式部署Hadoop集群的装置，该装置被配置为实现上述实施例及实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3是根据本公开实施例的分布式部署Hadoop集群的装置的结构框图，如图3所示，该装置包括：

接收模块30，被配置为接收用于部署Hadoop集群的模板信息，其中，模板信息用于指示Hadoop集群的任务信息和主机信息，任务信息用于描述需要Hadoop集群完成的任务；

采集模块32，被配置为根据主机信息采集Hadoop集群的至少一个主机的参数信息，其中，每个主机包括至少一个组件，组件由代理器部署，被配置为执行对应的任务；

部署模块34，被配置为根据任务信息和参数信息对至少一个组件部署任务。

图4是根据本公开实施例的分布式部署Hadoop集群的装置的可选结构框图一，如图4所示，该装置除包括图3所示的所有模块外，部署模块34还包括：

生成单元40，被配置为根据任务信息和参数信息生成部署任务列表，其中，部署任务列表包括任务信息、执行任务所需的参数信息，以及任务的优先级；

选择单元42，被配置为从部署任务列表中选择优先级最高的任务下发给对应的组件。

图5是根据本公开实施例的分布式部署Hadoop集群的装置的可选结构框图二，如图5所示，该装置除包括图3所示的所有模块外，装置还包括：监控模块50，被配置为在部署模块根据模板信息和参数信息对至少一个组件部署任务之后，监控至少一个组件的任务执行进度和/或日志信息。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例3

本实施例是根据本公开的可选实施例，用于对本申请进行详细的解释和说明：

本实施例提供了一种分布式部署Hadoop集群方法与系统。克服了对部署Hadoop集群管理人员要求高、Hadoop集群组件节点任意分配、安装包下载源单一等缺点。本公开充分利用集群内硬件资源、各主机负载情况实现一键式分布式部署Hadoop集群。

本实施例的一种分布式部署Hadoop集群系统包括以下组件，如图1所示的构架，包括：

模板解析器：部署模板包括但不限于以下内容：主机网络地址、用户名、密码、Hadoop组件信息、节点数量信息、挂载盘信息。模板解析器对用户输入的模板信息进行解析并进行合法性校验。

监控器：监控器负责接收代理器发送的Hadoop组件部署任务执行情况及日志处理。

采集器：采集器负责接收代理器发送的主机信息(包含但不限于以下内容：操作系统信息、CPU信息、内存信息、网络信息、CPU利用率、内存使用率、磁盘IO使用率、网络时延等)并持久化。

任务生成器：任务生成器根据采集器采集的主机信息、部署模板信息生成 Hadoop组件部署任务列表。

任务调度器：任务调度器根据采集器采集的主机信息、主机负载情况和部署任务列表选择高优先级的部署任务下发至代理器。

代理器：代理器包含采集器、部署器、参数配置器、监控器等组件。采集器负责定时采集主机信息并发送给系统的采集器；部署器接收并执行任务调度器下发的任务；参数配置器负责配置Hadoop各组件配置文件；监控器负责监控部署任务执行情况及日志收集，图6是本实施例分布式部署Hadoop集群系统中代理器的结构框架图，如图6所示。

图7是本实施例的初始状态时代理器的部署流程，如图7所示，本实施例的分布式部署Hadoop集群方法包括以下：

初始化部署系统

系统启动时，初始化分布式部署Hadoop集群系统中的监控器、采集器和代理器，准备接收用户提交的部署模板。

部署代理器

由任务生成器生成代理器部署任务并由任务调度器调度任务执行。代理器部署完成后，采集器定时采集节点资源信息并反馈至管理系统。

用户提交Hadoop集群部署模板

用户根据需求按部署模板要求填写需要部署的Hadoop集群信息，提交部署模板。

解析Hadoop集群部署模板

分布式部署Hadoop集群系统的监控器接收到用户提交的部署模板，解析器解析Hadoop集群部署模板并校验模板合法性。

根据用户提交的部署模板及资源信息，拓扑生成器生成Hadoop集群网络拓扑图。

生成Hadoop集群组件部署任务

根据Hadoop集群网络拓扑图结构，由任务生成器生成组件部署任务。

任务调度器执行部署任务

任务调度器从任务列表中取出待执行的部署任务及各节点资源信息，生成待执行的任务序列；任务调度器依次取出高优先级的部署任务，下发给对应的代理器。

执行部署任务

主机代理器接收到部署任务后，部署器执行部署任务；代理器的监控器实时反馈部署任务执行进度至部署系统的监控器，监控器通知任务调度器继续调度任务执行。重复步骤“任务调度器执行部署任务”，直至所有待部署任务执行完毕。

本实施例根据Hadoop集群各组件的特点，结合集群资源，合理分配Hadoop集群组件的节点；在部署过程中根据采集的主机负载情况动态分配部署任务，实现了一键分布式部署Hadoop集群。本公开有效解决了部署大规模Hadoop集群复杂、部署时间长、部署系统压力大等缺点。

图8是本实施例的Hadoop集群部署方法的流程图，如图8所示，图9是本实施例的Hadoop集群部署方法的时序图，如图9所示，结合图8和图9，本实施例包括：

系统初始化：分布式部署Hadoop集群系统启动时，需要对系统进行初始化，包含初始化监控器、采集器和代理器A1等。

代理器部署：首次部署由代理器A1执行部署代理器A2任务，代理器A2部署完成后，初始化并启动代理器A2；接着由代理器A1、A2执行部署代理器A3、A4任务，以此类推，直至集群内所有主机代理器部署完成(如图7)。

101、用户提交部署模板：分布式部署Hadoop集群系统初始化完成后，用户可以向系统提交符合条件的部署模板。合法的部署模板至少要包含但不限于以下内容：Hadoop集群节点个数、需要部署的Hadoop集群组件信息、HDFS副本个数、Hadoop集群各组件客户端连接数和超时时间、主机网络地址、用户名及密码、日志存储盘、数据存储盘、元数据存储盘等信息。

102、模板解析器接收到部署模板信息后首先校验模板的合法性，如果模板不符合约定要求则结束部署；如果模板合法则解析模板，由拓扑图生成器生成Hadoop集群组网拓扑图。

103、根据节点资源、Hadoop集群各组件部署规则及部署模板信息，拓扑图生成器生成Hadoop集群组网拓扑图(如S1)。Hadoop集群组件部署规则包含但不限于：1、根据硬件资源和主机负载情况，分配Hadoop组件Master、Slave节点；2、根据集群内节点数量，计算ZOOKEEPER节点数量并分配；3、根据HDFS节点数量，计算Journalnode节点数量并分配。Hadoop组件部署任务包含但不限于以下信息：组件名称(如HDFS)、节点名称(如：NameNode)、主机网络地址、任务优先级等。

104、存储拓扑图生成器生成的拓扑图。

105、部署任务生成器根据Hadoop集群组网拓扑图生成部署任务。

106、存储部署任务生成器生成的部署任务列表。

107、任务调度器扫描部署任务列表，从任务列表中取出尚未执行的部署任务，根据节点资源信息计算集群内主机负载(可以考查平均负载、内存利用率、磁盘IO利用率、网络时延指标)，生成按优先级排列的部署任务序列(如S4)。

108、任务调度器选择依次选择高优先级的部署任务，把部署任务下发给对应主机的代理器。首次执行部署Hadoop组件任务时，由代理器A1部署代理器A2的一个Hadoop集群组件部署任务，代理器A1的监控器监控部署任务执行情况并反馈给部署系统的监控器(如S10)。监控器收到部署任务执行完成情况后，任务调度器根据任务列表、资源信息重新生成任务序列(如S5)，任务调度器选择高优先级任务T3和T4，由代理器A1、A2向代理器A3、A4部署任务，以此类推(如S11至于S14)。理想情况下，当第t个时刻(t大于0)，整个集群有2t-1个代理器在执行部署Hadoop组件任务。当然，每个代理器可以开启多个线程，并发向多个(如2个)代理器部署Hadoop组件任务，则在理想情况下，第t个时刻(t大于0)，整个Hadoop集群有3t-1个代理器在执行部署Hadoop组件任务。

109、与分布式部署Hadoop集群管理系统合设的代理器A1。

110、Hadoop集群内各主机节点部署的代理器。

配置生成：参数配置任务完成Hadoop集群各组件配置生成。调度器需要收集整个Hadoop集群各组件部署信息(例如：Master和Slave所在节点的主机名称、日志存储盘、数据存储盘、元数据存储盘等信息)并与参数配置任务一起下发给各主机代理器组件中的参数配置器。集群内所有参数配置任务执行完后，则完成整个Hadoop集群各组件部署。

201、代理器组件中的采集器定时采集本主机的硬件资源及运行状态信息，并上报至部署系统中的采集器，把节点资源进行存储。其中硬件资源及运行状态信息包括但不限于以下内容：操作系统信息、主机名、CPU信息、内存信息、磁盘、进程信息、CPU利用率、内存利用率、磁盘IO利用率、网络信息、平均IO操作等待时间等。

202、存储监控器采集器采集的各节点资源(包含主机和Hadoop组件信息)信息。

实施例4

本公开的实施例还提供了一种存储介质，例如：一种非暂态计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为执行上述方法。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的程序代码：

S1，接收用于部署Hadoop集群的模板信息，其中，模板信息用于指示Hadoop集群的任务信息和主机信息，任务信息用于描述需要Hadoop集群完成的任务；

S2，根据主机信息采集Hadoop集群的至少一个主机的参数信息，其中，每个主机被配置为部署至少一个组件，组件由代理器部署，被配置为执行对应的任务；

S3，根据任务信息和参数信息对至少一个组件部署任务。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

可选地，在本实施例中，处理器根据存储介质中已存储的程序代码执行接收用于部署Hadoop集群的模板信息，其中，模板信息用于指示Hadoop集群的任务信息和主机信息，任务信息用于描述需要Hadoop集群完成的任务；

可选地，在本实施例中，处理器根据存储介质中已存储的程序代码执行根据主机信息采集Hadoop集群的至少一个主机的参数信息，其中，每个主机被配置为部署至少一个组件，组件由代理器部署，被配置为执行对应的任务；

可选地，在本实施例中，处理器根据存储介质中已存储的程序代码执行根据任务信息和参数信息对至少一个组件部署任务。

本公开实施例还提供了一种电子设备的结构示意图。参见图10，该电子设备包括：

至少一个处理器(processor)100，图10中以一个处理器100为例；和存储器(memory)101，还可以包括通信接口(Communications Interface)102和总线103。其中，处理器100、通信接口102、存储器101可以通过总线103完成相互间的通信。通信接口102可以用于信息传输。处理器100可以调用存储器101中的逻辑指令，以执行上述实施例的方法。

此外，上述的存储器101中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器101作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令/模块。处理器100通过运行存储在存储器101中的软件程序、指令以及模块，从而执行功能应用以及数据处理，即实现上述方法实施例中的分布式部署Hadoop集群的方法。

存储器101可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器101可以包括高速随机存取存储器，还可以包括非易失性存储器。

本公开实施例的技术方案可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括至少一个指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开实施例所述方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质，包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

可选地，本实施例中的示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本公开的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本公开不限制于任何特定的硬件和软件结合。

以上所述仅为本公开的实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开实施例的范围之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

工业实用性

本申请提供的分布式部署Hadoop集群的方法及装置，解决了相关技术中由于人为部署Hadoop集群导致操作复杂，部署时间长的问题。

Claims

一种分布式部署Hadoop集群的方法，包括：

根据Hadoop集群的主机信息采集所述Hadoop集群的至少一个主机的参数信息，其中，每个所述主机被配置为部署至少一个组件，所述组件由代理器部署，被配置为执行对应的任务；

根据所述Hadoop集群的任务信息和所述参数信息对至少一个所述组件部署任务。
根据权利要求1所述的方法，还包括：

接收用于部署所述Hadoop集群的模板信息，其中，所述模板信息用于指示所述Hadoop集群的所述任务信息和所述主机信息，所述任务信息用于描述需要所述Hadoop集群完成的任务。
根据权利要求1或2所述的方法，其中，所述参数信息包括以下至少之一：主机操作系统信息、主机网络信息、主机CPU信息、主机内存信息、主机CPU利用率、主机内存使用率、主机磁盘IO使用率、主机网络时延、主机平均IO操作等待时间、主机磁盘信息、主机内组件的进程信息。
根据权利要求1或2所述的方法，其中，根据所述任务信息和所述参数信息对所述Hadoop集群内的至少一个组件部署任务包括：

根据所述任务信息和所述参数信息生成部署任务列表，其中，所述部署任务列表包括所述任务信息、执行所述任务所需的所述参数信息，以及所述任务的优先级；

从所述部署任务列表中选择优先级最高的任务下发给对应的组件。
根据权利要求4所述的方法，其中，所述优先级与所述任务的属性和/或执行所述任务的所述参数信息相关。
根据权利要求1所述的方法，其中，在根据所述模板信息和所述参数信息对至少一个所述组件部署任务之后，所述方法还包括：

监控所述至少一个组件的任务执行进度和/或日志信息。
根据权利要求2所述的方法，其中，所述模板信息包括以下至少之一：Hadoop集群主机个数、需要部署的Hadoop集群组件信息、Hadoop分布式文件系统HDFS副本个数、Hadoop集群各组件客户端连接数和超时时间、主机网络地址、主机用户名及密码、日志存储盘信息、数据存储盘信息、元数据存储盘信息。
根据权利要求2所述的方法，其中，在接收用于部署Hadoop集群的模板信息之后，所述方法还包括：

解析所述模板信息并验证所述模板信息的合法性。
一种分布式部署Hadoop集群的装置，包括：

采集模块，被配置为根据Hadoop集群的主机信息采集所述Hadoop集群的至少一个主机的参数信息，其中，每个所述主机包括至少一个组件，所述组件由代理器部署，被配置为执行对应的任务；

部署模块，被配置为根据所述Hadoop集群的任务信息和所述参数信息对至少一个所述组件部署任务。
根据权利要求9所述的装置，还包括：

接收模块，被配置为接收用于部署所述Hadoop集群的模板信息，其中，所述模板信息用于指示所述Hadoop集群的所述任务信息和所述主机信息，所述任务信息用于描述需要所述Hadoop集群完成的任务。
根据权利要求9或10所述的装置，其中，部署模块还包括：

生成单元，被配置为根据所述任务信息和所述参数信息生成部署任务列表，其中，所述部署任务列表包括所述任务信息、执行所述任务所需的所述参数信息，以及所述任务的优先级；

选择单元，被配置为从所述部署任务列表中选择优先级最高的任务下发给对应的组件。
根据权利要求9所述的装置，还包括：

监控模块，被配置为在所述部署模块根据所述模板信息和所述参数信息对至少一个所述组件部署任务之后，监控所述至少一个组件的任务执行进度和/或日志信息。
一种非暂态计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为执行权利要求1-8中任一项的方法。