WO2024012082A1

WO2024012082A1 - 大数据集群部署方法、装置、设备及介质

Info

Publication number: WO2024012082A1
Application number: PCT/CN2023/097480
Authority: WO
Inventors: 关蕊; 张宁; 樊林; 何文
Original assignee: 京东方科技集团股份有限公司; 北京京东方技术开发有限公司
Priority date: 2022-07-15
Filing date: 2023-05-31
Publication date: 2024-01-18
Also published as: CN117716338A; CN117716335A; WO2024011627A1

Abstract

本发明涉及一种大数据集群部署方法、装置、设备及介质。本发明通过为大数据集群部署数据采集服务、监控告警服务和数据可视化分析服务，以便可以通过数据采集服务采集大数据集群的运行数据，并通过监控告警服务将运行数据上传给数据可视化分析服务，从而可以通过数据可视化分析服务，来基于运行数据显示监控页面，以实现对大数据集群运行情况的监控，辅助大数据集群的管理。并且，整个服务部署过程无需用户手动操作，大大提高了大数据集群的服务部署效率。

Description

大数据集群部署方法、装置、设备及介质

本发明要求优先权，在先申请的申请号为PCT/CN2022/106091，名称为“大数据集群部署方法以及基于大数据集群的数据处理方法”，申请日为2022年7月15日，其全部内容通过引用结合在本发明中。

技术领域

本发明涉及计算机技术领域，尤其涉及一种大数据集群部署方法、装置、设备及介质。

背景技术

随着计算机技术和信息技术的高速发展，行业应用系统的规模迅速扩大，行业应用所产生的数据呈指数形式增长。时至今日，数据规模达到数百太字节(TB)甚至数十拍字节(PB)或数百PB规模的行业或者企业已经出现，而为了有效地对大数据进行处理，有关大数据管理和应用方式的研究应运而生。

相关技术中，主要是通过部署大数据集群，从而运行大数据集群中的服务来实现数据的高速运算和存储。但是，大数据集群中会包括多台服务器，并且，每台服务器可以包括多个容器，不同的容器可以用于为不同的服务目标提供大数据集群服务，从而使得对大数据集群的管理变得尤为困难。因此，亟需一种方法，以实现对大数据集群中各部分的运行情况的监控，以辅助大数据集群的管理。

发明内容

本发明提供一种大数据集群部署方法、装置、设备及介质，以解决相关技术中的不足。

根据本发明实施例的第一方面，提供一种大数据集群部署方法，该方法包括：

为大数据集群部署数据采集服务、监控告警服务和数据可视化分析服务；

通过数据采集服务采集大数据集群的运行数据，并通过监控告警服务将运行数据上传给数据可视化分析服务；

通过数据可视化分析服务，基于运行数据显示监控界面，监控界面用于以图形化的方式展示大数据集群的运行情况。

根据本发明实施例的第二方面，提供一种大数据集群部署装置，该装置包括：

部署模块，用于为大数据集群部署数据采集服务、监控告警服务和数据可视化分析服务；

数据处理模块，用于通过数据采集服务采集大数据集群的运行数据，并通过监控告警服务将运行数据上传给数据可视化分析服务；

显示模块，用于通过数据可视化分析服务，基于运行数据显示监控界面，监控界面用于以图形化的方式展示大数据集群的运行情况。

根据本发明实施例的第三方面，提供一种计算设备，计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现如上述第一方面所提供的大数据集群部署方法所执行的操作。

根据本发明实施例的第四方面，提供一种计算机可读存储介质，计算机可读存储介质上存储有程序，程序被处理器执行时，实现如上述第一方面所提供的大数据集群部署方法所执行的操作。

根据上述实施例可知，本发明通过为大数据集群部署数据采集服务、监控告警服务和数据可视化分析服务，以便可以通过数据采集服务采集大数据集群的运行数据，并通过监控告警服务将运行数据上传给数据可视化分析服务，从而可以通过数据可视化分析服务，来基于运行数据显示监控页面，以实现对大数据集群运行情况的监控，辅助大数据集群的管理。并且，整个服务部署过程无需用户手动操作，大大提高了大数据集群的服务部署效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据本发明实施例示出的一种大数据集群部署方法的流程图。

图2是根据本发明实施例示出的一种部署界面的界面示意图。

图3是根据本发明实施例示出的一种物理层监控界面的界面示意图。

图4是根据本发明实施例示出的另一种物理层监控界面的界面示意图。

图5是根据本发明实施例示出的另一种物理层监控界面的界面示意图。

图6是根据本发明实施例示出的另一种物理层监控界面的界面示意图。

图7是根据本发明实施例示出的一种HDFS组件监控界面的界面示意图。

图8是根据本发明实施例示出的一种YARN组件监控界面的界面示意图。

图9是根据本发明实施例示出的一种Clickhouse组件监控界面的界面示意图。

图10是根据本发明实施例示出的一种组件层监控界面的界面示意图。

图11是根据本发明实施例示出的一种物理层监控服务的部署过程的流程图。

图12是根据本发明实施例示出的一种组件层监控服务的部署过程的流程图。

图13是根据本发明实施例示出的一种监控服务的数据流向示意图。

图14是根据本发明实施例示出的一种网关代理服务的部署过程的流程图。

图15是根据本发明实施例示出的一种信息查看界面的界面示意图。

图16是根据本发明实施例示出的一种获取容器网络地址的流程图。

图17是根据本发明实施例示出的一种用于管理HDFS组件的Web界面的界面示意图。

图18是根据本发明实施例示出的一种用于管理YARN组件的Web界面的界面示意图。

图19是根据本发明实施例示出的一种用于管理Hive组件的客户端界面的界面示意图。

图20是根据本发明实施例示出的一种用于管理Clickhouse组件的客户端界面的界面示意图。

图21是根据本发明实施例示出的另一种信息查看界面的界面示意图。

图22是根据本发明实施例示出的一种部署界面的界面示意图。

图23是根据本发明实施例示出的另一种部署界面的界面示意图。

图24是根据本发明实施例示出的另一种部署界面的界面示意图。

图25是根据本发明实施例示出的另一种部署界面的界面示意图。

图26是根据本发明实施例提供的一种虚拟IP地址切换过程的流程示意图。

图27是根据本发明实施例提供的一种虚拟IP地址切换过程的流程示意图。

图28是根据本发明实施例提供的一种虚拟IP地址切换过程的流程示意图。

图29是根据本发明实施例示出的一种虚拟IP地址切换结果的示意图。

图30是根据本发明实施例示出的一种管理节点迁移过程的流程图。

图31是根据本发明实施例示出的一种大数据集群部署方法的原理性架构图。

图32是根据本发明实施例示出的一种大数据集群部署装置的框图。

图33是根据本发明实施例示出的一种计算设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

为帮助理解本发明，首先，对本发明所涉及到的技术术语进行介绍。

Grafana：是一个开源的监控数据分析和可视化套件，可以用于制作监控仪表盘，以实现监控数据的可视化。例如，可以利用Grafana对基础设施和应用数据分析所得到的时间序列数据进行可视化分析。此外，也可以将其应用于其他需要数据可视化分析的领域。Grafana可以帮助对指标和数据进行查询、可视化、告警和分析，通过提供一种快速灵活的可视化效果，可以让用户按照需要的方式来可视化数据。

Prometheus：是一个基于时序数据库的开源的监控告警系统，是一种领先的监控解决方案，属于一站式监控告警平台，依赖少，功能齐全，具有高度集成化和方便使用的优势，Grafana可接Prometheus数据源，以把监控数据用图形化形式展示出来。 Prometheus可以支持通过多种Exporter采集数据，还支持通过Pushgateway服务进行数据上报。Prometheus的性能足够支撑为上万台规模的集群提供监控告警功能，是一款基于时序数据库的开源监控告警系统。

Exporter：是Prometheus的一类数据采集组件的总称，主要用来采集数据。并且，Exporter除负责从目标处搜集数据外，还可以将搜集到的数据转化为Prometheus支持的格式。与传统的数据采集组件不同的是，它并不向中央服务器(Central Processing Unit，CPU)发送数据，而是等待中央服务器主动前来抓取。Exporter是Prometheus监控的对象，Exporter的接口可以以超文本传输协议(Hyper Text Transfer Protocol，HTTP)服务的形式暴露给Prometheus服务，Prometheus服务通过访问该Exporter提供的接口，即可获取到需要采集的监控数据。常见的Exporter有很多，例如Node-exporter、Mysqld-exporter、Haproxy-exporter等，支持对诸如HAProxy、StatsD、Graphite、Redis等的服务提供者进行服务监控。

Node-exporter：用于采集服务器层面的运行指标，例如，可以用于采集机器的系统平均负载(Loadavg)、文件系统(Filesystem)、内存管理(Meminfo)等基础监控，此外，还可以用于对监控容器服务器CPU、内存、磁盘、I/O等部件的使用情况进行监控。如果要通过Node-exporter进行数据采集，首先需要在需要采集数据的服务上部署Node-exporter，以通过所部署的Node-exporter来实现数据的收集。

Apache Knox：Apache Knox项目的主要目标是通过HTTP资源代理提供对Apache Hadoop的访问。Apache Knox网关可以将Apache Hadoop服务的覆盖范围扩展到Hadoop集群外的用户，而不会减少Hadoop安全性。

Knox网关可以为多个Hadoop集群提供安全性，具有以下优点：

(1)简化访问：通过将Kerberos(一种计算机网络授权协议，用来在非安全网络中，对个人通信以安全的手段进行身份认证)封装到群集中，以扩展Hadoop的表述性无状态传输(Representational State Transfer，REST)服务以及HTTP服务的服务提供范围。

(2)提高安全性：暴露Hadoop的REST/HTTP服务，而不会透露网络细节，提供通过安全套接层(Secure Socket Layer，SSL)协议开箱即用的使用方式。

(3)集中控制：集中执行REST服务API(Application Programming Interface，应用程序编程接口)的安全性保证，将请求路由到多个Hadoop集群。

(4)企业集成：支持轻型目录访问协议(Lightweight Directory Access Protocol，LDAP)、活动目录(Active Directory，AD)、单点登录(Single Sign On，SSO)、安全断言标记语言(Security Assertion Markup Language，SAML)等多种类型的认证系统。

下面对本发明所提供的大数据集群部署方法进行详细介绍。

本发明提供了一种大数据集群部署方法，用于在通过拖拽节点的方式完成对大数据集群中服务器和容器的部署后，为已部署的服务器和容器自动化部署相应的监控服务(包括数据采集服务、监控告警服务和数据可视化分析服务)，以通过所部署的监控服务来对大数据集群的运行情况的监控，并且可以对监控结果进行可视化展示，辅助大数据集群的运维，降低运维大数据集群的技术门槛。并且，通过本发明所提供的方案，可以实现监控服务的自动化部署，提高大数据集群中的服务部署效率。

上述仅为对本发明应用场景的示例性介绍，并不构成对本发明应用场景的限定，在更多可能的实现方式中，本发明所提供的大数据集群部署方法，还可以用于对其他服务集群中的监控服务进行部署，本发明对此不加以限定。

上述大数据集群部署方法可以由计算设备执行，计算设备可以为服务器，如一台服务器、多台服务器、服务器集群等，本发明对计算设备的设备类型和设备数量不加以限定。

为便于理解，首先对通过拖拽节点的方式完成对大数据集群中服务器和容器的部署的过程进行说明。

在一些实施例中，相关技术人员可以根据实际技术需求，在任意一个服务上搭建构建大数据集群所需的基础网络环境，部署有基础网络环境的这个服务器即可作为管理服务器，后续即可在管理服务器的基础上进行服务器和/或容器的部署，以实现对大数据集群的部署。

可选地，相关技术人员可以根据自己的实际需求，在大数据集群中添加服务器，以搭建包括多个服务器的大数据集群。

在一些实施例中，可以提供部署界面，以通过部署界面来提供大数据集群的部署功能。可选地，可以在部署界面中设置新增物理池控件，从而可以通过新增物理池控件，来将某个服务器加入大数据集群。例如，可以在部署界面中设置新增物理池区域，以将新增物理池控件设置在部署资源池区域。参见图2，图2是根据本发明实施例示出的一种部署界面的界面示意图，如图2所示，该部署界面被划分为节点创建区域、临时资源池区域和部署资源池区域，其中，部署资源池区域中所设置的“增加物理池”按钮即为新增物理池控件，通过“增加物理池”按钮，即可实现将服务器加入大数据集群。

通过在部署界面中设置新增物理池控件，以便用户可以根据实际的技术需求，来实现在大数据集群中增加服务器，以使所创建的大数据集群可以满足技术需求，进而保证后续数据处理过程的顺利进行。

在一种可能的实现方式中，可以通过如下过程实现物理池的新增，从而实现将某个服务器加入大数据集群：

步骤一、响应于对新增物理池控件的触发操作，显示增加物理池界面，增加物理池界面包括标识获取控件和密码获取控件。

参见图3，图3是根据本发明实施例示出的一种增加物理池界面的界面示意图，在新增物理池控件被触发后，即可在可视化界面上显示如图3所示的增加物理池界面，其中，文字提示为“IP”的输入框即为标识获取控件，文字提示为“密码”的输入框即为密码获取控件。

步骤二、通过标识获取控件获取待增加的物理池对应的服务器标识，通过密码获取控件获取待验证密码。

在一种可能的实现方式中，相关技术人员可以在标识获取控件中输入待加入大数据集群的服务器的服务器标识，在密码获取控件中输入预先设定好的密码，以便计算设备可以通过标识获取控件获取到待增加的物理池对应的服务器标识，通过密码获取控件获取到待验证密码。

可选地，在通过标识获取控件获取到待增加的物理池对应的服务器标识，通过密码获取控件获取到待验证密码之后，即可对待验证密码进行验证。

步骤三、在待验证密码验证通过的情况下，在部署资源池区域显示待增加的物理池。

通过设置标识获取控件，以便用户可以自行在标识获取控件中输入要加入大数据集群的服务器的服务器标识，以满足用户的定制化需求，而通过设置密码获取控件，以便用户可以在密码获取界面中输入待验证密码，以基于待验证密码对用户身份进行验证，以确定用户是否有权进行将服务器加入大数据集群的过程，从而保证大数据集群部署过程的安全性。

在待验证密码验证通过的情况下，即可将所获取到的服务器标识对应的服务器添加至大数据集群中。

通过上述过程即可完成大数据集群的硬件环境的搭建，以得到包括至少一台服务器的大数据集群，从而即可在这至少一台服务器上进行容器化部署，以使大数据集群可以为用户提供大数据处理功能。

在一些实施例中，部署界面包括节点创建区域，节点创建区域包括节点创建控件和至少一个大数据组件。大数据组件至少包括HDFS组件、YARN组件、Clickhouse组件和Hive组件。

其中，HDFS组件可以用于提供数据存储功能，也即是，若要为用户提供数据存储功能，则需要在大数据集群中部署HDFS组件的节点对应的容器，以便通过所部属的容器为用户提供数据的分布式存储服务，以满足用户的需求。

YARN组件可以用于提供数据分析功能，也即是，如要为用户提供数据分析功能，则需要在大数据集群中部署YARN组件的节点对应的容器，以便通过YARN组件的节点对应的容器，从HDFS组件的节点对应的容器中获取数据，并基于获取到的数据进行数据分析，以满足用户的数据分析需求。

Hive组件可以将HDFS组件的节点对应的容器中所存储的数据转换为一张可查询的数据表，以便可以基于数据表进行数据查询及处理等过程，以满足用户的数据处理需求。

需要说明的是，虽然YARN组件和Hive组件都可以为用户提供数据分析功能，但有所不同的是，如果要用YARN组件实现数据分析过程，则需要开发一系列代码，以在将数据处理任务提交到YARN组件中之后，通过所开发的代码来基于数据处理任务进行相应的数据处理过程，而如果要用Hive组件实现数据分析过程，仅需使用结构化查询语言(Structured Query Language，SQL)语句即可实现对数据处理任务的处理。

Clickhouse组件为一种列式存储数据库，可以用于满足用户对大量数据的存储需求，相较于常用的行式存储数据库，Clickhouse组件的读取速度更快，而且，Clickhouse组件可以对数据分区进行存储，用户可以根据自己的实际需求，仅获取某一个或某几个分区中的数据来进行处理，而无需获取数据库中的所有数据，从而可以降低计算设备的数据处理压力。

在一些实施例中，可以在部署界面显示至少一种大数据组件，以便用户可以基于实际技术需求来在部署界面所显示的大数据组件中进行选择，在任一大数据组件被选中的情况下，响应于对节点创建控件的触发操作，在临时资源池区域中显示被选中的大数据组件对应的待部署节点。

需要说明的是，不同的组件所包括的节点是不同的。可选地，HDFS组件包括NameNode(nn)节点、DataNode(dn)节点和SecondaryNameNode(sn)节点，YARN组件包括ResourceManager(rm)节点和NodeManager(nm)节点，Hive组件包括Hive(hv)节点，Clickhouse组件包括Clickhouse(ch)节点。

基于上述组件与节点之间的关系，计算设备即可根据被选中的大数据组件，来在临时资源池区域显示相应的节点，作为待部署节点。用户可以将临时资源池区域的待部署节点拖拽到部署资源池区域的物理池中，以便可以通过节点拖拽操作实现在大数据集群中对容器的部署。

在一些实施例中，可以响应于对临时资源池区域中的待部署节点的拖拽操作，在部署界面的部署资源池区域中的物理池中显示待部署节点。

其中，部署资源池区域可以包括至少一个物理池。在一种可能的实现方式中，在响应于对临时资源池区域中的待部署节点的拖拽操作，在部署界面的部署资源池区域中的物理池中显示待部署节点时，对于任一待部署节点，可以响应于对待部署节点的拖拽操作，将待部署节点显示在拖拽操作结束时所指示的物理池中。

通过为部署界面中所显示的节点提供拖拽功能，以便用户可以根据实际技术需求，来将各个待部署节点拖拽到对应的物理池中，以满足用户的定制化需求。

需要说明的是，在将临时资源池区域中的待部署节点均拖拽到部署资源池区域后，即可响应于在部署界面中的开始部署操作，按照待部署节点所处的物理池，在物理池对应的服务器上部署待部署节点对应的容器。

上述实施例中主要介绍了增加物理池以及在物理池中部署节点对应的容器的过程，可选地，部署资源池区域还可以设置有删除物理池控件。

在部署资源池区域包括删除物理池控件的情况下，相关技术人员可以通过删除物理池控件来进行物理池的删除。

在一种可能的实现方式中，一个物理池对应于一个删除物理池控件，相关技术人员可以触发任一物理池对应的删除物理池控件，计算设备即可响应于对任一删除物理池控件的触发操作，不再在部署资源池区域显示被触发的删除物理池控件对应的物理池。

仍以图2所示的部署界面为例，如图2所示的部署界面的部署资源池区域中所显示的每个物理池的右上角都设置有一个“×”按钮，该按钮即为删除物理池控件，用户即可通过触发任一“×”按钮，来实现对对应物理池的删除。

通过在部署界面设置删除物理池控件，以便用户可以根据自己的实际需求实现对任一物理池的删除，以将该物理池对应的服务器从大数据集群中剔除，从而可以满足用户的技术需求，而且，操作简便，用户仅需一个简单的控件触发操作即可完成对大数据集群的修改，大大提高了操作效率。

需要说明的是，在服务被从大数据集群中剔除的情况下，服务器上所部署的容器也会从大数据集群中被删除。

在介绍了大数据平台的基础部署过程之后，下面对本发明所提供的大数据集群部署方法进行详细介绍。

参见图1，图1是根据本发明实施例示出的一种大数据集群部署方法的流程图，如图1所示，该方法包括：

步骤101、为大数据集群部署数据采集服务、监控告警服务和数据可视化分析服务。

其中，大数据集群中可以包括多个服务器，每个服务器上均可以部署有至少一个容器，以通过所部署的容器来提供大数据服务。其中，大数据集群中所部署的容器是基于部署界面中的节点拖拽操作创建出来的，部署界面用于提供大数据集群的部署功能，包括但不限于在大数据集群中部署服务器、在服务器上部署容器。

可选地，部署在服务器上的容器可以包括分布式文件系统(Hadoop Distributed File System，HDFS)组件对应的容器、资源协调者(Yet Another Resource Negotiator，YARN)组件对应的容器、数据库工具(Clickhouse)组件对应的容器、数据仓库工具(Hive)组件对应的容器等，本发明对所部署的容器的具体类型不加以限定。

参见图2，图2是根据本发明实施例示出的一种部署界面的界面示意图，如图2所示，部署界面中可以提供HDFS组件、YARN组件、Hive组件和Clickhouse组件，用户可以通过选择相应的组件，以在大数据集群部署被选择的组件对应的容器。需要说明的是，不同类型的组件可以对应于不同的节点，例如，HDFS组件包括NameNode (nn)节点、DataNode(dn)节点和SecondaryNameNode(sn)节点，YARN组件包括ResourceManager(rm)节点和NodeManager(nm)节点，Hive组件包括Hive(hv)节点，Clickhouse组件包括Clickhouse(ch)节点，用户选择不同的组件后，该组件所包括的节点即会被显示在部署界面中的临时资源池区域，用户可以在临时资源池区域对待部署的节点进行调整(包括增加节点、删除节点等)。用户可以将临时资源池中的节点拖拽到部署资源池的各个物理池(一个物理池对应于一个大数据集群中的一个服务器)，以实现在相应服务器上部署物理池中所包括的节点对应的容器，以达到通过拖拽操作完成大数据集群的容器化部署的目的。

在通过部署界面完成大数据集群的容器化部署后，所部署的大数据集群即可为用户提供大数据处理平台的基础数据处理功能，例如，所部署的大数据集群可以以大数据处理平台的形式被交付给用户，用户可以在大数据处理平台中对计算任务进行设置，例如，设置执行计算任务时所需的数据以及执行计算任务时所依据的计算指示信息(如计算规则)，以便可以通过一般部署的大数据集群来获取相应的数据，并基于所获取到的数据进行处理，以得到满足用户需求的处理结果。

除可以部署用于提供基础数据处理功能的基础大数据集群之外，还可以为大数据集群部署数据采集服务、监控告警服务和数据可视化分析服务，以便可以通过所部署的数据采集服务、监控告警服务和数据可视化分析服务实现对大数据集群运行情况的监控，以为大数据集群的运维提供有力辅助。

其中，数据采集服务用于采集大数据集群中的服务提供者的运行数据，监控告警服务用于在数据采集服务和数据可视化分析服务之间进行数据传递，数据可视化分析服务用于基于已上报的运行数据进行图形化显示。

需要说明的是，数据采集服务除可以采集大数据集群中的服务提供者的运行数据之外，还可以采集交付用户在实际生产过程中所产生的生产数据、存储于现地服务器或容器中的存储数据，包括但不限于多种类型的生产数据、多媒体数据、张量数据、结构化数据等。例如，在生产园区-产线场景中，数据采集服务可以用于采集产线上的各种工序、站点、原料、算法所产生的生产数据等；在生活园区-商业/文旅场景中，数据采集服务可以用于采集基于客流统计、人形识别、热点跟踪、禁区统计等服务产生的多媒体数据、张量数据、结构化数据等，其中，多媒体数据可以为布设在园区中的摄像头所采集到的视频帧数据，张量数据可以为基于人脸识别产生的向量化数据，结构化数据可以为用于大数据计算和分析的多种类型的数据，本发明对具体的数据类型不加以限定。

可选地，数据采集服务的提供可以通过在大数据集群中部署Exporter服务(也即是部署Exporter组件)实现，监控告警服务可以通过在大数据集群中部署Prometheus服务(也即是部署Prometheus系统)实现，数据可视化分析服务可以通过在大数据集群中部署Granafa服务(也即是部署Granafa插件)实现。

步骤102、通过数据采集服务采集大数据集群的运行数据，并通过监控告警服务将运行数据上传给数据可视化分析服务。

步骤103、通过数据可视化分析服务，基于运行数据显示监控界面，监控界面用于以图形化的方式展示大数据集群的运行情况。

本发明通过为大数据集群部署数据采集服务、监控告警服务和数据可视化分析服务，以便可以通过数据采集服务采集大数据集群的运行数据，并通过监控告警服务将运行数据上传给数据可视化分析服务，从而可以通过数据可视化分析服务，来基于运行数据显示监控页面，以实现对大数据集群运行情况的监控，辅助大数据集群的管理。并且，整个服务部署过程无需用户手动操作，大大提高了大数据集群的服务部署效率。

在介绍了本发明所提供的大数据集群部署方法的基本实现过程之后，下面介绍本发明的各个可选实施例。

需要说明的是，监控告警服务和数据可视化分析服务可以作为一种通用的底层服务，部署一次即可实现为整个大数据集群提供相应服务，因而，在大数据集群中部署一次Prometheus服务和Grafana服务，即可通过所部署的Prometheus服务和Grafana服务，来为整个大数据集群提供监控告警服务和数据可视化分析服务。

而对于不同类型的服务对象，其所需要的数据采集服务的具体类型可能有所不同，可选地，数据采集服务可以包括第一数据采集服务和第二数据采集服务，第一数据采集服务可以用于采集服务器的运行数据，第二数据采集服务可以用于采集容器的运行数据，因而，第一数据采集服务也可以称为物理层数据采集服务，第二数据采集服务也可以称为组件层数据采集服务。

在部署数据采集服务时，可以根据服务对象的类型，为各个服务对象部署与其类型匹配的Exporter组件。若服务对象为服务器，则可以为其部署第一数据采集服务对应的Exporter组件，例如，可以为服务器部署Node-exporter组件。若服务对象为容器，则可以为其部署第二数据采集服务对应的Exporter组件，但是，需要注意的是，不同类型的容器所对应的Exporter组件的类型不同，例如，用于为HDFS组件对应的容器以及YARN组件对应的容器提供数据采集服务的Exporter组件可以为Hadoop-exporter，用于为Clickhouse组件提供数据采集服务的Exporter组件可以为Clickhouse-exporter。

需要说明的是，对于用于采集服务器的运行数据的第一数据采集服务，需要在每台服务器上部署一个对应的第一数据采集服务，专门用于采集对应服务器的运行数据；而对于用于采集容器的运行数据的第二数据采集服务，每种类型的容器对应的数据采集服务仅在大数据集群中的一台服务器上部署一次后，整个大数据集群中的同种容器即可通过已部署的第二数据采集服务实现运行数据的采集，例如，大数据集群中包括3个服务器，每个服务器上都有一个HDFS组件对应的容器，则可以在其中一个服务器上部署Hadoop-exporter服务(也即是部署Hadoop-exporter组件)，即可通过所部署的这个Hadoop-exporter服务，实现对这3个服务器上的HDFS组件对应的容器的运行数据的采集。

在对数据采集服务、监控告警服务和数据可视化分析服务进行了初步介绍之后，下面介绍在大数据集群中部署数据采集服务、监控告警服务和数据可视化分析服务的详细过程。

在一些实施例中，对于步骤101，在为大数据集群部署数据采集服务、监控告警服务和数据可视化分析服务时，可以通过如下步骤实现：

步骤1011、基于大数据集群当前所部署的服务提供者，在大数据集群中为当前服务提供者部署数据采集服务、监控告警服务和数据可视化分析服务。

需要说明的是，对于大数据集群中所包括的多个服务器，这多个服务器中可以存在一个管理服务器，在管理服务器部署完成后，大数据集群平台的基础就有了，也即是，大数据基础服务平台已经搭建完成，从而即可在大数据基础服务平台的基础上进行各类服务的进一步部署。该管理服务器可以作为提供大数据集群服务的核心设备，因此，对于步骤1011，在为大数据集群部署数据采集服务、监控告警服务和数据可视化分析服务时，可以通过如下方式实现：

基于大数据集群当前所包括的服务器和容器，在大数据集群的每个服务器上部署数据采集服务，并在大数据集群的管理服务器上部署监控告警服务和数据可视化分析服务。

可选地，在大数据集群的管理服务器上部署监控告警服务和数据可视化分析服务时，可以在大数据集群的管理服务器上部署Prometheus服务，以实现在管理服务器上部署监控告警服务，另外，可以在大数据集群的管理服务器上部署Grafana服务，以实现在管理服务器上部署数据可视化分析服务。

而在大数据集群的每个服务器上部署数据采集服务时，可以在管理服务器上部署第一数据采集服务和第二数据采集服务，并在多个服务器中除管理服务器之外的每个服务器上部署第一数据采集服务器。其中，在管理服务器上同时部署第一数据采集服务和第二数据采集服务，所部署的第一数据采集服务用于采集管理服务器的运行数据，所部署的第二数据采集服务用于为大数据集群中的各个容器提供数据采集服务。

可选地，对于大数据集群中的服务器，运行数据可以包括磁盘空间使用数据、网络流量数据、CPU使用数据、内存使用数据等；对于大数据集群中的容器，运行数据可以包括大数据服务使用数据和容器状态数据等，本发明对运行数据的具体类型不加以限定。

在一种可能的实现方式中，在管理服务器上部署第一数据采集服务时，可以在管理服务器上部署Node-exporter服务，以通过所部署的Node-exporter服务采集管理服务器的运行数据。在管理服务器上部署第二数据采集服务时，可以在管理服务器上部署Hadoop-exporter服务，以通过所部署的Hadoop-exporter服务采集大数据集群中HDFS组件对应的容器以及YARN组件对应的容器的运行数据；还可以在管理服务器上部署Clickhouse-exporter服务，以通过所部署的Clickhouse-exporter服务采集大数据集群中Clickhouse组件对应的容器的运行数据。

需要说明的是，为了保证所部署的监控服务(包括监控告警服务、数据可视化分析服务和数据采集服务)可以顺利运行，可以在部署完成之后，对所部署的服务进行调试，以保证所部署的服务可以正常使用。

此外，可以预先在Grafana服务中配置好Prometheus数据源，以保证所部署的Grafana服务和Prometheus服务之间可以实现通信，以便Prometheus服务在从各种Exporter服务处抓取到数据之后，可以将所抓取到的数据传递给Grafana服务。

另外，Grafana服务可以提供多种可用的页面模板，相关技术人员可以根据实际技术需求下载自己所需的页面模板，从而基于所下载的页面模板制作符合实际技术需求的监控页面，并将制作好的监控页面导入Granafa服务，例如，可以将制作好的监控页面的URL地址导入Granafa服务，以实现对制作好的监控页面的导入。此外，可以为已经导入监控页面的Granafa服务生成一个镜像文件，后续即可通过运行该镜像文件来启动Granafa服务，由于Granafa服务中已经导入了制作好的监控页面的URL地址，以便可以根据所导入的URL地址实现监控页面的显示。

步骤1012、响应于在大数据集群中对已部署的服务提供者的更新操作，更新大数据集群中已部署的数据采集服务、监控告警服务和数据可视化分析服务，对已部署的服务提供者的更新操作包括删除已部署的服务提供者和部署新的服务提供者。

需要说明的是，监控告警服务对应有第一配置文件，第一配置文件可以记录要传输给数据可视化分析服务的数据是来自于哪些数据采集服务的。由于更新操作可以包括删除已部署的服务提供者和部署新的服务提供者，因而，下面分别对两种不同类型的更新操作对应的服务部署过程进行介绍。

在对已部署的服务提供者的更新操作为部署新的服务提供者的情况下，对于步骤1012，可以包括如下实现方式：

在一种可能的实现方式中，响应于大数据集群中增加新的服务器，在新增服务器上部署第一数据采集服务，并基于新增服务提供者修改监控告警服务所对应的第一配置文件，以使大数据集群中已部署的监控告警服务和数据可视化分析服务为新增服务器提供服务。

可选地，为了区分管理服务器和新增服务器上所部署的第一数据采集服务，可以对管理服务器和新增服务器上所部署的第一数据采集服务分别进行命名，以通过命名实现二者的区分。例如，可以采用Node-exporter-ip的命名规则，通过所命名的服务名称中的ip字段实现对不同第一数据采集服务的区分。

另外，需要说明的是，监控告警服务可以对应于一个第一配置文件，例如，Prometheus服务可以维护有一个第一配置文件，第一配置文件可以用于要传输给数据可视化分析服务的数据所对应的数据采集服务的服务配置信息，因而，在新增的服务器上部署第一数据采集服务之后，还可以修改Prometheus服务所维护的第一配置文件，以实现对Prometheus所维护的第一配置文件的更新，以保证更新后的第一配置文件中包括新部署的第一数据采集服务的服务配置信息，以表明新部署的第一数据采集服务所采集的运行数据也是要被传输给数据可视化分析服务的。

其中，第一数据采集服务的服务配置信息可以包括服务名称、服务所属服务器等多种类型的信息，本发明对此不加以限定。

在另一种可能的实现方式中，响应于大数据集群中增加新的容器，基于新增服务器修改监控告警服务所对应的第一配置文件，以使大数据集群中已部署的第二数据采集服务、监控告警服务和数据可视化分析服务为新增容器提供服务。

需要说明的是，上述实施例中已经介绍过了，同种类型的组件在不同服务器上所对应的容器，仅需部署一次第二数据采集服务即可实现对其运行数据的采集，而Prometheus服务所维护的第一配置文件中还可以记录有第二数据采集服务的服务配置信息。可选地，第二数据采集服务的服务配置信息可以包括其所作用的容器的容器信息(如容器名称、容器类型)等多种类型的信息，本发明对此不加以限定。

因而，在大数据集群中新增容器时，可以直接基于新增容器的容器信息对部署在管理服务器上的第二数据采集服务进行更新，以使部署在管理服务器上的第二数据采集服务为新增容器提供数据采集服务即可，相当于实现了第二数据采集服务在新增容器上的部署，而无需再重新部署一次第二数据采集服务。

上述实施例是以在管理服务器上部署第二数据采集服务为例来进行说明的，在更多可能的实现方式中，可以从大数据集群所包括的服务器中随机挑选一台服务器，以在该服务器上部署第二数据采集服务。需要说明的是，不同类型的第二数据采集服务可以部署在不同的服务器上，但对于同种类型的第二数据采集服务，仅需在一个服务器上部署一次即可。但是，无论是在哪个服务器上部署第二数据采集服务，均需更新部署在管理服务器上的监控告警服务所维护的第一配置文件。

需要说明的是，由于物理层和组件层性质的区别，物理层监控只要在基础服务平台部署时即可进行部署，但组件层监控需要等到大数据组件真正部署完成之后，才可以对其进行部署。也即是，上述为新增服务器部署第一数据采集服务的过程可以与部署新增服务器的过程同时进行，而上述为新增容器部署第二数据采集服务的过程可以在新增容器部署完成之后进行。

因而，可以提供一个查询状态查询接口，以通过该状态查询接口查询大数据集群当前的组件部署状态，若某个大数据组件对应的容器已部署完成，则可以返回为该大数据组件对应的容器预先制作好的镜像文件的URL地址，否则返回空值，以便可以根据返回值确定当前组件是否部署完成。

在另一些实施例中，在对已部署的服务提供者的更新操作为删除已部署的服务提供者的情况下，对于步骤1012，可以包括如下实现方式：

上述实施例主要介绍了新增服务提供者时的服务部署方式，在更多可能的实现方式中，还可以对大数据集群中已部署的服务器和/或容器进行删除。

在一种可能的实现方式中，响应于对大数据集群中已部署的服务器的删除操作，删除服务器对应的第一数据采集服务，并基于所删除的服务器修改监控告警服务所对应的第一配置文件，以使大数据集群中已部署的监控告警服务和数据可视化分析服务不再为所删除的服务器提供服务。

可选地，可以响应于对大数据集群中的服务器的删除操作，删除为该服务器部署的第一数据采集服务，并对监控告警服务所维护的第一配置文件进行修改，以从第一配置文件中删除该服务器所对应的第一数据采集服务的服务配置信息，使得基于更新后的第一配置文件在获取从已部署的数据采集服务所采集到的数据时，不会从已删除的该服务器处获取数据。

在另一种可能的实现方式中，响应于对大数据集群中已部署的容器的删除操作，基于所删除的服务器修改监控告警服务所对应的第一配置文件，以使大数据集群中已部署的第二数据采集服务、监控告警服务和数据可视化分析服务不再为所删除的服务器提供服务。

可选地，可以响应于对大数据集群中的容器的删除操作，对监控告警服务所维护的第一配置文件进行修改，以从第一配置文件中删除该容器所对应的第二数据采集服务的服务配置信息，使得在获取从已部署的数据采集服务所采集到的数据时，不会从已删除的该容器处获取数据。

可选地，可以提供不同的功能接口，用于实现不同类型的服务部署过程。例如，可以提供初始化物理池接口，用于为新增的服务器提供第一数据采集服务的部署功能；可以提供删除物理池接口，用于在有服务器被删除时，删除该服务器对应的第一数据采集服务；还可以提供部署接口，用于为新增的容器部署第二数据采集服务，和/或，用于在有容器被删除时，删除该容器对应的第二数据采集服务。

需要说明的是，为了能够在任意节点都能自动部署数据采集服务、监控告警服务和数据可视化分析服务，并且保证三者之间可以相互识别并进行数据交换，需要将数据采集服务、监控告警服务和数据可视化分析服务部署在同一个OverLay网络中，也即是，需要将Prometheus服务器、Grafana服务和所有的Exporter设置在同一个OverLay网络中。

在将Prometheus服务器、Grafana服务和所有的Exporter设置在同一个OverLay网络之后，在启动容器时可以按照预先设置好的命名规则来对所部署的服务进行命名，从而可以将命名好的服务记录到第一配置文件中，以便Prometheus服务可以基于第一配置文件来进行数据的抓取。

例如，在部署Node-exporter时，每台机器上部署的Node-exporter服务都可以按照node-exporter-服务器名称(如ip1、ip2、…)的命名规则进行命名，命名结果可以记录到Prometheus服务的第一配置文件中，Prometheus服务就能拿到各个Exporter的数据了。对于Prometheus和Gafana这种仅需部署一次的服务，直接将其命名为Prometheus和Grafana即可，则在Grafana中配置数据源时，只需要配置“http://prometheus:9090”，Grafana服务就可以读取到Prometheus服务的数据了。

Overlay网络可以将多个主机之间的网络连接虚拟化，并在这个虚拟网络中运行应用程序，以达到隔离应用程序和底层网络的效果，通过将数据采集服务、监控告警服务和数据可视化分析服务部署在Overlay网络中，可以形成一种天然的保护机制，以为大数据集群提供额外的安全保护，增强大数据集群的安全性。

在通过上述实施例完成数据采集服务、监控告警服务和数据可视化分析服务的部署之后，即可通过步骤102，通过数据采集服务采集大数据集群的运行数据，并通过监控告警服务将运行数据上传给数据可视化分析服务。

可选地，可以通过所部署的第一数据采集服务采集服务器的运行数据，通过所部署的第二数据采集服务采集容器的运行数据，第一数据采集服务和第二数据采集服务所采集到的数据均可以通过监控告警服务传递给数据可视化分析服务，以便数据可视化分析服务可以通过步骤103，基于运行数据显示监控界面。

在一些实施例中，对于步骤103，在基于运行数据显示监控界面时，可以通过如下方式实现：

在一种可能的实现方式中，基于大数据集群中的服务器的运行数据，显示物理层监控界面，物理层监控界面用于展示大数据集群中的服务器的运行数据。可选地，物理层监控界面也可以称为物理层仪表盘。

参见图3，图3是根据本发明实施例示出的一种物理层监控界面的界面示意图，在大数据集群中仅部署了管理服务器的情况下，即可显示如图3所示的监控界面。如图3所示，在大数据集群中仅包括管理服务器的情况下，监控的服务器个数显示为1，并且可以在如图3所示的物理层监控界面中展示管理服务器的磁盘空间使用数据(也即是磁盘空间使用率和磁盘读写容量大小)、网络流量数据(也即是网络流量)。

另外，在如图3所示的物理层监控界面中还可以设置有用于翻页的功能控件，用户可以通过该功能控件来查看更多种类的运行数据，若用户在如图3所示的物理层监控界面中触发了该功能控件，计算设备即可展示如图4所示的物理层监控界面，参见图4，图4是根据本发明实施例示出的另一种物理层监控界面的界面示意图，在如图4所示的物理层监控界面中，展示有CPU使用数据(也即是CPU使用率)、内存使用数据(也即是内存使用率)以及磁盘空间使用数据(也即是各分区磁盘空间)。

上述图3和图4所示仅为大数据集群中仅包括管理服务器时的物理层监控界面的显示形式，若在大数据集群中包括管理服务器的基础上，在大数据集群中新增了一个服务器，则物理层监控界面即可显示为如图5和图6所示的样式。

图5是根据本发明实施例示出的另一种物理层监控界面的界面示意图，如图5所示，在大数据集群中新增了服务器时，监控的服务器个数会从显示为1变更为显示为2，并且磁盘空间使用率、磁盘读写容量大小、网络流量中均会显示有两条曲线，每条曲线对应于一个服务器，以实现对两个服务器的运行情况的监控。

图6是根据本发明实施例示出的另一种物理层监控界面的界面示意图，图6可以基于在如图5所示的物理层监控界面中的翻页操作获取得到，在如图6所示的物理层监控界面中，CPU使用率、内存使用率中所显示的曲线均会变为两条，每条曲线对应于一个服务器，以实现对两个服务器的运行情况的监控。

在另一种可能的实现方式中，基于大数据集群中的容器的运行数据，显示组件层监控界面，组件层监控界面用于展示大数据集群中的容器的运行数据。可选地，组件层监控界面也可以称为组件层仪表盘。

可选地，组件层监控界面可以包括多种类型，用于展示不同类型的大数据组件对应的容器的运行情况。例如，组件层监控界面可以包括用于展示HDFS组件对应的容器的运行情况的HDFS组件监控界面(或称HDFS监控仪表盘)、用于展示YARN组件对应的容器的运行情况的YARN组件监控界面(或称YARN监控仪表盘)以及用于展示Clickhouse组件对应的容器的运行情况的Clickhouse组件监控界面(或称 Clickhouse监控仪表盘)。

需要注意的是，由于Hive组件与HDFS组件和YARN组件之间的关系，在HDFS组件和YARN组件的运行情况正常时，Hive组件的运行一般不会出现问题，因而一般情况下可以在组件层监控界面中省略Hive组件对应的容器的运行情况的Hive组件监控界面，在更多可能的实现方式中，为了保证监控过程的完整性和全面性，也可以设置Hive组件监控界面，本发明对此不加以限定。

参见图7，图7是根据本发明实施例示出的一种HDFS组件监控界面的界面示意图，在如图7所示的HDFS组件监控界面中展示有大数据服务使用数据和容器状态数据。例如，可以在如图7所示的HDFS组件监控界面中展示HDFS容量使用情况(也即是HDFS_Capacity)、文件描述符使用情况(也即是File_descriptor_Usage)、HDFS文件数量(也即是HDFS_File_Number)、HDFS块分布状态(也即是HDFS_Block_Status)、DataNode节点状态(也即是DataNode_Status)、NameNode节点JVM堆内存使用情况(也即是NameNode_JVM_Heap_Mem)、NameNode节点JVM堆垃圾回收(GarbageCollection，GC)次数(也即是NameNode_JVM_GC_Count)、NameNode节点JVM堆GC时间(也即是NameNode_JVM_GC_Time)。

参见图8，图8是根据本发明实施例示出的一种YARN组件监控界面的界面示意图，在如图8所示的YARN组件监控界面中展示有大数据服务使用数据和容器状态数据。例如，可以在如图8所示的YARN组件监控界面中展示YARN CPU使用情况(也即是YARN_CPU_Usage)、YARN内存使用情况(也即是YARN_Mem_Usage)、NodeManager节点内存使用情况(也即是NodeManager_Memory_Usage)、YARN中的应用状态(也即是Application_Status)、YARN中的应用异常(也即是Application_Exception)、ResourceManager节点JVM堆GC时间(也即是ResourceManager_JVM_GC_Time)、NameNode节点状态(也即是NodeManager_Status)、ResourceManager节点JVM堆内存使用情况(也即是ResourceManager_JVM_Mem)。

参见图9，图9是根据本发明实施例示出的一种Clickhouse组件监控界面的界面示意图，在如图9所示的Clickhouse组件监控界面中展示有大数据服务使用数据和容器状态数据。例如，可以在如图9所示的Clickhouse组件监控界面中展示Clickhouse查询次数(也即是Quary)、Clickhouse合并的次数和行数/分钟(也即是Merge)、Clickhouse读写情况(也即是Read\Write)、Clickhouse压缩空间大小/分钟(也即是 Compressed Read Buffer)、Clickhouse当前连接数(也即是Connections)、Clickhouse任务数(也即是Pool Tasks)、Clickhouse标记缓存率(也即是Cache rate)、Clickhouse内存使用情况(也即是Memory)。

需要说明的是，因为服务器对应的监控服务在部署服务器时就已经部署完成，因而在通过监控界面监控大数据集群的运行情况时，不会出现无法监控到大数据集群中的服务器运行情况的问题，但是，容器对应的监控服务需要等大数据组件对应的容器部署完成之后才可以部署。因此，在通过监控界面监控大数据集群的运行情况时，可能出现因组件尚未完成部署而无法查看其运行数据的情况，参见图10，图10是根据本发明实施例示出的一种组件层监控界面的界面示意图，如图10所示，对于尚未完成部署的组件，可以显示“组件尚未部署，暂无法查看的提示信息”。

为便于理解，下面分别对部署物理层监控服务以显示物理层监控页面、以及部署组件层监控服务以显示组件层监控页面的过程进行介绍，其中，部署物理层监控服务包括部署第一数据采集服务、监控告警服务和数据可视化分析服务，而部署组件层监控服务包括部署第二数据采集服务、监控告警服务和数据可视化分析服务。

参见图11，图11是根据本发明实施例示出的一种物理层监控服务的部署过程的流程图，如图11所示，在大数据集群的基础服务平台部署完成之后，可以自动在管理服务器上为大数据集群部署Prometheus服务、Granafa服务和Node-exporter-ip1服务(ip1也即是管理服务器的标识)。在检测到物理池被操作时，若所发生的是要删除服务器ip2的删除物理池操作，则可以调用删除物理池接口，删除Node-exporter-ip2服务；若所发生的是要新增服务器ip2的增加物理池操作，则可以调用初始化物理池接口，自动在新物理池(也即是新加入大数据集群的服务器ip2)上部署Node-exporter-ip2服务。在完成对Node-exporter-ip2服务的删除或部署后，可以修改Prometheus服务所维护的第一配置文件，并通过Prometheus服务执行相应命令使其动态加载第一配置文件，以获取最新的监控列表(用于指示需要抓取数据的数据来源)，以便可以基于最新的监控列表进行物理层监控页面的显示。

其中，修改前的第一配置文件中所记录的信息可以为：

static_configs:

-targets:[node-exporter-ip1:9100]

而修改后的第一配置文件中所记录的信息可以为：

static_configs:

-targets:[node-exporter-ip1:9100,node-exporter-ip2:9100]

参见图12，图12是根据本发明实施例示出的一种组件层监控服务的部署过程的流程图，如图12所示，在大数据集群的基础服务平台部署完成之后，可以自动在管理服务器上为大数据集群部署Prometheus服务和Granafa服务。在检测到有新的类型的大数据组件的部署操作发生时，若所发生的是删除大数据组件操作，则可以调用部署接口，自动删除其所对应的数据采集服务；若所发生的是增加大数据组件操作，则可以调用部署接口，自动为新增的容器部署对应的数据采集服务。在完成对数据采集服务的删除或部署后，可以修改Prometheus服务所维护的第一配置文件，并通过Prometheus服务执行相应命令使其动态加载第一配置文件，以实现对组件层监控页面的数据更新。

以添加HDFS-exporter服务为例，在修改prometheus的配置文件时，可以通过在第一配置文件中添加如下信息实现：

-job_name:"hdfs_exporter"

static_configs:

-targets:[hdfs-exporter:9131]

根据上述实施例，本发明所提供的监控服务的实现过程的数据流向可以参见图13，图13是根据本发明实施例示出的一种监控服务的数据流向示意图，如图13所示，可以通过Exporter服务采集服务器和容器的运行数据，例如，通过Node-exporter服务(包括Node-exporter-ip1、Node-exporter-ip2等)采集服务器的运行数据，通过Hadoop-exporter服务、Clickhouse-exporter服务采集大数据组件对应的容器的运行数据；通过Prometheus服务抓取Exporter服务采集到的运行数据，并由Prometheus服务将抓取到的数据传递给Grafana服务，Grafana服务中已经预先设置好了物理层仪表盘和组件层仪表盘(包括HDFS监控仪表盘、YARN监控仪表盘和Clickhouse监控仪表盘)，从而可以基于Prometheus服务传递过来的数据显示物理层监控页面、HDFS监控页面、YARN监控页面和Clickhouse监控页面。

可选地，若通过数据采集服务采集到的运行数据出现异常，则可以通过监控告警服务发送告警信息，以便运维人员及时对所出现的异常进行处理。

上述实施例主要介绍了为大数据集群部署监控服务的过程，在更多可能的实现方式中，还可以为大数据集群部署网关代理服务，网关代理服务用于为大数据集群外的用户提供访问功能。其中，网关代理服务可以为Knox服务。

需要说明的是，本发明中大数据集群的部署是基于OverLay网络实现的，而OverLay网络所提供的主机名(Hostname)和端口都是外部无法访问到的，只能通过在OverLay网络内部部署Knox服务，外部向Knox服务发出读写请求，以通过Knox服务实现与大数据集群的通信。

以访问HDFS组件对应的容器的过程为例，HDFS组件可以包括NameNode节点和DataNode节点。NameNode可以看作是分布式文件系统中的管理者，主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。NameNode节点可以将文件系统的元数据(Meta-data)存储在内存中，这些信息主要包括了文件信息、每一个文件对应的文件块(Block)的信息以及每一个文件块在DataNode中的信息等。DataNode是文件存储的基本单元，它将文件块存储在本地文件系统中，保存了文件块的Meta-data，同时周期性地将所有存在的文件块信息发送给NameNode。

当有外部代理(Client)向NameNode发起文件读写的请求时，NameNode会根据文件大小和文件块配置情况，返回给Client它所管理部分的DataNode信息。Client将文件划分为多个文件块，并根据DataNode的地址信息，将多个文件块按顺序写入到每一个DataNode块中。但是在OverLay网络中，NameNode返回的DataNode连接信息是OverLay网络内部的Hostname和端口，外部是无法访问到的。要实现网络外部与与DataNode节点的通信，只能通过在OverLay网络内部部署Knox服务，外部向Knox服务发出读写请求，以通过Knox服务实现与DataNode节点的通信，从而实现数据的读写。

在一些实施例中，在为大数据集群部署网关代理服务时，可以在大数据集群的管理服务器上部署网关代理服务。

可选地，若大数据集群中新增服务器和/或容器，则需要为新增的服务器和/或容器部署相应的网关代理服务。

但是，需要注意的是，网关代理服务也是一种通用型的基础服务，因而，对于一个大数据集群，仅需在管理服务器上对网关代理服务进行一次部署即可，后续在为新增服务器和/或容器部署网关代理服务时，仅需对已部署的网关代理服务进行更新即可。

可选地，网关代理服务可以维护有一个第二配置文件，第二配置文件可以用于记录网关代理服务所要服务的对象。在对已部署的网关代理服务进行更新时，可以对网关代理服务所维护的第二配置文件进行更新，以将新增的服务器和/或容器也作为网关代理服务所要服务的对象，以达到为新增的服务器和/或容器部署网关代理服务的效果。

需要说明的是，由于在大数据集群的实际运行过程中，主要是通过容器来提供大数据服务的，因此，一般情况下，外部访问的多为容器。所以，在对网关代理服务进行部署时，需要在大数据集群中将要部署或已经部署了大数据组件对应的容器的情况下进行，并且，可以以所部署的大数据组件的组件参数作为配置参数，来进行网关代理服务的部署。

参见图14，图14是根据本发明实施例示出的一种网关代理服务的部署过程的流程图，如图14所示，在用户在部署界面中触发开始部署操作来对大数据集群部署的情况下，可以判断当前要部署的对象中是否包括HDFS组件、YARN组件或Hive组件对应的容器。在当前要部署的对象中是否包括HDFS组件、YARN组件或Hive组件对应的容器的情况下，即可基于要部署的HDFS组件、YARN组件或Hive组件的组件参数作为配置参数，通过调用Knox插件，来修改第二配置文件，从而实现Knox服务的部署。

网关代理服务部署后，用户即可通过所部署的网关代理服务来获取已部署的容器的网络地址，以便可以通过所获取到的网络地址来对大数据集群进行访问。

在一些实施例中，可以在部署界面中提供信息查看控件，信息查看控件可以用于提供容器网络地址的查看功能，以便用户可以通过信息查看控件来获取容器网络地址；响应于对信息查看控件的触发操作，显示部署界面中所展示的容器的网络地址。

可选地，可以将信息查看控件设置在部署资源池区域中，从而使得在显示部署界面中所展示的容器的网络地址时，可以显示部署资源池区域中所展示的容器的网络地址。

仍以如图2所示的部署界面为例，在如图2所示的部署界面中，文字标注为“连接信息”的按钮即为信息查看控件，用户即可通过触发文字标注为“连接信息”的按钮，来获取大数据集群中已经部署的容器的网络地址。

可选地，在用户触发信息查看控件的情况下，计算设备可以显示信息查看界面，以通过信息查看界面向用户展示大数据集群中已部署的容器的网络地址。

需要说明的是，不同类型的容器所对应的网络地址的类型不同。如果部署的是HDFS组件、YARN组件和Hive组件，则会返回Knox代理地址，其中，HDFS组件和YARN组件返回的是代理Web页面的URL地址，Hive组件返回的是代理Java数据库连接(Java Database Connectivity，JDBC)的URL地址；如果部署的是Clickhouse组件，则可以返回Clickhouse的JDBC URL地址，以将所返回的网络地址展示在信息查看界面上。

在大数据集群中已经部署了HDFS组件、YARN组件、Hive组件和Clickhouse组件的情况下，信息查看界面可以参见图15，图15是根据本发明实施例示出的一种信息查看界面的界面示意图，如图15所示，NameNode节点和ResourceManager节点所对应的容器的网络地址为代理Web页面的URL地址，Hive节点所对应的容器的网络地址为代理JDBC的URL地址，Clickhouse节点所对应的容器的网络地址为代理JDBC的URL地址。

可选地，在获取到容器的网络地址后，用户可以将Web页面的URL地址复制到浏览器中，输入用户名密码后访问HDFS组件和YARN组件的管理页面；或者，可以通过数据库连接工具配置代理JDBC的URL地址和用户名密码，以连接Hive组件和Clickhouse组件进行数据分析。

参见图16，图16是根据本发明实施例示出的一种获取容器网络地址的流程图，如图16所示，若用户请求查看连接信息，计算设备即可查询大数据集群中的网络部署情况，由于HDFS组件、YARN组件和Hive组件需要通过代理Knox服务访问，因此，若已部署的服务中包括HDFS组件、YARN组件和Hive组件对应的服务，则可以返回Knox代理的URL地址。若已部署的服务是HDFS组件、YARN组件对应的服务，则所返回的URL地址是代理Knox的Web页面的URL地址；若已部署的服务是Hive组件对应的服务，则可以返回代理Knox的JDBC的URL地址。若已部署的服务中仅包括Clickhouse组件对应的服务，则可以返回Clickhouse的JDBC URL地址。

需要说明的是，HDFS组件和YARN组件所对应的URL地址为Web页面的URL地址，因而，可以通过复制到浏览器中来对该URL地址对应的Web页面进行访问；而Hive组件和Clickhouse组件所对应的URL地址为代理JDBC的URL地址，因而，可以通过数据库连接客户端进行访问。

用于管理不同组件的界面的界面示意图可以参见图17至图20，图17是根据本发明实施例示出的一种用于管理HDFS组件的Web界面的界面示意图，图18是根据本发明实施例示出的一种用于管理YARN组件的Web界面的界面示意图，图19是根据本发明实施例示出的一种用于管理Hive组件的客户端界面的界面示意图，图20是根据本发明实施例示出的一种用于管理Clickhouse组件的客户端界面的界面示意图。

另外，若大数据集群中尚未部署大数据组件，则可以显示如图21所示的信息查看界面，参见图21，图21是根据本发明实施例示出的另一种信息查看界面的界面示意图，在如图21所示的信息查看界面，显示有“暂无数据”的提示信息，表示大数据集群中当前尚未部署大数据组件。

通过上述实施例，用户即可实现从外部访问大数据集群的目的，以增强大数据集群使用过程的灵活性。

可选地，本发明还可以提供一种对部署在管理服务器上的服务进行整体迁移的功能。例如，发生告警的情况中可能存在管理服务器存储资源不足的情况，管理服务器作为整个大数据集群的核心，一旦管理服务器存储资源不足，则可能导致整个大数据集群的功能出现异常。为了保障大数据集群的顺利运行，可以提供一种服务迁移功能，以便可以通过服务迁移功能来对部署在管理服务器上的服务进行整体迁移，以将部署在管理服务器上的服务部署到存储资源更多的其他服务器上。

在一些实施例中，可以在部署界面中显示管理服务器对应的管理节点，以便用户可以通过在部署界面中拖拽节点来实现服务迁移过程的触发。

在一种可能的实现方式中，部署界面的部署资源池中显示有多个物理池(每个物理池对应与一个服务器)，在显示管理服务器对应的管理节点时，可以在管理服务器对应的物理池中显示该管理节点。

用户可以通过将显示在管理服务器对应的物理池中的管理节点拖拽到其他物理池中，以达到将部署在管理服务器的服务迁移到其他服务器上的目的。

在一种可能的实现方式中，响应于在部署界面中对管理节点的拖拽操作，将管理服务器中的配置数据拷贝到拖拽操作所指示的目的服务器中，以实现将管理服务器上部署的服务迁移到目的服务器的目的。其中，目的服务器也即是拖拽操作结束的位置所处的物理池对应的服务器。

可选地，部署界面中可以设置有部署控件，用户可以在将管理节点从管理服务器移动到目的服务器之后，触发该部署控件，以触发后台的服务迁移操作。参见图22，图22是根据本发明实施例示出的一种部署界面的界面示意图，在如图22所示的部署界面中，文字标注为“开始部署”的按钮即为部署控件。

下面如图22所示的部署界面，来对管理节点的拖拽过程进行介绍。如图22所示，IP地址为10.10.239.152的服务器为管理服务器，管理服务器对应的物理池中显示有管理节点。若以IP地址为10.10.177.23的服务器作为目的服务器，在用户将位于管理服务器所对应的物理池中的管理节点拖拽到目的服务器所对应的物理池中之后，部署界面即可更新为如图23所示的形式，参见图23，图23是根据本发明实施例示出的另一种部署界面的界面示意图，在如图23所示的部署界面中，管理服务器所对应的物理池中的管理节点会被显示为待移动状态(图23中通过虚线显示的方式指明该管理节点为待移动状态)，并且，可以在目的服务器对应的物理池中显示该管理节点，但是，在如图23所示的状态下，仅仅是在界面层面对节点进行了移动，真正的服务尚未进行迁移。

可选地，用户可以在如图23所示的部署界面中触发作为部署控件的“开始部署”按钮，以触发服务的迁移过程。

在服务迁移过程中，可以显示提示信息，以提示用户等待服务迁移完成。例如，可以响应于在部署界面中对管理节点的拖拽操作，显示提示信息，提示信息用于提示正在对管理服务器和目的服务器进行重新部署。

参见图24，图24是根据本发明实施例示出的另一种部署界面的界面示意图，在如图24所示的部署界面中，即显示有“正在部署中，此操作可能需要一段时间，请耐心等待”的提示信息。

需要说明的是，对服务进行迁移的过程，也即是将管理服务器上的配置数据拷贝到目的服务器中的过程。在数据拷贝完成后，即可认为管理节点迁移完成，此时，计算设备即可自动按照在部署界面中对管理节点的拖拽操作的指示，从部署界面中删除管理服务器所对应的管理节点，并在部署界面中显示目的服务器对应的管理节点。

例如，部署界面可以更新为如图25所示的形式。参见图25，图25是根据本发明实施例示出的另一种部署界面的界面示意图，在如图25所示的部署界面中，原来的管理服务器(也即是IP地址为10.10.239.152的服务器)所对应的物理池中已经没有管理节点了，而目的服务器(也即是IP地址为10.10.177.23的服务器)所对应的物理池中显示有管理节点，此时，IP地址为10.10.177.23的服务器即可作为大数据集群中新的管理服务器。

可选地，为保证在服务迁移过程中，用户可以正常使用大数据集群所提供的服务，以达到在用户无感知的情况下实现服务迁移的目的，可以使用虚拟网际协议(Internet Protocol，IP)技术。

虚拟IP是一种不与特定计算机或者特定计算机网卡相对应的IP地址，所有发往这个IP地址的数据包最后都会经过真实的网卡到达目的主机的目的进程。虚拟IP比较常见的一个用例就是在系统高可用性(High Availability HA)方面的应用，通常一个系统会因为日常维护或者发生意外宕机，为了提高系统对外服务的高可用性，就会采用主备模式进行高可用性的配置。当提供服务的主机M宕机后，服务会切换到备用主机S继续对外提供服务，而这一切用户是感觉不到的，在这种情况下系统对客户端提供服务的IP地址就会是一个虚拟IP，当主机M宕机后，虚拟IP便会漂浮到备机上，继续提供服务。在这种情况下，虚拟IP就不是与特定计算主机或者特定某个物理网卡对应的了，而是一种虚拟或者是说逻辑的概念，它是可以自由移动、自由漂浮的，这样一来既对外屏蔽了系统内部的细节，又为系统内部的可维护性和扩展性提供了方便。

也即是，可以预先为管理服务器设置一个虚拟IP地址，但是，由于虚拟IP地址不是网络环境中任何一个真实服务器的IP地址，为了保证基于虚拟IP地址可以在网络环境中所对应的服务器，可以采用维护地址解析协议(Address Resolution Protocol，ARP)高速缓存的方式实现。

可选地，每台服务器都可以维护有一个ARP高速缓存，用于存储同一个网络内的IP地址与物理地址(Media Access Control，MAC)地址的对应关系(也就是ARP缓存表)，以太网中的服务器发送数据时会先从这个缓存表中查询目标IP对应的MAC地址，从而向这个MAC地址对应的服务器发送数据。

因此，可以通过ARP缓存维护虚拟IP地址与真实服务器的MAC地址之间的对应关系，以便可以基于虚拟IP地址找到网络中的真实服务器。

在一种可能的实现方式中，可以在服务迁移完成后，删除预先为管理服务器设置的虚拟IP地址，并将虚拟IP地址配置给目的服务器，以实现虚拟IP地址所代理的服务器的切换，从而删除管理服务器中的配置数据。

可选地，在将虚IP地址所代理的服务器从一台服务器(称为原服务器)切换到另一台服务器(称为目的服务器)时，目的服务器可以向同一个网络内的服务器发送ARP广播，所有接收到广播的服务器会自动刷新其所维护的ARP缓存表，实现服务的切换，以便后续可以通过虚拟IP地址将请求发送到新主机对应的服务上。

上述实施例是以服务迁移完成后即进行虚拟IP地址所代理的服务器的切换为例来进行说明，在更多可能的实现方式中，在进行虚拟IP地址所代理的服务器的切换之前，可以基于从管理服务器拷贝过来的配置数据，在目的服务器中启动配置数据对应的服务；若目的服务器中的各个服务启动正常，再删除预先为管理服务器设置的虚拟IP地址，并将虚拟IP地址配置给目的服务器。

需要说明的是，本发明主要介绍了部署在管理服务器上的大数据服务和监控服务，一般情况下，管理服务器上还会部署有数据库服务(如MySQL服务)、消息队列服务(如RabbitMq服务)、大数据平台前后端服务等，在将管理服务器中的服务迁移到目的服务器时，上述几种服务均需要进行迁移。

可选地，在启动目的服务器中的各个服务时，可以按照“数据库服务→消息队列服务→大数据服务→大数据平台前后端服务→监控服务”的顺序来启动部署在目的服务器中的各种服务。或者，还可以采用其他的启动顺序来对各种服务进行启动，例如，可以调换大数据平台前后端服务和大数据服务的启动顺序，但是，需要保证数据库服务、消息队列服务这种基础性服务需要在大数据平台前后端服务和大数据服务之前启动，而监控服务这种附加功能一般可以放在最后启动。

通过对服务的启动情况进行检测，以在迁移后的服务可以正常启动时再进行虚拟IP地址的切换，可以保证在虚拟IP地址的切换前后，均可以正常为用户提供服务，以达到用户无感知的目的。

下面以原服务器的真实IP地址为10.10.177.11，目的服务器的真实IP地址为10.10.177.12，虚拟IP地址为10.10.177.15为例，切换虚拟IP地址的过程可以描述为如下过程：

参见图26，图26是根据本发明实施例提供的一种虚拟IP地址切换过程的流程示意图，如图26所示，管理节点设置在IP地址为10.10.177.11的原服务器上，原服务器在对外提供服务时，会以虚拟IP地址10.10.177.15作为用于识别自己的IP地址。在要将管理节点迁移到IP地址为10.10.177.12的目的服务器时，首先会拷贝原服务器上的数据，并在数据拷贝完成后，在目的服务器上按照“MySQL服务→RabbitMq服务→大数据平台前后端服务→大数据服务→监控服务(包括Prometheus服务和Granafa服务)”的顺序启动服务。

参见图27，图27是根据本发明实施例提供的一种虚拟IP地址切换过程的流程示意图，如图27所示，在目的服务器上启动各个服务后，可以通过访问端口检验服务是否正常。

若服务是否正常，则可以进入如图28所示的流程，参见图28，图28是根据本发明实施例提供的一种虚拟IP地址切换过程的流程示意图，如图28所示，可以从原服务器上删除虚拟IP地址，从而在目的服务器上添加虚拟IP地址，并由目的服务器向同一网络中的其他服务器发送ARP广播，以更新ARP缓存，从而即可实现虚拟IP的切换。在虚拟IP切换完成后，即可删除原服务器上部署的服务。

参见图29，图29是根据本发明实施例示出的一种虚拟IP地址切换结果的示意图，如图29所示，切换后管理节点会位于目的服务器上，并且，虚拟IP地址10.10.177.15会作为目的服务器在通信过程中所使用的IP地址。

上述实施例所提供的管理节点迁移过程可以参见图30，图30是根据本发明实施例示出的一种管理节点迁移过程的流程图，如图30所示，若用户在部署界面上拖动管理节点(如将管理节点从原机器拖动到新机器上)，计算设备可以将原机器上的数据拷贝到新机器上，并在新机器上按顺序启动服务(包括MySQL服务、RabbitMq服务、Knox服务、Prometheus服务、Granafa服务等)。通过轮询访问的方式判断新机器上部署的服务是否正常，在新机器上部署的服务正常的情况下，切换虚拟IP地址所代理的服务器，并向网络内的机器发送ARP广播，以更新ARP缓存表，完成对虚拟IP地址的切换。虚拟IP地址切换完成后，即可删除原机器上的服务和数据。

上述实施例主要是从通过服务迁移以应对管理服务器异常的角度来对本发明所提供的服务迁移功能来介绍的，在更多的可能的实现中，在大数据集群未出现异常的情况下，用户也可以根据实际技术需求来对管理服务器上所部署的服务进行整体迁移，本发明对此不加以限定。

参见图31，图31是根据本发明实施例示出的一种大数据集群部署方法的原理性架构图，如图31所示，用户可以在部署界面中选择要部署的节点的类型和参数，所选择的节点即会被显示在部署界面的临时资源池中，临时资源池中的节点可以通过拖拽或自动分配的方式被转移到部署资源池中。用户可以在部署资源池中对物理池和节点进行操作，其中，物理池操作可以包括添加物理池操作、删除物理池操作、置顶物理池操作和监控物理池操作，节点操作可以包括节点部署操作、节点移动操作、节点删除操作、节点移动操作和节点退役操作。并且，本发明可以提供物理层仪表盘和组件层仪表盘(包括HDFS监控仪表盘、YARN监控仪表盘和Clickhouse监控仪表盘)，以便用户可以通过仪表盘来对监控到的运行数据进行查看。另外，还可以获取查看连接信息和恢复出厂设置之类的功能。

通过本发明所提供的方案，可以在自动化部署大数据组件的基础上，提供自动化部署监控服务和网关代理服务的功能，为用户提供了一套完整的大数据基础平台，无需登录服务器，通过前端页面拖拽和点击操作，在自动化部署大数据组件的同时，机器运行状态的监控和组件服务功能的监控同步和网关代理功能自动完成，大大降低了大数据运维的技术门槛，并且可以提升服务的安全性和客户的使用感受。

与前述方法的实施例相对应，本发明还提供了相应的大数据集群部署装置及其所应用的计算设备的实施例。

参见图32，图32是根据本发明实施例示出的一种大数据集群部署装置的框图，如图32所示，该装置包括：

部署模块3201，用于为大数据集群部署数据采集服务、监控告警服务和数据可视化分析服务；

数据处理模块3202，用于通过数据采集服务采集大数据集群的运行数据，并通过监控告警服务将运行数据上传给数据可视化分析服务；

显示模块3203，用于通过数据可视化分析服务，基于运行数据显示监控界面，监控界面用于以图形化的方式展示大数据集群的运行情况。

在本发明的一些实施例中，部署模块3201，在用于为大数据集群部署数据采集服务、监控告警服务和数据可视化分析服务时，用于：

基于大数据集群当前所部署的服务提供者，在大数据集群中为当前服务提供者部署数据采集服务、监控告警服务和数据可视化分析服务；

响应于在大数据集群中对已部署的服务提供者的更新操作，更新大数据集群中已部署的数据采集服务、监控告警服务和数据可视化分析服务，对已部署的服务提供者的更新操作包括删除已部署的服务提供者和部署新的服务提供者。

在本发明的一些实施例中，服务提供者为服务器和/或容器，大数据集群中包括多个服务器，多个服务器中存在一个管理服务器；

部署模块3201，在用于基于大数据集群当前所包括的服务提供者，在大数据集群中为当前服务提供者部署数据采集服务、监控告警服务和数据可视化分析服务时，用于：

在本发明的一些实施例中，数据采集服务包括第一数据采集服务和第二数据采集服务，第一数据采集服务用于采集服务器的运行数据，第二数据采集服务用于采集容器的运行数据；

部署模块3201，在用于基于大数据集群当前所包括的服务器和容器，在大数据集群的每个服务器上部署数据采集服务时，用于：

在管理服务器上部署第一数据采集服务和第二数据采集服务，并在多个服务器中除管理服务器之外的每个服务器上部署第一数据采集服务器。

在本发明的一些实施例中，服务提供者为服务器和/或容器，监控告警服务对应有第一配置文件；

在对已部署的服务提供者的更新操作为部署新的服务提供者的情况下，部署模块3201，在用于响应于在大数据集群中对已部署的服务提供者的更新操作，更新大数据集群中已部署的数据采集服务、监控告警服务和数据可视化分析服务时，用于下述至少一项：

响应于大数据集群中增加新的服务器，在新增服务器上部署第一数据采集服务，并基于新增服务提供者修改监控告警服务所对应的第一配置文件，以使大数据集群中已部署的监控告警服务和数据可视化分析服务为新增服务器提供服务；

响应于大数据集群中增加新的容器，基于新增服务器修改监控告警服务所对应的第一配置文件，以使大数据集群中已部署的第二数据采集服务、监控告警服务和数据可视化分析服务为新增容器提供服务。

在本发明的一些实施例中，在对已部署的服务提供者的更新操作为删除已部署的服务提供者的情况下，部署模块3201，在用于响应于在大数据集群中对已部署的服务提供者的更新操作，更新大数据集群中已部署的数据采集服务、监控告警服务和数据可视化分析服务时，用于下述至少一项：

响应于对大数据集群中已部署的服务器的删除操作，删除服务器对应的第一数据采集服务，并基于所删除的服务器修改监控告警服务所对应的第一配置文件，以使大数据集群中已部署的监控告警服务和数据可视化分析服务不再为所删除的服务器提供服务；

响应于对大数据集群中已部署的容器的删除操作，基于所删除的服务器修改监控告警服务所对应的第一配置文件，以使大数据集群中已部署的第二数据采集服务、监控告警服务和数据可视化分析服务不再为所删除的服务器提供服务。

在本发明的一些实施例中，数据采集服务、监控告警服务和数据可视化分析服务位于同一Overlay网络中，数据采集服务为Exporter服务，监控告警服务为Prometheus服务，数据可视化分析服务为Grafana服务。

在本发明的一些实施例中，第一数据采集服务为Node-Exporter服务；在容器为HDFS组件或YARN组件对应的容器的情况下，第二数据采集服务为Hadoop-Exporter服务；在容器为Clickhouse组件对应的容器的情况下，第二数据采集服务为Clickhouse-Exporter服务。

在本发明的一些实施例中，服务提供者为服务器和/或容器；对于大数据集群中的服务器，运行数据包括磁盘空间使用数据、网络流量数据、CPU使用数据、内存使用数据中的至少一项；对于大数据集群中的容器，运行数据包括大数据服务使用数据和容器状态数据中的至少一项。

在本发明的一些实施例中，服务提供者为服务器和/或容器；

显示模块3203，在用于基于运行数据显示监控界面时，用于下述至少一项：

基于大数据集群中的服务器的运行数据，显示物理层监控界面，物理层监控界面用于展示大数据集群中的服务器的运行数据；

基于大数据集群中的容器的运行数据，显示组件层监控界面，组件层监控界面用于展示大数据集群中的容器的运行数据。

在本发明的一些实施例中，该装置还包括：

发送模块，用于响应于通过数据采集服务采集到的运行数据出现异常，通过监控告警服务发送告警信息。

在本发明的一些实施例中，大数据集群中包括多个服务器，多个服务器中存在一个管理服务器；

显示模块3203，还用于显示部署界面，并在部署界面中显示管理服务器对应的管理节点；

该装置还包括：

拷贝模块，用于响应于在部署界面中对管理节点的拖拽操作，将管理服务器中的配置数据拷贝到拖拽操作所指示的目的服务器中。

在本发明的一些实施例中，预先为管理服务器设置有虚拟IP地址；

第二删除模块，用于删除预先为管理服务器设置的虚拟IP地址，并将虚拟IP地址配置给目的服务器；

第二删除模块，还用于删除管理服务器中的配置数据。

在本发明的一些实施例中，启动模块，用于基于从管理服务器拷贝过来的配置数据，在目的服务器中启动配置数据对应的服务；

第二删除模块，还用于若目的服务器中的各个服务启动正常，则执行删除预先为管理服务器设置的虚拟IP地址，并将虚拟IP地址配置给目的服务器的步骤。

在本发明的一些实施例中，显示模块3203，还用于响应于在部署界面中对管理节点的拖拽操作，显示提示信息，提示信息用于提示正在对管理服务器和目的服务器进行重新部署。

在本发明的一些实施例中，第二删除模块，还用于按照在部署界面中对管理节点的拖拽操作的指示，从部署界面中删除管理服务器所对应的管理节点；

显示模块3203，还用于在部署界面中显示目的服务器对应的管理节点。

在本发明的一些实施例中，部署模块3201，还用于为大数据集群部署网关代理服务，网关代理服务用于为大数据集群外的用户提供访问功能。

部署模块3201，在用于为大数据集群部署网关代理服务时，用于：

在管理服务器上部署网关代理服务；

响应于大数据集群中新增服务提供者，为新增的服务提供者部署网关代理服务。

在本发明的一些实施例中，显示模块3203，还用于显示部署界面，并在部署界面中显示信息查看控件，信息查看控件用于提供容器网络地址的查看功能；

显示模块3203，还用于响应于对信息查看控件的触发操作，显示部署界面中所展示的容器的网络地址。

在本发明的一些实施例中，部署界面包括部署资源池区域，部署资源池区域用于展示大数据集群的各个服务器上已部署的容器对应的节点；

显示模块3203，在用于在部署界面中显示信息查看控件时，用于：

在部署界面的部署资源池区域中显示信息查看控件；

显示模块3203，在用于响应于对信息查看控件的触发操作，显示部署界面中所展示的容器的网络地址时，用于：

响应于对信息查看控件的触发操作，显示部署资源池区域中所展示的容器的网络地址。

在本发明的一些实施例中，大数据集群中所部署的服务提供者基于在部署界面中的节点拖拽操作部署得到。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所描述的作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明还提供了一种计算设备，参见图33，图33是根据本发明实施例示出的一种计算设备的结构示意图。如图33所示，计算设备包括处理器3310、存储器3320和网络接口3330，存储器3320用于存储可在处理器3310上运行的计算机指令，处理器3310用于在执行计算机指令时实现本发明任一实施例所提供的大数据集群部署方法，网络接口3330用于实现输入输出功能。在更多可能的实现方式中，计算设备还可以包括其他硬件，本发明对此不做限定。

本发明还提供了一种计算机可读存储介质，计算机可读存储介质可以是多种形式，比如，在不同的例子中，计算机可读存储介质可以是：RAM(Random Access Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、DVD等)，或者类似的存储介质，或者它们的组合。特殊的，计算机可读介质还可以是纸张或者其他合适的能够打印程序的介质。计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现本发明任一实施例所提供的大数据集群部署方法。

本发明还提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现本发明任一实施例所提供的大数据集群部署方法。

本领域技术人员应明白，本说明书一个或多个实施例可提供为方法、装置、计算设备、计算机可读存储介质或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于计算设备所对应的实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在本发明的范围内。在一些情况下，在本发明中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被大数据集群部署装置执行或控制大数据集群部署装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由大数据集群部署装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在本发明的范围以内。在某些情况下，本发明中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

本领域技术人员在考虑说明书及实践这里申请的发明后，将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未申请的本技术领域中的公知常识或惯用技术手段。也即是，本说明书并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。

以上所述仅为本说明书的可选实施例而已，并不用以限制本说明书，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书保护的范围之内。

Claims

一种大数据集群部署方法，其特征在于，所述方法包括：

为所述大数据集群部署数据采集服务、监控告警服务和数据可视化分析服务；

通过所述数据采集服务采集所述大数据集群的运行数据，并通过所述监控告警服务将所述运行数据上传给所述数据可视化分析服务；

通过所述数据可视化分析服务，基于所述运行数据显示监控界面，所述监控界面用于以图形化的方式展示所述大数据集群的运行情况。
根据权利要求1所述的方法，其特征在于，所述根据权利要求1所述的方法，其特征在于，所述为所述大数据集群部署数据采集服务、监控告警服务和数据可视化分析服务，包括：

基于所述大数据集群当前所部署的服务提供者，在所述大数据集群中为当前服务提供者部署数据采集服务、监控告警服务和数据可视化分析服务；

响应于在所述大数据集群中对已部署的服务提供者的更新操作，更新所述大数据集群中已部署的数据采集服务、监控告警服务和数据可视化分析服务，对已部署的服务提供者的更新操作包括删除已部署的服务提供者和部署新的服务提供者。
根据权利要求2所述的方法，其特征在于，所述服务提供者为服务器和/或容器，所述大数据集群中包括多个服务器，所述多个服务器中存在一个管理服务器；

所述基于所述大数据集群当前所包括的服务提供者，在所述大数据集群中为当前服务提供者部署数据采集服务、监控告警服务和数据可视化分析服务，包括：

基于所述大数据集群当前所包括的服务器和容器，在所述大数据集群的每个服务器上部署数据采集服务，并在所述大数据集群的管理服务器上部署监控告警服务和数据可视化分析服务。
根据权利要求3所述的方法，其特征在于，所述数据采集服务包括第一数据采集服务和第二数据采集服务，所述第一数据采集服务用于采集服务器的运行数据，所述第二数据采集服务用于采集容器的运行数据；

所述基于所述大数据集群当前所包括的服务器和容器，在所述大数据集群的每个服务器上部署数据采集服务，包括：

在所述管理服务器上部署第一数据采集服务和第二数据采集服务，并在所述多个服务器中除所述管理服务器之外的每个服务器上部署第一数据采集服务器。
根据权利要求4所述的方法，其特征在于，所述服务提供者为服务器和/或容器，所述监控告警服务对应有第一配置文件；

在对已部署的服务提供者的更新操作为部署新的服务提供者的情况下，所述响应于在所述大数据集群中对已部署的服务提供者的更新操作，更新所述大数据集群中已部署的数据采集服务、监控告警服务和数据可视化分析服务，包括下述至少一项：

响应于所述大数据集群中增加新的服务器，在新增服务器上部署第一数据采集服务，并基于新增服务提供者修改所述监控告警服务所对应的第一配置文件，以使大数据集群中已部署的监控告警服务和数据可视化分析服务为新增服务器提供服务；

响应于所述大数据集群中增加新的容器，基于新增服务器修改所述监控告警服务所对应的第一配置文件，以使大数据集群中已部署的第二数据采集服务、监控告警服务和数据可视化分析服务为新增容器提供服务。
根据权利要求5所述的方法，其特征在于，在对已部署的服务提供者的更新操作为删除已部署的服务提供者的情况下，所述响应于在所述大数据集群中对已部署的服务提供者的更新操作，更新所述大数据集群中已部署的数据采集服务、监控告警服务和数据可视化分析服务，包括下述至少一项：

响应于对所述大数据集群中已部署的服务器的删除操作，删除所述服务器对应的第一数据采集服务，并基于所删除的服务器修改所述监控告警服务所对应的第一配置文件，以使大数据集群中已部署的监控告警服务和数据可视化分析服务不再为所删除的服务器提供服务；

响应于对所述大数据集群中已部署的容器的删除操作，基于所删除的服务器修改所述监控告警服务所对应的第一配置文件，以使大数据集群中已部署的第二数据采集服务、监控告警服务和数据可视化分析服务不再为所删除的服务器提供服务。
根据权利要求6所述的方法，其特征在于，所述数据采集服务、所述监控告警服务和所述数据可视化分析服务位于同一Overlay网络中，所述数据采集服务为Exporter服务，所述监控告警服务为Prometheus服务，所述数据可视化分析服务为Grafana服务。
根据权利要求7所述的方法，其特征在于，所述第一数据采集服务为Node-Exporter服务；在所述容器为HDFS组件或YARN组件对应的容器的情况下，所述第二数据采集服务为Hadoop-Exporter服务；在所述容器为Clickhouse组件对应的容器的情况下，所述第二数据采集服务为Clickhouse-Exporter服务。
根据权利要求1所述的方法，其特征在于，所述服务提供者为服务器和/或容器；对于所述大数据集群中的服务器，所述运行数据包括磁盘空间使用数据、网络流量数据、CPU使用数据、内存使用数据中的至少一项；对于所述大数据集群中的容器，所述运行数据包括大数据服务使用数据和容器状态数据中的至少一项。
根据权利要求1所述的方法，其特征在于，所述大数据集群中包括多个服务提供者，所述服务提供者包括服务器和/或容器；

所述基于所述运行数据显示监控界面，包括下述至少一项：

基于所述大数据集群中的服务器的运行数据，显示物理层监控界面，所述物理层监控界面用于展示所述大数据集群中的服务器的运行数据；

基于所述大数据集群中的容器的运行数据，显示组件层监控界面，所述组件层监控界面用于展示所述大数据集群中的容器的运行数据。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

响应于通过所述数据采集服务采集到的运行数据出现异常，通过所述监控告警服务发送告警信息。
根据权利要求1所述的方法，其特征在于，所述大数据集群中包括多个服务器，所述多个服务器中存在一个管理服务器；

所述方法还包括：

显示部署界面，并在所述部署界面中显示所述管理服务器对应的管理节点；

所述方法还包括：

响应于在所述部署界面中对所述管理节点的拖拽操作，将所述管理服务器中的配置数据拷贝到所述拖拽操作所指示的目的服务器中。
根据权利要求12所述的方法，其特征在于，预先为所述管理服务器设置有虚拟IP地址；

所述响应于在所述部署界面中对所述管理节点的拖拽操作，将所述管理服务器中的配置数据拷贝到所述拖拽操作所指示的目的服务器中之后，所述方法还包括：

删除预先为所述管理服务器设置的虚拟IP地址，并将所述虚拟IP地址配置给所述目的服务器；

删除所述管理服务器中的配置数据。
根据权利要求13所述的方法，其特征在于，所述删除预先为所述管理服务器设置的虚拟IP地址，并将所述虚拟IP地址配置给所述目的服务器之前，所述方法还包括：

基于从所述管理服务器拷贝过来的配置数据，在所述目的服务器中启动所述配置数据对应的服务；

若所述目的服务器中的各个服务启动正常，则执行删除预先为所述管理服务器设置的虚拟IP地址，并将所述虚拟IP地址配置给所述目的服务器的步骤。
根据权利要求13的方法，其特征在于，所述方法还包括：

响应于在所述部署界面中对所述管理节点的拖拽操作，显示提示信息，所述提示信息用于提示正在对所述管理服务器和所述目的服务器进行重新部署。
根据权利要求15所述的方法，其特征在于，所述删除所述管理服务器中的配置数据之后，所述方法还包括：

按照在所述部署界面中对所述管理节点的拖拽操作的指示，从所述部署界面中删除所述管理服务器所对应的管理节点，并在所述部署界面中显示所述目的服务器对应的管理节点。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

为所述大数据集群部署网关代理服务，所述网关代理服务用于为所述大数据集群外的用户提供访问功能。
根据权利要求17所述的方法，其特征在于，所述大数据集群中包括多个服务器，所述多个服务器中存在一个管理服务器；

所述为所述大数据集群部署网关代理服务，包括：

在所述管理服务器上部署网关代理服务；

响应于所述大数据集群中新增服务提供者，为新增的服务提供者部署网关代理服务。
根据权利要求17所述的方法，其特征在于，所述方法还包括：

显示部署界面，并在所述部署界面中显示信息查看控件，所述信息查看控件用于提供容器网络地址的查看功能；

响应于对所述信息查看控件的触发操作，显示所述部署界面中所展示的容器的网络地址。
根据权利要求19所述的方法，其特征在于，所述部署界面包括部署资源池区域，所述部署资源池区域用于展示所述大数据集群的各个服务器上已部署的容器对应的节点；

所述在所述部署界面中显示信息查看控件，包括：

在所述部署界面的部署资源池区域中显示所述信息查看控件；

所述响应于对所述信息查看控件的触发操作，显示所述部署界面中所展示的容器的网络地址，包括：

响应于对所述信息查看控件的触发操作，显示所述部署资源池区域中所展示的容器的网络地址。
根据权利要求1所述的方法，其特征在于，所述大数据集群中所部署的服务提供者基于在部署界面中的节点拖拽操作部署得到。
一种大数据集群部署装置，其特征在于，包括：

部署模块，用于为所述大数据集群部署数据采集服务、监控告警服务和数据可视化分析服务；

数据处理模块，用于通过所述数据采集服务采集所述大数据集群的运行数据，并通过所述监控告警服务将所述运行数据上传给所述数据可视化分析服务；

显示模块，用于通过所述数据可视化分析服务，基于所述运行数据显示监控界面，所述监控界面用于以图形化的方式展示所述大数据集群的运行情况。
一种计算设备，其特征在于，所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1至21中任一项所述的大数据集群部署方法所执行的操作。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有程序，所述程序被处理器执行时，实现如权利要求1至21中任一项所述的大数据集群部署方法所执行的操作。