WO2017028697A1

WO2017028697A1 - 计算机集群的扩容和缩容方法及设备

Info

Publication number: WO2017028697A1
Application number: PCT/CN2016/093894
Authority: WO
Inventors: 程霖; 卢毅军
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2015-08-17
Filing date: 2016-08-08
Publication date: 2017-02-23
Also published as: CN106470219A

Abstract

本申请提供一种计算机集群的扩容和缩容方法及设备，本申请通过获取计算机集群中每台服务器的实时性能参数，根据计算机集群的当前所有的服务需求和该计算机集群中所有服务器的实时性能参数，增加或减少该计算机集群中响应当前所有的服务需求的服务器的数量，能够实时地获取计算机集群中每台服务器的性能变化情况，进而根据性能变化情况获知计算机集群的运行情况，并根据计算机集群的运行情况自动增加或减少该计算机集群中响应当前所有的服务需求的服务器的数量，实现计算机集群的自动、高效地扩容和缩容，本实施例尤其适用在访问量巨大的计算机集群上。

Description

计算机集群的扩容和缩容方法及设备

本申请要求2015年08月17日递交的申请号为201510504622.2、发明名称为“计算机集群的扩容和缩容方法及设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机领域，尤其涉及一种计算机集群的扩容和缩容方法及设备。

背景技术

在分布式计算机集群服务中，随着集群访问压力越来越大，需要对计算机集群进行扩容，增加计算机集群中的进行服务的服务器数量；当访问压力减少时，又需要对计算机集群进行缩容，即减少计算机集群中的进行服务的服务器数量。目前一般是由人工操作完成分布式计算机集群的扩容与缩容，不仅操作比较麻烦，更难做到分布式计算机集群的实时、快速地扩容与缩容。

发明内容

本申请的一个目的是提供一种用于计算机集群的扩容和缩容方法及设备，能够解决现有的分布式计算机集群的扩容与缩容过程不实时、操作繁琐和效率低的问题。

根据本申请的一个方面，提供了一种计算机集群的扩容和缩容方法，该方法包括：

获取计算机集群中每台服务器的实时性能参数；

根据计算机集群的当前所有的服务需求和该计算机集群中所有服务器的实时性能参数，增加或减少该计算机集群中响应当前所有的服务需求的服务器的数量。

进一步的，上述方法中，根据计算机集群的当前所有的服务需求和该计算机集群中所有服务器的实时性能参数，增加或减少该计算机集群中响应当前所有的服务需求的服务器的数量，包括：

当根据计算机集群中所有服务器的实时性能参数判断响应当前所有的服务需求的服务器的数量不够时，增加该计算机集群中响应当前所有的服务需求的服务器的数量；

当根据计算机集群中所有服务器的实时性能参数判断响应当前所有的服务需求的服务器的数量有多余时，减少该计算机集群中响应当前所有的服务需求的服务器的数量。

进一步的，上述方法中，根据计算机集群中所有服务器的实时性能参数判断响应当前所有的服务需求的服务器的数量不够或数量有多余中，根据计算机集群中每台服务器对应的预设指标阈值和实时性能参数判断响应当前所有的服务需求的服务器的数量不够或数量有多余。

进一步的，上述方法中，所述计算机集群包括分布式锁服务中的前端机和/或后端机。

进一步的，上述方法中，当所述计算机集群为所述后端机，增加或减少该计算机集群中响应当前所有的服务需求的服务器的数量中，

所述增加或减少该后端机中响应当前所有的服务需求的服务器的数量之前及之后，该后端机中响应当前所有的服务需求的服务器的数量始终为奇数台，且所述后端机中响应当前所有的服务需求的服务器的减少后的数量大于其减少前的原始数量的一半。

进一步的，上述方法中，所述每台服务器的实时性能参数包括以下至少任一项：

每台服务器的连接数；

每台服务器的读写请求数；

每台服务器的CPU利用率；

每台服务器的磁盘利用率。

进一步的，上述方法中，获取计算机集群中每台服务器的实时性能参数，包括：

在计算机集群中的每台服务器的用户进程的待监控指标项中植入一后台监控进程，通过所述后台监控进程采集所述待监控指标项的实时性能参数。

进一步的，上述方法中，增加该计算机集群中响应当前所有的服务需求的服务器的数量之后，还包括：

在增加的所述服务器上启动所述后台监控进程；

减少该计算机集群中响应当前所有的服务需求的服务器的数量之后，还包括：

在减少的所述服务器上关闭所述后台监控进程。

根据本申请的另一个方面，还提供一种计算机集群的扩容和缩容方法设备，该设备包括：

参数获取装置，用于获取计算机集群中每台服务器的实时性能参数；

扩容和缩容装置，用于根据计算机集群的当前所有的服务需求和该计算机集群中所有服务器的实时性能参数，增加或减少该计算机集群中响应当前所有的服务需求的服务器的数量。

进一步的，上述设备中，所述扩容和缩容装置，用于当根据计算机集群中所有服务器的实时性能参数判断响应当前所有的服务需求的服务器的数量不够时，增加该计算机集群中响应当前所有的服务需求的服务器的数量；

进一步的，上述设备中，所述扩容和缩容装置，用于根据计算机集群中每台服务器对应的预设指标阈值和实时性能参数判断响应当前所有的服务需求的服务器的数量不够或数量有多余。

进一步的，上述设备中，所述计算机集群包括分布式锁服务中的前端机和/或后端机。

进一步的，上述设备中，所述扩容和缩容装置，用于在所述增加或减少该后端机中响应当前所有的服务需求的服务器的数量之前及之后，使该后端机中响应当前所有的服务需求的服务器的数量始终为奇数台，且所述后端机中响应当前所有的服务需求的服务器的减少后的数量大于其减少前的原始数量的一半。

进一步的，上述设备中，所述参数获取装置，获取的每台服务器的实时性能参数包括以下至少任一项：

每台服务器的连接数；

每台服务器的读写请求数；

每台服务器的CPU利用率；

每台服务器的磁盘利用率。

进一步的，上述设备中，所述参数获取装置，用于在计算机集群中的每台服务器的用户进程的待监控指标项中植入一后台监控进程，通过所述后台监控进程采集所述待监控指标项的实时性能参数。

进一步的，上述设备中，所述设备还包括启动装置，用于在增加该计算机集群中响应当前所有的服务需求的服务器的数量之后，在增加的所述服务器上启动所述后台监控进程；

所述设备还包括关闭装置，用于在减少该计算机集群中响应当前所有的服务需求的服务器的数量之后，在减少的所述服务器上关闭所述后台监控进程。

与现有技术相比，本申请通过获取计算机集群中每台服务器的实时性能参数，根据计算机集群的当前所有的服务需求和该计算机集群中所有服务器的实时性能参数，增加或减少该计算机集群中响应当前所有的服务需求的服务器的数量，能够实时地获取计算机集群中每台服务器的性能变化情况，进而根据性能变化情况获知计算机集群的运行情况，并根据计算机集群的运行情况自动增加或减少该计算机集群中响应当前所有的服务需求的服务器的数量，实现计算机集群的自动、高效地扩容和缩容，本实施例尤其适用在访问量巨大的计算机集群上。

进一步的，本申请根据计算机集群中所有服务器的实时性能参数判断响应当前所有的服务需求的服务器的数量不够时，增加该计算机集群中响应当前所有的服务需求的服务器的数量，当根据计算机集群中所有服务器的实时性能参数判断响应当前所有的服务需求的服务器的数量有多余时，减少该计算机集群中响应当前所有的服务需求的服务器的数量，能够通过计算机集群中所有服务器的实时性能参数，来实时监控计算机集群中各服务器的负载大小，在服务器的数量不够或有多余实现计算机集群的自动、高效地扩容和缩容。

进一步的，本申请根据计算机集群中每台服务器对应的预设指标阈值和实时性能参数判断响应当前所有的服务需求的服务器的数量不够或数量有多余，从而使判断结果及后续根据该判断结果进行的集群服务器的扩容和缩容更高效和准确。

进一步的，当所述计算机集群为所述后端机，所述增加或减少该后端机中响应当前所有的服务需求的服务器的数量之前及之后，该后端机中响应当前所有的服务需求的服务器的数量始终为奇数台，且所述后端机中响应当前所有的服务需求的服务器的减少后的数量大于其减少前的原始数量的一半，从而实现后端机的无感知地、自动、高效地扩容和缩容。

进一步的，本申请通过在计算机集群中的每台服务器的用户进程的待监控指标项中植入监控代码即一后台监控进程，通过所述监控代码采集所述待监控指标项的实时性能参数，从而实现对实时性能参数的实时采集，无需编写独立于用户进程的额外监控程序，减少程序员的工作量。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出根据本申请一个方面的一种计算机集群的扩容和缩容方法的流程图；

图2示出本申请另一方面的计算机集群的扩容和缩容设备的结构图；

图3示出根据本申请一个优选实施例的计算机集群的扩容和缩容设备的结构图；

图4示出根据本申请一具体的应用实施例的原理图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

如图1所示，本申请提供一种计算机集群的扩容和缩容方法，该方法包括：

步骤S1，获取计算机集群中每台服务器的实时性能参数；在此，实时性能参数的内容可以根据实际监控需要选择的服务器运行性能的各种实时性能参数，可以包括以下至少任一项：每台服务器的连接数、每台服务器的读写请求数、每台服务器的CPU利用率和每台服务器的磁盘利用率；

步骤S2，根据计算机集群的当前所有的服务需求和该计算机集群中所有服务器的实时性能参数，增加或减少该计算机集群中响应当前所有的服务需求的服务器的数量。在此，步骤S2的方案可以智能化的统一的运维部署平台来实现，本实施例通过获取计算机集群中每台服务器的实时性能参数，能够实时地获取计算机集群中每台服务器的性能变化情况，进而根据性能变化情况获知计算机集群的运行情况，并根据计算机集群的运行情况自动增加或减少该计算机集群中响应当前所有的服务需求的服务器的数量，实现计算机集群的自动、高效地扩容和缩容，本实施例尤其适用在访问量巨大的计算机集群上。

本申请的计算机集群的扩容和缩容方法一优选的实施例中，步骤S2，根据计算机集群的当前所有的服务需求和该计算机集群中所有服务器的实时性能参数，增加或减少该计算机集群中响应当前所有的服务需求的服务器的数量，包括：

步骤S21，当根据计算机集群中所有服务器的实时性能参数判断响应当前所有的服务需求的服务器的数量不够时，增加该计算机集群中响应当前所有的服务需求的服务器的数量；在此，可根据计算机集群中所有服务器的实时性能参数，如每台服务器的连接数、每台服务器的读写请求数、每台服务器的CPU利用率和每台服务器的磁盘利用率中的一项或任意组合判断当响服务需求的服务器的数量不能满足当所有的服务需求时，则增加该计算机集群中响应当前所有的服务需求的服务器的数量，例如，当前的服务需求是有11000个读请求，而当前的服务器数量只能满足10000个读请求，则需要增加对应数量的服务器，以满足剩余的1000个读请求；

步骤S22，当根据计算机集群中所有服务器的实时性能参数判断响应当前所有的服务需求的服务器的数量有多余时，减少该计算机集群中响应当前所有的服务需求的服务器的数量。在此，可根据计算机集群中所有服务器的实时性能参数，如每台服务器的连接数、每台服务器的读写请求数、每台服务器的CPU利用率和每台服务器的磁盘利用率中的一项或任意组合判断当响应服务需求的服务器的数量能够满足当前所有的服务需求且有剩余时时，则减少该计算机集群中响应当前所有的服务需求的服务器的数量，例如，当前的服务需求是有8000个读请求，而当前的服务器数量为5台，而只要其中的3台服务器就满足该8000个读请求，则需要减少2台服务器，以节省服务器资源。本实施例通过计算机集群中所有服务器的实时性能参数，来实时监控计算机集群中各服务器的负载大小，在服务器的数量不够或有多余实现计算机集群的自动、高效地扩容和缩容。

本申请的计算机集群的扩容和缩容方法一优选的实施例中，步骤S21或步骤S22的根据计算机集群中所有服务器的实时性能参数判断响应当前所有的服务需求的服务器的数量不够或数量有多余中，根据计算机集群中每台服务器对应的预设指标阈值和实时性能参数判断响应当前所有的服务需求的服务器的数量不够或数量有多余，从而使判断结果及后续根据该判断结果进行的集群服务器的扩容和缩容更高效和准确。在此，可根据计算机集群中所有服务器的实时性能参数，如每台服务器的连接数、每台服务器的读写请求数、每台服务器的CPU利用率和每台服务器的磁盘利用率中的一项或任意组合判断当响服务需求的服务器的数量不能满足当所有的服务需求时，则增加该计算机集群中响应当前所有的服务需求的服务器的数量，例如，当前的服务需求是有11000个读请求，而当前的服务器数量为5台分别为A服务器、B服务器、C服务器、D服务器、E服务器，其中，A服务器的预设指标阈值最多满足5000个读请求、B服务器的预设指标阈值最多满足2000个读请求、C服务器的预设指标阈值最多满足1000个读请求、D服务器的预设指标阈值最多满足1000个读请求、E服务器的预设指标阈值最多满足1000个读请求，则该5台服务器加起来最多只能满足10000个读请求，需要增加对应数量的服务器，以满足剩余的1000个读请求；另外，也可根据计算机集群中所有服务器的实时性能参数，如每台服务器的连接数、每台服务器的读写请求数、每台服务器的CPU利用率和每台服务器的磁盘利用率中的一项或任意组合判断当响服务需求的服务器的数量满足当所有的服务需求且有剩余时时，则减少该计算机集群中响应当前所有的服务需求的服务器的数量，例如，当前的服务需求是有8000个读请求，而当前的服务器数量为5台，为A服务器、B服务器、C服务器、D服务器、E服务器，其中，A服务器的预设指标阈值最多满足5000个读请求、B服务器的预设指标阈值最多满足2000个读请求、C服务器的预设指标阈值最多满足1000个读请求、D服务器的预设指标阈值最多满足1000个读请求、E服务器的预设指标阈值最多满足1000个读请求，而只要其中的3台服务器A服务器、B服务器、C服务器、D服务器就满足该8000个读请求，则需要减少2台服务器D服务器、E服务器，以节省服务器资源。

本申请的计算机集群的扩容和缩容方法一优选的实施例中，所述计算机集群包括分布式锁服务中的前端机和/或后端机。在此，在分布式锁服务中，为了能够减轻后端机(Quorum)的压力与做到水平扩展，会在客户端(client)与后端机(Quorum)之间加入无状态的中间层的前端机(proxy)。处于中间服务的前端机(proxy)是无状态的，即该前端机中每台服务器没有存储介质，无需存储数据，通常起着将从客户端(client)请求转发给后端机(Quorum)的作用，以减轻后端机的数据处理压力。后端机是分布式一致性系统中的机器组，其是有状态的，即后端机中的每台服务器上有用于存储数据的存储介质，后端机中的每台服务器上的存储介质中存储的数据始终保持一致，后端机从前端机接收转发的客户端请求并进行处理。在此，将本申请的方案应用于前端机和/或后端机，可以实现前端机和/或后端机自动、高效地扩容和缩容。

本申请的计算机集群的扩容和缩容方法一优选的实施例中，当所述计算机集群为所述后端机，步骤S2的增加或减少该计算机集群中响应当前所有的服务需求的服务器的数量中，

所述增加或减少该后端机中响应当前所有的服务需求的服务器的数量之前及之后，该后端机中响应当前所有的服务需求的服务器的数量始终为奇数台，且所述后端机中响应当前所有的服务需求的服务器的减少后的数量大于其减少前的原始数量的一半。具体的，当所述计算机集群为所述前端机时，根据计算机集群中所有服务器的实时性能参数确定增加或减少该计算机集群中响应当前所有的服务需求的服务器的数量，从而实现前端机的无感知地、自动、高效地扩容和缩容，而当所述计算机集群为所述后端机，由于后端机上每台服务器是有存储介质的(有状态的)，除了考虑计算机集群中所有服务器的实时性能参数外，还需要考虑到后端机(Quorum)的冗余度，所以本实施例中要求增加或减少该后端机中响应当前所有的服务需求的服务器的数量的步骤之前及之后，该后端机中响应当前所有的服务需求的服务器的数量始终为奇数台，即每次增加或减少的响应当前所有的服务需求的服务器的数量为偶数台，另外要求所述减少该后端机中响应当前所有的服务需求的服务器的数量的步骤之后，该后端机中响应当前所有的服务需求的服务器的当前数量大于其减少前的原始数量的一半，从而实现后端机的无感知地、自动、高效地扩容和缩容。例如，增加或减少该后端机中响应当前所有的服务需求的服务器的数量的步骤之前，该后端机中响应当前所有的服务需求的服务器的原始数量为5台，那么，如果需要增加该后端机中响应当前所有的服务需求的服务器的数量时，每次增加的数量必须是2、4、6…等中的任一偶数台；当需要减少该后端机中响应当前所有的服务需求的服务器的数量时，每次减少的数量必须是2、4、6…等中的任一偶数台，且减少该后端机中响应当前所有的服务需求的服务器的数量后，该后端机中响应当前所有的服务需求的服务器的当前数量大于其减少前的原始数量的一半，如果原始数量为5台的话，那只能减少2台，才能保证减少后的该后端机中响应当前所有的服务需求的服务器的当前数量为3台，大于减少前的原始数量5台的一半。

本申请的计算机集群的扩容和缩容方法一优选的实施例中，步骤S1，获取计算机集群中每台服务器的实时性能参数，包括：

在计算机集群中的每台服务器的用户进程的待监控指标项中植入监控代码即一后台监控进程，通过所述监控代码采集所述待监控指标项的实时性能参数，从而实现对实时性能参数的实时采集，无需编写独立于用户进程的额外监控程序，减少程序员的工作量。在此，所述监控代码中可采用一性能计数器，用于记录基于时间序列的连续数据，如可以记录每台服务器的连接数、每台服务器的读写请求数等等。

本申请的计算机集群的扩容和缩容方法一优选的实施例中，步骤S2的增加该计算机集群中响应当前所有的服务需求的服务器的数量之后，还包括：

在增加的所述服务器上启动所述后台监控进程，从而对该新增加响应当前服务需求的服务器的实时性能参数进行监控，便于后续进一步的计算机集群的实时扩容、缩容，具体的，在增加的所述服务器上启动所述后台监控进程之前，可以先检查下增加的所述服务器上是否有启动所述后台监控进程的软件包，如果没有软件包，则先向增加的所述服务器推送该软件包后，再在该服务器上启动所述后台监控进程，如果有软件包，则在该服务器上直接启动所述后台监控进程即可；

相应的，步骤S2的减少该计算机集群中响应当前所有的服务需求的服务器的数量之后，还包括：

在减少的所述服务器上关闭所述后台监控进程，从而对结束对该减少的响应当前服务需求的服务器的实时性能参数进行的监控。

如图2所示，根据本申请的另一面，还提供一种计算机集群的扩容和缩容设备，其中，该设备100包括：

参数获取装置1，用于获取计算机集群中每台服务器的实时性能参数；在此，实时性能参数的内容可以根据实际监控需要选择的服务器运行性能的各种实时性能参数，可以包括以下至少任一项：每台服务器的连接数、每台服务器的读写请求数、每台服务器的CPU利用率和每台服务器的磁盘利用率；

扩容和缩容装置2，用于根据计算机集群的当前所有的服务需求和该计算机集群中所有服务器的实时性能参数，增加或减少该计算机集群中响应当前所有的服务需求的服务器的数量。在此，扩容和缩容装置2的方案可以智能化的统一的运维部署平台来实现，本实施例通过获取计算机集群中每台服务器的实时性能参数，能够实时地获取计算机集群中每台服务器的性能变化情况，进而根据性能变化情况获知计算机集群的运行情况，并根据计算机集群的运行情况自动增加或减少该计算机集群中响应当前所有的服务需求的服务器的数量，实现计算机集群的自动、高效地扩容和缩容，本实施例尤其适用在访问量巨大的计算机集群上。

本申请的计算机集群的扩容和缩容设备一优选的实施例中，所述扩容和缩容装置2，用于当根据计算机集群中所有服务器的实时性能参数判断响应当前所有的服务需求的服务器的数量不够时，增加该计算机集群中响应当前所有的服务需求的服务器的数量；在此，可根据计算机集群中所有服务器的实时性能参数，如每台服务器的连接数、每台服务器的读写请求数、每台服务器的CPU利用率和每台服务器的磁盘利用率中的一项或任意组合判断当响服务需求的服务器的数量不能满足当所有的服务需求时，则增加该计算机集群中响应当前所有的服务需求的服务器的数量，例如，当前的服务需求是有11000个读请求，而当前的服务器数量只能满足10000个读请求，则需要增加对应数量的服务器，以满足剩余的1000个读请求；

当根据计算机集群中所有服务器的实时性能参数判断响应当前所有的服务需求的服务器的数量有多余时，减少该计算机集群中响应当前所有的服务需求的服务器的数量。在此，可根据计算机集群中所有服务器的实时性能参数，如每台服务器的连接数、每台服务器的读写请求数、每台服务器的CPU利用率和每台服务器的磁盘利用率中的一项或任意组合判断当响应服务需求的服务器的数量能够满足当前所有的服务需求且有剩余时时，则减少该计算机集群中响应当前所有的服务需求的服务器的数量，例如，当前的服务需求是有8000个读请求，而当前的服务器数量为5台，而只要其中的3台服务器就满足该8000个读请求，则需要减少2台服务器，以节省服务器资源。本实施例通过计算机集群中所有服务器的实时性能参数，来实时监控计算机集群中各服务器的负载大小，在服务器的数量不够或有多余实现计算机集群的自动、高效地扩容和缩容。

本申请的计算机集群的扩容和缩容设备一优选的实施例中，所述扩容和缩容装置2，用于根据计算机集群中每台服务器对应的预设指标阈值和实时性能参数判断响应当前所有的服务需求的服务器的数量不够或数量有多余，从而使判断结果及后续根据该判断结果进行的集群服务器的扩容和缩容更高效和准确。在此，可根据计算机集群中所有服务器的实时性能参数，如每台服务器的连接数、每台服务器的读写请求数、每台服务器的CPU利用率和每台服务器的磁盘利用率中的一项或任意组合判断当响服务需求的服务器的数量不能满足当所有的服务需求时，则增加该计算机集群中响应当前所有的服务需求的服务器的数量，例如，当前的服务需求是有11000个读请求，而当前的服务器数量为5台分别为A服务器、B服务器、C服务器、D服务器、E服务器，其中，A服务器的预设指标阈值最多满足5000个读请求、B服务器的预设指标阈值最多满足2000个读请求、C服务器的预设指标阈值最多满足1000个读请求、D服务器的预设指标阈值最多满足1000个读请求、E服务器的预设指标阈值最多满足1000个读请求，则该5台服务器加起来最多只能满足10000个读请求，需要增加对应数量的服务器，以满足剩余的1000个读请求；另外，也可根据计算机集群中所有服务器的实时性能参数，如每台服务器的连接数、每台服务器的读写请求数、每台服务器的CPU利用率和每台服务器的磁盘利用率中的一项或任意组合判断当响服务需求的服务器的数量满足当所有的服务需求且有剩余时时，则减少该计算机集群中响应当前所有的服务需求的服务器的数量，例如，当前的服务需求是有8000个读请求，而当前的服务器数量为5台，为A服务器、B服务器、C服务器、D服务器、E服务器，其中，A服务器的预设指标阈值最多满足5000个读请求、B服务器的预设指标阈值最多满足2000个读请求、C服务器的预设指标阈值最多满足1000个读请求、D服务器的预设指标阈值最多满足1000个读请求、E服务器的预设指标阈值最多满足1000个读请求，而只要其中的3台服务器A服务器、B服务器、C服务器、D服务器就满足该8000个读请求，则需要减少2台服务器D服务器、E服务器，以节省服务器资源。

本申请的计算机集群的扩容和缩容设备一优选的实施例中，所述计算机集群包括分布式锁服务中的前端机和/或后端机。在此，在分布式锁服务中，为了能够减轻后端机(Quorum)的压力与做到水平扩展，会在客户端(client)与后端机(Quorum)之间加入无状态的中间层的前端机(proxy)。处于中间服务的前端机(proxy)是无状态的，即该前端机中每台服务器没有存储介质，无需存储数据，通常起着将从客户端(client)请求转发给后端机(Quorum)的作用，以减轻后端机的数据处理压力。后端机是分布式一致性系统中的机器组，其是有状态的，即后端机中的每台服务器上有用于存储数据的存储介质，后端机中的每台服务器上的存储介质中存储的数据始终保持一致，后端机从前端机接收转发的客户端请求并进行处理。在此，将本申请的方案应用于前端机和/或后端机，可以实现前端机和/或后端机自动、高效地扩容和缩容。

本申请的计算机集群的扩容和缩容设备一优选的实施例中，所述扩容和缩容装置2，用于在所述增加或减少该后端机中响应当前所有的服务需求的服务器的数量之前及之后，使该后端机中响应当前所有的服务需求的服务器的数量始终为奇数台，且所述后端机中响应当前所有的服务需求的服务器的减少后的数量大于其减少前的原始数量的一半。具体的，当所述计算机集群为所述前端机时，根据计算机集群中所有服务器的实时性能参数确定增加或减少该计算机集群中响应当前所有的服务需求的服务器的数量，从而实现前端机的无感知地、自动、高效地扩容和缩容，而当所述计算机集群为所述后端机，由于后端机上每台服务器是有存储介质的(有状态的)，除了考虑计算机集群中所有服务器的实时性能参数外，还需要考虑到后端机(Quorum)的冗余度，所以本实施例中要求增加或减少该后端机中响应当前所有的服务需求的服务器的数量的步骤之前及之后，该后端机中响应当前所有的服务需求的服务器的数量始终为奇数台，即每次增加或减少的响应当前所有的服务需求的服务器的数量为偶数台，另外要求所述减少该后端机中响应当前所有的服务需求的服务器的数量的步骤之后，该后端机中响应当前所有的服务需求的服务器的当前数量大于其减少前的原始数量的一半，从而实现后端机的无感知地、自动、高效地扩容和缩容。例如，增加或减少该后端机中响应当前所有的服务需求的服务器的数量的步骤之前，该后端机中响应当前所有的服务需求的服务器的原始数量为5台，那么，如果需要增加该后端机中响应当前所有的服务需求的服务器的数量时，每次增加的数量必须是2、4、6…等中的任一偶数台；当需要减少该后端机中响应当前所有的服务需求的服务器的数量时，每次减少的数量必须是2、4、6…等中的任一偶数台，且减少该后端机中响应当前所有的服务需求的服务器的数量后，该后端机中响应当前所有的服务需求的服务器的当前数量大于其减少前的原始数量的一半，如果原始数量为5台的话，那只能减少2台，才能保证减少后的该后端机中响应当前所有的服务需求的服务器的当前数量为3台，大于减少前的原始数量5台的一半。

本申请的计算机集群的扩容和缩容设备一优选的实施例中，所述参数获取装置1，用于在计算机集群中的每台服务器的用户进程的待监控指标项中植入一后台监控进程，通过所述后台监控进程采集所述待监控指标项的实时性能参数，从而实现对实时性能参数的实时采集，无需编写独立于用户进程的额外监控程序，减少程序员的工作量。在此，所述监控代码中可采用一性能计数器，用于记录基于时间序列的连续数据，如可以记录每台服务器的连接数、每台服务器的读写请求数等等。

如图3所示，本申请的计算机集群的扩容和缩容设备一优选的实施例中，所述设备100还包括启动装置3，用于在增加该计算机集群中响应当前所有的服务需求的服务器的数量之后，在增加的所述服务器上启动所述后台监控进程，从而对该新增加响应当前服务需求的服务器的实时性能参数进行监控，便于后续进一步的计算机集群的实时扩容、缩容，具体的，在增加的所述服务器上启动所述后台监控进程之前，可以先检查下增加的所述服务器上是否有启动所述后台监控进程的软件包，如果没有软件包，则先向增加的所述服务器推送该软件包后，再在该服务器上启动所述后台监控进程，如果有软件包，则在该服务器上直接启动所述后台监控进程即可；

所述设备还包括关闭装置4，用于在减少该计算机集群中响应当前所有的服务需求的服务器的数量之后，在减少的所述服务器上关闭所述后台监控进程，从而对结束对该减少的响应当前服务需求的服务器的实时性能参数进行的监控。

如图4所示，本申请一具体的应用实施例中，在计算机集群中的每台服务器10的用户进程11的待监控指标项中植入监控代码即一后台监控进程12，通过所述监控代码采集所述待监控指标项的实时性能参数，然后由台服务器的收集装置(Logtail)13将采集到的实时性能参数发送到一统一部署运维系统14，由统部署运维系统14根据计算机集群的当前所有的服务需求和该计算机集群中所有服务器的实时性能参数增加或减少该计算机集群15中响应当前所有的服务需求的服务器10的数量，另外，还可在增加的所述服务器上启动所述后台监控进程或在减少的所述服务器上关闭所述后台监控进程及进一步获取集群信息如计算机集群中闲置服务器的信息等，从而能够实时地获取计算机集群中每台服务器的性能变化情况，进而根据性能变化情况获知计算机集群的运行情况，并根据计算机集群的运行情况自动增加或减少该计算机集群中响应当前所有的服务需求的服务器的数量，实现计算机集群的自动、高效地扩容和缩容，另外，在增加的所述服务器上启动所述后台监控进程，从而对该新增加响应当前服务需求的服务器的实时性能参数进行监控，便于后续进一步的计算机集群的实时扩容、缩容，在减少的所述服务器上关闭所述后台监控进程，从而对结束对该减少的响应当前服务需求的服务器的实时性能参数进行的监控。

综上所述，本申请通过获取计算机集群中每台服务器的实时性能参数，根据计算机集群的当前所有的服务需求和该计算机集群中所有服务器的实时性能参数，增加或减少该计算机集群中响应当前所有的服务需求的服务器的数量，能够实时地获取计算机集群中每台服务器的性能变化情况，进而根据性能变化情况获知计算机集群的运行情况，并根据计算机集群的运行情况自动增加或减少该计算机集群中响应当前所有的服务需求的服务器的数量，实现计算机集群的自动、高效地扩容和缩容，本实施例尤其适用在访问量巨大的计算机集群上。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

一种计算机集群的扩容和缩容方法，其中，该方法包括：

获取计算机集群中每台服务器的实时性能参数；

根据计算机集群的当前所有的服务需求和该计算机集群中所有服务器的实时性能参数，增加或减少该计算机集群中响应当前所有的服务需求的服务器的数量。
如权利要求1所述的方法，其中，根据计算机集群的当前所有的服务需求和该计算机集群中所有服务器的实时性能参数，增加或减少该计算机集群中响应当前所有的服务需求的服务器的数量，包括：

当根据计算机集群中所有服务器的实时性能参数判断响应当前所有的服务需求的服务器的数量不够时，增加该计算机集群中响应当前所有的服务需求的服务器的数量；

当根据计算机集群中所有服务器的实时性能参数判断响应当前所有的服务需求的服务器的数量有多余时，减少该计算机集群中响应当前所有的服务需求的服务器的数量。
如权利要求2所述的方法，其中，根据计算机集群中所有服务器的实时性能参数判断响应当前所有的服务需求的服务器的数量不够或数量有多余中，根据计算机集群中每台服务器对应的预设指标阈值和实时性能参数判断响应当前所有的服务需求的服务器的数量不够或数量有多余。
如权利要求1至3任一项所述的方法，其中，所述计算机集群包括分布式锁服务中的前端机和/或后端机。
如权利要求4所述的方法，其中，当所述计算机集群为所述后端机，增加或减少该计算机集群中响应当前所有的服务需求的服务器的数量中，

所述增加或减少该后端机中响应当前所有的服务需求的服务器的数量之前及之后，该后端机中响应当前所有的服务需求的服务器的数量始终为奇数台，且所述后端机中响应当前所有的服务需求的服务器的减少后的数量大于其减少前的原始数量的一半。
如权利要求1至5任一项所述的方法，其中，所述每台服务器的实时性能参数包括以下至少任一项：

每台服务器的连接数；

每台服务器的读写请求数；

每台服务器的CPU利用率；

每台服务器的磁盘利用率。
如权利要求1至6任一项所述的方法，其中，获取计算机集群中每台服务器的实时性能参数，包括：

在计算机集群中的每台服务器的用户进程的待监控指标项中植入一后台监控进程，通过所述后台监控进程采集所述待监控指标项的实时性能参数。
如权利要求7所述的方法，其中，增加该计算机集群中响应当前所有的服务需求的服务器的数量之后，还包括：

在增加的所述服务器上启动所述后台监控进程；

减少该计算机集群中响应当前所有的服务需求的服务器的数量之后，还包括：

在减少的所述服务器上关闭所述后台监控进程。
一种计算机集群的扩容和缩容设备，其中，该设备包括：

参数获取装置，用于获取计算机集群中每台服务器的实时性能参数；

扩容和缩容装置，用于根据计算机集群的当前所有的服务需求和该计算机集群中所有服务器的实时性能参数，增加或减少该计算机集群中响应当前所有的服务需求的服务器的数量。
如权利要求9所述的设备，其中，所述扩容和缩容装置，用于当根据计算机集群中所有服务器的实时性能参数判断响应当前所有的服务需求的服务器的数量不够时，增加该计算机集群中响应当前所有的服务需求的服务器的数量；

当根据计算机集群中所有服务器的实时性能参数判断响应当前所有的服务需求的服务器的数量有多余时，减少该计算机集群中响应当前所有的服务需求的服务器的数量。
如权利要求10所述的设备，其中，所述扩容和缩容装置，用于根据计算机集群中每台服务器对应的预设指标阈值和实时性能参数判断响应当前所有的服务需求的服务器的数量不够或数量有多余。
如权利要求9至11任一项所述的设备，其中，所述计算机集群包括分布式锁服务中的前端机和/或后端机。
如权利要求12所述的设备，其中，所述扩容和缩容装置，用于在所述增加或减少该后端机中响应当前所有的服务需求的服务器的数量之前及之后，使该后端机中响应当前所有的服务需求的服务器的数量始终为奇数台，且所述后端机中响应当前所有的服务需求的服务器的减少后的数量大于其减少前的原始数量的一半。
如权利要求9至13任一项所述的设备，其中，所述参数获取装置，获取的每台服务器的实时性能参数包括以下至少任一项：

每台服务器的连接数；

每台服务器的读写请求数；

每台服务器的CPU利用率；

每台服务器的磁盘利用率。
如权利要求9至14任一项所述的设备，其中，所述参数获取装置，用于在计算机集群中的每台服务器的用户进程的待监控指标项中植入一后台监控进程，通过所述后台监控进程采集所述待监控指标项的实时性能参数。
如权利要求15所述的设备，其中，所述设备还包括启动装置，用于在增加该计算机集群中响应当前所有的服务需求的服务器的数量之后，在增加的所述服务器上启动所述后台监控进程；

所述设备还包括关闭装置，用于在减少该计算机集群中响应当前所有的服务需求的服务器的数量之后，在减少的所述服务器上关闭所述后台监控进程。