WO2015101089A1

WO2015101089A1 - 大规模集群的管理方法、装置和系统

Info

Publication number: WO2015101089A1
Application number: PCT/CN2014/089538
Authority: WO
Inventors: 王黎; 吴晓明
Original assignee: 华为技术有限公司
Priority date: 2013-12-31
Filing date: 2014-10-27
Publication date: 2015-07-09
Also published as: CN103763130A; CN103763130B

Abstract

一种大规模集群的管理方法、装置和系统，能够按照服务等级对用户进行性能管理和资源调度，提高用户体验。该方法包括：在多个服务等级的第一服务等级对应的管理对象中确定至少一个管理对象，其中管理对象为大规模集群中的资源单元；确定至少一个管理对象的目标性能；获取至少一个管理对象的实际性能；根据目标性能和实际性能对第一服务等级对应的管理对象进行性能管理。通过在大规模集群的第一服务等级对应的管理对象中确定至少一个管理对象，并根据该至少一个管理对象的目标性能和实际性能对该第一服务等级对应的所有管理对象进行性能管理，从而能够保证绝大多数甚至是全部用户的性能达到目标性能，提高了用户体验。

Description

大规模集群的管理方法、装置和系统

技术领域

本发明涉及云计算领域，并且更具体地，涉及大规模集群的管理方法、装置和系统。

背景技术

随着计算机网络的进一步发展和海量数据计算能力的要求，各种大型计算能力的计算机硬件不断出现。此外，全球信息系统万维网也非常流行。这些软硬件技术或设备的出现，为提出一种新型的称为“云计算(Cloud Computing)”的计算模型提供了可能。

狭义的云计算指信息技术(Information Technology，简称为“IT”)基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需资源；提供资源的网络被称为“云(Cloud)”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，随时扩展，按需使用，并按使用付费。

广义的云计算指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需服务。这种服务可以与IT、软件、互联网相关，也可以是其他服务，提供服务的网络被称为“云(Cloud)”。“云”是一些可以自我维护和管理的虚拟计算资源，通常为一些大型服务器集群，包括计算服务器、存储服务器、宽带资源等。云计算对大量用网络连接的计算资源进行统一管理和调度，构成一个计算资源池，以向用户提供按需服务。

由于云计算具有超大规模、虚拟化、高可靠性、通用性、高扩展性、按需服务等特性，云计算越来越受到广泛的关注。

在云计算应用中，云计算数据中心整合计算资源、存储资源和网络资源，利用虚拟化等技术并通过网络提供给用户使用。应用的形式可以包括虚拟机(Virtual Machine，简称为“VM”)、存储卷等。虚拟化技术通过产生大规模的虚拟机和大规模的存储卷等应用，构成大规模大规模集群。如何对大规模大规模集群进行性能管理以及体验保证成为越来越需要关注的问题。

现有的大规模大规模集群的管理通常以服务器(Server)、资源池(Pool) 甚至集群(Cluster)为单位，即使以用户为单位的性能管理也仅仅针对少数VIP用户所对应的少量资源，这样，绝大多数的用户的性能管理是无法被保证的，用户体验较差。

发明内容

本发明实施例提供一种大规模集群的管理方法、装置和系统，能够按照服务等级对用户进行性能管理和资源调度，提高用户体验。

第一方面，提供了一种大规模集群的管理方法，包括：在多个服务等级的第一服务等级对应的管理对象中确定至少一个管理对象，其中所述管理对象为所述大规模集群中的资源单元；确定所述至少一个管理对象的目标性能；获取所述至少一个管理对象的实际性能；根据所述目标性能和所述实际性能对所述第一服务等级对应的管理对象进行性能管理。

结合第一方面，在第一方面的第一种实现方式中，所述在多个服务等级的第一服务等级对应的管理对象中确定至少一个管理对象之前，还包括：根据服务等级协议SLA为所述大规模集群中的管理对象确定所述多个服务等级。

结合第一方面及其上述实现方式，在第一方面的第二种实现方式中，所述根据SLA为所述大规模集群中的管理对象确定多个服务等级之后，还包括：确定所述多个服务等级中第一服务等级的目标性能；所述确定所述至少一个管理对象的目标性能，包括：将所述第一服务等级的目标性能确定为所述至少一个管理对象的目标性能。

结合第一方面及其上述实现方式，在第一方面的第三种实现方式中，所述确定所述至少一个管理对象的目标性能包括以下中的至少一种：根据预定的性能策略确定所述至少一个管理对象对应的所述目标性能；或者人工设置所述至少一个管理对象的所述目标性能。

结合第一方面及其上述实现方式，在第一方面的第四种实现方式中，所述目标性能的类型包括响应时延、每秒读写次数IOPS、数据传输速率、CPU占用率中的至少一种。

结合第一方面及其上述实现方式，在第一方面的第五种实现方式中，所述获取所述至少一个管理对象的实际性能，包括：周期性或持续性地监测所述至少一个管理对象的实际性能。

结合第一方面及其上述实现方式，在第一方面的第六种实现方式中，所述根据所述目标性能和所述实际性能对所述第一服务等级对应的管理对象进行性能管理，包括：确定获取到的所述实际性能是否满足所述目标性能；在所述实际性能不满足所述目标性能时，对所述第一服务等级对应的管理对象和/或所述多个服务等级中除所述第一服务等级的其他服务等级对应的管理对象进行所述性能管理，以使得所述第一服务等级的实际性能满足所述目标性能。

结合第一方面及其上述实现方式，在第一方面的第七种实现方式中，所述性能管理包括以下中的至少一种：业务迁移；业务限制；流量控制；资源调度；发出告警。

结合第一方面及其上述实现方式，在第一方面的第八种实现方式中，在所述实际性能满足所述目标性能时，重复执行所述在多个服务等级的第一服务等级对应的管理对象中确定至少一个管理对象的步骤，或者重复执行所述获取所述至少一个管理对象的实际性能的步骤。

结合第一方面及其上述实现方式，在第一方面的第九种实现方式中，所述在多个服务等级的第一服务等级对应的管理对象中确定至少一个管理对象，包括：在所述第一服务等级对应的管理对象中确定满足预定条件的至少一个管理对象，其中所述预定条件包括建立时间、位置信息、负载情况和历史记录中的至少一种；或者根据预定算法在所述第一服务等级对应的管理对象中确定至少一个管理对象，其中所述预定算法包括随机选取、顺序选取、时间动态选取中的至少一种。

结合第一方面及其上述实现方式，在第一方面的第十种实现方式中，所述管理对象包括虚拟机VM、存储卷、虚拟交换机vSwitch、虚拟本地局域网vLAN、输入输出I/O端口、交换机、网络带宽和服务器中的至少一种。

第二方面，提供了一种大规模集群的管理装置，包括：确定单元，用于在多个服务等级的第一服务等级对应的管理对象中确定至少一个管理对象，其中所述管理对象为所述大规模集群中的资源单元；所述确定单元还用于确定所述至少一个管理对象的目标性能；获取单元，用于获取所述至少一个管理对象的实际性能；性能管理单元，用于根据所述目标性能和所述实际性能对所述第一服务等级对应的管理对象进行性能管理。

结合第二方面，在第二方面的第一种实现方式中，所述确定单元还用于：根据服务等级协议SLA为所述大规模集群中的管理对象确定所述多个服务等级。

结合第二方面及其上述实现方式，在第二方面的第二种实现方式中，所述确定单元还用于：确定所述多个服务等级中第一服务等级的目标性能；将所述第一服务等级的目标性能确定为所述至少一个管理对象的目标性能。

结合第二方面及其上述实现方式，在第二方面的第三种实现方式中，所述确定单元具体用于：根据预定的性能策略确定所述至少一个管理对象对应的所述目标性能；或者人工设置所述至少一个管理对象的所述目标性能。

结合第二方面及其上述实现方式，在第二方面的第四种实现方式中，所述确定单元确定的目标性能的类型包括响应时延、每秒读写次数IOPS、数据传输速率、CPU占用率中的至少一种。

结合第二方面及其上述实现方式，在第二方面的第五种实现方式中，所述获取单元具体用于：周期性或持续性地监测所述至少一个管理对象的实际性能。

结合第二方面及其上述实现方式，在第二方面的第六种实现方式中，所述性能管理单元具体用于：通过所述确定单元确定获取到的所述实际性能是否满足所述目标性能；在所述实际性能不满足所述目标性能时，对所述第一服务等级对应的管理对象和/或所述多个服务等级中除所述第一服务等级的其他服务等级对应的管理对象进行所述性能管理，以使得所述第一服务等级的实际性能满足所述目标性能。

结合第二方面及其上述实现方式，在第二方面的第七种实现方式中，所述性能管理包括以下中的至少一种：业务迁移；业务限制；流量控制；资源调度；发出告警。

结合第二方面及其上述实现方式，在第二方面的第八种实现方式中，在所述实际性能满足所述目标性能时，所述确定单元重复执行所述在多个服务等级的第一服务等级对应的管理对象中确定至少一个管理对象的步骤，或者所述获取单元重复执行所述获取所述至少一个管理对象的实际性能的步骤。

结合第二方面及其上述实现方式，在第二方面的第九种实现方式中，所述确定单元具体用于：

在所述第一服务等级对应的管理对象中确定满足预定条件的至少一个管理对象，其中所述预定条件包括建立时间、位置信息、负载情况和历史记录中的至少一种；或者根据预定算法在所述第一服务等级对应的管理对象中确定至少一个管理对象，其中所述预定算法包括随机选取、顺序选取、时间动态选取中的至少一种。

结合第二方面及其上述实现方式，在第二方面的第九种实现方式中，所述管理对象包括虚拟机VM、存储卷、虚拟交换机vSwitch、虚拟本地局域网vLAN、输入输出I/O端口、交换机、网络带宽和服务器中的至少一种。

本发明实施例通过在大规模集群的第一服务等级对应的管理对象中确定至少一个管理对象，并根据该至少一个管理对象的目标性能和实际性能对该第一服务等级对应的所有管理对象进行性能管理，从而能够保证绝大多数甚至是全部用户的性能达到目标性能，提高或者保障了用户体验。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的大规模集群管理系统的系统框图；

图2是本发明一个实施例的管理方法的流程图；

图3是本发明一个实施例的管理方法的流程图；

图4是本发明一个实施例的管理装置的示意框图；

图5是本发明另一实施例的管理装置的示意框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

图1是本发明一个实施例的大规模集群的管理系统的系统框图。图1中示出的大规模集群的管理系统100包括：管理对象确定模块101、目标性能确定模块102、实际性能获取模块103、性能管理模块104和大规模集群105。其中管理对象确定模块101、实际性能获取模块103和性能管理模块104都与大规模集群105相连接，管理对象确定模块101与目标性能确定模块102相连接，目标性能确定模块102和实际性能获取模块103都与性能管理模块104相连接。

管理对象确定模块101用于在多个服务等级的第一服务等级对应的管理对象中确定至少一个管理对象，其中管理对象为大规模集群105中的资源单元。资源单元可以分为计算资源单元、存储资源单元、网络资源单元、物理资源单元等。更具体一些，计算资源单元可以为虚拟机(Virtual Machine，VM)等，存储资源单元可以为存储卷和逻辑单元号(Logical Unit Number，LUN)等，网络资源单元可以为输入输出(Input/Output，I/O)端口、网络带宽、虚拟交换机(Virtual Switch,vSwitch)、虚拟局域网(Virtual Local Area Network,vLAN)、交换机等，物理资源单元可以为服务器等。

目标性能确定模块102用于确定上述至少一个管理对象的目标性能，具体地，可以根据预定的性能策略确定至少一个管理对象对应的目标性能；或者人工设置至少一个管理对象的目标性能；或者将上述至少一个管理对象对应的第一服务等级的目标性能确定为该至少一个管理对象的目标性能。

实际性能获取模块103用于获取上述至少一个管理对象的实际性能，具体地，可以周期性或持续性地监测并且统计至少一个管理对象的实际性能。

性能管理模块104用于根据目标性能确定模块102确定的目标性能和实际性能获取模块103获取到的实际性能对第一服务等级对应的管理对象进行性能管理。

具体地，在实际性能不满足目标性能时，对第一服务等级对应的管理对象和/或多个服务等级中除第一服务等级的其他服务等级对应的管理对象进行性能管理，以使得第一服务等级的实际性能满足目标性能，其中性能管理的方法包括但不限于以下几种：业务迁移；业务限制；流量控制；资源调度；发出告警等。

在实际性能满足目标性能时，可以由目标性能确定模块102重新确定至少一个管理对象，或者可以由实际性能获取模块103继续监测之前确定的至少一个管理对象的实际性能。

本发明实施例的大规模集群的管理系统100通过在第一服务等级对应的管理对象中确定至少一个管理对象，并根据该至少一个管理对象的目标性能和实际性能对该第一服务等级对应的所有管理对象进行性能管理，从而能够保证绝大多数甚至是全部用户的性能达到目标性能，提高或者保障了用户体验。

图2是本发明一个实施例的管理方法的流程图。

201，在多个服务等级的第一服务等级对应的管理对象中确定至少一个管理对象，其中管理对象为大规模集群中的资源单元。

202，确定至少一个管理对象的目标性能。

203，获取至少一个管理对象的实际性能。

204，根据目标性能和实际性能对第一服务等级对应的管理对象进行性能管理。

本发明实施例通过在大规模集群的第一服务等级对应的管理对象中确定至少一个管理对象，并根据该至少一个管理对象的目标性能和实际性能对该第一服务等级对应的所有管理对象进行性能管理，从而能够保证绝大多数甚至是全部用户的性能达到目标性能，提高了用户体验。

应理解，大规模集群的资源单元可以分为计算资源单元、存储资源单元、网络资源单元、物理资源单元等，用于为用户提供计算、存储、传输等服务。更具体一些，计算资源单元可以为虚拟机VM等，存储资源单元可以为存储卷和逻辑单元号LUN等，网络资源单元可以为输入输出I/O端口、虚拟交换机vSwitch、虚拟局域网vLAN、交换机和网络带宽等，物理资源单元可以为服务器等。

可选地，作为一个实施例，在多个服务等级的第一服务等级对应的管理对象中确定至少一个管理对象之前，还包括：根据服务等级协议(Service level Agreement，SLA)为大规模集群中的管理对象确定多个服务等级。

首先，作为一个前置过程，可以在选取管理对象之前首先对大规模集群中的用户或者管理对象进行服务等级的划分。具体地可以通过SLA来进行等级划分，也可以由网络维护人员根据一定的属性，例如管理对象的地点信息、服务类型、服务目标等进行等级划分。在等级划分的对象为用户时，等同于等级划分的对象为向用户提供服务的至少一个资源单元，即管理对象。

此外，服务等级的划分可以是单纯的等级划分，也可以在进行服务等级划分时就确定了某个/多个服务等级的目标性能，这里目标性能可以理解为所要达到的服务质量(Quality of Service，QoS)。

可选地，作为一个实施例，根据SLA为大规模集群中的管理对象确定多个服务等级之后，还包括：确定多个服务等级中第一服务等级的目标性能；确定至少一个管理对象的目标性能，包括：将第一服务等级的目标性能确定为至少一个管理对象的目标性能。结合上述实施例，在划分服务等级时如果已经确定了服务等级的目标性能，则可以将该服务等级的目标性能确定为该服务等级中选取的作为样本的至少一个管理对象的目标性能。

可选地，作为一个实施例，确定至少一个管理对象的目标性能包括以下中的至少一种：根据预定的性能策略确定至少一个管理对象对应的目标性能；或者人工设置至少一个管理对象的目标性能。

除了上述将服务等级的目标性能确定为管理对象的服务性能之外，还可以直接针对确定的至少一个管理对象确定其目标性能，具体地可以根据预定的性能策略来确定，即系统中可以预设有性能策略文件，通过管理对象的某些属性结合性能策略文件能够确定使得管理对象能够得到性能保证的目标性能，举个例子，策略文件可以包含管理对象的服务类型、地理位置等信息与目标性能的对应关系。此外，还可以由网络维护人员通过管理界面手动设置管理对象的目标性能。

可选地，作为一个实施例，目标性能的类型可以包括但不限于响应时延、每秒读写次数IOPS、数据传输速率、CPU占用率中的至少一种。容易理解地，目标性能可以是单一参数，也可以是多种参数的组合，本发明对此并不限定。

可选地，作为一个实施例，获取至少一个管理对象的实际性能，包括：周期性或持续性地监测至少一个管理对象的实际性能。应理解，实际性能可以与目标性能的类型相同，也可以不同。

可选地，作为一个实施例，根据目标性能和实际性能对第一服务等级对应的管理对象进行性能管理，包括：确定获取到的实际性能是否满足目标性能；在实际性能不满足目标性能时，对第一服务等级对应的管理对象和/或多个服务等级中除第一服务等级的其他服务等级对应的管理对象进行性能管理，以使得第一服务等级的实际性能满足目标性能。

可选地，性能管理可以包括但不限于以下中的至少一种：业务迁移；业务限制；流量控制；资源调度；发出告警。

也就是说，如果检测到的实际性能不满足预期(目标性能)，则可以对当前检测的第一服务等级、或者其他服务等级进行业务迁移、业务限制、流量控制、资源调度等操作来使得该第一服务等级能够满足目标性能。例如，当第一服务等级中选定的至少一个管理对象被监测到的实际性能为CPU占用率高于90％(目标性能为CPU占用率小于等于90％)，则可以对该第一服务等级的管理对象进行业务迁移，以使得CPU占用率降至90％或以下，应理解，还可以使用其他调控方法来达到目标性能，例如为该第一服务等级的管理对象分配更多的资源等等，本发明对此并不限定。

此外，还可能通过对其他服务等级进行管控或调度来使得第一服务等级达到目标性能，例如，当第一服务等级的实际性能I/O时延不满足目标性能时，可以通过降低较低优先级的服务等级的业务流量来使得第一服务等级满足目标性能。当然，还可以通过同时对第一服务等级和其他服务等级进行管控或调度来使得第一服务等级达到目标性能。另外，还可以发出告警而暂不进行管控或调度，等待工作人员或其他网管设备的进一步指令。不失一般性地，还可以通过对第一服务等级进行性能管理，以使得其他服务等级达到期望性能。

可选地，在实际性能不满足目标性能时，也可以重复执行在多个服务等级的第一服务等级对应的管理对象中确定至少一个管理对象的步骤，或者重复执行获取至少一个管理对象的实际性能的步骤。也就是说，可以重新进行采样进行再次检测，或者继续持续进行监测。这样，可以通过设定重复次数的阈值来使得性能管理系统的采样和监测有更高的精度，更加接近实际的情况。例如，可以预先设定重复采样2次所监测到的实际性能都不满足目标性能，则确定进行上述性能管理。

可选地，作为一个实施例，在实际性能满足目标性能时，重复执行在多个服务等级的第一服务等级对应的管理对象中确定至少一个管理对象的步骤，或者重复执行获取至少一个管理对象的实际性能的步骤。当性能满足不需要管控或者调度时，可以进行重新采样，即在第一服务等级中重新选定至少一个管理对象。也可以继续针对先前采样的至少一个管理对象进行监测，以便于在其性能不满足目标性能时进行性能管理。

可选地，作为一个实施例，在多个服务等级的第一服务等级对应的管理对象中确定至少一个管理对象，包括：在第一服务等级对应的管理对象中确定满足预定条件的至少一个管理对象，其中预定条件包括建立时间、位置信息、负载情况和历史记录中的至少一种；或者根据预定算法在第一服务等级对应的管理对象中确定至少一个管理对象，其中预定算法包括随机选取、顺序选取、时间动态选取中的至少一种。

可选地，作为一个实施例，管理对象包括虚拟机VM、存储卷、输入输出I/O端口、网络带宽和服务器中的至少一种。

图3是本发明一个实施例的管理方法的流程图。

301，服务等级划分

首先，作为一个可选步骤，可以在选取管理对象之前对大规模集群中的用户或者管理对象进行服务等级的划分。具体地可以通过SLA来进行等级划分，也可以由网络维护人员根据一定的属性，例如管理对象的地点信息、服务类型、服务目标等进行等级划分。在等级划分的对象为用户时，等同于等级划分的对象为向用户提供服务的至少一个资源单元，即管理对象。

302，选取管理对象

在大规模集群中选取少量管理对象作为管理对象，这里需要保证一个服务等级中选取至少一个管理对象，其中管理对象为大规模集群中为用户提供服务的资源单元。具体地，大规模集群的资源单元可以分为计算资源单元、存储资源单元、网络资源单元、物理资源单元等，用于为用户提供计算、存储、传输等服务。更具体一些，计算资源单元可以为虚拟机VM等，存储资源单元可以为存储卷和逻辑单元号LUN等，网络资源单元可以为输入输出I/O端口和网络带宽等，物理资源单元可以为服务器等。

针对第一服务等级来说，可以在第一服务等级对应的管理对象中确定满足预定条件的至少一个管理对象，其中预定条件包括建立时间、位置信息、负载情况和历史记录中的至少一种，例如，预定条件为负载情况达到最大载荷的90％，或者历史记录中出现过N次故障以上等。应理解，选取的至少一个管理对象可以为同一类管理对象，也可以为不同类的管理对象，例如，可以都为VM、也可以都为存储卷，还可以VM、存储卷等都包含，只要他们是符合上述预定条件的。此外，预定条件也可以为组合形式存在，例如负载情况达到最大载荷的90％的VM，历史记录中出现过N次故障以上的服务器，等等，本发明对此并不限定。

此外，还可以根据预定算法在第一服务等级对应的管理对象中确定至少一个管理对象，其中预定算法包括但不限于随机选取、顺序选取、时间动态选取、智能选取等。作为一个例子，如果预定算法为随机选取，则在管理对象选取时，在第一服务等级中随机选定一定数量的管理对象，这里的数量同样可以是预定算法中预先指定的，又例如，时间动态选取，可以在不同的时间段，或者随着时间的变化而动态地选取管理对象，这样能够保证样本的活性。

不失一般性地，还可以直接指定被采样的管理对象，例如可以由网络维护人员在网络拓扑界面中为某个服务等级选取一个或多个管理对象，作为性能管理的样本。

应理解，由于上述步骤301为可选步骤，因此在步骤301执行时，步骤302中的第一服务等级为上述步骤301中划分的多个服务等级中的一个，在这里，“第一”服务等级仅用于表示某个服务等级，可以为上述多个服务等级中的任意一个。在步骤301不执行时，大规模集群中仍然可以存在服务等级，该服务等级可以是历史确定的服务等级，也可以是用户签约入网时约定的服务等级，此处并不限定。服务等级可以理解为按照相同或相近的性能要求、性能指标、业务类型等确定的管理对象分组。

303，确定目标性能

在确定了作为性能管理样本的至少一个管理对象后，可以确定管理对象的目标性能。具体地，可以根据预定的性能策略确定至少一个管理对象对应的目标性能，还可以人工设置至少一个管理对象的目标性能。也就是说，系统中可以预设有性能策略文件，通过管理对象的某些属性结合性能策略文件能够确定使得管理对象能够得到性能保证的目标性能，举个例子，策略文件可以包含管理对象的服务类型、地理位置等信息与目标性能的对应关系。此外，还可以由网络维护人员通过管理界面手动设置管理对象的目标性能。例如，管理对象为存储卷，具有多个服务等级，针对其中一个服务等级中被选取为样本的存储卷可以将其目标性能设置为时延小于3ms，该设定可以通过手动设定，也可以是通过策略文件确定的。

此外，还有可能服务等级已经预先对应了目标性能(服务质量QoS)，例如，在上述步骤301中划分服务等级时如果已经确定了服务等级的目标性能，则可以将该服务等级的目标性能确定为该服务等级中选取的作为样本的至少一个管理对象的目标性能。

目标性能的类型有很多，可以包括但不限于响应时延、每秒读写次数IOPS、数据传输速率、CPU占用率等等。容易理解地，目标性能可以是单一参数，也可以是多种参数的组合，本发明对此并不限定。

304，监测实际性能

周期性或持续性地监测步骤303中确定的至少一个管理对象的实际性能。检测的实际性能的类型可以与目标类型相同，也可以不同。具体地，在上述步骤303确定的目标性能为时延小于3ms时，检测的实际性能的类型也可是时延，例如监测到管理对象的实际时延为4ms。此外，检测的实际性能与目标类型不同的情况也可能存在，例如，目标性能要求是VM创建时间小于2min,而监控的实际性能指标为MBPS(带宽)，则系统认为MBPS达不到50MB/S,VM 2min内创建完成的目标不可达成，故进行性能策略调度等等。

305，判断

系统在接收到检测的实际性能后，可以对检测到的实际性能的数据结合目标性能进行分析，即判断实际性能是否达到目标性能。也就是说，可以通过上述步骤302中确定的采样的管理对象的性能表现来预估决策整个同服务等级的管理对象或集群资源，以便于对该服务等级进行整体评估和管理。

306，不满足目标性能

如果经过判断确定上述实际性能不满足目标性能，则需要确定进行何种方式的性能管理。一般来说有几种性能管理方式：例如迁移、限制、调度、告警等等。例如，目标性能设定了IO延时、IOPS和CPU占用率，实际监测到的实际性能CPU占用率超标，则可以指定迁移策略，执行业务迁移，减少该服务等级的管理对象的业务负载，以满足用户体验指标要求，同时可以平衡全系统的负载；如果实际性能IO时延超标，则可以进行资源调度，增加此服务等级的资源配比，如CPU、缓存等，还可以通过限制较低优先级的服务等级的业务流量来满足此服务等级的需求。另外，还可以发出告警而暂不进行管控或调度，等待工作人员或其他网管设备的进一步指令。此外，还可以通过对第一服务等级进行性能管理来使得其他服务等级的需求得到满足。

此外，在实际性能不满足目标性能时，也可以重复执行在多个服务等级的第一服务等级对应的管理对象中确定至少一个管理对象的步骤，或者重复执行获取至少一个管理对象的实际性能的步骤。也就是说，可以重新进行采样进行再次检测，或者继续持续进行监测。这样，可以通过设定重复次数的阈值来使得性能管理系统的采样和监测有更高的精度，更加接近实际的情况。例如，可以预先设定重复采样2次所监测到的实际性能都不满足目标性能，则确定进行上述性能管理。

307，满足目标性能

在实际性能满足目标性能时，可以返回步骤302或者可以返回步骤304。也就是说当性能满足而不需要管控或者调度时，可以进行重新采样，即在第一服务等级中重新选定至少一个管理对象。也可以继续针对先前采样的至少一个管理对象进行监测，以便于在其性能不满足目标性能时进行性能管理。

图4是本发明一个实施例的管理装置的示意框图。图4中的管理装置400包括确定单元401、获取单元402和性能管理单元403。

确定单元401在多个服务等级的第一服务等级对应的管理对象中确定至少一个管理对象，其中管理对象为大规模集群中的资源单元；确定单元401确定至少一个管理对象的目标性能；获取单元402获取至少一个管理对象的实际性能。性能管理单元403根据目标性能和实际性能对第一服务等级对应的管理对象进行性能管理。

本发明实施例的管理装置400通过在大规模集群的第一服务等级对应的管理对象中确定至少一个管理对象，并根据该至少一个管理对象的目标性能和实际性能对该第一服务等级对应的所有管理对象进行性能管理，从而能够保证绝大多数甚至是全部用户的性能达到目标性能，提高了用户体验。

应理解，大规模集群的资源单元可以分为计算资源单元、存储资源单元、网络资源单元、物理资源单元等，用于为用户提供计算、存储、传输等服务。更具体一些，计算资源单元可以为虚拟机VM等，存储资源单元可以为存储卷和逻辑单元号LUN等，网络资源单元可以为输入输出I/O端口和网络带宽等，物理资源单元可以为服务器等。

还应理解，本发明实施例中的确定单元401可以对应于上述图1所示的大规模集群管理系统100中的管理对象确定模块101和目标性能确定模块102；获取单元402可以对应于上述图1所示的大规模集群管理系统100中的实际性能获取模块103；性能管理单元403可以对应于上述图1所示的大规模集群管理系统100中的性能管理模块104。

可选地，作为一个实施例，确定单元401根据服务等级协议(Service level Agreement，SLA)为大规模集群中的管理对象确定多个服务等级。

首先，作为一个前置过程，可以通过确定单元401在选取管理对象之前首先对大规模集群中的用户或者管理对象进行服务等级的划分。具体地可以通过SLA来进行等级划分，也可以由网络维护人员根据一定的属性，例如管理对象的地点信息、服务类型、服务目标等进行等级划分。在等级划分的对象为用户时，等同于等级划分的对象为向用户提供服务的至少一个资源单元，即管理对象。

可选地，作为一个实施例，根据SLA为大规模集群中的管理对象确定多个服务等级之后，确定单元401还可以用于确定多个服务等级中第一服务等级的目标性能；确定至少一个管理对象的目标性能，包括：将第一服务等级的目标性能确定为至少一个管理对象的目标性能。结合上述实施例，在划分服务等级时如果已经确定了服务等级的目标性能，则可以将该服务等级的目标性能确定为该服务等级中选取的作为样本的至少一个管理对象的目标性能。

可选地，作为一个实施例，确定单元401还可以用于根据预定的性能策略确定至少一个管理对象对应的目标性能；或者人工设置至少一个管理对象的目标性能。

除了上述将服务等级的目标性能确定为管理对象的服务性能之外，确定单元401还可以直接针对确定的至少一个管理对象确定其目标性能，具体地可以根据预定的性能策略来确定，即系统中可以预设有性能策略文件，通过管理对象的某些属性结合性能策略文件能够确定使得管理对象能够得到性能保证的目标性能，举个例子，策略文件可以包含管理对象的服务类型、地理位置等信息与目标性能的对应关系。此外，还可以由网络维护人员通过管理界面手动设置管理对象的目标性能。

可选地，作为一个实施例，获取单元402具体用于周期性或持续性地监测至少一个管理对象的实际性能。应理解，实际性能可以与目标性能的类型相同，也可以不同。

可选地，作为一个实施例，性能管理单元403具体用于确定获取到的实际性能是否满足目标性能；在实际性能不满足目标性能时，对第一服务等级对应的管理对象和/或多个服务等级中除第一服务等级的其他服务等级对应的管理对象进行性能管理，以使得第一服务等级的实际性能满足目标性能。

此外，还可能通过对其他服务等级进行管控或调度来使得第一服务等级达到目标性能，例如，当第一服务等级的实际性能I/O时延不满足目标性能时，可以通过降低较低优先级的服务等级的业务流量来使得第一服务等级满足目标性能。当然，还可以通过同时对第一服务等级和其他服务等级进行管控或调度来使得第一服务等级达到目标性能。另外，还可以发出告警而暂不进行管控或调度，等待工作人员或其他网管设备的进一步指令。

可选地，作为一个实施例，在实际性能满足目标性能时，确定单元401重复执行在多个服务等级的第一服务等级对应的管理对象中确定至少一个管理对象的步骤，或者获取单元402重复执行获取至少一个管理对象的实际性能的步骤。当性能满足不需要管控或者调度时，可以进行重新采样，即在第一服务等级中重新选定至少一个管理对象。也可以继续针对先前采样的至少一个管理对象进行监测，以便于在其性能不满足目标性能时进行性能管理。

可选地，作为一个实施例，确定单元401还用于在第一服务等级对应的管理对象中确定满足预定条件的至少一个管理对象，其中预定条件包括建立时间、位置信息、负载情况和历史记录中的至少一种；或者根据预定算法在第一服务等级对应的管理对象中确定至少一个管理对象，其中预定算法包括随机选取、顺序选取、时间动态选取中的至少一种。

可选地，作为一个实施例，管理对象包括虚拟机VM、存储卷、输入输出I/O端口、虚拟交换机vSwitch、虚拟局域网vLAN、交换机、网络带宽和服务器中的至少一种。

本发明实施例的管理装置400通过在大规模集群的第一服务等级对应的管理对象中确定至少一个管理对象，并根据该至少一个管理对象的目标性能和实际性能对该第一服务等级对应的所有管理对象进行性能管理，从而能够保证绝大多数甚至是全部用户的性能达到目标性能，提高或者保障了用户体验。

图5是本发明另一实施例的管理装置的示意框图。图5的管理装置500包括处理器51和存储器52，处理器51和存储器52通过总线系统53相连。

存储器52用于存储使得处理器51执行以下操作的指令：在多个服务等级的第一服务等级对应的管理对象中确定至少一个管理对象，其中管理对象为大规模集群中的资源单元；确定至少一个管理对象的目标性能；获取至少一个管理对象的实际性能；根据目标性能和实际性能对第一服务等级对应的管理对象进行性能管理。

本发明实施例的管理装置500通过在大规模集群的第一服务等级对应的管理对象中确定至少一个管理对象，并根据该至少一个管理对象的目标性能和实际性能对该第一服务等级对应的所有管理对象进行性能管理，从而能够保证绝大多数甚至是全部用户的性能达到目标性能，提高了用户体验。

此外，管理装置50还可以包括发射电路54、接收电路55等。处理器51控制管理装置50的操作，处理器51还可以称为CPU(Central Processing Unit，中央处理单元)。存储器52可以包括只读存储器和随机存取存储器，并向处理器51提供指令和数据。存储器52的一部分还可以包括非易失性随机存取存储器(NVRAM)。管理装置50的各个组件通过总线系统53耦合在一起，其中总线系统53除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线系统53。

上述本发明实施例揭示的方法可以应用于处理器51中，或者由处理器51实现。处理器51可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器51中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器51可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器52，处理器51读取存储器52中的信息，结合其硬件完成上述方法的步骤。

可选地，作为一个实施例，在多个服务等级的第一服务等级对应的管理对象中确定至少一个管理对象之前，还包括：根据服务等级协议SLA为大规模集群中的管理对象确定多个服务等级。

可选地，作为一个实施例，根据SLA为大规模集群中的管理对象确定多个服务等级之后，还包括：确定多个服务等级中第一服务等级的目标性能；确定至少一个管理对象的目标性能，包括：将第一服务等级的目标性能确定为至少一个管理对象的目标性能。

可选地，作为一个实施例，目标性能的类型包括响应时延、每秒读写次数IOPS、数据传输速率、CPU占用率中的至少一种。

可选地，作为一个实施例，获取至少一个管理对象的实际性能，包括：周期性或持续性地监测至少一个管理对象的实际性能。

可选地，作为一个实施例，性能管理包括以下中的至少一种：业务迁移；业务限制；流量控制；资源调度；发出告警。

可选地，作为一个实施例，在实际性能满足目标性能时，重复执行在多个服务等级的第一服务等级对应的管理对象中确定至少一个管理对象的步骤，或者重复执行获取至少一个管理对象的实际性能的步骤。

可选地，作为一个实施例，管理对象包括虚拟机VM、存储卷、输入输出I/O端口、网络带宽、虚拟交换机vSwitch、虚拟局域网vLAN、交换机和服务器中的至少一种。

本发明实施例的管理装置500通过在大规模集群的第一服务等级对应的管理对象中确定至少一个管理对象，并根据该至少一个管理对象的目标性能和实际性能对该第一服务等级对应的所有管理对象进行性能管理，从而能够保证绝大多数甚至是全部用户的性能达到目标性能，提高或者保障了用户体验。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

一种大规模集群的管理方法，其特征在于，包括：

在多个服务等级的第一服务等级对应的管理对象中确定至少一个管理对象，其中所述管理对象为所述大规模集群中的资源单元；

确定所述至少一个管理对象的目标性能；

获取所述至少一个管理对象的实际性能；

根据所述目标性能和所述实际性能对所述第一服务等级对应的管理对象进行性能管理。
根据权利要求1所述的方法，其特征在于，所述在多个服务等级的第一服务等级对应的管理对象中确定至少一个管理对象之前，还包括：根据服务等级协议SLA为所述大规模集群中的管理对象确定所述多个服务等级。
根据权利要求2所述的方法，其特征在于，所述根据SLA为所述大规模集群中的管理对象确定多个服务等级之后，还包括：确定所述多个服务等级中第一服务等级的目标性能；

所述确定所述至少一个管理对象的目标性能，包括：将所述第一服务等级的目标性能确定为所述至少一个管理对象的目标性能。
根据权利要求2或3所述的方法，其特征在于，所述确定所述至少一个管理对象的目标性能包括以下中的至少一种：根据预定的性能策略确定所述至少一个管理对象对应的所述目标性能；或者人工设置所述至少一个管理对象的所述目标性能。
根据权利要求1-4中任意一项所述的方法，其特征在于，所述目标性能的类型包括响应时延、每秒读写次数IOPS、数据传输速率、CPU占用率中的至少一种。
根据权利要求5所述的方法，其特征在于，所述获取所述至少一个管理对象的实际性能，包括：周期性或持续性地监测所述至少一个管理对象的实际性能。
根据权利要求1所述的方法，其特征在于，所述根据所述目标性能和所述实际性能对所述第一服务等级对应的管理对象进行性能管理，包括：

确定获取到的所述实际性能是否满足所述目标性能；

在所述实际性能不满足所述目标性能时，对所述第一服务等级对应的管理对象和/或所述多个服务等级中除所述第一服务等级的其他服务等级对应的管理对象进行所述性能管理，以使得所述第一服务等级的实际性能满足所述目标性能。
根据权利要求7所述的方法，其特征在于，所述性能管理包括以下中的至少一种：业务迁移；业务限制；流量控制；资源调度；发出告警。
根据权利要求7所述的方法，其特征在于，在所述实际性能满足所述目标性能时，重复执行所述在多个服务等级的第一服务等级对应的管理对象中确定至少一个管理对象的步骤，或者重复执行所述获取所述至少一个管理对象的实际性能的步骤。
根据权利要求1-9中任意一项所述的方法，其特征在于，所述在多个服务等级的第一服务等级对应的管理对象中确定至少一个管理对象，包括：

在所述第一服务等级对应的管理对象中确定满足预定条件的至少一个管理对象，其中所述预定条件包括建立时间、位置信息、负载情况和历史记录中的至少一种；或者

根据预定算法在所述第一服务等级对应的管理对象中确定至少一个管理对象，其中所述预定算法包括随机选取、顺序选取、时间动态选取中的至少一种。
根据权利要求1-10中任意一项所述的方法，其特征在于，所述管理对象包括虚拟机VM、存储卷、虚拟交换机vSwitch、虚拟本地局域网vLAN、输入输出I/O端口、网络带宽、交换机和服务器中的至少一种。
一种大规模集群的管理装置，其特征在于，包括：

确定单元，用于在多个服务等级的第一服务等级对应的管理对象中确定至少一个管理对象，其中所述管理对象为所述大规模集群中的资源单元；

所述确定单元还用于确定所述至少一个管理对象的目标性能；

获取单元，用于获取所述至少一个管理对象的实际性能；

性能管理单元，用于根据所述目标性能和所述实际性能对所述第一服务等级对应的管理对象进行性能管理。
根据权利要求12所述的装置，其特征在于，所述确定单元还用于：根据服务等级协议SLA为所述大规模集群中的管理对象确定所述多个服务等级。
根据权利要求13所述的装置，其特征在于，所述确定单元还用于：

确定所述多个服务等级中第一服务等级的目标性能；

将所述第一服务等级的目标性能确定为所述至少一个管理对象的目标性能。
根据权利要求13或14所述的装置，其特征在于，所述确定单元具体用于：根据预定的性能策略确定所述至少一个管理对象对应的所述目标性能；或者人工设置所述至少一个管理对象的所述目标性能。
根据权利要求12-15中任意一项所述的装置，其特征在于，所述确定单元确定的目标性能的类型包括响应时延、每秒读写次数IOPS、数据传输速率、CPU占用率中的至少一种。
根据权利要求16所述的装置，其特征在于，所述获取单元具体用于：周期性或持续性地监测所述至少一个管理对象的实际性能。
根据权利要求12所述的装置，其特征在于，所述性能管理单元具体用于：

通过所述确定单元确定获取到的所述实际性能是否满足所述目标性能；

在所述实际性能不满足所述目标性能时，对所述第一服务等级对应的管理对象和/或所述多个服务等级中除所述第一服务等级的其他服务等级对应的管理对象进行所述性能管理，以使得所述第一服务等级的实际性能满足所述目标性能。
根据权利要求18所述的装置，其特征在于，所述性能管理包括以下中的至少一种：业务迁移；业务限制；流量控制；资源调度；发出告警。
根据权利要求18所述的装置，其特征在于，在所述实际性能满足所述目标性能时，所述确定单元重复执行所述在多个服务等级的第一服务等级对应的管理对象中确定至少一个管理对象的步骤，或者所述获取单元重复执行所述获取所述至少一个管理对象的实际性能的步骤。
根据权利要求12-20中任意一项所述的装置，其特征在于，所述确定单元具体用于：

在所述第一服务等级对应的管理对象中确定满足预定条件的至少一个管理对象，其中所述预定条件包括建立时间、位置信息、负载情况和历史记录中的至少一种；或者

根据预定算法在所述第一服务等级对应的管理对象中确定至少一个管理对象，其中所述预定算法包括随机选取、顺序选取、时间动态选取中的至少一种。
根据权利要求12-21中任意一项所述的装置，其特征在于，所述管理对象包括虚拟机VM、存储卷、虚拟交换机vSwitch、虚拟本地局域网vLAN、输入输出I/O端口、交换机、网络带宽和服务器中的至少一种。