WO2022142515A1

WO2022142515A1 - 管理实例的方法、装置以及云应用引擎

Info

Publication number: WO2022142515A1
Application number: PCT/CN2021/120102
Authority: WO
Inventors: 袁诗宇; 陈敏; 朱锦鸿; 莫介水; 刘云华; 田晓亮
Original assignee: 华为云计算技术有限公司
Priority date: 2020-12-31
Filing date: 2021-09-24
Publication date: 2022-07-07
Also published as: CN114691283A

Abstract

本申请提供了一种管理实例的方法和装置，该方法包括：在第一集群没有满足所述实例的资源时，在所述第一集群以外的其它节点创建实例；在所述第一集群具有满足所述实例的资源的节点时，将所述实例迁移至所述第一集群。上述技术方案中，可以在满足SLA的同时，保证用户的QoS。

Description

管理实例的方法、装置以及云应用引擎

本申请要求于2020年12月31日提交中国专利局、申请号为202011634458.4、申请名称为“管理实例的方法、装置以及云应用引擎”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机领域，并且更具体地，涉及一种管理实例的方法、装置以及云应用引擎。

背景技术

服务质量(quality of service，QoS)指一个网络能够利用各种基础技术，为指定的网络通信提供更好的服务能力，是网络的一种安全机制。服务质量可以根据应用程序的要求，保证数据流的性能达到一定的水准。

一个集群中的资源如果没有满足创建新的实例的资源时，会在该集群中增加节点，该节点准备还之后，其上的资源可以用于创建该新的实例。由于在集群中增加节点需要花费一定时间(例如从开始到集群中节点的资源完全准备好并可以接收请求，大概需要2到5分钟)，在这个等待节点准备的时间段内会产生大量的失败请求，降低了用户的QoS。

发明内容

本申请提供一种管理实例的方法、装置以及云应用引擎，可以满足服务等级协议(service level agreement，SLA)的同时，保证用户的服务质量(quality of service，QoS)。

第一方面，提供了一种管理实例的方法，包括：在第一集群没有满足所述实例的资源时，在所述第一集群以外的其它节点创建实例；在所述第一集群具有满足所述实例的资源的节点时，将所述实例迁移至所述第一集群。

上述技术方案中，在第一集群没有满足所述实例的资源时，先可以在第一集群以外的其它节点创建实例，并在第一集群中的节点准备好之后，将其它节点上创建的实例迁移到第一集群中。这样，在第一集群的节点准备的过程中，可以由第一集群以外的其它节点上创建的实例以及第一集群中的实例对用户请求进行处理，可以在满足SLA的同时，保证用户的QoS，避免在等待准备节点的过程中产生大量的失败请求。并且，还可以提高空闲资源的利用率，节省用户的成本。

结合第一方面，在第一方面的某些实现方式中，所述第一集群以外的其它节点属于第二集群。

结合第一方面，在第一方面的某些实现方式中，所述方法还包括：指示在所述第一集群创建实例时，确定所述第一集群是否具有满足所述实例的资源的节点。

结合第一方面，在第一方面的某些实现方式中，所述方法还包括：在所述第一集群没有满足所述实例的资源时，在所述第一集群增加满足所述实例的资源的节点。

结合第一方面，在第一方面的某些实现方式中，所述方法还包括：在第三集群的资源量大于所述第一集群的资源量时，在所述第三集群创建与所述第一集群上的多个实例等同功能的多个实例；在所述第三集群完成多个实例的创建之后，移出所述第一集群上的多个实例。

第二方面，提供了一种管理实例的装置，包括：创建模块、迁移模块，

创建模块，用于在第一集群没有满足所述实例的资源时，在所述第一集群以外的其它节点创建实例；

迁移模块，用于在所述第一集群具有满足所述实例的资源的节点时，将所述实例迁移至所述第一集群。

结合第二方面，在第二方面的某些实现方式中，所述第一集群以外的其它节点属于第二集群。

结合第二方面，在第二方面的某些实现方式中，所述装置还包括：确定模块，用于指示在所述第一集群创建实例时，确定所述第一集群是否具有满足所述实例的资源的节点。

结合第三方面，在第三方面的某些实现方式中，所述装置还包括：增加模块，用于在所述第一集群没有满足所述实例的资源时，在所述第一集群增加满足所述实例的资源的节点。

结合第二方面，在第二方面的某些实现方式中，所述创建模块，还用于在第三集群的资源量大于所述第一集群的资源量时，在所述第三集群创建与所述第一集群上的多个实例等同功能的多个实例；所述迁移模块，还用于在所述第三集群完成多个实例的创建之后，移出所述第一集群上的多个实例。

第三方面，提供了一种云应用引擎，包括输入输出接口、处理器和存储器，其中所述处理器用于控制所述输入输出接口收发信息，所述存储器用于存储计算机程序，所述处理器用于从存储器中调用并运行该计算机程序，使得所述执行第一方面或第一方面任意一种可能的实现方式中所述的方法。

可选地，该处理器可以是通用处理器，可以通过硬件来实现也可以通过软件来实现。当通过硬件实现时，该处理器可以是逻辑电路、集成电路等；当通过软件来实现时，该处理器可以是一个通用处理器，通过读取存储器中存储的软件代码来实现，该存储器可以集成在处理器中，可以位于该处理器之外，独立存在。

第四方面，提供了一种芯片，该芯片获取指令并执行该指令来实现上述第一方面以及第一方面的任意一种实现方式中的方法。

可选地，作为一种实现方式，该芯片包括处理器与数据接口，该处理器通过该数据接口读取存储器上存储的指令，执行上述第一方面以及第一方面的任意一种实现方式中的方法。

可选地，作为一种实现方式，该芯片还可以包括存储器，该存储器中存储有指令，该处理器用于执行该存储器上存储的指令，当该指令被执行时，该处理器用于执行第一方面以及第一方面中的任意一种实现方式中的方法。

第五方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行上述第一方面以及第一方面的任意一种实现方式中的方法。

第六方面，提供了一种计算机可读存储介质，包括指令；所述指令用于实现上述第一方面以及第一方面的任意一种实现方式中的方法。

可选地，作为一种实现方式，上述存储介质具体可以是非易失性存储介质。

附图说明

图1是集群100的示意性框图。

图2是适用于本申请的一种应用场景的示意性框图。

图3是本申请实施例提供的一种管理实例的方法的示意性流程图。

图4是本申请实施例提供的一种跨集群管理实例的场景示意图。

图5是本申请实施例提供的一种跨集群迁移实例的场景示意图。

图6是本申请实施例提供的一种集群升级的场景示意图。

图7是本申请实施例提供的管理实例的装置700的示意性框图。

图8是本申请实施例提供的云应用引擎800的示意性框图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

本申请将围绕包括多个设备、组件、模块等的系统来呈现各个方面、实施例或特征。应当理解和明白的是，各个系统可以包括另外的设备、组件、模块等，并且/或者可以并不包括结合附图讨论的所有设备、组件、模块等。此外，还可以使用这些方案的组合。

另外，在本申请实施例中，“示例的”、“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用示例的一词旨在以具体方式呈现概念。

本申请实施例中，“相应的(corresponding，relevant)”和“对应的(corresponding)”有时可以混用，应当指出的是，在不强调其区别时，其所要表达的含义是一致的。

本申请实施例描述的网络架构以及业务场景是为了更加清楚地说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着网络架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：包括单独存在A，同时存在A和B，以及单独存在B的情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b，或c中的至少一项(个)，可以表示：a，b，c，a-b，a-c，b-c，或a-b-c，其中a，b，c可以是单个，也可以是多个。

由于本申请实施例涉及大量的专业术语，为了便于理解，下面先对本申请实施例可能涉及的相关术语和概念进行介绍。

(1)服务等级协议(service level agreement，SLA)

服务等级协议可以指服务提供者和用户之间签订的一个合约或协议。服务等级协议定义了服务提供商与受服务用户之间具体承诺的服务指标(例如，质量、可用性、责任等)。

(2)服务质量(quality of service，QoS)

服务质量可以指一个网络能够利用各种基础技术，为指定的网络通信提供更好的服务能力，是网络的一种安全机制。服务质量可以根据应用程序的要求，保证数据流的性能达到一定的水准。

(3)负载均衡器(load balancer，LB)

负载均衡器可以用于在多个计算设备(也可以称为计算设备集群)或其他资源中分配负载以达到最佳化资源使用、最大化吞吐率、最小化响应时间、同时避免过载的目的。负载均衡器通常由专用软件和硬件来完成，主要作用是将大量作业合理地分摊到多个操作单元上进行执行，用于解决互联网架构中的高并发和高可用的问题。

(4)实例(instance)

实例可以指应用实例，即为运行一个应用而创建的实例。作为示例，实例可以是运行在一个节点上的Pod。Pod中可以包括运行应用程序的一个或多个容器，为应用运行的载体。当需要创建一个应用时，会先把应用打包成镜像，再用此镜像创建容器，再将容器放到Pod当中。

(5)节点(node)

节点上可以创建和运行实例。节点可以是一个(virtual machine，VM)虚拟机或者物理机器，本申请对此不做具体限定。应理解，虚拟机指通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的完整计算机系统。

(6)集群(cluster)

集群是一组相互独立的、通过高速网络互联的计算设备，它们构成了一个组，并以单一系统的模式加以管理，用于管理容器化的工作负载和服务。例如，一个集群中可以包括一个或多个节点，集群会对这些节点做统一管理。创建集群的人可以通过对集群进行配置来选择集群中包括的节点。一个用户可以独享一个集群，也可以多个用户共享一个集群。

图1是集群100的示意性框图。如图1所示，该集群100中可以包括多个节点，例如，节点110、节点120、节点130。其中，节点110上运行实例111、实例112，节点120上运行实例121、实例122，节点130上运行实例监测器131、节点监测器132。

对于实例层的弹性伸缩而言，实例监测器131用于对集群100中的实例111、实例112、实例121、实例122的指标进行监控。作为示例，该指标例如可以包括但不限于：实例的中央处理器(central processing unit，CPU)使用率、平均内存使用率、每秒钟的处理量(queries per second，QPS)等。例如，假设用户的请求量增大，实例监测器131监测到上述实例的指标当前值高于预设目标值，可以对实例进行扩容操作(即在集群100中创建新的实例)，以保证用户的QoS不受影响。又如，假设用户的请求量减小，实例监测器131监测到上述某个实例的指标当前值低于预设目标值，可以对实例进行缩容操作(即在集群100中释放实例)，以降低成本。作为示例，可以由集群100中的水平pod自动缩放器(horizontal pod autoscaler，HPA)负责对群100中的实例进行扩容或缩容。应理解，HPA为一种弹性伸缩常用的组件。

对于节点的管理而言，节点层的扩容操作(即在集群100中添加新的节点)和实例层的扩容操作(即创建新的实例)相关。同样的，节点层的缩容操作(即在集群100中移除节点)和实例层的缩容操作(即释放或休眠实例)相关。一个举例说明，可以由集群100中的插件集群自动缩放器(cluster autoscaler，CA)负责在集群100中新增节点或移除节点。下面分别对节点层的扩容和缩容进行举例说明。

作为一个示例，实例层的弹性伸缩触发了扩容操作(即创建新的实例)，节点监测器132监测到集群100中的节点没有足够的资源分配给新增的实例，那么节点层的扩容操作就会被触发，新的节点会被添加到集群100中。比如创建一个实例(一个Pod)需要1core CPU，1GB随机存储存储器(random access memory，RAM)，但目前节点上只剩1core CPU，0.5GB RAM，不够创建这个实例，那么就会触发集群100中的节点扩容。

另一个示例，实例层的弹性伸缩触发了缩容操作(即释放或休眠实例)，如果节点监测器132监测到集群100中的某个节点的资源使用情况低于预设值，那么就会将该节点从集群100中移除出去。该节点的资源使用情况例如可以包括但不限于：节点的CPU使用率和/或内存使用率。例如，集群100中的节点110为8cores CPU，16GB RAM。如果节点110上运行了2个实例，每个实例需要使用的资源为3core CPU,3GB RAM，那么节点110就会使用6cores CPU,6GB RAM，CPU使用率为6/8＝75％，内存使用率为6/16＝37.5％。集群100中的节点120为8cores CPU，16GB RAM。如果节点120上运行了1个实例，每个实例需要使用的资源为3core CPU,3GB RAM，那么节点120就会使用3cores CPU,3GB RAM，CPU使用率为3/8＝37.5％，内存使用率为3/16＝18.75％。假设CPU和内存使用率的默认目标都是50％，那么在两者的使用率均低于50％时，就会触发节点的缩容操作。在上述例子中，节点110的内存使用率虽然低于50％，但CPU使用率是75％，是高于50％的，所以节点110不会被从集群100中移除。节点120的CPU和内存使用率都低于50％，所以节点120会从集群100中移除。

由于在集群中增加节点需要花费一定时间(例如从开始到集群中节点的资源完全准备好并可以接收请求，大概需要2到5分钟)，在这个等待节点准备的时间段内会产生大量的失败请求，降低了用户的QoS。

有鉴于此，本申请实施例提供了一种管理实例的方法，可以在集群中的节点准备的过程中，由集群以外的其它节点上创建的实例以及第一集群中的实例对用户请求进行处理。这样，可以在满足SLA的同时，保证用户的QoS，避免在等待准备节点的过程中产生大量的失败请求。

为了便于描述，下面先结合图2，对适用于本申请的一种场景示意图进行描述和说明。

图2是适用于本申请的一种应用场景的示意性框图。如图2所示，该应用场景中可以包括云应用引擎210、LB220、集群1、集群2。

云应用引擎210，用于跨集群进行资源选择、集群的状态监控、集群中的实例部署、集群升级等。具体的请参见下面具体实施例中的描述，此处暂不详述。

LB220，用于将用户请求分发至集群1和/或集群2部署的实例中。作为示例，LB220可以基于流量分发策略，将用户请求分发至流量分发清单中的各个实例中。例如，LB220上的一种流量分流方法是根据每个集群上运行应用的实例数目来分流。若p _jk表示应用j在集群k(k＝1,2,…,n)上的总实例数目，那么各个集群被分到的发送给应用j的流量比例为：

集群1，包括节点10、节点20、节点30、节点40。其中，节点10上运行有实例11、实例12，节点20上运行有实例21，节点30上运行有实例31，节点40上运行有实例监测器41、节点监测器42。

集群2，包括节点50、节点60、节点70、节点80。其中，节点50上运行有实例51，节点60上运行有实例61，节点80上运行有实例81、实例82，节点70上运行有实例监测器71、节点监测器72。

图3是本申请实施例提供的一种管理实例的方法的示意性流程图。参见图3，该方法可以包括步骤310-320，下面分别对步骤310-320进行详细描述。

步骤310：云应用引擎210在集群1没有满足实例的资源时，在集群1以外的其它节点创建实例。

可选地，在步骤310之前，云应用引擎210还用于在集群1创建实例时，确定所述集群1是否具有满足所述实例的资源的节点。应理解，实例的资源可以是创建实例所需的资源，即创建实例需要占用的节点的资源。

具体的，一种示例，在用户对集群1的请求量剧增的情况下，实例监测器41监测到集群1中的实例的指标当前值高于预设目标值，会触发实例的扩容操作(即在集群100中创建新的实例)。假设集群1中需要增加4个实例0，如果节点监测器42监测到集群1的节点上的资源最多只够部署2个实例0(例如，在集群1中的节点20上创建1个实例0，在节点30上创建1个实例0)时，为了将剩余的2个实例0部署到集群1中，需要为集群1新增1个节点，该1个节点上的资源能够创建该2个实例0。云应用引擎210可以通过监测集群1的状态确定集群1需要增加1个节点90，并在该节点90上创建2个实例0。为了便于描述，下面可以将在新增加的节点90上创建的2个实例0称为临时实例0。

云应用引擎210在集群1中准备新增加的节点90的过程中，不会等待该节点90准备好之后再处理用户的请求，而是通过云应用引擎210从资源池中选择其他节点(该其他节点上的资源能够满足创建上述2个临时实例0)，并在该其他节点上部署上述2个临时实例0。也就是说，在集群1中准备新增加的节点90的同时，云应用引擎210会暂时将上述2个临时实例0部署在其他节点上。作为示例，该其他节点为集群1以外的其它节点。优选的，该其他节点属于集群2。为了便于描述，下面可以将该其他节点称为闲置节点。

具体的，作为示例，云应用引擎210可以通过监控资源池中各个节点的参数来确定的闲置节点，一种实现方式，云应用引擎210可以向资源池中的集群/节点发送请求以获取集群中各个节点的参数，以便于云应用引擎210可以确定闲置节点。另一种实现方式，资源池中的集群/节点还可以主动向云应用引擎210汇报节点的参数，以便于云应用引擎210 确定闲置节点。上述各个节点的参数例如可以是节点的CPU使用率和/或内存使用率。一个示例，云应用引擎210向资源池中的集群/节点发送请求，以便于该集群中的节点反馈CPU使用率和/或内存使用率。如果该集群中的某些节点没有被充分利用，比如一个节点有8cores CPU，16GB RAM，但只被使用了5cores CPU,5GB RAM，那么该节点就可以是上述闲置节点，并将临时实例0部署到这个节点上。

可选地，如果云应用引擎210确定多个集群中都有闲置节点时，可以从该多个集群中选择一个集群中的闲置节点，并在该集群的闲置节点上部署临时实例0。具体的，可以考虑如下因素中的一种或多种：(1)将临时实例0部署到闲置节点上之后，可以满足应用的SLA；(2)在将临时实例0部署到该集群之后，不能影响该集群上原有应用的SLA；(3)尽可能将所有临时实例0都部署到同一个集群上。应理解，为了满足条件(1)，就需要在将临时实例0临时部署到闲置节点上之后，该闲置节点不会突然被收回。例如，可以使用预测算法预测在未来的2到5分钟之内，各个集群中的闲置节点被收回的概率大小，优先选择其中最不容易被收回的闲置节点。一种实现的方式中，可以将上述3个因素分别设置相应的权重，从而得到资源池中每个备选集群的得分。并从多个备选集群中选择一个目标集群，在该目标集群的闲置节点上部署临时实例0。

可选地，由于只是临时使用闲置节点，对这些闲置节点的计费可以按照竞价实例的价格来计费。这样，在维持QoS的同时，不仅提高了闲置节点的利用率，还可以为用户节省花销。

举例说明，集群2可以作为上述目标集群，目标集群中的闲置节点可以是节点50、节点60。参见图4，本申请实施例中云应用引擎210可以将2个实例0分别部署在集群1的节点20上和节点30上，并将上述2个临时实例0分别部署在集群2的节点50和节点60上。云应用引擎210还可以通知LB220将上述部署的4个实例0添加到流量分发清单中，这样，在新的请求被发送过来时，不仅集群1中部署的2个实例0被用来处理这些请求，集群2中部署的2个临时实例0也可以被用来处理这些请求。从而在有突发流量的情况下可以保证用户的QoS，避免在等待节点扩容的过程中产生大量的失败请求。

LB220可以基于流量分发策略，将用户请求分发至流量分发清单中的各个实例中。作为示例，流量分发策略可以因实例类型的不同会有所变化。例如，当由于流量激增而在其他集群上的竞价节点(也可以称为闲置节点)上临时部署实例时，LB220可以给竞价节点上的实例与原集群中的实例分配到同样多的请求。即，闲置节点所在集群得到的流量与原集群得到的流量比例为各自应用实例数目的比例。又如，当由于流量不断增长导致单一集群不能处理当前流量时，云应用引擎210会新增集群来帮助分摊这些流量。这时，LB220的分发策略可以是让优先级高的集群获得尽可能多的流量，例如，达到它能在满足SLA的情况下能够处理的流量上限。

步骤320：云应用引擎210在集群1具有满足所述实例的资源的节点时，将所述实例迁移至所述集群1。

具体的，作为示例，云应用引擎210可以在集群1中新增加的节点准备好之后，将临时实例0迁移到集群1上。例如，可以在集群1中新增加的节点90准备好之后，可以将集群2中部署的临时实例0迁移到集群1的节点90上。这样，一方面，由于集群2中部署的临时实例0的节点是竞价节点，可以随时被收回，对集群1中应用的SLA没有保证。因此，将部署在集群2中的2个临时实例0迁移到集群1的节点90上，可以保证应用的服务质量。另一方面，新增加的实例如果部署得很分散(分布于多个集群)，会增加管理开销，因此，将部署在集群2中的2个临时实例0迁移到集群1的节点90上，可以降低多个集群的管理开销。

作为示例，在一种具体的实现方式中，集群1中新增加的节点90准备好之后，可以向云应用引擎210汇报自己的状态，表示可以接收请求。云应用引擎210收到该消息之后，在图5所示的集群1中新增加的节点90上创建与临时实例0同样数目的2个实例0。云应用引擎210通知LB220将在节点90上创建的2个实例0添加到流量分流清单，并将集群2中部署的2个临时实例0移除流量分流清单。云应用引擎210还可以通知集群2中部署的2个临时实例0准备迁移。2个临时实例0处理完发送给它的所有请求后，向云应用引擎210汇报自己的状态，表示可以迁移，云应用引擎210销毁集群2中部署的2个临时实例0。如图5所示，集群1中已创建需要扩容的4个实例0，集群2中不包括临时创建的实例0。

上述技术方案中，在原始集群中的节点准备的过程中，可以暂时先将实例临时部署在资源池中空闲的节点上。这样，可以在满足SLA的同时，提高在有突发流量的情况下用户的QoS，避免在等待扩容的过程中产生大量的失败请求。并且，还可以提高空闲资源的利用率，节省用户的成本。

应理解，集群是有最大容量限制的。作为示例，在创建集群时，集群所管理的节点数目是有上限的，当已创建的集群已经扩容到其能够管理的最大节点数目，且用户的请求还在持续增加时，该已创建的集群中的资源不能很好的保证应用的QoS。比如小集群可能最多管理50个节点，假设该小集群初始有3个节点，随着流量的增加，它执行扩容操作，一直扩容到50个节点。但如果这个时候流量还在持续增加，它就扩容不了了，因为它最多扩容到50个节点。传统的技术方案中，是将当前的集群升级为大集群，等到新的大集群完全准备好之后，将原集群中的实例全部迁移到新的大集群中。这种方案的弊端在于，在等待新的大集群准备好的过程中，由于用户流量依然在持续增加，原集群不足以处理这些流量，因而会造成QoS下降的结果。

因此，本申请实施例进一步还提供了另一种管理实例的方法，可以在将小集群升级为大集群的过程，在满足SLA的同时，提高用户的QoS，避免产生大量的失败请求。

如图6所示，假设原始集群1中可以管理的最大节点数目为50个，当原始集群1中的节点扩容到50个，但用户的请求还在持续增加时，云应用引擎210可以将原始集群1升级成一个大集群。举例说明，云应用引擎210新创建一个集群2，该集群2例如可以管理的最大节点数目为200个。云应用引擎210还可以在集群2完全准备好之后，将原始集群1中部署的实例迁移到集群2中，从而在满足SLA的同时，可以提高在有用户流量持续增长的情况下用户的QoS。

具体的，作为示例，比如集群1已经扩容到上限50个节点，但要处理当前流量需要70个节点，这时，云应用引擎210会决定创建大集群(例如集群2，其能够管理的节点数目上限为100个)。由于大集群(例如集群2)被创建的过程中，会陆续有节点上的资源可以用于创建实例。这些已经可用的节点可以向云应用引擎210汇报自己的状态，表示自己已经准备好。云应用引擎210收到这个消息之后，在集群2中已经创建好的节点上部署实例，并通知LB220将大集群2中新的节点上部署的实例加入流量分发清单中。例如，在集群2从1个节点逐渐扩容为70个节点过程中，云应用引擎210会把流量在集群1和集群2节点之间分发。在集群2完全准备好(即70个节点全部创建完成)之后，会销毁集群1，并将流量全部发给集群2。这样，在新的请求被发送过来时，不仅原先的小集群1可以被用来处理这些请求，大集群2中的可用节点也可以用于处理这些请求。

上述技术方案中，在上述小集群升级为大集群的过程中，可以在两个集群之间做流量分发，从而可以保证用户的QoS。

可选地，在一些实施例中，对于流量持续不断增长的场景，如果升级之后的大集群(例如集群2)无法满足用户的QoS，云应用引擎210可以新增一个合适型号的集群(也可以称为可以管理合适数量节点的集群)，并将流量在大集群和新增的集群之间分发。具体的，作为示例，比如原先集群1最多管理50个节点，随流量的不断增长，将集群1升级为集群2，集群2最多能管理100个节点。如果此时流量依然继续增长(比如实际上需要120个节点才能很好地处理当前流量)，假设目前只有上限50个节点的集群和上限100个节点这两种集群可供选择，本申请实施例可以新增一个上限50个节点的集群3，并将流量在集群2和集群3之间分发。

可选地，在一些实施例中，当同一个应用被部署在多个集群上时，当流量减少到不需要这么多集群时，LB220会将这个信息汇报给云应用引擎210，云应用引擎210就会进行回收集群操作。一个示例，若应用分布在多个集群上，可以通过LB220的流量分发策略来缩容。例如，可以定义集群优先级，在缩容时，优先级低的集群会先被缩容，LB220的流量分发策略是在满足应用SLA的条件下，尽可能多地让优先级高的集群承担更多流量。

举例说明，假设应用同时部署在集群1和集群2上。处理能力较高的集群1的优先级高于处理能力较低的集群2。如果两个集群中节点的处理能力相同，并且在满足SLA的情况下，一个节点最多可以同时处理100个请求。由于LB220在分发流量时会尽量让集群1处理更多的流量，而集群1最多能同时处理20000个请求(200个节点*100个请求/节点＝20000请求)。因此，当总的请求数目低于20000时，LB220会将全部请求发送给集群1，集群1中的节点进而平分请求数目。如果总的请求数目高于20000，剩余的请求会被发给集群2。可以看到，当总的请求数目处于20000以下一段时间之后，集群2中实例层的自动伸缩和节点层的自动伸缩都会被触发，最后变成无工作节点的集群。当LB220长期没有流量发送给集群2时，会向云应用引擎210汇报，表示有可能已经不需要集群2了。云应用引擎210接到消息之后查看集群2的状态，如果的确已经没有工作节点存在，就回收集群2。

可选地，如果仅剩一个集群或应用只部署在一个集群上，并且流量依然少到集群中的节点数目缩容到预设百分比之下，可以对该集群降为小集群。例如，最多可管理200个节点的集群由于接收到的流量很少而缩容到30个节点，LB220会将这个信息发送给云应用引擎210。云应用引擎210会将当前的集群降为小集群(如最多管理50个节点的集群)。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

上文结合图1至图6，详细描述了一种管理实例的方法，下面将结合图7-图8，详细描述本申请的装置实施例。

图7是本申请实施例提供的一种管理实例的装置700的示意性框图。管理实例的装置700能够执行图3所示的方法的各个步骤，为了避免重复，此处不再详述。管理实例的装置700包括：创建模块710、迁移模块720，

创建模块710，用于在第一集群没有满足所述实例的资源时，在所述第一集群以外的其它节点创建实例；

迁移模块720，用于在所述第一集群具有满足所述实例的资源的节点时，将所述实例迁移至所述第一集群。

可选地，所述第一集群以外的其它节点属于第二集群。

可选地，所述装置700还包括：确定模块730，用于指示在所述第一集群创建实例时，确定所述第一集群是否具有满足所述实例的资源的节点。

可选地，所述装置700还包括：增加模块740，用于在所述第一集群没有满足所述实例的资源时，在所述第一集群增加满足所述实例的资源的节点。

可选地，所述创建模块710，还用于在第三集群的资源量大于所述第一集群的资源量时，在所述第三集群创建与所述第一集群上的多个实例等同功能的多个实例；所述迁移模块720，还用于在所述第三集群完成多个实例的创建之后，移出所述第一集群上的多个实例。

图8是本申请实施例提供的云应用引擎800的示意性框图。云应用引擎800能够执行图3所示的方法的各个步骤，为了避免重复，此处不再详述。云应用引擎800包括：存储器810、处理器820以及输入输出接口830。

其中，该处理器820可以与输入输出接口830通信连接。该存储器810可以用于存储该云应用引擎800的程序代码和数据。因此，该存储器810可以是处理器820内部的存储单元，也可以是与处理器820独立的外部存储单元，还可以是包括处理器820内部的存储单元和与处理器820独立的外部存储单元的部件。

可选的，云应用引擎800还可以包括总线840。其中，存储器810、输入输出接口830可以通过总线840与处理器820连接。总线840可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，EISA)总线等。所述总线840可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

举例说明，处理器820例如可以是中央处理器(central processing unit，CPU)，通用处理器，数字信号处理器(digital signal processor，DSP)，专用集成电路(application-specific integrated circuit，ASIC)，现场可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。

输入输出接口830可以是包括上述天线和发射机链和接收机链的电路，二者可以是独立的电路，也可以是同一个电路。

当存储器810中存储的云应用引擎800的程序代码和数据被执行时，一种可能的实现方式中，所述处理器820用于执行以下操作：

在第一集群没有满足所述实例的资源时，在所述第一集群以外的其它节点创建实例；

在所述第一集群具有满足所述实例的资源的节点时，将所述实例迁移至所述第一集群。

可选地，所述第一集群以外的其它节点属于第二集群。

可选地，所述处理器820还用于：指示在所述第一集群创建实例时，确定所述第一集群是否具有满足所述实例的资源的节点。

可选地，所述处理器820还用于：在第三集群的资源量大于所述第一集群的资源量时，在所述第三集群创建与所述第一集群上的多个实例等同功能的多个实例；在所述第三集群完成多个实例的创建之后，移出所述第一集群上的多个实例。

上述描述的各示例的模块，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例还提供一种芯片，该芯片获取指令并执行该指令来实现上述管理实例的方法，或者该指令用于实现上述的管理实例的装置。

可选地，作为一种实现方式，该芯片包括处理器与数据接口，该处理器通过该数据接口读取存储器上存储的指令，执行上述管理实例的方法。

可选地，作为一种实现方式，该芯片还可以包括存储器，该存储器中存储有指令，该处理器用于执行该存储器上存储的指令，当该指令被执行时，该处理器用于执行上述管理实例的方法。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有指令，该指令用于上述方法实施例中的管理实例的方法，或者该指令用于实现上述的管理实例的装置。

本申请实施例还提供一种包含指令的计算机程序产品，该指令用于实现上述方法实施例中的管理实例的方法，或者该指令用于实现上述的管理实例的装置。

一种实现举例，处理器可以为中央处理单元(central processing unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

一种实现举例，存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器(random access memory，RAM)可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A,B可以是单数或者复数。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系，但也可能表示的是一种“和/或”的关系，具体可参考前后文进行理解。

本申请中，“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a,b,或c中的至少一项(个)，可以表示：a,b,c,a-b,a-c,b-c,或a-b-c，其中a,b,c可以是单个，也可以是多个。

在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种管理实例的方法，其特征在于，所述方法包括：

在第一集群没有满足所述实例的资源时，在所述第一集群以外的其它节点创建实例；

在所述第一集群具有满足所述实例的资源的节点时，将所述实例迁移至所述第一集群。
根据权利要求1所述的方法，其特征在于，所述第一集群以外的其它节点属于第二集群。
根据权利要求1或2所述的方法，其特征在于，所述方法包括：

指示在所述第一集群创建实例时，确定所述第一集群是否具有满足所述实例的资源的节点。
根据权利要求1至3中任一项所述的方法，其特征在于，所述方法还包括：

在所述第一集群没有满足所述实例的资源时，在所述第一集群增加满足所述实例的资源的节点。
根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

在第三集群的资源量大于所述第一集群的资源量时，在所述第三集群创建与所述第一集群上的多个实例等同功能的多个实例；

在所述第三集群完成多个实例的创建之后，移出所述第一集群上的多个实例。
一种管理实例的装置，其特征在于，包括：

创建模块，用于在第一集群没有满足所述实例的资源时，在所述第一集群以外的其它节点创建实例；

迁移模块，用于在所述第一集群具有满足所述实例的资源的节点时，将所述实例迁移至所述第一集群。
根据权利要求6所述的装置，其特征在于，所述第一集群以外的其它节点属于第二集群。
根据权利要求6或7所述的装置，其特征在于，所述装置还包括：

确定模块，用于指示在所述第一集群创建实例时，确定所述第一集群是否具有满足所述实例的资源的节点。
根据权利要求6至8中任一项所述的装置，其特征在于，所述装置还包括：

增加模块，用于在所述第一集群没有满足所述实例的资源时，在所述第一集群增加满足所述实例的资源的节点。
根据权利要求6至9中任一项所述的装置，其特征在于，

所述创建模块，还用于在第三集群的资源量大于所述第一集群的资源量时，在所述第三集群创建与所述第一集群上的多个实例等同功能的多个实例；

所述迁移模块，还用于在所述第三集群完成多个实例的创建之后，移出所述第一集群上的多个实例。
一种云应用引擎，其特征在于，包括处理器和存储器；所述处理器运行所述存储器中的指令，使得所述云应用引擎执行如权利要求1至5中任一项所述的方法。
一种云应用引擎，其特征在于，包括处理器和存储器；所述处理器运行所述存储器中的指令，使得所述云应用引擎部署如权利要求6至10中任一项所述的管理实例的装置。
一种计算机可读存储介质，其特征在于，包括指令；所述指令用于实现如权利要求1至5中任一项所述的方法。
一种计算机可读存储介质，其特征在于，包括指令；所述指令用于实现如权利要求6至10中任一项所述的管理实例的装置。