WO2022048560A1

WO2022048560A1 - 提供柔性实例的云数据中心以及柔性实例的调度方法

Info

Publication number: WO2022048560A1
Application number: PCT/CN2021/115896
Authority: WO
Inventors: 顾炯炯; 闵小勇; 黄朝意; 蔡智源
Original assignee: 华为云计算技术有限公司
Priority date: 2020-09-01
Filing date: 2021-09-01
Publication date: 2022-03-10
Also published as: EP4195751A1; EP4195751A4; CN114116114A; US20230205582A1

Abstract

本申请提供一种云数据中心，包括资源管理系统和计算资源池。其中，资源管理系统监控所述计算资源池中运行的柔性实例的运行参数，并根据调整需求指示所述计算资源池调整所述柔性实例的尺寸，所述调整需求包括QoS保障需求和所述柔性实例的运行参数。所述计算资源池运行所述柔性实例，采集所述柔性实例的运行参数，并根据所述指示调整所述柔性实例的尺寸，调整的过程符合所述QoS保障需求。该云数据中心提供了柔性实例的运行，提高了云数据中心的资源利用率，降低了能源消耗，产生了环保的效益。

Description

提供柔性实例的云数据中心以及柔性实例的调度方法

技术领域

本申请涉及计算机领域，尤其涉及一种提供柔性实例的云数据中心、该云数据中心中使用的柔性实例的调度方法、该云数据中心运行的资源管理系统以及相应的存储介质和计算机程序产品。

背景技术

随着公有云技术的兴起，云运营商管理的数据中心的规模也逐渐增大，一家云运营商管理的一个数据中内的服务器数量可以高达10万台甚至100万台。然而，为了保证租户运行在服务器上的实例的运行质量，目前服务器内物理资源的利用率普遍限制于10％至20％这个区间。

那么，如何提升这些服务器的利用率成为了一个重要的问题。提升这些服务器的资源利用率不仅可以降低云运营商的设备成本，同时也可以降低租户的使用成本，减少数据中心的电能消耗，产生经济和环保等多方面的效益。

发明内容

本申请提供了一种提供柔性实例的云数据中心，该柔性实例的调度灵活，提升了云数据中心的资源利用率。

第一方面提供了一种云数据中心，所述云数据中心包括资源管理系统和计算资源池，所述计算资源池包括至少一个主机。所述资源管理系统，用于监控所述计算资源池中运行的柔性实例的运行参数，并根据调整需求指示所述计算资源池调整所述柔性实例的尺寸，所述调整需求包括QoS保障需求和所述柔性实例的运行参数。所述计算资源池，用于运行所述柔性实例，采集所述柔性实例的运行参数，并根据所述指示调整所述柔性实例的尺寸，其中，调整所述柔性实例的尺寸的过程符合所述QoS保障需求。

柔性实例的尺寸能够灵活调度，使得主机的物理资源能够得到更好的分配，提升了主机的资源利用率，节省了云数据中心对电能的消耗，产生了环保的效益。同时，柔性实例的调度符合QoS保障需求，保证了租户运行在柔性实例上的业务的稳定性。

一种可能的实现方式中，所述调整需求还包括规格配置，所述规格配置包括所述柔性实例的尺寸范围，调整后的所述柔性实例的尺寸在所述尺寸范围内。所述规格配置可以包括所述柔性实例的最大尺寸和最小尺寸，或包括最大尺寸，或包括标准尺寸以及浮动区间。

规格配置限制了柔性实例的尺寸的变化区间，提升了柔性实例的稳定性，使得柔性实例的尺寸不至于被调整到过于极限造成经济或性能方面的风险。

一种可能的实现方式中，规格配置还包括实例类型，调整所述柔性实例的尺寸的过程不调整所述柔性实例的实例类型。

一种可能的实现方式中，所述资源管理系统，用于当所述柔性实例的运行参数指示所述柔性实例的资源利用率低于阈值时，指示所述计算资源池减小所述柔性实例的尺寸。

所述资源管理系统可以指示所述计算资源池中所述柔性实例的部署主机减小所述柔性实例的尺寸，或者指示柔性实例迁移到新的部署主机上，并由新的部署主机减小柔性实例的尺寸。

一种可能的实现方式中，所述资源管理系统，用于当所述柔性实例的运行参数指示所述柔性实例的QoS参数不符合所述QoS保障需求时，指示所述计算资源池增大所述柔性实例的尺寸。

QoS保障需求可以指定允许劣化比例，该允许劣化比例为租户能够接受的柔性实例的最低QoS参数相对于柔性实例在最大尺寸下的QoS参数的劣化比例。那么，所述资源管理系统，用于当所述柔性实例的运行参数指示所述柔性实例的QoS参数不符合所述允许劣化比例时，指示所述计算资源池增大所述柔性实例的尺寸。

所述资源管理系统可以指示所述柔性实例的部署主机增大所述柔性实例的尺寸。如果部署主机上没有足够的空余资源供柔性实例扩容，那么资源管理系统可以指示将该柔性实例迁移到新的部署主机上并由新的部署主机增大柔性实例的尺寸，或者可以将原部署主机上的现存实例迁移到其他主机，以释放空余资源供该柔性实例扩容。

一种可能的实现方式中，所述QoS保障需求包括时长需求，其中，调整所述柔性实例的尺寸的过程所使用的时间短于或等于所述时长需求。

时长需求限制了从柔性实例的QoS参数不符合所述QoS保障需求至对柔性实例的尺寸扩容完毕所需的时间，保证了租户运行在柔性实例上的业务的稳定性，避免造成柔性实例调度过程中租户的业务的性能下降。

一种可能的实现方式中，所述资源管理系统，还用于根据所述QoS保障需求计算所述柔性实例的基准费用，其中，所述QoS保障需求越高所述基准费用越高。

一种可能的实现方式中，所述资源管理系统，用于根据所述时长需求计算所述柔性实例的基准费用，其中，所述时长需求的值越小所述基准费用越高。

时长需求越低，代表要求柔性实例的调度速度更快，劣化的QoS参数恢复速度更快，基准费用也会提升。

一种可能的实现方式中，所述资源管理系统，用于根据所述基准费用和所述柔性实例的尺寸计算所述柔性实例的实际费用。

柔性实例的尺寸在柔性实例的生命周期内变化，因此，柔性实例最终的实际费用需要根据基准费用和柔性实例的尺寸计算。

一种可能的实现方式中，所述资源管理系统，用于根据所述规格配置和所述QoS保障需求从所述至少一个主机中选择所述柔性实例的部署主机。

资源管理系统在创建该柔性实例的时候，可以综合考虑柔性实例的规格配置和QoS保障需求为该新建的柔性实例选择部署主机，尽可能的保证该新建的柔性实例以及部署主机上的其余实例的运行质量。

第二方面，提供了一种柔性实例的调度方法，所述调度方法执行于云数据中心，所述云数据中心包括资源管理系统和计算资源池。所述调度方法包括：所述资源管理系统监控所述计算资源池中运行的柔性实例的运行参数；所述资源管理系统根据调整需求指示所述计算资源池调整所述柔性实例的尺寸，所述调整需求包括QoS保障需求和所述柔性实例的运行参数，其中，调整所述柔性实例的尺寸的过程符合所述QoS保障需求。

一种可能的实现方式中，所述调整需求还包括规格配置，所述规格配置包括所述柔性实例的尺寸范围，调整后的所述柔性实例的尺寸在所述尺寸范围内。

一种可能的实现方式中，所述资源管理系统根据调整需求指示所述计算资源池调整所述柔性实例的尺寸，包括:当所述柔性实例的运行参数指示所述柔性实例的资源利用率低于阈值时，所述资源管理系统指示所述计算资源池减小所述柔性实例的尺寸。

一种可能的实现方式中，所述资源管理系统根据调整需求指示所述计算资源池调整所述柔性实例的尺寸，包括:当所述柔性实例的运行参数指示所述柔性实例的QoS参数不符合所述QoS保障需求时，所述资源管理系统指示所述计算资源池增大所述柔性实例的尺寸。

一种可能的实现方式中，所述QoS保障需求包括允许劣化比例。所述资源管理系统根据调整需求指示所述计算资源池调整所述柔性实例的尺寸，包括:当所述柔性实例的运行参数指示所述柔性实例的QoS参数不符合所述允许劣化比例时，所述资源管理系统指示所述计算资源池增大所述柔性实例的尺寸。

一种可能的实现方式中，所述QoS保障需求包括时长需求。所述计算资源池调整所述柔性实例的尺寸的过程所使用的时间短于或等于所述时长需求。

一种可能的实现方式中，所述调度方法还包括：所述资源管理系统根据所述QoS保障需求计算所述柔性实例的基准费用，其中，所述QoS保障需求越高所述基准费用越高。

一种可能的实现方式中，所述调度方法还包括：所述资源管理系统根据所述时长需求计算所述柔性实例的基准费用，其中，所述时长需求的值越小所述基准费用越高。

一种可能的实现方式中，所述调度方法还包括：所述资源管理系统根据所述基准费用和所述柔性实例的尺寸计算所述柔性实例的实际费用。

一种可能的实现方式中，所述调度方法还包括：所述资源管理系统根据所述规格配置和所述QoS保障需求从所述计算资源池包括的至少一个主机中选择所述柔性实例的部署主机。

第三方面，提供了一种资源管理系统。该资源管理系统包括监控模块和调度模块：所述监控模块，用于监控所述计算资源池中运行的柔性实例的运行参数；所述调度模块，用于根据调整需求指示计算资源池调整所述柔性实例的尺寸，所述调整需求包括QoS保障需求和所述柔性实例的运行参数，其中，所述计算资源池根据所述指示调整所述柔性实例的尺寸的过程符合所述QoS保障需求。

一种可能的实现方式中，所述调度模块，用于当所述柔性实例的运行参数指示所述柔性实例的资源利用率低于阈值时，指示所述计算资源池减小所述柔性实例的尺寸。

一种可能的实现方式中，所述调度模块，用于当所述柔性实例的运行参数指示所述柔性实例的QoS参数不符合所述QoS保障需求时，指示所述计算资源池增大所述柔性实例的尺寸。

一种可能的实现方式中，所述QoS保障需求包括允许劣化比例。所述调度模块，用于当所述柔性实例的运行参数指示所述柔性实例的QoS参数不符合所述允许劣化比例时，指示所述计算资源池增大所述柔性实例的尺寸。

一种可能的实现方式中，所述资源管理系统还包括计费模块。所述计费模块，用于根据所述QoS保障需求计算所述柔性实例的基准费用，其中，所述QoS保障需求越高所述基准费用越高。

一种可能的实现方式中，所述计费模块，用于根据所述时长需求计算所述柔性实例的基准费用，其中，所述时长需求的值越小所述基准费用越高。

一种可能的实现方式中，所述计费模块，用于根据所述基准费用和所述柔性实例的尺寸计算所述柔性实例的实际费用。

一种可能的实现方式中，所述调度模块，用于根据所述规格配置和所述QoS保障需求从所述计算资源池包括的至少一个主机中选择所述柔性实例的部署主机。

一种可能的实现方式中，所述资源管理系统还包括配置模块。所述配置模块，用于提供柔性实例配置界面，通过所述柔性实例配置界面接收所述柔性实例的配置参数，所述柔性实例配置界面包括QoS保障需求配置区域，所述QoS保障需求配置区域用于接收所述柔性实例的租户输入的所述QoS保障需求。柔性实例配置界面的使用提升了租户对柔性实例的配置体验。

一种可能的实现方式中，所述柔性实例配置界面还包括规格配置区域。所述规格配置区域用于接收所述柔性实例的租户输入的规格配置。规格配置可以按照租户的需求来选择，提升了柔性实例的配置的灵活性。

第四方面提供了一种计算机，包括存储器和处理器，该存储器存储有程序指令，该处理器运行该程序指令以执行第二方面及其可能的实现方式提供的方法。具体的，该处理器运行该程序指令以运行第二方面及其可能的实现方式提供的资源管理系统。

第五方面提供了一种可读存储介质，该可读存储介质可以是该非瞬态的。该可读存储介质中存储的指令被云数据中心的资源管理系统和计算资源池所在的主机执行时，导致云数据中心执行前述第二方面及其可能的实现方式提供的方法。该可读存储介质中存储了程序指令。该可读存储介质包括但不限于易失性存储设备，例如随机访问存储设备，和非易失性存储设备，例如快闪存储设备、硬盘(hard disk drive，HDD)、固态硬盘(solid state drive，SSD)。

第六方面提供了一种计算机程序产品，该计算机程序产品包含的指令被云数据中心的资源管理系统和计算资源池所在的主机执行时，导致云数据中心执行前述第二方面及其可能的实现方式提供的方法。该计算机程序产品可以为一个软件安装包，在需要使用前述第二方面及其可能的实现方式提供的方法的情况下，可以下载该计算机程序产品并在资源管理系统和计算资源池所在的主机执行该计算机程序产品。

附图说明

图1为本申请提供的云数据中心的组织结构示意图；

图2为本申请提供的柔性实例配置界面示意图；

图3为本申请提供的资源管理系统的组织结构示意图；

图4为本申请提供的计费模块的计费示意图；

图5为本申请提供的柔性实例的调度流程示意图；

图6为本申请提供的另一云数据中心的组织结构示意图；

图7为本申请提供的另一云数据中心的组织结构示意图。

具体实施方式

首先，介绍本申请中涉及的一些术语。

主机：部署在云数据中心中的物理服务器。主机的物理资源包括物理中央处理器(CPU)和内存设备。每个主机上运行有虚拟化软件，虚拟化软件将部分物理资源虚拟化为虚拟资源供实例使用。例如，虚拟化软件将CPU虚拟化为虚拟CPU(vCPU)。在后文及附图中，将CPU简写为U，vCPU简写为vU。主机上还有内存通道、缓存通道、缓存、网络输入输出(input output，IO)带宽，存储IO带宽等资源供主机上运行的实例共享。

实例：运行在主机上的计算节点，常见的实例包括虚拟机(virtual machine，VM)或容器(container)。每个实例占用了主机的部分或全部的虚拟资源。实例的规格(specification)配置包括实例类型(也称为风味(flavor))和实例尺寸(size)。

实例类型指示了实例的资源特点。例如经济型实例采用较为便宜的CPU，占有的计算资源较低，费用较低；计算增强型实例采用高性能的CPU，占有的计算资源充足，费用较高；网络增强型实例占用的网络资源充足，例如配置了高IO带宽，费用相比经济型实例也更高。不同的实例类型代表了租户对于其运行在柔性实例上业务的资源需求。

实例尺寸指示实例占用的资源的量，实例尺寸一般包括了vCPU数量和内存尺寸(单位为吉字节(gigabyte，GB))，还可以包括内存带宽、网络带宽、图像处理器(graphics processing unit，GPU)个数，非易失性存储设备大小(一般为高速存储介质，例如固态驱动器(solid state drive，SSD)、NVMe SSD)等。下文中，示例性的仅展示了实例尺寸包括了vCPU数量和内存尺寸(gigabyte，GB)的场景。柔性实例的尺寸为柔性实例在某一时刻或时间段内实际占用的资源。由于柔性实例的尺寸在柔性实例的生命周期内是浮动的，本申请中提及的柔性实例的尺寸包括了柔性实例在不同时间段内的尺寸。

依据实例在其生命周期内占用的虚拟资源的变化与否，实例分为刚性实例和柔性实例。其中，刚性实例的规格在其生命周期内保持不变。例如，刚性实例在创建时指定的尺寸为16vU，32GB，该刚性实例在其生命周期内尺寸保持为16vU，32GB，直至其生命周期结束，该刚性实例占用的资源被释放。柔性实例的尺寸在其生命周期内可变。例如，柔性实例在创建时指定的尺寸为16vU，32GB(最大尺寸)，该柔性实例在其生命周期内尺寸可以浮动，浮动区间内最大尺寸为16vU，32GB，最小尺寸可以依据预设的规则定义，例如为1vU，2GB。

资源利用率：主机/实例在某一时刻或者某一时间段内对其物理资源/虚拟资源的利用率。主机/实例的资源利用率可以通过CPU利用率、内存利用率等参数计算得出。

服务质量(quality of service，QoS)参数：QoS参数表现了实例的运行状况。常见的服务质量参数包括以下任意一种或多种的组合：每秒包数(packet per second，PPS)，请求响应成功率，每秒输入输出数(input output per second，IOPS)，各类时延(例如，网络时延、业务响应时延)，网络带宽，存储带宽。

图1提供了一种云数据中心，其中包括了资源管理系统和计算资源池，计算资源池包括多个主机。计算资源池向资源管理系统提供资源以供实例的运行。资源管理系统与每个主机建立通信连接，对每个主机的运行参数和各主机上运行的现存实例的运行参数进行监控。资源管理系统还负责实例的调度，包括新实例的发放和现存实例的迁移。调度刚性实例时，资源管理系统主要考虑主机的资源占用情况，如果一主机的未被占用的虚拟资源小于刚性实例的尺寸，那么资源管理系统将无法向该主机上发放/迁移该刚性实例。由于柔性实例的尺寸是浮动的，柔性实例的调度更加灵活，有助于主机的资源利用率的提升。

主机1(32U，64GB)上运行了刚性实例1(16vU，32GB)和刚性实例2(16vU，32GB)。刚性实例1(16vU，32GB)的资源利用率为11％，刚性实例2(16vU，32GB)的资源利用率为19％，那么主机1的资源利用率为大概为15％。对于刚性实例，由于其尺寸固定，分配给该刚性实例的虚拟资源即使未被该刚性实例充分使用，也不可以被分配给其他实例或者用于创建新的实例。主机1上即使约有85％的虚拟资源实际上没有被使用(资源利用率低)，但由于主机上的虚拟资源已经全部被占用(资源占用率高)，导致资源管理系统不会在主机1上分配新的实例或者往主机1上迁移实例。然而，在资源利用率较低的情况下，即使缩减实例的尺寸，实例的QoS参数也可能保持稳定，相对的，如果一个实例的QoS参数达不到预期，可以增大实例的尺寸。

基于此，以下介绍柔性实例的配置参数，柔性实例的配置参数包括规格配置和QoS保障需求。规格配置和QoS保障需求各包括一个或多个配置项。

柔性实例的配置参数可以通过柔性实例的配置界面输入至资源管理系统，也可以通过配置指令(例如，应用程序接口(application programming interface，API))输入至资源管理系统。

云数据中心也可以预设有柔性实例的配置参数，无须租户输入配置参数。

实例类型：柔性实例的类型可以包括通用类型，计算密集类型，内存密集类型，网络密集类型，机器学习计算密集类型，存储密集类型等。

实例尺寸：柔性实例的实例尺寸指示了柔性实例的尺寸区间。示例性的，柔性实例的尺寸区间可以包括最小尺寸和最大尺寸共计两个配置项，或仅包括柔性实例的最大尺寸这一配置项，或包括柔性实例的标准尺寸并设置浮动区间(上浮/下浮比例)共计两个配置项。

图2中展示的柔性实例配置界面中柔性实例的实例尺寸包括最小尺寸和最大尺寸。租户可以在vCPU填框内输入最小的vCPU个数和最大的vCPU个数，还可以在内存填框内输入最小的内存尺寸和最大的内存尺寸。一般的，最小vCPU个数不能小于1，最大vCPU不能小于最小vCPU数，最小内存尺寸不能小于1GB，最大内存尺寸不能小于最小内存尺寸。柔性实例的尺寸区间仅包括最大尺寸或包括标准尺寸和标准尺寸的浮动区间的情况依次类推。

QoS保障需求：由于柔性实例的尺寸是浮动的，因此，租户需要输入柔性实例的QoS保障需求，QoS保障需求指示了租户对该柔性实例的QoS参数的要求。资源管理系统会根据QoS保障需求进行柔性实例的调度。QoS保障需求作为云数据中心对租户的服务等级承诺，体现了云数据中心对租户的柔性实例在其生命周期内QoS参数的质量保障，例如，劣化保障(允许劣化比例)，恢复保障(时长需求)。对柔性实例的尺寸的调整的过程和结果应该符合QoS保障需求。云数据中心可以预设QoS保障需求，租户也可以按照自身的要求配置QoS保障需求。

QoS保障需求包括QoS保障优先级、允许劣化比例、时长需求、高可用性(high availability，HA)HA保障能力、额外关注QoS参数等配置项中的任意一种或多种：一般的，QoS保障需求至少包括时长需求。

QoS保障优先级：可以分为多个级别，高/中/低，或高/低等。资源管理系统对拥有不同的QoS保障优先级的柔性实例的调度方式有所区别。资源管理系统会优先保证优先级更高的柔性实例的QoS参数劣化比例更低、QoS参数劣化时长更短，在发生超出QoS参数劣化比例和QoS参数劣化时长的情况下，资源管理系统也会优先保证优先级更高的柔性实例的QoS参数劣化比例快速恢复，例如把优先级更高的柔性实例迁移到空闲的主机上，或者把优先级更高的柔性实例所在的主机上优先级较低的实例迁移到其他主机上。

可选的，QoS保障优先级为低的情况下，资源管理系统不对该柔性实例的QoS参数劣化比例以及QoS参数劣化时长进行严格的管理，仅在保障更高优先级的柔性实例的QoS参数劣化情况(劣化比例和/或劣化时长)不超出允许劣化参数的前提下，对低优先级的柔性实例实行调度。

QoS保障需求包括QoS保障优先级的情况下，租户在选择QoS保障优先级后，可以填写允许劣化比例、时长需求。或者，租户在选择部分QoS保障优先级的情况下，才需要填写允许劣化比例、时长需求，在选择其余QoS保障优先级的情况下，无须填写允许劣化比例、时长需求。例如，QoS保障优先级为高/中的情况下，需要填写允许劣化比例、时长需求，QoS保障优先级为低的情况下，无须填写允许劣化比例、时长需求。

QoS保障需求不包括QoS保障优先级，或者租户未选择任何QoS保障优先级的情况下，租户在选择QoS保障优先级后，需要填写允许劣化比例、时长需求。

允许劣化比例：柔性实例的最低QoS参数相对于柔性实例在最大尺寸下的QoS参数的劣化比例。例如，一个柔性实例的最大尺寸为16vU，32GB且允许劣化比例为20％，那么该柔性实例在运行过程中实际运行QoS参数最低为最大尺寸下该柔性实例的QoS参数的80％。

柔性实例在运行过程中的实际运行QoS参数的计算，可以采用平均值或瞬时值。实际运行QoS参数采用平均值的情况下，要求周期内该柔性实例的平均运行QoS参数低于允许劣化比例的时长不得超过时长需求，柔性实例的调度将更加灵活，云数据中心的资源利用率将更高。实际运行QoS参数采用瞬时值的情况下，要求瞬时运行QoS 参数低于允许劣化比例的时长不得超过时长需求*最大尺寸下的QoS参数，柔性实例的性能将更有保障。

时长需求：允许该柔性实例的实际运行QoS参数和该柔性实例的最大尺寸下QoS参数的比例低于允许劣化比例(如果未指定允许劣化比例或QoS保障需求不包括允许劣化比例，这里的取值为100％)的时长。为了保障允许该柔性实例的实际运行QoS参数和该柔性实例的最大尺寸下QoS参数的比例低于允许劣化比例的时长，调整柔性实例的尺寸的过程所使用的时间应该短于或等于设置的时长需求。如前文所述，这里的实际运行QoS参数可以是平均值或瞬时值。如果一个柔性实例的实际运行QoS参数低于该柔性实例的最大尺寸的劣化比例的时长已经超过或即将超过或被预测出可能超过该柔性实例的时长需求，那么该柔性实例可能将会被调度至其他主机，或者该柔性实例所在的主机上运行的其他实例将会被调度至其他主机。

时长需求越低，柔性实例的实际运行QoS参数的稳定性越高，性能更有保障。与之相对的，时长需求越高，租户对柔性实例的实际运行QoS参数下降的容忍度越高，柔性实例的调度将更加灵活。

可选的，允许劣化比例也可以用最低劣化尺寸替代，最低劣化尺寸也即租户能够接受的柔性实例的尺寸最低劣化水平。最低劣化尺寸包括vCPU和内存。如前例，采用最低劣化尺寸的情况下，可以直接定义柔性实例的最低劣化尺寸为12.8vU，25.6GB。

可选的，针对租户选择的不同的QoS保障优先级，柔性实例配置界面会提供推荐的允许劣化比例的缺省值、推荐值和取值区间中的一个或多个。例如，高优先级：缺省值10％，推荐值5％-15％，取值区间3％-30％；中优先级：缺省15％，推荐10％-50％，取值区间5％-50％。

可选的，针对租户选择的不同的QoS保障优先级，柔性实例配置界面会提供推荐的时长需求的缺省值、推荐值和取值区间中的一个或多个。例如，高优先级：缺省值30秒，推荐值10秒-60秒，取值区间5秒-100秒；中优先级：缺省值60秒，推荐值30秒-180秒，取值区间15秒-300秒。图2中展示了QoS保障优先级为高的情况下的缺省允许劣化比例，缺省时长需求，以及推荐值。

HA保障能力：柔性实例的高可用性要求的保障手段。一般而言，为了保证柔性实例的高可用性，在柔性实例的原部署主机故障或性能不足的情况下，需要迁移柔性实例。HA保障能力可以包括热迁移和冷迁移。其中，热迁移指示允许资源管理系统热迁移柔性实例，冷迁移指示允许资源管理系统冷迁移柔性实例。HA保障能力为热迁移的情况下，柔性实例迁移的成本更高，柔性实例迁移过程的造成的柔性实例中止的时间更短。HA保障能力为冷迁移的情况下，柔性实例迁移的成本更低，柔性实例迁移过程的造成的柔性实例中止的时间更长。

额外关注QoS参数:需要额外关注的该柔性实例的质量参数。租户可以选择一项或多项QoS参数作为额外关注QoS参数填入。为了进一步保障柔性实例运行过程中的性能，提升租户体验，租户可以根据自己运行在柔性实例上的业务特点，选择该柔性实例需要额外关注的QoS参数，以便资源管理系统在调度柔性实例的过程中尽可能保证该额外关注QoS参数的稳定性。

图3介绍了资源管理系统包括的各个模块。资源管理系统包括配置模块、计费模块、调度模块、监控模块，可选的，还包括预测辅助模块。其中，配置模块用于接收柔性实例的配置参数，例如提供图2中的柔性实例配置界面，或者接收配置指令。计费模块用于根据柔性实例的配置参数计算基准费用，以及根据柔性实例的运行参数计算实际费用。调度模块用于基于各类信息对柔性实例进行调度。监控模块用于对主机和现存柔性实例的运行参数进行监控，将各类运行参数提供至调度模块和预测辅助模块。预测辅助模块用于对各主机的未来资源利用率进行预测，以及对柔性实例的未来QoS参数劣化情况进行预测。

柔性实例配置完毕后，计费模块可以为该柔性实例生成基准费用，以便租户预估该柔性实例的使用成本。基准费用指示了预估的该柔性实例的单位时间的基础使用费用。单位时间可以是秒/分/小时/天/周/月/年等。

如图4所示，计费模块参考规模配置和QoS保障需求来计算基准费用。具体的，计费模块可以采用规格配置中的一个或多个配置项，和QoS保障需求中的任意一个或多个配置项来计算基准费用。规模配置一定的情况下，QoS保障需求越高，柔性实例的基准费用越高，而QoS保障需求越低，柔性实例的基准费用越低。

以下介绍各规格配置项和QoS保障需求项对于基准费用的影响，其中，列举到某一配置项时是基于该配置项包括于柔性实例配置参数的假设。

实例类型：不同实例类型的基准费用一般不同；

最小尺寸：一般的，该配置项的值越大，QoS保障需求越高，从而基准费用也越高；

最大尺寸：一般的，该配置项的值越大，QoS保障需求越高，从而基准费用也越高；

QoS保障优先级：一般的，该配置项越高，QoS保障需求越高，从而基准费用也越高；

允许劣化比例：一般的，该配置项的值越低，QoS保障需求越高，从而基准费用越高；

时长需求：一般的，该配置项的值越低，QoS保障需求越高，从而基准费用也越高；

HA保障能力：一般的，该配置项为热迁移的柔性实例的QoS保障需求高于该配置项为冷迁移的柔性实例的QoS保障需求，该配置项为热迁移的柔性实例的基准费用也高于该配置项为冷迁移的柔性实例的基准费用；

额外关注QoS参数：一般的，填写了该配置项的柔性实例的QoS保障需求高于未填写该配置项的柔性实例，填写了该配置项的柔性实例的基准费用也低于未填写该配置项的柔性实例的基准费用。

示例性的，基准费用等于规格配置算出来的费用与QoS保障需求算出来的折扣比例的乘积。对于相同类型的实例，最小尺寸和最大尺寸越大的情况下，规格配置算出来的费用越高。QoS保障需求中各个配置项会影响到具体的折扣比例。

如图4所示，随着柔性实例的实际使用，计费模块可以根据基准费用和柔性实例的实际运行尺寸，生成实际费用。

实际费用可以包括基准费用和至少一段浮动费用，每段浮动费用包括一段时间内柔性实例的尺寸以及对应的费用。例如，柔性实例在6:00被创建，并在9:00被调整了规格，那么实际费用包括：

基准费用；

6:00-9:00，尺寸1，浮动费用1；

9:00-14:00，尺寸2，浮动费用2；

……。

图5展示了柔性实例的调度流程，包括：

S200，监控模块持续监控各个主机和各现存柔性实例的运行参数，将主机和现存柔性实例的运行参数发送至调度模块以及预测辅助模块(可选的)，将各现存柔性实例的运行参数发送至计费模块。

主机的运行参数包括主机的资源利用率，柔性实例的运行参数包括柔性实例的资源利用率、当前尺寸、QoS参数劣化比例、QoS参数劣化时长中的一个或多个。

每个主机安装有监控模块的代理，代理周期性的采集其所在的主机及其所在的主机上运行的各现存柔性实例的运行参数，并上报给监控模块。

S200可以与调度流程中的其他步骤并列执行。

S201，租户的客户端向配置模块发送新建柔性实例的配置参数。

租户的客户端可以运行在租户本地的服务器上，也可以运行在云数据中心的某一主机上。租户的客户端通过配置指令或柔性实例配置界面将新建柔性实例的配置参数发送至配置模块。

S202，配置模块将新建柔性实例的配置参数发送至计费模块。

S201和S202的执行为可选的，云数据中心可以预设有柔性实例的配置参数，无须租户输入。

S203，计费模块根据新建柔性实例的配置参数计算新建柔性实例的基准费用。

S204，计费模块将新建柔性实例的基准费用提供给客户端。

计费模块可以将新建柔性实例的基准费用发送给配置模块，配置模块在其提供的柔性实例配置界面上展示新建柔性实例的基准费用。

S202至S204为可选步骤。在执行了S202至S204的情况下，一般的，在执行S205前，配置模块需要确认租户在获得新建柔性实例的基准费用后的确认指令，该确认指令用于确认按照该配置参数部署该新建柔性实例。

以下，分别介绍资源管理系统不包括预测辅助模块的调度流程(S205至S207)和包括预测辅助模块情况下的调度流程(S208至S212)。

S205，配置模块将新建柔性实例的配置参数发送至调度模块。

S206，调度模块根据新建柔性实例的配置参数、各个主机和各现存柔性实例的运行参数，选择该新建柔性实例的部署主机。

S207，调度模块指示被选中的部署主机按照新建柔性实例的配置参数部署该新建柔性实例。

以下详细介绍S206中，调度模块如何选择一个部署新建柔性实例的主机。

调度模块选择新建柔性实例的部署主机可以综合考虑以下两个维度：

1.主机部署该新建柔性实例后的资源利用率是否超出资源利用率阈值。

2.主机部署该新建柔性实例后，主机上的现存柔性实例的QoS参数劣化比例是否超出各现存柔性实例的允许劣化比例。

调度模块根据主机的资源利用率和新建柔性实例的配置参数，计算该新建柔性实例部署到每个主机后每个主机的资源利用率。将超出资源利用率阈值(例如，50％)的主机从待选主机列表剔除。如果没有主机能够进入待选主机列表，那么进一步判断如果QoS保障优先级低于新建柔性实例的QoS保障优先级的现存柔性实例被迁移到其他主机或者被中止的话，哪些主机能够留在待选主机列表。如果仍旧无法找出任何待选主机，调度模块可以通知客户端新建柔性实例部署失败。

在待选主机列表中，调度模块根据主机的资源利用率、新建柔性实例的配置参数、现存柔性实例的QoS参数劣化比例，计算新建柔性实例部署到每个主机后，每个主机上运行的现存柔性实例的QoS参数劣化情况。将运行有可能超出允许劣化比例的现存柔性实例的主机进一步从待选主机列表中剔除。随后，在待选主机列表中选择资源利用率最低的主机作为新建柔性实例的部署主机。如果待选主机列表中每个主机在部署新建柔性实例后，都会出现至少一个现存的柔性实例的QoS参数劣化比例会超出其允许劣化比例，那么进一步判断如果QoS保障优先级低于新建柔性实例的QoS保障优先级的现存柔性实例被迁移到其他主机或者被中止的话，哪些主机能够留在待选主机列表。随后，在待选主机列表中选择资源利用率最低的主机作为新建柔性实例的部署主机。

如果任一主机上运行的现存柔性实例需要被迁移或者被中止，那么综合考虑以下维度来选择该主机上哪些柔性实例需要被迁移或者被中止：

1.现存柔性实例的QoS保障等级。QoS保障等级越低的现存柔性实例优先被迁移或者中止。

2.现存柔性实例的类型。为了尽量避免现存柔性实例和新建柔性实例部署在同一主机上互相影响QoS参数的情况，可以考虑优先将类型与新建柔性实例相同的现存柔性实例迁移或者中止。

根据设计，可以指定只有QoS保障等级为低的现存柔性实例会被中止。需要被迁移的柔性实例的迁移方式参考其HA保障能力。为被迁移的现存柔性实例挑选部署主机的过程参考为新建柔性实例挑选部署主机的过程(S206)。

柔性实例需要被迁移或者被中止的场景，可以发生在新建柔性实例的情况，也可以发生在出现某一现存柔性实例的QoS参数劣化比例超出允许劣化比例，且该主机没有剩余资源的情况。在后一情况下，也可以综合考虑主机上现存柔性实例的QoS保障等级，以及主机上现存柔性实例的类型来选择被迁移或者被中止的柔性实例。

S208，配置模块将新建柔性实例的配置参数发送至调度模块和预测辅助模块。

S209，预测辅助模块对各主机、各现存柔性实例、新建柔性实例未来的运行参数进行预测。

预测辅助模块内部设置有基于学习历史数据生成的智能模块，该智能模块根据新建柔性实例的配置参数、监控模块提供的各个主机和各现存柔性实例的运行参数，对各主机、各现存柔性实例、新建柔性实例的未来运行参数进行预测。预测时间可以为未来n个单位时间，n为大于0的整数。

S210，预测辅助模块将各主机的预测运行参数、现存柔性实例的预测运行参数、新建柔性实例的预测运行参数发送至调度模块。

S209和S210中，预测辅助模块对于各主机、各现存柔性实例的未来的运行参数进行预测可以与其他步骤并行执行。

S211，调度模块根据新建柔性实例的配置参数、各主机的预测运行参数、现存柔性实例的预测运行参数、新建柔性实例的预测运行参数，选择该新建柔性实例的部署主机。

S212，调度模块指示被选中的部署主机按照新建柔性实例的配置参数部署该新建柔性实例。

S211中，调度模块如何选择部署新建柔性实例的主机的方式与S206的不同之处在于调度模块可以进一步的利用各类预测运行参数来选择新建柔性实例的部署主机。例如，可以根据主机的预测资源利用率和新建柔性实例的配置参数来计算该新建柔性实例部署到每个主机后每个主机的在未来一段时间内的预测资源利用率，据此确定待选主机列表。在待选主机列表中，调度模块可以根据主机的预测资源利用率、新建柔性实例的配置参数、现存柔性实例的预测运行参数，计算新建柔性实例部署到每个主机后，每个主机上运行的现存柔性实例未来一段时间内的QoS参数劣化情况，据此选择新建柔性实例的部署主机。

S213，调度模块根据调整需求，确定需要调整的柔性实例。调整需求包括QoS保障需求和该柔性实例的运行参数。

S214，调度模块指示计算资源池的主机对需要调整的柔性实例的尺寸进行调整，调整所述柔性实例的尺寸的过程符合所述QoS保障需求。具体的，调整所述柔性实例的尺寸的过程所使用的时间短于或等于时长需求。

调度模块根据监控模块提供的云数据中心中运行的各柔性实例运行参数和QoS保障需求来确定需要调整的柔性实例。需要调整的柔性实例分为情况：

第一类，调度模块确定所述柔性实例的运行参数指示所述柔性实例的QoS参数不符合所述QoS保障需求时，指示所述计算资源池增大所述柔性实例的尺寸。具体的，调度模块判断柔性实例的QoS参数劣化比例已经或即将超出允许劣化比例。这种情况下，调度模块指示需要调整的柔性实例的部署主机增大需要调整的柔性实例的尺寸，也即调度模块指示该部署主机分配更多的资源给该柔性实例。

该指示中可以包括调整参数，该调整参数可以由调度模块根据需要调整的柔性实例的尺寸范围和QoS参数劣化比例以及QoS参数劣化时长确定。部署主机根据调整参数提升需要调整的柔性实例的尺寸。如果部署主机上没有剩余可供分配的资源，则调度模块指示中止或迁移部署主机上的现存柔性实例，再增大该柔性实例的尺寸，或者将该柔性实例迁移到其他有空闲资源的主机上，再由迁移到的主机增大该柔性实例的尺寸。调度模块在需要调整的柔性实例的尺寸范围内调整需要调整的柔性实例的尺寸。一般的，QoS参数劣化比例越大的，QoS参数劣化时长越大的柔性实例的尺寸的提升幅度越大。

调整该柔性实例的尺寸的过程所使用的时间短于或等于所述时长需求。调整该柔性实例的尺寸的过程所使用的时间包括迁移现存柔性实例所需的时间(可能的)、迁移该柔性实例所需的时间(可能的)、增大该柔性实例的尺寸的时间。

第二类，调度模块确定所述柔性实例的运行参数指示该柔性实例的资源利用率低于阈值时，指示所述计算资源池减小所述柔性实例的尺寸。这种情况下，调度模块指示需要调整的柔性实例的部署主机减少需要调整的柔性实例的尺寸，也即调度模块指示该部署主机减少分配给该柔性实例的资源。该指示中可以包括调整参数，该调整参数可以由调度模块根据需要调整的柔性实例的尺寸范围和资源利用率确定。部署主机根据调整参数降低需要调整的柔性实例的尺寸。调度模块在需要调整的柔性实例的尺寸范围内调整需要调整的柔性实例的尺寸。一般的，资源利用率越低的柔性实例的尺寸的降低幅度越大。

S213和S214可以与调度流程中的其他步骤并列执行。

S215，计费模块根据柔性实例的基准费用和柔性实例的运行参数生成实际费用。

S216，计费模块将柔性实例的实际费用提供给客户端。

随着柔性实例的运行，如果有任一柔性实例被租户主动中止，或者为了保障QoS保障级别更高的柔性实例的QoS参数被调度模块中止，计费模块根据监控模块提供的柔性实例的运行参数生成实际费用，将实际费用提供给客户端。

如图6所示，采用本申请提供的柔性实例的调度方法下，柔性实例1、柔性实例2、柔性实例3、柔性实例4的最大尺寸均与图1中的刚性实例相同。然而由于这4个柔性实例的当前负载并不重，在当前时刻资源管理系统为这4个柔性实例的分配的尺寸都小于设置的最大尺寸，使得主机1的资源利用率大幅提高。随着这4个柔性实例的负载的提升，资源管理系统可以为每个柔性实例从主机1分配更多的资源，或者把部分柔性实例迁移到其他主机上以保障主机1上运行的柔性实例的QoS参数。本申请提供的云数据中心的主机资源利用率更高，降低了云数据中的能源消耗，产生了环保效益。

图7提供了一种云数据中心，包括计算机400和至少一台计算机600。计算机400和计算机600间通过通信网络连接。

计算机400包括处理器401、网络设备402、总线403、存储设备404。处理器401、网络设备402、存储设备404之间通过总线403通信。处理器401可以为中央处理器(central processing unit，CPU)。存储设备403可以包括易失性存储设备(volatile memory)，例如随机存取存储设备(random access memory，RAM)，或非易失性存储设备(non-volatile memory)，例如只读存储设备(read-only memory，ROM)，快闪存储设备，HDD或SSD等。网络设备402为网络接口卡。

存储设备404中存储有可执行指令，处理器401执行该可执行指令以执行资源管理系统的各个模块以运行图5所示的方法。存储设备404还可以包括运行操作系统(operation system，OS)所需的可执行指令。OS可以为LINUX ^TM,UNIX ^TM,WINDOWS ^TM等。

计算机600，也即主机，包括处理器601、网络设备602、总线603、存储设备604。计算机600的组织结构与计算机400相同。存储设备604中存储有可执行指令，处理器601执行该可执行指令以至少一个柔性实例和监控模块的代理。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件或固件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、双绞线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何介质或者是包含一个或多个介质集成的服务器、数据中心等数据存储设备。该介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，光盘)、或者半导体介质(例如SSD)等。

Claims

一种云数据中心，其特征在于，所述云数据中心包括资源管理系统和计算资源池，所述计算资源池包括至少一个主机；

所述资源管理系统，用于监控所述计算资源池中运行的柔性实例的运行参数，并根据调整需求指示所述计算资源池调整所述柔性实例的尺寸，所述调整需求包括服务质量QoS保障需求和所述柔性实例的运行参数；

所述计算资源池，用于运行所述柔性实例，采集所述柔性实例的运行参数，并根据所述指示调整所述柔性实例的尺寸，其中，调整所述柔性实例的尺寸的过程符合所述QoS保障需求。
如权利要求1所述的云数据中心，其特征在于，所述调整需求还包括规格配置，所述规格配置包括所述柔性实例的尺寸范围，调整后的所述柔性实例的尺寸在所述尺寸范围内。
如权利要求2所述的云数据中心，其特征在于，所述资源管理系统，用于根据所述规格配置和所述QoS保障需求从所述至少一个主机中选择所述柔性实例的部署主机。
如权利要求1至3任一所述的云数据中心，其特征在于，

所述资源管理系统，用于当所述柔性实例的运行参数指示所述柔性实例的资源利用率低于阈值时，指示所述计算资源池减小所述柔性实例的尺寸。
如权利要求1至4任一所述的云数据中心，其特征在于，所述QoS保障需求包括允许劣化比例，所述资源管理系统，用于当所述柔性实例的运行参数指示所述柔性实例的QoS参数不符合所述允许劣化比例时，指示所述计算资源池增大所述柔性实例的尺寸。
如权利要求1至5任一所述的云数据中心，其特征在于，所述QoS保障需求包括时长需求，其中，调整所述柔性实例的尺寸的过程所使用的时间短于或等于所述时长需求。
如权利要求1至6任一所述的云数据中心，其特征在于，所述资源管理系统，还用于根据所述QoS保障需求计算所述柔性实例的基准费用，其中，所述QoS保障需求越高所述基准费用越高。
如权利要求7所述的云数据中心，其特征在于，所述资源管理系统，还用于根据所述基准费用和所述柔性实例的尺寸计算所述柔性实例的实际费用。
一种柔性实例的调度方法，其特征在于，所述调度方法执行于云数据中心，所述云数据中心包括资源管理系统和计算资源池，所述调度方法包括：

所述资源管理系统监控所述计算资源池中运行的柔性实例的运行参数；

所述资源管理系统根据调整需求指示所述计算资源池调整所述柔性实例的尺寸，所述调整需求包括QoS保障需求和所述柔性实例的运行参数，其中，调整所述柔性实例的尺寸的过程符合所述QoS保障需求。
如权利要求9所述的调度方法，其特征在于，所述调整需求还包括规格配置，所述规格配置包括所述柔性实例的尺寸范围，调整后的所述柔性实例的尺寸在所述尺寸范围内。
如权利要求10所述的调度方法，其特征在于，所述调度方法还包括：

所述资源管理系统根据所述规格配置和所述QoS保障需求从所述计算资源池包括的至少一个主机中选择所述柔性实例的部署主机。
如权利要求9至11任一所述的调度方法，其特征在于，所述资源管理系统根据调整需求指示所述计算资源池调整所述柔性实例的尺寸，包括:

当所述柔性实例的运行参数指示所述柔性实例的资源利用率低于阈值时，所述资源管理系统指示所述计算资源池减小所述柔性实例的尺寸。
如权利要求9至12任一所述的调度方法，其特征在于，所述QoS保障需求包括允许劣化比例，所述资源管理系统根据调整需求指示所述计算资源池调整所述柔性实例的尺寸，包括：

当所述柔性实例的运行参数指示所述柔性实例的QoS参数不符合所述允许劣化比例时，所述资源管理系统指示所述计算资源池增大所述柔性实例的尺寸。
如权利要求9至13任一所述的调度方法，其特征在于，所述QoS保障需求包括时长需求；

所述计算资源池调整所述柔性实例的尺寸的过程所使用的时间短于或等于所述时长需求。
如权利要求9至14任一所述的调度方法，其特征在于，所述调度方法还包括：

所述资源管理系统根据所述QoS保障需求计算所述柔性实例的基准费用，其中，所述QoS保障需求越高所述基准费用越高。
如权利要求15所述的调度方法，其特征在于，所述调度方法还包括：

所述资源管理系统根据所述基准费用和所述柔性实例的尺寸计算所述柔性实例的实际费用。
一种资源管理系统，其特征在于，所述资源管理系统包括监控模块和调度模块：

所述监控模块，用于监控所述计算资源池中运行的柔性实例的运行参数；

所述调度模块，用于根据调整需求指示计算资源池调整所述柔性实例的尺寸，所述调整需求包括QoS保障需求和所述柔性实例的运行参数，其中，所述计算资源池根据所述指示调整所述柔性实例的尺寸的过程符合所述QoS保障需求。
如权利要求17所述的资源管理系统，其特征在于，所述调整需求还包括规格配置，所述规格配置包括所述柔性实例的尺寸范围，调整后的所述柔性实例的尺寸在所述尺寸范围内。
如权利要求18所述的资源管理系统，其特征在于，

所述调度模块，用于根据所述规格配置和所述QoS保障需求从所述计算资源池包括的至少一个主机中选择所述柔性实例的部署主机。
如权利要求17至19任一所述的资源管理系统，其特征在于，

所述调度模块，于当所述柔性实例的运行参数指示所述柔性实例的资源利用率低于阈值时，指示所述计算资源池减小所述柔性实例的尺寸。
如权利要求17至20任一所述的资源管理系统，其特征在于，所述QoS保障需求包括允许劣化比例；

所述调度模块，用于当所述柔性实例的运行参数指示所述柔性实例的QoS参数不符合所述允许劣化比例时，指示所述计算资源池增大所述柔性实例的尺寸。
如权利要求17至21任一所述的资源管理系统，其特征在于，所述QoS保障需求包括时长需求；

所述计算资源池调整所述柔性实例的尺寸的过程所使用的时间短于或等于所述时长需求。
如权利要求17至22任一所述的资源管理系统，其特征在于，所述资源管理系统还包括计费模块；

所述计费模块，用于根据所述QoS保障需求计算所述柔性实例的基准费用，其中，所述QoS保障需求越高所述基准费用越高。
如权利要求23所述的资源管理系统，其特征在于，

所述计费模块，用于根据所述基准费用和所述柔性实例的尺寸计算所述柔性实例的实际费用。
如权利要求17至24任一所述的资源管理系统，其特征在于，所述资源管理系统还包括配置模块；

所述配置模块，用于提供柔性实例配置界面，通过所述柔性实例配置界面接收所述柔性实例的配置参数，所述柔性实例配置界面包括QoS保障需求配置区域，所述QoS保障需求配置区域用于接收所述柔性实例的租户输入的所述QoS保障需求。
一种计算机，其特征在于，包括存储器和处理器，所述存储器存储有指令，所述处理器运行所述指令以执行权利要求9至16任一所述的方法。
一种可读存储介质，其特征在于，所述可读存储介质中存储的指令被计算机执行时，导致所述计算机执行权利要求9至16任一所述的方法。
一种计算机程序产品，其特征在于，所述计算机程序产品中的指令被计算机执行时，导致所述计算机执行权利要求9至16任一所述的方法。