WO2024055809A1

WO2024055809A1 - 一种基于聚类集成算法的云计算虚拟资源调度方法

Info

Publication number: WO2024055809A1
Application number: PCT/CN2023/113666
Authority: WO
Inventors: 高慧; 张磊; 陈相如; 伊莉娜
Original assignee: 中电信数智科技有限公司
Priority date: 2022-09-15
Filing date: 2023-08-18
Publication date: 2024-03-21
Also published as: CN115543609B; CN115543609A

Abstract

本发明公开了一种基于聚类集成算法的云计算虚拟资源调度方法，包括：获取云计算资源中主机的属性特征，将每一类属性特征进行归一化处理后组成矩阵；采用基聚类算法分别对矩阵进行聚类；使用基于投票法的集成函数，对基聚类结果中属性特征属于同一个簇的进行集成，得到集成矩阵；使用基聚类算法中的任意一种对集成矩阵进行聚类，得到最终聚类结果；在最终聚类结果的任意一个簇中，计算该簇中每台主机的负载，并将主机负载进行排序，将虚拟机从负载最大的主机中迁移到该簇中负载最小的主机中，直至迁移后负载最大主机与负载最小主机的差值在用户预设阈值范围内，停止迁移。本发明提高云计算虚拟资源调度的效率，降低主机的能耗，实现节能减排。

Description

一种基于聚类集成算法的云计算虚拟资源调度方法

技术领域

本发明涉及云计算技术领域，尤其涉及一种基于聚类集成算法的云计算虚拟资源调度方法。

背景技术

云计算的计算机资源通常都是处于不同地理位置的计算机组成的集群，不同的计算机之间可能是异构的，包括带宽、CPU、存储等方面存在一些差异。虚拟资源调度在云计算中起着十分重要的作用，首先用户请求被分配到虚拟机上，这些虚拟机是通过虚拟化技术从物理主机中虚拟出来的，并且互不干扰，所以云计算物理资源调度问题变成了虚拟资源调度问题，由于物理主机的硬件资源各不相同，处理能力也不一样，所以在实际的调度过程中，很容易出现负载失衡的现象，处理能力强的计算机总是被分配过多的请求而出现过载，而处理能力弱的计算机处于低载状态，负载失衡会造成计算机资源的利用率低下的问题。

目前基于聚类算法云资源匹配方法主要分为两类，第一类是采用单个聚类算法对用户请求的任务进行聚类，例如采用单个聚类算法(k-means)对不同时间段的任务进行聚类，实现从任务周期角度进行细化分类；第二类是采用单个聚类算法对云计算资源进行聚类，例如采用模糊聚类算法(fuzzy c-means)对云计算资源进行聚类，并判断聚类中心的偏移量，超过阈值，云计算资源发生了变化，重新获取资源并将云计算资源进行聚类。上述方法采用单个聚类算法进行聚类，单个聚类算法不稳定，容易受到异常点的影响，导致聚类结果不准确。

发明内容

针对现有技术中存在的问题，本发明提供了一种基于聚类集成算法的云计算虚拟资源调度方法，采用聚类集成的算法对云计算资源中主机的属性特征进行聚类，提高聚类的准确性，从而提高云计算虚拟资源调度的效率，降低主机的能耗，达到节能减排的目标。

为实现上述目的，本发明采用如下技术方案：一种基于聚类集成算法的云计算虚拟资源调度方法，具体包括如下步骤：

步骤S1、获取云计算资源中主机的属性特征，将每一类属性特征进行归一化处理，并将每台主机归一化后的属性特征组成一组特征向量，将特征向量组成矩阵；

步骤S2、采用基聚类算法分别对矩阵进行聚类，获取基聚类结果；

步骤S3、使用基于投票法的集成函数，对基聚类结果中属性特征属于同一个簇的进行集成，得到集成矩阵；

步骤S4、使用基聚类算法中的任意一种对集成矩阵进行聚类，得到最终聚类结果；

步骤S5、在最终聚类结果的任意一个簇中，计算该簇中每台主机的负载，并将主机负载进行排序，将虚拟机从负载最大的主机中迁移到该簇中负载最小的主机中，迁移后，再次计算迁移后的每台主机的负载并进行排序，计算迁移后负载最大主机与负载最小主机的差值，如果差值在用户预设阈值范围内，停止迁移；否则，再次将虚拟机从迁移后负载最大的主机迁移到最小负载的主机中，直到差值在用户预设阈值范围内，停止迁移。

进一步地，所述云计算资源中主机的属性特征包括：存储容量、占用带宽、CPU和内存。

进一步地，所述每一类属性特征进行归一化处理的过程为：

其中，x′_ij为第j台主机上第i类属性特征归一化的结果，x_ij为第j台主机上第i类属性特征，为第i类属性特征的最小值，为第i类属性特征的最大值。

进一步地，所述基聚类算法为：k-means聚类算法、模糊C均值聚类算法、Median K-flats聚类算法、高斯混合模型聚类算法、Subtract Clustering聚类算法、Single-linkage Euclidean聚类算法、Single-linkage cosine聚类算法、Single-linkage haming聚类算法、Complete-linkage Euclidean聚类算法、Complete-linkage cosine聚类算法、Complete-linkage hamming聚类算法、Ward-linkage Euclidean聚类算法、Ward-linkage cosine聚类算法、Ward-linkage hamming聚类算法、Average-linkage Euclidean聚类算法、Average-linkage cosine聚类算法、Average-linkage hamming聚类算法、Spectral using a sparse simi larity matrix聚类算法、Spectral using Nystrom method with orthogonalization聚类算法、Spectral using Nystrom method without orthogonalization聚类算法。

进一步地，步骤S3中对基聚类结果进行集成的过程为：

其中，x′_ij为第j台主机上第i类属性特征归一化的结果，x′_ab为第b台主机上第a类属性特征归一化的结果，且j＝b时，i≠a；S_m{x′_ij，x′_ij}为基于投票法的集成函数对x′_ij和x′_ab的集成结果；C(x′_ij)＝C(x′_ab)表示x′_ij和x′_ab的标签相同，属于同一个簇；C(x′_ij)≠C(x′_ab)表示x′_ij和x′_ab的标签不同，不属于同一个簇。

进一步地，步骤S5中每个主机的负载的计算过程为：
L_w＝αCPU+βMem+λBw

其中，L_w为该簇中第w台主机的负载，α为主机CPU的权重，β为主机内存Mem的权重，λ为主机带宽Bw的权重。

进一步地，步骤S5中迁移后负载最大主机与负载最小主机的差值的计算过程为：

其中，n为该簇中迁移后主机的台数，L_max为迁移后主机的最大负载，L_min为迁移后主机的最小负载。

与现有技术相比，本发明具有如下有益效果：本发明基于聚类集成算法的云计算虚拟资源调度方法将云计算资源中主机的属性特征通过聚类集成算法进行聚类，聚类集成通过对原始数据集的多个聚类结果进行学习和集成，得到一个能够较好的反映数据集内在结构的数据划分，能够有效的避免单个聚类算法受簇中心影响导致聚类结果准确率低的问题，提高聚类结果准确性和稳定性，使得同簇内的主机性能尽可能的相似，不同簇之间主机的性能尽可能差异较大，将性能相似的主机聚为一簇，在进行虚拟机迁移时，能够缩小查找目标主机范围，缩短查找目标主机的时间，从而提高资源调度的效率，降低主机的能耗，达到节能减排的目标；在任意簇中，计算主机的负载，并将主机负载进行排序，将虚拟机从负载最大主机中迁移到负载最低的主机中，避免虚拟机反复回迁造成的资源浪费，业务中断，影响用户的使用。

附图说明

图1为本发明基于聚类集成算法的云计算虚拟资源调度方法流程图；

图2为本发明中聚类集成算法进行聚类的流程图。

具体实施方式

下面将结合附图，对本发明的技术方案进行清楚、完整的描述，显然，所描述的具体实施方式仅仅是本发明一部分，而不是全部。基于本发明的具体实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护范围。

图1为本发明基于聚类集成算法的云计算虚拟资源调度方法流程图，该云计算虚拟资源调度方法具体包括如下步骤：

步骤S1、获取云计算资源中主机的属性特征，包括：存储容量、占用带宽、CPU和内存；由于主机的属性特征差异较大，进行运算时，容易出现“大数吃小数”的问题，将每一类属性特征进行归一化处理，并将每台主机归一化后的属性特征组成一组特征向量，将特征向量组成矩阵；

本发明中每一类属性特征进行归一化处理的过程为：

由于云计算资源中存在较多类型的主机，存储容量、占用带宽、CPU和内存均存在着较大的差异，根据差异最小的原则，将相似的主机聚为一簇，簇内的主机性能尽可能的相似，不同簇之间存在较大的差异。在簇中，将虚拟机从负载最高主机的迁移到低负载的主机中，能够达到负载均衡的目的。现有的方法是使用单个聚类算法对用户请求的任务进行聚类，由于单个聚类算法稳定性差、准确性较低，得到的聚类结果不稳定；而聚类集成算法具有良好的鲁棒性，较高的准确性，所以本发明采用聚类集成的方法对云计算资源进行聚类，得到更为准确的聚类结果。如图2所示，本发明中通过聚类集成算法进行聚类的过程具体为：

步骤S2、采用基聚类算法分别对矩阵进行聚类，获取基聚类结果；本发明中基聚类算法为：k-means聚类算法、模糊C均值聚类算法、Median K-flats聚类算法、高斯混合模型聚类算法、Subtract Clustering聚类算法、Single-linkage Euclidean聚类算法、Single-linkage cosine聚类算法、Single-linkage hamming聚类算法、Complete-linkage Euclidean聚类算法、Complete-linkage cosine聚类算法、Complete-linkage hamming聚类算法、Ward-linkage Euclidean聚类算法、Ward-linkage cosine聚类算法、Ward-linkage hamming聚类算法、Average-linkage Euclidean聚类算法、Average-linkage cosine聚类算法、Average-linkage hamming聚类算法、Spectral using a sparse similarity matrix聚类算法、Spectral using Nystrom method with orthogonalization聚类算法、Spectral using Nystrom method without orthogonalization聚类算法，上述20种基聚类算法，涉及较多聚类算法，且包含不通类型的聚类算法，通过上述20种基聚类算法分别对矩阵进行聚类，能够产生差异性较大的基聚类结果，对差异性较大的基聚类结果进行聚类，能提高最终聚类结果的准确性。

步骤S3、使用基于投票法的集成函数，对基聚类结果中属性特征属于同一个簇的进行集成，得到集成矩阵，投票法采用的是少数服从多数的机制，能有效的提高最终聚类结果的准确性。

本发明中对基聚类结果进行集成的过程为：

其中，x′_ij为第j台主机上第i类属性特征归一化的结果，x′_ab为第b台主机上第a类属性特征归一化的结果，且j＝b时，i≠a；S_m{x′_ij，x′_ab}为基于投票法的集成函数对x′_ij和x′_ab的集成结果；C(x′_ij)＝C(x′_ab)表示x′_ij和x′_ab的标签相同，属于同一个簇；C(x′_ij)≠C(x′_ab)表示x′_ij和x′_ab的标签不同，不属于同一个簇。

步骤S4、使用基聚类算法中的任意一种对集成矩阵进行聚类，得到最终聚类结果。

步骤S5、在最终聚类结果的任意一个簇中，计算该簇中每台主机的负载，并将主机负载进行排序，将虚拟机从负载最大的主机中迁移到该簇中负载最小的主机中，迁移后，再次计算迁移后的每台主机的负载并进行排序，计算迁移后负载最大主机与负载最小主机的差值，如果差值在用户预设阈值范围内，停止迁移；否则，存在主机的负载大于其他的主机，负载并没有达到平衡，需要继续迁移，再次将虚拟机从迁移后负载最大的主机迁移到最小负载的主机中，直到差值在用户预设阈值范围内，停止迁移，达到平衡负载。

本发明中每个主机的负载的计算过程为：
L_w＝αCPU+βMem+λBw

本发明中迁移后负载最大主机与负载最小主机的差值的计算过程为：

由于是在同一个簇内的主机结构、性能较为相似，迁移过程中耗费的资源较小，并且从负载最大向负载最小的主机进行迁移，避免虚拟机反复回迁、减少业务中断，影响用户使用。本发明基于聚类集成算法的云计算虚拟资源调度方法将性能相似的主机聚为一簇，在进行虚拟机迁移时，能够缩小查找目标主机范围，缩短查找目标主机的时间，提高资源调度的效率，降低主机的能耗，达到节能减排的目标。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施方式，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

一种基于聚类集成算法的云计算虚拟资源调度方法，其特征在于，具体包括如下步骤：

步骤S1、获取云计算资源中主机的属性特征，将每一类属性特征进行归一化处理，并将每台主机归一化后的属性特征组成一组特征向量，将特征向量组成矩阵；

步骤S2、采用基聚类算法分别对矩阵进行聚类，获取基聚类结果；

步骤S3、使用基于投票法的集成函数，对基聚类结果中属性特征属于同一个簇的进行集成，得到集成矩阵；

步骤S4、使用基聚类算法中的任意一种对集成矩阵进行聚类，得到最终聚类结果；

步骤S5、在最终聚类结果的任意一个簇中，计算该簇中每台主机的负载，并将主机负载进行排序，将虚拟机从负载最大的主机中迁移到该簇中负载最小的主机中，迁移后，再次计算迁移后的每台主机的负载并进行排序，计算迁移后负载最大主机与负载最小主机的差值，如果差值在用户预设阈值范围内，停止迁移；否则，再次将虚拟机从迁移后负载最大的主机迁移到最小负载的主机中，直到差值在用户预设阈值范围内，停止迁移。
根据权利要求1所述的一种基于聚类集成算法的云计算虚拟资源调度方法，其特征在于，所述云计算资源中主机的属性特征包括：存储容量、占用带宽、CPU和内存。
根据权利要求1所述的一种基于聚类集成算法的云计算虚拟资源调度方法，其特征在于，所述每一类属性特征进行归一化处理的过程为：

其中，x′_ij为第j台主机上第i类属性特征归一化的结果，x_ij为第j台主机上第i类属性特征，为第i类属性特征的最小值，为第i类属性特征的最大值。
根据权利要求1所述的一种基于聚类集成算法的云计算虚拟资源调度方法，其特征在于，所述基聚类算法为：k-means聚类算法、模糊C均值聚类算法、Median K-flats聚类算法、高斯混合模型聚类算法、Subtract Clustering聚类算法、Single-linkage Euclidean聚类算法、Single-linkage cosine聚类算法、Single-linkage hamming聚类算法、Complete-linkage Euclidean聚类算法、Complete-linkage cosine聚类算法、Complete-linkage hamming聚类算法、Ward-linkage Euclidean聚类算法、Ward-linkage cosine聚类算法、Ward-linkage hamming聚类算法、Average-linkage Euclidean聚类算法、Average-linkage cosine聚类算法、Average-linkage hamming聚类算法、Spectral using a sparse similarity matrix聚类算法、Spectral using Nystrom method with orthogonalization聚类算法、Spectral using Nystrom method without orthogonalization 聚类算法。
根据权利要求1所述的一种基于聚类集成算法的云计算虚拟资源调度方法，其特征在于，步骤S3中对基聚类结果进行集成的过程为：

其中，x′_ij为第j台主机上第i类属性特征归一化的结果，x′_ab为第b台主机上第a类属性特征归一化的结果，且j＝b时，i≠a；S_m{x′_ij，x′_ab}为基于投票法的集成函数对x′_ij和x′_ab的集成结果；C(x′_ij)＝C(x′_ab)表示x′_ij和x′_ab的标签相同，属于同一个簇；C(x′_ij)≠C(x′_ab)表示x′_ij和x′_ab的标签不同，不属于同一个簇。
根据权利要求1所述的一种基于聚类集成算法的云计算虚拟资源调度方法，其特征在于，步骤S5中每个主机的负载的计算过程为：
L_w＝αCPU+βMem+λBw

其中，L_w为该簇中第w台主机的负载，α为主机CPU的权重，β为主机内存Mem的权重，λ为主机带宽Bw的权重。
根据权利要求1所述的一种基于聚类集成算法的云计算虚拟资源调度方法，其特征在于，步骤S5中迁移后负载最大主机与负载最小主机的差值的计算过程为：

其中，n为该簇中迁移后主机的台数，L_max为迁移后主机的最大负载，L_min为迁移后主机的最小负载。