WO2022179241A1

WO2022179241A1 - 一种缺失条件下的高斯混合模型聚类机器学习方法

Info

Publication number: WO2022179241A1
Application number: PCT/CN2021/136556
Authority: WO
Inventors: 朱信忠; 徐慧英; 张毅; 赵建民
Original assignee: 浙江师范大学
Priority date: 2021-02-24
Filing date: 2021-12-08
Publication date: 2022-09-01
Also published as: CN113076970A; LU502931B1; ZA202207735B

Abstract

本申请公开了一种缺失条件下的高斯混合模型聚类机器学习方法，包括：S11.获取聚类任务和目标数据样本；S12.将获取的目标数据样本中的每个样本分为可观测特征部分和缺失特征部分，对缺失特征部分进行初始填充并保持可观测特征部分的不变性；S13.利用随机初始化选定各个高斯混合模型成分的代表点，通过极大似然估计方法建立缺失特征部分条件下的高斯混合模型聚类的优化目标函数；S14.采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数，实现聚类。本申请将填充任务与高斯混合模型聚类相融合，在聚类结果的引导下填充缺失值，用动态填充的值再进行高斯混合模型聚类。

Description

一种缺失条件下的高斯混合模型聚类机器学习方法

技术领域

本申请涉及计算机视觉和模式识别技术领域，尤其涉及一种缺失条件下的高斯混合模型聚类机器学习方法。

背景技术

近年来，聚类学习算法在人工智能机器学习领域是一个非常值得关注且重要的研究热点。

但是，现有的聚类算法通常都共享一个基本假设：所有数据样本的特征都是可观测的，也就是说每一个数据样本的每一个特征都没缺失。然而，在许多聚类算法的实际应用的数据收集过程中，经常会遇到无法正确收集到某些测量值或某个变量的全部测量值,因此也就造成了很多数据集中常常存在变量的特征值出现缺失的情况。

不完整数据的存在使得利用所有数据样本的信息进行聚类变得异常困难。一个直接的补救措施就是先用一种填补算法来填补缺失值，然后利用一种标准的聚类算法进行聚类。一些常用的填补算法有零填充、均值填充、k近邻填充和期望最大化填充算法和其他改进算法。这些方法试图通过预处理来减少缺失数据对聚类产生的负面影响，尽管在各种应用中展现了很好的聚类性能，但是上述算法有一个共同的缺点，它们的数据填补和聚类过程是分开进行的，导致缺失特征的填补过程不能服务于聚类任务，这抑制了两个过程之间相互的引导协调，进而降低了聚类性能。

发明内容

本申请的目的是针对现有技术的缺陷，提供了一种缺失条件下的高斯混合模型聚类机器学习方法。

为了实现以上目的，本申请采用以下技术方案：

一种缺失条件下的高斯混合模型聚类机器学习方法，包括：

S1.获取聚类任务和目标数据样本；

S2.将获取的目标数据样本中的每个样本分为可观测特征部分和缺失特征部分，对缺失特征部分进行初始填充并保持可观测特征部分的不变性；

S3.利用随机初始化选定各个高斯混合模型成分的代表点，通过极大似然估计方法建立缺失特征部分条件下的高斯混合模型聚类的优化目标函数；

S4.采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数，实现聚类。

进一步的，所述步骤S3中建立缺失特征部分条件下的高斯混合模型聚类的优化目标函数，表示为：

其中，X表示目标数据样本矩阵；k表示聚类个数；x _j表示每个样本，1≤j≤n；x _j(o _j)表示可观测特征部分；x _j(m _j)表示缺失特征部分。

进一步的，所述步骤S3中还包括定义高斯混合概率分布，表示为：

pM(X)＝∑α _ip(x _j|μ _j,∑ _i) (2)

其中，μ _i和∑ _i分别表示第i个高斯混合分量的参数；α _i表示高斯混合分量所对应的混合系数，满足

表示第i个高斯混合分量对应的第j个采样值的概率密度。

进一步的，所述第i个高斯混合分量对应的第j个采样值的概率密度p(x _j|μ _i,∑ _i)，表示为：

其中，x ^T表示x的转置。

进一步的，所述步骤S3中还包括引入随机变量z _j∈{1,2,…,j}来表示样本x _j对应的高斯混合分量，具体为：

z _j的先验概率P(z _j＝i)对应于α _i(i＝1,2,…k)，根据贝叶斯定理，z _j的后验概率分布表示为：

其中，l表示第i个高斯混合分量，

表示对所有高斯混合分量对应的第j个样本的概率密度的加权和；后验概率分布pM(z _j＝i|x _j)表示样本x _j属于第i个高斯混合分量。

进一步的，所述步骤S4中采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数，表示为：

LL(X)＝ln(∏pM(x _j))＝∑ln(∑α _ip(x _j|μ _i,∑ _i)) (5)

其中，μ _i和∑ _i分别表示第i个高斯混合分量的参数；α _i表示高斯混合分量所对应的混合系数。

进一步的，所述步骤S4中采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数具体为：利用最大期望算法和轮替优化交替法求解高斯混合模型聚类的目标函数。

进一步的，所述利用最大期望算法和轮替优化交替法求解高斯混合模型聚类的目标函数具体包括：

根据当前参数计算每个样本属于每个高斯混合分量的后验概率，表示为：

其中，γ _ji＝pM(z _j＝i|x _j)表示高斯混合分量的后验概率。

进一步的，所述步骤S4具体为：

S41.固定目标数据样本矩阵X，优化参数α _i、μ _i和Σ _i；

将目标函数

划分为k个子问题，表示为：

S42.固定α、μ和Σ，优化目标数据样本矩阵X；

将目标函数

划分为 n个子问题，表示为：

令x _m表示目标函数的解，则将均值μ _i和协方差矩阵Σ _i以与目标数据样本矩阵X相同的方式分成可观测部分和缺失部分，表示为：

其中，m表示矩阵的缺失部分，o表示矩阵的可观测部分；

求解公式(8)对x _m的偏导数，并令x _m的偏导数等于零，则得到的解析解表示为：

其中，P _i＝p(x _j|μ _i,∑ _i)。

进一步的，所述步骤S41具体包括：

S411.固定α _i、Σ _i和X，优化参数μ _i；

在α _i和Σ _i固定的情况下，求公式(7)对μ _i的偏导数并使其等于零，表示为：

S412.固定α _i、μ _i和X，优化参数Σ _i；

在α _i和μ _i固定的情况下，求公式(7)对于Σ _i的偏导数并使其等于零，表示为：

S413.固定μ _i、Σ _i和X，优化参数α _i；

对于α _i，由于

考虑拉格朗日形式：

其中，λ表示一个拉格朗日乘子，通过求

对于α _i的导数并使其等于零，获得α _i的更新值，表示为：

其中，m表示矩阵的缺失部分。

与现有技术相比，本申请提出了一种缺失条件下的高斯混合模型聚类机器学习方法，该方法将填充任务与高斯混合模型聚类相融合，在聚类结果的引导下填充缺失值，用动态填充的值再进行高斯混合模型聚类。本申请使得填充和聚类两个过程能够互相引导协调，通过使用高斯混合模型聚类结果对填充过程的引导，填充值能更好地服务于最终的聚类目标，达到聚类效果提升的目的。在八个公共数据集上的实验结果证明了本申请的性能优于现有方法。

附图说明

图1是实施例一提供的一种缺失条件下的高斯混合模型聚类机器学习方法流程图；

图2是实施例二提供的不同聚类算法在八个数据集上随缺失率变化的ACC性能对比示意图；

图3是实施例二提供的不同聚类算法在八个数据集上随缺失率变化的NMI性能对比示意图；

图4是实施例二提供的不同聚类算法在八个数据集上随缺失率变化的F-score性能对比示意图；

图5是实施例二提供的不同聚类算法在八个数据集上随缺失率变化的PUR性能对比示意图；

图6是实施例二提供的随迭代次数增加，算法的目标函数值的变化示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

本申请针对现有缺陷，提供了一种缺失条件下的高斯混合模型聚类机器学习方法。

实施例一

本实施例提供的一种缺失条件下的高斯混合模型聚类机器学习方法，该方法将填充任务与高斯混合模型聚类相融合，在聚类结果的引导下填充缺失值，用动态填充的值再进行高斯混合模型聚类；如图1所示，该方法具体步骤包括：

S11.获取聚类任务和目标数据样本；

S12.将获取的目标数据样本中的每个样本分为可观测特征部分和缺失特征部分，对缺失特征部分进行初始填充并保持可观测特征部分的不变性；

S13.利用随机初始化选定各个高斯混合模型成分的代表点，通过极大似然估计方法建立缺失特征部分条件下的高斯混合模型聚类的优化目标函数；

S14.采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数，实现聚类。

在步骤S13中，利用随机初始化选定各个高斯混合模型成分的代表点，通过极大似然估计方法建立缺失特征部分条件下的高斯混合模型聚类的优化目标函数。

在本实施例中，建立缺失特征部分条件下的高斯混合模型聚类的优化目标函数，表示为：

其中，X表示目标数据样本矩阵；k表示聚类个数；x _j表示每个样本，1≤j≤n；对于不完整数据，每个样本x _j可以分为两部分：x _j(o _j)表示可观测特征部分；x _j(m _j)表示缺失特征部分。并且在优化数据的缺失特征x _j(m _j)的同时在优化过程中保持可观测特征x _j(o _j)不变。

步骤S13中还包括定义高斯混合概率分布，表示为：

pM(X)＝∑α _ip(x _j|μ _i,∑ _i) (2)

其中，该高斯混合概率分布由k个高斯分布组成，每个高斯分布可以看成一个混合分量。μ _i和∑ _i分别表示第i个高斯混合分量的参数；α _i表示高斯混合分量所对应的混合系数，满足

表示第i个高斯混合分量对应的第j个采样值的概率密度。

第i个高斯混合分量对应的第j个采样值的概率密度p(x _j|μ _i,∑ _i)，表示为：

其中，x ^T表示x的转置。

步骤S13中还包括引入随机变量z _j∈{1,2,…,j}来表示未知的样本x _j对应的高斯混合分量，具体为：

z _j的先验概率P(z _j＝i)对应于α _i(i＝1,2,…k)，根据贝叶斯定理可知，z _j的后验概率分布表示为：

其中，l表示第i个高斯混合分量，

在步骤S14中，采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数，实现聚类。

采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数，即通过最大化对数似然值来求解参数，表示为：

LL(X)＝ln(∏pM(x _j))＝∑ln(∑α _ip(x _j|μ _i,∑ _i)) (5)

进一步的可以利用最大期望算法和轮替优化交替法求解高斯混合模型聚类的目标函数，具体包括：

期望步：根据当前参数计算每个样本属于每个高斯混合分量的后验概率，表示为：

其中，γ _ji＝pM(z _j＝i|x _j)表示高斯混合分量的后验概率。

最大化步：步骤S14具体为：

S41.固定目标数据样本矩阵X，优化参数α _i、μ _i和Σ _i；

基于对高斯混合模型的每个分量相互独立的考虑，将公式(1)的目标函数

划分为k个子问题，表示为：

S411.固定α _i、Σ _i和X，优化参数μ _i；

S412.固定α _i、μ _i和X，优化参数Σ _i；

S413.固定μ _i、Σ _i和X，优化参数α _i；

对于α _i，由于

考虑拉格朗日形式：

其中，λ表示一个拉格朗日乘子，通过求

对于α _i的导数并使其等于零，获得α _i的更新值，表示为：

S42.固定α、μ和Σ，优化目标数据样本矩阵X；

考虑到每个样本x _j相互独立，将公式(1)的目标函数

划分为n个子问题，优化目标可以等价地改写成：

令x _m表示目标函数的解，为了解决求解等式(11)中x _m的偏导数这一难题，则将均值μ _i和协方差矩阵Σ _i以与目标数据样本矩阵X相同的方式分成可观测部分和缺失部分，表示为：

其中，m表示矩阵的缺失部分，o表示矩阵的可观测部分。

求解公式(12)对x _m的偏导数，并令x _m的偏导数等于零，则得到的解析解表示为：

其中，P _i＝p(x _j|μ _i,∑ _i)。

如公式(13)所示，每个样本x _j的缺失特征通过高斯混合分量的对应维度和样本的可观察特征来填充。根据Expectation-Step中计算的后验概率γ _ji，采用极大化似然估计方法(Maximization-Step)更新模型参数和缺失值。即可实现缺失条件下的高斯混合模型聚类。

与现有技术相比，本实施例提出了一种缺失条件下的高斯混合模型聚类机器学习方法，该方法将填充任务与高斯混合模型聚类相融合，在聚类结果的引导下填充缺失值，用动态填充的值再进行高斯混合模型聚类。本申请使得填充和聚类两个过程能够互相引导协调，通过使用高斯混合模型聚类结果对填充过程的引导，填充值能更好地服务于最终的聚类目标，达到聚类效果提升的目的。

实施例二

本实施例提供的一种缺失条件下的高斯混合模型聚类机器学习方法与实施例一的不同之处在于：

本实施例在8个MKL标准数据集上测试了本申请方法的聚类性能。

8个MKL标准数据集包括Iris、AlcoholQCM、Seeds、Wine、Segment、ElectricalGrid、Avila和Letter。数据集的相关信息参见表1。

数据集	样本数量	维度	簇的数量
Iris	150	4	3
AlcoholQCM	125	10	5
Seeds	210	7	3
Wine	178	13	3
Segment	2310	18	7
ElectricalGrid	10000	13	2
Avila	20871	10	12
Letter	20000	16	26

表1

本实施例分别将提出的动态高斯混合模型聚类算法与几种常用的填充方法，包括均值填充(MF)、零填充(ZF)、期望最大填充(EM)进行了比较。此外，本实施例还与最近提出的结合前三种方法的动态K-均值填充(DK)方法进行了比较。对于所有数据集，假设簇的真实数目k是已知的，并且将其设置为类的数目。由原始完全数据矩阵随机生成缺失数据，缺失率均为10～70％，其中缺失率会影响算法的性能。

为了更深入地说明这一点，本实施例从缺失率的角度对这些算法进行了比较。使用广泛使用的聚类准确率(ACC)、归一化互信息(NMI)、F-Score和纯度(PUR)来评价每种算法的聚类性能。

对于所有算法，本实施例对每个实验进行50次随机初始化，以减小K-均值和GMM聚类算法初值选取的随机性的影响，并报告平均结果。同时，本实施例按照上述方式随机生成了10次缺失数据，并上报了统计结果。

图2-图6展示了不同聚类算法在八个数据集上随缺失率变化的聚类性能对比图，根据这些图可以观察到：

(1)所提出的算法明显且一致地优于现有的两阶段填充聚类方法。例如， Seeds数据集中，随着缺失率从0到70％的变化，本实施例算法的ACC值分别比效果最优的两阶段聚类方法(EM)高0％、21.2％、6.0％、16.7％、14.8％、17.3％、20.6％和20.2％，本实施例算法的NMI值分别高出0％、22.2％、5.0％、19.0％、15.1％、21.6％、26.3％和22.4％。F-score和PUR指标的趋势也是相同的。

(2)虽然最近提出的动态K-均值填充聚类算法得到了不错的性能，但高斯混合模型聚类能够处理更复杂的多模态数据，取得了更好的性能。例如，Seeds数据集中，随着缺失率从0到70％的变化，该算法在ACC值方面将次优方法(DK+Mean)的性能分别提高了3.3％、6.1％、7.8％、13.0％、16.1％、15.8％、9.9％和9.3％；本实施例算法的NMI值则分别比其高出了5.8％、13.6％、17.6％、23.0％、26.3％、22.0％、14.1％和10.1％。从图4、图5中能看到F-score和PUR指标的趋势也是相同的。这些结果验证了高斯混合GMM模型聚类对于缺失数据聚类的性能要优于动态K-均值方法。

(3)当缺失率超过40％时，现有的两阶段填充聚类方法的性能会明显下降。然而，本实施例提出的缺失数据高斯混合模型聚类与其他比较算法相比，具有最好的鲁棒性，并且在缺失率增加的情况下仍能保持最佳的性能。

如表2所示展示了本实施例的方法以及对比算法在所有数据集上的聚类效果综合的评价指标和标准偏差，其中最佳结果以粗体显示。

表2

根据表2可以观察到：

本实施例所提出的算法几乎总是在所有八个数据集的每个性能度量上都达到最优的性能水平。例如，本实施例提出的算法在Iris、Seeds、Wine和Avila等数据集上的ACC值(聚类准确率)分别比去年针对缺失数据提出的动态K-均值聚类方法(DK+Em)高出8.4％、11.4％、11.8％和6.1％，NMI值(标准化互信息)分别高出8.3％、18.5％、15.2％和3.2％。本实施例提出的算法与传统的GMM聚类算法进行比较，聚类性能也有着巨大的优势。例如，在Iris、Seeds、Wine、Segment、ElectricGrid和Letter数据集上，本实施例提出的算法的ACC值(聚类准确率)比采用EM填充的GMM聚类高出8.4％、14.6％、5.2％、6.1％、14.9％和5.4％，F-score值则分别高出6.8％、13.3％、5.1％、8％、14％和6.2％，PUR值(纯度)则分别高出8.2％、14.5％、3.8％、6.1％、8.8％和5.7％。这些结果与前述内容各个聚类性能指标的曲线图中的观察结果一致，很好地表明了本实施例提出算法的有效性。

本实施例也给出了随着迭代次数的变化时，目标函数值的变化情况，如图6所示为在Seeds和Letter数据集上执行的随迭代次数变化的目标函数值。可以看出聚类的目标函数值在迭代过程中单调递增，目标函数值很快就趋于稳定，并且算法通常少于100次迭代就能够达到收敛。

现有基本聚类算法已经在各种应用中表现出不错的效果，但他们都不能有效处理数据缺失的问题。本实施例联合优化缺失填充和高斯混合模型聚类来解决这个问题。这使得两个学习过程无缝融合，取得了更好的聚类结果。通过大量的实验，在多个公开数据集上都验证了聚类结果得到明显改善。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

一种缺失条件下的高斯混合模型聚类机器学习方法，其特征在于，包括：

S1.获取聚类任务和目标数据样本；

S2.将获取的目标数据样本中的每个样本分为可观测特征部分和缺失特征部分，对缺失特征部分进行初始填充并保持可观测特征部分的不变性；

S3.利用随机初始化选定各个高斯混合模型成分的代表点，通过极大似然估计方法建立缺失特征部分条件下的高斯混合模型聚类的优化目标函数；

S4.采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数，实现聚类。
根据权利要求1所述的一种缺失条件下的高斯混合模型聚类机器学习方法，其特征在于，所述步骤S3中建立缺失特征部分条件下的高斯混合模型聚类的优化目标函数，表示为：

其中，X表示目标数据样本矩阵；k表示聚类个数；x _j表示每个样本，1≤j≤n；x _j(o _j)表示可观测特征部分；x _j(m _j)表示缺失特征部分。
根据权利要求2所述的一种缺失条件下的高斯混合模型聚类机器学习方法，其特征在于，所述步骤S3中还包括定义高斯混合概率分布，表示为：

pM(X)＝∑α _ip(x _j|μ _i,Σ _i) (2)

其中，μ _i和Σ _i分别表示第i个高斯混合分量的参数；α _i表示高斯混合分量所对应的混合系数，满足
p(x _j|μ _i,Σ _i)表示第i个高斯混合分量对应的第j个采样值的概率密度。
根据权利要求3所述的一种缺失条件下的高斯混合模型聚类机器学习方法，其特征在于，所述第i个高斯混合分量对应的第j个采样值的概率密度p(x _j|μ _i,Σ _i)，表示为：

其中，x ^T表示x的转置。
根据权利要求4所述的一种缺失条件下的高斯混合模型聚类机器学习方法，其特征在于，所述步骤S3中还包括引入随机变量z _j∈{1,2,…,j}来表示样本x _j对应的高斯混合分量，具体为：

z _j的先验概率P(z _j＝i)对应于α _i(i＝1,2,…k)，根据贝叶斯定理，z _j的后验概率分布表示为：

其中，l表示第i个高斯混合分量，
表示对所有高斯混合分量对应的第j个样本的概率密度的加权和；后验概率分布pM(z _j＝i|x _j)表示样本x _j属于第i个高斯混合分量。
根据权利要求5所述的一种缺失条件下的高斯混合模型聚类机器学习方法，其特征在于，所述步骤S4中采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数，表示为：

其中，μ _i和Σ _i分别表示第i个高斯混合分量的参数；α _i表示高斯混合分量所对应的混合系数。
根据权利要求6所述的一种缺失条件下的高斯混合模型聚类机器学习方法，其特征在于，所述步骤S4中采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数具体为：利用最大期望算法和轮替优化交替法求解高斯混合模型聚类的目标函数。
根据权利要求7所述的一种缺失条件下的高斯混合模型聚类机器学习方法，其特征在于，所述利用最大期望算法和轮替优化交替法求解高斯混合模型聚类的目标函数具体包括：

根据当前参数计算每个样本属于每个高斯混合分量的后验概率，表示为：

其中，γ _ji＝pM(z _j＝i|x _j)表示高斯混合分量的后验概率。
根据权利要求8所述的一种缺失条件下的高斯混合模型聚类机器学习方法，其特征在于，所述步骤S4具体为：

S41.固定目标数据样本矩阵X，优化参数α _i、μ _i和Σ _i；

将目标函数
划分为k个子问题，表示为：

S42.固定α、μ和Σ，优化目标数据样本矩阵X；

将目标函数
划分为n个子问题，表示为：

令x _m表示目标函数的解，则将均值μ _i和协方差矩阵Σ _i以与目标数据样本矩阵X相同的方式分成可观测部分和缺失部分，表示为：

其中，m表示矩阵的缺失部分；o表示矩阵的可观测部分；

求解公式(8)对x _m的偏导数，并令x _m的偏导数等于零，则得到的解析解表示为：

其中，P _i＝p(x _j|μ _i,Σ _i)。
根据权利要求9所述的一种缺失条件下的高斯混合模型聚类机器学习方法，其特征在于，所述步骤S41具体包括：

S411.固定α _i、Σ _i和X，优化参数μ _i；

在α _i和Σ _i固定的情况下，求公式(7)对μ _i的偏导数并使其等于零，表示为：

S412.固定α _i、μ _i和X，优化参数Σ _i；

在α _i和μ _i固定的情况下，求公式(7)对于Σ _i的偏导数并使其等于零，表示为：

S413.固定μ _i、Σ _i和X，优化参数α _i；

对于α _i，由于
考虑拉格朗日形式：

其中，λ表示一个拉格朗日乘子，通过求

对于α _i的导数并使其等于零，获得α _i的更新值，表示为：

其中，m表示矩阵的缺失部分。