WO2022179241A1 - 一种缺失条件下的高斯混合模型聚类机器学习方法 - Google Patents

一种缺失条件下的高斯混合模型聚类机器学习方法 Download PDF

Info

Publication number
WO2022179241A1
WO2022179241A1 PCT/CN2021/136556 CN2021136556W WO2022179241A1 WO 2022179241 A1 WO2022179241 A1 WO 2022179241A1 CN 2021136556 W CN2021136556 W CN 2021136556W WO 2022179241 A1 WO2022179241 A1 WO 2022179241A1
Authority
WO
WIPO (PCT)
Prior art keywords
gaussian mixture
missing
mixture model
clustering
expressed
Prior art date
Application number
PCT/CN2021/136556
Other languages
English (en)
French (fr)
Inventor
朱信忠
徐慧英
张毅
赵建民
Original Assignee
浙江师范大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 浙江师范大学 filed Critical 浙江师范大学
Publication of WO2022179241A1 publication Critical patent/WO2022179241A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Definitions

  • the present application relates to the technical fields of computer vision and pattern recognition, and in particular to a Gaussian mixture model clustering machine learning method under missing conditions.
  • the purpose of this application is to provide a machine learning method for Gaussian mixture model clustering under the missing condition, aiming at the defects of the prior art.
  • a machine learning method for Gaussian mixture model clustering under missing condition including:
  • step S3 the optimization objective function of Gaussian mixture model clustering under the condition of missing feature parts is established, which is expressed as:
  • X represents the target data sample matrix
  • k represents the number of clusters
  • x j represents each sample, 1 ⁇ j ⁇ n
  • x j (o j ) represents the observable feature part
  • x j (m j ) represents missing features part.
  • step S3 also includes defining a Gaussian mixture probability distribution, which is expressed as:
  • ⁇ i and ⁇ i respectively represent the parameters of the ith Gaussian mixture component;
  • ⁇ i represents the mixing coefficient corresponding to the Gaussian mixture component, which satisfies Represents the probability density of the jth sampled value corresponding to the ith Gaussian mixture component.
  • step S3 also includes introducing random variables z j ⁇ ⁇ 1,2,...,j ⁇ to represent the Gaussian mixture components corresponding to the samples x j , specifically:
  • the maximum likelihood estimation method is used to solve the optimization objective function of the established Gaussian mixture model clustering, which is expressed as:
  • ⁇ i and ⁇ i respectively represent the parameters of the ith Gaussian mixture component; ⁇ i represents the mixing coefficient corresponding to the Gaussian mixture component.
  • step S4 using the maximum likelihood estimation method to solve the established Gaussian mixture model clustering optimization objective function is specifically: using the maximum expectation algorithm and the rotation optimization alternate method to solve the Gaussian mixture model clustering objective function.
  • the objective function for solving the Gaussian mixture model clustering by using the maximum expectation algorithm and the alternate optimization method specifically includes:
  • x j ) represents the posterior probability of the Gaussian mixture component.
  • step S4 is specifically:
  • m represents the missing part of the matrix
  • o represents the observable part of the matrix
  • step S41 specifically includes:
  • represents a Lagrange multiplier, which can be obtained by finding For the derivative of ⁇ i and making it equal to zero, the updated value of ⁇ i is obtained, expressed as:
  • the present application proposes a Gaussian mixture model clustering machine learning method under missing conditions, which integrates filling tasks with Gaussian mixture model clustering, and fills in missing values under the guidance of the clustering results. , and then perform Gaussian mixture model clustering with dynamically filled values.
  • the present application enables the two processes of filling and clustering to be guided and coordinated with each other.
  • the filling value can better serve the final clustering target and achieve the purpose of improving the clustering effect.
  • Experimental results on eight public datasets demonstrate that the present application outperforms existing methods.
  • Embodiment 1 is a flowchart of a Gaussian mixture model clustering machine learning method under a missing condition provided by Embodiment 1;
  • Embodiment 2 is a schematic diagram showing the comparison of the ACC performances of different clustering algorithms provided by Embodiment 2 on eight data sets as a function of missing rates;
  • Embodiment 3 is a schematic diagram of the NMI performance comparison of different clustering algorithms provided by Embodiment 2 on eight data sets with changes in missing rates;
  • Embodiment 4 is a schematic diagram of the F-score performance comparison of different clustering algorithms provided by Embodiment 2 on eight data sets with changes in missing rates;
  • Embodiment 5 is a schematic diagram of the PUR performance comparison of different clustering algorithms provided by Embodiment 2 on eight data sets with changes in missing rates;
  • FIG. 6 is a schematic diagram of the change of the objective function value of the algorithm as the number of iterations increases, provided in the second embodiment.
  • the present application provides a Gaussian mixture model clustering machine learning method under the missing condition.
  • This embodiment provides a machine learning method for Gaussian mixture model clustering under missing conditions.
  • the method integrates filling tasks with Gaussian mixture model clustering, fills in missing values under the guidance of clustering results, and uses dynamically filled values Then perform Gaussian mixture model clustering; as shown in Figure 1, the specific steps of the method include:
  • step S13 the representative points of each Gaussian mixture model component are selected by random initialization, and the optimization objective function of the Gaussian mixture model clustering under the condition of missing feature parts is established by the maximum likelihood estimation method.
  • the optimization objective function of Gaussian mixture model clustering under the condition of missing feature parts is established, which is expressed as:
  • X represents the target data sample matrix
  • k represents the number of clusters
  • x j represents each sample, 1 ⁇ j ⁇ n
  • each sample x j can be divided into two parts: x j (o j ) represents the observable feature part; x j (m j ) represents the missing feature part. And keep the observable features x j (o j ) constant during the optimization process while optimizing the missing features x j (m j ) of the data.
  • Step S13 also includes defining a Gaussian mixture probability distribution, which is expressed as:
  • the Gaussian mixture probability distribution consists of k Gaussian distributions, and each Gaussian distribution can be regarded as a mixture component.
  • ⁇ i and ⁇ i respectively represent the parameters of the ith Gaussian mixture component;
  • ⁇ i represents the mixing coefficient corresponding to the Gaussian mixture component, satisfying Represents the probability density of the jth sampled value corresponding to the ith Gaussian mixture component.
  • ⁇ i , ⁇ i ) of the jth sampled value corresponding to the ith Gaussian mixture component is expressed as:
  • Step S13 also includes introducing random variables z j ⁇ 1,2,...,j ⁇ to represent the Gaussian mixture components corresponding to the unknown samples x j , specifically:
  • step S14 the maximum likelihood estimation method is used to solve the optimization objective function of the established Gaussian mixture model clustering to realize the clustering.
  • the maximum likelihood estimation method is used to solve the optimization objective function of the established Gaussian mixture model clustering, that is, the parameters are solved by maximizing the log-likelihood value, which is expressed as:
  • ⁇ i and ⁇ i respectively represent the parameters of the ith Gaussian mixture component; ⁇ i represents the mixing coefficient corresponding to the Gaussian mixture component.
  • the objective function of Gaussian mixture model clustering can be solved by using the maximum expectation algorithm and the alternate method of rotation optimization, including:
  • Expectation step Calculate the posterior probability that each sample belongs to each Gaussian mixture component according to the current parameters, expressed as:
  • x j ) represents the posterior probability of the Gaussian mixture component.
  • Step S14 is specifically:
  • represents a Lagrange multiplier, which can be obtained by finding For the derivative of ⁇ i and making it equal to zero, the updated value of ⁇ i is obtained, expressed as:
  • m represents the missing part of the matrix and o represents the observable part of the matrix.
  • Equation (13) the missing features of each sample x j are filled by the corresponding dimensions of the Gaussian mixture components and the observable features of the samples.
  • the model parameters and missing values are updated using the Maximization-Step method.
  • the Gaussian mixture model clustering under the missing condition can be realized.
  • this embodiment proposes a machine learning method for Gaussian mixture model clustering under missing conditions, which combines filling tasks with Gaussian mixture model clustering, and fills the missing data under the guidance of the clustering results. value, and then perform Gaussian mixture model clustering with dynamically filled values.
  • the present application enables the two processes of filling and clustering to be guided and coordinated with each other.
  • the filling value can better serve the final clustering target and achieve the purpose of improving the clustering effect. .
  • the 8 MKL standard datasets include Iris, AlcoholQCM, Seeds, Wine, Segment, ElectricalGrid, Avila, and Letter. See Table 1 for information about the dataset.
  • This embodiment compares the proposed dynamic Gaussian mixture model clustering algorithm with several commonly used filling methods, including mean filling (MF), zero filling (ZF), and expected maximum filling (EM).
  • this example is compared with the recently proposed dynamic K-means filling (DK) method combining the first three methods. For all datasets, the true number k of clusters is assumed to be known and is set to the number of classes. The missing data is randomly generated from the original complete data matrix, and the missing rate is 10-70%, and the missing rate will affect the performance of the algorithm.
  • this example compares these algorithms from a missing rate perspective.
  • the clustering performance of each algorithm was evaluated using the widely used clustering accuracy (ACC), normalized mutual information (NMI), F-Score and purity (PUR).
  • ACC clustering accuracy
  • NMI normalized mutual information
  • PUR purity
  • this embodiment performs 50 random initializations for each experiment to reduce the influence of the randomness of the initial value selection of the K-means and GMM clustering algorithms, and reports the average results. At the same time, this embodiment randomly generates 10 missing data according to the above method, and reports the statistical results.
  • Figures 2-6 show the comparison of clustering performance of different clustering algorithms as a function of missing rate on eight datasets. According to these figures, it can be observed:
  • the proposed algorithm significantly and consistently outperforms existing two-stage padding clustering methods.
  • the ACC value of the algorithm in this embodiment is 0%, 21.2%, 6.0%, and 16.7% higher than the two-stage clustering method (EM) with the best effect, respectively.
  • the NMI values of the algorithm in this embodiment are 0%, 22.2%, 5.0%, 19.0%, 15.1%, 21.6%, 26.3% and 22.4% higher, respectively.
  • the trends for the F-score and PUR metrics are also the same.
  • Gaussian mixture model clustering can handle more complex multimodal data and achieve better performance.
  • the algorithm improves the performance of the suboptimal method (DK+Mean) in terms of ACC values by 3.3%, 6.1%, 7.8%, 13.0%, 16.1%, 15.8%, 9.9% and 9.3%; the NMI values of the algorithm in this embodiment are 5.8%, 13.6%, 17.6%, 23.0%, 26.3%, 22.0%, 14.1% and 10.1% higher than that respectively. From Figure 4 and Figure 5, it can be seen that the trends of F-score and PUR indicators are also the same. These results verify that the Gaussian mixture GMM model clustering outperforms the dynamic K-means method for missing data clustering.
  • Table 2 shows the comprehensive evaluation index and standard deviation of the clustering effect of the method of this embodiment and the comparison algorithm on all data sets, wherein the best result is shown in bold.
  • the proposed algorithm in this example almost always achieves the optimal level of performance on every performance metric across all eight datasets.
  • the ACC value (clustering accuracy) of the algorithm proposed in this example on the Iris, Seeds, Wine, and Avila datasets is higher than the dynamic K-means clustering method (DK+Em) proposed last year for missing data, respectively. 8.4%, 11.4%, 11.8% and 6.1%, and the NMI values (normalized mutual information) were 8.3%, 18.5%, 15.2% and 3.2% higher, respectively.
  • the algorithm proposed in this embodiment also has a huge advantage in clustering performance.
  • the ACC value (clustering accuracy) of the algorithm proposed in this embodiment is 8.4%, 14.6%, 5.2% higher than the GMM clustering with EM filling. %, 6.1%, 14.9% and 5.4%, the F-score value was 6.8%, 13.3%, 5.1%, 8%, 14% and 6.2% higher, and the PUR value (purity) was 8.2%, 14.5% higher, respectively %, 3.8%, 6.1%, 8.8% and 5.7%.
  • This embodiment also shows the change of the objective function value with the change of the number of iterations.
  • FIG. 6 shows the value of the objective function performed on the Seeds and Letter data sets with the change of the number of iterations. It can be seen that the objective function value of clustering increases monotonically in the iterative process, the objective function value tends to be stable very quickly, and the algorithm usually achieves convergence in less than 100 iterations.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种缺失条件下的高斯混合模型聚类机器学习方法,包括:S11.获取聚类任务和目标数据样本;S12.将获取的目标数据样本中的每个样本分为可观测特征部分和缺失特征部分,对缺失特征部分进行初始填充并保持可观测特征部分的不变性;S13.利用随机初始化选定各个高斯混合模型成分的代表点,通过极大似然估计方法建立缺失特征部分条件下的高斯混合模型聚类的优化目标函数;S14.采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数,实现聚类。本申请将填充任务与高斯混合模型聚类相融合,在聚类结果的引导下填充缺失值,用动态填充的值再进行高斯混合模型聚类。

Description

一种缺失条件下的高斯混合模型聚类机器学习方法 技术领域
本申请涉及计算机视觉和模式识别技术领域,尤其涉及一种缺失条件下的高斯混合模型聚类机器学习方法。
背景技术
近年来,聚类学习算法在人工智能机器学习领域是一个非常值得关注且重要的研究热点。
但是,现有的聚类算法通常都共享一个基本假设:所有数据样本的特征都是可观测的,也就是说每一个数据样本的每一个特征都没缺失。然而,在许多聚类算法的实际应用的数据收集过程中,经常会遇到无法正确收集到某些测量值或某个变量的全部测量值,因此也就造成了很多数据集中常常存在变量的特征值出现缺失的情况。
不完整数据的存在使得利用所有数据样本的信息进行聚类变得异常困难。一个直接的补救措施就是先用一种填补算法来填补缺失值,然后利用一种标准的聚类算法进行聚类。一些常用的填补算法有零填充、均值填充、k近邻填充和期望最大化填充算法和其他改进算法。这些方法试图通过预处理来减少缺失数据对聚类产生的负面影响,尽管在各种应用中展现了很好的聚类性能,但是上述算法有一个共同的缺点,它们的数据填补和聚类过程是分开进行的,导致缺失特征的填补过程不能服务于聚类任务,这抑制了两个过程之间相互的引导协调,进而降低了聚类性能。
发明内容
本申请的目的是针对现有技术的缺陷,提供了一种缺失条件下的高斯混合模型聚类机器学习方法。
为了实现以上目的,本申请采用以下技术方案:
一种缺失条件下的高斯混合模型聚类机器学习方法,包括:
S1.获取聚类任务和目标数据样本;
S2.将获取的目标数据样本中的每个样本分为可观测特征部分和缺失特征部分,对缺失特征部分进行初始填充并保持可观测特征部分的不变性;
S3.利用随机初始化选定各个高斯混合模型成分的代表点,通过极大似然估计方法建立缺失特征部分条件下的高斯混合模型聚类的优化目标函数;
S4.采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数,实现聚类。
进一步的,所述步骤S3中建立缺失特征部分条件下的高斯混合模型聚类的优化目标函数,表示为:
Figure PCTCN2021136556-appb-000001
其中,X表示目标数据样本矩阵;k表示聚类个数;x j表示每个样本,1≤j≤n;x j(o j)表示可观测特征部分;x j(m j)表示缺失特征部分。
进一步的,所述步骤S3中还包括定义高斯混合概率分布,表示为:
pM(X)=∑α ip(x jj,∑ i)    (2)
其中,μ i和∑ i分别表示第i个高斯混合分量的参数;α i表示高斯混合分量所对应的混合系数,满足
Figure PCTCN2021136556-appb-000002
表示第i个高斯混合分量对应的第j个采样值的概率密度。
进一步的,所述第i个高斯混合分量对应的第j个采样值的概率密度p(x ji,∑ i),表示为:
Figure PCTCN2021136556-appb-000003
其中,x T表示x的转置。
进一步的,所述步骤S3中还包括引入随机变量z j∈{1,2,…,j}来表示样本x j对应的高斯混合分量,具体为:
z j的先验概率P(z j=i)对应于α i(i=1,2,…k),根据贝叶斯定理,z j的后验概率分布表示为:
Figure PCTCN2021136556-appb-000004
其中,l表示第i个高斯混合分量,
Figure PCTCN2021136556-appb-000005
表示对所有高斯混合分量对应的第j个样本的概率密度的加权和;后验概率分布pM(z j=i|x j)表示样本x j属于第i个高斯混合分量。
进一步的,所述步骤S4中采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数,表示为:
LL(X)=ln(∏pM(x j))=∑ln(∑α ip(x ji,∑ i))    (5)
其中,μ i和∑ i分别表示第i个高斯混合分量的参数;α i表示高斯混合分量所对应的混合系数。
进一步的,所述步骤S4中采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数具体为:利用最大期望算法和轮替优化交替法求解高斯混合模型聚类的目标函数。
进一步的,所述利用最大期望算法和轮替优化交替法求解高斯混合模型聚类的目标函数具体包括:
根据当前参数计算每个样本属于每个高斯混合分量的后验概率,表示为:
Figure PCTCN2021136556-appb-000006
其中,γ ji=pM(z j=i|x j)表示高斯混合分量的后验概率。
进一步的,所述步骤S4具体为:
S41.固定目标数据样本矩阵X,优化参数α i、μ i和Σ i
将目标函数
Figure PCTCN2021136556-appb-000007
划分为k个子问题,表示为:
Figure PCTCN2021136556-appb-000008
S42.固定α、μ和Σ,优化目标数据样本矩阵X;
将目标函数
Figure PCTCN2021136556-appb-000009
划分为 n个子问题,表示为:
Figure PCTCN2021136556-appb-000010
令x m表示目标函数的解,则将均值μ i和协方差矩阵Σ i以与目标数据样本矩阵X相同的方式分成可观测部分和缺失部分,表示为:
Figure PCTCN2021136556-appb-000011
其中,m表示矩阵的缺失部分,o表示矩阵的可观测部分;
求解公式(8)对x m的偏导数,并令x m的偏导数等于零,则得到的解析解表示为:
Figure PCTCN2021136556-appb-000012
其中,P i=p(x ji,∑ i)。
进一步的,所述步骤S41具体包括:
S411.固定α i、Σ i和X,优化参数μ i
在α i和Σ i固定的情况下,求公式(7)对μ i的偏导数并使其等于零,表示为:
Figure PCTCN2021136556-appb-000013
Figure PCTCN2021136556-appb-000014
S412.固定α i、μ i和X,优化参数Σ i
在α i和μ i固定的情况下,求公式(7)对于Σ i的偏导数并使其等于零,表示为:
Figure PCTCN2021136556-appb-000015
S413.固定μ i、Σ i和X,优化参数α i
对于α i,由于
Figure PCTCN2021136556-appb-000016
考虑拉格朗日形式:
Figure PCTCN2021136556-appb-000017
其中,λ表示一个拉格朗日乘子,通过求
Figure PCTCN2021136556-appb-000018
Figure PCTCN2021136556-appb-000019
对于α i的导数并使其等于零,获得α i的更新值,表示为:
Figure PCTCN2021136556-appb-000020
其中,m表示矩阵的缺失部分。
与现有技术相比,本申请提出了一种缺失条件下的高斯混合模型聚类机器学习方法,该方法将填充任务与高斯混合模型聚类相融合,在聚类结果的引导下填充缺失值,用动态填充的值再进行高斯混合模型聚类。本申请使得填充和聚类两个过程能够互相引导协调,通过使用高斯混合模型聚类结果对填充过程的引导,填充值能更好地服务于最终的聚类目标,达到聚类效果提升的目的。在八个公共数据集上的实验结果证明了本申请的性能优于现有方法。
附图说明
图1是实施例一提供的一种缺失条件下的高斯混合模型聚类机器学习方法流程图;
图2是实施例二提供的不同聚类算法在八个数据集上随缺失率变化的ACC性能对比示意图;
图3是实施例二提供的不同聚类算法在八个数据集上随缺失率变化的NMI性能对比示意图;
图4是实施例二提供的不同聚类算法在八个数据集上随缺失率变化的F-score性能对比示意图;
图5是实施例二提供的不同聚类算法在八个数据集上随缺失率变化的PUR性能对比示意图;
图6是实施例二提供的随迭代次数增加,算法的目标函数值的变化示意图。
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基 于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
本申请针对现有缺陷,提供了一种缺失条件下的高斯混合模型聚类机器学习方法。
实施例一
本实施例提供的一种缺失条件下的高斯混合模型聚类机器学习方法,该方法将填充任务与高斯混合模型聚类相融合,在聚类结果的引导下填充缺失值,用动态填充的值再进行高斯混合模型聚类;如图1所示,该方法具体步骤包括:
S11.获取聚类任务和目标数据样本;
S12.将获取的目标数据样本中的每个样本分为可观测特征部分和缺失特征部分,对缺失特征部分进行初始填充并保持可观测特征部分的不变性;
S13.利用随机初始化选定各个高斯混合模型成分的代表点,通过极大似然估计方法建立缺失特征部分条件下的高斯混合模型聚类的优化目标函数;
S14.采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数,实现聚类。
在步骤S13中,利用随机初始化选定各个高斯混合模型成分的代表点,通过极大似然估计方法建立缺失特征部分条件下的高斯混合模型聚类的优化目标函数。
在本实施例中,建立缺失特征部分条件下的高斯混合模型聚类的优化目标函数,表示为:
Figure PCTCN2021136556-appb-000021
其中,X表示目标数据样本矩阵;k表示聚类个数;x j表示每个样本,1≤j≤n;对于不完整数据,每个样本x j可以分为两部分:x j(o j)表示可观测特征部分;x j(m j)表示缺失特征部分。并且在优化数据的缺失特征x j(m j)的同时在优化过程中保持可观测特征x j(o j)不变。
步骤S13中还包括定义高斯混合概率分布,表示为:
pM(X)=∑α ip(x ji,∑ i)    (2)
其中,该高斯混合概率分布由k个高斯分布组成,每个高斯分布可以看成一个混合分量。μ i和∑ i分别表示第i个高斯混合分量的参数;α i表示高斯混合分量所对应的混合系数,满足
Figure PCTCN2021136556-appb-000022
表示第i个高斯混合分量对应的第j个采样值的概率密度。
第i个高斯混合分量对应的第j个采样值的概率密度p(x ji,∑ i),表示为:
Figure PCTCN2021136556-appb-000023
其中,x T表示x的转置。
步骤S13中还包括引入随机变量z j∈{1,2,…,j}来表示未知的样本x j对应的高斯混合分量,具体为:
z j的先验概率P(z j=i)对应于α i(i=1,2,…k),根据贝叶斯定理可知,z j的后验概率分布表示为:
Figure PCTCN2021136556-appb-000024
其中,l表示第i个高斯混合分量,
Figure PCTCN2021136556-appb-000025
表示对所有高斯混合分量对应的第j个样本的概率密度的加权和;后验概率分布pM(z j=i|x j)表示样本x j属于第i个高斯混合分量。
在步骤S14中,采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数,实现聚类。
采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数,即通过最大化对数似然值来求解参数,表示为:
LL(X)=ln(∏pM(x j))=∑ln(∑α ip(x ji,∑ i))    (5)
其中,μ i和∑ i分别表示第i个高斯混合分量的参数;α i表示高斯混合分量所对应的混合系数。
进一步的可以利用最大期望算法和轮替优化交替法求解高斯混合模型聚类的目标函数,具体包括:
期望步:根据当前参数计算每个样本属于每个高斯混合分量的后验概率,表示为:
Figure PCTCN2021136556-appb-000026
其中,γ ji=pM(z j=i|x j)表示高斯混合分量的后验概率。
最大化步:步骤S14具体为:
S41.固定目标数据样本矩阵X,优化参数α i、μ i和Σ i
基于对高斯混合模型的每个分量相互独立的考虑,将公式(1)的目标函数
Figure PCTCN2021136556-appb-000027
划分为k个子问题,表示为:
Figure PCTCN2021136556-appb-000028
S411.固定α i、Σ i和X,优化参数μ i
在α i和Σ i固定的情况下,求公式(7)对μ i的偏导数并使其等于零,表示为:
Figure PCTCN2021136556-appb-000029
Figure PCTCN2021136556-appb-000030
S412.固定α i、μ i和X,优化参数Σ i
在α i和μ i固定的情况下,求公式(7)对于Σ i的偏导数并使其等于零,表示为:
Figure PCTCN2021136556-appb-000031
S413.固定μ i、Σ i和X,优化参数α i
对于α i,由于
Figure PCTCN2021136556-appb-000032
考虑拉格朗日形式:
Figure PCTCN2021136556-appb-000033
其中,λ表示一个拉格朗日乘子,通过求
Figure PCTCN2021136556-appb-000034
Figure PCTCN2021136556-appb-000035
对于α i的导数并使其等于零,获得α i的更新值,表示为:
Figure PCTCN2021136556-appb-000036
S42.固定α、μ和Σ,优化目标数据样本矩阵X;
考虑到每个样本x j相互独立,将公式(1)的目标函数
Figure PCTCN2021136556-appb-000037
划分为n个子问题,优化目标可以等价地改写成:
Figure PCTCN2021136556-appb-000038
令x m表示目标函数的解,为了解决求解等式(11)中x m的偏导数这一难题,则将均值μ i和协方差矩阵Σ i以与目标数据样本矩阵X相同的方式分成可观测部分和缺失部分,表示为:
Figure PCTCN2021136556-appb-000039
其中,m表示矩阵的缺失部分,o表示矩阵的可观测部分。
求解公式(12)对x m的偏导数,并令x m的偏导数等于零,则得到的解析解表示为:
Figure PCTCN2021136556-appb-000040
其中,P i=p(x ji,∑ i)。
如公式(13)所示,每个样本x j的缺失特征通过高斯混合分量的对应维度和样本的可观察特征来填充。根据Expectation-Step中计算的后验概率γ ji,采用极大化似然估计方法(Maximization-Step)更新模型参数和缺失值。即可实现缺失条件下的高斯混合模型聚类。
与现有技术相比,本实施例提出了一种缺失条件下的高斯混合模型聚类机器学习方法,该方法将填充任务与高斯混合模型聚类相融合,在聚类结果的引导下填充缺失值,用动态填充的值再进行高斯混合模型聚类。本申请使得填充和聚类两个过程能够互相引导协调,通过使用高斯混合模型聚类结果对填充过程的引导,填充值能更好地服务于最终的聚类目标,达到聚类效果提升的目的。
实施例二
本实施例提供的一种缺失条件下的高斯混合模型聚类机器学习方法与实 施例一的不同之处在于:
本实施例在8个MKL标准数据集上测试了本申请方法的聚类性能。
8个MKL标准数据集包括Iris、AlcoholQCM、Seeds、Wine、Segment、ElectricalGrid、Avila和Letter。数据集的相关信息参见表1。
数据集 样本数量 维度 簇的数量
Iris 150 4 3
AlcoholQCM 125 10 5
Seeds 210 7 3
Wine 178 13 3
Segment 2310 18 7
ElectricalGrid 10000 13 2
Avila 20871 10 12
Letter 20000 16 26
表1
本实施例分别将提出的动态高斯混合模型聚类算法与几种常用的填充方法,包括均值填充(MF)、零填充(ZF)、期望最大填充(EM)进行了比较。此外,本实施例还与最近提出的结合前三种方法的动态K-均值填充(DK)方法进行了比较。对于所有数据集,假设簇的真实数目k是已知的,并且将其设置为类的数目。由原始完全数据矩阵随机生成缺失数据,缺失率均为10~70%,其中缺失率会影响算法的性能。
为了更深入地说明这一点,本实施例从缺失率的角度对这些算法进行了比较。使用广泛使用的聚类准确率(ACC)、归一化互信息(NMI)、F-Score和纯度(PUR)来评价每种算法的聚类性能。
对于所有算法,本实施例对每个实验进行50次随机初始化,以减小K-均值和GMM聚类算法初值选取的随机性的影响,并报告平均结果。同时,本实施例按照上述方式随机生成了10次缺失数据,并上报了统计结果。
图2-图6展示了不同聚类算法在八个数据集上随缺失率变化的聚类性能对比图,根据这些图可以观察到:
(1)所提出的算法明显且一致地优于现有的两阶段填充聚类方法。例如, Seeds数据集中,随着缺失率从0到70%的变化,本实施例算法的ACC值分别比效果最优的两阶段聚类方法(EM)高0%、21.2%、6.0%、16.7%、14.8%、17.3%、20.6%和20.2%,本实施例算法的NMI值分别高出0%、22.2%、5.0%、19.0%、15.1%、21.6%、26.3%和22.4%。F-score和PUR指标的趋势也是相同的。
(2)虽然最近提出的动态K-均值填充聚类算法得到了不错的性能,但高斯混合模型聚类能够处理更复杂的多模态数据,取得了更好的性能。例如,Seeds数据集中,随着缺失率从0到70%的变化,该算法在ACC值方面将次优方法(DK+Mean)的性能分别提高了3.3%、6.1%、7.8%、13.0%、16.1%、15.8%、9.9%和9.3%;本实施例算法的NMI值则分别比其高出了5.8%、13.6%、17.6%、23.0%、26.3%、22.0%、14.1%和10.1%。从图4、图5中能看到F-score和PUR指标的趋势也是相同的。这些结果验证了高斯混合GMM模型聚类对于缺失数据聚类的性能要优于动态K-均值方法。
(3)当缺失率超过40%时,现有的两阶段填充聚类方法的性能会明显下降。然而,本实施例提出的缺失数据高斯混合模型聚类与其他比较算法相比,具有最好的鲁棒性,并且在缺失率增加的情况下仍能保持最佳的性能。
如表2所示展示了本实施例的方法以及对比算法在所有数据集上的聚类效果综合的评价指标和标准偏差,其中最佳结果以粗体显示。
Figure PCTCN2021136556-appb-000041
Figure PCTCN2021136556-appb-000042
Figure PCTCN2021136556-appb-000043
表2
根据表2可以观察到:
本实施例所提出的算法几乎总是在所有八个数据集的每个性能度量上都达到最优的性能水平。例如,本实施例提出的算法在Iris、Seeds、Wine和Avila等数据集上的ACC值(聚类准确率)分别比去年针对缺失数据提出的动态K-均值聚类方法(DK+Em)高出8.4%、11.4%、11.8%和6.1%,NMI值(标准化互信息)分别高出8.3%、18.5%、15.2%和3.2%。本实施例提出的算法与传统的GMM聚类算法进行比较,聚类性能也有着巨大的优势。例如,在Iris、Seeds、Wine、Segment、ElectricGrid和Letter数据集上,本实施例提出的算法的ACC值(聚类准确率)比采用EM填充的GMM聚类高出8.4%、14.6%、5.2%、6.1%、14.9%和5.4%,F-score值则分别高出6.8%、13.3%、5.1%、8%、14%和6.2%,PUR值(纯度)则分别高出8.2%、14.5%、3.8%、6.1%、8.8%和5.7%。这些结果与前述内容各个聚类性能指标的曲线图中的观察结果一致,很好地表明了本实施例提出算法的有效性。
本实施例也给出了随着迭代次数的变化时,目标函数值的变化情况,如图6所示为在Seeds和Letter数据集上执行的随迭代次数变化的目标函数值。可以看出聚类的目标函数值在迭代过程中单调递增,目标函数值很快就趋于稳定,并且算法通常少于100次迭代就能够达到收敛。
现有基本聚类算法已经在各种应用中表现出不错的效果,但他们都不能有效处理数据缺失的问题。本实施例联合优化缺失填充和高斯混合模型聚类来解决这个问题。这使得两个学习过程无缝融合,取得了更好的聚类结果。通过大量的实验,在多个公开数据集上都验证了聚类结果得到明显改善。
注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员 会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。

Claims (10)

  1. 一种缺失条件下的高斯混合模型聚类机器学习方法,其特征在于,包括:
    S1.获取聚类任务和目标数据样本;
    S2.将获取的目标数据样本中的每个样本分为可观测特征部分和缺失特征部分,对缺失特征部分进行初始填充并保持可观测特征部分的不变性;
    S3.利用随机初始化选定各个高斯混合模型成分的代表点,通过极大似然估计方法建立缺失特征部分条件下的高斯混合模型聚类的优化目标函数;
    S4.采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数,实现聚类。
  2. 根据权利要求1所述的一种缺失条件下的高斯混合模型聚类机器学习方法,其特征在于,所述步骤S3中建立缺失特征部分条件下的高斯混合模型聚类的优化目标函数,表示为:
    Figure PCTCN2021136556-appb-100001
    其中,X表示目标数据样本矩阵;k表示聚类个数;x j表示每个样本,1≤j≤n;x j(o j)表示可观测特征部分;x j(m j)表示缺失特征部分。
  3. 根据权利要求2所述的一种缺失条件下的高斯混合模型聚类机器学习方法,其特征在于,所述步骤S3中还包括定义高斯混合概率分布,表示为:
    pM(X)=∑α ip(x jii)  (2)
    其中,μ i和Σ i分别表示第i个高斯混合分量的参数;α i表示高斯混合分量所对应的混合系数,满足
    Figure PCTCN2021136556-appb-100002
    p(x jii)表示第i个高斯混合分量对应的第j个采样值的概率密度。
  4. 根据权利要求3所述的一种缺失条件下的高斯混合模型聚类机器学习方法,其特征在于,所述第i个高斯混合分量对应的第j个采样值的概率密度p(x jii),表示为:
    Figure PCTCN2021136556-appb-100003
    其中,x T表示x的转置。
  5. 根据权利要求4所述的一种缺失条件下的高斯混合模型聚类机器学习方法,其特征在于,所述步骤S3中还包括引入随机变量z j∈{1,2,…,j}来表示样本x j对应的高斯混合分量,具体为:
    z j的先验概率P(z j=i)对应于α i(i=1,2,…k),根据贝叶斯定理,z j的后验概率分布表示为:
    Figure PCTCN2021136556-appb-100004
    其中,l表示第i个高斯混合分量,
    Figure PCTCN2021136556-appb-100005
    表示对所有高斯混合分量对应的第j个样本的概率密度的加权和;后验概率分布pM(z j=i|x j)表示样本x j属于第i个高斯混合分量。
  6. 根据权利要求5所述的一种缺失条件下的高斯混合模型聚类机器学习方法,其特征在于,所述步骤S4中采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数,表示为:
    Figure PCTCN2021136556-appb-100006
    其中,μ i和Σ i分别表示第i个高斯混合分量的参数;α i表示高斯混合分量所对应的混合系数。
  7. 根据权利要求6所述的一种缺失条件下的高斯混合模型聚类机器学习方法,其特征在于,所述步骤S4中采用极大似然估计方法求解建立的高斯混合模型聚类的优化目标函数具体为:利用最大期望算法和轮替优化交替法求解高斯混合模型聚类的目标函数。
  8. 根据权利要求7所述的一种缺失条件下的高斯混合模型聚类机器学习方法,其特征在于,所述利用最大期望算法和轮替优化交替法求解高斯混合模型聚类的目标函数具体包括:
    根据当前参数计算每个样本属于每个高斯混合分量的后验概率,表示为:
    Figure PCTCN2021136556-appb-100007
    其中,γ ji=pM(z j=i|x j)表示高斯混合分量的后验概率。
  9. 根据权利要求8所述的一种缺失条件下的高斯混合模型聚类机器学习方法,其特征在于,所述步骤S4具体为:
    S41.固定目标数据样本矩阵X,优化参数α i、μ i和Σ i
    将目标函数
    Figure PCTCN2021136556-appb-100008
    划分为k个子问题,表示为:
    Figure PCTCN2021136556-appb-100009
    S42.固定α、μ和Σ,优化目标数据样本矩阵X;
    将目标函数
    Figure PCTCN2021136556-appb-100010
    划分为n个子问题,表示为:
    Figure PCTCN2021136556-appb-100011
    令x m表示目标函数的解,则将均值μ i和协方差矩阵Σ i以与目标数据样本矩阵X相同的方式分成可观测部分和缺失部分,表示为:
    Figure PCTCN2021136556-appb-100012
    其中,m表示矩阵的缺失部分;o表示矩阵的可观测部分;
    求解公式(8)对x m的偏导数,并令x m的偏导数等于零,则得到的解析解表示为:
    Figure PCTCN2021136556-appb-100013
    其中,P i=p(x jii)。
  10. 根据权利要求9所述的一种缺失条件下的高斯混合模型聚类机器学习方法,其特征在于,所述步骤S41具体包括:
    S411.固定α i、Σ i和X,优化参数μ i
    在α i和Σ i固定的情况下,求公式(7)对μ i的偏导数并使其等于零,表示为:
    Figure PCTCN2021136556-appb-100014
    Figure PCTCN2021136556-appb-100015
    S412.固定α i、μ i和X,优化参数Σ i
    在α i和μ i固定的情况下,求公式(7)对于Σ i的偏导数并使其等于零,表示为:
    Figure PCTCN2021136556-appb-100016
    S413.固定μ i、Σ i和X,优化参数α i
    对于α i,由于
    Figure PCTCN2021136556-appb-100017
    考虑拉格朗日形式:
    Figure PCTCN2021136556-appb-100018
    其中,λ表示一个拉格朗日乘子,通过求
    Figure PCTCN2021136556-appb-100019
    Figure PCTCN2021136556-appb-100020
    对于α i的导数并使其等于零,获得α i的更新值,表示为:
    Figure PCTCN2021136556-appb-100021
    其中,m表示矩阵的缺失部分。
PCT/CN2021/136556 2021-02-24 2021-12-08 一种缺失条件下的高斯混合模型聚类机器学习方法 WO2022179241A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110204941.7 2021-02-24
CN202110204941.7A CN113076970A (zh) 2021-02-24 2021-02-24 一种缺失条件下的高斯混合模型聚类机器学习方法

Publications (1)

Publication Number Publication Date
WO2022179241A1 true WO2022179241A1 (zh) 2022-09-01

Family

ID=76609483

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/136556 WO2022179241A1 (zh) 2021-02-24 2021-12-08 一种缺失条件下的高斯混合模型聚类机器学习方法

Country Status (4)

Country Link
CN (1) CN113076970A (zh)
LU (1) LU502931B1 (zh)
WO (1) WO2022179241A1 (zh)
ZA (1) ZA202207735B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116401570A (zh) * 2023-05-26 2023-07-07 佛山市力天包装印刷有限公司 一种印刷质量监测大数据智能处理系统
CN116680550A (zh) * 2023-05-23 2023-09-01 南京航空航天大学 一种样本不均衡下基于主动学习的滚动轴承故障诊断方法
CN117077535A (zh) * 2023-08-31 2023-11-17 广东电白建设集团有限公司 一种基于高斯混合聚类算法的高支模施工监控方法
CN117371876A (zh) * 2023-12-07 2024-01-09 深圳品阔信息技术有限公司 基于关键词的指标数据分析方法及系统

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076970A (zh) * 2021-02-24 2021-07-06 浙江师范大学 一种缺失条件下的高斯混合模型聚类机器学习方法
CN113705817B (zh) * 2021-08-10 2023-07-28 石家庄学院 基于高阶高斯混合模型的远程实时监控数据处理方法
CN113688934B (zh) * 2021-09-02 2024-06-07 济南大学 基于迁移学习分布式期望最大化金融数据聚类方法及系统
CN116933046B (zh) * 2023-09-19 2023-11-24 山东大学 基于深度学习的多模态健康管理方案生成方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030154181A1 (en) * 2002-01-25 2003-08-14 Nec Usa, Inc. Document clustering with cluster refinement and model selection capabilities
CN109325655A (zh) * 2018-08-13 2019-02-12 平安科技(深圳)有限公司 人群绩效特征预测中的缺失特征处理方法及装置
CN111754475A (zh) * 2020-06-18 2020-10-09 常州信息职业技术学院 一种水下涵洞内壁图像缺陷的视觉检测方法
CN112287562A (zh) * 2020-11-18 2021-01-29 国网新疆电力有限公司经济技术研究院 一种电力设备退役数据补全方法及系统
CN113076970A (zh) * 2021-02-24 2021-07-06 浙江师范大学 一种缺失条件下的高斯混合模型聚类机器学习方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030154181A1 (en) * 2002-01-25 2003-08-14 Nec Usa, Inc. Document clustering with cluster refinement and model selection capabilities
CN109325655A (zh) * 2018-08-13 2019-02-12 平安科技(深圳)有限公司 人群绩效特征预测中的缺失特征处理方法及装置
CN111754475A (zh) * 2020-06-18 2020-10-09 常州信息职业技术学院 一种水下涵洞内壁图像缺陷的视觉检测方法
CN112287562A (zh) * 2020-11-18 2021-01-29 国网新疆电力有限公司经济技术研究院 一种电力设备退役数据补全方法及系统
CN113076970A (zh) * 2021-02-24 2021-07-06 浙江师范大学 一种缺失条件下的高斯混合模型聚类机器学习方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116680550A (zh) * 2023-05-23 2023-09-01 南京航空航天大学 一种样本不均衡下基于主动学习的滚动轴承故障诊断方法
CN116401570A (zh) * 2023-05-26 2023-07-07 佛山市力天包装印刷有限公司 一种印刷质量监测大数据智能处理系统
CN116401570B (zh) * 2023-05-26 2023-08-11 佛山市力天包装印刷有限公司 一种印刷质量监测大数据智能处理系统
CN117077535A (zh) * 2023-08-31 2023-11-17 广东电白建设集团有限公司 一种基于高斯混合聚类算法的高支模施工监控方法
CN117371876A (zh) * 2023-12-07 2024-01-09 深圳品阔信息技术有限公司 基于关键词的指标数据分析方法及系统
CN117371876B (zh) * 2023-12-07 2024-04-02 深圳品阔信息技术有限公司 基于关键词的指标数据分析方法及系统

Also Published As

Publication number Publication date
CN113076970A (zh) 2021-07-06
LU502931B1 (en) 2023-02-20
ZA202207735B (en) 2022-07-27

Similar Documents

Publication Publication Date Title
WO2022179241A1 (zh) 一种缺失条件下的高斯混合模型聚类机器学习方法
Deng et al. A survey on soft subspace clustering
WO2022199432A1 (zh) 一种基于最优传输的深度缺失聚类机器学习方法及系统
Bandyopadhyay Multiobjective simulated annealing for fuzzy clustering with stability and validity
Chen et al. Central clustering of categorical data with automated feature weighting
KR102225586B1 (ko) 양의 정부호 행렬 위에서의 리만 서브 매니폴드 프레임워크를 이용한 로그 유클리디안 메트릭 러닝 장치 및 방법
An et al. Online RGB-D tracking via detection-learning-segmentation
Fan et al. On hyperparameter tuning in general clustering problemsm
Roy et al. Pair-copula based mixture models and their application in clustering
WO2022227956A1 (zh) 一种基于局部核的最优邻居多核聚类方法及系统
Nayini et al. A novel threshold-based clustering method to solve K-means weaknesses
CN109378039B (zh) 基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法
Wan et al. ICGT: A novel incremental clustering approach based on GMM tree
CN110969639B (zh) 一种基于lfmvo优化算法的图像分割方法
Hoan Improving feature map quality of SOM based on adjusting the neighborhood function
KR100869554B1 (ko) 영역 밀도 표현에 기반한 점진적 패턴 분류 방법
WO2015109781A1 (zh) 基于期望最大确定统计模型参数的方法和装置
Sa’adah et al. Knowledge discovery from gene expression dataset using bagging lasso decision tree
Menéndez et al. A genetic graph-based clustering algorithm
Yang et al. Clustering through probability distribution analysis along eigenpaths
CN112818152A (zh) 一种深度聚类模型的数据增强方法和装置
Sampaio et al. Regularization and optimization in model-based clustering
Altinigneli et al. Hierarchical quick shift guided recurrent clustering
Pacifico et al. A batch self-organizing maps algorithm based on adaptive distances
CN115512770A (zh) 单细胞rna序列数据集的降维处理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21927665

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21927665

Country of ref document: EP

Kind code of ref document: A1