WO2022253153A1

WO2022253153A1 - 基于代理图改善的后期融合多核聚类机器学习方法及系统

Info

Publication number: WO2022253153A1
Application number: PCT/CN2022/095836
Authority: WO
Inventors: 朱信忠; 徐慧英; 李苗苗; 梁伟轩; 殷建平; 赵建民
Original assignee: 浙江师范大学
Priority date: 2021-06-01
Filing date: 2022-05-30
Publication date: 2022-12-08
Also published as: US20240248961A1; ZA202311513B; CN113435603A

Abstract

一种基于代理图改善的后期融合多核聚类机器学习方法及系统。其中涉及的基于代理图改善的后期融合多核聚类机器学习方法，包括步骤：S1.获取聚类任务和目标数据样本；S2.初始化代理图改善矩阵；S3.对获取聚类任务和目标数据样本相对应的各个视图运行k均值聚类和和图改善，并联合核k均值聚类和图改善的方法构建目标函数；S4.采用循环方式求解步骤S3中构建的目标函数，得到融合基础核信息的图矩阵；S5.对得到的图矩阵进行谱聚类，得到最终的聚类结果。上述方法使得经过优化后的基础划分不但拥有单个核的信息，还能通过代理图获得全局信息，更有利于视图的融合，从而使得学习到的代理图能够更好地融合各个核矩阵的信息，达到聚类效果提升的目的。

Description

基于代理图改善的后期融合多核聚类机器学习方法及系统

技术领域

本申请涉及机器学习技术领域，尤其涉及基于代理图改善的后期融合多核聚类机器学习方法及系统。

背景技术

聚类在机器学习和数据分析中有重要的地位，它的目标是将无标签的数据划分为若干个不相关的类。在大数据时代，数据的收集是多源的，这类数据被称为多视图数据。对多视图数据进行聚类的方法被称为多视图聚类算法。多核聚类算法是多视图聚类中的重要分支，它旨在充分利用一系列预先定义的基核，用以提高聚类表现。

现有的多核聚类算法根据融合的时机不同，可以大致分为前期融合和后期融合等两类。前期融合，是指在进行核k均值算法之前，将若干个核矩阵进行融合。其中，由矩阵诱导的正则化项的方法(X.Liu,Y.Dou,J.Yin,et al.“Multiple kernel k-means clustering with matrix-induced regularization”,in AAAI 2016,pp.1888–1894)能够根据核矩阵的相似度自适应地调整核系数，避免相似信息的冗余，从而提高了最优核矩阵的质量。保持核的局部结构的方法(M.

and A.A.Margolin,“Localized data fusion for kernel k-means clustering with application to cancer biology”,in NeurIPS 2014,pp.1305-1313)亦能提高算法的效果。

后期融合多核聚类则是先对基核矩阵分别进行核k均值算法，得到基础划分，再将这些基础划分进行融合。基于最大对齐的后期融合算法(S.Wang,X.Liu,E.Zhu,et al.Multi-view clustering via late fusion alignment maximization,in IJCAI 2019,pp.3778–3784)通过置换矩阵使得基础划分达到对齐的效果，而后再将其进行组合。刘等人提出的后期融合方法(X.Liu,M.Li,C.Tang,et al.Efficient and effective regularized incomplete multi-view clustering,in T-PAMI 2020)则可以处理视图不完整的数据，取得了良好的聚类效果。

相比于前期融合，后期融合拥有非常低的计算和存储复杂度，以及较理想的聚类表现。然而，现有的后期融合聚类算法尚存在以下不足：一是基础核的聚类过程和基础划分的后期融合过程是分离的。在这种情况下，基础划分的质量对最终聚类的表现影响非常大，若其中存在异常点和噪声，将导致聚类效果不理想。二是现有的方法只是简单地将一致划分视作基础划分的线性转换，使得其难以应用于现实中的多核数据。

发明内容

本申请的目的是针对现有技术的缺陷，提供了基于代理图改善的后期融合多核聚类机器学习方法及系统。

为了实现以上目的，本申请采用以下技术方案：

基于代理图改善的后期融合多核聚类机器学习方法，包括步骤：

S1.获取聚类任务和目标数据样本；

S2.初始化代理图改善矩阵；

S3.对获取聚类任务和目标数据样本相对应的各个视图运行k均值聚类和和图改善，并联合核k均值聚类和图改善的方法构建目标函数；

S4.采用循环方式求解步骤S3中构建的目标函数，得到融合基础核信息的图矩阵；

S5.对得到的图矩阵进行谱聚类，得到最终的聚类结果。

进一步的，所述步骤S3中核k均值聚类的目标函数表示为：

其中，

为由n个样本组成的数据集；B∈{0,1} ^n×k表示聚类指示矩阵，若第i个样本属于第c个簇，则B _ic＝1，否则，B _ic＝0；

表示将样本x投射到一个再生核希尔伯特空间

的特征映射；

n _c代表属于第c个簇的样本个数；x _i表示数据样本；i表示样本序号；n表示样本点个数；k表示聚类簇的总数。

令<φ(x _i),φ(x _j)>＝K _ij，其中K _ij表示核矩阵K的元素，则公式(1)表示为：

其中，K表示核矩阵；

表示属于第k个簇的样本总数的倒数；1 _k∈R ^k表示所有元素都为1的向量；B ^T表示B的转置。

令

且H ^TH＝I _k，则公式(2)表示为：

其中，H ^T表示H的转置；I _n表示n维单位矩阵；I _k表示k维单位矩阵。

进一步的，所述步骤S3中构建的目标函数，表示为：

其中，H _i表示对第i个运行核k均值聚类得到的基础划分矩阵；λ和β表示调整各项占比的超参数；

表示为H _i的转置；S表示代理图矩阵；I _n表示n维单位矩阵。

进一步的，所述步骤S4中采用循环方式求解步骤S3中构建的目标函数，具体为：

S41.固定S，优化

表示为：

令G＝K _i-λ(I _n-2S+SS ^T)，则公式(7)表示为：

对G进行特征分解，令H _i为其前k个最大特征值对应的特征向量，即可得最优解；

S42.固定

优化S，表示为：

通过步骤S421、S422求解公式(9)：

S421.求解出公式(9)无约束的解，表示为：

利用导数为0，求得闭式解

其中

S422.通过公式(11)求距离

最近的符合约束的解：

其中，

表示无约束时代理图矩阵的解。

求得闭式解：

其中，S _j,:表示矩阵S的第j列；α _j表示用于求解的中间变量；

表示

的第j列；

表示

的转置。

进一步的，所述采用循环方式求解步骤S3中构建的目标函数，其中循环终止条件为：

其中，obj ^(t-1)、obj ^(t)分别表示第t和t-1次迭代时目标函数的值；ε表示设定精度。

相应的，还提供基于代理图改善的后期融合多核聚类机器学习系统，包括：

获取模块，用于获取聚类任务和目标数据样本；

初始化模块，用于初始化代理图改善矩阵；

构建模块，用于对获取聚类任务和目标数据样本相对应的各个视图运行k均值聚类和和图改善，并联合核k均值聚类和图改善的方法构建目标函数；

求解模块，用于采用循环方式求解构建的目标函数，得到融合基础核信息的图矩阵；

聚类模块，用于对得到的图矩阵进行谱聚类，得到最终的聚类结果。

进一步的，所述构建模块中核k均值聚类的目标函数表示为：

其中，

表示将样本x投射到一个再生核希尔伯特空间

的特征映射；

其中，K表示核矩阵；

令

且H ^TH＝I _k，则公式(2)表示为：

进一步的，所述构建模块中构建的目标函数，表示为：

表示为H _i的转置；S表示代理图矩阵；I _n表示n维单位矩阵。

进一步的，所述求解模块中采用循环方式求解构建的目标函数，具体为：

第一固定模块，用于固定S，优化

表示为：

令G＝K _i-λ(I-2S+SS ^T)，则公式(7)表示为：

第二固定模块固定

优化S，表示为：

求解公式(9)：

求解出公式(9)无约束的解，表示为：

利用导数为0，求得闭式解

其中

求距离

最近的符合约束的解：

其中，

表示无约束时代理图矩阵的解。

求得闭式解：

表示

的第j列；

表示

的转置。

进一步的，所述采用循环方式求解构建的目标函数，其中循环终止条件为：

与现有技术相比，本申请提出了一种新颖的代理图改善的后期融合多核聚类机器学习方法，该方法包括获取基础划分、构建代理图、利用代理图改善基础划分和利用代理图进行谱聚类等模块。通过对基础划分进行优化，本申请使得经过优化后的基础划分不但拥有单个核的信息，还能通过代理图获得全局信息，更有利于视图的融合，从而使得学习到的代理图能够更好地融合各个核矩阵的信息，达到聚类效果提升的目的。在六个多核数据集上的实验结果证明了本申请的性能优于现有的方法。

附图说明

图1是实施例一提供的基于代理图改善的后期融合多核聚类机器学习方法流程图；

图2是实施例一提供的基于代理图改善的后期融合多核聚类示意图；

图3是实施例二提供的随迭代次数增加，目标函数值的变化示意图；

图4是实施例二提供的参数敏感性示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

实施例一

本实施例提供基于代理图改善的后期融合多核聚类机器学习方法，如图1-2所示，包括步骤：

S1.获取聚类任务和目标数据样本；

S2.初始化代理图改善矩阵；

S5.对得到的图矩阵进行谱聚类，得到最终的聚类结果。

在步骤S3中，对获取聚类任务和目标数据样本相对应的各个视图运行k均值聚类和和图改善，并联合核k均值聚类和图改善的方法构建目标函数。

核k均值聚类目标式如下：令

为由n个样本组成的数据集，设核函数为κ(·,·)，根据再生核的性质，有κ(x,x′)＝<φ(x),φ(x′)>，其中

为将样本x投射到一个再生核希尔伯特空间

的特征映射。将φ(x)代入k均值聚类的目标式中，得到核k均值聚类的目标函数，表示为：

其中，B∈{0,1} ^n×k表示聚类指示矩阵，若第i个样本属于第c个簇，则B _ic＝1，否则，B _ic＝0；

利用核技巧，令<φ(x _i),φ(x _j)>＝K _ij，其中K _ij表示核矩阵K的元素，则公式(1)表示为：

其中，K表示核矩阵；

公式(2)关于B的优化已被证明是NP难的问题，所以将B的离散约束转换为实值正交约束，令

且H ^TH＝I _k，则公式(2)表示为：

本实施例可以对核矩阵K进行特征分解，最优的H即为K前k个最大特征值对应的特征向量。

图改善部分的功能实现具体为：假设对第i个运行核k均值聚类得到的基础划分为H _i，为了使得基础划分得到全局信息，可以通过最小化

对基础划分进行调整，其中S为各基核共用的图矩阵，满足S≥0,S1＝1,且对角线上元素为0。

联合核k均值聚类和图改善的方法构建目标函数，表示为：

表示为H _i的转置；S表示代理图矩阵；I _n表示n维单位矩阵。

因为公式(5)可以利用S对H _i进行调整，所以将算法命名为代理图改善的后期融合多核聚类。

在步骤S4中，采用循环方式求解步骤S3中构建的目标函数，得到融合基础核信息的图矩阵。

可以利用以下两步迭代法求解目标函数，具体为：

S41.固定S，优化

对于每个H _i，可以单独进行优化，表示为：

令G＝K _i-λ(I _n-2S+SS ^T)，则公式(7)表示为：

S42.固定

优化S，此时优化问题可转化为如下形式，表示为：

通过步骤S421、S422求解公式(9)：

S421.求解出公式(9)无约束的解，表示为：

利用导数为0，求得闭式解

其中

S422.通过公式(11)求距离

最近的符合约束的解：

其中，

表示无约束时代理图矩阵的解。

求得闭式解：

表示

的第j列；

表示

的转置。

上述两步(步骤S41、S42)交替法终止条件为：

在步骤S5中，对得到的图矩阵进行谱聚类，得到最终的聚类结果。

对输出的图矩阵S进行标准的谱聚类算法，得到最终的聚类结果。

本实施例提出了一种新颖的代理图改善的后期融合多核聚类机器学习方法，该方法包括获取基础划分、构建代理图、利用代理图改善基础划分和利用代理图进行谱聚类等模块。通过对基础划分进行优化，使得经过优化后的基础划分不但拥有单个核的信息，还能通过代理图获得全局信息，更有利于视图的融合，从而使得学习到的代理图能够更好地融合各个核矩阵的信息，达到聚类效果提升的目的。

实施例二

本实施例提供的基于代理图改善的后期融合多核聚类机器学习方法与实施例一的不同之处在于：

本实施例在6个MKL标准数据集上测试了本申请方法的聚类性能。

6个MKL标准数据集包括AR10P、YALE、Protein fold prediction、Oxford Flower17、Nonplant、Oxford Flower102。数据集的相关信息参见表1。

Dataset	Samples	Kernels	Clusters
AR10P	130	6	10
YALE	165	5	15
ProteinFold	694	12	27
Flower17	1360	7	17
Nonplant	2372	69	3
Flower102	8189	4	102

表1

对于ProteinFold，本实施例产生了12个基准核矩阵，其中前10特征集使用了二阶多项式核，最后两个使用了cosine内积核。其他数据集的核矩阵可从互联网下载。

本实验采用最优单视图核k均值聚类算法(BSKM)、多核k均值聚类(MKKM)、协同正则化谱聚类(CRSC)、鲁棒的多核聚类(RMKKM)、鲁棒的多视图谱聚类(RMSC)、带矩阵诱导正则化项的多核k均值聚类(MKMR)、基于局部核最大对齐的多核聚类(MKAM)、基于后期融合的最大化对齐多视图聚类(MLFA)和基于灵活的多视图表示学习的子空间聚类。在所有实验中，所有基准核首先被中心化和正则化。对于所有数据集，假设类别数量已知且被设置为聚类类别数量。本实验使用的对比算法均根据相应的文献设置参数。本方法的参数λ和β也通过网格搜索[2 ^-2,2 ^-1,…,2 ²]的范围来确定。

本实验使用了常见的聚类准确度(ACC)、归一化互信息(NMI)和纯度(Purity)来显示每种方法的聚类性能。所有方法随机初始化并重复50次并显示最佳结果以减少k均值造成的随机性。

表2

表2展示了上述方法以及对比算法在六个数据集上不同算法的聚类效果。根据该表可以观察到：1.所提出的算法在三种评价标准下，均优于所有对比算法。2.所提出的算法在六个数据集ACC上的表现要分别高于次优的对比算法达4.92％,1.21％,2.16％,2.12％,6.85％和4.05％。

本实施例也给出了每次迭代时的目标函数变化，如图3所示。可以看出目标函数值单调减少且通常在10次迭代之内即可收敛，这可以大大地减少算法运行的时间。

图4展示了参数敏感性，以AR10P和Flower17等两个数据集为示例。从图中可以看出，所提出的算法对于两个超参数都比较稳定，且在大范围内都能取得较好的性能。

本实施例在六个多核数据集上的实验结果证明了本申请的性能优于现有的方法。

实施例三

本实施例提供基于代理图改善的后期融合多核聚类机器学习系统，包括：

获取模块，用于获取聚类任务和目标数据样本；

初始化模块，用于初始化代理图改善矩阵；

进一步的，所述构建模块中核k均值聚类的目标函数表示为：

其中，

表示将样本x投射到一个再生核希尔伯特空间

的特征映射；

其中，K表示核矩阵；

令

且H ^TH＝I _k，则公式(2)表示为：

进一步的，所述构建模块中构建的目标函数，表示为：

表示为H _i的转置；S表示代理图矩阵；I _n表示n维单位矩阵。

第一固定模块，用于固定S，优化

表示为：

令G＝K _i-λ(I _n-2S+SS ^T)，则公式(7)表示为：

第二固定模块固定

优化S，表示为：

求解公式(9)：

求解出公式(9)无约束的解，表示为：

利用导数为0，求得闭式解

其中

求距离

最近的符合约束的解：

其中，

表示无约束时代理图矩阵的解。

求得闭式解：

表示

的第j列；

表示

的转置。

需要说明的是，本实施例提供的基于代理图改善的后期融合多核聚类机器学习系统与实施例一类似，在此不多做赘述。

本实施例提出的系统包括获取基础划分、构建代理图、利用代理图改善基础划分和利用代理图进行谱聚类等模块。通过对基础划分进行优化，使得经过优化后的基础划分不但拥有单个核的信息，还能通过代理图获得全局信息，更有利于视图的融合，从而使得学习到的代理图能够更好地融合各个核矩阵的信息，达到聚类效果提升的目的。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

基于代理图改善的后期融合多核聚类机器学习方法，其特征在于，包括步骤：

S1.获取聚类任务和目标数据样本；

S2.初始化代理图改善矩阵；

S3.对获取聚类任务和目标数据样本相对应的各个视图运行k均值聚类和和图改善，并联合核k均值聚类和图改善的方法构建目标函数；

S4.采用循环方式求解步骤S3中构建的目标函数，得到融合基础核信息的图矩阵；

S5.对得到的图矩阵进行谱聚类，得到最终的聚类结果。
根据权利要求1所述的基于代理图改善的后期融合多核聚类机器学习方法，其特征在于，所述步骤S3中核k均值聚类的目标函数表示为：

其中，
为由n个样本组成的数据集；B∈{0,1} ^n×k表示聚类指示矩阵，若第i个样本属于第c个簇，则B _ic＝1，否则，B _ic＝0；
表示将样本x投射到一个再生核希尔伯特空间
的特征映射；
n _c代表属于第c个簇的样本个数；x _i表示数据样本；i表示样本序号；n表示样本点个数；k表示聚类簇的总数；

令<φ(x _i),φ(x _j)>＝K _ij，其中K _ij表示核矩阵K的元素，则公式(1)表示为：

其中，K表示核矩阵；
表示属于第k个簇的样本总数的倒数；1 _k∈R ^k表示所有元素都为1的向量；B ^T表示B的转置；

令
且H ^TH＝I _k，则公式(2)表示为：

其中，H ^T表示H的转置；I _n表示n维单位矩阵；I _k表示k维单位矩阵。
根据权利要求2所述的基于代理图改善的后期融合多核聚类机器学习方法，其特征在于，所述步骤S3中构建的目标函数，表示为：

其中，H _i表示对第i个运行核k均值聚类得到的基础划分矩阵；λ和β表示调整各项占比的超参数；
表示为H _i的转置；S表示代理图矩阵；I _n表示n维单位矩阵。
根据权利要求3所述的基于代理图改善的后期融合多核聚类机器学习方法，其特征在于，所述步骤S4中采用循环方式求解步骤S3中构建的目标函数，具体为：

S41.固定S，优化
表示为：

令G＝K _i-λ(I _n-2S+SS ^T)，则公式(7)表示为：

对G进行特征分解，令H _i为其前k个最大特征值对应的特征向量，即可得最优解；

S42.固定
优化S，表示为：

通过步骤S421、S422求解公式(9)：

S421.求解出公式(9)无约束的解，表示为：

利用导数为0，求得闭式解
其中

S422.通过公式(11)求距离
最近的符合约束的解：

其中，
表示无约束时代替图矩阵的解；

求得闭式解：

其中，S _j,:表示矩阵S的第j列；α _j表示用于求解的中间变量；
表示
的第j列；
表示
的转置。
根据权利要求4所述的基于代理图改善的后期融合多核聚类机器学习方法，其特征在于，所述采用循环方式求解步骤S3中构建的目标函数，其中循环终止条件为：

其中，obj ^(t-1)、obj ^(t)分别表示第t和t-1次迭代时目标函数的值；ε表示设定精度。
基于代理图改善的后期融合多核聚类机器学习系统，其特征在于，包括：

获取模块，用于获取聚类任务和目标数据样本；

初始化模块，用于初始化代理图改善矩阵；

构建模块，用于对获取聚类任务和目标数据样本相对应的各个视图运行k均值聚类和和图改善，并联合核k均值聚类和图改善的方法构建目标函数；

求解模块，用于采用循环方式求解构建的目标函数，得到融合基础核信息的图矩阵；

聚类模块，用于对得到的图矩阵进行谱聚类，得到最终的聚类结果。
根据权利要求6所述的基于代理图改善的后期融合多核聚类机器学习系统，其特征在于，所述构建模块中核k均值聚类的目标函数表示为：

其中，
为由n个样本组成的数据集；B∈{0,1} ^n×k表示聚类指示矩阵，若第i个样本属于第c个簇，则B _ic＝1，否则，B _ic＝0；
表示将样本x投射到一个再生核希尔伯特空间
的特征映射；
n _c代表属于第c个簇的样本个数；x _i表示数据样本；i表示样本序号；n表示样本点个数；k表示聚类簇的总数

令<φ(x _i),φ(x _j)>＝K _ij，其中K _ij表示核矩阵K的元素，则公式(1)表示为：

其中，K表示核矩阵；
表示属于第k个簇的样本总数的倒数；1 _k∈R ^k表示所有元素都为1的向量；B ^T表示表示B的转置；

令
且H ^TH＝I _k，则公式(2)表示为：

其中，H ^T表示H的转置；I _n表示n维单位矩阵；I _k表示k维单位矩阵。
根据权利要求7所述的基于代理图改善的后期融合多核聚类机器学习系统，其特征在于，所述构建模块中构建的目标函数，表示为：

其中，H _i表示对第i个运行核k均值聚类得到的基础划分矩阵；λ和β表示调整各项占比的超参数；
表示为H _i的转置；S表示代理图矩阵；I _n表示n维单位矩阵。
根据权利要求8所述的基于代理图改善的后期融合多核聚类机器学习系统，其特征在于，所述求解模块中采用循环方式求解构建的目标函数，具体为：

第一固定模块，用于固定S，优化
表示为：

令G＝K _i-λ(I _n-2S+SS ^T)，则公式(7)表示为：

对G进行特征分解，令H _i为其前k个最大特征值对应的特征向量，即可得最优解；

第二固定模块固定
优化S，表示为：

求解公式(9)：

求解出公式(9)无约束的解，表示为：

利用导数为0，求得闭式解
其中

求距离
最近的符合约束的解：

其中，
表示无约束时代理图矩阵的解；

求得闭式解：

其中，S _j,:表示矩阵S的第j列；α _j表示用于求解的中间变量；
表示
的第j列；
表示
的转置。
根据权利要求9所述的基于代理图改善的后期融合多核聚类机器学习系统，其特征在于，所述采用循环方式求解构建的目标函数，其中循环终止条件为：

其中，obj ^(t-1)、obj ^(t)分别表示第t和t-1次迭代时目标函数的值；ε表示设定精度。