WO2022267954A1

WO2022267954A1 - 基于统一锚点与子空间学习的谱聚类方法及系统

Info

Publication number: WO2022267954A1
Application number: PCT/CN2022/098949
Authority: WO
Inventors: 朱信忠; 徐慧英; 李苗苗; 涂文轩; 孙萌婧; 李洪波; 殷建平; 赵建民
Original assignee: 浙江师范大学
Priority date: 2021-06-24
Filing date: 2022-06-15
Publication date: 2022-12-29
Also published as: US20240161004A1; CN113610103A; CN114065850A

Abstract

本申请公开了基于统一锚点与子空间学习的谱聚类方法及系统。其中，本申请涉及的基于统一锚点与子空间学习的谱聚类方法，包括：S1.获取聚类任务和目标数据样本；S2.对获取的聚类任务和目标数据样本相对应的多视图数据进行统一锚点学习，并根据学习到的统一锚点自适应的构建锚图相对应的目标函数；S3.采用交替优化方法优化构建的目标函数，得到优化后的统一锚图；S4.对得到的优化后的统一锚图进行谱聚类，得到最终的聚类结果。

Description

基于统一锚点与子空间学习的谱聚类方法及系统

技术领域

本申请涉及机器学习技术领域，尤其涉及基于统一锚点与子空间学习的谱聚类方法及系统。

背景技术

多视图聚类集成了视图之间的多样性和互补信息进行聚类，是机器学习和多媒体数据挖掘社区中一种重要的无监督学习方法。现有文献中已经提出了许多多视图聚类算法，其中多视图子空间聚类非常流行。多视图子空间聚(MVSC)通常从融合的多视图数据表示中寻求统一的子空间结构，然后将数据在子空间中进行分离，即以下两步策略：i)图构建：从多视图数据中获得低维子空间表示，得到视图特定的相似图或者融合图；ii)谱聚类：对融合图进行谱聚类。通过捕获非线性结构并保留图中的成对相似性，MVSC已广泛应用于各种应用，例如图像分类、面部聚类、社区检测。

尽管现有的MVSC方法在提高聚类性能方面取得了巨大成功，但MVSC进一步应用的一个主要缺点是关于样本数的三次时间复杂度，第一个图构建阶段需要解决每次迭代的时间复杂度至少为O(n ³)的n凸二次规划子问题。此外，第二个谱聚类过程需要O(n ³)进行奇异值分解(SVD)。因此，设计可扩展的MVSC算法来处理大规模多视图数据仍然是一个悬而未决的问题。

近年来，人们提出了基于锚点的MVSC来缓解传统子空间方法的高复杂性。通过独立采样选择k个锚点，原始的大小为n×n的全局图被替换为大小为n×k的对应锚图。将各锚图等权重融合到共识图中，然后进行谱聚类得到最终的聚类结果。基于锚点的多视图子空间聚类方法的整个时间复杂度可以减少到O(n)，并且可以应用于大规模任务。

现有的基于锚点的多视图子空间聚类策略可以通过以下考虑进一步改进。首先，每个视图的锚点是通过k均值聚类或随机采样独立生成的，与其他视图信息没有关联。此外，启发式采样和图构建过程的分离导致弱判别锚点。因此，选定的锚点可能无法反映实际的数据分布并生成不精确的图结构。其次，在没有充分信息融合的情况下，互补的多视图信息没有得到很好的利用，因为图是由相应视图的锚点独立构建的。现有方法的上述两种限制都会降低聚类性能。

发明内容

本申请的目的是针对现有技术的缺陷，提供了基于统一锚点与子空间学习的谱聚类方法及系统。

为了实现以上目的，本申请采用以下技术方案：

基于统一锚点与子空间学习的谱聚类方法，包括：

S1.获取聚类任务和目标数据样本；

S2.对获取的聚类任务和目标数据样本相对应的多视图数据进行统一锚点学习，并根据学习到的统一锚点自适应的构建锚图相对应的目标函数；

S3.采用交替优化方法优化构建的目标函数，得到优化后的统一锚图；

S4.对得到的优化后的统一锚图进行谱聚类，得到最终的聚类结果。

进一步的，所述步骤S2中根据学习到的统一锚点自适应的构建锚图相对应的目标函数，表示为：

s.t.α ^T1＝1,W _i ^TW _i＝I _d,A ^TA＝I _m,Z≥0,Z ^T1＝1

其中，α表示视图的权重；W _i表示第i视图的锚点投影矩阵；A∈R ^d×m表示统一的锚矩阵，d表示整个视图的公共维度，m表示锚的数量；Z表示具有m×n维的统一锚图；v表示v个视图；α _i表示第i个视图的权重；

表示原始数据的第i视图，d _i表示对应视图的维度，n表示样本数；α ^T表示α的转置；W _i ^T表示W _i的转置；Z ^T表示Z的转置；A ^T表示A的转置；I _d∈R ^d×d表示单位矩阵；I _m∈R ^m×m表示单位矩阵；1表示所有元素为一的向量。

进一步的，所述步骤S3中采用交替优化方法优化构建的目标函数，具体包括：

A1.固定变量A、Z、α _i，则目标函数中W _i的优化表示为：

s.t.W _i ^TW _i＝I _d

A2.更新A，固定W _i、Z、α _i，则目标函数中A的优化表示为：

s.t.A ^TA＝I _m

A3.更新Z，固定变量W _i、A、α _i，则目标函数中Z的优化表示为：

s.t.Z≥0,Z ^T1＝1

A4.更新α _i，固定其他变量W _i、A、Z，则目标函数中α _i的优化表示为：

其中，M _i＝||X _i-W _iAZ|| _F，表示x _i的重构损失。

进一步的，所述步骤A1中还包括：

通过Frobenius范数去除与W _i无关的项，将步骤A1中的公式转化为以下等价问题，表示为：

其中，B _i＝X _iZ ^TA ^T，表示矩阵的乘积。

进一步的，所述步骤A2中还包括：

通过Frobenius范数去除与A无关的项，将步骤A2中的公式转化为以下等价问题，表示为：

其中，

表示矩阵的乘积。

进一步的，所述步骤A3中还包括：

对Z的每一行解通过QP问题解决，则将步骤A3中的公式表示为：

s.t.Z≥0,

其中，j表示矩阵中的每列元素。

进一步的，所述步骤S3中采用交替优化方法优化构建的目标函数，其中终止条件为找到最小值或达到收敛条件。

相应的，基于统一锚点与子空间学习的谱聚类系统，包括：

获取模块，用于获取聚类任务和目标数据样本；

构建模块，用于对获取的聚类任务和目标数据样本相对应的多视图数据进行统一锚点学习，并根据学习到的统一锚点自适应的构建锚图相对应的目标函数；

优化模块，用于采用交替优化方法优化构建的目标函数，得到优化后的统一锚图；

聚类模块，用于对得到的优化后的统一锚图进行谱聚类，得到最终的聚类结果。

进一步的，所述构建模块中根据学习到的统一锚点自适应的构建锚图相对应的目标函数，表示为：

s.t.α ^T1＝1,W _i ^TW _i＝I _d,A ^TA＝I _m,Z≥0,Z ^T1＝1

进一步的，所述优化模块中采用交替优化方法优化构建的目标函数，具体包括：

固定变量A、Z、α _i，则目标函数中W _i的优化表示为：

更新A，固定W _i、Z、α _i，则目标函数中A的优化表示为：

更新Z，固定变量W _i、A、α _i，则目标函数中Z的优化表示为：

s.t.Z≥0,Z ^T1＝1

更新α _i，固定其他变量W _i、A、Z，则目标函数中α _i的优化表示为：

其中，M _i＝||X _i-W _iAZ|| _F，表示x _i的重构损失。

与现有技术相比，本申请提出了一种新颖的具有统一锚点与子空间学习的谱聚类方法，该方法将锚点学习和图的构建整合到一个统一的框架，使学习到的锚点可以更准确的代表实际数据分布，与现有的锚点图融合策略相比，利用自适应的方法使一致锚图捕获/获得视图间的互补信息，同时学习不同视图的重要性。大量的实验结果证明了我们的聚类性能和运行时间的优越性。

附图说明

图1是实施例一提供的基于统一锚点与子空间学习的谱聚类方法流程图；

图2是实施例一提供的传统的基于锚点的多视图子空间策略框架和本文的SMVSC策略示意图；

图3是实施例二提供的比较方法和超过七个数据集的运行时间示意图；

图4是实施例二提供的LMVSC和本算法在Caltech101-20上的图结构比较示意图；

图5是实施例二提供的本方法在五个基准数据集上的目标示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

本申请的目的是为了将锚点学习和图构建结合到统一的框架中，使学习到的一致锚点可以与各视图的投影矩阵联合优化。因此，学习的锚点可以准确地表示具体的潜在数据，从而形成更好的图结构/更好的构建图结构。部视图的恢复也由单一视图对统一图的具体细节产生影响，本申请提供了基于统一锚点与子空间学习的谱聚类方法及系统。

将锚学习和图构建结合到一个统一的框架中，其中使一致锚点与各自的视图排列矩阵联合优化。因此，学习的锚点可以准确地表示实际的潜在数据分布，从而更好地构建图结构。每个视图的重要性也由单个视图对统一图的贡献自适应地衡量。最重要的是，本申请提出的算法的线性时间复杂度使其能够应用于大规模多视图数据。然后，提出了一种具有证明收敛性的四步替代优化算法来解决由此产生的优化问题。

实施例一

本实施例提供基于统一锚点与子空间学习的谱聚类方法，如图1所示，包括：

S1.获取聚类任务和目标数据样本；

评估多视图子空间聚类的性能关键在于算法中构建图的质量。在传统的基于锚点的多视图子空间聚类框架中，主要包括三个阶段：第一阶段，先启发式地选择锚点，然后通过从每个视图中的原始数据中采样来选取固定的锚点。在第二阶段，每个视图选取的锚点互相独立并分别进行锚点图的构建，各视图之间没有信息交换。第三阶段，各视图构成的特定锚图直接等量连接成一个统一的锚图，之后通过锚图进行谱聚类得到最终的聚类结果。这三个阶段相互独立，视图之间没有交互作用。与传统策略不同，本实施例提出基于一致锚点的可扩展多视图子空间聚类算法，该算法主要包括两个阶段：锚点学习和图的构建。第一阶段，本实施例针对大规模的多视图数据进行锚点学习，使学习到的锚点更能准确的代表实际数据的分布。第二阶段，考虑到各视图的重要性有所不同，本实施例通过学习到的一致锚点自适应的构建锚图，之后通过一致锚图进行谱聚类得到最终的聚类结果。这两个阶段相互促进且共同优化，使构建的一致锚图不仅具有视图间的互补信息，也具有更强的判别性图结构。该算法打破了传统方法的局限性，有效提高聚类性能。

在步骤S2中，对获取的聚类任务和目标数据样本相对应的多视图数据进行统一锚点学习，并根据学习到的统一锚点自适应的构建锚图相对应的目标函数。

利用所有原始点来表示自表达策略中的每个点，广泛用于多视图子空间聚类。尽管对全局关系进行了很好的探索，但与全局图相关的优化时间和存储成本限制了多视图子空间聚类的可扩展性。此外，用所有样本描绘一个点是不必要和多余的。因此，本实施例采用锚点策略选择一小组数据点称为锚点重建底层子空间并捕获流形结构。在现有文献中，锚点的选择可以通过从原始数据空间中随机抽样或均匀抽样，或者利用执行k-means得到的聚类中心来获得。然而，在之前的策略中，锚点在初始化后就固定了，使得锚点学习(Anchor Learning,AL)与图构建彼此分离。本实施例将这两个过程集成到一个通用框架中，从而产生更具辨别力的锚点。

此外，从独立视图生成锚点会导致不同的锚点集，使图融合变得困难。视图之间的补充信息还没有得到很好的探索。

针对这些问题，本实施例经投影得到的统一锚点，通过自适应的学习得到具有互补视图信息和更具判别性锚点结构的统一锚图。在数学上，将本实施例的统一锚图相对应的目标函数，表示为：

s.t.α ^T1＝1,W _i ^TW _i＝I _d,A ^TA＝I _m,Z≥0,Z ^T1＝1

其中，α表示视图的权重；W _i表示第i视图的锚点投影矩阵，可以将统一的锚点投影到对应的原始数据空间；A∈R ^d×m表示统一的锚矩阵，d表示整个视图的公共维度，m表示锚的数量，在本实施例中，选择k作为公共维度，并选择锚点数m∈{k,2k,3k}，公共维度与正交约束一起将A限制为更具辨别力；Z表示具有m×n维的统一锚图；v表示v个视图；α _i表示第i个视图的权重；

根据现有文献[Gao Q,Xia W,Wan Z,et al.2020.Tensor-SVD Based Graph Learning for Multi-View Subspace Clustering.In AAAI 3930-3937]、[Yong H,Meng D,J Li,et al.2018.Model Inconsistent but Correlated Noise:Multi-view Subspace Learning with Regularized Mixture of Gaussians]、[Cai D,Chen X.2015.Large Scale Spectral Clustering Via Landmark-Based Sparse Representation.In IEEE Trans Cybern,45(8):1669-1680]的结论，锚图Z的左奇异向量等于完整图S＝Z ^TZ的左奇异向量。因此，本实施例通过对Z进行SVD得到左奇异向量U，并对U执行k-means得到最终的聚类结果。

在步骤S3中，采用交替优化方法优化构建的目标函数，得到优化后的统一锚图。

当同时考虑所有变量时，目标函数中的优化问题不是联合凸的。因此，本实施例提出了一种交替优化算法来优化每个变量，即优化其中一个变量，固定其他变量。之后，本实施例提供了优化算法和时间/空间复杂度分析的总体框架。

A1.固定变量A、Z、α _i，则目标函数中W _i的优化表示为：

如图2所示为传统的基于锚点的多视图子空间策略框架和本实施例的SMVSC策略图对比图。

由于每个W _i在对应的视图方面彼此分离，因此可以通过Frobenius范数去除与W _i无关的项，作为上述公式转化为以下等价问题，表示为：

其中，B _i＝X _iZ ^TA ^T，表示矩阵的乘积。假设B _i的奇异值分解(SVD)结果是U∑V ^T，根据现有技术中的方法计算UV ^T可以很容易地得到最优的W _i。

A2.更新A，固定W _i、Z、α _i，则目标函数中A的优化可以转化为解决一下问题，表示为：

类似步骤A1中W _i的优化，对A进行优化，具体为通过Frobenius范数去除与A无关的项，将上述公式优化等于以下形式，表示为：

其中，

表示矩阵的乘积。更新变量A的最优解可以得到C的左奇异矩阵与右奇异矩阵的相乘。

A3.更新Z，固定变量W _i、A、α _i，更新变量Z的优化问题可以改写为：

s.t.Z≥0,Z ^T1＝1

Z的上述优化问题可以很容易地表述为以下二次规划(QP)问题，优化可以通过对Z的每一行解通过QP问题解决，则表示为：

s.t.Z≥0,

其中，j表示矩阵中的每列元素。

A4.更新α _i，固定其他变量W _i、A、Z，可以得到更新α _i的优化问题，其中令M _i＝||X _i-W _iAZ|| _F，表示为：

根据Cauchy-BuniakowskySchwarz不等式，最优的α _i可以直接得到。

随着迭代的进行，上述优化中的四个变量单独求解，其他变量固定。由于每个子问题都是严格凸的，目标值会单调递减，直到找到最小值或达到收敛条件。并且可以很容易地证明目标函数的下界为零。上述优化的整个过程在下表1的算法中列出。

表1

对上述优化过程进行复杂性分析，具体为：首先将分析总体优化过程中的时间复杂性，然后从主要空间复杂度的角度对比了几种对比方法。

时间复杂度的分析：

计算复杂度由每个变量的优化成本组成。在更新W _i时，在B _i上执行SVD需要花费O(d _id ²)，并且O(d _idk ²)是执行矩阵乘法来得到最优W _i的时间消耗。类似于更新W _i，更新A的需要O(md ²)和O(dmk ²)的时间复杂度，来进行SVD分解和矩阵乘法。当解决更新Z的QP问题时，计算所有列的成本是O(nm ³)。计算α _i的时间成本仅为O(1)。因此，优化过程总的时间开销为

因此，本实施例提出的优化算法的计算复杂度是线性复杂度O(n)。

经过优化后，本实施例对Z进行了SVD分解，得到了其左奇异矩阵U，并通过k均值得到了最终的聚类结果。在后处理过程中，计算复杂度是O(nm ²)，这也是一个线性复杂度。因此，在优化过程和后处理过程中都实现了一个线性时间算法。

空间复杂度的分析：

在本事实例中，主要内存代价是矩阵：

A∈R ^k×m和Z∈R ^m×n。因此，本实施例的SMVSC的空间复杂性mn+(h+m)k，在这里

m<<n,k<<n因此，SMVSC的空间复杂度是O(n)。

本实施例的目的为：

(1)与传统的启发式锚点抽样策略不同，将锚点学习和图的构建整合到一个统一的框架。这两个过程彼此促进并共同优化，使学习到的锚点可以更准确的代表实际数据分布。因此，得到的子空间图结构具有更强的判别性，进一步提高了聚类性能

(2)与现有的锚点图融合策略相比，通过自适应的方法使一致锚图获得视图间的互补信息，同时学习不同视图的重要性。更重要的是，我们提出的线性时间复杂度的方法被证明是更有效的大规模子空间聚类问题。

(3)设计了一个交替优化算法，以解决结果优化问题，并证明了收敛性。大量的实验结果证明了我们的聚类性能和运行时间的优越性。此外，据我们所知，与传统的基于多视图子空间的聚类方法相比，我们是第一个在超过10万个样本上高效运行MVSC的。

本实施例提出了一种新颖的具有统一锚点的可扩展多视图子空间聚类方法，该方法将锚点学习和图的构建整合到一个统一的框架，使学习到的锚点可以更准确的代表实际数据分布，与现有的锚点图融合策略相比，利用自适应的方法使一致锚图捕获/获得视图间的互补信息，同时学习不同视图的重要性。

实施例二

本实施例提供的基于统一锚点与子空间学习的谱聚类方法与实施例一的不同之处在于：

本实施例以图像数据集为例进行说明。

S1.获取与图像数据相关的聚类任务和目标数据样本；

图像数据可以为面部视频图像数据集、自然灾害图像数据集、遥感图像数据集、医学图像数据集、人群图像数据集、人群计数数据集等等。

本实施例在七个广泛使用的数据集上评估了该方法的聚类性质。

将SMVSC的性能与六种最先进的多视图子空间聚类方法和两种面向大规模的方法进行比较。

Method	Memory Cost	Time Complexity	Max Reported
RMKM	(n+h)k	O(n)	30475
MVSC	2vn ²+nk	O(n ³)	1230
AMGL	vn ²+nk	O(n ³)	12613
MLRSSC	(v+1)n ²	O(n ³)	2000
FMR	n ²+nm	O(n ³)	10158
PMSC	2vn ²+(v+1)nk	O(n ³)	2386
MLES	n ²+hm+mn	O(n ³)	544
LMVSC	vm(n+h)	O(n ³)	30000
Ours	mn+(h+m)k	O(n)	101499

表2 比较方法的复杂性分析

对于时间和空间复杂度的分析中，如表2所示，大多数基于子空间的多视图聚类方法在上述过程中具有O(n ³)时间复杂度。在表2中计算了所比较算法的主要内存成本。很容易观察到，大多数最先进的算法的空间复杂度是O(n2)，如MVSC、AMGL、MLRSSC、FMR等。LMVSC方法也执行O(n)空间复杂度，但它们必须为每个视图构造一个图，这将比本实施例的统一空间占用更高。高时间和空间的复杂性限制了许多多视图子空间聚类的规模，使它们只适用于相对较小的数据集。在表2中显示了报告中的最大的数据集上的算法比较，它在一定程度上反映了提出算法的效率。

本实施例使用的基准数据集见表3，Caltech101-all和NUSWIDEOBJ都是对象图像数据集。CCV是一个丰富的YouTube视频数据库，包含20个语义类别。SUNRGBD数据集被密集地注释了出来。具有属性的动物数据集被称为AwA。YouTubeFace是一个从YouTube上获得的面部视频数据库。

表3 基准数据集的信息

将算法进行对比：

应用在大数据集上的多视图K-means聚类算法(RMKM)。这项工作是一种鲁棒的大规模多视图聚类方法，它集成了大规模数据的异构表示。

多视图子空间聚类算法(MVSC)。提出了一种有效的多视图子空间聚类方法，并验证了该算法的有效性。

无参数自动加权多图学习：一个多视图聚类和半建议分类的聚类算法(AMGL)的框架。提出了一个框架，自动学习每个图的最优权值，并获得全局最优结果。

低秩稀疏多视图子空间聚类算法(MLRSSC)。该工作通过构造所有视图之间共享的亲和矩阵来学习子空间表示，并解决了相关的低秩和稀疏约束优化问题。

针对子空间聚类(FMR)的灵活的多视图表示学习。这项工作灵活地编码不同视图编码互补信息，从而避免使用部分信息进行数据重建。

基于分区级别的多视图子空间群集的聚类算法(PMSC)。提出了一个统一的多视图子空间聚类模型，并验证了该算法的有效性。

基于潜在嵌入空间的多视图聚类算法(MLES)中的多视图聚类。该算法可以同时学习全局结构和聚类指标矩阵，然后在潜在的嵌入空间中聚类多视图数据。

具有线性时间复杂度的大规模多视图子空间聚类(LMVSC)。该算法被设计用于处理大规模的数据，并具有线性复杂度。

实验设置：

在实验设置中，W、A和Z的初始化被设置为零矩阵。遵循底层子空间所需的点数不应小于子空间数的原则，选择了{k、2k、3k}和公共维数d＝k范围内的锚点m的数量。为了进行公平的比较，从他们的原始网站上下载了比较算法的相关代码。由于所有的方法都需要利用k均值方法来得到最终的聚类结果，运行了50次k均值方法来消除所有比较方法中的随机性。然后通过广泛使用的度量精度(ACC)、标准化互信息(NMI)、纯度(purity)和FScore 来评估聚类性能。此外，实验环境是Intel Core i7-7820X CPU和64GB内存、MATLAB 2020b(64位)的台式计算机上实现的。

聚类性能：

本实施例在7个广泛使用的多视图基准数据集上将本实施例提出的算法SMVSC与8个多视图子空间聚类算法进行了比较。表4和表5显示了详细的聚类性能结果，在这些表中将最佳结果标记为粗体，次优结果标记为斜体，“-”意味着内存不足失败。

在样本大小为10,000及以下的数据集上的聚类性能：

如表4所示，选择了具有不同样本量的Caltech101-20,CCV,Caltech101-all和SUNGRBD数据集。

在ACC方面，本实施例的算法优于其他最先进的多视图聚类算法。SMVSC在四个数据集上分别超过具有同样具有线性复杂度的聚类算法(LMVSC)18％、2％、7％和1％。RMKM是一种解决大规模聚类问题的多视图的k均值聚类算法，然而SMVSC分别比RMKM高出27％、11％、19％和1％。在NMI、纯度和Fscore中，SMVSC可以与其他算法接近等同，甚至表现出更好的性能。此外，由于某些算法的内存不足，表4中没有相关的结果。例如，从图3中可以看出这两种最新的算法：MLES和PMSC，在样本大小为2000的数据集上每组参数都要耗费数以万计的时间，之后就出现了内存不足的错误。因此，没有继续进行这些算法的实验。

在图3中，比较方法和超过七个数据集的运行时间。为了清晰起见，y轴通过取对数进行缩放，以减轻一些方法和我们的方法之间的差距。缺失的条表明，该方法在这个数据集下在实验平台上遇到了内存不足的错误。

需要说明的是，图3中每个数据集中对应的柱状体从左到右依次是RMKM、MVSC、AMGL、MLRSSC、FMR、PMSC、MLES、LMCSC、Ours，但是从图3中可以看到只有第一个数据集中有9个柱状图，但是其余数据集中会有空的位置，空的位置也是代表一个算法，那么其余数据集中的柱状图依然是按照上述顺序排列。

此外，在图4中绘制了完整的图来说明本实施例与图中的LMVSC相比更好学习的聚类结构。图4为LMVSC和本实施例算法在Caltech101-20上的图结构比较。更亮的颜色意味着一个更大的值。与LMVSC图相比，本实施例的图显示出更清晰的聚类结构，噪声更小。

表4

由于LMVSC中每个视图的锚图是独立学习的，将它们连接起来形成一个vm×n锚点图

然后由

构造一个完整图。完整图可以通过统一锚图Z ^TZ直接得到。如图4所示，本实施例的图显示了更清晰的块结构，而LMVSC中的图似乎更嘈杂，也不那么清晰。

在样本大小超过30,000的数据集上的聚类性能：

为了更好地应用于大规模场景，选择了样本大小为30,000或更多的NUSWIDEOBJ、AwA和YouTubeFace。

在实验过程中，除解决大规模数据的算法外，所有的多视图子空间聚类算法都直接存在“内存不足”的问题。因此，对于表5中的上述数据集，这些算法没有聚类性能。

基于表5中的实验结果，提出的SMVSC在这些较大的数据集上仍然保持着良好的聚类性能。在YouTubeFace的10万样本数据集上，SMKSC在ACC、NMI、纯度和Fscore上分别比LMVSC提升了11％、10％、5％和4％。这些结果表明，本实施例的算法在处理大规模数据时具有较低的空间复杂度，并在稳定性和精度方面优于类似的算法。

表5中三万多个样本数据集下比较方法的聚类性能。其他竞争对手都内存了。’–’表示出现内存不足的故障。最好的结果是粗体，斜体表示第二或没有统计学差异。

表5

运行时间：

为了进行公平的比较，统一地设置了所有的算法来执行k均值50次，并报告了最优参数集的运行时间。图3中显示了所有数据集上运行时间的分布。一些算法在一些数据集上没有实验结果，因此，本图中没有相应的直方图。可以看到SMVSC的运行时间非常有优势，并且更多关于运行时间以及加速的细节记录在表6和表7中。

从表6和表7中可以看到，SMVSC的速度明显优于其他算法，并且几乎是有一些算法的两倍。关于AMGL和MLRSSC，尽管它们对于有10,000个样本及以下的数据集工作良好，但它们消耗了太多的时间成本。更重要的是，这两种算法的聚类相比之下性能并不令人满意。在较大的数据集上，SMVSC和面向大规模的多视图子空间聚类算法(LMVSC)的聚类性能更令人印象深刻，尽管两者都有线性复杂度。虽然LMVSC在大多数数据集中是最快的，但使用的均值采样策略和等权重组合不利于各个视图交换互补信息。

这些结果证明了SMVSC的线性时间复杂度更容易扩展到大规模数据中，而一些多视图子空间聚类算法在处理大规模数据时需要很长时间。

表6

表7

收敛性：

如本方法部分所述，本实施例的算法可以从理论上保证收敛到一个局部最优值。在每个数据集上记录，以显示本实施例的实验收敛性。由于空间的限制，只在五个数据集Caltech101-20,Caltech101-all,SUNRGBD,NUSWIDEOBJ和AwA上绘制目标值的演化。如图5所示。目标值在每次迭代中单调递减，通常收敛于小于20次迭代，大多数数据集可以收敛于小于10次迭代。这些结果通过实验验证了该算法的收敛性。

本实施例提出了一种具有统一锚点的可扩展的多视图子空间聚类算法来解决大规模数据的聚类问题。该算法自适应地学习每个视图的权重，并将锚点学习和图的构造结合到一个统一的优化框架中。这使得学习到的锚点能够更准确地表示实际的底层数据分布，并获得一个更有判别性的聚类结构。SMVSC具有的线性复杂度，其快速的运行时间使SMVSC更适合现实的大规模应用程序场景。与最先进的多视图子空间聚类方法和面向大规模任务的多视图子空间聚类方法相比，大量的实验证明了SMVSC具有线性时间复杂度的同时，也保持了等同甚至更好的聚类性能。

实施例三

本实施例提供了基于统一锚点与子空间学习的谱聚类系统，包括：

获取模块，用于获取聚类任务和目标数据样本；

s.t.α ^T1＝1,W _i ^TW _i＝I _d,A ^TA＝I _m,Z≥0,Z ^T1＝1

固定变量A、Z、α _i，则目标函数中W _i的优化表示为：

s.t.W _i ^TW _i＝I _d

更新A，固定W _i、Z、α _i，则目标函数中A的优化表示为：

s.t.A ^TA＝I _m

s.t.Z≥0,Z ^T1＝1

更新α _i，固定其他变量W _i、A、Z，其中令M _i＝||X _i-W _iAZ|| _F，则目标函数中α _i的优化表示为：

需要说明的是，本实施例提供的基于统一锚点与子空间学习的谱聚类系统与实施例一类似，在此不多作赘述。

本实施例将锚点学习和图的构建整合到一个统一的框架，使学习到的锚点可以更准确的代表实际数据分布，与现有的锚点图融合策略相比，利用自适应的方法使一致锚图捕获/获得视图间的互补信息，同时学习不同视图的重要性。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

基于统一锚点与子空间学习的谱聚类方法，其特征在于，包括：

S1.获取聚类任务和目标数据样本；

S2.对获取的聚类任务和目标数据样本相对应的多视图数据进行统一锚点学习，并根据学习到的统一锚点自适应的构建锚图相对应的目标函数；

S3.采用交替优化方法优化构建的目标函数，得到优化后的统一锚图；

S4.对得到的优化后的统一锚图进行谱聚类，得到最终的聚类结果。
根据权利要求1所述的基于统一锚点与子空间学习的谱聚类方法，其特征在于，所述步骤S2中根据学习到的统一锚点自适应的构建锚图相对应的目标函数，表示为：

其中，α表示视图的权重；W _i表示第i视图的锚点投影矩阵；A∈R ^d×m表示统一的锚矩阵，d表示整个视图的公共维度，m表示锚的数量；Z表示具有m×n维的统一锚图；v表示v个视图；α _i表示第i个视图的权重；
表示原始数据的第i视图，d _i表示对应视图的维度，n表示样本数；α ^T表示α的转置；
表示W _i的转置；Z ^T表示Z的置换；A ^T表示A的转置；I _d∈R ^d×d表示单位矩阵；I _m∈R ^m×m表示单位矩阵；1表示所有元素为一的向量。
根据权利要求2所述的基于统一锚点与子空间学习的谱聚类方法，其特征在于，所述步骤S3中采用交替优化方法优化构建的目标函数，具体包括：

A1.更新W _i，固定变量A、Z、α _i，则目标函数中W _i的优化表示为：

A2.更新A，固定W _i、Z、α _i，则目标函数中A的优化表示为：

A3.更新Z，固定变量W _i、A、α _i，则目标函数中Z的优化表示为：

s.t.Z≥0,Z ^T1＝1

A4.更新α _i，固定其他变量W _i、A、Z，则目标函数中α _i的优化表示为：

其中，M _i＝||X _i-W _iAZ|| _F，表示x _i的重构损失。
根据权利要求3所述的基于统一锚点与子空间学习的谱聚类方法，其特征在于，所述步骤A1中还包括：

通过Frobenius范数去除与W _i无关的项，将步骤A1中的公式转化为以下等价问题，表示为：

其中，B _i＝X _iZ ^TA ^T，表示矩阵的乘积。
根据权利要求3所述的基于统一锚点与子空间学习的谱聚类方法，其特征在于，所述步骤A2中还包括：

通过Frobenius范数去除与A无关的项，将步骤A2中的公式转化为以下等价问题，表示为：

其中，
表示矩阵的乘积。
根据权利要求3所述的基于统一锚点与子空间学习的谱聚类方法，其特征在于，所述步骤A3中还包括：

对Z的每一行解通过QP问题解决，则将步骤A3中的公式表示为：

其中，j表示矩阵中的每列元素。
根据权利要求3所述的基于统一锚点与子空间学习的谱聚类方法，其特征在于，所述步骤S3中采用交替优化方法优化构建的目标函数，其中终止条件为找到最小值或达到收敛条件。
基于统一锚点与子空间学习的谱聚类系统，其特征在于，包括：

获取模块，用于获取聚类任务和目标数据样本；

构建模块，用于对获取的聚类任务和目标数据样本相对应的多视图数据进行统一锚点学习，并根据学习到的统一锚点自适应的构建锚图相对应的目标函数；

优化模块，用于采用交替优化方法优化构建的目标函数，得到优化后的统一锚图；

聚类模块，用于对得到的优化后的统一锚图进行谱聚类，得到最终的聚类结果。
根据权利要求8所述的基于统一锚点与子空间学习的谱聚类系统，其特征在于，所述构建模块中根据学习到的统一锚点自适应的构建锚图相对应的目标函数，表示为：

其中，α表示视图的权重；W _i表示第i视图的锚点投影矩阵；A∈R ^d×m表示统一的锚矩阵，d表示整个视图的公共维度，m表示锚的数量；Z表示具有m×n维的统一锚图；v表示v个视图；α _i表示第i个视图的权重；
表示原始数据的第i视图，d _i表示对应视图的维度，n表示样本数；α ^T表示α的转置；
表示W _i的转置；Z ^T表示Z的转置；A ^T表示A的转置；I _d∈R ^d×d表示单位矩阵；I _m∈R ^m×m表示单位矩阵；1表示所有元素为一的向量。
根据权利要求9所述的基于统一锚点与子空间学习的谱聚类系统，其特征在于，所述优化模块中采用交替优化方法优化构建的目标函数，具体包括：

固定变量A、Z、α _i，则目标函数中W _i的优化表示为：

更新A，固定W _i、Z、α _i，则目标函数中A的优化表示为：

更新Z，固定变量W _i、A、α _i，则目标函数中Z的优化表示为：

s.t.Z≥0,Z ^T1＝1

更新α _i，固定其他变量W _i、A、Z，则目标函数中α _i的优化表示为：

其中，M _i＝||X _i-W _iAZ|| _F，表示xi的重构损失。