WO2018184407A1

WO2018184407A1 - 一种具有隐私保护的K-means聚类方法及系统

Info

Publication number: WO2018184407A1
Application number: PCT/CN2017/117943
Authority: WO
Inventors: 王轩; 蒋琳; 李晔; 姚霖; 刘泽超; 靳亚宾; 梁玉冬; 刘猛; 漆舒汉
Original assignee: 哈尔滨工业大学深圳研究生院
Priority date: 2017-04-07
Filing date: 2017-12-22
Publication date: 2018-10-11
Also published as: CN107145791B; CN107145791A

Abstract

本发明提供一种具有隐私保护的K-means聚类方法及系统，属于数据挖掘技术领域。本发明包括如下步骤：数据拥有者A和B加密各自的数据和随机选择的质心点，上传至服务器；服务器通过安全乘法协议和安全距离计算协议在密文数据中计算数据点到质心点的欧氏距离，并将数据点归类；服务器、数据拥有者A和B通过安全电路协议共同在密文数据中重新计算新的质心点；数据拥有者A或B通过安全比较协议判断新的质心点与原质心点的距离，如果小于阈值，结束分类，数据拥有者A和B请求服务器将分类好的数据分别发送给数据拥有者A和B，否则，重新上传新的质心点，进行下一轮迭代。本发明在保证数据隐私安全的同时保证了数据挖掘结果的正确性；支持数据存储外包和数据计算外包，在保证正确性的同时，执行效率也大幅度提升；支持三个参与方中最多一方为恶意方的安全计算。

Description

一种具有隐私保护的K-means聚类方法及系统

技术领域

本发明涉及数据挖掘技术领域，尤其涉及一种具有隐私保护的K-means聚类方法，还涉及一种实现所述方法的系统。

背景技术

众所周知，K-means聚类是数据挖掘中非常经典和常用的方法之一，它通过计算数据项之间的距离可以把相似的数据项聚集在一起。随着信息化、数字化、网络化进程加速，经济全球化已成为一种不可逆的趋势，聚类算法中的数据来源越来越多样化，数据安全越来越重要。考虑到数据会来自多个参与方，在这些数据中可能包含关于参与方的敏感信息或私人信息，如果这些信息在多个参与方之间共享，那么数据的隐私性将不能得到保证。具有隐私保护的联合数据挖掘可以在保护用户数据和挖掘结果隐私性的同时，对多个参与方的联合数据库进行数据挖掘，进一步提取出有用的信息。因此，如何设计出具有隐私保护的联合数据挖掘算法成为一个需要解决的难题。

半诚实模型在许多情况下是符合实际场景的，该模型下数据的隐私性是通过各个参与方始终遵循协议来保证的。但是为保证数据的隐私性，该模型下的解决方案通常因为计算消耗和通信消耗较高，所以实际中并不可行。

传统K-means聚类算法是一种基于欧式距离的经典的聚类算法。传统K-means聚类算法主要分为3个步骤：选取质心点、对数据点进行归类和重计算新的质心点。假设训练样本为{x _i∈R ^l|1≤i≤l}，其中，l为样本的数量，首先随机选取k个质心点M，表示为M＝{μ _c∈R ^l|1≤c≤l}。然后计算每个数据点到x _i到质心点μ _c的距离，然后将x _i归类到聚类该点最近的质心点μ _c所属的类中，公式为：C _c:＝argmin _c||x _i-μ _c|| ²。最后对于每个质心点μ _c进行重计算质心点，计算公式为：

由此可以看出传统K-means聚类算法主要包括三个步骤：选取质心点、数据点进行归类和重计算质心点。其中在归类的过程中，首先要计算数据点距离每个质心点的欧式距离，然后比较出距离数据点最近的质心点进行归类，这里距离的计算采用的是欧式距离的平方，这样在改变两个数值的大小关系的情况下更好的比较两个数值的大小。在重计算质心点的过程中，需要计算每个类中数据点的分量和，而这些数据点可能来自不同的参与方，所以在计算的过程中可能涉及到隐私问题。总之，在传统K-means聚类算法的计算过程中可能导致隐私的泄漏。

发明内容

为解决现有技术中的问题，本发明提供一种具有隐私保护的K-means聚类方法，还提供了一种实现所述方法的系统。

本发明方法包括如下步骤：

S1：数据拥有者A和B加密各自的数据，然后把密文上传至服务器；

S2：数据拥有者A和B分别随机选择k个质心点，并加密上传至服务器；

S3：服务器通过安全距离计算协议计算密文数据点到质心点的欧氏距离，通过安全比较协议根据计算的欧氏距离将数据点归类；

S4：服务器、数据拥有者A和B通过安全电路协议共同重新计算新的k个质心点；

S5：数据拥有者A或B通过安全比较协议判断密文数据中新的质心点与原质心点的距离，如果小于阈值，结束分类，数据拥有者A和B请求服务器将分类好的数据分别发送给数据拥有者A和B，否则，返回执行步骤S2，进行下一轮迭代。

本发明作进一步改进，在步骤S1中，所述服务器为云服务器，云服务器将数据拥有者A和B上传的数据再加密存储在云端的文件系统中。

本发明作进一步改进，在步骤S2中，所述质心点的选取包括质心点数量和数值的选取，具体包括如下步骤：

S21：数据拥有者A和B分别随机选择k个质心点；

S22：根据传统K-means聚类算法在各自的数据集上进行迭代，并归类；

S23：计算每个数据点到各自对应质心点的距离，并计算所有数据点的距离总和S；

S24：当k-1、k、k+1个质心点对应的总和S变化不大时，此时，k为质心点的个数；

S25：数据拥有者A和B分别用各自的质心点的数值计算平均值，所述平均值即为k个质心点的值。

本发明作进一步改进，步骤S3的计算方法包括如下步骤：

S31：服务器计算数据拥有者A的每条密文记录与其上传的密文质心点的密文距离，及数据拥有者B的每条密文记录与其上传的密文质心点的密文距离；

S32：服务器与数据拥有者A共同通过安全距离计算协议计算数据拥有者A的每个数据点与质心点的密文距离；服务器和数据拥有者B利用安全距离计算协议共同计算数据拥有者B的每个数据点与质心点的密文距离；

S33：服务器根据步骤S32得到的密文距离集，将数据拥有者A和B的数据划分到最近的类中，并在同一类中分开存放。

本发明作进一步改进，步骤S4的处理方法包括如下步骤：

S41：服务器将同一类中分开存放的数据点分别发送给对应的数据拥有者A和B；

S42：数据拥有者A和B解密；

S43：服务器、数据拥有者A和B在该类别中通过安全电路协议计算新的质心点。

本发明还提供了一种实现所述方法的系统，包括数据库、数据拥有者A所使用的第一客户端和数据拥有者B所使用的第二客户端，其中，所述第一客户端和第二客户端用于加密各自的数据，然后把密文上传至服务器，并分别随机选择k个质心点，并加密上传至服务器，等服务器归类后，与服务器共同重新计算新的k个质心点，判断新的质心点与原质心点的距离，如果小于阈值，结束分类，请求服务器将分类好的数据分别发送给第一客户端和第二客户端，否则重新上传质心点；服务器用于接收第一客户端和第二客户端上传的数据，计算数据点到质心点的欧氏距离，根据计算的欧氏距离将数据点归类，然后与第一客户端和第二客户端共同重新计算新的k个质心点。

本发明作进一步改进，所述服务器为云服务器，云服务器将数据拥有者A和B上传的数据再加密存储在云端的文件系统中。

本发明作进一步改进，所述第一客户端和第二客户端的质心点的选取包括质心点数量和数值的选取，具体包括如下模块：

质心点选择模块：用于随机选择k个质心点；

归类模块：用于根据传统K-means聚类算法在各自的数据集上进行迭代，并归类；

安全距离计算模块：用于通过安全距离计算协议计算每个数据点到各自对应质心点的距离，并计算所有数据点的距离总和S；

质心点个数选取模块：用于判断当k-1、k、k+1个质心点对应的总和S变化不大时，此时，k为质心点的个数；

质心点数值选取模块：用于用各自的质心点的数值计算平均值，所述平均值即为k个质心点的值。

本发明作进一步改进，所述服务器包括：

第一密文距离计算模块：用于计算第一客户端每条密文记录与其上传的密文质心点的密文距离，及计算数据拥有者B的每条密文记录与其上传的密文质心点的密文距离；

第二密文距离计算模块：用于与第一客户端共同计算第一客户端的每个数据点与质心点的密文距离；服务器和第二客户端共同计算第二客户端的每个数据点与质心点的密文距离；分类模块：用于根据第二密文距离计算模块计算得到的密文距离集，将第一客户端和第二客户端的数据划分到最近的类中，并在同一类中分开存放。

本发明作进一步改进，所述服务器还包括发送模块：用于将同一类中分开存放的数据点分别发送给对应的第一客户端和第二客户端；安全质心点计算模块：用于同第一客户端和第二客户端通过安全电路协议在同一类别中计算新的质心点。

与现有技术相比，本发明的有益效果是：本申请采用加密的方式很好的保证了数据挖掘过程中的安全性，并结果的正确性；支持数据存储外包，可以在更大规模的数据集上执行；支持数据计算外包，将大部分的计算外包给云平台，借助云平台强大的计算能力，在保证正确性的同时，执行效率也大幅度提升；不仅实现了半诚实模型下的安全计算，而且在重计算质心点阶段支持三个参与方中最多一方为恶意方的安全计算。

附图说明

图1为本发明方法流程图；

图2为本发明系统结构示意图；

图3为传统K-means聚类算法服务器和客户端消耗时间示意图；

图4为本发明服务器和客户端消耗时间示意图；

图5为传统K-means聚类算法服务器和客户端消耗时间占有比示意图；

图6为本发明服务器和客户端消耗时间占有比示意图；

图7为本发明与传统K-means聚类算法耗费时间比值。

具体实施方式

下面结合附图和实施例对本发明做进一步详细说明。

针对具有隐私保护的数据挖掘中存在的性能问题，本发明开展了对现有具有隐私保护的数据挖掘算法的深入研究，进而在水平划分的数据集上提出一种高效的具有隐私保护的K-means聚类算法，该方案支持有两个数据拥有者和云平台同时存在的存储外包和计算外包。数据以密文形式存储在云端，云平台通过与两个数据拥有者交互，完成在双方的联合数据集上K-means聚类数据挖掘的任务。本发明分别设计不同的安全协议解决具有隐私保护的K-means聚类算法中的三个技术难题：解决密文距离计算问题的安全距离计算协议、解决密文比较问题的安全比较协议和解决密文除法问题的安全电路协议。进而将这些安全协议应用到聚类算法框架中，实现具有隐私保护的K-means聚类算法。

如图1所示，本发明具有隐私保护的K-means聚类方法主要包括5个步骤，接下来对其进行详细说明：

步骤S1：数据拥有者A和B加密各自的数据，然后把密文上传至服务器。本例假设数据拥有者A为Alice，数据拥有者B为Bob，服务器为C。

Alice和Bob分别用自己的公钥pk ₁和pk ₂加密他们的数据D _x和D _y，密文为C _x和C _y，然后将C _x和C _y上传到C。其中，D _x和D _y中的每条记录都是l维的，所以对数据库加密也就是对每条记录中的每一维数据进行加密。Alice和Bob的所有数据会以密文的形式存储在云端的文件系统中。具体的表示如下：

其中，m为记录的条数。

步骤S2：Alice和Bob选择k个质心点，并用各自公钥加密上传到C。

本例中，质心点的选择是非常重要的一步，因为它的选择直接关系到迭代次数的多少，进而影响到系统整体的执行时间，所以好的质心点也会加快系统的收敛速度和执行效率。这里选择质心点分为两个部分：第一是质心点数量的选择，Alice和Bob分别随机k值和k个质心点，然后在自己的数据集上进行一次迭代。归类后计算出每个数据点到各自对应质心点的距离，然后得到这些所有距离的总和为S。当k-1,k和k+1所对应的S变化不大时，此时，k即为质心点的个数。Alice和Bob分别找出自己的k，然后两个k值区平均值即为最终的k值。Alice随机选择k个质心点M＝{μ _c|1≤c≤k}，其中μ _c＝{u _cj|1≤j≤l}。Alice和Bob分别用Alice和Bob的公钥将质心点加密上传到云端，质心点的密文为

和

步骤3:服务器C通过安全距离计算协议计算密文数据点到质心点的欧氏距离，然后，通过安全比较协议根据计算的欧氏距离将数据点归类。具体为：

C计算每个记录和每个质心点

以及每个记录

和每个质心点

的密文距离；C和Alice共同运行SSED(安全距离计算)协议去计算每个x _i和μ _c之间的密文距离，用

表示。C和Bob共同运行SSED协议去计算每个y _i和μ _c之间的密文距离，用

表示。所有x _i和μ _c之间的密文距离存储在

中，所有y _i和μ _c之间的密文距离存储在

中。

本方法中用到的同态加密是支持密文加法操作的半同态加密，即Paillier加密，它是一个4元组的概率性加密，表示为Enc _pa＝{KenGen,Encrypt,Decrypt,Evaluate}。Paillier加密的过程如下：

●KenGen(1 ^k)→(pk,sk):

(1)选出两个大素数p和q,且满足gcd(pq,(p-1)(q-1))＝1；

(2)计算N＝pq和λ＝lcm(p-1,q-1)；

(3)随机选择一个整数

(4)找到μ，使得它可以满足μ＝(L(g ^λ？mod N ²)) ^-1mod N，这里L是一个函数

L(μ)＝(μ-1)/N。进而得到公钥为(N,g)，私钥为(λ,μ)。

●Encrypt(x,r)→c:

假设明文为x，选择一个随机数r，密文计算为c＝g ^xr ⁿmod N ²。加密也可表示为 E _pk(x)＝c。

●Decrypt(c)→x

解密过程为x＝L(c ^λmod N ²)mod N。D _sk(c)代表Decrypt(c)。

●Evaluate：

E _pk(x)E _pk(y)＝E _pk(x+y),E _pk(x) ^y＝E _pk(xy)。其中x和y是两个明文。

本例的安全距离计算协议基于安全乘法协议来实现，所述安全乘法协议的具体处理过程如下：

其中，Z _n是正整数空间，此处表示r _x和r _y为正整数。

本例的安全距离计算协议的具体处理过程如下：

然后，C将所有的数据点归类，具体为：

通过比较

和

中的距离，将x _i和y _i划分到最近的类中。C和Alice执行安全比较协议

C和Bob执行

然后将所有的密文归类到相应的类别

和

中去。每个

存储了P1中划分到C类的数据点，每个

存储了Bob中划分到C类的数据点，计算公式为：

安全比较协议的具体处理过程如下：

步骤S4：C、Alice和Bob通过安全电路协议共同重计算k个质心点，因为在CL ₁和CL ₂中两个参与方加密数据的公钥不一样，所有新的质心点不能直接计算。本例先让C把CL ₁和CL ₂分别发给Alice和Bob做解密得到L ₁和L ₂，计算公式为：

然后C、Alice和Bob将会执行SC(安全电路)协议，计算

其中，

分别为Alice和Bob中的密文数据。

从而计算出新的质心点的一个分量μ _cj。SC安全电路协议可以保证Alice和Bob得到所有的新的质心点。

其中，安全电路协议的具体处理过程为：

步骤S5：Alice会通过安全比较协议计算新的质心点和以前质心点的距离，如果小于阈值，那么Alice和Bob将会请求C将分好类的数据分别发给Alice和Bob。否则，Alice和Bob用他们各自的公钥将新的质心点加密上传到C，进行下一轮迭代。

如图2所示,本发明还提供了一种实现上述方法的系统，本例系统包括数据库C、数据拥有者A所使用的第一客户端P ₁和数据拥有者B所使用的第二客户端P ₂，其中，所述第一客户端P ₁和第二客户端P ₂用于加密各自的数据，然后把密文上传至服务器，并分别随机选择k个质心点，并加密上传至服务器，等服务器归类后，与服务器共同重新计算新的k个质心点，判断新的质心点与原质心点的距离，如果小于阈值，结束分类，请求服务器将分类好的数据分别发送给第一客户端P ₁和第二客户端P ₂，否则重新上传质心点；服务器用于接收第一客户端P ₁和第二客户端P ₂上传的数据，计算数据点到质心点的欧氏距离，根据计算的欧氏距离将数据点归类，然后与第一客户端P ₁和第二客户端P ₂共同重新计算新的k个质心点。

本例服务器C为云服务器，云服务器将数据拥有者A和B上传的数据再加密存储在云端的文件系统中，能够支持数据存储外包，可以在更大规模的数据集上执行；支持数据计算外包，将大部分的计算外包给云平台，借助云平台强大的计算能力，在保证正确性的同时，执行效率也大幅度提升。

本发明有益效果分析：

1、本发明选用的比较方案

本发明使用的框架是在文献《Outsourcing Two-Party Privacy Preserving K-Means Clustering Protocol in Wireless Sensor Networks》中首次提出的，在本比较中对该论文方法用之前方案表示，相对于其它框架下的聚类算法，同一框架下的聚类算法更具有可比性，所以本发明主要与之前传统方案进行比较分析。为保证实验对比的可靠性，两种方案均在同一个实验环境中运行。下面将介绍两种方法的评价标准，并进行实验结果的比较分析。

2、评价标准

本发明方法的时间消耗主要分为三个部分：客户端时间消耗、通信消耗和服务器端时间消耗，其中客户端和服务器时间消耗又包括初始化阶段和协议运行阶段的时间消耗。又因为本申请与之前方案所用方法的不同，所以只能从宏观上进行比较。比较主要包括两个方面，一个是理论上复杂度分析、包括时间复杂度、空间复杂度和通信复杂度，另一个是实验中测试结果的比较。而不同的迭代次数会影响实验的整体效果，所以本例以一次迭代为准，将从以下几个方面进行比较：

(1)对比两种方案的理论上的时间复杂度、空间复杂度和通信复杂度。

(2)对比两种方案数据加密的时间。

(3)对比两种方案在一次迭代中服务器和客户端的时间消耗。

3、实验结果分析

从理论来讲，本发明方案在时间复杂度、空间复杂度和通信复杂度方面都低于之前方案。下面将根据实验数据对两种方案的实验结果进行分析。

首先比较的两种方案的加密时间消耗。之前方案中采用的两种加密方式，所有的明文数据必须都要被改进的Liu加密方案加密一次，还要被Paillier加密方案加密一次。本发明的方案中所有的明文数据只需要一次Paillier加密即可，理论上本发明中的方案中的加密时间应该快于之前方案中的加密时间消耗。又因为Paillier的操作是在群上的，又有很多的指数操作，而改进的Liu加密方案都是线性操作，所以大部分的加密时间消耗是因为Paillier加密造成的。所以，本发明中的加密时间消耗会略小于之前方案中的加密时间消耗，但是时间并没有数量级的差别，实验的结果有力的证明了该结论。之前方案加密时间消耗如表1所示，本发明的加密时间消耗如表2所示。

表1现有方案加密时间消耗

表2本发明加密时间消耗

接着，本发明对一次迭代中所消耗的时间进行了统计和对比。从理论上来说，本发明引入的云平台提高了强大的计算能力应该会比之前方案中的运行效率略胜一筹。因为本发明的云平台是由30台PC机和一台服务器构成，在任务的处理过程中需要对每台机器进行任务分工、任务调度和数据回收，这些操作也会消耗部分的时间。当数据点越多的时候，一次迭代的时间会更长，而任务分工等操作所消耗的时间占用的比例就会越低。本发明在安全电路协议中，电路的生成需要耗费较大的时间，但是电路只需要在第一次迭代中生成一次即可，所以理论上在数据点规模较小的时候，之前方案的一次迭代的效率会高于本发明中的方案，当数据点规模高于某一阈值时，本发明的方案一次迭代的效率会高于之前方案中的效率，随着数据规模越来越大，本发明中方案的效率优势会越来越明显。实验结果很好的论证了我们的观点，同时实验结果表明数据点规模的阈值大约为5000个数据点，当数据规模大于7000时本发明方案一次迭代消耗时间较少，当数据规模小于5000时，之前方案中方案一次迭代消耗时间较少。两种方案一次迭代消耗时间对比如表3所示。

表3一次迭代消耗时间对比

在一次迭代中，本发明关注的不仅是这一次迭代的所消耗的时间，同时也希望在每一次迭代计算中服务器C能够承担更多的任务，拥有更高的消耗时间占有比，也就是说在保证一次迭代时间较小的情况下，使得服务器消耗时间与一次迭代消耗时间的比例更大，这样就可以较少客户端的计算量。因此，随着数据规模的增大，这样的方案效率也会越来越高。对于客户端来说，主要做的就是加密和解密操作，两种方案中客户端的加解密的次数基本一致。但是，在之前方案中密文距离计算和密文距离比较大小采用的是改进的Liu加密，该加密的所有操作都是线性运算，而本发明中的方案采用的是Paillier加密算法，该算法的解密和解密需要在群上进行指数运算和模运算。对于计算能力较小的客户端来说，改进的Liu加密算法所消耗的时间应该会小于该本发明中采用的Paillier加密。所以，理论上在同规模的数据集下，之前方案中客户端所消耗的时间会低于本发明的方案中客户端所消耗的时间。随着数据规模的增大，本发明的方案中一次迭代消耗的时间相对较少，而客户端所消耗的时间相对较大。因此，当数据规模越来越大的时候，本发明方案中的客户端消耗时间占有比相对会越来越大，相反服务器所消耗时间的占有比相对会越来越小。通过进行实验数据的采集和分析，也很好证明了先前的猜想。两种方案一次迭代各参与方消耗时间如表4和表5所示。之前方案服务器和客户端的消耗时间如图3所示，本发明服务器和客户端消耗时间如图4所示。

表4之前方案一次迭代各参与方消耗时间

表5本申请一次迭代各参与方消耗时间

从图3和图4中可以看出，两种方案服务器和客户端消耗时间随着数据点增长的一个趋势。之前方案的实验方案中，随着数据规模的增大，服务器消耗有明显的上升趋势，而客户端的消耗时间也有较小的上升趋势。主要是因为服务器的计算能力有限，数据的计算比较负责。随着数据规模的增大，服务器必然需要越来越多的时间去处理这些数据，导致消耗时间明显增多，服务器消耗时间的占有比也会增加。随着数据规模的增大，虽然客户端需要处理的数据也有所增加，相比服务器，客户端的操作大多都是线性计算，所以数据规模增加带来的消耗时间的增加并不明显，那么客户端消耗时间的占有比会减少。本发明中服务器是在有30台PC机和1台服务器构成的云平台上运行的，所以服务器的计算能力是可以保证的。根据图4可以看出，随着数据规模的增加，服务器端消耗时间有所增加，并没有明显的上升趋势。而客户端消耗时间随着数据规模的增加越来越大，主要是因为客户端所做的解密操作是在群上的指数操作，相比于线性操作，该操作具有更大的计算量。因此，随着数据规模的增大，本发明中服务器消耗时间占有比会有所减少，而客户端消耗时间占有比会有所增加。之前方案中服务器和客户端消耗时间占有比如图5所示，本发明中服务器和客户端消耗时间占有比如图6所示。

最后，本发明通过实验，给出了一次迭代中具有隐私保护的K-means聚类算法与经典的K-means算法处理数据的时间，可以看出加密所带来的时间消耗是比较大的。但是，随着数据规模的增大，本发明一次迭代的时间消耗与经典的K-means时间消耗的比值越来越小。一次迭代中本发明与经典的K-means算法耗费时间如表6所示，时间比值如图7所示。

表6一次迭代中本发明与经典的K-means算法耗费时间

本发明选用的是数据挖掘中较为典型的K-means算法，并且在双方的水平划分的联合数据集进行挖掘，同时支持云平台的存储外包和计算外包。本发明的有益效果主要有以下几方面：

(1)通过分析隐私保护的数据挖掘的国内外现状，清楚地了解现在常用技术的优势和劣势。基于数据扰乱技术的方案虽然执行效率较高，但是因为它破坏了原有的数据集，所以对数据挖掘结果肯定会产生一定的影响，而基于加密的方案可以很好的保证挖掘结果的正确性，本发明采用加密的方式很好的保证了数据挖掘结果的正确性；

(2)本发明方案支持数据存储外包。云平台相比于一般的PC机，拥有更大的存储能力，这使得本发明方案可以在更大规模的数据集上执行；

(3)本发明方案支持数据计算外包。云平台是一种分布式计算框架，它可以把很多的资源整合到一起成为一个集群，从而大幅度提升系统的计算能力。本发明方案将大部分的计算外包给云平台，借助云平台强大的计算能力，在保证正确性的同时，执行效率也大幅度提升；

(4)从理论分析算法的时间复杂度、空间复杂度、通讯复杂度和安全性，并且通过实验验证该算法的正确性和高效性。本发明提出的具有隐私保护的K-means聚类算法不仅实现了半诚实模型下的安全计算，而且在重计算质心点阶段支持三个参与方中最多一方为恶意方的安全计算。

以上所述之具体实施方式为本发明的较佳实施方式，并非以此限定本发明的具体实施范围，本发明的范围包括并不限于本具体实施方式，凡依照本发明所作的等效变化均在本发明的保护范围内。

Claims

一种具有隐私保护的K-means聚类方法，其特征在于包括如下步骤：

S1：数据拥有者A和B加密各自的数据，然后把密文上传至服务器；

S2：数据拥有者A和B分别随机选择k个质心点，并加密上传至服务器；

S3：服务器通过安全距离计算协议计算密文数据点到质心点的欧氏距离，通过安全比较协议计算的欧氏距离将数据点归类；

S4：服务器、数据拥有者A和B通过安全电路协议共同重新计算新的k个质心点；

S5：数据拥有者A或B通过安全比较协议判断密文数据中新的质心点与原质心点的距离，如果小于阈值，结束分类，数据拥有者A和B请求服务器将分类好的数据分别发送给数据拥有者A和B，否则，返回执行步骤S2，进行下一轮迭代。
根据权利要求1所述的具有隐私保护的K-means聚类方法，其特征在于：在步骤S1中，所述服务器为云服务器，云服务器将数据拥有者A和B上传的加密数据再存储在云端的文件系统中。
根据权利要求2所述的具有隐私保护的K-means聚类方法，其特征在于：在步骤S2中，所述质心点的选取包括质心点数量和数值的选取，具体包括如下步骤：

S21：数据拥有者A和B分别随机选择k个质心点；

S22：根据传统K-means聚类算法在各自的数据集上进行迭代，并归类；

S23：计算每个数据点到各自对应质心点的距离，并计算所有数据点的距离总和S；

S24：当k-1、k、k+1个质心点对应的总和S变化不大时，此时，k为质心点的个数；

S25：数据拥有者A和B分别用各自的质心点的数值计算平均值，所述平均值即为k个质心点的值。
根据权利要求3所述的具有隐私保护的K-means聚类方法，其特征在于：步骤S3的计算方法包括如下步骤：

S31：服务器计算数据拥有者A的每条密文记录与其上传的密文质心点的密文距离，及数据拥有者B的每条密文记录与其上传的密文质心点的密文距离；

S32：服务器与数据拥有者A共同利用安全距离计算协议计算数据拥有者A的每个数据点与质心点的密文距离；服务器和数据拥有者利用安全距离计算协议B共同计算数据拥有者B的每个数据点与质心点的密文距离；

S33：服务器根据步骤S32得到的密文距离集，将数据拥有者A和B的数据划分到最近的类中，并在同一类中分开存放。
根据权利要求4所述的具有隐私保护的K-means聚类方法，其特征在于：步骤S4的处理方法包括如下步骤：

S41：服务器将同一类中分开存放的数据点分别发送给对应的数据拥有者A和B；

S42：数据拥有者A和B解密；

S43：服务器、数据拥有者A和B在该类别中利用安全电路协议计算新的质心点。
一种实现权利要求1-5任一项所述具有隐私保护的K-means聚类方法的系统，其特征在于包括数据库、数据拥有者A所使用的第一客户端和数据拥有者B所使用的第二客户端，其中，所述第一客户端和第二客户端用于加密各自的数据，然后把密文上传至服务器，并分别随机选择k个质心点，并加密上传至服务器，等服务器归类后，与服务器共同重新计算新的k个质心点，判断新的质心点与原质心点的距离，如果小于阈值，结束分类，请求服务器将分类好的数据分别发送给第一客户端和第二客户端，否则重新上传质心点；服务器用于接收第一客户端和第二客户端上传的数据，计算数据点到质心点的欧氏距离，根据计算的欧氏距离将数据点归类，然后与第一客户端和第二客户端共同重新计算新的k个质心点。
根据权利要求6所述的系统，其特征在于：所述服务器为云服务器，云服务器将数据拥有者A和B上传的数据再加密存储在云端的文件系统中。
根据权利要求7所述的系统，其特征在于：所述第一客户端和第二客户端的质心点的选取包括质心点数量和数值的选取，具体包括如下模块：

质心点选择模块：用于随机选择k个质心点；

归类模块：用于根据传统K-means聚类算法在各自的数据集上进行迭代，并归类；

安全距离计算模块：用于通过安全距离计算协议计算每个数据点到各自对应质心点的距离，并计算所有数据点的距离总和S；

质心点个数选取模块：用于判断当k-1、k、k+1个质心点对应的总和S变化不大时，此时，k为质心点的个数；

质心点数值选取模块：用于用各自的质心点的数值计算平均值，所述平均值即为k个质心点的值。
根据权利要求8所述的系统，其特征在于：所述服务器包括：

第一密文距离计算模块：用于计算第一客户端每条密文记录与其上传的密文质心点的密文距离，及计算数据拥有者B的每条密文记录与其上传的密文质心点的密文距离；

第二密文距离计算模块：用于与第一客户端共同计算第一客户端的每个数据点与质心点的密文距离；服务器和第二客户端共同计算第二客户端的每个数据点与质心点的密文距离；

分类模块：用于根据第二密文距离计算模块计算得到的密文距离集，将第一客户端和第二客户端的数据划分到最近的类中，并在同一类中分开存放。
根据权利要求9所述的系统，其特征在于：所述服务器还包括发送模块：用于将同一类中分开存放的数据点分别发送给对应的第一客户端和第二客户端；

安全质心点计算模块：用于同第一客户端和第二客户端通过安全电路协议在同一类别中计算新的质心点。