WO2019056572A1

WO2019056572A1 - 隐私保护协同Web服务质量预测的基于模型的协同过滤方法

Info

Publication number: WO2019056572A1
Application number: PCT/CN2017/113485
Authority: WO
Inventors: 毛睿; 李荣华; 陆敏华; 王毅; 罗秋明; 商烁; 刘刚
Original assignee: 深圳大学
Priority date: 2017-09-25
Filing date: 2017-11-29
Publication date: 2019-03-28
Also published as: CN107679415A

Abstract

本发明公开了一种隐私保护协同Web服务质量预测的基于模型的协同过滤方法，包括如下步骤：第一步，数据收集：每个用户在本地收集服务质量值，即QoS值；第二步，数据伪装：伪装服务质量值；第三步，基于模型的协同过滤伪装后的服务质量值；第四步，预测结果：根据协同过滤后的服务质量值来预测结果。本发明首次将差分隐私引入协作式Web服务QoS预测框架，用户可以通过确保数据的可用性获得最大的隐私保护。实验结果表明，本发明方法提供了安全和准确的协作Web服务的QoS预测，且基于模型的协同过滤方法在捕获QoS数据的潜在结构方面具有优越性。

Description

隐私保护协同Web服务质量预测的基于模型的协同过滤方法

技术领域

本发明属于计算机领域，具体涉及一种隐私保护的协同过滤方法，尤其涉及一种隐私保护协同Web服务质量预测的基于模型的协同过滤方法。

背景技术

服务质量(QoS)广泛用于描述web服务的非功能特性。基于服务质量的选择、组合和推荐web服务技术在近几年的论文中广泛讨论。这些方法的前提是Web服务的精确QoS值总是可用的。但是获得精确的服务质量值不是一件容易的事。一方面，服务提供商或第三方社区公布的QoS值对服务用户不准确，因为它们容易受到不确定的互联网环境的影响。另一方面，由于时间、成本和其他资源的限制，服务用户直接评估所有可用服务的QoS是不切实际的。为了解决这个问题，突破点是个性化协作Web服务的QoS预测。基本思想是性格相似的用户倾向于针对相同的服务观测到相似的QoS值，因此当需要预测某特定用户针对某web服务观测到的QoS值时，可以用性格相似的用户观测到的值来替代。

通过这种方法，对于相同的服务不同的用户也通常被给予不同的QoS预测值，并且最终预测值实际上取决于其特定上下文。基于这些提供的QoS值，已经采用各种技术来改进质量，特别是预测的准确性。

协作式Web服务QoS预测已成为生成准确的个性化QoS的重要工具。虽然在提高协同QoS预测的准确性的研究方面已经取得了许多成就，但在这个过程中为保护用户隐私做的工作还不够。而事实上，观测到的QoS值可能是敏感信息，因此用户可能不愿意与他人共享它们。例如，由用户反馈的观察响应时间通常取决于她的位置，这表明可以从她提供的QoS信息推断出用户的位置。因此，一个问题是推荐系统是否可以在保护用户隐私的前提下，为用户进行准确的个性化QoS预测。

允许在密文上进行计算的同态加密是实现隐私的直接方式。然而，所有这些操作不仅需要很大的计算成本，而且需要各方之间的持续通信，甚至还没考虑将一些复杂的计算应用到加密域中的困难。因此，通过使用同态加密来处理我们的问题是不可行的。

另一种技术，即由Polat等人提出的随机扰动，他们声称采用这种技术仍然可以获得准确的推荐，而来自特定分布的随机性被添加到原始数据以防止信息泄露。然而，随机性α的范围是根据经验选择的，并且没有可证明的隐私保证。然而，对于扰动数据的应用程序进行聚类，对手可以准确地推断用户的私人数据，且精度高达70％。

因此，虽然随机扰动的隐私保护方法是不安全的，但它启发我们设计一个轻量级和可证明的随机扰动。具体来说，我们为用户开发了一个的隐私保护QoS预测模型，差分隐私模型，该模型能强有力的保护隐私数据并且有可证明的隐私保证，这是目前最先进的保护隐私数据状态技术。差分隐私已经引起了广泛的关注研究，因为它旨在提供有效的方法来最小化添加到原始数据的噪声。

尽管差分隐私的收到广泛关注，但QoS预测的应用仍然相当有限。参考文献1[F.McSherry and I.Mironov.

private recommender systems:building privacy into the net.SIGKDD 2009:627-636]和参考文献2[A.Machanavajjhala,A.Korolova and A.D.Sarma.Personalized social recommendations:accurate or private.PVLDB 2011 4(7):440-450]是两个基于隐私的隐私保护推荐系统，这是我们的问题最相关的工作。Machanavajjhala等人[参考文献2]研究了个性化的社交推荐的隐私保护，其完全基于用户的社交图。利用差分隐私，可以有效地保护社交图中的敏感链路，这意味着攻击者不能通过被动地观察推荐结果来推断图中的单个链路的存在。但是，另一问题是只有在较弱的隐私参数下才能实现优质推荐，或者只能为一小部分用户实现优质推荐。McSheery和Mironov[参考文献1]将差分隐私应用于协作过滤[R.M.Bell and Y.Koren.Scalable collaborative filtering with jointly derived neighborhood interpolation weights.ICDM 2007:43-52]，这是推荐系统的通常解决方案。他们将推荐算法分为两部分：学习阶段和单独推荐阶段，学习阶段利用差分隐私保证执行，单独推荐阶段将学习结果用于单独预测。与参考文献1和参考文献2完成的工作不同，本发明关注数据发布的隐私保证，而不是知识学习，本发明探索了除了参考文献1中正在研究的其他方法，如潜在因素模型。

发明内容

本发明要解决的技术问题在于提供一种隐私保护协同Web服务质量预测的基于模型的协同过滤方法。首次将差分隐私引入协作式Web服务QoS预测框架，用户可以通过确保数据的可用性获得最大的隐私保护。实验结果表明，本发明方法提供了安全和准确的协作Web服务的QoS预测，且基于模型的协同过滤方法在捕获QoS数据的潜在结构方面具有优越性。

为解决上述技术问题，本发明提供一种隐私保护协同Web服务质量预测的基于模型的协同过滤方法，包括如下步骤：

第一步，数据收集：每个用户在本地收集服务质量值，即QoS值；

第二步，数据伪装：伪装服务质量值；

第三步，基于模型的协同过滤伪装后的服务质量值；

第四步，预测结果：根据协同过滤后的服务质量值来预测结果。

作为本发明优选的技术方案，其特征在于，第二步中，所述数据伪装采用如下方法：

使用r_ui来表示由用户u针对web服务i收集的服务质量值-QoS值，r_u代表用户u评估的QoS值的整个向量，并且类似地，I_ui和I_u分别表示指示QoS值是否存在的二进制元素和向量，R_u表示伪装后的数据；每个用户u的ε-差分隐私通过以下等式实现：

R_ui＝r_ui+Laplace(Δf/ε)

其中，ε是用于利用隐私的隐私参数，Δf被定义为QoS值之间的最大差值，即：

Δf＝max(r_ui-r_uj)

r_ui表示由用户u针对web服务i收集的服务质量值-QoS值，r_uj表示由用户u针对web服务j收集的服务质量值-QoS值；

而Laplace()的含义由以下公式给出：

如果一个随机变量x的概率密度函数为：

则该随机变量x具有拉普拉斯(μ,b)分布；μ和b分别是位置参数和尺度参数；设μ＝0，因此分布被认为是标准偏差为

的对称指数分布；为了添加服从拉普拉斯分布的噪声，设b＝Δf/ε，并且将噪声的生成称为laplace(Δf/ε)。

作为本发明优选的技术方案，第二步中，所述数据伪装通过随机干扰原始数据达到伪装数据的目的；随机性应该能够保证不能从扰动的数据中推导出敏感信息，包括每个单独的用户的服务质量值；当用户数量非常大时，仍然能以较高的准确度来评估这些用户的聚合信息。

作为本发明优选的技术方案，第二步中，所述隐私参数ε由每个用户给出，通过利用差分隐私，在观察到的QoS值中添加的随机数是相对于在特定隐私保持相当精确度的最小值。

作为本发明优选的技术方案，第三步中，所述基于模型的协同过滤方法具体为：利用矩阵的因式分解MF，假设稀疏矩阵Q_n*m代表n个用户和m个服务的观察到的QoS值，其中每个元素qi_j反映使用服务j的用户i的QoS值，利用输入矩阵Q_n*m，MF旨在将用户服务矩阵Q_n*m因式分解为较低维度d的两个矩阵：用户因子矩阵U_n*d和服务因子矩阵V_m*d；然后，Q_n*m中的空元素可近似为U和V的乘积，即，未知QoS值q'_ij由

来估计；

MF经常被转换成优化问题，并且通过迭代获得局部最优解；MF的目标函数或损失函数定义为：

第一部分

是现有QoS矩阵和预测矩阵之间的平方差，但是仅用于已经由用户评估的元素；后一部分λ(||U_i||²+||V_j||²)是正则化项，添加以处理由输入稀疏导致的过度拟合；通过处理这种优化，最终得到用户因子矩阵U_n*d和服务因子矩阵V_m*d；采用随机梯度下降SGD来解决这个问题，SGD的迭代方程如下：

其中，γ是学习率，λ'是正则化系数；两个参数的选择将会显著影响结果，当γ的值较大时，结果会发散而不是收敛；尽管需要更长的训练时间，但为了获得收敛，根据经验将γ设置为0.001，同样，根据经验设λ'为0.01；当目标函数值小于某个阈值时，迭代将终止。

作为本发明优选的技术方案，第四步中，所述预测结果具体为：协同过滤得到某一服务的QoS值后，检索其他用户针对同一服务的QoS值，选择值最相近的用户，这表明两个用户有相似的兴趣爱好，基于此做相似推荐，采用后一用户的相关值作为前一用户的预测结果。

与现有技术相比，本发明具有以下有益效果：本发明隐私保护协同Web服务质量预测的基于模型的协同过滤方法，提出一个隐私保护协作QoS预测框架，可以保护用户的私有数据，同时保留生成准确的QoS预测的能力。本发明引入差分隐私作为QoS数据预测的预处理，差分隐私是一种严格和可证明的隐私保护技术。本发明基于一种名为拉普拉斯机制的通用方法实现提出的方法，并进行广泛的实验以研究其在现实数据集上的性能。在不同的条件下评估实验的隐私精度，结果表明在一些约束下，本发明可以实现比基准线有更好的性能。本发明主要有下列优点：

1、针对本发明提出的方法，隐私保护算法可以被参数化，并且被用来将预测与其非私人类似物匹配。虽然有一些专门的分析要求，但方法本身是相对直接和易于获得的。

2、通过将隐私保护集成到应用程序中，可以在其最终输出大大少于符合隐私标准的整个数据集的情况下，向用户提供对原始数据的不受约束的访问。

3、本发明用真实数据集测试了该方法。结果表明，本发明伪装的数据的预测准确性非常接近的用户的私人数据。

4、实验结果证明，本发明隐私保护协同Web服务质量预测的基于模型的协同过滤方法在捕获QoS数据的潜在结构方面具有优越性。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明隐私保护协同Web服务质量预测的基于模型的协同过滤方法的流程示意图。

图2是隐私保护协同QoS预测模型示意图。

图3是本发明实验中基于差分隐私的QoS预测与不同隐私下的原始方法之间隐私与准确性的比较示意图；图3(a)代表响应时间，图3(b)代表全部时间。

图4是本发明实验中基于差分隐私的QoS预测与不同隐私下的原始方法之间服务的影响的比较示意图；图4(a)代表响应时间，图4(b)代表全部时间。

图5是本发明实验中基于差分隐私的QoS预测与不同隐私下的原始方法之间用户的影响的比较示意图；图5(a)代表响应时间，图5(b)代表全部时间。

图6是本发明实验中基于差分隐私的QoS预测与不同隐私下的原始方法之间不同密度下精度比较的结果示意图；图6(a)代表响应时间，图6(b)代表全部时间。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

一、系统模型和问题定义

1.差分隐私

区分差分隐私和传统密码系统是很有必要的。差分隐私给出了在非常严格的攻击模型下隐私泄漏的严格定量的定义，并且证明了：基于差分隐私的想法，用户可以最大限度地获得隐私保护并且确保数据的可用性。这种方法的最大优点是：尽管数据有失真，但扰动所需的噪声与数据大小无关。我们可以通过添加非常少量的噪声来实现高级别的隐私保护。尽管已经提出了许多隐私保护方法，如k-anonymity和l-diversity，但是差分隐私仍然以其坚实的数学基础被认为是最严格和健壮的隐私保护模型。

2.1差分隐私下的安全定义

差分隐私有两个前提。一个是，任何计算(例如SUM)的输出不应受到像插入或删除记录之类的操作的影响。另一个是，它给出了在非常严格的攻击模型下的隐私泄漏的严格定量的定义：攻击者不能区分具有大于ε的概率的记录，即使她知道除目标之外的整个数据集。公式定义如下：

定义1：(ε-差分隐私)如果对于所有数据集D1和D2在至多一个元素上不同并且所有S∈Range(K)，则随机函数K给出了ε-差分隐私，

D是行的数据库，D1是D2的子集，并且较大数据集D2恰好包含一个附加行。在任何情况下的概率空间Pr[.]在K的硬币翻转上。隐私参数ε>0是公开的，较小的ε产生更强的隐私保证。

由于差分隐私是在概率下定义的，实现这一点的任何方法必然是随机的。其中一些方法依赖于添加受控噪声，如拉普拉斯机制[C.Dwork,F.McSherry,K.Nissim and A.Smith.Calibrating noise to sensitivity in private data analysis.TCC 2006:265-284]。其他，如指数机制和后验抽样，从一个问题依赖的分布中抽样。我们将在下面部分详细说明结构。

2.2全局灵敏度的拉普拉斯机制

除了差分隐私的定义，Dwork[C.Dwork,F.McSherry,K.Nissim and A.Smith.Calibrating noise to sensitivity in private data analysis.TCC 2006:265-284]还声称，差分隐私可以通过添加服从拉普拉斯分布的随机噪声来实现。如果一个随机变量的概率密度函数为：

则该随机变量具有拉普拉斯(μ,b)分布。μ和b分别是位置参数和尺度参数。为了简单起见，我们设μ＝0，因此分布可以被认为是标准偏差为

的对称指数分布。

为了添加服从拉普拉斯分布的噪声，设b＝Δf/ε，并且将噪声的生成称为

laplace(Δf/ε)

这里，Δf是全局灵敏度，下面给出定义。ε是用于利用隐私的隐私参数。正如我们从等式中看出的，所添加的噪声与Δf成正比，并且与ε成反比。

定义2：(全局灵敏度)对f:D→R^d，f的L_k-sensitivity定义为：

对于所有D1，D2在至多一个元素上不同，||.||_k代表L_k范数。

3.1系统模型

[S.Zhang,J.Ford and F.Makedon.Deriving Private Information from Randomly Perturbed Ratings.SDM 2006:59-69]已经证明随机扰动是不安全的，因为它可以通过聚类技术推断，但是[J.Zhu,P.He,Z.Zheng and M.R.Lyu.A Privacy-Preserving QoS Prediction Framework for Web Service Recommendation.ICWS 2015:241-248]提出的系统模型是成熟的，适用于许多场景，因此，在这里适用这个模型。如图2所示，具体来说，每个用户(USER1，USER2…USERn等)在本地调用和收集QoS值，并伪装她观察到的QoS值，然后向服务器(SERVER)发送所有伪装的QoS值的拥有者。之后可以安全地上传QoS值，因为服务器不能导出任何具有伪装数据的个人敏感信息。然而，数据伪装方案应该仍然能够允许服务器从伪装的数据进行协作过滤(基于邻域的或基于模型的)。基于预测的QoS值(QoS Prediction)，服务器可以运行各种应用，例如基于QoS值的选择，组合和推荐。

数据伪装是隐私保护协同Web服务QoS预测的关键组成部分。数据伪装的基本思想是在这些属性中随机干扰原始数据：

a)随机性应该能够保证不能从扰动的数据中推导出敏感信息(例如每个单独的用户的QoS值)；

b)尽管个人的信息有限，但是当用户数量非常大时，仍然可以以较高的准确度来评估这些用户的聚合信息。

这种属性对于基于聚合信息的计算是很有用的。在不知道单个数据项的确切值的情况下，我们仍然可以得出有意义的结果，这是因为所需的聚合信息可以从扰动的数据中估计。

我们的方法的另一个重点是准确性和隐私之间的权衡。随机数越多，伪装数据和原始数据之间的差距越大，这就提供了更高级别的隐私保护。相反，随机数越少，数据特性越明显。针对基于上下文的计算，这表明结果更准确。处理好准确性和隐私性之间的平衡是一个开放性问题。在本发明中，隐私被参数化为ε并由每个用户给出。通过利用差分隐私，在观察到的QoS值中添加的随机数是相对于在特定隐私保持相当精确度的最小值。

二、本发明隐私保护协同Web服务质量预测的基于模型的协同过滤方法

如图1所示，本发明一种隐私保护协同Web服务质量预测的基于模型的协同过滤方法，包括如下步骤：

第二步，数据伪装：伪装服务质量值；

第三步，基于模型的协同过滤伪装后的服务质量值；

其中，第二步数据伪装采用如下方法：

R_ui＝r_ui+Laplace(Δf/ε)

Δf＝max(r_ui-r_uj)

而Laplace()的含义由以下公式给出：

如果一个随机变量x的概率密度函数为：

所述隐私参数ε由每个用户给出，通过利用差分隐私，在观察到的QoS值中添加的随机数是相对于在特定隐私保持相当精确度的最小值。

所述数据伪装通过随机干扰原始数据达到伪装数据的目的；随机性应该能够保证不能从扰动的数据中推导出敏感信息，包括每个单独的用户的服务质量值；当用户数量非常大时，仍然能以较高的准确度来评估这些用户的聚合信息。

基于数据伪装的差分隐私：

我们使用r_ui来表示由用户u针对web服务i收集的QoS值，r_u代表用户u评估的QoS值的整个向量，并且类似地，I_ui和I_u分别表示指示QoS值是否存在的二进制元素和向量。c_u＝|I_u|是由用户u评估的QoS值的数量。在我们的论述中，差分隐私是用于数据伪装的关键技术。拉普拉斯机制[C.Dwork,F.McSherry,K.Nissim and A.Smith.Calibrating noise to sensitivity in private data analysis.TCC 2006:265-284]通过增加拉普拉斯分布的噪声获得ε-差分隐私。

定义3：(拉普拉斯机制[C.Dwork.

privacy.Encyclopedia of Cryptography and Security.2011:338-340.])给出一个函数：g＝D→R^d，下面的计算维护ε-差分隐私

X＝g(x)+Laplace(Δf/ε)

其中ε是用于利用隐私的隐私参数，较小的ε提供更强的隐私保证。Δf是去全局灵敏度。

这里，我们用L₁-范数计算Δf：

为了简单起见，每个用户u的ε-差分隐私通过以下等式实现：

R_ui＝r_ui+Laplace(Δf/ε)

其中，Δf被定义为QoS值之间的最大差值，即：

Δf＝max(r_ui-r_uj)

伪装后，所有用户向服务器发送伪装的QoS值R_u，随机性保留原始数据r_ui的敏感信息。然而，我们仍然可以估计用户的聚合信息。因此，可以独立地直接访问R_ui来执行QoS预测。

其中，第三步基于模型的协同过滤。协同过滤(Collaborative filtering,CF)是大多数现代推荐系统采用的成熟技术。在协同Web服务的QoS预测中，需要用户将其所使用的服务的观测QoS值提供给推荐系统。基于所收集的QoS值，推荐系统可以通过一些优质算法来预测用户的所有可用服务的QoS。用户提供的QoS值越多，那么预测精度就越高。在本发明中，我们采用基于模型的协同过滤，具体方法如下：

矩阵因式分解(Matrix factorization，MF)[Z.Zheng,H.Ma,M.R.Lyu and I.King.QoS-aware web service recommendation by collaborative filtering.TSC 2011,4(2):140-152]是基于模型的协同过滤的典型解决方案，通过研究模型的潜在因素可以有效地提高预测的准确性。

假设稀疏矩阵Q_n*m代表n个用户和m个服务的观察到的QoS值，其中每个元素qi_j反映使用服务j的用户i的QoS值。利用输入矩阵Q_n*m，MF旨在将用户服务矩阵Q_n*m因式分解为较低维度d的两个矩阵：用户因子矩阵U_n*d和服务因子矩阵V_m*d。然后，Q_n*m中的空元素可以近似为U和V的乘积，即，未知QoS值q'_ij由

来估计。

MF经常被转换成优化问题，并且通过迭代获得局部最优解。MF的目标函数(或损失函数)定义为：

第一部分

是现有QoS矩阵和预测矩阵之间的平方差，但是仅用于已经由用户评估的元素。后一部分λ(||U_i||²+||V_j||²)是正则化项，添加以处理由输入稀疏导致的过度拟合。通过处理这种优化，我们最终得到用户因子矩阵U_n*d和服务因子矩阵V_m*d。

替代最小二乘法(ALS)和随机梯度下降(SGD)是解决此优化问题的两种常用方法。因为替代最小二乘法(ALS)更难，需要计算逆矩阵，所以我们采用随机梯度下降(SGD)来解决这个问题。SGD的迭代方程如下：

其中，γ是学习率，λ'是正则化系数。两个参数的选择将会显著影响结果。当γ的值较大时，结果会发散而不是收敛。尽管需要更长的训练时间，但为了获得收敛，我们根据经验将γ设置为0.001。同样，根据经验设λ'为0.01。

在第一次迭代中，U和V随机设置。但适当的设置可以使后面的有效计算更加迅速。因此，我们在所观察到的所有QoS值的平均值附近初始化U和V。当目标函数值小于某个阈值时，迭代将终止。

其中，第四步预测结果中，协同过滤得到某一服务的QoS值后，检索其他用户针对同一服务的QoS值，选择值最相近的用户，这表明两个用户有相似的兴趣爱好，基于此做相似推荐，采用后一用户的相关值作为前一用户的预测结果。

三、实验

在本节中，我们对真实数据集进行三个系列的实验，以评估我们的隐私保护QoS预测框架。第一系列实验研究当使用所提出的方法时隐私性和准确性之间的平衡。另外两个系列的实验研究了一些重要的数据特征，包括大小和密度对我们的方法的性能的影响。

表1、数据集统计

3.1实验配置

我们首先注意到[Z.Zheng,Y.Zhang and M.R.Lyu.Investigating QoS of Real-World Web Services.TSC 2014 7(1):32-39；Z.Zheng,Y.Zhang and M.R.Lyu.Distributed QoS Evaluation for Real-World Web Services.ICWS 2010:83-90]中引入了一个真正的Web服务QoS数据集，其中包括339个用户观察到的5,825个真实Web服务的QoS值。该数据集在研究QoS预测的准确性时非常有用。根据数据集，我们关注两个代表性的QoS属性：响应时间(RT)和全部时间(TP)。表1描述了数据集的统计，AVE和STD分别是平均值和标准差，密度是指观察数据与所有数据的比率。数据集的更多细节可以在[Z.Zheng,Y.Zhang and M.R.Lyu.Investigating QoS of Real-World Web Services.TSC 2014 7(1):32-39；Z.Zheng,Y.Zhang and M.R.Lyu.Distributed QoS Evaluation for Real-World Web Services.ICWS 2010:83-90]中找到。

我们使用交叉验证来训练和评估QoS预测。这里的数据集是比较完整的，但在实践中，由于时间和资源有限，用户通常只会调用少量服务，而且数据密度一般在10％以下。为了在我们的实验中模拟这种稀疏性，我们从完整数据集中随机删除条目，只保留较小密度的历史QoS值作为我们的训练集。将被删除的数据作为准确性评估的测试集。

然后，我们对训练集执行QoS预测算法，并对测试集进行预测。我们实现和评估了四种算法。在[Z.Zheng,H.Ma,M.R.Lyu and I.King.WSRec:A Collaborative Filtering Based Web Service Recommender System.ICWS 2009:437-444]中提出的UIPCC是基于邻域协同过滤的代表性实现，[Z.Zheng,H.Ma,M.R.Lyu and I.King.QoS-aware web service recommendation by collaborative filtering.TSC 2011,4(2):140-152]中引入的MF是基于模型的协同过滤的实现。LUIPCC和LYMPH是通过拉普拉斯机制实现的两种差异隐私整合方法。

为了量化QoS预测的准确性，我们采用均方根误差(RMSE)作为在相关工作中广泛使用的度量(例如[A.Berlioz,A.Friedman,M.A.Kaafar,R.Boreli and S.Berkovsky.Applying differential privacy to matrix factorization.RECSYS 2015:107-114；F.McSherry and I.Mironov.

private recommender systems:building privacy into the net.SIGKDD 2009:627-636])：

R由训练集中需要预测的所有值组成，而|R|是R中元素的个数。q'_ui是集合R的预测值，q_ui是测试集中的相应值。通常，RMSE越小，表示预测结果更好。

注意到，默认的参数设置如表2所示。我们根据经验来选择UIPCC和MF的参数。默认情况下，ε设为0.5，这样可以保护足够的隐私。

表2、参数设置

UIPCC	k＝20	λ＝0.1	-
MF	d＝20	γ＝0.001	λ'＝0.01
Laplace	ε＝0.5	-	-

3.2隐私与准确性

图3是我们基于差分隐私的QoS预测与不同隐私下的原始方法之间对应于RT和TP的比较。通过将差分隐私引入QoS预测，用户可以实现隐私保护。但对于采用我们方法的用户，他们确实需要考虑隐私与准确性之间的平衡。一方面，用户可以通过添加更多的拉普拉斯噪声来获得更高的隐私保护，这肯定会降低数据的有效性。另一比较极端的方面，用户可以获得100％的精度，而不需要增加任何拉普拉斯噪声。为了研究变化精度的性能，我们对测试集执行QoS预测算法，并对测试集进行预测。隐私参数ε以步长0.5在0.5到4这个范围递增。我们可以观察到，当ε增大时，LUIPCC和LMF都下降到RMSE。较大的ε意味着更宽松的隐私约束，数据的效用不受限制，因此用户可以获得更好的准确性。此外值得注意的是，当图3中ε变大(例如大于2.0时)，我们的隐私保护方法LUIPCC和LMF可以获得与UIPCC几乎相同甚至更高的准确度。特别是当ε大于4时，LMF的预测精度要好于UIPCC。此外，我们还发现MF优于UIPCC。这表明基于模型的方法在捕获QoS数据的潜在结构方面的优越性。需要我们注意的另一个事实是，虽然最近的一项工作[J.Zhu,P.He,Z.Zheng and M.R.Lyu.A Privacy-Preserving QoS Prediction Framework for Web Service Recommendation.ICWS 2015:241-248]声称比原始算法(UIPCC和MF)都有更好的性能，但是为防止信息泄露而添加的随机性不够大，随着聚类的应用[S.Zhang,J.Ford and F.Makedon.Deriving Private Information from Randomly Perturbed Ratings.SDM 2006:59-69]对手可以准确地推断用户的隐私数据。

总而言之，我们基于差分隐私的算法可以提供具有参数化隐私的隐私保护QoS预测。结果表明，我们伪装的用户数据与用户私有数据的宽松约束非常接近。

3.3影响数据大小

为了评估数据大小的影响，我们分别通过改变服务和用户的数量来设计实验。在图4中，步骤1000将用户数设定为339，服务次数从1000变为5000，其中服务从原始数据集中随机选择。实验的其他参数设置如表2所示。我们在图5中进行相同的实验设置，其中包含5825个服务。

很明显，服务数量和用户数量对算法的准确性都有积极的影响，这意味着给出的数据越多，预测就越好。换句话说，随着更多的数据，我们可以提供更好的准确性。

另一个发现是，尽管不同数据大小之间的精度差异很大，但原始算法和我们基于隐私的差分隐私算法的趋势是相同的，如UIPCC和LUIPCC的趋势或MF和LMF的趋势。这意味着数字隐藏所需的噪声与数据大小无关，因此用户可以通过添加非常少量的噪声来实现高水平的隐私保护。

3.4密度的影响

除了数据大小，表示为θ的密度也是算法性能的主要因素。图6给出了不同密度下精度比较的结果。虽然密度对原始算法的影响不明显，但它确实具有我们基于差分算法的显着影响。密度较高的数据集表现更好。这个结果意味着密度也是确定差分隐私方法性能的关键因素。更重要的是，当服务数量变大时，传统方法与我们基于隐私的差分方法之间的差距越来越小。更准确地说，在图6中当密度设定为5时，LUIPCC和UIPCC之间的间隙为5。然而，当密度增加到30时，LUIPCC和UIPCC之间的间隙减小到1。因此，建议用户使用更高密度的数据集使预测更接近原始结果。

五、结论

本发明是首次将差分隐私引入协作式Web服务QoS预测框架。差分隐私在非常严格的约束条件下给出隐私泄漏的严格定量的定义。基于差分隐私的思想，用户可以通过确保数据的可用性获得最大的隐私保护。实验结果表明，本发明系统和方法提供了安全和准确的协作Web服务的QoS预测。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

一种隐私保护协同Web服务质量预测的基于模型的协同过滤方法，其特征在于，包括如下步骤：

第一步，数据收集：每个用户在本地收集服务质量值，即QoS值；

第二步，数据伪装：伪装服务质量值；

第三步，基于模型的协同过滤伪装后的服务质量值；

第四步，预测结果：根据协同过滤后的服务质量值来预测结果。
如权利要求1所述的方法，其特征在于，第二步中，所述数据伪装采用如下方法：

使用r_ui来表示由用户u针对web服务i收集的服务质量值-QoS值，r_u代表用户u评估的QoS值的整个向量，并且类似地，I_ui和I_u分别表示指示QoS值是否存在的二进制元素和向量，R_u表示伪装后的数据；每个用户u的ε-差分隐私通过以下等式实现：

R_ui＝r_ui+Laplace(Δf/ε)

其中，ε是用于利用隐私的隐私参数，Δf被定义为QoS值之间的最大差值，即：

Δf＝max(r_ui-r_uj)

r_ui表示由用户u针对web服务i收集的服务质量值-QoS值，r_uj表示由用户u针对web服务j收集的服务质量值-QoS值；

而Laplace()的含义由以下公式给出：

如果一个随机变量x的概率密度函数为：

则该随机变量x具有拉普拉斯(μ,b)分布；μ和b分别是位置参数和尺度参数；设μ＝0，因此分布被认为是标准偏差为
的对称指数分布；为了添加服从拉普拉斯分布的噪声，设b＝Δf/ε，并且将噪声的生成称为laplace(Δf/ε)。
如权利要求1所述的方法，其特征在于，第二步中，所述数据伪装通过随机干扰原始数据达到伪装数据的目的；随机性应该能够保证不能从扰动的数据中推导出敏感信息，包括每个单独的用户的服务质量值；当用户数量非常大时，仍然能以较高的准确度来评估这些用户的聚合信息。
如权利要求2所述的方法，其特征在于，第二步中，所述隐私参数ε由每个用户给出，通过利用差分隐私，在观察到的QoS值中添加的随机数是相对于在特定隐私保持相当精确度的最小值。
如权利要求1所述的方法，其特征在于，第三步中，所述基于模型的协同过滤方法具体为：利用矩阵的因式分解MF，假设稀疏矩阵Q_n*m代表n个用户和m个服务的观察到的QoS值，其中每个元素q_ij反映使用服务j的用户i的QoS值，利用输入矩阵Q_n*m，MF旨在将用户服务矩阵Q_n*m因式分解为较低维度d的两个矩阵：用户因子矩阵U_n*d和服务因子矩阵V_m*d；然后，Q_n*m中的空元素可近似为U和V的乘积，即，未知QoS值q′_ij由
来估计；

MF经常被转换成优化问题，并且通过迭代获得局部最优解；MF的目标函数或损失函数定义为：

第一部分
是现有QoS矩阵和预测矩阵之间的平方差，但是仅用于已经由用户评估的元素；后一部分λ(||U_i||²+||V_j||²)是正则化项，添加以处理由输入稀疏导致的过度拟合；通过处理这种优化，最终得到用户因子矩阵U_n*d和服务因子矩阵V_m*d；采用随机梯度下降SGD来解决这个问题，SGD的迭代方程如下：

其中，γ是学习率，λ'是正则化系数；两个参数的选择将会显著影响结果，当γ的值较大时，结果会发散而不是收敛；尽管需要更长的训练时间，但为了获得收敛，根据经验将γ设置为0.001，同样，根据经验设λ'为0.01；当目标函数值小于某个阈值时，迭代将终止。
如权利要求1所述的方法，其特征在于，第四步中，所述预测结果具体为：协同过滤得到某一服务的QoS值后，检索其他用户针对同一服务的QoS值，选择值最相近的用户，这表明两个用户有相似的兴趣爱好，基于此做相似推荐，采用后一用户的相关值作为前一用户的预测结果。