WO2019056572A1 - 隐私保护协同Web服务质量预测的基于模型的协同过滤方法 - Google Patents

隐私保护协同Web服务质量预测的基于模型的协同过滤方法 Download PDF

Info

Publication number
WO2019056572A1
WO2019056572A1 PCT/CN2017/113485 CN2017113485W WO2019056572A1 WO 2019056572 A1 WO2019056572 A1 WO 2019056572A1 CN 2017113485 W CN2017113485 W CN 2017113485W WO 2019056572 A1 WO2019056572 A1 WO 2019056572A1
Authority
WO
WIPO (PCT)
Prior art keywords
service
qos
user
value
privacy
Prior art date
Application number
PCT/CN2017/113485
Other languages
English (en)
French (fr)
Inventor
毛睿
李荣华
陆敏华
王毅
罗秋明
商烁
刘刚
Original Assignee
深圳大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳大学 filed Critical 深圳大学
Publication of WO2019056572A1 publication Critical patent/WO2019056572A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6263Protecting personal data, e.g. for financial or medical purposes during internet communication, e.g. revealing personal data from cookies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5003Managing SLA; Interaction between SLA and QoS
    • H04L41/5009Determining service level performance parameters or violations of service level contracts, e.g. violations of agreed response time or mean time between failures [MTBF]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods

Definitions

  • the invention belongs to the field of computers, and particularly relates to a collaborative filtering method for privacy protection, in particular to a model-based collaborative filtering method for privacy protection collaborative Web service quality prediction.
  • QoS Quality of Service
  • Quality of Service is widely used to describe the non-functional nature of web services.
  • Quality of service based selection, composition and recommendation web service technologies have been extensively discussed in recent papers. The premise of these methods is that the exact QoS values of the Web service are always available. But getting accurate quality of service values is not an easy task.
  • QoS values published by service providers or third-party communities are inaccurate for service users because they are susceptible to an uncertain Internet environment.
  • the breakthrough point is the QoS prediction of personalized collaborative Web services.
  • the basic idea is that users with similar personalities tend to observe similar QoS values for the same service, so when it is necessary to predict the QoS values observed by a particular user for a web service, they can be replaced with values observed by users with similar personality. .
  • Homomorphic encryption which allows calculations on ciphertext, is a direct way to achieve privacy.
  • all of these operations require not only a large computational cost, but also continuous communication between the parties, and even the difficulty of applying some complex calculations to the encryption domain. Therefore, it is not feasible to deal with our problems by using homomorphic encryption.
  • the random perturbation privacy protection method is not safe, it inspires us to design a lightweight and provable random perturbation.
  • a privacy-protected QoS prediction model for users a differential privacy model that strongly protects private data and has provable privacy guarantees. This is the most advanced privacy-protected data state technology. Differential privacy has caused widespread concern because it aims to provide an efficient way to minimize the noise added to the original data.
  • McSheery and Mironov [Reference 1] apply differential privacy to collaborative filtering [RMBell and Y. Koren. Scalable collaborative filtering with jointly derived neighborhood interpolation weights. ICDM 2007: 43-52], which is a general solution for recommending systems. They divide the recommendation algorithm into two parts: the learning phase and the separate recommendation phase. The learning phase uses differential privacy guarantees to perform, and the separate recommendation phase uses the learning results for individual predictions. Unlike the work done by Reference 1 and Reference 2, the present invention focuses on privacy assurance of data distribution, rather than knowledge learning, and the present invention explores other methods, such as latent factor models, other than those being studied in Reference 1.
  • the technical problem to be solved by the present invention is to provide a model-based collaborative filtering method for privacy protection collaborative Web service quality prediction.
  • differential privacy is introduced into the collaborative Web services QoS prediction framework, and users can obtain maximum privacy protection by ensuring the availability of data.
  • Experimental results show that the method of the present invention provides secure and accurate QoS prediction for collaborative Web services, and the model-based collaborative filtering method is superior in capturing the potential structure of QoS data.
  • the present invention provides a model-based collaborative filtering method for privacy protection collaborative Web service quality prediction, which includes the following steps:
  • the first step, data collection each user collects the quality of service value, that is, the QoS value locally;
  • the second step data camouflage: camouflage the quality of service
  • the third step is based on model-based collaborative filtering of the quality of service value after masquerading
  • the fourth step, the prediction result predict the result according to the collaboratively filtered quality of service value.
  • the data camouflage adopts the following method:
  • the r ui is used to represent the quality of service value-QoS value collected by the user u for the web service i
  • r u represents the entire vector of the QoS value evaluated by the user u
  • I ui and I u respectively indicate whether the QoS value exists.
  • Binary elements and vectors, R u represents the masqueraded data; the ⁇ -differential privacy of each user u is achieved by the following equation:
  • is the privacy parameter used to utilize privacy
  • ⁇ f is defined as the maximum difference between QoS values, ie:
  • r ui represents the quality of service value-QoS value collected by the user u for the web service i
  • r uj represents the quality of service value-QoS value collected by the user u for the web service j;
  • the data masquerading achieves the purpose of masquerading data by randomly interfering with the original data; the randomness should ensure that sensitive information cannot be derived from the turbulent data, including each individual user.
  • the quality of service value when the number of users is very large, the aggregated information of these users can still be evaluated with high accuracy.
  • the privacy parameter ⁇ is given by each user, and by using differential privacy, the random number added in the observed QoS value is relatively accurate relative to the specific privacy.
  • the model-based collaborative filtering method is specifically: using factor factorization MF of the matrix, assuming that the sparse matrix Q n*m represents n users and m services are observed.
  • QoS value where each element qi j reflects the QoS value of user i using service j, using the input matrix Q n*m , MF is intended to factorize the user service matrix Q n*m into two lower dimension d Matrix: user factor matrix U n*d and service factor matrix V m*d ; then, the empty element in Q n*m can be approximated as the product of U and V, ie, the unknown QoS value q' ij is Estimate;
  • MF is often converted into an optimization problem, and a local optimal solution is obtained by iteration;
  • objective function or loss function of MF is defined as:
  • first part Is the squared difference between the existing QoS matrix and the prediction matrix, but only for elements that have been evaluated by the user; the latter part ⁇ (
  • the prediction result is specifically: after collaboratively filtering to obtain a QoS value of a certain service, and retrieving QoS values of other users for the same service, and selecting the user with the closest value, indicating The two users have similar interests and hobbies, based on this, similar recommendations are used, and the relevant value of the latter user is used as the prediction result of the previous user.
  • the privacy-protected collaborative Web service quality prediction model-based collaborative filtering method of the present invention proposes a privacy protection cooperative QoS prediction framework, which can protect the user's private data while retaining the generation.
  • the present invention introduces differential privacy as a pre-processing of QoS data prediction, which is a strict and provable privacy protection technology.
  • the present invention implements the proposed method based on a general method called Laplace mechanism, and conducts extensive experiments to study its performance on real data sets. The privacy accuracy of the experiment was evaluated under different conditions, and the results show that under some constraints, the present invention can achieve better performance than the baseline.
  • this invention Mainly have the following advantages:
  • the privacy protection algorithm can be parameterized and used to match the prediction to its non-private analog. Although there are some specialized analytical requirements, the method itself is relatively straightforward and readily available.
  • unconstrained access to the original data can be provided to the user in the event that its final output is substantially less than the entire data set that meets the privacy criteria.
  • the present invention tests the method with a real data set. The results show that the prediction accuracy of the camouflaged data of the present invention is very close to the user's private data.
  • FIG. 1 is a schematic flow chart of a model-based collaborative filtering method for privacy protection collaborative Web service quality prediction according to the present invention.
  • FIG. 2 is a schematic diagram of a privacy protection collaborative QoS prediction model.
  • FIG. 3 is a schematic diagram comparing the privacy and accuracy between the QoS prediction based on differential privacy and the original method under different privacy in the experiment of the present invention
  • FIG. 3(a) represents the response time
  • FIG. 3(b) represents the total time.
  • FIG. 4 is a schematic diagram showing the comparison of the impact of the service between the QoS prediction based on differential privacy and the original method under different privacy in the experiment of the present invention
  • FIG. 4(a) represents the response time
  • FIG. 4(b) represents the entire time.
  • FIG. 5 is a schematic diagram of comparison of user influences between differential privacy based QoS prediction and original methods under different privacy in the experiment of the present invention
  • FIG. 5(a) represents response time
  • FIG. 5(b) represents full time.
  • FIG. 6 is a schematic diagram showing the results of the accuracy comparison between the QoS prediction based on differential privacy and the original method under different privacy in the experiment of the present invention
  • FIG. 6(a) represents the response time
  • FIG. 6(b) represents the total time.
  • differential privacy gives a rigorous quantitative definition of privacy leakage under a very strict attack model and demonstrates that based on the idea of differential privacy, users can maximize privacy protection and ensure data availability.
  • the biggest advantage of this method is that although the data is distorted, the noise required for the disturbance is independent of the data size.
  • many privacy protection methods have been proposed, such as k-anonymity and l-diversity, differential privacy is still considered to be the most rigorous and robust privacy protection model based on its solid mathematical foundation.
  • Definition 1 ( ⁇ -differential privacy) If for all data sets D1 and D2 differs on at most one element and all S ⁇ Range(K), the random function K gives ⁇ -differential privacy,
  • D is the database of rows
  • D1 is a subset of D2
  • the larger dataset D2 happens to contain an additional row.
  • Pr[.] is on the coin flip of K.
  • the privacy parameter ⁇ >0 is public, and the smaller ⁇ produces a stronger privacy guarantee.
  • the random variable has a Laplacian ( ⁇ , b) distribution.
  • ⁇ and b are positional and scale parameters, respectively.
  • 0
  • Symmetrical exponential distribution
  • ⁇ f is the global sensitivity, and the definition is given below.
  • is a privacy parameter used to utilize privacy. As we can see from the equation, the added noise is proportional to ⁇ f and inversely proportional to ⁇ .
  • D2 differs on at most one element, and
  • k represents the L k norm.
  • each user (USER1, USER2...USERn, etc.) locally calls and collects the QoS value and masquerades the QoS value she observes, and then sends all masqueraded QoS values to the server (SERVER). Owner.
  • the QoS value can then be safely uploaded because Personal sensitive information with spoofed data cannot be exported for the server.
  • the data masquerading scheme should still be able to allow the server to collaborate on filtering from masqueraded data (near-domain or model-based).
  • the server can run various applications, such as selection, combining and recommendation based on QoS values.
  • Data masquerading is a key component of QoS prediction for privacy-protected collaborative Web services.
  • the basic idea of data masquerading is to randomly interfere with raw data in these attributes:
  • a) randomness should ensure that sensitive information (eg QoS values for each individual user) cannot be derived from the perturbed data;
  • This property is useful for calculations based on aggregated information. Without knowing the exact value of a single data item, we can still produce meaningful results because the aggregated information needed can be estimated from the perturbed data.
  • a model-based collaborative filtering method for privacy protection collaborative Web service quality prediction includes the following steps:
  • the first step, data collection each user collects the quality of service value, that is, the QoS value locally;
  • the second step data camouflage: camouflage the quality of service
  • the third step is based on model-based collaborative filtering of the quality of service value after masquerading
  • the fourth step, the prediction result predict the result according to the collaboratively filtered quality of service value.
  • the second step of data masquerading uses the following method:
  • the r ui is used to represent the quality of service value-QoS value collected by the user u for the web service i
  • r u represents the entire vector of the QoS value evaluated by the user u
  • I ui and I u respectively indicate whether the QoS value exists.
  • Binary elements and vectors, R u represents the masqueraded data; the ⁇ -differential privacy of each user u is achieved by the following equation:
  • is the privacy parameter used to utilize privacy
  • ⁇ f is defined as the maximum difference between QoS values, ie:
  • r ui represents the quality of service value-QoS value collected by the user u for the web service i
  • r uj represents the quality of service value-QoS value collected by the user u for the web service j;
  • the privacy parameter ⁇ is given by each user, and by using differential privacy, the random number added in the observed QoS value is a minimum that is relatively accurate relative to the particular privacy.
  • the data masquerading achieves the purpose of masquerading data by randomly interfering with the original data; the randomness should ensure that sensitive information cannot be derived from the turbulent data, including the quality of service value of each individual user; when the number of users is very large, The aggregated information of these users can be evaluated with high accuracy.
  • r ui to represent the QoS value collected by user u for web service i
  • r u represents the entire vector of QoS values evaluated by user u
  • I ui and I u respectively represent binary elements indicating whether QoS values exist.
  • vector. c u
  • Laplace mechanism [C. Dwork, F. McSherry, K. Nissim and A. Smith. Calibrating noise to sensitivity in private data analysis. TCC 2006: 265-284] obtains ⁇ - by increasing the noise of the Laplacian distribution. Differential privacy.
  • is the privacy parameter used to take advantage of privacy, and smaller ⁇ provides a stronger privacy guarantee.
  • ⁇ f is the de-global sensitivity.
  • ⁇ f is defined as the maximum difference between QoS values, ie:
  • URI prediction can be performed by directly accessing R ui independently.
  • the third step is model-based collaborative filtering.
  • Collaborative filtering (CF) is a mature technology adopted by most modern recommendation systems.
  • CF collaborative filtering
  • users need to use them.
  • the observed QoS value of the service is provided to the recommendation system.
  • the recommendation system can predict the QoS of all available services for the user through some high quality algorithms. The more QoS values provided by the user, the higher the prediction accuracy.
  • model-based collaborative filtering as follows:
  • Matrix factorization [Z. Zheng, H. Ma, MRLyu and I. King. QoS-aware web service recommendation by collaborative filtering. TSC 2011, 4(2): 140-152] is based on A typical solution for collaborative filtering of models can effectively improve the accuracy of predictions by studying the underlying factors of the model.
  • the sparse matrix Q n*m represents the observed QoS values of n users and m services, where each element qi j reflects the QoS value of the user i using the service j.
  • MF aims to factorize the user service matrix Q n*m into two matrices of the lower dimension d: the user factor matrix U n*d and the service factor matrix V m*d .
  • the empty element in Q n*m can be approximated as the product of U and V, ie, the unknown QoS value q' ij is To estimate.
  • MF is often converted into an optimization problem, and a local optimal solution is obtained by iteration.
  • the objective function (or loss function) of MF is defined as:
  • ALS alternative least squares
  • SGD stochastic gradient descent
  • is the learning rate and ⁇ ' is the regularization coefficient.
  • is the learning rate and ⁇ ' is the regularization coefficient.
  • the choice of two parameters will significantly affect the results. When the value of ⁇ is large, the result will diverge rather than converge. Although longer training time is required, in order to achieve convergence, we have empirically set ⁇ to 0.001. Similarly, according to experience, ⁇ ' is 0.01.
  • the fourth step prediction result after collaboratively filtering to obtain the QoS value of a certain service, the QoS values of other users for the same service are retrieved, and the users with the closest values are selected, which indicates that the two users have similar interests and hobbies. To make a similar recommendation, use the relevant value of the latter user as the prediction result of the previous user.
  • RMSE root mean square error
  • R consists of all the values that need to be predicted in the training set, and
  • q' ui is the predicted value of set R, and q ui is the corresponding value in the test set. In general, the smaller the RMSE, the better the prediction.
  • Figure 3 is a comparison of RT and TP between our QoS prediction based on differential privacy and the original method under different privacy.
  • users can implement privacy protection. But for users who adopt our approach, they do need to consider the balance between privacy and accuracy. On the one hand, users can get more privacy protection by adding more Laplacian noise, which will definitely reduce the validity of the data. On the other extreme, users get 100% accuracy without adding any Laplacian noise.
  • the privacy parameter ⁇ is incremented by a step size of 0.5 in the range of 0.5 to 4.
  • our differential privacy based algorithm can provide privacy-protected QoS prediction with parameterized privacy.
  • the results show that our disguised user data is very close to the loose constraints of the user's private data.
  • step 1000 sets the number of users to 339 and the number of services from 1000 to 5000, with the service randomly selected from the original data set.
  • the other parameter settings for the experiment are shown in Table 2.
  • the density expressed as ⁇ is also a major factor in the performance of the algorithm.
  • Figure 6 shows the results of the accuracy comparison at different densities.
  • density is also a key factor in determining the performance of the differential privacy method. More importantly, as the number of services grows, the gap between traditional methods and our privacy-based differential approach is getting smaller. More specifically, when the density is set to 5 in FIG. 6, the gap between LUIPCC and UIPCC is 5. However, When the density is increased to 30, the gap between LUIPCC and UIPCC is reduced to 1. Therefore, users are advised to use a higher density data set to bring the prediction closer to the original result.
  • the present invention is the first to introduce differential privacy into a collaborative Web services QoS prediction framework.
  • Differential privacy gives a strict quantitative definition of privacy leakage under very strict constraints.
  • Based on the idea of differential privacy users can get the most privacy protection by ensuring the availability of data.
  • Experimental results show that the system and method of the present invention provides secure and accurate QoS prediction for collaborative Web services.

Abstract

本发明公开了一种隐私保护协同Web服务质量预测的基于模型的协同过滤方法,包括如下步骤:第一步,数据收集:每个用户在本地收集服务质量值,即QoS值;第二步,数据伪装:伪装服务质量值;第三步,基于模型的协同过滤伪装后的服务质量值;第四步,预测结果:根据协同过滤后的服务质量值来预测结果。本发明首次将差分隐私引入协作式Web服务QoS预测框架,用户可以通过确保数据的可用性获得最大的隐私保护。实验结果表明,本发明方法提供了安全和准确的协作Web服务的QoS预测,且基于模型的协同过滤方法在捕获QoS数据的潜在结构方面具有优越性。

Description

隐私保护协同Web服务质量预测的基于模型的协同过滤方法 技术领域
本发明属于计算机领域,具体涉及一种隐私保护的协同过滤方法,尤其涉及一种隐私保护协同Web服务质量预测的基于模型的协同过滤方法。
背景技术
服务质量(QoS)广泛用于描述web服务的非功能特性。基于服务质量的选择、组合和推荐web服务技术在近几年的论文中广泛讨论。这些方法的前提是Web服务的精确QoS值总是可用的。但是获得精确的服务质量值不是一件容易的事。一方面,服务提供商或第三方社区公布的QoS值对服务用户不准确,因为它们容易受到不确定的互联网环境的影响。另一方面,由于时间、成本和其他资源的限制,服务用户直接评估所有可用服务的QoS是不切实际的。为了解决这个问题,突破点是个性化协作Web服务的QoS预测。基本思想是性格相似的用户倾向于针对相同的服务观测到相似的QoS值,因此当需要预测某特定用户针对某web服务观测到的QoS值时,可以用性格相似的用户观测到的值来替代。
通过这种方法,对于相同的服务不同的用户也通常被给予不同的QoS预测值,并且最终预测值实际上取决于其特定上下文。基于这些提供的QoS值,已经采用各种技术来改进质量,特别是预测的准确性。
协作式Web服务QoS预测已成为生成准确的个性化QoS的重要工具。虽然在提高协同QoS预测的准确性的研究方面已经取得了许多成就,但在这个过程中为保护用户隐私做的工作还不够。而事实上,观测到的QoS值可能是敏感信息,因此用户可能不愿意与他人共享它们。例如,由用户反馈的观察响应时间通常取决于她的位置,这表明可以从她提供的QoS信息推断出用户的位置。因此,一个问题是推荐系统是否可以在保护用户隐私的前提下,为用户进行准确的个性化QoS预测。
允许在密文上进行计算的同态加密是实现隐私的直接方式。然而,所有这些操作不仅需要很大的计算成本,而且需要各方之间的持续通信,甚至还没考虑将一些复杂的计算应用到加密域中的困难。因此,通过使用同态加密来处理我们的问题是不可行的。
另一种技术,即由Polat等人提出的随机扰动,他们声称采用这种技术仍然可以获得准确的推荐,而来自特定分布的随机性被添加到原始数据以防止信息泄露。然而,随机性α的范围是根据经验选择的,并且没有可证明的隐私保证。然而,对于扰动数据的应用程序进行聚类,对手可以准确地推断用户的私人数据,且精度高达70%。
因此,虽然随机扰动的隐私保护方法是不安全的,但它启发我们设计一个轻量级和可证明的随机扰动。具体来说,我们为用户开发了一个的隐私保护QoS预测模型,差分隐私模型,该模型能强有力的保护隐私数据并且有可证明的隐私保证,这是目前最先进的保护隐私数据状态技术。差分隐私已经引起了广泛的关注研究,因为它旨在提供有效的方法来最小化添加到原始数据的噪声。
尽管差分隐私的收到广泛关注,但QoS预测的应用仍然相当有限。参考文献1[F.McSherry and I.Mironov.
Figure PCTCN2017113485-appb-000001
private recommender systems:building privacy into the net.SIGKDD 2009:627-636]和参考文献2[A.Machanavajjhala,A.Korolova and A.D.Sarma.Personalized social recommendations:accurate or private.PVLDB 2011 4(7):440-450]是两个基于隐私的隐私保护推荐系统,这是我们的问题最相关的工作。Machanavajjhala等人[参考文献2]研究了个性化的社交推荐的隐私保护,其完全基于用户的社交图。利用差分隐私,可以有效地保护社交图中的敏感链路,这意味着攻击者不能通过被动地观察推荐结果来推断图中的单个链路的存在。但是,另一问题是只有在较弱 的隐私参数下才能实现优质推荐,或者只能为一小部分用户实现优质推荐。McSheery和Mironov[参考文献1]将差分隐私应用于协作过滤[R.M.Bell and Y.Koren.Scalable collaborative filtering with jointly derived neighborhood interpolation weights.ICDM 2007:43-52],这是推荐系统的通常解决方案。他们将推荐算法分为两部分:学习阶段和单独推荐阶段,学习阶段利用差分隐私保证执行,单独推荐阶段将学习结果用于单独预测。与参考文献1和参考文献2完成的工作不同,本发明关注数据发布的隐私保证,而不是知识学习,本发明探索了除了参考文献1中正在研究的其他方法,如潜在因素模型。
发明内容
本发明要解决的技术问题在于提供一种隐私保护协同Web服务质量预测的基于模型的协同过滤方法。首次将差分隐私引入协作式Web服务QoS预测框架,用户可以通过确保数据的可用性获得最大的隐私保护。实验结果表明,本发明方法提供了安全和准确的协作Web服务的QoS预测,且基于模型的协同过滤方法在捕获QoS数据的潜在结构方面具有优越性。
为解决上述技术问题,本发明提供一种隐私保护协同Web服务质量预测的基于模型的协同过滤方法,包括如下步骤:
第一步,数据收集:每个用户在本地收集服务质量值,即QoS值;
第二步,数据伪装:伪装服务质量值;
第三步,基于模型的协同过滤伪装后的服务质量值;
第四步,预测结果:根据协同过滤后的服务质量值来预测结果。
作为本发明优选的技术方案,其特征在于,第二步中,所述数据伪装采用如下方法:
使用rui来表示由用户u针对web服务i收集的服务质量值-QoS值,ru代表用户u评估的QoS值的整个向量,并且类似地,Iui和Iu分别表示指示QoS值是否存在的二进制元素和向量,Ru表示伪装后的数据;每个用户u的ε-差分隐私通过以下等式实现:
Rui=rui+Laplace(Δf/ε)
其中,ε是用于利用隐私的隐私参数,Δf被定义为QoS值之间的最大差值,即:
Δf=max(rui-ruj)
rui表示由用户u针对web服务i收集的服务质量值-QoS值,ruj表示由用户u针对web服务j收集的服务质量值-QoS值;
而Laplace()的含义由以下公式给出:
如果一个随机变量x的概率密度函数为:
Figure PCTCN2017113485-appb-000002
则该随机变量x具有拉普拉斯(μ,b)分布;μ和b分别是位置参数和尺度参数;设μ=0,因此分布被认为是标准偏差为
Figure PCTCN2017113485-appb-000003
的对称指数分布;为了添加服从拉普拉斯分布的噪声,设b=Δf/ε,并且将噪声的生成称为laplace(Δf/ε)。
作为本发明优选的技术方案,第二步中,所述数据伪装通过随机干扰原始数据达到伪装数据的目的;随机性应该能够保证不能从扰动的数据中推导出敏感信息,包括每个单独的用户的服务质量值;当用户数量非常大时,仍然能以较高的准确度来评估这些用户的聚合信息。
作为本发明优选的技术方案,第二步中,所述隐私参数ε由每个用户给出,通过利用差分隐私,在观察到的QoS值中添加的随机数是相对于在特定隐私保持相当精确度的最小值。
作为本发明优选的技术方案,第三步中,所述基于模型的协同过滤方法具体为:利用矩阵的因式分解MF,假设稀疏矩阵Qn*m代表n个用户和m个服务的观察到的QoS值,其中每个元素qij反映使用服务j的用户i的QoS值,利用输入矩阵Qn*m,MF旨在将用户服务矩阵Qn*m因式分解为较低维度d的两个矩阵:用户因子矩阵Un*d和服务因子矩阵Vm*d;然后,Qn*m中的空元素可近似为U和V的乘积,即,未知QoS值q'ij
Figure PCTCN2017113485-appb-000004
来估计;
MF经常被转换成优化问题,并且通过迭代获得局部最优解;MF的目标函数或损失函数定义为:
Figure PCTCN2017113485-appb-000005
第一部分
Figure PCTCN2017113485-appb-000006
是现有QoS矩阵和预测矩阵之间的平方差,但是仅用于已经由用户评估的元素;后一部分λ(||Ui||2+||Vj||2)是正则化项,添加以处理由输入稀疏导致的过度拟合;通过处理这种优化,最终得到用户因子矩阵Un*d和服务因子矩阵Vm*d;采用随机梯度下降SGD来解决这个问题,SGD的迭代方程如下:
Figure PCTCN2017113485-appb-000007
Figure PCTCN2017113485-appb-000008
其中,γ是学习率,λ'是正则化系数;两个参数的选择将会显著影响结果,当γ的值较大时,结果会发散而不是收敛;尽管需要更长的训练时间,但为了获得收敛,根据经验将γ设置为0.001,同样,根据经验设λ'为0.01;当目标函数值小于某个阈值时,迭代将终止。
作为本发明优选的技术方案,第四步中,所述预测结果具体为:协同过滤得到某一服务的QoS值后,检索其他用户针对同一服务的QoS值,选择值最相近的用户,这表明两个用户有相似的兴趣爱好,基于此做相似推荐,采用后一用户的相关值作为前一用户的预测结果。
与现有技术相比,本发明具有以下有益效果:本发明隐私保护协同Web服务质量预测的基于模型的协同过滤方法,提出一个隐私保护协作QoS预测框架,可以保护用户的私有数据,同时保留生成准确的QoS预测的能力。本发明引入差分隐私作为QoS数据预测的预处理,差分隐私是一种严格和可证明的隐私保护技术。本发明基于一种名为拉普拉斯机制的通用方法实现提出的方法,并进行广泛的实验以研究其在现实数据集上的性能。在不同的条件下评估实验的隐私精度,结果表明在一些约束下,本发明可以实现比基准线有更好的性能。本发明 主要有下列优点:
1、针对本发明提出的方法,隐私保护算法可以被参数化,并且被用来将预测与其非私人类似物匹配。虽然有一些专门的分析要求,但方法本身是相对直接和易于获得的。
2、通过将隐私保护集成到应用程序中,可以在其最终输出大大少于符合隐私标准的整个数据集的情况下,向用户提供对原始数据的不受约束的访问。
3、本发明用真实数据集测试了该方法。结果表明,本发明伪装的数据的预测准确性非常接近的用户的私人数据。
4、实验结果证明,本发明隐私保护协同Web服务质量预测的基于模型的协同过滤方法在捕获QoS数据的潜在结构方面具有优越性。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1是本发明隐私保护协同Web服务质量预测的基于模型的协同过滤方法的流程示意图。
图2是隐私保护协同QoS预测模型示意图。
图3是本发明实验中基于差分隐私的QoS预测与不同隐私下的原始方法之间隐私与准确性的比较示意图;图3(a)代表响应时间,图3(b)代表全部时间。
图4是本发明实验中基于差分隐私的QoS预测与不同隐私下的原始方法之间服务的影响的比较示意图;图4(a)代表响应时间,图4(b)代表全部时间。
图5是本发明实验中基于差分隐私的QoS预测与不同隐私下的原始方法之间用户的影响的比较示意图;图5(a)代表响应时间,图5(b)代表全部时间。
图6是本发明实验中基于差分隐私的QoS预测与不同隐私下的原始方法之间不同密度下精度比较的结果示意图;图6(a)代表响应时间,图6(b)代表全部时间。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
一、系统模型和问题定义
1.差分隐私
区分差分隐私和传统密码系统是很有必要的。差分隐私给出了在非常严格的攻击模型下隐私泄漏的严格定量的定义,并且证明了:基于差分隐私的想法,用户可以最大限度地获得隐私保护并且确保数据的可用性。这种方法的最大优点是:尽管数据有失真,但扰动所需的噪声与数据大小无关。我们可以通过添加非常少量的噪声来实现高级别的隐私保护。尽管已经提出了许多隐私保护方法,如k-anonymity和l-diversity,但是差分隐私仍然以其坚实的数学基础被认为是最严格和健壮的隐私保护模型。
2.1差分隐私下的安全定义
差分隐私有两个前提。一个是,任何计算(例如SUM)的输出不应受到像插入或删除记录之类的操作的影响。另一个是,它给出了在非常严格的攻击模型下的隐私泄漏的严格定量的定义:攻击者不能区分具有大于ε的概率的记录,即使她知道除目标之外的整个数据集。公式定义如下:
定义1:(ε-差分隐私)如果对于所有数据集D1和D2在至多一个元素上不同并且所有S∈Range(K),则随机函数K给出了ε-差分隐私,
Figure PCTCN2017113485-appb-000009
D是行的数据库,D1是D2的子集,并且较大数据集D2恰好包含一个附加行。在任何情况下的概率空间Pr[.]在K的硬币翻转上。隐私参数ε>0是公开的,较小的ε产生更强的隐私保证。
由于差分隐私是在概率下定义的,实现这一点的任何方法必然是随机的。其中一些方法依赖于添加受控噪声,如拉普拉斯机制[C.Dwork,F.McSherry,K.Nissim and A.Smith.Calibrating noise to sensitivity in private data analysis.TCC 2006:265-284]。其他,如指数机制和后验抽样,从一个问题依赖的分布中抽样。我们将在下面部分详细说明结构。
2.2全局灵敏度的拉普拉斯机制
除了差分隐私的定义,Dwork[C.Dwork,F.McSherry,K.Nissim and A.Smith.Calibrating noise to sensitivity in private data analysis.TCC 2006:265-284]还声称,差分隐私可以通过添加服从拉普拉斯分布的随机噪声来实现。如果一个随机变量的概率密度函数为:
Figure PCTCN2017113485-appb-000010
则该随机变量具有拉普拉斯(μ,b)分布。μ和b分别是位置参数和尺度参数。为了简单起见,我们设μ=0,因此分布可以被认为是标准偏差为
Figure PCTCN2017113485-appb-000011
的对称指数分布。
为了添加服从拉普拉斯分布的噪声,设b=Δf/ε,并且将噪声的生成称为
laplace(Δf/ε)
这里,Δf是全局灵敏度,下面给出定义。ε是用于利用隐私的隐私参数。正如我们从等式中看出的,所添加的噪声与Δf成正比,并且与ε成反比。
定义2:(全局灵敏度)对f:D→Rd,f的Lk-sensitivity定义为:
Figure PCTCN2017113485-appb-000012
对于所有D1,D2在至多一个元素上不同,||.||k代表Lk范数。
3.1系统模型
[S.Zhang,J.Ford and F.Makedon.Deriving Private Information from Randomly Perturbed Ratings.SDM 2006:59-69]已经证明随机扰动是不安全的,因为它可以通过聚类技术推断,但是[J.Zhu,P.He,Z.Zheng and M.R.Lyu.A Privacy-Preserving QoS Prediction Framework for Web Service Recommendation.ICWS 2015:241-248]提出的系统模型是成熟的,适用于许多场景,因此,在这里适用这个模型。如图2所示,具体来说,每个用户(USER1,USER2…USERn等)在本地调用和收集QoS值,并伪装她观察到的QoS值,然后向服务器(SERVER)发送所有伪装的QoS值的拥有者。之后可以安全地上传QoS值,因 为服务器不能导出任何具有伪装数据的个人敏感信息。然而,数据伪装方案应该仍然能够允许服务器从伪装的数据进行协作过滤(基于邻域的或基于模型的)。基于预测的QoS值(QoS Prediction),服务器可以运行各种应用,例如基于QoS值的选择,组合和推荐。
数据伪装是隐私保护协同Web服务QoS预测的关键组成部分。数据伪装的基本思想是在这些属性中随机干扰原始数据:
a)随机性应该能够保证不能从扰动的数据中推导出敏感信息(例如每个单独的用户的QoS值);
b)尽管个人的信息有限,但是当用户数量非常大时,仍然可以以较高的准确度来评估这些用户的聚合信息。
这种属性对于基于聚合信息的计算是很有用的。在不知道单个数据项的确切值的情况下,我们仍然可以得出有意义的结果,这是因为所需的聚合信息可以从扰动的数据中估计。
我们的方法的另一个重点是准确性和隐私之间的权衡。随机数越多,伪装数据和原始数据之间的差距越大,这就提供了更高级别的隐私保护。相反,随机数越少,数据特性越明显。针对基于上下文的计算,这表明结果更准确。处理好准确性和隐私性之间的平衡是一个开放性问题。在本发明中,隐私被参数化为ε并由每个用户给出。通过利用差分隐私,在观察到的QoS值中添加的随机数是相对于在特定隐私保持相当精确度的最小值。
二、本发明隐私保护协同Web服务质量预测的基于模型的协同过滤方法
如图1所示,本发明一种隐私保护协同Web服务质量预测的基于模型的协同过滤方法,包括如下步骤:
第一步,数据收集:每个用户在本地收集服务质量值,即QoS值;
第二步,数据伪装:伪装服务质量值;
第三步,基于模型的协同过滤伪装后的服务质量值;
第四步,预测结果:根据协同过滤后的服务质量值来预测结果。
其中,第二步数据伪装采用如下方法:
使用rui来表示由用户u针对web服务i收集的服务质量值-QoS值,ru代表用户u评估的QoS值的整个向量,并且类似地,Iui和Iu分别表示指示QoS值是否存在的二进制元素和向量,Ru表示伪装后的数据;每个用户u的ε-差分隐私通过以下等式实现:
Rui=rui+Laplace(Δf/ε)
其中,ε是用于利用隐私的隐私参数,Δf被定义为QoS值之间的最大差值,即:
Δf=max(rui-ruj)
rui表示由用户u针对web服务i收集的服务质量值-QoS值,ruj表示由用户u针对web服务j收集的服务质量值-QoS值;
而Laplace()的含义由以下公式给出:
如果一个随机变量x的概率密度函数为:
Figure PCTCN2017113485-appb-000013
则该随机变量x具有拉普拉斯(μ,b)分布;μ和b分别是位置参数和尺度参数;设μ=0, 因此分布被认为是标准偏差为
Figure PCTCN2017113485-appb-000014
的对称指数分布;为了添加服从拉普拉斯分布的噪声,设b=Δf/ε,并且将噪声的生成称为laplace(Δf/ε)。
所述隐私参数ε由每个用户给出,通过利用差分隐私,在观察到的QoS值中添加的随机数是相对于在特定隐私保持相当精确度的最小值。
所述数据伪装通过随机干扰原始数据达到伪装数据的目的;随机性应该能够保证不能从扰动的数据中推导出敏感信息,包括每个单独的用户的服务质量值;当用户数量非常大时,仍然能以较高的准确度来评估这些用户的聚合信息。
基于数据伪装的差分隐私:
我们使用rui来表示由用户u针对web服务i收集的QoS值,ru代表用户u评估的QoS值的整个向量,并且类似地,Iui和Iu分别表示指示QoS值是否存在的二进制元素和向量。cu=|Iu|是由用户u评估的QoS值的数量。在我们的论述中,差分隐私是用于数据伪装的关键技术。拉普拉斯机制[C.Dwork,F.McSherry,K.Nissim and A.Smith.Calibrating noise to sensitivity in private data analysis.TCC 2006:265-284]通过增加拉普拉斯分布的噪声获得ε-差分隐私。
定义3:(拉普拉斯机制[C.Dwork.
Figure PCTCN2017113485-appb-000015
privacy.Encyclopedia of Cryptography and Security.2011:338-340.])给出一个函数:g=D→Rd,下面的计算维护ε-差分隐私
X=g(x)+Laplace(Δf/ε)
其中ε是用于利用隐私的隐私参数,较小的ε提供更强的隐私保证。Δf是去全局灵敏度。
这里,我们用L1-范数计算Δf:
Figure PCTCN2017113485-appb-000016
为了简单起见,每个用户u的ε-差分隐私通过以下等式实现:
Rui=rui+Laplace(Δf/ε)
其中,Δf被定义为QoS值之间的最大差值,即:
Δf=max(rui-ruj)
伪装后,所有用户向服务器发送伪装的QoS值Ru,随机性保留原始数据rui的敏感信息。然而,我们仍然可以估计用户的聚合信息。因此,可以独立地直接访问Rui来执行QoS预测。
其中,第三步基于模型的协同过滤。协同过滤(Collaborative filtering,CF)是大多数现代推荐系统采用的成熟技术。在协同Web服务的QoS预测中,需要用户将其所使用的 服务的观测QoS值提供给推荐系统。基于所收集的QoS值,推荐系统可以通过一些优质算法来预测用户的所有可用服务的QoS。用户提供的QoS值越多,那么预测精度就越高。在本发明中,我们采用基于模型的协同过滤,具体方法如下:
矩阵因式分解(Matrix factorization,MF)[Z.Zheng,H.Ma,M.R.Lyu and I.King.QoS-aware web service recommendation by collaborative filtering.TSC 2011,4(2):140-152]是基于模型的协同过滤的典型解决方案,通过研究模型的潜在因素可以有效地提高预测的准确性。
假设稀疏矩阵Qn*m代表n个用户和m个服务的观察到的QoS值,其中每个元素qij反映使用服务j的用户i的QoS值。利用输入矩阵Qn*m,MF旨在将用户服务矩阵Qn*m因式分解为较低维度d的两个矩阵:用户因子矩阵Un*d和服务因子矩阵Vm*d。然后,Qn*m中的空元素可以近似为U和V的乘积,即,未知QoS值q'ij
Figure PCTCN2017113485-appb-000017
来估计。
MF经常被转换成优化问题,并且通过迭代获得局部最优解。MF的目标函数(或损失函数)定义为:
Figure PCTCN2017113485-appb-000018
第一部分
Figure PCTCN2017113485-appb-000019
是现有QoS矩阵和预测矩阵之间的平方差,但是仅用于已经由用户评估的元素。后一部分λ(||Ui||2+||Vj||2)是正则化项,添加以处理由输入稀疏导致的过度拟合。通过处理这种优化,我们最终得到用户因子矩阵Un*d和服务因子矩阵Vm*d
替代最小二乘法(ALS)和随机梯度下降(SGD)是解决此优化问题的两种常用方法。因为替代最小二乘法(ALS)更难,需要计算逆矩阵,所以我们采用随机梯度下降(SGD)来解决这个问题。SGD的迭代方程如下:
Figure PCTCN2017113485-appb-000020
Figure PCTCN2017113485-appb-000021
其中,γ是学习率,λ'是正则化系数。两个参数的选择将会显著影响结果。当γ的值较大时,结果会发散而不是收敛。尽管需要更长的训练时间,但为了获得收敛,我们根据经验将γ设置为0.001。同样,根据经验设λ'为0.01。
在第一次迭代中,U和V随机设置。但适当的设置可以使后面的有效计算更加迅速。因此,我们在所观察到的所有QoS值的平均值附近初始化U和V。当目标函数值小于某个阈值时,迭代将终止。
其中,第四步预测结果中,协同过滤得到某一服务的QoS值后,检索其他用户针对同一服务的QoS值,选择值最相近的用户,这表明两个用户有相似的兴趣爱好,基于此做相似推荐,采用后一用户的相关值作为前一用户的预测结果。
三、实验
在本节中,我们对真实数据集进行三个系列的实验,以评估我们的隐私保护QoS预测框架。第一系列实验研究当使用所提出的方法时隐私性和准确性之间的平衡。另外两个系列的实验研究了一些重要的数据特征,包括大小和密度对我们的方法的性能的影响。
表1、数据集统计
Figure PCTCN2017113485-appb-000022
3.1实验配置
我们首先注意到[Z.Zheng,Y.Zhang and M.R.Lyu.Investigating QoS of Real-World Web Services.TSC 2014 7(1):32-39;Z.Zheng,Y.Zhang and M.R.Lyu.Distributed QoS Evaluation for Real-World Web Services.ICWS 2010:83-90]中引入了一个真正的Web服务QoS数据集,其中包括339个用户观察到的5,825个真实Web服务的QoS值。该数据集在研究QoS预测的准确性时非常有用。根据数据集,我们关注两个代表性的QoS属性:响应时间(RT)和全部时间(TP)。表1描述了数据集的统计,AVE和STD分别是平均值和标准差,密度是指观察数据与所有数据的比率。数据集的更多细节可以在[Z.Zheng,Y.Zhang and M.R.Lyu.Investigating QoS of Real-World Web Services.TSC 2014 7(1):32-39;Z.Zheng,Y.Zhang and M.R.Lyu.Distributed QoS Evaluation for Real-World Web Services.ICWS 2010:83-90]中找到。
我们使用交叉验证来训练和评估QoS预测。这里的数据集是比较完整的,但在实践中,由于时间和资源有限,用户通常只会调用少量服务,而且数据密度一般在10%以下。为了在我们的实验中模拟这种稀疏性,我们从完整数据集中随机删除条目,只保留较小密度的历史QoS值作为我们的训练集。将被删除的数据作为准确性评估的测试集。
然后,我们对训练集执行QoS预测算法,并对测试集进行预测。我们实现和评估了四种算法。在[Z.Zheng,H.Ma,M.R.Lyu and I.King.WSRec:A Collaborative Filtering Based Web Service Recommender System.ICWS 2009:437-444]中提出的UIPCC是基于邻域协同过滤的代表性实现,[Z.Zheng,H.Ma,M.R.Lyu and I.King.QoS-aware web service recommendation by collaborative filtering.TSC 2011,4(2):140-152]中引入的MF是基于模型的协同过滤的实现。LUIPCC和LYMPH是通过拉普拉斯机制实现的两种差异隐私整合方法。
为了量化QoS预测的准确性,我们采用均方根误差(RMSE)作为在相关工作中广泛使用的度量(例如[A.Berlioz,A.Friedman,M.A.Kaafar,R.Boreli and S.Berkovsky.Applying differential privacy to matrix factorization.RECSYS 2015:107-114;F.McSherry and I.Mironov.
Figure PCTCN2017113485-appb-000023
private recommender systems:building privacy into the net.SIGKDD 2009:627-636]):
Figure PCTCN2017113485-appb-000024
R由训练集中需要预测的所有值组成,而|R|是R中元素的个数。q'ui是集合R的预测值,qui是测试集中的相应值。通常,RMSE越小,表示预测结果更好。
注意到,默认的参数设置如表2所示。我们根据经验来选择UIPCC和MF的参数。默认情况下,ε设为0.5,这样可以保护足够的隐私。
表2、参数设置
UIPCC k=20 λ=0.1 -
MF d=20 γ=0.001 λ'=0.01
Laplace ε=0.5 - -
3.2隐私与准确性
图3是我们基于差分隐私的QoS预测与不同隐私下的原始方法之间对应于RT和TP的比较。通过将差分隐私引入QoS预测,用户可以实现隐私保护。但对于采用我们方法的用户,他们确实需要考虑隐私与准确性之间的平衡。一方面,用户可以通过添加更多的拉普拉斯噪声来获得更高的隐私保护,这肯定会降低数据的有效性。另一比较极端的方面,用户可以获得100%的精度,而不需要增加任何拉普拉斯噪声。为了研究变化精度的性能,我们对测试集执行QoS预测算法,并对测试集进行预测。隐私参数ε以步长0.5在0.5到4这个范围递增。我们可以观察到,当ε增大时,LUIPCC和LMF都下降到RMSE。较大的ε意味着更宽松的隐私约束,数据的效用不受限制,因此用户可以获得更好的准确性。此外值得注意的是,当图3中ε变大(例如大于2.0时),我们的隐私保护方法LUIPCC和LMF可以获得与UIPCC几乎相同甚至更高的准确度。特别是当ε大于4时,LMF的预测精度要好于UIPCC。此外,我们还发现MF优于UIPCC。这表明基于模型的方法在捕获QoS数据的潜在结构方面的优越性。需要我们注意的另一个事实是,虽然最近的一项工作[J.Zhu,P.He,Z.Zheng and M.R.Lyu.A Privacy-Preserving QoS Prediction Framework for Web Service Recommendation.ICWS 2015:241-248]声称比原始算法(UIPCC和MF)都有更好的性能,但是为防止信息泄露而添加的随机性不够大,随着聚类的应用[S.Zhang,J.Ford and F.Makedon.Deriving Private Information from Randomly Perturbed Ratings.SDM 2006:59-69]对手可以准确地推断用户的隐私数据。
总而言之,我们基于差分隐私的算法可以提供具有参数化隐私的隐私保护QoS预测。结果表明,我们伪装的用户数据与用户私有数据的宽松约束非常接近。
3.3影响数据大小
为了评估数据大小的影响,我们分别通过改变服务和用户的数量来设计实验。在图4中,步骤1000将用户数设定为339,服务次数从1000变为5000,其中服务从原始数据集中随机选择。实验的其他参数设置如表2所示。我们在图5中进行相同的实验设置,其中包含5825个服务。
很明显,服务数量和用户数量对算法的准确性都有积极的影响,这意味着给出的数据越多,预测就越好。换句话说,随着更多的数据,我们可以提供更好的准确性。
另一个发现是,尽管不同数据大小之间的精度差异很大,但原始算法和我们基于隐私的差分隐私算法的趋势是相同的,如UIPCC和LUIPCC的趋势或MF和LMF的趋势。这意味着数字隐藏所需的噪声与数据大小无关,因此用户可以通过添加非常少量的噪声来实现高水平的隐私保护。
3.4密度的影响
除了数据大小,表示为θ的密度也是算法性能的主要因素。图6给出了不同密度下精度比较的结果。虽然密度对原始算法的影响不明显,但它确实具有我们基于差分算法的显着影响。密度较高的数据集表现更好。这个结果意味着密度也是确定差分隐私方法性能的关键因素。更重要的是,当服务数量变大时,传统方法与我们基于隐私的差分方法之间的差距越来越小。更准确地说,在图6中当密度设定为5时,LUIPCC和UIPCC之间的间隙为5。然而, 当密度增加到30时,LUIPCC和UIPCC之间的间隙减小到1。因此,建议用户使用更高密度的数据集使预测更接近原始结果。
五、结论
本发明是首次将差分隐私引入协作式Web服务QoS预测框架。差分隐私在非常严格的约束条件下给出隐私泄漏的严格定量的定义。基于差分隐私的思想,用户可以通过确保数据的可用性获得最大的隐私保护。实验结果表明,本发明系统和方法提供了安全和准确的协作Web服务的QoS预测。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

Claims (6)

  1. 一种隐私保护协同Web服务质量预测的基于模型的协同过滤方法,其特征在于,包括如下步骤:
    第一步,数据收集:每个用户在本地收集服务质量值,即QoS值;
    第二步,数据伪装:伪装服务质量值;
    第三步,基于模型的协同过滤伪装后的服务质量值;
    第四步,预测结果:根据协同过滤后的服务质量值来预测结果。
  2. 如权利要求1所述的方法,其特征在于,第二步中,所述数据伪装采用如下方法:
    使用rui来表示由用户u针对web服务i收集的服务质量值-QoS值,ru代表用户u评估的QoS值的整个向量,并且类似地,Iui和Iu分别表示指示QoS值是否存在的二进制元素和向量,Ru表示伪装后的数据;每个用户u的ε-差分隐私通过以下等式实现:
    Rui=rui+Laplace(Δf/ε)
    其中,ε是用于利用隐私的隐私参数,Δf被定义为QoS值之间的最大差值,即:
    Δf=max(rui-ruj)
    rui表示由用户u针对web服务i收集的服务质量值-QoS值,ruj表示由用户u针对web服务j收集的服务质量值-QoS值;
    而Laplace()的含义由以下公式给出:
    如果一个随机变量x的概率密度函数为:
    Figure PCTCN2017113485-appb-100001
    则该随机变量x具有拉普拉斯(μ,b)分布;μ和b分别是位置参数和尺度参数;设μ=0,因此分布被认为是标准偏差为
    Figure PCTCN2017113485-appb-100002
    的对称指数分布;为了添加服从拉普拉斯分布的噪声,设b=Δf/ε,并且将噪声的生成称为laplace(Δf/ε)。
  3. 如权利要求1所述的方法,其特征在于,第二步中,所述数据伪装通过随机干扰原始数据达到伪装数据的目的;随机性应该能够保证不能从扰动的数据中推导出敏感信息,包括每个单独的用户的服务质量值;当用户数量非常大时,仍然能以较高的准确度来评估这些用户的聚合信息。
  4. 如权利要求2所述的方法,其特征在于,第二步中,所述隐私参数ε由每个用户给出,通过利用差分隐私,在观察到的QoS值中添加的随机数是相对于在特定隐私保持相当精确度的最小值。
  5. 如权利要求1所述的方法,其特征在于,第三步中,所述基于模型的协同过滤方法具体为:利用矩阵的因式分解MF,假设稀疏矩阵Qn*m代表n个用户和m个服务的观察到的QoS值,其中每个元素qij反映使用服务j的用户i的QoS值,利用输入矩阵Qn*m,MF旨在 将用户服务矩阵Qn*m因式分解为较低维度d的两个矩阵:用户因子矩阵Un*d和服务因子矩阵Vm*d;然后,Qn*m中的空元素可近似为U和V的乘积,即,未知QoS值q′ij
    Figure PCTCN2017113485-appb-100003
    来估计;
    MF经常被转换成优化问题,并且通过迭代获得局部最优解;MF的目标函数或损失函数定义为:
    Figure PCTCN2017113485-appb-100004
    第一部分
    Figure PCTCN2017113485-appb-100005
    是现有QoS矩阵和预测矩阵之间的平方差,但是仅用于已经由用户评估的元素;后一部分λ(||Ui||2+||Vj||2)是正则化项,添加以处理由输入稀疏导致的过度拟合;通过处理这种优化,最终得到用户因子矩阵Un*d和服务因子矩阵Vm*d;采用随机梯度下降SGD来解决这个问题,SGD的迭代方程如下:
    Figure PCTCN2017113485-appb-100006
    Figure PCTCN2017113485-appb-100007
    其中,γ是学习率,λ'是正则化系数;两个参数的选择将会显著影响结果,当γ的值较大时,结果会发散而不是收敛;尽管需要更长的训练时间,但为了获得收敛,根据经验将γ设置为0.001,同样,根据经验设λ'为0.01;当目标函数值小于某个阈值时,迭代将终止。
  6. 如权利要求1所述的方法,其特征在于,第四步中,所述预测结果具体为:协同过滤得到某一服务的QoS值后,检索其他用户针对同一服务的QoS值,选择值最相近的用户,这表明两个用户有相似的兴趣爱好,基于此做相似推荐,采用后一用户的相关值作为前一用户的预测结果。
PCT/CN2017/113485 2017-09-25 2017-11-29 隐私保护协同Web服务质量预测的基于模型的协同过滤方法 WO2019056572A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710875789.9 2017-09-25
CN201710875789.9A CN107679415A (zh) 2017-09-25 2017-09-25 隐私保护协同Web服务质量预测的基于模型的协同过滤方法

Publications (1)

Publication Number Publication Date
WO2019056572A1 true WO2019056572A1 (zh) 2019-03-28

Family

ID=61137965

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2017/113485 WO2019056572A1 (zh) 2017-09-25 2017-11-29 隐私保护协同Web服务质量预测的基于模型的协同过滤方法

Country Status (2)

Country Link
CN (1) CN107679415A (zh)
WO (1) WO2019056572A1 (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783032A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 目标时空观测数据的获得方法、装置、设备及存储介质
CN112700067A (zh) * 2021-01-14 2021-04-23 安徽师范大学 不可靠移动边缘环境下服务质量的预测方法及系统
CN112926088A (zh) * 2021-03-18 2021-06-08 之江实验室 一种基于博弈论的联邦学习隐私策略选择方法
CN112948364A (zh) * 2021-02-08 2021-06-11 国网上海市电力公司 基于协同拟合的电能计量数据恢复方法
CN113420421A (zh) * 2021-05-28 2021-09-21 西安邮电大学 移动边缘计算中基于时序正则化张量分解的QoS预测方法
CN113486257A (zh) * 2021-07-01 2021-10-08 湖北工业大学 一种基于对抗矩阵分解的协调过滤卷积神经网络推荐系统及方法
CN113554201A (zh) * 2020-04-23 2021-10-26 山东大学 一种基于超网络和联邦学习的评分预测系统及预测方法
CN114398538A (zh) * 2021-12-08 2022-04-26 西安电子科技大学 隐私保护的跨域推荐方法、系统、存储介质、计算机设备
CN115190474A (zh) * 2022-07-21 2022-10-14 河海大学 一种面向海洋观监测传感网的隐私感知计算任务卸载方法
CN115277521A (zh) * 2022-06-06 2022-11-01 浙大城市学院 一种基于多视角的物联网服务QoS动态预测方法
CN115828312A (zh) * 2023-02-17 2023-03-21 浙江浙能数字科技有限公司 一种面向电力用户社交网络的隐私保护方法及系统
CN116299172A (zh) * 2023-02-27 2023-06-23 河南大学 一种基于隐私保护质量评估的精确定位方法及装置

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109257217B (zh) * 2018-09-19 2021-08-10 河海大学 移动边缘环境下基于隐私保护的Web服务QoS预测方法
CN109376549B (zh) * 2018-10-25 2021-09-10 广州电力交易中心有限责任公司 一种基于差分隐私保护的电力交易大数据发布方法
CN110232151B (zh) * 2019-05-22 2022-07-15 温州大学 一种混合概率分布检测的QoS预测模型的构建方法
CN112328912B (zh) * 2020-11-03 2023-05-19 重庆大学 一种利用地点感知的QoS预测方法
CN113364621B (zh) * 2021-06-04 2022-07-26 浙江大学 服务网络环境下的服务质量预测方法
CN114462707B (zh) * 2022-02-10 2023-11-17 湖南科技大学 一种基于特征深度融合的Web服务多维QoS联合预测方法
CN116595254B (zh) * 2023-05-18 2023-12-12 杭州绿城信息技术有限公司 一种智慧城市中数据隐私与服务的推荐方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014031551A1 (en) * 2012-08-20 2014-02-27 Thomson Licensing A method and apparatus for privacy-preserving data mapping under a privacy-accuracy trade-off
CN104050267A (zh) * 2014-06-23 2014-09-17 中国科学院软件研究所 基于关联规则满足用户隐私保护的个性化推荐方法及系统
CN107092837A (zh) * 2017-04-25 2017-08-25 华中科技大学 一种支持差分隐私的频繁项集挖掘方法和系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103684850B (zh) * 2013-11-25 2017-02-22 浙江大学 基于服务邻域的Web Service服务质量预测方法
CN103840985A (zh) * 2014-02-28 2014-06-04 浙江大学 基于用户邻域的Web Service服务质量预测方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014031551A1 (en) * 2012-08-20 2014-02-27 Thomson Licensing A method and apparatus for privacy-preserving data mapping under a privacy-accuracy trade-off
CN104050267A (zh) * 2014-06-23 2014-09-17 中国科学院软件研究所 基于关联规则满足用户隐私保护的个性化推荐方法及系统
CN107092837A (zh) * 2017-04-25 2017-08-25 华中科技大学 一种支持差分隐私的频繁项集挖掘方法和系统

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113554201A (zh) * 2020-04-23 2021-10-26 山东大学 一种基于超网络和联邦学习的评分预测系统及预测方法
CN111783032B (zh) * 2020-06-30 2023-07-04 北京百度网讯科技有限公司 目标时空观测数据的获得方法、装置、设备及存储介质
CN111783032A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 目标时空观测数据的获得方法、装置、设备及存储介质
CN112700067A (zh) * 2021-01-14 2021-04-23 安徽师范大学 不可靠移动边缘环境下服务质量的预测方法及系统
CN112948364A (zh) * 2021-02-08 2021-06-11 国网上海市电力公司 基于协同拟合的电能计量数据恢复方法
CN112926088B (zh) * 2021-03-18 2024-03-19 之江实验室 一种基于博弈论的联邦学习隐私策略选择方法
CN112926088A (zh) * 2021-03-18 2021-06-08 之江实验室 一种基于博弈论的联邦学习隐私策略选择方法
CN113420421A (zh) * 2021-05-28 2021-09-21 西安邮电大学 移动边缘计算中基于时序正则化张量分解的QoS预测方法
CN113420421B (zh) * 2021-05-28 2023-07-25 西安邮电大学 移动边缘计算中基于时序正则化张量分解的QoS预测方法
CN113486257A (zh) * 2021-07-01 2021-10-08 湖北工业大学 一种基于对抗矩阵分解的协调过滤卷积神经网络推荐系统及方法
CN113486257B (zh) * 2021-07-01 2023-07-11 湖北工业大学 一种基于对抗矩阵分解的协调过滤卷积神经网络推荐系统及方法
CN114398538A (zh) * 2021-12-08 2022-04-26 西安电子科技大学 隐私保护的跨域推荐方法、系统、存储介质、计算机设备
CN114398538B (zh) * 2021-12-08 2024-02-06 西安电子科技大学 隐私保护的跨域推荐方法、系统、存储介质、计算机设备
CN115277521B (zh) * 2022-06-06 2023-10-03 浙大城市学院 一种基于多视角的物联网服务QoS动态预测方法
CN115277521A (zh) * 2022-06-06 2022-11-01 浙大城市学院 一种基于多视角的物联网服务QoS动态预测方法
CN115190474A (zh) * 2022-07-21 2022-10-14 河海大学 一种面向海洋观监测传感网的隐私感知计算任务卸载方法
CN115190474B (zh) * 2022-07-21 2024-05-03 河海大学 一种面向海洋观监测传感网的隐私感知计算任务卸载方法
CN115828312A (zh) * 2023-02-17 2023-03-21 浙江浙能数字科技有限公司 一种面向电力用户社交网络的隐私保护方法及系统
CN116299172A (zh) * 2023-02-27 2023-06-23 河南大学 一种基于隐私保护质量评估的精确定位方法及装置
CN116299172B (zh) * 2023-02-27 2023-12-01 河南大学 一种基于隐私保护质量评估的精确定位方法及装置

Also Published As

Publication number Publication date
CN107679415A (zh) 2018-02-09

Similar Documents

Publication Publication Date Title
WO2019056572A1 (zh) 隐私保护协同Web服务质量预测的基于模型的协同过滤方法
WO2019056573A1 (zh) 隐私保护协同Web服务质量的差分隐私预测系统及方法
WO2019056571A1 (zh) 一种web服务质量预测方法
Lin et al. Using gans for sharing networked time series data: Challenges, initial promise, and open questions
Mireshghallah et al. Shredder: Learning noise distributions to protect inference privacy
Huang et al. Geographical POI recommendation for Internet of Things: A federated learning approach using matrix factorization
Lin et al. Towards private learning on decentralized graphs with local differential privacy
Yevseiev et al. Modeling the protection of personal data from trust and the amount of information on social networks
Singh et al. Differentially-private federated neural architecture search
JP2016511891A (ja) 大規模データへの妨害攻撃に対するプライバシー
Pramod Privacy-preserving techniques in recommender systems: state-of-the-art review and future research agenda
Yadav et al. Differential privacy approach to solve gradient leakage attack in a federated machine learning environment
Liu et al. Face image publication based on differential privacy
Chen et al. Privacy and fairness in Federated learning: on the perspective of Tradeoff
Pötter et al. Towards privacy-preserving framework for non-intrusive load monitoring
Zhang et al. Privacy for all: Demystify vulnerability disparity of differential privacy against membership inference attack
Jiang et al. Differential privacy in privacy-preserving big data and learning: Challenge and opportunity
Liu et al. Privacy-preserving collaborative web services QoS prediction via differential privacy
Alfalayleh et al. Quantifying privacy: A novel entropy-based measure of disclosure risk
Zhang et al. Individual attribute and cascade influence capability-based privacy protection method in social networks
Zhang et al. A Game-theoretic Framework for Federated Learning
Ali-Eldin et al. A privacy risk assessment model for open data
SM et al. Improving security with federated learning
Li et al. Differentially private network data release via stochastic kronecker graph
CN113095490A (zh) 一种基于差分隐私聚合的图神经网络构建方法及构建系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17926333

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 28.09.2020)

122 Ep: pct application non-entry in european phase

Ref document number: 17926333

Country of ref document: EP

Kind code of ref document: A1