WO2024079899A1 - 統計値推定装置、統計値推定システム、統計値推定方法、及びプログラム - Google Patents

統計値推定装置、統計値推定システム、統計値推定方法、及びプログラム Download PDF

Info

Publication number
WO2024079899A1
WO2024079899A1 PCT/JP2022/038445 JP2022038445W WO2024079899A1 WO 2024079899 A1 WO2024079899 A1 WO 2024079899A1 JP 2022038445 W JP2022038445 W JP 2022038445W WO 2024079899 A1 WO2024079899 A1 WO 2024079899A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
statistical value
value estimation
data processing
estimation device
Prior art date
Application number
PCT/JP2022/038445
Other languages
English (en)
French (fr)
Inventor
真昇 紀伊
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/038445 priority Critical patent/WO2024079899A1/ja
Publication of WO2024079899A1 publication Critical patent/WO2024079899A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules

Definitions

  • the present invention relates to technology for privacy protection.
  • a model using this mechanism involves an adversary, a server, and multiple users. The users send privacy-related information to the server, and the server attempts to calculate statistics about the users' privacy information. It is also assumed that the adversary has access to the server's data.
  • users must not trust the server.
  • the users' privacy is protected from adversaries in the sense of differential privacy, then the users' privacy information is said to be protected in the sense of local differential privacy.
  • estimating statistics about users' information in a state where the information is protected in the sense of local differential privacy is said to be estimated locally differentially private.
  • each user processes their own privacy information and sends it to the server in a state where it is protected in the sense of differential privacy.
  • the present invention has been made in consideration of the above points, and aims to provide a technique for estimating statistics privately using local differences with smaller error than conventional techniques.
  • a statistical value estimation device for estimating statistics of data in a manner protected in the sense of local differential privacy, the device comprising: an input unit that receives processed data, which is a value selected from a finite number of values for each of two or more pieces of data, from each of a plurality of data processing devices; and a calculation unit that estimates at least one statistical value for the data using the processed data received from the plurality of data processing devices.
  • the disclosed technology provides a technique for estimating statistics privately using local differences with smaller error than conventional techniques.
  • FIG. 1 is a configuration diagram of a system according to an embodiment of the present invention.
  • FIG. 1 illustrates a conventional protection mechanism.
  • FIG. 1 is a configuration diagram of a data processing device 100.
  • FIG. 2 is a configuration diagram of a statistical value estimation device 200. 4 is a flowchart for explaining the operation of the system.
  • FIG. 2 illustrates a protection mechanism of the technique according to the embodiment of the present invention.
  • FIG. 2 illustrates an example of a hardware configuration of the apparatus.
  • System configuration 1 is a diagram showing the configuration of a system according to the present embodiment. This system corresponds to an embodiment of a model using a mechanism of local differential privacy. This system may be called a statistical value estimation system.
  • the system has a configuration in which multiple data processing devices 100 and statistical value estimation devices 200 are connected via a network 300.
  • the data processing device 100 is a device of an individual user.
  • the data processing device 100 may be any type of device, such as a PC, a smartphone, or a tablet.
  • the data processing device 100 processes (converts) data (user's privacy information) and transmits the processed data to the statistical value estimation device 200.
  • the statistical value estimation device 200 is a server that treats each data processing device 100 as a client, and estimates statistical values for the data before processing based on the processed data collected from each data processing device 100. Note that the "data processing device 100" may also be referred to as the "user.”
  • the data processing device 100 of each user processes his/her own privacy information and transmits the processed data to the statistical value estimation device 200 in a state protected in the sense of differential privacy.
  • the privacy budget is a real number greater than or equal to 0 (usually positive).
  • the privacy budget is denoted by ⁇ , and the terms “ ⁇ -differential privacy” and “ ⁇ -local differential privacy” are often used.
  • the data held by each user has two or more numerical attributes.
  • the variance and covariance between numerical attributes, or the correlation coefficient that can be calculated from them, are useful statistics for understanding the statistical properties of the data, so in this embodiment, these statistics are estimated privately using local differences.
  • (Device configuration example) 3 shows an example of the configuration of the data processing device 100 according to the present embodiment.
  • the data processing device 100 has an input unit 110, a data processing unit 120, an output unit 130, and a data storage unit 140.
  • FIG. 4 shows an example of the configuration of a statistical value estimation device 200 in this embodiment.
  • the statistical value estimation device 200 has an input unit 210, a calculation unit 220, an output unit 230, and a data storage unit 240.
  • the statistical value estimation device 200 estimates the variance, covariance, and correlation coefficient for the unprocessed data locally and privately based on the processed data collected from the data processing device 100.
  • the protection mechanism (probabilistic algorithm for privacy protection) a protection mechanism that is a modification of the algorithm used to estimate the mean privately in a local differential manner, which is disclosed in the reference "Thong T. Nguyen et al. Collecting and Analyzing Data from Smart Device Users with Local Differential Privacy. June 16, 2016. doi: 10.48550/arXiv.1606.05053. arXiv: 1606.05053 [cs]. url: http://arxiv.org/abs/1606.05053 (visited on 07/22/2022)," is used.
  • the statistical value estimation device 200 accurately estimates the variance and covariance of the numerical data x i,j while protecting the data in the sense of local differential privacy. The steps in the flowchart of FIG. 5 will now be described in detail.
  • ⁇ S101 (Step 101)>
  • users decide a privacy budget (degree of protection) ⁇ to be used below.
  • is stored in the data storage unit 140 and used in the subsequent data processing.
  • the data processing unit 120 in the data processing device 100 for user i processes the numerical data x i,j using the protection mechanism P(x, ⁇ ) shown in Algorithm 2 in Fig. 6.
  • x i,j is a real number in the range of "-1 ⁇ x i,j ⁇ 1".
  • x i,j will be written as x.
  • the data processing unit 120 reads x and the privacy budget ⁇ from the data storage unit 140. These become inputs to Algorithm 2. Since line numbers such as "1" in FIG. 6 basically indicate processing steps, the following explanation will regard the line numbers in FIG. 6 as processing step numbers.
  • the process starts at S1, and at S2, the data processing unit 120 substitutes "(e ⁇ -1)/(e ⁇ +1)" for ⁇ .
  • the data processing unit 120 samples the random number b ⁇ 0,1 ⁇ with the following probability:
  • the output unit 130 in the data processing device 100 for each user i transmits the processed data ⁇ x i,j to the statistical value estimation device 200.
  • the input unit 210 of the statistical value estimation device 200 receives the data ⁇ x i,j for each user i and stores the received data ⁇ x i,j in the data storage unit 240.
  • the calculation unit 220 of the statistical value estimation device 200 reads out the processed data ⁇ x i,j of each attribute j of each user i from the data storage unit 240, and calculates the following for all attributes j ⁇ 1, ...., d ⁇ and all attribute pairs (j 1 , j 2 ) ⁇ 1, ...., d ⁇ 2. The calculation result is passed to the output unit 230.
  • the output unit 230 outputs ⁇ j as an estimate of the mean of attribute j;
  • Variance-covariance may be called “variance-covariance”, “covariance”, or “(co)variance”.
  • a matrix with "Number 4" as an element may be called a variance-covariance matrix or a covariance matrix. Note that it is also possible to estimate the variance-covariance but not the correlation coefficient.
  • the calculation unit 220 can calculate higher order moments from the output ⁇ x i,j of each user i.
  • the calculation unit 220 can calculate second or higher order (mixed) moments from the output ⁇ x i,j of each user i.
  • the mixed moment is the expected value of the product defined for r (>0) random variables X1 , ..., Xr and r non-negative integers k1 , ..., kr ( ⁇ 0), and can be expressed by the following formula. Note that k1, ..., kr in the following formula intends k1 , ..., kr .
  • E[X 1 k1 . . . X r kr ] E[X 1 k1 . . . X r kr ]
  • this is called a second or higher order mixed moment.
  • E[(X 1 - E[X 1 ])(X 2 - E[X 2 ])] E[X 1 X 2 ] - E[X 1 ] E[X 2 ]
  • the (co)variance can be calculated from the second order mixed moment E[X 1 X 2 ] and the first order moments E[X 1 ] and E[X 2 ].
  • the protection mechanism of Algorithm 2 used in data processing in S102 is the one proposed in the above-mentioned reference document, but is limited to the application to a single attribute.
  • the reference document states that the use of this protection mechanism can be used to obtain an estimate of the mean ⁇ ⁇ j , there is no disclosure in the reference document or other documents that it can be used in a technique for obtaining estimates of variance/covariance and correlation coefficients.
  • the data processing unit 120 converts (called scaling) the numerical data x i,j as follows, and puts the value in the range [-1, +1].
  • the data processing unit 120 executes Algorithm 2 using the converted numerical data x i,j . Furthermore, the output unit 130 of each user transmits a j and b j to the statistical value estimation device 200 together with the processed data - x i,j . Note that a j and b j may be held in advance by the statistical value estimation device 200, or may be transmitted to the statistical value estimation device 200 by the output unit 130 of one user.
  • the calculation unit 220 of the statistical value estimation device 200 calculates each estimated value using the following formula:
  • Equation 7 is the average value
  • Equation 8 is the variance/covariance.
  • the above-mentioned formula for the correlation coefficient can be used as is.
  • the data processing device 100 and the statistical value estimation device 200 described in this embodiment can both be realized, for example, by causing a computer to execute a program.
  • This computer may be a physical computer or a virtual machine on the cloud.
  • the data processing device 100 and the statistical value estimation device 200 will be collectively referred to as the "devices.”
  • the device can be realized by using hardware resources such as a CPU and memory built into a computer to execute a program corresponding to the processing performed by the device.
  • the program can be recorded on a computer-readable recording medium (such as a portable memory) and then stored or distributed.
  • the program can also be provided via a network such as the Internet or email.
  • FIG. 7 is a diagram showing an example of the hardware configuration of the computer.
  • the computer in FIG. 7 has a drive device 1000, an auxiliary storage device 1002, a memory device 1003, a CPU 1004, an interface device 1005, a display device 1006, an input device 1007, an output device 1008, etc., all of which are connected to each other via a bus B.
  • the computer may further include a GPU.
  • the program that realizes the processing on the computer is provided by a recording medium 1001, such as a CD-ROM or a memory card.
  • a recording medium 1001 storing the program is set in the drive device 1000, the program is installed from the recording medium 1001 via the drive device 1000 into the auxiliary storage device 1002.
  • the program does not necessarily have to be installed from the recording medium 1001, but may be downloaded from another computer via a network.
  • the auxiliary storage device 1002 stores the installed program as well as necessary files, data, etc.
  • the memory device 1003 When an instruction to start a program is received, the memory device 1003 reads out and stores the program from the auxiliary storage device 1002.
  • the CPU 1004 realizes the functions related to the device in accordance with the program stored in the memory device 1003.
  • the interface device 1005 is used as an interface for connecting to a network, etc.
  • the display device 1006 displays a GUI (Graphical User Interface) based on a program, etc.
  • the input device 1007 is composed of a keyboard and mouse, buttons, a touch panel, etc., and is used to input various operational instructions.
  • the output device 1008 outputs the results of calculations.
  • all data processing devices 100 can output a finite number of types of values, and each data processing device 100 selects one of the finite number of values for each of its numerical data and transmits it to the statistical value estimation device 200.
  • the statistical value estimation device 200 estimates the variance and covariance of the numerical data held by the user from the data collected from each data processing device 100 in a manner protected in the sense of local differential privacy.
  • the statistical value estimation device 200 also estimates statistical values such as correlation coefficients from the variance and covariance.
  • the technology according to this embodiment makes it possible to estimate local difference private statistics with less error than conventional techniques.
  • a statistical value estimation device for estimating statistics of data in a manner protected in the sense of local differential privacy, comprising: Memory, at least one processor coupled to the memory; Including, The processor, receiving processed data, which is a value selected from a finite number of values for each of two or more pieces of data, from each of the plurality of data processing devices; a statistical value estimation device that estimates at least one statistical value for the data using the processed data received from the plurality of data processing devices.
  • the statistical value estimation device wherein the at least one statistical value includes a variance and a covariance, or includes a variance, a covariance, and a correlation coefficient. (Additional Note 4) 4. The statistical value estimation device according to claim 1, wherein each of the plurality of data processing devices selects one value from two values as the processed data with a probability calculated from the data.
  • a statistical value estimation system for estimating statistics of data in a manner that is protected in the sense of local differential privacy, comprising: A plurality of data processing devices and a statistical value estimation device are provided, each of the plurality of data processing devices transmits processed data, the processed data being a value selected from a finite number of values, for each of two or more pieces of data; A statistical value estimation system, wherein the statistical value estimation device estimates at least one statistical value for the data using the processed data received from the plurality of data processing devices.
  • a statistical value estimation method executed by a statistical value estimation device for estimating statistics of data in a manner protected in the sense of local differential privacy comprising: receiving processed data, the processed data being a value selected from a finite number of values for each of two or more pieces of data, from each of the plurality of data processing devices; and estimating at least one statistical value for the data using the processed data received from the plurality of data processing devices.
  • a non-transitory storage medium storing a program for causing a computer to function as each unit in the statistical value estimation device according to any one of claims 1 to 4.
  • Data processing device 110 Input section 120
  • Data processing section 130 Output section 140
  • Data storage section 200 Statistical value estimation device 210
  • Input section 220 Calculation section 230
  • Output section 240 Data storage section 300
  • Network 1000 Drive device 1001 Recording medium 1002
  • Auxiliary storage device 1003
  • Memory device 1004
  • CPU 1005
  • Interface device 1006
  • Display device 1007

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Complex Calculations (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Storage Device Security (AREA)

Abstract

データの統計値を局所差分プライバシーの意味で保護された形で推定する統計値推定装置であって、複数のデータ加工装置のそれぞれから、2個以上のデータそれぞれについて、有限個の値から選択された値である加工済みデータを受信する入力部と、前記複数のデータ加工装置から受信した加工済みデータを用いて、前記データについての少なくとも1つの統計値を推定する計算部とを備える。

Description

統計値推定装置、統計値推定システム、統計値推定方法、及びプログラム
 本発明は、プライバシー保護のための技術に関連するものである。
 データ収集デバイスの多様化やAIの進化等に伴い、パーソナルデータの利活用が注目を集めている。一方、データ提供者となる個人のプライバシー意識が高まっており、プライバシー保護が重要な技術となっている。
 プライバシー保護と情報流通の両立を考えるときには、プライバシー情報を出すユーザは誰を信頼しないのか、どれほどの情報なら漏れても問題ないと考えるのか、などの状況設定(モデル、枠組み)を考える必要がある。
 そうした状況設定として局所差分プライバシー(local differential privacy)というメカニズムが存在する。このメカニズムを使用したモデルには、敵対者、サーバ、及び複数のユーザが登場する。ユーザたちはサーバにプライバシーに関わる情報を送信し、サーバはユーザのプライバシー情報についての統計値などを計算しようとする。また、敵対者はサーバのデータにアクセスできるとする。
 すなわち、ユーザたちはサーバを信頼してはならない。このとき、ユーザたちのプライバシーが差分プライバシーの意味で敵対者から保護されているならば、ユーザのプライバシー情報は局所差分プライバシーの意味で保護されている、という。また、ユーザの情報が局所差分プライバシーの意味で保護されている状態でユーザの情報についての統計値を推定することを、局所差分プライベートに推定する、と言う。局所差分プライバシーの状況設定では、各ユーザが自身のプライバシー情報を加工し、差分プライバシーの意味で保護された状態でサーバに送信する。
Cynthia Dwork et al. "Calibrating Noise to Sensitivity in Private Data Analysis". In: Theory of Cryptography. Ed. by Shai Halevi and Tal Rabin. Lecture Notes in Computer Science. Berlin, Heidelberg: Springer, 2006, pp. 265-284. isbn: 978-3-540-32732-5. doi: 10.1007/11681878_14.
 局所差分プライベートに統計値を推定する従来技術は存在するが、従来技術には推定値の誤差が大きいという課題があった。
 本発明は上記の点に鑑みてなされたものであり、従来技術よりも小さい誤差で局所差分プライベートに統計値を推定するための技術を提供することを目的とする。
 開示の技術によれば、データの統計値を局所差分プライバシーの意味で保護された形で推定する統計値推定装置であって、
 複数のデータ加工装置のそれぞれから、2個以上のデータそれぞれについて、有限個の値から選択された値である加工済みデータを受信する入力部と、
 前記複数のデータ加工装置から受信した加工済みデータを用いて、前記データについての少なくとも1つの統計値を推定する計算部と
 を備える統計値推定装置が提供される。
 開示の技術によれば、従来技術よりも小さい誤差で局所差分プライベートに統計値を推定するための技術が提供される。
本発明の実施の形態におけるシステムの構成図である。 従来の保護メカニズムを示す図である。 データ加工装置100の構成図である。 統計値推定装置200の構成図である。 システムの動作を説明するためのフローチャートである。 本発明の実施の形態に係る技術の保護メカニズムを示す図である。 装置のハードウェア構成例を示す図である。
 以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。
 (システム構成)
 図1は、本実施の形態におけるシステムの構成図である。本システムは、局所差分プライバシーのメカニズムを使用したモデルの実施形態に相当する。このシステムを統計値推定システムと呼んでもよい。
 図1に示すように、本システムは、複数のデータ加工装置100と、統計値推定装置200がネットワーク300で接続された構成を備える。
 データ加工装置100は、個々のユーザの装置である。データ加工装置100はどのような装置であってもよく、例えば、PC、スマートフォン、タブレット等である。データ加工装置100は、データ(ユーザのプライバシー情報)を加工(変換)し、加工したデータを統計値推定装置200に送信する。
 統計値推定装置200は、各データ加工装置100をクライアントとするサーバであり、各データ加工装置100から収集した、加工されたデータに基づき、加工前のデータについての統計値を推定する。なお、「データ加工装置100」を「ユーザ」と呼ぶ場合がある。
 (基本的な動作、及び課題について)
 まず、局所差分プライバシーの状況設定におけるシステムの基本的な動作と、従来技術の課題について説明する。局所差分プライバシーの状況設定では、各ユーザのデータ加工装置100が自身のプライバシー情報を加工し、差分プライバシーの意味で保護された状態で加工後のデータを統計値推定装置200に送信する。
 以下では差分プライバシーの意味で測った保護の度合いをプライバシーバジェットと呼ぶ。これは0以上(通常は正)の実数である。プライバシーバジェットをεで表し、「ε差分プライバシー」、「ε局所差分プライバシー」という表現がよく用いられる。
 本実施の形態では、各ユーザが持つデータが二個以上の数値属性を持つ場合を想定する。数値属性間の分散・共分散、あるいはそこから計算できる相関係数はデータの統計的性質を知る上で有用な統計値であることから、本実施の形態では、これら統計値を局所差分プライベートに推定する。
 しかし、従来技術では、当該統計値を局所差分プライベートに推定する方法として、単純で汎用的な手法を分散・共分散や相関係数に適用する方法しかない。この手法では、各ユーザが各数値属性値に対し、非特許文献1に開示されている、図2に示す保護メカニズム(Algorithm1)を適用し、その出力値をサーバへ送る。
 上記の従来技術に係る手法では、推定値の誤差が大きいという課題がある。以下、この課題を解決する装置構成と装置動作について詳細に説明する。
 (装置構成例)
 図3に、本実施の形態におけるデータ加工装置100の構成例を示す。図3に示すように、データ加工装置100は、入力部110、データ加工部120、出力部130、データ格納部140を有する。
 図4に、本実施の形態における統計値推定装置200の構成例を示す。図4に示すように、統計値推定装置200は、入力部210、計算部220、出力部230、データ格納部240を有する。
 (動作例)
 以下、上記の構成を備える本実施の形態に係るシステム(データ加工装置100と統計値推定装置200)の動作例を説明する。
 本実施の形態では、統計値推定装置200が、データ加工装置100から収集した、加工後のデータに基づいて、加工前のデータに対して、局所差分プライベートに分散・共分散、及び、相関係数を推定する。
 本実施の形態では、保護メカニズム(プライバシー保護のための確率的アルゴリズム)として、参考文献「Thong T. Nguyen et al. Collecting and Analyzing Data from Smart Device Users with Local Differential Privacy. June 16, 2016. doi: 10.48550/arXiv.1606.05053. arXiv: 1606.05053 [cs]. url:http://arxiv.org/abs/1606.05053 (visited on 07/22/2022).」に開示されている、局所差分プライベートに平均を推定するために使われるアルゴリズムを改変した保護メカニズムを使用する。
 以下、図5のフローチャートの手順に沿って、システムの動作例を説明する。ここでは、ユーザi(=1,…,n)はd個の数値データxi,j(j=1,…,d)を持つとする。このことを「ユーザiの属性jの値はxi,jである」と言う。より具体的には、ユーザi(=1,…,n)のデータ加工装置100のデータ格納部140にd個の数値データxi,j(j=1,…,d)が格納されているものとする。
 本実施の形態では数値データxi,jを局所差分プライバシーの意味で保護しながら、統計値推定装置200が、これらデータの分散・共分散などを精度良く推定する。以下、図5のフローチャートの手順を詳細に説明する。
 <S101(ステップ101>
 S101において、ユーザたちは以下で利用するプライバシーバジェット(保護の度合い)εを決める。各ユーザは、自身のデータ加工装置100の入力部110からεを入力する。εはデータ格納部140に格納され、以降のデータ加工処理に使用される。
 <S102>
 S102において、ユーザi(=1,...,n)のデータ加工装置100におけるデータ加工部120は、図6のAlgorithm2に示されている保護メカニズムP(x,ε)で数値データxi,jを加工する。加工後の数値データをi,j=P(xi,j,ε)とする。なお、本明細書のテキストにおいては、記載の便宜上、加工後のデータを示す記号である、文字の上に記載するバー"‐"を、文字の左上に記載している。推定値を示すハット"^"についても同様である。
 図6のAlgorithm2に従ったデータ加工部120の動作について説明する。ここでは、xi,jを「-1≦xi,j≦1」の範囲の実数とする。また、アルゴリズムの説明において、xi,jをxと記載する。
 まず、データ加工部120が、データ格納部140から、xとプライバシーバジェットεを読み出す。これらはAlgorithm2への入力となる。図6の「1」などのライン番号は、基本的に処理のステップを表すことから、以下では、図6のライン番号を処理のステップ番号と見なして説明を行う。
 S1で処理を開始し、S2において、データ加工部120は、「(eε‐1)/(eε+1)」をλに代入する。
 S3において、データ加工部120は、乱数b∈{0,1}を下記の確率でサンプルする。
 Pr[b=1]=(1+λx)/2
 すなわち、S3では、データ加工部120は、「(1+λx)/2」の確率で1をサンプルし、「1‐(1+λx)/2」の確率で0をサンプルする。
 S4~S8において、データ加工部120は、b=1であれば1/λをxに代入し、bが1でなければ(bが0であれば)、‐1/λをxに代入する。
 データ加工部120は、各xについてS2~S8の処理を行って、各xについての加工されたデータxを得る。つまり、各ユーザiのデータ加工部120は、j=1,…,dのそれぞれのjのxi,jに対してS2~S8の処理を行ってi,jを得る。
 <S103>
 S103において、各ユーザiのデータ加工装置100における出力部130が、加工後のデータi,jを統計値推定装置200に送信する。統計値推定装置200の入力部210は、各ユーザiのデータi,jを受信し、受信したデータi,jをデータ格納部240に格納する。
 <S104>
 S105において、統計値推定装置200の計算部220は、データ格納部240から、各ユーザiの各属性jの加工後のデータi,jを読み出し、全ての属性j∈{1,....,d}と、全ての属性の組(j,j)∈{1,....,d}について以下を計算する。計算結果は出力部230に渡される。
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000003
 <S105>
 S105において、出力部230は、^μを属性jの平均の推定値として出力し、
Figure JPOXMLDOC01-appb-M000004
を属性の組(j,j)の分散・共分散の推定値として出力し、
Figure JPOXMLDOC01-appb-M000005
を属性の組(j,j)の相関係数の推定値として出力する。出力された各推定値は利用者に公開される。「分散・共分散」を「分散共分散」あるいは「共分散」あるいは「(共)分散」と呼んでもよい。また、「数4」を要素とする行列を分散共分散行列あるいは共分散行列と呼んでもよい。なお、分散・共分散を推定して、相関係数を推定しないこととしてもよい。
 同様に、計算部220は、各ユーザiの出力i,jからより高次のモーメント(積率)を計算することができる。例えば、計算部220は、各ユーザiの出力i,jから、2次以上の(混合)モーメント(mixed moment)を計算することができる。
 混合モーメントとは、r(>0)個の確率変数X,....,Xと、r個の非負整数k,....,k(≧0)について定義される積の期待値のことであり、下記の式で表すことができる。なお、下記の式のk1,....,krはk,....,kを意図している。
   E[X k1・・・X kr
 特に、k+・・・+k≧2のとき、これを2次以上の混合モーメントという。例えば、E[(X-E[X])(X-E[X])]=E[X]-E[X]E[X]なので、(共)分散は2次の混合モーメントE[X]と1次のモーメントE[X],E[X]から計算することができる。
 なお、S102におけるデータ加工で使用するAlgorithm2の保護メカニズムは、上述の参考文献で提案されているものを単一属性に適用する場合に限定したものである。この保護メカニズムを用いると平均の推定値^μが得られることは参考文献で述べられているが、分散・共分散と相関係数の推定値を求める技術に使用できることは参考文献にも他の文献にも全く開示されていない。
 (変形例)
 上述したAlgorithm2の入力は実区間[‐1,+1]の値に制限されている。これまでに説明した処理に下記のような処理を加えることで、[‐1,+1]に収まらない数値データに本技術を適用することが可能である。
 各ユーザにおけるデータ加工の段階において、まず、ユーザたちが属性ごとに実定数a,b(j=1,...,d)を定め、各自のデータ加工装置100に入力し、データ格納部140に格納する。
 データ加工部120は、数値データxi,jを、下記のように変換(スケーリングと呼ばれる)し、値を[‐1,+1]に収める。
Figure JPOXMLDOC01-appb-M000006
 データ加工部120は、変換後の数値データxi,jにより、Algorithm2を実行する。また、各ユーザの出力部130は、加工後のデータi,jとともに、a,bを統計値推定装置200に送信する。なお、a,bについては、事前に統計値推定装置200が保持しておいてもよいし、ある一人のユーザの出力部130が統計値推定装置200に送信してもよい。
 統計値推定装置200の計算部220は、各推定値を下記の式で計算する。
Figure JPOXMLDOC01-appb-M000007
Figure JPOXMLDOC01-appb-M000008
 「数7」は平均値であり、「数8」は分散・共分散である。相関係数については、前述した相関係数の式をそのまま使用することができる。
 (ハードウェア構成例)
 本実施の形態で説明したデータ加工装置100及び統計値推定装置200はいずれも、例えば、コンピュータにプログラムを実行させることにより実現できる。このコンピュータは、物理的なコンピュータであってもよいし、クラウド上の仮想マシンであってもよい。以下、データ加工装置100及び統計値推定装置200を総称して「装置」と呼ぶ。
 すなわち、当該装置は、コンピュータに内蔵されるCPUやメモリ等のハードウェア資源を用いて、当該装置で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。
 図7は、上記コンピュータのハードウェア構成例を示す図である。図7のコンピュータは、それぞれバスBで相互に接続されているドライブ装置1000、補助記憶装置1002、メモリ装置1003、CPU1004、インタフェース装置1005、表示装置1006、入力装置1007、出力装置1008等を有する。なお、当該コンピュータは、更にGPUを備えてもよい。
 当該コンピュータでの処理を実現するプログラムは、例えば、CD-ROM又はメモリカード等の記録媒体1001によって提供される。プログラムを記憶した記録媒体1001がドライブ装置1000にセットされると、プログラムが記録媒体1001からドライブ装置1000を介して補助記憶装置1002にインストールされる。但し、プログラムのインストールは必ずしも記録媒体1001より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置1002は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
 メモリ装置1003は、プログラムの起動指示があった場合に、補助記憶装置1002からプログラムを読み出して格納する。CPU1004は、メモリ装置1003に格納されたプログラムに従って、当該装置に係る機能を実現する。インタフェース装置1005は、ネットワーク等に接続するためのインタフェースとして用いられる。表示装置1006はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置1007はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置1008は演算結果を出力する。
 (実施の形態のまとめ、効果等)
 以上説明したとおり、本実施の形態では、全データ加工装置100が出力しうる値の種類が有限個であり、各データ加工装置100は、それが持つ数値データそれぞれについて、有限個の値の内一つを選び統計値推定装置200に送信する。統計値推定装置200は、各データ加工装置100から収集したデータから、ユーザが持つ数値データの分散・共分散を局所差分プライバシーの意味で保護された形で推定する。また、統計値推定装置200は、上記分散・共分散から相関係数等の統計値を推定する。
 本実施の形態に係る技術によれば、従来技術よりも少ない誤差で局所差分プライベートに統計値を推定することが可能となる。
 本実施の形態に係る技術についての実験を行った結果、(0<)ε≦3.7程度の場合には、本技術中の保護メカニズムP(x,ε)として、従来の保護メカニズムAlgorithm1を利用する手法よりも、推定値の誤差が小さいことがわかった。
 以上の実施形態に関し、更に以下の付記を開示する。
 <付記>
(付記項1)
 データの統計値を局所差分プライバシーの意味で保護された形で推定する統計値推定装置であって、
 メモリと、
 前記メモリに接続された少なくとも1つのプロセッサと、
 を含み、
 前記プロセッサは、
 複数のデータ加工装置のそれぞれから、2個以上のデータそれぞれについて、有限個の値から選択された値である加工済みデータを受信し、
 前記複数のデータ加工装置から受信した加工済みデータを用いて、前記データについての少なくとも1つの統計値を推定する
 統計値推定装置。
(付記項2)
 前記少なくとも1つの統計値は、2次以上の混合モーメントを用いて定義される統計量を含む
 付記項1に記載の統計値推定装置。
(付記項3)
 前記少なくとも1つの統計値は、分散・共分散を含む、又は、分散・共分散と相関係数を含む
 付記項1又は2に記載の統計値推定装置。
(付記項4)
 前記複数のデータ加工装置のそれぞれは、前記データから計算される確率で、2つの値から1つの値を前記加工済みデータとして選択する
 付記項1ないし3のうちいずれか1項に記載の統計値推定装置。
(付記項5)
 データの統計値を局所差分プライバシーの意味で保護された形で推定する統計値推定システムであって、
 複数のデータ加工装置と、統計値推定装置とを備え、
 前記複数のデータ加工装置のそれぞれは、2個以上のデータそれぞれについて、有限個の値から選択された値である加工済みデータを送信し、
 前記統計値推定装置は、前記複数のデータ加工装置から受信した加工済みデータを用いて、前記データについての少なくとも1つの統計値を推定する
 統計値推定システム。
(付記項6)
 データの統計値を局所差分プライバシーの意味で保護された形で推定する統計値推定装置が実行する統計値推定方法であって、
 複数のデータ加工装置のそれぞれから、2個以上のデータそれぞれについて、有限個の値から選択された値である加工済みデータを受信するステップと、
 前記複数のデータ加工装置から受信した加工済みデータを用いて、前記データについての少なくとも1つの統計値を推定するステップと
 を備える統計値推定方法。
(付記項7)
 コンピュータを、付記項1ないし4のうちいずれか1項に記載の統計値推定装置における各部として機能させるためのプログラムを記憶した非一時的記憶媒体。
 以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
100 データ加工装置
110 入力部
120 データ加工部
130 出力部
140 データ格納部
200 統計値推定装置
210 入力部
220 計算部
230 出力部
240 データ格納部
300 ネットワーク
1000 ドライブ装置
1001 記録媒体
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インタフェース装置
1006 表示装置
1007 入力装置
1008 出力装置

Claims (7)

  1.  データの統計値を局所差分プライバシーの意味で保護された形で推定する統計値推定装置であって、
     複数のデータ加工装置のそれぞれから、2個以上のデータそれぞれについて、有限個の値から選択された値である加工済みデータを受信する入力部と、
     前記複数のデータ加工装置から受信した加工済みデータを用いて、前記データについての少なくとも1つの統計値を推定する計算部と
     を備える統計値推定装置。
  2.  前記少なくとも1つの統計値は、2次以上の混合モーメントを用いて定義される統計量を含む
     請求項1に記載の統計値推定装置。
  3.  前記少なくとも1つの統計値は、分散・共分散を含む、又は、分散・共分散と相関係数を含む
     請求項1に記載の統計値推定装置。
  4.  前記複数のデータ加工装置のそれぞれは、前記データから計算される確率で、2つの値から1つの値を前記加工済みデータとして選択する
     請求項1に記載の統計値推定装置。
  5.  データの統計値を局所差分プライバシーの意味で保護された形で推定する統計値推定システムであって、
     複数のデータ加工装置と、統計値推定装置とを備え、
     前記複数のデータ加工装置のそれぞれは、2個以上のデータそれぞれについて、有限個の値から選択された値である加工済みデータを送信し、
     前記統計値推定装置は、前記複数のデータ加工装置から受信した加工済みデータを用いて、前記データについての少なくとも1つの統計値を推定する
     統計値推定システム。
  6.  データの統計値を局所差分プライバシーの意味で保護された形で推定する統計値推定装置が実行する統計値推定方法であって、
     複数のデータ加工装置のそれぞれから、2個以上のデータそれぞれについて、有限個の値から選択された値である加工済みデータを受信するステップと、
     前記複数のデータ加工装置から受信した加工済みデータを用いて、前記データについての少なくとも1つの統計値を推定するステップと
     を備える統計値推定方法。
  7.  コンピュータを、請求項1ないし4のうちいずれか1項に記載の統計値推定装置における各部として機能させるためのプログラム。
PCT/JP2022/038445 2022-10-14 2022-10-14 統計値推定装置、統計値推定システム、統計値推定方法、及びプログラム WO2024079899A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/038445 WO2024079899A1 (ja) 2022-10-14 2022-10-14 統計値推定装置、統計値推定システム、統計値推定方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/038445 WO2024079899A1 (ja) 2022-10-14 2022-10-14 統計値推定装置、統計値推定システム、統計値推定方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2024079899A1 true WO2024079899A1 (ja) 2024-04-18

Family

ID=90669342

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/038445 WO2024079899A1 (ja) 2022-10-14 2022-10-14 統計値推定装置、統計値推定システム、統計値推定方法、及びプログラム

Country Status (1)

Country Link
WO (1) WO2024079899A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016099888A (ja) * 2014-11-25 2016-05-30 日本電信電話株式会社 センサデータ分類装置、方法およびプログラム
US20180349620A1 (en) * 2017-06-04 2018-12-06 Apple Inc. Differential privacy using a multibit histogram
JP2022517054A (ja) * 2020-02-14 2022-03-04 グーグル エルエルシー セキュアマルチパーティリーチおよび頻度推定

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016099888A (ja) * 2014-11-25 2016-05-30 日本電信電話株式会社 センサデータ分類装置、方法およびプログラム
US20180349620A1 (en) * 2017-06-04 2018-12-06 Apple Inc. Differential privacy using a multibit histogram
JP2022517054A (ja) * 2020-02-14 2022-03-04 グーグル エルエルシー セキュアマルチパーティリーチおよび頻度推定

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FUKUCHI KAZUTO: "Differential privacy", IPSJ MAGAZINE, vol. 61, no. 6, 15 May 2020 (2020-05-15), pages 600 - 606 *

Similar Documents

Publication Publication Date Title
Feng et al. Privacy-preserving tensor decomposition over encrypted data in a federated cloud environment
JP6673367B2 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
Shen et al. Inference for subgroup analysis with a structured logistic-normal mixture model
CN111898137A (zh) 一种联邦学习的隐私数据处理方法、设备及系统
WO2020192289A1 (zh) 确定关系网络图中图节点向量的方法及装置
Yan et al. Model selection for Cox models with time-varying coefficients
Chou et al. The control chart for individual observations from a multivariate non-normal distribution
CA3058498A1 (en) Method and apparatus for encrypting data, method and apparatus for training machine learning model, and electronic device
WO2022126975A1 (zh) 客户信息校验方法、装置、计算机设备及存储介质
Xue Empirical likelihood confidence intervals for response mean with data missing at random
CN116579775B (zh) 一种商品交易数据管理系统及方法
Sun et al. Estimation of the association for bivariate interval‐censored failure time data
JP6711519B2 (ja) 評価装置、評価方法及びプログラム
CN114186263A (zh) 一种基于纵向联邦学习的数据回归方法及电子装置
Fierro et al. Statistical inference on a stochastic epidemic model
Klein et al. Noise multiplication for statistical disclosure control of extreme values in log-normal regression samples
WO2024079899A1 (ja) 統計値推定装置、統計値推定システム、統計値推定方法、及びプログラム
Gijbels et al. Positive quadrant dependence testing and constrained copula estimation
Ganesan et al. Efficient ml models for practical secure inference
EP4012589A1 (en) Applying a k-anonymity model to protect node level privacy in knowledge graphs and a differential privacy model to protect edge level privacy in knowledge graphs
Kim et al. Identifying aberrant data in structural equation models with IRLS-ADF
Moiseeva et al. Mathematical model of parallel retrial queueing of multiple requests
CA3178677A1 (en) User search category predictor
Yi et al. Semiparametric marginal and association regression methods for clustered binary data
US20190294820A1 (en) Converting plaintext values to pseudonyms using a hash function

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22962116

Country of ref document: EP

Kind code of ref document: A1