WO2019216137A1 - 安全性評価装置、安全性評価方法、およびプログラム - Google Patents
安全性評価装置、安全性評価方法、およびプログラム Download PDFInfo
- Publication number
- WO2019216137A1 WO2019216137A1 PCT/JP2019/016447 JP2019016447W WO2019216137A1 WO 2019216137 A1 WO2019216137 A1 WO 2019216137A1 JP 2019016447 W JP2019016447 W JP 2019016447W WO 2019216137 A1 WO2019216137 A1 WO 2019216137A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- record
- database
- neighborhood
- records
- secret
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/221—Column-oriented storage; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24573—Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
Definitions
- This invention relates to a technique for evaluating the security of a database in which individual data is concealed by a deterministic method or a probabilistic method.
- Non-Patent Documents 1 and 2 There is a k-anonymous method (see Non-Patent Documents 1 and 2) as a technique for concealing individual data from a database (hereinafter referred to as “original database”) by a definitive method. Further, as a technique for concealing by a probabilistic method, there is a Pk-anonymous method (see Non-Patent Documents 3 and 4).
- a technique called record linkage is used. Record linkage is a method of measuring how much a record is concealed by trying to re-specify a record.
- the distance between the target record of the secret database to be re-specified and all the records of the original database is calculated, and if the nearest record matches the target record, it can be re-specified, and the reciprocal of the nearest record number is targeted.
- Record re-identification rate This is performed for all the records in the secret database, and a value obtained by summing up the re-identification rates of the respective records is evaluated as the database re-identification rate.
- an object of the present invention is to efficiently evaluate the security of a database that conceals large-scale data.
- a safety evaluation device includes a database storage unit that stores an original database composed of a plurality of records and a secret database that conceals the original database, and each record of the secret database. For each record in the secret database, calculate the distance between each record in the neighborhood record set for each record in the secret database and obtain the distance to the record. Based on whether the record of the original database corresponding to the record matches the nearest record for each record of the secret database and the nearest record calculation unit that obtains the nearest record based on the record Re-identification determination unit that calculates the Based on the re-identification rate calculated for the record including a re-identification rate calculation unit for calculating a re-identification rate of confidential database, the.
- the processing that requires a calculation amount of O (N 2 ) in the conventional technique becomes the calculation amount of O (N log N) when the number of neighbors is log N. .
- record linkage can be performed on large-scale data in a practical processing time. Therefore, it is possible to efficiently evaluate the security of a database that conceals large-scale data.
- FIG. 1 is a diagram for explaining the definition of a database targeted by the present invention.
- FIG. 2 is a conceptual diagram for explaining the conventional record linkage.
- FIG. 3 is a conceptual diagram for explaining the record linkage of the present invention.
- FIG. 4 is a diagram illustrating a functional configuration of the safety evaluation device according to the embodiment.
- FIG. 5 is a diagram illustrating a processing procedure of the safety evaluation method according to the embodiment.
- One record in the database is expressed as a horizontal vector.
- a set consisting of a plurality of records is defined as database X ⁇ .
- database X ⁇ ⁇ x ⁇ 1 ,..., X ⁇ N ⁇ .
- a set consisting of records in which each record in the database X ⁇ is concealed by a deterministic technique or a probabilistic technique is defined as a secret database Y ⁇ .
- a line number correspondence function f y : R ⁇ R for associating the line number of the secret database Y ⁇ with the line number of the original database X ⁇ (hereinafter also referred to as “true line number”) is defined.
- source database X ⁇ showing an example of a confidential database Y ⁇ , and the line number corresponding function f y.
- the original database X ⁇ is a database including N records of plaintext records composed of M attributes.
- the secret database Y ⁇ is a database in which each record of the original database is concealed and the order is shuffled.
- the line number correspondence function f y is a reference table showing the correspondence between the line numbers of the original database and the line numbers of the secret database.
- the re-identification rate of the entire database is calculated using the original database X ⁇ , the secret database Y ⁇ , and the line number corresponding function f y to evaluate the safety.
- the present invention in calculating the re-identification rate of a certain record, the following two processes are roughly performed.
- Processing 1 Acquires the number of neighborhood records of the neighborhood search target records for the specified number of neighborhoods.
- Examples of the tree structure include a kd tree.
- the distance between the target record of the record linkage based on the neighborhood record and the neighborhood record is calculated, and if the line number of the nearest record with the closest distance matches the true row number of the record record of the record linkage, it can be re-identified.
- an appropriate distance such as a Euclidean distance, a Hamming distance, a Manhattan distance, or the like can be used. If the attribute values of the records are duplicated, neighboring records that are equal to or greater than the number of neighbors specified in the neighborhood search are acquired. In that case, the distance from the neighboring record is calculated after eliminating the duplicate record in the neighboring record.
- the above processes 1 and 2 are performed for each record of the secret database, and the total value of the re-identification rate of each record is set as the database re-identification rate, and the safety of the entire secret database is evaluated.
- FIG. 2 is a conceptual diagram showing record linkage according to the prior art
- FIG. 3 is a conceptual diagram showing record linkage according to the present invention.
- the prior art calculates the distance between all records in the original database for a record in the secret database, and determines that the record can be re-specified when the line number of the closest record matches the true line number of the record.
- the present invention calculates the distance between a record having a secret database and a predetermined number of neighboring records acquired from the original database by the neighboring search, and the line number of the nearest record matches the true line number of the record. In this case, it is determined that the information can be specified again.
- ⁇ Algorithm 1> Specific processing of the present invention is shown in ⁇ Algorithm 1>.
- Process 1 neighborhbor search
- process 2 record linkage based on the neighborhood record
- ⁇ Represents the number of elements in the set.
- a neighborhood record set X ⁇ i near is obtained using neighborhood search for each record y ⁇ i of the secret database Y ⁇ (corresponding to the second to fourth lines). If there are few duplicate records in the original database X- > , the acquired neighborhood record set X- > i near is equal to or less than the specified number of neighbors K. However, if there are many duplicate records in the original database X ⁇ , the acquired neighborhood record set X ⁇ i near may exceed the specified number of neighbors K, and the effect of the neighborhood search will be lost.
- the neighborhood record set X ⁇ i near exceeds ⁇ K, generate a record set X ⁇ i uniq that excludes duplicate records in the neighborhood record set X ⁇ i near , and set the row number of the duplicate record. Holds the function f i dup to be returned (corresponding to the fifth to seventh lines).
- the safety evaluation apparatus and method of the embodiment executes the above ⁇ Algorithm 1> to evaluate the security of the secret database.
- the safety evaluation device 1 includes a database storage unit 10, a neighborhood record search unit 11, a deduplication unit 12, a nearest neighbor record calculation unit 13, a respecific determination unit 14, and re-identification.
- a rate calculation unit 15 is provided.
- the safety evaluation apparatus 1 performs the process of each step illustrated in FIG. 5 to realize the safety evaluation method of the embodiment.
- the safety evaluation device 1 is configured, for example, by loading a special program into a known or dedicated computer having a central processing unit (CPU: Central Processing Unit), a main storage device (RAM: Random Access Memory), and the like. It is a special device.
- the safety evaluation device 1 executes each process under the control of the central processing unit. Data input to the safety evaluation device 1 and data obtained in each process are stored in, for example, a main storage device, and the data stored in the main storage device is read to the central processing unit as necessary. Used for other processing.
- At least a part of each processing unit of the safety evaluation apparatus 1 may be configured by hardware such as an integrated circuit.
- Each storage unit included in the safety evaluation device 1 includes, for example, a main storage device such as a RAM (Random Access Memory), an auxiliary storage device configured by a semiconductor memory element such as a hard disk, an optical disk, or a flash memory (Flash Memory), Alternatively, it can be configured by middleware such as a relational database or key-value store.
- a main storage device such as a RAM (Random Access Memory)
- auxiliary storage device configured by a semiconductor memory element such as a hard disk, an optical disk, or a flash memory (Flash Memory)
- middleware such as a relational database or key-value store.
- the neighborhood number K is, for example, the logarithm log N of the record number N of the original database X ⁇ .
- the neighborhood search uses either a tree structure or a neighborhood search using hashing, for example, a technique using a kd tree.
- the neighborhood record search unit 11 outputs the acquired neighborhood record set X ⁇ i near to the deduplication unit 12.
- the duplicate elimination unit 12 eliminates duplicate records in the neighborhood record set X ⁇ i near when the number of records in the neighborhood record set X ⁇ i near is larger than the predetermined threshold value ⁇ K, and the duplicate elimination has been performed.
- the deduplication unit 12 outputs the deduplicated neighborhood record set X ⁇ i uniq to the nearest record calculation unit 13. If the number of records near record set X ⁇ i near seemed less threshold .epsilon.k, it outputs a near record set X ⁇ i near the nearest record calculation unit 13.
- step S14 the re-specific determination unit 14 determines that for each record y ⁇ i of the secret database Y ⁇ , the record x ⁇ j of the original database X ⁇ corresponding to the record y ⁇ i is the nearest record Z ⁇ middle. calculating a re-identification rate r i of the record y ⁇ i based on whether present. Can be obtained by using the record y ⁇ i records associated with x ⁇ j is the row number corresponding function f y.
- Re specification judging section 14 outputs the re-identification rate r i of the calculated record y ⁇ i to re-identify ratio calculator 15.
- the re-identification rate calculator 15 uses the re-identification rate r of the secret database Y ⁇ as the output of the safety evaluation device 1.
- the point of this embodiment is that the problem that cannot be solved simply by combining the neighborhood search with the record linkage, that is, the problem when a large number of neighborhood records appear is solved. Specifically, the processing time is reduced by adding deduplication processing to a large number of neighboring records. If the attribute values are duplicated when acquiring the neighborhood record, the neighborhood records of the specified number of neighborhoods or more are obtained. In the worst case, as many neighboring records as the number of records in the database are output, and as a result, the effect of searching for neighboring records is lost. In this embodiment, since the deduplication process is added when the neighborhood record is acquired, the above problem can be avoided and high-speed execution is possible.
- the program describing the processing contents can be recorded on a computer-readable recording medium.
- a computer-readable recording medium for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.
- this program is distributed, for example, by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
- a computer that executes such a program first stores a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device.
- the computer reads the program stored in its own storage device, and executes the process according to the read program.
- the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer.
- the processing according to the received program may be executed sequentially.
- the program is not transferred from the server computer to the computer, and the above processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good.
- ASP Application Service Provider
- the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
- the present apparatus is configured by executing a predetermined program on a computer.
- a predetermined program on a computer.
- at least a part of these processing contents may be realized by hardware.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Library & Information Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Storage Device Security (AREA)
Abstract
大規模なデータを秘匿したデータベースの安全性を効率的に評価する。データベース記憶部(10)は、元データベースと秘匿データベースとを記憶する。近傍レコード探索部(11)は、秘匿データベースの各レコードについて元データベースに対する近傍探索により近傍レコード集合を取得する。最近傍レコード計算部(13)は、秘匿データベースの各レコードと近傍レコード集合の各レコードとの距離を計算して最近傍レコードを取得する。再特定判定部(14)は、秘匿データベースの各レコードに対応する元データベースのレコードが最近傍レコードと一致するか否かに基づいて当該レコードの再識別率を計算する。再識別率計算部(15)は、秘匿データベースの各レコードについて計算した再識別率に基づいて秘匿データベースの再識別率を計算する。
Description
この発明は、データベースに対して決定的手法もしくは確率的手法により個別データを秘匿したデータベースの安全性を評価する技術に関する。
データベース(以下、「元データベース」と呼ぶ)に対して決定的手法により個別データを秘匿する技術として、k-匿名法(非特許文献1および2参照)がある。また、確率的手法により秘匿する技術として、Pk-匿名法(非特許文献3および4参照)がある。これらの秘匿処理を施したデータベース(以下、「秘匿データベース」と呼ぶ)の安全性を評価するために、レコードリンケージと呼ばれる手法(非特許文5および6参照)が用いられる。レコードリンケージとは、あるレコードを再特定しようとすることで、どれだけそのレコードが秘匿できているかを測定する方法である。従来技術では、再特定を試みる秘匿データベースの対象レコードと元データベースの全レコードとの距離を計算し、最近傍レコードと対象レコードとが一致したら再特定できたとして、最近傍レコード数の逆数を対象レコードの再識別率とする。これを秘匿データベースの全レコードについて実施し、各レコードの再識別率を合計した値をデータベースの再識別率として評価する。
Kristen LeFevre, David J DeWitt, and Raghu Ramakrishnan, "Incognito: Efficient full-domain k-anonymity", Proceedings of the 2005 ACM SIGMOD international conference on Management of data, pp. 49-60, 2005.
Florian Kohlmayer, Fabian Prasser, Claudia Eckert, Alfons Kemper, and Klaus A Kuhn, "Flash: efficient, stable and optimal k-anonymity", Privacy, Security, Risk and Trust (PASSAT), 2012 International Conference on and 2012 International Conference on Social Computing (SocialCom), pp. 708-717, 2012.
五十嵐大,千田浩司,高橋克巳,"数値属性における, k-匿名性を満たすランダム化手法",コンピュータセキュリティシンポジウム2011,pp. 450-455,2011年
五十嵐大,千田浩司,高橋克巳,"k-匿名性の確率的指標への拡張とその適用例",コンピュータセキュリティシンポジウム2009,pp. 1-6,2009年
Vicenc Torra, John M Abowd, and Josep Domingo-Ferrer, "Using mahalanobis distance-based record linkage for disclosure risk assessment", International Conference on Privacy in Statistical Databases, pp. 233-242, 2006.
Josep Domingo-Ferrer and Vicenc Torra, "Distance-based and probabilistic record linkage for re-identification of records with categorical variables", Butlleti de IACIA, Associacio Catalana dIntelligencia Artificial, pp. 243-250, 2002.
近年ビッグデータの利活用が注目されており、匿名化の対象となるデータも大規模データとなることが想定される。従来技術では、レコードリンケージの際に、レコード数が増えるに連れて処理時間が増えることが問題であった。より具体的には、レコード数の線形な増加に伴い、処理時間が2乗で増えてしまう。したがって、大規模なデータに対し、実用的な処理時間でレコードリンケージを行うことが課題であった。
この発明は、上記のような技術的課題に鑑みて、大規模なデータを秘匿したデータベースの安全性を効率的に評価することを目的とする。
上記の課題を解決するために、この発明の一態様の安全性評価装置は、複数のレコードからなる元データベースと元データベースを秘匿した秘匿データベースとを記憶するデータベース記憶部と、秘匿データベースの各レコードについて、元データベースに対する近傍探索により所定の近傍数の近傍レコード集合を取得する近傍レコード探索部と、秘匿データベースの各レコードについて近傍レコード集合の各レコードとの距離を計算し、当該レコードとの距離に基づいて最近傍レコードを取得する最近傍レコード計算部と、秘匿データベースの各レコードについて、当該レコードに対応する元データベースのレコードが最近傍レコードと一致するか否かに基づいて当該レコードの再識別率を計算する再特定判定部と、秘匿データベースの各レコードについて計算した再識別率に基づいて秘匿データベースの再識別率を計算する再識別率計算部と、を含む。
この発明によれば、レコードリンケージを行う際に、従来技術ではO(N2)の計算量を要する処理が、近傍数をlog Nとした場合にはO(N log N)の計算量となる。そのため、大規模なデータに対し、実用的な処理時間でレコードリンケージを行うことができる。したがって、大規模なデータを秘匿したデータベースの安全性を効率的に評価することができる。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
[記号]
ある属性の集合を大文字Xと表現し、属性Xの値を小文字x∈Xと表現する。
ある属性の集合を大文字Xと表現し、属性Xの値を小文字x∈Xと表現する。
データベースの1レコードを横ベクトルとして表現する。例えば、M属性あるデータベースのi番目のレコードは、x→
i={xi1, …, xij, …, xiM}とする。
複数のレコードからなる集合をデータベースX→とする。例えば、レコード数Nのデータベースは、X→={x→
1, …, x→
N}とする。
データベースX→の各レコードを決定的手法もしくは確率的手法により秘匿したレコードからなる集合を秘匿データベースY→とする。例えば、レコード数Nの秘匿データベースは、Y→={y→
1, …, y→
N}とする。
秘匿データベースY→はレコードの順番がシャッフルされている場合もある。そこで、秘匿データベースY→の行番号と元データベースX→の行番号(以下、「真の行番号」と呼ぶこともある)とを対応付ける行番号対応関数fy:R→Rを定義する。
図1に、元データベースX→、秘匿データベースY→、および行番号対応関数fyの例を示す。元データベースX→は、M属性からなる平文のレコードをNレコード含むデータベースである。秘匿データベースY→は、元データベースの各レコードが秘匿され、かつ、順番がシャフルされたデータベースである。行番号対応関数fyは、元データベースの行番号と秘匿データベースの行番号との対応が表された参照表である。
[処理の概要]
本発明の安全性評価技術では、元データベースX→と秘匿データベースY→と行番号対応関数fyとを用いて、データベース全体の再識別率を計算し、安全性の評価を行う。本発明では、あるレコードの再識別率を計算するにあたり、大まかに以下の2つの処理を行う。
本発明の安全性評価技術では、元データベースX→と秘匿データベースY→と行番号対応関数fyとを用いて、データベース全体の再識別率を計算し、安全性の評価を行う。本発明では、あるレコードの再識別率を計算するにあたり、大まかに以下の2つの処理を行う。
処理1.近傍探索の対象となるレコードの近傍レコードを、指定した近傍数分取得する。近傍レコードの探索は、木構造を用いたもの(参考文献1参照)や、ハッシングを用いたもの(参考文献2参照)があり、それらを用いて近傍レコードを取得する。木構造としては、例えばkd木等が挙げられる。
〔参考文献1〕Jon Louis Bentley, "Multidimensional binary search trees used for associative searching", Communications of the ACM, Vol. 18, No. 9, pp. 509-517, 1975.
〔参考文献2〕Mayur Datar, Nicole Immorlica, Piotr Indyk, and Vahab S Mirrokni, "Locality-sensitive hashing scheme based on p-stable distributions", In Proceedings of the twentieth annual symposium on Computational geometry, pp. 253-262, 2004.
〔参考文献2〕Mayur Datar, Nicole Immorlica, Piotr Indyk, and Vahab S Mirrokni, "Locality-sensitive hashing scheme based on p-stable distributions", In Proceedings of the twentieth annual symposium on Computational geometry, pp. 253-262, 2004.
処理2.近傍レコードに基づくレコードリンケージの対象レコードと近傍レコードとの距離を計算し、最も距離が近い近傍レコードの行番号とレコードリンケージの対象レコードの真の行番号とが一致したら再特定できたとする。計算する距離としては、例えば、ユークリッド距離、ハミング距離、マンハッタン距離等、適切な距離を用いることができる。レコードの属性値が重複している場合、近傍探索で指定した近傍数以上の近傍レコードが取得される。その場合には、近傍レコード中の重複レコードを排除した上で、近傍レコードとの距離を計算する。
上記処理1,2を秘匿データベースの各レコードについて行い、各レコードの再識別率の合計値をデータベースの再識別率とし、秘匿データベース全体の安全性を評価する。
図2は、従来技術によるレコードリンケージを表す概念図であり、図3は、本発明によるレコードリンケージを表す概念図である。従来技術は秘匿データベースのあるレコードについて元データベースの全レコードとの距離を計算し、最も近いレコードの行番号がそのレコードの真の行番号と一致した場合に、再特定できたものと判定する。一方、本発明は秘匿データベースのあるレコードについて元データベースから近傍探索により取得した所定の近傍数の近傍レコードとの距離を計算し、最も近いレコードの行番号がそのレコードの真の行番号と一致した場合に、再特定できたものと判定する。
本発明では、木構造を用いた近傍探索もしくはハッシングを用いた近傍探索のどちらかを用いることとする。本発明の具体的な処理を<Algorithm 1>に示す。上記の処理1(近傍探索)は2~7行目に対応し、処理2(近傍レコードに基づくレコードリンケージ)は8~22行目に対応する。なお、|・|は集合・の要素数を表す。
<Algorithm 1>近傍探索を用いたレコードリンケージ
Input: レコード数Nの元データベースX→={x→ 1, …, x→ N}, レコード数Nの秘匿データベースY→={y→ 1, …, y→ N}, 行番号対応関数fy:R→R, 近傍数K(1<K<N), 許容範囲ε(ε>1)
Output: 再識別率r
1: r←0
2: for i=1 to N do
3: y→ iに対する元データベースX→の近傍レコード集合X→ i near={x→ j}(ただし、|X→ i near|≧K)を近傍探索により取得する
4: end for
5: if |X→ i near|>εKとなるiが存在する場合 then
6: |X→ i near|>εKとなるiに対して、X→ i nearのうち重複を除いたレコード集合X→ i uniq={x→ j}とし、各x→ jに対応する重複レコードの行番号集合を返す関数fi dupを保持する
7: end if
8: for i=1 to N do
9: if |X→ i near|>εKとなる場合 then
10: y→ iとX→ i uniqの各レコードとの距離を求め、y→ iに最も距離の近いレコードを最近傍レコードZ→とする
11: if Z→にfy(k)=i(ただしk:x→ k∈Z→)となるレコードが存在する場合 then
12: for x→ j∈Z→ do
13: r←r+1/(|fi dup(j)||Z→|)
14: end for
15: end if
16: else
17: y→ iとX→ i nearの各レコードとの距離を求め、y→ iに最も距離の近いレコードを最近傍レコードZ→とする
18: if Z→にfy(k)=i(ただしk:x→ k∈Z→)となるレコードが存在する場合 then
19: r←r+1/|Z→|
20: end if
21: end if
22: end for
Input: レコード数Nの元データベースX→={x→ 1, …, x→ N}, レコード数Nの秘匿データベースY→={y→ 1, …, y→ N}, 行番号対応関数fy:R→R, 近傍数K(1<K<N), 許容範囲ε(ε>1)
Output: 再識別率r
1: r←0
2: for i=1 to N do
3: y→ iに対する元データベースX→の近傍レコード集合X→ i near={x→ j}(ただし、|X→ i near|≧K)を近傍探索により取得する
4: end for
5: if |X→ i near|>εKとなるiが存在する場合 then
6: |X→ i near|>εKとなるiに対して、X→ i nearのうち重複を除いたレコード集合X→ i uniq={x→ j}とし、各x→ jに対応する重複レコードの行番号集合を返す関数fi dupを保持する
7: end if
8: for i=1 to N do
9: if |X→ i near|>εKとなる場合 then
10: y→ iとX→ i uniqの各レコードとの距離を求め、y→ iに最も距離の近いレコードを最近傍レコードZ→とする
11: if Z→にfy(k)=i(ただしk:x→ k∈Z→)となるレコードが存在する場合 then
12: for x→ j∈Z→ do
13: r←r+1/(|fi dup(j)||Z→|)
14: end for
15: end if
16: else
17: y→ iとX→ i nearの各レコードとの距離を求め、y→ iに最も距離の近いレコードを最近傍レコードZ→とする
18: if Z→にfy(k)=i(ただしk:x→ k∈Z→)となるレコードが存在する場合 then
19: r←r+1/|Z→|
20: end if
21: end if
22: end for
まず、秘匿データベースY→のレコードy→
iごとに近傍探索を用いて近傍レコード集合X→
i
nearを取得する(2~4行目に対応)。元データベースX→中に重複したレコードが少なければ、取得した近傍レコード集合X→
i
nearが指定した近傍数K以下となる。しかしながら、元データベースX→中に重複するレコードが多い場合、取得した近傍レコード集合X→
i
nearが指定した近傍数Kを超えることがあり、近傍探索した効果がなくなってしまう。そこで、近傍レコード集合X→
i
nearがεK件を超えた場合は、近傍レコード集合X→
i
near中の重複するレコードを排除したレコード集合X→
i
uniqを生成し、重複するレコードの行番号を返す関数fi
dupを保持する(5~7行目に対応)。なお、許容範囲εと近傍数Kは、例えば、ε=2.0, K=log Nなどに設定するとよい。
次に、秘匿データベースY→のレコードy→
iごとに近傍レコード集合の各レコードとの距離を計算し、最も距離が近いレコードの真の行番号(すなわち、元データベース上の行番号)が現在のレコードの真の行番号(すなわち、現在のレコードの秘匿データベース上の行番号に対応付けられた元データベース上の行番号)と一致した場合、再識別成功として再識別率rを加算する。
より具体的には、近傍レコード集合X→
i
nearのレコード数がεK件を超えていた場合は、まず重複を排除した近傍レコード集合X→
i
uniqの各レコードとの距離計算を行う。そして、最も距離が近いレコードの重複するレコードの真の行番号を探索し、現在のレコードの行番号と一致した場合、重複レコード間で平均して再識別できたとして、1/重複レコード数(1/|fi
dup|)を再識別率として加算する。その際、最近傍レコードが複数ある場合は、それらも平均して(1/|Z→|)再識別できたとして加算する(9~15行目に対応)。
もし近傍レコード集合X→
i
nearのレコード数がεK件以下であった場合は、まず近傍レコード集合X→
i
nearの各レコードとの距離計算を行う。そして、最も距離が近いレコードの重複するレコードの真の行番号を探索し、現在のレコードの行番号と一致した場合、1を再識別率として加算する。その際、最近傍レコードが複数ある場合は、それらを平均して(1/|Z→|)再識別できたとして加算する(16~21行目に対応)。
[実施形態]
実施形態の安全性評価装置および方法は、上記<Algorithm 1>を実行して秘匿データベースの安全性を評価する。実施形態の安全性評価装置1は、図4に例示するように、データベース記憶部10、近傍レコード探索部11、重複排除部12、最近傍レコード計算部13、再特定判定部14、および再識別率計算部15を備える。この安全性評価装置1が、図5に例示する各ステップの処理を行うことにより実施形態の安全性評価方法が実現される。
実施形態の安全性評価装置および方法は、上記<Algorithm 1>を実行して秘匿データベースの安全性を評価する。実施形態の安全性評価装置1は、図4に例示するように、データベース記憶部10、近傍レコード探索部11、重複排除部12、最近傍レコード計算部13、再特定判定部14、および再識別率計算部15を備える。この安全性評価装置1が、図5に例示する各ステップの処理を行うことにより実施形態の安全性評価方法が実現される。
安全性評価装置1は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。安全性評価装置1は、例えば、中央演算処理装置の制御のもとで各処理を実行する。安全性評価装置1に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。安全性評価装置1の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。安全性評価装置1が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
以下、図5を参照して、実施形態の安全性評価装置1が実行する安全性評価方法について説明する。
データベース記憶部10には、平文のレコードx→
i(i=1, …, N、N≧2)からなる元データベースX→={x→
1, …, x→
N}と、元データベースX→を秘匿した秘匿データベースY→={y→
1, …, y→
N}と、元データベースX→の行番号と秘匿データベースY→の行番号とを対応付ける行番号対応関数fyが記憶されている。
ステップS11において、近傍レコード探索部11は、秘匿データベースY→の各レコードy→
iについて、元データベースX→に対する近傍探索により所定の近傍数Kの近傍レコード集合X→
i
near={x→
j}(j∈{1, …, N})を取得する。このとき、近傍数Kは、例えば、元データベースX→のレコード件数Nの対数log Nとする。近傍探索は、木構造もしくはハッシングを用いた近傍探索のどちらかを用い、例えば、kd木を用いる手法を用いる。近傍レコード探索部11は、取得した近傍レコード集合X→
i
nearを重複排除部12へ出力する。
ステップS12において、重複排除部12は、近傍レコード集合X→
i
nearのレコード数が所定の閾値εKよりも多い場合に、近傍レコード集合X→
i
near中の重複レコードを排除して、重複排除済み近傍レコード集合X→
i
uniqを生成する。このとき、閾値εKは、例えば、近傍数の2倍(すなわち、許容範囲ε=2.0)とする。重複排除部12は、重複排除済み近傍レコード集合X→
i
uniqを最近傍レコード計算部13へ出力する。近傍レコード集合X→
i
nearのレコード数が閾値εK以下だった場合は、近傍レコード集合X→
i
nearを最近傍レコード計算部13へ出力する。
ステップS13において、最近傍レコード計算部13は、秘匿データベースY→の各レコードy→
iについて、近傍レコード集合X→
i
nearのレコード数が閾値εKよりも多かった場合には、重複排除済み近傍レコード集合X→
i
uniqの各レコードとの距離を計算し、近傍レコード集合X→
i
nearのレコード数が閾値εK以下だった場合には、近傍レコード集合X→
i
nearの各レコードとの距離を計算し、当該レコードy→
iとの距離が最も近い最近傍レコードZ→={x→
k}(k∈{1, …, N})を取得する。最近傍レコード計算部13は、取得した最近傍レコードZ→を再特定判定部14へ出力する。
ステップS14において、再特定判定部14は、秘匿データベースY→の各レコードy→
iについて、当該レコードy→
iに対応付けられた元データベースX→のレコードx→
jが最近傍レコードZ→中に存在するか否かに基づいて当該レコードy→
iの再識別率riを計算する。レコードy→
iに対応付けられたレコードx→
jは行番号対応関数fyを用いて求めることができる。再特定判定部14は、計算したレコードy→
iの再識別率riを再識別率計算部15へ出力する。
ステップS15において、再識別率計算部15は、秘匿データベースY→の各レコードy→
iについて計算した再識別率riに基づいて秘匿データベースY→の再識別率rを計算する。例えば、秘匿データベースY→の各レコードy→
iの再識別率riの総和Σi=1
Nriを秘匿データベースY→の再識別率rとする。再識別率計算部15は、秘匿データベースY→の再識別率rを安全性評価装置1の出力とする。
本形態のポイントは、レコードリンケージに対して近傍探索を単に組み合わせただけでは解決できない課題、すなわち、近傍レコードが大量に出現した場合の問題を解決したことである。具体的には、大量の近傍レコードに対して重複排除処理を加えることで、処理時間を抑えたことである。近傍レコードを取得する際に属性値が重複等している場合、指定した近傍数以上の近傍レコードを取得するため、そのまま処理を行うと実行時間が長くなる。最悪の場合、近傍レコードがデータベース中のレコード数分出力されてしまい、結果として近傍レコードを探索した効果がなくなってしまう。本形態では、近傍レコードを取得する際に重複排除の処理を加えていることから、上記問題を回避でき、高速な実行が可能となっている。
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
Claims (6)
- 複数のレコードからなる元データベースと上記元データベースを秘匿した秘匿データベースとを記憶するデータベース記憶部と、
上記秘匿データベースの各レコードについて、上記元データベースに対する近傍探索により所定の近傍数の近傍レコード集合を取得する近傍レコード探索部と、
上記秘匿データベースの各レコードについて上記近傍レコード集合の各レコードとの距離を計算し、当該レコードとの距離に基づいて最近傍レコードを取得する最近傍レコード計算部と、
上記秘匿データベースの各レコードについて、当該レコードに対応する上記元データベースのレコードが上記最近傍レコードと一致するか否かに基づいて当該レコードの再識別率を計算する再特定判定部と、
上記秘匿データベースの各レコードについて計算した再識別率に基づいて上記秘匿データベースの再識別率を計算する再識別率計算部と、
を含む安全性評価装置。 - 請求項1に記載の安全性評価装置であって、
上記近傍レコード集合のレコード数が所定の閾値よりも多い場合に上記近傍レコード集合中の重複レコードを排除する重複排除部をさらに含む、
安全性評価装置。 - 請求項2に記載の安全性評価装置であって、
上記近傍レコード探索部は、上記近傍数を上記元データベースのレコード件数の対数として上記近傍レコード集合を取得するものであり、
上記重複排除部は、上記閾値を上記近傍数の2倍として上記近傍レコード集合中の重複レコードを排除するものである、
安全性評価装置。 - 請求項1から3のいずれかに記載の安全性評価装置であって、
上記近傍レコード探索部は、kd木を用いる近傍探索により上記近傍レコード集合を取得するものである、
安全性評価装置。 - データベース記憶部に、複数のレコードからなる元データベースと上記元データベースを秘匿した秘匿データベースとが記憶されており、
近傍レコード探索部が、上記秘匿データベースの各レコードについて、上記元データベースに対する近傍探索により所定の近傍数の近傍レコード集合を取得し、
最近傍レコード計算部が、上記秘匿データベースの各レコードについて上記近傍レコード集合の各レコードとの距離を計算し、当該レコードとの距離に基づいて最近傍レコードを取得し、
再特定判定部が、上記秘匿データベースの各レコードについて、当該レコードに対応する上記元データベースのレコードが上記最近傍レコードと一致するか否かに基づいて当該レコードの再識別率を計算し、
再識別率計算部が、上記秘匿データベースの各レコードについて計算した再識別率に基づいて上記秘匿データベースの再識別率を計算する、
安全性評価方法。 - 請求項1から4のいずれかに記載の安全性評価装置としてコンピュータを機能させるためのプログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP19798961.9A EP3792804B1 (en) | 2018-05-08 | 2019-04-17 | Safety assessment device, safety assessment method, and program |
US17/052,211 US11354317B2 (en) | 2018-05-08 | 2019-04-17 | Safety assessment apparatus, safety assessment method, and program |
CN201980030466.7A CN112088375B (zh) | 2018-05-08 | 2019-04-17 | 安全性评价装置,安全性评价方法,以及记录介质 |
JP2020518220A JP6973636B2 (ja) | 2018-05-08 | 2019-04-17 | 安全性評価装置、安全性評価方法、およびプログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018-089641 | 2018-05-08 | ||
JP2018089641 | 2018-05-08 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2019216137A1 true WO2019216137A1 (ja) | 2019-11-14 |
Family
ID=68468119
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2019/016447 WO2019216137A1 (ja) | 2018-05-08 | 2019-04-17 | 安全性評価装置、安全性評価方法、およびプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US11354317B2 (ja) |
EP (1) | EP3792804B1 (ja) |
JP (1) | JP6973636B2 (ja) |
CN (1) | CN112088375B (ja) |
WO (1) | WO2019216137A1 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007132564A1 (ja) * | 2006-05-13 | 2007-11-22 | Justsystems Corporation | データ処理装置及び方法 |
JP2018049437A (ja) * | 2016-09-21 | 2018-03-29 | Kddi株式会社 | 評価装置、評価方法及び評価プログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9064123B2 (en) * | 2011-03-10 | 2015-06-23 | Nippon Telegraph And Telephone Corporation | Secure product-sum combination system, computing apparatus, secure product-sum combination method and program therefor |
US9600524B2 (en) * | 2014-12-22 | 2017-03-21 | Blackberry Limited | Method and system for efficient feature matching |
JP6542883B2 (ja) * | 2015-05-14 | 2019-07-10 | 日本電信電話株式会社 | データベースシステム、データベース処理方法 |
JP6434162B2 (ja) * | 2015-10-28 | 2018-12-05 | 株式会社東芝 | データ管理システム、データ管理方法およびプログラム |
-
2019
- 2019-04-17 WO PCT/JP2019/016447 patent/WO2019216137A1/ja unknown
- 2019-04-17 CN CN201980030466.7A patent/CN112088375B/zh active Active
- 2019-04-17 US US17/052,211 patent/US11354317B2/en active Active
- 2019-04-17 EP EP19798961.9A patent/EP3792804B1/en active Active
- 2019-04-17 JP JP2020518220A patent/JP6973636B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007132564A1 (ja) * | 2006-05-13 | 2007-11-22 | Justsystems Corporation | データ処理装置及び方法 |
JP2018049437A (ja) * | 2016-09-21 | 2018-03-29 | Kddi株式会社 | 評価装置、評価方法及び評価プログラム |
Non-Patent Citations (10)
Title |
---|
DAI IKARASHIKOJI CHIDAKATSUMI TAKAHASHI: "A probabilistic extension of k-anonymity", COMPUTER SECURITY SYMPOSIUM 2009, 2009, pages 1 - 6 |
DAI IKARASHIKOJI CHIDAKATSUMI TAKAHASHI: "Randomized k-anonymization for numeric attributes", COMPUTER SECURITY SYMPOSIUM 2011, 2011, pages 450 - 455 |
FLORIAN KOHLMAYERFABIAN PRASSERCLAUDIA ECKERTALFONS KEMPERKLAUS A KUHN: "Flash: efficient, stable and optimal k-anonymity", PRIVACY, SECURITY, RISK AND TRUST (PASSAT), 2012 INTERNATIONAL CONFERENCE ON AND 2012 INTERNATIONAL CONFERENCE ON SOCIAL COMPUTING (SOCIALCOM, 2012, pages 708 - 717, XP032302792, DOI: 10.1109/SocialCom-PASSAT.2012.52 |
ITO, SATOSHI ET AL.: "Proposal on Re- identification method by using Euclidean distance and evaluation by using Anonymized Data of PWSCup2015", IEICE TECHNICAL REPORT, vol. 116, no. 65, 19 May 2016 (2016-05-19), pages 145 - 152, XP009524054 * |
JON LOUIS BENTLEY: "Multidimensional binary search trees used for associative searching", COMMUNICATIONS OF THE ACM, vol. 18, no. 9, 1975, pages 509 - 517, XP058175972, DOI: 10.1145/361002.361007 |
JOSEP DOMINGO-FERRERVICENC TORRA: "Distance- based and probabilistic record linkage for re-identification of records with categorical variables", BUTLLETI DE IACIA, ASSOCIACIO CATALANA DLNTELLIGENCIA ARTIFICIAL, 2002, pages 243 - 250 |
KRISTEN LEFEVREDAVID J DEWITTRAGHU RAMAKRISHNAN: "Incognito: Efficient full-domain k-anonymity", PROCEEDINGS OF THE 2005 ACM SIGMOD INTERNATIONAL CONFERENCE ON MANAGEMENT OF DATA, 2005, pages 49 - 60, XP002734215 |
MAYUR DATARNICOLE IMMORLICAPIOTR INDYKVAHAB S MIRROKNI: "Locality-sensitive hashing scheme based on p-stable distributions", PROCEEDINGS OF THE TWENTIETH ANNUAL SYMPOSIUM ON COMPUTATIONAL GEOMETRY, 2004, pages 253 - 262, XP058169711, DOI: 10.1145/997817.997857 |
See also references of EP3792804A4 |
VICENC TORRAJOHN M ABOWDJOSEP DOMINGO-FERRER: "Using mahalanobis distance-based record linkage for disclosure risk assessment", INTERNATIONAL CONFERENCE ON PRIVACY IN STATISTICAL DATABASES, 2006, pages 233 - 242, XP019051373 |
Also Published As
Publication number | Publication date |
---|---|
CN112088375B (zh) | 2024-03-08 |
JP6973636B2 (ja) | 2021-12-01 |
EP3792804A1 (en) | 2021-03-17 |
EP3792804A4 (en) | 2022-02-09 |
US11354317B2 (en) | 2022-06-07 |
EP3792804B1 (en) | 2023-02-01 |
CN112088375A (zh) | 2020-12-15 |
JPWO2019216137A1 (ja) | 2021-04-30 |
US20210232587A1 (en) | 2021-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9727573B1 (en) | Out-of core similarity matching | |
US6947933B2 (en) | Identifying similarities within large collections of unstructured data | |
Li et al. | Differential privacy for edge weights in social networks | |
CN109117669B (zh) | MapReduce相似连接查询的隐私保护方法及系统 | |
Gao et al. | Selective hashing: Closing the gap between radius search and k-nn search | |
Huang et al. | Towards trusted services: Result verification schemes for MapReduce | |
US11500876B2 (en) | Method for duplicate determination in a graph | |
Ong et al. | Adaptive histogram-based gradient boosted trees for federated learning | |
CN113127848A (zh) | 一种权限系统数据的存储方法及相关设备 | |
Patgiri et al. | Role of bloom filter in big data research: A survey | |
Moia et al. | Similarity digest search: A survey and comparative analysis of strategies to perform known file filtering using approximate matching | |
Qu et al. | Hybrid indexes by exploring traditional B-tree and linear regression | |
Fu et al. | A privacy-preserving fuzzy search scheme supporting logic query over encrypted cloud data | |
Patel et al. | A study on data perturbation techniques in privacy preserving data mining | |
WO2019216137A1 (ja) | 安全性評価装置、安全性評価方法、およびプログラム | |
US20230252140A1 (en) | Methods and systems for identifying anomalous computer events to detect security incidents | |
El Hadj et al. | Validation and correction of large security policies: A clustering and access log based approach | |
Han et al. | Distributed malware detection based on binary file features in cloud computing environment | |
Jones et al. | Federated xgboost on sample-wise non-iid data | |
Memon et al. | A parallel method for scalable anonymization of transaction data | |
Tulabandhula et al. | Privacy-preserving targeted advertising | |
Karthikeyan et al. | An exploratory study on business data integrity for effective business; a techno business leadership perspective | |
US20190294820A1 (en) | Converting plaintext values to pseudonyms using a hash function | |
Saenko et al. | Towards resilient and efficient big data storage: evaluating a siem repository based on hdfs | |
KR20200019289A (ko) | 데이터베이스 침입 탐지를 위한 쿼리 분류 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19798961 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2020518220 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
ENP | Entry into the national phase |
Ref document number: 2019798961 Country of ref document: EP Effective date: 20201208 |