JPWO2014030302A1 - 匿名化を実行する情報処理装置及び匿名化処理方法 - Google Patents
匿名化を実行する情報処理装置及び匿名化処理方法 Download PDFInfo
- Publication number
- JPWO2014030302A1 JPWO2014030302A1 JP2014531490A JP2014531490A JPWO2014030302A1 JP WO2014030302 A1 JPWO2014030302 A1 JP WO2014030302A1 JP 2014531490 A JP2014531490 A JP 2014531490A JP 2014531490 A JP2014531490 A JP 2014531490A JP WO2014030302 A1 JPWO2014030302 A1 JP WO2014030302A1
- Authority
- JP
- Japan
- Prior art keywords
- attribute
- information loss
- loss amount
- personal data
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Bioethics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Entrepreneurship & Innovation (AREA)
- Medical Informatics (AREA)
- Epidemiology (AREA)
- Economics (AREA)
- Primary Health Care (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本発明は、データセットを、利用目的に合致するようにして匿名化する情報処理装置を提供する。その情報処理装置は、匿名化対象の第1の個人データに含まれる属性のそれぞれに対応する情報損失量を算出し、その属性のそれぞれに対応する優先度とその情報損失量とに基づいて加工の対象とするその属性を決定し、その第1の個人データのその決定した属性の属性値を加工した第2の個人データを生成し、出力する
Description
本発明は、個人データを匿名化する情報処理装置、匿名化処理方法及びプログラムに関する。
診療情報の電子化が進み、各医療機関や健康保険組合等においては診療情報が蓄積されつつある。これらの診療情報を広く活用することは、疫学研究の発展、医療技術及び新薬開発に繋がると考えられている。そこで、その蓄積された診療情報のプライバシーを確保した上で、その診療情報を研究機関等において利用できることが期待されている。
情報の利用においてプライバシーを確保するための手法の一つに匿名化がある。この匿名化とは、例えば上述の診療情報のように、他人には知られたくない情報を含むデータに対して、個人の特定を防ぐための加工を施す技術である。以後、上述のような処理対象のデータの一塊をデータセットと呼ぶ。また、データセットを構成する、個人毎に対応するデータの塊を個人データレコードと呼ぶ。また、個人データレコードを構成する、個人の年齢、その個人が罹患した疾病名などの最小単位の情報を、属性と呼ぶ。
非特許文献1は、匿名化の代表的な技術の一つであるk−匿名化を開示する。このk−匿名化は、データセットに含まれる個人データレコードのそれぞれを、個人の特定確率が1/k(k−匿名化のk)以下となるように加工し、ある一定の匿名性を保証する技術である。k−匿名化における加工は、例えば、データセットを構成する複数の個人データレコード間で、特定の属性の値が同じになるように、その値を曖昧に(汎化とも呼ばれる)するなどの加工である。
汎化によるk−匿名化には、トップダウンアプローチとボトムアップアプローチとがある。トップダウンアプローチは、最も汎化された状態の個人データレコードに含まれる属性の値を、k−匿名性が破綻しない範囲で具体化していく手法である。また、ボトムアップアプローチは、加工されていない個人データレコードの元の値を、k−匿名性が確保されるように汎化していく手法である。
非特許文献2は、トップダウンアプローチの代表的な手法の1つを示す。非特許文献2に示される手法は、あるデータセットにおけるk−匿名性を満たすために、そのデータセットの個人データレコードを、次に示すように加工することにより匿名化する手法である。
トップダウンアプローチでは、匿名化対象のデータセットにおいて、全ての個人データレコード間で、匿名化対象の全ての属性の値が属性毎に同じ値に汎化されている状態を初期状態とする。
第1のステップは、その匿名化対象の属性の中から、ある属性を1つ選択する。
第2のステップは、その全ての個人データレコードのそれぞれに含まれる、第1のステップで選択した属性の値の中央値を求める。
第3のステップは、その求めた中央値を境界として、それらの個人データレコードのその属性の値に基づいて、その個人データレコードを2つのグループに分ける。
第1のステップから第3のステップまでの処理をくりかえし、各グループの個人データレコードの数がk(k-匿名化或いはk-匿名性の「k」、以後同様)個を満たさなくなった時点で処理を終了とする。このように、最も汎化された初期状態から、ある値を境界として属性の値をグループ化することを分割という。尚、結果として出力されるグループは、それらのグループのそれぞれの個人データレコードの数がk個を満たさなくなる直前の、グループである。
また、非特許文献3は、ボトムアップアプローチの代表的な手法の1つを示す。非特許文献3に示される手法は、あるデータセットにおいて、個人データがk−匿名性を満たすように、ある属性の値を元の値から汎化していくことにより匿名化する手法である。
特許文献1は、k−匿名化を取り入れたデータ匿名化装置を開示する。特許文献1のデータ匿名化装置は、データセットを構成する全ての個人データレコードを辺で結んだ完全グラフを生成し、この完全グラフをクラスタに分割し、分割したクラスタ単位で属性を汎化する。こうして、そのデータ匿名化装置は、トップダウンアプローチによるk−匿名化を実現する。
L. Sweeney, "Achieving k-anonymity privacy protection using generalization and suppression", International Journal on Uncertainty, Fuzziness and Knowledge based Systems, 10(5), pp.571-588, 2002.
K, LeFevre, "Mondrian Multidimensional k-anonymity", ICDE '06 Proceedings of the 22nd International Conference on Data Engineering
J, Xu, "Utility-Based Anonymization Using Local Recoding", KDD’06 Proceeding of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining
しかしながら上述した特許文献及び非特許文献に記載された技術においては、データセットを、利用目的に合致するようにして匿名化することができないという問題点がある。
その理由は、上述した特許文献及び非特許文献が開示する匿名化技術では、加工対象の属性が、利用目的を考慮されることなく、利用目的とは関係のない順番で選択され、加工されるからである。
[発明の目的]
本発明の目的は、上述した問題点を解決する情報処理装置、匿名化処理方法、及びプログラムを提供することにある。
[発明の目的]
本発明の目的は、上述した問題点を解決する情報処理装置、匿名化処理方法、及びプログラムを提供することにある。
本発明の情報処理装置は、匿名化対象の第1の個人データに含まれる属性のそれぞれに対応する情報損失量を算出し、出力する情報損失量計算手段と、前記属性のそれぞれに対応する優先度と前記情報損失量とに基づいて加工の対象とする前記属性を決定し、前記第1の個人データの前記決定した属性の属性値を加工した第2の個人データを生成し、出力する匿名化処理手段と、を含む。
本発明の匿名化処理方法は、コンピュータが、匿名化対象の第1の個人データに含まれる属性のそれぞれに対応する情報損失量を算出し、出力し、前記属性のそれぞれに対応する優先度と前記情報損失量とに基づいて加工の対象とする前記属性を決定し、前記第1の個人データの前記決定した属性の属性値を加工した第2の個人データを生成し、出力する。
本発明の不揮発性記録媒体は、匿名化対象の第1の個人データに含まれる属性のそれぞれに対応する情報損失量を算出し、出力する処理と、前記属性のそれぞれに対応する優先度と前記情報損失量とに基づいて加工の対象とする前記属性を決定する処理と、前記第1の個人データの前記決定した属性の属性値を加工した第2の個人データを生成し、出力する処理と、をコンピュータに実行させるプログラムを記録する。
本発明は、データセットを、利用目的に合致するようにして匿名化することが可能になるという効果がある。
本発明を実施するための形態について図面を参照して詳細に説明する。尚、各図面及び明細書記載の各実施形態において、同様の機能を備える構成要素には同様の符号が与えられている。
<<<第1の実施形態>>>
図1は、本発明の第1の実施形態に係る匿名化装置(情報処理装置とも呼ばれる)310の構成を示すブロック図である。
図1は、本発明の第1の実施形態に係る匿名化装置(情報処理装置とも呼ばれる)310の構成を示すブロック図である。
図1に示すように、本実施形態の匿名化装置310は、情報損失量計算部312及び匿名化処理部313を含む。図1に示す構成要素は、ハードウェア単位の構成要素でも、コンピュータ装置の機能単位に分割した構成要素でもよい。ここでは、図1に示す構成要素は、コンピュータ装置の機能単位に分割した構成要素として説明する。
図2は、本発明の第1の実施形態に係る匿名化装置310を含むシステムの構成を示すブロック図である。
図2に示すように、そのシステムは、個人データ記憶装置100と、匿名化済個人データ記憶装置200と、匿名化装置310とから構成されている。
個人データ記憶装置100は、匿名化対象の個人データ(第1の個人データ)である、データセット(以後、データセットspと呼ぶ)を記憶する。尚、データセットspは、データレコード(以後、データレコードrpと呼ぶ)の集合である。そして、データレコードrpは、特定の個人に対応する、複数の属性の属性値を含む。
個人データは、例えば、医療機関などが保有する診療情報である。この場合、データレコードrpに含まれる属性値は、氏名、生年、診療年月、病名などの属性の属性値である。
図3は、個人データ記憶装置100に記憶される個人データであるデータセットsp110の一例を示す図である。データセットsp110は、複数のデータレコードrp111を含む。
データレコードrp111は、「氏名」、「生年」、「診療年月」及び「病名」の属性のそれぞれの属性値を含む。ここで、「氏名」の属性は、識別子である。「生年」及び「診療年月」の属性は、組み合わせると個人を特定する恐れがある準識別子である。また、「病名」の属性は、他人には知られたくないセンシティブ情報である。尚、これらの準識別子或いはセンシティブ情報とした属性は、一例である。即ち、匿名化装置310において、データセットsp110に含まれる属性の内、いずれの属性を準識別子或いはセンシティブ情報として扱うかは、任意である。
図3に示すように、例えば、氏名の属性が「patientA」のデータレコードrp111は、生年の属性として「1949」、診療年月の属性として「201006」、傷病名の属性として「DiseaseA」の属性値を含む。図3に示す個人データのデータセットsp110は、一例であって、データレコードrp111に、準識別子及びセンシティブ情報のそれぞれとして任意の属性の属性値を含んでよい。
匿名化済個人データ記憶装置200は、匿名化済み個人データ(第2の個人データ)である匿名化済データセット(以後、匿名化済データセットsaと呼ぶ)を記憶する。尚、匿名化済データセットsaは、データレコードrp111が匿名化された匿名化済データレコード(以後、匿名化済データレコードraと呼ぶ)の集合である。
図4は、匿名化済個人データ記憶装置200に記憶される匿名化済個人データである匿名化済データセットsa210の一例を示す図である。匿名化済データセットsa210は、匿名化装置310によりデータセットsp110の属性値が加工(例えば、汎化)されて匿名化された後の、データセットである。即ち、匿名化済データセットsa210は、データレコードrp111に替えて、データレコードrp111が加工された匿名化済データレコードra211を含む。
図4に示す匿名化済データセットsa210は、「生年」「診療年月」が加工(汎化)され、データセットsp110に比べて準識別子の属性値が曖昧化されている。
情報損失量計算部312は、データセットsp110における、属性のそれぞれに対応する情報損失量(以後、情報損失量ILAと呼ぶ)を算出し、出力する。
ここで、情報損失量ILAは、データセットsp110に含まれるいずれかの属性を加工した場合に増加する、属性の情報の抽象性(以後、情報抽象性iaと呼ぶ)の量である。尚、情報抽象性iaは、属性の情報、即ちその属性の属性値、の抽象性である。
情報損失量計算部312は、必要に応じて、以下に示す様々な方法を用いて情報損失量ILAを算出してよい。
例えば、第1の方法として、情報損失量計算部312は、ある属性について、その属性の汎化後の属性値の範囲を、同じ属性の汎化前の属性値の範囲で除して1つのデータレコードの情報の損失量(以後、情報損失量ILRと呼ぶ)を算出する。次に、情報損失量計算部312は、データレコードの個数分だけ情報損失量ILRを加算し、情報損失量ILAを算出する。
具体的には、情報損失量計算部312は、図3に示すデータセットsp110が最大に汎化されるとした場合の、匿名化対象の各属性の情報損失量ILAを以下のように算出する。
この場合、汎化前と汎化後とのそれぞれの匿名化対象の属性の属性値の範囲は、同一である。従って、情報損失量計算部312は、1つの属性値に対する情報損失量ILRを、常に「1」と算出する。
次に、情報損失量計算部312は、データレコードrp111の個数(20個)分の情報損失量ILRを加算し、情報損失量ILAとして「20」を算出する。こうして、情報損失量計算部312は、データセットsp110のいずれの属性についても、情報損失量ILAとして「20」を算出する。
また、情報損失量計算部312は、図3に示すデータセットsp110の「生年」の属性の属性値が「1956」以下と「1961」以上とのデータレコードrp111のそれぞれに分割されて、汎化されるとした場合の、匿名化対象の各属性の情報損失量ILAを以下のように算出する。
この場合、汎化前の「生年」の属性の属性値の範囲は、最小値が「1943」であり、最大値が「1977」である。また、汎化後(汎化される「生年」の属性の属性値が「1956」以下のデータレコードrp111)の「生年」の属性の属性値の範囲は、最小値が「1943」であり、最大値が「1956」である。
従って、情報損失量計算部312は、「生年」の属性の属性値が「1956」以下の「生年」の属性の情報損失量ILR−birth−ul1956を、以下のように算出する。
「(1956−1943)÷(1977−1943)=0.382」
次に、情報損失量計算部312は、「生年」の属性の属性値が「1956」以下のデータレコードrp111の個数(9個)分の情報損失量ILR−birth−ul1956を加算し、「生年」の属性の属性値が「1956」以下のデータレコードrp111の情報損失量ILA−birth−ul1956として「3.438」を算出する。
次に、情報損失量計算部312は、「生年」の属性の属性値が「1956」以下のデータレコードrp111の個数(9個)分の情報損失量ILR−birth−ul1956を加算し、「生年」の属性の属性値が「1956」以下のデータレコードrp111の情報損失量ILA−birth−ul1956として「3.438」を算出する。
また、汎化後(汎化される「生年」の属性の属性値が「1961」以上のデータレコードrp111)の「生年」の属性の属性値の範囲は、最小値が「1961」であり、最大値が「1977」である。従って、情報損失量計算部312は、「生年」の属性の属性値が「1961」以上の「生年」の属性の情報損失量ILR−birth−ov1961を、「(1977−1961)÷(1977−1943)=0.471」と算出する。
次に、情報損失量計算部312は、「生年」の属性の属性値が「1961」以上のデータレコードrp111の個数(11個)分の情報損失量ILR−birth−ov1961を加算し、「生年」の属性の属性値が「1961」以上のデータレコードrp111の情報損失量ILA−birth−ov1961として「5.181」を算出する。
次に、情報損失量計算部312は、情報損失量ILA−birth−ul1956と情報損失量ILA−birth−ov1961とを加算して、属性が「生年」の情報損失量ILA−birthとして「8.619」を算出する。
同様に、汎化前の「診療年月」の属性の属性値の範囲は、最小値が「200512」であり、最大値が「201107」である。また、汎化後(汎化される「生年」の属性の属性値が「1956」以下のデータレコードrp111)の「診療年月」の属性の属性値の範囲は、最小値が「200512」であり、最大値が「201107」である。従って、情報損失量計算部312は、「生年」の属性の属性値が「1956」以下のデータレコードrp111の、「診療年月」の属性の情報損失量ILR−mc−ul1956を、「1」と算出する。
次に、情報損失量計算部312は、「生年」の属性の属性値が「1956」以下のデータレコードrp111の個数(9個)分だけ情報損失量ILR−mc−ul1956を加算し、「生年」の属性の属性値が「1956」以下のデータレコードrp111の「診療年月」の属性の情報損失量ILA−mc−ul1956として「9」を算出する。
また、汎化後(汎化される「生年」の属性の属性値が「1961」以上のデータレコードrp111)の「診療年月」の属性の属性値の範囲は、最小値が「200612」であり、最大値が「201107」である。従って、情報損失量計算部312は、「生年」の属性の属性値が「1961」以上のデータレコードrp111の、「診療年月」の属性の情報損失量ILR−mc−ov1961を、「0.832」と算出する。
次に、情報損失量計算部312は、「生年」の属性の属性値が「1961」以上のデータレコードrp111の個数(11個)分だけ情報損失量ILR−mc−ov1961を加算し、「生年」の属性の属性値が「1961」以上のデータレコードrp111の「診療年月」の属性の情報損失量ILA−mc−ov1961として「9.152」を算出する。
次に、情報損失量計算部312は、情報損失量ILA−mc−ul1956と情報損失量ILA−mc−ov1961とを加算し、属性が「診療年月」の情報損失量ILA−mcとして「18.152」を算出する。
以上が、第1の方法の説明である。
また、第2の方法として、情報損失量計算部312は、以下のようにして情報損失量ILAを算出してもよい。まず、情報損失量計算部312は、汎化後と汎化前とのそれぞれの、その属性の属性値の種類の数の比を、1つのデータレコードの情報損失量ILRとして算出する。次に、情報損失量計算部312は、データレコードの個数分だけ情報損失量ILRを加算し、情報損失量ILAを算出する。
匿名化処理部313は、図示しない手段(例えば、匿名化処理部313内の図示しない記憶手段)に記憶されている優先度決定情報に基づいて、属性のそれぞれの優先度(以後、優先度pと呼ぶ)を決定する。また、匿名化処理部313は、その優先度pと情報損失量計算部312が算出した情報損失量ILAとに基づいて、加工する属性を決定する。即ち、匿名化処理部313は、優先度pを用いることで利用目的を考慮し、かつ情報損失量ILAを用いることで匿名化済データセットsa210全体の情報の損失を低減するように、加工する属性を決定する。
ここで、優先度決定情報は、優先度pを決定する情報である。優先度pは、データセットsp110(データレコードrp111)に含まれる属性のそれぞれが持っている情報抽象性iaを増加させないようにする(情報の損失を優先的に防ぐ)度合いを示す情報である。即ち、優先度pは、匿名化済データセットsa210におけるデータセットsp110に対する情報抽象性iaの増加を、複数の属性のいずれについて、より少なくするように匿名化するかの優先度を示す。
例えば、匿名化処理部313は、属性毎に優先度pと情報損失量ILAとを演算(例えば、乗算)した評価値を算出する。尚、匿名化処理部313は、図示しない手段から、特定の優先度pと特定の情報損失量ILAとの組み合わせに対応する評価値を取得するようにしてもよい。尚、評価値を算出する演算は、情報損失量ILAが一定ならば優先度pが高いほど、評価値を大きく算出する演算である。また、評価値を算出する演算は、優先度pが一定ならば情報損失量ILAが大きいほど評価値を大きく算出する演算である。これは、特定の優先度pと特定の情報損失量ILAとの組み合わせに対応する評価値を取得する場合も同様である。
続けて、匿名化処理部313は、例えば、評価値が大きい属性ほど汎化されないように、評価値が小さい属性ほど汎化されるように、汎化する属性を決定する。
尚、匿名化処理部313は、評価値が小さい属性ほど汎化されないように、評価値が大きい属性ほど汎化されるように、汎化する属性を決定するようにしてもよい。この場合、評価値を算出する演算は、情報損失量ILAが一定ならば優先度pが高いほど、及び優先度pが一定ならば情報損失量ILAが大きいほど評価値を小さく算出する演算である。このような演算であることは、特定の優先度pと特定の情報損失量ILAとの組み合わせに対応する評価値を取得する場合の演算についても同様である。
次に、匿名化処理部313は、データセットsp110のその決定した属性を加工した匿名化済データセットsa210を生成し、出力する。尚、匿名化処理部313は、データセットsp110に対する匿名化済データセットsa210の差分の情報を生成し、出力するようにしてもよい。
尚、匿名化処理部313は、加工済みデータセットの匿名性を評価するようにしてもよい。ここで、加工済みデータセットは、それらの属性を加工した場合の、データセットの一部分及び全体のいずれかの任意のものである。続けて、匿名化処理部313は、その匿名性を評価した結果が所定の内容である場合に、その加工済みデータセットを、匿名化済みのデータセット一部分及び全体のいずれかの任意のものとして、匿名化済個人データ記憶装置200に記録するようにしてもよい。
以上が、匿名化装置310のコンピュータ装置の機能単位に分割した各構成要素についての説明である。
次に、匿名化装置310のハードウェア単位の構成要素について説明する。
図5は、本実施形態における匿名化装置310を実現するコンピュータ700のハードウェア構成を示す図である。
図5に示すように、コンピュータ700は、CPU(Central Processing Unit)701、記憶部702、記憶装置703、入力部704、出力部705及び通信部706を含む。更に、コンピュータ700は、外部から供給される記録媒体(または記憶媒体)707を含む。記録媒体707は、情報を非一時的に記憶する不揮発性記録媒体であってもよい。
CPU701は、オペレーティングシステム(不図示)を動作させて、コンピュータ700の、全体の動作を制御する。また、CPU701は、例えば記憶装置703に装着された記録媒体707から、プログラムやデータを読み込み、読み込んだプログラムやデータを記憶部702に書き込む。ここで、そのプログラムは、例えば、後述の図6に示すフローチャートの動作をコンピュータ700に実行させるプログラムである。
そして、CPU701は、読み込んだプログラムに従って、また読み込んだデータに基づいて、図1に示す情報損失量計算部312及び匿名化処理部313として各種の処理を実行する。
尚、CPU701は、通信網(不図示)に接続されている外部コンピュータ(不図示)から、記憶部702にプログラムやデータをダウンロードするようにしてもよい。
記憶部702は、プログラムやデータを記憶する。記憶部702は、個人データ記憶装置100及び匿名化済個人データ記憶装置200を含んでもよい。
記憶装置703は、例えば、光ディスク、フレキシブルディスク、磁気光ディスク、外付けハードディスク及び半導体メモリであって、記録媒体707を含む。記憶装置703は、プログラムをコンピュータ読み取り可能に記録する。また、記憶装置703は、データをコンピュータ読み取り可能に記録してもよい。記憶装置703は、個人データ記憶装置100及び匿名化済個人データ記憶装置200を含んでもよい。
入力部704は、例えばマウスやキーボード、内蔵のキーボタンなどで実現され、入力操作に用いられる。入力部704は、マウスやキーボード、内蔵のキーボタンに限らず、例えばタッチパネル、加速度計、ジャイロセンサ、カメラなどでもよい。
出力部705は、例えばディスプレイで実現され、出力を確認するために用いられる。
通信部706は、個人データ記憶装置100や匿名化済個人データ記憶装置200及び他の図示しない外部装置とのインタフェースを実現する。通信部706は、匿名化処理部313の一部として含まれる。
以上説明したように、図1に示す匿名化装置310の機能単位のブロックは、図5に示すハードウェア構成のコンピュータ700によって実現される。但し、コンピュータ700が備える各部の実現手段は、上記に限定されない。すなわち、コンピュータ700は、物理的に結合した1つの装置により実現されてもよいし、物理的に分離した2つ以上の装置を有線または無線で接続し、これら複数の装置により実現されてもよい。
尚、上述のプログラムのコードを記録した記録媒体707が、コンピュータ700に供給され、CPU701は、記録媒体707に格納されたプログラムのコードを読み出して実行するようにしてもよい。或いは、CPU701は、記録媒体707に格納されたプログラムのコードを、記憶部702、記憶装置703またはその両方に格納するようにしてもよい。すなわち、本実施形態は、コンピュータ700(CPU701)が実行するプログラム(ソフトウェア)を、一時的にまたは非一時的に、記憶する記録媒体707の実施形態を含む。
以上が、本実施形態における匿名化装置310を実現するコンピュータ700の、ハードウェア単位の各構成要素についての説明である。
次に、図1〜図6を参照して本実施形態の動作について詳細に説明する。
図6は、本実施形態における匿名化装置310の動作を示すフローチャートである。
情報損失量計算部312は、データセットsp110の匿名化対象の属性のそれぞれについて、情報損失量ILAを算出する(ステップS601)。
次に、匿名化処理部313は、優先度pを決定する情報に基づいて、属性のそれぞれの優先度pを決定する(ステップS602)。
次に、匿名化処理部313は、情報損失量ILAと優先度pとに基づいて、加工する属性を決定する(ステップS603)。
次に、匿名化処理部313は、データレコードrp111の、決定した属性を加工する(ステップS604)。
次に、匿名化処理部313は、属性を加工したデータレコードrp111を出力する(ステップS605)。
上述した本実施形態における第1の効果は、利用目的に合致するように制御して、データセットを匿名化することが可能になる点である。
その理由は、以下のような構成を含むからである。即ち、第1に、情報損失量計算部312が属性のそれぞれに対応する情報損失量ILAを算出し、出力する。第2に、匿名化処理部313が優先度pと情報損失量ILAとに基づいて加工する属性を決定し、決定した属性を加工する。
上述した本実施形態における第2の効果は、第1の効果に加えて匿名化されたデータセットにおける情報の損失を低減することが可能になる点である。即ち、この第2の効果は、利用目的に合致するように制御してデータセットを匿名化することと、匿名化されたデータセットにおける情報の損失を低減することとが両立して可能になる点である。これは、利用目的に合致することだけを考慮して匿名化がなされることにより、加工を抑制した属性以外の属性が過度に汎化され、データ全体として大きく情報が損失することを防ぐことが可能になるということである。
その理由は、第1の効果と同様である。即ち、匿名化処理部313が優先度pと情報損失量ILAとの両方に基づいて加工する属性を決定するようにしたからである。
<<<第2の実施形態>>>
次に、本発明の第2の実施形態について図面を参照して詳細に説明する。以下、本実施形態の説明が不明確にならない範囲で、前述の説明と重複する内容については説明を省略する。
<<<第2の実施形態>>>
次に、本発明の第2の実施形態について図面を参照して詳細に説明する。以下、本実施形態の説明が不明確にならない範囲で、前述の説明と重複する内容については説明を省略する。
図7は、本実施形態に係る匿名化装置320の構成を示すブロック図である。本実施形態の匿名化装置320は、トップダウンアプローチにより匿名化を行う。
図7に示すように、匿名化装置320は、優先度決定情報記憶部321と情報損失量計算部322と匿名化処理部323とを含む。
尚、匿名化装置320は、匿名化装置310に替えて、図2に示すシステムに含まれてもよい。
優先度決定情報記憶部321は、優先度pを決定する情報を記憶する。尚、優先度pを決定する情報は、システムの利用者により予め設定されている。また、優先度pを決定する情報は、分割属性決定部3233が図5に示す通信部706により、予め外部のシステムから受信するようにしてもよい。
図8は、優先度決定情報記憶部321に記憶される優先度決定情報3210の一例を示す図である。図8に示すように、優先度決定情報3210は、インデックスと重み(優先度とも呼ばれる)との組を含む。ここで、そのインデックスは、重みを一意に決定する値である。その重みは、そのインデックスのそれぞれに対応し、属性の重要さを示す数字である。図8において、例えば、そのインデックスの「5」に対応する重みは「16」である。
尚、図8の例に係わらず、そのインデックスは5種類に限らず、2種類以上の任意の数であってよい。また、インデックスは数字に限らず、アルファベット等の表記であってよいし、属性の名前(以後、属性名とも呼ぶ)であってもよい。
また、その重みは、後述する評価値の算出に使用可能な、任意の数値であってよい。
また、優先度決定情報記憶部321は、そのインデックスの入力に対して重みを計算する計算式(例えば、「重み=2×(インデックス−1)」)を、優先度決定情報として記憶してもよい。
情報損失量計算部322は、データセットsp110における各属性の情報損失量ILAを計算し、出力する。
匿名化処理部323は、分割属性決定部3233と分割値決定部3234と匿名性評価部3235と汎化実行部3236とを含む。
分割属性決定部3233は、優先度決定情報記憶部321に記憶された優先度決定情報3210を利用し、例えば、図5に示す入力部704から入力された各属性のインデックスに基づいて、各属性の重みを生成する。
次に、分割属性決定部3233は、その生成した重みと情報損失量ILAとに基づいて、分割軸の属性(加工の対象とする属性とも呼ばれる、以後、属性と呼ぶ)を決定する。
分割属性は、データセット(例えば、データセットsp110)を分割する場合に、その分割属性の属性値を基準として分割する属性のことである。ここで、データセットを分割することは、そのデータセットに含まれるデータレコードをグループ分けすることである。即ち、分割属性決定部3233は、データセット(例えば、データセットsp110)を分割する場合に、その分割属性の属性値の範囲を基準としてその分割を行う。その範囲は、例えば、ある値より大きい値と小さい値とである。或いは、その範囲は、地理的な領域や、物事の種類や、事象との関連性やであってよい。
分割値決定部3234は、必要な匿名性を満たすように、その分割属性の分割値を決定する。その分割値は、例えば、属性値が数値で示される場合、属性値が取り得る範囲内の数値である。或いは、その範囲は、属性値が地理的な領域である場合、その領域を示す識別情報(例えば、県名)の集合であってよい。また、その範囲は、属性値が物事(例えば、趣味)の種類である場合、その種類を分類する識別情報(例えば、屋外で行うもの)であってよい。また、その範囲は、属性値が事象との関連性である場合、関連性の有無であってよい。
匿名性評価部3235は、あるデータセットが分割された場合にその分割されたデータセットのそれぞれが、必要な匿名性を満たすか否かを判定する。具体的には、匿名性評価部3235は、例えば、あるデータセットが、2つのグループに分割された場合、その2つのグループのそれぞれが、少なくともk個のデータレコードrp111を含むように、そのデータセットを分割できるか否かを判定する。ここで、そのk個の「k」は、k-匿名性或いはk-匿名化の「k」である。以後のk個についても、同様である。
汎化実行部3236は、決定された分割値に基づいて、決定された属性の属性値を汎化(加工)し、出力する。
以上説明した匿名化装置320は、図1に示す匿名化装置310と同様に、図5に示すコンピュータ700によって実現してもよい。
次に本実施形態の動作について、図面を参照して詳細に説明する。
図9A、図9B、図10A及び図10Bは、本実施形態の動作を示すシーケンス図である。
図9Aにおいて、分割属性決定部3233は、例えば図5に示す入力部704からのシステムの利用者による分割属性決定要求の入力を、受け付ける(ステップS801)。
ここで、分割属性決定要求は、例えば、k−匿名性のkの値「5」と、属性名及び対応するインデックス「生年:4、診療年月:1」とを含む。
尚、匿名化済データセットを利用するその利用者は、汎化(加工)の度合を抑制したい属性ほど大きいインデックスの値を指定する。
次に、分割属性決定部3233は、例えば図5に示す記憶部702に、その受け付けた分割属性決定要求に含まれるkの値「5」と属性名及び対応するインデックス「生年:4、診療年月:1」とを記憶する(ステップS802)。
次に、分割属性決定部3233は、優先度決定情報3210を利用し、属性名及び対応するインデックス「生年:4、診療年月:1」に基づいて重みを生成する(ステップS803)。
ここでは、分割属性決定部3233は、「生年」の属性に対応するその重みを「8」、「診療年月」の属性に対応するその重みを「1」と算出する。
次に、分割属性決定部3233は情報損失量計算部322へ情報損失量ILAの計算要求を送信する(ステップS804)
次に、その情報損失量ILAの計算要求を受信した情報損失量計算部322は、個人データ記憶装置100へデータセットsp110の取得要求(以後、個人データ取得要求とも呼ぶ)を送信する(ステップS805)。
次に、その情報損失量ILAの計算要求を受信した情報損失量計算部322は、個人データ記憶装置100へデータセットsp110の取得要求(以後、個人データ取得要求とも呼ぶ)を送信する(ステップS805)。
次に、データセットsp110を受信した情報損失量計算部322は、情報損失量ILAを計算し、計算した情報損失量ILAを分割属性決定部3233へ送信する(ステップS806)。
ここで、情報損失量計算部322の情報損失量ILAの計算の動作について、詳細に説明する。
情報損失量計算部322は、例えば以下に示す式1を用いて、1つのデータレコードrp111の情報損失量ILRを算出する。
ここで、pta−maxは、汎化後の属性値の最大値である。また、pta−minは、汎化後の属性値の最小値である。また、ptb−maxは、汎化前の属性値の最大値である。また、ptb−minは、汎化前の属性値の最小値である。
本実施形態はトップダウンアプローチを用いた匿名化の実施形態であるため、データセットsp110の匿名化対象の属性の属性値は、全て同一の値になるように汎化されるものとする。
図11は、図3に示すデータセットsp110の匿名化の対象である属性のそれぞれの属性値が同一の値に汎化された場合のデータセットst120を示す図である。即ち、図11に示すデータセットst120は、データセットsp110が最大に汎化された状態のデータセットである。
この場合、pta−maxは、例えば、図11に示すデータセットst120において、属性名が「生年」の属性の属性値の最大値である「1977」(「1943〜1977」の「1977」)である。また、pta−minは、例えば、データセットst120において、属性名が「生年」の属性の、属性値の最小値である「1943」(「1943〜1977」の「1943」)である。また、ptb−maxは、例えば、図3に示すデータセットsp110において、属性名が「生年」の属性の、属性値の最大値である「1977」である。また、ptb−minは、例えば、データセットsp110において、属性名が「生年」の属性の、属性値の最小値である「1943」である。
従って、属性名が「生年」の属性の、1つのデータレコードrp111の情報損失量ILR−birthは、以下のように「1」が算出される。
「情報損失量ILR−birth」=(1977−1973)÷(1977−1943)=1
また、データセットsp110に含まれるデータレコードrp111の数は、20である。従って、属性名が「生年」の属性の情報損失量ILA−birthは、以下のように「1」が算出される。
また、データセットsp110に含まれるデータレコードrp111の数は、20である。従って、属性名が「生年」の属性の情報損失量ILA−birthは、以下のように「1」が算出される。
(「情報損失量ILR−birth」)×(データレコードrp111の数)=1×20=20
同様に、診療年月の全体の情報損失量ILA−mcは、「20」が算出される。
同様に、診療年月の全体の情報損失量ILA−mcは、「20」が算出される。
尚、情報損失量計算部322は、汎化後と汎化前とのそれぞれのその属性の属性値の種類の数の比を、1つのデータレコードrp111の情報損失量ILRとして、算出するようにしてもよい。
以上が、情報損失量計算部322の情報損失量ILAの計算の動作についての詳細な説明である。
図9Aの説明に戻る。尚、上述の説明において、ステップS803と、ステップS804、ステップS805及びステップS806との処理順序は、任意の順序であってよい。即ち、その順序は、逆であってもよいし、同時であってもよい。
次に、分割属性決定部3233は、分割属性を決定する(ステップS807)。
ここで、分割属性決定部3233による、分割属性の決定の動作について、詳細に説明する。
分割属性決定部3233は、重みと情報損失量ILAとを含んだ評価式を用いて評価値を算出し、分割属性を決定する。以下に示す式2は、評価式の一例である。
[数2]
評価値=重み×情報損失量ILA ・・・ (式2)
例えば、データセットsp110の属性名が「生年」の属性の評価値は、重みが「8」、情報損失量ILA−birthが「20」なので、「160」である。同様に、属性名が「診療年月」の属性の評価値は、重みが「1」、情報損失量ILA−mcが「20」なので、「20」である。
評価値=重み×情報損失量ILA ・・・ (式2)
例えば、データセットsp110の属性名が「生年」の属性の評価値は、重みが「8」、情報損失量ILA−birthが「20」なので、「160」である。同様に、属性名が「診療年月」の属性の評価値は、重みが「1」、情報損失量ILA−mcが「20」なので、「20」である。
次に、分割属性決定部3233は、算出した評価値が最大の属性を分割属性として決定する。例えばデータセットsp110の場合、分割属性決定部3233は、属性名が「生年」の属性の評価値が、属性名が「診療年月」の属性の評価値よりも大きいので、属性名が「生年」の属性をその分割属性として決定する。
尚、評価値を算出する式は、式2に限らず、優先度p(例えば、式2の「重み」のように、大きいほど優先度が高いことを示す値)が高いほど及び情報損失量ILAが大きいほど演算結果が大きくなるような、任意の評価式でよい。
以上が、分割属性決定部3233による分割属性の決定の動作についての説明である。
次に、図9Bにおいて、分割属性決定部3233は、分割値決定部3234へ分割値決定要求を送信する(ステップS808)。その分割値決定要求は、分割属性決定部3233により決定された分割属性の属性名の「生年」を含む。
その分割値決定要求を受信した分割値決定部3234は、個人データ記憶装置100へ個人データ取得要求を送信する。(ステップS809)
データセットsp110を受信した分割値決定部3234は、分割値を決定する(ステップS810)。
データセットsp110を受信した分割値決定部3234は、分割値を決定する(ステップS810)。
ここで、分割値決定部3234による分割値の決定の動作について、詳細に説明する。
その分割値は、指定された属性を分割軸としてデータセットを分割する時の、閾値である。例えば、分割値「生年:1956」は、「生年」の属性が「1956」以下のデータレコードrp111と「1956」を超えるデータレコードrp111とに、データセットsp110を分割することを示す。
図12は、データセットsp110の分割値候補1101〜1111の例を示す図である。
まず、分割値決定部3234は、図12に示すように、データセットsp110のデータレコードrp111を、分割属性決定部3233が決定した属性を、属性値が小さい順番に並べる。
次に、分割値決定部3234は、分割値候補1101〜1111を抽出する。分割値決定部3234が抽出する分割値候補1101〜1111は、分割されたデータセットsp110の前半部分(第3の個人データとも呼ばれる)と後半部分(第4の個人データとも呼ばれる)とのそれぞれのデータレコードrp111の数がk個以上になる分割値の候補である。例えば、「生年」の属性において属性値の「1951」を分割値とすると、その前半部分は、その属性値が1951以下の5個のデータレコードrp111を含む。また、その後半部分は、1952以上の15個のデータレコードrp111を含む。この場合、その前半部分とその後半部分とのそれぞれは、いずれも5個以上である。
図12に示すデータセットsp110において、分割値決定部3234は、分割値候補1101〜1111を抽出する。
次に、分割値決定部3234は、各分割値候補1101〜1111に対応する情報損失量ILAを計算する。例えば、分割値決定部3234は、式1を用いて情報損失量ILAを算出する。尚、分割値決定部3234は、式1に限らず、他の算出式を用いて情報損失量ILAを算出してもよい。
具体的には、例えば分割値候補1105でデータセットsp110を分割する場合、分割値決定部3234は、以下の様に情報損失量ILAを計算する。
分割値決定部3234は、図12に示すように、分割属性の「生年」の属性値により、昇順でデータセットsp110をソートする。分割値候補1105の分割値でデータセットsp110を分割した場合、その分割された前半部分のデータレコードrp111の一つの情報損失量ILRは、(1956−1943)÷(1977−1943)=0.382である。
従って、その前半部分の情報損失量ILRの合計は、データレコードrp111の数が9個であるので、0.382×9=3.438である。
また、その分割された後半部分のデータレコードrp111の1つの情報損失量ILRは、(1977−1961)÷(1977−1943)=0.471である。
従って、その後半部分の情報損失量ILRの合計は、データレコードrp111の数が11個であるので、0.471×11=5.181である。
従って、分割値候補1105で分割された場合の合計の情報損失量ILAは、3.438+5.181=8.619である。
同様にして算出される、分割値候補1101〜1104で分割された場合の、「生年」の属性のそれぞれの情報損失量ILAは、「11.76」、「12.47」、「10.67」及び「10.23」である。また、同様にして算出される、分割値候補1106〜1111で分割された場合の、「生年」の属性のそれぞれの情報損失量ILAは、「10.00」、「10.05」、「9.88」、「10.14」、「10.70」及び「10.73」である。
分割値候補1101〜1111のそれぞれに対する情報損失量ILAを計算した分割値決定部3234は、その情報損失量ILAが最小である分割値候補1105の「生年:1956」を分割値として決定する。
以上が、分割値決定部3234による分割値の決定の動作についての説明である。
図9Bの説明に戻る。次に、その分割値を決定した分割値決定部3234は、その決定した分割値「生年:1956」を匿名性評価部3235へ送信する(ステップS811)。換言すると、分割値決定部3234は、匿名性評価部3235に、匿名性の評価を要求する。
その分割値「生年:1956」を受信した匿名性評価部3235は、匿名性評価を行う(ステップS812)。
ここで、匿名性評価部3235による匿名性評価の動作について、詳細に説明する。
匿名性評価とは、匿名性の指標を満たすか否かを評価することである。匿名性評価部3235は、データセットsp110の分割されたその前半部分(第3の個人データ)とその後半部分(第4の個人データ)とについて更に分割を行った場合に、その更に分割された部分が匿名性の指標を満たすか否かを評価する。即ち、その前半部分及びその後半部分のそれぞれについて、データレコードrp111の数が2k個以上か否かを評価する。
匿名性評価部3235は、受信した分割値で分割されたその前半部分及びその後半部分のそれぞれのデータレコードrp111の数を計数する。例えば、その分割値「生年:1956」で分割した場合、匿名性評価部3235は、その前半部分のデータレコードrp111の数を9個、その後半部分のデータレコードrp111の数を11個と計数する。
以上が、匿名性評価部3235による匿名性評価の動作についての説明である。
図9Bの説明に戻る。次に、匿名化処理部323は、匿名性の指標を満たさないと匿名性評価部3235が評価した部分(例えば、その分割値「生年:1956」で分割された前半部分)について、ステップS813からステップS815の処理を実行する。また、匿名化処理部323は、匿名性の指標を満たすと匿名性評価部3235が評価した部分(例えば、その分割値「生年:1956」で分割された後半部分)について、ステップS821以降の処理を実行する。
その分割値「生年:1956」で分割された前半部分のデータレコードrp111の数は2k個未満であった。そこで、匿名性評価部3235は、「生年:1943〜1956」を含む汎化実行要求を汎化実行部3236へ送信する(ステップS813)
その汎化実行要求を受信した汎化実行部3236は、「生年」の属性の属性値が「1943」〜「1956」のデータレコードrp111を汎化する(ステップS814)。
その汎化実行要求を受信した汎化実行部3236は、「生年」の属性の属性値が「1943」〜「1956」のデータレコードrp111を汎化する(ステップS814)。
具体的には、汎化実行部3236は、「生年」の属性の属性値が「1943」〜「1956」に該当するデータレコードrp111の、「生年」の属性の属性値を「1943〜1956」に、「診療年月」の属性の属性値を「200512〜201107」に書き換える。
次に、汎化実行部3236は、書き換えたデータレコードrp111を匿名化済個人データ記憶装置200へ記録する(ステップS815)。換言すると、汎化実行部3236は、匿名化済個人データ記憶装置200へ匿名化済み個人データを登録する。
その分割値の「生年:1956」で分割された後半部分のデータレコードrp111の数は2k個以上であった。そこで、匿名化装置320は、そのデータセットsp110の分割された後半部分(第4の個人データ)を新たなデータセットsp(新たな第1の個人データ)として、ステップS821以降の処理(2回目の匿名化)を実行する。
図10Aにおいて、匿名性評価部3235は、「生年:1961〜1977」を含む再分割要求を分割属性決定部3233へ送信する(ステップS821)。
次に、その再分割要求を受信した分割属性決定部3233は、優先度決定情報3210を利用し、属性名及び対応するインデックス「生年:4、診療年月:1」に基づいて重みを生成する(ステップS822)
ここでは、分割属性決定部3233は、「生年」の属性に対応する重みを「8」、「診療年月」の属性に対応する重みを「1」と算出する。
ここでは、分割属性決定部3233は、「生年」の属性に対応する重みを「8」、「診療年月」の属性に対応する重みを「1」と算出する。
次に、分割属性決定部3233は、情報損失量計算部322へ情報損失量ILAの計算要求を行う(ステップS823)
次に、その情報損失量ILAの計算要求を受信した情報損失量計算部322は、個人データ記憶装置100へ「生年」の属性の属性値が「1961」〜「1977」であるデータレコードrp111(そのデータセットsp110の後半部分)の取得要求を送信する(ステップS824)。換言すると、情報損失量計算部322は、個人データ記憶装置100に個人データの取得を要求する。
次に、その情報損失量ILAの計算要求を受信した情報損失量計算部322は、個人データ記憶装置100へ「生年」の属性の属性値が「1961」〜「1977」であるデータレコードrp111(そのデータセットsp110の後半部分)の取得要求を送信する(ステップS824)。換言すると、情報損失量計算部322は、個人データ記憶装置100に個人データの取得を要求する。
次に、そのデータセットsp110の後半部分を受信した情報損失量計算部322は、情報損失量ILAを計算し、計算した情報損失量ILAを分割属性決定部3233へ送信する(ステップS825)。
ここでは、情報損失量計算部322は、そのデータセットsp110の後半部分について、「生年」の属性の情報損失量ILA−birth−ov1961を以下のように算出する。
(1977−1961)÷(1977−1943)×11=5.181
また、情報損失量計算部322は、「診療年月」の属性の情報損失量ILA−mc−ov1961を以下のように算出する。
また、情報損失量計算部322は、「診療年月」の属性の情報損失量ILA−mc−ov1961を以下のように算出する。
(201107−200512÷(201107−200612)=9.152
次に、分割属性決定部3233は、分割属性を決定する(ステップS826)
例えば、分割属性決定部3233は、式2を用いて、「生年」の属性について、重みが「8」、情報損失量ILA−birth−ov1961が「5.181」なので、「生年」属性の評価値として「41.448」を算出する。同様に、分割属性決定部3233は、「診療年月」の属性について、重みが「1」、情報損失量ILA−mc−ov1961が「9.152」なので、「診療年月」属性の評価値として「9.152」を算出する。
次に、分割属性決定部3233は、分割属性を決定する(ステップS826)
例えば、分割属性決定部3233は、式2を用いて、「生年」の属性について、重みが「8」、情報損失量ILA−birth−ov1961が「5.181」なので、「生年」属性の評価値として「41.448」を算出する。同様に、分割属性決定部3233は、「診療年月」の属性について、重みが「1」、情報損失量ILA−mc−ov1961が「9.152」なので、「診療年月」属性の評価値として「9.152」を算出する。
次に、分割属性決定部3233は、「生年」の属性の評価値が「診療年月」の属性の評価値よりも大きいので、属性名が「生年」の属性を分割属性として決定する。
次に、図10Bにおいて、分割属性決定部3233は、属性名の「生年」を含む分割値決定要求を分割値決定部3234へ送信する(ステップS827)。
分割値決定要求を受信した分割値決定部3234は、個人データ記憶装置100へ個人データ取得要求を送信する(ステップS828)。
ここでは、分割属性決定部3233は、2回目の匿名化の対象となるデータレコードrp111(例えば、そのデータセットsp110の後半部分)を、取得することを要求する。
対象となるデータレコードrp111を受信した分割値決定部3234は、分割値を決定する(ステップS829)。
図13は、そのデータセットsp110の分割された後半部分であるデータセットsp130(新たな第1の個人データ)の分割値候補1121及び分割値候補1122の例を示す図である。
まず、分割値決定部3234は、図13に示すように、データセットsp130のデータレコードrp111を、分割属性決定部3233が決定した属性の属性値の小さい順番に並べる。
次に、分割値決定部3234は、分割値候補を抽出する。図13に示すデータセットsp130において、分割値決定部3234は、分割値候補1121及び分割値候補1122を分割値候補として抽出する。
次に、分割値決定部3234は、分割値候補1121及び分割値候補1122のそれぞれに対する情報損失量ILA−birthを計算する。図13に示すデータセットsp130の場合、分割値決定部3234は、分割値候補1121及び分割値候補1122で分割した場合のそれぞれの情報損失量ILA−birthは、「5.565」及び「4.820」である。続けて、分割値決定部3234は、その情報損失量ILA−birthが最小である分割値候補1122の「生年:1963」を分割値として決定する。
次に、分割値を決定した分割値決定部3234は、決定した分割値「生年:1963」を匿名性評価部3235へ送信する(ステップS830)。換言すると、分割値決定部3234は、匿名性評価部3235に、匿名性の評価を要求する。
分割値「生年:1963」を受信した匿名性評価部3235は、匿名性評価を行う(ステップS831)。
匿名性評価部3235は、分割値の「生年:1963」で分割された、それぞれのデータレコードrp111の数を計数する。図14は、分割値決定部3234が分割値を分割値候補1222「生年:1963」に決定した場合の、図13に示すデータセットsp130が分割されるイメージを示す図である。図14に示す例では、匿名性評価部3235は、分割した後のその前半部分のデータセットsp140のデータレコードrp111の数を6個、分割した後のその後半部分のデータセットsp150のデータレコードrp111の数を5個と計数する。
データセットsp140及びデータセットsp150のそれぞれのデータレコードrp111の数が2k個未満である。そこで、匿名性評価部3235は、「生年:1961〜1963」を含む汎化実行要求及び「生年:1964〜1977」を含む汎化実行要求を汎化実行部3236へ送信する(ステップS813)。
汎化の実行要求を受信した汎化実行部3236は、「生年」の属性の属性値が「1961」〜「1963」のデータレコードrp111の汎化及び「生年」の属性の属性値が「1964」〜「1977」のデータレコードrp111の汎化を実行する(ステップS814)
図14に示すように、データセットsp140は、「生年」の属性の属性値が「1961〜1963」、「診療年月」の属性の属性値が「200612〜201105」に汎化される。また、データセットsp150は、「生年」の属性の属性値が「1964〜1977」、「診療年月」の属性の属性値が「200706〜201104」に汎化される。
図14に示すように、データセットsp140は、「生年」の属性の属性値が「1961〜1963」、「診療年月」の属性の属性値が「200612〜201105」に汎化される。また、データセットsp150は、「生年」の属性の属性値が「1964〜1977」、「診療年月」の属性の属性値が「200706〜201104」に汎化される。
次に、汎化実行部3236は、汎化したデータレコードrp111を匿名化済個人データ記憶装置200へ記録する(ステップS815)
上述した本実施形態における効果は、第1の実施形態の効果と同様に、利用目的に合致するように制御してデータセットを匿名化することと、匿名化されたデータセットにおける情報の損失を低減することとを両立させることができる点である。
上述した本実施形態における効果は、第1の実施形態の効果と同様に、利用目的に合致するように制御してデータセットを匿名化することと、匿名化されたデータセットにおける情報の損失を低減することとを両立させることができる点である。
その理由は、分割属性決定部3233が優先度pと情報損失量ILAとに基づいて評価値を生成し、生成した評価値に基づいて汎化する属性を決定するようにしたからである。
<<<第3の実施形態>>>
次に、本発明の第3の実施形態について図面を参照して詳細に説明する。以下、本実施形態の説明が不明確にならない範囲で、前述の説明と重複する内容については説明を省略する。
<<<第3の実施形態>>>
次に、本発明の第3の実施形態について図面を参照して詳細に説明する。以下、本実施形態の説明が不明確にならない範囲で、前述の説明と重複する内容については説明を省略する。
図15は、本実施形態に係る匿名化装置330の構成を示すブロック図である。本実施形態の匿名化装置330は、ボトムアップアプローチにより匿名化を行う。
図15に示すように、匿名化装置330は、優先度決定情報記憶部321と情報損失量計算部332と匿名化処理部333とを含む。
尚、匿名化装置330は、匿名化装置310に替えて、図2に示すシステムに含まれてよい。
優先度決定情報記憶部321は、優先度pを決定する情報を記憶する。尚、優先度pを決定する情報は、システムの利用者により予め設定されている。また、優先度pを決定する情報は、分割属性決定部3233が図5に示す通信部706により、予め外部のシステムから受信するようにしてもよい。
図16は、優先度決定情報記憶部321に記憶される優先度決定情報3310の一例を示す図である。図16に示すように、本実施形態の優先度決定情報3310は、優先順位と属性名と閾値との組を1以上含む。優先順位は、例えば、対応する属性名で特定される属性を、汎化する順番を示す。閾値は、例えば、下位の優先順位の属性の情報損失量ILAから上位の優先順位の属性の情報損失量ILAを引いた値が、この閾値を超える場合に、下位の優先順位の属性を汎化する順番を先にする場合の値を示す。
図16において、優先順位は、数字が小さいほど上位の優先順位であることを示すものとする。即ち、図16において、上位の優先順位の属性は、属性の名称が「年齢」の属性であり、下位の優先順位の属性は、属性の名称が「2011年度の診療月」の属性である。
尚、優先度決定情報は、優先順位と属性名との組を含むようにしてよい。この場合、匿名化処理部333は、例えば、図示しない内部記憶手段に閾値を保持するようにしてもよい。
情報損失量計算部332は、汎化による情報損失量ILAを算出し、出力する。情報損失量計算部332は、例えば、個人データの属性に含まれる異なる属性値の数を計数し、これを情報損失量ILAとする。
匿名化処理部333は、汎化属性決定部3333と汎化実行部3336と匿名性評価部3335とを含む。
汎化属性決定部3333は、汎化する属性を決定する。汎化属性決定部3333は、例えば、次のようにして、汎化する属性を決定する。第一に、汎化属性決定部3333は、優先順位が下位の属性の情報損失量ILAから優先順位が上位の属性の情報損失量ILAを減算して、情報損失量差分を算出する。次に、汎化属性決定部3333は、情報損失量差分とその優先順位が上位の属性の閾値とを比較する。そして、汎化属性決定部3333は、情報損失量差分が閾値以上の場合、下位の優先順位の属性を汎化することを決定する。また、汎化属性決定部3333は、情報損失量差分が閾値未満の場合、上位の優先順位の属性を汎化することを決定する。
尚、汎化属性決定部3333による、汎化する属性の決定は、以下のようしてもよい。まず、汎化属性決定部3333において、優先順位が上位の属性の優先度pはその属性の閾値であり、優先順位が下位の属性の優先度pは「0」である。汎化属性決定部3333は、それらの属性のそれぞれについて、評価値=情報損失量ILA+優先度pという評価式を利用して評価値を算出する。次に、汎化属性決定部3333は、評価値の大きい属性を、汎化する属性として決定する。尚、優先順位が上位の属性と優先順位が下位の属性とで評価値が同じである場合、汎化属性決定部3333は、例えばその優先順位が上位の属性を、汎化する属性として決定するようにしてよい。
汎化実行部3336は、汎化属性決定部3333が決定したその属性を汎化する。
匿名性評価部3335は、汎化実行部3336が汎化したデータセットが匿名性指標を満たしているか否かを判定する。
図17は、本実施形態の個人データ記憶装置100に記憶されるデータセットsp160の一例を示す図である。図17に示すデータセットsp160の各データレコードrp161のそれぞれは、「氏名」、「年齢」、「2011年度診療月」及び「病名」の属性の属性値を含む。尚、本実施形態では、「年齢」と「2011年度診療年月」を匿名化対象の属性(準識別子である)とする。
以上説明した匿名化装置330は、図1に示す匿名化装置310と同様に、図5に示すコンピュータ700によって実現してもよい。
図18A、図18Bび図18Cは、本実施形態における匿名化装置330の動作を示すシーケンス図である。
図18Aにおいて、汎化属性決定部3333は、例えば図5に示す入力部704からのシステムの利用者による匿名化実行要求の入力を、受け付ける(ステップS841)。
ここで、匿名化実行要求は、例えば、k−匿名化のkの値(例えば、「3」)を含む。
次に、その匿名化実行要求を受信した汎化属性決定部3333は、優先度決定情報記憶部321に優先度決定情報取得要求を送信する(ステップS842)。
次に、その優先度決定情報取得要求の応答として優先度決定情報3310を受信した汎化属性決定部3333は、情報損失量計算部332へ情報損失量計算要求を送信する。(ステップS843)。
次に、その情報損失量計算要求を受信した情報損失量計算部332は、個人データ記憶装置100に個人データ取得要求を送信する。(ステップS844)。
次に、その個人データ取得要求への応答としてデータセットsp160を受信した情報損失量計算部332は、情報損失量ILAを計算し、その計算した情報損失量ILAを汎化属性決定部3333へ送信する(ステップS845)。
ここで、情報損失量計算部332は、情報損失量ILAを属性の値の種類の数で計算する。即ち、情報損失量計算部332は、「年齢」の属性の属性値の種類が12種類なので、「年齢」の属性の情報損失量ILAbirthを「12」と計算する。また、情報損失量計算部332は、「2011年度診療月」の属性の属性値の種類が10種類なので、「2011年度診療月」の属性の情報損失量ILAmc2011を「10」と計算する。
次に、情報損失量ILAを受信した汎化属性決定部3333は、汎化する属性を決定する(ステップS846)。
例えば、汎化属性決定部3333は、受信した優先度決定情報3310を利用して、受信した情報損失量ILAに基づいて、その汎化する属性を決定する。
例えば、汎化属性決定部3333は、優先順位が「2」の属性である「2011年度の診療月」の情報損失量ILAから、優先順位が「1」の属性である「年齢」の情報損失量ILAを減算して、情報損失量差分を算出する。即ち、10−12=−2を算出する。次に、汎化属性決定部3333は、その情報損失量差分と優先順位が「1」の属性である「年齢」の閾値(「3」)とを比較する。この場合、−2<3なので、汎化属性決定部3333は、優先順位が「1」の属性である「年齢」を汎化することを決定する。
尚、汎化属性決定部3333は、実施形態1で説明した方法を用いて、汎化する属性を決定してもよい。
次に、汎化属性決定部3333は、その汎化すると決定した属性の属性名(この場合、「年齢」)を含む汎化実行要求を汎化属性実行部に送信する(ステップS847)。
次に、その汎化実行要求を受信した汎化実行部3336は、図17に示すデータセットsp160を図19に示すデータセットsp162のように汎化する(ステップS848)。
図19は、本実施形態の匿名化装置330による匿名化処理の途中段階の(一部が汎化された)データセットの例を示す図である。
次に、汎化実行部3336は、データセットsp162を含む匿名性評価要求を匿名性評価部3335へ送信する(ステップS849)。
尚、汎化実行部3336は、データセットsp162を図5に示す記憶部702に格納し、その格納したアドレスを含む匿名性評価要求を匿名性評価部3335へ送信するようにしてもよい。以下における匿名性評価要求についても同様である。
次に、その匿名性評価要求を受信した匿名性評価部3335は、データセットsp162の匿名性を評価する。図19のデータセットsp162の場合、匿名性評価部3335は、「診療月」の属性についてk−匿名性のkの値(「3」)を満たしていないと判定する(ステップS850)。
次に、図18Bにおいて、匿名性評価部3335は、汎化属性決定部3333へ汎化属性決定要求を送信する(ステップS851)。
次に、その汎化属性決定要求を受信した汎化属性決定部3333は、情報損失量計算部332へ情報損失量計算要求を送信する(ステップS852)。
次に、その汎化属性決定要求を受信した汎化属性決定部3333は、情報損失量計算部332へ情報損失量計算要求を送信する(ステップS852)。
次に、その情報損失量計算要求を受信した情報損失量計算部332は、情報損失量ILAを計算し、計算した情報損失量ILAを汎化属性決定部3333へ送信する(ステップS853)。
ここで、図19に示すデータセットsp162の場合、「年齢」の属性の属性値の種類は「21〜24」、「31〜40」、「41〜51」及び「52〜58」の4種類である。また、「2011年度診療月」の属性の属性値の種類は、10種類である。従って、情報損失量計算部332は、「年齢」及び「2011年度診療月」のそれぞれの属性に対応する情報損失量ILA−birth及び情報損失量ILA−mc2011を、「4」及び「10」と計算する。
次に、その情報損失量ILAを受信した汎化属性決定部3333は、汎化する属性の決定をする(ステップS854)。
優先順位が「1」の「年齢」の属性の情報損失量ILA−birthは「4」、優先順位が「2」の「2011年度診療月」の属性の情報損失量ILA−mc2011は「10」なので、情報損失量差分は、以下のとおりである。
10−4=6
汎化属性決定部3333は、この情報損失量差分(「6」)と優先順位が「1」の属性である「年齢」の閾値(「3」)とを比較する。この場合、6>3なので、汎化属性決定部3333は、優先順位が「2」の属性である「2011年度診療月」を汎化することを決定する。
汎化属性決定部3333は、この情報損失量差分(「6」)と優先順位が「1」の属性である「年齢」の閾値(「3」)とを比較する。この場合、6>3なので、汎化属性決定部3333は、優先順位が「2」の属性である「2011年度診療月」を汎化することを決定する。
次に、汎化属性決定部3333は、その汎化すると決定した属性名(この場合、「2011年度診療月」)を含む汎化実行要求を汎化属性実行部に送信する(ステップS855)。
次に、その汎化実行要求を受信した汎化実行部3336は、図19に示すデータセットsp162を図20に示すデータセットsp163のように汎化する(ステップS856)。
図20は、本実施形態の匿名化装置330による匿名化処理の途中段階の(一部が汎化された)データセットの例を示す図である。
次に、汎化実行部3336は、データセットsp163を含む匿名性評価要求を匿名性評価部3335へ送信する(ステップS857)
次に、その匿名性評価要求を受信した匿名性評価部3335は、データセットsp163の匿名性を評価する。図20に示すデータセットsp163の場合、匿名性評価部3335は、「診療月」の属性と「2011年度診療月」の属性とを組み合わせた場合について、k−匿名性のkの値(「3」)を満たしていないと判定する(ステップS858)。
次に、その匿名性評価要求を受信した匿名性評価部3335は、データセットsp163の匿名性を評価する。図20に示すデータセットsp163の場合、匿名性評価部3335は、「診療月」の属性と「2011年度診療月」の属性とを組み合わせた場合について、k−匿名性のkの値(「3」)を満たしていないと判定する(ステップS858)。
次に、匿名性評価部3335は、汎化属性決定部3333へ汎化属性決定要求を送信する(ステップS859)。
次に、図18Cにおいて、その汎化属性決定要求を受信した汎化属性決定部3333は、情報損失量計算部332へ情報損失量計算要求を送信する(ステップS860)。
次に、図18Cにおいて、その汎化属性決定要求を受信した汎化属性決定部3333は、情報損失量計算部332へ情報損失量計算要求を送信する(ステップS860)。
次に、その情報損失量計算要求を受信した情報損失量計算部332は、情報損失量ILAを計算し、その計算した情報損失量ILAを汎化属性決定部3333へ送信する(ステップS861)
ここで、図20に示すデータセットsp163の場合、「年齢」の属性の属性値の種類は4種類、「2011年度診療月」の属性の属性値の種類は4種類である。従って、情報損失量計算部332は、「年齢」及び「2011年度診療月」のそれぞれの属性に対応する情報損失量ILA−birth及び情報損失量ILA−mc2011を、何れも「4」と計算する。
ここで、図20に示すデータセットsp163の場合、「年齢」の属性の属性値の種類は4種類、「2011年度診療月」の属性の属性値の種類は4種類である。従って、情報損失量計算部332は、「年齢」及び「2011年度診療月」のそれぞれの属性に対応する情報損失量ILA−birth及び情報損失量ILA−mc2011を、何れも「4」と計算する。
次に、情報損失量ILAを受信した汎化属性決定部3333は、汎化する属性を決定する(ステップS862)。
優先順位が「1」の「年齢」の属性の情報損失量ILA−birthは「4」、優先順位が「2」の「2011年度診療月」の属性の情報損失量ILA−mc2011は「4」なので、情報損失量差分は、以下のとおりである。
4−4=0
汎化属性決定部3333は、この情報損失量差分(「0」)と優先順位が「1」の属性である「年齢」の閾値(「3」)とを比較する。この場合、0<3なので、汎化属性決定部3333は、優先順位が「1」の属性である「年齢」を汎化することを決定する。
汎化属性決定部3333は、この情報損失量差分(「0」)と優先順位が「1」の属性である「年齢」の閾値(「3」)とを比較する。この場合、0<3なので、汎化属性決定部3333は、優先順位が「1」の属性である「年齢」を汎化することを決定する。
次に、汎化属性決定部3333は、汎化すると決定した属性の属性名(この場合、「年齢」)を含む汎化実行要求を、汎化実行部3336に送信する(ステップS863)。
次に、その汎化実行要求を受信した汎化実行部3336は、図20に示すデータセットsp163を図21に示すデータセットsp164のように汎化する(ステップS864)。
図21は、本実施形態の匿名化装置330により匿名化処理されたデータセットの例を示す図である。
次に、汎化実行部3336は、データセットsp164を含む匿名性評価要求を匿名性評価部3335へ送信する(ステップS865)
次に、その匿名性評価要求を受信した匿名性評価部3335は、データセットsp164の匿名性を評価する。図21に示すデータセットsp164の場合、匿名性評価部3335は、データセットsp164がk−匿名性を満たしていると判定する(ステップS866)。
次に、その匿名性評価要求を受信した匿名性評価部3335は、データセットsp164の匿名性を評価する。図21に示すデータセットsp164の場合、匿名性評価部3335は、データセットsp164がk−匿名性を満たしていると判定する(ステップS866)。
次に、匿名性評価部3335は、その匿名性を満たしたデータセットsp164を、匿名化済個人データ記憶装置200へ送信する(ステップS867)。
データセットsp164を受信した匿名化済個人データ記憶部2aは、そのデータセットsp164を匿名化済データセットst120(匿名化済個人データ)として記憶する。(ステップS868)
上述した本実施形態における効果は、第1の実施形態の効果と同様に、利用目的に合致するように制御してデータセットを匿名化することと、匿名化されたデータセットにおける情報の損失を低減することとを両立して可能にできる点である。
上述した本実施形態における効果は、第1の実施形態の効果と同様に、利用目的に合致するように制御してデータセットを匿名化することと、匿名化されたデータセットにおける情報の損失を低減することとを両立して可能にできる点である。
その理由は、汎化属性決定部3333が優先順位と閾値と情報損失量ILAとに基づいて評価値を生成し、生成した評価値に基づいて汎化する属性を決定するようにしたからである。
以上の各実施形態で説明した各構成要素は、必ずしも個々に独立した存在である必要はない。例えば、各構成要素は、複数の構成要素が1個のモジュールとして実現されてよい。また、各構成要素は、1つの構成要素が複数のモジュールで実現されてもよい。また、各構成要素は、ある構成要素が他の構成要素の一部であるような構成であってよい。また、各構成要素は、ある構成要素の一部と他の構成要素の一部とが重複するような構成であってもよい。
以上説明した各実施形態における各構成要素及び各構成要素を実現するモジュールは、必要に応じ、可能であれば、ハードウェア的に実現されてよい。また、各構成要素及び各構成要素を実現するモジュールは、コンピュータ及びプログラムで実現されてよい。また、各構成要素及び各構成要素を実現するモジュールは、ハードウェア的なモジュールとコンピュータ及びプログラムとの混在により実現されてもよい。
そのプログラムは、例えば、磁気ディスクや半導体メモリなど、不揮発性のコンピュータ可読記録媒体に記録されて提供され、コンピュータの立ち上げ時などにコンピュータに読み取られる。この読み取られたプログラムは、そのコンピュータの動作を制御することにより、そのコンピュータを前述した各実施形態における構成要素として機能させる。
また、以上説明した各実施形態では、複数の動作をフローチャートの形式で順番に記載してあるが、その記載の順番は複数の動作を実行する順番を限定するものではない。このため、各実施形態を実施するときには、その複数の動作の順番は内容的に支障しない範囲で変更することができる。
更に、以上説明した各実施形態では、複数の動作は個々に相違するタイミングで実行されることに限定されない。例えば、ある動作の実行中に他の動作が発生したり、ある動作と他の動作との実行タイミングが部分的に乃至全部において重複していたりしていてもよい。
更に、以上説明した各実施形態では、ある動作が他の動作の契機になるように記載しているが、その記載はある動作と他の動作との全ての関係を限定するものではない。このため、各実施形態を実施するときには、その複数の動作の関係は内容的に支障のない範囲で変更することができる。また各構成要素の各動作の具体的な記載は、各構成要素の各動作を限定するものではない。このため、各構成要素の具体的な各動作は、各実施形態を実施する上で機能的、性能的、その他の特性に対して支障をきたさない範囲内で変更されて良い。
以上、各実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解しえる様々な変更をすることができる。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2012年8月20日に出願された日本出願特願2012−181684を基礎とする優先権を主張し、その開示の全てをここに取り込む。
100 個人データ記憶装置
110 データセットsp
111 データレコードrp
130 データセットsp
140 データセットsp
150 データセットsp
160 データセットsp
161 データレコードrp
162 データセットsp
163 データセットsp
164 データセットsp
200 匿名化済個人データ記憶装置
210 匿名化済データセットsa
211 匿名化済データレコード
310 匿名化装置
312 情報損失量計算部
313 匿名化処理部
320 匿名化装置
321 優先度決定情報記憶部
322 情報損失量計算部
323 匿名化処理部
700 コンピュータ
701 CPU
702 記憶部
703 記憶装置
704 入力部
705 出力部
706 通信部
707 記録媒体
1105 分割値候補
1121 分割値候補
1122 分割値候補
3210 優先度決定情報
3233 分割属性決定部
3234 分割値決定部
3235 匿名性評価部
3236 汎化実行部
1101〜1104 分割値候補
1101〜1111 分割値候補
1106〜1111 分割値候補
110 データセットsp
111 データレコードrp
130 データセットsp
140 データセットsp
150 データセットsp
160 データセットsp
161 データレコードrp
162 データセットsp
163 データセットsp
164 データセットsp
200 匿名化済個人データ記憶装置
210 匿名化済データセットsa
211 匿名化済データレコード
310 匿名化装置
312 情報損失量計算部
313 匿名化処理部
320 匿名化装置
321 優先度決定情報記憶部
322 情報損失量計算部
323 匿名化処理部
700 コンピュータ
701 CPU
702 記憶部
703 記憶装置
704 入力部
705 出力部
706 通信部
707 記録媒体
1105 分割値候補
1121 分割値候補
1122 分割値候補
3210 優先度決定情報
3233 分割属性決定部
3234 分割値決定部
3235 匿名性評価部
3236 汎化実行部
1101〜1104 分割値候補
1101〜1111 分割値候補
1106〜1111 分割値候補
Claims (12)
- 匿名化対象の第1の個人データに含まれる属性のそれぞれに対応する情報損失量を算出し、出力する情報損失量計算手段と、
前記属性のそれぞれに対応する優先度と前記情報損失量とに基づいて加工の対象とする前記属性を決定し、前記第1の個人データの前記決定した属性の属性値を加工した第2の個人データを生成し、出力する匿名化処理手段と、
を含む情報処理装置。 - 前記優先度は、前記加工した第2の個人データにおける情報の損失を、前記属性のいずれについてより少なくするかを示す
ことを特徴とする請求項1記載の情報処理装置。 - 前記優先度を決定する情報を記憶する優先度決定情報記憶手段を更に含み、
前記匿名化処理手段は、前記優先度を決定する情報に基づいて前記優先度を決定する
ことを特徴とする請求項1または2記載の情報処理装置。 - 前記匿名化処理手段は、前記情報損失量が一定ならば前記優先度が高いほど、及び前記優先度が一定ならば前記情報損失量が大きいほど演算結果が大きくなるような評価式を利用して評価値を算出し、前記算出した評価値が最大の前記属性を前記加工の対象とする属性として決定する
ことを特徴とする請求項1乃至3のいずれか1項に記載の情報処理装置。 - 前記評価式は、情報損失量と優先度とを乗じる演算を含む
ことを特徴とする請求項4記載の情報処理装置。 - 前記評価式は、情報損失量と優先度とを加算する演算を含む
ことを特徴とする請求項4記載の情報処理装置。 - 前記匿名化処理手段は、
前記第1の個人データが匿名化の対象である前記属性のそれぞれの属性値を同一の値に汎化される場合の、前記情報損失量を算出し、算出した前記情報損失量に基づいて汎化対象である分割属性を決定する分割属性決定手段と、
前記決定した分割属性を軸として前記第1の個人データを分割して前記分割属性の属性値を汎化する場合の前記情報損失量が最小であるように、前記分割属性の分割値を決定する分割値決定手段と、
前記決定した分割値で前記第1の個人データを分割して生成した第3の個人データ及び第4の個人データのそれぞれについて、更なる分割が可能か否かを判定する匿名性評価手段と、
前記匿名化評価手段が更なる分割が可能でないと判定した前記第3の個人データ及び前記第4の個人データの前記分割属性の属性値を汎化し、出力する汎化実行手段と、を含み、
前記分割属性決定手段と前記分割値決定手段とは、前記匿名性評価手段が更なる分割が可能であると判定した前記第3の個人データ及び前記第4の個人データを新たな第1の個人データとして処理する
ことを特徴とする請求項1乃至6のいずれか1項に記載の情報処理装置。 - 前記匿名化処理手段は、
前記第1の個人データの匿名化の対象である前記属性のそれぞれに対応する前記情報損失量を算出し、算出した前記情報損失量と前記優先度とに基づいて汎化対象である汎化属性を決定する汎化属性決定手段と、
前記第1の個人データに含まれる前記決定した汎化属性の属性値を汎化して、第5の個人データを生成する汎化実行手段と、
前記第5の個人データについて、所定の匿名性を有しているか否かを判定し、前記第5の個人データが所定の匿名性を有していると判定した場合、前記第5の個人データを前記第2の個人データとして、出力する匿名性評価手段と、を含み、
前記汎化属性決定手段及び汎化実行手段は、前記匿名性評価手段が前記第5の個人データが所定の匿名性を有していないと判定した場合、前記第5の個人データを新たな第1の個人データとして処理する
ことを特徴とする請求項1乃至6のいずれか1項に記載の情報処理装置。 - コンピュータが、
匿名化対象の第1の個人データに含まれる属性のそれぞれに対応する情報損失量を算出し、出力し、
前記属性のそれぞれに対応する優先度と前記情報損失量とに基づいて加工の対象とする前記属性を決定し、
前記第1の個人データの前記決定した属性の属性値を加工した第2の個人データを生成し、出力する、
匿名化処理方法。 - 前記コンピュータが、
前記情報損失量が一定ならば前記優先度が高いほど、及び前記優先度が一定ならば前記情報損失量が大きいほど演算結果が大きくなるような評価式を利用して評価値を算出し、
前記算出した評価値が最大の前記属性を前記加工の対象とする属性として決定する
ことを特徴とする請求項9記載の匿名化処理方法。 - 匿名化対象の第1の個人データに含まれる属性のそれぞれに対応する情報損失量を算出し、出力する処理と、
前記属性のそれぞれに対応する優先度と前記情報損失量とに基づいて加工の対象とする前記属性を決定する処理と、
前記第1の個人データの前記決定した属性の属性値を加工した第2の個人データを生成し、出力する処理と、をコンピュータに実行させる
プログラムを記録した不揮発性記録媒体。 - 前記属性を決定する処理は、
前記情報損失量が一定ならば前記優先度が高いほど、及び前記優先度が一定ならば前記情報損失量が大きいほど演算結果が大きくなるような評価式を利用して評価値を算出する処理と、
前記算出した評価値が最大の前記属性を前記加工の対象とする属性として決定する処理と、を含む
ことを特徴とする請求項11記載のプログラムを記録した不揮発性記録媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012181684 | 2012-08-20 | ||
JP2012181684 | 2012-08-20 | ||
PCT/JP2013/004624 WO2014030302A1 (ja) | 2012-08-20 | 2013-07-31 | 匿名化を実行する情報処理装置及び匿名化処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2014030302A1 true JPWO2014030302A1 (ja) | 2016-07-28 |
Family
ID=50149634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014531490A Pending JPWO2014030302A1 (ja) | 2012-08-20 | 2013-07-31 | 匿名化を実行する情報処理装置及び匿名化処理方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPWO2014030302A1 (ja) |
WO (1) | WO2014030302A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6610334B2 (ja) * | 2016-02-29 | 2019-11-27 | 富士通株式会社 | 漏洩リスク提供装置、漏洩リスク提供方法および漏洩リスク提供プログラム |
EP3522056B1 (en) * | 2018-02-06 | 2022-05-18 | Nokia Technologies Oy | Distributed computing system for anonymized computation |
JP7242407B2 (ja) * | 2019-04-26 | 2023-03-20 | 株式会社日立製作所 | 匿名加工システム、匿名加工プログラム及び匿名加工方法 |
JP7257938B2 (ja) * | 2019-11-20 | 2023-04-14 | 株式会社日立製作所 | 匿名加工システム、匿名加工プログラム及び匿名加工方法 |
US20230418977A1 (en) * | 2022-06-28 | 2023-12-28 | Here Global B.V. | Method, apparatus, and computer program product for estimating the privacy risk of anonymized trajectory data |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130138698A1 (en) * | 2010-05-19 | 2013-05-30 | Kunihiko Harada | Identity information de-identification device |
JP5511532B2 (ja) * | 2010-06-16 | 2014-06-04 | Kddi株式会社 | 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム |
CN102314565B (zh) * | 2010-07-02 | 2014-08-27 | 日电(中国)有限公司 | 数据匿名化装置和方法 |
-
2013
- 2013-07-31 WO PCT/JP2013/004624 patent/WO2014030302A1/ja active Application Filing
- 2013-07-31 JP JP2014531490A patent/JPWO2014030302A1/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2014030302A1 (ja) | 2014-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230409750A1 (en) | Smart de-identification using date jittering | |
US9230132B2 (en) | Anonymization for data having a relational part and sequential part | |
Kumar et al. | Blockchain utilization in healthcare: Key requirements and challenges | |
US10614248B2 (en) | Privacy preserving cross-organizational data sharing with anonymization filters | |
JP6007969B2 (ja) | 匿名化装置及び匿名化方法 | |
Arellano et al. | Privacy policy and technology in biomedical data science | |
EP2793162A1 (en) | Anonymization device, anonymization method, and computer program | |
WO2014030302A1 (ja) | 匿名化を実行する情報処理装置及び匿名化処理方法 | |
JP6471699B2 (ja) | 情報判定装置、情報判定方法及びプログラム | |
US20160306999A1 (en) | Systems, methods, and computer-readable media for de-identifying information | |
US20210165913A1 (en) | Controlling access to de-identified data sets based on a risk of re- identification | |
JP2013200659A (ja) | 属性選択装置、情報匿名化装置、属性選択方法、情報匿名化方法、属性選択プログラム、及び情報匿名化プログラム | |
JP5782636B2 (ja) | 情報匿名化システム、情報損失判定方法、及び情報損失判定プログラム | |
JP2019144723A (ja) | 匿名加工装置、情報匿名化方法、およびプログラム | |
Cavoukian et al. | Start with privacy by design in all big data applications | |
Vardalachakis et al. | ShinyAnonymizer: A Tool for Anonymizing Health Data. | |
JP2014066831A (ja) | データ処理プログラム、データ処理装置及びデータ処理システム | |
Huertas Celdran et al. | Preserving patients’ privacy in health scenarios through a multicontext-aware system | |
JP5839460B2 (ja) | 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム | |
Chen et al. | Architecture and building the medical image anonymization service: cloud, big data and automation | |
JPWO2013183250A1 (ja) | 匿名化を行う情報処理装置及び匿名化方法 | |
US20210319916A1 (en) | Risk mitigation based on tracking of patient care | |
Tomashchuk et al. | Operationalization of privacy and security requirements for eHealth IoT applications in the context of GDPR and CSL | |
WO2013190810A1 (ja) | 情報処理装置、及び、情報匿名化方法 | |
Mazumder et al. | A single-center prospective observational study evaluating telemedicine for kidney transplant patients in the coronavirus disease-19 pandemic: breaking the access barrier |