WO2014006851A1

WO2014006851A1 - 匿名化装置、匿名化システム、匿名化方法、及び、プログラム記録媒体

Info

Publication number: WO2014006851A1
Application number: PCT/JP2013/003980
Authority: WO
Inventors: 由起豊田
Original assignee: 日本電気株式会社
Priority date: 2012-07-02
Filing date: 2013-06-26
Publication date: 2014-01-09
Also published as: JPWO2014006851A1

Abstract

情報のｋ－匿名性を確保すると同時に、情報の損失を抑えた匿名化を行うための匿名化装置を提供する。本願発明の匿名化装置は、入力されるレコードを、レコードに含まれるデータ項目の属性値が取りうる範囲を分割した区間に対応するグループに分類する分類手段と、包含するレコードの数が閾値未満である前記グループを少数グループと判定する判定手段と、グループが少数グループである場合に、少数グループに隣接するグループのレコードであって、データ項目の属性値が少数グループとの境界値から所定幅の範囲に属するレコードを、少数グループの所属に変更する変更手段と、レコードの前記データ項目の属性値を、所属するグループに対応する区間の識別情報に置き換え、レコードを出力する出力手段と、を備える。

Description

匿名化装置、匿名化システム、匿名化方法、及び、プログラム記録媒体

　本願発明は、データに対して匿名化処理を行う匿名化装置、匿名化方法、及び、プログラム記録媒体に関する。

　医療機関等において、ある病気の患者数は、年齢や性別ごとにグラフ等にして統計データとして利用される。しかしこれらのデータの元となる患者データは、受診年月日や生年月日等の情報の組み合わせによって個人が特定される場合がある。そこで、個人情報の保護の観点で、個人を特定されないようにこれらのデータを匿名化する必要がある。

　匿名性に関する代表的な指標の一つとしてｋ－匿名性がある。ｋ－匿名性とは、個人を特定する恐れがある情報である準識別子の項目を、グループに分類して匿名化する等の処理を行うことより、同じ準識別子を有するレコード数が所定の閾値以上になることを保証するための指標である。

　このｋ－匿名性に関連する技術として、特許文献１には、匿名化の対象データにおける個々の項目に対して匿名化を行った結果、所属するレコード数が所定の閾値未満であるグループが存在する場合は、匿名化区分を変更して再度匿名化処理を行う装置が公開されている。

　また、特許文献２には、データの利用目的に応じて、複数の準識別子の項目に対して優先順位を付け、優先順位が最下位の準識別子の項目から順番にｋ－匿名性を満たすまで匿名化処理を行う装置が公開されている。

　また、特許文献３には、コンテンツの属性条件に一致するユーザ情報を取得して、ユーザ情報数が一定数未満であれば、最多アクセス数の属性値を得て属性条件にＯＲ条件で追加してユーザ情報を取得するユーザ情報管理装置が公開されている。このユーザ情報管理装置は、ユーザ情報数が一定数以上であれば、コンテンツへのアクセス情報を含むコンテンツ取得方法を送信し、コンテンツ提供依頼を受信すると、そのコンテンツを取得して送信する。さらに前記ユーザ情報管理装置は、属性条件に指定された属性値毎に、アクセスした同じ属性値を持つユーザ数をアクセス数として集計して記録する。

特開２０１０－８６１７９号公報特開２０１２－３４４０号公報特開２０１１－１７５３１３号公報

　前述の特許文献１から特許文献３の装置では、情報の匿名化の過程で、ｋ－匿名性を満たすまで、匿名化の対象とする準識別子の項目のグループ単位を次第に広げていく処理を行う。この為、グループの粒度が粗くなればなるほど、情報の損失量が増加することになる。したがって、特許文献１から特許文献３の装置では、匿名化処理により、その情報が本来保持している統計データとしての特性を大きく損なう可能性がある。その場合、匿名化したデータは、医学研究などの利用目的に合致しないものになるという問題点がある。

　本願発明の目的は、上述の問題点を解決した匿名化装置、匿名化システム、匿名化方法、及び、匿名化プログラムを提供することである。

　本願発明の一実施形態の匿名化装置は、入力されるレコードを、前記レコードに含まれるデータ項目の属性値が取りうる範囲を分割した区間に対応するグループに分類する分類手段と、包含するレコードの数が閾値未満である前記グループを少数グループと判定する判定手段と、前記グループが少数グループである場合に、前記少数グループに隣接するグループのレコードであって、前記データ項目の属性値が前記少数グループとの境界値から所定幅の範囲に属するレコードを、前記少数グループの所属に変更する変更手段と、前記レコードの前記データ項目の属性値を、所属するグループに対応する区間の識別情報に置き換え、前記レコードを出力する出力手段と、を備える。

　本願発明の一実施形態の匿名化方法は、入力されるレコードを、前記レコードに含まれるデータ項目の属性値が取りうる範囲を分割した区間に対応するグループに分類し、包含するレコードの数が閾値未満である前記グループを少数グループと判定し、前記グループが少数グループである場合に、前記少数グループに隣接するグループのレコードであって、前記データ項目の属性値が前記少数グループとの境界値から所定幅の範囲に属するレコードを、前記少数グループの所属に変更し、前記レコードの前記データ項目の属性値を、所属するグループに対応する区間の識別情報に置き換え、前記レコードを出力する。

　本願発明の一実施形態の匿名化プログラムは、入力されるレコードを、前記レコードに含まれるデータ項目の属性値が取りうる範囲を分割した区間に対応するグループに分類する分類処理と、包含するレコードの数が閾値未満である前記グループを少数グループと判定する判定処理と、前記グループが少数グループである場合に、前記少数グループに隣接するグループのレコードであって、前記データ項目の属性値が前記少数グループとの境界値から所定幅の範囲に属するレコードを、前記少数グループの所属に変更する変更処理と、前記レコードの前記データ項目の属性値を、所属するグループに対応する区間の識別情報に置き換え、前記レコードを出力する出力処理と、をコンピュータに実行させる。

　本願発明は、情報のｋ－匿名性を確保すると同時に、情報の損失を抑えた匿名化を行うことを実現する。

本願発明の第一の実施形態の匿名化システムの構成を示すブロック図である。本願発明の第一の実施形態の動作を示すフローチャートである。本願発明の第一の実施形態における入力情報の匿名化処理の例を示す図である。本願発明の第二の実施形態におけるグループ化指標記憶部に格納された情報の例を示す図である。本願発明の第二の実施形態における入力情報の匿名化処理の例を示す図である。本願発明の第三の実施形態の匿名化システムの構成を示すブロック図である。本願発明の第三の実施形態における入力情報の匿名化処理の例を示す図である。本願発明の第四の実施形態における入力情報の匿名化処理の例を示す図である。本願発明の第五の実施形態の匿名化システムの構成を示すブロック図である。本願発明の第五の実施形態における調整幅記憶部に格納された情報の構成例を示す図である。本願発明の第五の実施形態における入力情報の匿名化処理の例を示す図である。本願発明の第六の実施形態の匿名化装置の構成を示すブロック図である。

＜第一の実施形態＞
　本願発明の第一の実施の形態について図面を参照して詳細に説明する。

　図１は本実施形態の匿名化システムの構成を示すブロック図である。本実施形態の匿名化システム１は、匿名化装置１０と、入力情報格納部２０と、匿名化情報格納部３０とを含む。

　匿名化装置１０は、入力情報格納部２０に格納された患者データ等の入力情報を匿名化処理して、匿名化情報格納部３０に格納する。

　匿名化装置１０は、分類部１００と、グループ化指標記憶部１０１と、判定部１０２と、匿名化指標記憶部１０３と、変更部１０４と、調整幅記憶部１０５と、出力部１０６とを含む。

　分類部１００は、入力情報格納部２０に格納された入力情報を受け取る。入力情報の構成例を図３に示す。本実施形態の入力情報は、例えば、医療機関における患者データである。入力情報における各レコードは、患者の年齢と病名との項目を含む。なお、以下ではレコードの項目をデータ項目、または、属性とも呼び、その内容を属性値と呼ぶ。

　分類部１００は、グループ化指標記憶部１０１に格納されたグループ化指標に基づき、入力情報の各レコードを複数のグループに分類する。具体的には、グループ化指標は、レコード内のデータ項目と、当該データ項目の属性値の区間の幅とを指定している。そして、分類部１００は、グループ化指標を参照して、当該グループ化指標で指定されたデータ項目の値が、同じ区間に入るレコード同士を同じグループに分類する。

　グループ化指標記憶部１０１は、例えば、匿名化システム１の管理者により設定された「年齢の項目を対象に、０歳から７９歳までは５歳幅、８０歳以上は１つにまとめる」というグループ化指標を格納している。図３に示すとおり、分類部１００は、入力情報における「１０歳１０か月」乃至「１４歳１１か月」の１０個のレコードを「１０歳から１４歳」のグループに分類し、「１７歳８か月」と「１９歳５か月」の２個のレコードを、「１５歳から１９歳」のグループに分類する。

　判定部１０２は、分類部１００がグループ化した各グループが包含するレコード数が、匿名化指標記憶部１０３に格納された匿名化指標の値以上であるか否かを判定する。匿名化指標記憶部１０３は、例えば、匿名化システム１の管理者により設定された匿名化指標である「５」を記憶している。

　判定部１０２は、上述の２つのグループのうち、「１５歳から１９歳」のグループのレコード数が２個であり、匿名化指標の値である「５」未満であることを判定する。そして、判定部１０２は、「１５歳から１９歳」のグループのレコード数が匿名化指標の値未満であることを変更部１０４へ報告する。

　変更部１０４は、判定部１０２からの報告を受け、調整幅記憶部１０５に格納された調整幅に基づき、レコードのグループ分類における変更処理を行う。調整幅記憶部１０５は、例えば、匿名化システム１の管理者により設定された調整幅である「６か月」を記憶している。

　変更部１０４は、図３に示すとおり、レコード数が匿名化指標の値である「５」に満たない「１５歳から１９歳」のグループに隣接する「１０歳から１４歳」のグループ内のレコードであって、上述の２つのグループの境界値である１５歳から６か月の調整幅の範囲、即ち、「１４歳６か月」から「１４歳１１か月」に属するレコードをサーチする。変更部１０４は、サーチの結果ヒットした、「１４歳１１か月」、「１４歳９か月」、「１４歳７か月」の３個のレコードの所属グループを、「１５歳から１９歳」のグループに変更する。上述の処理の結果、「１０歳から１４歳」のグループのレコード数が１０個から７個へ、「１５歳から１９歳」のグループのレコード数が２個から５個へ変更になる。これによって、各グループのレコード数は、匿名化指標の値である「５」を満たすことになる。

　出力部１０６は、変更部１０４の処理結果を受けて、図３に示すとおり、入力情報の匿名化処理を行う。出力部１０６は、「１０歳から１４歳」のグループに属する７個のレコードの年齢の項目の属性値を、グループに対応する区間を識別する識別情報である「１０－１４歳」に変更し、「１５歳から１９歳」のグループに属する５個のレコードの年齢の項目の属性値を「１５－１９歳」に変更する。出力部１０６は、出力した匿名化情報を、匿名化情報格納部３０に格納する。

　次に図２のフローチャートを参照して、本実施形態の動作について詳細に説明する。

　分類部１００は、入力情報格納部２０から入手した入力情報のレコードを、グループ化指標記憶部１０１に格納されたグループ化指標に基づき、グループに分類し、レコードとグループの対応情報を、判定部１０２に出力する（Ｓ１０１）。

　判定部１０２は、入力情報の各グループが包含するレコード数が、匿名化指標記憶部１０３に記憶された匿名化指標の値以上であるか否かを判定する（Ｓ１０２）。

　レコード数が匿名化指標の値未満のグループが存在する場合（Ｓ１０３でＹｅｓ）、変更部１０４は、レコード数が匿名化指標未満の少数グループについて次の処理を行う。変更部１０４は、まず、区間の並び順において少数グループに隣接するグループが包含するレコードの中から、グループ化指標で指定された項目が、少数グループの区間との境界値から、調整幅記憶部１０５に記憶された調整幅の範囲内に含まれるレコードを抽出する。変更部１０４は、次に、抽出したレコードを、少数グループの所属に変更する（Ｓ１０４）。

　レコード数が匿名化指標の値未満のグループが存在しない場合（Ｓ１０３でＮｏ）、処理はＳ１０５へ進む。

　出力部１０６は、全てのレコードについて、グループ化指標で指定された項目の属性値を、各レコードが所属するグループに対応する区間の識別情報に書き換え、匿名化情報として、匿名化情報格納部３０へ出力し（Ｓ１０５）、全体の処理は終了する。

　本実施形態には、入力情報が本来保持している統計データとしての情報の損失を抑えながら、ｋ－匿名性を確保した匿名化を可能とする効果がある。その理由は、判定部１０２によりレコード数が匿名化指標の値未満と判定された少数グループが存在する場合、変更部１０４が、少数グループに隣接するグループのレコードの中から、少数グループの区間との境界値から調整幅の範囲に含まれるレコードの所属を、小数グループに変更するからである。

　この処理により、少数グループのレコード数は、匿名化指標の値を満たすことが可能となる。そして、少数グループが匿名化指標の値を満たすために所属グループを変更されたレコードは、元々少数グループの区間に隣接する区間上のレコードである。そのため、所属グループが変更された影響は、ほぼ統計誤差の範囲と考えても問題ない。したがって、本実施形態では、入力情報の統計データとしての情報の損失をほとんど伴わずに、匿名化を行うことが可能となる。

　尚、本実施形態では、便宜上、入力情報のレコードが年齢と病名との２つの項目を包含する場合を例に記載しているが、入力情報のレコードが３つ以上の項目を持つ場合もある。その場合、匿名化システム１は、匿名化の対象とする項目を複数個設定してもよく、各々の匿名化対象の項目に対して、匿名化指標と調整幅を設定し、本実施形態の処理を行うことで、より複雑な匿名化処理を行うことも可能である。
＜第二の実施形態＞
　次に、本願発明の第二の実施形態について図面を参照して詳細に説明する。

　第二の実施形態の構成は図１に示す第一の実施形態の構成と同様である。

　入力情報格納部２０に格納された入力情報の構成例を図５に示す。本実施形態の入力情報における各レコードは、第一の実施形態とは異なり、例えば、患者の住所と病名との項目を包含している。

　グループ化指標記憶部１０１は、グループ分けの基準に使われるレコード内のデータ項目とその値の並び順とが分かるデータをグループ化指標として記憶する。グループ化指標記憶部１０１は、例えば、「住所のデータ項目を対象とする」というグループ化指標のデータ項目を格納している。

　住所のデータは第一の実施形態における年齢のデータとは異なり非数値データである。そのため、レコードの並び順を定義するための指標が必要となる。本実施形態の入力情報のレコードの並び順は、所定の指標に従い、人手あるいはコンピュータによる計算等により事前に定義されている。住所のデータの場合、レコードの並び順を定義するための指標としては、例えば、各々の住所に対応する郵便番号や、住所の区域の緯度経度の情報等がある。グループ化指標記憶部１０１は、このように定義された住所の並び順を記述したデータを記憶する。

　グループ化指標記憶部１０１は、グループ化指標としてさらに、区間の幅、即ち、データ項目の属性値がどの範囲にあるレコードが、同じグループに属するかを示す文字列と、区間名称とを定義したグループ定義情報を格納している。ここで、住所データにおける区間は区域に想到する。

　その構成例を図４に示す。グループ定義情報は、グループに対応する区間の並び順で、上から順番に識別情報として区間名称の属性値を記載している。図４の例では、区間の並び順は、「港区」、「品川区」の順番となる。グループ定義情報には、あわせて、各区間に所属する地域であって、住所のデータが示す地域と区間名称との対応関係、及び当該地域の並び順が定義されている。図４の例では、「港区」のグループに所属する地域は、「港区芝」、「港区三田」、「港区高輪」となり、「品川区」のグループに所属する地域は、「品川区北品川」、「品川区大崎」となる。地域の並び順は、図４における上からの記載順となる。即ち、図４には、（１）レコードに住所データの並び順が示されており、（２）住所データの区間の幅、即ち、住所データの「区」が同一のレコードが同一グループとなることを示す文字列、（３）区間の識別情報、即ち、区間名称が示されている。

　分類部１００は、図５に示す入力情報を受け取ると、グループ化指標記憶部１０１に格納された「住所の属性を対象とする」というグループ化指標を参照する。分類部１００は、入力情報のレコードを、グループ化指標記憶部１０１のグループ定義情報に照らし合わせて、グループ分類処理を行う。図５の例の場合、分類部１００は、「港区芝１」乃至「港区高輪４」のレコードを「港区」のグループに分類し、「品川区北品川１」、「品川区大崎２」のレコードを「品川区」のグループに分類する。

　判定部１０２は、「港区」、「品川区」のグループのレコード数が、匿名化指標の値である「５」を満たすか否かの判定を行う。図５に示す通り、「港区」のグループのレコードは１０個、「品川区」のグループのレコードは２個となるため、判定部１０２は、「品川区」のレコード数が匿名化指標の値を満たしていないことを判定する。そして、判定部１０２は、「品川区」のグループのレコード数が匿名化指標の値未満であることを変更部１０４へ報告する。

　変更部１０４は、判定部１０２からの報告を受け、調整幅記憶部１０５に格納された調整幅に基づき、レコードのグループ分類における変更処理を行う。調整幅記憶部１０５は、例えば、区間における「１地域」の調整幅を記憶している。

　変更部１０４は、図５に示すとおり、レコード数が匿名化指標の「５」に満たない「品川区」のグループに対応する区間に、区間の並び順で隣接する区間である「港区」のグループ内のレコードであって、上述の２つのグループの境界から１地域の調整幅の範囲に属するレコードを抽出する。図５の例の場合、「港区」のグループ内にあって、「品川区」との境界に最も近い地域は、「港区」に属する地域の並び順から、「港区高輪」となる。したがって、変更部１０４は、「港区高輪」の地域に属する「港区高輪１」、「港区高輪３」、「港区高輪４」の３個のレコードを、所属グループを変更させる対象レコードとして抽出する。そして、変更部１０４は、上述の３個のレコードの所属グループを、「品川区」に変更する。

　上述の処理の結果、「港区」のグループのレコード数が１０個から７個へ、「品川区」のグループのレコード数が２個から５個へ変更になる。これによって、各グループのレコード数は、匿名化指標の値である「５」を満たすことになる。

　出力部１０６は、変更部１０４の処理結果を受けて、図５に示すとおり、入力情報の匿名化処理を行う。出力部１０６は、「港区」のグループに属する７個のレコードの住所の項目の属性値を識別情報「港区」に変更し、「品川区」のグループに属する５個のレコードの住所の項目の属性値を識別情報「品川区」に変更する。

　本実施形態には、匿名化の対象とする項目の属性値が非数値データであっても、第一の実施形態と同様の匿名化を可能とする効果がある。その理由は、グループ化指標記憶部１０１が、区間名称と匿名化の対象となる非数値データとの対応関係等を定義したグループ定義情報を格納し、分類部１０１がグループ定義情報を参照して入力情報のレコードの分類を行うからである。

　匿名化の対象とする項目の属性値が第一の実施形態のような数値データである場合、数値で示される各グループの区間幅を定義しておけば、数値から順位付けされた各グループへの入力レコードの分類が可能である。これに対し、匿名化の対象とする項目の属性値が本実施形態のような非数値データである場合、非数値データの並び順の定義情報と、区間の幅定義情報と、区間の識別情報とを、グループ定義情報として定義しておくことで、順位付けされた各グループへの入力レコードの分類が可能となる。

　尚、本実施形態では、匿名化の対象とする非数値データの項目として、住所を例に記載したが、住所に限定されるものではなく、例えば職業や学歴等の非数値データを用いる場合もある。
＜第三の実施形態＞
　次に、本願発明の第三の実施形態について図面を参照して詳細に説明する。

　図６は本願発明の第三の実施形態の匿名化システムの構成を示すブロック図である。

　本実施形態では、匿名化装置１０が、調整レコード選択部１０７と、調整レコード選択指標記憶部１０８とを包含していることが、第一の実施形態とは異なる。調整レコード選択部１０７、および、調整レコード選択指標記憶部１０８を除く各構成要素の動作は、第一の実施形態で説明したとおりである。

　調整レコード選択部１０７は、変更部１０４が匿名化処理のために抽出した、所属グループを変更させる入力情報のレコードの中から、最終的に所属グループを変更させるレコードの選択を行う。調整レコード選択部１０７は、前述の選択を、調整レコード選択指標記憶部１０８に記憶された調整レコード選択指標に基づき行う。

　調整レコード選択指標記憶部１０８は、匿名化システム１の管理者の設定により、「グループのレコード数に比例」という調整レコード選択指標を記憶している。この指標は、包含するレコード数が匿名化指標を満たしていない少数グループの、レコードの並び順における前方および後方に隣接するそれぞれのグループから、当該少数グループに所属を変更させるレコードの数を、前方および後方に隣接するグループが包含するレコード数に比例させることを示している。即ち、上述の少数グループの、レコードの並び順における前方および後方にそれぞれ隣接するグループが包含する全レコード数の比率がｍ：ｎ（ｍ，ｎは自然数）である場合、それぞれのグループから当該少数グループに所属を変更させるレコードの数の比率もｍ：ｎとなる。

　本実施形態における入力情報の匿名化処理の例を図７に示す。本実施形態の入力情報は、例えば、「１０歳１０か月」乃至「２４歳５か月」の計３２個のレコードを包含している。

　分類部１００は、グループ化指標記憶部１０１に格納された、第一の実施形態と同様のグループ化指標に基づき、入力情報のレコードを、「１０歳から１４歳」、「１５歳から１９歳」、「２０歳から２４歳」の３個のグループに分類する。各グループが包含するレコード数は、それぞれ、１０個、２個、２０個となる。

　判定部１０２は、「１５歳から１９歳」のグループのレコード数が、匿名化指標の値の「５」未満であることを変更部１０４に通知する。

　変更部１０４は、「１５歳から１９歳」のグループの前方に隣接する「１０歳から１４歳」のグループに属するレコードのうち、境界から調整幅の６ヶ月の範囲、即ち、「１４歳６か月」から「１４歳１１か月」に属する、「１４歳７か月」、「１４歳９か月」、「１４歳１１か月」のレコードを、所属グループ変更対象候補として抽出する。変更部１０４は、同様に「１５歳から１９歳」のグループの後方に隣接する「２０歳から２４歳」のグループに属するレコードのうち、境界から調整幅の６ヶ月の範囲、即ち、「２０歳０か月」から「２０歳５か月」に属する、「２０歳１か月」、「２０歳３か月」、「２０歳５か月」のレコードも所属グループ変更対象候補として抽出する。

　「１５歳から１９歳」のグループのレコード数は２個であり、あと３個レコードを追加すれば匿名化指標の値の「５」を満たすことができるので、調整レコード選択部１０７は、上述で変更部１０４が抽出した６個のレコードの中から、最終的に所属グループを変更させる３個のレコードの選択を行う。

　図７に示すとおり、入力情報において、「１０歳から１４歳」のグループと「２０歳から２４歳」のグループに属するレコード数は、それぞれ１０個、２０個であり、その比率は１：２となる。したがって、調整レコード選択部１０７は、「グループのレコード数に比例」という調整レコード選択指標に従い、最終的に所属グループを変更させる３個のレコードのうちの1個を「１０歳から１４歳」のグループの中から、２個を「２０歳から２４歳」のグループの中から選択する。

　調整レコード選択部１０７は、各グループにおいて、境界に近いものから順番にレコードを選択する。したがって、調整レコード選択部１０７は、「１０歳から１４歳」のグループの中で最も境界に近い「１４歳１１か月」のレコードと、「２０歳から２４歳」のグループの中で１番目と２番目に境界に近い「２０歳１か月」と「２０歳３か月」のレコードを、最終的に所属グループを変更させるレコードとして選択する。

　変更部１０４は、調整レコード選択部１０７が選択した上述の３つのレコードの所属グループを「１５歳から１９歳」のグループに変更し、出力部１０６へ通知する。

　本実施形態には、第一の実施形態の効果に加え、入力情報における各グループ間で、レコード数の比率を匿名化処理後も維持することで、匿名化処理による統計データとしての入力情報の特性に与える影響を小さくできる効果がある。その理由は、調整レコード選択部１０７が、「グループのレコード数に比例」という調整レコード選択指標に基づき、所属グループを変更させるレコードを、最適なものに絞込むからである。

　本実施形態の場合、図７に示す通り、「１０歳から１４歳」、「２０歳から２４歳」のグループの匿名化処理後のレコード数は、それぞれ９個、１８個となり、その比率が１：２であることは、匿名化処理前と同じである。もし、所属グループを変更させるレコードの変更元の所属グループが、何れかのグループに偏った場合、匿名化処理により、入力情報の統計データとしての特性に影響を与える可能性があるが、本実施形態により、上述の問題を回避することが可能となる。
＜第四の実施形態＞
　次に、本願発明の第四の実施形態について図面を参照して詳細に説明する。

　第四の実施形態の構成は図６に示す第三の実施形態の構成と同様である。

　第四の実施形態は、調整レコード選択指標記憶部１０８が記憶する調整レコード選択指標が「レコード数が多い方のグループのみ」であることが、第三の実施形態とは異なる。この指標は、包含するレコード数が匿名化指標を満たしていない少数グループに所属を変更させるレコードを、当該少数グループの、レコードの並び順における前方および後方にそれぞれ隣接するグループのうち、レコード数が多いほうのグループが包含するレコードから、選択することを示している。

　本実施形態における入力情報の匿名化処理の例を図８に示す。本実施形態の入力情報は、図７に示す第三の実施形態の例と同様である。

　本実施形態でも、調整レコード選択部１０７は、変更部１０４により所属グループ変更対象候補として抽出された６個のレコードの中から、最終的に所属グループを変更させる３個のレコードを、調整レコード選択指標に基づいて選択する。

　図８に示すとおり、入力情報において、「１０歳から１４歳」のグループと「２０歳から２４歳」のグループに属するレコード数は、それぞれ１０個、２０個であり、「２０歳から２４歳」のグループのレコード数の方が多い。調整レコード選択部１０７は、「レコード数が多い方のグループのみ」という調整レコード選択指標に従い、最終的に所属グループを変更させる３個のレコードを全て「２０歳から２４歳」のグループの中から選択する。したがって、調整レコード選択部１０７は、「２０歳１か月」、「２０歳３か月」、「２０歳５か月」の３個のレコードを、最終的に所属グループを変更させるレコードとして選択する。

　本実施形態には、第一の実施形態の効果に加え、所属グループを変更させるレコードを、レコード数の多いグループからのみ選択することで、匿名化処理による統計データとしての入力情報の特性に与える影響を小さくできる効果がある。その理由は、調整レコード選択部１０７が、「レコード数が多い方のグループのみ」という調整レコード選択指標に基づき、所属グループを変更させるレコードを、最適なものに絞込むからである。

　特に、あるグループのレコード数が、他のグループのレコード数と比較して非常に多いような場合は、レコード数が多いグループのレコードを変更させた方が、変更元のグループの統計データとしての特性に与える影響は相対的に小さくなる。したがって、本実施形態により、入力情報全体に関する統計データとしての特性に与える影響を小さくすることが可能となる。
＜第五の実施形態＞
　次に、本願発明の第五の実施形態について図面を参照して詳細に説明する。

　図９は本願発明の第五の実施形態の匿名化システムの構成を示すブロック図である。

　本実施形態では、匿名化装置１０が、調整幅設定部１０９を包含していることが、第一の実施形態とは異なる。調整幅設定部１０９を除く各構成要素の動作は、第一の実施形態で説明したとおりである。

　調整幅設定部１０９は、各グループの、レコードの並び順における前方及び後方に設定する調整幅の範囲を、それぞれグループごとに設定し、設定した調整幅の範囲を示す情報を調整幅記憶部１０５に格納する。

　調整幅設定部１０９により設定された調整幅の範囲を示す情報の例を図１０に示す。図１０の例の場合、例えば「１０歳から１４歳」のグループのレコード数が匿名化指標の値に満たない場合、変更部１０４は、「１０歳から１４歳」のグループの前方に６か月、後方に６ヶ月の調整幅をとることを示す。

　本実施形態における入力情報の匿名化処理の例を図１１に示す。本実施形態の入力情報は、図７乃至図８に示す第三乃至第四の実施形態の例と同様である。

　変更部１０４は、「１５歳から１９歳」のグループのレコード数が匿名化指標の値の「５」に満たないことを受け、レコードのグループ分類における変更処理を行うため、調整幅記憶部１０５を参照する。図１０に示すとおり、「１５歳から１９歳」のグループの前方、及び後方の調整幅は、それぞれ６か月と０か月であるため、調整部１０４は、「１５歳から１９歳」のグループの前方、すなわち、「１０歳から１４歳」のグループ側にのみ、６か月の調整幅を設定する。変更部１０４は、前述の調整幅の範囲にある、「１４歳１１か月」、「１４歳９か月」、「１４歳７か月」の３個のレコードの所属グループを「１５歳から１９歳」のグループに変更する。

　本実施形態には、第一の実施形態の効果に加え、各グループの前後の調整幅の範囲を、それぞれグループごとに設定することで、ある特定のグループに関して、匿名化処理により生ずる誤差を意図的に小さくできる効果がある。その理由は、調整幅設定部１０９が、各グループの、レコードの並び順における前方及び後方ごとに調整幅を設定して調整幅記憶部１０５に格納し、変更部１０４が、調整幅記憶部１０５の情報に基づいて、レコードのグループ分類における変更処理を行うからである。

　図１０の例では、「１５歳から１９歳」のグループの後方と、「２５歳から２９歳」の前方とに設定する調整幅が０ヶ月となっている。したがって、「２０歳から２４歳」のグループに隣接するグループのレコード数が匿名化指標に満たない場合、変更部１０４は、「２０歳から２４歳」のグループに属するレコードについては、所属グループの変更処理を行わない。これは、入力情報において、「２０歳から２４歳」のグループのデータの重要性が他の年齢層よりも高く、「２０歳から２４歳」のグループに関しては、匿名化処理により生ずる誤差を意図的に小さくすることを意味している。

　本実施形態により、ある特定のグループのデータの重要性が高い場合、匿名化処理により生ずる誤差を、当該グループに関して意図的に小さくすることで、匿名化システム１は、入力情報の統計データとしての特性に与える影響を小さくすることが可能となる。
＜第六の実施形態＞
　次に、本願発明の第六の実施形態について図面を参照して詳細に説明する。

　図１２は本願発明の第六の実施形態の匿名化装置の構成を示すブロック図である。

　本実施形態の匿名化装置１０は、分類部１００と、判定部１０２と、変更部１０４と、出力部１０６とを包含している。

　分類部１００は、並び順が定められている値のいずれかを、所定のデータ項目に含むレコードを受け取り、これらのレコードを、グループ化指標に従い、所定のデータ項目の属性値が取り得る範囲を分割した区間に対応するグループに分類する。

　判定部１０２は、包含するレコードの数が、指定された匿名化指標の値未満であるグループを少数グループと判定する。

　変更部１０４は、グループが少数グループである場合に、区間の並び順において少数グループに隣接するグループのレコードであって、所定のデータ項目の属性値が少数グループとの境界値から所定の調整幅の範囲に属するレコードを、少数グループの所属に変更する。

　出力部１０６は、レコードの所定のデータ項目の属性値を、所属するグループの識別情報に置き換えて、属性値を置き換えたレコードを匿名化情報として出力する。

　本実施形態には、第一の実施形態と同様に、情報が本来保持している統計データとしての特性を損なうことなく、ｋ－匿名性を確保した情報の匿名化を可能とする効果がある。その理由は、判定部１０２によりレコード数が匿名化指標未満と判定された少数グループが存在する場合、変更部１０４が少数グループに隣接するグループのレコードの中から、少数グループとの境界値から調整幅の範囲に含まれるレコードの所属を、小数グループに変更するからである。

　本実施形態では、グループ化指標、匿名化指標、及び、調整幅の値は、匿名化装置１０が匿名化処理を実行する度に、匿名化装置１０の使用者が匿名化装置１０へ入力してもよい。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されたものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、2012年7月2日に出願された日本出願特願2012-148402を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　１　　匿名化システム
　１０　　匿名化装置
　１００　　分類部
　１０１　　グループ化指標記憶部
　１０２　　判定部
　１０３　　匿名化指標記憶部
　１０４　　変更部
　１０５　　調整幅記憶部
　１０６　　出力部
　１０７　　調整レコード選択部
　１０８　　調整レコード選択指標記憶部
　１０９　　調整幅設定部
　２０　　入力情報格納部
　３０　　匿名化情報格納部

Claims

入力されるレコードを、前記レコードに含まれるデータ項目の属性値が取りうる範囲を分割した区間に対応するグループに分類する分類手段と、
包含するレコードの数が閾値未満である前記グループを少数グループと判定する判定手段と、
前記グループが少数グループである場合に、前記少数グループに隣接するグループのレコードであって、前記データ項目の属性値が前記少数グループとの境界値から所定幅の範囲に属するレコードを、前記少数グループの所属に変更する変更手段と、
前記レコードの前記データ項目の属性値を、所属するグループに対応する区間の識別情報に置き換え、前記レコードを出力する出力手段と、
を備える匿名化装置。
前記分類手段は、前記データ項目の属性値が数値であるレコードと、当該属性値の区間の幅の情報と、を受け取り、
前記出力手段は、前記区間において前記データ項目の属性値が取り得る数値の範囲を、前記区間に対応するグループの識別情報とする
請求項１に記載の匿名化装置。
前記変更手段は、所属するグループを変更するレコードとして、前記少数グループに隣接するグループが包含するレコード数に比例した数のレコードを選択する
請求項１又は２に記載の匿名化装置。
前記変更手段は、所属するグループを変更するレコードを、前記少数グループに隣接するグループのうち、包含するレコード数が多いグループから選択する
請求項１又は２に記載の匿名化装置。
前記グループのレコードの並び順における前方および後方の前記所定幅の範囲を、前記グループごとに設定する設定手段をさらに備える
請求項１乃至４のいずれかに記載の匿名化装置。
非数値データの並び順の定義情報、前記区間の幅定義情報、前記区間の識別情報を格納するグループ化指標記憶手段をさらに備え、
前記分類手段は、前記非数値データを前記所定データ項目の属性値に含む前記レコードを受け取り、前記並び順の定義情報、前記区間の幅定義情報、前記区間の識別情報に基づいて、前記レコードを前記区間に対応する前記グループに分類する請求項１に記載の匿名化装置。
請求項１乃至６のいずれかに記載の匿名化装置と、前記匿名化装置へ入力する情報を格納する入力情報格納装置と、前記匿名化装置から出力される情報を格納する出力情報格納装置とを包含する匿名化システム。
入力されるレコードを、前記レコードに含まれるデータ項目の属性値が取りうる範囲を分割した区間に対応するグループに分類し、
包含するレコードの数が閾値未満である前記グループを少数グループと判定し、
前記グループが少数グループである場合に、前記少数グループに隣接するグループのレコードであって、前記データ項目の属性値が前記少数グループとの境界値から所定幅の範囲に属するレコードを、前記少数グループの所属に変更し、
前記レコードの前記データ項目の属性値を、所属するグループに対応する区間の識別情報に置き換え、前記レコードを出力する
匿名化方法。
入力されるレコードを、前記レコードに含まれるデータ項目の属性値が取りうる範囲を分割した区間に対応するグループに分類する分類処理と、
包含するレコードの数が閾値未満である前記グループを少数グループと判定する判定処理と、
前記グループが少数グループである場合に、前記少数グループに隣接するグループのレコードであって、前記データ項目の属性値が前記少数グループとの境界値から所定幅の範囲に属するレコードを、前記少数グループの所属に変更する変更処理と、
前記レコードの前記データ項目の属性値を、所属するグループに対応する区間の識別情報に置き換え、前記レコードを出力する出力処理と、
をコンピュータに実行させる匿名化プログラムを記録したプログラム記録媒体。