WO2014125557A1

WO2014125557A1 - 計算機、データアクセスの管理方法及び記録媒体

Info

Publication number: WO2014125557A1
Application number: PCT/JP2013/053178
Authority: WO
Inventors: 大樹中塚; 児玉　昇司; 陽介石井
Original assignee: 株式会社日立製作所
Priority date: 2013-02-12
Filing date: 2013-02-12
Publication date: 2014-08-21

Abstract

　利用する情報の開示と制限のバランスを効率よく管理することが望まれる。これを実現するために、記憶装置に格納されたデータに対するアクセス元からのアクセスを管理する計算機であって、複数のデータからなるデータ集合における、そのデータ集合を構成する各データの内容から、各データのユニーク性に依存した値を算出して、算出したユニーク性に依存した値を各データに関連付けて記憶する。アクセス可能なデータの前記ユニーク性に依存した値に対する閾値であるアクセス条件を、各データにアクセスするアクセス元毎に記憶し、アクセス条件がユニーク性に依存する値を満たすアクセス要求元に、要求するデータに対するアクセスを許容する計算機を用いる。

Description

計算機、データアクセスの管理方法及び記録媒体

　本発明は、記憶装置に格納されたデータへのアクセスの管理を行う計算機、管理方法及びその管理方法を計算機に実行させるプログラムが格納された記録媒体に関する。

　近年、コンピュータシステムで扱うデータ量が爆発的に増加し、これらのデータを用いた種々のサービスに利活用することが行われている。例えば、行動履歴や購買履歴を基に、個々人の関心に応じて広告を端末装置等に提供するといったサービス等が登場している
　このようなサービスは、個々人の行動履歴や購買履歴の分析を行ったり、特定個人に広告等の情報を提供したりする際、個人情報を扱うことによって実現されることも多い。この点、個人情報を所有するサービス事業者は、個人情報の目的外利用や情報漏えいの管理に様々な仕組みを導入している。

　例えば、個人情報が記載されたデータ（例えば、ファイル）に対するアクセス制限を管理する方法が、従来から知られている。具体的には、個人情報を取り扱う従業者一人ひとりにアクセス権限を設定し、業務上必要なデータのみアクセスできるようなシステムを構築するなどの方法である。システム管理者が、データ内の情報が個人情報を含むか否かを判断し、個人情報が含まれると判断する場合には、そのデータにアクセス権限が設定され、アクセス権限を持たないユーザからのアクセスを制限等するようになっている。

　また、他の例として、個人情報を含むファイルを匿名化する方法も知られている。ここで、匿名化とは、データ中の個人情報をあいまいにしたり、削除したりすることによって、個人の特定を困難にする処理等をいう。

　特許文献１には、システム管理者が設定したアクセス権限を持たないユーザがファイルにアクセスすると、システム内の処理装置が、そのファイルに記載されている個人情報を他の文字列に置換する技術が開示されている。

特開２００６－１８５３１１号公報

　特許文献１に開示されるように、データ中に個人情報が含まれるか否かをコンピュータに判断させるには、個人情報を示す定義データ等を予め用意する必要がある。個人情報を始め、情報の種類や分類は膨大であり、情報秘匿の機密度には幅があるためアクセス権限にも、幅を持たせたい場合もある。即ちユーザ毎にアクセス権限のレベルを設けたい場合もある。例えば、企業内のデータベースを利用する場合、一般社員、中間管理職及び上位管理職間で、アクセスレベルを異にしたい場合等である。

　アクセス権限にレベルを設ける場合には、レベル毎に応じた定義データを人手で予め用意する必要があり、その人的負荷は膨大である。

　また、データ内の個人情報等が、例えば、個人を特定できないほど曖昧な情報であっても、定義データ等に定義されていれば、アクセス制限の対象となる。このため、ユーザは、本来機密性が自己の権限内であるデータにアクセスできなくなってしまい、利便性が低下する。上述のように、扱う情報が多種大量になれば、曖昧な情報について、定義データを分類する人的負荷の増加という課題が益々残る。

　一般に、扱う情報量が増加することはユーザの情報取得に資するものであるが、開示を制限する情報を管理する必要から、本来得るべき利益まで損なわれることもあり、情報の開示と制限のバランスを効率よく管理することが望まれる。

  上述の課題を解決するために、例えば、請求の範囲に記載された計算機を適用する。即ち記憶装置に格納されたデータに対するアクセス元からのアクセスを管理する計算機であって、
  複数のデータからなるデータ集合における、該データ集合を構成する各データの内容から、各データのユニーク性に依存した値を算出して、算出したユニーク性に依存した値を前記各データに関連付けて記憶し、
  アクセス可能なデータの前記ユニーク性に依存した値に対する閾値であるアクセス条件を、前記各データにアクセスするアクセス元毎に記憶し、
  前記アクセス条件が前記ユニーク性に依存する値を満たすアクセス要求元に、要求するデータに対するアクセスを許容する計算機である。

本発明の一側面によれば、情報取得の利益と、情報開示のバランスを効率よく管理できるという効果を奏する。

本発明を適用した第１実施形態における計算機システムの構成例を示すブロック図である。第１、第２及び第３実施形態におけるアクセス元情報の一例を模式的に示す図である。第１、第２及び第３実施形態における個人情報管理情報の一例を模式的に示す図である。第１、第２及び第３実施形態におけるファイル管理情報の一例を模式的に示す図である。第１実施形態における匿名度生成処理の流れを示すフロー図である。第１実施形態におけるアクセス判定処理の流れを示すフロー図である。第２実施形態における計算機システムの構成例を示すブロック図である。第２実施形態における計算機システムで、クライアント装置に表示させる画面例を示す模式図である。第２実施形態における計算機システムの処理の流れを示すフロー図である。第２実施形態における匿名化処理の詳細な流れを示すフロー図である。第３実施形態における計算機システムの構成例を示すブロック図である。

  以下に、図面を用いて、発明を実施しするための形態について説明する。
  〔第1実施形態〕
  図１に、本発明を適用した計算機システムの構成を示す。計算機システムは、１以上のファイルサーバ１００と、管理サーバ１０１とを含み、１以上のクライアント１０２とネットワークを介して通信可能に接続される。クライアント１０２からファイルサーバ１００に格納されたデータ（ファイル）に対するアクセスは、管理サーバ１０１によって管理されるようになっている。より具体的には、管理サーバ１０１では、ファイルサーバ１００のファイル毎に、その内容に応じて匿名性のスコアを算出し、そのファイルに対するアクセス元のレベルとの比較することで、ファイルへのアクセス可否が管理されるようになっている。

　ファイルサーバ１００には、ファイルシステムが動作する汎用のサーバ装置を適用するものとする。ファイルサーバ１００では、ＣＩＦＳやＮＦＳといった通信プロトコルを用いて管理サーバ１０１と通信するようになっている。ファイルサーバ１００には、ＣＰＵ及びこれと協働して制御機能部を構成する制御部１５０と、ＳＳＤ、ＨＤＤ及び／又はテープ装置からなるストレージ１５１が設けられる。ストレージ１５１には、論理的又は物理的なボリュームが設けられ、格納されたファイルデータ（ファイルＸ１７０等）に対する論理的・物理的なアクセスが可能となっている。

　管理サーバ１０１には、ＣＰＵ１８０、メモリ１８２、補助記憶１８３を有する汎用のサーバ装置を適用するものとする。メモリ１８２には、プログラムとＣＰＵ１８０の協働によって、アクセス制御部１０３、個人情報抽出部１０４及び匿名度算出部１０５が実現されるとともに、ファイル管理情報１０７、アクセス元情報１０６及び個人情報管理情報１０８が保持される。なお、本実施形態では、これら情報をテーブル形式で構成される例を適用するものとするが、関連する種々のデータ同士を関連付けて管理できるものであればこの形式に限定されるものではない。

　アクセス制御部１０３では、クライアントからのシステムログイン要求に対するユーザ認証が行われるとともに、例えば、ファイルＸ１７０等へのアクセス要求に対して、そのクライアントに設定たれたアクセス条件である匿名度条件３０２をアクセス元情報１０６（図２）から取得し又ファイルＸ１７０に設定された匿名度２０３をファイル管理情報１０７（図４）から取得し、両者の比較に基づいて、アクセス可否が判断されるようになっている。条件を満たす場合、アクセス制御部１０３では、ファイルＸ１７０へのアクセスが許容されるようになっている。

　図２に、アクセス元情報１０６を模式的に示す。アクセス元情報１０６には、アクセス元識別情報２００、システムログイン時の認証に使用されるパスワード２０１及びファイルにアクセスするための条件である匿名度条件２０２といった項目が設けられ、これらが対応付けて管理される。アクセス元識別情報２００として、ユーザＩＤ２００ａ及びＩＰアドレス２００ｂを有するが、これらの一方又は両方を対象として、匿名度に基づくアクセス管理をおこなうことができるようになっている。即ちユーザ毎やクライアント端末毎でアクセス管理することも可能であるし、両方を対象にしてアクセス管理を行うことも可能である。

　匿名度条件２０２は、アクセスを可能にするファイルの匿名度４０３（図４）の範囲を示すスコアである。例えば、Ｕｓｅｒ_Ｂの匿名度条件は「１０以上」であることから、匿名度３０３の値が１０以上であるファイルにアクセスが許容され、匿名度３０３の値が１０よりも低いファイルには、アクセスが許容されないこととなる。匿名度条件２０２は、計算機システムの管理者等によって、静的に設定するものとするが、計算機システムのサービス利用期間や利用回数及び/又は所定のルールに基づいて動的に変動するようにしてもよい。

　個人情報抽出部１０４では、ファイルＸ１７０等毎に、そのデータ内容が解析され、個人情報に関する情報が抽出されるようになっている。具体的には、匿名化するテキスト文（「横浜市に住む田中太郎さんの趣味は映画鑑賞である」）を形態素解析し、固有名詞（「田中太郎」、「横浜市」、「映画鑑賞」など）を属性値として抽出する。抽出した属性値に対し、属性値が出現する前後の単語の並びから、その属性値の属性名（「名前」、「住所」、「趣味」）を決定する。（「ＸＸＸ」＋「に住む」⇒「ＸＸＸ」の属性名は「住所」など）属性名と属性値のセットを、個人情報管理テーブル１０８に登録する。

　なお、ファイルの内容の解析については、既存技術である文書の解析技術などを利用する。文書解析技術による自然文からの情報抽出については、例えば、非特許文献『大量・多種多様な非構造化データを扱う情報処理基盤』(URL :http://digital.hitachihyoron.com/pdf/2011/07/2011_07_10.pdf)などに記載されている。

　図３に、抽出された個人情報を格納する個人情報管理情報１０８の例を模式的に示す。個人情報管理情報１０８は、名前３００、住所３０１、電話番号３０２、体重３０３、誕生日３０４、職業３０５、趣味３０６といった項目が設けられ、各項目に、個人情報抽出部１０４によって抽出された対応する用語（値）が登録されるになっている。例えば、個人情報管理情報１０８は、ある特定の個人Ｍｒ.Ａについて、住所が横浜市であり、職業が会社員であり、趣味は映画鑑賞である、という情報が登録される。そして、ファイルサーバ１００中に、Ｍｒ.Ａの電話番号、体重、誕生日の個人情報を含むファイルが存在しない、という情報も有している（図では「－」で表している。）。個人情報管理情報１０８は、後述する匿名度算出部１０５における各ファイルの匿名度の算出で利用されるものであり、母集団において内容を同じにするレコードの存在／不存在（そのレコードのユニーク性ともいえる。）を示す情報となるものである。

　匿名度算出部１０５では、個人情報管理情報１０８の各レコードが比較され、内容を同じにするファイルの数を求めることによって、そのファイルの匿名度が算出される。
ここで、個人情報の匿名度について説明する。本実施形態において、匿名度とは、個人情報の集合に対して、それらの情報がどの程度の匿名性を有するかを数値として定量的に評価した指標のことをいう。匿名度として、例えば、従来技術である「ＰｒｉｖａｃｙＭｏｄｅｌ（ＢＥＮＪＡＭＩＮＣ. Ｍ. ＦＵＮＧ、『Privacy-Preserving Data Publishing: A Survey on Recent Developments』インターネット（http://dl.acm.org/citation.cfm?id=1749605 )）。

　この論文では、１５種のＰｒｉｖａｃｙ　Ｍｏｄｅｌを紹介している。具体的には、「ｋ－Ａｎｏｎｙｍｉｔｙ」、「ｌ－Ｄｉｖｅｒｓｉｔｙ」、「ｔ－Ｃｌｏｓｅｎｅｓｓ」、「ＭｕｌｔｉＲｋ－Ａｎｏｎｙｍｉｔｙ」、「ＣｏｎｆｉｄｅｎｃｅＢｏｕｎｄｉｎｇ、(α，ｋ)－Ａｎｏｎｙｍｉｔｙ」、「(Ｘ，Ｙ)－Ｐｒｉｖａｃｙ、(ｋ，ｅ)－Ａｎｏｎｙｍｉｔｙ」、「(ε，ｍ)－Ａｎｏｎｙｍｉｔｙ」、「ＰｅｒｓｏｎａｌｉｚｅｄＰｒｉｖａｃｙ」、「δ－Ｐｒｅｓｅｎｃｅ、(ｃ，ｔ)－Ｉｓｏｌａｔｉｏｎ」、「ε－Ｄｉｆｆｅｒｅｎｔｉａｌ　Ｐｒｉｖａｃｙ」、「(ｄ，γ)－Ｐｒｉｖａｃｙ」及び「ＤｉｓｔｒｉｂｕｔｉｏｎａｌＰｒｉｖａｃｙ」である。

　匿名度４０３に格納する値は、上記１５種類のＰｒｉｖａｃｙＭｏｄｅｌからどれか一つを選び、そのモデルを用いて算出した数値である。なお、複数のＰｒｉｖａｃｙＭｏｄｅｌを用いて導出した複数の数値の加算又は平均による数値であってもよい。簡単な例をあげれば、ファイルＸ１７０から抽出した個人情報からなるレコードと同内容のレコードが２０レコードあれば、ファイルＸ１７０の匿名度４０３を「２０」とし、同内容のレコードが無いときには、匿名度４０３を「１」とする。即ち集合の中で同内容レコードの数が少ないほど、そのレコードはユニークなものであり、結果として個人情報で有る可能性が高いものであるとみなせる傾向にある。即ち「映画鑑賞」という情報よりも「電話番号」という情報の方が（ユニーク性があり）、匿名性が高い情報であるとみなすことができる。

　図４に、匿名度算出部１０５によって算出された匿名度と、その匿名度に対応するファイルＸ１７０等の属性情報を登録するファイル管理情報１０７の例を模式的に示す。なお、この情報は個人情報抽出部１０４によって生成されるものとする。
ファイル管理情報１０７には、ファイル毎に、４種類の属性が登録される。具体的には、ファイル管理情報１０７には、ファイルＩＤ（名）４００、ファイルパス４０１、ファイル内の個人情報が登録される個人情報４０２及びその個人情報を解析して求められた匿名度４０３の各項目が設けられ、夫々の値が対応付けられて管理されるようになっている。
以上が計算機システムの構成である。

　次に、第１実施形態における計算機システムの処理の流れを説明する。計算機システムの処理の流れは、ファイル格納時に実行する「匿名度生成処理」と、その格納したファイルに対してアクセスする時の「アクセス判定処理」に分けられる。先ず、前者の「匿名度生成処理」について説明する。

　図５に、「匿名度生成処理」のフローを示す。
Ｓ５００で、クライアント１０２は、ログイン要求と共にユーザが入力したユーザＩＤとパスワードを管理サーバ１０１に送信する(なお、ユーザＩＤと共に或いはこれに代えてクライアント１０２のＩＰアドレスを送信するようにしてもよいのは、前述の通りである。本フローでは、ユーザＩＤのみを利用する例を説明する。)。
Ｓ５０１で、管理サーバ１０１のアクセス制御部１０３は、アクセス元管理情報１０６のユーザＩＤ２００ａとＰａｓｓ２０１を検索し、該当するユーザＩＤとパスワードの組が存在するか否かを調べる。

　Ｓ５０２で、その組が存在する場合、アクセス制御部１０３は、クライアント１０２のログインを許可できると判断し、クライアント１０２に対してログイン許可通知を送信する。なお、それが存在しない場合、アクセス制御部１０３は、クライアント１０２に対してアクセス拒否通知を送信し、クライアント１０２との通信を切断する。
Ｓ５０３で、クライアント１０２は、アクセス制御部１０３に、ファイルサーバ１００に格納するファイルと、そのファイルを格納する場所（ファイルパス名）とを送信する。
Ｓ５０４で、アクセス制御部１０３は、個人情報抽出部１０４にファイルを転送する。

　Ｓ５０５で、個人情報抽出部１０４は、ファイルの内容を解析し、個人情報の属性とその内容を特定する。更に、特定した個人情報を個人情報管理情報１０８に追加する。また、抽出した属性が個人情報管理情報１０８に存在しなかった場合は、個人情報抽出部１０４は新たな項目を追加し、文書から抽出した情報を登録する。
Ｓ５０６で、個人情報抽出部１０４は、Ｓ５０５において特定した個人情報の属性と内容を匿名度算出部１０５に送信する。

　Ｓ５０７で、匿名度算出部１０５は、個人情報管理情報１０９を検索し、受信した個人情報の匿名度を算出する。匿名度の算出方法については、前述の通り、どのようなＰｒｉｖａｃｙ　Ｍｏｄｅｌを利用しても良い。例えば、匿名度の算出にｋ－Ａｎｏｎｙｍｉｔｙを使用する場合で、Ｓ５０５で抽出した個人情報の属性が人名、住所、職業、趣味であった場合、匿名度算出部１０５は、次のような処理を行う。

　まず、匿名度算出部１０５は、個人情報管理情報１０８における、名前３００、住所３０１、職業３０５、趣味３０６の項目に格納されている情報をすべて読み出す。そして、匿名度算出部１０５は、読みだした情報の中に、Ｓ５０５で抽出した個人情報の内容の組と同一のレコードがどれだけ存在するかを調査する。具体的には、Ｓ５０５で抽出した個人情報の内容が、名前「Ｍｒ．Ａ」、住所「横浜市」、職業「会社員」、趣味「映画鑑賞」であったとすると、匿名度算出部１０５は、住所「横浜市」、職業「会社員」、趣味「映画鑑賞」であるレコードが、個人情報管理テーブル１０８にいくつ存在するかを計数する。仮に、住所「横浜市」、職業「会社員」、趣味「映画鑑賞」であるレコードが２０レコードであった場合、匿名度算出部１０５は、受信した個人情報の匿名度を「２０」と算出する。

　Ｓ５０８で、匿名度算出部１０５は、算出した匿名度を個人情報抽出部１０４に送信する。
Ｓ５０９で、匿名度を受信した個人情報抽出部１０４は、ファイル管理情報１０７に新しいレコードを１行追加する。そして、そのレコードにおいて、Ｓ５０３でクライアント１０２から受信したファイルの名前をファイルＩＤ４００に、ファイルパス名をファイルパス４０１に追加し、Ｓ５０５で抽出した個人情報を個人情報４０２に、Ｓ５０７で算出した匿名度を匿名度４０３に、それぞれ登録する。

　Ｓ５１０で、個人情報抽出部１０４は、ファイルサーバ１００に対して、ファイルとそのファイルを格納するファイルパス名を送信する。
Ｓ５１１で、ファイルサーバ１００は、指定されたファイルパス基づいてファイルを格納する。なお、指定されたファイルパスが存在しない場合、ファイルサーバ１００は、ファイルパスを自動的に作成する。

　Ｓ５１２で、ファイルサーバ１００は、個人情報抽出部１０４に対して、ファイルの格納完了の通知を送信する。Ｓ６１３で、完了通知を受信した個人情報抽出部１０４は、アクセス制御部１０３に対して、ファイル格納完了通知を送信する。Ｓ５１４で、アクセス制御部１０３は、クライアント１０２に対して、ファイルの格納完了通知を送信する。
以上が、「匿名度生成処理」である。

　次に、「アクセス判定処理」を説明する。図６に、「アクセス判定処理」のフローを示す。なお、SＳ６００からＳ６０２までの処理の内容は、図５に示す「匿名度生成処理」と同様であるため説明を省略する。

　Ｓ６０３で、クライアント１０２は、アクセス制御部１０３に、ファイルのリード要求を送信する。この要求は、ファイルの名前と、そのファイルを格納するファイルパスの名前を含む。
Ｓ６０４で、アクセス制御部１０３は、アクセス元管理情報１０６を参照し、アクセス元の匿名度条件２０２を特定する。

　Ｓ６０５で、アクセス制御部１０３は、Ｓ６０３で受信したファイル名を基に、ファイル管理情報１０７を検索し、匿名度４０３の内容を読み出し、Ｓ６０４で特定したユーザの匿名度条件２０２と、ファイルの匿名度４０３とを比較する。

　Ｓ６０６で、匿名度４０３が、匿名度条件２０２を満たさない場合、アクセス制御部１０３は、クライアント１０２に対して、アクセス拒否通知を送信する。そうでない場合、アクセス制御部１０３は、ファイルサーバ１００に、Ｓ６０３で受信した要求に含まれるファイル名及びファイルパス名と、当該要求を発行したアクセス元情報を送信する。

　Ｓ６０７で、ファイルサーバ１００は、該当するファイルを読み出し、Ｓ６０８で、ファイルをアクセス制御部１０３に送信し、Ｓ６０９で、アクセス制御部１０３は、ファイルをクライアント１０２に送信する。
以上が、「アクセス判定処理」である。

　このように、本実施形態の計算機システムによれば、秘匿するべき情報と、開示できる情報とのバランスを動的に維持しつつ大量データ処理の高速化を実現することができる。
また、本実施形態の計算機システムによれば、アクセス元の匿名度条件を設定し、ファイル側の匿名度のみに依存せずに、更にアクセス元毎にアクセス可否を判断することから、秘匿性するべき情報と、開示できる情報とのバランスをより粒度を細かく且つ柔軟に制御することができる。

　更に、アクセス元の匿名度条件は、ユーザ単位及び／又はクライアント装置単位でも設定できるため、秘匿性するべき情報と、開示できる情報とのバランスを属人的にも、属機械的にも或いはその何れにも依存させることができるという優れた効果がある。

　<第１実施形態の変形例>
第１実施形態の変形例について説明する。変形例の計算機システムでは、第１実施形態の計算機システムに、検索機能を追加したものである。例えば、管理サーバ１０１に、ファイルサーバ１００に格納されたファイル１７０等のインデクスを設け、アクセス元から送信されたクエリ（ＳＱＬ等）を受信し、インデクスを参照して、該当する検索結果をユーザに応答する検索処理部を設けるようにする。

　検索処理部では、検索結果から該当ファイルを特定し、ファイル管理情報４０３を参照して夫々のファイルの匿名度４０３を抽出し、アクセス元識別情報１０６の匿名度条件２０２と比較して、アクセス可能な検索結果のみがアクセス元に返信されるようにする。この場合は、その後の検索結果に基づいたアクセス元からのファイルアクセス要求に対して、匿名度条件２０２と匿名度４０３との比較判定を省略するようにしてもよい。

　〔第２実施形態〕
第２実施形態の計算機システムでは、アクセス元の匿名度条件２０２が、ファイルの匿名度４０３を満たさない場合に、当該条件を超えるファイルについては、匿名部分を匿名化してアクセス元に送信することを特徴の１つとする。以下に、第２実施形態の計算機システムについて説明する。
なお、第２実施形態では、ファイルサーバ１００のファイルに対する検索機能を有するシステムを基に説明をする。

　図７に、第２実施形態の計算機システムの構成を示す。第１実施形態との主な相違点は、第２実施形態では、管理サーバ１０１に、インデクス部５００、検索部５０１及び匿名化部５０２を更に有する点である。

　インデクス部５００では、ファイルサーバ１００に格納されたファイルのインデクスが生成及び保持される。インデクスは、ファイル１７０等がファイル１００に格納される際に生成されるようになっている。

　検索部５０１では、アクセス元からの検索クエリ（ＳＱＬ等）を受け付け、インデクス部５００によって生成されたインデクスを検索し、検索結果がアクセス元に応答される。更に、検索部５０１では、検索結果に含まれるファイルの匿名度４０３と、検索クエリの発行元アクセス元の匿名度条件２０２が比較され、検索結果中で条件を満たさないファイルについては、内容（の一部又は全部）を匿名化してアクセス可能である旨の識別情報（以下、「条件付きアクセス情報」という）が更に検索結果に付加されて、これをアクセス元に表示させるようになっている。

　図８に、アクセス元であるクライアント１０２の画面（不図示）に表示される検索結果画面例を模式的に示す。検索結果画面５００には、検索要求時に入力される検索キーワードを表示する検索キー入力欄５５１と、検索オプション表示欄５５２と、検索結果を表示する検索結果表示欄５５４と、が含まれる。検索オプション表示欄は、検索するファイルの形式や、生成されたファイルの日時に関する情報を指定可能とし、予めプルダウンメニューとしてこれらが選択可能な状態となっている。更に、条件追加ボタン５５３も表示され、これら条件が複数種類指定可能になっている。

　検索結果表示欄５５４には、検索結果のファイル名、ファイル形式、ファイルサイズ、ファイルの生成日時等と、前述の条件付きアクセス情報を表示するカラム５５６とからなる結果表示欄と、夫々のファイルのダウンロードを指定するダウンロードボタン５５５が含まれる。
条件付きアクセス情報欄５５６は、一部が匿名化された状態のファイルをダウンロードできるファイルについて、「Ｙｅｓ」が表示されるようになっている。

　また、匿名化部５０３では、検索部５０２によって条件を満たさないと判断されたファイルについて、匿名部分を匿名化加工する処理が実行されるようになっている。アクセス元からのアクセス要求があった場合には、加工後のファイルを送信させるようになっている。ここで匿名化とは、データの一部を匿名性の無い情報や匿名性が薄れる情報に更新することをいう。例えば、「田中太郎」という本名を「Ｍｒ.Ｘ」に置換したり、「７２ｋｇ」といった体重を「６０ｋｇ～８０ｋｇ」といった幅のある値に変換したりする。なお、更新には、他のデータへの変更（他のデータ内容への置換や墨入れ等を含む）やデータの削除が含まれる。

　図９に、第２実施形態の計算機システムにおけるファイルアクセスの処理の流れを示し、図１０に、匿名化部５０３におけるファイルの「匿名化処理」の詳細な流れを示す。なお、図９のＳ７００からＳ７０２のユーザ認証の処理は、第１実施形態と同様であるので説明を省略する。

　Ｓ７０３で、アクセス元は、検索クエリを指定して検索要求をアクセス制御部１０３に送信する。アクセス制御部１０３は、その要求に含まれる検索キーと共にアクセス元識別情報２００（ユーザＩＤ２００ａ及び／又は２００ｂ）を検索部５０２に送信し、インデクス検索を要求する。

　Ｓ７０４で、検索部５０２は、指定された検索キーで検索インデクスを検索する。
Ｓ７０５で、検索部５０２は、インデクスの検索によってマッチしたファイルのファイルＩＤに基づいて、ファイル管理情報１０７から、マッチしたファイルの匿名度を取得する。
Ｓ７０６で、検索部５０２は、Ｓ７０３によって受信したアクセス元識別情報２００に基づいて、アクセス元情報１０６から匿名度条件２０２を取得し、Ｓ７０５で取得したマッチしたファイルの匿名度と比較し、条件を満たさないファイルを特定する。次の「匿名化処理」において、データ内容の匿名化を行うファイルに絞り込むためである。

　Ｓ７０７で、匿名化部５０３等は、条件を満たさないファイルの指定を受け、そのファイル内のデータで個人情報に開示不可のデータ部分を匿名化する処理を実行する。例えば、氏名が「田中　太郎」のファイルについて、アクセス元の匿名度条件がアクセス要求先の匿名度を満たさない場合、「田中　太郎」を「Ｍｒ.Ｘ」等の匿名性のない内容に更新する処理を実行する。なお、本処理では、更新候補である匿名性の無いデータについて、再度、匿名度算出部１０５で匿名度を算出し、算出した匿名度が匿名度条件２０２を満たす場合に、その更新候補を更新内容に決定し、匿名度条件を満たさない場合には、匿名度条件を満たす他の更新候補を生成する処理を繰り返す点も特徴の１つである。本「匿名化処理」については、詳細を後述する。

　Ｓ７０８で、検索部５０２は、Ｓ７０４の検索処理でマッチしたファイルのうち、Ｓ７０６で絞り込みの対象となったファイルについては、匿名化情報付きでのアクセス許可を示す識別情報（以下、「条件付き開示情報」という。）を付し、それ以外についてはファイルのＩＤ等のみとなる検索結果リストをアクセス制御部１０３経由でアクセス元に応答する。

　Ｓ７０９で、アクセス元は、画面を介してダウンロード等のアクセス要求が指定された場合、当該ファイルの指定をアクセス制御部１０３に送信する。
Ｓ７１０で、アクセス制御部１０３は、ファイル管理情報１０７を参照し、指定に含まれたファイルＩＤに対応するファイルパスを取得し、ファイルの取得をファイルサーバに要求し（Ｓ７１１）、ファイルサーバ１００から該当ファイルの送信を受ける（Ｓ７１２）。なお、「条件付き開示情報」のファイルの指定である場合は、Ｓ７０７の匿名化処理で個人情報が更新されたファイルの送信を受けることとなる。その後、アクセス制御部１０３は、受信したファイルをアクセス元に送信する。

　図１０の「匿名化処理」について詳細に説明する。
Ｓ８００で、検索部５０２は、匿名化部５０３に、匿名化が必要なファイルのリスト及びそれらファイルの匿名度条件２０２を送信し、ファイル匿名化処理を要求する。
Ｓ８０１で、匿名化部５０３は、受信したリストの中からファイルを一つ選び、そのファイルをファイルサーバ１００から読み込む。

　Ｓ８０２で、匿名化部５０３は、ファイル管理情報１７０の内容を参照し、個人情報４０２から読み込んだファイルに関する個人情報群を特定する。
  Ｓ８０３で、匿名化部５０３は、特定した個人情報群から一つの個人情報を選び、ファイルに対して匿名化を実行する。
  Ｓ８０４で、匿名化部５０３は、匿名度算出部１０５に対し、Ｓ８０３で匿名化した後のデータを送信し、匿名度算出を要求する。
  Ｓ８０５で、要求を受信した匿名度算出部１０５は、受信したデータと個人情報管理情報１０８の内容を基に匿名度を算出し、その結果を匿名化部５０３に送信する。

　Ｓ８０６で、匿名化部５０３は、算出された匿名度がアクセス元の匿名度条件２０２を満たすか否かを判定する。即ち匿名度条件２０２を満たすということは、本来そのファイルにアクセスできないアクセス元に対して、開示できる程度に匿名性が低くされたレベルの情報で開示できるようになる（匿名度条件に沿った内容での開示を実現するとともに秘匿性も確保できることとなる）。
匿名化部５０３は、算出された匿名度がアクセス元の匿名度条件２０２を満たさない場合（Ｓ806:Yes）には、Ｓ８０９に進み、匿名度条件を満足できるまで匿名化処理を行う。満たす場合（S806:No）には、Ｓ８０７の処理に進む。

　Ｓ８０７で、匿名化部５０３は、匿名化後のデータで、Ｓ８０１で取得したファイルの内容が更新された更新ファイルを（複製により）生成し、ファイルリスト中からそのファイル名を削除する。次いで、Ｓ８０８で、匿名化部５０３は、ファイルリストに未処理ファイル名があるかチェックし、有る場合にはＳ８０１の処理に戻り（S808:Yes）、無い場合には本フローを抜ける（S808:No）。

　Ｓ８０９で、匿名化部５０３は、Ｓ８０２で特定した個人情報群のうち、まだ匿名化を行っていない個人情報を一つ選び、その個人情報に関する匿名化をファイルに対して実行し、Ｓ８０４からの処理を繰り返す。ここで、個人情報群のうち、選択する個人情報の属性名に優先度を付けてもよい。具体的には、「趣味」より「住所」の方が個人を特定できる可能性が高いため、「住所」の属性値を優先的に匿名化する。
以上が、「匿名化処理」の詳細である。

　このように、第２実施形態の計算機システムよれば、匿名度条件２０２との関係で、本来アクセス元に開示できないファイルについても、開示できない個人情報を匿名度条件２０２に沿ったレベルの情報に更新した状態で開示を行うことができ、アクセス権のない個人情報を一部に含む情報についても、広く開示することができる。

　特に、匿名度条件２０２を満たす更新内容に更新する際、更新候補の内容が匿名度条件２０２を満たすか否かをチェックするようにしているため、より確実に開示不可の内容の秘匿性を確保することができる。
以上が、第２実施形態の計算機システムである。

　〔第３実施形態〕
最後に、第３実施形態の計算機システムについて説明する。第３実施形態の計算機システムでは、ファイルから抽出した個人情報や、算出した匿名度などの情報を、ファイルのメタデータとして管理する構成を有する。

　図１１に、計算機システムの構成例を模式的に示す。第３実施形態の計算機システムには、ファイルサーバ１００、ファイル検索サーバ１０１Ａ、メタデータ管理サーバ１０１Ｂ、メタデータ生成サーバ１０１Ｃが含まれ、これらが通信線を介して通信可能に接続された構成を有する。メタデータ管理サーバ１０１Ｂでは、ネットワークを介して接続されたクライアント１０２から、検索要求の受信及びその応答が可能となっている。なお、ファイル１７０等の転送は、メタデータ管理サーバ１０１Ｂ経由でも、ファイルサーバ１００から直接、クライアント１０２に送信するようにしてもよいのは他の実施形態と同様である。

　ファイル検索サーバ１０１Ａ、メタデータ管理サーバ１０１Ｂ及びメタデータ生成サーバ１０１ｃは独立した汎用の物理サーバ適用するものとするが、メタデータ管理サーバ１０１Ｂ及びメタデータ生成サーバ１０１Ｃをファイルサーバ１００の機能部としてソフトウェア又はハードウェア的に一体に構成してもよい。

　ファイル検索サーバ１０１Ａには、ＣＰＵとプログラムの協働によりアクセス制御部１０３及びインデクス部５０１を実現するとともにアクセス元情報１０６を保持する構成とする。また、アクセス元情報１０６の匿名度条件２０２の設定は、入力装置（不図示）を介して受けつけるようになっている。

　メタデータ管理サーバ１０１Ｂには、ＣＰＵとプログラムの協働によりメタデータ管理部７０１が実現される。メタデータ管理部７０１は、所謂ＥＴＬ（Ｅｘｔｒａｃｔ／Ｔｒａｎｓｆｏｒｍ／Ｌｏａｄ）として機能し、クライアント１０２からのファイルの格納や、不図示の外部システムのデータソース等からデータ取得に対し、メタデータの生成・格納処理を司るものである。本実施形態において、メタデータ管理部７０１では、ファイル管理情報１０７がメタデータとして生成・管理されるようになっている。生成されたメタデータはストレージ７０２に格納されるようになっている。

　例えば、クライアント１０２から、ファイルの格納要求を受信した場合、メタデータ管理部７０１では、ファイルＩＤ及びファイルサーバ１００での格納場所を示すファイルパスが、ファイル管理情報１０７のファイルＩＤ４００及びファイルパス４０１に夫々登録される。その後、メタデータ管理部７０１から、ファイルがメタデータ生成サーバ１０１Ｃに送信されて、個人情報管理情報１０８が生成されるとともに匿名度が算出される。メタデータ管理部７０１は、生成された個人情報及び算出された匿名度４０３を、メタデータ生成サーバ１０１Ｃから受信し、先に登録したファイルＩＤ４００の対応するエントリに対応付けて保持する様になっている。その後、ファイル自体をファイルサーバ１００に格納させる。

　メタデータ生成サーバ１０１Ｃには、個人情報抽出部１０４及び匿名算出部１０５が実現されると共に、メタデータ管理サーバ１０１Ｂのメタデータ管理部７０１からの要求を受けて、送信されたファイルから個人情報管理情報１０８が生成されたり、匿名度の算出が行われたりするようになっている。

　また、クライアントからの検索要求を受ける際に、匿名度４０３や匿名度条件２０２に基づいたアクセス可否の判定処理等は、メタデータ管理部７０１を介してファイル検索サーバ１０１Ａの検索部５０２によって、メタデータに基づいて行われるようになっている点が本実施形態の特徴の１つである。なお、アクセス可能と判定されたファイルの取得要求は、ファイル検索サーバ１０１Ａのアクセス制御部１０３、メタデータ管理部７０１を介して、ファイルサーバ１００からアクセス要求元のクライアント１０２に転送されるのは、他の実施形態と同様である。

　以上のように、第１～第３実施形態について説明したが、本発明は上述した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、上述した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。ある実施形態の構成に他の実施形態の構成を追加・置換ことも、各実施形態の一部を削除することも、その趣旨を逸脱しない範囲で可能である。

　更に、また、第１～第３実施形態で例示した各機能構成部を実現するプログラムを、磁気的及び／又は電気・電子的な可搬性の非一時的な記録媒体（単なる電送通信路等は含まない）に記録することも可能であるし、インターネット等のネットワークを介して計算機にダウンロードすることも可能である。

１００・・・ファイルサーバ、１０１・・・管理サーバ、１０２・・・クライアント、１０４・・・個人情報抽出部、１０５・・・匿名度算出部、１０６・・・アクセス元情報、１０７・・・ファイル管理情報、１０８・・・個人情報管理情報、２０２・・・匿名度条件、４０３・・・匿名度

Claims

  記憶装置に格納されたデータに対するアクセス元からのアクセスを管理する計算機であって、
  複数のデータからなるデータ集合における、該データ集合を構成する各データの内容から、各データのユニーク性に依存した値を算出して、算出したユニーク性に依存した値を前記各データに関連付けて記憶し、
  アクセス可能なデータの前記ユニーク性に依存した値に対する閾値であるアクセス条件を、前記各データにアクセスするアクセス元毎に記憶し、
  前記アクセス条件が前記ユニーク性に依存する値を満たすアクセス要求元に、要求するデータに対するアクセスを許容する計算機。
請求項１に記載の計算機であって、
前記データ集合を構成する各データから所定のカテゴリに関連するデータ部分を解析により抽出し、該データ部分によって前記各データの内容のユニーク性に依存する値を算出する計算機。
請求項２に記載の計算機であって、
前記所定のカテゴリが、個人情報に関するものである計算機。
請求項１に記載の計算機であって、
前記ユニーク性に依存する値が、前記データ集合において前記内容を同一にするデータの数又は割合に基づくものである計算機。
請求項１に記載の計算機であって、
前記アクセス元が、ユーザＩＤ、ネットワークアドレス又は前記ユーザ並びに前記ネットワークアドレスの両方である計算機。
  請求項１に記載の計算機であって、
  前記データ集合の検索インデクスを有し、
  検索条件を含む検索要求を前記アクセス元から受信し、前記検索インデクスを検索した検索結果のうちで前記アクセス元のアクセス条件を満たす検索結果を前記アクセス元に送信する計算機。
請求項２に記載の計算機であって、
前記アクセス条件が前記ユニーク性に依存する値を満たさないアクセス要求元に、前記データ部分が前記アクセス条件を満たすデータに更新されたデータへのアクセスを許容する計算機。
  請求項１に記載の計算機であって、
  前記データ集合の検索インデクスを有し、
  検索条件を含む検索要求を前記アクセス元から受信し、前記検索インデクスを検索した検索結果のうちで前記アクセス元のアクセス条件を満たさない検索結果について、該検索結果に対応するデータの一部へのアクセスを制限する旨を示す情報を付加して前記アクセス元に送信する計算機。
  請求項８に記載の計算機であって、
  前記データの一部へのアクセスを制限する旨を示す情報が付加された検索結果に対応するデータへのアクセス要求を、前記アクセス元から受信し、
  前記データの一部が前記アクセス条件を満たすデータに更新されたデータへのアクセスを許容する計算機。
  記憶装置に格納されたデータに対するアクセス元からのアクセスの管理方法であって、
  計算機が、
  前記記憶装置に格納された複数のデータからなるデータ集合における、該データ集合を構成する各データの内容から、該各データに関するユニーク性に依存した値を算出するステップと、
  算出したユニーク性に依存した値を前記各データに関連付けて記憶するステップと、
  アクセス可能なデータの前記ユニーク性に依存した値に対する閾値であるアクセス条件を、前記各データにアクセスするアクセス元毎に記憶するステップと、
  前記アクセス条件が前記ユニーク性に依存する値を満たすアクセス要求元に、要求するデータに対するアクセスを許容するステップと
を含む管理方法。
  記憶装置に格納されたデータに対するアクセス元からのアクセスを管理する計算機に、
  前記記憶装置に格納された複数のデータからなるデータ集合における、該データ集合を構成する各データの内容から、各データのユニーク性に依存した値を算出させる手順と、
  該ユニーク性に依存した値を前記各データに関連付けて記憶させる手順と、
  アクセス可能とするデータの前記ユニーク性に依存した値に対する閾値であるアクセス条件を、前記各データにアクセスするアクセス元毎に記憶させる手順と、
  前記アクセス条件が前記ユニーク性に依存する値を満たすアクセス要求元に、要求するデータに対するアクセスを許容させる手順と
を実行させるプログラムが格納された非一時的な記録媒体。