WO2007105273A1

WO2007105273A1 - 機密情報管理プログラム、方法及び装置

Info

Publication number: WO2007105273A1
Application number: PCT/JP2006/304740
Authority: WO
Inventors: Taro Fujimoto; Fumihito Nishino
Original assignee: Fujitsu Limited
Priority date: 2006-03-10
Filing date: 2006-03-10
Publication date: 2007-09-20
Also published as: JPWO2007105273A1; JP4824750B2

Abstract

　特徴情報抽部は、機密文書の先頭から１文字ずつずらしながら一定文字列長ｎの文字列を特徴情報として切り出し、各切り出し文字列に機密文書識別子を付与し、各切り出し文字列をキーとしてハッシュテーブルに登録する。機密情報判定部は、判定対象文書の先頭から１文字ずつずらしながら一定文字列長ｎの文字列を切り出し、各切り出し文字列をハッシュテーブルと照合して判定対象文書か機密情報を含むか否か判定する。頻出表現抽出部は、収集された機密文書及び一般文書から頻出表現を抽出し、特徴情報抽出部は機密対照文書から頻出表現を除去した後に一定文字列長の文字列を切り出す。

Description

明細書

機密情報管理プログラム、方法及び装置

技術分野

[0001] 本発明は、企業や各種団体等の組織内の機密情報が外部に漏洩しないように管理する機密情報管理プログラム、方法及び装置に関し、特に、電子メール等の電子文書に機密情報が含まれるか否力リアルタイムで判定して情報セキュリティを図る機密情報管理プログラム、方法及び装置に関する。

背景技術

[0002] 従来、企業のイントラネット上のサーバやデータベースで管理している文書情報には、外部に漏洩してはならない機密情報を含む機密文書が多数存在しており、このような機密情報については、例えば機密文書を管理する専用の機密情報管理サーバとデータベースを配置し、機密文書を一元的に管理することで、機密情報のセキュリティを確立している。

[0003] このような機密文書の管理システムにあっては、機密文書毎に閲覧する権限を設定し、データベースの機密文書にアクセスした際に、ユーザ IDとパスワードによる認証に加え、閲覧権限の有無をチェックし、閲覧権限を有する端末からのアクセスに対してのみ機密文書の利用を許可して!/、る。

[0004] し力しながら、企業内にあっては、必ずしもデータベースにアクセスしなくとも閲覧権限のない担当者が機密文書の内容を知ったり、閲覧権限のある担当者から機密文書を資料として入手することで知る機会がある。このため機密文書であることを意識せずに、機密文書そのものや、機密文書の中の一部の文書をメールに添付して外部に送るようなことがあり、専用サーバによる機密文書の一元管理だけでは十分なセキュリティを確保することが困難である。

[0005] そのため人的管理を通じて担当者に機密文書の管理意識を徹底させる努力を続けているが、機密文書に関連する機密情報の漏洩は完全に防止するには至っていない。

[0006] このため電子メールなど電子文書を外部に送信するネットワーク系統に、転送情報を抜き出して機密文書か否か判定する機密情報管理装置を配置し、電子メールの添付などで転送される情報に機密情報が含まれるか否力判定することが考えられる。

[0007] このように機密情報管理装置としては、専用のデータベースで管理している機密文書毎に機密文書の特徴を表すキーワードや文字パターンを抽出して辞書を作成し、転送文書と辞書の登録内容を照合して機密文書力否力判定している。

特許文献 1：特開 2003 - 288366号公報

特許文献 2： W004Z034282

発明の開示

発明が解決しょうとする課題

[0008] しかしながら、従来の辞書を使用した機密文書の判定にあっては、特定の機密文書につき抽出したキーワードや文字パターンの全てを含む文書を機密文書と判定しており、そのため適合率が低いという問題がある。

[0009] この問題を解決するためキーワードや文字パタンとの一致割合に閾値設け、閾値以上の一致割合をもつ文書を機密文書としているが、一般文書を機密文書と誤判定する比率が高くなる。判定精度を高めるためには人的な判断が必要となり、手間とェ数がかかり、日常的に送受信される膨大な数のメールやファイルを判定対象とした機密文書の管理は運用が難、という問題がある。

[0010] 更に、機密文書そのものではなぐ機密文書に含まれる一部の文書を含むファイルカール添付されて、るような場合には、機械判定でも人手による判定でも発見することが困難な場合が多い。

[0011] このように従来システムでは、組織内の機密文書および同等の情報がネットワークを通して組織外に持ち出される際に、内容を全てチェックすることが困難であり、特に、本人が意図しないミスなどで持ち出される場合は防ぎようがなぐ組織外に流出する文書全てを判定することで機密文書が出ていかないようにする必要があつたが、精度と処理速度とも低、と、う問題がある。

[0012] 本発明は、組織外に持ち出される電子的な機密文書の判定を高精度且つ高速に処理可能とする機密情報管理プログラム、方法及び装置を提供する。

課題を解決するための手段 [0013] (プログラム）

本発明は、コンピュータにより実行される機密情報管理プログラムを提供する。本発明の機密情報管理プログラムは，コンピュータに、

機密文書の先頭から 1文字ずつずらしながら一定文字列長 nの文字列を特徴情報として切り出し、各切り出し文字列に機密文書識別子を付与し、各切り出し文字列をキーとしてハッシュテーブルに登録する特徴情報抽出ステップと、

判定対象文書の先頭から 1文字ずつずらしながら一定文字列長 nの文字列を切り出し、各切り出し文字列を前記ハッシュテーブルと照合して判定対象文書か機密情報を含むか否か判定する機密情報判定ステップと、

を実行させることを特徴とする。

[0014] ここで、特徴情報抽出ステップ及び機密情報判定ステップで文字列を切出すための一定文字列長 nを、特徴抽出ステップにより文字列長を 1文字ずつ増加させながら作成したハッシュテーブルを使用して機密情報判定ステップで機密文書を判定した際の、文字列長の変化に対する機密文書の発見率と、発見された機密文書中の文字列一致率とがー致する文字列長またはその付近の文字列長とする。

[0015] 本発明の機密情報管理プログラムは、更に、収集された機密文書及び一般文書から頻出表現を抽出して頻出表現テーブルに登録する頻出表現抽出ステップを実行させ、

特徴情報抽出ステップは機密対照文書から頻出表現テーブルの頻出表現を除去した後に一定文字列長 nの文字列を切り出す。

[0016] 特徴抽出ステップは、

複数の機密文書カゝらファイル単位などの意味的なまとまりをもつ機密部分文書を切り出す部分文書切出しステップと、

機密部分文書に対応する機密文書の機密文書識別子を付与する識別子付与ステップと、

機密部分文書力頻出表現テーブルの頻出表現を除去する頻出表現除去ステツプと、

機密部分文書の先頭から 1文字ずつずらしながら一定文字列長 nの文字列を切り出す文字列切出しステップと、

全ての切出し文字列をキーとして対応する機密文書識別子をハッシュテーブルに登録するテーブル登録ステップと、

を備える。

[0017] 機密情報判定ステップは、

判定対象文書を取得する文書取得ステップと、

判定対象文書に文書識別子を付与する識別子付与ステップと、

判定対象文書の先頭から 1文字ずつずらしながら一定文字列長 nの文字列を切り出す文字列切出しステップと、

全ての切出し文字列をハッシュテーブルのキーである登録文字列と照合し、照合一致の場合に対応する機密情報識別子を取得するテーブル照合ステップと、テーブル照合ステップから 1又は複数の機密文書識別子が取得された場合に判定対象文書は機密情報を含むことを示す判定結果を出力し、機密文書識別子が取得されなかった場合に判定対象文書は機密情報を含まないことを示す判定結果を出力する判定出力ステップと、

を備える。

[0018] 頻出表現抽出ステップは、

機密文書及び一般文書を収集する文書収集ステップと、

収集文書から文字列長を順次増加させながら各文字列長の文字列を切出す文字列切出しステップと、

各文字列長毎に出現頻度を検出する頻度検出ステップと、

各文字列長毎に所定の閾値以上の出現頻度を持つ文字列を頻出表現候補として抽出する候補抽出ステップと、

頻出表現候補の包含関係を調査し、包含される頻出候補文字列を除去する候補除去ステップと、

候補除去ステップによる候補除去で残った候補を頻出表現として頻出表現テープルに登録する登録ステップと、

を備える。 [0019] 機密情報判定ステップの判定対象文書は、電子メールの本文と添付文書、ネットヮークにより転送する転送ファイル文書、表示デバイスに転送して表示する表示文書、プリンタに転送して印刷する印刷文書、及び情報機器のメモリに保存した文書を含む

[0020] 機密情報判定ステップは、判定対象文書が機密情報を含むことを判定した場合、判定対象文書の処理を禁止させる。

[0021] 機密情報判定ステップは、判定対象文書が機密情報を含むことを判定した場合、機密文書の処理権限を確認して処理を許可する。

[0022] 機密情報判定ステップは、判定対象文書が機密情報を含むことを判定した場合、管理者端末に判定結果を通知して許可応答を受けた場合、判定対象文書の処理を許可する。

[0023] (方法）

本発明は機密情報管理方法を提供する。本発明の機密情報管理方法は、機密文書の先頭から 1文字ずつずらしながら一定文字列長 nの文字列を特徴情報として切り出し、各切り出し文字列に機密文書識別子を付与し、各切り出し文字列をキーとしてハッシュテーブルに登録する特徴情報抽出ステップと、

判定対象文書の先頭から 1文字ずつずらしながら一定文字列長 nの文字列を切り出し、各切り出し文字列をハッシュテーブルと照合して判定対象文書が機密情報を含むか否か判定する機密情報判定ステップと、

を備えたことを特徴とする。

[0024] 本発明の機密情報管理方法は、更に、収集された機密文書及び一般文書から頻出表現を抽出して頻出表現テーブルに登録する頻出表現抽出ステップを備え、特徴情報抽出ステップは判定対象文書から頻出表現テーブルの頻出表現を除去した後に一定文字列長の文字列を切り出す。

[0025] (装置）

本発明は、機密情報管理装置を提供する。本発明の機密情報管理装置は、機密文書の先頭から 1文字ずつずらしながら一定文字列長 nの文字列を特徴情報として切り出し、各切り出し文字列に機密文書識別子を付与し、各切り出し文字列をキーとしてハッシュテーブルに登録する特徴情報抽部と、

判定対象文書の先頭から 1文字ずつずらしながら一定文字列長 nの文字列を切り出し、各切り出し文字列をハッシュテーブルと照合して判定対象文書が機密情報を含むか否か判定する機密情報判定部と、

を備えたことを特徴とする。

[0026] 本発明の機密情報管理装置は、更に、収集された機密文書及び一般文書から頻出表現を抽出して頻出表現テーブルに登録する頻出表現抽出部を備え、特徴情報抽出部は判定対象文書から頻出表現テーブルの頻出表現を除去した後に一定文字列長の文字列を切り出す。

発明の効果

[0027] 本発明によれば、機密文書の先頭から 1文字ずつずらしながら一定文字列長 nの文字列を特徴情報として切り出し、切り出した文字列をキーとしてハッシュテーブルに機密文書 IDを登録し、企業などの組織力外部に送ろうとしている文書につき、先頭力 1文字ずつずらしながら一定文字列長 nの文字列を切り出してハッシュテーブルと照合してマッチングし、機密情報 IDが 1つでも得られたら機密文書と機械的に判定し、送信禁止などの対応処理を実行することで、機密文書あるいは同等の情報が漏洩することを確実に防止する。

[0028] この場合、機密文書の特徴抽出及び機密情報の判定で文字列を切出すための一定文字列長 nを、文字列長の変化に対する機密文書の発見率と、発見された機密文書中の文字列一致率との関係が一致する文字列長またはその付近の文字列長に最適化することで、機密文書を高精度に判定することができる。

[0029] また機密情報の特徴情報である切り出し文字列をキーとして機密文書 IDをハッシュテーブルに登録して判定対象文書力切出した文字列との照合を行っているため、高速の比較照合が可能となり、組織外に出て行く全ての情報につき機密文書か否かの機械判定ができる。

[0030] また機密文書の特徴情報を登録するハッシュテーブルを生成する際に、機密文書に頻出するけれども文書の本質的な部分でなぐ機密文書においても複製されても問題がない表現である頻出表現を除去しておくことで、機密情報の特徴とはならない不必要な切出し文字列をキーとした機密文書 IDの登録を回避し、機密情報の判定精度と処理速度を高めることができる。

図面の簡単な説明

[0031] [図 1]本発明の機密情報管理装置の実施形態を示した機能構成のブロック図

[図 2]図 1の実施形態の詳細な機能構成のブロック図

[図 3]本実施形態が適用されるコンピュータのハードウェア環境のブロック図

[図 4]本実施形態による機密情報管理の全体処理のフローチャート

[図 5]図 4のステップ S1における頻出表現抽出処理の詳細を示したフローチャート [図 6]本実施形態による頻出表現抽出処理の処理内容の説明図

[図 7]図 4のステップ S2における機密情報特徴抽出処理の詳細を示したフローチヤート

[図 8]本実施形態による機密情報特徴抽出処理の処理内容の説明図

[図 9]本実施形態で文字切出しの一定文字列長 nを決定するための特性図

[図 10]本実施形態における一定文字列長 nによる文字列切出し処理の説明図

[図 11]図 4のステップ S4における機密情報判定処理の詳細を示したフローチャート

[図 12]本実施形態による機密情報判定処理の処理内容の説明図

発明を実施するための最良の形態

[0032] 図 1は本発明の機密情報管理装置の実施形態を示した機能構成のブロック図である。図 1において、本実施形態の機密情報管理装置 10は、企業などの組織内のネットワーク 24に接続されており、頻出表現抽出部 12、機密情報特徴抽出部 14、機密情報判定部 16、頻出表現テーブル 18、ノヽッシュテーブル 20及び判定ログファイル 2 2を備えている。

[0033] 本実施形態の機密情報管理装置 10を接続した組織内のネットワーク 24に対しては、機密文書管理サーバ 26を介して機密文書データベース 28が接続され、機密文書データベース 28で、組織内で取り扱って、る全ての機密文書を保存管理して!/、る。もちろん、機密文書管理サーバ 26による集中管理によらず、他の複数のサーバに分散する分散的な機密文書であってもよヽ。

[0034] またネットワーク 24には組織内の担当者が使用する複数のクライアント 30— 1〜30 —3が接続され、それぞれディスプレイ 32— 1〜32— 3を備えている。またネットヮーク 24には共用装置としてプリンタ 34が接続される。

[0035] 更にネットワーク 24は、インターネットなどの外部のネットワーク 44を介して外部装置 46— 1〜46— 4に接続される。内部のネットワーク 24から外部のネットワーク 44に対する出入口に相当する位置には、本実施形態にあっては、電子メールを集中的に処理するプロキシサーバ 36、 FTPなどのファイル転送を行うゲートウェイサーバ 38、ファクシミリ電文の処理を行うファクシミリサーノ Oが設けられている。

[0036] 更にネットワーク 24にはスキャンステーション 42が設置されている。スキャンステーシヨン 42は企業の出入口などに設置されており、企業の担当者が携帯しているパーソナルコンピュータなどの携帯情報機器 45に保存されている電子的な文書に対するアクセスを可能としている。

[0037] 機密情報管理装置 10の機密情報特徴抽出部 14は、機密文書データベース 28〖こ保存している機密文書を対象に、機密文書の先頭から 1文字ずつずらしながら一定文字列長 nの文字列を特徴情報として切り出し、各切出し文字列に対応する機密文書 IDを付与し、各切出し文字列をキーとしてハッシュテーブル 20に登録する。

[0038] 機密情報判定部 16はネットワーク 24を経由して、判定要求のあった文書、例えばプロキシサーバ 36から外部に送信する電子メールの本文や添付ファイルを判定対象文書として取得し、判定対象文書の先頭から 1文字ずつずらしながら一定文字列長 n の文字列を切り出し、各切出し文字列をハッシュテーブル 20と照合し、判定対象文書が機密情報を含むか否か判定する。

[0039] 頻出表現抽出部 12は、収集された機密文書及び一般文書を対象に、出現頻度の高い頻出表現を抽出して頻出表現テーブル 18に登録する。機密情報特徴抽出部 1 4において、判定対象文書力も頻出表現テーブル 18に登録されている頻出表現を除去した後に、一定文字列長 nの文字切出しに基づくハッシュテーブル 20の登録を行う。

[0040] このようにハッシュテーブル 20を作成する際に機密対象文書に含まれる頻繁に出現する出現頻度の高い頻出情報となる文字列、即ち機密文書に限らず一般文書にお！、て行われて、る一般的な言ヽ回しゃ当然書かなければならない内容、例えば「このロゴは〇〇社の登録商標です」といったような表現につき、これを頻出表現として抽出し、機密文書を判定するに除外することで、機密文書の判定精度を高めるようにしている。

[0041] 図 2は図 1の機密情報管理装置 10に設けている頻出表現抽出部 12、機密情報特徴抽出部 14及び機密情報判定部 16の詳細な機能構成のブロック図である。図 2において、頻出表現抽出部 12は、文書収集部 48、文字列切出し部 50、頻度検出部 5 2、候補抽出部 54、包含候補除去部 56及びテーブル登録部 58で構成されている。

[0042] 文書収集部 48は、企業内のネットワーク上から機密文書及び一般文書を収集する。文字列切出し部 50は、収集文書から文字列長を順次増加させながら各文字列長毎に文字列を切り出す。頻度検出部 52は、各文字列長毎に文字列の出現頻度を検出する。

[0043] 候補抽出部 54は、各文字列長毎に決定した所定の閾値以上の出現頻度をもつ文字列を頻出表現候補として抽出する。包含候補除去部 56は、頻出表現候補の包含関係を調査し、包含される頻出候補文字列を除去する。テーブル登録部 58は、包含候補除去部 56による候補除去で残った候補を頻出表現として頻出表現テーブル 18 に登録する。

[0044] 機密情報特徴抽出部 14には、部分文書切出し部 60、 ID付与部 62、頻出表現除去部 64、文字列切出し部 66及びテーブル登録部 68が設けられる。部分文書切出し部 60は、特徴情報抽出のために準備された複数の機密文書カゝらファイル単位などの意味的なまとまりを持つ機密部分文書を取り出す。

[0045] ID付与部 62は、部分文書切出し部 60で取り出された機密部分文書に対応する機密文書の機密文書 IDを付与する。頻出表現除去部 64は、機密部分文書から頻出表現テーブル 18に登録されている頻出表現を検出して除去する。

[0046] 文字列切出し部 66は、機密部分文書の先頭から文字ずつずらしながら一定文字列長 nの文字列を切り出す。例えば切出し対象となる機密部分文書の文字列長を m とすると、一定文字列長 nの文字列の切出しにより、（m— n)個の文字列が切り出されることになる。テーブル登録部 68は、全ての切出し文字列をキーとして、対応する機密文書 IDをハッシュテーブル 20に登録する。 [0047] 機密情報判定部 16には、文書取得部 70、識別子付与部 72、文字列切出し部 74 、照合部 76及び判定出力部 78が設けられる。文書取得部 70は、ネットワーク上の機器装置などから判定要求があった判定対象文書を取得する。識別子付与部 72は、判定対象文書に文書 IDを付与する。

[0048] 文字列切出し部 74は、判定対象文書の先頭から 1文字ずつずらしながら一定文字列長 nの文字列を切り出す。照合部 76は、全ての切出し文字列をハッシュテーブル 2 0のキーである登録文字列と照合し、照合一致の場合に対応する機密文書 IDを取得する。判定出力部 78は、照合部 76から 1または複数の機密文書 IDが取得された場合に、判定対象文書は機密情報を含むことを示す判定結果を出力し、機密文書 ID が取得されなカゝつた場合には判定対象文書は機密文書を含まないことを示す判定結果を出力する。

[0049] 判定出力部 78から機密文書の判定結果が得られた場合には、機密文書の判定結果に対応したセキュリティ対応処理が行われ、この機密文書に対するセキュリティ対応処理は原則的には機密文書に対するアクセスを一切禁止する処理となるが、処理を行っている端末の担当者が閲覧権限を有する場合には機密文書であってもその処理を許可する。また機密文書につき、機密文書を管理している管理端末に判定結果を通知し、管理者端末力許可応答を受けた場合にのみ機密文書に対するァクセスを許可するようにしてもょ、。

[0050] 図 3は本実施形態が適用されるコンピュータのハードウェア環境のブロック図である。図 3において、 CPU80のバス 82に対しては、 RAM84、 ROM86、ハードディスクドライブ 88、キーボード 92,マウス 94,ディスプレイ 96を接続するデバイスインタフエース 90、及びネットワークアダプタ 98が設けられて!/、る。

[0051] ハードディスクドライブ 88には、本実施形態の機密情報管理装置 10としての機能を実現する機密情報管理プログラムが格納されており、コンピュータを起動した際のブートアップ後に RAM84に OSを展開した状態で、ハードディスクドライブ 88から R AM84に読み出され、 CPU80により実行されることになる。

[0052] 図 4は本実施形態による機密情報管理の全体処理のフローチャートであり、図 1を参照して説明すると次のようになる。図 4において、機密情報管理処理は、まずステツプ SIで頻出表現抽出部 12による頻出表現抽出処理を実行し、抽出した頻出表現を頻出表現テーブル 18に格納する。

[0053] 続いてステップ S2で、機密情報特徴抽出部 14により機密情報特徴抽出処理が実行され、抽出された特徴情報、具体的には一定文字列長 nの文字列をキーとして機密情報 IDをハッシュテーブル 20に登録する処理が行われる。

[0054] 続いてステップ S3で文書判定要求の有無をチェックしており、判定要求を受けるとステップ S4に進み、機密情報判定部 16による判定処理を実行する。この判定結果にっき、ステップ S5で機密情報の判定を認識した場合には、ステップ S7に進み、機密文書対応処理として例えば判定対象文書のアクセスを禁止する処理などを行う。ステップ S5で機密情報でな、ことが判定された場合には、ステップ S6で文書処理を許可することになる。

[0055] 続、てステップ S8で機密情報判定処理の処理結果を判定ログファイル 22に記録する。次にステップ S9で機密情報の追加更新などがあることを判定した場合には、ステツプ S2に戻り、追加更新された機密文書を対象に機密情報特徴抽出処理を行つてハッシュテーブル 20を追加更新する。このようなステップ S2〜S9の処理を、ステツプ S10で停止指示があるまで繰り返すことになる。

[0056] 図 5は図 4のステップ S1の頻出表現抽出処理の詳細を示したフローチャートである。図 5において、頻出表現抽出処理は、ステップ S1で機密文書及び一般文書をネットワーク上カゝら収集し、ステップ S2で、収集した文書から例えば数十文字から数百文字程度の文字列長の単位で文字列を切り出す。

[0057] 続いてステップ S3で、切出し文字列を対象に文字列長を順次増加させた各文字列長ごとに出現頻度を求め、同時に出現頻度の判定閾値を決定する。次にステップ S4 で各文字列長ごとに閾値以上の頻度を持つ文字列を頻出表現候補として抽出する。続いてステップ S5で、抽出された頻出表現候補の間で包含関係を調査し、包含される候補を除去する。最終的にステップ S6で、包含される候補の除去により残った候補を頻出表現として頻出表現テーブル 18に登録する。

[0058] 図 6は本実施形態による頻出表現抽出処理の処理内容を具体的に示している。図 6において、まず機密文書及び一般文書の文書収集処理 100が行われ、文書フアイル 102〖こ示すよう〖こ、ファイル ID、ファイル名及びファイルデータ力なる複数文書が収集される。

[0059] 次に、文書ファイル 102の各文書を対象に数十文字から数百文字程度の範囲で文字列を切り出し、切り出した文字列を対象に各文字列長ごとに統計的な出現頻度を検出する頻度検出処理 104を実行する。この頻度検出処理 104により、ワークテーブル 106— 1に示すように、文字列 112、文字列長 114及び出現頻度 116に示す内容が得られる。

[0060] 次に頻出表現候補抽出処理 108を実行する。頻出表現候補抽出処理 108にあつては、ワークテーブル 106— 2に示すように、所定の閾値を超える出現頻度の文字列に対し、頻出表現候補 118に示すように「1」をセットし、閾値未満の文字列については候補でな、ことを示す「0」をセットする。

[0061] 次に包含候補除去処理 110を実行し、ワークテーブル 106— 3のように包含関係 1 20に、もし包含候補であった場合には「1」をセットし、包含関係がなければ「0」をセットする。この包含候補除去処理 110により、ワークテーブル 106— 3の例えば文字列「 □〇△國」が頻出表現として抽出されて頻出表現テーブル 18に登録されることになる。

[0062] 図 7は図 4のステップ S2の機密情報特徴抽出処理の詳細を示したフローチャートである。図 7において、機密情報特徴抽出処理は、ステップ S1で機密文書群を読み込み、ステップ S2で、機密文書群力例えば 1つの意味的まとまりを持つ部分文書として、例えばファイル単位に文書を切り出す。

[0063] 次にステップ S3で切り出した文書に文書 IDを付与する。次にステップ S4で図 5の頻出情報抽出処理で得られている頻出表現テーブル 18の登録内容に基づき、頻出表現を機密文書から除去する。続いてステップ S5で、機密文書につき先頭から 1文字ずつずらしながら一定文字列長 nで文字切出しを行う。

[0064] 続!、てステップ S6で、切り出した全ての文字列をキーとして文書 IDをハッシュテーブル 20に登録する。このようなステップ S2〜S6の処理を、ステップ S7でファイル単位の切出しが終了するまで繰り返す。

[0065] 図 8は本実施形態による機密情報抽出処理の処理内容に説明図である。図 8において、複数の文書情報 122— 1〜122— 3を読み込んだ後、切り出し処理 124により例えばファイル単位に機密文書を切り出す。続いて文書 ID付与処理 126により、切り出した機密文書に対し、切出し元の切出し文書に設定されている機密文書 IDを付与する。これにより、文書ファイル 128に示すようにファイル IDとファイル名が付与されたファイルデータが作成される。

[0066] 次にテキスト情報抽出処理 130により、文書ファイル 128の特定のファイルを取り出して、その中からテキスト情報を抽出する。次に頻出表現除去処理 130により頻出情報テーブル 18に登録されている頻出表現をテキスト情報から除去する。続いて一定文字列切り出し処理 134を実行し、一定文字列長 nの文字列をテキスト文書の先頭力も 1文字ずつずらしながら切り出す。最終的に、ノ、ッシュ登録処理 136により全文字列をキーとして機密文書 IDをハッシュテーブル 20に登録する。

[0067] ここで、本実施形態の機密情報特徴抽出処理で機密文書から文字列を切り出すための一定文字列長 nの最適値について説明する。図 9は本実施形態で機密文書の特徴抽出のための文字列切出しを行う一定文字列長 nを決定するための特性図である。

[0068] 図 9において、横軸は機密文書の判定に使用する文字列長であり、 1文字から文書サイズで決まる最大文字数までの値をとる。縦軸はパーセント表示となる。特性曲線 1 38は文字列長を 1文字力順次増加させていったときの機密文書発見率であり、文字列長が増加するに従って機密文書発見率は減少する特性となる。

[0069] 特性曲線 140は、文字列長の変化に対し判定した機密文書の中の文字列の一致割合であり、文字列長が増加するほど、発見した機密文書中における文字列長の一致する割合は増大する。究極的には、機密文書の全文字列を文字列長とした場合には特性曲線 140の値は 100%、即ち機密文書と文字列長は完全に一致することになる。

[0070] このような機密文書発見率の特性曲線 138と、発見した機密文書における一致文字列長の一致率の特性曲線 140にっき、両者が交差する交点 142の文字列長 nを、本実施形態にあっては最適な文字列切出しのための文字列長としている。

[0071] 日本語文書の場合、図 9の特性曲線 138, 140の交点 142で与えられる文字列長 nは n= 20文字であることが、本願発明者らの考察を通じて取得されている。この最適文字列長 n= 20文字は日本語の場合であるが、英語や他の言語にあっても同様な手法により、図 9の交点 142の一致文字列長 nを求めることで、 20文字の前後の値が得られる。

[0072] 図 10は本実施形態における一定文字列長 nによる文字列切出し処理の説明図である。図 10において、切出し対象となるファイル文字列 150に対し、図 9により決定した文字列長 nの一定文字列を、ファイル文字列 150の先頭から 1文字ずつずらしながら、文字列 152—1, 152- 2, 152- 3, · · ·のように、一定文字列 nの末尾がフアイル文字列 150の最後に達するまで切り出す。この文字列切出しは、ファイル文字列 1 50の文字数を mとすると (m— n)個の文字列が切り出されることになる。

[0073] 図 11は図 4のステップ S4の機密情報判定処理の詳細を示したフローチャートである。図 11において、機密情報判定処理は、ステップ S1で要求のあった判定対象文書を読み込み、ステップ S2で文書 IDを付与した後、ステップ S3で判定対象文書からテキス M青報を抽出する。

[0074] 続いてステップ S4で、テキスト情報の先頭から 1文字ずつずらしながら、一定文字列長 nで文字列の切出しを行う。次にステップ S5で、切り出した全ての文字列によりノ、ッシュテーブル 20を検索して、マッチングした機密文書 IDを取得する。

[0075] ステップ S6で機密文書 IDの取得を判別すると、ステップ S 7で重複する機密文書 I Dを 1つにまとめるマージ処理を行った後、ステップ S8で機密文書 IDを判定結果にセットして出力する。ステップ S6で機密文書 IDの取得がなければ、ステップ S9で機密文書該当なしの判定結果をセットして出力する。

[0076] 図 12は本実施形態による機密情報判定処理の処理内容の説明図である。図 12にあっては、判定対象文書として電子メール 154を対象文書取得処理 156により取得した場合であり、取得した電子メール 154に文書 ID付与処理 158により文書 IDを付与し、メールファイル 160を作成する。

[0077] このメールファイル 160のメールデータを対象に、テキスト情報抽出処理 162によりテキスト情報を抽出する。テキスト情報はメール本文及びメールの添付ファイルから抽出されること〖こなる。 [0078] 次に一定文字列長切出し処理 164により、テキスト情報の先頭から 1文字ずつずらしながら、一定文字列長 nで文字列を切り出す。次にノ、ッシュ検索処理 166によりノヽッシュテーブル 20を全切出し文字により検索し、マッチングした登録文字列に対応した機密文書 IDを取得する。

[0079] ワークテーブル 168はハッシュ検索処理の処理結果であり、文字列 170、文字列長 172に対応して検索された機密文書のファイル ID174が格納されている。次に重複 I Dマージ処理 176を実行し、判定結果出力処理 178により判定出力ファイル 180に示すように、検索された複数の機密文書 IDを出力し、この場合には処理要求のあつた電子メール 154が機密文書を含んでいることの判定結果が出力されることになる。

[0080] 次に本実施形態の機密情報判定部 16で対象文書から機密情報を判定した場合のセキュリティ対応処理を説明する。図 1に示したように、本実施形態の機密情報管理装置 10に設けた機密情報判定部 16は、内部のネットワーク 24に接続しているクライアント 30— 1〜30— 3で処理する文書、プロキシサーバ 36で外部に送信する電子メール、ゲートウェイサーバ 38で外部に転送する FTPファイルなどの転送ファイル、ファクシミリサーノ 0で送信するファクシミリファイル、スキャンステーション 42で検出する携帯情報機器 45の文書ファイル、更にネットワーク 24に接続されているプリンタ 34 に対する印刷文書ファイル等を、機密情報の判定対象として、る。

[0081] 更にクライアント 30— 1〜30— 3にあっては、機密文書を担当者がディスプレイ 32 — 1〜32— 3に表示する際に、機密情報判定部 16に判定要求を行い、判定結果に基づいた機密文書の表示の有無が制御されることになる。

[0082] 機密情報判定部 16で判定対象文書に機密情報が含まれることが判定された場合、判定要求元におけるアクセスや出力処理は全て禁止することが原則となる。しかしながら、機密文書については、機密文書に対しアクセスの権限のある担当者が利用する場合もあることから、機密情報と判定した場合には送信元に閲覧権限があるか否か判定し、閲覧権限があれば機密文書であってもアクセスを許可する。

[0083] また機密文書については、その利用を管理者が管理している場合があり、閲覧権限がなカゝつた場合に、管理者端末に機密文書の判定結果を通知し、管理者端末からの許可応答を待って、機密文書を含む文書のアクセスを許可するようにしてもょヽ [0084] また機密情報判定部 16で判定された対象ファイルの機密情報を含むことの判定結果は全て判定ログファイル 22に記録されており、機密情報の漏洩問題などが発生した場合に、漏洩経路を後から探索することができるようにして、る。

[0085] 本実施形態における機密情報判定部 16は、企業内から外部に機密情報が無断もしくは不注意に持ち出されることを阻止するものである力外部装置 46— 1〜46— 4 との間で機密情報をやり取りするような場合にも、送受信される文書ファイルから機密情報を判定してセキュリティを管理することができる。

[0086] 例えば本実施形態の機密情報管理装置 10を設置している企業と機密情報開示先である例えば個人事業者間に設けている外部装置 46— 1との間の送受信される文書ファイルにっき、機密情報判定部 16で機密情報を判定した場合、機密情報の送信記録と受信記録を作成して照合しながら文書管理を行い、外部装置 46— 1から受信したメール文書についても機密情報判定部 16で判定処理を行い、もし機密情報が含まれて、たような場合には、外部装置 46 - 1を取り扱って、る事業者に対し機密情報が誤って流出していることを通知して対応を促すことが可能となる。

[0087] また図 1の機密情報をやり取りする外部装置 46— 1側にも本実施形態の機密情報管理装置 10における対象となる機密文書について特定的に作成されたハッシュテ一ブル 20と機密情報判定部 16及び判定ログファイル 22を組み込んでおくことで、送信元及び送信先のそれぞれで機密情報のやり取りにっき機密文書 IDを判定して記録しておき、送信した機密情報 IDと受信した機密情報 IDをリアルタイムで照合することで全ての機密情報が正しく送受信され、送受信漏れによる機密情報の漏洩がな、ことを確認するセキュリティ管理が可能となる。

[0088] 本実施形態は更にコンピュータで実行される機密情報管理プログラムを提供するものであり、本実施形態の機密情報管理プログラムは、図 4、図 5、図 7、図 11のフローチャートに示した処理内容を持つことになる。

[0089] また本発明は機密情報管理処理プログラムを記録したコンピュータ可読の記録媒体を提供するものであり、この記録媒体は CD—ROM、フロッピィ（R)ディスク、 DVD ディスク、光磁気ディスク、 ICカードなどの可搬型記憶媒体や、コンピュータシステムの内外に備えられたノヽードディスクなどの記憶装置の他、回線を介してプログラムを保持するデータベース、あるいは他のコンピュータシステム並びにそのデータベース、更には回線上の伝送媒体を含むものである。

[0090] また上記の実施形態は、機密情報特徴抽出部及び機密情報判定処理における文字列の切出しに図 9の特性関係力設定した一定文字列長 nの文字列を切り出す場合を例にとっているが、この文字列の切出しは最適な一定文字列長 nに加え、 1文字多い (n+ 1)または 1文字少ない (n— 1)のそれぞれにっき文字列切出しを行ってハッシュテーブル 20を作成し、この場合には機密情報判定処理につき、一定文字列長 n, (n+ 1) , (n—1)の順番で機密 IDを検索するまで処理を繰り返すことで、更に機密情報の判定精度を高めることができる。

[0091] また本発明は、その目的と利点を損なうことのない適宜の変形を含み、上記の実施形態に示した数値による限定は受けない。

Claims

請求の範囲

[1] コンピュータに、

機密文書の先頭から 1文字ずつずらしながら一定文字列長の文字列を特徴情報として切り出し、各切り出し文字列に機密文書識別子を付与し、各切り出し文字列をキ一としてノ、ッシュテーブルに登録する特徴情報抽出ステップと、

判定対象文書の先頭から 1文字ずつずらしながら前記一定文字列長と同一文字列長の文字列を切り出し、各切り出し文字列を前記ハッシュテーブルと照合して前記判定対象文書が機密情報を含むか否か判定する機密情報判定ステップと、を実行させることを特徴とする機密情報管理プログラム。

[2] 請求項 1記載の機密情報管理プログラムに於!、て、前記特徴情報抽出ステップ及び機密情報判定ステップで文字列を切出すための一定文字列長は、前記特徴情報抽出ステップにより文字列長を 1文字ずつ増加させながら作成したハッシュテーブルを使用して前記機密情報判定ステップで機密文書を判定した際の、前記文字列長の変化に対する機密文書の発見率と、発見された機密文書中の文字列一致率とが一致する文字列長またはその付近の文字列長としたことを特徴する機密情報管理プログラム。

[3] 請求項 1記載の機密情報管理プログラムに於いて、更に、収集された機密文書及び一般文書から頻出表現を抽出して頻出表現テーブルに登録する頻出表現抽出ステツプを実行させ、

前記特徴情報抽出ステップは機密文書から前記頻出表現テーブルの頻出表現を除去した後に一定文字列長の文字列を切り出すことを特徴とする機密情報管理プログラム。

[4] 請求項 3記載の機密情報管理プログラムに於、て、前記特徴情報抽出ステップは複数の機密文書カゝらファイル単位などの意味的なまとまりをもつ機密部分文書を切り出す部分文書切出しステップと、

前記機密部分文書に対応する機密文書の機密文書識別子を付与する識別子付与ステップと、前記機密部分文書から前記頻出表現テーブルの頻出表現を除去する頻出表現除去ステップと、

前記機密部分文書の先頭から 1文字ずつずらしながら一定文字列長の文字列を切り出す文字列切出しステップと、

を備えたことを特徴とする機密情報管理プログラム。

[5] 請求項 1記載の機密情報管理プログラムに於いて、

前記機密情報判定ステップは、

判定対象文書を取得する文書取得ステップと、

前記判定対象文書に文書識別子を付与する識別子付与ステップと、

前記判定対象文書の先頭から 1文字ずつずらしながら前記一定文字列長の文字列を切り出しす文字列切出しステップと、

全ての切出し文字列を前記ハッシュテーブルのキーである登録文字列と照合し，照合一致の場合に対応する機密文書識別子を取得するテーブル照合ステップと、前記テーブル照合ステップから 1又は複数の機密文書識別子が取得された場合に前記判定対象文書は機密情報を含むことを示す判定結果を出力し、機密文書識別子が取得されなカゝつた場合に前記判定対象文書は機密情報を含まないことを示す判定結果を出力する判定出力ステップと、

を備えたことを特徴とする機密情報管理プログラム。

[6] 請求項 3記載の機密情報管理プログラムに於いて、前記頻出表現抽出ステップは機密文書及び一般文書を収集する文書収集ステップと、

前記収集文書から順次増加する文字列長毎の文字列を切出す文字列切出しステップと、

各文字列長毎に出現頻度を検出する頻度検出ステップと、

各文字列長毎に所定の閾値以上の出現頻度を持つ文字列を頻出表現候補として抽出する候補抽出ステップと、前記頻出表現候補の包含関係を調査し、包含される頻出候補文字列を除去する候補除去ステップと、

前記候補除去ステップによる候補除去で残った候補を頻出表現として前記頻出表現テーブルに登録する登録ステップと、

を備えたことを特徴とする機密情報管理プログラム。

[7] 請求項 1記載の機密情報管理プログラムに於!、て、前記機密情報判定ステップの判定対象文書は、電子メールの本文と添付文書、ネットワークにより転送する転送フアイル文書、表示デバイスに転送して表示する表示文書、プリンタに転送して印刷する印刷文書、及び情報機器のメモリに保存した文書を含むことを特徴とする機密情報管理プログラム。

[8] 請求項 1記載の機密情報管理プログラムに於!、て、前記機密情報判定ステップは、判定対象文書が機密情報を含むことを判定した場合、前記判定対象文書の処理を禁止させることを特徴とする機密情報管理プログラム。

[9] 請求項 1記載の機密情報管理プログラムに於!、て、前記機密情報判定ステップは、判定対象文書が機密情報を含むことを判定した場合、機密文書の処理権限を確認して処理を許可することを特徴とする機密情報管理プログラム。

[10] 請求項 1記載の機密情報管理プログラムに於!、て、前記機密情報判定ステップは、判定対象文書が機密情報を含むことを判定した場合、管理者端末に判定結果を通知して許可応答を受けた場合、前記判定対象文書の処理を許可することを特徴とする機密情報管理プログラム。

[11] 機密文書の先頭から 1文字ずつずらしながら一定文字列長の文字列を特徴情報として切り出し、各切り出し文字列に機密文書識別子を付与し、各切り出し文字列をキ一としてノ、ッシュテーブルに登録する特徴情報抽出ステップと、

判定対象文書の先頭から 1文字ずつずらしながら前記一定文字列長と同一文字列長の文字列を切り出し、各切り出し文字列を前記ハッシュテーブルと照合して前記判定対象文書か機密情報を含むか否か判定する機密情報判定ステップと、を備えたことを特徴とする機密情報管理方法。

[12] 請求項 11記載の機密情報管理方法に於!、て、前記特徴情報抽出ステップ及び機密情報判定ステップで文字列を切出すための一定文字列長を、前記特徴情報抽出ステップにより文字列長を 1文字ずつ増加させながら作成したハッシュテーブルを使用して前記機密情報判定ステップで機密文書を判定した際の、前記文字列長の変化に対する機密文書の発見率と、発見された機密文書中の文字列一致率とがー致する文字列長またはその付近の文字列長としたことを特徴する機密情報管理方法。

[13] 請求項 11記載の機密情報管理方法に於いて、更に、収集された機密文書及び一般文書力頻出表現を抽出して頻出表現テーブルに登録する頻出表現抽出ステツプを設け、

前記特徴情報抽出ステップは機密対照文書から前記頻出表現テーブルの頻出表現を除去した後に一定文字列長の文字列を切り出すことを特徴とする機密情報管理方法。

[14] 請求項 13記載の機密情報管理方法に於いて、前記特徴抽出ステップは、

前記機密部分文書に対応する機密文書の機密文書識別子を付与する識別子付与ステップと、

前記機密部分文書から前記頻出表現テーブルの頻出表現を除去する頻出表現除去ステップと、

前記機密部分文書の先頭から 1文字ずつずらしながら前記一定文字列長の文字列を切り出す文字列切出しステップと、

を備えたことを特徴とする機密情報管理方法。

[15] 請求項 11記載の機密情報管理方法に於!、て、

前記機密情報判定ステップは、

判定対象文書を取得する文書取得ステップと、

全ての切出し文字列を前記ハッシュテーブルのキーである登録文字列と照合し、照合一致の場合に対応する機密情報識別子を取得するテーブル照合ステップと、前記テーブル照合ステップから 1又は複数の機密情報識別子が取得された場合に前記判定対象文書は機密情報を含むことを示す判定結果を出力し、機密識別情報画取得されなカゝつた場合に前記判定対象文書は機密情報を含まないことを示す判定結果を出力する判定出力ステップと、

を備えたことを特徴とする機密情報管理方法。

[16] 請求項 13記載の機密情報管理方法に於いて、前記頻出表現抽出ステップは、機密文書及び一般文書を収集する文書収集ステップと、

各文字列長毎に出現頻度を検出する頻度検出ステップと、

前記頻出表現候補の包含関係を調査し、包含される頻出候補文字列を除去する候補除去ステップと、

を備えたことを特徴とする機密情報管理方法。

[17] 請求項 11記載の機密情報管理方法に於!、て、前記機密情報判定ステップの判定対象文書は、電子メールの本文と添付文書、ネットワークにより転送する転送ファイル文書、表示デバイスに転送して表示する表示文書、プリンタに転送して印刷する印刷文書、及び情報機器のメモリに保存した文書を含むことを特徴とする機密情報管理方法。

[18] 請求項 11記載の機密情報管理方法に於!、て、前記機密情報判定ステップは、判定対象文書が機密情報を含むことを判定した場合、前記判定対象文書の処理を禁止させることを特徴とする機密情報管理方法。

[19] 機密文書の先頭から 1文字ずつずらしながら一定文字列長の文字列を特徴情報として切り出し、各切り出し文字列に機密文書識別子を付与し、各切り出し文字列をキ一としてハッシュテーブルに登録する特徴情報抽出部と、

判定対象文書の先頭から 1文字ずつずらしながら前記一定文字列長の同じ文字列長の文字列を切り出し、各切り出し文字列を前記ハッシュテーブルと照合して前記判定対象文書が機密情報を含むか否か判定する機密情報判定部と、

を備えたことを特徴とする機密情報管理装置。

[20] 請求項 19記載の機密情報管理装置に於いて、更に、収集された機密文書及び一般文書力頻出表現を抽出して頻出表現テーブルに登録する頻出表現抽出部を設け、

前記特徴情報抽出部は機密対照文書から前記頻出表現テーブルの頻出表現を除去した後に一定文字列長の文字列を切り出すことを特徴とする機密情報管理装置