WO2014057963A1

WO2014057963A1 - フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム

Info

Publication number: WO2014057963A1
Application number: PCT/JP2013/077441
Authority: WO
Inventors: 守本　正宏; 喜勝白井; 秀樹武田
Original assignee: 株式会社Ｕｂｉｃ
Priority date: 2012-10-10
Filing date: 2013-10-09
Publication date: 2014-04-17
Also published as: CN104885116A; EP2908282A4; KR20150056873A; KR20150129862A; US20160110826A1; CN104885116B; TW201415264A; EP2908282A1; JP2014078109A; JP5823943B2

Abstract

レビュワーのレビュー関連性判断の負荷を軽減することを可能とする。　デジタル情報に含まれる複数の文書からなる文書群の少なくとも一以上の文書を、前記利用者に対して表示する表示部と、前記文書群のうち、前記利用者が訴訟に関連するか否かを判断するための文書である対象文書に対し、前記利用者が訴訟に関連するか否かの判断に基づいて付与した識別情報を受け付ける識別情報受付部と、前記識別情報を受け付けた対象文書の特徴量と、前記文書群の中の文書の特徴量との比較結果に基づいて、所定の識別情報に対応する、前記文書群の中の文書のスコアを更新するスコア更新部と、前記更新されたスコアに基づいて、前記表示部に表示される前記文書群の文書の表示順番を制御する表示制御部とを備える。

Description

フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム

　本発明は、フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラムに関するものであって、特に、訴訟に関連する文書情報を収集するためのフォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラムに関するものである。

　従来、不正アクセスや機密情報漏洩などコンピュータに関する犯罪や法的紛争が生じた際に、原因究明や捜査に必要な機器やデータ、電子的記録を収集・分析し、その法的な証拠性を明らかにする手段や技術が提案されている。

　また、米国民事訴訟では、ｅＤｉｓｃｏｖｅｒｙ（電子証拠開示）等が求められており、当該訴訟の原告および被告のいずれもが、関連するデジタル情報をすべて証拠として提出する責任を負う。そのため、コンピュータやサーバに記録されたデジタル情報を証拠として、提出しなければならない。

　一方、ＩＴの急速な発達と普及に伴い、今日のビジネスの世界ではほとんどの情報がコンピュータで作成されているため、同一企業内であっても多くのデジタル情報が氾濫している。

　そのため、法廷への証拠資料提出のための準備作業を行う過程において、当該訴訟に必ずしも関連しない機密なデジタル情報までも証拠資料として含めてしまうミスが生じやすい。また、当該訴訟に関連しない機密な文書情報を提出してしまうことが問題になっていた。

　近年、フォレンジックシステムにおける文書情報に関する技術が、特許文献１乃至特許文献３に提案されている。特許文献１には、文書提出命令の対象者情報に含まれる少なくとも１人以上の対象者から、特定の者を指定し、指定された特定の者に関するアクセス履歴情報に基づいて、特定の者がアクセスしたデジタル文書情報のみを抽出し、抽出されたデジタル文書情報の文書ファイルそれぞれが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。

　また、特許文献２には、記録されたデジタル情報を表示し、複数の文書ファイル毎に、対象者情報に含まれる対象者のうちいずれの対象者に関連するものであるかを示す対象者特定情報を設定し、該設定された対象者特定情報を記憶部に記録するように設定し、少なくとも一人以上の対象者を指定し、指定された対象者に対応する対象者特定情報が設定された文書ファイルを検索し、表示部を介して、検索された文書ファイルが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。

　さらに、特許文献３には、デジタル文書情報に含まれる少なくとも１以上の文書ファイルの指定を受け付け、指定された文書ファイルをいずれの言語に翻訳するかの指定を受け付け、指定を受け付けた文書ファイルを、指定を受け付けた言語に翻訳し、記録部に記録されたデジタル文書情報から、指定された文書ファイルと同一の内容を示す共通文書ファイルを抽出し、抽出された共通文書ファイルが、翻訳された文書ファイルの翻訳内容を援用することにより翻訳されたことを示す翻訳関連情報を生成し、翻訳関連情報に基づいて、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。

特開２０１１－２０９９３０号公報特開２０１１－２０９９３１号公報特開２０１２－３２８５９号公報

　しかしながら、例えば、特許文献１乃至特許文献３のようなフォレンジックシステムにおいては、複数のコンピュータおよびサーバを利用した対象者の膨大な文書情報を収集することになる。

　このようなデジタル化された膨大な文書情報を訴訟の証拠資料として妥当であるか否かの分別をする作業は、レビュワーと呼ばれる利用者が目視により確認し、当該文書情報をひとつひとつ分別していく必要があり、多大な労力と時間がかかるという問題があった。

　そこで、本発明は、上記事情に鑑み、レビュワーのレビューの負荷を軽減することを可能とするフォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラムを提供することを目的とするものである。

　本発明のフォレンジックシステムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を分析するフォレンジックシステムにおいて、デジタル情報に含まれる複数の文書からなる文書群の少なくとも一以上の文書を利用者に対して表示する表示部と、文書群のうち、利用者が訴訟に関連するか否かを判断するための対象文書に対し、利用者が訴訟に関連するか否かの判断に基づいて付与した識別情報を受け付ける識別情報受付部と、該識別情報を受け付けた対象文書の特徴量と、文書群の中の各文書の特徴量との比較結果に基づいて、所定の識別情報に対応する、該各文書のスコアを更新するスコア更新部と、該更新されたスコアに基づいて、表示部に表示される文書群の文書の表示順を制御する表示制御部とを備える。

　「文書」とは、１つ以上の単語を含むデータをいう。文書の一例として、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等が挙げられる。また、文書は、識別情報ごとに対応するスコアを有し、スコアは、文書群の中の各文書に対してあらかじめ付与される初期スコアから、識別情報が関連づけられた対象文書と各文書の特徴量との比較結果に基づいて算出された値を、加点または減点することによって算出され、更新されるものであってもよい。

　「文書群」は、複数の文書から構成されるものである。

　「表示部」は、利用者に文書を提示するものをいう。表示部に表示された文書は、利用者の訴訟に関連するか否かの判断対象となる。この訴訟に関連するか否かを判断する行為を、「レビュー」という。レビューは、レビューの対象となる文書（ここでは対象文書という）の、訴訟の関連の度合いや、訴訟との関連の仕方に基づいて、複数の種類に分類を行い、種類ごとに識別情報を付与する。

　「表示制御部」は、表示部に対して通信によって指示を送り、表示する文書の順番を制御する。例えば、文書が持つスコアの昇順に表示部に表示させるよう、制御するものとしてもよい。

　「識別情報受付部」は、利用者がレビューによって対象文書に付与した識別情報を受け付けるものをいう。

　「識別情報」は、分類対象となる文書に付与されるものであって、訴訟への利用が容易になるように、訴訟との関連性を示すものをいう。識別情報は各文書に付帯情報として記録してもよいし、識別情報と文書との対応関係をデータベース上に記録するものとしてもよい。識別情報は、例えば、訴訟に関連することを表す「Ｒｅｓｐｏｎｓｉｖｅ」や、とりわけ訴訟において重要視される文書を表す「ＨＯＴ」、今回の訴訟とは無関係の文書であることを表す「Ｎｏｎ－Ｒｅｓｐｏｎｓｉｖｅ」等のキーワードを指してもよい。

　「スコア更新部」は、識別情報受付部が識別情報を受付けた対象文書の特徴量と、文書群中に含まれる文書の特徴量を比較し、該受け付けた識別情報に対応するスコアを更新するものをいう。また、スコア更新部は、文書の中に頻出する各単語の種類、各単語がもつ評価値および各単語の出現数からなる傾向情報を用いて、特徴量を算出するものとしてもよい。スコア更新部は、例えば、特徴量の一致度に応じてスコアを加点・減点するものとしてもよい。比較対象となる文書には対象文書自身を含んでもよいし、対象文書は除外してもよい。例えば、対象文書自身を比較対象に含んだ場合、特徴量は完全一致するので、相応な点がスコアに加点され更新される。

　「スコア」は、文書と識別情報との結びつきの程度を定量的に評価したものをいう。各文書は、データベース上に、所定の識別情報ごとに対応するスコアを記録されているものとしてもよい。例えば、レビューにおいて、各文書が、識別情報「ＨＯＴ」、「Ｒｅｓｐｏｎｓｉｖｅ」または「Ｎｏｎ－Ｒｅｓｐｏｎｓｉｖｅ」の３つの識別情報により分類されるものとした場合を例に説明する。この場合、各文書は、データベース上に「Ｈｏｔ」スコア、「Ｒｅｓｐｏｎｓｉｖｅ」スコアおよび「Ｎｏｎ－Ｒｅｓｐｏｎｓｉｖｅ」スコアの３つのスコアを記録する領域が確保されるものとしてもよい。そして、上記３種類のスコアのうち、所定の閾値を超過した場合、その超過した識別情報が付与されるものとしてもよい。

　各文書は、一定の要件に基づいて、初期スコアを与えられるものとしてもよい。例えば、文書中に出現する単語と、各単語の持つ評価値とにより初期スコアを算出してもよい。また、全文書に共通して、一定値を初期スコアとして付与してもよい。初期スコアから加点・減点処理が行われ、スコアが更新される。

　「特徴量」は、各文書間の類似度を測定するのに用いるものをいう。特徴量は、文書の中に頻出する各単語の種類、各単語がもつ評価値および各単語の出現数からなる傾向情報を用いてスコア更新部によって算出されるものとしてもよい。さらに、スコア更新部は、特徴量を算出する際に、単語の伝達情報量を参酌してもよい。

　また、本発明に係るフォレンジックシステムは、更に、スコアが特定の値に達した文書を、表示部により表示される文書の候補から除外することを判定する除外判定部と、該判定された文書の数が所定の値を超えるまで、表示部と、識別情報受付部と、スコア更新部と、表示制御部と、除外判定部との処理を繰り返し実行できるように制御する制御部とを備えてもよい。

　「除外判定部」は、スコアの更新の際に、更新後のスコアが特定の値に達した文書を、表示部により表示される文書の候補対象から除外判定するものをいう。除外判定部は、除外判定の前段として識別情報ごと終了判定を行うものとしてもよい。例えば、レビューにおいて、除外判定部は、３種類の識別情報を付与するものである場合、３種類すべての識別情報について終了判定した文書を、対象文書の候補から除外するものとしてもよい。また、除外判定部は、１つの識別情報についてのスコアのみが特定の値を超過し、当該識別子について終了判定された場合、該超過した識別情報について終了判定された旨の表示を、当該文書に付与してもよい。更に、除外判定および終了判定は特定の値を閾値として２つ有すものとしてもよい。例えば、スコアが加点によって該２つの閾値の一方を超過した場合、またはスコアが減点によって他方の閾値を下回る場合に除外判定および終了判定することも可能である。

　「制御部」は、表示部と、識別情報受付部と、スコア更新部と、除外判定部との処理を繰り返し実行できるよう制御するものをいう。該制御は、１処理ごとに循環的に繰り返させるものとしてもよい。また、制御部は、バッチ的に一定量処理した後に後段の処理を実行させる、という単位で繰り返していくものとしてもよい。制御部は、文書群や対象グループに含まれる全文書が除外判定された場合に、制御処理を完了する。

　また、本発明に係るフォレンジックシステムは、更に、文書群の中の文書に対し、更新されたスコアに基づいて、識別情報を付与する自動付与部を備えるものであってもよい。

　「自動付与部」は、各文書に適切な識別情報をスコアに応じて自動で判断し、付与するものをいう。自動付与部は、識別情報の種類ごとに閾値を設け、該閾値を超過した文書に対応する識別情報を付与するものとしてもよい。

　また、本発明に係るフォレンジックシステムは、更に、文書群に含まれる文書について、識別情報に対応するスコアを記録し、スコア更新部がスコアを更新する度に、識別情報ごとのスコアを更新するデータベースを備えるものとしてもよい。データベースには、文書、付与された識別情報、各識別情報に対応するスコアおよび閾値超過情報等を記録するものとしてもよい。

　また、本発明に係るフォレンジックシステムは、更に、文書群を所定の要件に基づいて、グループに分類し、該グループの中から、処理対象となる対象グループを少なくとも１つ選択する分類部を備え、表示部は、分類部が選択した対象グループから、利用者に表示する文書群を抽出するものとしてもよい。

　「所定の要件」は、分類の条件となるものをいう。所定の要件は、利用者が任意に決定できるものとしてもよい。例えば所定の要件は、文書が作成された年や、文書の拡張子、文書の作成者やセキュリティレベル等が挙げられる。

　「グループ」は、文書群を分類したものをいう。グループは、複数の文書を含むものとしてもよい。グループに分類された場合、制御部は、対象グループの中に含まれる全文書が除外判定されたときに、処理を完了するものとしてもよい。

　「対象グループ」は、上述したグループのうち、利用者がレビューを実施する対象となるグループをいう。対象グループの中から、表示部が表示する文書群が抽出される。対象グループごとに、表示制御部によって文書の表示順の制御が行われるものとしてもよい。また、対象グループ内の全文書に制御部の処理が完了すると、次のグループが対象文書として選定されるものとしてもよい。

　また、本発明に係るフォレンジックシステムは、更に、対象グループに含まれる各文書の特徴量と、利用者による訴訟に関連するか否かの判断が完了したグループに含まれる各文書の特徴量との比較をするグループ比較部を備え、表示制御部は、表示部にグループ比較部の比較結果をもとに、対象グループから表示する文書群の表示順序を制御するものとしてもよい。

　「グループ比較部」は、グループ間で文書の特徴の比較処理を行うものをいう。例えば、グループ比較部は、利用者による訴訟に関連するか否かの判断が完了したグループに含まれる文書の特徴量を比較対象として用いることで、次の対象グループに含まれる各文書の識別情報の偏りを示唆することができる。具体的にいうと、グループ比較部は、利用者による訴訟に関連するか否かの判断が完了したグループ（グループＡという）の中で、１つの識別情報（識別情報Ａとする）に対応するスコアが高い文書に共通する特徴量を抽出する。グループ比較部は、更に、該抽出された特徴量と類似する特徴量を有する文書を次の対象グループ（グループＢとする）の中から検索し、特徴量の類似度に応じて表示制御部が文書の並び順を制御する。該並び順を制御され、上位にきた文書は、識別情報「ＨＯＴ」が付与される可能性が高い文書であると考えられる。そのため、グループＢについて、利用者がレビューをする場合に、識別情報「ＨＯＴ」がつきやすい旨を示唆でき、レビューの速度の向上を図ることができる。

　また、本発明に係るフォレンジック方法は、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を分析するフォレンジック方法において、デジタル情報に含まれる複数の文書からなる文書群を、利用者に対して表示するステップと、表示された文書群から、利用者が訴訟に関連するか否かを判断するための文書である対象文書に対し、利用者が訴訟に関連するか否かの判断に基づいて付与した識別情報を受け付けるステップと、識別情報を受け付けた対象文書の特徴量と、文書群の中の各文書の特徴量との比較結果に基づいて、所定の識別情報に対応する、各文書のスコアを更新するステップと、更新されたスコアに基づいて、表示部に表示される文書群の文書の表示順番を制御するステップを実行する。

　また、本発明に係るフォレンジックプログラムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を分析するフォレンジックプログラムにおいて、コンピュータが、デジタル情報に含まれる複数の文書からなる文書群を、利用者に対して表示する機能と、表示された文書群から、利用者が訴訟に関連するか否かを判断するための文書である対象文書に対し、利用者が訴訟に関連するか否かの判断に基づいて付与した識別情報を受け付ける機能と、識別情報を受け付けた対象文書の特徴量と、文書群の中の各文書の特徴量との比較結果に基づいて、所定の識別情報に対応する、各文書のスコアを更新する機能と、更新されたスコアに基づいて、表示部に表示される文書群の文書の表示順番を制御する機能を実行させる。

　本発明のフォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラムは、表示された対象文書に対し、デジタル情報に含まれる複数の文書からなる文書群を、利用者に対して表示するステップと、表示された文書群から、利用者が訴訟に関連するか否かを判断するための文書である対象文書に対し、利用者が訴訟に関連するか否かの判断に基づいて付与した識別情報を受け付けるステップと、識別情報を受け付けた対象文書の特徴量と、文書群の中の各文書の特徴量との比較結果に基づいて、所定の識別情報に対応する、各文書のスコアを更新するステップと、更新されたスコアに基づいて、表示部に表示される文書群の文書の表示順番を制御するステップとを有することによって、利用者が関連性判断を行う文書数を削減することで利用者の関連性判断の負荷の低減し、関連性判断処理の速度の向上を図ることが可能となる。

　また、本発明のフォレンジックシステムは、更に、文書群の中の文書に対し、更新されたスコアに基づいて、識別情報を付与する自動付与部を備える際においては、利用者の判断結果を踏まえて自動で文書に対して識別情報を付与することが可能である。

　また、本発明のフォレンジックシステムの文書は、識別情報ごとに対応するスコアを有し、スコアは、文書群の中の各文書に対してあらかじめ付与される初期スコアから、識別情報が関連づけられた対象文書と各文書の特徴量との比較結果に基づいて、加点または減点することによって算出され、更新されるものである際においては、利用者が判断を誤って、不適切な識別情報を付与した場合でも、他の文書に対する判断を踏まえて、スコアを適切な値に収斂させることが可能である。

　また、本発明に係るフォレンジックシステムは、更に、文書群を所定の要件に基づいて、グループに分類し、該グループの中から、処理対象となる対象グループを少なくとも１つ選択する分類部を備え、表示部は、分類部が選択した対象グループから、利用者に表示する文書群を抽出するものである際においては、類似度の高い文書間で特徴量を比較することが可能になる。

　また、本発明に係るフォレンジックシステムは、更に、対象グループに含まれる各文書の特徴量と、制御部による制御処理が完了したグループに含まれる各文書の特徴量との比較をするグループ比較部を備え、表示制御部は、表示部にグループ比較部の比較結果をもとに、対象グループから表示する文書群の表示順序を制御するものである際においては、利用者に対象文書が付与される可能性が高い識別情報を事前に示唆することが可能になる。

本発明の第１の実施形態の処理を概念的に示した図本発明の第１の実施形態における処理を示したフローチャート本発明の第１の実施形態に係るフォレンジックシステムのブロック図本発明の第１の実施形態における表示部、表示制御部、識別情報受付部、スコア更新部および自動付与部の処理を示したフローチャート本発明の実施形態における分類部の処理を示したフローチャート本発明の実施形態における分類部の処理を示した模式図本発明の実施形態におけるグループ比較部の処理を示したフローチャート本発明の実施形態におけるグループ比較部の処理を示した模式図本発明の第２の実施形態に係るフォレンジックシステムのブロック図本発明の実施形態における除外判定部の処理を示したフローチャート本発明の第２の実施形態における表示部、表示制御部、識別情報受付部、スコア更新部および自動付与部の処理を示したフローチャート

[第１の実施形態]
　以下、本発明の第１の実施形態を図１乃至図８を用いて説明する。

　本発明の第１の実施形態に係るフォレンジックシステム１００は、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を分析するフォレンジックシステム１００において、デジタル情報に含まれる複数の文書からなる文書群の少なくとも一以上の文書を利用者に対して表示する表示部２１０と、文書群のうち、利用者が訴訟に関連するか否かを判断するための対象文書に対し、利用者が訴訟に関連するか否かの判断に基づいて付与した識別情報を受け付ける識別情報受付部４１０と、該識別情報を受け付けた対象文書の特徴量と、文書群の中の各文書の特徴量との比較結果に基づいて、所定の識別情報に対応する、該各文書のスコアを更新するスコア更新部５１０と、該更新されたスコアに基づいて、表示部２１０に表示される文書群の文書の表示順を制御する表示制御部３１０とを備える。

　また、第１の実施形態において、フォレンジックシステム１００は、更に、文書群の中の文書に対し、更新されたスコアに基づいて、識別情報を付与する自動付与部８１０を備えるものであってもよい。

　また、本実施形態において、フォレンジックシステム１００は、更に、文書群に含まれる文書について、識別情報に対応するスコアを記録し、スコア更新部５１０がスコアを更新する度に、識別情報ごとのスコアを更新するデータベース１０１を備えるものとしてもよい。データベース１０１には、文書、付与された識別情報、各識別情報に対応するスコアおよび閾値超過情報等を記録するものとしてもよい。

　また、フォレンジックシステム１００は、更に、文書群を所定の要件に基づいて、グループに分類し、該グループの中から、処理対象となる対象グループを少なくとも１つ選択する分類部９１０を備え、表示部２１０は、分類部９１０が選択した対象グループから、利用者に表示する文書を抽出するものとしてもよい。更に、対象グループに含まれる各文書の特徴量と、利用者によるレビューが完了したグループに含まれる各文書の特徴量との比較をするグループ比較部９２０を備え、表示制御部３１０は、グループ比較部９２０の比較結果をもとに、対象グループから表示する文書群の表示順序を制御するものとしてもよい。

　本実施形態においては、訴訟に提出が必要な文書に「ＨＯＴ」という識別情報を用いて訴訟との関連性の判断を行う場合を例にとって説明する。この、システム又は利用者が訴訟に関連するか否かを判断する行為をレビューという。レビューでは、レビューの対象となる文書（ここでは対象文書という）を、訴訟の関連の度合いや、訴訟との関連の仕方に基づいて、複数の種類に分類を行い、種類ごとに識別情報を付与する。

　図１に示す図は、フォレンジックシステム１００を利用したレビューの様子を概念的に表している。フォレンジックシステム１００を利用した場合、利用者は、レビュー（Ｈｕｍａｎ　Ｒｅｖｉｅｗ）を、フォレンジックシステム１００が示唆したレビューの予測結果（Ａｕｔｏｍａｔｉｃ　Ｐｒｅｄｉｃｔｉｖｅ　Ｃｏｄｉｎｇ）を参考にしながら、実施可能となる。具体的には、利用者がある文書に対してレビューを行うと、フォレンジックシステム１００は、利用者の行ったＨｕｍａｎ　Ｒｅｖｉｅｗのレビュー結果を、Ｈｕｍａｎ　Ｒｅｖｉｅｗが実施される都度にレビュー対象の文書に反映させていく。

　このため、利用者は次の文書に対してレビューを行う際に、Ａｕｔｏｍａｔｉｃ　Ｐｒｅｄｉｃｔｉｖｅ　Ｃｏｄｉｎｇによって示唆された予測レビュー結果を見ながら、その予測レビュー結果が適切か否か、という判断基準でレビューを行うことが可能となる。そのため、利用者は、Ａｕｔｏｍａｔｉｃ　Ｐｒｅｄｉｃｔｉｖｅ　Ｃｏｄｉｎｇによって示唆された予測レビュー結果に満足がいった時点で、レビューを終了することが可能となる。これによって、利用者が関連性判断を行う文書数を削減することで利用者の関連性判断の負荷の低減し、関連性判断処理の速度の向上を図ることが可能となる。

　ここで、図２を用いて第１の実施形態全体の処理フローの概略を説明する。図２は第１の実施形態全体の処理フローを概念定的に示した図である。

　フォレンジックシステム１００では、処理の開始時に、ます、文書のまとまりである文書群を複数のグループへの分類処理（Ｃｌｕｓｔｅｒｉｎｇ）を行う（ＳＴＥＰ１）。そして、分類したグループから、フォレンジックシステム１００の今回の処理対象となる対象グループを選定する。対象グループは、グループのうち、利用者がレビューを実施する対象となるグループをいう。

　文書は、１つ以上の単語を含むデータをいう。文書の一例として、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等が挙げられる。また、文書は、識別情報ごとに対応するスコアを有し、スコアは、文書群の中の各文書に対してあらかじめ付与される初期スコアから、識別情報が関連づけられた対象文書と各文書の特徴量との比較結果に基づいて、加点または減点することによって算出され、更新されるものとしてもよい。また、文書群は、複数の文書から構成されるものである。グループは、文書群を分類したものをいう。

　分類処理を行う際に、分類の条件として所定の要件を利用者が入力することができる。所定の要件はフォレンジックシステム１００によって自動で入力されるものとしてもよい。具体的には、所定の要件は、文書が作成された年や、文書の拡張子、文書の作成者やセキュリティレベル等が挙げられる。

　次に、グループ間の比較処理（Ａｕｔｏｍａｔｉｃ　Ｓｕｇｇｅｓｔ　Ｄｏｃｕｍｅｎｔｓ）が行われる（ＳＴＥＰ２）。これは、訴訟との関連性の判断が完了したグループに含まれる文書と、今回の対象となっているグループとを比較することで、次の対象グループに含まれる、ある文書の特定の識別情報への偏りを示唆するものをいう。具体的にいうと、関連性の判断が完了したグループ（グループＡとする）の中で、１つの識別情報（ここでは「ＨＯＴ」）に対応するスコアが高い文書に共通する特徴量を抽出する。該抽出された特徴量と類似する特徴量を有する文書を次の対象グループ（グループＢとする）の中から検索し、特徴量の類似度に応じて文書の並び順を制御する。つまり、上位にきた文書は、識別情報「ＨＯＴ」が付与される可能性が高い文書であると考えられる。そのため、グループＢについて、利用者がレビューをする場合に、識別情報「ＨＯＴ」がつきやすい旨を示唆でき、レビューの精度および速度の向上を図ることができる。

　スコアは、文書と所定の識別情報との結びつきの程度を定量的に評価したものをいう。例えばレビューで、訴訟との関連性があることを表す「Ｒｅｓｐｏｎｓｉｖｅ」および、訴訟との関連が非常に強く重要な文書であることを表す「ＨＯＴ」を用いている場合を例に説明する。この場合、各文書は、データベース上に「Ｈｏｔ」スコアおよび「Ｒｅｓｐｏｎｓｉｖｅ」スコアを記録する領域が確保されるものとしてもよい。そして、上記２種類のスコアのうち、所定の閾値を超過した場合、その超過した識別情報が付与されるものとしてもよい。

　特徴量は、各文書間の類似度を測定するのに用いるものをいう。特徴量は、文書の中に頻出する各単語の種類、各単語がもつ評価値および各単語の出現数からなる傾向情報を用いて算出される。

　その後、利用者がレビュー（Ｈｕｍａｎ　Ｒｅｖｉｅｗ）を実施する（ＳＴＥＰ３）。レビューが実施される都度に、フォレンジックシステム１００は、該レビュー結果を用いて各文書のスコアを算出（Ａｕｔｏｍａｔｉｃ　Ｒｅａｌ－Ｔｉｍｅ　Ｃｒｅａｔｅ　Ｔｒａｉｎｎｉｎｇ　Ｄａｔａ）する（ＳＴＥＰ４）。更に、算出されたスコアの順に対象グループ内の文書の並び替えを行うことで、利用者が次の文書のレビューを行う際に、その文書のレビュー結果を示唆する（Ｓｕｇｇｅｓｔ　Ｎｅｘｔ　Ｄｏｃｕｍｅｎｔｓ　ｂｙ　Ｒｅａｌ－Ｔｉｍｅ　Ａｕｔｏｍａｔｉｃ　Ｐｒｅｄｉｃｔｉｖｅ　Ｃｏｄｉｎｇ）ことが可能になる（ＳＴＥＰ５）。フォレンジックシステム１００は、利用者が並び替えられた文書からレビューの終了を判断するまで、対象グループに対して、ＳＴＥＰ３からＳＴＥＰ５の処理を繰り返す。これは、並び替えられた文書は降順に特定の識別情報が高いことを意味しているため、ある文書が利用者からみて、確実に訴訟との関連性はないと判断できた場合、それより下位に位置する文書はすべて訴訟との関連性はないと判断されるためである。そのため、利用者は全文書をレビューする必要なく、関連性の判断を終了することができる。

　図３は、第１の実施形態に係るフォレンジックシステム１００のブロック図である。

　第１の実施形態において、フォレンジックシステム１００は、図３に示すように、表示部２１０と、表示制御部３１０と、識別情報受付部４１０と、スコア更新部５１０と、自動付与部８１０と、分類部９１０と、グループ比較部９２０と、データベース１０１とを備える。

　フォレンジックシステム１００は、コンピュータまたはサーバであり、各種入力に基づきＣＰＵがＲＯＭに記録されたプログラムを実行することで、各種機能部として動作する。該プログラムは、ＣＤ－ＲＯＭ等の記憶媒体に記憶され、もしくはインターネット等のネットワークを介して配布され、コンピュータにインストールされるものであってもよい。また、表示部２１０は、ディスプレイ、モニタ、タブレットＰＣ等表示機能を有するものであり、利用者が操作し、対象文書を確認し、識別情報を付与するのに利用する装置である。第１の実施形態において、フォレンジックシステム１００は、表示部２１０をシステム内に備えていないが、システム内に含むものとして構成してもよい。

　また、フォレンジックシステム１００の各機能部および表示部２１０は、有線あるいは無線のネットワークを介して接続されている。クラウドコンピューティングの形態で利用することも可能である。

　表示部２１０は、表示制御部３１０によって整列された通りに文書群の少なくとも一以上の文書を利用者に対して表示する。

　表示制御部３１０は、表示部２１０が表示する文書の順番を制御する。第１の実施形態においては、表示制御部３１０は文書が持つスコアの降順に表示するよう表示部２１０に表示制御の指示を送る。この結果、利用者は、表示制御部３１０によってスコア順に並び替えられた文書をみて、レビューの続行が必要か判断することができる。つまり、レビューをしている最中の対象文書が、明らかに訴訟との関連性がない場合、当該対象文書より下位に並べられている文書は、よりスコアが低いのであるから、レビューをするまでもなく、訴訟との関連性がないと判断できる。

　識別情報受付部４１０は、利用者がレビューによって対象文書に付与した識別情報を受け付けるものをいう。

　識別情報は、分類対象となる文書に付与されるものであって、訴訟への利用が容易になるように、訴訟との関連度を示すものをいう。識別情報は各文書に付帯情報として記録してもよいし、識別情報と文書との対応関係をデータベース１０１上に記録するものとしてもよい。識別情報には、訴訟と対象文書とが関連性があることを示す「Ｒｅｓｐｏｎｓｉｖｅ」や、訴訟との関連性が非常に高く、重要な文書であることを示す「ＨＯＴ」、訴訟との関連性がないことを示す「Ｎｏｎ－Ｒｅｓｐｏｎｓｉｖｅ」等が挙げられる。第１の実施形態では、識別情報として「ＨＯＴ」タグを付与し、該タグは、文書と対応付けてデータベース１０１上で管理される。

　スコア更新部５１０は、識別情報受付部４１０が識別情報を受付けた対象文書の特徴量と、文書群中に含まれる文書の特徴量を比較し、該受け付けた識別情報に対応するスコアを更新していくものをいう。スコア更新部５１０は、例えば、特徴量の一致度に応じてスコアを加点・減点するものとしてもよい。第１の実施形態においては、比較対象となる文書には対象文書自身を含んでいないが、対象文書も更新対象とする形態であってもよい。例えば、対象文書自身を比較対象に含んだ場合、特徴量は完全一致するので、相応な点がスコアに加点され更新される。

　文書は、一定の要件に基づいて、初期スコアを与えられる。例えば、文書中に出現する単語と、各単語の持つ評価値とにより初期スコアを算出してもよい。第１の実施形態では、初期スコアは所定の要件に基づいて算出され、全文書に対して一定値が与えられる。初期スコアから加点・減点処理が行われ、スコアが更新される。

　自動付与部８１０は、各文書に適切な識別情報をスコアに応じて自動で判断し、付与するものをいう。識別情報の種類ごとに閾値を設け、該閾値を超過した文書に対応する識別情報を付与するものとしてもよい。第１の実施形態においては、「ＨＯＴ」スコアの閾値としてαを有している。つまり、自動付与部８１０は、スコア更新部５１０が各文書の「ＨＯＴ」スコアに対して更新処理を行った結果、αを超過した文書には識別情報として「ＨＯＴ」タグを付与する。

　グループ比較部９２０は、グループ間で文書の特徴の比較処理を行うものをいう。利用者によるレビューが完了したグループに含まれる文書の特徴量を比較対象として用いることで、次の対象グループに含まれる文書の特定の識別情報への偏りを示唆することができる。具体的にいうと、利用者によるレビューが完了したグループ（グループＡとする）の中で、１つの識別情報（ここでは「ＨＯＴ」）に対応するスコアが高い文書に共通する特徴量を抽出する。該抽出された特徴量と類似する特徴量を有する文書を次の対象グループ（グループＢとする）の中から検索し、特徴量の類似度に応じて表示制御部３１０が文書の並び順を制御する。該並び順を制御され、上位にきた文書は、識別情報「ＨＯＴ」が付与される可能性が高い文書であると考えられる。そのため、グループＢについて、利用者がレビューをする場合に、識別情報「ＨＯＴ」がつきやすい旨を示唆でき、レビューの精度および速度の向上を図ることができる。

　図４を用いて表示部２１０、表示制御部３１０、識別情報受付部４１０、スコア更新部５１０、自動付与部８１０の処理フローを説明する。図４は本実施形態における、表示部２１０、表示制御部３１０、識別情報受付部４１０、スコア更新部５１０、自動付与部８１０の処理を表すフローチャートである。

　表示部２１０が、文書群の中から、レビュー対象の文書である文書１を表示する（ＳＴＥＰ１１）。利用者が、文書１に対してレビューを行い、「ＨＯＴ」タグを付与し、該「ＨＯＴ」タグを、識別情報受付部４１０が受け付ける（ＳＴＥＰ１２）。

　スコア更新部５１０は、「ＨＯＴ」タグについて、各文書のスコアを更新するために、文書１とその他の文書との特徴量を比較する（ＳＴＥＰ１３）。なお、第１の実施形態においては、スコア更新部５１０は、利用者がレビューを行った文書に対しては、スコアの更新処理を行わない。

　スコア更新部５１０は、比較結果に基づいて、その他の文書の「ＨＯＴ」タグのスコアに対し、加点・減点処理を行う（ＳＴＥＰ１４）。

　スコアの更新後、自動付与部８１０は、更新されたスコアの値がαを超過しているか否かの検定を行う（ＳＴＥＰ１５）。スコアがαを超過した文書があった場合には（ＳＴＥＰ１５：ＹＥＳ）、当該文書に対して、自動付与部８１０が「ＨＯＴ」タグを付与する（ＳＴＥＰ１６）。スコアがαを超過していない文書に対しては（ＳＴＥＰ１５：ＮＯ）、タグの付与は行わない。

　自動付与処理後、表示制御部３１０が、更新後のスコアの降順に文書の並び替え制御を行う（ＳＴＥＰ１７）。利用者が終了と判断した場合（ＳＴＥＰ１８：ＹＥＳ）、そこで処理を終了する。利用者が終了と判断しなかった場合（ＳＴＥＰ１８：ＮＯ）、表示部２１０が、表示制御部３１０が並び替えた文書の上位の順に表示する（ＳＴＥＰ１９）。この場合、利用者は再度最上位にきた文書に対してタグ付けを行う（ＳＴＥＰ１２：２巡目）。以下、利用者が終了を判定するまで、ＳＴＥＰ１２乃至ＳＴＥＰ１９の処理が循環する。

　図５は分類部９１０の処理フローを示す図である。分類部９１０では、利用者が入力した要件を受け付ける（ＳＴＥＰ１１１）。その後、入力された所定の要件に基づいて分類処理を実行する（ＳＴＥＰ１１２）。図６は分類処理の実行結果を模式的に示した図である。

　図６の上段は文書群の中の文書を示している。利用者が例えば分類の要件として「年代」を入力した場合、文書群の中の文書は、図６の後段に示すように、年代別にグループ分けがなされる。

　図７は、グループ比較部９２０の処理フローを示す図である。
グループ比較部９２０では、レビュー処理が完了したグループ（グループＡとする）と、次のレビュー対象となるグループ（グループＢとする）間での比較を行う（ＳＴＥＰ１２１）。具体的には、グループＡに含まれる文書（文書１とする）の特徴量と、グループＢに含まれる文書（文書２とする）の特徴量とを比較する。例えば文書２の特徴量が文書１の特徴量と類似する場合には、文書１の各識別情報のスコアおよび類似度に基づいて、文書２の各識別情報に仮スコアを与える（ＳＴＥＰ１２２）。

　仮スコアとは、グループ比較部９２０が比較処理を行うために、各文書に一時的に付与するスコアである。そのため、自動付与部８１０の識別情報付与処理には用いられない。第１の実施形態においては、グループ比較部９２０は、仮スコアを用いて処理を行うが、通常のスコアを直接更新して処理を行ってもよい。

　グループ処理部は、各識別情報の付与した仮スコアの降順に文書を並べる（ＳＴＥＰ１２３）。

　図８は、グループ比較部９２０および表示制御部３１０の処理の様子を模式的に示した図である。レビュー実施済みのグループＡの処理結果をグループＢに反映させ（図８上段）、表示制御部３１０がグループＢに含まれる文書を各識別情報について、仮スコアの降順に並べる（図８下段）。これにより、利用者は「ＨＯＴ」タグが付きやすい文書から順にレビューを行うことができる。

［第２の実施形態］
　以下、本発明の実施の形態を図９乃至図１１を用いて説明する。

　本発明の第２の実施形態に係るフォレンジックシステム１００は、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を分析するフォレンジックシステム１００において、デジタル情報に含まれる複数の文書からなる文書群の少なくとも一以上の文書を利用者に対して表示する表示部２１０と、文書群のうち、利用者が訴訟に関連するか否かを判断するための対象文書に対し、利用者が訴訟に関連するか否かの判断に基づいて付与した識別情報を受け付ける識別情報受付部４１０と、該識別情報を受け付けた対象文書の特徴量と、文書群の中の各文書の特徴量との比較結果に基づいて、所定の識別情報に対応する、該各文書のスコアを更新するスコア更新部５１０と、該更新されたスコアに基づいて、表示部２１０に表示される文書群の文書の表示順を制御する表示制御部３１０とを備える。

　また、第２の実施形態において、フォレンジックシステム１００は、更に、文書群の中の文書に対し、更新されたスコアに基づいて、識別情報を付与する自動付与部８１０を備えるものであってもよい。

　また、本実施形態において、フォレンジックシステム１００は、更に、文書について、識別情報に対応するスコアを記録し、スコア更新部５１０がスコアを更新する度に、識別情報ごとのスコアを更新するデータベース１０１を備えるものとしてもよい。データベース１０１には、文書、付与された識別情報、各識別情報に対応するスコアおよび閾値超過情報等を記録するものとしてもよい。

　また、本実施形態において、フォレンジックシステム１００は、更に、スコアが特定の値に達した文書を、表示部２１０により表示される文書の候補から除外することを判定する除外判定部６１０と、該判定された文書の数が所定の値を超えるまで、表示部２１０と、識別情報受付部４１０と、スコア更新部５１０と、表示制御部３１０と、除外判定部６１０との処理を繰り返し実行できるように制御する制御部７１０とを備えてもよい。

　図９は、第２の実施形態に係るフォレンジックシステム１００のブロック図である。

　第２の実施形態において、フォレンジックシステム１００は、図９に示すように、表示部２１０と、表示制御部３１０と、識別情報受付部４１０と、スコア更新部５１０と、除外判定部６１０と、自動付与部８１０と、制御部７１０と、分類部９１０と、グループ比較部９２０と、データベース１０１とを備える。

　本実施形態におけるレビュー処理では、識別情報として「ＨＯＴ」タグを用いて、訴訟との関連性を判断する処理を行う。

　除外判定部６１０は、スコアの更新の際に、更新後のスコアが特定の値に達した文書を、表示部２１０により表示される対象文書の候補から除外判定するものをいう。除外判定部６１０は、除外判定の前段として、識別情報ごとに終了判定を行い、全ての識別情報について終了判定された文書について、除外判定を行う。本実施形態では、特定の値として閾値をβ１とβ２の２つを有する（β１＞β２）。除外判定部６１０は、スコアが加点によってβ１を超過した場合、又は減点によってβ２と下回った場合にその識別情報について終了判定を行う。第１の実施形態においては、３種類の識別情報を付与するものである。この場合、除外判定部６１０は、３種類すべての識別情報について除外判定した文書を、対象文書の候補から除外する。

　また、１つの識別情報についてのスコアがβ１またはβ２に達し、終了判定された場合には、該超過した識別情報について除外された旨の表示を、当該文書に付与してもよい。

　図１０を用いて、除外判定部６１０の処理について説明する。図１０は、利用者がレビューにおいて、文書１に識別情報として「ＨＯＴ」タグを付与した場合の除外判定部６１０の処理フローである。利用者はレビューにおいて、識別情報として「ＨＯＴ」タグを付与する処理を行ったため、除外判定部６１０でも「ＨＯＴ」タグについて、各文書の除外判定を行う。

　除外判定部６１０では、各文書の「ＨＯＴ」スコアの値を検定する（ＳＴＥＰ６２１）。ここでαは、自動付与部８１０が識別情報の付与処理を行う判断基準となる閾値である。スコアが、β２より大きくα未満である文書に対して、除外判定部６１０では、何の処理も行わない（ＳＴＥＰ６２２）。一方で、スコアが、β１以上またはβ２以下である文書には、「ＨＯＴ」タグについて終了判定を行う（ＳＴＥＰ６２３）。この場合、他の識別情報のスコアについても判定し（ＳＴＥＰ６２４）、全てβ１以上またはβ２以下である場合には（ＳＴＥＰ６２４：ＹＥＳ）、当該文書をレビュー対象から除外する（ＳＴＥＰ６２５）。１つでもβ１未満かつβ２より大きいスコアの識別情報がある文書に対しては（ＳＴＥＰ６２４：ＮＯ）、除外判定は行わず、終了する。

　制御部７１０は、表示部２１０と、識別情報受付部４１０と、スコア更新部５１０と、表示制御部３１０と、除外判定部６１０との処理を繰り返し実行できるよう制御するものをいう。該制御は、１処理ごとに循環的に繰り返させるものとしてもよい。また、バッチ的に一定量処理した後に後段の処理を実行させる、という単位で繰り返していくものとしてもよい。第２の実施形態では、表示制御部３１０は、後述するグループに含まれる文書すべてが除外判定された場合に、制御処理を完了する。

　図１１は、本実施形態における処理全体の概要を示すフローチャートである。ここでは、利用者が文書１に対してレビューをし、「ＨＯＴ」タグを付与した場合を例に説明する。

　まず、文書１を表示部２１０が画面に表示する（ＳＴＥＰ１３０）。表示部２１０によって表示された文書１に対して利用者が、識別情報として「ＨＯＴ」タグを付与し（ＳＴＥＰ１３１）、該「ＨＯＴ」タグを識別情報受付部４１０が、利用者が文書１に付与した識別情報として受け付ける。

　スコア更新部５１０は、「ＨＯＴ」タグについて、各文書のスコアを更新するために、文書１とその他の文書（ここでは文書２とする）との特徴量を比較する（ＳＴＥＰ１３２）。なお、第２の実施形態においては、スコア更新部５１０は、利用者がレビューを行った文書に対しては、スコアの更新処理を行わない。そのため、文書１は利用者がレビューを終了した時点で、終了判定がされる。

　スコア更新部５１０は、比較結果に基づいて、文書２の「ＨＯＴ」タグのスコアに対し、加点・減点処理を行う（ＳＴＥＰ１３３）。

　スコアの更新後、除外判定部６１０が、文書２の「ＨＯＴ」スコアの値を検定する（ＳＴＥＰ１３４）。除外判定部６１０は、文書２の「ＨＯＴ」スコアが、β１より大きくα未満である場合には、処理を行わない（ＳＴＥＰ１３５）。一方、α以上β１未満の場合には、文書２に「ＨＯＴ」タグを付与する（ＳＴＥＰ１３６）。

　文書２のスコアがβ１以上の場合には、除外判定部６１０が「ＨＯＴ」については終了判定を行う（ＳＴＥＰ１３７）。このとき、文書２に「ＨＯＴ」タグが付与されていなければ自動付与部８１０の識別子の付与処理が実行される。

　また、文書２のスコアがβ２以下である場合には、除外判定部６１０は、「ＨＯＴ」について終了判定を行う（ＳＴＥＰ１３８）。ＳＴＥＰ１３７およびＳＴＥＰ１３８の処理が実施された場合、除外判定部６１０は、文書２の他の識別情報のスコアがβ１またはβ２に達しているか検定する（ＳＴＥＰ１３９）。検定の結果、β１またはβ２に達している場合には（ＳＴＥＰ１３９：ＹＥＳ）、文書２を表示部２１０の表示候補から除外する（ＳＴＥＰ１４０）。ＳＴＥＰ１４１の処理完了後、制御部７１０は、全ての文書が除外判定されているか検定し（ＳＴＥＰ１４１）、されている場合には（ＳＴＥＰ１４１：ＹＥＳ）、処理を終了する。

　ＳＴＥＰ１３５又はＳＴＥＰ１３６の処理完了後、或いはＳＴＥＰ１３９でスコアがβ１未満かつβ２より大きいと判断された場合（ＳＴＥＰ１３９：ＮＯ）、制御部７１０によって次の処理に移行する。この際、除外判定がされていない文書は、表示制御部３１０によって、更新されたスコアの値の昇順に並び替えが行われる（ＳＴＥＰ１４３）。

　表示制御部３１０によって並び替えられたのち、並び順つまり、スコアの高い順に表示部２１０によって表示される（ＳＴＥＰ１４４）。

その他の構成、機能については、第１の実施形態と同様とする。

　フォレンジックシステム１００は、表示された対象文書に対し、デジタル情報に含まれる複数の文書からなる文書群を、利用者に対して表示する表示部２１０と、表示された文書群から、利用者が訴訟に関連するか否かを判断するための文書である対象文書に対し、利用者が訴訟に関連するか否かの判断に基づいて付与した識別情報を受け付ける識別情報受付部４１０と、識別情報を受け付けた対象文書の特徴量と、文書群の中の各文書の特徴量との比較結果に基づいて、所定の識別情報に対応する、各文書のスコアを更新するスコア更新部５１０と、更新されたスコアに基づいて、表示部２１０に表示させる文書群の文書の表示順番を制御する表示制御部７１０とを備えることによって、利用者が関連性判断を行う文書数を削減することで利用者の関連性判断の負荷の低減し、関連性判断処理の速度の向上を図ることが可能となる。

　また、フォレンジックシステム１００は、更に、文書群の中の文書に対し、更新されたスコアに基づいて、識別情報を付与する自動付与部８１０を備える際においては、利用者の判断結果を踏まえて自動で文書に対して識別情報を付与することが可能である。

　また、フォレンジックシステム１００の文書は、識別情報ごとに対応するスコアを有し、スコアは、文書群の中の各文書に対してあらかじめ付与される初期スコアから、識別情報が関連づけられた対象文書と各文書の特徴量との比較結果に基づいて、加点または減点することによって算出され、更新されるものである際においては、利用者が判断を誤って、不適切な識別情報を付与した場合でも、他の文書に対する判断を踏まえて、スコアを適切な値に収斂させることが可能である。

　また、フォレンジックシステム１００は、更に、文書群を所定の要件に基づいて、グループに分類し、該グループの中から、処理対象となる対象グループを少なくとも１つ選択する分類部９１０を備え、表示部２１０は、分類部９１０が選択した対象グループから、利用者に表示する文書群を抽出するものである際においては、類似度の高い文書間で特徴量を比較することが可能になる。

　また、フォレンジックシステム１００は、更に、対象グループに含まれる各文書の特徴量と、制御部７１０による制御処理が完了したグループに含まれる各文書の特徴量との比較をするグループ比較部９２０を備え、表示制御部３１０部は、表示部２１０にグループ比較部９２０の比較結果をもとに、対象グループから表示する文書群の表示順序を制御するものである際においては、利用者に対象文書が付与される可能性が高い識別情報を事前に示唆することが可能になる。

　　１００　　　　　　フォレンジックシステム
　　１０１　　　　　　データベース
　　２１０　　　　　　表示部
　　３１０　　　　　　表示制御部
　　４１０　　　　　　識別情報受付部
　　５１０　　　　　　スコア更新部
　　６１０　　　　　　除外判定部
　　７１０　　　　　　制御部
　　８１０　　　　　　自動付与部
　　９１０　　　　　　分類部
　　９２０　　　　　　グループ比較部

Claims

　複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を分析するフォレンジックシステムにおいて、
　前記デジタル情報に含まれる複数の文書からなる文書群の少なくとも一以上の文書を、利用者に対して表示する表示部と、
　前記文書群のうち、前記利用者が訴訟に関連するか否かを判断するための文書である対象文書に対し、前記利用者が訴訟に関連するか否かの判断に基づいて付与した識別情報を受け付ける識別情報受付部と、
　前記識別情報を受け付けた対象文書の特徴量と、前記文書群の中の文書の特徴量との比較結果に基づいて、所定の識別情報に対応する、前記文書群の中の文書のスコアを更新するスコア更新部と、
　前記更新されたスコアに基づいて、前記表示部に表示される前記文書群の文書の表示順番を制御する表示制御部とを備えるフォレンジックシステム。
　前記フォレンジックシステムは、更に、
　前記文書群の中の文書に対し、前記更新されたスコアに基づいて、前記識別情報を付与する自動付与部を備えるものであることを特徴とする請求項１記載のフォレンジックシステム。
　前記フォレンジックシステムは、更に、
　前記スコアが特定の値に達した文書を、前記表示部により表示される文書の候補から除外することを判定する除外判定部と、前記判定された文書の数が所定の値を超えるまで、前記表示部と、前記識別情報受付部と、前記スコア更新部と、前記表示制御部と、前記除外判定部との処理を繰り返し実行できるように制御する制御部とを備えることを特徴とする請求項１または２記載のフォレンジックシステム。
　前記スコア更新部は、
　前記文書の中に頻出する各単語の種類、前記各単語がもつ評価値および前記各単語の出現数からなる傾向情報を用いて、前記特徴量を算出するものであることを特徴とする請求項１から３いずれか１項記載のフォレンジックシステム。
　前記文書は、前記識別情報に対応するスコアを有するものであって、
　前記スコアは、
　前記文書群中の各文書に対してあらかじめ付与される初期スコアから、前記識別情報が関連付けられた対象文書の特徴量と、前記文書群の中の文書の特徴量との比較結果に基づいて算出される値を、加点または減点されることによって算出されるものであることを特徴とする請求項１から４いずれか１項記載のフォレンジックシステム。
　前記フォレンジックシステムは、
　前記文書群に含まれる文書について、前記識別情報に対応するスコアを記録し、前記スコア更新部がスコアを更新する度に、前記識別情報ごとのスコアを更新するデータベースを備えることを特徴とする請求項１から５いずれか１項記載のフォレンジックシステム。
　前記フォレンジックシステムは、更に、
　前記文書群を所定の要件に基づいて、グループに分類し、前記グループの中から、処理対象となる対象グループを少なくとも１つ選択する分類部を備え、
　前記表示制御部は、
　前記分類部が選択した対象グループから、前記利用者に表示する文書群を抽出するものであることを特徴とする請求項１から６いずれか１項記載のフォレンジックシステム。
　前記フォレンジックシステムは、更に、
　前記対象グループに含まれる各文書の特徴量と、前記利用者による訴訟に関連するか否かの判断が完了したグループに含まれる文書の特徴量との比較をするグループ比較部を備え、
　前記表示制御部は、
　前記グループ比較部の比較結果をもとに、前記表示部が前記対象グループから利用者に表示する文書群の表示順序を制御することを特徴とする請求項７記載のフォレンジックシステム。
　複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を分析するフォレンジック方法において、
　コンピュータが、
　前記デジタル情報に含まれる複数の文書からなる文書群を、前記利用者に対して表示するステップと、
　前記表示された文書群から、前記利用者が訴訟に関連するか否かを判断するための文書である対象文書に対し、前記利用者が訴訟に関連するか否かの判断に基づいて付与した識別情報を受け付けるステップと、
　前記識別情報を受け付けた対象文書の特徴量と、前記文書群の中の各文書の特徴量との比較結果に基づいて、所定の識別情報に対応する、前記各文書のスコアを更新するステップと、
　前記更新されたスコアに基づいて、前記表示部に表示される前記文書群の文書の表示順番を制御するステップを実行するフォレンジック方法。
　複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を分析するフォレンジックプログラムにおいて、
　コンピュータに、
　前記デジタル情報に含まれる複数の文書からなる文書群を、前記利用者に対して表示する機能と、
　前記表示された文書群から、前記利用者が訴訟に関連するか否かを判断するための文書である対象文書に対し、前記利用者が訴訟に関連するか否かの判断に基づいて付与した識別情報を受け付ける機能と、
　前記識別情報を受け付けた対象文書の特徴量と、前記文書群の中の各文書の特徴量との比較結果に基づいて、所定の識別情報に対応する、前記各文書のスコアを更新する機能と、
　前記更新されたスコアに基づいて、前記表示部に表示される前記文書群の文書の表示順番を制御する機能を実行させるフォレンジックプログラム。