WO2014084141A1

WO2014084141A1 - 文書管理システムおよび文書管理方法並びに文書管理プログラム

Info

Publication number: WO2014084141A1
Application number: PCT/JP2013/081522
Authority: WO
Inventors: 守本　正宏; 喜勝白井; 秀樹武田; 和巳蓮子
Original assignee: 株式会社Ｕｂｉｃ
Priority date: 2012-11-30
Filing date: 2013-11-22
Publication date: 2014-06-05
Also published as: US9594757B2; JP5827206B2; JP2014109852A; TW201421387A; US20150310004A1

Abstract

レビュワーのレビューの負荷を軽減することを可能とする。　複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を訴訟との関連性について分析する文書管理システムにおいて、デジタル情報に含まれる文書データ各々の付帯情報を確認し、これらの付帯情報に基づいて文書データをスレッドに分類するスレッド分類部と、分類された文書データの付帯情報に含まれる要素をスレッド毎に抽出し、これらの抽出された要素に基づいてスレッド間の類似度を解析する類似度解析部と、この類似度に基づいて、スレッド同士を統合する統合部とを備える。

Description

文書管理システムおよび文書管理方法並びに文書管理プログラム

　本発明は、文書管理システムおよび文書管理方法並びに文書管理プログラムに関するものであって、特に、訴訟に関連する文書情報を収集するための文書管理システムおよび文書管理方法並びに文書管理プログラムに関するものである。

　従来、不正アクセスや機密情報漏洩などコンピュータに関する犯罪や法的紛争が生じた際に、原因究明や捜査に必要な機器やデータ、電子的記録を収集・分析し、その法的な証拠性を明らかにする手段や技術が提案されている。

　また、米国民事訴訟では、ｅＤｉｓｃｏｖｅｒｙ（電子証拠開示）等が求められており、当該訴訟の原告および被告のいずれもが、関連するデジタル情報をすべて証拠として提出する責任を負う。そのため、コンピュータやサーバに記録されたデジタル情報を証拠として、提出しなければならない。

　一方、ＩＴの急速な発達と普及に伴い、今日のビジネスの世界ではほとんどの情報がコンピュータで作成されているため、同一企業内であっても多くのデジタル情報が氾濫している。

　そのため、法廷への証拠資料提出のための準備作業を行う過程において、当該訴訟に必ずしも関連しない機密なデジタル情報までも証拠資料として含めてしまうミスが生じやすい。また、当該訴訟に関連しない機密な文書情報を提出してしまうことが問題になっていた。

　近年、文書管理システムにおける文書情報に関する技術が、特許文献１乃至特許文献３に提案されている。特許文献１には、文書提出命令の対象者情報に含まれる少なくとも１人以上の対象者から、特定の者を指定し、指定された特定の者に関するアクセス履歴情報に基づいて、特定の者がアクセスしたデジタル文書情報のみを抽出し、抽出されたデジタル文書情報の文書ファイルそれぞれが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力する文書管理システムについて開示されている。

　また、特許文献２には、記録されたデジタル情報を表示し、複数の文書ファイル毎に、対象者情報に含まれる対象者のうちいずれの対象者に関連するものであるかを示す対象者特定情報を設定し、該設定された対象者特定情報を記憶部に記録するように設定し、少なくとも一人以上の対象者を指定し、指定された対象者に対応する対象者特定情報が設定された文書ファイルを検索し、表示部を介して、検索された文書ファイルが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力する文書管理システムについて開示されている。

　さらに、特許文献３には、デジタル文書情報に含まれる少なくとも１以上の文書ファイルの指定を受け付け、指定された文書ファイルをいずれの言語に翻訳するかの指定を受け付け、指定を受け付けた文書ファイルを、指定を受け付けた言語に翻訳し、記録部に記録されたデジタル文書情報から、指定された文書ファイルと同一の内容を示す共通文書ファイルを抽出し、抽出された共通文書ファイルが、翻訳された文書ファイルの翻訳内容を援用することにより翻訳されたことを示す翻訳関連情報を生成し、翻訳関連情報に基づいて、訴訟に関連する文書ファイルを出力する文書管理システムについて開示されている。

特開２０１１－２０９９３０号公報特開２０１１－２０９９３１号公報特開２０１２－３２８５９号公報

　しかしながら、例えば、特許文献１乃至特許文献３のような文書管理システムにおいては、複数のコンピュータおよびサーバを利用した対象者の膨大な文書情報を収集することになる。

　このようなデジタル化された膨大な文書情報を訴訟の証拠資料として妥当であるか否かの分別をする作業は、レビュワーと呼ばれる利用者が目視により確認し、当該文書情報をひとつひとつ分別していく必要があったため、多大な労力と時間がかかる傾向があり、さらなる改善が求められていた。

　そこで、本発明は、上記事情に鑑み、レビュワーのレビューの負荷をより軽減することを可能とする文書管理システムおよび文書管理方法並びに文書管理プログラムを提供することを目的とするものである。

　本発明の文書管理システムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を訴訟との関連性について分析する文書管理システムにおいて、デジタル情報に含まれる文書データ各々の付帯情報を確認し、これらの付帯情報に基づいて文書データをスレッドに分類するスレッド分類部と、分類された文書データの付帯情報に含まれる要素をスレッド毎に抽出し、これらの抽出された要素に基づいてスレッド間の類似度を解析する類似度解析部と、この類似度に基づいて、スレッド同士を統合する統合部とを備える。

　「付帯情報」は、文書データに付随する情報をいう。例えば、付帯情報は、文書データを構造化するためにタグ付けされたメタ情報などであってもよい。

　「スレッド」は、ある特定の情報に関する文書データの集まりをいう。例えば、スレッド分類部は、共通の内容について記載された電子メールおよびその電子メールに対する返信メールを一つのスレッドとして文書データを分類することができる。

　また、上記文書管理システムは、更に、デジタル情報に含まれる文書データを、単独文書データ、主文書データ、主文書データと従属関係を有する従属文書データ、および、その他の文書データに分類する文書データ分類部を備え、上記スレッド分類部は、少なくとも単独文書データおよび主文書データを分類するものであってもよい。

　また、上記スレッド分類部は、更に、従属文書データの各々を、対応する主文書データと同一のスレッドに分類するものであってもよい。

　また、スレッド分類部は、文書データのタイトル、作成日時、更新日時、作者名のうち少なくともいずれか１つを付帯情報として扱うものであってもよい。

　また、その他の文書データは付帯情報を有さない非構造化文書データを含み、スレッド分類部は、非構造化文書データを分類する際、この非構造化文書データの内容を参酌するものであってもよい。

　また、上記統合部は、従属文書データの各々を、対応する主文書データと同一のスレッドに統合するものであってもよい。

　また、上記文書管理システムは、更に、統合されたスレッドから所定数の文書データを抽出する抽出部と、これらの抽出された文書データを画面上に表示する画面表示部と、表示された文書データに対して、利用者が行った関連性の判断結果を受け付ける結果受付部と、判断結果に基づいて、抽出された文書データを判断結果ごとに分別し、これらの分別された文書データにおいて、共通して出現する要素を解析し、選定する選定部と、選定した要素を記録する要素記録部と、要素記録部に記録された要素を文書データから探索する探索部と、探索部の探索結果と選定部の解析結果を用いて、判断結果と文書データとの関連性を示すスコアを算出するスコア算出部とを備えるものとしてもよい。

　本発明の文書管理方法は、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を訴訟との関連性について分析する文書管理方法において、コンピュータが、デジタル情報に含まれる文書データ各々の付帯情報を確認し、これらの付帯情報に基づいて文書データをスレッドに分類するステップと、分類された文書データの付帯情報に含まれる要素をスレッド毎に抽出し、これらの抽出された要素に基づいてスレッド間の類似度を解析するステップと、この類似度に基づいて、スレッド同士を統合するステップとを実行する。

　本発明の文書管理プログラムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を訴訟との関連性について分析する文書管理プログラムにおいて、コンピュータに、デジタル情報に含まれる文書データ各々の付帯情報を確認し、これらの付帯情報に基づいて文書データをスレッドに分類する機能と、分類された文書データの付帯情報に含まれる要素をスレッド毎に抽出し、これらの抽出された要素に基づいてスレッド間の類似度を解析する機能と、この類似度に基づいて、スレッド同士を統合する機能とを実現させる。

　本発明の文書管理システムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を訴訟との関連性について分析する文書管理システムにおいて、デジタル情報に含まれる文書データ各々の付帯情報を確認し、これらの付帯情報に基づいて文書データをスレッドに分類するスレッド分類部と、分類された文書データの付帯情報に含まれる要素をスレッド毎に抽出し、これらの抽出された要素に基づいてスレッド間の類似度を解析する類似度解析部と、この類似度に基づいて、スレッド同士を統合する統合部とを備えることによって、利用者が関連性の判断（レビュー）を行う際に、同質の文書データ単位でレビューを行うことが可能となり、レビューの負荷の軽減および効率化を実現することが可能となる。

　また、上記文書管理システムは、更に、デジタル情報に含まれる文書データを、単独文書データ、主文書データ、主文書データと従属関係を有する従属文書データ、および、その他の文書データに分類する文書データ分類部を備え、上記スレッド分類部は、少なくとも単独文書データおよび主文書データを分類するものである際においては、少なくとも単独文書データおよび主文書データをスレッドに分類することが可能となる。

　また、上記統合部は、従属文書データの各々を、対応する主文書データと同一のスレッドに統合するものである際においては、従属関係を有する文書データを同一スレッドに統合させることが可能となる。

　また、上記スレッド分類部は、更に、従属文書データの各々を、対応する主文書データと同一のスレッドに分類するものである際においては、従属関係を有する文書データを同一スレッドに分類することが可能となる。

　また、スレッド分類部は、文書データのタイトル、作成日時、更新日時、作者名のうち少なくともいずれか１つを付帯情報として扱うものである際においては、文書データの内容以外の情報に基づいて、文書データをスレッドに分類することが可能となる。

　また、その他の文書データは付帯情報を有さない非構造化文書データを含み、スレッド分類部は、非構造化文書データを分類する際、この非構造化文書データの内容を参酌するものである際においては、付帯情報を有さない文書データであっても代替手段によってスレッドに分類することが可能となる。

　また、上記文書管理システムは、更に、統合されたスレッドから所定数の文書データを抽出する抽出部と、これらの抽出された文書データを画面上に表示する画面表示部と、表示された文書データに対して、利用者が行った関連性の判断結果を受け付ける結果受付部と、判断結果に基づいて、抽出された文書データを判断結果ごとに分別し、これらの分別された文書データにおいて、共通して出現する要素を解析し、選定する選定部と、選定した要素を記録する要素記録部と、要素記録部に記録された要素を文書データから探索する探索部と、探索部の探索結果と選定部の解析結果を用いて、判断結果と文書データとの関連性を示すスコアを算出するスコア算出部とを備える際においては、同質の文書データに対して、利用者のレビュー結果を踏まえてシステムが自動でレビューを行うことが可能となり、レビューの精度を向上させることが可能となる。

本発明の第１の実施形態における文書管理システムのブロック図本発明の第１の実施形態の処理フローを表すフローチャート本発明の第１の実施形態に処理によって文書データが分類される様子を示す模式図本発明の第１の実施形態における電子メールの親子関係を示す模式図本発明の第２の実施形態における文書管理システムのブロック図本発明の第２の実施形態における選定部での解析結果を示したグラフ本発明の第２の実施形態における処理フローを表すフローチャート

[第１の実施形態]
　以下、本発明の第１の実施形態を図１乃至図４を用いて説明する。

　図１は、本実施形態に係る文書管理システムのブロック図を示している。
　文書管理システムは、コンピュータまたはサーバを備え、各種入力に基づきＣＰＵがＲＯＭに記録されたプログラムを実行することで、各種機能部として動作する。該プログラムは、ＣＤ－ＲＯＭ等の記憶媒体に記憶され、もしくはインターネット等のネットワークを介して配布され、コンピュータにインストールされるものであってもよい。

　本発明の第１の実施形態に係る文書管理システムは、クライアント端末２００とサーバ装置１００から構成される。クライアント端末２００は、利用者が訴訟との関連性について判断する対象となる、デジタル情報から抽出された複数の文書データを表示する画面表示部２１１と利用者からの入力を受け付ける指示部２１２を備えている。

　サーバ装置１００は、デジタル情報に含まれる文書データ各々の付帯情報を確認し、これらの付帯情報に基づいて文書データをスレッドに分類するスレッド分類部１１１と、分類された文書データの付帯情報に含まれる要素をスレッド毎に抽出し、これらの抽出された要素に基づいてスレッド間の類似度を解析する類似度解析部１１２と、この類似度に基づいて、スレッド同士を統合する統合部１１３とを備えている。更に、デジタル情報に含まれる文書データを、単独文書データ、主文書データ、この主文書データと従属関係を有する従属文書データ、および、その他の文書データに分類する文書データ分類部１１４を備えている。このとき、スレッド分類部１１１は、少なくとも単独文書データおよび主文書データを分類する。更にサーバ装置は、上記統合されたスレッドから所定数の文書データを抽出する抽出部１５５と、画面表示部２１１に表示された文書データに対して、利用者が行った関連性の判断結果を受け付ける結果受付部１５６とを備える。

　ｅＤｉｓｃｏｖｅｒｙ（電子証拠開示）においては、デジタル化された膨大な文書情報を訴訟の証拠資料として妥当であるか否かの分別をする作業（レビューという）が必要となる。レビュー（関連性の判断）は、文書データに対して、システムあるいは人間が訴訟への提出の有無を判断するものをいう。例えばレビューでは、レビューの対象となる文書データである文書群を、訴訟の関連の度合いや、訴訟との関連の仕方に基づいて、複数の種類に分類を行う。

　本実施形態に係る文書管理システムでは、このレビューを行う前の段階として、所定の要件に基づいて文書データのまとまりを作成する。そして、まとめられた文書データに対して、レビュワーと呼ばれる利用者が、文書データの中から、訴訟に提出が必要な文書データを抽出するために、訴訟との関連性の判断を行う。これにより、同質の文書データに対してレビュワーがレビューすることができるようになり、レビューの効率化およびレビュワーの負担の軽減を図ることができる。

　文書データは、１つ以上の単語を含む情報をいう。文書データは、本文の内容として１つ以上の単語を含む情報を有し、本文以外の情報として付帯情報を有するものであることが好ましい。付帯情報とは、メタ情報のことをいう。例えば、付帯情報は、文書データの作成日時や作成者、データ形式、タイトルなど、文書データに関連する情報のことを意味してもよい。

　文書データの一例として、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等が挙げられる。また、スキャンデータを文書データとして扱うことも可能である。この場合、スキャンデータをテキストデータへと変換できるように、文書管理システム内にＯＣＲ（Optical Character Reader）装置を備えてもよい。ＯＣＲ装置によってテキストデータへ変更することで、スキャンデータから後述する要素の解析や探索が可能になる。文書データは、後述する文書データ分類部１１４の処理によって単独文書データ、主文書データ、従属文書データ、その他の文書データに分類されるものであってもよい。

　図１に記載された、各構成の機能について説明する。

　サーバ装置１００とクライアント端末２００とは通信ネットワークを介して接続されている。通信ネットワークは、有線あるいは無線の通信回線をいう。例えば、電話回線、インターネット回線等である。

　画面表示部２１１は、クライアント端末２００上にレビュー対象となる文書データを表示する、ディスプレイや液晶モニタなどのことを指す。指示部２１２は、クライアント端末２００に備えられたマウスやキーボードを指し、利用者からの操作や入力を受け付ける。

　文書データ分類部１１４は、文書データを単独文書データ、主文書データ、主文書データと従属関係を有する従属文書データ、および、その他の文書データに分類する。従属文書データとは、電子メールの添付ファイルのように主文書データ（この場合は電子メール）との従属関係を有するものをいう。単独文書データは、従属文書データを有さない文書データをいう。その他の文書データは、単独文書データ、主文書データおよび従属文書データのいずれにも該当しない文書データをいう。例えば、非構造化文書データなどがこれに該当する。非構造化文書データは、付帯情報を有さない文書データを意味する。具体的には、件名が空欄の電子メールがこれに該当する。

　スレッド分類部１１１は、文書データをそれらの付帯情報に基づいてスレッドに分類する。例えば電子メールを分類する場合、スレッド分類部１１１は、電子メールの件名に基づいて、同一の件名のものや、同一の件名に返信を表す「Re:」や、転送を表す「FW:」が付加された件名の電子メールを同一スレッドに分類する。件名の他にもスレッド分類部１１１は、文書データのタイトル、作成日時、更新日時、作者名のうち少なくともいずれか１つを付帯情報として扱うものとしてもよい。また、例えば、件名が空白の電子メールのような、付帯情報を有さない非構造化文書データを分類する際には、スレッド分類部１１１は、これらの非構造化文書データの内容を参酌するものとしてもよい。つまり、非構造化文書データである電子メールを分類する場合には、この電子メールの本文に基づいて分類する。

　類似度解析部１１２は、スレッド間の類似度を解析する。特に、類似度解析部１１２は、スレッド毎にそのスレッドに含まれる電子メールの付帯情報に含まれる要素に基づいてスレッド間の類似度を解析することが好ましい。要素は、文書データに含まれる単語、記号、図面等の文書データの構成要素をいう。例えば、要素は、形態素のようなある言語においてそれ以上分解したら意味をなさなくなるところまで分割して抽出された、音素のまとまりの一つ一つを指してもよい。具体的には、「文書を分別する」という文章の要素は、「文書」「分別」「する」としてもよい。

　統合部１１３は、スレッドに含まれる文書データの付帯情報の類似度に基づいて、スレッド同士を統合する。また、統合部１１３は、従属文書データの各々を、主文書データと同一のスレッドに統合する。統合部１１３が統合したスレッドをクラスタとする。

　本実施形態において、抽出部１５５は、統合部１１３によって統合されたスレッド（クラスタ）に含まれる文書データから、所定数の文書データを利用者によるレビュー対象として抽出する。この抽出は、ランダムか、または、文書データの更新日時等の属性に基づいて行われるものとしてもよい。

　結果受付部１５６は、各文書データに対して利用者が行ったレビューの結果を受け付ける。利用者は、レビューにおいて訴訟との関連度合に応じて文書データに識別符号の付与を行う。例えば、訴訟との関連性が高く証拠として提出が必要な文書データには「Responsive」符号を、提出が不要な文書データには「Non-Responsive」符号を付与する。更に、「Responsive」符号を付与した文書データのうち、特に訴訟との関連性が高くとりわけ重要な証拠である文書データには「HOT」符号を、「Responsive」符号と併せて付与する。また、「Responsive」符号を付与した文書データのうち製品Aと関連性が高い内容の文書データには「製品A」符号、製品Bと関連性が高い内容の文書データには「製品B」符号を付与するものとする。このとき、結果受付部１５６は、各識別符号を関連性判断の結果として受け付けることが可能である。

　次に、図２および図３を用いて、文書管理システムの処理の流れについて説明する。図２は、本実施形態における文書管理システムの処理の流れを示すフローチャートである。また、図３は図２に示す処理を行う際に、文書データがクラスタ化されていく様子を模式的に表した図である。

　まず、図２において、文書データ分類部１１４が文書データを分類する（ＳＴＥＰ１１１）。具体的には、文書データ分類部１１４は、図３に示すように、収集した全文書データ５０１（ALL Documents）のうち、電子メールをMailsグループ５１１に、電子メールに添付されているファイルをAttachmentsグループ５１２に、電子メールまたはその添付ファイルのいずれでもない文書データをOther Documentsグループ５１３に分類する。

　次に、スレッド分類部１１１は、Mailsグループ５１１の文書を、付帯情報を電子メールの件名とし、これに基づいてスレッド群５２１（Threaded Clusters）または非スレッド群５２２（Non-Threaded Clusters）に分類する。例えば、図４に示すように、件名が「製品Ａの開発状況」という電子メールについて、親メールが１通、返信が２通、転送が１通あり、また、「製品Ａの出荷判定」という件名の電子メールについて親メールが１通、返信が３通あったとする。更に、親メールのみのメールとして、件名が「新商品の開発」、「製品Ａの企画」、「Ｂさんについて」というメールおよび、件名が空白のメールが１通あった場合を例に説明する。このとき、件名が「製品Ａの開発状況」、「Re:製品Ａの開発状況」、「Re: Re:製品Ａの開発状況」および「FW: Re: Re:製品Ａの開発状況」である電子メールは、同一の付帯情報を有しているとして、同一スレッドに分類される（図２、ＳＴＥＰ１１２）。一方で、親メールのみしかない電子メールはスレッド化はなされず、図３の非スレッド群５２２にまとめられる。

　次に、統合部１１３は、スレッド間の類似度に基づいてスレッド群５２１のスレッドと非スレッド群５２２に含まれる文書データを統合し、スレッド群５３１（Threaded-based Clusters）にする（ＳＴＥＰ１１３）。このとき、統合部１１３は、スレッドに属する文書データの付帯情報を合成し、スレッドを代表する付帯情報を生成する。具体的には、付帯情報に含まれる要素を抽出し、要素間の類似度の分布に基づいて合成ベクトルを生成する。そして、非スレッド群５２２に分類された文書データのうち、合成した付帯情報と類似度が高い付帯情報を有する文書データを、この合成した付帯情報のスレッド群５２１中のスレッドへと統合する。

　更に、統合部１１３は、Attachmentsグループに分類された従属文書データを、スレッドへ統合し、クラスタ５４１（Clusters）にクラスタ化する処理を行う（ＳＴＥＰ１１４）。従属文書データが添付されていた電子メールと同一のスレッドへと統合することが望ましい。

　また、統合部１１３は、Other Documentsグループに分類された文書データを統合する（ＳＴＥＰ１１５）。これらの文書データのファイル名（拡張子を除く）から付帯情報ベクトルを作成し、ＳＴＥＰ１１４で作成した合成ベクトルとの類似度を算出する。最大類似度が閾値以上であれば、最類似のクラスタに統合する。この処理で統合されなかった文書データについては、当該その他の文書データの全体からベクトルを構成し、先ほどの合成ベクトルとの類似度を算出する。そして、最大類似度が閾値以上であるクラスタに統合する。これでも統合されなかったその他の文書データは、全てまとめてその他のクラスタとする。

　このように作成した各クラスタから抽出部１５５はレビュー対象となる文書データを抽出する（ＳＴＥＰ１１６）。抽出部１５５は文書データをランダムサンプリングにより抽出するが、作成日時順や作成者名順に抽出するものとしてもよい。

　そして、抽出された文書データに対して利用者がレビューを実施し（ＳＴＥＰ１１７）、レビュー結果を結果受付部１５６が受け付ける（ＳＴＥＰ１１８）。これにより、同質の文書データに対してレビューを行うことが可能となる。

[第２の実施形態]
　以下、本発明の第２の実施形態を図５乃至図７を用いて説明する。

　図５は、本実施形態に係る文書管理システムのブロック図を示している。

　本発明の第２の実施形態に係る文書管理システムは、クライアント端末２００とサーバ装置１００から構成される。クライアント端末２００は、利用者が訴訟との関連性について判断する対象となる、デジタル情報から抽出された複数の文書データを表示する画面表示部２１１と利用者からの入力を受け付ける指示部２１２を備えている。

　また、サーバ装置１００は、デジタル情報に含まれる文書データ各々の付帯情報を確認し、これらの付帯情報に基づいて文書データをスレッドに分類するスレッド分類部１１１と、分類された文書データの付帯情報に含まれる要素をスレッド毎に抽出し、これらの抽出された要素に基づいてスレッド間の類似度を解析する類似度解析部１１２と、この類似度に基づいて、スレッド同士を統合する統合部１１３とを備えている。

　更に、サーバ装置１００は、上記統合されたスレッドから所定数の文書データを抽出する抽出部１５５と、画面表示部２１１に表示された文書データに対して、利用者が行った関連性の判断結果を受け付ける結果受付部１５６と、これらの判断結果に基づいて、抽出された文書データを判断結果ごとに分別し、これらの分別された文書データにおいて、共通して出現する要素を解析し、選定する選定部１５７と、選定した要素を記録する要素記録部１５８と、要素記録部１５８に記録された要素を文書データから探索する探索部１５９と、探索部１５９の探索結果と選定部１５７の解析結果を用いて、判断結果と文書データとの関連性を示すスコアを算出するスコア算出部１６０とを備える。

　選定部１５７は、要素を選定する。例えば、選定部１５７は、同一の判断結果がなされた文書データに共通して出現する要素を解析し、選定するものとしてもよい。判断結果は、利用者が文書群に対して行った、訴訟との関連性判断の結果を示すものをいう。判断結果は、利用者が文書に付与した、訴訟との関連性の度合いを表す分別符号を指してもよい。また、選定部１５７は、要素を選定する際に、要素の評価値を参酌することも可能である。

　評価値は、要素の特徴を表す値をいう。評価値は、要素がもつ伝達情報量を表すものとしてもよい。伝達情報量は、確率論および情報理論において、２つの確率変数の相互依存の尺度を表す量をいう。具体的には、伝達情報量は、その要素を含む文書に対する関連性の判断結果と、その要素との依存関係を表す尺度のこととしてもよい。

　図６は、関連性ありと判断された文書データに共通して頻出する要素を選定部１５７が解析した結果のグラフである。図６において、縦軸Ｒ＿ｈｏｔは、ユーザによって関連性がありと判断された全文書データのうち、関連性がありと判断される文書データに紐づく要素として選定された要素を含み、かつ関連性がありと判断された文書データの割合を示している。横軸Ｒ＿ａｌｌは、利用者がレビューを実施した全文書データのうち、後述する探索部１５９によって探索された要素を含む文書データの割合を示している。本実施形態において、選定部１５７では、直線Ｒ＿ｈｏｔ＝Ｒ＿ａｌｌよりも上部にプロットされる要素を、関連性ありと判断される文書データに共通の要素として選定する。

　要素記録部１５８は、要素を記録するものをいう。データベースとしてもよい。

　探索部１５９は、要素を文書データから探索するものをいう。

　スコア算出部１６０は、文書データのスコアを算出するものをいう。文書データに含まれる要素の評価値に基づいてスコアを算出するものとしてもよい。評価値は、文書データ中の要素の出現頻度や伝達情報量に基づいて算出され、要素がある文書データ中において発揮する情報量をいってもよい。

　スコアは、ある文書データにおいて、訴訟との関連度合を示すものをいう。スコアは文書データに含まれる要素に基づいて算出される。例えば、訴訟時に提出する必要が高い要素が含まれる文書データほど、高いスコアを有するとしてもよい。文書データは、一定の要件に基づいてスコアの初期値を与えられるものとしてもよい。例えば、文書データに出現する要素と、要素の持つ評価値とにより初期スコアを算出するものとしてもよい。

　スコア算出部１６０は、文書群中に出現する要素と、要素の持つ評価値により、以下の式からスコアを算出することが可能である。

　各要素がもつ評価値は、該要素が持つ伝達情報量をもとに決定する。該評価値は以下の式により、学習することが可能である。

　図７を用いて、本実施形態における予測情報生成処理のフローについて説明する。まず、抽出部１５５が、統合部１１３によって統合されたクラスタから所定数の文書データを抽出する（ＳＴＥＰ２１１）。抽出された文書データを、画面表示部２１１がクライアント端末２００に表示させる（ＳＴＥＰ２１２）。結果受付部１５６が利用者の関連性判断の結果を受け付け（ＳＴＥＰ２１３）、選定部１５７が利用者の関連性判断の結果から文書データを解析し、要素を選定する（ＳＴＥＰ２１４）。選定された要素は要素記録部１５８によって記録される（ＳＴＥＰ２１５）。次に、各文書データから記録された要素を探索部１５９が探索し、スコア算出部１６０が式（１）を用いて各文書データのスコアを算出する（ＳＴＥＰ２１６）。

　その他の構成、機能については第１の実施形態と同様である。

　文書管理システムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を訴訟との関連性について分析する文書管理システムにおいて、デジタル情報に含まれる文書データ各々の付帯情報を確認し、これらの付帯情報に基づいて文書データをスレッドに分類するスレッド分類部１１１と、分類された文書データの付帯情報に含まれる要素をスレッド毎に抽出し、これらの抽出された要素に基づいてスレッド間の類似度を解析する類似度解析部１１２と、この類似度に基づいて、スレッド同士を統合する統合部１１３とを備えることによって、利用者が関連性の判断（レビュー）を行う際に、同質の文書データ単位でレビューを行うことが可能となり、レビューの負荷の軽減および効率化を実現することが可能となる。

　また、上記文書管理システムは、更に、デジタル情報に含まれる文書データを、単独文書データ、主文書データ、主文書データと従属関係を有する従属文書データ、および、その他の文書データに分類する文書データ分類部１１４を備え、上記スレッド分類部１１１は、少なくとも単独文書データおよび主文書データを分類するものである際においては、少なくとも単独文書データおよび主文書データをスレッドに分類することが可能となる。

　また、上記統合部１１３は、従属文書データの各々を、対応する主文書データと同一のスレッドに統合するものである際においては、従属関係を有する文書データを同一スレッドに統合させることが可能となる。

　また、上記スレッド分類部１１１は、更に、従属文書データの各々を、対応する主文書データと同一のスレッドに分類するものである際においては、従属関係を有する文書データを同一スレッドに分類することが可能となる。

　また、スレッド分類部１１１は、文書データのタイトル、作成日時、更新日時、作者名のうち少なくともいずれか１つを付帯情報として扱うものである際においては、文書データの内容以外の情報に基づいて、文書データをスレッドに分類することが可能となる。

　また、その他の文書データは付帯情報を有さない非構造化文書データを含み、スレッド分類部１１１は、非構造化文書データを分類する際、この非構造化文書データの内容を参酌するものである際においては、付帯情報を有さない文書データであっても代替手段によってスレッドに分類することが可能となる。

　また、上記文書管理システムは、更に、統合されたスレッドから所定数の文書データを抽出する抽出部１５５と、これらの抽出された文書データを画面上に表示する画面表示部２１１と、表示された文書データに対して、利用者が行った関連性の判断結果を受け付ける結果受付部１５６と、判断結果に基づいて、抽出された文書データを判断結果ごとに分別し、これらの分別された文書データにおいて、共通して出現する要素を解析し、選定する選定部１５７と、選定した要素を記録する要素記録部１５８と、要素記録部１５８に記録された要素を文書データから探索する探索部１５９と、探索部１５９の探索結果と選定部１５７の解析結果を用いて、判断結果と文書データとの関連性を示すスコアを算出するスコア算出部１６０とを備える際においては、同質の文書データに対して、利用者のレビュー結果を踏まえてシステムが自動でレビューを行うことが可能となり、レビューの精度を向上させることが可能となる。

［その他の実施形態］
　以上、本発明の実施形態について述べたが、本発明は既述の実施形態に限定されるものではなく、本発明の技術的思想に基づいて各種の変形および変更が可能である。

　例えば、スレッド分類部１１１は、既述の実施形態において、文書データのうち、主文書データと単独文書データをスレッドに分類している。しかし、スレッド分類部１１１は、更に、従属文書データの各々を、対応する主文書データと同一のスレッドに分類するものとしてもよい。

　　１００　　　　　　サーバ装置
　　１１１　　　　　　スレッド分類部
　　１１２　　　　　　類似度解析部
　　１１３　　　　　　統合部
　　１１４　　　　　　文書データ分類部
　　１５５　　　　　　抽出部
　　１５６　　　　　　結果受付部
　　１５７　　　　　　選定部
　　１５８　　　　　　要素記録部
　　１５９　　　　　　探索部
　　１６０　　　　　　スコア算出部
　　２００　　　　　　クライアント端末
　　２１１　　　　　　画面表示部
　　２１２　　　　　　指示部

Claims

　複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を分析する文書管理システムにおいて、
　前記デジタル情報に含まれる文書データ各々の付帯情報を確認し、該付帯情報に基づいて前記文書データをスレッドに分類するスレッド分類部と、
　分類された文書データの付帯情報に含まれる要素を前記スレッド毎に抽出し、該抽出された要素に基づいて前記スレッド間の類似度を解析する類似度解析部と、
　前記類似度に基づいて前記スレッド同士を統合する統合部と
を備える文書管理システム。
　前記デジタル情報に含まれる文書データを、単独文書データ、主文書データ、該主文書データと従属関係を有する従属文書データ、および、その他の文書データに分類する文書データ分類部を更に備え、
　前記スレッド分類部は、少なくとも前記単独文書データおよび前記主文書データを分類することを特徴とする請求項１記載の文書管理システム。
　前記その他の文書データは付帯情報を有さない非構造化文書データを含み、
　前記スレッド分類部は、
　前記非構造化文書データを分類する際、該非構造化文書データの内容を参酌することを特徴とする請求項１または２記載の文書管理システム。
　前記スレッド分類部は、
　前記文書データのタイトル、作成日時、更新日時、作者名のうち少なくともいずれか１つを付帯情報として扱うことを特徴とする請求項１～３のいずれか一項記載の文書管理システム。
　前記文書管理システムは、更に、
　前記統合されたスレッドから所定数の文書データを抽出する抽出部と、
　前記抽出された文書データを画面上に表示する画面表示部と、
　前記表示された文書データに対して、利用者が行った関連性の判断結果を受け付ける結果受付部と、
　前記判断結果に基づいて、前記抽出された文書データを判断結果ごとに分別し、該分別された文書データにおいて、共通して出現する要素を解析し、選定する選定部と、
　前記選定した要素を記録する要素記録部と、
　前記要素記録部に記録された要素を前記文書データから探索する探索部と、
　前記探索部の探索結果と前記選定部の解析結果を用いて、前記判断結果と文書データとの関連性を示すスコアを算出するスコア算出部とを備えることを特徴とする請求項１～４のいずれか一項記載の文書管理システム。
　前記統合部は、
　前記従属文書データの各々を、対応する主文書データと同一のスレッドに統合することを特徴とする請求項２記載の文書管理システム。
　前記スレッド分類部は、更に、
　前記従属文書データの各々を、対応する主文書データと同一のスレッドに分類することを特徴とする請求項２記載の文書管理システム。
　複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を分析する文書管理方法において、
　コンピュータが、
　前記デジタル情報に含まれる文書データ各々の付帯情報を確認し、該付帯情報に基づいて前記文書データをスレッドに分類するステップと、
　分類された文書データの付帯情報に含まれる要素を前記スレッド毎に抽出し、該抽出された要素に基づいて前記スレッド間の類似度を解析するステップと、
　前記類似度に基づいて前記スレッド同士を統合するステップと
を実行する文書管理方法。
　複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を分析する文書管理プログラムにおいて、
　コンピュータに、
　前記デジタル情報に含まれる文書データ各々の付帯情報を確認し、該付帯情報に基づいて前記文書データをスレッドに分類する機能と、
　分類された文書データの付帯情報に含まれる要素を前記スレッド毎に抽出し、該抽出された要素に基づいて前記スレッド間の類似度を解析する機能と、
　前記類似度に基づいて前記スレッド同士を統合する機能と
を実現させる文書管理プログラム。