JPWO2015030112A1

JPWO2015030112A1 - データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体

Info

Publication number: JPWO2015030112A1
Application number: JP2015534284A
Authority: JP
Inventors: 守本　正宏; 正宏守本; 喜勝白井; 秀樹武田; 和巳蓮子
Original assignee: Ubic Inc
Current assignee: Ubic Inc
Priority date: 2013-08-29
Filing date: 2014-08-28
Publication date: 2017-03-02
Anticipated expiration: 2034-08-28
Also published as: US20160239559A1; US10489427B2; WO2015030112A1; JP5986687B2; TW201508525A

Abstract

本発明は、所定数の文書をユーザによる分別対象として文書情報から抽出する抽出部と、抽出された文書に対して、ユーザがそれぞれ付与した、文書を分類する際に用いる識別子である分別符号を受け付ける分別符号受付部と、抽出された文書から分別符号に基づいて選定されたキーワードを記録するデータベースと、文書情報に含まれる文書と分別符号との結びつきの強さを評価したスコアを、キーワードに基づいて算出するスコア算出部と、スコアの算出が所定の回数に達したか否かを判定する判定部とを備え、スコア算出部は、判定部によってスコアの算出が所定の回数に達していないと判定された場合、抽出部が、該スコアにしたがって、所定数の文書をユーザによる分別対象として文書情報からさらに抽出した結果に基づいて、スコアを再度算出する。

Description

本発明は、文書分別システム及び文書分別方法並びに文書分別プログラムに関するものであって、特に、訴訟に関する文書情報における文書分別システム及び文書分別方法並びに文書分別プログラムに関する。

従来、不正アクセスや機密情報漏洩などコンピュータに関する犯罪や法的紛争が生じた際に、原因究明や捜査に必要な機器やデータ、電子的記録を収集・分析し、その法的な証拠性を明らかにする手段や技術が提案されている。

特に、米国民事訴訟では、ｅＤｉｓｃｏｖｅｒｙ（電子証拠開示）等が求められており、当該訴訟の原告および被告のいずれもが、関連するデジタル情報をすべて証拠として提出する責任を負う。そのため、コンピュータやサーバに記録されたデジタル情報を証拠として、提出しなければならない。

一方、ＩＴの急速な発達と普及に伴い、今日のビジネスの世界ではほとんどの情報がコンピュータで作成されているため、同一企業内であっても多くのデジタル情報が氾濫している。

そのため、法廷への証拠資料提出のための準備作業を行う過程において、当該訴訟に必ずしも関連しない機密なデジタル情報までも証拠資料として含めてしまうミスが生じやすい。また、当該訴訟に関連しない機密な文書情報を提出してしまうことが問題になっていた。

近年、フォレンジックシステムにおける文書情報に関する技術が、特許文献１乃至特許文献３に提案されている。特許文献１には、利用者情報に含まれる少なくとも１人以上の利用者から、特定の者を指定し、指定された特定の者に関するアクセス履歴情報に基づいて、特定の者がアクセスしたデジタル文書情報のみを抽出し、抽出されたデジタル文書情報の文書ファイルそれぞれが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。

また、特許文献２には、記録されたデジタル情報を表示し、複数の文書ファイル毎に、利用者情報に含まれる利用者のうちいずれの利用者に関連するものであるかを示す利用者特定情報を設定し、該設定された利用者特定情報を記憶部に記録するように設定し、少なくとも一人以上の利用者を指定し、指定された利用者に対応する利用者特定情報が設定された文書ファイルを検索し、表示部を介して、検索された文書ファイルが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。

さらに、特許文献３には、デジタル文書情報に含まれる少なくとも１以上の文書ファイルの指定を受け付け、指定された文書ファイルをいずれの言語に翻訳するかの指定を受け付け、指定を受け付けた文書ファイルを、指定を受け付けた言語に翻訳し、記録部に記録されたデジタル文書情報から、指定された文書ファイルと同一の内容を示す共通文書ファイルを抽出し、抽出された共通文書ファイルが、翻訳された文書ファイルの翻訳内容を援用することにより翻訳されたことを示す翻訳関連情報を生成し、翻訳関連情報に基づいて、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。

特開２０１１−２０９９３０号公報特開２０１１−２０９９３１号公報特開２０１２−３２８５９号公報

しかしながら、引用文献１乃至３に開示されるようなフォレンジックシステムにおいては、文書の分別結果の適合率や再現率をさらに向上させたいという要望がある。

本発明は、上記事情に鑑み文書の分別結果の適合率及び再現率の少なくとも一方を向上できる文書分別システム及び文書分別方法並びに文書分別プログラムを提供することを目的とする。

上記課題を解決するために、本発明の一態様に係る文書分別システムは、所定数の文書をユーザによる分別対象として文書情報から抽出する抽出部と、抽出された文書に対して、ユーザがそれぞれ付与した、文書を分類する際に用いる識別子である分別符号を受け付ける分別符号受付部と、抽出された文書から分別符号に基づいて選定されたキーワードを記録するデータベースと、文書情報に含まれる文書と分別符号との結びつきの強さを評価したスコアを、キーワードに基づいて算出するスコア算出部と、スコアの算出が所定の回数に達したか否かを判定する判定部とを備え、スコア算出部は、判定部によってスコアの算出が所定の回数に達していないと判定された場合、抽出部が、該スコアにしたがって、所定数の文書をユーザによる分別対象として文書情報からさらに抽出した結果に基づいて、スコアを再度算出する。

上記課題を解決するために、本発明の一態様に係る文書分別システムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、該文書情報に含まれる文書を分別する文書分別システムにおいて、文書情報に含まれる文書と該文書を分類する際に用いる識別子である分別符号との結びつきの強さを評価したスコアを、該文書ごとに算出するスコア算出部と、算出したスコアに基づき所定の順序で文書を抽出する抽出部と、抽出された文書に対して、ユーザが付与した分別符号を受け付ける分別符号受付部と、分別符号に基づいて、抽出された文書を分別符号ごとに分別し、該分別された文書において、共通して出現するキーワードを解析し選定する選定部と、選定したキーワードを文書情報から探索する探索部と、を備え、スコア算出部は、探索部の探索結果と選定部の解析結果を用いて、スコアを文書情報に含まれる文書ごとに再度算出する。

また、本発明の一態様に係る文書分別システムは、算出したスコアの高い順に文書を抽出し、該抽出された文書に対して新たにスコアを算出することを複数回繰り返すことができる。

また、本発明の一態様に係る文書分別システムにおいて、スコア算出部は、文書中に出現するキーワード及び各キーワードの持つ重みづけによりスコアを算出することができる。

また、本発明の一態様に係る文書分別システムにおいて、スコア算出部は、スコアを算出するごとに、キーワードの種類及び個数の少なくとも一方を変更することができる。

上記課題を解決するために、本発明の一態様に係る文書分別方法は、所定数の文書をユーザによる分別対象として文書情報から抽出する抽出ステップと、抽出された文書に対して、ユーザがそれぞれ付与した、文書を分類する際に用いる識別子である分別符号を受け付ける分別符号受付ステップと、抽出された文書から分別符号に基づいて選定されたキーワードを記録するデータベースを参照し、文書情報に含まれる文書と該分別符号との結びつきの強さを評価したスコアを、該キーワードに基づいて算出するスコア算出ステップと、スコアの算出が所定の回数に達したか否かを判定する判定ステップとを含み、スコア算出ステップは、判定ステップにおいてスコアの算出が所定の回数に達していないと判定した場合、抽出ステップにおいて、該スコアにしたがって、所定数の文書をユーザによる分別対象として文書情報からさらに抽出した結果に基づいて、スコアを再度算出する。

上記課題を解決するために、本発明の一態様に係る文書分別方法は、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、該文書情報に含まれる文書を分別する文書分別方法において、文書情報に含まれる文書と該文書を分類する際に用いる識別子である分別符号との結びつきの強さを評価したスコアを、該文書ごとに算出し、算出したスコアに基づき所定の順序で文書を抽出し、抽出された文書に対して、ユーザが付与した分別符号を受け付け、分別符号に基づいて、抽出された文書を分別符号ごとに分別し、該分別された文書において、共通して出現するキーワードを解析し選定し、選定したキーワードを文書情報から探索し、探索結果と解析結果を用いて、スコアを文書情報に含まれる文書ごとに再度算出する。

上記課題を解決するために、本発明の一態様に係る文書分別プログラムは、コンピュータに、所定数の文書をユーザによる分別対象として文書情報から抽出する抽出機能と、抽出された文書に対して、ユーザがそれぞれ付与した、文書を分類する際に用いる識別子である分別符号を受け付ける分別符号受付機能と、抽出された文書から分別符号に基づいて選定されたキーワードを記録するデータベースを参照し、文書情報に含まれる文書と該分別符号との結びつきの強さを評価したスコアを、該キーワードに基づいて算出するスコア算出機能と、スコアの算出が所定の回数に達したか否かを判定する判定機能とを実現させ、スコア算出機能は、判定機能によってスコアの算出が所定の回数に達していないと判定された場合、抽出機能が、該スコアにしたがって、所定数の文書をユーザによる分別対象として文書情報からさらに抽出した結果に基づいて、スコアを再度算出する。

本発明に係る文書判別システム及び文書判別方法並びに文書判別プログラムは、各文書に対して算出されたスコアに基づいて文書を抽出し、この抽出された文書の分別結果に基づいて再度各文書に対してスコアを算出している。このため、文書の分別結果の適合率及び再現率の少なくとも一方が向上する。

本発明の実施形態に係る文書判別システムの構成図本発明の実施形態における文書表示画面本発明の実施形態における選定部での解析結果を示したグラフ本発明の実施形態における文書判別システムの動作を示したフローチャート実施例にかかる処理結果を示したグラフ

［実施形態］
以下、本発明の実施の形態を添付の図により説明する。図１に実施形態に係る文書判別システムの構成図を示す。

実施形態は、特許侵害訴訟における文書提出命令に対応する際に、被疑製品である製品Ａに関する文書を分別処理する場合の実施例である。

[文書分別システムの構成]
実施形態において、該文書分別システムは、文書分別装置１００、データベース２００及びレビュワーが利用するクライアント装置３００から構成される。文書分別装置１００は、抽出部１０１、表示制御部１０２、分別符号受付部１０３、選定部１０４、探索部１０５、スコア算出部１０６、判定部１０７及び自動分別部１０８を備える。クライアント装置３００は１つの文書判別システム内に複数備えることも可能である。

文書分別装置１００及びクライアント装置３００は、コンピュータまたはサーバであり、各種入力に基づきＣＰＵがＲＯＭに記録されたプログラムを実行することで、各種機能部として動作する。

分別符号は、文書を分類する際に用いる識別子のことをいう。訴訟で文書情報を証拠として利用する際において、証拠の種類に応じて付与してもよい。実施形態では、分別符号として、今回の訴訟において証拠能力をもたない文書を表す「無関係」、証拠として提出する必要があることを表す「関係あり」、及び製品Ａととりわけ関わりがある文書であることを表す「重要」の３つの符号を備えており、このうち「重要」符号が付与される文書を分別するものである。

ここでいう、文書は、訴訟において証拠として提出するデジタル情報のことで、１つ以上の単語を含むデータをいう。例えば、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等のことである。また、スキャンデータを文書として扱うことも可能である。この場合、スキャンデータをテキストデータへと変換できるように、文書判別システム内にＯＣＲ（Optical Character Recognition）装置を備えてもよい。ＯＣＲ装置によってテキストデータへ変更することで、スキャンデータからキーワード及び関連用語の解析や探索が可能になる。

例えば、実施形態においては、製品Ａに関する打ち合わせについての内容が記載された議事録や電子メール等に「関係あり」符号が付与され、製品Ａの開発計画書や設計書等に「重要」符号が付与され、製品Ａとは無関係の定例会等の資料に「無関係」符号が付与される。

また、キーワードは、ある言語において、一定の意味を持つ文字列のまとまりをいう。例えば、「文書を分別する」という文章からキーワードを選定すると、「文書」「分別」としてもよい。実施形態においては、「侵害」や「訴訟」、「特許公報○○号」といったキーワードが重点的に選定される。

本実施形態においては、キーワードには、形態素が含まれるものとする。

データベース２００は、電子媒体にデータを記録する記録装置であり、文書分別装置１００の内部にあってもよいし、例えばストレージ装置として外部に設置してもよい。

文書分別装置１００、データベース２００及びクライアント装置３００は、有線あるいは無線のネットワークを介して接続されている。クラウドコンピューティングの形態で利用することも可能である。

データベース２００は、各分別符号についてのキーワードを記録しているものである。また、過去の分別処理の結果から、製品Ａと関連性が高く文書中に含まれれば直ちに「重要」符号を付与すると、判断できるキーワードを事前に登録することができる。例えば製品Ａの主要機能名や、「訴訟」、「警告」、「特許公報」のようなキーワードである。また、同様に過去の分別処理の結果から、製品Ａと関連性が高いため「重要」符号が付与された文書群と関連性の高い一般用語を抽出し、関連用語として登録しておくことも可能である。一度データベース２００に登録されたキーワード及び関連用語は、手動によって追加登録・及び削除が可能である。

抽出部１０１は、文書情報からデータセットである文書群を抽出する。抽出部１０１は、この抽出の際に、ランダムにサンプリングを行うことが可能である。実施形態では、全文書情報から所定数の文書をランダムに抽出し、レビュワーによる分別対象とする。

また、抽出部１０１は、スコア算出部１０６により算出されたスコアに基づいて、算出したスコアに関する所定の順序で所定数の文書を抽出する。実施形態においては、スコアに関する所定の順序はスコアの高い順としているが、低い順等でもあってもよい。ここで所定数とは、文書情報に含まれる文書のうちスコアの高い順に上位１０％から５０％の範囲内であることが好ましく、２５％であることがより好ましい。抽出する文書数が少なすぎると、文書の分別結果の適合率及び再現率の向上を期待することができない。また、抽出する文書数が多いと、分別に必要な費用（コスト）が増大するためである。なお、文書情報から抽出する文書を％（割合）ではなく、文書の数（例えば、１０００）で規定するようにしてもよい。なお、抽出部１０１が全文書情報から抽出する文書の割合及び件数は、マニュアル（手動）で変更することも可能である。

表示制御部１０２は、クライアント装置３００に対して、図２に示されるような文書表示画面１１を提示する。文書表示画面１１は、図２のように中央に分別対象となる文書が表示し、左側に分別符号が表示するような画面構造で１画面内に分別対象の文書と付与する分別符号を表示することができるものである。文書を表示する箇所と分別符号を表示する箇所がそれぞれ別画面となる画面構造であってもよい。

実施形態において、文書表示画面１１中の分別符号１は「無関係」符号、分別符号２は「関係あり」符号及び分別符号３は「重要」符号を意味する。また、「関係あり」符号を付与された文書のうち、小分類１は製品Ａの価格と関係がある文書に対して付与され、小分類２は製品Ａの開発スケジュールと関係がある文書に対して付与されるものである。小分類は１つの分別符号に複数備えてもよいし、備えない場合があってもよい。

分別符号受付部１０３は、表示制御部１０２が表示した文書情報のうち、レビュワーが目視により確認し、ひとつひとつ分別符号を決定した文書に対して、該決定に基づいて付与した分別符号を受け付ける。文書の分類は付与された分別符号によって行うことが可能である。

選定部１０４は、分別符号受付部１０３が受け付けた分別結果に基づいて文書情報を解析し、「無関係」、「関係あり」及び「重要」のそれぞれの分別符号を付与された文書情報において、共通して頻出するキーワードを該分別符号におけるキーワードとして選定する。

図３は選定部１０４の「重要」符号が付与された文書を解析した結果を示したグラフである。図３において、縦軸R_hotは、レビュワーによって「重要」符号が付与された全文書のうち、「重要」符号に紐づくキーワードとして選定されたキーワードを含み、かつ「重要」符号が付与された文書の割合を示している。横軸は、レビュワーが分別処理を実施した全文書のうち、選定部１０４によって選定されたキーワードを含む文書の割合を示している。

実施形態において、選定部１０４では、直線R_hot=R_allよりも上部にプロットされるようなキーワードをその分別符号におけるキーワードとして選定することが可能である。また、システムリソースが許される限りにおいて、抽出されたキーワード（形態素を含む）を全て利用してもよい。

探索部１０５は、対象となる文書中から特定のキーワードを探索する機能を備える。探索部１０５は、選定部１０４で選定されたキーワードあるいはデータベース２００で抽出された関連用語を含む文書を、探索する際において、分別符号受付部１０３によって分別符号の付与を受け付けなかった文書から構成される文書群を対象として探索するものである。

スコア算出部１０６は、文書群中に出現するキーワードと、各キーワードの持つ重みづけとにより以下の式からスコアを算出する。スコアは、ある文書において、特定の分別符号との結びつきの強さを定量的に評価したものをいう。

ｍ_ｉ：ｉ番目のキーワード又は関連用語の出現頻度

なお、上記スコア算出のための（１）式は、一例であり、他の式でスコアを算出するようにしてもよい。

判定部１０７は、予め記憶されているスコア算出の回数に達したかどうかを判定する。なお、スコア算出の回数は、マニュアル（手動）で変更することも可能である。

自動分別部１０８は、算出されたスコアに基づいて文書情報に自動で分別符号を付与する。また、分別符号を付与する際に、分別符号受付部１０３において分別符号の付与を受け付けなかった文書を抽出し、該文書に対して自動で分別符号を付与する機能を備えることも可能である。

クライアント装置３００は、レビュワーが操作し、文書情報を確認し付与する分別符号を決定するのに利用する装置である。

[文書分別システムの動作]
図４は、実施形態に係る文書分別システムの動作を示すフローチャートである。初めに、抽出部１０１は、分別対象である文書情報からデータセットである文書群を抽出する（ステップＳ１０１）。

表示制御部１０２は、クライアント装置３００に対して、抽出部１０１により抽出された文書の文書表示画面を提示する（ステップＳ１０２）。

分別符号受付部１０３は、表示制御部１０２が表示した文書情報のうち、レビュワーが目視により確認して各文書に付与した分別符号を受け付ける（ステップＳ１０３）。

選定部１０４は、分別符号受付部１０３が分類した文書情報を解析し、「無関係」、「関係あり」及び「重要」のそれぞれの分別符号を付与された文書情報において、共通して頻出するキーワードを該分別符号におけるキーワードとして選定する（ステップＳ１０４）。

探索部１０５は、対象となる文書中から特定のキーワードを探索する（ステップＳ１０５）。

スコア算出部１０６は、文書群中に出現するキーワードと、各キーワードの持つ重みづけとにより前述の（１）式から、各文書のスコアを算出する（ステップＳ１０６）。

判定部１０７は、ユーザが設定もしくは予め記憶されているスコア算出の回数に達したかどうか（Ｎ＝ｎ）を判定する（ステップＳ１０７）。

スコア算出の回数が予め決定されている回数に達していない場合（ステップＳ１０７のＮｏ）、抽出部１０１は、スコア算出部１０６により算出されたスコアに基づいて、算出したスコアの高い順に所定数（例えば、上位２５％）の文書を抽出し（ステップＳ１０７）、該抽出した文書に対して、ステップＳ１０２〜Ｓ１０７の動作を繰り返す。

スコア算出の回数が予め決定されている回数に達している場合（ステップＳ１０７のＹｅｓ）、自動分別部１０８は、算出されたスコアに基づいて文書情報（すべての文書）に自動で分別符号を付与する（ステップＳ１０９）。

以上のように、本実施形態では、文書情報に含まれる各文書に対して算出されたスコアに基づいて所定数（例えば、上位２５％）の文書を抽出し、この抽出された文書の分別結果に基づいて再度各文書に対してスコアを算出している。このため、自動分別部１０８による文書の分別結果の適合率及び再現率を向上することができる。

なお、上記実施形態では、探索部１０５により探索されたキーワードに基づいて文書情報のスコアを算出しているが、予めデータベース２００に登録されているキーワードを用いて、文書情報のスコアを算出するようにしてもよい。また、複数のキーワード（キーワードセット）を用いて文書情報のスコアを算出してもよい。さらに、文書情報のスコアを算出するたびに異なるキーワードもしくはキーワードセットを用いて文書情報のスコアを算出するように構成してもよい。

[その他の実施形態]
また、文書分別装置１００に、文書排除部及び学習部を備えるようにしてもよい。文書排除部は、分別対象となる文情報のうち、データベース２００で事前に登録されたキーワード及び関連用語、並びに選定部１０４において選定されたキーワードのいずれも含まない文書を探索し、該文書を分別対象から事前に排除することが可能である。

また、学習部は、分別処理の結果をもとに、各キーワードの重みづけを学習し、該学習結果をもとにデータベース２００に登録されているキーワード及び関連用語の増減を行う。各キーワードがもつ重みづけは、該キーワードが持つ、各分別符号における伝達情報量をもとに決定することも可能である。該重みづけは以下の式より、分別処理を重ねるごとに学習し、精度を向上させることが可能である。

Wgt_i,0：学習前のｉ番目の選定キーワードの重み（初期値）
Wgt_i,L：Ｌ回目学習後のｉ番目の選定キーワードの重み
γ_L：Ｌ回目学習における学習パラメータ

また、学習部では、ニューラルネットを用いて分別結果を重みづけに反映させる学習方法をとることも可能である。

実施形態では、特に特許侵害訴訟事件においての実施例を説明したが、本発明における文書判別システムは、カルテルや独占禁止法等、ｅＤｉｓｃｏｖｅｒｙ（電子証拠開示）制度を採用しており、文書提出義務がある、あらゆる訴訟において利用することが可能である。

本発明に係る文書判別システム及び文書判別方法並びに文書判別プログラムは、各文書に対して算出されたスコアに基づいて所定数の文書を抽出し、この抽出された文書の分別結果に基づいて再度各文書に対してスコアを算出している。このため、文書の分別結果の適合率及び再現率を向上することができる。

また、本発明は、選定部の分析結果と、スコア算出部の算出したスコアに基づいて選定部が選定したデータベースに記録された分別符号との相関関係を有するキーワード及び関連用語を増減させる学習部を備えた際には、分別回数を重ねる度に分別精度を向上させることが可能である。

また、本発明は、データベースが、分別符号と関連性のある関連用語を抽出及び記録し、探索部が、関連用語を文書情報から探索し、スコア算出部が、探索部が関連用語を探索した結果をもとにスコアを算出し、自動分別部が、関連用語を用いて算出したスコアに基づいて自動で分別符号を付与することと、文書群に含まれる文書のうち、選定部が選定したキーワード、関連用語及び分別符号と相関関係を有するキーワードを含まない文書を選定し、自動分別部の分別対象から選定された文書を排除する際には、文書分別をより効率的に行うことを可能とする。このことは、収集されたデジタル情報の訴訟での利用を容易にする。

[実施例]
図５は、実施例に係る分別処理の結果を示したグラフである。図５において、縦軸は再現率（Recall）、横軸はランク（Rank）である。ここで、「再現率（recall）」とは、文書情報に含まれる訴訟に関連するすべての文書のうち、どれだけの文書が自動分別部１０８により分別されているかを示す網羅性の指標である。例えば、文書情報に含まれる訴訟に関連するすべての文書数が１００とし、自動分別部１０８により訴訟に関連すると分別された文書数が８０とすると、再現率は８０％となる。また、「ランク（Rank）」とは、スコア算出部１０６により算出されたスコアによる各文書のランク（順位）である。

図５に示すように、スコアの算出を１回だけ行った場合（図５の実線）に比べ、スコアの算出を２回行った場合（図５の破線）、再現率（Recall）が大幅に向上していることがわかる。つまり、文書情報の分別結果の精度が大幅に向上していることがわかる。なお、この実施例では、１回目（First Stage）のスコア算出に基づいて、上位２５％の文書を抽出し、該抽出した文書の分別結果に基づいて２回目（Second Stage）のスコア算出を行っている。

[その他の実施例]
〔共起に基づくスコア計算〕
スコア算出部は、文書に含まれる第１キーワードが評価された結果と、当該文書に含まれる第２キーワードが評価された結果とに基づいてスコアを算出できる。すなわち、スコア算出部は、第１キーワードが文書に出現した場合、当該文書において第２キーワードが出現する頻度（すなわち、第１キーワードと第２キーワードとの相関、共起ともいう）を考慮して、文書のスコアを計算できる。

この場合、スコア算出部は、第１キーワードと第２キーワードとの相関（共起）を表す相関行列（共起行列）Ｃを用いて、以下の式にしたがってスコアＳを計算できる。

なお、上記相関行列Ｃは、所定の文書を所定数だけ含む学習用データセットを用いて、あらかじめ最適化されている。例えば、ある文書において「価格」というキーワードが出現する場合、当該キーワードに対する他のキーワードの出現数を０〜１の間に正規化した値（すなわち、最尤推定値）が、上記相関行列Ｃのそれぞれの要素に格納されている（したがって、上記相関行列Ｃの各列に対する総和は１になる）。

以上のように、文書分別システムは、キーワード間の相関関係を考慮してスコアを算出できるため、より高い精度で所定の事案（例えば、訴訟など）と関係するデータを抽出できる。

〔センテンスごとのスコア計算〕
スコア算出部は、文書にそれぞれ含まれるセンテンスごとにスコアを算出できる。この場合、スコア算出部は、文書に含まれるセンテンスに所定のキーワードが含まれるか否かを示すキーワードベクトルを、当該センテンスごとに生成する。そして、スコア算出部１４は、下記の式にしたがってスコアを文書ごとに算出する。

ここで、ｓ_ｓは、ｓ番目のセンテンスに対応するキーワードベクトルである。なお、上記スコアの算出においては、共起を考慮している（相関行列Ｃを用いている）ことに注意する。

ＴＦｎｏｒｍは、下記に示されるように計算できる。

ここで、ＴＦ_ｉはｉ番目のキーワードの出現頻度（Term Frequency）を表し、ｓ_ｊｉは上記ｉ番目のキーワードベクトルのｊ番目の要素を表し、ｃ_ｊｉは相関行列Ｃのｊ行ｉ列の要素を表す。

上記をまとめると、スコア算出部は、以下を計算することによって文書ごとに上記スコアを算出する。

ここで、ｗ_ｉは上記重みベクトルｗのｉ番目の要素である。

以上のように、文書分別システムは、センテンスの文意を正しく反映したスコアを算出できるため、より高い精度で所定の事案と関係するデータを抽出できる。

〔フェーズ分析〕
文書分別システムは、所定の事案が属するフェーズを推定し、当該フェーズに応じてスコアを算出できる。ここで、上記「フェーズ」は、上記所定の事案が進展する各段階を示す（上記所定の事案の進展に応じて分類する）指標である。

例えば、上記所定の事案が「他社との談合」という不正行為事件であり、文書分別システムは、ネットワーク上を日々流通する電子メールが当該不正行為事件に関係するか否かを判断することにより、当該不正行為事件の予兆を検知することを目的とする場合、上記フェーズには、「他社と競合に関する情報を収集する準備フェーズ」、「顧客・競合と関係を構築する関係構築フェーズ」、「顧客へ価格を提示し、フィードバックを得て、当該フィードバックに関して競合とコミュニケーションを取る競合フェーズ」などが含まれ得る。

また、時系列情報および生成過程情報が記憶部（データベース）に格納されている。ここで、上記「時系列情報」は、上記フェーズの時間的な序列を示す情報であり、例えば、「準備フェーズ」から「関係構築フェーズ」を経て「競合フェーズ」に至ることを示す時間発展モデルであってよい。また、上記「生成過程情報」は、あるフェーズにおいて各キーワードが生成される過程をモデル化した情報であり、例えば、フェーズごとに定義された多項分布モデルであってよい。

結果取得部は、文書が所定の事案と関係するか否かについてレビュアが判断した結果と、当該文書が上記所定の事案のいずれのフェーズに属するかを判断した結果とを、レビュー結果として取得し、要素評価部は、文書に含まれるキーワードを上記フェーズごとにそれぞれ評価する（各キーワードの重みを決定する）。

スコア算出部は、未分別の文書に対してスコアを算出する場合、上記生成過程情報に基づいて当該文書がいずれのフェーズにあるかを推定する。具体的には、当該生成過程情報に基づいて各フェーズに対する尤度を算出し、当該尤度を最大化するフェーズを当該文書のフェーズとして推定する。そして、スコア算出部は、推定したフェーズに対応する重みを用いて、文書のスコアをそれぞれ算出する。このとき、スコア算出部は、当該フェーズに対応する相関行列Ｃを用いてもよい。

関係付与部（自動分別部）は、データ設定部によって設定された文書を一覧可能に表示するとともに、上記推定したフェーズを表示できる。このとき、関係付与部は、上記時系列情報に基づいて、当該推定したフェーズが次のフェーズに発展する可能性・時期などを予測し、当該予測した結果をあわせて表示することができる。

以上のように、文書分別システムは、フェーズに応じてスコアを正確に算出できるため、より高い精度で所定の事案と関係するデータを抽出できる。

〔重みの再計算〕
データ設定部によって設定された文書（所定の事案と関係すると文書分別システムによって判断された文書）が、関係付与部によって一覧可能に表示された後、結果取得部は、当該判断に対するフィードバックをレビュアから受け付けることができる。すなわち、レビュアは、文書分別システムによって判断された結果が妥当であるか否かを、上記フィードバックとしてそれぞれ入力できる。そして、要素評価部は、上記フィードバックに基づいて各キーワードを再評価できる。

言い換えれば、要素評価部は、文書分別システムの判断に対して新たに得られたフィードバックに基づいて重みを再計算できる。これにより、文書分別システムは、分析の対象とする文書に適合した重みを獲得し、当該重みに基づいて正確にスコアを算出できるため、より高い精度で所定の事案と関係するデータを抽出できる。

〔人物・組織相関の表示〕
データ設定部は、文書に出現する固有名詞（例えば、人物の名前、企業の名前、場所の名前など、固有データ要素）を抽出し、所定の固有名詞（第１固有データ要素）と他の固有名詞（第２固有データ要素）との対応関係を推定することによって、複数の人物または組織の間の繋がりの強さを可視化することができる。

例えば、人物Ａから人物Ｂに送信された電子メールを文書として分析した結果、当該文書に「私からＣさんに連絡しておきます」という文章が含まれていた場合、データ設定部は、「人物Ａ」、「人物Ｂ」、および「人物Ｃ」を抽出し、「人物Ａ」を示すノードから「人物Ｂ」を示すノード、および「人物Ｃ」を示すノードのそれぞれに矢印を接続したチャートを表示できる。この場合、データ設定部は、人物・組織間の相関の強さに応じて矢印の太さが異なるように、上記チャートを表示してよい。

以上のように、文書分別システムは、文書を分析した結果に基づいて、人物・組織間の相関関係を把握容易に表示できるため、不正行為事件を発生させる主体を漏れなく特定できる。

〔サーバ装置が機能の一部または全部を提供する構成〕
以上では、データを分析する機能を提供可能な制御プログラム（文書分析システムの制御プログラム）が、主に文書分別システムにおいて実行される構成（スタンドアロン構成）を説明した。一方、上記制御プログラムの一部または全部がサーバ装置において実行され、当該実行された処理の結果が上記文書分別システム（ユーザ端末）に返される構成（クラウド構成）であってもよい。すなわち、本発明の文書分別システムは、ユーザ端末とネットワークを介して通信可能に接続されたサーバ装置として機能することができる。これにより、サーバ装置は、上記文書分別システムが機能を提供する場合に、当該文書分別システムが奏する効果と同じ効果を奏する。

〔ソフトウェアによる実現例〕
文書分別システムの制御ブロックは、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。後者の場合、文書分別システム１００は、各機能を実現するソフトウェアである制御プログラムの命令を実行するＣＰＵ、上記制御プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、上記制御プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記制御プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記制御プログラムは、当該制御プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。本発明は、上記制御プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

なお、上記制御プログラムは、例えば、Python、ActionScript、JavaScript（登録商標）などのスクリプト言語、Objective-C、Java（登録商標）などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装できる。また、前記制御プログラムによって実現される各機能を実現する各部を備えた情報処理装置（例えば、文書分別システム１００）と、前記各機能とは異なる残りの機能を実現する各部を備えたサーバ装置とを含む分析システムも、本発明の範疇に入る。

〔文書以外のデータに適用する例〕
本発明の文書分別システムを実施する一形態として、文書を分析する文書分別システムを説明したが、当該文書分別システムは、文書以外のデータも分析可能である。

例えば、本発明の文書分別システムは、音声を分析する音声分析システムの形態でも実施可能である。この場合、上記音声分析システムは、（１）音声を認識することによって当該音声に含まれる会話の内容を文字（文書データ）に変換し、上記文書分別システムと同様に当該文書データを処理してもよいし、（２）音声データをそのまま処理してもよい。

上記（１）の場合、上記音声分析システムは、任意の音声認識アルゴリズム（例えば、隠れマルコフモデルを用いた認識方法など）を用いることによって、音声データを文書データに変換し、当該文書データに対して、文書分別システムが実行する処理と同様の処理を実行する。これにより、上記音声分析システムは、上記文書分別システムと同様の効果を奏する。

上記（２）の場合、上記音声分析システムは、音声データに含まれる部分音声を抽出することによって、当該音声データが所定の事案と関係するか否かを分別できる。例えば、「価格を調整する」という音声データが得られた場合、音声分析システムは「価格」および「調整」という部分音声を当該音声データから抽出し、当該部分音声を評価した結果に基づいて、未分別の音声データに関連性情報を与えることができる。この場合、音声分析システムは、時系列データの分類アルゴリズム（例えば、隠れマルコフモデル、カルマンフィルタ、ニューラルネットワークなど）を利用して、音声データを分別できる。これにより、上記音声分析システムは、上記文書分別システムと同様の効果を奏する。

または、本発明の文書分別システムは、映像（動画）を分析する映像分析システムの形態でも実施可能である。この場合、上記映像分析システムは、映像データに含まれるフレーム画像を抽出し、任意の顔認識技術を用いることによって、当該フレーム画像に含まれる人物を特定できる。また、上記映像分析システムは、任意のモーション認識技術（例えば、パターンマッチング技術を応用するものであってよい）を用いることによって、上記映像データに含まれる部分映像（上記映像に含まれる全フレーム画像のうちの一部を含む映像）から上記人物のモーション（動作）を抽出できる。そして、上記映像分析システムは、上記人物および／またはモーションに基づいて、上記映像データを分別できる。これにより、上記映像分析システムは、上記文書分別システムと同様の効果を奏する。

すなわち、本発明の文書分別システムは、時系列で情報が展開するデジタルデータ（文書、音声、映像など）を分析することができる。これにより、上記文書分別システムは、過去のデータ（文書、音声、映像など）を分析した結果に基づいて現在のデータを分析することによって、所定の事案と関係するデータを抽出できる（例えば、不正行為が生じる予兆を検知できる）という効果を奏する。

〔付記事項〕
本発明は上述したそれぞれの実施の形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施の形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても、本発明の技術的範囲に含まれる。さらに、各実施の形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成できる。

１００文書分別装置
１０１抽出部
１０２表示制御部
１０３分別符号受付部
１０４選定部
１０５探索部
１０６スコア算出部
１０７判定部
１０８自動分別部
２００データベース
３００クライアント装置

本発明は、上記事情に鑑み、文書等のデータの分別結果の適合率及び再現率の少なくとも一方を向上できるデータ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体を提供することを目的とする。

本発明は、データ群を記憶する記憶装置と、前記データ群に含まれるデータを分析する処理装置と、を備えるデータ分別システムであって、前記処理装置は、前記データ群からユーザによって分別されるべき複数のデータを抽出し、前記複数のデータの夫々に対して前記ユーザによって与えられた、複数の分別符号のうち少なくとも一つの分別符号を、当該ユーザから取得し、当該分別符号は、当該複数のデータの夫々を分別するための識別子であり、前記取得した分別符号を前記複数のデータの夫々に付与することにより、当該複数のデータの夫々を分別し、前記分別符号が付与されたデータに出現するデータ要素と、当該データ要素の重みと、に基づいて、前記複数のデータの夫々について、当該複数のデータ夫々に付与された前記分別符号との結びつきの強さを評価し、前記評価された複数のデータの中から、前記評価に基づいて、所定数のデータを再度抽出し、前記再度抽出された所定数のデータの夫々に対して前記ユーザによって与えられた、前記複数の分別符号のうち少なくとも一つの分別符号を、当該ユーザから再度取得し、前記再度取得した分別符号を前記所定数のデータの夫々に付与することにより、当該所定数のデータの夫々を分別し、前記分別符号が再度付与されたデータに出現するデータ要素と当該データ要素の重みとに基づいて、前記所定数のデータの夫々について、前記分別符号との結びつきの強さを再度評価し、前記ユーザによって分別符号が付与されていない対象データを、前記分別符号が再度付与されたデータのデータ要素の重みに基づいて評価するデータ分別システムに係る。さらに、本発明は、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体に係る。

本発明によれば、文書等のデータの分別結果の適合率及び再現率の少なくとも一方を向上できるデータ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体を提供することができる。

Claims

所定数の文書をユーザによる分別対象として文書情報から抽出する抽出部と、
前記抽出された文書に対して、前記ユーザがそれぞれ付与した、文書を分類する際に用いる識別子である分別符号を受け付ける分別符号受付部と、
前記抽出された文書から前記分別符号に基づいて選定されたキーワードを記録するデータベースと、
前記文書情報に含まれる文書と前記分別符号との結びつきの強さを評価したスコアを、前記キーワードに基づいて算出するスコア算出部と、
前記スコアの算出が所定の回数に達したか否かを判定する判定部とを備え、
前記スコア算出部は、前記判定部によって前記スコアの算出が前記所定の回数に達していないと判定された場合、前記抽出部が、該スコアにしたがって、所定数の文書を前記ユーザによる分別対象として前記文書情報からさらに抽出した結果に基づいて、前記スコアを再度算出する文書分別システム。
複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、該文書情報に含まれる文書を分別する文書分別システムにおいて、
前記文書情報に含まれる文書と該文書を分類する際に用いる識別子である分別符号との結びつきの強さを評価したスコアを、該文書ごとに算出するスコア算出部と、
算出したスコアに基づき所定の順序で文書を抽出する抽出部と、
前記抽出された文書に対して、ユーザが付与した前記分別符号を受け付ける分別符号受付部と、
前記分別符号に基づいて、前記抽出された文書を分別符号ごとに分別し、該分別された文書において、共通して出現するキーワードを解析し選定する選定部と、
前記選定したキーワードを前記文書情報から探索する探索部と、
を備え、
前記スコア算出部は、
前記探索部の探索結果と前記選定部の解析結果を用いて、前記スコアを前記文書情報に含まれる文書ごとに再度算出することを特徴とする文書分別システム。
前記文書分別システムは、算出したスコアの高い順に文書を抽出し、該抽出された文書に対して新たにスコアを算出することを複数回繰り返すことを特徴とする請求項１または２に記載の文書分別システム。
前記スコア算出部は、前記文書中に出現するキーワード及び各キーワードの持つ重みづけにより前記スコアを算出することを特徴とする請求項１から３のいずれか一項に記載の文書分別システム。
前記スコア算出部は、前記スコアを算出するごとに、前記キーワードの種類及び個数の少なくとも一方を変更することを特徴とする請求項１から４のいずれか一項に記載の文書分別システム。
所定数の文書をユーザによる分別対象として文書情報から抽出する抽出ステップと、
前記抽出された文書に対して、前記ユーザがそれぞれ付与した、文書を分類する際に用いる識別子である分別符号を受け付ける分別符号受付ステップと、
前記抽出された文書から前記分別符号に基づいて選定されたキーワードを記録するデータベースを参照し、前記文書情報に含まれる文書と該分別符号との結びつきの強さを評価したスコアを、該キーワードに基づいて算出するスコア算出ステップと、
前記スコアの算出が所定の回数に達したか否かを判定する判定ステップとを含み、
前記スコア算出ステップは、前記判定ステップにおいて前記スコアの算出が前記所定の回数に達していないと判定した場合、前記抽出ステップにおいて、該スコアにしたがって、所定数の文書を前記ユーザによる分別対象として前記文書情報からさらに抽出した結果に基づいて、前記スコアを再度算出する文書分別方法。
複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、該文書情報に含まれる文書を分別する文書分別方法において、
前記文書情報に含まれる文書と該文書を分類する際に用いる識別子である分別符号との結びつきの強さを評価したスコアを、該文書ごとに算出し、
算出したスコアに基づき所定の順序で文書を抽出し、
前記抽出された文書に対して、ユーザが付与した前記分別符号を受け付け、
前記分別符号に基づいて、前記抽出された文書を分別符号ごとに分別し、該分別された文書において、共通して出現するキーワードを解析し選定し、
前記選定したキーワードを前記文書情報から探索し、
前記探索結果と前記解析結果を用いて、前記スコアを前記文書情報に含まれる文書ごとに再度算出することを特徴とする文書分別方法。
コンピュータに、
所定数の文書をユーザによる分別対象として文書情報から抽出する抽出機能と、
前記抽出された文書に対して、前記ユーザがそれぞれ付与した、文書を分類する際に用いる識別子である分別符号を受け付ける分別符号受付機能と、
前記抽出された文書から前記分別符号に基づいて選定されたキーワードを記録するデータベースを参照し、前記文書情報に含まれる文書と該分別符号との結びつきの強さを評価したスコアを、該キーワードに基づいて算出するスコア算出機能と、
前記スコアの算出が所定の回数に達したか否かを判定する判定機能とを実現させ、
前記スコア算出機能は、前記判定機能によって前記スコアの算出が前記所定の回数に達していないと判定された場合、前記抽出機能が、該スコアにしたがって、所定数の文書を前記ユーザによる分別対象として前記文書情報からさらに抽出した結果に基づいて、前記スコアを再度算出する文書分別プログラム。