WO2016056095A1

WO2016056095A1 - データ分析システム、データ分析システムの制御方法、およびデータ分析システムの制御プログラム

Info

Publication number: WO2016056095A1
Application number: PCT/JP2014/077021
Authority: WO
Inventors: 守本　正宏; 秀樹武田; 和巳蓮子
Original assignee: 株式会社Ｕｂｉｃ
Priority date: 2014-10-08
Filing date: 2014-10-08
Publication date: 2016-04-14

Abstract

　本発明は、所定の事案と関連するか否かを判断する対象となるデータを記録するデータ記録部と、データの一部が所定の事案と関連するか否かについて、ユーザが判断した結果を受け付ける判断結果受付部と、データと所定の事案との関連性の強さを示す主指標を、判断した結果に基づいて導出する主指標導出部と、主指標に応じてデータから部分データを選出し、当該データと所定の事案との関連性の弱さを示す副指標を、当該部分データに基づいて導出する副指標導出部と、データから所定の事案と関連するデータを、主指標および副指標を用いて抽出するデータ抽出部とを備えている。

Description

データ分析システム、データ分析システムの制御方法、およびデータ分析システムの制御プログラム

　本発明は、複数のデータから所定の事案と関連するデータを抽出可能なデータ分析システム等に関するものである。

　コンピュータを用いた紛争が生じた場合、当該紛争に関連する機器・電子的記録を収集・分析し、その法的な証拠性を明らかにする技術が提案されている。例えば、特許文献１には、訴訟において証拠として提出するために収集された文書情報を分析し、訴訟への利用が容易になるように分別する文書分別システムが開示されている。

特開２０１３－１８２３３８号公報

　上記文書情報には、証拠となり得る（訴訟に関連する）文書とそうでない文書とが混在しているところ、従来の文書分別システムは前者のみを取り出すものであった。すなわち、訴訟と関連性の高い文書αと関連性の低い文書βとを分別するにあたり、文書αを特定するだけで、文書βを明に排除することはしていない。そのため、分別において文書βがノイズとして作用することにより、分別精度が不十分となるおそれがあった。

　図５は、従来の文書分析システムによってスコアが算出された場合における文書の分布を示すヒートマップである。図５に示されるように、従来の文書分析システムによれば、文書αが中心の領域Ａに集まるように分布する。そして、関連性の低い文書は当該領域Ａから離れた位置に分布し、最も関連性の低い文書βは、外縁の領域Ｂにまとまりなく分布する。このため、文書αと文書βとは線形分離できない。これは、両者の違いが明確でなく、文書αが文書βから分別困難となるおそれがあることを意味する。

　本発明は、上記の問題点に鑑みてなされたものであり、その目的は、所定の事案に関連しないデータを明に分別することによって、当該所定の事案に関連するデータを高い精度で分別可能なデータ分析システム等を提供することである。

　上記課題を解決するために、本発明の一態様に係るデータ分析システムは、所定の事案と関連するか否かを判断する対象となるデータを記録するデータ記録部と、データの一部が所定の事案と関連するか否かについて、ユーザが判断した結果を受け付ける判断結果受付部と、データと所定の事案との関連性の強さを示す主指標を、判断した結果に基づいて導出する主指標導出部と、主指標に応じてデータから部分データを選出し、当該データと所定の事案との関連性の弱さを示す副指標を、当該部分データに基づいて導出する副指標導出部と、データから所定の事案と関連するデータを、主指標および副指標を用いて抽出するデータ抽出部とを備えている。

　また、本発明の一態様に係るデータ分析システムは、例えば、判断した結果を与えられたデータの一部に含まれるデータ要素を、所定の基準に基づいて評価する主要素評価部をさらに備え、主指標導出部は、主要素評価部によってデータ要素が評価された結果に基づいて主指標を導出することができる。

　また、本発明の一態様に係るデータ分析システムは、例えば、部分データに含まれるデータ要素を、所定の基準に基づいて評価する副要素評価部をさらに備え、副指標導出部は、副要素評価部によってデータ要素が評価された結果に基づいて副指標を導出することができる。

　また、本発明の一態様に係るデータ分析システムにおいて、所定の基準は、例えば、データ要素と、当該データ要素を含むデータに対する判断した結果との依存関係を表す伝達情報量であってよい。

　また、本発明の一態様に係るデータ分析システムは、例えば、所定の事案と関連するか否かが未だ判断されていない未判断データが、当該所定の事案と関連するか否かを示す関連性情報を、主指標および副指標を用いて付与する関連付与部をさらに備えることができる。

　また、本発明の一態様に係るデータ分析システムにおいては、例えば、データ抽出部は、主指標および副指標を用いてデータを並べ替えることによって、当該データから所定の事案と関連するデータを抽出することができる。

　また、本発明の一態様に係るデータ分析システムにおいて、データは、例えば、コンピュータで処理可能なデジタル文書を少なくとも含んでいる。

　上記課題を解決するために、本発明の一態様に係るデータ分析システムの制御方法は、所定の事案と関連するか否かを判断する対象となるデータを記録するデータ記録部を備えたデータ分析システムの制御方法であって、データの一部が所定の事案と関連するか否かについて、ユーザが判断した結果を受け付ける判断結果受付ステップと、データと所定の事案との関連性の強さを示す主指標を、判断した結果に基づいて導出する主指標導出ステップと、主指標に応じてデータから部分データを選出し、当該データと所定の事案との関連性の弱さを示す副指標を、当該部分データに基づいて導出する副指標導出ステップと、データから所定の事案と関連するデータを、主指標および副指標を用いて抽出するデータ抽出ステップとを含んでいる。

　上記課題を解決するために、本発明の一態様に係るデータ分析システムの制御プログラムは、所定の事案と関連するか否かを判断する対象となるデータを記録するデータ記録部を備えたデータ分析システムの制御プログラムであって、データ分析システムに、データの一部が所定の事案と関連するか否かについて、ユーザが判断した結果を受け付ける判断結果受付機能と、データと所定の事案との関連性の強さを示す主指標を、判断した結果に基づいて導出する主指標導出機能と、主指標に応じてデータから部分データを選出し、当該データと所定の事案との関連性の弱さを示す副指標を、当該部分データに基づいて導出する副指標導出機能と、データから所定の事案と関連するデータを、主指標および副指標を用いて抽出するデータ抽出機能とを実現させる。

　本発明の一態様によれば、データ分析システム、データ分析システムの制御方法、およびデータ分析システムの制御プログラムは、所定の事案と関連するか否かを判断する対象となるデータの一部が、所定の事案と関連するか否かについて、ユーザが判断した結果を受け付け、データと所定の事案との関連性の強さを示す主指標を、判断した結果に基づいて導出し、主指標に応じてデータから部分データを選出し、当該データと所定の事案との関連性の弱さを示す副指標を、当該部分データに基づいて導出し、データから所定の事案と関連するデータを、主指標および副指標を用いて抽出する。したがって、上記データ分析システム等は、当該所定の事案に関連するデータを高い精度で分別することができるという効果を奏する。

本発明の実施の形態に係る文書分析システムの要部構成の一例を示すブロック図である。上記文書分析システムの一例を概略的に示す概略図である。上記文書分析システムによってポジティブスコアおよびネガティブスコアが算出された場合における文書の分布を示すヒートマップである。上記文書分析システムが実行する処理の一例を示すフローチャートである。従来の文書分析システムによってスコアが算出された場合における文書の分布を示すヒートマップである。

　図１～図４に基づいて、本発明の実施の形態を説明する。

　〔文書分析システム１００の概要〕
　文書分析システム（データ分析システム）１００は、デジタル文書を分析することによって、複数の文書から所定の事案と関連する文書を抽出可能な情報処理システムである。文書分析システム１００は、以下で説明する処理を実行可能なコンピュータを含んでいればよく、例えば、サーバ装置、パーソナルコンピュータ、メインフレーム、ワークステーション、その他の電子機器などを用いて実現され得る。

　図２は、文書分析システム１００の一例を概略的に示す概略図である。図２に示されるように、レビュア（ユーザ）は、文書が所定の事案と関連するか否かを判断し、当該判断した結果（レビュー結果５ａ）を文書分析システム１００に入力する。

　上記「文書」は、コンピュータによって処理可能となるようにデジタル化されたデータであり、例えば、電子メール、技術文書、プレゼンテーション資料、表計算資料、決算報告書、打ち合わせ資料、契約書、組織図、事業計画書などが広く含まれ得る。

　また、上記「所定の事案」は、組織において上記文書を利用する一般ユーザが、不正行為、および／またはその予備的行為をとることによって生じる事件を含み、例えば、機密情報が外部に漏えいする事件、他社と談合した事件、決算を粉飾した事件、取引企業に架空請求して代金を着服した事件、その他企業にとって好ましくない事件など、当該組織が発生を防止したいと考える事案を広く含む。ただし、上記所定の事案は上記の例に限定されず、関連するデータ（例えば、文書、音声、映像など）を生成し得る事案一般を広く含んでよい（後で詳細に説明する）。

　文書分析システム１００は、上記レビュー結果５ａが得られた文書１ａ（所定の事案と関連するか否かがユーザによって判断された既判断データ）に含まれるキーワード（データ要素）を所定の基準（例えば、伝達情報量）に基づいてそれぞれ評価する。そして、文書分析システム１００は、当該評価された結果に基づいて、未だレビュー結果５ａが得られていない文書１ｂ（所定の事案と関連するか否かがユーザによって判断されていない未判断データ）に対して、上記所定の事案との関連性の強さを示すポジティブスコア（主指標）をそれぞれ算出する。

　次に、文書分析システム１００は、上記ポジティブスコアが低い文書１ｂ（例えば、当該ポジティブスコアがほとんどゼロとなる文書）の中から所定数の文書を（例えば、ランダムに）部分データとして選出し、当該選出された文書１ｃに含まれるキーワードを上記所定の基準に基づいてそれぞれ評価する。そして、文書分析システム１００は、当該評価された結果に基づいて、文書１ｂと上記所定の事案との関連性の弱さを示すネガティブスコア（副指標）を、当該文書１ｂに対して算出する。最後に、文書分析システム１００は、上記ポジティブスコアおよびネガティブスコアにしたがって、文書１ｂを抽出する（例えば、ポジティブスコアが高く、ネガティブスコアが低い文書から順に並ぶように、文書全体を並べ替える）。

　以上のように、文書分析システム１００は、レビュアによるレビュー結果５ａに基づいて、所定の事案と関連することを示す指標（ポジティブスコア）を導出するだけでなく、当該ポジティブスコアにしたがって、当該所定の事案と関連しない（当該所定の事案との関連性が弱い）ことを示す指標（ネガティブスコア）も導出する。

　そして、文書分析システム１００は、両者にしたがって上記所定の事案と関連する可能性が高い文書を抽出し、レビュアに一覧結果５ｂ（当該文書を一覧してレビュアに提示可能な情報）を返すことができる。すなわち、文書分析システム１００は、所定の事案に関連しない文書を明に分別することによって、当該所定の事案と関連する文書を高い精度で抽出することができる。

　〔文書分析システム１００の構成〕
　図１は、文書分析システム１００の要部構成の一例を示すブロック図である。図１に示されるように、文書分析システム１００は、制御部１０（データ抽出部１１、結果取得部１２、要素評価部１３、スコア算出部１４、データ設定部１５、関連付与部１６、格納部１７、文書取得部１８）、受信部２０、入力部４０、表示部５０、および記憶部３０を備えている。

　制御部１０は、文書分析システム１００が有する各種の機能を統括的に制御する。制御部１０は、データ抽出部１１、結果取得部１２、要素評価部１３、スコア算出部１４、データ設定部１５、関連付与部１６、格納部１７、および文書取得部１８を含む。

　データ抽出部１１は、所定の事案と関連するか否かがレビュアによって判断されるべき文書１ａを、所定の文書群（データ群）から所定数だけ抽出する。当該文書群は、ネットワーク上を流通するデータであってもよいし、記憶部３０にあらかじめ格納されたデータであってもよい。

　データ抽出部１１は、抽出した文書１ａを表示部５０に出力することによって、当該文書１ａをレビュアに提示することができる。これにより、レビュアは、例えば、文書１ａが「所定の事案と関連する」または「所定の事案と関連しない」を示すレビュー結果５ａを当該文書１ａにそれぞれ付与できる。また、データ抽出部１１は、当該文書１ａを結果取得部１２および要素評価部１３に出力する。

　結果取得部（判断結果受付部）１２は、文書１ａがデータ抽出部１１から入力された場合、当該文書１ａが所定の事案と関連するか否かについてレビュアが判断した結果（レビュー結果５ａ）を、入力部４０を介して受け付け、当該レビュー結果５ａを要素評価部１３に出力する。

　要素評価部（主要素評価部）１３は、所定の事案と関連するか否かがレビュアによって判断された文書１ａに含まれるキーワード（データ要素）を、所定の基準に基づいてそれぞれ評価する。要素評価部１３は、例えば、上記キーワードと当該キーワードを含む文書１ａに対してレビュアが判断した結果（レビュー結果５ａ）との依存関係を表す伝達情報量を、上記所定の基準の１つとして当該キーワードの重みを算出することによって、当該キーワードを評価することができる。これにより、文書分析システム１００は、キーワードを正確に評価することができるため、所定の事案と関連するデータを正確に抽出できる。

　または、要素評価部１３は、上記キーワードに所定の重みを割り当てることにより、当該キーワードを評価してもよい。この場合、要素評価部１３は、例えば、上記キーワードに「１」の重みを割り当てることができる。

　なお、上記「キーワード」は、意味を有する文字列（形態素）を含む。例えば、「文書を分別する」という文章には、「文書」および「分別」というキーワードが含まれる。要素評価部１３は、上記キーワードと当該キーワードの重みとのペアであるキーワード情報５ｃを、スコア算出部１４および格納部１７に出力する。

　また、スコア算出部１４からポジティブスコア５ｄが入力された場合、要素評価部（副要素評価部）１３は、当該ポジティブスコア５ｄによって上記所定の事案との関連性が弱いことが示された文書１ｂ（例えば、当該ポジティブスコア５ｄがほとんどゼロとなる文書１ｂ）に含まれるキーワードを、上記所定の基準に基づいて評価する。このとき、要素評価部１３は、上記ポジティブスコア５ｄが低い文書１ｂの中から所定数の文書（部分データ）１ｃを（例えば、ランダムに）選出し、当該選出された文書１ｃに含まれるキーワードを評価できる。要素評価部１３は、上記キーワードと当該キーワードの重みとのペアであるキーワード情報５ｅを、スコア算出部１４および格納部１７に出力する。

　スコア算出部（主指標導出部）１４は、要素評価部１３によって評価された結果（キーワード情報５ｃ）に基づいて、所定の事案との関連性の強さを示すポジティブスコア５ｄを文書１ｂについて算出（導出）し、当該ポジティブスコア５ｄを要素評価部１３およびデータ設定部１５に出力する。なお、スコア算出部１４は、「高」、「中」、「低」など、序列化可能な指標を導出できさえすればよく、当該指標はスコア（スカラー値）に限定されない。

　また、スコア算出部（副指標導出部）１４は、要素評価部１３によって評価された結果（キーワード情報５ｅ）に基づいて、ポジティブスコア５ｄによって所定の事案との関連性が弱いことが示された文書１ｂの排除可能性を示すネガティブスコア５ｆを算出（導出）し、当該ネガティブスコア５ｆをデータ設定部１５に出力する。

　上記のように、ネガティブスコア５ｆは、「ポジティブスコア５ｄによって所定の事案との関連性が弱い」ことを指標として示すスコアであるが、一方で、「所定の事案とは無関係である他の文書との関連性が高い」ことを指標として示すスコアでもある。すなわち、スコア算出部１４は、所定の事案との関連性に基づいて、上記ポジティブスコア５ｄを算出する一方で、所定の事案とは無関係である他の文書（例えば、ポジティブスコア５ｄの算出に対してノイズとして作用する文書）との関連性に基づいて、上記ネガティブスコア５ｆを算出する。上記他の文書は、例えば、あらかじめ指定された文書群に含まれる文書として与えられてもよいし、先行して算出されたポジティブスコア５ｄのランキング結果に基づいて抽出された文書であってもよい。

　スコア算出部１４は、文書に出現するキーワードの重みを合算することによって、当該文書のスコアを計算できる。例えば、文書に「価格を調整する」という文章が含まれていることにより、「価格」および「調整」というキーワードが要素評価部１３によってそれぞれ評価された結果、「１.２」および「２.２」という重みが設定された場合、スコア算出部１４は、当該文書のスコアを「３.４」（１.２＋２.２）と計算できる。

　具体的には、スコア算出部１４は、所定のキーワードが文書に含まれるか否かを示すキーワードベクトルを生成する。上記キーワードベクトルは、当該キーワードベクトルのそれぞれの要素が「０」または「１」の値をとることによって、当該要素に対応付けられた所定のキーワードが、上記文書に含まれるか否かを示すベクトルである。例えば、上記文書に「価格」というキーワードが含まれている場合、スコア算出部１４は、上記キーワードベクトルの上記「価格」に対応する要素を「０」から「１」に変更する。そして、スコア算出部１４は、以下の式のように、上記キーワードベクトル（縦ベクトル）と重みベクトル（各キーワードに対する重みを要素にした縦ベクトル）との内積を計算することにより、上記文書のスコアＳを計算する。

　ここで、ｓはキーワードベクトルを表し、Ｗは重みベクトルを表す。なお、Ｔは行列・ベクトルを転置する（行と列とを入れ替える）ことを表す。

　または、スコア算出部１４は、以下の式にしたがってスコアＳを算出してもよい。

　ここで、ｍ_ｊは、ｊ番目のキーワードの出現頻度を表し、ｗ_ｉは、ｉ番目のキーワードの重みを表す。なお、スコア算出部１４は、文書１ａおよび／または文書１ｂに含まれる第１キーワードが評価された結果（第１キーワードの重み）と、当該文書１ａおよび／または文書１ｂに含まれる第２キーワードが評価された結果（第２キーワードの重み）とに基づいて、ポジティブスコア５ｄおよび／またはネガティブスコア５ｆを算出してよい。また、スコア算出部１４は、文書１ａおよび／または文書１ｂにそれぞれ含まれるセンテンスごとに、ポジティブスコア５ｄおよび／またはネガティブスコア５ｆを算出してよい（いずれも後で詳細に説明する）。

　データ設定部（データ抽出部）１５は、ポジティブスコア５ｄおよびネガティブスコア５ｆを用いて、文書１ｂから上記所定の事案と関連する文書を抽出することにより、レビュアに報告すべき文書として設定する。データ設定部１５は、例えば、ポジティブスコアが高く、かつ、ネガティブスコアが低いか否かを判定し、当該判定された文書にフラグを立てることにより、当該文書をレビュアに報告すべき文書に設定する。または、データ設定部１５は、ポジティブスコアが高い順に、および／または、ネガティブスコアが低い順に、文書を並べ替えることによって、当該文書をレビュアに報告すべき文書として抽出・設定する。データ設定部１５は、設定した文書を特定可能な設定情報５ｇを関連付与部１６に出力する。

　関連付与部１６は、ポジティブスコア５ｄおよびネガティブスコア５ｆを用いて、文書１ｂが上記所定の事案と関係するか否かを示す関連性情報（文書分析システム１００によるレビュー結果、「分別符号」ともいう）を付与する。例えば、データ設定部１５によって設定された文書に、上記分別符号を付与してよい。また、関連付与部１６は、一覧結果５ｂを表示部５０に出力することにより、データ設定部１５によって設定された文書１ｂ（所定の事案と関連すると文書分析システム１００によって判断された文書）を一覧可能に表示できる。

　格納部１７は、要素評価部１３からキーワード情報５ｃまたはキーワード情報５ｅが入力された場合、当該キーワード情報５ｃまたはキーワード情報５ｅに含まれるキーワードと、当該キーワードが評価された結果（重み）とを対応付けて、記憶部３０に格納する。これにより、文書分析システム１００は、過去のデータを分析した結果（キーワードが評価された結果としての重み）に基づいて現在のデータを分析することによって、所定の事案と関連するデータを抽出できる。

　文書取得部（未判断データ取得部）１８は、結果取得部１２によってレビュー結果５ａが受け付けられなかった文書１ｂを未判断データとして取得し、当該取得した文書１ｂを要素評価部１３およびスコア算出部１４に出力する。図１は、文書取得部１８が、受信部２０を介して文書１ａおよび文書１ｂを外部から取得する構成を例示するが、文書取得部１８は、記憶部３０に格納された文書を読み出し、レビュー結果５ａが与えられた文書を文書１ａ（所定の事案と関連するか否かがレビュアによって判断されたデータ）としてデータ抽出部１１に出力し、レビュー結果５ａが与えられなかった文書を文書１ｂ（所定の事案と関連するか否かがレビュアによって未だ判断されていないデータ）として要素評価部１３およびスコア算出部１４に出力する構成であってもよい。

　入力部４０は、レビュアから入力（レビュー結果５ａ）を受け付ける。図１は、文書分析システム１００が入力部４０を備えた構成（例えば、入力部４０としてキーボード、マウスなどが接続された構成）を示すが、当該入力部４０は、当該文書分析システム１００と通信可能に接続された外部の入力装置（例えば、クライアント端末）であってもよい。

　受信部２０は、所定の通信方式にしたがう通信網を介して、ネットワークから文書１ａおよび／または文書１ｂを受信する。外部の機器（例えば、一般ユーザが使用する端末）との通信を実現する本質的な機能が受信部２０に備わってさえいればよく、通信回線、通信方式、または通信媒体などは限定されない。受信部２０は、例えばイーサネット（登録商標）アダプタなどの機器で構成できる。また、受信部２０は、例えばIEEE802.11無線通信、Bluetooth（登録商標）などの通信方式や通信媒体を利用できる。

　なお、図１は、文書分析システム１００が受信部２０を介してネットワークから文書１ａおよび／または文書１ｂを取得する構成を示すが、当該文書分析システム１００は、例えば、文書１ａおよび／または文書１ｂを格納した所定の記憶装置を接続することによって当該文書１ａおよび／または文書１ｂを取得する構成であってもよい。

　表示部５０は、レビュアが操作可能なインターフェース画面を表示するデバイスである。図１は、文書分析システム１００が表示部５０を備えた構成（例えば、表示部５０として液晶ディスプレイなどが接続された構成）を示すが、当該表示部５０は、当該文書分析システム１００と通信可能に接続された外部の表示装置（例えば、クライアント端末）であってもよい。

　記憶部（データ記録部）３０は、上記所定の事案と関連するか否かを判断する対象となる所定のデータ（例えば、文書１ａ、文書１ｂ）を記録可能な記録機器であり、例えば、ハードディスク、ＳＳＤ（silicon state drive）、半導体メモリ、ＤＶＤなど、任意の記録媒体によって構成される。また、記憶部３０は、キーワード情報５ｃ、キーワード情報５ｅ、および／または文書分析システム１００を制御可能な制御プログラムをさらに記憶することができる。なお、図１は、文書分析システム１００が記憶部３０を内蔵する構成を示すが、当該記憶部３０は、当該文書分析システム１００と通信可能に接続された外部の記憶装置であってもよい。

　〔文書分析システム１００の性能を示すヒートマップ〕
　図３は、文書分析システム１００によってポジティブスコアおよびネガティブスコアが算出された場合における文書の分布を示すヒートマップである。図３は、両システムの差異が把握容易となるように当該差異を視覚的に示したものであり、実際に文書が図３のように２次元平面上に分布するわけではないことに注意する。

　従来の文書分析システムによれば、高いスコアが算出された文書（すなわち、所定の事案と関連性の高い文書α）が中心の領域Ａに集まるように分布する（図５参照）。そして、スコアが減少するほど文書は当該領域Ａから離れた位置に分布し、最もスコアの低い文書（すなわち、所定の事案と関連性の低い文書β）は、外縁の領域Ｂにまとまりなく分布する。このため、文書αと文書βとは線形分離できない。これは、上記スコアに両者の違いが明確に現れず、所望の文書αが文書βから分別困難となるおそれがあることを意味する。

　図３に示されるように、本実施の形態に係る文書分析システム１００によれば、高いポジティブスコアが算出された文書（すなわち、所定の事案と関連性の高い文書α）が領域Ａに集まるように分布する一方で、高いネガティブスコアが算出された文書（すなわち、所定の事案と関連性の低い文書β）が領域Ｂに集まるように分布する。すなわち、文書分析システム１００は、所望の文書αを分別するにあたり、不要な文書βを明に排除する。これにより、両者の違いが明確に現れるため、文書分析システム１００は、文書αを高い精度で分別することができる。

　〔文書分析システム１００が実行する処理〕
　図４は、文書分析システム１００が実行する処理の一例を示すフローチャートである。なお、以下の説明において、カッコ書きの「～ステップ」は、データ分析システムの制御方法に含まれる各ステップを表す。

　まず、データ抽出部１１は、所定の事案と関連するか否かがレビュアによって判断されるべき文書１ａを、所定の文書群から所定数だけ抽出する（ステップ１、以下「ステップ」を「Ｓ」と略記する）。次に、結果取得部１２は、文書１ａが所定の事案と関連するか否かについてレビュアが判断した結果（レビュー結果５ａ）を、入力部４０を介して取得する（Ｓ２、判断結果受付ステップ）。次に、要素評価部１３は、上記所定の事案と関連するか否かがレビュアによって判断された文書１ａに含まれるキーワードを、所定の基準に基づいてそれぞれ評価する（Ｓ３）。

　文書取得部１８は、上記所定の事案と関連するか否かがレビュアによって未だ判断されていない文書１ｂを取得する（Ｓ４）。そして、スコア算出部１４は、上記判断した結果（レビュー結果５ａ）に基づいて、文書１ｂと当該所定の事案との関連性の強さを示すポジティブスコア５ｄを算出（導出）する（Ｓ５、主指標導出ステップ）。次に、要素評価部１３は、ポジティブスコア５ｄによって上記所定の事案との関連性が弱いことが示された文書１ｂを選出し、当該選出された文書１ｂに含まれるキーワードを、上記所定の基準に基づいて評価し（Ｓ６）、スコア算出部１４は、要素評価部１３によって評価された結果（キーワード情報５ｅ）に基づいて、上記所定の事案との関連性の弱さを示すネガティブスコア５ｆを文書１ｂについて算出する（Ｓ７、副指標導出ステップ）。

　データ設定部１５は、ポジティブスコア５ｄおよびネガティブスコア５ｆにしたがって、文書１ｂをレビュアに報告すべき文書か否かを判定し（Ｓ８）、報告すべき文書と判定した場合（Ｓ８においてＹＥＳ）、当該文書１ｂを報告すべき文書として設定（抽出）する（Ｓ９、データ抽出ステップ）。最後に、関連付与部１６は、データ設定部１５によって設定された文書１ｂに、当該文書１ｂが所定の事案と関連することを示す関連性情報（文書分析システム１００によるレビュー結果）を付与し、当該文書１ｂを表示部５０に表示する一覧結果５ｂを出力する（Ｓ１０）。

　なお、上記制御方法は、図４を参照して前述した上記処理だけでなく、制御部１０に含まれる各部において実行される処理を任意に含んでよい。

　〔共起に基づくスコア計算〕
　前述したように、スコア算出部１４は、文書に含まれる第１キーワードが評価された結果と、当該文書に含まれる第２キーワードが評価された結果とに基づいてスコア（以下「スコア」と総称した場合、ポジティブスコアとネガティブスコアとを両方指す）を算出できる。すなわち、スコア算出部１４は、第１キーワードが文書に出現した場合、当該文書において第２キーワードが出現する頻度（すなわち、第１キーワードと第２キーワードとの相関、共起ともいう）を考慮して、文書のスコアを計算できる。

　この場合、スコア算出部１４は、第１キーワードと第２キーワードとの相関（共起）を表す相関行列（共起行列）Ｃを用いて、（上記〔数１〕ではなく）以下の式にしたがってスコアＳを計算できる。

　なお、上記相関行列Ｃは、所定の文書を所定数だけ含む学習用データセットを用いて、あらかじめ最適化されている。例えば、ある文書において「価格」というキーワードが出現する場合、当該キーワードに対する他のキーワードの出現数を０～１の間に正規化した値（すなわち、最尤推定値）が、上記相関行列Ｃのそれぞれの要素に格納されている（したがって、上記相関行列Ｃの各列に対する総和は１になる）。

　以上のように、文書分析システム１００は、キーワード間の相関関係を考慮してスコアを算出できるため、より高い精度で所定の事案と関連するデータを分別できる。

　〔センテンスごとのスコア計算〕
　前述したように、スコア算出部１４は、文書にそれぞれ含まれるセンテンスごとにスコアを算出できる。この場合、スコア算出部１４は、文書に含まれるセンテンスに所定のキーワードが含まれるか否かを示すキーワードベクトルを、当該センテンスごとに生成する。そして、スコア算出部１４は、下記の式にしたがってスコアを文書ごとに算出する。

　ここで、ｓ_ｓは、ｓ番目のセンテンスに対応するキーワードベクトルである。なお、上記〔数４〕にしたがうスコアの算出においては、共起を考慮している（相関行列Ｃを用いている）ことに注意する。

　ＴＦｎｏｒｍは、下記の〔数５〕に示されるように計算できる。

　ここで、上記〔数５〕において、ＴＦ_ｉはｉ番目のキーワードの出現頻度（Term Frequency）を表し、ｓ_ｊｉは上記ｉ番目のキーワードベクトルのｊ番目の要素を表し、ｃ_ｊｉは相関行列Ｃのｊ行ｉ列の要素を表す。

　上記〔数４〕および〔数５〕をまとめると、スコア算出部１４は、以下の〔数６〕を計算することによって文書ごとに上記スコアを算出する。

　ここで、上記〔数６〕において、ｗ_ｉは上記重みベクトルｗのｉ番目の要素である。

　以上のように、文書分析システム１００は、センテンスの文意を正しく反映したスコアを算出できるため、より高い精度で所定の事案と関連するデータを分別できる。

　〔フェーズ分析〕
　文書分析システム１００は、所定の事案が属するフェーズを推定し、当該フェーズに応じてスコアを算出できる。ここで、上記「フェーズ」は、上記所定の事案が進展する各段階を示す（上記所定の事案の進展に応じて分類する）指標である。

　例えば、上記所定の事案が「他社との談合」という不正行為事件であり、文書分析システム１００は、ネットワーク上を日々流通する電子メールが当該不正行為事件に関連するか否かを判断することにより、当該不正行為事件の予兆を検知することを目的とする場合、上記フェーズには、「他社と競合に関する情報を収集する準備フェーズ」、「顧客・競合と関係を構築する関係構築フェーズ」、「顧客へ価格を提示し、フィードバックを得て、当該フィードバックに関して競合とコミュニケーションを取る競合フェーズ」などが含まれ得る。

　また、時系列情報および生成過程情報が記憶部３０に格納されている。ここで、上記「時系列情報」は、上記フェーズの時間的な序列を示す情報であり、例えば、「準備フェーズ」から「関係構築フェーズ」を経て「競合フェーズ」に至ることを示す時間発展モデルであってよい。また、上記「生成過程情報」は、あるフェーズにおいて各キーワードが生成される過程をモデル化した情報であり、例えば、フェーズごとに定義された多項分布モデルであってよい。

　結果取得部１２は、文書１ａが所定の事案と関連するか否かについてレビュアが判断した結果と、当該文書１ａが上記所定の事案のいずれのフェーズに属するかを判断した結果とを、レビュー結果５ａとして取得し、要素評価部１３は、文書１ａに含まれるキーワードを上記フェーズごとにそれぞれ評価する（各キーワードの重みを決定する）。

　スコア算出部１４は、文書１ｂに対してスコアを算出する場合、上記生成過程情報に基づいて当該文書１ｂがいずれのフェーズにあるかを推定する。具体的には、当該生成過程情報に基づいて各フェーズに対する尤度を算出し、当該尤度を最大化するフェーズを当該文書１ｂのフェーズとして推定する。そして、スコア算出部１４は、推定したフェーズに対応する重みを用いて、文書１ｂのスコアをそれぞれ算出する。このとき、スコア算出部１４は、当該フェーズに対応する相関行列Ｃを用いてもよい。

　関連付与部１６は、データ設定部１５によって設定された文書１ｂを一覧可能に表示するとともに、上記推定したフェーズを表示できる。このとき、関連付与部１６は、上記時系列情報に基づいて、当該推定したフェーズが次のフェーズに発展する可能性・時期などを予測し、当該予測した結果をあわせて表示することができる。

　以上のように、文書分析システム１００は、フェーズに応じてスコアを正確に算出できるため、より高い精度で所定の事案と関連するデータを分別できる。

　〔重みの再計算〕
　データ設定部１５によって設定された文書１ｂ（所定の事案と関連すると文書分析システム１００によって判断された文書）が、関連付与部１６によって一覧可能に表示された後、結果取得部１２は、当該判断に対するフィードバックをレビュアから受け付けることができる。すなわち、レビュアは、文書分析システム１００によって判断された結果が妥当であるか否かを、上記フィードバックとしてそれぞれ入力できる。そして、要素評価部１３は、上記フィードバックに基づいて各キーワードを再評価できる。

　言い換えれば、要素評価部１３は、文書分析システム１００の判断に対して新たに得られたフィードバックに基づいて重みを再計算できる。これにより、文書分析システム１００は、分析の対象とする文書に適合した重みを獲得し、当該重みに基づいて正確にスコアを算出できるため、より高い精度で所定の事案と関連するデータを分別できる。

　〔人物・組織相関の表示〕
　データ設定部１５は、文書１ｂに出現する固有名詞（例えば、人物の名前、企業の名前、場所の名前など、固有データ要素）を抽出し、所定の固有名詞（第１固有データ要素）と他の固有名詞（第２固有データ要素）との対応関係を推定することによって、複数の人物または組織の間の繋がりの強さを可視化することができる。

　例えば、人物Ａから人物Ｂに送信された電子メールを文書１ｂとして分析した結果、当該文書１ｂに「私からＣさんに連絡しておきます」という文章が含まれていた場合、データ設定部１５は、「人物Ａ」、「人物Ｂ」、および「人物Ｃ」を抽出し、「人物Ａ」を示すノードから「人物Ｂ」を示すノード、および「人物Ｃ」を示すノードのそれぞれに矢印を接続したチャートを表示できる。この場合、データ設定部１５は、人物・組織間の相関の強さに応じて矢印の太さが異なるように、上記チャートを表示してよい。

　すなわち、文書分析システム１００は、複数の端末間で送受信され、複数の人物のそれぞれに対応づけられる通信データを取得する通信データ取得部と、前記通信データ取得部が取得した前記通信データの内容を分析する分析部と、前記分析部の分析結果を用い、前記通信データの内容と予め定められた事案との関連性を評価する評価部と、前記評価部の評価結果に基づいて、前記事案に関連する前記複数の人物の関連性を表示する表示部とを備えてよい。

　以上のように、文書分析システム１００は、文書を分析した結果に基づいて、人物・組織間の相関関係を把握容易に表示できるため、不正行為事件を発生させる主体を漏れなく特定できる。

　〔閾値の設定〕
　前述のように、文書分析システム１００は、レビュー結果５ａに基づいて文書１ａに含まれるキーワードを所定の基準に基づいてそれぞれ評価する。そして、文書分析システム１００は、当該評価された結果に基づいて、上記所定の事案との関連性の強さを示すポジティブスコアを文書１ａについてそれぞれ算出し、適合率（上記所定の事案に関連すると判断された文書１ａが、所定数の文書を含む文書群に占める割合）に対して設定された目標値（目標適合率）を超過可能な最小のスコアを、適合しきい値として特定することができる。

　すなわち、文書分析システム１００は、レビュアから与えられたレビュー結果５ａ（過去のデータに対して人間が判断した結果）に基づいて上記適合しきい値を設定し、当該適合しきい値を超過するポジティブスコアを有する文書１ｂのみを、上記所定の事案と関連する可能性が高い文書として、レビュアに一覧結果５ｂを返すことができる。言い換えれば、文書分析システム１００は、過去のデータを分析した結果に基づいて現在のデータを分析することにより、所定の事案と関連するデータを分別できる。これにより、文書分析システム１００は、例えば、不正行為が生じる予兆をリアルタイムに検知できる（分析対象となる文書１ｂが、あらかじめ用意されている必要はない）。

　より具体的には、上記所定の事案と関連するか否かがレビュアによって判断された文書１ａについてポジティブスコアがそれぞれ算出された場合、文書分析システム１００は、当該ポジティブスコアを降順に並べ替える。次に、文書分析システム１００は、最大のポジティブスコア（当該ポジティブスコアのランクが１位）を有する文書１ａから順番に当該文書１ａに付与されたレビュー結果５ａを走査し、「所定の事案と関連する」というレビュー結果５ａが付与された文書の数が、現時点において走査が終了した文書の数に占める割合（適合率）を、順次計算する。

　例えば、レビュー結果５ａが付与された文書１ａの数が１００である場合に、ポジティブスコアのランクが１位から２０位までの文書について走査を終了したところ、「所定の事案と関連する」というレビュー結果５ａが付与された文書の数が１８であった場合、文書分析システム１００は、適合率を０.９（１８／２０）と計算する。または、ポジティブスコアのランクが１位から４０位までの文書について走査を終了したところ、「所定の事案と関連する」というレビュー結果５ａが付与された文書の数が３５であった場合、文書分析システム１００は、適合率を０.８７５（３５／４０）と計算する。

　文書分析システム１００は、文書１ａに対する適合率をすべて計算し、目標適合率を超過可能な最小のスコアを特定する。具体的には、文書分析システム１００は、最小のスコア（ポジティブスコアのランクが１００位）を有する文書１ａから順番に当該文書１ａに対して計算された適合率を走査し、当該適合率が目標適合率を超過した場合、当該適合率に対応するポジティブスコアを、上記目標適合率を維持可能な最小スコア（適合しきい値）として特定する。

　そして、文書分析システム１００は、上記所定の事案と関連するか否かが未だ判断されていない文書１ｂについて算出されたポジティブスコアが、上記適合しきい値を超過しているか否かを判定し、超過していると判定した文書１ｂをレビュアに報告すべきデータとして設定できる。この場合、前述したように、文書分析システム１００は、ネガティブスコアをさらに考慮して、文書１ｂをレビュアに報告すべきデータとして設定してよい。これにより、文書分析システム１００は、上記所定の事案に関連するデータを高い精度で分別することができる。

　すなわち、上記文書分析システム１００は、新たに取得されたデータから所定の事案と関連するデータを抽出可能なデータ分析システムであって、所定の事案と関連するか否かがユーザによって判断された既判断データを格納する記憶部と、前記所定の事案と関連するか否かが判断されていない未判断データが新たに取得された場合に、当該未判断データに対する当該判断の基礎となる閾値を、前記既判断データについて当該所定の事案との関連性の強さを示す指標としてそれぞれ算出されたスコアから特定する閾値特定部と、前記閾値特定部によって特定された閾値と、前記未判断データについて算出されたスコアとを比較した結果に応じて、前記未判断データをユーザに報告すべきデータとして設定するデータ設定部とを備えてよい。

　〔文書以外のデータに適用する例〕
　本発明のデータ分析システムを実施する一形態として、文書を分析する文書分析システム１００を説明したが、当該データ分析システムは、文書以外のデータも分析可能である。

　例えば、本発明のデータ分析システムは、音声を分析する音声分析システムの形態でも実施可能である。この場合、上記音声分析システムは、（１）音声を認識することによって当該音声に含まれる会話の内容を文字（文書データ）に変換し、上記文書分析システム１００と同様に当該文書データを処理してもよいし、（２）音声データをそのまま処理してもよい。

　上記（１）の場合、上記音声分析システムは、任意の音声認識アルゴリズム（例えば、隠れマルコフモデルを用いた認識方法など）を用いることによって、音声データを文書データに変換し、当該文書データに対して、文書分析システム１００が実行する処理と同様の処理を実行する。これにより、上記音声分析システムは、上記文書分析システム１００と同様の効果を奏する。

　上記（２）の場合、上記音声分析システムは、音声データに含まれる部分音声を抽出することによって、当該音声データが所定の事案と関連するか否かを分別できる。例えば、「価格を調整する」という音声データが得られた場合、音声分析システムは「価格」および「調整」という部分音声を当該音声データから抽出し、当該部分音声を評価した結果に基づいて、未分別の音声データに関連性情報を与えることができる。この場合、音声分析システムは、時系列データの分類アルゴリズム（例えば、隠れマルコフモデル、カルマンフィルタ、ニューラルネットワークなど）を利用して、音声データを分別できる。これにより、上記音声分析システムは、上記文書分析システム１００と同様の効果を奏する。

　または、本発明のデータ分析システムは、映像（動画）を分析する映像分析システムの形態でも実施可能である。この場合、上記映像分析システムは、映像データに含まれるフレーム画像を抽出し、任意の顔認識技術を用いることによって、当該フレーム画像に含まれる人物を特定できる。また、上記映像分析システムは、任意のモーション認識技術（例えば、パターンマッチング技術を応用するものであってよい）を用いることによって、上記映像データに含まれる部分映像（上記映像に含まれる全フレーム画像のうちの一部を含む映像）から上記人物のモーション（動作）を抽出できる。そして、上記映像分析システムは、上記人物および／またはモーションに基づいて、上記映像データを分別できる。これにより、上記映像分析システムは、上記文書分析システム１００と同様の効果を奏する。

　すなわち、本発明のデータ分析システムは、時系列で情報が展開するデジタルデータ（文書、音声、映像など）を分析することができる。これにより、上記データ分析システムは、所定の事案に関連しないデータを明に分別することによって、当該所定の事案に関連するデータを高い精度で分別できるという効果を奏する。

　〔その他の応用例〕
　（ドライバ支援システムとして実現する例）
　本発明に係るデータ分析システムは、車両の周囲から取得された複数のデータから所定の事案と関連するデータを抽出可能なドライバ支援システムとしても実現され得る。この場合、上記ドライバ支援システムは、例えば、車両から撮影された外部画像を、所定の事案と関連するか否かが判断されていない未判断データとして取得する。ここで、上記「所定の事案」は、上記車両のドライバが情報処理能力を発揮すると考えられる事案、対象、状況、行動などを広く含み、例えば、障害物（例えば、歩行者、ガードレール、他の車両など）との衝突回避、車庫入れ、車線変更、高速道路への合流・離脱などであってよい。

　上記ドライバ支援システムは、所定の事案と関連するか否かが判断されていない未判断データが新たに取得された場合、ドライバ（例えば、熟練ドライバ）によって当該所定の事案と関連するか否かが判断された既判断データに基づいて、当該未判断データと当該所定の事案との関連性を評価する。具体的には、上記ドライバ支援システムは、データ（例えば、外部画像）からデータ要素を抽出し、既判断データを用いてそれぞれ評価された当該データ要素から、当該データのスコア（ポジティブスコアおよび／またはネガティブスコア）を算出する。そして、上記ドライバ支援システムは、算出されたスコアが所定の条件を満たす（例えば、当該スコアが所定の閾値を超過しているなど）場合、当該データをドライバ（例えば、非熟練ドライバ）に報知する。

　すなわち、上記ドライバ支援システムは、所定の事案と関連するか否かがドライバによって判断された結果に基づいて、新たな未判断データをドライバに報知するか否かを判断できる。例えば、上記ドライバ支援システムは、熟練ドライバがヒヤリハットを経験した場合、当該ヒヤリハットの状況（所定の事案）と当該状況を示す外部画像との関連性を学習し、非熟練ドライバが同様の状況に遭遇したことによって、類似の外部画像が取得された場合に、当該類似の外部画像の一部、全部、または当該類似の外部画像を加工したデータ（例えば、音声による通知など）を非熟練ドライバに報知できる。

　したがって、上記ドライバ支援システムは、ドライバが必要とするデータ（例えば、事故に至る危険性の高い状況を示す外部画像）を当該ドライバに報知できるという効果を奏する。

　（医療システムとして実現する例）
　本発明に係るデータ分析システムは、構造化ヘルスケアデータおよび／または非構造化ヘルスケアデータから取得された複数のヘルスケアデータから所定の症状と関連するヘルスケアデータを抽出可能な医療システムとしても実現され得る。この場合、上記医療システムは、例えば、不健康に至る可能性が高い状況を示す画像情報（データ）を、所定の症状（所定の事案）と関連するか否かが判断されていない未判断ヘルスケアデータとして取得する。ここで、上記「所定の症状」（所定の事案）は、医師によって、不健康な状態（人間の心や体に不調または不都合が生じた状態）であると診断された症状、疾病、疾患、症候群などを広く含む。

　上記医療システムは、所定の症状と関連するか否かが判断されていない未判断ヘルスケアデータが新たに取得された場合、医師（例えば、経験豊富な医師）によって当該所定の症状と関連するか否かが判断された既判断ヘルスケアデータに基づいて、当該未判断ヘルスケアデータと当該所定の症状との関連性を評価する。具体的には、上記医療システムは、データ（例えば、不健康に至る可能性が高い状況を示す画像情報）からデータ要素を抽出し、既判断ヘルスケアデータを用いてそれぞれ評価された当該データ要素から、当該データのスコア（ポジティブスコアおよび／またはネガティブスコア）を算出する。そして、上記医療システムは、算出されたスコアが所定の条件を満たす（例えば、当該スコアが所定の閾値を超過している）場合、当該データを病気の予測診断需要者（例えば、患者、経験が乏しい医師）に報知する。

　すなわち、上記医療システムは、所定の症状と関連するか否かが医師によって判断された結果に基づいて、新たな未判断ヘルスケアデータを病気の予測診断需要者に報知するか否かを判断できる。例えば、上記医療システムは、経験豊富な医師が、ヒヤリハットを経験（医師の診断が医療ミスには至らなかったが、医療ミスにつながってもおかしくなかった経験）した場合、当該ヒヤリハットの状況（所定の症状）と当該状況を示す外部画像との関連性を学習し、経験が乏しい医師が同様の状況に遭遇したことによって、類似の外部画像が取得された場合に、当該類似の外部画像を経験が乏しい医師に報知できる。

　したがって、上記医療システムは、病気の予測診断需要者に信頼性が高い診断結果を報知できるという効果を奏する。

　（その他のシステムとして実現する例）
　本発明に係るデータ分析システムは、従業者から取得された複数のデータに基づいて、当該従業者の実績を評価する実績評価システムとしても実現され得る。この場合、上記実績評価システムは、所定のデータ（例えば、従業者が日々提出する日報など）と「実績の評価対象である従業者の評価が良好であること」（所定の事案）との関連性を評価することによって、当該従業者の実績を評価することができる。

　また、本発明に係るデータ分析システムは、ネットワークを介して取得されたウェブデータに基づいて、知的財産権の侵害・クリアランス調査を行う知財評価システムとしても実現され得る。この場合、上記知財評価システムは、ウェブデータと「所定の技術が当該ウェブデータに開示された知的財産権を侵害していること」（所定の事案）との関連性を評価することによって、知的財産権の侵害・クリアランス調査を行うことができる。

　〔サーバ装置が機能の一部または全部を提供する構成〕
　以上では、データを分析する機能を提供可能な制御プログラム（データ分析システムの制御プログラム）が、主に文書分析システム１００（データ分析システム）において実行される構成（スタンドアロン構成）を説明した。一方、上記制御プログラムの一部または全部がサーバ装置において実行され、当該実行された処理の結果が上記文書分析システム１００（ユーザ端末）に返される構成（クラウド構成）であってもよい。すなわち、本発明のデータ分析システムは、ユーザ端末とネットワークを介して通信可能に接続されたサーバ装置として機能することができる。これにより、サーバ装置は、上記文書分析システム１００が機能を提供する場合に、当該文書分析システム１００が奏する効果と同じ効果を奏する。

　〔ソフトウェアによる実現例〕
　文書分析システム１００の制御ブロック（特に、制御部１０）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。後者の場合、文書分析システム１００は、各機能を実現するソフトウェアである制御プログラムの命令を実行するＣＰＵ、上記制御プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、上記制御プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記制御プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記制御プログラムは、当該制御プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。本発明は、上記制御プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

　なお、上記制御プログラムは、例えば、Python、ActionScript、JavaScript（登録商標）などのスクリプト言語、Objective-C、Java（登録商標）などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装できる。また、前記制御プログラムによって実現される各機能を実現する各部を備えた情報処理装置（例えば、文書分析システム１００）と、前記各機能とは異なる残りの機能を実現する各部を備えたサーバ装置とを含む分析システムも、本発明の範疇に入る。

　〔付記事項〕
　本発明は上述したそれぞれの実施の形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施の形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても、本発明の技術的範囲に含まれる。さらに、各実施の形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成できる。

　本発明は、次のようにも表現できる。すなわち、所定の事案と関連するか否かがユーザによって分別された分別データに含まれるデータ要素の重みづけを学習する学習部と、前記所定の事案と関連するか否かが前記ユーザによって未だ分別されていない未分別データから、前記分別データに含まれるデータ要素を探索する探索部と、前記探索部によって探索されたデータ要素、および前記学習部によって学習された当該データ要素の重みづけを用いて、前記未分別データと分別符号（所定の事案と関連するか否かを示す符号）との結びつきの強さを評価した第１指標、および当該未分別データと当該分別符号との結びつきの弱さを評価した第２指標を導出する指標導出部とを備えたデータ分析システム。

　また、本発明は、次のような構成であってもよい。すなわち、所定の事案と関連するか否かがユーザによって分別された分別データに含まれるデータ要素の重みづけを学習する学習部と、前記所定の事案と関連するか否かが前記ユーザによって未だ分別されていない未分別データから、前記分別データに含まれるデータ要素を探索する探索部と、前記探索部によって探索されたデータ要素、および前記学習部によって学習された当該データ要素の重みづけを用いて、前記未分別データと分別符号（所定の事案と関連するか否かを示す符号）との結びつきの強さを評価した指標を導出する指標導出部とを備えたデータ分析システム。

　また、本発明は、次のような構成であってもよい。すなわち、所定の事案と関連するか否かを判断する対象となる所定のデータを記録するデータ記録部と、前記データ記録部に記録されたデータの一部が、前記所定の事案と関連するか否かについてユーザが判断した結果を、所定の入力部を介して受け付ける判断結果受付部と、前記判断結果受付部によって受け付けられた前記判断した結果に基づいて、前記所定の事案と関連するか否かが未だ判断されていない未判断データと前記所定の事案との関連性の強さを示す主指標を導出する主指標導出部と、前記主指標導出部によって導出された前記主指標に応じて前記未判断データから所定数のデータを選出し、当該選出されたデータに基づいて、当該未判断データと前記所定の事案との関連性の弱さを示す副指標を導出する副指標導出部と、前記主指標導出部によって導出された前記主指標、および前記副指標導出部によって導出された前記副指標を用いて、前記未判断データから前記所定の事案と関連するデータを抽出するデータ抽出部とを備えたデータ分析システム。

　また、上記データ分析システムは、前記判断結果受付部によって前記判断した結果が受け付けられなかったデータを、前記未判断データとして取得する未判断データ取得部をさらに備えてよい。

　本発明は、パーソナルコンピュータ、サーバ装置、メインフレーム、ワークステーション、その他の電子機器に広く適用することができる。

　１ａ：文書（既判断データ、データの一部）、１ｂ：文書（未判断データ）、１ｃ：文書（部分データ）、５ａ：レビュー結果（判断した結果）、５ｄ：ポジティブスコア（主指標）、５ｆ：ネガティブスコア（副指標）、１２：結果取得部（判断結果受付部）、１３：要素評価部（主要素評価部、副要素評価部）、１４：スコア算出部（主指標導出部、副指標導出部）、１５：データ設定部（データ抽出部）、１６：関連付与部、１８：文書取得部（未判断データ取得部）、１００：文書分析システム（データ分析システム）

Claims

　所定の事案と関連するか否かを判断する対象となるデータを記録するデータ記録部と、
　前記データの一部が前記所定の事案と関連するか否かについて、ユーザが判断した結果を受け付ける判断結果受付部と、
　前記データと前記所定の事案との関連性の強さを示す主指標を、前記判断した結果に基づいて導出する主指標導出部と、
　前記主指標に応じて前記データから部分データを選出し、当該データと前記所定の事案との関連性の弱さを示す副指標を、当該部分データに基づいて導出する副指標導出部と、
　前記データから前記所定の事案と関連するデータを、前記主指標および副指標を用いて抽出するデータ抽出部とを備えたデータ分析システム。
　前記判断した結果を与えられた前記データの一部に含まれるデータ要素を、所定の基準に基づいて評価する主要素評価部をさらに備え、
　前記主指標導出部は、前記主要素評価部によってデータ要素が評価された結果に基づいて前記主指標を導出することを特徴とする請求項１に記載のデータ分析システム。
　前記部分データに含まれるデータ要素を、所定の基準に基づいて評価する副要素評価部をさらに備え、
　前記副指標導出部は、前記副要素評価部によってデータ要素が評価された結果に基づいて前記副指標を導出することを特徴とする請求項１または２に記載のデータ分析システム。
　前記所定の基準は、前記データ要素と、当該データ要素を含むデータに対する前記判断した結果との依存関係を表す伝達情報量であることを特徴とする請求項２または３に記載のデータ分析システム。
　前記所定の事案と関連するか否かが未だ判断されていない未判断データが、当該所定の事案と関連するか否かを示す関連性情報を、前記主指標および副指標を用いて付与する関連付与部をさらに備えたことを特徴とする請求項１から４のいずれか一項に記載のデータ分析システム。
　前記データ抽出部は、前記主指標および副指標を用いて前記データを並べ替えることによって、当該データから前記所定の事案と関連するデータを抽出することを特徴とする請求項１から５のいずれか一項に記載のデータ分析システム。
　前記データは、コンピュータで処理可能なデジタル文書を少なくとも含むことを特徴とする請求項１から６のいずれか一項に記載のデータ分析システム。
　所定の事案と関連するか否かを判断する対象となるデータを記録するデータ記録部を備えたデータ分析システムの制御方法であって、
　前記データの一部が前記所定の事案と関連するか否かについて、ユーザが判断した結果を受け付ける判断結果受付ステップと、
　前記データと前記所定の事案との関連性の強さを示す主指標を、前記判断した結果に基づいて導出する主指標導出ステップと、
　前記主指標に応じて前記データから部分データを選出し、当該データと前記所定の事案との関連性の弱さを示す副指標を、当該部分データに基づいて導出する副指標導出ステップと、
　前記データから前記所定の事案と関連するデータを、前記主指標および副指標を用いて抽出するデータ抽出ステップとを含むデータ分析システムの制御方法。
　所定の事案と関連するか否かを判断する対象となるデータを記録するデータ記録部を備えたデータ分析システムの制御プログラムであって、
　前記データ分析システムに、
　前記データの一部が前記所定の事案と関連するか否かについて、ユーザが判断した結果を受け付ける判断結果受付機能と、
　前記データと前記所定の事案との関連性の強さを示す主指標を、前記判断した結果に基づいて導出する主指標導出機能と、
　前記主指標に応じて前記データから部分データを選出し、当該データと前記所定の事案との関連性の弱さを示す副指標を、当該部分データに基づいて導出する副指標導出機能と、
　前記データから前記所定の事案と関連するデータを、前記主指標および副指標を用いて抽出するデータ抽出機能とを実現させるデータ分析システムの制御プログラム。