JPWO2016157467A1

JPWO2016157467A1 - データ分析システム、データ分析方法、データ分析プログラム、および、記録媒体

Info

Publication number: JPWO2016157467A1
Application number: JP2016564340A
Authority: JP
Inventors: 守本　正宏; 正宏守本; 喜勝白井; 秀樹武田; 和巳蓮子; 彰晃花谷; ヤコブハルスコウ; 菜々子吉田
Original assignee: Ubic Inc
Current assignee: Ubic Inc
Priority date: 2015-03-31
Filing date: 2015-03-31
Publication date: 2017-04-27
Anticipated expiration: 2035-03-31
Also published as: US20170097983A1; WO2016157467A1; CN107851097B; TWI598755B; US10204153B2; US20160292197A1; EP3279804A1; KR20170130604A; TW201706884A; KR101981075B1; US9563652B2; JP6182279B2; CN107851097A; EP3279804A4

Abstract

本発明は、複数の対象データを評価するデータ分析に関し、当該評価は、各対象データと所定の事案との関連性に対応する。複数の対象データの序列化を可能とする指標が評価により生成され、ユーザが与えた入力に基づいて指標が変化する。複数の対象データの序列は、入力に基づいて変化する指標に応じて変化する。入力は、複数の対象データとは異なる参照データを、当該参照データと所定の事案との関連性に基づいて分類する。当該分類は、参照データの内容に応じて複数の分類情報に分けられたものであり、複数の分類情報のうちの少なくとも１つは、入力によって参照データに付与される。本発明は、入力により付与された分類情報に応じて当該参照データが特徴付けられるパターンを当該参照データから抽出する。本発明は、抽出したパターンに基づいて、対象データと所定の事案との関連性を評価して指標を決定し、決定した指標を対象データに設定し、指標に応じて複数の対象データを序列化し、序列化された複数の対象データをユーザに報知する。

Description

本発明は、データを分析するためのデータ分析システム等に関するものである。

コンピュータの急速な発展により社会の情報化が進んだ結果、企業・個人の活動に、膨大な量の情報（ビッグデータ）が関係するようになっている。これにより、ビッグデータの中から、所望の情報を分別する必要性が重要視されている。

ビッグデータから所望の情報を抽出するためのアプローチとして、例えば、データをあらかじめ分類することによって所望のデータを抽出するアプローチ、単純なテキスト検索に基づいて所望のデータを抽出可能とするアプローチ、自然言語処理に基づいて所望のデータを抽出するアプローチ等がある。

例えば、下記の特許文献１には、ビッグデータから情報を抽出するために、文書集合における抽出キーワード間の関係に基づき、関連が深い抽出キーワードを、柔軟に、近くに配置可能な仕組みを提供することを目的として、分野分類された文書に含まれるキーワードに対して他文書との弁別するための寄与度を算出し、この算出した寄与度に基づいて自己組織化マップを用いて、前記文書をユニットに分類させて表示した後、当該ユニットにおける前記文書に含まれるキーワードの出現頻度から当該キーワードの配置情報を算出して、ユニットに合わせて表示する装置が提案されている。

特開２０１４−０５６５１６号公報

ユーザにとって必要な情報をビッグデータの中から的確に見つけるためには、ユーザの意図や検索の目的、さらに、ユーザにとってのデータ全体の印象など、キーワードや符号だけでは把握し切れないファクタに対する配慮も必要であるものの、上述の従来手法では到底不十分であるため、結局のところ、ユーザが膨大な情報一つ一つを分別する必要があり、多大な労力や時間を費やすことを避けることができなかった。

そこで、本発明は、ユーザにとって必要な情報を効率的に発見可能なデータ分析技術を提供することを目的とする。

本発明は、対象データを評価するデータ分析に関する発明であって、複数の対象データを評価し、当該評価は、例えば、各対象データと所定の事案との関連性に対応するものであってよい。また、前記複数の対象データの序列化を可能とする指標が、前記評価により生成され、ユーザが与えた入力に基づいて前記指標が変化する。

前記複数の対象データの序列は、例えば、前記入力に基づいて変化する前記指標に応じて変化する。前記入力は、例えば、前記複数の対象データとは異なる参照データを、当該参照データと前記所定の事案との関連性に基づいて分類する。当該分類は、例えば、前記参照データの内容に応じて複数の分類情報に分けられたものであり、前記複数の分類情報のうちの少なくとも１つは、前記入力によって前記参照データに付与される。

本発明は、例えば、前記参照データに含まれる複数の構成要素について、前記入力制御装置から提供された組み合わせにそれぞれ寄与する度合いを評価することによって、前記入力により付与された分類情報に応じて当該参照データが特徴付けられるパターンを当該参照データから抽出する。

本発明は、例えば、前記抽出したパターンに基づいて、前記対象データと前記所定の事案との関連性を評価して前記指標を決定し、前記決定した指標を前記対象データに設定し、前記指標に応じて前記複数の対象データを序列化し、前記序列化された複数の対象データをユーザに報知する。

序列化された複数の対象データによって、ユーザは、例えば、複数の対象データの間で、前記所定の事案との関連性の大小を知ることができる。ユーザが、複数の対象データ間での関連性の大小に同意できない場合には、参照データに付与される分類情報を変更すれば、この変更によって指標が変化し、さらに、変化された指標によって複数の対象データの序列が変わる。ユーザは、例えば、参照データ全体の内容を理解した後その内容に応じて、参照データに付与される分類情報を決定する。ユーザは、参照データの内容次第によって、参照データに複数ある分類情報のうちどの分類情報が最適かを悩むことはあり得る。ユーザは、例えば、前記序列化した複数の対象データによって、参照データにどの分類情報を付与すべきかを決めることができる。

本発明は、ユーザにとって必要な情報を効率的に発見することができるという効果を奏する。

データ分析システムのハードウェア構成の一例を示すブロック図である。業務サーバの機能構成の一例を示す機能ブロック図である。データ分析システムの動作例を示すフローチャートである。参照データに対する分類を入力するためのインターフェース（入力画面）の一例を示す模式図である。参照データに対する分類を入力するためのインターフェース（入力画面）の他の例を示す模式図である。対象データを格納する管理テーブルの一例である。対象データを回帰分析したことにより得られた、指数関数モデルの特性例を示すグラフである。指数関数モデルを再評価して得られた、上記指数関数モデルの特性例を示すグラフである。データ分析システムの管理画面の一例を示す模式図である。複数のノード間の相関関係を示す画面の一例である。（Ａ）は対象データの要約作成概念図であり、（Ｂ）は分類結果の表示形式の一例を示す略線図である。対象概念の説明に供する概念図である。

本発明の実施形態を図面に基づいて説明する。

〔データ分析システムの構成〕
図１は、データ分析システムのハードウェア構成の一例を示すブロック図である。図１に例示するように、データ分析システムは、例えば、データ分析の主要処理を実行可能な業務サーバ１４と、当該データ分析の関連処理を実行可能な一つ、又は、複数のクライアント装置１０と、データ分析の対象となる対象データ、及び、当該対象データに対する評価・分類の結果を記録するデータベース２２を備えるストレージシステム１８と、クライアント装置１０、及び、業務サーバ１４に対して、データ分析のための管理機能を提供する管理計算機１２とを備えている。

なお、本実施の形態において、「データ」は、データ分析システムによって処理可能となる形式で表現された任意のデータであってよい。このとき、上記データは、例えば、少なくとも一部において構造定義が不完全な非構造化データであってよく、自然言語によって記述された文章を少なくとも一部に含む文書データ（例えば、電子メール（添付ファイル・ヘッダ情報を含む）、技術文書（例えば、学術論文、特許公報、製品仕様書、設計図など、技術的事項を説明する文書を広く含む）、プレゼンテーション資料、表計算資料、決算報告書、打ち合わせ資料、報告書、営業資料、契約書、組織図、事業計画書など）、音声データ（例えば、会話・音楽などを録音したデータ）、画像データ（例えば、複数の画素またはベクター情報から構成されるデータ）、映像データ（例えば、複数のフレーム画像から構成されるデータ）などを広く含む。このとき、データの「構成要素」は、上記データの少なくとも一部を構成する部分データであってよく、例えば、文書を構成する形態素、キーワード、センテンス、および／または段落であったり、音声を構成する部分音声、ボリューム（ゲイン）情報、および／または音色情報であったり、画像を構成する部分画像、部分画素、および／または輝度情報であったり、映像を構成するフレーム画像、モーション情報、および／または３次元情報であったりしてよい。

クライアント装置１０は、データを評価・分類する権限があるユーザ（評価権限ユーザ）に参照データを提供する。上記評価権限ユーザは、クライアント装置１０を介して当該参照データを評価・分類するための入力を行うことができる。なお、本実施の形態において、上記「参照データ」は、例えば、ユーザによって分類情報が対応付けられたデータ（分類済みのデータ）であってよい。一方、「対象データ」は、当該分類情報が対応付けられていないデータ（参照データとしてユーザに提示されておらず、ユーザにとっては分類がなされていない未分類のデータ）であってよい。ここで、上記「分類情報」は、参照データを分類するために用いる識別ラベルであってよい。分類情報は、例えば、参照データが全体として所定の事案に関係することを示す「Related」ラベル、両者が特に関係することを示す「High」ラベル、および、両者が関係しないことを示す「Non-Related」ラベルのように、当該参照データを３つに分類する情報であったり、「良い」、「やや良い」、「普通」、「やや悪い」、および、「悪い」のように、当該参照データを５つなど複数のタイプに分類する情報であったりしてよい。

また、上記「所定の事案」は、データ分析システムがデータとの関連性を評価する対象を広く含み、その範囲は制限されない。例えば、所定の事案は、データ分析システムがディスカバリ支援システムとして実現される場合、ディスカバリ手続きが要求される本件訴訟であってよいし、犯罪捜査支援（フォレンジック）システムとして実現される場合、捜査対象となる犯罪であってよいし、電子メール監視システムとして実現される場合、不正行為（例えば、情報漏えい、談合など）であってよいし、医療応用システム（例えば、ファーマコビジランス支援システム、治験効率化システム、医療リスクヘッジシステム、転倒予測（転倒防止）システム、予後予測システム、診断支援システムなど）として実現される場合、医薬に関する事例・事案であってよいし、インターネット応用システム（例えば、スマートメールシステム、情報アグリゲーション（キュレーション）システム、ユーザ監視システム、ソーシャルメディア運営システムなど）として実現される場合、インターネットに関する事例・事案であってよいし、プロジェクト評価システムとして実現される場合、過去に遂行したプロジェクトであってよいし、マーケティング支援システムとして実現される場合、マーケティング対象となる商品・サービスであってよいし、知財評価システムとして実現される場合、評価対象となる知的財産であってよいし、不正取引監視システムとして実現される場合、不正な金融取引であってよいし、コールセンターエスカレーションシステムとして実現される場合、過去の対応事例であってよいし、信用調査システムとして実現される場合、信用調査する対象であってよいし、ドライビング支援システムとして実現される場合、車両の運転に関することであってよいし、営業支援システムとして実現される場合、営業成績であってよい。

クライアント装置１０は、公知のコンピュータハードウェア資源を備えており、例えば、メモリ（例えば、ハードディスク、フラッシュメモリ等）と、コントローラ（ＣＰＵ；Central Processing Unit）と、バスと、入出力インターフェース（例えば、キーバード、ディスプレイ等）と、通信インターフェースとを備えてよい。クライアント装置１０は、ＬＡＮ等の通信手段２０によって、業務サーバ１４および管理計算機１２と上記通信インターフェースを介して通信可能に接続されている。また、上記メモリには、クライアント装置１０を機能させるアプリケーションプログラムなどが記憶されており、上記コントローラは、当該アプリケーションプログラムを実行することにより、分類・評価の処理に必要な入出力を評価権限ユーザに対して可能にする。

業務サーバ１４は、参照データに対する分類の結果に基づいて、当該参照データからパターン（データに含まれる抽象的な規則、意味、概念、様式、分布、サンプルなどを広く指し、いわゆる「特定のパターン」に限定されない）を学習し、当該パターンに基づいて対象データを評価する。すなわち、業務サーバ１４は、ユーザに参照データを提示し、当該ユーザに当該参照データに対する分類情報の入力を許容し、ユーザの入力結果に基づいてパターンを学習し、学習結果に基づいて対象データに対する評価を可能にすることによって、ユーザが所望するデータを、多数の対象データから分別し得るようにしたものである。業務サーバ１４は、クライアント装置１０と同様に、ハードウェア資源として、例えば、メモリと、コントローラと、バスと、入出力インターフェースと、通信インターフェースとを備えてよい。また、上記メモリには、業務サーバ１４を機能させるアプリケーションプログラムが記憶されており、上記コントローラは、当該アプリケーションプログラムに基づいて、データ分析のための処理を実行する。

管理計算機１２は、クライアント装置１０、ストレージシステム１８、及び、業務サーバ１４に対して、所定の管理処理を実行する。管理計算機１２は、クライアント装置１０と同様に、ハードウェア資源として、例えば、メモリと、コントローラと、バスと、入出力インターフェースと、通信インターフェースとを備えてよい。また、管理計算機１２のメモリには、例えば、上記コントローラが管理処理を実行するためのアプリケーションプログラムが記憶されている。

ストレージシステム１８は、例えば、ディスクアレイシステムから構成され、対象データと当該対象データに対する評価・分類の結果とを記録するデータベース２２を備えてよい。業務サーバ１４とストレージシステム１８とは、ＤＡＳ（Direct Attached Storage）方式、又は、ＳＡＮ（Storage Area Network）によって接続（１６）されている。

なお、図１に示されるハードウェア構成は、あくまで例示に過ぎず、データ分析システムは、他のハードウェア構成によっても実現され得る。例えば、業務サーバ１４において実行される処理の一部または全部がクライアント装置１０において実行される構成であってもよいし、ストレージシステム１８が業務サーバ１４に内蔵される構成であってもよい。データ分析システムを実現可能なハードウェア構成が多様に存在し得ることは、当業者に理解されるところであり、いずれか（例えば、図１に例示されるような構成）に限定されない。

〔データ分析システムの機能〕
図２は、業務サーバ１４の機能構成の一例を示す機能ブロック図である。図２に例示するように、業務サーバ１４は、例えば、データベース２２に保存された対象データから、所定の基準（例えば、ランダム）にしたがって、一部の対象データを複数サンプリングし、これを参照データとして提供する参照データ提供部１０２と、参照データに対する分類や、参照データ以外のデータに対する序列化や分類のための情報等をクライアント装置１０の表示手段に出力させる表示処理部１０３と、参照データに対して、評価者権限を持ったユーザからの分類情報の設定（ラベル付け）を受け付ける分類情報受付部１０４と、分類情報に基づいて、複数の参照データを分類情報ごとに分類し、分類情報ごとの参照データに含まれるパターンを学習する学習部１０５とを備えてよい。

業務サーバ１４は、例えば、データの構成要素および当該構成要素の評価値をデータベース２２に記憶させる記憶実行部２０１と、データベース２２に対する検索処理を行って、パターンを参照データ以外の対象データから探索する探索部１０６と、対象データと所定の事案との関連性の高低を示す指標を対象データごとに算出し、当該指標に基づいて複数の対象データを序列化する演算部１０７と、対象データを序列化した結果に基づいて、当該対象データに対して分類情報を付与する分類部１０８と、をさらに備えてよい。

なお、上記において、＊＊＊＊部と表記した構成は、業務サーバ１４が備えたコントローラが、プログラム（データ分析プログラム）を実行することによって実現する機能構成であるため、＊＊＊＊部を、＊＊＊＊処理または＊＊＊＊機能と言い換えてもよい。また、＊＊＊＊部をハードウェア資源によって代替することもできるため、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組み合わせによって多様な形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。

〔データ分析システムの動作〕
図３は、データ分析システムの動作例を示すフローチャートである。管理者権限を有する管理ユーザは、参照データを抽出（サンプリング）するリクエスト（抽出リクエスト３００）を、管理計算機１２に与える。抽出リクエスト３００は、例えば、データベース２２に記録されているデータの中から所定数のデータを、参照データとしてランダムにサンプリングするリクエストであったり、所定範囲のデータ（例えば、データの更新日時が３日以内のもの）から所定数のデータを、参照データとしてサンプリングするリクエストであったりしてよい。なお、参照データとして抽出されるデータの割合または数は、管理ユーザが適宜設定することができる。

管理計算機１２は、抽出リクエスト３００に基づいて抽出コマンド３０２を生成し、当該抽出コマンド３０２を業務サーバ１４に送信する。業務サーバ１４が備えた参照データ提供部１０２は、管理計算機１２からの抽出コマンド３０２に基づいて、データベース２２から所定数の参照データを抽出する(３０４)。

業務サーバ１４の参照データ提供部１０２は、抽出された参照データを特定のクライアント装置１０（抽出コマンド３０２で特定されたクライアント装置）に送る（３１２）。当該特定のクライアント装置１０は、評価分類入力インターフェースを起動させ、評価分類入力画面を評価権限ユーザに提示する。図４は、当該評価分類入力画面の一例である。評価分類入力画面は、例えば、参照データのリスト５００と、対象データごとの分類情報を示すチェックボックス５０２とを含んでよい。

評価権限ユーザが、複数の参照データを一覧可能にするリストから１つの参照データを選択すると、図５に示されるように、例えば、当該選択された対象データの詳細５０６が表示されるようになっている。参照データの詳細５０６は、例えば、データのＩＤ５１０と、データの名称５１２と、対象データの内容（文書データのテキスト等）５０６とから構成されてよい。

評価権限ユーザは、参照データの詳細５０６を参照して参照データの内容を把握した後、参照データごとのラベルを示すチェックボックスにチェックを入れることにより、当該参照データを分類することができる。例えば、データが所定の事案に関係すると評価権限ユーザが考える場合、「Related」を示すチェックボックスにチェックを入れ、特に関係すると考える場合、「High」を示すチェックボックスにチェックを入れ、関係しないと考える場合、「Non-Related」を示すチェックボックスにチェックを入れる。チェックボックスにチェックを入れると、その情報が業務サーバに送られ（３１４）、業務サーバ１４は、分類情報と参照データの組み合わせをデータベース２２に記録する。

業務サーバ１４が備えた学習部１０５は、データベース２２に記録された上記組み合わせを参照し、分類情報ごとに参照データの集合から構成要素を抽出する（３１６）。学習部１０５は、例えば、同じ分類情報が付された複数の参照データに所定の頻度以上で出現する形態素（キーワード）を、構成要素として抽出することができる。

また、学習部１０５は、所定の評価基準（例えば、伝達情報量）に基づいて、抽出した構成要素を評価することができる(３１８)。例えば、学習部１０５が文書データ（テキストデータ）から構成要素としてキーワードを抽出した場合、上記所定の評価基準に基づいて、当該キーワードの評価値を算出することにより当該キーワードを評価する。ここで、上記「評価値」は、例えば、当該キーワードが参照データと分類情報との組み合わせに寄与する度合い（構成要素が各データに出現する分布・頻度の、分類情報に応じた偏り）を示す特徴量であってよい。これにより、学習部１０５は、参照データに対するユーザの入力に基づいて、パターンを学習の結果として当該参照データから取得することができる。

業務サーバ１４が備えた記憶実行部２０１は、学習部１０５が抽出した構成要素と、当該構成要素の評価値と、閾値とをデータベース２２に記憶させる。次に、業務サーバ１４は、構成要素と対象データとを比較して、対象データと所定の事案との関連性の高低を評価し、対象データを序列化する。具体的には、探索部１０６が、データベース２２から複数の対象データを順番に取り込み、当該対象データに含まれる複数の構成要素を順番に読み込み、当該対象データに各構成要素が出現しているか否かを探索する（３２０）。当該構成要素が対象データに出現している場合、演算部１０７が、当該構成要素の評価値に基づいて対象データの指標を算出することによって、複数の対象データを当該指標の大小に基づいて序列化する（３２２）。ここで、序列化とは、例えば、対象データと当該対象データに対して算出された指標とを対応付けることであってよい。

当該処理において、演算部１０７は、対象データに含まれる構成要素の有無を表現したベクトル（いわゆる「Bag-of-words」）を生成する。例えば、対象データに「価格」というキーワードが含まれている場合、演算部１０７は、「価格」に対応する当該ベクトルの次元に「１」をセットする。演算部１０７は、当該ベクトルと各構成要素の評価値（評価値）との内積を計算する（次式）ことにより、上記指標を算出する。

ここで、ｓは上記ベクトルを表し、ｗは評価値ベクトルを表し、Ｔは転置を表す。

なお、演算部１０７は、上記のように、対象データごとに１つの指標を算出することもできるし、対象データを所定の区切り（例えば、センテンス、段落、所定の長さで分割された部分音声、所定数のフレームを含む部分動画など）で分けた単位ごとに１つの指標を算出することもできる（詳細については後述する）。また、演算部１０７は、例えば、対象データのうち、データベース２２に事前に登録されたキーワード、関連用語、または学習部１０５において選定された構成要素を含まない対象データを、指標算出の対象から事前に排除することができる。

分類部１０８は、対象データと所定の事案との関連性を示す指標（当該関連性に基づいて複数の対象データを序列化可能とする指標）に基づいて、対象データに対して分類情報を設定する。例えば、分類部１０８は、対象データの指標が所定の閾値以上である場合、当該対象データに対して分類情報を設定することができる。

分類部１０８は、例えば、序列化された複数の対象データをユーザにそれぞれ提示し、当該ユーザが当該複数の対象データに分類情報をそれぞれ設定する入力を許容したり、ユーザが自動分類された分類情報を確認し、これを変更できるようにしたりしてもよい。指標が上位であるほど、対象データが所定の事案に関連する期待度は高く、対象データに「Related」、または「High」のラベル（分類情報）が設定される可能は高くなるが、例えば、対象データの内容にそれを妨げる情報（例えば、特定の単語）がある場合には、対象データに「Related」のラベルを設定すべきでない場合もあるからである。

業務サーバ１４は、対象データの管理テーブルをデータベース２２に登録する。図６は、対象データを格納する管理テーブルの一例である。対象データの夫々（データ１,２,３・・・・）について、例えば、対象データＩＤ、対象データの名称、指標、分類情報などが記録されている。業務サーバ１４における対象データに対する評価とは、例えば、対象データの指標を計算したり、指標に基づいて複数の対象データの夫々にラベルを設定したり、複数の対象データを指標の大小に基づいて識別できるようにさせたり等、複数の対象データと所定の事案との関連性の高低に関する所定の演算処理を含むものである。

業務サーバ１４は、データベース２２に格納された管理テーブルをクライアント装置１０に送信する。クライアント装置１０は、指標が大きい順に、対象データをソートして表示する。クライアント装置１０は、例えば、対象データに対する分類情報の付与を、自動で行うか、手動で行うかの入力欄を提示することができる。ユーザが手動付与を選択すると、評価権限ユーザは、各対象データについて、「Related」、「High」、又は、「Non-Related」のラベルが入力可能となる。管理者は、例えば、序列化された全対象データの上位所定数、あるいは、所定パーセントの対象データに対して分類のためのラベルを設定することもできる。

〔学習の実行パターン〕
管理者は、学習部１０５に、学習の実行パターンを予め設定することができる。当該実行パターンには、例えば、（１）参照データ提供部１０２によって抽出された参照データの全てに分類情報が入力された後、業務サーバ１４が参照データのパターンを学習し、当該パターンに基づいて全ての対象データに対して指標を算出する第１の態様、（２）業務サーバ１４が、複数の参照データの夫々に分類情報が入力されるたびに学習を行い、当該学習のたびに対象データの指標を算出する（すなわち、参照データ一つ一つの分類に基づいて上記パターンを逐次更新しながら、対象データの指標を算出する）第２の態様、（３）クライアント装置１０が、参照データ提供部１０２によって抽出された参照データ以外のデータと分類情報との組み合わせを学習部１０５に供給し、業務サーバ１４が、上記パターンを逐次更新しながら対象データの指標を算出する（例えば、評価権限ユーザが対象データに分類情報を設定した場合、当該対象データと分類情報との組み合わせを学習部１０５にフィードバックして上記パターンを更新する）第３の態様など、複数の態様がある。上記第２の態様においては、参照データ一つ一つへの分類情報の付与が行われる都度、対象データの序列が変更されるため、分類権限を有するユーザは、対象データの序列の変動推移を確認することができる。上記第３の態様においては、対象データを分類した結果が学習部１０５で得られるパターンに逐次反映されるため、データを評価する精度を逐次向上させることができるという付加的な効果をさらに奏する。

〔構成要素の再評価〕
前述したように、学習部１０５は、参照データの少なくとも一部を構成する複数の構成要素が、参照データセット（参照データと当該参照データを分類する分類情報との組み合わせを複数含むデータセット）における当該組み合わせに寄与する度合いを、所定の基準（例えば、伝達情報量）に基づいて、上記評価値として評価する。

このとき、学習部１０５は、「Related」または「High」のラベルが設定されたデータの指標が、これらのラベルが設定されないデータの指標よりも大きくなるまで、構成要素を選定するとともに、当該構成要素の評価値を繰り返し評価し、当該構成要素の評価値を修正することができる。これによって、データ分析システムは、「Related」または「High」の分類情報が付された複数のデータに出現し、データとラベルとの組み合わせに影響がある構成要素を見つけ出すことができる。なお、伝達情報量は、例えば、所定の単語の出現確率と、所定の分類情報の出現確率とを用い、所定の定義式から算出される。具体的には、学習部１０５は、例えば、以下の式を用いて構成要素の評価値ｗｇｔを算出する。

ここで、ｗｇｔは、学習前のｉ番目の選定キーワードの評価値の初期値を示す。また、ｗｇｔは、Ｌ回目学習後のｉ番目の選定キーワードの評価値を示す。γはＬ回目の学習における学習パラメータを意味し、θは学習効果の閾値を意味する。これにより、学習部１０５は、例えば、算出した伝達情報量の値が大きいほど、構成要素が所定の分類情報の特徴を表すものとして評価することができる。

また、学習部１０５は、「Related」が設定された参照データの指標の最低値と、「Non-Related」が設定された参照データの指標の最高値との中間値を、対象データに対して「Related」の設定の有無を自動判定する際の閾値（所定の基準値）とすることができる。

学習部１０５は、例えば、再現率が所定の目標値になるまで、評価値の再評価を継続するようにしてもよい。ここで、再現率とは、所定数のデータに対して発見すべきデータが占める割合（網羅性）を示す指標であり、例えば、全データの３０％に対して再現率が８０％である場合、発見すべきデータ（例えば、訴訟関連資料）の８０％が、指標上位３０％のデータの中に含まれていることを示す。データ分析システムを用いず、人がデータに総当たり（リニアレビュー）した場合、発見すべきデータの量は人がレビューした量に比例するため、この比例からの乖離が大きいほどシステムのデータ分析性能が良いことになる。演算部１０７は、データの指標に基づいて、データと所定の事案との関連性の判断に関する再現率を算出する再現率算出機能と、参照データから構成要素を再選定する再選定機能とを有することができる。

学習部１０５は、序列化された対象データの再現率が目標値を下回っていた場合、再現率が目標値を上回るまで、構成要素を参照データから再選定し、演算部１０７は、再選定された構成要素に基づいて対象データの序列化を再度実行することを繰り返す。構成要素を再選定する場合、前回選定した構成要素を除いた構成要素を選定するようにしてもよいし、前回選定した構成要素の一部を新たな構成要素に置き換えてもよい。また、演算部１０７が、再選定された構成要素で対象データの指標を計算する場合、一つ又は複数の構成要素の評価値を変更するようにしてもよい。また、演算部１０７は、再選定した構成要素とその評価値とを用いて各データの指標（第２指標）を算出し、構成要素の再選定前に得られた第１指標と第２の指標とから、再現率を計算し直してもよい。

次に、再現率を再計算する処理の具体例について説明する。まず、参照データ提供部１０２が、データベース２２の対象データからレビュア（評価権限ユーザ）に提示するための参照データをランダムにサンプリングする。次に、表示処理部１０３が抽出された参照データをクライアント装置１０の画面表示部に出力させる。レビュアは、画面表示部に表示された参照データをレビューし、参照データに対して分類情報を付与する。学習部１０５は、参照データを解析し、構成要素を選定する。具体的には、学習部１０５は、共通の分類情報が付与された参照データに共通して出現する構成要素をＮ個抽出し、抽出した構成要素のそれぞれについて評価値を算出する。例えば、１番目に抽出した構成要素の評価値をＷｇｔ１、２番目をＷｇｔ２、Ｎ番目をＷｇｔｎとする。学習部１０５は、このＷｇｔ１からＷｇｔｎの評価値を用いて、形態素を選定する。構成要素を評価値の降順に並び替え、以下の式を満たし、その総和が目標値（Ｋとする：Ｋは任意の定数）に到達するまで評価値の上位から順番にｍ個の形態素（構成要素）を選択する。

次に、演算部１０７が、選定されたｍ個の構成要素を含むデータを対象データから抽出し、当該対象データに含まれる構成要素の評価値に基づいて、各対象データの指標を算出する。演算部１０７は、指標の降順にデータを序列化し、全データの指標上位Ａ％（Ａは任意の定数）のデータを決定する。演算部１０７は、Ａ％に含まれるデータのうち、所定の基準値以上の指標を有し、参照データと同じ「Related」または「High」のラベル（分類情報）が設定されたデータを特定し、Ａ％に含まれるデータ数とラベルが設定されたデータ数との比から再現率Ｘ１（Ｘｎ：ｎ回目に算出した再現率）を算出する。

次に、演算部１０７は、目標値Ｋ以上に再現率Ｘ１が計算されたか否かを判定する。計算されたと判定する場合、処理を終了する。そうでない場合、学習部１０５は構成要素を再選定する。具体的には、先に選定したＮ個の構成要素から、前記ｍ個の構成要素を除いた構成要素から、以下の式を満たし、その総和が目標値に到達するまで評価値の上位から順番にｉ個の構成要素を選択する。

演算部１０７は、再選定された構成要素を含むデータを抽出し、各データの第２の指標Ｓ1ｒを計算し、初回に計算した指標Ｓ１と第２の指標Ｓ1ｒとの残差Δ1（Δ1＝Ｓ1ｒ−Ｓ１）を用いて、以下の式から各文書の合成指標Ｓ２を算出する。

合成指標Ｓ２を用いて、演算部１０７は再現率を再度算出し、目標値Ｋを上回るまで、再現率の再計算を繰り返す。これにより、目標再現率まで、データ序列化における精度を向上させることが可能となる。

なお、上記において「再現率」として説明した箇所は、適合率であってもよい。ここで、「適合率」（Precision Rate）は、データ分析システムによって発見されたデータに対して、真に発見すべきデータが占める割合（正確性）を示す指標である。例えば、「全データを３０％処理した時点で、適合率が８０％」と表現した場合、指標上位３０％のデータに対して、発見すべきデータの占める割合が８０％であることを示す。また、データ分析システムは、例えば、対象データに対して算出された再現率と指標の順位（例えば、データ数によって当該順位を除算した規格化順位であってもよい）との関係に基づいて、ユーザが当該対象データを確認する際に必要なデータ数を算出することができる。

〔構成要素間の相関を考慮した指標算出〕
演算部１０７は、対象データに含まれる第１構成要素の評価値（第１構成要素の評価値）と、当該対象データに含まれる第２構成要素の評価値（第２構成要素の評価値）との相関（共起）を考慮して、対象データの指標を決定してもよい。例えば、第１の構成要素と第２の構成要素との結び付きが強い場合、演算部１０７は、第１構成要素が対象データに出現した場合、当該対象データにおいて第２構成要素が出現する頻度を考慮して、指標を計算できる。このような相関関係として、例えば、談合・カルテル等の不正検証を所定の事案として想定した場合、入札、価格、調整という各キーワードが同じ通信記録データに出現し易い事が経験上分かっているため、各キーワード夫々の評価値を加算した値に、これらデータの組み合わせに基づく所定値を加算するなどして、対象データの指標を増加させればよい。これにより、データ分析システムは、複数の構成要素間の相関関係をも考慮して指標を算出できるため、より高い精度で所定の事案に関連する対象データを抽出することができる。

演算部１０７は、構成要素の出現情報に、当該構成要素と他の構成要素との相関（共起等）を反映させることによって、対象データの指標を算出することができる。演算部１０７は、例えば、構成要素の出現管理ベクトルに他の構成要素との相関を示す相関マトリクスを乗じる。相関マトリクスは、例えば、「価格」というキーワードが対象データに出現した場合、「価格」に対して他のキーワード（例えば「調整」）の出現しやすさ（すなわち、相関）を、相関マトリクスの情報で表す正方行列である。

相関マトリクスは、参照データに基づいて最適化されてよい。例えば、対象データに「価格」というキーワードが出現する場合、他のキーワード（「調整」）の出現数を０〜１の間に正規化した値（すなわち、最尤推定値）が、相関マトリクスに格納されている。したがって、データ分析システムは、複数の構成要素の相関をデータの指標に反映させるための相関ベクトルを得ることができる。

演算部１０７は、例えば、下記の式に示されるように、全ての相関ベクトルについて合算した値に基づいて、データの指標を算出する。より具体的には、演算部１０７は、前述の式に代えて、下記の式に示されるように、相関ベクトルの合算値とキーワードに対する評価値のベクトルＷとの内積を算出することによって、対象データの指標を算出することができる。

ここで、Ｃは相関マトリクスを表し、ｓ_ｓはｓ番目のキーワードベクトルを表す。また、ＴＦｎｏｒｍ（合算した値）は、下記の式に示されるように計算する。

ここで、ＴＦ_ｉはｉ番目のキーワードの出現頻度（Term Frequency）を表し、ｓ_ｊｓはｓ番目のキーワードベクトルのｊ番目の要素を表す。

上記式をまとめると、演算部１０７は、以下の式を計算することによって対象データごとに指標を算出する。
ここで、ｗ_ｉは評価値ベクトルＷのｉ番目の要素である。

〔部分分割した各部分データに対する指標算出〕
演算部１０７は、対象データ全体の指標を算出することによってデータを序列化するだけでなく、例えば、対象データを複数のパーツ（例えば、データに含まれるセンテンスまたは段落（部分対象データ））に分割し、学習したパターンに基づいて各部分データを評価（すなわち、部分対象データの指標を算出）することによって、当該部分対象データを序列化する。そして、演算部１０７は、複数の部分対象データの指標を統合（例えば、複数の部分対象データの指標の中から最大値を抽出して全体データの指標としたり、複数の部分対象データの指標の平均を全体データの指標としたり、複数の部分対象データの指標を大きい順から所定数選択して合算して全体データの指標としたり等）し、当該統合された指標を対象データの評価結果とすることもできる。これにより、データ分析システムは、活用目的に適した有用データを対象データの中からより的確に選択することができる。

〔フェーズ分析〕
データ分析システムは、所定の事案が進展する各段階を示すフェーズを分析することができる。例えば、所定の事案が談合行為である場合、当該談合行為は、関係構築フェーズ（競合他社と関係を構築する段階）、準備フェーズ（競合他社と競合に関する情報を交換する段階）、競合フェーズ（顧客へ価格を提示し、フィードバックを得て、競合他社とコミュニケーションを取る段階）の順に進むことが通常である（経験的・理論的に既知である）ため、上記フェーズには上記３つのフェーズが設定されてよい。データ分析システムは、予め設定された複数のフェーズに対してそれぞれ準備される複数種類の参照データから、当該複数のフェーズに対応する複数のパターンをそれぞれ学習し、当該複数のフェーズにそれぞれ基づいて対象データを分析することによって、例えば「分析対象である組織が、現在どのフェーズにあるか」を特定することができる。

データ分析システムが、フェーズを特定する流れを詳細に説明する。まず、データ分析システムは、予め設定された複数のフェーズに対してそれぞれ準備される複数種類の参照データを参照し、当該複数種類の参照データにそれぞれ含まれる構成要素を評価し、当該構成要素と当該構成要素を評価した結果（例えば、評価値）とを対応付けて、フェーズごとにデータベース２２に格納する（すなわち、当該複数のフェーズに対応する複数のパターンをそれぞれ学習する）。したがって、例えば、「関係構築フェーズ」（フェーズ１）では、「日程」、「調整」などのキーワード評価値が「実行フェーズ」（フェーズ３）よりも大きかったり、「準備フェーズ」（フェーズ２）では、「競合製品」、「調査」などのキーワード評価値が「関係構築フェーズ」（フェーズ１）よりも大きかったりする。また、ステージごとに異なるキーワードが設定される場合もある。

次に、データ分析システムは、上記フェーズごとに学習されたパターンに基づいて対象データを分析することにより、複数のフェーズに対してそれぞれ指標を算出する。そして、データ分析システムは、当該指標が各フェーズに対して予め設定された所定の判定基準（例えば、閾値）を満たしているか否か（例えば、当該指標が当該閾値を超過しているか否か）を判定し、満たしていると判定する場合、当該フェーズに対応するカウント値を増加させる。最後に、データ分析システムは、当該カウント値に基づいて現在のフェーズを特定する（例えば、最大のカウント値を有するフェーズを、現在のフェーズとする）。または、フェーズごとに算出された指標が、当該フェーズに設定された所定の判定基準を満たしていると判定した場合、データ分析システムは、当該フェーズを現在のフェーズとして特定することもできる。

データ分析システムは、予め設定された所定の判定基準（例えば、閾値）を、データ適応的に再設定することができる。このとき、演算部１０７は、複数の対象データを序列化した結果を利用する。演算部１０７は、例えば、対象データの指標と当該指標のランキング（すなわち、指標を昇順で並べた場合における順位）との関係に対して回帰分析を行い、当該回帰分析の結果に基づいて閾値を決定することができる。

演算部１０７は、例えば、指数型分布族に属する関数（ｙ＝ｅ^αｘ＋β（ｅは自然対数の底、α及びβは実数である））を用いて、上記回帰分析を行うことができる。演算部１０７は、複数の対象データに対して算出した指標と当該指標のランキングとに基づいて、（例えば、最小二乗法により）上記αおよびβの値を決定する。なお、出願人は、この上記関数を用いたモデルについて、決定係数、Ｆ検定、及びｔ検定を用いた検証を行い、当該モデルの妥当性・最適性を確認している。

図７は、指標とランキングとに基づいて回帰分析することにより得られた、指数関数モデルの特性例を示すグラフである。図８は、指数関数モデルを再評価して得られた、上記指数関数モデルの特性例を示すグラフである。図７および図８において、横軸は指標を示し、縦軸はランキングを対数スケールで示す。したがって、指数関数を用いたフィッティングカーブ（回帰曲線）は、図７および図８において直線で示されており、縦軸の下ほどランキングが高く、上ほどランキングが低い。

管理者は、ランキングに対して予め閾値を設定しておく。例えば、図７において、管理者は、演算部１０７に当該閾値として１.Ｅ−０３（＝０.００１＝０.１％）を設定しておく。演算部１０７は、この閾値に対応する、指数関数によって示される指標を特定し、当該指標をあるフェーズにおける閾値（所定の判定基準）として設定することにより、当該フェーズに対して予め設定されていた閾値を変更することができる。このように、データ分析システムは、序列化された対象データを回帰分析によって再評価することにより、フェーズごとに算出される指標に対する閾値（所定の判定基準）を、学習によって得られたパターンに基づいて対象データを評価した結果に適合するように、動的に変更することができる。また、データ分析システムは、対象データのデータイメージを継続的にモニタすることによって、フェーズの進行を継続的に監視することもできる。

さらに、データ分析システムは、対象データを評価した結果が評価権限ユーザによって検証された場合、当該検証結果に基づいて、学習部１０５が実行する学習処理を調整することできる。例えば、評価権限ユーザが、データ分析システムによって高い指標が与えられた対象データを検証したところ、当該対象データには高い指標が与えられるべきではない判断した場合、当該評価権限ユーザは、当該対象データに「Non-Related」のラベルを付与する。学習部１０５は、当該対象データを参照データとしてフィードバックし、例えば、当該参照データに含まれる構成要素の評価値を増減させたり、構成要素の追加・削除を行ったりして再学習を実行し、パターンを更新する。

そして、学習部１０５は、更新したパターンに基づいて対象データの指標とランキングを再度算出し、当該算出結果に対して再度回帰分析を行う（図８）。学習部１０５は、新たな回帰分析の結果に基づいて、図７における説明と同様の処理を実行することにより、フェーズごとに修正した閾値を設定する。

〔時系列情報を利用した分析〕
（１）予測モデルに基づくフェーズ進展予測
データ分析システムは、所定の事案に関係する所定の行為の進展を予測可能なモデルに基づいて、複数の対象データを評価することによって決定した指標から、次の行為を予測・提示することができる。データ分析システムは、例えば、第１フェーズ（例えば、関係構築フェーズ）に対して算出された指標と、第２フェーズ（例えば、準備フェーズ）に対して算出された指標とを変数とする回帰モデルを仮定し、予め最適化した回帰係数に基づいて、第３フェーズ（例えば、競合フェーズ）に進む可能性（例えば、確率）を予測することができる。

（２）所定時間ごとの学習
時間の経過とともにその性質が変化するデータ（例えば、時間の経過とともに進行する病状を記録した電子カルテなど）を分析する場合、データ分析システムは、所定時間ごとに区切られた参照データ（例えば、第１区間の対象データ、第２区間の対象データ・・・）からそれぞれパターンを学習し（すなわち、当該所定時間ごとに構成要素と当該構成要素を評価した結果とを取得し）、当該パターンにそれぞれ基づいて、対象データを分析することができる。

〔データ構造に基づく分析〕
演算部１０７は、対象データの構造を解析し、当該解析した結果を対象データの評価に反映させることができる。例えば、対象データが少なくとも一部に文書データを含む場合、演算部１０７は、文書データのセンテンスの表現形態（例えば、当該センテンスが肯定形であるか、否定形であるか、消極形であるかなど）を解析して解析結果を対象データの指標に反映させることができる。ここで、肯定形とは、例えば、センテンスの述語が「美味しい」であり、否定形とは、「不味い」または「美味しくない」であり、消極形とは、「美味しいとはいえなかった」または「不味いとはいえかった」などである。

演算部１０７は、例えば、肯定形に「＋α」を設定し、否定形に「−β」を設定し、消極形に「＋θ」を設定し(α、β、θ：同一又は異なる数値であってよい)、これらのパラメータを用いて、対象データに対してそれぞれ算出した指標を調整することができる。または、演算部１０７は、対象データに含まれるセンテンスが否定型であることを検知した場合、例えば、当該センテンスをキャンセルすることにより、当該センテンスに含まれる構成要素を指標算出の基礎にしない（当該構成要素を考慮しない）ことができる。これによって、データ分析システムは、データの構造解析結果を指標に反映させることができるため、より高い精度でデータを評価することができる。

演算部１０７は、対象データの構造として、センテンスの構文を解析して、その解析結果を対象データの指標に反映させることができる。演算部１０７は、例えば、形態素（構成要素）がセンテンスの主語、目的語、述語のどこに位置するかによって、当該形態素の評価値に優劣を設けてもよい。形態素の構文中の位置はベクトルによって制御されればよく、主語であるか、目的語であるか、述語であるかに応じて、形態素の評価値に優劣を付ける。演算部１０７は、形態素の出現ベクトルと評価値とから対象データの指標を算出する際、形態素の構文中の位置の制御ベクトルを合わせて、対象データの指標を求めることができる。

〔感情分析〕
データ分析システムは、対象データからユーザの感情を抽出することができる。一般に、オンライン商品サイトや、レストランガイドなどでは、ユーザのコメントとともに、商品・サービスに対する当該ユーザの評価が記載されていることが多い。そこで、データ分析システムは、コメントと評価とに基づいて参照データを作成し、当該参照データに基づいて対象データを評価することによって、商品・サービスに対してユーザが好印象を抱いたか否かを推測することができる。概念的には、当該評価が高い商品・サービスに対するコメントには、好感情の単語（例えば、「良かった」、「楽しかった」など）が用いられることが多く、当該評価が低い商品・サービスに対するコメントには、悪感情の単語（例えば、「悪かった」、「つまらなった」など）が用いられることが多いため、データ分析システムは、コメントと評価との組み合わせから成る参照データからパターンを学習し、当該パターンに基づいて、コメントのみから成る対象データから当該コメントを生成したユーザの感情を、感情指標として抽出することができる。

まず、分類部１０８は、参照データを感情の優劣に基づいて分類する。例えば、分類部１０８は、消費者の評価が５段階に行われている場合、段階評価に応じて、参照データに分類情報（例えば、「好印象」または「悪印象」を示す２分類のラベルであったり、「良い」、「やや良い」、「普通」、「やや悪い」、「悪い」を示す５分類のラベルであったりしてよい）を設定する。次に、学習部１０５は、分類情報が設定された参照データから構成要素を抽出する。特に、学習部１０５は、感情表現を示す構成要素（例えば、形容詞、形容動詞、副詞などに対応する形態素）を抽出することができる。

そして、学習部１０５は、感情表現を示す構成要素についての感情マーカー（感情評価情報、ユーザが好印象を抱くか、悪印象を抱くかを示す指標）を下記のようにして生成する。すなわち、学習部１０５は、好印象と分類された１以上の参照データにおいて、感情表現を示す構成要素（構成要素Ａ）が出現する回数Ａ_Ｆをカウントする。そして、学習部１０５は、この参照データにおいて構成要素Ａが出現する頻度ＲＦ_Ｐを算出する。
ここで、Ｎ_Ｐは、好印象に分類された参照データに含まれる全構成要素数である。

次に学習部１０５は、悪印象に分類された参照データにおいて、構成要素Ａが出現する回数Ａ_Ｎをカウントし、参照データにおいて構成要素Ａが出現する頻度ＲＦ_Ｎを算出する。
ここで、Ｎ_Ｎは、悪印象に分類された参照データに含まれる全構成要素数である。

そして、学習部１０５は、上記二つの式を用いて算出された頻度を用いて構成要素Ａの感情マーカー（感情判定指標値Ｐ（Ａ））を次のように算出する。

さらに、学習部１０５は、感情判定指標値Ｐ（Ａ）が１よりも大きい場合に、構成要素Ａを好印象を抱くデータに用いられることが多い構成要素として、その感情マーカーとして「＋１」を指定し、感情判定指標値Ｐ（Ａ）が１よりも小さい場合に、構成要素Ａを、悪印象を抱くデータに用いられることが多い構成要素として、その感情マーカーとして「−１」を指定してデータベース２２に格納する。例えば、「良い」、「きれい」、「おいしい」というような語には「＋１」がつきやすく、「悪い」、「汚い」、「まずい」というような語には「−１」が設定される傾向となる。

演算部１０７は、対象データから感情マーカーが設定されている構成要素を抽出し、抽出した構成要素それぞれの感情マーカー値を取得する。演算部１０７は、構成要素が対象データに出現する回数だけ、感情マーカー値を加算する。例えば、「良い」という構成要素に対して設定されている感情マーカーが「＋１」で、未分類データに５回出現する場合に、未分類データの「良い」という構成要素に基づく感情指標を「５」とする。また、例えば、「悪い」という構成要素に対して設定されている感情マーカーが「−１」で、未分類データに３回出現する場合に、未分類データの「悪い」という構成要素に基づく感情指標を「−３」とする。

演算部１０７は、否定表現または誇張表現が構成要素に存在するか否かを判定しながら感情指標を算出する。否定表現とは、構成要素を否定する表現であり、例えば、「良くない」、「おいしくない」というような表現である。このような表現がある場合には、これらは逆の表現として扱い、例えば、「良くない」であれば「悪い」とし、「おいしくない」であれば「まずい」として扱う。なお、ここでは、逆の表現として扱うこととしたが、これは、例えば、「良い」という表現に対して、「＋１」の感情マーカーが設定されている場合に、これを負の値にすることとしてもよい。あるいは、感情マーカーとして設定されている値を所定量（例えば、１．５）だけ減少させることとしてもよい。また、更には、否定を否定する、すなわち、二重否定表現があるか否かを検出し、二重否定表現がある場合には、構成要素を肯定的に判定することとしてもよい。

また、誇張表現とは、構成要素をより誇張（強調）する表現であり、例えば、「とても」、「すごく」、「大変」というような表現のことを指す。このような誇張表現が構成要素にかかっている場合には、その感情マーカー値を所定倍（例えば、２倍）にして感情指標を算出する。例えば、「とてもおいしい」という表現がある場合であって、「おいしい」の感情マーカー値が「＋１」であるときには、この表現に対する感情指標を「＋２」とする（増大させる）。なお、所定倍にする構成要素は、誇張表現がかかっている構成要素のみである。

このようにして、演算部１０７は、下記式に示すように、全ての構成要素に基づく感情指標を算出し、合算して対象データの指標Ｓを算出する。
ここで、ｓ_ｉは、ｉ番目の構成要素の感情マーカーである。

演算部１０７は、感情指標に基づいて、対象データを序列化する。指標が、０よりも大きい場合には、対象データは好印象を抱かれやすい判定され、指標が０未満である場合に、対象データは悪印象が抱かれやすいと判定される。序列化された複数の対象データは、ユーザに提示される。

〔ヒートマップの表示〕
データ分析システムは、所定の管理機能を備えている。当該管理機能は、管理計算機１２の管理プログラムによって実行される。管理機能の一例として、評価権限ユーザが複数いる場合、各人の分類の精度を管理画面によって表示する形態がある。

図９は、データ分析システムの管理画面の一例を示す模式図である。当該管理画面は、演算部１０７のデータの指標から表示処理部１０３によって作成される。表示処理部１０３は管理計算機１２のモニタに表示画面２６０を出力する。表示画面２６０は、例えば、指標の予め定められた各範囲のそれぞれに対応づけられた複数の区画、及び、比率を表示する表示領域２６２を有する。比率とは、指標の範囲に含まれる対象データの総数と、対象データの総数のうち、所定の事案と関係するとして、「Related」のラベルが評価権限ユーザによって設定された対象データの数との比である。

区画は、例えば、指標が０〜９９９、１０００〜１９９９のように、１０００ずつ分かれて設定され、各区画は、例えば、指標は２００ごとに細分化されている。各細分化された小区画ごとに、比率が色調等の付加情報の形態の変化（グラデーション）によって表現される。例えば、色調が寒色系であるほど、比率が低い、すなわち、対象データに「Related」のラベルがレビュアによって設定された率が低く（Non-Relatedである率が高く）、暖色系であるほど「Related」のラベルがレビュアによって設定された率が高いことを示している。例えば、表示領域２６２の縦方向に評価権限ユーザの識別欄２６６があり、関連性指標欄２６８は、評価権限ユーザごとに区別されている。データ分析システムは、所定の分類情報（ラベル）が対応付けられたデータが、すべてのデータに対して占める割合に応じたグラデーションを用いて、複数のデータをそれぞれ評価した結果に対する当該割合の分布を視認可能に表示することができる。

管理権限ユーザは、表示画面２６０に表示される各小区画の色を参照することで、各評価権限ユーザの分類精度の適否を把握し易くなる。例えば、ある評価権限ユーザは指標が小さい領域にも拘らず「Related」のフラグを設定する割合が高く、一方、ある評価権限ユーザは指標が高い領域にも拘らず「Non-Related」のフラグを設定する割合が高く、これら評価権限ユーザによる分類は精度が低いことを示している。

〔ネットワーク分析〕
データ分析システムは、複数のノード（人、組織、コンピュータ）間の相互関係（データの送受信や交換等）を可視化することができる。この場合、表示処理部１０３は、例えば、演算部１０７によるデータの序列化の結果に基づいて、所定の事案に関連する複数の人物の関係性を、当該関連性の程度が分かるように、クライアント装置１０に表示させることができる。

図１０に示すように、表示処理部１０３は、各ノードを円形に表示すると共に、一つノードと他のノードとの間に関係性がある場合、当該ノードと当該他ノードとの間を矢印で結合して表示する。各ノードの大きさは、ノード間の関係性の大小を示す。すなわち、ノードの大きさが大きいほど、ノード３０との関係性が高いことを示す。図１０の例においては、ノード３１、ノード３６、ノード３５、ノード３２、ノード３３、ノード３４の順にノードの小さくなっている。したがって、図１０の例においては、ノード３１、ノード３６、ノード３５、ノード３２、ノード３３、ノード３４の順にノード３０との関係性が高いことを示す。関係性の大小、データの指標の大小、又は、ラベルの優劣に基づいて決定される。ノードの大小に代えて、或いは、これと共に、ノード間を結合する矢印若しくは線分の太さや色等を変化させることもできる。

ノードはＵＲＬやＥメールアドレスによって特定されてもよい。図１０はノード３０を中心にした相関関係表示であるが、表示処理部１０３は、中心ノードを変更することも出来る。また、表示処理部は一つの画面に複数のノードを中心ノードとして設定することもできる。また、データのタイムスタンプ、送信時刻、着信時刻、更新時刻などの時間情報をノード間の相関関係に分かるように表示することもできる。ノード間の相関関係の発生が現在時刻に近いほど、ノード間の連結表示の形態（色調）を変えればよい。

また、データ分析システムは、所定の動作を表す第１の構成要素がデータに含まれるか否かを判定し、含まれると判定する場合、当該所定の動作の対象を表す第２の構成要素を特定する。例えば、「仕様を確定する」という文章が上記データに含まれる場合、当該文章から「仕様」および「確定する」という構成要素（単語）を抽出し、「確定する」という所定の動作を表す第１の構成要素（動詞）の対象である「仕様」という第２の構成要素（目的語）を特定する。次に、上記データ分析システムは、上記第１の構成要素および第２の構成要素を含むデータの属性（性質・特徴）を示すメタ情報（属性情報）と、当該第１の構成要素および第２の構成要素とを関連付ける。ここで、上記メタ情報は、データが有する所定の属性を示す情報であり、例えば、上記データが電子メールである場合、当該電子メールを送信した人物の名前、受信した人物の名前、メールアドレス、送受信された日時などであってよい。そして、データ分析システムは、２つの構成要素とメタ情報とを対応付けて、クライアント装置１０に表示させる。

例えば、「技術を交流する」という文章が電子メール（データ、通信情報）に含まれており、「技術」（第２の構成要素）および「交流する」（第１の構成要素）という単語が抽出された場合、データ分析システムは、上記「技術」および「交流する」と、上記電子メールを送受信した人物の名前（例えば、「人物Ａ」および「人物Ｂ」）とを関連付けて表示する。これにより、「人物Ａ」と「人物Ｂ」とが、ある「技術」についての「交流」を企図していることが推測できる。さらに、例えば、「仕様を確定する」という文章が、上記電子メールに添付されたプレゼンテーション資料に含まれており、「仕様」（第２の構成要素）および「確定する」（第１の構成要素）という単語が抽出された場合、データ分析システムは、上記「仕様」および「確定する」と、上記プレゼンテーション資料が作成された日時（例えば、２０１５年３月３０日１６時３０分）とを関連付けて表示する。これにより、「人物Ａ」と「人物Ｂ」とが、ある「技術」についての「交流」を企図する中で、２０１５年３月３０日１６時３０分の時点において、当該「技術」の「仕様」を「確定」しようとしていることが推測できる。

本発明のデータ分析システムによって、複数の対象データが序列化されるものの、全ての対象データの内容に目を通すことは時間を要することになり、そもそも容易いことにはならない。そこで、データ分析システムは、ユーザに対象データの内容を短時間で把握できるようにするための支援機能を実現することができる。

〔概念の抽出〕
演算部１０７はトピック（コンテキスト）検出機能を実行する。演算部１０７は、図１１（Ａ）に示すように、対象データの中から予め選定された概念の下位概念の構成要素を含むデータを抽出し、抽出した各対象データ（電子メール等）の内容の要約を適度な抽象度でそれぞれ作成し、作成した要約に基づいて対象データの内容を確認できるようにするために対象データをクラスタリングし、対象データのクラスタリングの結果を例えば図１１（Ｂ）のような形式でユーザに提示する。

このようなトピック検出機能は、準備フェーズ及び適用フェーズの２段階のフェーズにより実現される。準備フェーズは、予めユーザにより設定された各対象概念の下位概念のキーワードだけを抽出し、抽出したキーワードをそれぞれ対応する対象概念に対応付けた上述の対象概念抽出用データベースを作成するためのフェーズである。また適用フェーズは、準備フェーズで作成した対象概念抽出用データベースを利用して該当する対象データの内容を上位概念で表現した要約を作成し、作成した要約に基づいて該当する対象データをクラスタリングして結果をユーザからの要求に応じて表示するフェーズである。

準備フェーズでは、まず、ユーザが、対象データから検出したい話題（トピック）に応じた幾つかの対象概念を選定し、選定した対象概念を予めデータ分析システムに登録する。例えば、検出したいトピックが「不正」及び「不満」である場合、図１２に示すように、概念のカテゴリを「行動」、「感情」、「性質や状態」、「リスク」及び「金銭」の５つに分けて、例えば「行動」については「復讐する」及び「軽蔑する」など、「感情」については「苦しむこと」及び「腹を立てること」など、「性質や状態」については「鈍重だ」及び「心や態度が悪い」など、「リスク」については「脅す」及び「だます」など、「金銭」については「人の労働に対して支払われるお金」などの概念を対象概念としてそれぞれ設定する。

演算部１０７は、このようにして対象概念が設定されると、登録された対象概念ごとに、その下位概念を表すキーワードをデータベース２２の辞書上で検索し、当該検索により検出した個々のキーワードをそれぞれ対応する対象概念に対応付けた上述の対象概念抽出用データベースを作成する。

一方、適用フェーズでは、演算部１０７は、上述のようにして作成した対象概念抽出用データベースを利用して、対象データの中から、対象概念抽出用データベースに登録されたキーワードをテキスト内に含む対象データを抽出する。また、演算部１０７は、このようにして抽出した対象データについて、そのテキストの内容をそのとき検出したキーワードの上位概念を用いて表した要約を作成する。

例えば図１１の場合、（Ａ）に示すように、「e-mail_1」については、「監視システム受注」という箇所から「システム」、「販売」及び「する」という対象概念が抽出され、「e-mail_2」については、「会計システム導入」という箇所から「システム」、「販売」及び「する」という上位概念が抽出されるため、これら「e-mail_1」及び「e-mail_2」については、いずれも「システム販売する」という要約が作成されることになる。

そして、表示処理部１０３は、この後、ユーザからの要求があった場合に、このようにして作成した該当する対象データの要約に基づいて、対象データをクラスタリングしてその結果をユーザに提示する。

例えば、図１１の場合、上述のように「e-mail_1」及び「e-mail_2」について「システム販売する」という同じ要約が作成されるため、これら「e-mail_1」及び「e-mail_2」が同一のグループに分類される。そして、この分類結果が例えば（Ｂ）のように要約を「内容」とする形式で表示される。このようにして、ユーザは、対象データの内容を把握することができる。

〔その他の構成〕
分類情報受付部１０４によって、複数の分類情報の夫々について、参照データと分類情報との組み合わせが設定される。すなわち、分類情報と参照データとの組み合わせが複数設定される。また、学習部１０５は、例えば、同一の分類情報が付された複数の参照データに共通して出現する構成要素を、参照データと分類情報との組み合わせに寄与する度合いを考慮して評価し、評価結果（評価値）が所定以上の構成要素を、複数の参照データに共通するパターンの一つとして選定する。なお、参照データに対する評価・分類の方針・基準は、評価者ごとに異なる場合があるため、データ分析システムは、参照データに対する評価・分類に複数の評価者の参加を許容するようにしてもよい。

データ分析システムは、ユーザによる入力に基づいて、序列化された対象データに分類情報を設定してよい。または、データ分析システムは、対象データに対する評価結果に応じて（例えば、対象データの指標が当該所定の評価基準（例えば、指標が所定の閾値を超過しているか否か）を満足する場合）、ユーザの入力を要することなく、当該対象データに分類情報を与えてもよい。上記評価基準は、管理権限を有するユーザによって設定されてもよいし、参照データ又は対象データの測定結果を回帰分析して結果に基づいて、データ分析システムによって設定されてもよい。また、データ分析システムは、例えば、所定の分類情報にしたがって分類され、同じ分類情報が付された複数の対象データから有用な構成要素を抽出し、当該構成要素に基づいて対象データを参照データと同じように分類できるか否かを解析することができる。構成要素の抽出は、例えば、複数の分類情報の夫々でグルーピングされた対象データごとに行われてよい。

既述のとおり、学習部１０５で選定された、形態素を始めとする構成要素は、データベース２２に記録される。また、業務サーバ１４は、過去の分類処理の結果から、所定の事案の優劣との関連性が高く、対象データに含まれていれば、「関係あり」と分類され得る構成要素を、事前に、データベース２２に登録することもできる。

また、過去の分類処理の結果から、所定の事案との関連性に係る符号が付与された対象データと関連性が高い構成要素をデータベース２２に登録しておくことも可能である。一度データベース２２に登録された形態素は、データ分析システムが行う学習の結果によって増減される他、手動によっても追加登録及び削除が可能である。

データ分析システムは、複数のパターン（データの構成要素と当該構成要素を評価した結果との組み合わせ）を学習し、データベース２２に保持することができる。例えば、データ分析システムは、所定の事案の種類ごとに上記組み合わせを保持することができる。これにより、例えば、データ分析システムが犯罪捜査支援システムとして実現され、犯罪の証拠となり得るデータを分析する場合と、データ分析システムがインターネット応用システムとして実現され、ウェブページを分析する場合とでは、データ分析システムは、互いに異なる複数のパターンを保持することになる。このとき、ユーザが当該所定の事案の種類を入力し、データ分析システムが当該種類に応じたパターンに基づいて対象データを処理することができる。

データ分析システムは、参照データに含まれる構成要素の評価値を算出する際に、全ての構成要素の仮の評価値を算出し、その後に、評価値を算出する対象の構成要素の仮の評価値に、当該構成要素以外の構成要素の仮の評価値を加味して、最終的な評価値を算出することができる。具体的には、データ分析システムは、複数の構成要素各々に評価値を算出し（すなわち、当該複数の構成要素をそれぞれ評価し）、当該複数の構成要素のうちの一つである第１構成要素に対して算出された評価値に対して、当該複数の構成要素のうちの他の一つである第２構成要素に対して算出された評価値を反映させるように、当該第１構成要素に対して算出された評価値を更新し、当該更新された評価値を当該第１構成要素に対応付けて、当該第１構成要素の評価値としてデータベース２２に格納する。これにより、データ分析システムは、データを評価するための構成要素の評価値を、他の構成要素との関連性も考慮した上で算出することができるため、より高い精度でデータを分析することができる。

データ分析システムは、参照データに含まれる構成要素を所定の基準（例えば、伝達情報量）に基づいてそれぞれ評価し、当該評価された結果に基づいて、対象データに対して、所定の事案との関連性の高低を示すポジティブ指標（主指標）をそれぞれ算出する。次に、データ分析システムは、上記ポジティブ指標が低い対象データ（例えば、当該ポジティブ指標がほとんどゼロとなるデータ）の中から所定数のデータを（例えば、ランダムに）部分データとして選出し、当該選出されたデータに含まれる構成要素を上記所定の基準に基づいてそれぞれ評価する。そして、データ分析システムは、当該評価された結果に基づいて、対象データと上記所定の事案との関連性の弱さを示すネガティブ指標（副指標）を、当該対象データに対して算出する。最後に、データ分析システムは、上記ポジティブ指標およびネガティブ指標にしたがって、対象データを抽出する（例えば、ポジティブ指標が高く、ネガティブ指標が低いデータから順に並ぶように、データ全体を序列化する）。

以上のように、データ分析システムは、所定の事案と関連することを示す指標（ポジティブ指標）を導出するだけでなく、当該ポジティブ指標にしたがって、当該所定の事案と関連しない（当該所定の事案との関連性が低い）ことを示す指標（ネガティブ指標）も導出する。これにより、データ分析システムは、より高い精度でデータを分析することができる。

〔データ分析システムのアプリケーション例〕
データ分析システムは、例えば、情報資産活用システム（プロジェクト評価システム）として実現され得る。すなわち、このデータ分析システムは、企業・熟練者が有する情報資産（データ）を、状況に応じて（動的に）抽出することによって、当該情報資産を活用可能なシステムとして実現され得る。これにより、例えば、（１）開発期間の短縮化が望まれる開発現場を効率化するために、過去に開発した製品に関する情報を当該開発の要件に応じて再利用したり、（２）熟練技術者が有する専門知識に基づいて、有用な情報資産を特定したりすることができる。すなわち、データ分析システムは、ユーザにとって必要な情報（過去の情報資産）を効率的に発見することができる。

データ分析システムは、例えば、インターネット応用システム（例えば、スマートメールシステム、情報アグリゲーション（キュレーション）システム、ユーザ監視システム、ソーシャルメディア運営システムなど）として実現され得る。この場合、当該データ分析システムは、データ（例えば、ユーザがＳＮＳに投稿したメッセージ、ウェブサイトに掲載されたお勧め情報、ユーザまたは団体のプロフィールなど）を所定の評価基準（例えば、当該ユーザの嗜好と他のユーザの嗜好とが類似しているか否か、当該ユーザの嗜好とレストランの属性とが一致しているか否かなど）に基づいて評価することによって、例えば、当該ユーザと気の合いそうな他のユーザを一覧表示させたり、当該ユーザの嗜好に合ったレストランの情報を提示したり、当該ユーザに危害を与えかねない団体を警告したりすることができる。すなわち、データ分析システムは、ユーザにとって必要な情報を効率的に発見することができる。

また、データ分析システムは、例えば、ドライビング支援システムとして実現され得る。この場合、当該データ分析システムは、データ（例えば、車載センサ・カメラ・マイクなどから取得されるデータ）を所定の評価基準（例えば、熟練ドライバによる運転中に、当該熟練ドライバが着目した情報か否かなど）に基づいて評価することによって、例えば、運転を安全・快適にし得る有用な情報を自動的に抽出することができる。すなわち、データ分析システムは、ユーザにとって必要な情報を効率的に発見することができる。

また、データ分析システムは、例えば、金融システム（例えば、不正取引監視システム、株価予測システムなど）として実現され得る。この場合、当該データ分析システムは、データ（例えば、銀行に対する届け出書類、株価の時価など）を所定の評価基準（例えば、不正目的のおそれがあるか否か、株価が上昇するか否かなど）に基づいて評価することによって、例えば、不正目的を有する届け出を摘発したり、将来の株価を予測したりすることができる。すなわち、データ分析システムは、ユーザにとって必要な情報を効率的に発見することができる。

また、データ分析システムは、医療応用システム（例えば、ファーマコビジランス支援システム、治験効率化システム、医療リスクヘッジシステム、転倒予測（転倒防止）システム、予後予測システム、診断支援システムなど）として実現され得る。この場合、当該データ分析システムは、データ（例えば、電子カルテ、看護記録、患者の日記など）を所定の評価基準（例えば、患者の特定の危険行動を取るか否か、ある薬剤が病気に対して効能を発揮したか否かなど）に基づいて評価することによって、例えば、患者が危険な状態（例えば、転倒するなど）に陥ることを予測したり、薬剤の効能を客観的に評価したりすることができる。すなわち、データ分析システムは、ユーザにとって必要な情報を効率的に発見することができる。

また、データ分析システムは、例えば、メール制御システム（スマートメールシステム）として実現され得る。この場合、当該データ分析システムは、データ（例えば、電子メール、添付ファイルなど）を所定の評価基準（例えば、当該電子メールに返信する必要があるか否かなど）に基づいて評価することによって、例えば、大量のメールの中から重要なメール（アクションを要するメール）を抽出することができる。すなわち、データ分析システムは、ユーザにとって必要な情報を効率的に発見することができる。

また、データ分析システムは、例えば、ディスカバリ支援システムとして実現され得る。この場合、当該データ分析システムは、データ（例えば、ドキュメント、電子メール、表計算データなど）を所定の評価基準（例えば、本件訴訟におけるディスカバリ手続きにおいて当該データを提出すべきか否かなど）に基づいて評価することによって、例えば、本件訴訟に関連する文書のみを法廷に提出することができる。すなわち、データ分析システムは、ユーザにとって必要な情報を効率的に発見することができる。

また、データ分析システムは、例えば、フォレンジック支援システムとして実現され得る。この場合、当該データ分析システムは、データ（例えば、ドキュメント、電子メール、表計算データなど）を所定の評価基準（例えば、当該データが犯罪行為を立証可能な証拠であるか否かなど）に基づいて評価することによって、例えば、当該犯罪行為を立証する証拠を抽出することができる。すなわち、データ分析システムは、ユーザにとって必要な情報を効率的に発見することができる。

また、データ分析システムは、例えば、メール監視システム（メール監査支援システム）として実現され得る。この場合、当該データ分析システムは、データ（例えば、電子メール、添付ファイルなど）を所定の評価基準（例えば、当該電子メールを送受信したユーザが不正行為を行おうとしているか否かなど）に基づいて評価することによって、例えば、情報漏洩・談合などの不正行為の予兆を発見することができる。すなわち、データ分析システムは、ユーザにとって必要な情報を効率的に発見することができる。

また、データ分析システムは、例えば、知財評価システムとして実現され得る。この場合、当該データ分析システムは、データ（例えば、特許公報、発明を要約した文書、学術論文など）を所定の評価基準（例えば、当該特許公報は所与の特許を拒絶・無効にする証拠となり得るか否かなど）に基づいて評価することによって、例えば、多数の文献（例えば、特許公報、学術論文、インターネットに掲載された文章）の中から無効資料を抽出することができる。このとき、データ分析システムは、例えば、無効対象となる特許の各請求項と「Related」ラベル（分類情報）との組み合わせ、および、当該特許とは異なる無関係な特許の各請求項と「Non-Related」ラベル（分類情報）との組み合わせを参照データとして取得し、当該参照データからパターンを学習し、多数の文献（対象データ）に対して指標を算出する（例えば、特許公報の段落ごとに指標を算出し、当該指標の上位から所定数分を合算することによって、当該特許公報の指標とする）ことによって、当該対象データを評価することができる。すなわち、データ分析システムは、ユーザにとって必要な情報を効率的に発見することができる。

また、データ分析システムは、例えば、コールセンターエスカレーションシステムとして実現され得る。この場合、当該データ分析システムは、データ（例えば、電話の通話履歴、録音された音声など）を所定の評価基準（例えば、過去の対応事例と類似するか否かなど）に基づいて評価することによって、例えば、過去の対応事例の中から現在の状況に最適な対応方法を抽出することができる。すなわち、データ分析システムは、ユーザにとって必要な情報を効率的に発見することができる。

また、データ分析システムは、例えば、マーケティング支援システムとして実現され得る。この場合、当該データ分析システムは、データ（例えば、企業・個人のプロフィール、製品情報など）を所定の評価基準（例えば、当該個人は男性か女性か、消費者は製品に対して好感を抱いているか否かなど）に基づいて評価することによって、例えば、ある製品に対する市場の評価を抽出することができる。すなわち、データ分析システムは、ユーザにとって必要な情報を効率的に発見することができる。

また、データ分析システムは、例えば、信用調査システムとして実現され得る。この場合、当該データ分析システムは、データ（例えば、企業のプロフィール、企業の業績に関する情報、株価に関する情報、プレスリリースなど）を所定の評価基準（例えば、当該企業が倒産するか否か、当該企業が成長するか否かなど）に基づいて評価することによって、例えば、企業の成長・倒産を予測することができる。すなわち、データ分析システムは、ユーザにとって必要な情報を効率的に発見することができる。

このように、本発明のデータ分析システムは、ディスカバリ支援システム、犯罪捜査支援システム、電子メール監視システム、医療応用システム、インターネット応用システム、情報資産活用システム、マーケティング支援システム、知財評価システム、コールセンターエスカレーションシステム、信用調査システム、営業支援システム、ドライビング支援システムなど、データを所定の評価基準（所定の事案に関連するか否か）に基づいて評価することによって、ユーザにとって必要な情報を効率的に発見する任意のシステムとして実現され得る。特に、本発明のデータ分析システムは、複数のデータを含むデータ群を、「人間の思考および行動の結果によるデータの集合体」として捉え、例えば、人間の行動に関連する分析、人間の行動を予測する分析、人間の特定の行動を検知する分析、人間の特定の行動を抑制する分析などを行うことによって、データからパターンを抽出し、当該パターンと所定の事案との関連性を評価することによって、ユーザにとって必要な情報を効率的に発見することができる。

なお、本発明のデータ分析システムが応用される分野によっては、当該分野に特有の事情を考慮して、例えば、データに前処理（例えば、当該データから重要箇所を抜き出し、当該重要箇所のみをデータ分析の対象とするなど）を施したり、データ分析の結果を表示する態様を変化させたりしてよい。こうした変形例が多様に存在し得ることは、当業者に理解されるところであり、すべての変形例が本発明の範疇に入る。

〔データ分析システムが文書データ以外のデータを処理する例〕
上記した実施の形態においては、データ分析システムが文書データを分析する例を主に説明したが、当該データ分析システムは、文書データ以外のデータ（例えば、音声データ、画像データ、映像データなど）を分析することもできる。

例えば、音声データを分析する場合、データ分析システムは、当該音声データ自体を分析の対象としてもよいし、音声認識により当該音声データを文書データに変換し、変換後の文書データを分析の対象としてもよい。前者の場合、データ分析システムは、例えば、音声データを所定の長さの部分音声に分割して構成要素とし、任意の音声分析手法（例えば、隠れマルコフモデル、カルマンフィルタなど）を用いて当該部分音声を識別することによって、当該音声データを分析できる。後者の場合、任意の音声認識アルゴリズム（例えば、隠れマルコフモデルを用いた認識方法など）を用いて音声を認識し、認識後のデータに対して、実施の形態において説明した手順と同様の手順で分析できる。

また、画像データを分析する場合、データ分析システムは、例えば、画像データを所定の大きさの部分画像に分割して構成要素とし、任意の画像認識手法（例えば、パターンマッチング、サポートベクターマシン、ニューラルネットワークなど）を用いて当該部分画像を識別することによって、当該画像データを分析できる。

さらに、映像データを分析する場合、データ分析システムは、例えば、映像データに含まれる複数のフレーム画像を所定の大きさの部分画像にそれぞれ分割して構成要素とし、任意の画像認識手法（例えば、パターンマッチング、サポートベクターマシン、ニューラルネットワークなど）を用いて当該部分画像を識別することによって、当該映像データを分析できる。

〔ソフトウェア・ハードウェアによる実現例〕
データ分析システムの制御ブロックは、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。後者の場合、データ分析システムは、各機能を実現するソフトウェアであるプログラム（データ分析システムの制御プログラム）を実行するＣＰＵ、当該プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、当該プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、当該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。なお、上記プログラムは、任意のプログラミング言語によって実装可能であり、例えば、Python、ActionScript、JavaScript（登録商標）などのスクリプト言語、Objective-C、Java（登録商標）などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装され得る。また、上記プログラムを記録した任意の記録媒体（コンピュータ読み取り可能な記録媒体）も、本発明の範疇に入る。

〔まとめ〕
本発明の第１の態様に係るデータ分析システムは、対象データを評価するデータ分析システムであって、前記システムは、メモリと、入力制御装置と、コントローラとを備え、前記コントローラは、複数の対象データを評価し、当該評価は、各対象データと所定の事案との関連性に対応するものであり、前記複数の対象データの序列化を可能とする指標を、前記評価により生成し、ユーザが前記入力制御装置を介して与えた入力に基づいて前記指標を変化させることができ、前記メモリは、前記コントローラが評価する前記複数の対象データを少なくとも一時的に記憶し、前記入力制御装置は、前記コントローラが前記複数の対象データを序列化するための入力を前記ユーザに許容し、当該複数の対象データの序列は、前記入力に基づいて変化する前記指標に応じて変化するものであり、前記入力は、前記複数の対象データとは異なる参照データを、当該参照データと前記所定の事案との関連性に基づいて分類するものであり、当該分類は、前記参照データの内容に応じて複数の分類情報に分けられたものであり、前記複数の分類情報のうちの少なくとも１つは、前記入力によって前記参照データに付与されるものであり、前記参照データを前記ユーザに提示し、前記ユーザの入力により、前記提示された参照データに対して与えられた前記少なくとも１つの分類情報と当該参照データとの組み合わせを、前記コントローラに提供し、前記コントローラは、前記参照データに含まれる複数の構成要素が、前記入力制御装置から提供された組み合わせにそれぞれ寄与する度合いを評価することによって、前記入力により付与された分類情報に応じて当該参照データが特徴付けられるパターンを当該参照データから抽出し、前記抽出したパターンに基づいて、前記対象データと前記所定の事案との関連性を評価して前記指標を決定し、前記決定した指標を前記対象データに設定し、前記指標に応じて前記複数の対象データを序列化し、前記序列化した複数の対象データをユーザに報知する。

また、本発明の第２の態様に係るデータ分析システムは、上記第１の態様において、前記コントローラは、前記指標と所定の閾値とを比較し、当該比較した結果に基づいて、前記複数の対象データ夫々に前記所定の事案に関連する分類情報を設定する。

また、本発明の第３の態様に係るデータ分析システムは、上記第１〜２の態様において、前記コントローラは、前記複数の対象データが所定の判定基準を満たしているか否かを判定し、前記所定の判定基準を満たしていると判定された複数の対象データから、所定数の対象データを選出し、前記パターンに基づいて前記所定数の対象データをそれぞれ再評価し、前記再評価した結果に基づいて、前記所定の判定基準を変更する。

また、本発明の第４の態様に係るデータ分析システムは、上記第１〜３の態様において、前記コントローラは、新たな参照データと当該新たな参照データに付与される前記分類情報との組み合わせをさらに取得し、前記新たな参照データの少なくとも一部の構成要素が、当該新たな参照データと分類情報との組み合わせに寄与する度合い評価することによって、前記パターンを更新し、前記更新したパターンに基づいて前記対象データと前記所定の事案との関連性を評価し、前記指標を決定する。

また、本発明の第５の態様に係るデータ分析システムは、上記第１〜４の態様において、前記コントローラは、前記複数の対象データを評価した結果に基づいて再現率を算出し、前記再現率が上昇するように、前記参照データから繰り返し前記パターンを抽出する。

また、本発明の第６の態様に係るデータ分析システムは、上記第１〜５の態様において、前記コントローラは、前記入力制御装置から前記組み合わせが提供されるたびに、前記分類情報に対応する前記参照データの少なくとも一部の構成要素が、当該組み合わせに寄与する度合いを評価することによって、前記パターンを逐次更新する。

また、本発明の第７の態様に係るデータ分析システムは、上記第１〜６の態様において、前記コントローラは、前記対象データの少なくとも一部の構成要素に対応する概念を、当該構成要素と当該概念とを対応付けたデータベースを参照することによって抽出し、前記抽出した概念に基づいて前記複数の対象データの要約を出力する。

また、本発明の第８の態様に係るデータ分析システムは、上記第１〜７の態様において、前記コントローラは、前記複数の対象データに共通して含まれる主題ごとに、当該複数の対象データをクラスタリングする。

また、本発明の第９の態様に係るデータ分析システムは、上記第１〜８の態様において、前記対象データは、前記所定の事案に対するユーザの評価情報を少なくとも含み、前記コントローラは、前記対象データを生成したユーザの感情であって、前記評価情報に基づいて生じた前記所定の事案に対する感情を、当該対象データから抽出する。

また、本発明の第１０の態様に係るデータ分析システムは、上記第１〜９の態様において、前記コントローラは、前記分類情報が対応付けられた対象データの、全ての対象データに対する割合に応じたグラデーションを用いて、前記複数の対象データを夫々評価した結果に対する前記割合の分布を視認可能に表示する。

また、本発明の第１１の態様に係るデータ分析システムは、上記第１〜１０の態様において、前記複数の対象データは、複数の計算機間で送受信される情報であり、前記コントローラは、前記送受信される情報を分析した結果に基づいて、前記複数の計算機間の緊密度を可視化する。

また、本発明の第１２の態様に係るデータ分析システムは、上記第１〜１１の態様において、前記パターンは、時間の経過に応じて変化し得るものであり、前記コントローラは、前記参照データを所定時間ごとに取得し、前記所定時間ごとに取得した複数の参照データ夫々から前記パターンを抽出し、前記パターンに基づいて、前記所定時間ごとに前記複数の対象データ夫々を評価して前記指標を決定する。

また、本発明の第１３の態様に係るデータ分析システムは、上記第１〜１２の態様において、前記コントローラは、前記対象データの少なくとも一部を構成する部分対象データを、当該対象データを分割することによって複数生成し、前記抽出したパターンに基づいて前記複数の部分対象データを夫々評価し、前記複数の部分対象データを評価して得られた前記指標を統合し、前記統合した指標を用いて前記複数の対象データを夫々評価する。

また、本発明の第１４の態様に係るデータ分析システムは、上記第１〜１３の態様において、前記コントローラは、前記構成要素と、当該構成要素を含む参照データを分類する前記分類情報との関係の強さに基づいて、当該構成要素に対する評価値を、前記度合いを評価した結果として算出し、前記対象データの少なくとも一部の構成要素に対して算出された評価値に基づいて、当該対象データと前記所定の事案との関連性の高低を示すように前記指標を決定することによって、前記複数の対象データを評価する。

また、本発明の第１５の態様に係るデータ分析システムは、上記第１〜１４の態様において、前記コントローラは、前記構成要素と、当該構成要素とは異なる他の構成要素とが、同一の参照データの少なくとも一部に出現する頻度に基づいて、当該構成要素と当該他の構成要素との相関を評価し、前記相関にさらに基づいて前記複数の対象データを夫々評価する。

また、本発明の第１６の態様に係るデータ分析システムは、上記第１〜１５の態様において、前記コントローラは、前記所定の事案に関係する所定行為の進展を予測可能なモデルに基づいて、前記複数の対象データを評価することによって決定した指標から、次の行為を提示する。

また、本発明の第１７の態様に係るデータ分析システムは、上記第１〜１６の態様において、前記コントローラは、所定の行為が進展する各段階を示す指標であるフェーズごとに、前記複数の対象データを評価し、前記複数の対象データを評価することによって前記フェーズごとに決定された指標から、現在のフェーズを特定する。

また、本発明の第１８の態様に係るデータ分析システムは、上記第１〜１７の態様において、前記対象データは、１以上のセンテンスを少なくとも一部に含む文書データであり、前記コントローラは、前記センテンスが有する構造を解析し、当該解析した結果に基づいて前記対象データに前記指標を決定する。

また、本発明の第１９の態様に係るデータ分析システムは、上記第１８の態様において、前記コントローラは、前記センテンスが有する構造を解析した結果に基づいて、当該センテンスの表現形態を判定し、当該判定した結果に基づいて前記対象データを評価する。

また、本発明の第１の態様に係るデータ分析方法は、対象データを評価するデータ分析方法であって、複数の対象データを評価基準に基づいてそれぞれ評価し、前記評価基準は、各対象データと所定の事案との関連性に対応する第１のステップと、前記評価によって、前記複数の対象データの序列化を可能とする指標を生成し、当該指標を、ユーザが与えた入力に応じて変化させることができる第２のステップと、前記第１のステップで評価される前記複数の対象データを少なくとも一時的に記憶する第３のステップと、前記複数の対象データを序列化するための入力を前記ユーザに許容し、当該複数の対象データの序列は、前記入力に応じて変化する前記指標に応じて変化するものであり、前記入力は、前記複数の対象データとは異なる参照データを、当該参照データと前記所定の事案との関連性に基づいて分類するものであり、当該分類は、前記参照データの内容に応じて複数の分類情報に分けられたものであり、前記複数の分類情報のうちの少なくとも１つは、前記入力によって前記参照データに付与される第４のステップと、前記参照データを前記ユーザに提示する第５のステップと、前記ユーザの入力により、前記提示された参照データに対して与えられた前記少なくとも１つの分類情報と当該参照データとの組み合わせを提供するス第６のステップと、当該参照データに含まれる複数の構成要素が前記提供された組み合わせにそれぞれ寄与する度合いを評価することによって、前記入力によって付与された分類情報に応じて当該参照データが特徴付けられるパターンを当該参照データから抽出する第７のステップと、当該抽出したパターンを前記評価基準とし、当該パターンに基づいて、前記対象データと前記所定の事案との関連性を評価して前記指標を決定する第８のステップと、当該決定された指標を当該対象データに設定する第９のステップと、前記指標に応じた、前記複数の対象データの序列化を実行する第１０のステップと、前記序列化した複数の対象データをユーザに報知する第１１のステップとを含む。

また、本発明の第１の態様に係るデータ分析プログラムは、コンピュータに上記第１の態様に係るデータ分析方法の各ステップを実行させる。

また、本発明の第１の態様に係る記録媒体は、上記第１の態様に係るデータ分析プログラムを記録する。

また、本発明の別態様に係るデータ分析システムは、メモリと当該メモリに格納された１以上のプログラムを実行可能な１以上のコントローラとを備え、当該メモリに記憶されたデータセットに含まれる複数のデータをそれぞれ評価するデータ分析システムであって、前記コントローラは、参照データと当該参照データを分類する分類情報との組み合わせを複数含むデータセットを、参照データセットとして取得し、前記参照データの少なくとも一部を構成する複数の構成要素が、前記取得した参照データセットに含まれる複数の組み合わせに寄与する度合いをそれぞれ評価することによって、当該参照データに含まれるパターンを学習し、前記学習したパターンに基づいて複数の対象データを序列化することによって、当該複数の対象データをそれぞれ評価し、前記複数の対象データをそれぞれ評価した結果に基づいて、当該複数の対象データを所定の表示インターフェースを介してユーザに提示する。

本発明は、パーソナルコンピュータ、サーバ、ワークステーション、メインフレームなど、任意のコンピュータに広く適用することができる。

１０クライアント装置
１２管理計算機
１４業務サーバ
１８ストレージシステム
２２データベース

本発明は、例えば、前記参照データに含まれる複数の構成要素について、前記参照データに対して与えられた前記少なくとも１つの分類情報と当該参照データとの組み合わせにそれぞれ寄与する度合いを評価することによって、前記入力により付与された分類情報に応じて当該参照データが特徴付けられるパターンを当該参照データから抽出する。

Claims

対象データを評価するデータ分析システムであって、
前記システムは、メモリと、入力制御装置と、コントローラとを備え、
前記コントローラは、
複数の対象データを評価し、当該評価は、各対象データと所定の事案との関連性に対応するものであり、
前記複数の対象データの序列化を可能とする指標を、前記評価により生成し、
ユーザが前記入力制御装置を介して与えた入力に基づいて前記指標を変化させることができ、
前記メモリは、
前記コントローラが評価する前記複数の対象データを少なくとも一時的に記憶し、
前記入力制御装置は、
前記コントローラが前記複数の対象データを序列化するための入力を前記ユーザに許容し、当該複数の対象データの序列は、前記入力に基づいて変化する前記指標に応じて変化するものであり、前記入力は、前記複数の対象データとは異なる参照データを、当該参照データと前記所定の事案との関連性に基づいて分類するものであり、当該分類は、前記参照データの内容に応じて複数の分類情報に分けられたものであり、前記複数の分類情報のうちの少なくとも１つは、前記入力によって前記参照データに付与されるものであり、
前記参照データを前記ユーザに提示し、
前記ユーザの入力により、前記提示された参照データに対して与えられた前記少なくとも１つの分類情報と当該参照データとの組み合わせを、前記コントローラに提供し、
前記コントローラは、
前記参照データに含まれる複数の構成要素が、前記入力制御装置から提供された組み合わせにそれぞれ寄与する度合いを評価することによって、前記入力により付与された分類情報に応じて当該参照データが特徴付けられるパターンを当該参照データから抽出し、
前記抽出したパターンに基づいて、前記対象データと前記所定の事案との関連性を評価して前記指標を決定し、
前記決定した指標を前記対象データに設定し、
前記指標に応じて前記複数の対象データを序列化し、
前記序列化した複数の対象データをユーザに報知する、
データ分析システム。
前記コントローラは、前記指標と所定の閾値とを比較し、当該比較した結果に基づいて、前記複数の対象データ夫々に前記所定の事案に関連する分類情報を設定する、請求項１記載のデータ分析システム。
前記コントローラは、
前記複数の対象データが所定の判定基準を満たしているか否かを判定し、
前記所定の判定基準を満たしていると判定された複数の対象データから、所定数の対象データを選出し、
前記パターンに基づいて前記所定数の対象データをそれぞれ再評価し、
前記再評価した結果に基づいて、前記所定の判定基準を変更する、
請求項１又は２記載のデータ分析システム。
前記コントローラは、
新たな参照データと当該新たな参照データに付与される前記分類情報との組み合わせをさらに取得し、
前記新たな参照データの少なくとも一部の構成要素が、当該新たな参照データと分類情報との組み合わせに寄与する度合い評価することによって、前記パターンを更新し、
前記更新したパターンに基づいて前記対象データと前記所定の事案との関連性を評価し、前記指標を決定する、請求項１乃至３の何れか一項記載のデータ分析システム。
前記コントローラは、
前記複数の対象データを評価した結果に基づいて再現率を算出し、
前記再現率が上昇するように、前記参照データから繰り返し前記パターンを抽出する、
請求項１乃至４の何れか一項記載のデータ分析システム。
前記コントローラは、
前記入力制御装置から前記組み合わせが提供されるたびに、前記分類情報に対応する前記参照データの少なくとも一部の構成要素が、当該組み合わせに寄与する度合いを評価することによって、前記パターンを逐次更新する、
請求項１乃至５の何れか一項記載のデータ分析システム。
前記コントローラは、
前記対象データの少なくとも一部の構成要素に対応する概念を、当該構成要素と当該概念とを対応付けたデータベースを参照することによって抽出し、
前記抽出した概念に基づいて前記複数の対象データの要約を出力する、
請求項１乃至６の何れか一項記載のデータ分析システム。
前記コントローラは、
前記複数の対象データに共通して含まれる主題ごとに、当該複数の対象データをクラスタリングする、
請求項１乃至７の何れか一項記載のデータ分析システム。
前記対象データは、前記所定の事案に対するユーザの評価情報を少なくとも含み、
前記コントローラは、
前記対象データを生成したユーザの感情であって、前記評価情報に基づいて生じた前記所定の事案に対する感情を、当該対象データから抽出する
請求項１乃至８の何れか一項記載のデータ分析システム。
前記コントローラは、
前記分類情報が対応付けられた対象データの、全ての対象データに対する割合に応じたグラデーションを用いて、前記複数の対象データを夫々評価した結果に対する前記割合の分布を視認可能に表示する、
請求項１乃至９の何れか一記載のデータ分析システム。
前記複数の対象データは、複数の計算機間で送受信される情報であり、
前記コントローラは、
前記送受信される情報を分析した結果に基づいて、前記複数の計算機間の緊密度を可視化する、
請求項１乃至１０の何れか一項記載のデータ分析システム。
前記パターンは、時間の経過に応じて変化し得るものであり、
前記コントローラは、
前記参照データを所定時間ごとに取得し、
前記所定時間ごとに取得した複数の参照データ夫々から前記パターンを抽出し、
前記パターンに基づいて、前記所定時間ごとに前記複数の対象データ夫々を評価して前記指標を決定する、
請求項１乃至１１の何れか一項記載のデータ分析システム。
前記コントローラは、
前記対象データの少なくとも一部を構成する部分対象データを、当該対象データを分割することによって複数生成し、
前記抽出したパターンに基づいて前記複数の部分対象データを夫々評価し、
前記複数の部分対象データを評価して得られた前記指標を統合し、
前記統合した指標を用いて前記複数の対象データを夫々評価する、
請求項１乃至１２の何れか一項記載のデータ分析システム。
前記コントローラは、
前記構成要素と、当該構成要素を含む参照データを分類する前記分類情報との関係の強さに基づいて、当該構成要素に対する評価値を、前記度合いを評価した結果として算出し、
前記対象データの少なくとも一部の構成要素に対して算出された評価値に基づいて、当該対象データと前記所定の事案との関連性の高低を示すように前記指標を決定することによって、前記複数の対象データを評価する、
請求項１乃至１３の何れか一項記載のデータ分析システム。
前記コントローラは、
前記構成要素と、当該構成要素とは異なる他の構成要素とが、同一の参照データの少なくとも一部に出現する頻度に基づいて、当該構成要素と当該他の構成要素との相関を評価し、
前記相関にさらに基づいて前記複数の対象データを夫々評価する、
請求項１乃至１４の何れか一項記載のデータ分析システム。
前記コントローラは、
前記所定の事案に関係する所定行為の進展を予測可能なモデルに基づいて、前記複数の対象データを評価することによって決定した指標から、次の行為を提示する、
請求項１乃至１５の何れか一項記載のデータ分析システム。
前記コントローラは、
所定の行為が進展する各段階を示す指標であるフェーズごとに、前記複数の対象データを評価し、
前記複数の対象データを評価することによって前記フェーズごとに決定された指標から、現在のフェーズを特定する、
請求項１６記載のデータ分析システム。
前記対象データは、１以上のセンテンスを少なくとも一部に含む文書データであり、
前記コントローラは、
前記センテンスが有する構造を解析し、当該解析した結果に基づいて前記対象データに前記指標を決定する、請求項１乃至１７の何れか一項記載のデータ分析システム。
前記コントローラは、
前記センテンスが有する構造を解析した結果に基づいて、当該センテンスの表現形態を判定し、当該判定した結果に基づいて前記対象データを評価する、
請求項１８記載のデータ分析システム。
対象データを評価するデータ分析方法であって、
複数の対象データを評価基準に基づいてそれぞれ評価し、前記評価基準は、各対象データと所定の事案との関連性に対応する第１のステップと、
前記評価によって、前記複数の対象データの序列化を可能とする指標を生成し、当該指標を、ユーザが与えた入力に応じて変化させることができる第２のステップと、
前記第１のステップで評価される前記複数の対象データを少なくとも一時的に記憶する第３のステップと、
前記複数の対象データを序列化するための入力を前記ユーザに許容し、当該複数の対象データの序列は、前記入力に応じて変化する前記指標に応じて変化するものであり、前記入力は、前記複数の対象データとは異なる参照データを、当該参照データと前記所定の事案との関連性に基づいて分類するものであり、当該分類は、前記参照データの内容に応じて複数の分類情報に分けられたものであり、前記複数の分類情報のうちの少なくとも１つは、前記入力によって前記参照データに付与される第４のステップと、
前記参照データを前記ユーザに提示する第５のステップと、
前記ユーザの入力により、前記提示された参照データに対して与えられた前記少なくとも１つの分類情報と当該参照データとの組み合わせを提供するス第６のステップと、
当該参照データに含まれる複数の構成要素が前記提供された組み合わせにそれぞれ寄与する度合いを評価することによって、前記入力によって付与された分類情報に応じて当該参照データが特徴付けられるパターンを当該参照データから抽出する第７のステップと、
当該抽出したパターンを前記評価基準とし、当該パターンに基づいて、前記対象データと前記所定の事案との関連性を評価して前記指標を決定する第８のステップと、
当該決定された指標を当該対象データに設定する第９のステップと、
前記指標に応じた、前記複数の対象データの序列化を実行する第１０のステップと、
前記序列化した複数の対象データをユーザに報知する第１１のステップと、
を含む、データ分析方法。
請求項２０記載のデータ分析方法に含まれる各ステップを、コンピュータに実行させるデータ分析プログラム。
請求項２１に記載のデータ分析プログラムを記録したコンピュータ読み取り可能な記録媒体。