JPWO2017072822A1

JPWO2017072822A1 - 関連性評価システム、方法、プログラムおよび記録媒体

Info

Publication number: JPWO2017072822A1
Application number: JP2017547201A
Authority: JP
Inventors: 秀樹武田; 和巳蓮子
Original assignee: Fronteo Inc
Current assignee: Fronteo Inc
Priority date: 2015-10-30
Filing date: 2015-10-30
Publication date: 2018-07-26
Also published as: WO2017072822A1

Abstract

関連性評価システムは、基準データに対する被検データの関連性を評価する関連性評価システムであって、その関連性評価システムは、基準データと被検データとをそれぞれ取得するデータ取得部と、基準データのデータ構成要素のうち基準データの特徴を表す評価構成要素を、被検データから被検データのデータ構成要素の並び方向にしたがった出現順に、抽出する評価構成要素抽出部と、被検データの並び方向における前記被検データの評価構成要素の出現順に基づく特徴係数を計算する関連性評価部と、を備える。複数の被検データ群において特徴を表すスコア値に差異が無い場合でも、基準データ群に対して高い関連性を有する被検データ群を判断することが可能となる。

Description

この発明は、データ間の関連性を評価する関連性評価システム、方法、プログラムおよびそれを格納した記録媒体に関する。

たとえば、多くのデータ構成要素（たとえば、文書データの場合には「単語」等）で構成されるデータ集合体（以下、単に「データ」）は、その内容には必ず特徴を有している。構成されるデータ構成要素の個数が多数に及ぶデータにおいて、その内部を詳細に比較することなく、その特徴を客観的に評価することが必要となる場合がある。このような方法として、データのそれぞれにおいて、類似性を表す特性値を計算し、そのデータの類似度を比較する方法がある。

たとえば、この方法の例として、特許文献１は、類似文書検索の例を開示している。ここでは、あらかじめ多数の文書からなる文書集合において、記載内容を特徴づける特徴語を抽出し、特徴語の集合を作成する。そして、文書集合を構成する各文書に対して、特徴語について、基準となるデータ構成要素からの特徴ベクトルを算出し、格納しておく。続いて、入力文書において、特徴語との対比を行って類似度を計算し、スコア値の最も類似する文書が入力文書と最も近似するものと判断している。このように、類似文書検索の例では、基準となるデータに基づいて計算される類似度（以下、「スコア値」）を計算して、類似の程度を判定することが一般的である。特許文献１では、類似検索における類似度の程度の判定精度を上げるために、文法上の観点から重みづけを行っている。

特開２０１４−１０６６６５号公報

特許文献１に開示された方法のように、基準となるデータに対する複数のデータの関連性の高さを調べる一般的な手法では、同一のスコア値を有する複数のデータが発見された場合には、その複数のデータにおいて、どのデータが最も基準データと関連性が高いかについて、優劣を決定づけることができない。そのため、従来、データにおいて、関連度の高さを判定するためには、一般的に、データに対してスコア値の計算精度を向上させことにより関連度の高さの判定の精度を向上させることが一般的であった。

しかし、データの種類は、特許文書１に開示されたように文書データに限られるものではなく、画像データ、音声データなど様々な種類の形態素をデータ構成要素とするデータが考えられる。したがって、簡単な手法により、基準データに対するデータの関連性の度合いに差異を生じさせる指標が求められる。

基準データに対する被検データの関連性を評価する関連性評価システムであって、その関連性評価システムは、前記基準データと前記被検データとをそれぞれ取得するデータ取得部と、前記基準データの前記データ構成要素のうち前記基準データの特徴を表す評価構成要素を、前記被検データから前記被検データのデータ構成要素の並び方向にしたがった出現順に、抽出する評価構成要素抽出部と、前記被検データの前記並び方向における前記被検データの前記評価構成要素の出現順に基づく特徴係数を計算する関連性評価部と、を備える関連性評価システムにより解決する。

コンピュータを備える関連性評価システムにより、基準データと被検データとの関連性を評価する方法であって、前記基準データと前記被検データとをそれぞれ取得し、前記基準データの前記データ構成要素のうち前記基準データの特徴を表す評価構成要素を、前記被検データから前記被検データの前記データ構成要素の並び方向にしたがった出現順に、抽出し、前記被検データの前記並び方向における前記被検データの前記評価構成要素の出現順に基づく特徴係数を計算する関連性評価方法により解決する。

コンピュータを備える関連性評価システムにおいて実行可能な関連性評価プログラムであって、そのプログラムは基準データと被検データとの関連性を評価するものであって、前記プログラムは、前記基準データと前記被検データとをそれぞれ取得する工程と、前記基準データの前記データ構成要素のうち前記基準データの特徴を表す評価構成要素を、前記被検データから前記被検データの前記データ構成要素の並び方向にしたがった出現順に、抽出する工程と、前記被検データの前記並び方向における前記被検データの前記評価構成要素の出現順に基づく特徴係数を計算する工程と、を実行する関連性評価プログラムにより解決する。

コンピュータを備える関連性評価システムにおいて実行可能であって、基準データと被検データとの関連性を評価する関連性評価プログラムが格納されている記憶媒体であって、前記プログラムは、前記基準データと前記被検データとをそれぞれ取得する工程と、前記基準データの前記データ構成要素のうち前記基準データの特徴を表す評価構成要素を、前記被検データから前記被検データの前記データ構成要素の並び方向にしたがった出現順に、抽出する工程と、前記被検データの前記並び方向における前記被検データの前記評価構成要素の出現順に基づく特徴係数を計算する工程と、を実行する記憶媒体により解決する。

本発明により、二以上のデータに対して、基準データに最も近いデータを選定することが可能となる。

本発明の構成要素関連性評価システム１のハードウェア構成の図である。本発明における関連性の比較対象となる基準データＲと被検データＴを説明した図である。基準データＲを示した概念図である。被検データＴを示した概念図である。出現順を考慮した基準データＲの評価構成要素と、出現順を考慮した被検データＴの評価構成要素との対比を示した図である。本発明の実施の形態１の構成要素関連性評価システム１の機能ブロック図である。本発明の実施の形態１のプログラムのアルゴリズムを示した図である。本発明の実施の形態２のプログラムのアルゴリズムを示した図である。本発明の実施の形態３の構成要素関連性評価システム１の機能ブロック図である。本発明の実施の形態３のプログラムのアルゴリズムを示した図である。

（実施の形態１）
〔構成要素関連性評価システムのハードウェア構成〕
図１を参照して、本願発明の構成要素関連性評価システム（以下、単に「システム」とよぶ）について、説明する。図１は、システム１のハードウェア構成の一例である。システム１は、サーバ装置１０およびクライアント端末１１を有する。サーバ装置１０は、計算を行う演算装置１０ａとデータ格納用の記憶装置１０ｂを有する。

サーバ装置１０はデータ分析の主要処理を実行可能である。クライアント端末１１はサーバ装置１０におけるデータ分析の関連処理を実行可能である。記憶装置１０ｂは、例えば、データ（デジタルデータおよびアナログデータを含む）を格納可能な任意の記録媒体（例えば、メモリ、ハードディスクなど）である。演算装置１０ａは、記録媒体に格納された制御プログラムを実行可能なコントローラ（例えば、中央処理装置（ＣＰＵ））である。演算装置１０ａは、記録媒体に少なくとも一時的に格納されたデータを分析するコンピュータまたはコンピュータシステム（複数のコンピュータが統合的に動作することによってデータ分析を実現するシステム）である。なお、演算装置１０ａは、管理計算機（不図示）として、サーバ装置１０の外部装置という形態で構成させてもよく、記憶装置１０ｂは、データ格納サーバ装置１３として、サーバ装置１０の外部記憶装置の形態で構成させても良い。

管理計算機（不図示）は、例えば、メモリと、コントローラと、バスと、入出力インターフェースと、通信インターフェースとを備えてよい。なお、クライアント端末１１、サーバ装置１０、管理計算機（不図示）がそれぞれ備えるメモリには、クライアント端末１１、サーバ装置１０、管理計算機（不図示）の各装置を制御可能なアプリケーションプログラムが記憶されている。各コントローラがアプリケーションプログラムをそれぞれ実行することにより、アプリケーションプログラム（ソフトウェア資源）とハードウェア資源とが協働し、各装置が動作する。

記憶装置１０ｂは、例えば、ディスクアレイシステムから構成され、データと当該データに対する評価・分類の結果とを記録するデータベースを備えることができる。サーバ装置１０と記憶装置１０ｂとは、直接接続方式（ＤＡＳ）、または記憶装置領域ネットワーク（ＳＡＮ）によって接続される。

クライアント端末１１は、サーバ装置１０における処理プロセスの途中のデータをユーザに提示する。これにより、ユーザは、クライアント端末１１を介して、双方向のやり取りにより、入力を行う、すなわち分類情報を与えることができる。クライアント端末１１は、例えば、メモリと、コントローラと、バスと、入出力インターフェース（例えば、キーボード、ディスプレイなど）と、通信インターフェース（所定のネットワークを用いた通信手段によって、クライアント端末１１とサーバ装置１０とを通信可能に接続する）とを備えてよい。クライアント端末１１は、スキャナなどの入力装置１２を有するように構成させてもよい。

なお、図１に示されるハードウェア構成はあくまで例示に過ぎず、システム１は他のハードウェア構成によっても実現され得る。例えば、すべての処理の一部または全部がサーバ装置１０において実行される構成であってもよいし、その一部または全部がクライアント端末１１において実行される構成であってもよい。本実施例では、入力装置１２はクライアント端末１１に接続されて、サーバ装置１０に送信が可能な構成としているが、入力装置１２はサーバ装置１０に直接接続して、ここからサーバへ入力を行ってもよい。システム１を実現可能なハードウェア構成が多様に存在し得ることは、当業者に理解されるところであり、例えば、図１に例示した構成には限定されない。

〔構成要素関連性評価システムの関連性評価の原理〕
続いて、図２を参照して、本発明における構成要素関連性評価システムにおいて関連性評価の原理について説明する。図２は、本発明における関連性の比較対象となる基準データＲと被検データＴを説明した図である。本発明における構成要素関連性評価では、2以上の被検データＴ（本実施例では被検データＴ１と被検データＴ２）が、基準データＲとの関連性が高いか否かを判定するものである。関連性評価のための指標としての特徴係数を算定し、それによって関連性の高さを評価する。被検データＴ１，Ｔ２も基準データＲも、いずれもデータ構成要素の集合体である。すなわち、被検データＴ１，Ｔ２は複数の単位データｔ１により、被検データＴ２は複数のデータ構成要素ｔ２により、基準データＲは複数のデータ構成要素ｒにより構成されている。被検データＴも基準データＲのデータの種類は特に限定されない。文書データでもよいし、画像データ、音声データなど、単位データの集合体である限りあらゆるデータの集合体が対象となる。したがって、データ構成要素としては、文書を構成する形態素、キーワード、センテンス、段落、および／またはメタデータ（例えば、電子メールのヘッダ情報）であったり、音声を構成する部分音声、ボリューム（ゲイン）情報、および／または音色情報であったり、画像を構成する部分画像、部分画素、および／または輝度情報であったり、映像を構成するフレーム画像、モーション情報、および／または３次元情報となる。

すなわち、たとえば、被検データＴおよび基準データＲを、文書データと仮定すれば、データ構成要素は、それを構成する単語、フレーズを代表例とするテキストデータとなる。被検データＴおよび基準データＲにおいて、データの種類は同一であることが代表的であるが、必ずしも同一である必要はない。たとえば、基準データＲが文書データであって、データ構成要素が単語である場合に、被検データＴが音声データである場合には、文字としてのデータ構成要素と、音声としての単語データの比較により、関連性の高さを評価することができる。

続いて、図３から図５を参照して、本発明における構成要素関連性評価システムにおける関連性評価の原理について説明する。図３は、データ構成要素を示した図である。まず、基準データＲを構成するデータ構成要素の並び方向を定義づける。基準データＲの内容を評価する上で必要となる並び方向を決定する。図３に示した例では、左から右に向かってデータ構成要素の並び方向が決定され、最も右のデータ構成要素の次は、一段下がった行の最も左のデータが割り当てられ、その位置から右に向かうように並び方向を決定している。単純な例として、文書データの場合には、文字列の順序が並び方向となる。しかし、画像データなどの場合には、評価上最も適切な並び方向を決定する。

続いて、基準データＲを構成するデータ構成要素の中から、基準データＲの内容の特徴を最もよく表す複数のデータ構成要素を評価構成要素として、予め定義した単位データの並び方向に従った出現順に抽出する。図４に示す例では、５つの評価構成要素ｍ１，ｍ２，ｍ３，ｍ４，ｍ５が選択されている。評価構成要素の選択およびその出現順は、基準データＲの内容の特徴を最も的確に表すように選択する。基準データＲの評価構成要素ｍ１，ｍ２，ｍ３，ｍ４，ｍ５と、それらの出現順は、被検データＴの関連性を評価する上で、予め定める基準として機能する。

次に、被検データＴについて、基準データＲとの関連性の高さの評価について説明する。図４は、被検データＴを示した図である。まず、基準データＲの場合と同様に、被検データＴを構成するデータ構成要素の並び方向を判定する。被検データＴの内容を評価する上で必要となる並び方向を決定する。図４に示した例では、図３と同様に、左から右に向かってデータ構成要素の並び方向が判定され、最も右のデータ構成要素の次は、一段下がった行の最も左のデータが割り当てられ、その位置から右に向かうように並び方向を決定している。次に、被検データＴにおいて、基準データＲにおいて予め定義していた評価構成要素ｍ１，ｍ２，ｍ３，ｍ４，ｍ５を、その出現順に検出する。図４の例では、被検データＴでは、出現順に、評価構成要素に対応する被検データＴのデータ構成要素ｍ１，ｍ４，ｍ３，ｍ２が、この出現順に検出されている。評価構成要素ｍ５に対応する被検データＴのデータ構成要素は検出されていない。すなわち、基準データＲにおいて予め定義していた５つの評価構成要素ｍ１，ｍ２，ｍ３，ｍ４，ｍ５のうち、被検データＴでは、データ構成要素ｍ１，ｍ２，ｍ３，ｍ４が抽出され、その出現順は、ｍ１，ｍ４，ｍ３，ｍ２となっている。

次に、被検データＴでは、出現順に検出された評価構成要素ｍ１，ｍ４，ｍ３，ｍ２と、基準データＲにおける出現順と、を比較して、基準データＲに対する被検データＴの関連性を調べる。図５は、出現順を考慮した基準データＲの評価構成要素ｍ１，ｍ２，ｍ３，ｍ４，ｍ５（図５上側）と、出現順を考慮した被検データＴの評価構成要素ｍ１，ｍ４，ｍ３，ｍ２（図５下側）との対比を示している。ここで、関連性の高さを示す指標である特性係数（Order）を以下のように定義する。

特性係数（Order）は、「被検データＴで検出された評価構成要素から２個を選択する組合せ数」に対する「被検データＴで検出された評価構成要素から選択された２個の組み合せのうち、基準データＲの評価構成要素の出現順と同じ組み合せ数」の割合である。すなわち、分母は、被検データＴで検出された評価構成要素の数をＮとすると、被検データTで検出された評価構成要素のうち、２つの評価構成要素の組合せ数は、Ｎ（Ｎ−１）／２通りとなる。たとえば、図４および図５の例では、被検データＴでは４つの評価構成要素ｍ１，ｍ２，ｍ３，ｍ４が検出されているので、６通りとなる。具体的には、（ｍ１，ｍ２），（ｍ１，ｍ３），（ｍ１，ｍ４），（ｍ２，ｍ３），（ｍ２，ｍ４），（ｍ３，ｍ４）の組み合わせとなる。

そして、分子は、その組み合せの総数のうち、被検データＴで検出された評価構成要素から選択された2個の組み合せのうち、基準データＲの評価構成要素の出現順が同じものの数を計算する。ここでは、出現順のみを考慮し、構成要素間に別の構成要素が出現することは評価の対象としない。図４および図５の例では、前記の組み合せのうち、基準データＲと出現順が同じものは、（ｍ１，ｍ２），（ｍ１，ｍ３），（ｍ１，ｍ４）の３通りである。ｍ１とｍ３との間に、ｍ４が存在することは評価の対象とはしない。したがって、この場合には、特性係数（Order）は、0.5となる。

仮に、基準データＲと完全に同一のデータの場合には、評価構成要素から選択される２個の組み合せのすべてにおいて出現順が同一であるから、T(N)／F(N)=１．０となる。すなわち、被検データＴにおける評価構成要素の出現順が基準データＲと同じものが多ければ多いほど、被検データＴと基準データＲとの関連性が高く、特性係数（Order）は１に近くなる。一方、被検データＴと基準データＲとの関連性が低い場合には、特性係数（Order）は０に近くなる。したがって、特性係数（Order）がより大きければ、被検データＴと基準データＲとの関連性は高く、特性係数（Order）がより大きければ、被検データＴと基準データＲとの関連性は低いということがいえる。特徴係数は、０≦特徴係数（Order）≦１を満たす。

〔構成要素関連性評価システムの機能ブロック構成〕
図６は、システム１の機能ブロック構成の一例を示した図である。システム１は、例えば、基準データ取得部２１、被検データ取得部２２、並び方向判定部２３、評価構成要素抽出部２４、構成要素格納部２５、および構成要素関連性評価部２６を備える。基準データ取得部２１から並び方向判定部２３と評価構成要素抽出部２４を介して構成要素格納部２５にいたる経路が、基準データＲについての学習プロセスとなる。一方、被検データ取得部２２から並び方向判定部２３と評価構成要素抽出部２４を介して構成要素関連性評価部２６にいたる経路が、被検データＴについて、基準データＲに対しての関連性評価のプロセスとなる。

基準データ取得部２１は、入力装置１２またはクライアント端末１１から入力された基準データ、またはすでに記憶装置１０ｂに格納されている基準データＲを構成する全てのデータ構成要素を取得する。

基準データ取得部２１および被検データ取得部２２は、全てのデータ構成要素を取得すると、それらのデータを並び方向判定部２３に出力し、それらのデータ構成要素の並び方向を決定してデータ構成要素を関連付ける。並び方向が関連づけられた全てのデータ構成要素は、評価構成要素抽出部２４に出力される。なお、並び方向の判定は、データによっては、基準データ取得部２１および被検データ取得部２２において、データを取得した際のデータの並び方向をそのまま利用することで、省略することもできる。この場合、並び方向判定部２３は、不要となる。また、並び方向の判定を、基準データ取得部２１および被検データ取得部２２で行っても良いし、評価構成要素抽出部２４で行っても良い。評価構成要素抽出部２４では、基準データＲの内容的特徴を最も代表的に表す構成要素群を抽出する。評価構成要素抽出部２４のプロセスでは、ユーザがクライアント端末１１を用いて、構成要素群を選択できる。ここで、「構成要素群」とは、データ構成要素の群である。評価構成要素抽出部２４において選定された「構成要素群」は、構成要素格納部２５に出力される。構成要素格納部２５は、「構成要素群」を、記憶装置１０ｂまたはデータ格納サーバ装置１３に格納する。

評価構成要素抽出部２４では、並び方向が決定された基準データＲを構成するデータ構成要素から、評価構成要素ｍ１，ｍ２，ｍ３，ｍ４，ｍ５を抽出する。評価構成要素抽出部２４が抽出する評価構成要素の数は、基準データＲの特徴に応じて、任意に定められる。評価構成要素抽出部２４は、抽出した評価構成要素ｍ１，ｍ２，ｍ３，ｍ４，ｍ５を、構成要素格納部２５に出力する。構成要素格納部２５は、記憶装置１０ｂまたはデータ格納サーバ装置１３に格納する。以上が、関連性評価の学習プロセスである。

続いて、被検データＴについて、基準データＲに対する関連性評価プロセスを説明する。並び方向判定部２３および評価構成要素抽出部２４についての上記説明は、被検データＴについて、基準データＲに対しての関連性評価の評価プロセスでも同様に機能する。すなわち、図６に示すように、被検データ取得部２２も、基準データ取得部２１と同様に、入力装置１２またはクライアント端末１１から入力された被検データＴ、またはすでに記憶装置１０ｂに格納されている被検データＴを構成する全てのデータ構成要素を取得する。

被検データ取得部２２は、全てのデータ構成要素を取得すると、それらのデータを並び方向判定部２３に出力する。基準データ取得部２１と被検データ取得部２２とは、別々の構成とする必要はなく、同一のデータ取得部とすることができる。並び方向判定部２３は、それらの並び方向を判定してデータ構成要素を関連付ける。並び方向が関連づけられた全てのデータ構成要素は、評価構成要素抽出部２４に出力される。評価構成要素抽出部２４は、記憶装置１０ｂまたはデータ格納サーバ装置１３に格納された構成要素格納部２５は、記憶装置１０ｂまたはデータ格納サーバ装置１３に格納されている評価構成要素を、並び方向が関連づけられた被検データＴの全てのデータ構成要素から抽出する。すべての評価構成要素が抽出されるわけではなく、被検データＴのデータ構成要素のうち、基準データＲにおける学習プロセスで選定された評価構成要素に対応するものを、出現順に抽出する。図４の例では、評価構成要素抽出部２４により、評価構成要素を並び方向にしたがってｍ１，ｍ４，ｍ３，ｍ２の出現順に抽出される。抽出された評価構成要素ｍ１，ｍ４，ｍ３，ｍ２は、構成要素関連性評価部２６に出力される。構成要素関連性評価部２６は、前述の特性係数（Order）を計算する。

また、構成要素関連性評価部２６は、評価構成要素抽出部２４から入力された構成要素に対応付けられた評価値を任意のメモリ（例えば、記憶装置１０ｂ）から読み出し、その評価値に基づいて対象データを評価する。評価値とは、基準データＲにおいて選択される評価構成要素のそれぞれについて、それらの特徴に応じて予め設定しておく重みづけ値である。より具体的には、構成要素関連性評価部２６は、例えば、対象データの少なくとも一部を構成する構成要素に対応付けられた評価値を合算することによって、当該対象データの指標（例えば、対象データを序列化可能にする数値、文字、および／または記号であってよい）を導出することができる。この指標として、たとえば、スコア値を使用することができる。ここで、スコア値（Score）とは、これら基準データＲのデータ構成要素に対する被検データＴの関連性の強さを定量的に評価する指標である。基準データＲのデータ構成要素に対する被検データＴの関連性の強さを定量的に表すことができる限り、スコア値（Score）の算出方法は問わない。スコア値の算出方法は、基準データＲの内容を適切に評価できる限り、一般的な手法によればよい。たとえば、一例としては、基準データＲにおいて抽出した評価構成要素ごとに定めた評価構成要素の評価値に対して、被検データＴにおいてその評価構成要素が出現する頻度として以下の式のように、表すことができる。構成要素関連性評価部２６は、被検データＴとスコア値とを対応付け、両者を記憶装置１０ｂに格納することが可能である。

なお、上記において、「部」と表記した構成は、システム１が備えたコントローラが、プログラムを実行することによって実現する機能構成であるため、「部」を、「処理」または「機能」と言い換えてもよい。また、「部」をハードウェア資源によって代替することもできるため、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組み合わせによって多様な形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。

〔構成要素関連性評価システムで実行するプログラムのアルゴリズム構成〕
続いて、上記機能についてシステム１で実行するプログラムのアルゴリズムを説明する。まず、基準データＲを取り込む（S101）。続いて、読み込んだ基準データＲについて、データ構成要素の並び方向を決定する（S102）。データ構成要素の並び方向が決定された基準データＲにおいて、データ構成要素の中から基準データＲの内容の特徴を最もよく表す複数のデータ構成要素を、予め定義した並び方向に従った出現順とともに抽出し、関連性評価のための評価構成要素群として定義する（S103）。抽出された評価構成要素群とその出現順のデータを記憶装置１０ｂに格納する（S104）。以上が関連性評価のための基準データＲによる学習プロセスである。これに続いて、被検データＴについての基準データＲに対する関連性評価プロセスが進む。まず、被検データＴを取り込む（S105）。続いて、被検データＴを構成するデータ構成要素の並び方向を決定する（S106）。並び方向が決定された被検データＴから、予め学習プロセスにおいて決定していた関連性評価のための評価構成要素を抽出する（S107）。抽出された被検データＴの中の評価構成要素について、基準データＲにおける出現順と同じものを抽出する（S108）。続いて、前記被検データの前記並び方向における前記被検データの前記評価構成要素の出現順に基づく特徴係数を計算する。特徴係数は、抽出された被検データＴの評価構成要素のうち、選択された２個の組み合わせの出現順が予め定義された基準データＲの評価構成要素の出現順との合致の程度を計算することが可能である。すなわち、合致の程度は、たとえば合致率として、前記の特徴係数（Order）に対応することができる。たとえば、抽出された被検データＴの評価構成要素のうち選択された２個の組み合せの総数において、その出現順が合致するものには「１」を付与し、合致しないものには「０」を付与する。前記の通り、出現順のみを考慮し、構成要素間に別の構成要素が出現することは評価の対象としない。そして、特徴係数(Order) ＝（１が付与された頻度）／（２個の組み合せ総数）を算出する（S109）。

上記により、たとえば、スコア値（Score）が同一または非常に近似する２以上の被検データＴが存在する場合に、従前はスコア値（Score）のみでは基準データＲとの関連性の高さが判定できなかったところ、本発明では、特徴係数(Order)を計算することによって、特性係数の大きいほうが基準データＲとの関連性が高いことを判定できることになる。たとえば、図2の場合、基準データＲに対する被検データＴ１および被検データＴ２のスコア値がいずれも７０であるときに、基準データＲに対する被検データＴ１および被検データＴ２の特徴係数(Order)が、それぞれ０．６と０．８のとすると、被検データＴ２のほうが基準データＲに対する関連性が高いと判断することが可能となる。

また、スコア値が同一ではない場合、非常に近似する２以上の被検データＴが存在する場合に、一の軸をスコア値に割り当て、他の軸を特徴係数(Order)に割り当てた分布図をディスプレイやプリンタなどの表示手段に表示させることにより、「スコア値」と「特徴係数」という２つの要素で、基準データＲに対する被検データＴの関連性を容易に判断できる情報をユーザに提供させることも可能である。

（実施の形態２）
上記の実施の形態１におけるシステム１では、特徴係数(Order)を演算するシステム１によって判断を行う形態について説明した。しかし、特徴係数(Order)をスコア値の補正に使用することで、被検データＴの関連性の高さを補正されたスコア値で評価することが可能となる。以下、これにつき、実施の形態２として説明する。

実施の形態２も、ハードウェア構成としてのシステム１および機能ブロック図は実施の形態と同じであるので、ここでは異なる部分について、図６と図８を参照して説明する。図８は、実施の形態２のプログラムのアルゴリズムを示している。実施の形態１では、図６における機能ブロックにおける構成要素関連性評価部２６では、特徴係数(Order)の計算のみを行った。しかし、実施の形態２では、構成要素関連性評価部２６は、特徴係数(Order)を予め計算されている被検データＴについてのスコア値の補正値として計算する。図８は実施の形態２についてのプログラムのアルゴリズムである。図８において、基準データＲを取り込むステップ（S201）から特徴係数（Order）を計算するステップ（S209）までは、実施の形態１のステップS101からステップS109までと同じである。

実施の形態２では、構成要素関連性評価部２６は、特徴係数(Order)を計算した後に、下記のように、予め被検データＴに対して計算されていたスコア値（Score ^RAW）を計算する（S210）。スコア値の算出方法は、実施の形態１で述べた通り、基準データＲの内容を適切に評価できる限り、一般的な手法によればよい。

実施の形態２では、特に、スコア値が非常に近似するが同一ではない２以上の被検データＴが存在すると、特徴係数(Order)が大きかったとしてもスコア値が異なるため比較が困難になる場合がある。このような場合には、特徴係数により補正されたスコア値を使用することで、補正されたスコア値の大きいほうが基準データＲとの関連性が高いという判定ができることになる。

たとえば、図２の場合、基準データＲに対する被検データＴ１および被検データＴ２のスコア値（Score ^RAW）がそれぞれ７２と７１であるときに、基準データＲに対する被検データＴ１および被検データＴ２の特徴係数(Order)が、それぞれ０．６５と０．６７のとすると、特徴係数により補正されたスコア値は、それぞれ、４５．５と４６．９となる。この結果、スコア値は被検データＴ２のほうが高いものの、被検データＴ２のほうが基準データＲに対する関連性が高いと判断することが可能となる。

（実施の形態３）
上記の実施の形態２におけるシステム１では、基準データＲに対する被検データＴ１および被検データＴ２のスコア値（Score ^RAW）を、特徴係数(Order)とは別に算出している。すなわち、スコア値を算出するための評価構成要素群と、特徴係数(Order)とが、異なっている場合に使用できる形態である。実施の形態３では、基準データＲで予め決定した共通の評価構成要素により、スコア値の算出と特徴係数の算出とを、一連のプロセスで実施するものである。以下、これにつき、実施の形態３として説明する。

図９は、実施の形態３のシステム１の機能ブロック構成の一例を示した図である。システム１は、実施の形態１と同じく、基準データ取得部２１、被検データ取得部２２、並び方向判定部２３、評価構成要素抽出部２４、構成要素格納部２５を具備する。これらについては、実施の形態１と同じであるため、説明を省略する。これらに加え、実施の形態３では、さらに、構成要素関連性評価部２６と、スコア値算出部２７と、スコア値補正部２８と、を備えている。

図９は、実施の形態３のシステム１の機能ブロック構成の一例を示した図である。システム１は、実施の形態１と同じく、基準データ取得部２１、被検データ取得部２２、並び方向判定部２３、評価構成要素抽出部２４、構成要素格納部２５を具備する。これらについては、実施の形態１と同様であるため、異なる部分についてのみ説明を行う。これらに加え、実施の形態３では、さらに、構成要素関連性評価部２６と、スコア値算出部２７と、スコア値補正部２８と、を備えている。評価構成要素抽出部２４は、基準データＲの内容を最も適格に表わす評価構成要素群を抽出し、それをＮ個のグループに分類する。スコア値算出部２７は、Ｎ個のグループのそれぞれについて、スコア値（Score(i)^RAW）算出する。スコア値の算出方法は、基準データＲの内容を適切に評価できる限り、一般的な手法によればよい。構成要素関連性評価部２６は、各評価構成要素群のグループについて、実施の形態１における方法で、選択される２つの組み合せにおける出現順が基準データＲと同じものの割合である特徴係数(Order)を計算する。特徴係数(Order)の算出方法は、実施の形態１で説明したとおりである。そして、スコア値補正部２８はグループごとに、スコア値（Score(i)^RAW）と特徴係数(Order)とを乗じて、以下のようにその総和を計算する。

続いて、図１０を参照して、実施の形態３についてのアルゴリズムについて説明する。図１０は、実施の形態３におけるアルゴリズムを示している。まず、基準データＲを取り込む（S301）。続いて、読み込んだ基準データＲについて、データ構成要素の並び方向を決定する（S302）。データ構成要素の並び方向が決定された基準データＲにおいて、データ構成要素の中から基準データＲの内容の特徴を最もよく表す複数のデータ構成要素を、予め定義した並び方向に従った出現順とともに抽出し、関連性評価のための評価構成要素として定義する。この時、評価構成要素群をＮ個のグループに分類する（S303）。抽出された評価構成要素とその出現順のデータを記憶装置１０ｂに格納する（S304）。以上が関連性評価のための基準データＲによる学習プロセスである。これに続いて、被検データＴについての基準データＲに対する関連性評価プロセスが進む。まず、被検データを取り込む（S305）。続いて、被検データＴを構成するデータ構成要素の並び方向を決定する（S306）。並び方向が判定された被検データＴから、予め学習プロセスにおいて決定していた関連性評価のための評価構成要素を抽出する（S307）。評価構成要素のＮ個のグループのグループごとに、スコア値（Score(i)^RAW）を算出する(S308)。一方、そのＮ個の評価構成要素のグループの各々において、基準データＲにおける出現順と同じものを抽出する。抽出された被検データＴの評価構成要素群のうち、選択された２個の組み合わせの出現順が予め定義された基準データＲの評価構成要素群の出現順との合致の程度を取得する。合致の程度は、たとえば、合致率として、前記の特徴係数（Order）とすることができる。たとえば、抽出された被検データＴの評価構成要素群のうち選択された２個の組み合せの総数において、その出現順が合致するものには「１」を付与し、合致しないものには「０」を付与する(S309)。前記の通り、出現順のみを考慮し、構成要素間に別の構成要素が出現することは評価の対象としない。そして、特徴係数(Order) ＝（１が付与された頻度）／（２個の組み合せ総数）を算出する（S310）。各グループにおいて、スコア値（Score(i)^RAW）と特徴係数(Order)とを乗じて、その総和を計算する(S311)。

上記により、スコア値（Score(i)^RAW）と特徴係数(Order)とを同じ評価構成要素群によって計算を行うため、計算のプロセスが簡易となり、スコア値の計算が容易になる。補正されたスコア値による判断は、実施の形態１および実施の形態２と同一である。

〔ソフトウェア・ハードウェアによる実現例〕
データ分析システムの制御ブロックは、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵを用いてソフトウェアによって実現してもよい。後者の場合、上記システムは、各機能を実現するソフトウェアであるプログラム（データ分析システムの制御プログラム）を実行するＣＰＵ、当該プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、当該プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、当該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。なお、上記プログラムは、任意のプログラミング言語によって実装可能である。また、上記プログラムを記録した任意の記録媒体も、本発明の範疇に入る。

〔他のアプリケーション例〕
上記システムは、例えば、ディスカバリ支援システム、フォレンジックシステム、電子メール監視システム、医療応用システム（例えば、ファーマコビジランス支援システム、治験効率化システム、医療リスクヘッジシステム、転倒予測（転倒防止）システム、予後予測システム、診断支援システムなど）、インターネット応用システム（例えば、スマートメールシステム、情報アグリゲーション（キュレーション）システム、ユーザ監視システム、ソーシャルメディア運営システムなど）、情報漏洩検知システム、プロジェクト評価システム、マーケティング支援システム、知財評価システム、不正取引監視システム、コールセンターエスカレーションシステム、信用調査システムなど、ビッグデータを分析する人工知能システム（データと所定の事案との関連性を評価可能な任意のシステム）として実現され得る。なお、本発明のデータ分析システムが応用される分野によっては、当該分野に特有の事情を考慮して、例えば、データに前処理（例えば、当該データから重要箇所を抜き出し、当該重要箇所のみをデータ分析の対象とするなど）を施したり、データ分析の結果を表示する態様を変化させたりしてよい。こうした変形例が多様に存在し得ることは、当業者に理解されるところであり、すべての変形例が本発明の範疇に入る。

本発明は上述したそれぞれの実施の形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施の形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても、本発明の技術的範囲に含まれる。さらに、各実施の形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成できる。

１システム
１０サーバ装置
１１クライアント端末
１２入力装置
１３データ格納サーバ装置
２１基準データ取得部
２２被検データ取得部
２３並び方向判定部
２４評価構成要素抽出部
２５構成要素格納部
２６構成要素関連性評価部
２７スコア値算出部
２８スコア値補正部

Claims

基準データに対する被検データの関連性を評価する関連性評価システムであって、その関連性評価システムは、
前記基準データと前記被検データとをそれぞれ取得するデータ取得部と、
前記基準データの前記データ構成要素のうち前記基準データの特徴を表す評価構成要素を、前記被検データから前記被検データのデータ構成要素の並び方向にしたがった出現順に、抽出する評価構成要素抽出部と、
前記被検データの前記並び方向における前記被検データの前記評価構成要素の出現順に基づく特徴係数を計算する関連性評価部と、を備える関連性評価システム。
請求項１に記載の関連性評価システムであって、
前記特徴係数は、前記被検データの前記評価構成要素から選択された構成要素の２つの組み合せの総数に対する、前記総数のうち前記基準データにおける出現順と同じ出現順の評価構成要素の２つの組み合せ出現数の割合である関連性評価システム。
請求項１に記載の関連性評価システムであって、
前記関連性評価部は、前記被検データのスコア値に、前記特徴係数を乗じる演算を行う関連性評価システム。
請求項１に記載の関連性評価システムであって、
前記評価構成要素抽出部は、抽出した前記被検データの前記評価構成要素を複数のグループに分類し、
前記関連性評価システムは、前記複数のグループのそれぞれについて、抽出した前記評価構成要素に基づいてスコア値を算出するスコア値算出部を備え、
前記関連性評価部は、前記複数のグループのそれぞれについて、前記特徴係数を計算し、
前記関連性評価システムは、前記複数のグループのそれぞれについて、前記スコア値と、前記特徴係数とを乗じて、前記複数のグループのすべてについてその乗じた数の総和を計算するスコア値補正部とを備える関連性評価システム。
コンピュータを備える関連性評価システムにより、基準データと被検データとの関連性を評価する方法であって、
前記基準データと前記被検データとをそれぞれ取得し、
前記基準データの前記データ構成要素のうち前記基準データの特徴を表す評価構成要素を、前記被検データから前記被検データの前記データ構成要素の並び方向にしたがった出現順に、抽出し、
前記被検データの前記並び方向における前記被検データの前記評価構成要素の出現順に基づく特徴係数を計算する関連性評価方法。
コンピュータを備える関連性評価システムにおいて実行可能な関連性評価プログラムであって、そのプログラムは基準データと被検データとの関連性を評価するものであって、前記プログラムは、
前記基準データと前記被検データとをそれぞれ取得する工程と、
前記基準データの前記データ構成要素のうち前記基準データの特徴を表す評価構成要素を、前記被検データから前記被検データの前記データ構成要素の並び方向にしたがった出現順に、抽出する工程と、
前記被検データの前記並び方向における前記被検データの前記評価構成要素の出現順に基づく特徴係数を計算する工程と、を実行する関連性評価プログラム。
コンピュータを備える関連性評価システムにおいて実行可能であって、基準データと被検データとの関連性を評価する関連性評価プログラムが格納されている記憶媒体であって、前記プログラムは、
前記基準データと前記被検データとをそれぞれ取得する工程と、
前記基準データの前記データ構成要素のうち前記基準データの特徴を表す評価構成要素を、前記被検データから前記被検データの前記データ構成要素の並び方向にしたがった出現順に、抽出する工程と、
前記被検データの前記並び方向における前記被検データの前記評価構成要素の出現順に基づく特徴係数を計算する工程と、を実行する記憶媒体。