JPWO2017072822A1 - 関連性評価システム、方法、プログラムおよび記録媒体 - Google Patents

関連性評価システム、方法、プログラムおよび記録媒体 Download PDF

Info

Publication number
JPWO2017072822A1
JPWO2017072822A1 JP2017547201A JP2017547201A JPWO2017072822A1 JP WO2017072822 A1 JPWO2017072822 A1 JP WO2017072822A1 JP 2017547201 A JP2017547201 A JP 2017547201A JP 2017547201 A JP2017547201 A JP 2017547201A JP WO2017072822 A1 JPWO2017072822 A1 JP WO2017072822A1
Authority
JP
Japan
Prior art keywords
data
evaluation
test data
relevance
components
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017547201A
Other languages
English (en)
Inventor
秀樹 武田
秀樹 武田
和巳 蓮子
和巳 蓮子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fronteo Inc
Original Assignee
Fronteo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fronteo Inc filed Critical Fronteo Inc
Publication of JPWO2017072822A1 publication Critical patent/JPWO2017072822A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

関連性評価システムは、基準データに対する被検データの関連性を評価する関連性評価システムであって、その関連性評価システムは、基準データと被検データとをそれぞれ取得するデータ取得部と、基準データのデータ構成要素のうち基準データの特徴を表す評価構成要素を、被検データから被検データのデータ構成要素の並び方向にしたがった出現順に、抽出する評価構成要素抽出部と、被検データの並び方向における前記被検データの評価構成要素の出現順に基づく特徴係数を計算する関連性評価部と、を備える。複数の被検データ群において特徴を表すスコア値に差異が無い場合でも、基準データ群に対して高い関連性を有する被検データ群を判断することが可能となる。

Description

この発明は、データ間の関連性を評価する関連性評価システム、方法、プログラムおよびそれを格納した記録媒体に関する。
たとえば、多くのデータ構成要素(たとえば、文書データの場合には「単語」等)で構成されるデータ集合体(以下、単に「データ」)は、その内容には必ず特徴を有している。構成されるデータ構成要素の個数が多数に及ぶデータにおいて、その内部を詳細に比較することなく、その特徴を客観的に評価することが必要となる場合がある。このような方法として、データのそれぞれにおいて、類似性を表す特性値を計算し、そのデータの類似度を比較する方法がある。
たとえば、この方法の例として、特許文献1は、類似文書検索の例を開示している。ここでは、あらかじめ多数の文書からなる文書集合において、記載内容を特徴づける特徴語を抽出し、特徴語の集合を作成する。そして、文書集合を構成する各文書に対して、特徴語について、基準となるデータ構成要素からの特徴ベクトルを算出し、格納しておく。続いて、入力文書において、特徴語との対比を行って類似度を計算し、スコア値の最も類似する文書が入力文書と最も近似するものと判断している。このように、類似文書検索の例では、基準となるデータに基づいて計算される類似度(以下、「スコア値」)を計算して、類似の程度を判定することが一般的である。特許文献1では、類似検索における類似度の程度の判定精度を上げるために、文法上の観点から重みづけを行っている。
特開2014−106665号公報
特許文献1に開示された方法のように、基準となるデータに対する複数のデータの関連性の高さを調べる一般的な手法では、同一のスコア値を有する複数のデータが発見された場合には、その複数のデータにおいて、どのデータが最も基準データと関連性が高いかについて、優劣を決定づけることができない。そのため、従来、データにおいて、関連度の高さを判定するためには、一般的に、データに対してスコア値の計算精度を向上させことにより関連度の高さの判定の精度を向上させることが一般的であった。
しかし、データの種類は、特許文書1に開示されたように文書データに限られるものではなく、画像データ、音声データなど様々な種類の形態素をデータ構成要素とするデータが考えられる。したがって、簡単な手法により、基準データに対するデータの関連性の度合いに差異を生じさせる指標が求められる。
基準データに対する被検データの関連性を評価する関連性評価システムであって、その関連性評価システムは、前記基準データと前記被検データとをそれぞれ取得するデータ取得部と、前記基準データの前記データ構成要素のうち前記基準データの特徴を表す評価構成要素を、前記被検データから前記被検データのデータ構成要素の並び方向にしたがった出現順に、抽出する評価構成要素抽出部と、前記被検データの前記並び方向における前記被検データの前記評価構成要素の出現順に基づく特徴係数を計算する関連性評価部と、を備える関連性評価システムにより解決する。
コンピュータを備える関連性評価システムにより、基準データと被検データとの関連性を評価する方法であって、前記基準データと前記被検データとをそれぞれ取得し、前記基準データの前記データ構成要素のうち前記基準データの特徴を表す評価構成要素を、前記被検データから前記被検データの前記データ構成要素の並び方向にしたがった出現順に、抽出し、前記被検データの前記並び方向における前記被検データの前記評価構成要素の出現順に基づく特徴係数を計算する関連性評価方法により解決する。
コンピュータを備える関連性評価システムにおいて実行可能な関連性評価プログラムであって、そのプログラムは基準データと被検データとの関連性を評価するものであって、前記プログラムは、前記基準データと前記被検データとをそれぞれ取得する工程と、前記基準データの前記データ構成要素のうち前記基準データの特徴を表す評価構成要素を、前記被検データから前記被検データの前記データ構成要素の並び方向にしたがった出現順に、抽出する工程と、前記被検データの前記並び方向における前記被検データの前記評価構成要素の出現順に基づく特徴係数を計算する工程と、を実行する関連性評価プログラムにより解決する。
コンピュータを備える関連性評価システムにおいて実行可能であって、基準データと被検データとの関連性を評価する関連性評価プログラムが格納されている記憶媒体であって、前記プログラムは、前記基準データと前記被検データとをそれぞれ取得する工程と、前記基準データの前記データ構成要素のうち前記基準データの特徴を表す評価構成要素を、前記被検データから前記被検データの前記データ構成要素の並び方向にしたがった出現順に、抽出する工程と、前記被検データの前記並び方向における前記被検データの前記評価構成要素の出現順に基づく特徴係数を計算する工程と、を実行する記憶媒体により解決する。
本発明により、二以上のデータに対して、基準データに最も近いデータを選定することが可能となる。
本発明の構成要素関連性評価システム1のハードウェア構成の図である。 本発明における関連性の比較対象となる基準データRと被検データTを説明した図である。 基準データRを示した概念図である。 被検データTを示した概念図である。 出現順を考慮した基準データRの評価構成要素と、出現順を考慮した被検データTの評価構成要素との対比を示した図である。 本発明の実施の形態1の構成要素関連性評価システム1の機能ブロック図である。 本発明の実施の形態1のプログラムのアルゴリズムを示した図である。 本発明の実施の形態2のプログラムのアルゴリズムを示した図である。 本発明の実施の形態3の構成要素関連性評価システム1の機能ブロック図である。 本発明の実施の形態3のプログラムのアルゴリズムを示した図である。
(実施の形態1)
〔構成要素関連性評価システムのハードウェア構成〕
図1を参照して、本願発明の構成要素関連性評価システム(以下、単に「システム」とよぶ)について、説明する。図1は、システム1のハードウェア構成の一例である。システム1は、サーバ装置10およびクライアント端末11を有する。サーバ装置10は、計算を行う演算装置10aとデータ格納用の記憶装置10bを有する。
サーバ装置10はデータ分析の主要処理を実行可能である。クライアント端末11はサーバ装置10におけるデータ分析の関連処理を実行可能である。記憶装置10bは、例えば、データ(デジタルデータおよびアナログデータを含む)を格納可能な任意の記録媒体(例えば、メモリ、ハードディスクなど)である。演算装置10aは、記録媒体に格納された制御プログラムを実行可能なコントローラ(例えば、中央処理装置(CPU))である。演算装置10aは、記録媒体に少なくとも一時的に格納されたデータを分析するコンピュータまたはコンピュータシステム(複数のコンピュータが統合的に動作することによってデータ分析を実現するシステム)である。なお、演算装置10aは、管理計算機(不図示)として、サーバ装置10の外部装置という形態で構成させてもよく、記憶装置10bは、データ格納サーバ装置13として、サーバ装置10の外部記憶装置の形態で構成させても良い。
管理計算機(不図示)は、例えば、メモリと、コントローラと、バスと、入出力インターフェースと、通信インターフェースとを備えてよい。なお、クライアント端末11、サーバ装置10、管理計算機(不図示)がそれぞれ備えるメモリには、クライアント端末11、サーバ装置10、管理計算機(不図示)の各装置を制御可能なアプリケーションプログラムが記憶されている。各コントローラがアプリケーションプログラムをそれぞれ実行することにより、アプリケーションプログラム(ソフトウェア資源)とハードウェア資源とが協働し、各装置が動作する。
記憶装置10bは、例えば、ディスクアレイシステムから構成され、データと当該データに対する評価・分類の結果とを記録するデータベースを備えることができる。サーバ装置10と記憶装置10bとは、直接接続方式(DAS)、または記憶装置領域ネットワーク(SAN)によって接続される。
クライアント端末11は、サーバ装置10における処理プロセスの途中のデータをユーザに提示する。これにより、ユーザは、クライアント端末11を介して、双方向のやり取りにより、入力を行う、すなわち分類情報を与えることができる。クライアント端末11は、例えば、メモリと、コントローラと、バスと、入出力インターフェース(例えば、キーボード、ディスプレイなど)と、通信インターフェース(所定のネットワークを用いた通信手段によって、クライアント端末11とサーバ装置10とを通信可能に接続する)とを備えてよい。クライアント端末11は、スキャナなどの入力装置12を有するように構成させてもよい。
なお、図1に示されるハードウェア構成はあくまで例示に過ぎず、システム1は他のハードウェア構成によっても実現され得る。例えば、すべての処理の一部または全部がサーバ装置10において実行される構成であってもよいし、その一部または全部がクライアント端末11において実行される構成であってもよい。本実施例では、入力装置12はクライアント端末11に接続されて、サーバ装置10に送信が可能な構成としているが、入力装置12はサーバ装置10に直接接続して、ここからサーバへ入力を行ってもよい。システム1を実現可能なハードウェア構成が多様に存在し得ることは、当業者に理解されるところであり、例えば、図1に例示した構成には限定されない。
〔構成要素関連性評価システムの関連性評価の原理〕
続いて、図2を参照して、本発明における構成要素関連性評価システムにおいて関連性評価の原理について説明する。図2は、本発明における関連性の比較対象となる基準データRと被検データTを説明した図である。本発明における構成要素関連性評価では、2以上の被検データT(本実施例では被検データT1と被検データT2)が、基準データRとの関連性が高いか否かを判定するものである。関連性評価のための指標としての特徴係数を算定し、それによって関連性の高さを評価する。被検データT1,T2も基準データRも、いずれもデータ構成要素の集合体である。すなわち、被検データT1,T2は複数の単位データt1により、被検データT2は複数のデータ構成要素t2により、基準データRは複数のデータ構成要素rにより構成されている。被検データTも基準データRのデータの種類は特に限定されない。文書データでもよいし、画像データ、音声データなど、単位データの集合体である限りあらゆるデータの集合体が対象となる。したがって、データ構成要素としては、文書を構成する形態素、キーワード、センテンス、段落、および/またはメタデータ(例えば、電子メールのヘッダ情報)であったり、音声を構成する部分音声、ボリューム(ゲイン)情報、および/または音色情報であったり、画像を構成する部分画像、部分画素、および/または輝度情報であったり、映像を構成するフレーム画像、モーション情報、および/または3次元情報となる。
すなわち、たとえば、被検データTおよび基準データRを、文書データと仮定すれば、データ構成要素は、それを構成する単語、フレーズを代表例とするテキストデータとなる。被検データTおよび基準データRにおいて、データの種類は同一であることが代表的であるが、必ずしも同一である必要はない。たとえば、基準データRが文書データであって、データ構成要素が単語である場合に、被検データTが音声データである場合には、文字としてのデータ構成要素と、音声としての単語データの比較により、関連性の高さを評価することができる。
続いて、図3から図5を参照して、本発明における構成要素関連性評価システムにおける関連性評価の原理について説明する。図3は、データ構成要素を示した図である。まず、基準データRを構成するデータ構成要素の並び方向を定義づける。基準データRの内容を評価する上で必要となる並び方向を決定する。図3に示した例では、左から右に向かってデータ構成要素の並び方向が決定され、最も右のデータ構成要素の次は、一段下がった行の最も左のデータが割り当てられ、その位置から右に向かうように並び方向を決定している。単純な例として、文書データの場合には、文字列の順序が並び方向となる。しかし、画像データなどの場合には、評価上最も適切な並び方向を決定する。
続いて、基準データRを構成するデータ構成要素の中から、基準データRの内容の特徴を最もよく表す複数のデータ構成要素を評価構成要素として、予め定義した単位データの並び方向に従った出現順に抽出する。図4に示す例では、5つの評価構成要素m1,m2,m3,m4,m5が選択されている。評価構成要素の選択およびその出現順は、基準データRの内容の特徴を最も的確に表すように選択する。基準データRの評価構成要素m1,m2,m3,m4,m5と、それらの出現順は、被検データTの関連性を評価する上で、予め定める基準として機能する。
次に、被検データTについて、基準データRとの関連性の高さの評価について説明する。図4は、被検データTを示した図である。まず、基準データRの場合と同様に、被検データTを構成するデータ構成要素の並び方向を判定する。被検データTの内容を評価する上で必要となる並び方向を決定する。図4に示した例では、図3と同様に、左から右に向かってデータ構成要素の並び方向が判定され、最も右のデータ構成要素の次は、一段下がった行の最も左のデータが割り当てられ、その位置から右に向かうように並び方向を決定している。次に、被検データTにおいて、基準データRにおいて予め定義していた評価構成要素m1,m2,m3,m4,m5を、その出現順に検出する。図4の例では、被検データTでは、出現順に、評価構成要素に対応する被検データTのデータ構成要素m1,m4,m3,m2が、この出現順に検出されている。評価構成要素m5に対応する被検データTのデータ構成要素は検出されていない。すなわち、基準データRにおいて予め定義していた5つの評価構成要素m1,m2,m3,m4,m5のうち、被検データTでは、データ構成要素m1,m2,m3,m4が抽出され、その出現順は、m1,m4,m3,m2となっている。
次に、被検データTでは、出現順に検出された評価構成要素m1,m4,m3,m2と、基準データRにおける出現順と、を比較して、基準データRに対する被検データTの関連性を調べる。図5は、出現順を考慮した基準データRの評価構成要素m1,m2,m3,m4,m5(図5上側)と、出現順を考慮した被検データTの評価構成要素m1,m4,m3,m2(図5下側)との対比を示している。ここで、関連性の高さを示す指標である特性係数(Order)を以下のように定義する。

Figure 2017072822
特性係数(Order)は、「被検データTで検出された評価構成要素から2個を選択する組合せ数」に対する「被検データTで検出された評価構成要素から選択された2個の組み合せのうち、基準データRの評価構成要素の出現順と同じ組み合せ数」の割合である。すなわち、分母は、被検データTで検出された評価構成要素の数をNとすると、被検データTで検出された評価構成要素のうち、2つの評価構成要素の組合せ数は、N(N−1)/2通りとなる。たとえば、図4および図5の例では、被検データTでは4つの評価構成要素m1,m2,m3,m4が検出されているので、6通りとなる。具体的には、(m1,m2),(m1,m3),(m1,m4),(m2,m3),(m2,m4),(m3,m4)の組み合わせとなる。
そして、分子は、その組み合せの総数のうち、被検データTで検出された評価構成要素から選択された2個の組み合せのうち、基準データRの評価構成要素の出現順が同じものの数を計算する。ここでは、出現順のみを考慮し、構成要素間に別の構成要素が出現することは評価の対象としない。図4および図5の例では、前記の組み合せのうち、基準データRと出現順が同じものは、(m1,m2),(m1,m3),(m1,m4)の3通りである。m1とm3との間に、m4が存在することは評価の対象とはしない。したがって、この場合には、特性係数(Order)は、0.5となる。

Figure 2017072822
仮に、基準データRと完全に同一のデータの場合には、評価構成要素から選択される2個の組み合せのすべてにおいて出現順が同一であるから、T(N)/F(N)=1.0となる。すなわち、被検データTにおける評価構成要素の出現順が基準データRと同じものが多ければ多いほど、被検データTと基準データRとの関連性が高く、特性係数(Order)は1に近くなる。一方、被検データTと基準データRとの関連性が低い場合には、特性係数(Order)は0に近くなる。したがって、特性係数(Order)がより大きければ、被検データTと基準データRとの関連性は高く、特性係数(Order)がより大きければ、被検データTと基準データRとの関連性は低いということがいえる。特徴係数は、0≦特徴係数(Order)≦1を満たす。
〔構成要素関連性評価システムの機能ブロック構成〕
図6は、システム1の機能ブロック構成の一例を示した図である。システム1は、例えば、基準データ取得部21、被検データ取得部22、並び方向判定部23、評価構成要素抽出部24、構成要素格納部25、および構成要素関連性評価部26を備える。基準データ取得部21から並び方向判定部23と評価構成要素抽出部24を介して構成要素格納部25にいたる経路が、基準データRについての学習プロセスとなる。一方、被検データ取得部22から並び方向判定部23と評価構成要素抽出部24を介して構成要素関連性評価部26にいたる経路が、被検データTについて、基準データRに対しての関連性評価のプロセスとなる。
基準データ取得部21は、入力装置12またはクライアント端末11から入力された基準データ、またはすでに記憶装置10bに格納されている基準データRを構成する全てのデータ構成要素を取得する。
基準データ取得部21および被検データ取得部22は、全てのデータ構成要素を取得すると、それらのデータを並び方向判定部23に出力し、それらのデータ構成要素の並び方向を決定してデータ構成要素を関連付ける。並び方向が関連づけられた全てのデータ構成要素は、評価構成要素抽出部24に出力される。なお、並び方向の判定は、データによっては、基準データ取得部21および被検データ取得部22において、データを取得した際のデータの並び方向をそのまま利用することで、省略することもできる。この場合、並び方向判定部23は、不要となる。また、並び方向の判定を、基準データ取得部21および被検データ取得部22で行っても良いし、評価構成要素抽出部24で行っても良い。評価構成要素抽出部24では、基準データRの内容的特徴を最も代表的に表す構成要素群を抽出する。評価構成要素抽出部24のプロセスでは、ユーザがクライアント端末11を用いて、構成要素群を選択できる。ここで、「構成要素群」とは、データ構成要素の群である。評価構成要素抽出部24において選定された「構成要素群」は、構成要素格納部25に出力される。構成要素格納部25は、「構成要素群」を、記憶装置10bまたはデータ格納サーバ装置13に格納する。
評価構成要素抽出部24では、並び方向が決定された基準データRを構成するデータ構成要素から、評価構成要素m1,m2,m3,m4,m5を抽出する。評価構成要素抽出部24が抽出する評価構成要素の数は、基準データRの特徴に応じて、任意に定められる。評価構成要素抽出部24は、抽出した評価構成要素m1,m2,m3,m4,m5を、構成要素格納部25に出力する。構成要素格納部25は、記憶装置10bまたはデータ格納サーバ装置13に格納する。以上が、関連性評価の学習プロセスである。
続いて、被検データTについて、基準データRに対する関連性評価プロセスを説明する。並び方向判定部23および評価構成要素抽出部24についての上記説明は、被検データTについて、基準データRに対しての関連性評価の評価プロセスでも同様に機能する。すなわち、図6に示すように、被検データ取得部22も、基準データ取得部21と同様に、入力装置12またはクライアント端末11から入力された被検データT、またはすでに記憶装置10bに格納されている被検データTを構成する全てのデータ構成要素を取得する。
被検データ取得部22は、全てのデータ構成要素を取得すると、それらのデータを並び方向判定部23に出力する。基準データ取得部21と被検データ取得部22とは、別々の構成とする必要はなく、同一のデータ取得部とすることができる。並び方向判定部23は、それらの並び方向を判定してデータ構成要素を関連付ける。並び方向が関連づけられた全てのデータ構成要素は、評価構成要素抽出部24に出力される。評価構成要素抽出部24は、記憶装置10bまたはデータ格納サーバ装置13に格納された構成要素格納部25は、記憶装置10bまたはデータ格納サーバ装置13に格納されている評価構成要素を、並び方向が関連づけられた被検データTの全てのデータ構成要素から抽出する。すべての評価構成要素が抽出されるわけではなく、被検データTのデータ構成要素のうち、基準データRにおける学習プロセスで選定された評価構成要素に対応するものを、出現順に抽出する。図4の例では、評価構成要素抽出部24により、評価構成要素を並び方向にしたがってm1,m4,m3,m2の出現順に抽出される。抽出された評価構成要素m1,m4,m3,m2は、構成要素関連性評価部26に出力される。構成要素関連性評価部26は、前述の特性係数(Order)を計算する。
また、構成要素関連性評価部26は、評価構成要素抽出部24から入力された構成要素に対応付けられた評価値を任意のメモリ(例えば、記憶装置10b)から読み出し、その評価値に基づいて対象データを評価する。評価値とは、基準データRにおいて選択される評価構成要素のそれぞれについて、それらの特徴に応じて予め設定しておく重みづけ値である。より具体的には、構成要素関連性評価部26は、例えば、対象データの少なくとも一部を構成する構成要素に対応付けられた評価値を合算することによって、当該対象データの指標(例えば、対象データを序列化可能にする数値、文字、および/または記号であってよい)を導出することができる。この指標として、たとえば、スコア値を使用することができる。ここで、スコア値(Score)とは、これら基準データRのデータ構成要素に対する被検データTの関連性の強さを定量的に評価する指標である。基準データRのデータ構成要素に対する被検データTの関連性の強さを定量的に表すことができる限り、スコア値(Score)の算出方法は問わない。スコア値の算出方法は、基準データRの内容を適切に評価できる限り、一般的な手法によればよい。たとえば、一例としては、基準データRにおいて抽出した評価構成要素ごとに定めた評価構成要素の評価値に対して、被検データTにおいてその評価構成要素が出現する頻度として以下の式のように、表すことができる。構成要素関連性評価部26は、被検データTとスコア値とを対応付け、両者を記憶装置10bに格納することが可能である。

Figure 2017072822
なお、上記において、「部」と表記した構成は、システム1が備えたコントローラが、プログラムを実行することによって実現する機能構成であるため、「部」を、「処理」または「機能」と言い換えてもよい。また、「部」をハードウェア資源によって代替することもできるため、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組み合わせによって多様な形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。
〔構成要素関連性評価システムで実行するプログラムのアルゴリズム構成〕
続いて、上記機能についてシステム1で実行するプログラムのアルゴリズムを説明する。まず、基準データRを取り込む(S101)。続いて、読み込んだ基準データRについて、データ構成要素の並び方向を決定する(S102)。データ構成要素の並び方向が決定された基準データRにおいて、データ構成要素の中から基準データRの内容の特徴を最もよく表す複数のデータ構成要素を、予め定義した並び方向に従った出現順とともに抽出し、関連性評価のための評価構成要素群として定義する(S103)。抽出された評価構成要素群とその出現順のデータを記憶装置10bに格納する(S104)。以上が関連性評価のための基準データRによる学習プロセスである。これに続いて、被検データTについての基準データRに対する関連性評価プロセスが進む。まず、被検データTを取り込む(S105)。続いて、被検データTを構成するデータ構成要素の並び方向を決定する(S106)。並び方向が決定された被検データTから、予め学習プロセスにおいて決定していた関連性評価のための評価構成要素を抽出する(S107)。抽出された被検データTの中の評価構成要素について、基準データRにおける出現順と同じものを抽出する(S108)。続いて、前記被検データの前記並び方向における前記被検データの前記評価構成要素の出現順に基づく特徴係数を計算する。特徴係数は、抽出された被検データTの評価構成要素のうち、選択された2個の組み合わせの出現順が予め定義された基準データRの評価構成要素の出現順との合致の程度を計算することが可能である。すなわち、合致の程度は、たとえば合致率として、前記の特徴係数(Order)に対応することができる。たとえば、抽出された被検データTの評価構成要素のうち選択された2個の組み合せの総数において、その出現順が合致するものには「1」を付与し、合致しないものには「0」を付与する。前記の通り、出現順のみを考慮し、構成要素間に別の構成要素が出現することは評価の対象としない。そして、特徴係数(Order) = (1が付与された頻度)/(2個の組み合せ総数)を算出する(S109)。
上記により、たとえば、スコア値(Score)が同一または非常に近似する2以上の被検データTが存在する場合に、従前はスコア値(Score)のみでは基準データRとの関連性の高さが判定できなかったところ、本発明では、特徴係数(Order)を計算することによって、特性係数の大きいほうが基準データRとの関連性が高いことを判定できることになる。たとえば、図2の場合、基準データRに対する被検データT1および被検データT2のスコア値がいずれも70であるときに、基準データRに対する被検データT1および被検データT2の特徴係数(Order)が、それぞれ0.6と0.8のとすると、被検データT2のほうが基準データRに対する関連性が高いと判断することが可能となる。
また、スコア値が同一ではない場合、非常に近似する2以上の被検データTが存在する場合に、一の軸をスコア値に割り当て、他の軸を特徴係数(Order)に割り当てた分布図をディスプレイやプリンタなどの表示手段に表示させることにより、「スコア値」と「特徴係数」という2つの要素で、基準データRに対する被検データTの関連性を容易に判断できる情報をユーザに提供させることも可能である。
(実施の形態2)
上記の実施の形態1におけるシステム1では、特徴係数(Order)を演算するシステム1によって判断を行う形態について説明した。しかし、特徴係数(Order)をスコア値の補正に使用することで、被検データTの関連性の高さを補正されたスコア値で評価することが可能となる。以下、これにつき、実施の形態2として説明する。
実施の形態2も、ハードウェア構成としてのシステム1および機能ブロック図は実施の形態と同じであるので、ここでは異なる部分について、図6と図8を参照して説明する。図8は、実施の形態2のプログラムのアルゴリズムを示している。実施の形態1では、図6における機能ブロックにおける構成要素関連性評価部26では、特徴係数(Order)の計算のみを行った。しかし、実施の形態2では、構成要素関連性評価部26は、特徴係数(Order)を予め計算されている被検データTについてのスコア値の補正値として計算する。図8は実施の形態2についてのプログラムのアルゴリズムである。図8において、基準データRを取り込むステップ(S201)から特徴係数(Order)を計算するステップ(S209)までは、実施の形態1のステップS101からステップS109までと同じである。
実施の形態2では、構成要素関連性評価部26は、特徴係数(Order)を計算した後に、下記のように、予め被検データTに対して計算されていたスコア値(Score RAW)を計算する(S210)。スコア値の算出方法は、実施の形態1で述べた通り、基準データRの内容を適切に評価できる限り、一般的な手法によればよい。

Figure 2017072822
実施の形態2では、特に、スコア値が非常に近似するが同一ではない2以上の被検データTが存在すると、特徴係数(Order)が大きかったとしてもスコア値が異なるため比較が困難になる場合がある。このような場合には、特徴係数により補正されたスコア値を使用することで、補正されたスコア値の大きいほうが基準データRとの関連性が高いという判定ができることになる。
たとえば、図2の場合、基準データRに対する被検データT1および被検データT2のスコア値(Score RAW)がそれぞれ72と71であるときに、基準データRに対する被検データT1および被検データT2の特徴係数(Order)が、それぞれ0.65と0.67のとすると、特徴係数により補正されたスコア値は、それぞれ、45.5と46.9となる。この結果、スコア値は被検データT2のほうが高いものの、被検データT2のほうが基準データRに対する関連性が高いと判断することが可能となる。
(実施の形態3)
上記の実施の形態2におけるシステム1では、基準データRに対する被検データT1および被検データT2のスコア値(Score RAW)を、特徴係数(Order)とは別に算出している。すなわち、スコア値を算出するための評価構成要素群と、特徴係数(Order)とが、異なっている場合に使用できる形態である。実施の形態3では、基準データRで予め決定した共通の評価構成要素により、スコア値の算出と特徴係数の算出とを、一連のプロセスで実施するものである。以下、これにつき、実施の形態3として説明する。
図9は、実施の形態3のシステム1の機能ブロック構成の一例を示した図である。システム1は、実施の形態1と同じく、基準データ取得部21、被検データ取得部22、並び方向判定部23、評価構成要素抽出部24、構成要素格納部25を具備する。これらについては、実施の形態1と同じであるため、説明を省略する。これらに加え、実施の形態3では、さらに、構成要素関連性評価部26と、スコア値算出部27と、スコア値補正部28と、を備えている。
図9は、実施の形態3のシステム1の機能ブロック構成の一例を示した図である。システム1は、実施の形態1と同じく、基準データ取得部21、被検データ取得部22、並び方向判定部23、評価構成要素抽出部24、構成要素格納部25を具備する。これらについては、実施の形態1と同様であるため、異なる部分についてのみ説明を行う。これらに加え、実施の形態3では、さらに、構成要素関連性評価部26と、スコア値算出部27と、スコア値補正部28と、を備えている。評価構成要素抽出部24は、基準データRの内容を最も適格に表わす評価構成要素群を抽出し、それをN個のグループに分類する。スコア値算出部27は、N個のグループのそれぞれについて、スコア値(Score(i)RAW)算出する。スコア値の算出方法は、基準データRの内容を適切に評価できる限り、一般的な手法によればよい。構成要素関連性評価部26は、各評価構成要素群のグループについて、実施の形態1における方法で、選択される2つの組み合せにおける出現順が基準データRと同じものの割合である特徴係数(Order)を計算する。特徴係数(Order)の算出方法は、実施の形態1で説明したとおりである。そして、スコア値補正部28はグループごとに、スコア値(Score(i)RAW)と特徴係数(Order)とを乗じて、以下のようにその総和を計算する。

Figure 2017072822
続いて、図10を参照して、実施の形態3についてのアルゴリズムについて説明する。図10は、実施の形態3におけるアルゴリズムを示している。まず、基準データRを取り込む(S301)。続いて、読み込んだ基準データRについて、データ構成要素の並び方向を決定する(S302)。データ構成要素の並び方向が決定された基準データRにおいて、データ構成要素の中から基準データRの内容の特徴を最もよく表す複数のデータ構成要素を、予め定義した並び方向に従った出現順とともに抽出し、関連性評価のための評価構成要素として定義する。この時、評価構成要素群をN個のグループに分類する(S303)。抽出された評価構成要素とその出現順のデータを記憶装置10bに格納する(S304)。以上が関連性評価のための基準データRによる学習プロセスである。これに続いて、被検データTについての基準データRに対する関連性評価プロセスが進む。まず、被検データを取り込む(S305)。続いて、被検データTを構成するデータ構成要素の並び方向を決定する(S306)。並び方向が判定された被検データTから、予め学習プロセスにおいて決定していた関連性評価のための評価構成要素を抽出する(S307)。評価構成要素のN個のグループのグループごとに、スコア値(Score(i)RAW)を算出する(S308)。一方、そのN個の評価構成要素のグループの各々において、基準データRにおける出現順と同じものを抽出する。抽出された被検データTの評価構成要素群のうち、選択された2個の組み合わせの出現順が予め定義された基準データRの評価構成要素群の出現順との合致の程度を取得する。合致の程度は、たとえば、合致率として、前記の特徴係数(Order)とすることができる。たとえば、抽出された被検データTの評価構成要素群のうち選択された2個の組み合せの総数において、その出現順が合致するものには「1」を付与し、合致しないものには「0」を付与する(S309)。前記の通り、出現順のみを考慮し、構成要素間に別の構成要素が出現することは評価の対象としない。そして、特徴係数(Order) = (1が付与された頻度)/(2個の組み合せ総数)を算出する(S310)。各グループにおいて、スコア値(Score(i)RAW)と特徴係数(Order)とを乗じて、その総和を計算する(S311)。
上記により、スコア値(Score(i)RAW)と特徴係数(Order)とを同じ評価構成要素群によって計算を行うため、計算のプロセスが簡易となり、スコア値の計算が容易になる。補正されたスコア値による判断は、実施の形態1および実施の形態2と同一である。
〔ソフトウェア・ハードウェアによる実現例〕
データ分析システムの制御ブロックは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPUを用いてソフトウェアによって実現してもよい。後者の場合、上記システムは、各機能を実現するソフトウェアであるプログラム(データ分析システムの制御プログラム)を実行するCPU、当該プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、当該プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、当該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。なお、上記プログラムは、任意のプログラミング言語によって実装可能である。また、上記プログラムを記録した任意の記録媒体も、本発明の範疇に入る。
〔他のアプリケーション例〕
上記システムは、例えば、ディスカバリ支援システム、フォレンジックシステム、電子メール監視システム、医療応用システム(例えば、ファーマコビジランス支援システム、治験効率化システム、医療リスクヘッジシステム、転倒予測(転倒防止)システム、予後予測システム、診断支援システムなど)、インターネット応用システム(例えば、スマートメールシステム、情報アグリゲーション(キュレーション)システム、ユーザ監視システム、ソーシャルメディア運営システムなど)、情報漏洩検知システム、プロジェクト評価システム、マーケティング支援システム、知財評価システム、不正取引監視システム、コールセンターエスカレーションシステム、信用調査システムなど、ビッグデータを分析する人工知能システム(データと所定の事案との関連性を評価可能な任意のシステム)として実現され得る。なお、本発明のデータ分析システムが応用される分野によっては、当該分野に特有の事情を考慮して、例えば、データに前処理(例えば、当該データから重要箇所を抜き出し、当該重要箇所のみをデータ分析の対象とするなど)を施したり、データ分析の結果を表示する態様を変化させたりしてよい。こうした変形例が多様に存在し得ることは、当業者に理解されるところであり、すべての変形例が本発明の範疇に入る。
本発明は上述したそれぞれの実施の形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施の形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても、本発明の技術的範囲に含まれる。さらに、各実施の形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成できる。
1 システム
10 サーバ装置
11 クライアント端末
12 入力装置
13 データ格納サーバ装置
21 基準データ取得部
22 被検データ取得部
23 並び方向判定部
24 評価構成要素抽出部
25 構成要素格納部
26 構成要素関連性評価部
27 スコア値算出部
28 スコア値補正部


Claims (7)

  1. 基準データに対する被検データの関連性を評価する関連性評価システムであって、その関連性評価システムは、
    前記基準データと前記被検データとをそれぞれ取得するデータ取得部と、
    前記基準データの前記データ構成要素のうち前記基準データの特徴を表す評価構成要素を、前記被検データから前記被検データのデータ構成要素の並び方向にしたがった出現順に、抽出する評価構成要素抽出部と、
    前記被検データの前記並び方向における前記被検データの前記評価構成要素の出現順に基づく特徴係数を計算する関連性評価部と、を備える関連性評価システム。
  2. 請求項1に記載の関連性評価システムであって、
    前記特徴係数は、前記被検データの前記評価構成要素から選択された構成要素の2つの組み合せの総数に対する、前記総数のうち前記基準データにおける出現順と同じ出現順の評価構成要素の2つの組み合せ出現数の割合である関連性評価システム。
  3. 請求項1に記載の関連性評価システムであって、
    前記関連性評価部は、前記被検データのスコア値に、前記特徴係数を乗じる演算を行う関連性評価システム。
  4. 請求項1に記載の関連性評価システムであって、
    前記評価構成要素抽出部は、抽出した前記被検データの前記評価構成要素を複数のグループに分類し、
    前記関連性評価システムは、前記複数のグループのそれぞれについて、抽出した前記評価構成要素に基づいてスコア値を算出するスコア値算出部を備え、
    前記関連性評価部は、前記複数のグループのそれぞれについて、前記特徴係数を計算し、
    前記関連性評価システムは、前記複数のグループのそれぞれについて、前記スコア値と、前記特徴係数とを乗じて、前記複数のグループのすべてについてその乗じた数の総和を計算するスコア値補正部とを備える関連性評価システム。
  5. コンピュータを備える関連性評価システムにより、基準データと被検データとの関連性を評価する方法であって、
    前記基準データと前記被検データとをそれぞれ取得し、
    前記基準データの前記データ構成要素のうち前記基準データの特徴を表す評価構成要素を、前記被検データから前記被検データの前記データ構成要素の並び方向にしたがった出現順に、抽出し、
    前記被検データの前記並び方向における前記被検データの前記評価構成要素の出現順に基づく特徴係数を計算する関連性評価方法。
  6. コンピュータを備える関連性評価システムにおいて実行可能な関連性評価プログラムであって、そのプログラムは基準データと被検データとの関連性を評価するものであって、前記プログラムは、
    前記基準データと前記被検データとをそれぞれ取得する工程と、
    前記基準データの前記データ構成要素のうち前記基準データの特徴を表す評価構成要素を、前記被検データから前記被検データの前記データ構成要素の並び方向にしたがった出現順に、抽出する工程と、
    前記被検データの前記並び方向における前記被検データの前記評価構成要素の出現順に基づく特徴係数を計算する工程と、を実行する関連性評価プログラム。
  7. コンピュータを備える関連性評価システムにおいて実行可能であって、基準データと被検データとの関連性を評価する関連性評価プログラムが格納されている記憶媒体であって、前記プログラムは、
    前記基準データと前記被検データとをそれぞれ取得する工程と、
    前記基準データの前記データ構成要素のうち前記基準データの特徴を表す評価構成要素を、前記被検データから前記被検データの前記データ構成要素の並び方向にしたがった出現順に、抽出する工程と、
    前記被検データの前記並び方向における前記被検データの前記評価構成要素の出現順に基づく特徴係数を計算する工程と、を実行する記憶媒体。


JP2017547201A 2015-10-30 2015-10-30 関連性評価システム、方法、プログラムおよび記録媒体 Pending JPWO2017072822A1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/005479 WO2017072822A1 (ja) 2015-10-30 2015-10-30 関連性評価システム、方法、プログラムおよび記録媒体

Publications (1)

Publication Number Publication Date
JPWO2017072822A1 true JPWO2017072822A1 (ja) 2018-07-26

Family

ID=58629917

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017547201A Pending JPWO2017072822A1 (ja) 2015-10-30 2015-10-30 関連性評価システム、方法、プログラムおよび記録媒体

Country Status (2)

Country Link
JP (1) JPWO2017072822A1 (ja)
WO (1) WO2017072822A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006277413A (ja) * 2005-03-29 2006-10-12 Toshiba Corp 文書分類装置および文書分類方法
JP2010055373A (ja) * 2008-08-28 2010-03-11 Sky Co Ltd ノート評価装置またはノート評価プログラム
JP2011113426A (ja) * 2009-11-30 2011-06-09 Fujitsu Ltd 辞書作成装置,辞書作成プログラムおよび辞書作成方法
JP2012252484A (ja) * 2011-06-02 2012-12-20 Hitachi Systems Ltd 回答自動生成システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006277413A (ja) * 2005-03-29 2006-10-12 Toshiba Corp 文書分類装置および文書分類方法
JP2010055373A (ja) * 2008-08-28 2010-03-11 Sky Co Ltd ノート評価装置またはノート評価プログラム
JP2011113426A (ja) * 2009-11-30 2011-06-09 Fujitsu Ltd 辞書作成装置,辞書作成プログラムおよび辞書作成方法
JP2012252484A (ja) * 2011-06-02 2012-12-20 Hitachi Systems Ltd 回答自動生成システム

Also Published As

Publication number Publication date
WO2017072822A1 (ja) 2017-05-04

Similar Documents

Publication Publication Date Title
JP6402265B2 (ja) 意思決定モデルを構築する方法、コンピュータデバイス及び記憶デバイス
CN111028006B (zh) 一种业务投放辅助方法、业务投放方法及相关装置
CN112017777B (zh) 相似对问题预测的方法、装置及电子设备
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
US20160335249A1 (en) Information processing apparatus, information processing method, and non-transitory computer readable medium
CN113468421A (zh) 基于向量匹配技术的产品推荐方法、装置、设备及介质
CN112541069A (zh) 一种结合关键词的文本匹配方法、系统、终端及存储介质
JP6144314B2 (ja) データ分類システム,方法,プログラムおよびその記録媒体
US11232325B2 (en) Data analysis system, method for controlling data analysis system, and recording medium
KR101958555B1 (ko) 검색 결과 제공 장치 및 방법
JP6026036B1 (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
CN112686339B (zh) 一种基于起诉状的案由确定方法和装置
WO2017072822A1 (ja) 関連性評価システム、方法、プログラムおよび記録媒体
JP6509391B1 (ja) 計算機システム
US11514311B2 (en) Automated data slicing based on an artificial neural network
CN113688206A (zh) 基于文本识别的趋势分析方法、装置、设备及介质
CN113704623A (zh) 一种数据推荐方法、装置、设备及存储介质
CN115769194A (zh) 跨数据集的自动数据链接
CN111353428A (zh) 动作信息识别方法、装置、电子设备及存储介质
CN110807118A (zh) 图像评论的生成方法、装置及电子设备
KR20210023453A (ko) 리뷰 광고 매칭 장치 및 방법
CN114579762B (zh) 知识图谱对齐方法、装置、设备、存储介质及程序产品
JP5946949B1 (ja) データ分析システム、その制御方法、プログラム、および、記録媒体
US20080120263A1 (en) Computer-readable recording medium, apparatus and method for calculating scale-parameter
CN117786234B (zh) 一种基于两阶段对比学习的多模态资源推荐方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180323

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190328

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190524

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20191024