WO2016063403A1

WO2016063403A1 - データ分析システム、データ分析方法、およびデータ分析プログラム

Info

Publication number: WO2016063403A1
Application number: PCT/JP2014/078248
Authority: WO
Inventors: 守本　正宏; 秀樹武田; 孝紀竹田
Original assignee: 株式会社Ｕｂｉｃ
Priority date: 2014-10-23
Filing date: 2014-10-23
Publication date: 2016-04-28
Also published as: US20170351747A1; JP6043460B2; JPWO2016063403A1

Abstract

　本発明は、データの分類を示す分類情報を、所定の入力装置を介してユーザから受け付ける分類情報受付部と、データ群に含まれる分類データに分類情報を対応付けることによって、当該分類データを分類するデータ分類部と、データ群に含まれる未分類データと分類情報との関連性を、分類結果に基づいて評価する未分類データ評価部と、ユーザによる分類傾向に則した未分類データを、評価結果に応じてデータ群から傾向データとして選択する傾向データ選択部と、傾向データに関連する他のユーザを、所定の出力装置を介してユーザに提示するユーザ提示部とを備えたデータ分析システムである。

Description

データ分析システム、データ分析方法、およびデータ分析プログラム

　本発明は、データを分析するデータ分析システム等に関するものである。

　近年、ユーザ同士が目的に応じたリレーションを構築可能とするサービス（例えば、ソーシャルネットワークサービスなど）に注目が集まっている。上記サービスにおいては、ユーザ同士を適切にマッチングすることが重要となるため、マッチングに関する技術が広く開発されている。

　例えば、特許文献１には、ゲームのプレイ期間が短い一般プレイヤに、特定プレイヤと対戦する機会を与えることができるゲームプレイヤのマッチングシステムが開示されている。また、特許文献２には、参加プレイヤによるマッチング範囲の選択を支援するマッチングシステムが開示されている。

特開２０１４－１７６４０１号公報特開２０１３－０８５８１９号公報

　上記サービスに含まれるコンテンツの量、および当該サービスを利用するユーザの数は膨大であることが通常であり、従来の技術では、当該膨大なデータを処理して所望のデータを特定することが困難であるため、各ユーザは、例えば、自身と嗜好が共通する他のユーザを発見することがほとんど不可能であった。

　本発明は、上記の問題点に鑑みてなされたものであり、その目的は、ユーザと属性が共通する可能性が高い潜在的な他のユーザを特定し、当該ユーザに提示可能なデータ分析システム等を提供することである。

　上記課題を解決するために、本発明の一態様に係るデータ分析システムは、データの分類を示す分類情報を、所定の入力装置を介してユーザから受け付ける分類情報受付部と、データ群に含まれる分類データに分類情報を対応付けることによって、当該分類データを分類するデータ分類部と、データ群に含まれる未分類データと分類情報との関連性を、データ分類部による分類結果に基づいて評価する未分類データ評価部と、ユーザによる分類傾向に則した未分類データを、未分類データ評価部による評価結果に応じて、データ群から傾向データとして選択する傾向データ選択部と、傾向データに関連する他のユーザを、所定の出力装置を介してユーザに提示するユーザ提示部とを備える。

　また、本発明の一態様に係るデータ分析システムは、例えば、分類情報に基づいて分類データからデータ要素を抽出する要素抽出部と、データ要素を所定の基準にしたがって評価する要素評価部とをさらに備え、未分類データ評価部は、要素評価部によって評価されたデータ要素を分類結果の１つとして用いることによって、関連性を評価することができる。

　また、本発明の一態様に係るデータ分析システムにおいて、要素評価部は、例えば、データ要素と当該データ要素を含む分類データに対応付けられた分類情報との依存関係を表わす伝達情報量を、所定の基準の１つとして用いることによって、当該データ要素を評価することができる。

　また、本発明の一態様に係るデータ分析システムは、例えば、要素評価部による評価結果を所定の記憶装置に格納する評価格納部をさらに備えてよい。

　また、本発明の一態様に係るデータ分析システムにおいて、未分類データは、例えば、事象に対するユーザの評価を少なくとも含むデータであり、未分類データを生成したユーザの感情であって、評価に基づいて生じた事象に対する感情を、当該未分類データから抽出する感情抽出部をさらに備え、傾向データ選択部は、感情抽出部による抽出結果にさらに応じて、傾向データを選択することができる。

　また、本発明の一態様に係るデータ分析システムは、例えば、未分類データに含まれるデータ要素と当該データ要素に対する感情評価とを対応付けて、所定の記憶装置に格納する感情格納部をさらに備え、感情抽出部は、データ要素に対応付けられた感情評価を用いて未分類データを評価することによって、感情を当該未分類データから抽出することができる。

　また、本発明の一態様に係るデータ分析システムは、例えば、ユーザが所属するコミュニティに所属するように他のユーザを促す勧誘情報を、所定の入力装置を介して当該ユーザから受け付ける勧誘情報受付部と、所属について他のユーザから承諾を得られた場合、当該他のユーザをコミュニティに所属させる所属情報を生成する所属情報生成部とをさらに備えてよい。

　また、本発明の一態様に係るデータ分析システムにおいて、未分類データ評価部は、例えば、未分類データと分類情報との結びつきの強さを示すスコアを分類結果に基づいて算出することによって、関係性を評価することができる。

　また、本発明の一態様に係るデータ分析システムにおいて、未分類データ評価部は、例えば、未分類データに含まれる第１データ要素と第２データ要素との相関に基づいてスコアを算出することができる。

　また、本発明の一態様に係るデータ分析システムにおいて、例えば、未分類データは、テキストに関するデータを少なくとも含み、未分類データ評価部は、テキストに含まれるセンテンスと分類情報との関連性を、分類結果に基づいて評価し、当該評価結果に基づいて、未分類データと当該分類情報との関連性を評価することができる。

　また、本発明の一態様に係るデータ分析システムにおいて、分類情報は、例えば、ユーザの嗜好に合っているか否かの分類を示す情報であってよい。

　また、本発明の一態様に係るデータ分析システムにおいて、データ群は、例えば、ウェブページを含み、データ、分類データ、および／または未分類データは、例えば、ウェブページに含まれるテキスト、画像、音声、もしくは動画、またはこれらの組み合わせを示すデータを含んでよい。

　また、本発明の一態様に係るデータ分析システムにおいて、ウェブページは、例えば、ソーシャルネットワークサービスを提供するページであり、テキスト、画像、音声、もしくは動画、またはこれらの組み合わせを示すデータは、例えば、ソーシャルネットワークサービスを利用するユーザによって投稿されたデータであってよい。

　上記課題を解決するために、本発明の一態様に係るデータ分析方法は、データの分類を示す分類情報を、所定の入力装置を介してユーザから受け付ける分類情報受付ステップと、データ群に含まれる分類データに分類情報を対応付けることによって、当該分類データを分類するデータ分類ステップと、データ群に含まれる未分類データと分類情報との関連性を、データ分類ステップにおける分類結果に基づいて評価する未分類データ評価ステップと、ユーザによる分類傾向に則した未分類データを、未分類データ評価ステップにおける評価結果に応じて、データ群から傾向データとして選択する傾向データ選択ステップと、傾向データに関連する他のユーザを、所定の出力装置を介してユーザに提示するユーザ提示ステップとを含む。

　上記課題を解決するために、本発明の一態様に係るデータ分析プログラムは、データの分類を示す分類情報を、所定の入力装置を介してユーザから受け付ける分類情報受付機能と、データ群に含まれる分類データに分類情報を対応付けることによって、当該分類データを分類するデータ分類機能と、データ群に含まれる未分類データと分類情報との関連性を、データ分類機能による分類結果に基づいて評価する未分類データ評価機能と、ユーザによる分類傾向に則した未分類データを、未分類データ評価機能による評価結果に応じて、データ群から傾向データとして選択する傾向データ選択機能と、傾向データに関連する他のユーザを、所定の出力装置を介してユーザに提示するユーザ提示機能とを、コンピュータに実現させる。

　本発明の一態様に係るデータ分析システム、データ分析方法、およびデータ分析プログラムは、データの分類を示す分類情報をユーザから受け付け、データ群に含まれる分類データに分類情報を対応付けることによって当該分類データを分類し、データ群に含まれる未分類データと分類情報との関連性を分類結果に基づいて評価し、ユーザによる分類傾向に則した未分類データを評価結果に応じて選択し、当該選択されたデータ（傾向データ）に関連する他のユーザをユーザに提示することができる。したがって、上記データ分析システム等は、ユーザと属性が共通する可能性が高い潜在的な他のユーザを特定し、当該ユーザに提示できるという効果を奏する。

本発明の実施の形態に係るデータ分析システムの要部構成の一例を示すブロック図である。上記データ分析システムによって実行される処理の過程を示す模式図である。上記データ分析システムによって実行された処理の結果を示す模式図である。上記データ分析システムにおいて実行される処理の一例を示すフローチャートである。

　図１～図４に基づいて、本発明の実施の形態を説明する。

　〔データ分析システム１００の概要〕
　図２は、データ分析システム１００によって実行される処理の過程を示す模式図である。図２に例示されるように、データ群としてのソーシャルネットワークサービス（Social Network Service、以下「ＳＮＳ」と略記する）に各ユーザが小説の書評（データ）を投稿している例を用いて、上記処理の過程を概説する。

　ユーザは、他のユーザが投稿した書評のうち、自身の嗜好に合った書評（分類データ２ａ）に対して、ユーザの嗜好に合っているか否かの分類を示す分類情報１ａ（例えば、「いいね！」（Like）ボタンを押すなど）を与えることによって、「嗜好に合った書評」と「嗜好に合わない書評」とを分類することができる。データ分析システム１００は、上記分類情報１ａを未だ与えていない他の書評（未分類データ２ｂ）と分類情報１ａとの関連性を、上記の分類結果に基づいて評価する（例えば、上記関連性の高低を示すスコアを算出する）。

　図３は、データ分析システム１００によって実行された処理の結果を示す模式図である。図３に例示されるように、データ分析システム１００は、ユーザによる分類傾向に則した他の書評を、上記の評価結果に応じてＳＮＳから選択・抽出し、選択した他の書評を投稿した他のユーザを一覧表示する。すなわち、データ分析システム１００は、ＳＮＳに投稿された膨大な書評を分析し、当該書評に表現された意味を捕捉することによって、ユーザが上記分類情報１ａを与えた書評と類似の書評（高いスコアを有する書評）を抽出し、当該類似の書評を投稿した他のユーザを特定することができる。

　このように、データ分析システム１００は、データ群（例えば、ＳＮＳなどのウェブページ）に含まれる任意のデータ（テキスト、画像、音声、動画など）を分析することによって、ユーザと属性（嗜好、関心、価値観、趣味、職業、経歴など）が共通する可能性が高い潜在的な他のユーザを特定し、当該ユーザに提示することができる。

　〔データ分析システム１００の構成〕
　図１は、データ分析システム１００の要部構成の一例を示すブロック図である。データ分析システム１００は、以下で説明する複数の処理を含むデータ分析プログラムを実行可能な情報処理装置（例えば、パーソナルコンピュータ、サーバ装置、メインフレームなどのコンピュータ）を、少なくとも１つ含む情報処理システムである。

　本実施の形態においては、データ分析システム１００が１つの情報処理装置（コンピュータ）によって実現される例を説明するが、例えば、以下で説明する複数の処理を任意に分散して実行する複数の情報処理装置を含むシステムであってもよい。また、データ分析システム１００は、ディスプレイ（表示部）と、入力デバイスと、メモリと、当該メモリに格納された１つ又は複数のプログラムを実行可能な、１つ又は複数のプロセッサとを備えた、マルチファンクションデバイス（例えば、コンピュータなど）によって、特に好適に実現され得る。

　図１に例示されるように、データ分析システム１００は、制御部１０（分類情報受付部１１、データ分類部１２、要素抽出部１３、要素評価部１４、未分類データ評価部１５、評価格納部１６、傾向データ選択部１７、ユーザ提示部１８、感情格納部１９、感情抽出部２０、勧誘情報受付部２１、所属情報生成部２２）、記憶部３０、入力部４０、および表示部５０を備えている。

　制御部１０は、データ分析システム１００が有する各種機能を統括的に制御する。制御部１０は、分類情報受付部１１、データ分類部１２、要素抽出部１３、要素評価部１４、未分類データ評価部１５、評価格納部１６、傾向データ選択部１７、ユーザ提示部１８、感情格納部１９、感情抽出部２０、勧誘情報受付部２１、および所属情報生成部２２を含む。

　分類情報受付部１１は、データ２の分類を示す分類情報１ａを、所定の入力装置（例えば、入力部４０）を介してユーザから受け付ける。すなわち、分類情報受付部１１は、入力部４０から分類情報１ａを取得し、当該取得した分類情報１ａをデータ分類部１２に出力する。なお、以下では、分類データ２ａおよび未分類データ２ｂを総称して、単に「データ２」と称する。

　ここで、上記分類情報１ａは、例えば、ユーザの嗜好に合っているか否かの分類を示す情報である。特に、データ２が、ＳＮＳを利用するユーザによって投稿されたテキスト、画像、音声、もしくは動画、またはこれらの組み合わせを示すデータである場合、上記分類情報１ａは、当該データ２に対して「いいね！」（ユーザの嗜好に合っている）という意思を示したか否かを表わす情報であってよい。なお、分類情報１ａは、「ユーザの嗜好に合っているか否か」という二値（バイナリ）フラグでなく、例えば、「合っている」、「やや合っている」、「やや合っていない」、「合っていない」など、当該嗜好の程度を多段階で分類する情報（多値フラグ）であってもよい。

　データ分類部１２は、データ群に含まれる分類データ２ａに分類情報１ａを対応付けることによって、当該分類データ２ａを分類する。ここで、上記データ群は、例えば、ＳＮＳなどを提供するウェブページであってよい。また、上記分類データ２ａは、例えば、上記ウェブページに含まれるテキスト、画像、音声、もしくは動画、またはこれらの組み合わせを示すデータであってよい。データ分類部１２は、分類データ２ａと分類情報１ａとを対応付けた分類結果３ａを要素抽出部１３に出力する。

　要素抽出部１３は、分類情報１ａに基づいて分類データ２ａからデータ要素４ａを抽出する。ここで、上記データ要素４ａは、上記テキストに含まれるキーワード（例えば、形態素）、画像の一部として含まれる部分画像、音声の一部を構成する部分音声、動画を構成するフレーム画像などであってよい。要素抽出部１３は、分類データ２ａから抽出したデータ要素４ａを要素評価部１４に出力する。

　要素評価部１４は、データ要素４ａを所定の基準にしたがって評価する。要素評価部１４は、例えば、データ要素４ａと当該データ要素４ａを含む分類データ２ａに対応付けられた分類情報１ａとの依存関係を表わす伝達情報量を、上記所定の基準の１つとして用いることによって、当該データ要素４ａを評価することができる。例えば、分類データ２ａがウェブページに含まれるテキストであり、要素抽出部１３が当該テキストに含まれるキーワードを当該テキストから抽出した場合、要素評価部１４は、上記伝達情報量を用いて当該キーワードの重み（weight）を算出することによって、各キーワードを評価する。要素評価部１４は、当該評価した結果（評価結果４ｂ）を未分類データ評価部１５および評価格納部１６に出力する。

　未分類データ評価部１５は、データ群に含まれる未分類データ２ｂと分類情報１ａとの関連性を、データ分類部１２による分類結果３ａに基づいて評価する。例えば、未分類データ評価部１５は、要素評価部１４によって評価されたデータ要素４ａを分類結果３ａの１つとして用いることによって、上記関連性を評価することができる。

　また、未分類データ評価部１５は、上記未分類データ２ｂと分類情報１ａとの結びつきの強さを示すスコア（例えば、０～１００００の値をとるようにスケーリングされており、値が大きいほど上記結びつきが強いことを示す）を分類結果３ａに基づいて算出することによって、両者の関係性を評価することができる。

　例えば、未分類データ２ｂがウェブページに含まれるテキストである場合、未分類データ評価部１５は、最初に所定のキーワードが文書に含まれるか否かを示すキーワードベクトルを生成する。上記キーワードベクトルは、例えば、当該キーワードベクトルのそれぞれの要素が「０」または「１」の値をとることによって、当該要素に対応付けられた所定のキーワードが、上記テキストに含まれるか否かを示すベクトル（bag of words）である。例えば、上記テキストに「価格」というキーワードが含まれている場合、未分類データ評価部１５は、上記キーワードベクトルの上記「価格」に対応する要素を「０」から「１」に変更する。そして、未分類データ評価部１５は、以下の式のように、上記キーワードベクトル（縦ベクトル）と重みベクトル（各キーワードに対する重みを要素にした縦ベクトル）との内積を計算することにより、上記テキストのスコアＳを計算する。

　ここで、ｓはキーワードベクトルを表し、Ｗは重みベクトルを表す。なお、Ｔは行列・ベクトルを転置する（行と列とを入れ替える）ことを表す。

　または、未分類データ評価部１５は、以下の式にしたがってスコアＳを算出してもよい。

　ここで、ｍ_ｊは、ｊ番目のキーワードの出現頻度を表し、ｗ_ｉは、ｉ番目のキーワードの重みを表す。なお、未分類データ評価部１５は、上記未分類データ２ｂに含まれる第１データ要素（第１キーワード）が評価された結果（第１キーワードの重み）と、当該未分類データ２ｂに含まれる第２データ要素（第２キーワード）が評価された結果（第２キーワードの重み）とに基づいて（すなわち、キーワードの共起を考慮して）、上記スコアを算出してよい。また、未分類データ評価部１５は、上記テキストにそれぞれ含まれるセンテンスごとにセンテンススコアを算出し、当該センテンススコアに基づいて上記スコアを算出してよい（いずれも後で詳細に説明する）。

　なお、上記未分類データ２ｂは、上記分類データ２ａと同様に、例えば、上記ウェブページに含まれるテキスト、画像、音声、もしくは動画、またはこれらの組み合わせを示すデータであってよい。未分類データ評価部１５は、評価した結果（評価結果４ｃ）を傾向データ選択部１７に出力する。

　評価格納部１６は、要素評価部１４による評価結果４ｂを所定の記憶装置（例えば、記憶部３０）に格納する。例えば、分類データ２ａがウェブページに含まれるテキストであり、要素抽出部１３が当該テキストに含まれるキーワードを当該テキストから抽出した場合、評価格納部１６は、要素抽出部１３によって抽出された上記キーワードと、要素評価部１４によって算出された当該キーワードの重みとを対応付けて、記憶部３０に格納する。

　傾向データ選択部１７は、ユーザによる分類傾向に則した未分類データ２ｂを、未分類データ評価部１５による評価結果４ｃに応じて、データ群から傾向データ２ｃとして選択する。例えば、未分類データ２ｂがＳＮＳを利用するユーザによって投稿されたテキストであり、未分類データ評価部１５によって各テキストに対して上記スコアが評価結果４ｃとして算出された場合、傾向データ選択部１７は、（１）所定の閾値を超過したスコアを有するテキスト、または（２）スコアが高い順から所定数（例えば、１００）のテキストを、ユーザによる分類傾向に則した未分類データ２ｂとして選択し、当該未分類データ２ｂを傾向データ２ｃとしてユーザ提示部１８に出力する。なお、傾向データ選択部１７は、未分類データ２ｂの全部を傾向データ２ｃとして選択してもよい。

　ユーザ提示部１８は、傾向データ２ｃに関連する他のユーザを、表示部５０を介してユーザに提示する。例えば、傾向データ選択部１７から入力された傾向データ２ｃが、ＳＮＳを利用するユーザによって投稿されたテキストである場合、ユーザ提示部１８は、当該テキストを投稿したユーザ（上記他のユーザ）が一覧可能となるように、当該他のユーザを表示部５０に表示させる表示情報１ｂを当該表示部５０に出力する。

　感情格納部１９は、未分類データ２ｂに含まれるデータ要素４ａと当該データ要素４ａに対する感情評価４ｄとを対応付けて、所定の記憶装置（例えば、記憶部３０）に格納する。例えば、データ２がウェブページに含まれるテキストである場合、感情格納部１９は、予め定められたキーワードが当該テキストに含まれているか否かを探索する。含まれている場合、感情格納部１９は、当該キーワードを抽出し、所定の基準にしたがって算出した感情スコアを感情評価４ｄとして当該キーワードに対応付けて記憶部３０に格納する。

　感情抽出部２０は、未分類データ２ｂが事象（ユーザの評価対象となる出来事を広く指す）に対するユーザの評価を少なくとも含むデータである場合に、当該未分類データ２ｂを生成したユーザの感情であって、上記評価に基づいて生じた上記事象に対する感情を、当該未分類データ２ｂから抽出する。ここで、ユーザが「ある小説を読んだ」という事象に対して「おもしろかった」という評価をし、当該評価に基づいて（作者の作風などが）「好き」というポジティブな感情を抱いた場合に、当該小説のレビューとして「とてもおもしろかったです。家族に勧めようと思います」というテキスト（未分類データ２ｂ）を所定のウェブページ（例えば、ＳＮＳを提供するページなど）に投稿した例を考える（図２、図３参照）。

　まず、感情抽出部２０は、上記テキストに含まれるキーワードがデータ要素４ａとして記憶部３０に格納されているか否かを判定する。上記例において、「おもしろかった」というデータ要素４ａに「＋１.２」という正値（感情評価４ｄ）が対応付けられて、感情格納部１９によって記憶部３０に予め格納されている場合、感情抽出部２０は、「＋１.２」を当該テキストの抽出結果３ｂとする。また、「勧めよう」（「勧める」の活用形）というデータ要素４ａに「＋０.８」という正値（感情評価４ｄ）が対応付けられて、感情格納部１９によって記憶部３０にさらに格納されている場合、感情抽出部２０は、「＋２.０（＝＋１.２＋０.８）」を当該テキストの抽出結果３ｂとする。感情抽出部２０は、当該抽出結果３ｂを傾向データ選択部１７に出力する。

　感情抽出部２０から上記抽出結果３ｂが傾向データ選択部１７に入力された場合、傾向データ選択部１７は、未分類データ評価部１５による評価結果４ｃと当該抽出結果３ｂとに応じて、傾向データ２ｃを選択することができる。例えば、傾向データ選択部１７は、所定の閾値を超過したスコアを有し、かつ、ポジティブな感情が抽出された（抽出結果３ｂが正の値となる）未分類データ２ｂを傾向データ２ｃとして選択してよい。

　勧誘情報受付部２１は、ユーザが所属するコミュニティに所属するように他のユーザを促す勧誘情報１ｃを、所定の入力装置（例えば、入力部４０）を介して当該ユーザから受け付ける。すなわち、勧誘情報受付部２１は、入力部４０から勧誘情報１ｃを取得し、当該取得した勧誘情報１ｃを所属情報生成部２２に出力する。

　所属情報生成部２２は、上記コミュニティへの所属について上記他のユーザから承諾を得られた場合、当該他のユーザを当該コミュニティに所属させる所属情報３ｃを生成し、当該所属情報３ｃを記憶部３０に格納することによって、当該他のユーザが所属するコミュニティを追加・変更する。

　入力部（所定の入力装置）４０は、ユーザからの入力を受け付ける。本実施の形態において、入力部４０は、例えば、マウス、キーボード、タッチパネル、音声入力用マイクなどであってよい。なお、図１は、データ分析システム１００が入力部４０を備える構成を例示しているが、入力部４０は、当該データ分析システム１００と通信可能に接続された任意の入力装置（例えば、携帯端末の入力インターフェース）であってよい。

　表示部（所定の出力装置）５０は、ユーザ提示部１８から入力された表示情報１ｂに基づいて、制御部１０による処理結果を表示するデバイスである。本実施の形態において、表示部５０は、液晶ディスプレイであってよい。なお、図１は、データ分析システム１００が表示部５０を備える構成を例示しているが、表示部５０は、当該データ分析システム１００と通信可能に接続された任意の出力装置（例えば、携帯端末のディスプレイ）であってよい。

　記憶部（所定の記憶装置）３０は、例えば、ハードディスク、ＳＳＤ（silicon state drive）、半導体メモリ、ＤＶＤなど、任意の記録媒体によって構成される記憶機器であり、データ分析システム１００を制御可能なデータ分析プログラム、および当該データ分析システム１００が利用する任意の情報を記憶する。なお、図１は、データ分析システム１００が記憶部３０を備える構成を例示しているが、記憶部３０は、当該データ分析システム１００と通信可能に接続された任意の記憶装置であってよい。

　〔データ分析システム１００において実行される処理〕
　図４は、データ分析システム１００において実行される処理の一例を示すフローチャートである。なお、以下の説明において、カッコ書きの「～ステップ」は、データ分析方法に含まれる各ステップを表す。

　まず、分類情報受付部１１は、データの分類を示す分類情報１ａを、所定の入力装置（例えば、入力部４０）を介してユーザから受け付ける（ステップ１、以下「ステップ」を「Ｓ」と略記する、分類情報受付ステップ）。次に、データ分類部１２は、データ群（例えば、ウェブページなど）に含まれる分類データ２ａ（例えば、当該ウェブページに記載されているテキストなど）に上記分類情報１ａを対応付けることによって、当該分類データ２ａを分類する（Ｓ２、データ分類ステップ）。次に、要素抽出部１３は、上記分類情報１ａに基づいて上記分類データ２ａからデータ要素４ａを抽出し（Ｓ３）、要素評価部１４は、当該データ要素４ａを所定の基準（例えば、伝達情報量）にしたがって評価する（Ｓ４）。そして、評価格納部１６は、要素評価部１４による評価結果４ｂを所定の記憶装置（例えば、記憶部３０）に格納する。

　未分類データ評価部１５は、データ群に含まれる未分類データ２ｂと分類情報１ａとの関連性を、データ分類部１２による分類結果３ａに基づいて評価する（Ｓ６、未分類データ評価ステップ）。次に、傾向データ選択部１７は、ユーザによる分類傾向に則した未分類データ２ｂを、未分類データ評価部１５による評価結果４ｃに応じて、データ群から傾向データ２ｃとして選択する（Ｓ７、傾向データ選択ステップ）。最後に、ユーザ提示部１８は、傾向データ２ｃに関連する他のユーザを、所定の出力装置（例えば、表示部５０）を介してユーザに提示する（Ｓ８、ユーザ提示ステップ）。

　なお、上記データ分析方法は、図４を参照して前述した上記処理だけでなく、制御部１０に含まれる各部において実行される処理を任意に含んでよい。

　〔共起に基づくスコア計算〕
　前述したように、未分類データ評価部１５は、未分類データ２ｂに含まれる第１データ要素が評価された結果と、当該未分類データ２ｂに含まれる第２データ要素が評価された結果とに基づいてスコアを算出できる。例えば、未分類データ評価部１５は、第１キーワードがテキストに出現した場合、当該テキストにおいて第２キーワードが出現する頻度（すなわち、第１キーワードと第２キーワードとの相関、共起ともいう）を考慮して、当該テキストのスコアを計算できる。

　この場合、未分類データ評価部１５は、第１キーワードと第２キーワードとの相関（共起）を表す相関行列（共起行列）Ｃを用いて、（上記〔数１〕ではなく）以下の式にしたがってスコアＳを計算できる。

　なお、上記相関行列Ｃは、所定のテキストを所定数だけ含む学習用データセットを用いて、あらかじめ最適化されている。例えば、あるテキストにおいて「価格」というキーワードが出現する場合、当該キーワードに対する他のキーワードの出現数を０～１の間に正規化した値（すなわち、最尤推定値）が、上記相関行列Ｃのそれぞれの要素に格納されている（したがって、上記相関行列Ｃの各列に対する総和は１になる）。

　以上のように、データ分析システム１００は、キーワード間の相関関係を考慮してスコアを算出できるため、より高い精度でユーザと属性が共通する可能性が高い潜在的な他のユーザを特定することができる。

　〔センテンスごとに算出したセンテンススコアに基づくスコア計算〕
　前述したように、未分類データ評価部１５は、テキストにそれぞれ含まれるセンテンスごとにセンテンススコアを算出し、当該センテンススコアに基づいて当該テキストのスコアを算出できる。この場合、未分類データ評価部１５は、当該テキストに含まれるセンテンスに所定のキーワードが含まれるか否かを示すキーワードベクトルを、当該センテンスごとに生成する。そして、未分類データ評価部１５は、下記の式にしたがってスコアをテキストごとに算出する。

　ここで、ｓ_ｓは、ｓ番目のセンテンスに対応するキーワードベクトルである。なお、上記〔数４〕にしたがうスコアの算出においては、共起を考慮している（相関行列Ｃを用いている）ことに注意する。

　ＴＦｎｏｒｍは、下記の〔数５〕に示されるように計算できる。

　ここで、上記〔数５〕において、ＴＦ_ｉはｉ番目のキーワードの出現頻度（Term Frequency）を表し、ｓ_ｊｉは上記ｉ番目のキーワードベクトルのｊ番目の要素を表し、ｃ_ｊｉは相関行列Ｃのｊ行ｉ列の要素を表す。

　上記〔数４〕および〔数５〕をまとめると、未分類データ評価部１５は、以下の〔数６〕を計算することによってテキストごとに上記スコアを算出する。

　ここで、上記〔数６〕において、ｗ_ｉは上記重みベクトルｗのｉ番目の要素である。

　以上のように、データ分析システム１００は、センテンスの文意を正しく反映したスコアを算出できるため、より高い精度でユーザと属性が共通する可能性が高い潜在的な他のユーザを特定することができる。

　〔閾値の設定〕
　前述のように、データ分析システム１００は、ユーザの嗜好に合っているか否かの分類を示す分類情報１ａに基づいて、未分類データ２ｂに含まれるデータ要素４ａを所定の基準に基づいてそれぞれ評価する。そして、データ分析システム１００は、当該評価結果４ｂに基づいて、上記未分類データ２ｂと上記分類情報１ａとの結びつきの強さを示すスコアを算出し、適合率（「ユーザの嗜好に合っている」として選択された傾向データ２ｃがデータ群に占める割合）に対して設定された目標値（目標適合率）を超過可能な最小のスコアを、適合しきい値として特定することができる。

　すなわち、データ分析システム１００は、ユーザから与えられた分類情報１ａ（過去のデータに対して人間が判断した結果）に基づいて上記適合しきい値を設定し、当該適合しきい値を超過するスコアを有する未分類データ２ｂのみを、当該ユーザの嗜好に合っている可能性が高いデータ（傾向データ２ｃ）として選択し、当該傾向データ２ｃに関連する他のユーザを当該ユーザに提示することができる。言い換えれば、データ分析システム１００は、過去のデータを分析した結果に基づいて現在のデータを分析することにより、未分類データ２ｂを分別できる。これにより、データ分析システム１００は、例えば、ユーザの嗜好をリアルタイムに分析できる（分析対象となるデータが、あらかじめ用意されている必要はない）。

　より具体的には、分類情報１ａが与えられた分類データ２ａについてスコアがそれぞれ算出された場合、データ分析システム１００は、当該スコアを降順に並べ替える。次に、データ分析システム１００は、最大のスコア（当該スコアのランクが１位）を有する分類データ２ａから順番に当該分類データ２ａに付与された分類情報１ａを走査し、「嗜好に合っている」という分類情報１ａが付与されたデータの数が、現時点において走査が終了したデータの数に占める割合（適合率）を、順次計算する。

　例えば、分類情報１ａが付与された分類データ２ａの数が１００である場合に、スコアのランクが１位から２０位までのデータについて走査を終了したところ、「嗜好に合っている」という分類情報１ａが付与されたデータの数が１８であった場合、データ分析システム１００は、適合率を０.９（１８／２０）と計算する。または、スコアのランクが１位から４０位までのデータについて走査を終了したところ、「嗜好に合っている」というレ分類情報１ａが付与されたデータの数が３５であった場合、データ分析システム１００は、適合率を０.８７５（３５／４０）と計算する。

　データ分析システム１００は、分類データ２ａに対する適合率をすべて計算し、目標適合率を超過可能な最小のスコアを特定する。具体的には、データ分析システム１００は、最小のスコア（スコアのランクが１００位）を有する分類データ２ａから順番に当該分類データ２ａに対して計算された適合率を走査し、当該適合率が目標適合率を超過した場合、当該適合率に対応するスコアを、上記目標適合率を維持可能な最小スコア（適合しきい値）として特定する。

　そして、データ分析システム１００は、ユーザの嗜好に合っているか否かが未だ判断されていない未分類データ２ｂについて算出されたスコアが、上記適合しきい値を超過しているか否かを判定し、超過していると判定した未分類データ２ｂを傾向データ２ｃとして選択できる。これにより、データ分析システム１００は、ユーザの嗜好をリアルタイムに分析できる。

　〔ＳＮＳ以外のデータ群に適用する例〕
　説明を理解容易とするために、データ分析システム１００がＳＮＳに含まれるデータ（当該ＳＮＳを利用する他のユーザが投稿したテキスト）を分析する例を主に説明したが、当該データ分析システム１００は、ＳＮＳ以外をデータ群とし、当該データ群に含まれるデータを分析することもできる。例えば、上記データ群は、米国民事訴訟におけるディスカバリの準備段階において収集されたドキュメント群であってよい。

　この場合、上記データ分析システム１００は、上記ドキュメント群（分別文書群）に含まれるドキュメント（文書）に対して、ユーザ（レビュア）がそれぞれ付与した、当該ドキュメントを分類するために用いられる識別子である分別符号（タグ）を、分類情報１ａとして受け付け、当該ドキュメント群に含まれるドキュメント（分類データ）に分類情報１ａを対応付けることによって、当該ドキュメントを分類する。

　そして、上記データ分析システム１００は、ドキュメント群に含まれる他のドキュメント（未分類データ）と分類情報１ａとの関連性を分類結果に基づいて（例えば、スコアを計算することによって）評価し、上記レビュアによる分類傾向に則したドキュメントを、評価結果に応じて傾向データ２ｃとして選択・抽出する。最後に、上記データ分析システム１００は、上記傾向データ２ｃに関連する人物（他のユーザ、例えば、当該訴訟における関係者（カストディアン））を一覧表示する。これにより、上記データ分析システム１００は、上記ディスカバリの準備段階において収集されたドキュメントを分別するレビュアの負担を軽減できる。

　〔文書以外のデータに適用する例〕
　説明を簡略化するために、データ分析システム１００がテキストを分析する例を主に説明したが、当該データ分析システム１００は、テキスト以外のデータを分析することもできる。例えば、データ分析システム１００が音声を分析する場合、（１）音声を認識することによって当該音声に含まれる会話の内容を文字（テキスト）に変換し、当該テキストを分析してもよいし、（２）音声データをそのまま分析してもよい。

　上記（１）の場合、上記データ分析システム１００は、任意の音声認識アルゴリズム（例えば、隠れマルコフモデルを用いた認識方法など）を用いることによって、音声をテキストに変換し、上記で説明した処理と同様の処理を、当該テキストに対して実行する。これにより、上記データ分析システム１００は、音声を分析することができる。

　上記（２）の場合、上記データ分析システム１００は、音声に含まれる部分音声（データ要素）を抽出する。例えば、「価格を調整する」という音声が得られた場合、データ分析システム１００は「価格」および「調整」という部分音声を当該音声から抽出し、当該部分音声を評価した結果に基づいて、未分類の音声（未分類データ２ｂ）と分類情報１ａとの関連性を評価することができる。この場合、データ分析システム１００は、時系列データの分類アルゴリズム（例えば、隠れマルコフモデル、カルマンフィルタ、ニューラルネットワークなど）を利用して、音声を分別できる。これにより、上記データ分析システム１００は、音声を分析することができる。

　または、データ分析システム１００は、映像（動画）を分析することもできる。この場合、データ分析システム１００は、映像に含まれるフレーム画像を抽出し、任意の顔認識技術を用いることによって、当該フレーム画像に含まれる人物を特定できる。また、データ分析システム１００は、任意のモーション認識技術（例えば、パターンマッチング技術を応用するものであってよい）を用いることによって、上記映像に含まれる部分映像（上記映像に含まれる全フレーム画像のうちの一部を含む映像）から上記人物のモーション（動作）を抽出できる。そして、データ分析システム１００は、上記人物および／またはモーションに基づいて、未分類の映像（未分類データ２ｂ）と分類情報１ａとの関連性を評価することができる。これにより、上記データ分析システム１００は、映像を分析することができる。

　〔ソフトウェアによる実現例〕
　データ分析システム１００の制御ブロック（特に、制御部１０）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。後者の場合、データ分析システム１００は、各機能を実現するソフトウェアであるデータ分析プログラムの命令を実行するＣＰＵ、上記データ分析プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、上記データ分析プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記データ分析プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記データ分析プログラムは、当該データ分析プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。本発明は、上記データ分析プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

　具体的には、本発明の実施の形態に係るデータ分析プログラムは、分類情報受付機能、データ分類機能、未分類データ評価機能、傾向データ選択機能、およびユーザ提示機能をコンピュータに実現させる。上記分類情報受付機能、データ分類機能、未分類データ評価機能、傾向データ選択機能、およびユーザ提示機能は、上述した分類情報受付部１１、データ分類部１２、未分類データ評価部１５、傾向データ選択部１７、およびユーザ提示部１８によってそれぞれ実現され得る。詳細については上述した通りである。

　なお、上記データ分析プログラムは、例えば、Python、ActionScript、JavaScript（登録商標）などのスクリプト言語、Objective-C、Java（登録商標）などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装できる。また、上記データ分析プログラムによって実現される各機能を実現する各部を備えた情報処理装置と、当該各機能とは異なる残りの機能を実現する各部を備えたサーバ装置とを含む分散型のデータ分析システムも、本発明の範疇に入る。

　〔サーバ装置が機能の一部または全部を提供する構成〕
　データを分析する機能を提供可能なデータ分析プログラムの一部または全部が、データ分析システム１００としてのサーバ装置において実行され、当該実行された処理の結果が任意の情報処理端末に返される構成であってもよい。すなわち、本発明のデータ分析システムは、ユーザ端末とネットワークを介して通信可能に接続されたサーバ装置として機能することができる。

　例えば、所定の入力装置を備え、ユーザによって利用されるユーザ端末（例えば、スマートフォン、パーソナルコンピュータなど）に分類情報受付部１１が実現され、当該コンピュータによって受け付けられた分類情報１ａが、データ分類部１２、要素抽出部１３、要素評価部１４、未分類データ評価部１５、評価格納部１６、傾向データ選択部１７、ユーザ提示部１８、感情格納部１９、感情抽出部２０、勧誘情報受付部２１、および所属情報生成部２２が実現された上記サーバ装置に、上記ネットワークを介して送信される。そして、当該サーバ装置は、上記分類情報１ａを受信し、上記で説明した各種の処理を実行し、実行結果（表示情報１ｂ）を上記ユーザ端末に送信する。

　これにより、上記サーバ装置およびユーザ端末を含むシステムとして、本発明のデータ分析システムが実現される。

　〔付記事項〕
　本発明は上述したそれぞれの実施の形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施の形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても、本発明の技術的範囲に含まれる。さらに、各実施の形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成できる。

　なお、本発明に係るデータ分析システムは、データの分類を示す分類情報を、所定の入力装置を介してユーザから受け付ける分類情報受付部と、データ群に含まれる分類データに前記分類情報を対応付けることによって、当該分類データを分類するデータ分類部と、前記データ群に含まれる未分類データと前記分類情報との関連性を、前記データ分類部による分類結果に基づいて評価する未分類データ評価部と、前記ユーザによる分類傾向に則した未分類データに関連する他のユーザを、前記未分類データ評価部による評価結果に応じて特定し、所定の出力装置を介して当該特定した他のユーザを前記ユーザに提示するユーザ提示部とを備えたデータ分析システムとも表現できる。

　また、本発明に係るデータ分析システムは、文書情報から所定数の文書を含む分別文書群を、ユーザによる分別対象として抽出する抽出部と、分別文書群に含まれる文書に対して、ユーザがそれぞれ付与した、文書を分類する際に用いる識別子である分別符号を受け付ける分別符号受付部と、分別文書群に含まれる文書から分別符号に基づいて選定されたキーワードを記録するデータベースと、文書情報に含まれる文書と分別符号との結びつきの強さを評価したスコアを、キーワードに基づいて算出するスコア算出部とを備えたデータ分析システムとも表現できる。

　また、本発明に係るデータ分析システムは、車両の周囲から取得された複数のデータから所定の事案と関係するデータを抽出可能なデータ分析システムであって、所定の事案と関係するか否かが判断されていない未判断データが新たに取得された場合、車両を運転するドライバによって当該所定の事案と関係するか否かが判断された既判断データに基づいて、当該未判断データと当該所定の事案との関係性を評価する関係性評価部と、関係性評価部によって評価された関係性に応じて、未判断データをドライバに報知するデータ報知部とを備えたデータ分析システムとも表現できる。

　本発明は、パーソナルコンピュータ、サーバ装置、ワークステーション、メインフレームなど、任意のコンピュータに広く適用することができる。

　１ａ：分類情報、１ｃ：勧誘情報、２ａ：分類データ、２ｂ：未分類データ、２ｃ：傾向データ、３ａ：分類結果、３ｃ：所属情報、４ａ：データ要素、４ｂ：評価結果、４ｃ：評価結果、１１：分類情報受付部、１２：データ分類部、１３：要素抽出部、１４：要素評価部、１５：未分類データ評価部、１６：評価格納部、１７：傾向データ選択部、１８：ユーザ提示部、１９：感情格納部、２０：感情抽出部、２１：勧誘情報受付部、２２：所属情報生成部、３０：記憶部（所定の記憶装置）、４０：入力部（所定の入力装置）、５０：表示部（所定の出力装置）、１００：データ分析システム

Claims

　データの分類を示す分類情報を、所定の入力装置を介してユーザから受け付ける分類情報受付部と、
　データ群に含まれる分類データに前記分類情報を対応付けることによって、当該分類データを分類するデータ分類部と、
　前記データ群に含まれる未分類データと前記分類情報との関連性を、前記データ分類部による分類結果に基づいて評価する未分類データ評価部と、
　前記ユーザによる分類傾向に則した未分類データを、前記未分類データ評価部による評価結果に応じて、前記データ群から傾向データとして選択する傾向データ選択部と、
　前記傾向データに関連する他のユーザを、所定の出力装置を介して前記ユーザに提示するユーザ提示部とを備えたデータ分析システム。
　前記分類情報に基づいて前記分類データからデータ要素を抽出する要素抽出部と、
　前記データ要素を所定の基準にしたがって評価する要素評価部とをさらに備え、
　前記未分類データ評価部は、前記要素評価部によって評価された前記データ要素を前記分類結果の１つとして用いることによって、前記関連性を評価することを特徴とする請求項１に記載のデータ分析システム。
　前記要素評価部は、前記データ要素と当該データ要素を含む分類データに対応付けられた分類情報との依存関係を表わす伝達情報量を、前記所定の基準の１つとして用いることによって、当該データ要素を評価することを特徴とする請求項２に記載のデータ分析システム。
　前記要素評価部による評価結果を所定の記憶装置に格納する評価格納部をさらに備えたことを特徴とする請求項２または３に記載のデータ分析システム。
　前記未分類データは、事象に対するユーザの評価を少なくとも含むデータであり、
　前記未分類データを生成したユーザの感情であって、前記評価に基づいて生じた前記事象に対する感情を、当該未分類データから抽出する感情抽出部をさらに備え、
　前記傾向データ選択部は、前記感情抽出部による抽出結果にさらに応じて、前記傾向データを選択することを特徴とする請求項１から４のいずれか一項に記載のデータ分析システム。
　前記未分類データに含まれるデータ要素と当該データ要素に対する感情評価とを対応付けて、所定の記憶装置に格納する感情格納部をさらに備え、
　前記感情抽出部は、前記データ要素に対応付けられた前記感情評価を用いて前記未分類データを評価することによって、前記感情を当該未分類データから抽出することを特徴とする請求項５に記載のデータ分析システム。
　前記ユーザが所属するコミュニティに所属するように前記他のユーザを促す勧誘情報を、前記所定の入力装置を介して当該ユーザから受け付ける勧誘情報受付部と、
　前記所属について前記他のユーザから承諾を得られた場合、当該他のユーザを前記コミュニティに所属させる所属情報を生成する所属情報生成部とをさらに備えたことを特徴とする請求項１から６のいずれか一項に記載のデータ分析システム。
　前記未分類データ評価部は、前記未分類データと前記分類情報との結びつきの強さを示すスコアを前記分類結果に基づいて算出することによって、前記関係性を評価することを特徴とする請求項１から７のいずれか一項に記載のデータ分析システム。
　前記未分類データ評価部は、前記未分類データに含まれる第１データ要素と第２データ要素との相関に基づいて前記スコアを算出することを特徴とする請求項８に記載のデータ分析システム。
　前記未分類データは、テキストに関するデータを少なくとも含み、
　前記未分類データ評価部は、前記テキストに含まれるセンテンスと前記分類情報との関連性を、前記分類結果に基づいて評価し、当該評価結果に基づいて、前記未分類データと当該分類情報との関連性を評価することを特徴とする請求項１から９のいずれか一項に記載のデータ分析システム。
　前記分類情報は、前記ユーザの嗜好に合っているか否かの分類を示す情報であることを特徴とする請求項１から１０のいずれか一項に記載のデータ分析システム。
　前記データ群は、ウェブページを含み、
　前記データ、分類データ、および／または未分類データは、前記ウェブページに含まれるテキスト、画像、音声、もしくは動画、またはこれらの組み合わせを示すデータを含むことを特徴とする請求項１から１１のいずれか一項に記載のデータ分析システム。
　前記ウェブページは、ソーシャルネットワークサービスを提供するページであり、
　前記テキスト、画像、音声、もしくは動画、またはこれらの組み合わせを示すデータは、前記ソーシャルネットワークサービスを利用するユーザによって投稿されたデータであることを特徴とする請求項１２に記載のデータ分析システム。
　データの分類を示す分類情報を、所定の入力装置を介してユーザから受け付ける分類情報受付ステップと、
　データ群に含まれる分類データに前記分類情報を対応付けることによって、当該分類データを分類するデータ分類ステップと、
　前記データ群に含まれる未分類データと前記分類情報との関連性を、前記データ分類ステップにおける分類結果に基づいて評価する未分類データ評価ステップと、
　前記ユーザによる分類傾向に則した未分類データを、前記未分類データ評価ステップにおける評価結果に応じて、前記データ群から傾向データとして選択する傾向データ選択ステップと、
　前記傾向データに関連する他のユーザを、所定の出力装置を介してユーザに提示するユーザ提示ステップとを含む、データ分析システムにおいて実行されるデータ分析方法。
　データの分類を示す分類情報を、所定の入力装置を介してユーザから受け付ける分類情報受付機能と、
　データ群に含まれる分類データに前記分類情報を対応付けることによって、当該分類データを分類するデータ分類機能と、
　前記データ群に含まれる未分類データと前記分類情報との関連性を、前記データ分類機能による分類結果に基づいて評価する未分類データ評価機能と、
　前記ユーザによる分類傾向に則した未分類データを、前記未分類データ評価機能による評価結果に応じて、前記データ群から傾向データとして選択する傾向データ選択機能と、
　前記傾向データに関連する他のユーザを、所定の出力装置を介してユーザに提示するユーザ提示機能とを、コンピュータに実現させるデータ分析プログラム。