JPWO2016063403A1 - データ分析システム、データ分析方法、およびデータ分析プログラム - Google Patents

データ分析システム、データ分析方法、およびデータ分析プログラム Download PDF

Info

Publication number
JPWO2016063403A1
JPWO2016063403A1 JP2016542301A JP2016542301A JPWO2016063403A1 JP WO2016063403 A1 JPWO2016063403 A1 JP WO2016063403A1 JP 2016542301 A JP2016542301 A JP 2016542301A JP 2016542301 A JP2016542301 A JP 2016542301A JP WO2016063403 A1 JPWO2016063403 A1 JP WO2016063403A1
Authority
JP
Japan
Prior art keywords
data
classification
unclassified
user
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016542301A
Other languages
English (en)
Other versions
JP6043460B2 (ja
Inventor
守本 正宏
正宏 守本
秀樹 武田
秀樹 武田
孝紀 竹田
孝紀 竹田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ubic Inc
Original Assignee
Ubic Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ubic Inc filed Critical Ubic Inc
Application granted granted Critical
Publication of JP6043460B2 publication Critical patent/JP6043460B2/ja
Publication of JPWO2016063403A1 publication Critical patent/JPWO2016063403A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • G06F16/287Visualization; Browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本発明は、データの分類を示す分類情報を、所定の入力装置を介してユーザから受け付ける分類情報受付部と、データ群に含まれる分類データに分類情報を対応付けることによって、当該分類データを分類するデータ分類部と、データ群に含まれる未分類データと分類情報との関連性を、分類結果に基づいて評価する未分類データ評価部と、ユーザによる分類傾向に則した未分類データを、評価結果に応じてデータ群から傾向データとして選択する傾向データ選択部と、傾向データに関連する他のユーザを、所定の出力装置を介してユーザに提示するユーザ提示部とを備えたデータ分析システムである。

Description

本発明は、データを分析するデータ分析システム等に関するものである。
近年、ユーザ同士が目的に応じたリレーションを構築可能とするサービス(例えば、ソーシャルネットワークサービスなど)に注目が集まっている。上記サービスにおいては、ユーザ同士を適切にマッチングすることが重要となるため、マッチングに関する技術が広く開発されている。
例えば、特許文献1には、ゲームのプレイ期間が短い一般プレイヤに、特定プレイヤと対戦する機会を与えることができるゲームプレイヤのマッチングシステムが開示されている。また、特許文献2には、参加プレイヤによるマッチング範囲の選択を支援するマッチングシステムが開示されている。
特開2014−176401号公報 特開2013−085819号公報
上記サービスに含まれるコンテンツの量、および当該サービスを利用するユーザの数は膨大であることが通常であり、従来の技術では、当該膨大なデータを処理して所望のデータを特定することが困難であるため、各ユーザは、例えば、自身と嗜好が共通する他のユーザを発見することがほとんど不可能であった。
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、ユーザと属性が共通する可能性が高い潜在的な他のユーザを特定し、当該ユーザに提示可能なデータ分析システム等を提供することである。
上記課題を解決するために、本発明の一態様に係るデータ分析システムは、データの分類を示す分類情報を、所定の入力装置を介してユーザから受け付ける分類情報受付部と、データ群に含まれる分類データに分類情報を対応付けることによって、当該分類データを分類するデータ分類部と、データ群に含まれる未分類データと分類情報との関連性を、データ分類部による分類結果に基づいて評価する未分類データ評価部と、ユーザによる分類傾向に則した未分類データを、未分類データ評価部による評価結果に応じて、データ群から傾向データとして選択する傾向データ選択部と、傾向データに関連する他のユーザを、所定の出力装置を介してユーザに提示するユーザ提示部とを備える。
また、本発明の一態様に係るデータ分析システムは、例えば、分類情報に基づいて分類データからデータ要素を抽出する要素抽出部と、データ要素を所定の基準にしたがって評価する要素評価部とをさらに備え、未分類データ評価部は、要素評価部によって評価されたデータ要素を分類結果の1つとして用いることによって、関連性を評価することができる。
また、本発明の一態様に係るデータ分析システムにおいて、要素評価部は、例えば、データ要素と当該データ要素を含む分類データに対応付けられた分類情報との依存関係を表わす伝達情報量を、所定の基準の1つとして用いることによって、当該データ要素を評価することができる。
また、本発明の一態様に係るデータ分析システムは、例えば、要素評価部による評価結果を所定の記憶装置に格納する評価格納部をさらに備えてよい。
また、本発明の一態様に係るデータ分析システムにおいて、未分類データは、例えば、事象に対するユーザの評価を少なくとも含むデータであり、未分類データを生成したユーザの感情であって、評価に基づいて生じた事象に対する感情を、当該未分類データから抽出する感情抽出部をさらに備え、傾向データ選択部は、感情抽出部による抽出結果にさらに応じて、傾向データを選択することができる。
また、本発明の一態様に係るデータ分析システムは、例えば、未分類データに含まれるデータ要素と当該データ要素に対する感情評価とを対応付けて、所定の記憶装置に格納する感情格納部をさらに備え、感情抽出部は、データ要素に対応付けられた感情評価を用いて未分類データを評価することによって、感情を当該未分類データから抽出することができる。
また、本発明の一態様に係るデータ分析システムは、例えば、ユーザが所属するコミュニティに所属するように他のユーザを促す勧誘情報を、所定の入力装置を介して当該ユーザから受け付ける勧誘情報受付部と、所属について他のユーザから承諾を得られた場合、当該他のユーザをコミュニティに所属させる所属情報を生成する所属情報生成部とをさらに備えてよい。
また、本発明の一態様に係るデータ分析システムにおいて、未分類データ評価部は、例えば、未分類データと分類情報との結びつきの強さを示すスコアを分類結果に基づいて算出することによって、関係性を評価することができる。
また、本発明の一態様に係るデータ分析システムにおいて、未分類データ評価部は、例えば、未分類データに含まれる第1データ要素と第2データ要素との相関に基づいてスコアを算出することができる。
また、本発明の一態様に係るデータ分析システムにおいて、例えば、未分類データは、テキストに関するデータを少なくとも含み、未分類データ評価部は、テキストに含まれるセンテンスと分類情報との関連性を、分類結果に基づいて評価し、当該評価結果に基づいて、未分類データと当該分類情報との関連性を評価することができる。
また、本発明の一態様に係るデータ分析システムにおいて、分類情報は、例えば、ユーザの嗜好に合っているか否かの分類を示す情報であってよい。
また、本発明の一態様に係るデータ分析システムにおいて、データ群は、例えば、ウェブページを含み、データ、分類データ、および/または未分類データは、例えば、ウェブページに含まれるテキスト、画像、音声、もしくは動画、またはこれらの組み合わせを示すデータを含んでよい。
また、本発明の一態様に係るデータ分析システムにおいて、ウェブページは、例えば、ソーシャルネットワークサービスを提供するページであり、テキスト、画像、音声、もしくは動画、またはこれらの組み合わせを示すデータは、例えば、ソーシャルネットワークサービスを利用するユーザによって投稿されたデータであってよい。
上記課題を解決するために、本発明の一態様に係るデータ分析方法は、データの分類を示す分類情報を、所定の入力装置を介してユーザから受け付ける分類情報受付ステップと、データ群に含まれる分類データに分類情報を対応付けることによって、当該分類データを分類するデータ分類ステップと、データ群に含まれる未分類データと分類情報との関連性を、データ分類ステップにおける分類結果に基づいて評価する未分類データ評価ステップと、ユーザによる分類傾向に則した未分類データを、未分類データ評価ステップにおける評価結果に応じて、データ群から傾向データとして選択する傾向データ選択ステップと、傾向データに関連する他のユーザを、所定の出力装置を介してユーザに提示するユーザ提示ステップとを含む。
上記課題を解決するために、本発明の一態様に係るデータ分析プログラムは、データの分類を示す分類情報を、所定の入力装置を介してユーザから受け付ける分類情報受付機能と、データ群に含まれる分類データに分類情報を対応付けることによって、当該分類データを分類するデータ分類機能と、データ群に含まれる未分類データと分類情報との関連性を、データ分類機能による分類結果に基づいて評価する未分類データ評価機能と、ユーザによる分類傾向に則した未分類データを、未分類データ評価機能による評価結果に応じて、データ群から傾向データとして選択する傾向データ選択機能と、傾向データに関連する他のユーザを、所定の出力装置を介してユーザに提示するユーザ提示機能とを、コンピュータに実現させる。
本発明の一態様に係るデータ分析システム、データ分析方法、およびデータ分析プログラムは、データの分類を示す分類情報をユーザから受け付け、データ群に含まれる分類データに分類情報を対応付けることによって当該分類データを分類し、データ群に含まれる未分類データと分類情報との関連性を分類結果に基づいて評価し、ユーザによる分類傾向に則した未分類データを評価結果に応じて選択し、当該選択されたデータ(傾向データ)に関連する他のユーザをユーザに提示することができる。したがって、上記データ分析システム等は、ユーザと属性が共通する可能性が高い潜在的な他のユーザを特定し、当該ユーザに提示できるという効果を奏する。
本発明の実施の形態に係るデータ分析システムの要部構成の一例を示すブロック図である。 上記データ分析システムによって実行される処理の過程を示す模式図である。 上記データ分析システムによって実行された処理の結果を示す模式図である。 上記データ分析システムにおいて実行される処理の一例を示すフローチャートである。
図1〜図4に基づいて、本発明の実施の形態を説明する。
〔データ分析システム100の概要〕
図2は、データ分析システム100によって実行される処理の過程を示す模式図である。図2に例示されるように、データ群としてのソーシャルネットワークサービス(Social Network Service、以下「SNS」と略記する)に各ユーザが小説の書評(データ)を投稿している例を用いて、上記処理の過程を概説する。
ユーザは、他のユーザが投稿した書評のうち、自身の嗜好に合った書評(分類データ2a)に対して、ユーザの嗜好に合っているか否かの分類を示す分類情報1a(例えば、「いいね!」(Like)ボタンを押すなど)を与えることによって、「嗜好に合った書評」と「嗜好に合わない書評」とを分類することができる。データ分析システム100は、上記分類情報1aを未だ与えていない他の書評(未分類データ2b)と分類情報1aとの関連性を、上記の分類結果に基づいて評価する(例えば、上記関連性の高低を示すスコアを算出する)。
図3は、データ分析システム100によって実行された処理の結果を示す模式図である。図3に例示されるように、データ分析システム100は、ユーザによる分類傾向に則した他の書評を、上記の評価結果に応じてSNSから選択・抽出し、選択した他の書評を投稿した他のユーザを一覧表示する。すなわち、データ分析システム100は、SNSに投稿された膨大な書評を分析し、当該書評に表現された意味を捕捉することによって、ユーザが上記分類情報1aを与えた書評と類似の書評(高いスコアを有する書評)を抽出し、当該類似の書評を投稿した他のユーザを特定することができる。
このように、データ分析システム100は、データ群(例えば、SNSなどのウェブページ)に含まれる任意のデータ(テキスト、画像、音声、動画など)を分析することによって、ユーザと属性(嗜好、関心、価値観、趣味、職業、経歴など)が共通する可能性が高い潜在的な他のユーザを特定し、当該ユーザに提示することができる。
〔データ分析システム100の構成〕
図1は、データ分析システム100の要部構成の一例を示すブロック図である。データ分析システム100は、以下で説明する複数の処理を含むデータ分析プログラムを実行可能な情報処理装置(例えば、パーソナルコンピュータ、サーバ装置、メインフレームなどのコンピュータ)を、少なくとも1つ含む情報処理システムである。
本実施の形態においては、データ分析システム100が1つの情報処理装置(コンピュータ)によって実現される例を説明するが、例えば、以下で説明する複数の処理を任意に分散して実行する複数の情報処理装置を含むシステムであってもよい。また、データ分析システム100は、ディスプレイ(表示部)と、入力デバイスと、メモリと、当該メモリに格納された1つ又は複数のプログラムを実行可能な、1つ又は複数のプロセッサとを備えた、マルチファンクションデバイス(例えば、コンピュータなど)によって、特に好適に実現され得る。
図1に例示されるように、データ分析システム100は、制御部10(分類情報受付部11、データ分類部12、要素抽出部13、要素評価部14、未分類データ評価部15、評価格納部16、傾向データ選択部17、ユーザ提示部18、感情格納部19、感情抽出部20、勧誘情報受付部21、所属情報生成部22)、記憶部30、入力部40、および表示部50を備えている。
制御部10は、データ分析システム100が有する各種機能を統括的に制御する。制御部10は、分類情報受付部11、データ分類部12、要素抽出部13、要素評価部14、未分類データ評価部15、評価格納部16、傾向データ選択部17、ユーザ提示部18、感情格納部19、感情抽出部20、勧誘情報受付部21、および所属情報生成部22を含む。
分類情報受付部11は、データ2の分類を示す分類情報1aを、所定の入力装置(例えば、入力部40)を介してユーザから受け付ける。すなわち、分類情報受付部11は、入力部40から分類情報1aを取得し、当該取得した分類情報1aをデータ分類部12に出力する。なお、以下では、分類データ2aおよび未分類データ2bを総称して、単に「データ2」と称する。
ここで、上記分類情報1aは、例えば、ユーザの嗜好に合っているか否かの分類を示す情報である。特に、データ2が、SNSを利用するユーザによって投稿されたテキスト、画像、音声、もしくは動画、またはこれらの組み合わせを示すデータである場合、上記分類情報1aは、当該データ2に対して「いいね!」(ユーザの嗜好に合っている)という意思を示したか否かを表わす情報であってよい。なお、分類情報1aは、「ユーザの嗜好に合っているか否か」という二値(バイナリ)フラグでなく、例えば、「合っている」、「やや合っている」、「やや合っていない」、「合っていない」など、当該嗜好の程度を多段階で分類する情報(多値フラグ)であってもよい。
データ分類部12は、データ群に含まれる分類データ2aに分類情報1aを対応付けることによって、当該分類データ2aを分類する。ここで、上記データ群は、例えば、SNSなどを提供するウェブページであってよい。また、上記分類データ2aは、例えば、上記ウェブページに含まれるテキスト、画像、音声、もしくは動画、またはこれらの組み合わせを示すデータであってよい。データ分類部12は、分類データ2aと分類情報1aとを対応付けた分類結果3aを要素抽出部13に出力する。
要素抽出部13は、分類情報1aに基づいて分類データ2aからデータ要素4aを抽出する。ここで、上記データ要素4aは、上記テキストに含まれるキーワード(例えば、形態素)、画像の一部として含まれる部分画像、音声の一部を構成する部分音声、動画を構成するフレーム画像などであってよい。要素抽出部13は、分類データ2aから抽出したデータ要素4aを要素評価部14に出力する。
要素評価部14は、データ要素4aを所定の基準にしたがって評価する。要素評価部14は、例えば、データ要素4aと当該データ要素4aを含む分類データ2aに対応付けられた分類情報1aとの依存関係を表わす伝達情報量を、上記所定の基準の1つとして用いることによって、当該データ要素4aを評価することができる。例えば、分類データ2aがウェブページに含まれるテキストであり、要素抽出部13が当該テキストに含まれるキーワードを当該テキストから抽出した場合、要素評価部14は、上記伝達情報量を用いて当該キーワードの重み(weight)を算出することによって、各キーワードを評価する。要素評価部14は、当該評価した結果(評価結果4b)を未分類データ評価部15および評価格納部16に出力する。
未分類データ評価部15は、データ群に含まれる未分類データ2bと分類情報1aとの関連性を、データ分類部12による分類結果3aに基づいて評価する。例えば、未分類データ評価部15は、要素評価部14によって評価されたデータ要素4aを分類結果3aの1つとして用いることによって、上記関連性を評価することができる。
また、未分類データ評価部15は、上記未分類データ2bと分類情報1aとの結びつきの強さを示すスコア(例えば、0〜10000の値をとるようにスケーリングされており、値が大きいほど上記結びつきが強いことを示す)を分類結果3aに基づいて算出することによって、両者の関係性を評価することができる。
例えば、未分類データ2bがウェブページに含まれるテキストである場合、未分類データ評価部15は、最初に所定のキーワードが文書に含まれるか否かを示すキーワードベクトルを生成する。上記キーワードベクトルは、例えば、当該キーワードベクトルのそれぞれの要素が「0」または「1」の値をとることによって、当該要素に対応付けられた所定のキーワードが、上記テキストに含まれるか否かを示すベクトル(bag of words)である。例えば、上記テキストに「価格」というキーワードが含まれている場合、未分類データ評価部15は、上記キーワードベクトルの上記「価格」に対応する要素を「0」から「1」に変更する。そして、未分類データ評価部15は、以下の式のように、上記キーワードベクトル(縦ベクトル)と重みベクトル(各キーワードに対する重みを要素にした縦ベクトル)との内積を計算することにより、上記テキストのスコアSを計算する。
Figure 2016063403
ここで、sはキーワードベクトルを表し、Wは重みベクトルを表す。なお、Tは行列・ベクトルを転置する(行と列とを入れ替える)ことを表す。
または、未分類データ評価部15は、以下の式にしたがってスコアSを算出してもよい。
Figure 2016063403
ここで、mは、j番目のキーワードの出現頻度を表し、wは、i番目のキーワードの重みを表す。なお、未分類データ評価部15は、上記未分類データ2bに含まれる第1データ要素(第1キーワード)が評価された結果(第1キーワードの重み)と、当該未分類データ2bに含まれる第2データ要素(第2キーワード)が評価された結果(第2キーワードの重み)とに基づいて(すなわち、キーワードの共起を考慮して)、上記スコアを算出してよい。また、未分類データ評価部15は、上記テキストにそれぞれ含まれるセンテンスごとにセンテンススコアを算出し、当該センテンススコアに基づいて上記スコアを算出してよい(いずれも後で詳細に説明する)。
なお、上記未分類データ2bは、上記分類データ2aと同様に、例えば、上記ウェブページに含まれるテキスト、画像、音声、もしくは動画、またはこれらの組み合わせを示すデータであってよい。未分類データ評価部15は、評価した結果(評価結果4c)を傾向データ選択部17に出力する。
評価格納部16は、要素評価部14による評価結果4bを所定の記憶装置(例えば、記憶部30)に格納する。例えば、分類データ2aがウェブページに含まれるテキストであり、要素抽出部13が当該テキストに含まれるキーワードを当該テキストから抽出した場合、評価格納部16は、要素抽出部13によって抽出された上記キーワードと、要素評価部14によって算出された当該キーワードの重みとを対応付けて、記憶部30に格納する。
傾向データ選択部17は、ユーザによる分類傾向に則した未分類データ2bを、未分類データ評価部15による評価結果4cに応じて、データ群から傾向データ2cとして選択する。例えば、未分類データ2bがSNSを利用するユーザによって投稿されたテキストであり、未分類データ評価部15によって各テキストに対して上記スコアが評価結果4cとして算出された場合、傾向データ選択部17は、(1)所定の閾値を超過したスコアを有するテキスト、または(2)スコアが高い順から所定数(例えば、100)のテキストを、ユーザによる分類傾向に則した未分類データ2bとして選択し、当該未分類データ2bを傾向データ2cとしてユーザ提示部18に出力する。なお、傾向データ選択部17は、未分類データ2bの全部を傾向データ2cとして選択してもよい。
ユーザ提示部18は、傾向データ2cに関連する他のユーザを、表示部50を介してユーザに提示する。例えば、傾向データ選択部17から入力された傾向データ2cが、SNSを利用するユーザによって投稿されたテキストである場合、ユーザ提示部18は、当該テキストを投稿したユーザ(上記他のユーザ)が一覧可能となるように、当該他のユーザを表示部50に表示させる表示情報1bを当該表示部50に出力する。
感情格納部19は、未分類データ2bに含まれるデータ要素4aと当該データ要素4aに対する感情評価4dとを対応付けて、所定の記憶装置(例えば、記憶部30)に格納する。例えば、データ2がウェブページに含まれるテキストである場合、感情格納部19は、予め定められたキーワードが当該テキストに含まれているか否かを探索する。含まれている場合、感情格納部19は、当該キーワードを抽出し、所定の基準にしたがって算出した感情スコアを感情評価4dとして当該キーワードに対応付けて記憶部30に格納する。
感情抽出部20は、未分類データ2bが事象(ユーザの評価対象となる出来事を広く指す)に対するユーザの評価を少なくとも含むデータである場合に、当該未分類データ2bを生成したユーザの感情であって、上記評価に基づいて生じた上記事象に対する感情を、当該未分類データ2bから抽出する。ここで、ユーザが「ある小説を読んだ」という事象に対して「おもしろかった」という評価をし、当該評価に基づいて(作者の作風などが)「好き」というポジティブな感情を抱いた場合に、当該小説のレビューとして「とてもおもしろかったです。家族に勧めようと思います」というテキスト(未分類データ2b)を所定のウェブページ(例えば、SNSを提供するページなど)に投稿した例を考える(図2、図3参照)。
まず、感情抽出部20は、上記テキストに含まれるキーワードがデータ要素4aとして記憶部30に格納されているか否かを判定する。上記例において、「おもしろかった」というデータ要素4aに「+1.2」という正値(感情評価4d)が対応付けられて、感情格納部19によって記憶部30に予め格納されている場合、感情抽出部20は、「+1.2」を当該テキストの抽出結果3bとする。また、「勧めよう」(「勧める」の活用形)というデータ要素4aに「+0.8」という正値(感情評価4d)が対応付けられて、感情格納部19によって記憶部30にさらに格納されている場合、感情抽出部20は、「+2.0(=+1.2+0.8)」を当該テキストの抽出結果3bとする。感情抽出部20は、当該抽出結果3bを傾向データ選択部17に出力する。
感情抽出部20から上記抽出結果3bが傾向データ選択部17に入力された場合、傾向データ選択部17は、未分類データ評価部15による評価結果4cと当該抽出結果3bとに応じて、傾向データ2cを選択することができる。例えば、傾向データ選択部17は、所定の閾値を超過したスコアを有し、かつ、ポジティブな感情が抽出された(抽出結果3bが正の値となる)未分類データ2bを傾向データ2cとして選択してよい。
勧誘情報受付部21は、ユーザが所属するコミュニティに所属するように他のユーザを促す勧誘情報1cを、所定の入力装置(例えば、入力部40)を介して当該ユーザから受け付ける。すなわち、勧誘情報受付部21は、入力部40から勧誘情報1cを取得し、当該取得した勧誘情報1cを所属情報生成部22に出力する。
所属情報生成部22は、上記コミュニティへの所属について上記他のユーザから承諾を得られた場合、当該他のユーザを当該コミュニティに所属させる所属情報3cを生成し、当該所属情報3cを記憶部30に格納することによって、当該他のユーザが所属するコミュニティを追加・変更する。
入力部(所定の入力装置)40は、ユーザからの入力を受け付ける。本実施の形態において、入力部40は、例えば、マウス、キーボード、タッチパネル、音声入力用マイクなどであってよい。なお、図1は、データ分析システム100が入力部40を備える構成を例示しているが、入力部40は、当該データ分析システム100と通信可能に接続された任意の入力装置(例えば、携帯端末の入力インターフェース)であってよい。
表示部(所定の出力装置)50は、ユーザ提示部18から入力された表示情報1bに基づいて、制御部10による処理結果を表示するデバイスである。本実施の形態において、表示部50は、液晶ディスプレイであってよい。なお、図1は、データ分析システム100が表示部50を備える構成を例示しているが、表示部50は、当該データ分析システム100と通信可能に接続された任意の出力装置(例えば、携帯端末のディスプレイ)であってよい。
記憶部(所定の記憶装置)30は、例えば、ハードディスク、SSD(silicon state drive)、半導体メモリ、DVDなど、任意の記録媒体によって構成される記憶機器であり、データ分析システム100を制御可能なデータ分析プログラム、および当該データ分析システム100が利用する任意の情報を記憶する。なお、図1は、データ分析システム100が記憶部30を備える構成を例示しているが、記憶部30は、当該データ分析システム100と通信可能に接続された任意の記憶装置であってよい。
〔データ分析システム100において実行される処理〕
図4は、データ分析システム100において実行される処理の一例を示すフローチャートである。なお、以下の説明において、カッコ書きの「〜ステップ」は、データ分析方法に含まれる各ステップを表す。
まず、分類情報受付部11は、データの分類を示す分類情報1aを、所定の入力装置(例えば、入力部40)を介してユーザから受け付ける(ステップ1、以下「ステップ」を「S」と略記する、分類情報受付ステップ)。次に、データ分類部12は、データ群(例えば、ウェブページなど)に含まれる分類データ2a(例えば、当該ウェブページに記載されているテキストなど)に上記分類情報1aを対応付けることによって、当該分類データ2aを分類する(S2、データ分類ステップ)。次に、要素抽出部13は、上記分類情報1aに基づいて上記分類データ2aからデータ要素4aを抽出し(S3)、要素評価部14は、当該データ要素4aを所定の基準(例えば、伝達情報量)にしたがって評価する(S4)。そして、評価格納部16は、要素評価部14による評価結果4bを所定の記憶装置(例えば、記憶部30)に格納する。
未分類データ評価部15は、データ群に含まれる未分類データ2bと分類情報1aとの関連性を、データ分類部12による分類結果3aに基づいて評価する(S6、未分類データ評価ステップ)。次に、傾向データ選択部17は、ユーザによる分類傾向に則した未分類データ2bを、未分類データ評価部15による評価結果4cに応じて、データ群から傾向データ2cとして選択する(S7、傾向データ選択ステップ)。最後に、ユーザ提示部18は、傾向データ2cに関連する他のユーザを、所定の出力装置(例えば、表示部50)を介してユーザに提示する(S8、ユーザ提示ステップ)。
なお、上記データ分析方法は、図4を参照して前述した上記処理だけでなく、制御部10に含まれる各部において実行される処理を任意に含んでよい。
〔共起に基づくスコア計算〕
前述したように、未分類データ評価部15は、未分類データ2bに含まれる第1データ要素が評価された結果と、当該未分類データ2bに含まれる第2データ要素が評価された結果とに基づいてスコアを算出できる。例えば、未分類データ評価部15は、第1キーワードがテキストに出現した場合、当該テキストにおいて第2キーワードが出現する頻度(すなわち、第1キーワードと第2キーワードとの相関、共起ともいう)を考慮して、当該テキストのスコアを計算できる。
この場合、未分類データ評価部15は、第1キーワードと第2キーワードとの相関(共起)を表す相関行列(共起行列)Cを用いて、(上記〔数1〕ではなく)以下の式にしたがってスコアSを計算できる。
Figure 2016063403
なお、上記相関行列Cは、所定のテキストを所定数だけ含む学習用データセットを用いて、あらかじめ最適化されている。例えば、あるテキストにおいて「価格」というキーワードが出現する場合、当該キーワードに対する他のキーワードの出現数を0〜1の間に正規化した値(すなわち、最尤推定値)が、上記相関行列Cのそれぞれの要素に格納されている(したがって、上記相関行列Cの各列に対する総和は1になる)。
以上のように、データ分析システム100は、キーワード間の相関関係を考慮してスコアを算出できるため、より高い精度でユーザと属性が共通する可能性が高い潜在的な他のユーザを特定することができる。
〔センテンスごとに算出したセンテンススコアに基づくスコア計算〕
前述したように、未分類データ評価部15は、テキストにそれぞれ含まれるセンテンスごとにセンテンススコアを算出し、当該センテンススコアに基づいて当該テキストのスコアを算出できる。この場合、未分類データ評価部15は、当該テキストに含まれるセンテンスに所定のキーワードが含まれるか否かを示すキーワードベクトルを、当該センテンスごとに生成する。そして、未分類データ評価部15は、下記の式にしたがってスコアをテキストごとに算出する。
Figure 2016063403
ここで、sは、s番目のセンテンスに対応するキーワードベクトルである。なお、上記〔数4〕にしたがうスコアの算出においては、共起を考慮している(相関行列Cを用いている)ことに注意する。
TFnormは、下記の〔数5〕に示されるように計算できる。
Figure 2016063403
ここで、上記〔数5〕において、TFはi番目のキーワードの出現頻度(Term Frequency)を表し、sjiは上記i番目のキーワードベクトルのj番目の要素を表し、cjiは相関行列Cのj行i列の要素を表す。
上記〔数4〕および〔数5〕をまとめると、未分類データ評価部15は、以下の〔数6〕を計算することによってテキストごとに上記スコアを算出する。
Figure 2016063403
ここで、上記〔数6〕において、wは上記重みベクトルwのi番目の要素である。
以上のように、データ分析システム100は、センテンスの文意を正しく反映したスコアを算出できるため、より高い精度でユーザと属性が共通する可能性が高い潜在的な他のユーザを特定することができる。
〔閾値の設定〕
前述のように、データ分析システム100は、ユーザの嗜好に合っているか否かの分類を示す分類情報1aに基づいて、未分類データ2bに含まれるデータ要素4aを所定の基準に基づいてそれぞれ評価する。そして、データ分析システム100は、当該評価結果4bに基づいて、上記未分類データ2bと上記分類情報1aとの結びつきの強さを示すスコアを算出し、適合率(「ユーザの嗜好に合っている」として選択された傾向データ2cがデータ群に占める割合)に対して設定された目標値(目標適合率)を超過可能な最小のスコアを、適合しきい値として特定することができる。
すなわち、データ分析システム100は、ユーザから与えられた分類情報1a(過去のデータに対して人間が判断した結果)に基づいて上記適合しきい値を設定し、当該適合しきい値を超過するスコアを有する未分類データ2bのみを、当該ユーザの嗜好に合っている可能性が高いデータ(傾向データ2c)として選択し、当該傾向データ2cに関連する他のユーザを当該ユーザに提示することができる。言い換えれば、データ分析システム100は、過去のデータを分析した結果に基づいて現在のデータを分析することにより、未分類データ2bを分別できる。これにより、データ分析システム100は、例えば、ユーザの嗜好をリアルタイムに分析できる(分析対象となるデータが、あらかじめ用意されている必要はない)。
より具体的には、分類情報1aが与えられた分類データ2aについてスコアがそれぞれ算出された場合、データ分析システム100は、当該スコアを降順に並べ替える。次に、データ分析システム100は、最大のスコア(当該スコアのランクが1位)を有する分類データ2aから順番に当該分類データ2aに付与された分類情報1aを走査し、「嗜好に合っている」という分類情報1aが付与されたデータの数が、現時点において走査が終了したデータの数に占める割合(適合率)を、順次計算する。
例えば、分類情報1aが付与された分類データ2aの数が100である場合に、スコアのランクが1位から20位までのデータについて走査を終了したところ、「嗜好に合っている」という分類情報1aが付与されたデータの数が18であった場合、データ分析システム100は、適合率を0.9(18/20)と計算する。または、スコアのランクが1位から40位までのデータについて走査を終了したところ、「嗜好に合っている」というレ分類情報1aが付与されたデータの数が35であった場合、データ分析システム100は、適合率を0.875(35/40)と計算する。
データ分析システム100は、分類データ2aに対する適合率をすべて計算し、目標適合率を超過可能な最小のスコアを特定する。具体的には、データ分析システム100は、最小のスコア(スコアのランクが100位)を有する分類データ2aから順番に当該分類データ2aに対して計算された適合率を走査し、当該適合率が目標適合率を超過した場合、当該適合率に対応するスコアを、上記目標適合率を維持可能な最小スコア(適合しきい値)として特定する。
そして、データ分析システム100は、ユーザの嗜好に合っているか否かが未だ判断されていない未分類データ2bについて算出されたスコアが、上記適合しきい値を超過しているか否かを判定し、超過していると判定した未分類データ2bを傾向データ2cとして選択できる。これにより、データ分析システム100は、ユーザの嗜好をリアルタイムに分析できる。
〔SNS以外のデータ群に適用する例〕
説明を理解容易とするために、データ分析システム100がSNSに含まれるデータ(当該SNSを利用する他のユーザが投稿したテキスト)を分析する例を主に説明したが、当該データ分析システム100は、SNS以外をデータ群とし、当該データ群に含まれるデータを分析することもできる。例えば、上記データ群は、米国民事訴訟におけるディスカバリの準備段階において収集されたドキュメント群であってよい。
この場合、上記データ分析システム100は、上記ドキュメント群(分別文書群)に含まれるドキュメント(文書)に対して、ユーザ(レビュア)がそれぞれ付与した、当該ドキュメントを分類するために用いられる識別子である分別符号(タグ)を、分類情報1aとして受け付け、当該ドキュメント群に含まれるドキュメント(分類データ)に分類情報1aを対応付けることによって、当該ドキュメントを分類する。
そして、上記データ分析システム100は、ドキュメント群に含まれる他のドキュメント(未分類データ)と分類情報1aとの関連性を分類結果に基づいて(例えば、スコアを計算することによって)評価し、上記レビュアによる分類傾向に則したドキュメントを、評価結果に応じて傾向データ2cとして選択・抽出する。最後に、上記データ分析システム100は、上記傾向データ2cに関連する人物(他のユーザ、例えば、当該訴訟における関係者(カストディアン))を一覧表示する。これにより、上記データ分析システム100は、上記ディスカバリの準備段階において収集されたドキュメントを分別するレビュアの負担を軽減できる。
〔文書以外のデータに適用する例〕
説明を簡略化するために、データ分析システム100がテキストを分析する例を主に説明したが、当該データ分析システム100は、テキスト以外のデータを分析することもできる。例えば、データ分析システム100が音声を分析する場合、(1)音声を認識することによって当該音声に含まれる会話の内容を文字(テキスト)に変換し、当該テキストを分析してもよいし、(2)音声データをそのまま分析してもよい。
上記(1)の場合、上記データ分析システム100は、任意の音声認識アルゴリズム(例えば、隠れマルコフモデルを用いた認識方法など)を用いることによって、音声をテキストに変換し、上記で説明した処理と同様の処理を、当該テキストに対して実行する。これにより、上記データ分析システム100は、音声を分析することができる。
上記(2)の場合、上記データ分析システム100は、音声に含まれる部分音声(データ要素)を抽出する。例えば、「価格を調整する」という音声が得られた場合、データ分析システム100は「価格」および「調整」という部分音声を当該音声から抽出し、当該部分音声を評価した結果に基づいて、未分類の音声(未分類データ2b)と分類情報1aとの関連性を評価することができる。この場合、データ分析システム100は、時系列データの分類アルゴリズム(例えば、隠れマルコフモデル、カルマンフィルタ、ニューラルネットワークなど)を利用して、音声を分別できる。これにより、上記データ分析システム100は、音声を分析することができる。
または、データ分析システム100は、映像(動画)を分析することもできる。この場合、データ分析システム100は、映像に含まれるフレーム画像を抽出し、任意の顔認識技術を用いることによって、当該フレーム画像に含まれる人物を特定できる。また、データ分析システム100は、任意のモーション認識技術(例えば、パターンマッチング技術を応用するものであってよい)を用いることによって、上記映像に含まれる部分映像(上記映像に含まれる全フレーム画像のうちの一部を含む映像)から上記人物のモーション(動作)を抽出できる。そして、データ分析システム100は、上記人物および/またはモーションに基づいて、未分類の映像(未分類データ2b)と分類情報1aとの関連性を評価することができる。これにより、上記データ分析システム100は、映像を分析することができる。
〔ソフトウェアによる実現例〕
データ分析システム100の制御ブロック(特に、制御部10)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。後者の場合、データ分析システム100は、各機能を実現するソフトウェアであるデータ分析プログラムの命令を実行するCPU、上記データ分析プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記データ分析プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記データ分析プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記データ分析プログラムは、当該データ分析プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。本発明は、上記データ分析プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
具体的には、本発明の実施の形態に係るデータ分析プログラムは、分類情報受付機能、データ分類機能、未分類データ評価機能、傾向データ選択機能、およびユーザ提示機能をコンピュータに実現させる。上記分類情報受付機能、データ分類機能、未分類データ評価機能、傾向データ選択機能、およびユーザ提示機能は、上述した分類情報受付部11、データ分類部12、未分類データ評価部15、傾向データ選択部17、およびユーザ提示部18によってそれぞれ実現され得る。詳細については上述した通りである。
なお、上記データ分析プログラムは、例えば、Python、ActionScript、JavaScript(登録商標)などのスクリプト言語、Objective-C、Java(登録商標)などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装できる。また、上記データ分析プログラムによって実現される各機能を実現する各部を備えた情報処理装置と、当該各機能とは異なる残りの機能を実現する各部を備えたサーバ装置とを含む分散型のデータ分析システムも、本発明の範疇に入る。
〔サーバ装置が機能の一部または全部を提供する構成〕
データを分析する機能を提供可能なデータ分析プログラムの一部または全部が、データ分析システム100としてのサーバ装置において実行され、当該実行された処理の結果が任意の情報処理端末に返される構成であってもよい。すなわち、本発明のデータ分析システムは、ユーザ端末とネットワークを介して通信可能に接続されたサーバ装置として機能することができる。
例えば、所定の入力装置を備え、ユーザによって利用されるユーザ端末(例えば、スマートフォン、パーソナルコンピュータなど)に分類情報受付部11が実現され、当該コンピュータによって受け付けられた分類情報1aが、データ分類部12、要素抽出部13、要素評価部14、未分類データ評価部15、評価格納部16、傾向データ選択部17、ユーザ提示部18、感情格納部19、感情抽出部20、勧誘情報受付部21、および所属情報生成部22が実現された上記サーバ装置に、上記ネットワークを介して送信される。そして、当該サーバ装置は、上記分類情報1aを受信し、上記で説明した各種の処理を実行し、実行結果(表示情報1b)を上記ユーザ端末に送信する。
これにより、上記サーバ装置およびユーザ端末を含むシステムとして、本発明のデータ分析システムが実現される。
〔付記事項〕
本発明は上述したそれぞれの実施の形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施の形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても、本発明の技術的範囲に含まれる。さらに、各実施の形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成できる。
なお、本発明に係るデータ分析システムは、データの分類を示す分類情報を、所定の入力装置を介してユーザから受け付ける分類情報受付部と、データ群に含まれる分類データに前記分類情報を対応付けることによって、当該分類データを分類するデータ分類部と、前記データ群に含まれる未分類データと前記分類情報との関連性を、前記データ分類部による分類結果に基づいて評価する未分類データ評価部と、前記ユーザによる分類傾向に則した未分類データに関連する他のユーザを、前記未分類データ評価部による評価結果に応じて特定し、所定の出力装置を介して当該特定した他のユーザを前記ユーザに提示するユーザ提示部とを備えたデータ分析システムとも表現できる。
また、本発明に係るデータ分析システムは、文書情報から所定数の文書を含む分別文書群を、ユーザによる分別対象として抽出する抽出部と、分別文書群に含まれる文書に対して、ユーザがそれぞれ付与した、文書を分類する際に用いる識別子である分別符号を受け付ける分別符号受付部と、分別文書群に含まれる文書から分別符号に基づいて選定されたキーワードを記録するデータベースと、文書情報に含まれる文書と分別符号との結びつきの強さを評価したスコアを、キーワードに基づいて算出するスコア算出部とを備えたデータ分析システムとも表現できる。
また、本発明に係るデータ分析システムは、車両の周囲から取得された複数のデータから所定の事案と関係するデータを抽出可能なデータ分析システムであって、所定の事案と関係するか否かが判断されていない未判断データが新たに取得された場合、車両を運転するドライバによって当該所定の事案と関係するか否かが判断された既判断データに基づいて、当該未判断データと当該所定の事案との関係性を評価する関係性評価部と、関係性評価部によって評価された関係性に応じて、未判断データをドライバに報知するデータ報知部とを備えたデータ分析システムとも表現できる。
本発明は、パーソナルコンピュータ、サーバ装置、ワークステーション、メインフレームなど、任意のコンピュータに広く適用することができる。
1a:分類情報、1c:勧誘情報、2a:分類データ、2b:未分類データ、2c:傾向データ、3a:分類結果、3c:所属情報、4a:データ要素、4b:評価結果、4c:評価結果、11:分類情報受付部、12:データ分類部、13:要素抽出部、14:要素評価部、15:未分類データ評価部、16:評価格納部、17:傾向データ選択部、18:ユーザ提示部、19:感情格納部、20:感情抽出部、21:勧誘情報受付部、22:所属情報生成部、30:記憶部(所定の記憶装置)、40:入力部(所定の入力装置)、50:表示部(所定の出力装置)、100:データ分析システム
上記課題を解決するために、本発明の一態様は、データ分析用のコントローラを備え、当該コントローラは、ユーザと関連性のある他のユーザを提示するデータ分析システムであって、前記コントローラは、データを分類するための分類情報を、所定の入力装置を介してユーザから受け付けデータ群に含まれる分類データに前記分類情報を対応付けることによって、当該分類データを分類し、前記データ群に含まれる未分類データと前記分類情報との関連性を、前記分類結果に基づいて評価し、前記分類の傾向を持った未分類データを、前記評価結果に応じて、前記データ群から複数の傾向データとして選択し、前記複数の傾向データに関連する複数の他のユーザを、前記ユーザ側の装置に関連先一覧として提示する、ように構成されている。本発明はさらに、データ分析方法、データ分析のためのプログラム、及び、このプログラムが格納された記録媒体に関する。
なお、既述のデータ分析システムは、データの分類を示す分類情報を、所定の入力装置を介してユーザから受け付ける分類情報受付部と、データ群に含まれる分類データに前記分類情報を対応付けることによって、当該分類データを分類するデータ分類部と、前記データ群に含まれる未分類データと前記分類情報との関連性を、前記データ分類部による分類結果に基づいて評価する未分類データ評価部と、前記ユーザによる分類傾向に則した未分類データに関連する他のユーザを、前記未分類データ評価部による評価結果に応じて特定し、所定の出力装置を介して当該特定した他のユーザを前記ユーザに提示するユーザ提示部とを備えたデータ分析システムとも表現できる。
また、実施態様に係るデータ分析システムは、例えば、分類情報に基づいて分類データからデータ要素を抽出する要素抽出部と、データ要素を所定の基準にしたがって評価する要素評価部とをさらに備え、未分類データ評価部は、要素評価部によって評価されたデータ要素を分類結果の1つとして用いることによって、関連性を評価することができる。
また、実施態様に係るデータ分析システムにおいて、要素評価部は、例えば、データ要素と当該データ要素を含む分類データに対応付けられた分類情報との依存関係を表わす伝達情報量を、所定の基準の1つとして用いることによって、当該データ要素を評価することができる。
また、実施態様に係るデータ分析システムは、例えば、要素評価部による評価結果を所定の記憶装置に格納する評価格納部をさらに備えてよい。
また、実施態様に係るデータ分析システムにおいて、未分類データは、例えば、事象に対するユーザの評価を少なくとも含むデータであり、未分類データを生成したユーザの感情であって、評価に基づいて生じた事象に対する感情を、当該未分類データから抽出する感情抽出部をさらに備え、傾向データ選択部は、感情抽出部による抽出結果にさらに応じて、傾向データを選択することができる。
また、実施態様に係るデータ分析システムは、例えば、未分類データに含まれるデータ要素と当該データ要素に対する感情評価とを対応付けて、所定の記憶装置に格納する感情格納部をさらに備え、感情抽出部は、データ要素に対応付けられた感情評価を用いて未分類データを評価することによって、感情を当該未分類データから抽出することができる。
また、実施態様に係るデータ分析システムは、例えば、ユーザが所属するコミュニティに所属するように他のユーザを促す勧誘情報を、所定の入力装置を介して当該ユーザから受け付ける勧誘情報受付部と、所属について他のユーザから承諾を得られた場合、当該他のユーザをコミュニティに所属させる所属情報を生成する所属情報生成部とをさらに備えてよい。
また、実施態様に係るデータ分析システムにおいて、未分類データ評価部は、例えば、未分類データと分類情報との結びつきの強さを示すスコアを分類結果に基づいて算出することによって、関係性を評価することができる。
また、実施態様に係るデータ分析システムにおいて、未分類データ評価部は、例えば、未分類データに含まれる第1データ要素と第2データ要素との相関に基づいてスコアを算出することができる。
また、本発明の実施態様に係るデータ分析システムにおいて、例えば、未分類データは、テキストに関するデータを少なくとも含み、未分類データ評価部は、テキストに含まれるセンテンスと分類情報との関連性を、分類結果に基づいて評価し、当該評価結果に基づいて、未分類データと当該分類情報との関連性を評価することができる。
また、本発明の実施態様に係るデータ分析システムにおいて、分類情報は、例えば、ユーザの嗜好に合っているか否かの分類を示す情報であってよい。
また、本発明の実施態様に係るデータ分析システムにおいて、データ群は、例えば、ウェブページを含み、データ、分類データ、および/または未分類データは、例えば、ウェブページに含まれるテキスト、画像、音声、もしくは動画、またはこれらの組み合わせを示すデータを含んでよい。
また、本発明の実施態様に係るデータ分析システムにおいて、ウェブページは、例えば、ソーシャルネットワークサービスを提供するページであり、テキスト、画像、音声、もしくは動画、またはこれらの組み合わせを示すデータは、例えば、ソーシャルネットワークサービスを利用するユーザによって投稿されたデータであってよい。
また、実施形態に係るデータ分析システムは、文書情報から所定数の文書を含む分別文書群を、ユーザによる分別対象として抽出する抽出部と、分別文書群に含まれる文書に対して、ユーザがそれぞれ付与した、文書を分類する際に用いる識別子である分別符号を受け付ける分別符号受付部と、分別文書群に含まれる文書から分別符号に基づいて選定されたキーワードを記録するデータベースと、文書情報に含まれる文書と分別符号との結びつきの強さを評価したスコアを、キーワードに基づいて算出するスコア算出部とを備えたデータ分析システムとも表現できる。
また、実施形態に係るデータ分析システムは、車両の周囲から取得された複数のデータから所定の事案と関係するデータを抽出可能なデータ分析システムであって、所定の事案と関係するか否かが判断されていない未判断データが新たに取得された場合、車両を運転するドライバによって当該所定の事案と関係するか否かが判断された既判断データに基づいて、当該未判断データと当該所定の事案との関係性を評価する関係性評価部と、関係性評価部によって評価された関係性に応じて、未判断データをドライバに報知するデータ報知部とを備えたデータ分析システムとも表現できる。
上記課題を解決するために、本発明の一態様は、データ分析用のコントローラを備え、当該コントローラは、ユーザと関連性のある他のユーザを提示するデータ分析システムであって、前記コントローラは、データを分類するための分類情報を、所定の入力装置を介して前記ユーザから受け付け、前記分類情報は、前記ユーザが嗜好に合っているか否かに関する意思を示したものであり、データ群に含まれる分類データに前記分類情報を対応付けることによって、当該分類データを分類し、前記データ群に含まれる未分類データと前記分類情報との関連性を、前記分類の結果に基づいて評価し、前記分類の傾向を持った未分類データを、前記評価結果に応じて、前記データ群から複数の傾向データとして選択し、前記複数の傾向データに関連する複数の他のユーザを、前記ユーザ側の装置に関連先一覧として提示する、ように構成されている。
また本発明の一態様は、データ分析用のコントローラを備え、当該コントローラは、ユーザと関連性のある他のユーザを提示するデータ分析システムであって、前記コントローラは、データを分類するための分類情報を、所定の入力装置を介してユーザから受け付け、データ群に含まれる分類データに前記分類情報を対応付けることによって、当該分類データを分類し、前記データ群に含まれる未分類データと前記分類情報との関連性を、前記分類の結果に基づいて評価し、前記未分類データに含まれる事象に対する評価に基づいて、前記未分類データから前記事象に対する感情表現を抽出し、前記分類の傾向を持った未分類データを、前記関連性の評価結果と前記感情表現の抽出結果とに基づいて、前記データ群から複数の傾向データとして選択し、前記複数の傾向データに関連する複数の他のユーザを、前記ユーザ側の装置に関連先一覧として提示する、ように構成されている。
また本発明の一態様は、データ分析用のコントローラを備え、当該コントローラは、ユーザと関連性のある他のユーザを提示するデータ分析システムであって、前記コントローラは、データを分類するための分類情報を、所定の入力装置を介してユーザから受け付け、データ群に含まれる分類データに前記分類情報を対応付けることによって、当該分類データを分類し、前記データ群に含まれる未分類データと前記分類情報との関連性を、前記分類の結果に基づいて評価し、前記分類の傾向を持った未分類データを、前記評価結果に応じて、前記データ群から複数の傾向データとして選択し、前記複数の傾向データが前記データ群に占める割合に対して設定された目標値を超過する最小の前記評価結果をしきい値として特定し、未だ評価されていない未分類データと前記分類情報との関連性を、前記分類の結果に基づいて評価し、前記分類の傾向を持った未分類データを、前記しきい値に基づいて、前記未分類データから複数の傾向データとして選択し、前記複数の傾向データに関連する複数の他のユーザを、前記ユーザ側の装置に関連先一覧として提示する、ように構成されている。
本発明はさらに、データ分析方法、データ分析のためのプログラム、及び、このプログラムが格納された記録媒体に関する。

Claims (15)

  1. データの分類を示す分類情報を、所定の入力装置を介してユーザから受け付ける分類情報受付部と、
    データ群に含まれる分類データに前記分類情報を対応付けることによって、当該分類データを分類するデータ分類部と、
    前記データ群に含まれる未分類データと前記分類情報との関連性を、前記データ分類部による分類結果に基づいて評価する未分類データ評価部と、
    前記ユーザによる分類傾向に則した未分類データを、前記未分類データ評価部による評価結果に応じて、前記データ群から傾向データとして選択する傾向データ選択部と、
    前記傾向データに関連する他のユーザを、所定の出力装置を介して前記ユーザに提示するユーザ提示部とを備えたデータ分析システム。
  2. 前記分類情報に基づいて前記分類データからデータ要素を抽出する要素抽出部と、
    前記データ要素を所定の基準にしたがって評価する要素評価部とをさらに備え、
    前記未分類データ評価部は、前記要素評価部によって評価された前記データ要素を前記分類結果の1つとして用いることによって、前記関連性を評価することを特徴とする請求項1に記載のデータ分析システム。
  3. 前記要素評価部は、前記データ要素と当該データ要素を含む分類データに対応付けられた分類情報との依存関係を表わす伝達情報量を、前記所定の基準の1つとして用いることによって、当該データ要素を評価することを特徴とする請求項2に記載のデータ分析システム。
  4. 前記要素評価部による評価結果を所定の記憶装置に格納する評価格納部をさらに備えたことを特徴とする請求項2または3に記載のデータ分析システム。
  5. 前記未分類データは、事象に対するユーザの評価を少なくとも含むデータであり、
    前記未分類データを生成したユーザの感情であって、前記評価に基づいて生じた前記事象に対する感情を、当該未分類データから抽出する感情抽出部をさらに備え、
    前記傾向データ選択部は、前記感情抽出部による抽出結果にさらに応じて、前記傾向データを選択することを特徴とする請求項1から4のいずれか一項に記載のデータ分析システム。
  6. 前記未分類データに含まれるデータ要素と当該データ要素に対する感情評価とを対応付けて、所定の記憶装置に格納する感情格納部をさらに備え、
    前記感情抽出部は、前記データ要素に対応付けられた前記感情評価を用いて前記未分類データを評価することによって、前記感情を当該未分類データから抽出することを特徴とする請求項5に記載のデータ分析システム。
  7. 前記ユーザが所属するコミュニティに所属するように前記他のユーザを促す勧誘情報を、前記所定の入力装置を介して当該ユーザから受け付ける勧誘情報受付部と、
    前記所属について前記他のユーザから承諾を得られた場合、当該他のユーザを前記コミュニティに所属させる所属情報を生成する所属情報生成部とをさらに備えたことを特徴とする請求項1から6のいずれか一項に記載のデータ分析システム。
  8. 前記未分類データ評価部は、前記未分類データと前記分類情報との結びつきの強さを示すスコアを前記分類結果に基づいて算出することによって、前記関係性を評価することを特徴とする請求項1から7のいずれか一項に記載のデータ分析システム。
  9. 前記未分類データ評価部は、前記未分類データに含まれる第1データ要素と第2データ要素との相関に基づいて前記スコアを算出することを特徴とする請求項8に記載のデータ分析システム。
  10. 前記未分類データは、テキストに関するデータを少なくとも含み、
    前記未分類データ評価部は、前記テキストに含まれるセンテンスと前記分類情報との関連性を、前記分類結果に基づいて評価し、当該評価結果に基づいて、前記未分類データと当該分類情報との関連性を評価することを特徴とする請求項1から9のいずれか一項に記載のデータ分析システム。
  11. 前記分類情報は、前記ユーザの嗜好に合っているか否かの分類を示す情報であることを特徴とする請求項1から10のいずれか一項に記載のデータ分析システム。
  12. 前記データ群は、ウェブページを含み、
    前記データ、分類データ、および/または未分類データは、前記ウェブページに含まれるテキスト、画像、音声、もしくは動画、またはこれらの組み合わせを示すデータを含むことを特徴とする請求項1から11のいずれか一項に記載のデータ分析システム。
  13. 前記ウェブページは、ソーシャルネットワークサービスを提供するページであり、
    前記テキスト、画像、音声、もしくは動画、またはこれらの組み合わせを示すデータは、前記ソーシャルネットワークサービスを利用するユーザによって投稿されたデータであることを特徴とする請求項12に記載のデータ分析システム。
  14. データの分類を示す分類情報を、所定の入力装置を介してユーザから受け付ける分類情報受付ステップと、
    データ群に含まれる分類データに前記分類情報を対応付けることによって、当該分類データを分類するデータ分類ステップと、
    前記データ群に含まれる未分類データと前記分類情報との関連性を、前記データ分類ステップにおける分類結果に基づいて評価する未分類データ評価ステップと、
    前記ユーザによる分類傾向に則した未分類データを、前記未分類データ評価ステップにおける評価結果に応じて、前記データ群から傾向データとして選択する傾向データ選択ステップと、
    前記傾向データに関連する他のユーザを、所定の出力装置を介してユーザに提示するユーザ提示ステップとを含む、データ分析システムにおいて実行されるデータ分析方法。
  15. データの分類を示す分類情報を、所定の入力装置を介してユーザから受け付ける分類情報受付機能と、
    データ群に含まれる分類データに前記分類情報を対応付けることによって、当該分類データを分類するデータ分類機能と、
    前記データ群に含まれる未分類データと前記分類情報との関連性を、前記データ分類機能による分類結果に基づいて評価する未分類データ評価機能と、
    前記ユーザによる分類傾向に則した未分類データを、前記未分類データ評価機能による評価結果に応じて、前記データ群から傾向データとして選択する傾向データ選択機能と、
    前記傾向データに関連する他のユーザを、所定の出力装置を介してユーザに提示するユーザ提示機能とを、コンピュータに実現させるデータ分析プログラム。
JP2016542301A 2014-10-23 2014-10-23 データ分析システム、データ分析方法、およびデータ分析プログラム Expired - Fee Related JP6043460B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/078248 WO2016063403A1 (ja) 2014-10-23 2014-10-23 データ分析システム、データ分析方法、およびデータ分析プログラム

Publications (2)

Publication Number Publication Date
JP6043460B2 JP6043460B2 (ja) 2016-12-14
JPWO2016063403A1 true JPWO2016063403A1 (ja) 2017-04-27

Family

ID=55760470

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016542301A Expired - Fee Related JP6043460B2 (ja) 2014-10-23 2014-10-23 データ分析システム、データ分析方法、およびデータ分析プログラム

Country Status (3)

Country Link
US (1) US20170351747A1 (ja)
JP (1) JP6043460B2 (ja)
WO (1) WO2016063403A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7049010B1 (ja) * 2021-03-02 2022-04-06 株式会社インタラクティブソリューションズ プレゼンテーション評価システム
CN116304277B (zh) * 2023-03-01 2023-12-15 张素愿 一种基于ai的智能匹配方法、系统和存储介质
CN118364115B (zh) * 2024-06-20 2024-09-06 潍坊学院 一种产品设计信息分类系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005181928A (ja) * 2003-12-24 2005-07-07 Fuji Xerox Co Ltd 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム
JP2011170786A (ja) * 2010-02-22 2011-09-01 Nomura Research Institute Ltd 文書分類システムおよび文書分類プログラムならびに文書分類方法
JP2012079247A (ja) * 2010-10-06 2012-04-19 Hironori Abe 口コミ情報管理システム及び口コミ情報管理プログラム
JP2013171436A (ja) * 2012-02-21 2013-09-02 Kddi Corp ユーザ嗜好に合った批評者を推薦するレコメンドプログラム、装置及び方法
JP2013182338A (ja) * 2012-02-29 2013-09-12 Ubic:Kk 文書分別システム及び文書分別方法並びに文書分別プログラム
JP2013235507A (ja) * 2012-05-10 2013-11-21 Mynd Inc 情報処理方法、装置、コンピュータプログラムならびに記録媒体
WO2014031283A1 (en) * 2012-08-20 2014-02-27 Facebook, Inc. Providing content using inferred topics extracted from communications in a social networking system
JP2014137706A (ja) * 2013-01-16 2014-07-28 Dainippon Printing Co Ltd サーバ装置、プログラム及び通信システム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8620723B1 (en) * 2011-07-20 2013-12-31 Ourgroup, Inc. System and method for generating a community contribution index
US9165328B2 (en) * 2012-08-17 2015-10-20 International Business Machines Corporation System, method and computer program product for classification of social streams
US9788777B1 (en) * 2013-08-12 2017-10-17 The Neilsen Company (US), LLC Methods and apparatus to identify a mood of media
US9773269B1 (en) * 2013-09-19 2017-09-26 Amazon Technologies, Inc. Image-selection item classification
US9705801B2 (en) * 2013-10-07 2017-07-11 Facebook, Inc. Systems and methods for mapping and routing based on clustering

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005181928A (ja) * 2003-12-24 2005-07-07 Fuji Xerox Co Ltd 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム
JP2011170786A (ja) * 2010-02-22 2011-09-01 Nomura Research Institute Ltd 文書分類システムおよび文書分類プログラムならびに文書分類方法
JP2012079247A (ja) * 2010-10-06 2012-04-19 Hironori Abe 口コミ情報管理システム及び口コミ情報管理プログラム
JP2013171436A (ja) * 2012-02-21 2013-09-02 Kddi Corp ユーザ嗜好に合った批評者を推薦するレコメンドプログラム、装置及び方法
JP2013182338A (ja) * 2012-02-29 2013-09-12 Ubic:Kk 文書分別システム及び文書分別方法並びに文書分別プログラム
JP2013235507A (ja) * 2012-05-10 2013-11-21 Mynd Inc 情報処理方法、装置、コンピュータプログラムならびに記録媒体
WO2014031283A1 (en) * 2012-08-20 2014-02-27 Facebook, Inc. Providing content using inferred topics extracted from communications in a social networking system
JP2014137706A (ja) * 2013-01-16 2014-07-28 Dainippon Printing Co Ltd サーバ装置、プログラム及び通信システム

Also Published As

Publication number Publication date
US20170351747A1 (en) 2017-12-07
JP6043460B2 (ja) 2016-12-14
WO2016063403A1 (ja) 2016-04-28

Similar Documents

Publication Publication Date Title
Cappallo et al. New modality: Emoji challenges in prediction, anticipation, and retrieval
US10204153B2 (en) Data analysis system, data analysis method, data analysis program, and storage medium
Myers et al. Racial population projections and reactions to alternative news accounts of growing diversity
Song et al. “Is a picture really worth a thousand words?”: A case study on classifying user attributes on Instagram
JP5359399B2 (ja) テキスト分析装置および方法、並びにプログラム
Sanchez-Cortes et al. In the mood for vlog: Multimodal inference in conversational social video
JP6301966B2 (ja) データ分析システム、データ分析方法、データ分析のためのプログラム、及び、このプログラムの記録媒体
Ye et al. Interpreting the rhetoric of visual advertisements
Zangerle et al. Leveraging affective hashtags for ranking music recommendations
JP2009099088A (ja) Snsユーザプロファイル摘出装置、摘出方法並びに摘出プログラム、及び該ユーザプロファイルを利用する装置
JP2014149713A (ja) 画像評価装置
JP7280705B2 (ja) 機械学習装置、プログラム及び機械学習方法
US9058328B2 (en) Search device, search method, search program, and computer-readable memory medium for recording search program
Nguyen et al. Affective, linguistic and topic patterns in online autism communities
JP5905652B1 (ja) データ評価システム、データ評価方法、およびデータ評価プログラム
JP6043460B2 (ja) データ分析システム、データ分析方法、およびデータ分析プログラム
Chen et al. Semantic Space models for classification of consumer webpages on metadata attributes
JP5942052B1 (ja) データ分析システム、データ分析方法、およびデータ分析プログラム
JP2016177690A (ja) サービス推薦装置およびサービス推薦方法並びにサービス推薦プログラム
Pérez-Rosas et al. Gender differences in deceivers writing style
Chaurasia et al. Predicting mental health of scholars using contextual word embedding
Scheibe et al. A sentiment analysis on Miley Cyrus’ Instagram accounts
Akintunde et al. A Sentiment-Aware Statistical Evaluation of Vawulence Tweets for Cyberbullying Analytics
JP2018036756A (ja) メッセージ分類システム、メッセージ分類方法及びプログラム
Sun et al. Characterizing and identifying socially shared self-descriptions in product reviews

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160930

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161101

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161111

R150 Certificate of patent or registration of utility model

Ref document number: 6043460

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees