JPWO2013073377A1 - 情報拡散規模予測装置、情報拡散規模予測方法、および情報拡散規模予測プログラム - Google Patents

情報拡散規模予測装置、情報拡散規模予測方法、および情報拡散規模予測プログラム Download PDF

Info

Publication number
JPWO2013073377A1
JPWO2013073377A1 JP2013511458A JP2013511458A JPWO2013073377A1 JP WO2013073377 A1 JPWO2013073377 A1 JP WO2013073377A1 JP 2013511458 A JP2013511458 A JP 2013511458A JP 2013511458 A JP2013511458 A JP 2013511458A JP WO2013073377 A1 JPWO2013073377 A1 JP WO2013073377A1
Authority
JP
Japan
Prior art keywords
text data
learning
topic
prediction
posts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013511458A
Other languages
English (en)
Other versions
JP5282857B1 (ja
Inventor
健児 青木
健児 青木
森永 聡
聡 森永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2013511458A priority Critical patent/JP5282857B1/ja
Application granted granted Critical
Publication of JP5282857B1 publication Critical patent/JP5282857B1/ja
Publication of JPWO2013073377A1 publication Critical patent/JPWO2013073377A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

SNSなどで、特定トピックに対しての未来における投稿数を的確に予測することを可能とする情報拡散規模予測装置等を提供するために、本発明に係る情報拡散規模予測装置10は、特定のウェブサイトから学習用テキストデータを取得する学習テキストデータ入力部101と、トピック別の発言件数から、当該トピックに対する単数の特定のユーザを示すノードの属するグループごとの発言件数に対する影響力を算出してこれを学習データとして記憶するノード影響力学習部102と、学習データを記憶した後に特定のウェブサイトから予測用テキストデータを取得する予測テキストデータ入力部106と、トピック別の発言件数と学習データとから該トピックの未来の特定の時刻における投稿件数を予測して出力する未来投稿件数予測部107とを有することを特徴とする。

Description

本発明は情報拡散規模予測装置、情報拡散規模予測方法、および情報拡散規模予測プログラムに関し、特に特定のウェブサイトで、特定トピックに対しての未来における投稿数を予測する情報拡散規模予測装置等に関する。
インターネットは、既に出版や放送などと並ぶ重要なメディアとして普及している。特に近年は、いわゆるSNS(Social Network Service)と呼ばれるウェブサイト、具体的にはツイッター、フェイスブック、ミクシイ(いずれも登録商標)などが著しく普及し、社会的に重大な影響力を持つに至っている。
これらのSNS、あるいはウェブログなどで、たとえば特定の企業や商品などに対して否定的な風評がそれらのウェブサイトに書き込まれると、その風評が急速に拡散して、その売り上げに対して重大な悪影響、いわゆる風評被害が発生することになる。そのため、企業にとっては、SNSなどにおける風評の状況は、危機管理の観点において決して無視することのできないものになっている。
このため、非特許文献1などにあるようなSNS上の投稿状況を分析する技術やサービスが、既に多数存在している。また、特許文献1にあるように、ウェブサイトの種類ごとに、他のメディアに与える影響力を機械学習や数理統計などの理論により推定し、その情報をもとに未来の投稿状況を予測する技術も既に公知である。
国際公開W02009/116342
「ブランド分析(風評被害の把握と対策)」、日本アイ・ビー・エム(株)、[平成23年11月4日検索]、インターネット<URL:http://www-06.ibm.com/services/bcs/jp/solutions/sc/pdf/branding.pdf>
しかしながら、それらの技術は「ウェブサイトの種類ごと」に影響力を算出して未来の投稿状況を予測するものであって、「投稿者(または投稿者の属性)ごと」に推定するものではない。そのため、未来の投稿状況を的確に予測しうる技術は特に存在せず、人間が直感によって、過去から現在までの投稿状況をもとにして未来の投稿状況を予想して対策する以外にない。
それに加えて、SNSなどのようなウェブサイトでは、システムや運営管理などによる制限によって、過去から現在に及ぶ全ての投稿を取得できない場合も多い。たとえばツイッターでは、運営会社の利用許可を得たとしても、全ての投稿データのうち10%しか取得できない。利用許可が無い場合には1%しか取得できないことになる。加えて、これまであまり話題にならなかった特定のトピックが、何らかの事象が発生したことによって監視の必要性が出てくる場合もある。以上の各々に該当する場合には、影響力の推定に利用できる投稿データが少ないことになる。
また、全ての投稿データが取得可能であったとしても、その投稿および投稿者の数は非常に多いので、その処理に利用するコンピュータの処理能力などの制約により、取得されたデータの全てが利用可能なものとはならないことが多い。以上のような理由で、投稿者ごとの影響力を推定することは困難である。まして、これを基にして未来の投稿状況を予測することはさらに困難である。
本発明の目的は、SNSなどのようなウェブサイトで、投稿者ごとの影響力、および特定トピックに対しての未来における投稿数を的確に予測することを可能とする情報拡散規模予測装置、情報拡散規模予測方法、および情報拡散規模予測プログラムを提供することにある。
上記目的を達成するため、本発明に係る情報拡散規模予測装置は、インターネットを介して特定のウェブサイトからテキストデータを取得し、このテキストデータを基にして該ウェブサイトへの未来における投稿件数を予測してその予測結果を出力する情報拡散規模予測装置であって、特定のウェブサイトからテキストデータを学習用テキストデータとして取得する学習テキストデータ入力部と、学習用テキストデータをトピック別に分類し、分類されたトピック別の投稿件数から当該トピックに対する特定のユーザを示すノードの属するグループごとの投稿件数に対する影響力を算出してその結果を学習データとして予め備えられた記憶手段に記憶するノード影響力学習部と、学習データを記憶した後に特定のウェブサイトからテキストデータを予測用テキストデータとして取得する予測テキストデータ入力部と、予測用テキストデータをトピック別に分類し、分類されたトピック別の投稿件数と学習データとから該トピックの未来の特定の時刻における投稿件数を予測してその結果を備えられた予め出力手段に出力する未来投稿件数予測部とを有することを特徴とする。
上記目的を達成するため、本発明に係る情報拡散規模予測方法は、インターネットを介して特定のウェブサイトからテキストデータを取得し、このテキストデータを基にして該ウェブサイトへの未来における投稿件数を予測してその予測結果を出力する情報拡散規模予測装置にあって、特定のウェブサイトからテキストデータを学習用テキストデータとして学習テキストデータ入力部が取得し、学習用テキストデータをノード影響力学習部がトピック別に分類し、分類されたトピック別の投稿件数から当該トピックに対する特定のユーザを示すノードの属するグループごとの投稿件数に対する影響力をノード影響力学習部が算出してその結果を学習データとして予め備えられた記憶手段に記憶し、学習データを記憶した後に特定のウェブサイトからテキストデータを予測用テキストデータとして予測テキストデータ入力部が取得し、予測用テキストデータを未来投稿件数予測部がトピック別に分類し、分類されたトピック別の投稿件数と学習データとから該トピックの未来の特定の時刻における投稿件数を未来投稿件数予測部が予測し、その結果を予め備えられた出力手段に未来投稿件数予測部が出力することを特徴とする。
上記目的を達成するため、本発明に係る情報拡散規模予測プログラムは、インターネットを介して特定のウェブサイトからテキストデータを取得し、このテキストデータを基にして該ウェブサイトへの未来における投稿件数を予測してその予測結果を出力する情報拡散規模予測装置にあって、情報拡散規模予測装置の備えるコンピュータに、特定のウェブサイトからテキストデータを学習用テキストデータとして取得する手順、学習用テキストデータをトピック別に分類する手順、分類されたトピック別の投稿件数から当該トピックに対する特定のユーザを示すノードの属するグループごとの投稿件数に対する影響力を算出してその結果を学習データとして予め備えられた記憶手段に記憶する手順、学習データを記憶した後に特定のウェブサイトからテキストデータを予測用テキストデータとして取得する手順、予測用テキストデータをトピック別に分類する手順、分類されたトピック別の投稿件数と学習データとから該トピックの未来の特定の時刻における投稿件数を予測する手順、およびその結果を予め備えられた出力手段に出力する手順を実行させることを特徴とする。
本発明は、上記したように、特定のウェブサイトから取得した学習用テキストデータから特定のトピックに対する特定のユーザの影響力を算出してこれを学習データとして保存し、この学習データと新たに取得した予測用テキストデータとからその特定のトピックの未来における投稿件数を予測するように構成したので、現実的に計算可能なデータ量で予測の処理を行うことができる。
これによって、SNSなどのようなウェブサイトで、投稿者ごとの影響力、および特定トピックに対しての未来における投稿数を的確に予測するという、優れた特徴を持つ情報拡散規模予測装置、情報拡散規模予測方法、および情報拡散規模予測プログラムを提供することができる。
本発明の実施形態に係る情報拡散規模予測装置の構成について示す説明図である。 図1で示した情報拡散規模予測装置の学習フェーズにおける動作を示すフローチャートである。 図1で示した情報拡散規模予測装置の予測フェーズにおける動作を示すフローチャートである。
(実施形態)
以下、本発明の実施形態の構成について添付図1に基づいて説明する。
最初に、本実施形態の基本的な内容について説明し、その後でより具体的な内容について説明する。本実施形態に係る情報拡散規模予測装置10は、インターネット20を介して特定のウェブサイトからテキストデータを取得し、このテキストデータを基にして該ウェブサイトへの未来における投稿件数を予測してその予測結果を出力する情報拡散規模予測装置である。この情報拡散規模予測装置10は、特定のウェブサイトからテキストデータを学習用テキストデータとして取得する学習テキストデータ入力部101と、学習用テキストデータをトピック別に分類し、分類されたトピック別の投稿件数から当該トピックに対する特定のユーザを示すノードの属するグループごとの投稿件数に対する影響力を算出してその結果を学習データ110として予め備えられた記憶手段12に記憶するノード影響力学習部ノード影響力学習部102と、学習データを記憶した後に特定のウェブサイトからテキストデータを予測用テキストデータとして取得する予測テキストデータ入力部106と、予測用テキストデータをトピック別に分類し、分類されたトピック別の投稿件数と学習データとから該トピックの未来の特定の時刻における投稿件数を予測してその結果を備えられた予め出力手段14に出力する未来投稿件数予測部107とを有する。
また、この情報拡散規模予測装置10は、各ノードの属性に関する情報に基づいてノードをグループに分類するグループ作成部104と、学習用テキストデータおよび予測用テキストデータから発言数に関して時刻およびグループごとにクロス集計してその結果をノード影響力学習部および未来投稿件数予測部に出力するグループ・時刻情報集計部103とをさらに有する。
そして、ノード影響力学習部102は、時刻およびグループごとにクロス集計された発言数を行列X、要素xijをこの行列Xの時刻iにおけるグループjの発言数、行列Xの1行目からs行目までを抽出した部分行列をXs、各時刻における発言数の全ノードに対する総和をysとし、平均αのポアソン分布のxにおける密度関数の値をP0(x,α)とすると、時刻sにおけるグループの影響力βsを
Figure 2013073377
で示されるf(ys,Xs,βs)の数値を最小化する場合の値として求める。
さらに、ノード影響力学習部102は、f(ys,Xs,βs)に、L1正則化もしくはL2正則化されたβsと、予め与えられた正則化パラメータとを乗算した値を加算した数値を最小化する場合の値として時刻sにおける時刻sにおけるグループの影響力βsを求める。
以上の構成を備えることにより、本実施形態に係る情報拡散規模予測装置10は、投稿者ごとの影響力、および特定トピックに対しての未来における投稿数を的確に予測できるものとなる。
以下、これをより詳細に説明する。
図1は、本発明の実施形態に係る情報拡散規模予測装置10の構成について示す説明図である。情報拡散規模予測装置10は、コンピュータ装置としての基本的な構成を備えている。即ち、情報拡散規模予測装置10は、コンピュータプログラムを実行する主体であるプロセッサ11と、データを記憶する記憶手段12と、インターネット20を介して他の装置とのデータ送信を行う通信手段13と、処理結果をユーザに提示する表示手段14とを備える。
主演算制御手段11は、コンピュータプログラムが実行されることにより、後述の学習テキストデータ入力部101、ノード影響力学習部102、グループ・時刻情報集計部103、グループ作成部104、属性値入力部105、予測テキストデータ入力部106、および未来投稿件数予測部107として機能する。これらの各部は、各々別々のコンピュータ装置で実行されるように構成することもできる。
学習テキストデータ入力部101は、通信手段13およびインターネット20を介して、予め与えられた学習期間および学習間隔に従って、取得対象のウェブサイトからテキストデータと、それに付随する属性データを取得する。たとえば、ツイッターを取得対象とする場合には、ツイートされたテキストデータと同時に、各ツイートについて、ツイートされた時刻、ツイートしたノード、およびそのツイートが属するトピック、についての情報も同時に取得する。取得されたこれらのデータは、ノード影響力学習部102に渡される。
ここでいう「ノード」とは、本発明においては「影響力を推定する単位」として定義される。より具体的には、「投稿者」単位としてもよいし、その投稿者が属する「メディア」単位や「運営組織」単位とすることもできる。
たとえば、監視対象のウェブサイトがツイッターである場合には、当投稿者ごとの「ツイート数(発言数)」「フォロー数」「フォロワー数」「各ツイートに対するリプライ数」「各ツイートに対するリツイート数」などを該ノードの属性とすることができる。また、投稿記事の内容自体、たとえば当該記事に含まれる「単語の種類」「出現頻度」などを該ノードの属性としてもよい。
これらの値の中には学習データの取得期間(学習期間という)の中で変化しうる値もある。しかしながらここでは、学習期間内の「投稿件数」「ツイート回数」「コメント数の平均値」「トラックバック数の平均値」「リプライ数の平均値」「リツイート数の平均値」「フォロー数の最大値」「フォロワー数の最大値」などを投稿者ごとに算出し、これを該ノードの属性とすることができる。
ノード影響力学習部102は、それらのデータ入力を受けて、各発言をトピックごとに分類し、トピックごとにそのトピックに属する発言のノード情報・時刻情報・テキストデータをグループ・時刻情報集計部103に出力する。グループ・時刻情報集計部103は、それらのトピックごとにグループ・時刻情報をクロス集計してノード影響力学習部102に返す。
トピックごとにクロス集計されたグループ・時刻情報がグループ・時刻集計部103から返されたことを受けたノード影響力学習部102は、各グループの影響力、そしてこれに引き続いて各ノードの影響力を算出する。そして算出されたノードの影響力を、未来投稿件数予測部107に出力する。
グループ・時刻情報集計部103は、ノード影響力学習部102から入力される各発言の属性、たとえばツイッターの場合には単一のトピックに属するツイートのノード情報・時刻情報・テキストデータと、グループ作成部104から入力されるノードが属するグループの情報とから、発言数に関して、時刻×グループのクロス集計データを作成し、このクロス集計データをノード影響力学習部102に出力する。
グループ作成部104は、属性値入力部105から入力されたノードの属性値から、各ノードをグループ分けし、グループ情報をグループ・時刻情報集計部103に出力する。属性値入力部105では、装置外部から入力されたノードの属性値をグループ作成部104に出力する。
予測テキストデータ入力部106は、通信手段13およびインターネット20を介して、学習テキストデータ入力部101と同様に、予め与えられた予測間隔に従って取得対象のウェブサイトからテキストデータと、それに付随する属性データを取得する。取得されたこれらのデータは、未来投稿件数予測部107に渡される。
未来投稿件数予測部107は、予測テキストデータ入力部106からそれらのデータ入力を受け、またノード影響力学習部102から各ノードの影響力についての入力を受け、各発言が分類されたトピックごとに、該トピックに属する発言のノード情報・時刻情報・テキストデータをグループ・時刻情報集計部103に出力する。グループ・時刻情報集計部103は、それらのトピックごとにグループ・時刻情報をクロス集計して未来投稿件数予測部107に返す。
トピックごとにクロス集計されたグループ・時刻情報がグループ・時刻集計部103から返されたことを受けた未来投稿件数予測部107は、未来の投稿件数の予測値を算出して、これを表示手段14に表示する。この表示手段14は、情報拡散規模予測装置10とは別のコンピュータであってもよい。
ここでいう「未来の投稿状況」とは、予め指定された特定のトピック(たとえば監視者が注目しているものとして指定したトピックなど)に関して、何時間先の未来(情報拡散速度)において何本の件数(情報拡散規模)の記事がその対象ウェブサイトに存在するかをいう。また、各投稿記事に関して、投稿元ノード・投稿時刻・どのトピック(複数トピックでも可)に関する記事なのかについての情報が与えられているものとする。
以上で説明した情報拡散規模予測装置10の動作は、大きく分けて「学習フェーズ」と「予測フェーズ」の2段階に分かれる。以下、その各々について説明する。なお、以下の例では、全て監視対象のウェブサイトがツイッターであるものとする。
図2は、図1で示した情報拡散規模予測装置10の学習フェーズにおける動作を示すフローチャートである。まず、学習テキストデータ入力部101が、通信手段13およびインターネット20を介して、予め与えられた学習期間および学習間隔に従って動作して、ツイッター上にツイートされたテキストデータを学習用として取得する。同時に、各ツイートについて、ツイートされた時刻、ツイートしたノード、およびそのツイートが属するトピック、についての情報も同時に取得する。取得されたこれらのデータは、ノード影響力学習部102に渡される(ステップS201)。
ノード影響力学習部102は、それらのデータ入力を受けて、各ツイートをトピックごとに分類し、トピックごとにそのトピックに属するツイートのノード情報・時刻情報・テキストデータをグループ・時刻情報集計部103に出力する(ステップS202)。グループ・時刻情報集計部103は、グループ作成部104から入力されるノードが属するグループの情報を利用して、それらのトピックごとにグループ・時刻情報をクロス集計してノード影響力学習部102に返す(ステップS203)。
このクロス集計されたグループ・時刻情報を受け取ったノード影響力学習部102は、グループの影響力を算出し、その値をもとにノードの影響力を算出し、これを学習データ110として記憶手段12に保存する。(ステップS204)。
図3は、図1で示した情報拡散規模予測装置10の予測フェーズにおける動作を示すフローチャートである。まず予測テキストデータ入力部106が、与えられた予測間隔に従って動作して、ツイッター上にツイートされたテキストデータを予測用として取得する。同時に、各ツイートについて、ツイートされた時刻、ツイートしたノード、およびそのツイートが属するトピック、についての情報も同時に取得する。取得されたこれらのデータは、未来投稿件数予測部107に渡される(ステップS251)。
未来投稿件数予測部107は、それらのデータ入力を受けて、各ツイートをトピックごとに分類し、トピックごとにそのトピックに属するツイートのノード情報・時刻情報・テキストデータをグループ・時刻情報集計部103に出力する(ステップS252)。グループ・時刻情報集計部103は、グループ作成部104から入力されるノードが属するグループの情報を利用して、それらのトピックごとにグループ・時刻情報をクロス集計して未来投稿件数予測部107に返す(ステップS253)。
以上ステップS251〜253の処理は、図2のステップS201〜203の処理と同一であるので、グループ・時刻情報集計部103、グループ作成部104、属性値入力部105は学習フェーズと予測フェーズとで共用することができる。このクロス集計されたグループ・時刻情報を受け取った未来投稿件数予測部107は、記憶手段12からノードの影響力についての学習データを読み取り(ステップS254)、そこから未来の投稿件数の予測値を算出して表示手段14に表示する(ステップS255)。
(処理内容の例)
以下、図2〜3で示した情報拡散規模予測装置10による学習フェーズおよび予測フェーズの各処理の内容を、より詳細に説明する。ここから示す処理内容の例における前提は、以下の通りである。
・分析対象はツイッター上にツイート(投稿)されたテキストデータである。
・未来の投稿件数(ツイート数)の予測対象となるトピックが予め指定されている。
・各々のツイートについて、当該ツイートの「ツイートしたユーザ」「ツイートされた日時」「そのツイートが属するトピック」に関する情報が得られている。
・学習フェーズおよび予測フェーズの各々について、テキストデータを取得する処理を行う期間および時間間隔が予め指定されている。ただし、予測フェーズは学習フェーズの終了後に行われる。
・1ユーザ(投稿者)を1ノードとする。
・各ノード(ユーザ)ごとの「クライアントソフト」「学習期間内のツイート回数」「学習期間内でのコメント数・トラックバック数・リプライ数・リツイート数の各平均値」「学習期間内でのフォロー数、フォロワー数の最大値」が予め得られている。
また、以下に示す例では、推定および予測の対象となるトピックが1トピックのみ指定されているものとする。複数トピックが指定されている場合には、その各々のトピックに対して、以下で説明する方法で推定および予測を行えばよい。
まず、学習テキストデータ入力部101が図2のステップS201の処理で取得した各データから、ノード影響力学習部102が図2のステップS202の処理で各ノードをグルーピングする。そのグルーピングを行う際の観点として、たとえば以下の各々がある。また、複数の属性についてのグルーピング結果の積集合を最終的なグルーピング結果とすることもできる。
・使用している「クライアントソフト」の種類
・そのクライアントソフトを動作させている「OS(オペレーティングシステム)」の種類
・「学習期間内のツイート回数」の属する区分(たとえば「1〜100回」「101〜1000回」「1001回以上」の区分のうち、当該ノードがいずれの区分に属するか)
・「学習期間内でのフォロワー数の最大値」の属する区分(たとえば「1〜1000名」「1001名以上」の区分のうち、当該ノードがいずれの区分に属するか)
さらに、ツイート回数がある一定値以上のノードはそのノード自体を単独のグループとして定義することもできる。グルーピングの結果、各ノードは一つもしくは複数のグループに属することになる。このグルーピングにより、実質的にノードの数を減らすことが可能となり、これはノードの影響力の推定結果を安定させることに寄与する。
続いて、グループ・時刻情報集計部103が図2のステップS203に示した処理で、どの時刻においてどのグループが何回ツイートしたかを集計作業し、ツイート数に関する時刻×グループのクロス集計表を作成する。この集計結果(クロス集計表)は、以下の数1の行列Xで示すことができる。この行列Xの、行は時刻、列はグループを各々示し、行列の要素xijは「時刻iにおけるグループjのツイート回数」を表わす。
Figure 2013073377
続いて、グループ・時刻情報集計部103が図2のステップS204に示した処理で、ノードごとの影響力を推定する。ノードの影響力はグループの影響力をもとに算出される。ここで、グループの影響力が以下の数2に示す行列βで与えられているものとする。この行列βの、行は集計単位時間のもとで何時刻先の未来かを示し、列は(数1と同様に)グループを示し、行列の要素βijは「i時刻先の未来におけるグループjの影響力の和」として定義される。
Figure 2013073377
具体的に「グループの影響力」を算出する方法として、例えば、以下の数3を最小化するβの値をグループの影響力とする方法が挙げられる。数3の第1項f(ys,Xs,βs)で、数4に示されるysは各時刻におけるツイート数の全ノードに対する総和であり、Xsは数1に示した行列Xの第1行目から第T−s行目までを抽出した部分行列である。また第2項λP(βs)のλは、正則化パラメータと呼ばれる、推定結果の安定性を調整するためのパラメータである。P(βs)のより具体的な定義については後述する。
Figure 2013073377
Figure 2013073377
この数3のf(ys,Xs,βs)は、より具体的には以下の数5のように計算される。ここでP0(x,α)は、平均αのポアソン分布のxにおける密度関数の値である。
Figure 2013073377
数3の第2項のP(βs)は、より具体的には以下の数6もしくは数7のように計算される。数6の計算はL1正則化、数7の計算はL2正則化と各々呼ばれる手法である。ここでいう正則化とは、機械学習や数理統計の分野で、十分な量の学習データが得られない状況で安定した推定結果を得るために利用される手法である。また、数3の第2項を省略して、正則化の要素を含まない計算とすることもできる。
Figure 2013073377
Figure 2013073377
情報拡散規模予測装置10は、以上の処理(学習フェーズ)で作成した学習データをもとに、図3に示した予測フェーズの動作を行う。図3に示した予測フェーズのステップS251〜254までの処理は、図2に示した学習フェーズのステップS201〜204までの処理と同様にして、予測テキストデータ入力部106がツイートされたテキストデータを取得して、このテキストデータから未来投稿件数予測部107がトピックごとにグループ・時刻情報をクロス集計する。このクロス集計によって得られたグループごとのツイート数zを、以下の数8のように表す。
Figure 2013073377
そして、このクロス集計されたデータと、学習データとを利用して、未来投稿件数予測部107が図3のステップS255に示した処理で、ノードごとの影響力、即ち時刻sだけ先の予測投稿件数を以下の数9に示す処理によって算出する。
Figure 2013073377
以上、ある時刻から見て未来の投稿件数を予測する際に、その時刻における投稿件数のみを予測する例を示したが、これを拡張してその時刻を含む直近の数時刻の投稿件数を予測するようにもできる。その場合、たとえば時刻sを含む直近の時間帯1〜Aにおける投稿件数を表す行列Zは、以下の数10のように定義される。この行列Zの、行は集計単位時間のもとで何時刻先の未来かを示し、列は(数1と同様に)グループを示し、行列の要素zijは「i時刻先の未来におけるグループjの予測投稿件数」として定義され、実際には数9に示した式によって各々算出される。
Figure 2013073377
(実施形態の全体的な動作)
次に、上記の実施形態の全体的な動作について説明する。
本実施形態に係る情報拡散規模予測方法は、インターネットを介して特定のウェブサイトからテキストデータを取得し、このテキストデータを基にして該ウェブサイトへの未来における投稿件数を予測してその予測結果を出力する情報拡散規模予測装置10にあって、特定のウェブサイトからテキストデータを学習用テキストデータとして学習テキストデータ入力部が取得し(図2・ステップS201)、学習用テキストデータをノード影響力学習部がトピック別に分類し(図2・ステップS202)、分類されたトピック別の投稿件数から当該トピックに対する特定のユーザを示すノードの属するグループごとの投稿件数に対する影響力をノード影響力学習部が算出してその結果を学習データとして予め備えられた記憶手段に記憶し(図2・ステップS203〜204)、学習データを記憶した後に特定のウェブサイトからテキストデータを予測用テキストデータとして予測テキストデータ入力部が取得し(図3・ステップS251)、予測用テキストデータを未来投稿件数予測部がトピック別に分類し(図3・ステップS252)、分類されたトピック別の発言件数と学習データとから該トピックの未来の特定の時刻における投稿件数を未来投稿件数予測部が予測し、その結果を予め備えられた出力手段に未来投稿件数予測部が出力する(図3・ステップS253〜255)。
ここで、上記各動作ステップについては、これをコンピュータで実行可能にプログラム化し、これらを前記各ステップを直接実行する情報拡散規模予測装置10のプロセッサ11に実行させるようにしてもよい。本プログラムは、非一時的な記録媒体、例えば、DVD、CD、フラッシュメモリ等に記録されてもよい。その場合、本プログラムは、記録媒体からコンピュータによって読み出され、実行される。
この動作により、本実施形態は以下のような効果を奏する。
本実施形態は、前述のように、学習フェーズで特定のトピックに対する特定のユーザの影響力を算出してこれを学習データとして保存し、予測フェーズでこの学習データと新たに取得した予測用テキストデータとからその特定のトピックの未来における投稿件数を予測するように構成している。
これによって、個々のユーザという細かい単位に至るまで、影響力を細かい粒度で算出することが、現実的に処理可能な計算量の範囲で可能となる。従って、それに基づいた投稿件数の予測もまた、学習フェーズと同程度の粒度で可能となる。この処理は、学習フェーズおよび予測フェーズの各々に対して、処理を行う期間および時間間隔を設定さえしておけば、リアルタイムに近い定期的な形で行うことが可能である。
(実施形態の拡張)
以上で示した処理内容の例では、集計対象をツイッターに限定したが、これ以外にもフェイスブックやミクシイ、あるいは各社のウェブログなどに対しても、各サイトの性質に応じて各トピックや各ノードの属性を適宜設定して、同様の方法で処理していくことができる。
また、前述したように各ノードを特にグルーピングせず、1ユーザ=1ノード=1グループとして処理することもできる。さらに、前述した数3の第2項を省略して、正則化の要素を含まない計算とすることもできる。
これまで本発明について図面に示した特定の実施形態をもって説明してきたが、本発明は図面に示した実施形態に限定されるものではなく、本発明の効果を奏する限り、これまで知られたいかなる構成であっても採用することができる。
上述した実施形態について、その新規な技術内容の要点をまとめると、以下のようになる。なお、上記実施形態の一部または全部は、新規な技術として以下のようにまとめられるが、本発明は必ずしもこれに限定されるものではない。
(付記1) インターネットを介して特定のウェブサイトからテキストデータを取得し、このテキストデータを基にして該ウェブサイトへの未来における投稿件数を予測してその予測結果を出力する情報拡散規模予測装置であって、
前記特定のウェブサイトから前記テキストデータを学習用テキストデータとして取得する学習テキストデータ入力部と、
前記学習用テキストデータをトピック別に分類し、分類されたトピック別の投稿件数から当該トピックに対する特定のユーザを示すノードの属するグループごとの前記投稿件数に対する影響力を算出してその結果を学習データとして予め備えられた記憶手段に記憶するノード影響力学習部と、
前記学習データを記憶した後に前記特定のウェブサイトから前記テキストデータを予測用テキストデータとして取得する予測テキストデータ入力部と、
前記予測用テキストデータをトピック別に分類し、分類されたトピック別の投稿件数と前記学習データとから該トピックの未来の特定の時刻における投稿件数を予測してその結果を備えられた予め出力手段に出力する未来投稿件数予測部と
を有することを特徴とする情報拡散規模予測装置。
(付記2) 前記各ノードの属性に関する情報に基づいて前記ノードを前記グループに分類するグループ作成部と、
前記学習用テキストデータおよび前記予測用テキストデータから投稿数に関して時刻および前記グループごとにクロス集計してその結果を前記ノード影響力学習部および前記未来投稿件数予測部に出力するグループ・時刻情報集計部と
を有することを特徴とする、付記1に記載の情報拡散規模予測装置。
(付記3) 前記ノード影響力学習部が、時刻および前記グループごとに前記クロス集計された投稿数を行列X、要素xijをこの行列Xの時刻iにおけるグループjの投稿数、前記行列Xの1行目からs行目までを抽出した部分行列をXs、各時刻における投稿数の全ノードに対する総和をysとし、平均αのポアソン分布のxにおける密度関数の値をP0(x,α)とすると、時刻sにおける前記グループの影響力βsを
Figure 2013073377
で示されるf(ys,Xs,βs)の数値を最小化する場合の値として求めることを特徴とする、付記2に記載の情報拡散規模予測装置。
(付記4) 前記ノード影響力学習部が、前記f(ys,Xs,βs)に、L1正則化もしくはL2正則化されたβsと、予め与えられた正則化パラメータとを乗算した値を加算した数値を最小化する場合の値として時刻sにおける前記グループの影響力βsを求めることを特徴とする、付記3に記載の情報拡散規模予測装置。
(付記5) インターネットを介して特定のウェブサイトからテキストデータを取得し、このテキストデータを基にして該ウェブサイトへの未来における投稿件数を予測してその予測結果を出力する情報拡散規模予測装置にあって、
前記特定のウェブサイトから前記テキストデータを学習用テキストデータとして学習テキストデータ入力部が取得し、
前記学習用テキストデータをノード影響力学習部がトピック別に分類し、
分類されたトピック別の投稿件数から当該トピックに対する特定のユーザを示すノードの属するグループごとの前記投稿件数に対する影響力をノード影響力学習部が算出してその結果を学習データとして予め備えられた記憶手段に記憶し、
前記学習データを記憶した後に前記特定のウェブサイトから前記テキストデータを予測用テキストデータとして予測テキストデータ入力部が取得し、
前記予測用テキストデータを未来投稿件数予測部がトピック別に分類し、
分類されたトピック別の投稿件数と前記学習データとから該トピックの未来の特定の時刻における投稿件数を未来投稿件数予測部が予測し、
その結果を予め備えられた出力手段に前記未来投稿件数予測部が出力する
ことを特徴とする情報拡散規模予測方法。
(付記6) インターネットを介して特定のウェブサイトからテキストデータを取得し、このテキストデータを基にして該ウェブサイトへの未来における投稿件数を予測してその予測結果を出力する情報拡散規模予測装置にあって、
前記情報拡散規模予測装置の備えるコンピュータに、
前記特定のウェブサイトから前記テキストデータを学習用テキストデータとして取得する手順、
前記学習用テキストデータをトピック別に分類する手順、
分類されたトピック別の投稿件数から当該トピックに対する特定のユーザを示すノードの属するグループごとの前記投稿件数に対する影響力を算出してその結果を学習データとして予め備えられた記憶手段に記憶する手順、
前記学習データを記憶した後に前記特定のウェブサイトから前記テキストデータを予測用テキストデータとして取得する手順、
前記予測用テキストデータをトピック別に分類する手順、
分類されたトピック別の投稿件数と前記学習データとから該トピックの未来の特定の時刻における投稿件数を予測する手順、
およびその結果を予め備えられた出力手段に出力する手順
を実行させることを特徴とする情報拡散規模予測プログラム。
この出願は2011年11月18日に出願された日本出願特願2011−252311を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、企業の危機管理やマーケッティングリサーチなどに利用する情報拡散規模予測の技術に対して適用できる。
10 情報拡散規模予測装置
11 プロセッサ
12 記憶手段
13 通信手段
14 表示手段
20 インターネット
101 学習テキストデータ入力部
102 ノード影響力学習部
103 グループ・時刻情報集計部
104 グループ作成部
105 属性値入力部
106 予測テキストデータ入力部
107 未来投稿件数予測部
110 学習データ

Claims (6)

  1. インターネットを介して特定のウェブサイトからテキストデータを取得し、このテキストデータを基にして該ウェブサイトへの未来における投稿件数を予測してその予測結果を出力する情報拡散規模予測装置であって、
    前記特定のウェブサイトから前記テキストデータを学習用テキストデータとして取得する学習テキストデータ入力部と、
    前記学習用テキストデータをトピック別に分類し、分類されたトピック別の投稿件数から当該トピックに対する特定のユーザを示すノードの属するグループごとの前記投稿件数に対する影響力を算出してその結果を学習データとして予め備えられた記憶手段に記憶するノード影響力学習部と、
    前記学習データを記憶した後に前記特定のウェブサイトから前記テキストデータを予測用テキストデータとして取得する予測テキストデータ入力部と、
    前記予測用テキストデータをトピック別に分類し、分類されたトピック別の投稿件数と前記学習データとから該トピックの未来の特定の時刻における投稿件数を予測してその結果を備えられた予め出力手段に出力する未来投稿件数予測部と
    を有することを特徴とする情報拡散規模予測装置。
  2. 前記各ノードの属性に関する情報に基づいて前記ノードを前記グループに分類するグループ作成部と、
    前記学習用テキストデータおよび前記予測用テキストデータから投稿数に関して時刻および前記グループごとにクロス集計してその結果を前記ノード影響力学習部および前記未来投稿件数予測部に出力するグループ・時刻情報集計部と
    を有することを特徴とする、請求項1に記載の情報拡散規模予測装置。
  3. 前記ノード影響力学習部が、時刻および前記グループごとに前記クロス集計された投稿数を行列X、要素xijをこの行列Xの時刻iにおけるグループjの投稿数、前記行列Xの1行目からs行目までを抽出した部分行列をXs、各時刻における投稿数の全ノードに対する総和をysとし、平均αのポアソン分布のxにおける密度関数の値をP0(x,α)とすると、時刻sにおける前記グループの影響力βsを
    Figure 2013073377
    で示されるf(ys,Xs,βs)の数値を最小化する場合の値として求めることを特徴とする、請求項2に記載の情報拡散規模予測装置。
  4. 前記ノード影響力学習部が、前記f(ys,Xs,βs)に、L1正則化もしくはL2正則化されたβsと、予め与えられた正則化パラメータとを乗算した値を加算した数値を最小化する場合の値として時刻sにおける前記グループの影響力βsを求めることを特徴とする、請求項3に記載の情報拡散規模予測装置。
  5. インターネットを介して特定のウェブサイトからテキストデータを取得し、このテキストデータを基にして該ウェブサイトへの未来における投稿件数を予測してその予測結果を出力する情報拡散規模予測装置にあって、
    前記特定のウェブサイトから前記テキストデータを学習用テキストデータとして学習テキストデータ入力部が取得し、
    前記学習用テキストデータをノード影響力学習部がトピック別に分類し、
    分類されたトピック別の投稿件数から当該トピックに対する特定のユーザを示すノードの属するグループごとの前記投稿件数に対する影響力をノード影響力学習部が算出してその結果を学習データとして予め備えられた記憶手段に記憶し、
    前記学習データを記憶した後に前記特定のウェブサイトから前記テキストデータを予測用テキストデータとして予測テキストデータ入力部が取得し、
    前記予測用テキストデータを未来投稿件数予測部がトピック別に分類し、
    分類されたトピック別の投稿件数と前記学習データとから該トピックの未来の特定の時刻における投稿件数を未来投稿件数予測部が予測し、
    その結果を予め備えられた出力手段に前記未来投稿件数予測部が出力する
    ことを特徴とする情報拡散規模予測方法。
  6. インターネットを介して特定のウェブサイトからテキストデータを取得し、このテキストデータを基にして該ウェブサイトへの未来における投稿件数を予測してその予測結果を出力する情報拡散規模予測装置にあって、
    前記情報拡散規模予測装置の備えるコンピュータに、
    前記特定のウェブサイトから前記テキストデータを学習用テキストデータとして取得する手順、
    前記学習用テキストデータをトピック別に分類する手順、
    分類されたトピック別の投稿件数から当該トピックに対する特定のユーザを示すノードの属するグループごとの前記投稿件数に対する影響力を算出してその結果を学習データとして予め備えられた記憶手段に記憶する手順、
    前記学習データを記憶した後に前記特定のウェブサイトから前記テキストデータを予測用テキストデータとして取得する手順、
    前記予測用テキストデータをトピック別に分類する手順、
    分類されたトピック別の投稿件数と前記学習データとから該トピックの未来の特定の時刻における投稿件数を予測する手順、
    およびその結果を予め備えられた出力手段に出力する手順
    を実行させることを特徴とする情報拡散規模予測プログラム。
JP2013511458A 2011-11-18 2012-11-01 情報拡散規模予測装置、情報拡散規模予測方法、および情報拡散規模予測プログラム Expired - Fee Related JP5282857B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013511458A JP5282857B1 (ja) 2011-11-18 2012-11-01 情報拡散規模予測装置、情報拡散規模予測方法、および情報拡散規模予測プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2011252311 2011-11-18
JP2011252311 2011-11-18
PCT/JP2012/078292 WO2013073377A1 (ja) 2011-11-18 2012-11-01 情報拡散規模予測装置、情報拡散規模予測方法、および情報拡散規模予測プログラム
JP2013511458A JP5282857B1 (ja) 2011-11-18 2012-11-01 情報拡散規模予測装置、情報拡散規模予測方法、および情報拡散規模予測プログラム

Publications (2)

Publication Number Publication Date
JP5282857B1 JP5282857B1 (ja) 2013-09-04
JPWO2013073377A1 true JPWO2013073377A1 (ja) 2015-04-02

Family

ID=48429444

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013511458A Expired - Fee Related JP5282857B1 (ja) 2011-11-18 2012-11-01 情報拡散規模予測装置、情報拡散規模予測方法、および情報拡散規模予測プログラム

Country Status (3)

Country Link
US (1) US8983880B2 (ja)
JP (1) JP5282857B1 (ja)
WO (1) WO2013073377A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9448962B2 (en) * 2013-08-09 2016-09-20 Facebook, Inc. User experience/user interface based on interaction history
US20150309965A1 (en) * 2014-04-28 2015-10-29 Elwha Llc Methods, systems, and devices for outcome prediction of text submission to network based on corpora analysis
KR101628738B1 (ko) * 2014-10-29 2016-06-09 (주)타파크로스 학습형 룰베이스 방식의 부정적 이슈 감지 방법 및 시스템
WO2017023322A1 (en) * 2015-08-06 2017-02-09 Hewlett Packard Enterprise Development Lp Influence spread maximization in social networks
US10430451B2 (en) * 2016-02-22 2019-10-01 Arie Rota System and method for aggregating and sharing accumulated information
CN106845022A (zh) * 2017-03-01 2017-06-13 邯郸市气象局 基于风险扩散机理的气象灾害风险评估方法
JP7009160B2 (ja) * 2017-10-27 2022-01-25 エヌ・ティ・ティ・コミュニケーションズ株式会社 サイト改善装置、サイト改善方法およびサイト改善プログラム
US10687206B2 (en) * 2018-01-30 2020-06-16 Hewlett Packard Enterprise Development Lp Response messages including information elements not indicated as requested
JP7182819B1 (ja) 2021-07-30 2022-12-05 株式会社Jx通信社 情報処理装置、情報処理システムおよびプログラム
JP7061328B1 (ja) 2021-07-30 2022-04-28 株式会社Jx通信社 情報処理装置、情報処理システムおよびプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009116342A1 (ja) 2008-03-18 2009-09-24 日本電気株式会社 動的トピック分析システム、動的トピック分析方法および動的トピック分析プログラムを記録した媒体

Also Published As

Publication number Publication date
JP5282857B1 (ja) 2013-09-04
US20140244551A1 (en) 2014-08-28
WO2013073377A1 (ja) 2013-05-23
US8983880B2 (en) 2015-03-17

Similar Documents

Publication Publication Date Title
JP5282857B1 (ja) 情報拡散規模予測装置、情報拡散規模予測方法、および情報拡散規模予測プログラム
WO2017167284A1 (zh) 商户配送范围的调整方法和装置
US9123055B2 (en) Generating and displaying customer commitment framework data
CN107358247B (zh) 一种确定流失用户的方法及装置
JP2019509556A (ja) ユーザー・クレジット評価方法、装置及び記憶媒体
US10846613B2 (en) System and method for measuring and predicting content dissemination in social networks
Yen et al. Synthetic-type control charts for time-between-events monitoring
US20140195339A1 (en) Media Mix Modeling Tool
US20140032475A1 (en) Systems And Methods For Determining Customer Brand Commitment Using Social Media Data
CN108154252A (zh) 用于预估流程完成时间的方法和装置
WO2016093837A1 (en) Determining term scores based on a modified inverse domain frequency
US20160034553A1 (en) Hybrid aggregation of data sets
TW201719569A (zh) 社交業務特徵用戶的識別方法和裝置
JP5814303B2 (ja) 収益指標値生成システム及び収益指標値生成方法
Yılancı et al. The causality relationship between trade and environment in G7 countries: evidence from dynamic symmetric and asymmetric bootstrap panel causality tests
Gaidai et al. Singapore COVID-19 data cross-validation by the Gaidai reliability method
CN110209944B (zh) 一种股票分析师推荐方法、装置、计算机设备和存储介质
Xiao et al. Convergence and stability of numerical methods with variable step size for stochastic pantograph differential equations
JP2018077671A (ja) 情報処理装置、情報処理方法、予測モデルの生成装置、予測モデルの生成方法、およびプログラム
JP2023029604A (ja) 特許情報処理装置、特許情報処理方法、およびプログラム
JP6062514B2 (ja) 収益指標値生成システム及び収益指標値生成方法
JP2015187773A (ja) データ解析装置、データ解析プログラム及びデータ解析方法
Tan et al. Predicting the popularity of tweets using internal and external knowledge: an empirical Bayes type approach
Battisti et al. hLSTM-Aging: A Hybrid LSTM Model for Software Aging Forecast
CN106776529B (zh) 业务情感分析方法及装置

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130430

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130513

R150 Certificate of patent or registration of utility model

Ref document number: 5282857

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees