JPWO2013073377A1

JPWO2013073377A1 - 情報拡散規模予測装置、情報拡散規模予測方法、および情報拡散規模予測プログラム

Info

Publication number: JPWO2013073377A1
Application number: JP2013511458A
Authority: JP
Inventors: 健児青木; 森永　聡; 聡森永
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2011-11-18
Filing date: 2012-11-01
Publication date: 2015-04-02
Anticipated expiration: 2032-11-01
Also published as: US8983880B2; WO2013073377A1; US20140244551A1; JP5282857B1

Abstract

ＳＮＳなどで、特定トピックに対しての未来における投稿数を的確に予測することを可能とする情報拡散規模予測装置等を提供するために、本発明に係る情報拡散規模予測装置１０は、特定のウェブサイトから学習用テキストデータを取得する学習テキストデータ入力部１０１と、トピック別の発言件数から、当該トピックに対する単数の特定のユーザを示すノードの属するグループごとの発言件数に対する影響力を算出してこれを学習データとして記憶するノード影響力学習部１０２と、学習データを記憶した後に特定のウェブサイトから予測用テキストデータを取得する予測テキストデータ入力部１０６と、トピック別の発言件数と学習データとから該トピックの未来の特定の時刻における投稿件数を予測して出力する未来投稿件数予測部１０７とを有することを特徴とする。

Description

本発明は情報拡散規模予測装置、情報拡散規模予測方法、および情報拡散規模予測プログラムに関し、特に特定のウェブサイトで、特定トピックに対しての未来における投稿数を予測する情報拡散規模予測装置等に関する。

インターネットは、既に出版や放送などと並ぶ重要なメディアとして普及している。特に近年は、いわゆるＳＮＳ（Social Network Service）と呼ばれるウェブサイト、具体的にはツイッター、フェイスブック、ミクシイ（いずれも登録商標）などが著しく普及し、社会的に重大な影響力を持つに至っている。

これらのＳＮＳ、あるいはウェブログなどで、たとえば特定の企業や商品などに対して否定的な風評がそれらのウェブサイトに書き込まれると、その風評が急速に拡散して、その売り上げに対して重大な悪影響、いわゆる風評被害が発生することになる。そのため、企業にとっては、ＳＮＳなどにおける風評の状況は、危機管理の観点において決して無視することのできないものになっている。

このため、非特許文献１などにあるようなＳＮＳ上の投稿状況を分析する技術やサービスが、既に多数存在している。また、特許文献１にあるように、ウェブサイトの種類ごとに、他のメディアに与える影響力を機械学習や数理統計などの理論により推定し、その情報をもとに未来の投稿状況を予測する技術も既に公知である。

国際公開Ｗ０２００９／１１６３４２

「ブランド分析(風評被害の把握と対策）」、日本アイ・ビー・エム(株)、［平成２３年１１月４日検索］、インターネット＜URL：http://www-06.ibm.com/services/bcs/jp/solutions/sc/pdf/branding.pdf＞

しかしながら、それらの技術は「ウェブサイトの種類ごと」に影響力を算出して未来の投稿状況を予測するものであって、「投稿者（または投稿者の属性）ごと」に推定するものではない。そのため、未来の投稿状況を的確に予測しうる技術は特に存在せず、人間が直感によって、過去から現在までの投稿状況をもとにして未来の投稿状況を予想して対策する以外にない。

それに加えて、ＳＮＳなどのようなウェブサイトでは、システムや運営管理などによる制限によって、過去から現在に及ぶ全ての投稿を取得できない場合も多い。たとえばツイッターでは、運営会社の利用許可を得たとしても、全ての投稿データのうち１０％しか取得できない。利用許可が無い場合には１％しか取得できないことになる。加えて、これまであまり話題にならなかった特定のトピックが、何らかの事象が発生したことによって監視の必要性が出てくる場合もある。以上の各々に該当する場合には、影響力の推定に利用できる投稿データが少ないことになる。

また、全ての投稿データが取得可能であったとしても、その投稿および投稿者の数は非常に多いので、その処理に利用するコンピュータの処理能力などの制約により、取得されたデータの全てが利用可能なものとはならないことが多い。以上のような理由で、投稿者ごとの影響力を推定することは困難である。まして、これを基にして未来の投稿状況を予測することはさらに困難である。

本発明の目的は、ＳＮＳなどのようなウェブサイトで、投稿者ごとの影響力、および特定トピックに対しての未来における投稿数を的確に予測することを可能とする情報拡散規模予測装置、情報拡散規模予測方法、および情報拡散規模予測プログラムを提供することにある。

上記目的を達成するため、本発明に係る情報拡散規模予測装置は、インターネットを介して特定のウェブサイトからテキストデータを取得し、このテキストデータを基にして該ウェブサイトへの未来における投稿件数を予測してその予測結果を出力する情報拡散規模予測装置であって、特定のウェブサイトからテキストデータを学習用テキストデータとして取得する学習テキストデータ入力部と、学習用テキストデータをトピック別に分類し、分類されたトピック別の投稿件数から当該トピックに対する特定のユーザを示すノードの属するグループごとの投稿件数に対する影響力を算出してその結果を学習データとして予め備えられた記憶手段に記憶するノード影響力学習部と、学習データを記憶した後に特定のウェブサイトからテキストデータを予測用テキストデータとして取得する予測テキストデータ入力部と、予測用テキストデータをトピック別に分類し、分類されたトピック別の投稿件数と学習データとから該トピックの未来の特定の時刻における投稿件数を予測してその結果を備えられた予め出力手段に出力する未来投稿件数予測部とを有することを特徴とする。

上記目的を達成するため、本発明に係る情報拡散規模予測方法は、インターネットを介して特定のウェブサイトからテキストデータを取得し、このテキストデータを基にして該ウェブサイトへの未来における投稿件数を予測してその予測結果を出力する情報拡散規模予測装置にあって、特定のウェブサイトからテキストデータを学習用テキストデータとして学習テキストデータ入力部が取得し、学習用テキストデータをノード影響力学習部がトピック別に分類し、分類されたトピック別の投稿件数から当該トピックに対する特定のユーザを示すノードの属するグループごとの投稿件数に対する影響力をノード影響力学習部が算出してその結果を学習データとして予め備えられた記憶手段に記憶し、学習データを記憶した後に特定のウェブサイトからテキストデータを予測用テキストデータとして予測テキストデータ入力部が取得し、予測用テキストデータを未来投稿件数予測部がトピック別に分類し、分類されたトピック別の投稿件数と学習データとから該トピックの未来の特定の時刻における投稿件数を未来投稿件数予測部が予測し、その結果を予め備えられた出力手段に未来投稿件数予測部が出力することを特徴とする。

上記目的を達成するため、本発明に係る情報拡散規模予測プログラムは、インターネットを介して特定のウェブサイトからテキストデータを取得し、このテキストデータを基にして該ウェブサイトへの未来における投稿件数を予測してその予測結果を出力する情報拡散規模予測装置にあって、情報拡散規模予測装置の備えるコンピュータに、特定のウェブサイトからテキストデータを学習用テキストデータとして取得する手順、学習用テキストデータをトピック別に分類する手順、分類されたトピック別の投稿件数から当該トピックに対する特定のユーザを示すノードの属するグループごとの投稿件数に対する影響力を算出してその結果を学習データとして予め備えられた記憶手段に記憶する手順、学習データを記憶した後に特定のウェブサイトからテキストデータを予測用テキストデータとして取得する手順、予測用テキストデータをトピック別に分類する手順、分類されたトピック別の投稿件数と学習データとから該トピックの未来の特定の時刻における投稿件数を予測する手順、およびその結果を予め備えられた出力手段に出力する手順を実行させることを特徴とする。

本発明は、上記したように、特定のウェブサイトから取得した学習用テキストデータから特定のトピックに対する特定のユーザの影響力を算出してこれを学習データとして保存し、この学習データと新たに取得した予測用テキストデータとからその特定のトピックの未来における投稿件数を予測するように構成したので、現実的に計算可能なデータ量で予測の処理を行うことができる。

これによって、ＳＮＳなどのようなウェブサイトで、投稿者ごとの影響力、および特定トピックに対しての未来における投稿数を的確に予測するという、優れた特徴を持つ情報拡散規模予測装置、情報拡散規模予測方法、および情報拡散規模予測プログラムを提供することができる。

本発明の実施形態に係る情報拡散規模予測装置の構成について示す説明図である。図１で示した情報拡散規模予測装置の学習フェーズにおける動作を示すフローチャートである。図１で示した情報拡散規模予測装置の予測フェーズにおける動作を示すフローチャートである。

（実施形態）
以下、本発明の実施形態の構成について添付図１に基づいて説明する。
最初に、本実施形態の基本的な内容について説明し、その後でより具体的な内容について説明する。本実施形態に係る情報拡散規模予測装置１０は、インターネット２０を介して特定のウェブサイトからテキストデータを取得し、このテキストデータを基にして該ウェブサイトへの未来における投稿件数を予測してその予測結果を出力する情報拡散規模予測装置である。この情報拡散規模予測装置１０は、特定のウェブサイトからテキストデータを学習用テキストデータとして取得する学習テキストデータ入力部１０１と、学習用テキストデータをトピック別に分類し、分類されたトピック別の投稿件数から当該トピックに対する特定のユーザを示すノードの属するグループごとの投稿件数に対する影響力を算出してその結果を学習データ１１０として予め備えられた記憶手段１２に記憶するノード影響力学習部ノード影響力学習部１０２と、学習データを記憶した後に特定のウェブサイトからテキストデータを予測用テキストデータとして取得する予測テキストデータ入力部１０６と、予測用テキストデータをトピック別に分類し、分類されたトピック別の投稿件数と学習データとから該トピックの未来の特定の時刻における投稿件数を予測してその結果を備えられた予め出力手段１４に出力する未来投稿件数予測部１０７とを有する。

また、この情報拡散規模予測装置１０は、各ノードの属性に関する情報に基づいてノードをグループに分類するグループ作成部１０４と、学習用テキストデータおよび予測用テキストデータから発言数に関して時刻およびグループごとにクロス集計してその結果をノード影響力学習部および未来投稿件数予測部に出力するグループ・時刻情報集計部１０３とをさらに有する。

そして、ノード影響力学習部１０２は、時刻およびグループごとにクロス集計された発言数を行列Ｘ、要素ｘｉｊをこの行列Ｘの時刻ｉにおけるグループｊの発言数、行列Ｘの１行目からｓ行目までを抽出した部分行列をＸｓ、各時刻における発言数の全ノードに対する総和をｙｓとし、平均αのポアソン分布のｘにおける密度関数の値をＰ０（ｘ，α）とすると、時刻ｓにおけるグループの影響力βｓを

で示されるｆ（ｙｓ，Ｘｓ，βｓ）の数値を最小化する場合の値として求める。

さらに、ノード影響力学習部１０２は、ｆ（ｙｓ，Ｘｓ，βｓ）に、Ｌ１正則化もしくはＬ２正則化されたβｓと、予め与えられた正則化パラメータとを乗算した値を加算した数値を最小化する場合の値として時刻ｓにおける時刻ｓにおけるグループの影響力βｓを求める。

以上の構成を備えることにより、本実施形態に係る情報拡散規模予測装置１０は、投稿者ごとの影響力、および特定トピックに対しての未来における投稿数を的確に予測できるものとなる。
以下、これをより詳細に説明する。

図１は、本発明の実施形態に係る情報拡散規模予測装置１０の構成について示す説明図である。情報拡散規模予測装置１０は、コンピュータ装置としての基本的な構成を備えている。即ち、情報拡散規模予測装置１０は、コンピュータプログラムを実行する主体であるプロセッサ１１と、データを記憶する記憶手段１２と、インターネット２０を介して他の装置とのデータ送信を行う通信手段１３と、処理結果をユーザに提示する表示手段１４とを備える。

主演算制御手段１１は、コンピュータプログラムが実行されることにより、後述の学習テキストデータ入力部１０１、ノード影響力学習部１０２、グループ・時刻情報集計部１０３、グループ作成部１０４、属性値入力部１０５、予測テキストデータ入力部１０６、および未来投稿件数予測部１０７として機能する。これらの各部は、各々別々のコンピュータ装置で実行されるように構成することもできる。

学習テキストデータ入力部１０１は、通信手段１３およびインターネット２０を介して、予め与えられた学習期間および学習間隔に従って、取得対象のウェブサイトからテキストデータと、それに付随する属性データを取得する。たとえば、ツイッターを取得対象とする場合には、ツイートされたテキストデータと同時に、各ツイートについて、ツイートされた時刻、ツイートしたノード、およびそのツイートが属するトピック、についての情報も同時に取得する。取得されたこれらのデータは、ノード影響力学習部１０２に渡される。

ここでいう「ノード」とは、本発明においては「影響力を推定する単位」として定義される。より具体的には、「投稿者」単位としてもよいし、その投稿者が属する「メディア」単位や「運営組織」単位とすることもできる。

たとえば、監視対象のウェブサイトがツイッターである場合には、当投稿者ごとの「ツイート数（発言数）」「フォロー数」「フォロワー数」「各ツイートに対するリプライ数」「各ツイートに対するリツイート数」などを該ノードの属性とすることができる。また、投稿記事の内容自体、たとえば当該記事に含まれる「単語の種類」「出現頻度」などを該ノードの属性としてもよい。

これらの値の中には学習データの取得期間（学習期間という）の中で変化しうる値もある。しかしながらここでは、学習期間内の「投稿件数」「ツイート回数」「コメント数の平均値」「トラックバック数の平均値」「リプライ数の平均値」「リツイート数の平均値」「フォロー数の最大値」「フォロワー数の最大値」などを投稿者ごとに算出し、これを該ノードの属性とすることができる。

ノード影響力学習部１０２は、それらのデータ入力を受けて、各発言をトピックごとに分類し、トピックごとにそのトピックに属する発言のノード情報・時刻情報・テキストデータをグループ・時刻情報集計部１０３に出力する。グループ・時刻情報集計部１０３は、それらのトピックごとにグループ・時刻情報をクロス集計してノード影響力学習部１０２に返す。

トピックごとにクロス集計されたグループ・時刻情報がグループ・時刻集計部１０３から返されたことを受けたノード影響力学習部１０２は、各グループの影響力、そしてこれに引き続いて各ノードの影響力を算出する。そして算出されたノードの影響力を、未来投稿件数予測部１０７に出力する。

グループ・時刻情報集計部１０３は、ノード影響力学習部１０２から入力される各発言の属性、たとえばツイッターの場合には単一のトピックに属するツイートのノード情報・時刻情報・テキストデータと、グループ作成部１０４から入力されるノードが属するグループの情報とから、発言数に関して、時刻×グループのクロス集計データを作成し、このクロス集計データをノード影響力学習部１０２に出力する。

グループ作成部１０４は、属性値入力部１０５から入力されたノードの属性値から、各ノードをグループ分けし、グループ情報をグループ・時刻情報集計部１０３に出力する。属性値入力部１０５では、装置外部から入力されたノードの属性値をグループ作成部１０４に出力する。

予測テキストデータ入力部１０６は、通信手段１３およびインターネット２０を介して、学習テキストデータ入力部１０１と同様に、予め与えられた予測間隔に従って取得対象のウェブサイトからテキストデータと、それに付随する属性データを取得する。取得されたこれらのデータは、未来投稿件数予測部１０７に渡される。

未来投稿件数予測部１０７は、予測テキストデータ入力部１０６からそれらのデータ入力を受け、またノード影響力学習部１０２から各ノードの影響力についての入力を受け、各発言が分類されたトピックごとに、該トピックに属する発言のノード情報・時刻情報・テキストデータをグループ・時刻情報集計部１０３に出力する。グループ・時刻情報集計部１０３は、それらのトピックごとにグループ・時刻情報をクロス集計して未来投稿件数予測部１０７に返す。

トピックごとにクロス集計されたグループ・時刻情報がグループ・時刻集計部１０３から返されたことを受けた未来投稿件数予測部１０７は、未来の投稿件数の予測値を算出して、これを表示手段１４に表示する。この表示手段１４は、情報拡散規模予測装置１０とは別のコンピュータであってもよい。

ここでいう「未来の投稿状況」とは、予め指定された特定のトピック（たとえば監視者が注目しているものとして指定したトピックなど）に関して、何時間先の未来（情報拡散速度）において何本の件数（情報拡散規模）の記事がその対象ウェブサイトに存在するかをいう。また、各投稿記事に関して、投稿元ノード・投稿時刻・どのトピック（複数トピックでも可）に関する記事なのかについての情報が与えられているものとする。

以上で説明した情報拡散規模予測装置１０の動作は、大きく分けて「学習フェーズ」と「予測フェーズ」の２段階に分かれる。以下、その各々について説明する。なお、以下の例では、全て監視対象のウェブサイトがツイッターであるものとする。

図２は、図１で示した情報拡散規模予測装置１０の学習フェーズにおける動作を示すフローチャートである。まず、学習テキストデータ入力部１０１が、通信手段１３およびインターネット２０を介して、予め与えられた学習期間および学習間隔に従って動作して、ツイッター上にツイートされたテキストデータを学習用として取得する。同時に、各ツイートについて、ツイートされた時刻、ツイートしたノード、およびそのツイートが属するトピック、についての情報も同時に取得する。取得されたこれらのデータは、ノード影響力学習部１０２に渡される（ステップＳ２０１）。

ノード影響力学習部１０２は、それらのデータ入力を受けて、各ツイートをトピックごとに分類し、トピックごとにそのトピックに属するツイートのノード情報・時刻情報・テキストデータをグループ・時刻情報集計部１０３に出力する（ステップＳ２０２）。グループ・時刻情報集計部１０３は、グループ作成部１０４から入力されるノードが属するグループの情報を利用して、それらのトピックごとにグループ・時刻情報をクロス集計してノード影響力学習部１０２に返す（ステップＳ２０３）。

このクロス集計されたグループ・時刻情報を受け取ったノード影響力学習部１０２は、グループの影響力を算出し、その値をもとにノードの影響力を算出し、これを学習データ１１０として記憶手段１２に保存する。（ステップＳ２０４）。

図３は、図１で示した情報拡散規模予測装置１０の予測フェーズにおける動作を示すフローチャートである。まず予測テキストデータ入力部１０６が、与えられた予測間隔に従って動作して、ツイッター上にツイートされたテキストデータを予測用として取得する。同時に、各ツイートについて、ツイートされた時刻、ツイートしたノード、およびそのツイートが属するトピック、についての情報も同時に取得する。取得されたこれらのデータは、未来投稿件数予測部１０７に渡される（ステップＳ２５１）。

未来投稿件数予測部１０７は、それらのデータ入力を受けて、各ツイートをトピックごとに分類し、トピックごとにそのトピックに属するツイートのノード情報・時刻情報・テキストデータをグループ・時刻情報集計部１０３に出力する（ステップＳ２５２）。グループ・時刻情報集計部１０３は、グループ作成部１０４から入力されるノードが属するグループの情報を利用して、それらのトピックごとにグループ・時刻情報をクロス集計して未来投稿件数予測部１０７に返す（ステップＳ２５３）。

以上ステップＳ２５１〜２５３の処理は、図２のステップＳ２０１〜２０３の処理と同一であるので、グループ・時刻情報集計部１０３、グループ作成部１０４、属性値入力部１０５は学習フェーズと予測フェーズとで共用することができる。このクロス集計されたグループ・時刻情報を受け取った未来投稿件数予測部１０７は、記憶手段１２からノードの影響力についての学習データを読み取り（ステップＳ２５４）、そこから未来の投稿件数の予測値を算出して表示手段１４に表示する（ステップＳ２５５）。

（処理内容の例）
以下、図２〜３で示した情報拡散規模予測装置１０による学習フェーズおよび予測フェーズの各処理の内容を、より詳細に説明する。ここから示す処理内容の例における前提は、以下の通りである。
・分析対象はツイッター上にツイート（投稿）されたテキストデータである。
・未来の投稿件数（ツイート数）の予測対象となるトピックが予め指定されている。
・各々のツイートについて、当該ツイートの「ツイートしたユーザ」「ツイートされた日時」「そのツイートが属するトピック」に関する情報が得られている。
・学習フェーズおよび予測フェーズの各々について、テキストデータを取得する処理を行う期間および時間間隔が予め指定されている。ただし、予測フェーズは学習フェーズの終了後に行われる。
・１ユーザ（投稿者）を１ノードとする。
・各ノード（ユーザ）ごとの「クライアントソフト」「学習期間内のツイート回数」「学習期間内でのコメント数・トラックバック数・リプライ数・リツイート数の各平均値」「学習期間内でのフォロー数、フォロワー数の最大値」が予め得られている。

また、以下に示す例では、推定および予測の対象となるトピックが１トピックのみ指定されているものとする。複数トピックが指定されている場合には、その各々のトピックに対して、以下で説明する方法で推定および予測を行えばよい。

まず、学習テキストデータ入力部１０１が図２のステップＳ２０１の処理で取得した各データから、ノード影響力学習部１０２が図２のステップＳ２０２の処理で各ノードをグルーピングする。そのグルーピングを行う際の観点として、たとえば以下の各々がある。また、複数の属性についてのグルーピング結果の積集合を最終的なグルーピング結果とすることもできる。
・使用している「クライアントソフト」の種類
・そのクライアントソフトを動作させている「ＯＳ（オペレーティングシステム）」の種類
・「学習期間内のツイート回数」の属する区分（たとえば「１〜１００回」「１０１〜１０００回」「１００１回以上」の区分のうち、当該ノードがいずれの区分に属するか）
・「学習期間内でのフォロワー数の最大値」の属する区分（たとえば「１〜１０００名」「１００１名以上」の区分のうち、当該ノードがいずれの区分に属するか）

さらに、ツイート回数がある一定値以上のノードはそのノード自体を単独のグループとして定義することもできる。グルーピングの結果、各ノードは一つもしくは複数のグループに属することになる。このグルーピングにより、実質的にノードの数を減らすことが可能となり、これはノードの影響力の推定結果を安定させることに寄与する。

続いて、グループ・時刻情報集計部１０３が図２のステップＳ２０３に示した処理で、どの時刻においてどのグループが何回ツイートしたかを集計作業し、ツイート数に関する時刻×グループのクロス集計表を作成する。この集計結果（クロス集計表）は、以下の数１の行列Ｘで示すことができる。この行列Ｘの、行は時刻、列はグループを各々示し、行列の要素ｘｉｊは「時刻ｉにおけるグループｊのツイート回数」を表わす。

続いて、グループ・時刻情報集計部１０３が図２のステップＳ２０４に示した処理で、ノードごとの影響力を推定する。ノードの影響力はグループの影響力をもとに算出される。ここで、グループの影響力が以下の数２に示す行列βで与えられているものとする。この行列βの、行は集計単位時間のもとで何時刻先の未来かを示し、列は（数１と同様に）グループを示し、行列の要素βｉｊは「ｉ時刻先の未来におけるグループｊの影響力の和」として定義される。

具体的に「グループの影響力」を算出する方法として、例えば、以下の数３を最小化するβの値をグループの影響力とする方法が挙げられる。数３の第１項ｆ（ｙｓ，Ｘｓ，βｓ）で、数４に示されるｙｓは各時刻におけるツイート数の全ノードに対する総和であり、Ｘｓは数１に示した行列Ｘの第１行目から第Ｔ−ｓ行目までを抽出した部分行列である。また第２項λＰ（βｓ）のλは、正則化パラメータと呼ばれる、推定結果の安定性を調整するためのパラメータである。Ｐ（βｓ）のより具体的な定義については後述する。

この数３のｆ（ｙｓ，Ｘｓ，βｓ）は、より具体的には以下の数５のように計算される。ここでＰ０（ｘ，α）は、平均αのポアソン分布のｘにおける密度関数の値である。

数３の第２項のＰ（βｓ）は、より具体的には以下の数６もしくは数７のように計算される。数６の計算はＬ１正則化、数７の計算はＬ２正則化と各々呼ばれる手法である。ここでいう正則化とは、機械学習や数理統計の分野で、十分な量の学習データが得られない状況で安定した推定結果を得るために利用される手法である。また、数３の第２項を省略して、正則化の要素を含まない計算とすることもできる。

情報拡散規模予測装置１０は、以上の処理（学習フェーズ）で作成した学習データをもとに、図３に示した予測フェーズの動作を行う。図３に示した予測フェーズのステップＳ２５１〜２５４までの処理は、図２に示した学習フェーズのステップＳ２０１〜２０４までの処理と同様にして、予測テキストデータ入力部１０６がツイートされたテキストデータを取得して、このテキストデータから未来投稿件数予測部１０７がトピックごとにグループ・時刻情報をクロス集計する。このクロス集計によって得られたグループごとのツイート数ｚを、以下の数８のように表す。

そして、このクロス集計されたデータと、学習データとを利用して、未来投稿件数予測部１０７が図３のステップＳ２５５に示した処理で、ノードごとの影響力、即ち時刻ｓだけ先の予測投稿件数を以下の数９に示す処理によって算出する。

以上、ある時刻から見て未来の投稿件数を予測する際に、その時刻における投稿件数のみを予測する例を示したが、これを拡張してその時刻を含む直近の数時刻の投稿件数を予測するようにもできる。その場合、たとえば時刻ｓを含む直近の時間帯１〜Ａにおける投稿件数を表す行列Ｚは、以下の数１０のように定義される。この行列Ｚの、行は集計単位時間のもとで何時刻先の未来かを示し、列は（数１と同様に）グループを示し、行列の要素ｚｉｊは「ｉ時刻先の未来におけるグループｊの予測投稿件数」として定義され、実際には数９に示した式によって各々算出される。

（実施形態の全体的な動作）
次に、上記の実施形態の全体的な動作について説明する。
本実施形態に係る情報拡散規模予測方法は、インターネットを介して特定のウェブサイトからテキストデータを取得し、このテキストデータを基にして該ウェブサイトへの未来における投稿件数を予測してその予測結果を出力する情報拡散規模予測装置１０にあって、特定のウェブサイトからテキストデータを学習用テキストデータとして学習テキストデータ入力部が取得し（図２・ステップＳ２０１）、学習用テキストデータをノード影響力学習部がトピック別に分類し（図２・ステップＳ２０２）、分類されたトピック別の投稿件数から当該トピックに対する特定のユーザを示すノードの属するグループごとの投稿件数に対する影響力をノード影響力学習部が算出してその結果を学習データとして予め備えられた記憶手段に記憶し（図２・ステップＳ２０３〜２０４）、学習データを記憶した後に特定のウェブサイトからテキストデータを予測用テキストデータとして予測テキストデータ入力部が取得し（図３・ステップＳ２５１）、予測用テキストデータを未来投稿件数予測部がトピック別に分類し（図３・ステップＳ２５２）、分類されたトピック別の発言件数と学習データとから該トピックの未来の特定の時刻における投稿件数を未来投稿件数予測部が予測し、その結果を予め備えられた出力手段に未来投稿件数予測部が出力する（図３・ステップＳ２５３〜２５５）。

ここで、上記各動作ステップについては、これをコンピュータで実行可能にプログラム化し、これらを前記各ステップを直接実行する情報拡散規模予測装置１０のプロセッサ１１に実行させるようにしてもよい。本プログラムは、非一時的な記録媒体、例えば、ＤＶＤ、ＣＤ、フラッシュメモリ等に記録されてもよい。その場合、本プログラムは、記録媒体からコンピュータによって読み出され、実行される。
この動作により、本実施形態は以下のような効果を奏する。

本実施形態は、前述のように、学習フェーズで特定のトピックに対する特定のユーザの影響力を算出してこれを学習データとして保存し、予測フェーズでこの学習データと新たに取得した予測用テキストデータとからその特定のトピックの未来における投稿件数を予測するように構成している。

これによって、個々のユーザという細かい単位に至るまで、影響力を細かい粒度で算出することが、現実的に処理可能な計算量の範囲で可能となる。従って、それに基づいた投稿件数の予測もまた、学習フェーズと同程度の粒度で可能となる。この処理は、学習フェーズおよび予測フェーズの各々に対して、処理を行う期間および時間間隔を設定さえしておけば、リアルタイムに近い定期的な形で行うことが可能である。

（実施形態の拡張）
以上で示した処理内容の例では、集計対象をツイッターに限定したが、これ以外にもフェイスブックやミクシイ、あるいは各社のウェブログなどに対しても、各サイトの性質に応じて各トピックや各ノードの属性を適宜設定して、同様の方法で処理していくことができる。

また、前述したように各ノードを特にグルーピングせず、１ユーザ＝１ノード＝１グループとして処理することもできる。さらに、前述した数３の第２項を省略して、正則化の要素を含まない計算とすることもできる。

これまで本発明について図面に示した特定の実施形態をもって説明してきたが、本発明は図面に示した実施形態に限定されるものではなく、本発明の効果を奏する限り、これまで知られたいかなる構成であっても採用することができる。

上述した実施形態について、その新規な技術内容の要点をまとめると、以下のようになる。なお、上記実施形態の一部または全部は、新規な技術として以下のようにまとめられるが、本発明は必ずしもこれに限定されるものではない。

（付記１）インターネットを介して特定のウェブサイトからテキストデータを取得し、このテキストデータを基にして該ウェブサイトへの未来における投稿件数を予測してその予測結果を出力する情報拡散規模予測装置であって、
前記特定のウェブサイトから前記テキストデータを学習用テキストデータとして取得する学習テキストデータ入力部と、
前記学習用テキストデータをトピック別に分類し、分類されたトピック別の投稿件数から当該トピックに対する特定のユーザを示すノードの属するグループごとの前記投稿件数に対する影響力を算出してその結果を学習データとして予め備えられた記憶手段に記憶するノード影響力学習部と、
前記学習データを記憶した後に前記特定のウェブサイトから前記テキストデータを予測用テキストデータとして取得する予測テキストデータ入力部と、
前記予測用テキストデータをトピック別に分類し、分類されたトピック別の投稿件数と前記学習データとから該トピックの未来の特定の時刻における投稿件数を予測してその結果を備えられた予め出力手段に出力する未来投稿件数予測部と
を有することを特徴とする情報拡散規模予測装置。

（付記２）前記各ノードの属性に関する情報に基づいて前記ノードを前記グループに分類するグループ作成部と、
前記学習用テキストデータおよび前記予測用テキストデータから投稿数に関して時刻および前記グループごとにクロス集計してその結果を前記ノード影響力学習部および前記未来投稿件数予測部に出力するグループ・時刻情報集計部と
を有することを特徴とする、付記１に記載の情報拡散規模予測装置。

（付記３）前記ノード影響力学習部が、時刻および前記グループごとに前記クロス集計された投稿数を行列Ｘ、要素ｘｉｊをこの行列Ｘの時刻ｉにおけるグループｊの投稿数、前記行列Ｘの１行目からｓ行目までを抽出した部分行列をＸｓ、各時刻における投稿数の全ノードに対する総和をｙｓとし、平均αのポアソン分布のｘにおける密度関数の値をＰ０（ｘ，α）とすると、時刻ｓにおける前記グループの影響力βｓを

で示されるｆ（ｙｓ，Ｘｓ，βｓ）の数値を最小化する場合の値として求めることを特徴とする、付記２に記載の情報拡散規模予測装置。

（付記４）前記ノード影響力学習部が、前記ｆ（ｙｓ，Ｘｓ，βｓ）に、Ｌ１正則化もしくはＬ２正則化されたβｓと、予め与えられた正則化パラメータとを乗算した値を加算した数値を最小化する場合の値として時刻ｓにおける前記グループの影響力βｓを求めることを特徴とする、付記３に記載の情報拡散規模予測装置。

（付記５）インターネットを介して特定のウェブサイトからテキストデータを取得し、このテキストデータを基にして該ウェブサイトへの未来における投稿件数を予測してその予測結果を出力する情報拡散規模予測装置にあって、
前記特定のウェブサイトから前記テキストデータを学習用テキストデータとして学習テキストデータ入力部が取得し、
前記学習用テキストデータをノード影響力学習部がトピック別に分類し、
分類されたトピック別の投稿件数から当該トピックに対する特定のユーザを示すノードの属するグループごとの前記投稿件数に対する影響力をノード影響力学習部が算出してその結果を学習データとして予め備えられた記憶手段に記憶し、
前記学習データを記憶した後に前記特定のウェブサイトから前記テキストデータを予測用テキストデータとして予測テキストデータ入力部が取得し、
前記予測用テキストデータを未来投稿件数予測部がトピック別に分類し、
分類されたトピック別の投稿件数と前記学習データとから該トピックの未来の特定の時刻における投稿件数を未来投稿件数予測部が予測し、
その結果を予め備えられた出力手段に前記未来投稿件数予測部が出力する
ことを特徴とする情報拡散規模予測方法。

（付記６）インターネットを介して特定のウェブサイトからテキストデータを取得し、このテキストデータを基にして該ウェブサイトへの未来における投稿件数を予測してその予測結果を出力する情報拡散規模予測装置にあって、
前記情報拡散規模予測装置の備えるコンピュータに、
前記特定のウェブサイトから前記テキストデータを学習用テキストデータとして取得する手順、
前記学習用テキストデータをトピック別に分類する手順、
分類されたトピック別の投稿件数から当該トピックに対する特定のユーザを示すノードの属するグループごとの前記投稿件数に対する影響力を算出してその結果を学習データとして予め備えられた記憶手段に記憶する手順、
前記学習データを記憶した後に前記特定のウェブサイトから前記テキストデータを予測用テキストデータとして取得する手順、
前記予測用テキストデータをトピック別に分類する手順、
分類されたトピック別の投稿件数と前記学習データとから該トピックの未来の特定の時刻における投稿件数を予測する手順、
およびその結果を予め備えられた出力手段に出力する手順
を実行させることを特徴とする情報拡散規模予測プログラム。

この出願は２０１１年１１月１８日に出願された日本出願特願２０１１−２５２３１１を基礎とする優先権を主張し、その開示の全てをここに取り込む。

本発明は、企業の危機管理やマーケッティングリサーチなどに利用する情報拡散規模予測の技術に対して適用できる。

１０情報拡散規模予測装置
１１プロセッサ
１２記憶手段
１３通信手段
１４表示手段
２０インターネット
１０１学習テキストデータ入力部
１０２ノード影響力学習部
１０３グループ・時刻情報集計部
１０４グループ作成部
１０５属性値入力部
１０６予測テキストデータ入力部
１０７未来投稿件数予測部
１１０学習データ

Claims

インターネットを介して特定のウェブサイトからテキストデータを取得し、このテキストデータを基にして該ウェブサイトへの未来における投稿件数を予測してその予測結果を出力する情報拡散規模予測装置であって、
前記特定のウェブサイトから前記テキストデータを学習用テキストデータとして取得する学習テキストデータ入力部と、
前記学習用テキストデータをトピック別に分類し、分類されたトピック別の投稿件数から当該トピックに対する特定のユーザを示すノードの属するグループごとの前記投稿件数に対する影響力を算出してその結果を学習データとして予め備えられた記憶手段に記憶するノード影響力学習部と、
前記学習データを記憶した後に前記特定のウェブサイトから前記テキストデータを予測用テキストデータとして取得する予測テキストデータ入力部と、
前記予測用テキストデータをトピック別に分類し、分類されたトピック別の投稿件数と前記学習データとから該トピックの未来の特定の時刻における投稿件数を予測してその結果を備えられた予め出力手段に出力する未来投稿件数予測部と
を有することを特徴とする情報拡散規模予測装置。
前記各ノードの属性に関する情報に基づいて前記ノードを前記グループに分類するグループ作成部と、
前記学習用テキストデータおよび前記予測用テキストデータから投稿数に関して時刻および前記グループごとにクロス集計してその結果を前記ノード影響力学習部および前記未来投稿件数予測部に出力するグループ・時刻情報集計部と
を有することを特徴とする、請求項１に記載の情報拡散規模予測装置。
前記ノード影響力学習部が、時刻および前記グループごとに前記クロス集計された投稿数を行列Ｘ、要素ｘｉｊをこの行列Ｘの時刻ｉにおけるグループｊの投稿数、前記行列Ｘの１行目からｓ行目までを抽出した部分行列をＸｓ、各時刻における投稿数の全ノードに対する総和をｙｓとし、平均αのポアソン分布のｘにおける密度関数の値をＰ０（ｘ，α）とすると、時刻ｓにおける前記グループの影響力βｓを

で示されるｆ（ｙｓ，Ｘｓ，βｓ）の数値を最小化する場合の値として求めることを特徴とする、請求項２に記載の情報拡散規模予測装置。
前記ノード影響力学習部が、前記ｆ（ｙｓ，Ｘｓ，βｓ）に、Ｌ１正則化もしくはＬ２正則化されたβｓと、予め与えられた正則化パラメータとを乗算した値を加算した数値を最小化する場合の値として時刻ｓにおける前記グループの影響力βｓを求めることを特徴とする、請求項３に記載の情報拡散規模予測装置。
インターネットを介して特定のウェブサイトからテキストデータを取得し、このテキストデータを基にして該ウェブサイトへの未来における投稿件数を予測してその予測結果を出力する情報拡散規模予測装置にあって、
前記特定のウェブサイトから前記テキストデータを学習用テキストデータとして学習テキストデータ入力部が取得し、
前記学習用テキストデータをノード影響力学習部がトピック別に分類し、
分類されたトピック別の投稿件数から当該トピックに対する特定のユーザを示すノードの属するグループごとの前記投稿件数に対する影響力をノード影響力学習部が算出してその結果を学習データとして予め備えられた記憶手段に記憶し、
前記学習データを記憶した後に前記特定のウェブサイトから前記テキストデータを予測用テキストデータとして予測テキストデータ入力部が取得し、
前記予測用テキストデータを未来投稿件数予測部がトピック別に分類し、
分類されたトピック別の投稿件数と前記学習データとから該トピックの未来の特定の時刻における投稿件数を未来投稿件数予測部が予測し、
その結果を予め備えられた出力手段に前記未来投稿件数予測部が出力する
ことを特徴とする情報拡散規模予測方法。
インターネットを介して特定のウェブサイトからテキストデータを取得し、このテキストデータを基にして該ウェブサイトへの未来における投稿件数を予測してその予測結果を出力する情報拡散規模予測装置にあって、
前記情報拡散規模予測装置の備えるコンピュータに、
前記特定のウェブサイトから前記テキストデータを学習用テキストデータとして取得する手順、
前記学習用テキストデータをトピック別に分類する手順、
分類されたトピック別の投稿件数から当該トピックに対する特定のユーザを示すノードの属するグループごとの前記投稿件数に対する影響力を算出してその結果を学習データとして予め備えられた記憶手段に記憶する手順、
前記学習データを記憶した後に前記特定のウェブサイトから前記テキストデータを予測用テキストデータとして取得する手順、
前記予測用テキストデータをトピック別に分類する手順、
分類されたトピック別の投稿件数と前記学習データとから該トピックの未来の特定の時刻における投稿件数を予測する手順、
およびその結果を予め備えられた出力手段に出力する手順
を実行させることを特徴とする情報拡散規模予測プログラム。