WO2009116342A1

WO2009116342A1 - 動的トピック分析システム、動的トピック分析方法および動的トピック分析プログラムを記録した媒体

Info

Publication number: WO2009116342A1
Application number: PCT/JP2009/052630
Authority: WO
Inventors: 聡森永
Original assignee: 日本電気株式会社
Priority date: 2008-03-18
Filing date: 2009-02-17
Publication date: 2009-09-24
Also published as: JPWO2009116342A1; JP5397370B2

Abstract

　動的トピック分析の対象としたい期間・テキストの全てを入力しなくても、全てを入力した場合のトピック活性度を推定して出力できる動的トピック分析システム、動的トピック分析方法および動的トピック分析プログラムを記録した媒体を提供する。　動的トピック分析の対象としたいテキストデータや期間において、テキストデータ入力手段２から入力されなかったデータや期間に関する情報を欠損状況記憶手段１０６に入力する欠損状況入力手段３と、各トピックの活性度時系列データとデータの欠損状況とを読み出し、データに欠損がある期間の各トピックの活性度時系列データに対して補間や予測を行って、データに欠損がない場合の各トピックの活性度時系列データの値を推定して、補間予測結果記憶手段１０８に出力する時系列補間予測手段１０７とを備える。

Description

動的トピック分析システム、動的トピック分析方法および動的トピック分析プログラムを記録した媒体

　本発明は動的トピック分析システム、動的トピック分析方法および動的トピック分析プログラムを記録した媒体に関する。

　タイムスタンプつきのテキストデータ集合に対して、どんなトピックがいつごろ、どれくらい盛り上がっていたかを分析するシステムを、動的トピック分析システムとよぶことにする。以下「あるトピックのある時点での盛り上がり度合い」を、そのトピックのその時点での活性度とよぶことにする。

　基本的に動的トピック分析システムは、図１に示すように、コンピュータ１と、テキストデータ入力手段２と、結果出力手段４とから構成されている。

　コンピュータ１は、テキストデータ入力手段２、テキストデータ記憶手段１０１、テキストグルーピング手段１０２、グルーピング結果記憶手段１０３、タイムスタンプ集計手段１０４、集計結果記憶手段１０５、結果出力手段４を含む。

　このような構成を有する動的トピック分析システムは次のように動作する。

　すなわち、テキストデータ入力手段２においては、タイムスタンプつきのテキストデータ集合が入力され、テキストグルーピング手段１０２では、当該テキストデータ集合が同じような内容・トピックを含むもの同士にグループ分けされ、タイムスタンプ集計手段１０４においては、各グループに属するテキストデータのタイムスタンプデータを期間帯毎に集計することで、当該グループに属するテキストデータがいつごろ、どれくらいあったかが分析され、結果出力手段４では、タイムスタンプ集計手段１０４による分析結果を、「どんなトピックがいつごろ、どれくらい盛り上がっていたか」のトピック活性度として出力する。

　テキストグルーピング手段１０２は、一般的にテキストクラスタリング技術によって実装され、含まれる表現が似通っているテキスト同士を同一のグループに属するようにするといった原理で動作する。また、テキストグルーピング手段１０２はテキスト分類技術によって実装されることもあり、事前に定められたテキスト分類ルールに従って、各テキストをどのグループに属するか判別するという原理で動作する。その特別の場合として「ある単語を含むテキストは、このグループに属する」のように、単語の有無のみで属するグループを決定する場合もある。テキストグルーピング手段１０２においては、ひとつのテキストは０個を含め任意の個数のグループに属しても良い。さらに、あるテキストはあるグループに属するか否かの二値ではなく、「やや属する」「３分の１属する」といった多値判定されることも多い。

　タイムスタンプ集計手段１０４では、テキストグルーピング手段１０２の結果と、各テキストのタイムスタンプデータから、日次や週次といった時間軸の期間帯に対して、各期間帯において、どのグループが幾つのテキストを含んでいるかが集計される。単純なテキスト数の集計以外に、当該期間帯における全テキスト数に占めるそのグループに属するテキスト数の割合といった相対数の集計をする場合もある。集計結果に対して移動平均やメディアンフィルタ、差分といった時系列処理を行う場合もある。

　以下、テキストグルーピング手段１０２によるグルーピングの結果の各グループを各トピックと呼ぶことにし、タイムスタンプ集計手段１０４の集計結果を当該トピックの活性度とよぶことにする。

　動的トピック分析システムの一例が、特許文献１～４、非特許文献１に記載されている。

　特許文献１（特開２０００－２２７９２０号公報）の情報フィルタリング装置は、ユーザが興味を持つ話題に関する特徴と他の話題との差異を判断するためのしきい値の入力、及び、共有された話題に即した共有情報の出力を行う手段、ネットワーク上から、ユーザ間で共有される可能性のある情報を検索する手段、ユーザの入力情報と共有される情報を格納するデータベース、話題間及び話題と情報間の類似性を判別する手段、各話題及び情報が共有されるべきか否かの度合いを示す活性度を計算する手段、活性度により、共有する話題にそぐわない内容の情報を排除し、共有する話題に即した情報のみを残す制御手段を設けている。

　しかし、特許文献１の情報フィルタリング装置では、「活性度」は「ある話題が、そのユーザにどれくらい興味を持たれそうか」の意味で使われており、情報フィルタリング装置は、各話題が特定のユーザに興味を持たれるかどうかを判定するものである。これに対し、本発明の「活性度」は「あるトピックのある時点での盛り上がり度合い」の意味で使われており、本発明は「どんなトピックがいつごろ、どれくらい盛り上がっていたか」のトピック活性度を分析出力するものである。

　特許文献２（特開２００５－３５２６１３号公報）のトピック分析装置は、テキストデータが時間とともに追加されていくような状況で、データを順次読み込みつつトピックを検出するものであり、トピックの生成モデルを混合分布モデルで表現し、データのタイムスタンプに応じて過去のデータほど激しく忘却しながらトピックの生成モデルをオンラインで学習する学習手段と、複数の候補となるトピックの生成モデルの中で情報量基準に基づいて最適なトピックの生成モデルを選択するモデル選択手段とを含み、その混合成分としてトピックを検出するようにしている。

　しかし、特許文献２のトピック分析装置は、テキストをトピックごとに分割するものであるが、入力に欠損がある場合に、その補正をする仕組みがない点で本発明と異なるものである。

　特許文献３（特開２００６－２６００５２号公報）のキーワード分析システムは、入力されたキーワード及びキーワードの入力回数を示す入力データを取得し、記憶する。記憶された入力データの中から入力回数の変動が少ないキーワードを安定ワードに設定し、安定ワードの入力回数を比較して、欠損判定対象日が欠損日か否かを判定する。欠損日と判定された場合には、欠損日が存在する週を含む４週間の１日毎におけるキーワードの入力回数の合計値を算出し、算出された合計値を用いて補正係数を算出する。補正係数を欠損日における各キーワードの入力回数に乗算することにより、入力回数の補正をする。

　特許文献３のキーワード分析システムは、複数のトピックの時系列間の関係を用いて、入力データにおいて、ある種類の欠損の仕方（補正したい期間のデータがまったく欠損しているわけではなく、ある程度の量は取得できて、統計的に安定した推定ができる程度はある）が起きている場合に、その補正をして活性度を出力する。これに対し、本発明は、単一トピックの時系列、さらに、複数入力データ源がある場合は、その間の関係を用いて、補正をする手段を有する。本発明は、補正をしたい期間のデータがまったく欠損していても補正ができ、その特別の場合として、将来の時点での活性度も予測できる点で異なるものである。

　特許文献４（特開２００７－９４４８９号公報）のハンドラー管理システムは、ハンドラーと、その稼動情報を収集して管理する管理サーバよりなるハンドラー管理システムにおいて、管理サーバは、ハンドラーの動作状態を記録した情報にタイムスタンプを付加した動作監視情報を含む稼動情報を収集する稼動情報収集手段を備えている。

　しかし、特許文献４のハンドラー管理システムは、半導体などの工場のリソースを管理するもので、本発明の動的トピック分析システムとはまったく異なるものである。タイムスタンプという言葉は使われているものの、タイムスタンプは一般的な名称であり、これが共通していても本発明には関係ないものである。

　非特許文献１（森永、山西（S.Morinaga　and　K.Yamanishi）,「有限混合モデルを用いたトピックトレンドのトラックキングダイナミックス（Tracking　Dynamics　of　Topic　Trends　Using　a　Finite　Mixture　Model）」,知識発見とデータマイニングに関する第１０回ACM　SIGKDD　国際会議のプロシーディング(ケィデーデー2004)（Proceedings　of　the　Tenth　ACM　SIGKDD　International　Conference　on　Knowledge　Discovery　and　Data　Mining　(KDD2004)）,（米国）,エィシーエム・プレス（ACM　Press）,　2004年,ｐ.１－６）の有限混合モデルを用いたトピックトレンドのトラックキングダイナミックスは、時間的に追加されていくテキストデータに対して、なるべく少ない記憶容量と処理時間で、随時、リアルタイムに主要トピックの個数および生成と消滅を同定し、また主要トピックの特徴を抽出し、それによって単一トピックの内容が変化した場合にも、それを知ることが出来るようにしたトピック分析方式である。

　しかし、非特許文献１の有限混合モデルを用いたトピックトレンドのトラックキングダイナミックスは、テキストをトピックごとに分割するものであるが、入力に欠損がある場合に、その補正をする仕組みがない点で本発明と異なるものである。

　他にも、Topic　Tracking　and　Detection　といった分野で、動的トピック分析技術が多く提案されている。

　これらは、入力されたタイムスタンプつきテキスト集合における各トピックの活性度を出力するものである。
特開２０００－２２７９２０号公報特開２００５－３５２６１３号公報特開２００６－２６００５２号公報特開２００７－９４４８９号公報森永、山西（S.Morinaga　and　K.Yamanishi）,「有限混合モデルを用いたトピックトレンドのトラックキングダイナミックス（Tracking　Dynamics　of　Topic　Trends　Using　a　Finite　Mixture　Model）」,知識発見とデータマイニングに関する第１０回ACM　SIGKDD　国際会議のプロシーディング(ケィデーデー2004)（Proceedings　of　the　Tenth　ACM　SIGKDD　International　Conference　on　Knowledge　Discovery　and　Data　Mining　(KDD2004)）,（米国）,エィシーエム・プレス（ACM　Press）,　2004年,ｐ.１－６

　上述した動的トピック分析システムの問題点は、動的トピック分析の対象としたい期間・テキストのすべてを入力する必要があり、入力されたテキストデータに対してのみしか動的トピック分析を実行することができないということである。

　その理由は、入力されたタイムスタンプつきテキストのグルーピング結果に基づいて、集計が行われるためである。

　しかしながら、動的トピック分析の対象としたい期間・テキストのすべてを入力するのは、データ取得や転送、分析のコストの問題で難しい場合がある。特に、将来の期間に対して動的トピック分析をしたい場合、すなわち「どんなトピックがいつごろ、どれくらい盛り上がるか」を予測したい場合には、当該期間のテキストを準備することはできない。また、データの量が多い場合は、すべてを入力すると分析の負荷が大きくなる。さらにまた、インターネットから取得したデータを動的トピック分析の対象とする場合は、通信や処理のトラブルから幾つかのデータの取得に失敗する場合もある。

　上述した従来の動的トピック分析に対して、このように動的トピック分析の対象としたい期間・テキストの一部のみを入力すると、それに基づいて処理が行われ、動的トピック分析の対象としたい期間・テキストの全部を入力した場合とは乖離したトピック活性度が出力されてしまう。

　本発明の目的は、動的トピック分析の対象としたい期間・テキストの全てを入力しなくても、全てを入力した場合のトピック活性度を推定して出力できる動的トピック分析システム、動的トピック分析方法および動的トピック分析プログラムを記録した媒体を提供することにある。

　本発明の動的トピック分析システムは、タイムスタンプつきテキスト群をテキストデータとして記憶するテキストデータ記憶手段と、タイムスタンプつきテキスト群をテキストデータとしてテキストデータ記憶手段に入力するテキストデータ入力手段と、テキストデータ記憶手段に記憶されたテキストデータを読み出し、テキストデータを同じような内容又はトピックを含むもの同士のグループにグルーピングし、各グループを各トピックとしてグルーピング結果記憶手段に出力するテキストグルーピング手段と、各グループを各トピックとして記憶するグルーピング結果記憶手段と、グルーピング結果記憶手段に記憶された各トピックと、テキストデータ記憶手段に記憶されたテキストデータとを読み出し、各トピックに属するテキストデータを期間帯ごとに集計し、あるトピックのある時点での盛り上がり度合いを、そのトピックのその時点での活性度として、各トピックの活性度時系列データを集計結果記憶手段に出力するタイムスタンプ集計手段と、各トピックの活性度時系列データを記憶する集計結果記憶手段と、動的トピック分析の対象としたいテキストデータや期間において、テキストデータ入力手段から入力されなかったデータや期間に関する情報を、データの欠損状況として欠損状況記憶手段に入力する欠損状況入力手段と、データの欠損状況を記憶する欠損状況記憶手段と、集計結果記憶手段に記憶された各トピックの活性度時系列データと欠損状況記憶手段に記憶されたデータの欠損状況とを読み出し、データに欠損がある期間の各トピックの活性度時系列データに対して補間や予測を行って、データに欠損がない場合の各トピックの活性度時系列データの値を推定して、補間予測結果記憶手段に出力する時系列補間予測手段と、各トピックの活性度時系列データの推定結果を記憶する補間予測結果記憶手段と、補間予測結果記憶手段に記憶された各トピックの活性度時系列データの推定結果を読み出し、出力する、結果出力手段とを備える。

　本発明の動的トピック分析方法は、テキストデータ入力手段が、タイムスタンプつきテキスト群をテキストデータとしてテキストデータ記憶手段に入力するテキストデータ入力ステップと、テキストデータ記憶手段が、タイムスタンプつきテキスト群をテキストデータとして記憶するテキストデータ記憶ステップと、テキストグルーピング手段が、テキストデータ記憶手段に記憶されたテキストデータを読み出し、テキストデータを同じような内容又はトピックを含むもの同士のグループにグルーピングし、各グループを各トピックとしてグルーピング結果記憶手段に出力するテキストグルーピングステップと、グルーピング結果記憶手段が、各グループを各トピックとして記憶するグルーピング結果記憶ステップと、タイムスタンプ集計手段が、グルーピング結果記憶手段に記憶された各トピックと、テキストデータ記憶手段に記憶されたテキストデータとを読み出し、各トピックに属するテキストデータを期間帯ごとに集計し、あるトピックのある時点での盛り上がり度合いを、そのトピックのその時点での活性度として、各トピックの活性度時系列データを集計結果記憶手段に出力するタイムスタンプ集計ステップと、集計結果記憶手段が、各トピックの活性度時系列データを記憶する集計結果記憶ステップと、欠損状況入力手段が、動的トピック分析の対象としたいテキストデータや期間において、テキストデータ入力手段から入力されなかったデータや期間に関する情報を、データの欠損状況として欠損状況記憶手段に入力する欠損状況入力ステップと、欠損状況記憶手段が、データの欠損状況を記憶する欠損状況記憶ステップと、時系列補間予測手段が、集計結果記憶手段に記憶された各トピックの活性度時系列データと欠損状況記憶手段に記憶されたデータの欠損状況とを読み出し、データに欠損がある期間の各トピックの活性度時系列データに対して補間や予測を行って、データに欠損がない場合の各トピックの活性度時系列データの値を推定して、補間予測結果記憶手段に出力する時系列補間予測ステップと、補間予測結果記憶手段が、各トピックの活性度時系列データの推定結果を記憶する補間予測結果記憶ステップと、結果出力手段が、補間予測結果記憶手段に記憶された各トピックの活性度時系列データの推定結果を読み出し、出力する結果出力ステップとからなる。

　本発明の動的トピック分析プログラムを記録した媒体は、コンピュータを、タイムスタンプつきテキスト群をテキストデータとして記憶するテキストデータ記憶手段と、タイムスタンプつきテキスト群をテキストデータとしてテキストデータ記憶手段に入力するテキストデータ入力手段と、テキストデータ記憶手段に記憶されたテキストデータを読み出し、テキストデータを同じような内容又はトピックを含むもの同士のグループにグルーピングし、各グループを各トピックとしてグルーピング結果記憶手段に出力するテキストグルーピング手段と、各グループを各トピックとして記憶するグルーピング結果記憶手段と、グルーピング結果記憶手段に記憶された各トピックと、テキストデータ記憶手段に記憶されたテキストデータとを読み出し、各トピックに属するテキストデータを期間帯ごとに集計し、あるトピックのある時点での盛り上がり度合いを、そのトピックのその時点での活性度として、各トピックの活性度時系列データを集計結果記憶手段に出力するタイムスタンプ集計手段と、各トピックの活性度時系列データを記憶する集計結果記憶手段と、動的トピック分析の対象としたいテキストデータや期間において、テキストデータ入力手段から入力されなかったデータや期間に関する情報を、データの欠損状況として欠損状況記憶手段に入力する欠損状況入力手段と、データの欠損状況を記憶する欠損状況記憶手段と、集計結果記憶手段に記憶された各トピックの活性度時系列データと欠損状況記憶手段に記憶されたデータの欠損状況とを読み出し、データに欠損がある期間の各トピックの活性度時系列データに対して補間や予測を行って、データに欠損がない場合の各トピックの活性度時系列データの値を推定して、補間予測結果記憶手段に出力する時系列補間予測手段と、各トピックの活性度時系列データの推定結果を記憶する補間予測結果記憶手段と、補間予測結果記憶手段に記憶された各トピックの活性度時系列データの推定結果を読み出し、出力する、結果出力手段として機能させるための、動的トピック分析プログラムを記録する。

　本発明は、入力できたテキストにおけるトピック活性度の時系列データから、データの補完や予測を行ってトピック活性度を出力するため、動的トピック分析の対象としたい期間・テキストの全てを入力しなくても、入力されなかったテキストデータにおけるトピック活性度の分を補償して、トピック活性度を出力できる。

関連する動的トピック分析システムの構成を示すブロック図である。本発明の第１の実施の形態の構成を示すブロック図である。本発明の第１の実施の形態の動作のフローチャートを示す図である。本発明の第２の実施の形態の構成を示すブロック図である。本発明の第２の実施の形態の動作のフローチャートを示す図である。本発明の第３の実施の形態の構成を示すブロック図である。本発明の第３の実施の形態の動作のフローチャートを示す図である。本発明の第４の実施の形態の構成を示すブロック図である。本発明の実施例における、情報源種別別タイムスタンプ集計結果をグラフ化した図である。本発明の実施例における、情報源種別別補間予測結果をグラフ化した図である。本発明の実施例における、補間予測結果をグラフ化した図である。

符号の説明

　１　　コンピュータ（中央処理装置；プロセッサ；データ処理装置）
　２　　テキストデータ入力手段
　３　　欠損状況入力手段
　４　　結果出力手段
　５　　情報源種別上位階層出力手段
　６　　動的トピック分析プログラムが記録された記録媒体
　１０１、１０１－２　　テキストデータ記憶手段
　１０２　　テキストグルーピング手段
　１０３　　グルーピング結果記憶手段
　１０４　　タイムスタンプ集計手段
　１０４－２、１０４－３　　情報源種別別タイムスタンプ集計手段
　１０５　　集計結果記憶手段
　１０５－２　　情報源種別別集計結果記憶手段
　１０６　　欠損状況記憶手段
　１０６－２　　情報源種別別欠損状況記憶手段
　１０７、１０７－２、１０７－３　　時系列補間予測手段
　１０８　　補間予測結果記憶手段
　１０９　　情報源種別別補間予測結果記憶手段
　１１０　　再集計手段
　１１１　　補間予測パラメータ記憶手段
　１１２　　情報源種別上位階層定義手段
　１１３　　定義結果記憶手段

　次に、発明を実施するための最良の形態について図面を参照して詳細に説明する。

（本発明の第１の実施の形態）
　図２を参照すると、本発明の第１の実施の形態は、プログラム制御により動作するコンピュータ（中央処理装置；プロセッサ；データ処理装置；記憶装置）１と、テキストデータ入力手段２と、欠損状況入力手段３と、結果出力手段４とから構成されている。

　コンピュータ（中央処理装置；プロセッサ；データ処理装置；記憶装置）１は、テキストグルーピング手段１０２、テキストデータ記憶手段１０１、テキストグルーピング手段１０２、グルーピング結果記憶手段１０３、タイムスタンプ集計手段１０４、集計結果記憶手段１０５、欠損状況記憶手段１０６、時系列補完予測手段１０７、補完予測結果記憶手段１０８を含む。

　これらの手段はそれぞれ概略次のように動作する。

　コンピュータ１は、通信装置や記憶装置、キーボード等のユーザー情報入力装置等によって構成されるテキストデータ入力手段２を介して、タイムスタンプつきテキスト群をとりこみ、同じく通信装置や記憶装置、キーボード等のユーザー情報入力装置等によって構成される欠損状況入力手段３を介して、トピック分析の対象としたいテキストデータや期間においてテキストデータ入力手段２から入力されなかったデータや期間に関する情報をとりこみ、下記に説明する処理を実施した上で、通信装置や記憶装置、ディスプレイ等のユーザー情報出力／提示装置等によって構成される結果出力手段４に動的トピック分析結果を出力する。

　テキストデータ入力手段２から入力されたタイムスタンプつきテキスト群は、コンピュータ１の記憶装置にテキストデータ１０１として蓄積される。

　テキストグルーピング手段１０２は、蓄積されているテキストデータ１０１を、テキストクラスタリングやテキスト分類といった公知のテキスト分割技術によって分割する。この分割の各結果をトピックと呼ぶことにする。例えば、入力されたテキスト群のうち、ある話題に関するものはトピック１に、別の話題に関するものはトピック２に、、、、といったように分割されたり、特定単語の有無等のある条件を満たすものはトピック１に、また別の単語の有無等の条件を満たすものはトピック２に、、、、、といった具合に分割されることになる。

　すなわち、入力された各テキストに対して、どのトピックに属するかが決定されることになる。この「各テキストがどのトピックに属するか」がテキストグルーピング手段１０２の出力である。

　テキストグルーピング手段１０２においては、ひとつのテキストは０を含め任意の個数のトピックに属しても良い。さらに、あるテキストはあるトピックに属するか否かの二値ではなく、「やや属する」「３分の１属する」といったソフト判定をおこなうのでもよい。

　テキストグルーピング手段１０２の出力は、コンピュータ１の記憶装置にグルーピング結果１０３として蓄積される。

　タイムスタンプ集計手段１０４では、グルーピング結果１０３と、テキストデータ１０１の各テキストのタイムスタンプデータから、日次や週次といった時間軸の期間帯に対して、各期間帯において、どのトピックが幾つのテキストを含んでいるかが集計される。単純なテキスト数の集計以外に、当該期間帯における全テキスト数に占めるそのトピックに属するテキスト数の割合といった相対数の集計をする場合もある。集計結果に対して移動平均やメディアンフィルタ、差分といった時系列処理を行う場合もある。

　タイムスタンプ集計手段１０４の出力は、どのトピックがどの期間帯でどれくらいの活性度を持っていたかの時系列データであり、コンピュータ１の記憶装置に集計結果１０５として蓄積される。以下、集計結果１０５に蓄積されているトピックAの期間帯ｔでの活性度をX_A（ｔ）とあらわす。

　動的トピック分析の対象としたいテキストデータや期間において、テキストデータ入力手段２から入力されなかったデータや期間に関する情報は、欠損状況入力手段３からコンピュータ１に取り込まれ、コンピュータ１の記憶装置に欠損状況１０６として蓄積される。例えば、欠損状況としては、テキストデータが入力されていない期間／いる期間や、入力されていたとしても全てではない期間、その期間における入力テキストデータのカバー率／欠損率（動的トピック分析の対象としたいテキストデータに対して、入力された／されなかったテキストデータの割合）などの情報が蓄積される。

　また、欠損状況入力手段３から入力するまでもなくテキストデータ１０１において欠損しているデータの期間等が判明する場合は、それを欠損状況１０６として蓄積しても良い。

　例えば、「ある特定の曜日はテキストデータを入力しない／半分だけ入力することになっている」場合などは、その曜日に該当する期間はテキストデータを入力されていない／半分だけ入力されている旨を、欠損状況１０６として蓄積することになる。あるいは、前記のような事前知識がない場合でも、テキストデータ１０１において特定期間のデータが存在していなければ、それを欠損状況１０６として蓄積する等の推定に基づくものであっても良い。

　時系列補間予測手段１０７は、欠損状況１０６からテキストデータ（の全て）が入力されていない期間を特定し、同じく欠損状況１０６にカバー率や欠損率が蓄積されている場合はその情報も利用して、集計結果１０６に蓄積されている時系列データから、特定された当該期間の活性度時系列データに対して補間や予測を行う。この補間や予測は公知の時系列データの補間や予測技術に基づく。例えば、ある特定の期間において入力テキストデータが欠損していると、集計結果１０５においては当該期間において各トピックの活性度は、欠損していない場合と異なる値になるが、この期間の活性度を前後の欠損していない期間の活性度時系列から線形補間などによって求める。また、ある時点以降の入力テキストデータがまったく入力されていない場合は、それ以前の活性度時系列データから線形予測子を用いて当該期間の活性度をもとめる等をする。

　時系列補間予測手段１０７は、あらかじめ定められた方法で補間や予測を行うのではなく、集計結果１０５のデータから適応的にパラメータ調整やもっと一般に分布等の学習をおこなうものであってもよい。例えば、入力テキストデータが揃っている期間の活性度時系列データを用いて補間や予測のパラメータを求め、それを入力テキストデータが欠損している期間の活性度時系列データの補間や予測に用いるというもの等である。この場合、トピックAの活性度時系列の補間や予測のための学習はトピックAの活性度時系列データを用いる必要は必ずしもなく、ほかのトピックの活性度時系列データを用いて学習してもよい。これは、そのトピックの活性度時系列のパターンが上記時系列補間予測手段１０７の意味で似ていることを期待していることに相当する。

　集計結果１０５の時系列データを、時系列補間予測手段１０７により補間や予測した結果の時系列データは、コンピュータ１の記憶装置に補間予測結果１０８として蓄積される。補間予測結果１０８に蓄積されているのは、動的トピック分析の対象としたい期間のテキストデータを全て入力した場合の各トピックの活性度を予測したものである。以下、補間予測結果１０８に蓄積されているトピックAの期間帯ｔでの活性度をY_A(t)とあらわす。

　補間予測結果１０８に蓄積されている各トピックの活性度時系列データは、動的トピック分析の対象としたい期間のテキストデータを全て入力した場合の各トピックの活性度の推定結果として、結果出力手段４に出力される。

　次に、図２及び図３のフローチャートを参照して本発明の第１の実施の形態の全体の動作について詳細に説明する。

　まず、テキストデータ入力手段２からタイムスタンプつきテキスト群がコンピュータ１にとりこまれ、テキストデータ１０１として蓄積される（図３のステップS1-1）。

　次に、蓄積されているテキストデータがテキストグルーピング手段１０２によってグループ分けされ、どのテキストがどのトピックに属するかがグルーピング結果１０３として蓄積される（ステップS1-2）。

　さらに、グルーピング結果１０３を用いて、タイムスタンプ集計手段１０４によって、上記時間軸の各期間帯において、どのトピックがどれくらいテキストを含んでいるかが集計され、各トピックの活性度の時系列データが集計結果１０５として蓄積される（ステップS1-3）。

　一方、欠損状況入力手段３からは、動的トピック分析の対象としたいテキストデータや期間において、テキストデータが入力されていない期間／いる期間や、入力されていたとしても全てではない期間、その期間における入力テキストデータのカバー率／欠損率（動的トピック分析の対象としたいテキストデータに対して、入力された／されなかったテキストデータの割合）などの情報がとりこまれ、欠損状況１０６としてコンピュータ１に蓄積される（ステップS1-4）。

　最後に、時系列補間予測手段１０７によって、欠損状況１０６からテキストデータ（の全て）が入力されていない期間が特定され、同じく欠損状況１０６にカバー率や欠損率が蓄積されている場合はその情報も利用されて、集計結果１０６に蓄積されている活性度時系列データに対して特定された当該期間に関する補間や予測が行われ、補間予測結果１０８として蓄積され、結果出力手段４へと出力される（ステップS1-5）。

　ステップS1-１、S1-2、S1-3の処理にステップS1-4は依存しないため、S1-4はS1-5以前のどのタイミングで実行してもよい。

　また、本発明の第１の実施の形態および後記の各実施の形態の説明では、各ステップが終了してから次のステップを実行しているが、パイプライン処理、すなわち、全てのテキストに対してグループ分けが終了する前に、タイムスタンプによる集計を開始する等をしてもよい。その場合、グルーピング結果１０３を蓄積せずに直接タイムスタンプ集計を行うなどの方法で、テキストグルーピング手段１０２とタイムスタンプ集計手段１０４を分離せずに同時に行う等としてもよい。同様に、テキスト入力と同時にテキストグルーピングを行う等としてもよい。結果出力、その他に関しても同様である。

　次に、本発明の第１の実施の形態の効果について説明する。

　本発明の第１の実施の形態では、時系列補間予測手段１０７により、テキスト入力の欠損状況に応じて集計結果の補正をするように構成されているため、動的トピック分析の対象としたい期間の全てのテキストデータを入力しなくても、それらが入力された場合の活性度時系列データを推定して出力できる。

（本発明の第２の実施の形態）
　次に、本発明の第２の実施の形態について図面を参照して詳細に説明する。

　図４を参照すると、本発明の第２の実施の形態は、プログラム制御により動作するコンピュータ（中央処理装置；プロセッサ；データ処理装置；記憶装置）１と、テキストデータ入力手段２と、欠損状況入力手段３と、結果出力手段４とから構成されている。

　コンピュータ（中央処理装置；プロセッサ；データ処理装置；記憶装置）１は、テキストグルーピング手段１０２、テキストデータ記憶手段１０１－２、テキストグルーピング手段１０２、グルーピング結果記憶手段１０３、情報源種別別タイムスタンプ集計手段１０４－２、情報源種別別集計結果記憶手段１０５－２、情報源種別別欠損状況記憶手段１０６－２、時系列補完予測手段１０７－２、情報源種別別補完予測結果記憶手段１０９、再集計手段１１０、補完予測結果記憶手段１０８を含む。

　これらの手段はそれぞれ概略つぎのように動作する。

　コンピュータ１は、通信装置や記憶装置、キーボード等のユーザー情報入力装置等によって構成されるテキストデータ入力手段２を介して、タイムスタンプと情報源種別の区別がついたテキスト群をとりこみ、同じく通信装置や記憶装置、キーボード等のユーザー情報入力装置等によって構成される欠損状況入力手段３を介して、トピック分析の対象としたいテキストデータや期間においてテキストデータ入力手段２から入力されなかったデータの情報源種別の区別や期間に関する情報をとりこみ、下記に説明する処理を実施した上で、通信装置や記憶装置、ディスプレイ等のユーザー情報提示装置等によって構成される結果出力手段４に動的トピック分析結果を出力する。

　テキストデータ入力手段２から入力された、タイムスタンプと情報源種別の区別がついたテキスト群は、コンピュータ１の記憶装置にテキストデータ１０１－２として蓄積される。

　第１の実施の形態では、各テキストにタイムスタンプが付随しているとしたが、本第２の実施の形態では、さらに各テキストに情報源種別の区別を付随させるとする。ここでいう情報源種別の区別とは、例えば当該テキストデータの出所を表すものとすると、入力された各テキストが「ニュースサイト」から取得されたものなのか、「企業のプレスリリース」からであったのか、「ブロガーYYのブログ」だったのか等の区別のことである。他にも情報源種別としては上記例のような出所の内容による区別ではなく、「２００５年以前に開設されたサイト」から取得されたテキスト、「１００以上のサイトからリンクされているサイト」から取得されたテキストといった内容以外の属性に基づく区別であってもよい。

　テキストグルーピング手段１０２は、第１の実施の形態のそれと同様に動作する。すなわち、蓄積されているテキストデータ１０１－２を、テキストクラスタリングやテキスト分類といった公知のテキスト分割技術によって分割する。テキストグルーピング手段１０２の出力は、コンピュータ１の記憶装置にグルーピング結果１０３として蓄積される。

　情報源種別別タイムスタンプ集計手段１０４－２では、グルーピング結果１０３と、テキストデータ１０１－２の各テキストのタイムスタンプデータと情報源種別の区別から、日次や週次といった時間軸の期間帯に対して、各期間帯において、どのトピックが幾つのテキストを含んでいるかが情報源種別の区別ごとに集計される。特定の情報源種別に着目すると、その動作は第１の実施の形態のタイムスタンプ集計手段１０４と同様である。たとえば、情報源種別が前記例の当該テキストデータの出所をあらわすものとすると、「ニュースサイト」から取得されたテキストにおいては、トピックAに属するテキストは期間帯ｔでX件、「企業のプレスリリース」からは同トピック同期間帯でX’件、「ブロガーYYのブログ」では同X’’件といった具合である。

　情報源種別別タイムスタンプ集計手段１０４－２の出力は、各情報源種別の区別ごとに、どのトピックがどの期間帯でどれくらいの活性度を持っていたかの時系列データであり、コンピュータ１の記憶装置に情報源種別別集計結果１０５－２として蓄積される。以下、情報源種別別集計結果１０５－２に蓄積されている情報源種別ｊにおけるトピックAの期間帯ｔでの活性度をX＾ｊ_A（ｔ）とあらわす。N種類の情報源種別があるとすると、情報源種別別集計結果は、各トピックに対してN次元の時系列データであり、ｊ＝１、、、Ｎである。

　動的トピック分析の対象としたいテキストデータや期間において、テキストデータ入力手段２から入力されなかったデータの情報源種別の区別や期間に関する情報は、欠損状況入力手段３からコンピュータ１に取り込まれ、コンピュータ１の記憶装置に情報源種別別欠損状況１０６－２として蓄積される。例えば、情報源種別別欠損状況１０６－２としては、特定の情報源種別の区別をもつテキストデータが入力されていない期間／いる期間や、入力されていたとしても全てではない期間、その期間におけるその情報源種別の区別をもつ入力テキストデータのカバー率／欠損率（動的トピック分析の対象としたい当該情報源種別のテキストデータに対して、入力された／されなかった当該情報源種別のテキストデータの割合）などの情報が蓄積される。

　時系列補間予測手段１０７－２は、情報源種別別欠損状況１０６－２から各情報源種別におけるテキストデータ（の全て）が入力されていない期間を特定し、同じく情報源種別別欠損状況１０６－２に前記当該情報源種別のカバー率や欠損率が蓄積されている場合はその情報も利用して、情報源種別別集計結果１０５－２に蓄積されている多次元時系列データに対して、各情報源種別の特定された当該期間に関する補間や予測を行う。この補間や予測は公知の時系列データの補間や予測技術に基づく。

　第１の実施の形態と本第２の実施の形態での時系列補間予測手段の違いは、あるトピックの活性度時系列の補間や予測に用いる時系列が第１の実施の形態では１次元、第２の実施の形態ではN次元であることである。第１の実施の形態では補間や予測をする前の活性度時系列は、全体を集計してしまった粗視的な情報になってしまっているが、第２の実施の形態では情報源の種別別の活性度時系列を用いることができるため、より精度の高い補間や予測を実現できることが期待できる。

　時系列補間予測手段１０７－２においては、例えば、特定の期間において、ある情報源種別の入力テキストデータが欠損している場合に、この期間の当該情報源種別の活性度を、前後の欠損していない期間の当該情報源種別の活性度時系列から線形補間などによって求めることができることに加えて、もし、その情報源種別の活性度が、別の情報源種別の活性度に強い依存性（大きな負の相関など）を有している場合は、上記別の情報源種別の活性度を用いて、上記欠損している情報源種別の当該期間の活性度を線形回帰などによって求めることができる。あるいはある時点以降の入力テキストデータがまったく入力されていない場合に、それ以前の情報源種別別のN次元活性度時系列から、情報源種別間の時間遅れ関係を反映した線形予測子を用いて当該期間の各情報源種別別の活性度をもとめる等をする。

　本第２の実施の形態でも、時系列補間予測手段１０７－２は、あらかじめ定められた方法で補間や予測を行うのではなく、情報源種別別集計結果１０５－２のデータから適応的にパラメータ調整やもっと一般に分布等の学習をおこなうものであってもよい。例えば、ある情報源種別に対して必要な入力テキストデータが揃っている期間の活性度時系列データを用いて補間や予測のパラメータを求め、それを当該情報源種別の入力テキストデータが欠損している期間の活性度時系列データの補間や予測に用いるというもの等である。この場合、トピックAの活性度時系列の補間や予測のための学習はトピックAの活性度時系列データを用いる必要は必ずしもなく、ほかのトピックの活性度時系列データを用いて学習してもよい。これは、そのトピックの活性度時系列のパターンが上記時系列補間予測手段１０７－２の意味で似ていることを期待していることに相当する。

　情報源種別別集計結果１０５－２の時系列データを、時系列補間予測手段１０７－２により補間／予測した結果の時系列データは、コンピュータ１の記憶装置に情報源種別別補間予測結果１０９として蓄積される。情報源種別別補間予測結果１０９に蓄積されているのは、動的トピック分析の対象としたい期間のテキストデータを全て入力した場合の情報源種別の区別ごとの各トピックの活性度を予測したものである。以下、情報源種別別補間予測結果１０９に蓄積されている情報源種別ｊにおけるトピックAの期間帯ｔでの活性度をY＾ｊ_A(t)とあらわす。ただし、ｊ＝１、、、Nとする。

　再集計手段１１０は、情報源種別別補間予測結果１０９を情報源種別の方向に総和を計算して、情報源種別の区別をなくした全体の活性度を求め、コンピュータ１の記憶装置に補間予測結果１０８として蓄積する。情報源種別の区別なく、動的トピック分析の対象としたい期間のテキストデータを全て入力した場合のトピックAの期間帯ｔでの活性度をY_A(t)とすると、Y_A(t)＝Y＾１_A(t)＋、、、＋Y＾N_A(t)である。各Aとｔに対して、Y_A(t)が補間予測結果１０８として蓄積される。また、再集計手段１１０は、特定の情報源種別のみ区別をしない各トピックの部分的な活性度時系列データを計算することもできる。

　補間予測結果１０８に蓄積されている各トピックの活性度時系列データは、動的トピック分析の対象としたい期間のテキストデータを全て入力した場合の各トピックの活性度として、結果出力手段４に出力される。ただし、再集計する前の情報源種別別補間予測結果１０９自体を出力したい場合は、それを出力してもよい。情報源種別別補間予測結果１０９は「どの情報源種別で何がいつ盛り上がっているか」を、欠損データがあるにもかかわらず推計したものとなる。

　次に、図４及び図５のフローチャートを参照して本発明の第２の実施の形態の全体の動作について詳細に説明する。

　まず、テキストデータ入力手段２からタイムスタンプつきテキスト群がコンピュータ１にとりこまれ、テキストデータ１０１－２として蓄積される（図５のステップS2-1）。

　次に、蓄積されているテキストデータがテキストグルーピング手段１０２によってグループ分けされ、どのテキストがどのトピックに属するかがグルーピング結果１０３として蓄積される（ステップS2-2）。

　さらに、グルーピング結果１０３は情報源種別別タイムスタンプ集計手段１０４－２によって、上記時間軸の各期間帯において、どのトピックがどれくらいテキストを含んでいるかが情報源の種別別に集計され、情報源種別別に各トピックの活性度の時系列データが情報源種別別集計結果１０５－２として蓄積される（ステップS2-3）。

　一方、欠損状況入力手段３からは、動的トピック分析の対象としたいテキストデータや期間において、情報源種別別のテキストデータが入力されていない期間／いる期間や、入力されていたとしても全てではない期間、その期間における情報源種別別の入力テキストデータのカバー率／欠損率（動的トピック分析の対象としたい各情報源種別のテキストデータに対して、入力された／されなかった当該情報源種別のテキストデータの割合）などの情報がとりこまれ、情報源種別別欠損状況１０６－２としてコンピュータ１に蓄積される（ステップS2-4）。

　次に、時系列補間予測手段１０７－２によって、情報源種別別欠損状況１０６－２から各情報源種別におけるテキストデータ（の全て）が入力されていない期間が特定され、同じく情報源種別別欠損状況１０６－２に上記当該情報源種別のカバー率や欠損率が蓄積されている場合はその情報も利用されて、情報源種別別集計結果１０５－２に蓄積されている多次元時系列データに対して、各情報源種別の特定された当該期間における活性度の補間や予測が行われ、情報源種別別補間予測結果１０９としてコンピュータ１に蓄積される(ステップS2-5)。

　最後に、再集計手段１１０によって、情報源種別別補間予測結果１０９が情報源種別の方向に総和計算され、情報源種別の区別をなくした全体の活性度がトピック別に求められ、補間予測結果１０８として蓄積、結果出力手段４へと出力される（ステップS2-6）。

　S2-4はS2-5以前のどのタイミングで実行してもよい。

　次に、本発明の第２の実施の形態の効果について説明する。

　本発明の第２の実施の形態では、情報源種別別タイムスタンプ集計手段により、情報源種別の区別ごとに活性度が計算され、多次元の活性度時系列に基づいてきめ細かく補間や予測を行うように構成されているため、動的トピック分析の対象としたい期間の全てのテキストデータを入力しなくても、それらが入力された場合の活性度時系列データを推定して出力する場合に、その推定の精度を高くすることができる。また、情報源種別別の活性度を出力する場合にも、動的トピック分析の対象としたい期間の全てのテキストデータを入力しなくても、それらが入力された場合の情報源種別別の活性度時系列データを推定して出力することができる。

（本発明の第３の実施の形態）
　次に、本発明の第３の実施の形態について図面を参照して詳細に説明する。

　図６を参照すると、本発明の第３の実施の形態は、プログラム制御により動作するコンピュータ（中央処理装置；プロセッサ；データ処理装置；記憶装置）１と、テキストデータ入力手段２と、欠損状況入力手段３と、結果出力手段４と、情報源種別上位階層出力手段５とから構成されている。

　コンピュータ（中央処理装置；プロセッサ；データ処理装置；記憶装置）１は、テキストグルーピング手段１０２、テキストデータ記憶手段１０１－２、テキストグルーピング手段１０２、グルーピング結果記憶手段１０３、情報源種別別タイムスタンプ集計手段１０４－２、情報源種別別集計結果記憶手段１０５－２、情報源種別別欠損状況記憶手段１０６－２、時系列補完予測手段１０７－３、情報源種別別補完予測結果記憶手段１０９、再集計手段１１０、補完予測結果記憶手段１０８、補間予測パラメータ記憶手段１１１、情報源種別上位階層定義手段１１２、定義結果記憶手段１１３を含む。

　これらの手段はそれぞれ概略つぎのように動作する。

　コンピュータ１は、通信装置や記憶装置、キーボード等のユーザー情報入力装置等によって構成されるテキストデータ入力手段２を介して、タイムスタンプと情報源種別の区別がついたテキスト群をとりこみ、同じく通信装置や記憶装置、キーボード等のユーザー情報入力装置等によって構成される欠損状況入力手段３を介して、トピック分析の対象としたいテキストデータや期間においてテキストデータ入力手段２から入力されなかったデータの情報源種別の区別や期間に関する情報をとりこみ、下記に説明する処理を実施した上で、通信装置や記憶装置、ディスプレイ等のユーザー情報提示装置等によって構成される結果出力手段４に動的トピック分析結果を、同じく通信装置や記憶装置、ディスプレイ等のユーザー情報提示装置等によって構成される情報源種別上位階層出力手段５に、情報源種別の上位階層定義結果を出力する。

　本発明の第３の実施の形態では、第２の実施の形態と同様、タイムスタンプに加えて各テキストに情報源種別の区別を付随させるとする。ここでいう情報源種別の区別とは、例えば当該テキストデータの出所をあらわすものとすると、入力された各テキストが「ニュースサイト」から取得されたものなのか、「企業のプレスリリース」からであったのか、「ブロガーYYのブログ」だったのか等の区別のことである。他にも情報源種別としては上記例のような出所の内容による区別ではなく、「２００５年以前に開設されたサイト」から取得されたテキスト、「１００以上のサイトからリンクされているサイト」から取得されたテキストといった内容以外の属性に基づく区別であってもよい。

　テキストグルーピング手段１０２は、第１の実施の形態、第２の実施の形態のそれと同様に動作する。すなわち、蓄積されているテキストデータ１０１－２を、テキストクラスタリングやテキスト分類といった公知のテキスト分割技術によって分割する。テキストグルーピング手段の出力は、コンピュータ１の記憶装置にグルーピング結果１０３として蓄積される。

　情報源種別別タイムスタンプ集計手段１０４－３では、グルーピング結果１０３と、テキストデータ１０１－２の各テキストのタイムスタンプデータと情報源種別の区別から、日次や週次といった時間軸の期間帯に対して、各期間帯において、どのトピックが幾つのテキストを含んでいるかが情報源種別の区別ごとに集計される。また、この集計を行う際に、定義結果１１３も情報源種別の区別として用いても良い。特定の情報源種別に着目すると、その動作は第１の実施の形態のタイムスタンプ集計手段１０４と同様である。たとえば、情報源種別が上記例の当該テキストデータの出所をあらわすものとすると、「ニュースサイト」から取得されたテキストにおいては、トピックAに属するテキストは期間帯ｔでX件、「企業のプレスリリース」からは同トピック同期間帯でX’件、「ブロガーYYのブログ」では同X’’件といった具合である。

　情報源種別別タイムスタンプ集計手段１０４－３の出力は、各情報源種別の区別ごとに、どのトピックがどの期間帯でどれくらいの活性度を持っていたかの時系列データであり、コンピュータ１の記憶装置に情報源種別別集計結果１０５－２として蓄積される。以下、情報源種別別集計結果１０５－２に蓄積されている情報源種別ｊにおけるトピックAの期間帯ｔでの活性度をX＾ｊ_A（ｔ）とあらわす。N種類の情報源種別があるとすると、情報源種別別集計結果は、各トピックに対してN次元の時系列データであり、ｊ＝１、、、Ｎである。

　第２の実施の形態と同様に、時系列補間予測手段１０７－３は、情報源種別別欠損状況１０６－２から各情報源種別におけるテキストデータ（の全て）が入力されていない期間を特定し、同じく情報源種別別欠損状況１０６－２に上記当該情報源種別のカバー率や欠損率が蓄積されている場合はその情報も利用して、情報源種別別集計結果１０５－２に蓄積されている多次元時系列データに対して、各情報源種別の特定された当該期間に関する補間や予測を行う。この補間や予測は公知の時系列データの補間や予測技術に基づく。

　時系列補間予測手段１０７－３は、あらかじめ定められた方法で補間や予測を行うのではなく、情報源種別別集計結果１０５－２のデータから適応的にパラメータ調整やもっと一般に分布等の学習をおこなうものであってもよい。例えば、ある情報源種別に対して必要な入力テキストデータが揃っている期間の活性度時系列データを用いて補間や予測のパラメータを求め、それを当該情報源種別の入力テキストデータが欠損している期間の活性度時系列データの補間や予測に用いるというもの等である。この場合、トピックAの活性度時系列の補間や予測のための学習はトピックAの活性度時系列データを用いる必要は必ずしもなく、ほかのトピックの活性度時系列データを用いて学習してもよい。これは、そのトピックの活性度時系列のパターンが上記時系列補間予測手段１０７－３の意味で似ていることを期待していることに相当する。

　また、本発明の第３の実施の形態においては、コンピュータ１の記憶装置に蓄積されている、時系列補間予測手段１０７－３が用いている補間や予測のパラメータ、前記分布等の学習の結果、さらには、それらから計算可能な量などを、補間予測パラメータ１１１とよぶことにする。時系列補間予測手段１０７－３が上記の意味で適応的もしくは分布の学習を行うもの等である場合は、補間予測パラメータ１１１は時間を追って変化することもある。

　集計結果１０５－２の時系列データを、時系列補間予測手段１０７－３により補間／予測した結果の時系列データは、コンピュータ１の記憶装置に情報源種別別補間予測結果１０９として蓄積される。情報源種別別補間予測結果に蓄積されているのは、動的トピック分析の対象としたい期間のテキストデータを全て入力した場合の情報源種別の区別ごとの各トピックの活性度を推定したものである。以下、情報源種別別補間予測結果１０９に蓄積されている情報源種別ｊにおけるトピックAの期間帯ｔでの活性度をY＾ｊ_A(t)とあらわす。ただし、ｊ＝１、、、Nとする。

　再集計手段１１０は、情報源種別別補間予測結果１０９を情報源種別の方向に総和を計算して、情報源種別の区別をなくした全体の活性度を求め、コンピュータ１の記憶装置に補間予測結果１０８として蓄積する。情報源種別の区別なく、動的トピック分析の対象としたい期間のテキストデータを全て入力した場合のトピックAの期間帯ｔでの活性度をY_A(t)とすると、Y_A(t)＝Y＾１_A(t)　＋、、、＋Y＾N_A(t)である。各Aとｔに対して、Y_A(t)が補間予測結果１０８として蓄積される。

　情報源種別上位階層定義手段１１２は、補間予測パラメータ１１１に基づいて、幾つかの情報源種別を新たにひとつの情報源種別としておおくくりに定義し、もとの情報源種別と新しく定義された情報源種別の対応関係はコンピュータ１の記憶装置に定義結果１１３として蓄積される。例えば、将来時点の活性度の予測に強い影響をもつ幾つかの情報源種別を新しく「インフルエンサ」と定義し、もとの情報源種別のどれが「インフルエンサ」であるかの対応関係を定義結果１１３として蓄積するという具合である。新たに定義する情報源種別はひとつである必要はなく、同時に複数定義しても良い。

　定義結果１１３に蓄積されているもとの情報源種別と新しく定義された情報源種別の対応関係は、話題盛り上がりのダイナミクスにおける役割の観点から各情報源種別を区分した新しい情報源種別の定義として、情報源種別上位階層出力手段５に出力される。あるいは、情報源種別別タイムスタンプ集計手段１０４－２において、集計する際の情報源種別として用いても良い。この場合、活性度時系列の補間や予測における性質に基づいて定義された情報源種別が、その後の補間や予測に用いられることになるため、補間や予測の精度が向上することも期待できる。

　次に、図６及び図７のフローチャートを参照して本発明の第３の実施の形態の情報源種別上位階層定義の部分の動作について詳細に説明する。なお、それ以外の動作は第２の実施の形態と同一であるため、説明を省略する。

　まず、情報源種別上位階層定義手段１１２により、補間予測パラメータ１１１に基づいて、各情報源種別の活性度時系列の補間や予測における役割が分析される。例えば、当該情報源種別が将来時点の活性度の予測にどれくらいの影響度をもつかの判定などが行われる（図６のステップS3-1）。

　次に、上記役割分析の結果から、一定の役割をもつとされた情報源種別のピックアップが行われ、それらをまとめて新しい情報源種別の上位階層として定義される（ステップS3-2）。

　そして、もとの情報源種別と新しく定義された情報源種別の対応関係はコンピュータ１の記憶装置に定義結果１１３として蓄積され、情報源種別上位階層出力手段５を介して出力される（ステップS3-3）。

　また、定義結果１１３は情報源種別別タイムスタンプ集計手段１０４－２において、集計する際の情報源種別として用いられる場合もある（ステップS3-4）。

　これらのステップは動的トピック分析を行うたびに実施される必要はなく、事前に決められているスケジュールに基づいて間欠的に実施されたり、外部から要求があった場合にのみ実施されたりするのでもよい。

　次に、本発明の第３の実施の形態の効果について説明する。

　本発明の第３の実施の形態では、情報源種別上位階層定義手段５により、各情報源種別の活性度時系列の補間や予測における役割が分析され、一定の役割をもつとされた情報源種別に対して新しい情報源種別が定義されるため、話題盛り上がりのダイナミクスにおける役割の観点から各情報源種別を区分して、新しい情報源種別の定義として出力することができる。さらに、新しい定義を補間や予測に用いることにより、精度の高い活性度時系列の推定が行うことが出来る。

（本発明の第４の実施の形態）
　次に、本発明の第４の実施の形態について図面を参照して詳細に説明する。

　図８を参照すると、本発明の第４の実施の形態は、第１の実施の形態をプログラムにより構成した場合に、そのプログラムにより動作されるコンピュータの構成図である。

　当該プログラムは、コンピュータ（中央処理装置；プロセッサ；データ処理装置）１に読み込まれ、コンピュータ１の動作を制御する。コンピュータ１は動的トピック分析プログラム６の制御により、第１の実施の形態におけるコンピュータ１と同一の処理を実行する。

　第２の実施の形態、第３の実施の形態に対しても、同様に対応する動的トピック分析プログラムによる最良の形態が構成される。

　次に、具体的な実施例を用いて本発明を実施するための最良の形態の動作を説明する。

　なお、本発明においては、第３の実施の形態が、他の実施の形態の各要素を含むので、ここでは第３の実施の形態を例にとって説明する。

　情報源種別は五つ（j=1,2,3,4,5）で、各情報源種別に属するテキストデータがタイムスタンプつきでテキストデータ入力手段２から入力されているとする。

　テキストグルーピング手段１０２によるグルーピングと、情報源種別別タイムスタンプ集計手段１０４－３の結果、求められた、情報源種別ｊにおけるトピックAの期間帯ｔでの活性度をX＾ｊ_A（ｔ）と表す。

　この値が、情報源種別別集計結果１０５－２に蓄積されていることになる。

　例えば、あるＡに対して、情報源種別別集計結果をグラフ化したものは、図９のようになる。

　欠損状況入力手段３からは、情報源種別別の欠損状況として、
　欠損状況１：情報源種別ｊ＝１に関しては、ｔ＝２，３において、８０％の入力テキストが欠損している（カバー率２０％）。

　欠損状況２：情報源種別ｊ＝２に関しては、ｔ＝４において、全てのテキストが欠損している。

　欠損状況３：全ての情報源種別において、ｔ＝７、８，９，１０の全てのテキストが欠損している。
が入力され、情報源種別別欠損状況１０６－２として蓄積されているとする。

　時系列補間予測手段１０７－３は、欠損状況１に対応するために、例えば情報源種別ｊ＝１のｔ＝２、ｔ＝３での値を５倍して、当該情報源種別の補間予測結果とする。

　すなわち、
Ｙ＾１＿Ａ（２）＝５　×　Ｘ＾１＿Ａ（２）
Ｙ＾１＿Ａ（３）＝５　×　Ｘ＾１＿Ａ（３）
である。

　ただし、時系列補間予測手段１０７－３が補間予測を行った結果の、情報源種別ｊにおけるトピックAの期間帯ｔでの活性度の推定値をＹ＾ｊ_A（ｔ）とあらわすことにする。

　この値が、情報源種別別補間予測結果１０９に蓄積されることになる。

　欠損状況２に対応するためには、欠損していない前後のデータから補間したり、他の情報源種別のデータとの相関などから推定したりすることなどが想定できる。

　ここでは、後者を例にとる。

　例えば、テキストの欠損がない状況で情報源１と２の間に大きな相関を持つことが観察されており、
Ｘ＾２＿Ａ（ｔ）＝６．５　×　Ｘ＾１＿Ａ（ｔ）＋小さなノイズ
なる関係が観察されている場合は、時系列補間予測手段１０７－３では欠損状況２への対応として、例えば、
Ｙ＾２＿Ａ（４）＝６．５　×　Ｘ＾１＿Ａ（４）
とする。

　上記情報源種別間のデータの相関や、値の間の関係式は公知の技術を用いて得ることができる。

　欠損状況３に対応するためには、テキスト欠損がない状況でのＸの時系列ダイナミクスを学習しておき、それに基づいて推定した値をＹとすること等が考えられる。

　ここでは例として、線形予測子を用いて説明する。

　テキスト欠損がない状況で、各情報源種別別の活性度の値は、それらの過去の値との間に、
Ｘ＾１＿Ａ（ｔ）＝０．２　×　Ｘ＾１＿Ａ（ｔ－１）＋　３．５　×　Ｘ＾３＿Ａ（ｔ－１）　＋　ノイズ
Ｘ＾２＿Ａ（ｔ）＝０．１　×　Ｘ＾２＿Ａ（ｔ－１）＋　７．５　×　Ｘ＾４＿Ａ（ｔ－２）　＋　ノイズ
Ｘ＾３＿Ａ（ｔ）＝０．３　×　Ｘ＾３＿Ａ（ｔ－１）＋　ノイズ
Ｘ＾４＿Ａ（ｔ）＝０．２　×　Ｘ＾４＿Ａ（ｔ－１）＋　ノイズ
Ｘ＾５＿Ａ（ｔ）＝０．５　×　Ｘ＾５＿Ａ（ｔ－１）　＋　ノイズ
なる関係が観察されていたとする。

　この場合、時系列補間予測手段１０７－３では欠損状況３への対応として、ｔ＝７、８，９，１０に対して例えば、
Ｙ＾１＿Ａ（ｔ）＝０．２　×　Ｘ＾１＿Ａ（ｔ－１）＋　３．５　×　Ｘ＾３＿Ａ（ｔ－１）
Ｙ＾２＿Ａ（ｔ）＝０．１　×　Ｘ＾２＿Ａ（ｔ－１）＋　７．５　×　Ｘ＾４＿Ａ（ｔ－２）
Ｙ＾３＿Ａ（ｔ）＝０．３　×　Ｘ＾３＿Ａ（ｔ－１）
Ｙ＾４＿Ａ（ｔ）＝０．２　×　Ｘ＾４＿Ａ（ｔ－１）
Ｙ＾５＿Ａ（ｔ）＝０．５　×　Ｘ＾５＿Ａ（ｔ－１）　・・・・（１）
という漸化式を再帰的に適用して情報源種別別補間予測結果１０９を作成する。

　ここで、右辺でＸの情報源種別とトピック、期間帯に該当するＹが存在する場合は、Ｘの代わりにＹの値を用いるとする。

　これらの上記関係式も公知の技術を用いて得ることができる。

　上記の各欠損状況への対応の情報源種別別補間予測結果１０９をまとめてグラフ化したものが、図１０である。

　動的トピック分析の対象としたい期間の全てのテキストデータを入力しなくても、それらが入力された場合の活性度時系列データを情報源種別別に推定して出力した結果である。

　上記で得られたＹが、情報源種別別補間予測結果１０９として、コンピュータ１に蓄積される。

　さらに、再集計手段１１０によって、情報源種別の区別なく活性度時系列が計算され、補間予測結果１０８として蓄積、結果出力手段４から出力される。

　補間予測結果１０８に蓄積される、トピックＡの期間帯ｔでの活性度をＹ＿Ａ（ｔ）と書くことにすると、本実施例では、
Ｙ＿Ａ（ｔ）＝Ｙ＾１＿Ａ（ｔ）＋　Ｙ＾２＿Ａ（ｔ）　＋　Ｙ＾３＿Ａ（ｔ）＋　Ｙ＾４＿Ａ（ｔ）　＋　Ｙ＾５＿Ａ（ｔ）
で計算される。

　上記の各欠損状況への対応の補間予測結果１０８をまとめてグラフ化したものが、図１１であり、これが結果出力手段４からの出力例である。

　これは、動的トピック分析の対象としたい期間の全てのテキストデータを入力しなくても、それらが入力された場合の活性度時系列データを推定して出力した結果である。

　本実施例で説明した以外にも、多次元時系列データに対する補間や予測以外の手法は多く公知となっており、それらは全て本発明で利用可能である。

　また、前述したようにトピックＡの活性度時系列の補間や予測を行うために必要な各種のパラメータ調整や分布の学習は、必ずしもトピックＡの活性度時系列のデータを用いる必要はなく、別のトピックの活性度時系列のデータを用いてもよい。

　補間予測パラメータ１１１は本実施例では上記式（１）の右辺における、各Ｘの係数である。

　情報源種別上位階層定義手段１１２は、補間予測パラメータ１１１から、各情報源種別の活性度時系列の補間や予測における役割が分析される。

　例えば、本実施例では、役割１「その情報源種別の活性度が、他の情報源種別の将来時点の活性度に直接影響をもつか」、役割２「その情報源種別の将来時点の活性度が、他の情報源種別の活性度から直接影響をうけているか」の二つの役割に関して分析するとする。

　役割１は、その情報源種別の活性度が、他の情報源種別の活性度の漸化式に現れていたら該当する。役割２はその情報源種別の活性度の漸化式に、他の情報源種別の活性度が現れていたら該当する。

　すなわち、本実施例では式（１）を参照すると、役割１に該当するのは情報源種別３と４、役割２に該当するのは情報源種別１と２である。

　情報源種別上位階層定義手段１１２は、例えば役割１に該当する情報源種別を新しく「インフルエンサ」という種別であると定義し、役割２に該当する情報源種別を新しく「フォロワ」と定義する。

　その上で、新旧の対応関係、この例では「情報源３と４はインフルエンサ」「情報源１と２はフォロワ」という対応関係を、定義結果１１３としてコンピュータ１に蓄積し、情報源種別上位階層出力手段５から出力する。

　さらに、定義結果１１３は、今後の動的トピック分析において、情報源種別として情報源種別別タイムスタンプ集計手段１０４－３で用いられてもよい。

　以上、実施の形態及び実施例を参照して本発明を説明したが、本発明は上記実施の形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２００８年３月１８日に出願された日本出願特願２００８－０６９５７６を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　本発明によれば、ブログ書き込み等、インターネット上で何が話題になっているか、これから何が話題になりそうかを分析／予測する話題分析装置といった用途や、テレビや新聞などのニュースの内容のクリッピング装置といった用途、どの情報源が話題に俊敏に反応し、どの情報源をみておけば話題の盛り上がり／盛り下がりの様子を捉えることができるのかを判別する情報源判別装置といった用途にも適用できる。

Claims

　タイムスタンプつきテキスト群をテキストデータとして記憶するテキストデータ記憶手段と、
　前記タイムスタンプつきテキスト群をテキストデータとして前記テキストデータ記憶手段に入力するテキストデータ入力手段と、
　前記テキストデータ記憶手段に記憶された前記テキストデータを読み出し、前記テキストデータを同じような内容又はトピックを含むもの同士のグループにグルーピングし、各グループを各トピックとしてグルーピング結果記憶手段に出力するテキストグルーピング手段と、
　前記各グループを各トピックとして記憶する前記グルーピング結果記憶手段と、
　前記グルーピング結果記憶手段に記憶された前記各トピックと、前記テキストデータ記憶手段に記憶された前記テキストデータとを読み出し、前記各トピックに属する前記テキストデータを期間帯ごとに集計し、あるトピックのある時点での盛り上がり度合いを、そのトピックのその時点での活性度として、前記各トピックの活性度時系列データを集計結果記憶手段に出力するタイムスタンプ集計手段と、
　前記各トピックの活性度時系列データを記憶する前記集計結果記憶手段と、
　動的トピック分析の対象としたいテキストデータや期間において、前記テキストデータ入力手段から入力されなかったデータや期間に関する情報を、データの欠損状況として欠損状況記憶手段に入力する欠損状況入力手段と、
　前記データの欠損状況を記憶する前記欠損状況記憶手段と、
　前記集計結果記憶手段に記憶された前記各トピックの活性度時系列データと欠損状況記憶手段に記憶された前記データの欠損状況とを読み出し、データに欠損がある期間の前記各トピックの活性度時系列データに対して補間や予測を行って、データに欠損がない場合の前記各トピックの活性度時系列データの値を推定して、補間予測結果記憶手段に出力する時系列補間予測手段と、
　前記各トピックの活性度時系列データの推定結果を記憶する前記補間予測結果記憶手段と、
　前記補間予測結果記憶手段に記憶された前記各トピックの活性度時系列データの推定結果を読み出し、出力する、結果出力手段とを備えた、動的トピック分析システム。
　タイムスタンプと情報源種別の区別がついたテキスト群をテキストデータとして記憶するテキストデータ記憶手段と、
　前記タイムスタンプと情報源種別の区別がついたテキスト群をテキストデータとして前記テキストデータ記憶手段に入力するテキストデータ入力手段と、
　前記テキストデータ記憶手段に記憶された前記テキストデータを読み出し、前記テキストデータを同じような内容又はトピックを含むもの同士のグループにグルーピングし、各グループを各トピックとしてグルーピング結果記憶手段に出力するテキストグルーピング手段と、
　前記各グループを各トピックとして記憶する前記グルーピング結果記憶手段と、
　前記グルーピング結果記憶手段に記憶された前記各トピックと、前記テキストデータ記憶手段に記憶された前記テキストデータとを読み出し、情報源種別別に前記各トピックに属する前記テキストデータを期間帯ごとに集計し、あるトピックのある時点での盛り上がり度合いを、そのトピックのその時点での活性度として、前記情報源種別別の前記各トピックの活性度時系列データを情報源種別別集計結果記憶手段に出力する情報源種別別タイムスタンプ集計手段と、
　前記情報源種別別の前記各トピックの活性度時系列データを記憶する前記情報源種別別集計結果記憶手段と、
　動的トピック分析の対象としたいテキストデータや期間において、前記テキストデータ入力手段から入力されなかったデータや期間に関する情報を、情報源種別別のデータの欠損状況として情報源種別別欠損状況記憶手段に入力する欠損状況入力手段と、
　前記情報源種別別のデータの欠損状況を記憶する前記情報源種別別欠損状況記憶手段と、
　前記情報源種別別集計結果記憶手段に記憶された前記情報源種別別の前記各トピックの活性度時系列データと前記情報源種別別欠損状況記憶手段に記憶された前記情報源種別別のデータの欠損状況とを読み出し、データに欠損がある期間の前記情報源種別別の前記各トピックの活性度時系列データに対して補間や予測を行って、データに欠損がない場合の前記情報源種別別の前記各トピックの活性度時系列データの値を推定して、情報源種別別補間予測結果記憶手段に出力する時系列補間予測手段と、
　前記情報源種別別の前記各トピックの活性度時系列データの推定結果を記憶する前記情報源種別別補間予測結果記憶手段と、
　前記情報源種別別補間予測結果記憶手段に記憶された前記情報源種別別の前記各トピックの活性度時系列データの推定結果を読み出し、出力する、結果出力手段とを、備えた、動的トピック分析システム。
　請求項２記載の動的トピック分析システムにおいて、
　前記情報源種別別補間予測結果記憶手段に記憶された前記情報源種別別の前記各トピックの活性度時系列データを読み出し、情報源種別の区別をしないトータルの前記各トピックの活性度時系列データや、特定の情報源種別のみ区別をしない前記各トピックの部分的な活性度時系列データを計算して、補間予測結果記憶手段に出力する、再集計手段と、
　前記トータルの前記各トピックの活性度時系列データや、前記各トピックの部分的な活性度時系列データを記憶する前記補間予測結果記憶手段と、
　前記補間予測結果記憶手段に記憶された前記トータルの前記各トピックの活性度時系列データや、前記各トピックの部分的な活性度時系列データを読み出し、出力する、結果出力手段とを、さらに備えた、動的トピック分析システム。
　請求項２または請求項３に記載の動的トピック分析システムにおいて、
　前記時系列補間予測手段は、時系列補間予測で用いている補間や予測のパラメータ、または、前記情報源種別別の前記各トピックの活性度時系列データの分布の学習結果、または、該学習結果から計算可能な量を、補間予測パラメータ記憶手段に出力し、
　前記動的トピック分析システムは、さらに、
　前記補間や予測のパラメータ、または、前記学習結果、または、前記計算可能な量を、記憶する前記補間予測パラメータ記憶手段と、
　前記補間予測パラメータ記憶手段に記憶された前記補間や予測のパラメータ、または、前記学習結果、または、前記計算可能な量を読み出し、各情報源種別の補間や予測における性質を抽出し、前記性質を持つ情報源種別を選りだし、選りだされた情報源種別をおおくくりにして一つの新しい情報源種別の上位階層を定義し、定義された上位階層と前記選りだされた情報源種別の対応関係を定義結果記憶手段に出力する、情報源種別上位階層定義手段と、
　前記定義された上位階層と前記選りだされた情報源種別の対応関係を記憶する前記定義結果記憶手段と、
　前記定義結果記憶手段に記憶された前記定義された上位階層と前記選りだされた情報源種別の対応関係を読み出し、出力する情報源種別上位階層出力手段とを備えた、動的トピック分析システム。
　請求項４記載の動的トピック分析システムにおいて、
　前記情報源種別別タイムスタンプ集計手段は、前記グルーピング結果記憶手段に記憶された前記各トピックと、前記テキストデータ記憶手段に記憶された前記テキストデータと、前記定義結果記憶手段に記憶された前記定義された上位階層と前記選りだされた情報源種別の対応関係とを読み出し、情報源種別別に前記各トピックに属する前記テキストデータを期間帯ごとに集計し、前記情報源種別別の前記各トピックの活性度時系列データを情報源種別別集計結果記憶手段に出力する、動的トピック分析システム。
　請求項１に記載の動的トピック分析システムにおいて、
　前記テキストデータ入力手段と、前記欠損状況入力手段とは、入力装置であり、
　前記テキストグルーピング手段と、前記タイムスタンプ集計手段と、前記時系列補完予測手段とは、中央処理装置であり、
　前記テキストデータ記憶手段と、前記グルーピング結果記憶手段と、前記集計結果記憶手段と、前記欠損状況記憶手段と、前記補完予測結果記憶手段とは、記憶装置であり、
　前記結果出力手段は、出力装置である、動的トピック分析システム。
　請求項２に記載の動的トピック分析システムにおいて、
　前記テキストデータ入力手段と、前記欠損状況入力手段とは、入力装置であり、
　前記テキストグルーピング手段と、前記情報源種別別タイムスタンプ集計手段と、前記時系列補完予測手段とは、中央処理装置であり、
　前記テキストデータ記憶手段と、前記グルーピング結果記憶手段と、前記情報源種別別集計結果記憶手段と、前記情報源種別別欠損状況記憶手段と、前記補完予測結果記憶手段とは、記憶装置であり、
　前記結果出力手段は、出力装置である、動的トピック分析システム。
　請求項３に記載の動的トピック分析システムにおいて、
　前記テキストデータ入力手段と、前記欠損状況入力手段とは、入力装置であり、
　前記テキストグルーピング手段と、前記情報源種別別タイムスタンプ集計手段と、前記時系列補完予測手段と、再集計手段とは、中央処理装置であり、
　前記テキストデータ記憶手段と、前記グルーピング結果記憶手段と、前記情報源種別別集計結果記憶手段と、前記情報源種別別欠損状況記憶手段と、前記情報源種別別補完予測結果記憶手段と、前記補完予測結果記憶手段とは、記憶装置であり、
　前記結果出力手段は、出力装置である、動的トピック分析システム。
　請求項４または請求項５に記載の動的トピック分析システムにおいて、
　前記テキストデータ入力手段と、前記欠損状況入力手段とは、入力装置であり、
　前記テキストグルーピング手段と、前記情報源種別別タイムスタンプ集計手段と、前記時系列補完予測手段と、前記情報源種別上位階層定義手段と、再集計手段とは、中央処理装置であり、
　前記テキストデータ記憶手段と、前記グルーピング結果記憶手段と、前記情報源種別別集計結果記憶手段と、前記情報源種別別欠損状況記憶手段と、前記補間予測パラメータ記憶手段と、前記定義結果記憶手段と、前記情報源種別別補完予測結果記憶手段と、前記補完予測結果記憶手段とは、記憶装置であり、
　前記結果出力手段と、前記情報源種別上位階層出力手段とは、出力装置である、動的トピック分析システム。
　タイムスタンプと情報源種別jの区別がついたテキスト群をテキストデータとして記憶するテキストデータ記憶手段と、
　前記タイムスタンプと情報源種別jの区別がついたテキスト群をテキストデータとして前記テキストデータ記憶手段に入力するテキストデータ入力手段と、
　前記テキストデータ記憶手段に記憶された前記テキストデータを読み出し、前記テキストデータを同じような内容又はトピックを含むもの同士のグループにグルーピングし、各グループを各トピックA,B,C…としてグルーピング結果記憶手段に出力するテキストグルーピング手段と、
　前記各グループを各トピックA,B,C…として記憶する前記グルーピング結果記憶手段と、
　前記グルーピング結果記憶手段に記憶された前記各トピックA,B,C…と、前記テキストデータ記憶手段に記憶された前記テキストデータとを読み出し、情報源種別j別に前記各トピックA,B,C…に属する前記テキストデータを期間帯tごとに集計し、あるトピックAのある時点での盛り上がり度合いを、そのトピックAのその時点tでの活性度X＾ｊ_A（ｔ）として、前記情報源種別j別の前記各トピックA,B,C…の活性度時系列データX＾ｊ_A（ｔ）,　X＾ｊ_B（ｔ）,　X＾ｊ_C（ｔ）…を情報源種別別集計結果記憶手段に出力する情報源種別別タイムスタンプ集計手段と、
　前記情報源種別j別の前記各トピックA,B,C…の活性度時系列データX＾ｊ_A（ｔ）,　X＾ｊ_B（ｔ）,　X＾ｊ_C（ｔ）…を記憶する前記情報源種別別集計結果記憶手段と、
　動的トピック分析の対象としたいテキストデータや期間において、前記テキストデータ入力手段から入力されなかったデータや期間に関する情報を、情報源種別j別のデータの欠損状況として情報源種別別欠損状況記憶手段に入力する欠損状況入力手段と、
　前記情報源種別別のデータの欠損状況を記憶する前記情報源種別別欠損状況記憶手段と、
　前記情報源種別別集計結果記憶手段に記憶された前記情報源種別j別の前記各トピックA,B,C…の活性度時系列データX＾ｊ_A（ｔ）,　X＾ｊ_B（ｔ）,　X＾ｊ_C（ｔ）…と前記情報源種別別欠損状況記憶手段に記憶された前記情報源種別j別のデータの欠損状況とを読み出し、データに欠損がある期間の前記情報源種別別の前記各トピックA,B,C…の活性度時系列データX＾ｊ_A（ｔ）,　X＾ｊ_B（ｔ）,　X＾ｊ_C（ｔ）…に対して補間や予測を行って、データに欠損がない場合の前記情報源種別j別の前記各トピックA,B,C…の活性度時系列データY＾ｊ_A（ｔ）,　Y＾ｊ_B（ｔ）,　Y＾ｊ_C（ｔ）…の値を推定して、情報源種別別補間予測結果記憶手段に出力する時系列補間予測手段と、
　前記情報源種別j別の前記各トピックA,B,C…の活性度時系列データの推定結果Y＾ｊ_A（ｔ）,　Y＾ｊ_B（ｔ）,　Y＾ｊ_C（ｔ）…を記憶する前記情報源種別別補間予測結果記憶手段と、
　前記情報源種別別補間予測結果記憶手段に記憶された前記情報源種別j別の前記各トピックA,B,C…の活性度時系列データの推定結果Y＾ｊ_A（ｔ）,　Y＾ｊ_B（ｔ）,　Y＾ｊ_C（ｔ）…を読み出し、出力する、結果出力手段とを、備えた、動的トピック分析システム。
　テキストデータ入力手段が、タイムスタンプつきテキスト群をテキストデータとしてテキストデータ記憶手段に入力するテキストデータ入力ステップと、
　前記テキストデータ記憶手段が、前記タイムスタンプつきテキスト群を前記テキストデータとして記憶するテキストデータ記憶ステップと、
　テキストグルーピング手段が、前記テキストデータ記憶手段に記憶された前記テキストデータを読み出し、前記テキストデータを同じような内容又はトピックを含むもの同士のグループにグルーピングし、各グループを各トピックとしてグルーピング結果記憶手段に出力するテキストグルーピングステップと、
　前記グルーピング結果記憶手段が、前記各グループを各トピックとして記憶するグルーピング結果記憶ステップと、
　タイムスタンプ集計手段が、前記グルーピング結果記憶手段に記憶された前記各トピックと、前記テキストデータ記憶手段に記憶された前記テキストデータとを読み出し、前記各トピックに属する前記テキストデータを期間帯ごとに集計し、あるトピックのある時点での盛り上がり度合いを、そのトピックのその時点での活性度として、前記各トピックの活性度時系列データを集計結果記憶手段に出力するタイムスタンプ集計ステップと、
　前記集計結果記憶手段が、前記各トピックの活性度時系列データを記憶する集計結果記憶ステップと、
　欠損状況入力手段が、動的トピック分析の対象としたいテキストデータや期間において、前記テキストデータ入力手段から入力されなかったデータや期間に関する情報を、データの欠損状況として欠損状況記憶手段に入力する欠損状況入力ステップと、
　前記欠損状況記憶手段が、前記データの欠損状況を記憶する欠損状況記憶ステップと、
　時系列補間予測手段が、前記集計結果記憶手段に記憶された前記各トピックの活性度時系列データと欠損状況記憶手段に記憶された前記データの欠損状況とを読み出し、データに欠損がある期間の前記各トピックの活性度時系列データに対して補間や予測を行って、データに欠損がない場合の前記各トピックの活性度時系列データの値を推定して、補間予測結果記憶手段に出力する時系列補間予測ステップと、
　前記補間予測結果記憶手段が、前記各トピックの活性度時系列データの推定結果を記憶する補間予測結果記憶ステップと、
　結果出力手段が、前記補間予測結果記憶手段に記憶された前記各トピックの活性度時系列データの推定結果を読み出し、出力する結果出力ステップとからなる、動的トピック分析方法。
　テキストデータ入力手段が、タイムスタンプと情報源種別の区別がついたテキスト群をテキストデータとしてテキストデータ記憶手段に入力するテキストデータ入力ステップと、
　前記テキストデータ記憶手段が、前記タイムスタンプと情報源種別の区別がついたテキスト群を前記テキストデータとして記憶するテキストデータ記憶ステップと、
　テキストグルーピング手段が、前記テキストデータ記憶手段に記憶された前記テキストデータを読み出し、前記テキストデータを同じような内容又はトピックを含むもの同士のグループにグルーピングし、各グループを各トピックとしてグルーピング結果記憶手段に出力するテキストグルーピングステップと、
　前記グルーピング結果記憶手段が、前記各グループを各トピックとして記憶するグルーピング結果記憶ステップと、
　情報源種別別タイムスタンプ集計手段が、前記グルーピング結果記憶手段に記憶された前記各トピックと、前記テキストデータ記憶手段に記憶された前記テキストデータとを読み出し、情報源種別別に前記各トピックに属する前記テキストデータを期間帯ごとに集計し、あるトピックのある時点での盛り上がり度合いを、そのトピックのその時点での活性度として、前記情報源種別別の前記各トピックの活性度時系列データを情報源種別別集計結果記憶手段に出力する情報源種別別タイムスタンプ集計ステップと、
　前記情報源種別別集計結果記憶手段が、前記情報源種別別の前記各トピックの活性度時系列データを記憶する情報源種別別集計結果記憶ステップと、
　欠損状況入力手段が、動的トピック分析の対象としたいテキストデータや期間において、前記テキストデータ入力手段から入力されなかったデータや期間に関する情報を、情報源種別別のデータの欠損状況として情報源種別別欠損状況記憶手段に入力する欠損状況入力ステップと、
　前記情報源種別別欠損状況記憶手段が、前記情報源種別別のデータの欠損状況を記憶する情報源種別別欠損状況記憶ステップと、
　時系列補間予測手段が、前記情報源種別別集計結果記憶手段に記憶された前記情報源種別別の前記各トピックの活性度時系列データと前記情報源種別別欠損状況記憶手段に記憶された前記情報源種別別のデータの欠損状況とを読み出し、データに欠損がある期間の前記情報源種別別の前記各トピックの活性度時系列データに対して補間や予測を行って、データに欠損がない場合の前記情報源種別別の前記各トピックの活性度時系列データの値を推定して、情報源種別別補間予測結果記憶手段に出力する時系列補間予測ステップと、
　前記情報源種別別補間予測結果記憶手段が、前記情報源種別別の前記各トピックの活性度時系列データの推定結果を記憶する情報源種別別補間予測結果記憶ステップと、
　結果出力手段が、前記情報源種別別補間予測結果記憶手段に記憶された前記情報源種別別の前記各トピックの活性度時系列データの推定結果を読み出し、出力する結果出力ステップとからなる、動的トピック分析方法。
　請求項１２記載の動的トピック分析方法において、さらに、
　再集計手段が、前記情報源種別別補間予測結果記憶手段に記憶された前記情報源種別別の前記各トピックの活性度時系列データを読み出し、情報源種別の区別をしないトータルの前記各トピックの活性度時系列データや、特定の情報源種別のみ区別をしない前記各トピックの部分的な活性度時系列データを計算して、補間予測結果記憶手段に出力する、再集計ステップと、
　前記補間予測結果記憶手段が、前記トータルの前記各トピックの活性度時系列データや、前記各トピックの部分的な活性度時系列データを記憶する補間予測結果記憶ステップと、
　結果出力手段が、前記補間予測結果記憶手段に記憶された前記トータルの前記各トピックの活性度時系列データや、前記各トピックの部分的な活性度時系列データを読み出し、出力する結果出力ステップとからなる、動的トピック分析方法。
　請求項１２または請求項１３に記載の動的トピック分析方法において、
　前記時系列補間予測手段は、時系列補間予測で用いている補間や予測のパラメータ、または、前記情報源種別別の前記各トピックの活性度時系列データの分布の学習結果、または、該学習結果から計算可能な量を、補間予測パラメータ記憶手段に出力するステップを有し、
　前記動的トピック分析方法は、さらに、
　前記補間予測パラメータ記憶手段が、前記補間や予測のパラメータ、または、前記学習結果、または、前記計算可能な量を、記憶する補間予測パラメータ記憶ステップと、
　情報源種別上位階層定義手段が、前記補間予測パラメータ記憶手段に記憶された前記補間や予測のパラメータ、または、前記学習結果、または、前記計算可能な量を読み出し、各情報源種別の補間や予測における性質を抽出し、前記性質を持つ情報源種別を選りだし、選りだされた情報源種別をおおくくりにして一つの新しい情報源種別の上位階層を定義し、定義された上位階層と前記選りだされた情報源種別の対応関係を定義結果記憶手段に出力する、情報源種別上位階層定義ステップと、
　前記定義結果記憶手段が、前記定義された上位階層と前記選りだされた情報源種別の対応関係を記憶する定義結果記憶ステップと、
　情報源種別上位階層出力手段が、前記定義結果記憶手段に記憶された前記定義された上位階層と前記選りだされた情報源種別の対応関係を読み出し、出力する情報源種別上位階層出力ステップとからなる、動的トピック分析方法。
　請求項１４記載の動的トピック分析方法において、
　前記情報源種別別タイムスタンプ集計手段は、前記グルーピング結果記憶手段に記憶された前記各トピックと、前記テキストデータ記憶手段に記憶された前記テキストデータと、前記定義結果記憶手段に記憶された前記定義された上位階層と前記選りだされた情報源種別の対応関係とを読み出し、情報源種別別に前記各トピックに属する前記テキストデータを期間帯ごとに集計し、前記情報源種別別の前記各トピックの活性度時系列データを情報源種別別集計結果記憶手段に出力する、ステップを有する、動的トピック分析方法。
　請求項１１に記載の動的トピック分析方法において、
　前記テキストデータ入力手段と、前記欠損状況入力手段とは、入力装置であり、
　前記テキストグルーピング手段と、前記タイムスタンプ集計手段と、前記時系列補完予測手段とは、中央処理装置であり、
　前記テキストデータ記憶手段と、前記グルーピング結果記憶手段と、前記集計結果記憶手段と、前記欠損状況記憶手段と、前記補完予測結果記憶手段とは、記憶装置であり、
　前記結果出力手段は、出力装置である、動的トピック分析方法。
　請求項１２に記載の動的トピック分析方法において、
　前記テキストデータ入力手段と、前記欠損状況入力手段とは、入力装置であり、
　前記テキストグルーピング手段と、前記情報源種別別タイムスタンプ集計手段と、前記時系列補完予測手段とは、中央処理装置であり、
　前記テキストデータ記憶手段と、前記グルーピング結果記憶手段と、前記情報源種別別集計結果記憶手段と、前記情報源種別別欠損状況記憶手段と、前記補完予測結果記憶手段とは、記憶装置であり、
　前記結果出力手段は、出力装置である、動的トピック分析方法。
　請求項１３に記載の動的トピック分析方法において、
　前記テキストデータ入力手段と、前記欠損状況入力手段とは、入力装置であり、
　前記テキストグルーピング手段と、前記情報源種別別タイムスタンプ集計手段と、前記時系列補完予測手段と、再集計手段とは、中央処理装置であり、
　前記テキストデータ記憶手段と、前記グルーピング結果記憶手段と、前記情報源種別別集計結果記憶手段と、前記情報源種別別欠損状況記憶手段と、前記情報源種別別補完予測結果記憶手段と、前記補完予測結果記憶手段とは、記憶装置であり、
　前記結果出力手段は、出力装置である、動的トピック分析方法。
　請求項１４または請求項１５に記載の動的トピック分析方法において、
　前記テキストデータ入力手段と、前記欠損状況入力手段とは、入力装置であり、
　前記テキストグルーピング手段と、前記情報源種別別タイムスタンプ集計手段と、前記時系列補完予測手段と、前記情報源種別上位階層定義手段と、再集計手段とは、中央処理装置であり、
　前記テキストデータ記憶手段と、前記グルーピング結果記憶手段と、前記情報源種別別集計結果記憶手段と、前記情報源種別別欠損状況記憶手段と、前記補間予測パラメータ記憶手段と、前記定義結果記憶手段と、前記情報源種別別補完予測結果記憶手段と、前記補完予測結果記憶手段とは、記憶装置であり、
　前記結果出力手段と、前記情報源種別上位階層出力手段とは、出力装置である、動的トピック分析方法。
　コンピュータを、
　タイムスタンプつきテキスト群をテキストデータとして記憶するテキストデータ記憶手段と、
　前記タイムスタンプつきテキスト群をテキストデータとして前記テキストデータ記憶手段に入力するテキストデータ入力手段と、
　前記テキストデータ記憶手段に記憶された前記テキストデータを読み出し、前記テキストデータを同じような内容又はトピックを含むもの同士のグループにグルーピングし、各グループを各トピックとしてグルーピング結果記憶手段に出力するテキストグルーピング手段と、
　前記各グループを各トピックとして記憶する前記グルーピング結果記憶手段と、
　前記グルーピング結果記憶手段に記憶された前記各トピックと、前記テキストデータ記憶手段に記憶された前記テキストデータとを読み出し、前記各トピックに属する前記テキストデータを期間帯ごとに集計し、あるトピックのある時点での盛り上がり度合いを、そのトピックのその時点での活性度として、前記各トピックの活性度時系列データを集計結果記憶手段に出力するタイムスタンプ集計手段と、
　前記各トピックの活性度時系列データを記憶する前記集計結果記憶手段と、
　動的トピック分析の対象としたいテキストデータや期間において、前記テキストデータ入力手段から入力されなかったデータや期間に関する情報を、データの欠損状況として欠損状況記憶手段に入力する欠損状況入力手段と、
　前記データの欠損状況を記憶する前記欠損状況記憶手段と、
　前記集計結果記憶手段に記憶された前記各トピックの活性度時系列データと欠損状況記憶手段に記憶された前記データの欠損状況とを読み出し、データに欠損がある期間の前記各トピックの活性度時系列データに対して補間や予測を行って、データに欠損がない場合の前記各トピックの活性度時系列データの値を推定して、補間予測結果記憶手段に出力する時系列補間予測手段と、
　前記各トピックの活性度時系列データの推定結果を記憶する前記補間予測結果記憶手段と、
　前記補間予測結果記憶手段に記憶された前記各トピックの活性度時系列データの推定結果を読み出し、出力する、結果出力手段として機能させるための、動的トピック分析プログラムを記録した媒体。
　コンピュータを、
　タイムスタンプと情報源種別の区別がついたテキスト群をテキストデータとして記憶するテキストデータ記憶手段と、
　前記タイムスタンプと情報源種別の区別がついたテキスト群をテキストデータとして前記テキストデータ記憶手段に入力するテキストデータ入力手段と、
　前記テキストデータ記憶手段に記憶された前記テキストデータを読み出し、前記テキストデータを同じような内容又はトピックを含むもの同士のグループにグルーピングし、各グループを各トピックとしてグルーピング結果記憶手段に出力するテキストグルーピング手段と、
　前記各グループを各トピックとして記憶する前記グルーピング結果記憶手段と、
　前記グルーピング結果記憶手段に記憶された前記各トピックと、前記テキストデータ記憶手段に記憶された前記テキストデータとを読み出し、情報源種別別に前記各トピックに属する前記テキストデータを期間帯ごとに集計し、あるトピックのある時点での盛り上がり度合いを、そのトピックのその時点での活性度として、前記情報源種別別の前記各トピックの活性度時系列データを情報源種別別集計結果記憶手段に出力する情報源種別別タイムスタンプ集計手段と、
　前記情報源種別別の前記各トピックの活性度時系列データを記憶する前記情報源種別別集計結果記憶手段と、
　動的トピック分析の対象としたいテキストデータや期間において、前記テキストデータ入力手段から入力されなかったデータや期間に関する情報を、情報源種別別のデータの欠損状況として情報源種別別欠損状況記憶手段に入力する欠損状況入力手段と、
　前記情報源種別別のデータの欠損状況を記憶する前記情報源種別別欠損状況記憶手段と、
　前記情報源種別別集計結果記憶手段に記憶された前記情報源種別別の前記各トピックの活性度時系列データと前記情報源種別別欠損状況記憶手段に記憶された前記情報源種別別のデータの欠損状況とを読み出し、データに欠損がある期間の前記情報源種別別の前記各トピックの活性度時系列データに対して補間や予測を行って、データに欠損がない場合の前記情報源種別別の前記各トピックの活性度時系列データの値を推定して、情報源種別別補間予測結果記憶手段に出力する時系列補間予測手段と、
　前記情報源種別別の前記各トピックの活性度時系列データの推定結果を記憶する前記情報源種別別補間予測結果記憶手段と、
　前記情報源種別別補間予測結果記憶手段に記憶された前記情報源種別別の前記各トピックの活性度時系列データの推定結果を読み出し、出力する、結果出力手段として機能させるための、動的トピック分析プログラムを記録した媒体。
　請求項２１記載の動的トピック分析プログラムを記録した媒体において、
　コンピュータを、さらに、
　前記情報源種別別補間予測結果記憶手段に記憶された前記情報源種別別の前記各トピックの活性度時系列データを読み出し、情報源種別の区別をしないトータルの前記各トピックの活性度時系列データや、特定の情報源種別のみ区別をしない前記各トピックの部分的な活性度時系列データを計算して、補間予測結果記憶手段に出力する、再集計手段と、
　前記トータルの前記各トピックの活性度時系列データや、前記各トピックの部分的な活性度時系列データを記憶する前記補間予測結果記憶手段と、
　前記補間予測結果記憶手段に記憶された前記トータルの前記各トピックの活性度時系列データや、前記各トピックの部分的な活性度時系列データを読み出し、出力する、結果出力手段として機能させるための、動的トピック分析プログラムを記録した媒体。
　請求項２１または請求項２２に記載の動的トピック分析プログラムを記録した媒体において、
　前記時系列補間予測手段は、時系列補間予測で用いている補間や予測のパラメータ、または、前記情報源種別別の前記各トピックの活性度時系列データの分布の学習結果、または、該学習結果から計算可能な量を、補間予測パラメータ記憶手段に出力し、
　前記動的トピック分析プログラムは、さらに、
　コンピュータを、さらに、
　前記補間や予測のパラメータ、または、前記学習結果、または、前記計算可能な量を、記憶する前記補間予測パラメータ記憶手段と、
　前記補間予測パラメータ記憶手段に記憶された前記補間や予測のパラメータ、または、前記学習結果、または、前記計算可能な量を読み出し、各情報源種別の補間や予測における性質を抽出し、前記性質を持つ情報源種別を選りだし、選りだされた情報源種別をおおくくりにして一つの新しい情報源種別の上位階層を定義し、定義された上位階層と前記選りだされた情報源種別の対応関係を定義結果記憶手段に出力する、情報源種別上位階層定義手段と、
　前記定義された上位階層と前記選りだされた情報源種別の対応関係を記憶する前記定義結果記憶手段と、
　前記定義結果記憶手段に記憶された前記定義された上位階層と前記選りだされた情報源種別の対応関係を読み出し、出力する情報源種別上位階層出力手段として機能させるための、動的トピック分析プログラムを記録した媒体。
　請求項２３記載の動的トピック分析プログラムを記録した媒体において、
　前記情報源種別別タイムスタンプ集計手段は、前記グルーピング結果記憶手段に記憶された前記各トピックと、前記テキストデータ記憶手段に記憶された前記テキストデータと、前記定義結果記憶手段に記憶された前記定義された上位階層と前記選りだされた情報源種別の対応関係とを読み出し、情報源種別別に前記各トピックに属する前記テキストデータを期間帯ごとに集計し、前記情報源種別別の前記各トピックの活性度時系列データを情報源種別別集計結果記憶手段に出力する、動的トピック分析プログラムを記録した媒体。