WO2016027364A1

WO2016027364A1 - 話題クラスタ選択装置、及び検索方法

Info

Publication number: WO2016027364A1
Application number: PCT/JP2014/071987
Authority: WO
Inventors: 恵木　正史; 川本　真一
Original assignee: 株式会社日立製作所
Priority date: 2014-08-22
Filing date: 2014-08-22
Publication date: 2016-02-25

Abstract

　投稿された複数の投稿情報を収集する投稿情報収集部と、収集された複数の投稿情報が話題ごとにクラスタリングされた話題クラスタを管理する話題クラスタ管理部と、検索条件の入力を受け付ける検索条件入力受付部と、検索条件入力受付部が入力を受け付けた検索条件に適合する少なくとも一つの話題クラスタを選択する話題クラスタ選択部と、話題クラスタの内容の要約を作成する要約作成部と、話題クラスタ選択部によって選択された少なくとも一つの話題クラスタの要約を検索条件の検索結果として表示する検索結果表示部と、を備えることを特徴とする話題クラスタ選択装置。

Description

話題クラスタ選択装置、及び検索方法

　本発明は、投稿情報を検索する話題クラスタ選択装置に関する。

　近年、時々刻々と投稿情報が投稿されるマイクロブログをリアルタイムに監視する技術が注目されている。ユーザが投稿する投稿情報は、ポジティブな話題だけでなく、企業等に損害を与えるようなネガティブな話題も含む。投稿情報はひとたび投稿されると、瞬時に広がる傾向にある。このため、ネガティブな話題の投稿情報への企業等による対策が遅れると、取り返しのつかない事態に陥るリスクがある。そこで、マイクロブログの投稿情報を監視し、企業等のリスクとなる話題の発生を監視し、対策を講じるニーズが増加している。

　また、ユーザが投稿する投稿情報は、ユーザが体験した地震及び公共交通機関の遅延、並びにユーザの目の前で起きた事件及び事故等の話題を含む。警察、自治体、インフラ系企業、及びメディア系企業等には、マイクロブログの投稿情報を監視し、このような話題の発生を監視し、対策を講じるニーズがある。

　テレビ番組の番組表情報等からキーワードを抽出する技術として、特開２００９－３８８８号公報（以下、特許文献１）がある。特許文献１の公報には、「話題をサブ話題に細分化し、サブ話題を代表するキーワードを抽出して提示する。指定期間に入力された複数の文書の各々に含まれるキーワードを解析することにより、各文書が表す単語ベクトルを求めるキーワード解析手段と、前記複数の文書における文書の組において同じ話題に属する話題クラスタを抽出する話題クラスタ抽出手段と、前記話題クラスタから出現頻度の高い順に所定個数のキーワードを特徴的なキーワード群として抽出するキーワード抽出手段と、文書の数、文書に含まれる日付の分散、文書に含まれるキーワードのＣ－ｖａｌｕｅの値のいずれかの判定基準によって前記話題クラスタをサブ話題の話題クラスタに分割することにより、話題を構造化可能であるかを判定する話題構造化判定手段と、前記サブ話題クラスタにおいて前記特徴的なキーワード群を日時情報に基づいて並べて提示するキーワード提示手段と、を備える。」と記載されている（要約参照）。

特開２００９－３８８８号公報

　特許文献１に記載された技術は、インターネット上のＷｅｂページのニュース記事などを対象に、流行している話題やその時間変化をキーワードとその変遷として抽出する。マイクロブログに含まれる話題の数は、ニュース記事に含まれる話題の数より桁違いに多い。このため、キーワードが提示されたとしても、管理者が監視したい話題の有無を確認することは困難である。また、マイクロブログの話題は多岐に渡り、表現の自由度も非常に高い。このため、管理者が提示されたキーワードから内容を把握することは困難である。

　本発明は、投稿情報から管理者が所望する話題を抽出し、抽出した話題を管理者に把握しやすい態様で表示する話題クラスタ選択装置を提供することを目的とする。

　上記課題を解決するために、本発明は、投稿された複数の投稿情報を収集する投稿情報収集部と、前記収集された複数の投稿情報が話題ごとにクラスタリングされた話題クラスタを管理する話題クラスタ管理部と、検索条件の入力を受け付ける検索条件入力受付部と、前記検索条件入力受付部が入力を受け付けた検索条件に適合する少なくとも一つの話題クラスタを選択する話題クラスタ選択部と、前記話題クラスタの内容の要約を作成する要約作成部と、前記話題クラスタ選択部によって選択された少なくとも一つの話題クラスタの要約を前記検索条件の検索結果として表示する検索結果表示部と、を備える。

　本発明によれば、マイクロブログ等の投稿情報から管理者が所望する話題を抽出し、抽出した話題を管理者に把握しやすい態様で表示する話題クラスタ選択装置を提供できる。

　上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。

実施例の計算機システムの説明図である。実施例のマイクロブログテーブルの説明図である。実施例の話題クラスタテーブルの説明図である。実施例の代表マイクロブログテーブルの説明図である。実施例の話題クラスタ対応付けテーブルの説明図である。実施例のスーパー話題クラスタテーブルの説明図である。実施例のあるスーパー話題クラスタの時間帯毎の変遷の説明図である。実施例の検索前段階処理のフローチャートである。実施例の話題クラスタ生成処理のフローチャートである。実施例のマイクロブログの特徴ベクトルの算出処理及びマイクロブログ同士の類似度の算出処理の説明図である。実施例のクラスタリング処理のフローチャートである。実施例のクラスタリング処理の説明図である。実施例の時間帯を跨ぐ話題クラスタの対応付け処理の説明図である。実施例の時間帯を跨ぐ話題クラスタがクラスタリングされるスーパー話題クラスタの説明図である。実施例の検索処理のフローチャートである。実施例の検索結果表示画面の説明図である。実施例の検索結果表示画面に含まれる話題変化表示領域の説明図である。

　以下、図面を参照しつつ、本発明を実施するための形態を説明する。説明の明確化のため、以下の記載及び図面は、適宜、省略及び簡略化がなされている。また、各図面において、同一要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略されている。

　図１は、実施例の計算機システムの説明図である。

　本実施例の計算機システムは、話題クラスタ選択装置１００、マイクロブログサーバ１３０、及びユーザ端末１４０を有する。話題クラスタ選択装置１００、マイクロブログサーバ１３０、及びユーザ端末１４０は、ネットワーク１５０を介して接続される。

　ユーザ端末１４０は、例えば、ＰＣ（パーソナルコンピュータ）又は携帯端末（例えば、スマートフォン等）等であり、ユーザから投稿情報の入力を受け付け、入力を受け付けた投稿情報をマイクロブログサーバ１３０に送信する。マイクロブログサーバ１３０は、マイクロブログのサービスを提供する計算機であり、ユーザ端末１４０から受信した投稿情報を記憶する。

　話題クラスタ選択装置１００は、マイクロブログサーバ１３０に記憶された投稿情報を収集する。また、話題クラスタ選択装置１００は、収集した投稿情報を同じ話題ごとにクラスタリングする。話題ごとにクラスタリングされた投稿情報の集合を話題クラスタという。また、話題クラスタ選択装置１００は、検索条件の入力を受け付け、話題クラスタから検索条件に適合する話題クラスタを選択し、選択した話題クラスタの要約を図示しない出力デバイス（例えば、ディスプレイ等）に表示する。

　話題クラスタ選択装置１００の詳細について説明する。話題クラスタ選択装置１００は、プロセッサ（ＣＰＵ）１１０及び記憶装置１２０を有する。

　プロセッサ１１０は、記憶装置１２０に記憶された各種情報を読み書きし、記憶装置１２０に記憶された各種プログラムを実行する。記憶装置１２０は例えばメモリ等である。プロセッサ１１０は、投稿情報収集部１１１、話題クラスタ管理部１１２、要約作成部１１３、検索条件入力受付部１１４、話題クラスタ選択部１１５、及び検索結果表示部１１６を有する。記憶装置１２０にはこれらに対応するプログラムが記憶され、プロセッサ１１０は、記憶装置１２０に記憶されたプログラムを実行することによって、投稿情報収集部１１１、話題クラスタ管理部１１２、要約作成部１１３、検索条件入力受付部１１４、話題クラスタ選択部１１５、及び検索結果表示部１１６が実現される。

　また、記憶装置１２０には、マイクロブログテーブル１２１、話題クラスタテーブル１２２、代表マイクロブログテーブル１２３、話題クラスタ対応付けテーブル１２４、及びスーパー話題クラスタテーブル１２５が記憶される。

　投稿情報収集部１１１は、マイクロブログサーバ１３０に記憶された投稿情報を所定のタイミングで収集する。話題クラスタ管理部１１２は、投稿情報収集部１１１が収集した投稿情報を話題ごとにクラスタリングし、話題クラスタを生成する。要約作成部１１３は、話題クラスタ管理部１１２によって生成された各話題クラスタの要約を作成する。投稿情報収集部１１１、話題クラスタ管理部１１２、及び要約作成部１１３の処理は、図７～図１２Ｂで詳細に説明する。

　検索条件入力受付部１１４は、図示しない入力デバイスから検索条件の入力を受け付ける。検索条件は、例えば、キーワードとなる検索式を含み、検索結果を表示する形式（ランキング形式）を含んでもよい。入力デバイスは、話題クラスタ選択装置１００に接続された例えばキーボード及びマウス等であってもよいし、話題クラスタ選択装置１００にネットワーク１５０を介して接続された端末（ＰＣ又は携帯端末等）であってもよい。

　話題クラスタ選択部１１５は、入力された検索条件に適合する少なくとも一つの話題クラスタを選択する。検索結果表示部１１６は、話題クラスタ選択部１１５によって選択された話題クラスタの要約を含む検索結果表示画面１４００（図１４参照）を図示しない出力デバイスに表示する。出力デバイスは、話題クラスタ選択装置１００に接続されたディスプレイ等であってもよいし、話題クラスタ選択装置１００にネットワーク１５０を介して接続された端末（ＰＣ又は携帯端末等）であってもよい。

　マイクロブログテーブル１２１には、投稿情報の属性情報（投稿日時、投稿位置、投稿者等）及び投稿情報の文書情報が登録される。マイクロブログテーブル１２１は、図２で詳細に説明する。話題クラスタテーブル１２２には、話題クラスタの識別情報と当該話題クラスタにクラスタリングされたマイクロブログ（投稿情報）の識別情報との対応付けが登録される。マイクロブログテーブル１２１は、図３で詳細に説明する。代表マイクロブログテーブル１２３には、話題クラスタの識別情報と当該話題クラスタの内容を要約するマイクロブログ（代表マイクロブログ）の識別情報との対応付けが登録される。代表マイクロブログテーブル１２３は、図４で詳細に説明する。

　話題クラスタ対応付けテーブル１２４には、時間帯が異なる話題クラスタ間で対応する話題クラスタ同士の対応付けが登録される。話題クラスタ対応付けテーブル１２４は、図５で詳細に説明する。スーパー話題クラスタテーブル１２５には、時間帯を跨いで対応する話題クラスタの変遷が登録される。スーパー話題クラスタテーブル１２５は、図６Ａ及び図６Ｂで詳細に説明する。

　図２は、実施例のマイクロブログテーブル１２１の説明図である。

　マイクロブログテーブル１２１は、マイクロブログＩＤ２０１、投稿日時２０２、位置座標２０３、投稿者２０４、及び内容２０５を含む。

　マイクロブログＩＤ２０１には、ユーザが投稿したマイクロブログの識別情報が登録される。投稿日時２０２には、ユーザがマイクロブログを投稿した日時が登録される。位置座標２０３には、ユーザがマイクロブログを投稿した場所の位置座標が登録される。投稿者２０４には、マイクロブログを投稿したユーザの識別情報が登録される。内容２０５には、ユーザが投稿したマイクロブログの内容を示す文書情報が登録される。

　マイクロブログテーブル１２１は、投稿情報収集部１１１がマイクロブログを収集した場合に更新される。

　図３は、実施例の話題クラスタテーブル１２２の説明図である。

　話題クラスタテーブル１２２は、マイクロブログＩＤ３０１、及び話題クラスタＩＤ３０２を含む。

　マイクロブログＩＤ３０１にはマイクロブログの識別情報が登録される。話題クラスタＩＤ３０２には話題クラスタの識別情報が登録される。あるマイクロブログがある話題クラスタにクラスタリングされる場合、当該マイクロブログＩＤのレコードのカラムのうちマイクロブログがクラスタリングされた話題クラスタの識別情報に対応するカラムに「１」が登録される。例えば、マイクロブログＩＤ「ＭＩＤ００１００１」は話題クラスタＩＤ「ＣＩＤ００１００１」にクラスタリングされるため、マイクロブログＩＤ「ＭＩＤ００１００１」のレコードの話題クラスタＩＤ「ＣＩＤ００１００１」に対応するカラムには「１」が登録され、他のカラムには「０」が登録される。

　話題クラスタテーブル１２２は、話題クラスタ管理部１１２がマイクロブログを話題クラスタにクラスタリングした場合に更新される。

　図４は、実施例の代表マイクロブログテーブル１２３の説明図である。

　代表マイクロブログテーブル１２３は、話題クラスタＩＤ４０１、及び代表マイクロブログＩＤ４０２を含む。

　話題クラスタＩＤ４０１には話題クラスタの識別情報が登録される。代表マイクロブログＩＤ４０２には話題クラスタの内容を要約するマイクロブログ、すなわち、話題クラスタを代表するマイクロブログの識別情報が登録される。

　代表マイクロブログテーブル１２３は、要約作成部１１３が話題クラスタの要約となるマイクロブログを決定した場合に更新される。

　図５は、実施例の話題クラスタ対応付けテーブル１２４の説明図である。

　話題クラスタ対応付けテーブル１２４は、ある時間帯の話題クラスタＩＤ（ｔ１の話題クラスタＩＤ）５０１、及びある時間帯の次の時間帯の話題クラスタＩＤ（ｔ２の話題クラスタＩＤ）５０２を含む。

　ある時間帯（ｔ１）のある話題クラスタと次の時間帯（ｔ２）のある話題クラスタとが対応する場合、時間帯（ｔ１）の当該話題クラスタのレコードの時間帯（ｔ２）の当該話題クラスタに対応するカラムに「１」が登録される。例えば、時間帯（ｔ１）の話題クラスタＩＤ「ＣＩＤ００１００１」は時間帯（ｔ２）の話題クラスタＩＤ「ＣＩＤ００２００１」と対応するため、話題クラスタＩＤ「ＣＩＤ００１００１」のレコードの話題クラスタＩＤ「ＣＩＤ００２００１」に対応するカラムには「１」が登録され、他のカラムには「０」が登録される。

　話題クラスタ対応付けテーブル１２４は、話題クラスタ管理部１１２がある時間帯の話題クラスタが次の時間帯の話題クラスタと対応すると判定した場合に更新される。

　図６Ａは、実施例のスーパー話題クラスタテーブル１２５の説明図である。

　スーパー話題クラスタテーブル１２５は、各時間帯の話題クラスタＩＤ６０１Ａ～６０１Ｃ、及びスーパー話題クラスタＩＤ６０２を含む。

　スーパー話題クラスタは、時間帯を跨いで対応する話題クラスタを集約したものである。各時間帯の話題クラスタＩＤ６０１Ａ～６０１Ｃには、各時間帯の話題クラスタの識別情報が登録される。例えば、ｔ１の話題クラスタ６０１Ａには、時間帯（ｔ１）の話題クラスタの識別情報が登録される。スーパー話題クラスタＩＤ６０２には、スーパー話題クラスタの識別情報が登録される。

　各時間帯に属する話題クラスタＩＤ６０１Ａ～６０１Ｃのレコードのスーパー話題クラスタＩＤ６０２に対応するカラムには、各話題クラスタとスーパー話題クラスタとの関係を示す情報が登録される。当該カラムに「ｎｅｗ」が登録された場合、当該カラムに対応するスーパー話題クラスタの識別情報内で新たな話題が当該レコードの話題クラスタによって発生したことを示す。また、当該カラムに「Ｃｏｎｎｅｃｔ　ｆｒｏｍ　話題クラスタの識別情報」等が登録された場合、当該レコードの話題クラスタと当該カラムに登録された話題クラスタの識別情報によって識別される話題クラスタとが対応し、これらの話題クラスタは同じスーパー話題クラスタにクラスタリングされることを示す。また、当該カラムに「０」が登録された場合、当該レコードの話題クラスタは、当該カラムに対応するスーパー話題クラスタにはクラスタリングされていないことを示す。

　図６Ｂは、実施例のあるスーパー話題クラスタの時間帯毎の話題の変遷の説明図である。

　図６Ｂでは、図６Ａに示す識別情報が「ＳＩＤ００００１」であるスーパー話題クラスタの話題の変遷について説明する。

　図６Ａに示す時間帯（ｔ１）では、話題クラスタ「ＣＩＤ００１００１」のレコードのスーパー話題クラスタ「ＳＩＤ００００１」に対応するカラムに「ｎｅｗ」が登録されている。このため、時間帯（ｔ１）で新たな話題が発生する。

　次に、図６Ａに示す時間帯（ｔ２）では、話題クラスタ「ＣＩＤ００２００１」及び「ＣＩＤ００２００２」のレコードのスーパー話題クラスタ「ＳＩＤ００００１」に対応するカラムに「Ｃｏｎｎｅｃｔ　ｆｒｏｍ　ＣＩＤ００１００１」が登録されている。このため、時間帯（ｔ２）の話題クラスタ「ＣＩＤ００２００１」及び「ＣＩＤ００２００２」は、時間帯（ｔ１）の話題クラスタ「ＣＩＤ００１００１」と対応する。すなわち、時間帯（ｔ１）の話題クラスタ「ＣＩＤ００１００１」の話題は、時間帯（ｔ２）で話題クラスタ「ＣＩＤ００２００１」及び「ＣＩＤ００２００２」の話題に分離する。

　また、図６Ａに示す時間帯（ｔ２）では、話題クラスタ「ＣＩＤ００２００４」のレコードのスーパー話題クラスタ「ＳＩＤ００００１」に対応するカラムに「ｎｅｗ」が登録されている。このため、時間帯（ｔ２）で新たな話題が発生する。

　また、同様に、図６Ａに示す時間帯（ｔ３）では、話題クラスタ「ＣＩＤ００３００１」は、時間帯（ｔ２）の話題クラスタ「ＣＩＤ００２００１」と対応する。また、話題クラスタ「ＣＩＤ００３００３」は、時間帯（ｔ２）の話題クラスタ「ＣＩＤ００２００２」及び「ＣＩＤ００２００４」と対応する。すなわち、時間帯（ｔ２）の話題クラスタ「ＣＩＤ００２００２」及び「ＣＩＤ００２００４」の話題は、時間帯（ｔ３）で話題クラスタ「ＣＩＤ００３００３」の話題に結合する。

　話題クラスタ「ＣＩＤ００１００１」、「ＣＩＤ００２００１」、「ＣＩＤ００２００２」、「ＣＩＤ００２００４」、「ＣＩＤ００３００１」、及び「ＣＩＤ００３００３」は、対応する話題であり、スーパー話題クラスタ「ＳＩＤ０００１」にクラスタリングされる。

　図７は、実施例の検索前段階処理のフローチャートである。

　検索前段階処理は、投稿情報収集部１１１、話題クラスタ管理部１１２、及び要約作成部１１３の処理である。

　まず、投稿情報収集部１１１は、所定のタイミングで、マイクロブログを前回収集した時刻以降に投稿されたマイクロブログをマイクロブログサーバ１３０から収集する（７０１）。所定のタイミングは、例えば、マイクロブログを前回収集してから所定時間経過したタイミングである。投稿情報収集部１１１は、ステップ７０１の処理で収集したマイクロブログに関する情報をマイクロブログテーブル１２１に登録する。

　次に、話題クラスタ管理部１１２はステップ７０１の処理で収集したマイクロブログを話題ごとにクラスタリングし、話題クラスタを生成し、要約作成部１１３はマイクロブログがクラスタリングされた話題クラスタの要約を生成する（７０２）。ステップ７０２の処理は、話題クラスタ生成処理といい、図８で詳細を説明する。話題クラスタ管理部１１２は、ステップ７０１の処理で収集されたマイクロブログのレコードを話題クラスタテーブル１２２に追加し、当該マイクロブログが分類された話題クラスタの識別情報に対応するカラムに「１」を登録する。また、要約作成部１１３は、ステップ７０２の処理で要約が生成された話題クラスタの代表マイクロブログテーブル１２３のレコードの代表マイクロブログＩＤ４０２のカラムに、要約となるマイクロブログの識別情報を登録する。

　次に、話題クラスタ管理部１１２は、前回（時間帯（ｔ－１））生成した話題クラスタと今回（時間帯（ｔ））生成した話題クラスタとの間で類似度がしきい値より大きい話題クラスタの組み合わせを対応付ける（７０３）。ステップ７０３の処理は、ステップ７０２の処理の話題クラスタを生成する処理と同様の処理を用いることができる。ここで、前回生成された話題クラスタと今回生成された話題クラスタとの間で類似度がしきい値より大きい話題クラスタの組み合わせとは、時間帯を跨いで対応する話題クラスタの組み合わせである。

　なお、話題クラスタ管理部１１２は、ステップ７０３の処理で前回生成された話題クラスタと今回生成された話題クラスタとの対応付けを話題クラスタ対応付けテーブル１２４に登録する。

　次に、話題クラスタ管理部１１２は、過去から現在までの話題クラスタの対応付けに基づいて、時間帯を跨いで対応する話題クラスタをスーパー話題クラスタにクラスタリングし（７０４）、検索前段階処理を終了する。ステップ７０４の処理は、図１２Ａ及び図１２Ｂで詳細に説明する。話題クラスタ管理部１１２は、スーパー話題クラスタテーブル１２５のスーパー話題クラスタに分類された話題クラスタのレコードの、当該話題クラスタが分類されたスーパー話題クラスタの識別情報に対応するカラムに対応関係を登録する。

　なお、検索前段階処理は、投稿情報収集部１１１のマイクロブログの収集処理を中止するボタン等が操作された場合には中止されるまで、マイクロブログを収集してから所定時間経過するたびに実行される。

　図８は、実施例の話題クラスタ生成処理のフローチャートである。

　話題クラスタ管理部１１２は、ステップ７０１の処理で収集された各マイクロブログの文書情報、及び属性情報の少なくとも一つに基づいて特徴ベクトルを算出する（８０１）。マイクロブログの文書情報に基づく特徴ベクトルの算出処理は、図９で詳細に説明する。

　次に、話題クラスタ管理部１１２は、ステップ８０１の処理で算出された各マイクロブログの特徴ベクトルの類似度を算出し、算出した類似度がしきい値より大きいマイクロブログをクラスタリングすることによって、話題クラスタを生成する（８０２）。話題クラスタ管理部１１２は、類似度がしきい値より大きいマイクロブログが存在しなくなるまで、ステップ８０２の処理を繰り返し実行する。類似度がしきい値より大きいマイクロブログが存在しなくなった時点でクラスタリングされているマイクロブログの集合を話題クラスタという。ステップ８０２の処理はクラスタリング処理といい、図１０で詳細に説明する。

　次に、要約作成部１１３は、ステップ８０２の処理で生成された話題クラスタの代表マイクロブログを選択し、選択した代表マイクロブログの文書情報を当該話題クラスタの要約とし（８０３）、話題クラスタ生成処理を終了する。

　代表マイクロブログの選択方法について説明する。要約作成部１１３は、話題クラスタにクラスタリングされたマイクロブログの特徴ベクトルの統計量に基づいて代表マイクロブログを選択してもよい。例えば、要約作成部１１３は、話題クラスタにクラスタリングされたマイクロブログの特徴ベクトルの特徴空間において重心に最も近い特徴ベクトルのマイクロブログを代表マイクロブログとして選択してもよい。これによって、話題クラスタまた、要約作成部１１３は、話題クラスタにクラスタリングされたマイクロブログのうち投稿日時が最新のマイクロブログを代表マイクロブログとして選択してもよい。

　図９は、実施例のマイクロブログの特徴ベクトルの算出処理及びマイクロブログ同士の類似度の算出処理の説明図である。

　まず、マイクロブログの特徴ベクトルの算出処理について説明する。図９では、特徴ベクトルをマイクロブログの文書情報に含まれる単語に基づいて特徴ベクトルを算出する場合について説明する。なお、本実施例では単語に基づいた特徴ベクトルを説明しているが、特徴ベクトルに投稿情報の各種属性情報（投稿日時、位置座標など）を含めても良い。

　図９では、「Ｎ」はステップ７０１の処理で収集されたマイクロブログの数を示す。「Ｌ」はステップ７０１の処理で収集されたマイクロブログに含まれる単語の種数を示す。「Ｗ_ｉｊ」は、マイクロブログｉに含まれる単語ｊの数を示す。「ｄｆ（ｗ）」は単語ｗを含むマイクロブログの数を示す。

　マイクロブログｉの特徴ベクトルは、図９の数式１に示す特徴量によって構成される。特徴量はステップ７０１の処理で収集されたマイクロブログに含まれるＬ個の単語それぞれについて算出される。各単語の特徴量は、図９の数式２に基づいて算出される。また、マイクロブログｉとマイクロブログｊとの類似度は、図９の数式３に基づいて算出される。

　類似度が大きければ大きいほど、マイクロブログｉとマイクロブログｊとに同じ単語が含まれることを示し、マイクロブログｉの話題とマイクロブログｊの話題とが類似することを示す。本実施例では、マイクロブログｉとマイクロブログｊとの類似度がしきい値より大きい場合、マイクロブログｉとマイクロブログｊとが対応付けられる。

　図１０は、実施例のクラスタリング処理のフローチャートである。

　まず、話題クラスタ管理部１１２は、ステップ７０１の処理で収集されたマイクロブログの数をＮに設定し、ステップ８０１の処理で算出された各マイクロブログの特徴ベクトルをｘ［１］，・・・，ｘ［Ｎ］に設定し、各マイクロブログに対応する話題クラスタ（Ｃ［１］＝｛１｝，・・・，Ｃ［Ｎ］＝｛Ｎ｝）を設定する（１００１）。例えば、話題クラスタＣ［１］はマイクロブログ１に対応する。

　次に、話題クラスタ管理部１１２は、ステップ７０１の処理で収集されたマイクロブログの全ての組み合わせの類似度を算出し、類似度行列を生成する（１００２）。なお、マイクロブログ同士の類似度は、図９の数式３に基づいて算出される。

　次に、話題クラスタ管理部１１２は、類似度が最大となるマイクロブログの組み合わせ（マイクロブログｉ，ｊ）を選択する（１００３）。そして、話題クラスタ管理部１１２は、ステップ１００３の処理で選択されたマイクロブログｉ及びｊの類似度がしきい値より大きいか否かを判定する（１００４）。

　ステップ１００４の処理で類似度がしきい値より大きいと判定された場合、話題クラスタ管理部１１２は、選択した二つのマイクロブログ（マイクロブログｉ，ｊ）に対応する話題クラスタ（Ｃ［ｉ］，Ｃ［ｊ］）の和集合を一方の話題クラスタ（Ｃ［ｉ］）に設定し、当該一方のマイクロブログｉの特徴ベクトル（ｘ［ｉ］）と他方のマイクロブログｊの特徴ベクトル（ｘ［ｊ］）との加算結果を当該一方のマイクロブログｉの特徴ベクトル（ｘ［ｉ］）に新たに設定する（１００５）。選択した二つのマイクロブログに対応する話題クラスタの和集合を一方の話題クラスタに設定することによって、選択した二つのマイクロブログが話題クラスタにクラスタリングされる。

　次に、話題クラスタ管理部１１２は、他方のマイクロブログｊに対応する話題クラスタ（Ｃ［ｊ］）及び当該他方のマイクロブログｊの特徴ベクトル（ｘ［ｊ］）を削除し（１００６）、ステップ１００２の処理に戻り、マイクロブログの全ての組み合わせの類似度を再度算出する。

　一方、ステップ１００３の処理で類似度がしきい値以下であると判定された場合、類似度がしきい値より大きくなるマイクロブログの組み合わせが存在せず、話題クラスタにクラスタリングできるマイクロブログが存在しないため、クラスタリング処理を終了する。

　図１１は、実施例のクラスタリング処理の説明図である。

　図７に示すステップ７０１の処理でマイクロブログ１～５が収集されたものとする。図１０に示すステップ１００１の処理で、マイクロブログ１～５に対応する話題クラスタＣ［１］～Ｃ［５］が設定され、各マイクロブログ１～５の特徴ベクトルｘ［１］～ｘ［５］が算出される。図１１に示す（ａ）では、特徴ベクトルｘ［１］～ｘ［５］が特徴空間上にプロットされている。

　図１１に示す（ａ）では類似度が最大となるマイクロブログの組み合わせとしてマイクロブログ２及び５が選択される。マイクロブログ２及び５の類似度がしきい値より大きいと判定され、話題クラスタＣ［２］に話題クラスタＣ［２］及びＣ［５］の和集合が設定されることによって、マイクロブログ２及び５が話題クラスタＣ［２］にクラスタリングされ、特徴ベクトルｘ［２］に特徴ベクトルｘ［２］及びｘ［５］の加算結果が設定される。また、話題クラスタＣ［５］及び特徴ベクトルｘ［５］が削除される。特徴ベクトルｘ［２］の値が更新されたので、ステップ１００２の処理に戻り、再度類似度行列が算出される。

　図１１に示す（ｂ）では、話題クラスタＣ［２］にはマイクロブログ２及び５がクラスタリングされ、話題クラスタＣ［５］が削除されている。（ｂ）では、類似度が最大となるマイクロブログの組み合わせとしてマイクロブログ３及び４が選択される。

　マイクロブログ３及び４の類似度がしきい値より大きいと判定され、話題クラスタＣ［３］に話題クラスタＣ［３］及びＣ［４］の和集合が設定されることによって、マイクロブログ３及び４が話題クラスタＣ［３］にクラスタリングされ、特徴ベクトルｘ［３］に特徴ベクトルｘ［３］及びｘ［４］の加算結果が設定される。また、話題クラスタＣ［４］及び特徴ベクトルｘ［４］が削除される。特徴ベクトルｘ［３］の値が更新されたので、ステップ１００２の処理に戻り、再度類似度行列が算出される。

　図１１に示す（ｃ）では、話題クラスタＣ［３］にはマイクロブログ３及び４がクラスタリングされ、話題クラスタＣ［４］が削除されている。（ｃ）では、類似度が最大となる話題クラスタの組み合わせとして話題クラスタＣ［１］及びＣ［２］が選択される。

　話題クラスタＣ［１］及びＣ［２］の類似度がしきい値より大きいと判定され、話題クラスタＣ［１］に話題クラスタＣ［１］及びＣ［２］の和集合が設定されることによって、マイクロブログ１、２及び５が話題クラスタＣ［１］にクラスタリングされ、特徴ベクトルｘ［１］に特徴ベクトルｘ［１］及びｘ［２］の加算結果が設定される。また、話題クラスタＣ［２］及び特徴ベクトルｘ［２］が削除される。特徴ベクトルｘ［１］の値が更新されたので、ステップ１００２の処理に戻り、再度類似度行列が算出される。

　図１１に示す（ｄ）では、話題クラスタＣ［１］にはマイクロブログ１、２及び５がクラスタリングされ、話題クラスタＣ［２］が削除されている。（ｄ）では、類似度が最大となる話題クラスタの組み合わせとして話題クラスタＣ［１］及びＣ［３］が選択される。

　話題クラスタＣ［１］及びＣ［３］の類似度がしきい値以下であると判定され、クラスタリングできるマイクロブログが存在せず、クラスタリング処理を終了する。

　以上によって、話題クラスタＣ［１］にマイクロブログ１、２及び５がクラスタリングされ、話題クラスタＣ［３］にマイクロブログ３及び４がクラスタリングされる。

　次に、図１２Ａ及び図１２Ｂを用いて、時間帯を跨いだ話題クラスタの対応付け処理について説明する。図１２Ａは、実施例の時間帯を跨ぐ話題クラスタの対応付け処理の説明図である。

　例えば、時間帯（ｔ２～ｔ３）のマイクロブログ１２～２０が収集され、マイクロブログ１２～１５、１９、及び２０は話題クラスタＣ２１にクラスタリングされ、マイクロブログ１６～１８は話題クラスタＣ２２にクラスタリングされたものとする。話題クラスタＣ２１の代表マイクロブログはマイクロブログ１５であり、話題クラスタＣ２２の代表マイクロブログはマイクロブログ１７である。

　一方、時間帯（ｔ１～ｔ２）では、マイクロブログ１、３、５、及び８が話題クラスタＣ１１にクラスタリングされ、マイクロブログ２、４、７、及び１１が話題クラスタＣ１２にクラスタリングされ、マイクロブログ６、９及び１０が話題クラスタＣ１３にクラスタリングされている。話題クラスタＣ１１の代表マイクロブログはマイクロブログ５であり、話題クラスタＣ１２の代表マイクロブログはマイクロブログ４であり、話題クラスタＣ１３の代表マイクロブログはマイクロブログ９である。

　時間帯を跨ぐ話題クラスタの対応付け処理は、図１０に示すクラスタリング処理を用いることができる。

　まず、時間帯を跨ぐ話題クラスタの全ての組み合わせの類似度を算出する。図１２Ａでは、話題クラスタＣ２１及びＣ２２と、話題クラスタＣ１１～Ｃ１１との間の全ての組み合わせの類似度が算出される。例えば、話題クラスタの特徴ベクトルは、話題クラスタにクラスタリングされたマイクロブログの特徴ベクトルの加算結果であり、話題クラスタの類似度は、図９に示す数式３によって算出される。類似度が最大となる話題クラスタの組み合わせが選択され、選択された話題クラスタの類似度がしきい値より大きければ、選択された話題クラスタが対応付けられる。この処理を類似度が最大となる話題クラスタの類似度がしきい値以下となるまで繰り返し実行される。

　図１１では、対応するマイクロブログ（又は話題クラスタ）を一つの話題クラスタにクラスタリングしたが、時間帯を跨ぐ話題クラスタの対応付け処理では、対応する話題クラスタはスーパー話題クラスタにクラスタリングされる。

　なお、話題クラスタの特徴ベクトルは、話題クラスタの代表マイクロブログの特徴ベクトルを用いてもよい。

　図１２Ａでは、話題クラスタＣ２１は話題クラスタＣ１１及びＣ１２に対応する。ある時間帯の話題クラスタが過去の複数の話題クラスタに対応することは、過去の複数の話題クラスタの話題がある時間帯の話題クラスタの話題に結合したことを意味する。話題クラスタＣ２２は話題クラスタＣ１３に対応する。

　時間帯（ｔ３～ｔ４）では、話題クラスタＣ３１及びＣ３２が生成されたものとする。話題クラスタＣ２３は話題クラスタＣ３１及びＣ３２に対応する。過去の話題クラスタがある時間帯の複数の話題クラスタに対応することは、過去の話題クラスタの話題がある時間帯の複数の話題クラスタの話題に分離したことを意味する。

　また、時間帯（ｔ３～ｔ４）には、話題クラスタＣ２１に対応する話題クラスタが存在しない。これは、話題クラスタＣ２１の話題が時間帯（ｔ３～ｔ４）で消滅したことを意味する。

　図１２Ｂは、実施例の時間帯を跨ぐ話題クラスタがクラスタリングされるスーパー話題クラスタの説明図である。スーパー話題クラスタには、時間帯を跨いで対応する一連の話題クラスタがクラスタリングされる。図１３～図１４Ｂで詳細に説明するが、話題クラスタ選択部１１５は、検索条件に適合する話題クラスタを選択すると、選択した話題クラスタがクラスタリングされたスーパー話題クラスタの当該選択した話題クラスタの時間帯の前後の時間帯の話題クラスタを選択する。そして、検索結果表示部１１６は、話題クラスタ選択部１１５が選択した検索条件に適合する話題クラスタ（適合話題クラスタ）の要約と、当該話題クラスタと同じスーパー話題クラスタにクラスタリングされた話題クラスタのうち、時間帯を跨いで適合話題クラスタに対応する話題クラスタ（時系列対応話題クラスタ）の要約とを含む検索結果表示画面１４００（図１４Ａ及び図１４Ｂ参照）を表示する。

　なお、話題クラスタ１２０１が話題クラスタ１２０２に対応すると判定された場合、話題クラスタ１２０２がクラスタリングされるスーパー話題クラスタＡと話題クラスタ１２０１がクラスタリングされるスーパー話題クラスタＢとが同じスーパー話題クラスタとなり、対応しない話題の話題クラスタまでも同じスーパー話題クラスタにクラスタリングされてしまう。これを防止するために、時間帯を跨いで話題クラスタが対応するか否かの判定に用いるしきい値を、同じ時間帯でマイクロブログが対応するか否かの判定に用いるしきい値より大きな値に設定してもよい。

　図１３は、実施例の検索処理のフローチャートである。

　まず、検索条件入力受付部１１４は、ユーザから検索条件の入力を受け付ける（１３０１）。検索条件はキーワードとなる検索式を少なくとも含む。なお、検索条件は、検索式に適合する話題クラスタを表示する順序であるランキング方式を含んでもよい。検索条件については図１４で詳細に説明する。

　次に、話題クラスタ選択部１１５は、検索式に適合するマイクロブログがクラスタリングされた少なくとも一つの話題クラスタ（適合話題クラスタ）を選択する（１３０２）。例えば、話題クラスタ選択部１１５は、マイクロブログテーブル１２１の内容２０５に登録された文書情報が入力を受け付けた検索式のキーワードを含むレコードを選択し、選択したレコードのマイクロブログＩＤ２０１に登録されたマイクロブログの識別情報を取得する。

　次に、話題クラスタ選択部１１５は、話題クラスタテーブル１２２をマイクロブログＩＤ３０１に選択したマイクロブログの識別情報が登録されたレコードのカラムに「１」が登録された話題クラスタＩＤ３０２に登録された話題クラスタの識別情報を取得する。これによって、検索式に適合するマイクロブログがクラスタリングされた適合話題クラスタが選択される。

　次に、話題クラスタ選択部１１５は、ステップ１３０２の処理で選択された適合話題クラスタと同じスーパー話題クラスタにクラスタリングされた話題クラスタのうち、適合話題クラスタに時間帯を跨いで対応する話題クラスタ（時系列対応話題クラスタ）を選択する（１３０３）。

　例えば、話題クラスタ選択部１１５は、スーパー話題クラスタテーブル１２５の各時間帯の話題クラスタＩＤ６０１Ａ～６０１Ｃに適合話題クラスタの識別情報が登録されたレコードを選択する。そして、話題クラスタ選択部１１５は、選択したレコードの「０」以外の情報が登録されたカラムに登録された情報、及び当該カラムに対応するスーパー話題クラスタＩＤ６０２に登録されたスーパー話題クラスタの識別情報を取得する。

　話題クラスタ選択部１１５は、取得したカラムに登録された情報が「Ｃｏｎｎｅｃｔ　ｆｒｏｍ　話題クラスタの識別情報」である場合、当該話題クラスタの識別情報を取得する。取得した話題クラスタの識別情報は、適合話題クラスタの時間帯の一つ前の時間帯の話題クラスタのうち、適合話題クラスタに対応する話題クラスタの識別情報である。また、話題クラスタ選択部１１５は、取得したカラムに登録された情報が「Ｃｏｎｎｅｃｔ　ｆｒｏｍ　話題クラスタの識別情報」又は「ｎｅｗ」である場合、適合話題クラスタの時間帯の一つ後の時間帯の話題クラスタＩＤ６０１Ａ～６０１Ｃの取得したスーパー話題クラスタの識別情報に対応するカラムに、適合話題クラスタの識別情報が登録されたレコードを取得する。そして、話題クラスタ選択部１１５は、取得したレコードの時間帯の話題クラスタＩＤ６０１Ａ～６０１Ｃに登録された話題クラスタの識別情報を取得する。取得した話題クラスタの識別情報は、適合話題クラスタの時間帯の一つ後の時間帯の話題クラスタのうち、適合話題クラスタに対応する話題クラスタの識別情報である。なお、取得したレコードの適合話題クラスタのスーパー話題クラスタに対応するカラムに、適合話題クラスタの識別情報と他の話題クラスタの識別情報が登録されている場合、話題クラスタ選択部１１５は、他の話題クラスタの識別情報も取得する。これによって、適合話題クラスタの話題と他の話題クラスタの話題とが結合した場合であっても、適合話題クラスタに当該他の話題クラスタが対応することを把握できる。

　次に、話題クラスタ選択部１１５は、ステップ１３０２の処理で選択された適合話題クラスタの要約、及び時系列対応話題クラスタの要約を選択する（１３０４）。具体的には、話題クラスタ選択部１１５は、代表マイクロブログテーブル１２３の話題クラスタＩＤ４０１に適合話題クラスタの識別情報が登録されたレコードの代表マイクロブログＩＤ４０２に登録された代表マイクロブログの識別情報を取得する。そして、話題クラスタ選択部１１５は、マイクロブログテーブル１２１のマイクロブログＩＤ２０１に取得した代表マイクロブログの識別情報が登録されたレコードの内容２０５に登録された文書情報を、適合話題クラスタの要約として選択する。なお、話題クラスタ選択部１１５は、時系列対応話題クラスタの要約についても同じ処理で選択できる。

　次に、話題クラスタ選択部１１５は、ステップ１３０４の処理で選択された適合話題クラスタの要約、及び時系列対応話題クラスタの要約を含む検索結果表示画面１４００（図１４Ａ及び図１４Ｂ参照）を表示する。検索結果表示画面１４００は、図１４Ａ及び図１４Ｂで詳細に説明する。

　次に、話題クラスタ選択部１１５は、ステップ１３０２の処理で適合話題クラスタが選択されてから所定時間経過したか否かを判定する（１３０６）。ステップ１３０６の処理で所定時間経過したと判定された場合、ステップ１３０２の処理に戻り、話題クラスタ選択部１１５は、再度適合話題クラスタを選択する。これによって、話題クラスタ選択装置１００は、所定時間経過するたびに最新のマイクロブログの情報に基づいて適合話題クラスタの要約及び時系列対応話題クラスタの要約を表示することができる。

　一方、ステップ１３０６の処理で所定時間経過していないと判定された場合、検索条件入力受付部１１４は、図１４Ａに示す中止ボタン１４０３が操作されたか否かを判定する（１３０７）。ステップ１３０７の処理で中止ボタン１４０３が操作されたと判定された場合、話題クラスタ選択装置１００は検索処理を終了する。一方、ステップ１３０７の処理で中止ボタンが操作されていないと判定された場合、ステップ１３０６の処理に戻り、話題クラスタ選択部１１５は、ステップ１３０２の処理で適合話題クラスタが選択されてから所定時間経過したか否かを判定する。

　図１４Ａは、実施例の検索結果表示画面１４００の説明図である。

　検索結果表示画面１４００は、ＵＲＬ表示領域１４０１、移動ボタン１４０２、中止ボタン１４０３、検索条件設定領域１４１０、検索結果表示領域１４２０、及び話題変化表示領域１４３０を含む。

　ＵＲＬ表示領域１４０１には現在表示されているＷｅｂページのＵＲＬが表示される。また、ＵＲＬ表示領域１４０１にＵＲＬが入力され、移動ボタン１４０２が操作された場合、話題クラスタ選択装置１００は、ＵＲＬ表示領域１４０１に入力されたＵＲＬのＷｅｂページを表示する。中止ボタン１４０３が操作されると、話題クラスタ選択装置１００は、検索結果表示画面１４００を閉じ、図１３に示す検索処理を終了する。

　検索条件設定領域１４１０には検索条件が入力される。検索条件設定領域１４１０は、検索式入力領域１４１１、ランキング方式入力領域１４１２、及び実行ボタン１４１３を含む。検索式入力領域１４１１には、キーワードとなる検索式が入力される。ランキング方式入力領域１４１２には、適合話題クラスタの表示順序が入力される。図１４Ａに示すランキング方式入力領域１４１２には、発言数及び発言増加率があり、発言数が選択された場合、所定の期間における検索式に適合するマイクロブログの数が多い順に話題クラスタを表示する。所定の期間については、累積、直近２４時間、及び直近１時間の中から一つの期間が選択される。

　発言増加率が選択された場合について説明する。スーパー話題クラスタのある時間帯の検索式に適合するマイクロブログの数から前の時間帯の検索式に適合するマイクロブログの数の減算値を前の時間帯の検索式に適合するマイクロブログの数で除算した値（発言増加率）が大きい順に時間帯が選択される。そして、選択した時間帯ごとに、検索式に適合するマイクロブログの数が最大の話題クラスタが選択される。そして、発言増加率が大きい順に時間帯の検索式に適合するマイクロブログの数が最大の話題クラスタが表示される。

　なお、検索式入力領域１４１１に検索式が入力され、ランキング方式１４１２で表示順序が選択されて、実行ボタン１４１３が操作されると、検索条件入力受付部１１４は、検索式及び表示順序を含む検索条件の入力を受け付ける。図１４Ａでは、検索式として日立が入力され、表示順序として直近１時間における発言数が選択される。

　検索結果表示領域１４２０には、適合話題ブログの要約が表示される。具体的には、検索結果表示領域１４２０は、順位１４２１、発言数１４２２、話題の要約１４２３、及び統計情報１４２４を含む。

　順位１４２１には、適合話題クラスタの順位が表示される。例えば、表示順序として発言数が選択された場合、最も発言数が多い適合話題クラスタの順位が「１」となる。発言数１４２２には、適合話題クラスタの発言数が表示される。例えば、発言数は、適合話題ブログにクラスタリングされたマイクロブログのうち検索式に適合するマイクロブログの数である。話題の要約１４２３には、適合話題クラスタの要約が表示される。例えば、適合話題クラスタの代表マイクロブログの文書情報が話題の要約１４２３に表示される。統計情報１４２４には、適合話題クラスタのスーパー話題クラスタにクラスタリングされた話題クラスタのうち検索式に適合するマイクロブログの数が時系列順に表示される。

　図１４Ｂは、実施例の検索結果表示画面１４００に含まれる話題変化表示領域１４３０の説明図である。

　話題変化表示領域１４３０には、検索結果表示領域１４２０の統計情報１４２４が操作された適合話題クラスタの時系列対応話題クラスタの要約が表示される。図１４Ｂでは、図１４Ａで検索結果表示領域１４２０の順位１４２１が「１」である適合話題クラスタの統計情報１４２４が選択されたものとする。

　話題変化表示領域１４３０は、複数の時間帯１４３１～１４３３を含む。それぞれの時間帯１４３１～１４３３には、時間帯１４３１に属する話題クラスタの要約が表示される。統計情報１４２４が操作された適合話題クラスタの要約は、図１４Ｂでは時間帯１４３１の話題クラスタ１４３１Ａとして表示される。話題クラスタ１４３１Ａは時間帯１４３１で新たに発生した話題であり、次の時間帯１４３２の話題クラスタ１４３２Ａに対応する。また、時間帯１４３１の話題クラスタ１４３１Ｂも時間帯１４３２の話題クラスタ１４３２Ａに対応する。すなわち、話題クラスタ１４３１Ａの話題及び１４３１Ｂの話題は時間帯１４３２で話題クラスタ１４３２Ａの話題に結合する。時間帯１４３２の話題クラスタ１４３２Ａは、時間帯１４３３の話題クラスタ１４３３Ａ及び１４３３Ｂに対応する。すなわち、話題クラスタ１４３２Ａの話題は、話題クラスタ１４３３Ａの話題及び話題クラスタ１４３３Ｂの話題に分離する。

　これによって、適合話題クラスタ（話題クラスタ１４３１Ａ）の時系列対応話題クラスタ（話題クラスタ１４３１Ｂ、１４３２Ａ、１４３３Ａ、及び１４３３Ｂ）の要約が話題変化表示領域１４３０に表示されるので、ある話題クラスタの話題の時系列の変遷をユーザが把握することができる。

　なお、本実施例では、投稿情報はユーザが投稿したマイクロブログであることを前提に説明したが、他の情報であってもよい。例えば、投稿情報はニュース配信サイト等のニュース情報であってもよい。

　また、本実施例では、話題クリスタリング部が、図７に示すステップ７０２の処理でマイクロブログ等の投稿情報を話題クラスタにクラスタリングしたが、管理者等によって手動で投稿情報がクラスタリングされてもよい。この場合、投稿情報にインデックスが付与され、同じインデックスが付与された投稿情報が同じ話題クラスタにクラスタリングされることになる。

　本実施例では、投稿情報が話題ごとにクラスタリングされた話題クラスタから検索条件に適合する話題クラスタが選択され、選択された話題クラスタの内容の要約が表示される。これによって、投稿情報から管理者が所望する話題を抽出し、抽出した話題を管理者に把握しやすい態様で表示できる。

　また、本実施例では、投稿情報の特徴ベクトルを算出し、算出した特徴ベクトルに基づいて類似する複数の投稿情報を選択し、選択した複数の投稿情報を一つの話題クラスタにクラスタリングする。これによって、類似する投稿情報を話題クラスタにクラスタリングされるので、話題クラスタに同じ話題の投稿情報を精度よくクラスタリングできる。また、管理者等が手動で投稿情報をクラスタリングする手間を省くことができる。

　また、本実施例では、話題クラスタにクラスタリングされた投稿情報から、話題クラスタの内容を要約した一つの投稿情報を選択することによって、話題クラスタの内容の要約を生成する。これによって、話題クラスタの要約を最初から生成しなくてもよいので、話題クラスタ選択装置１００の処理負荷を軽減できる。

　また、本実施例では、話題クラスタにクラスタリングされた投稿情報の特徴ベクトルの統計量を算出し、算出した統計量に最も近い投稿情報を話題クラスタの内容を要約した一つの投稿情報として選択する。これによって、選択された投稿情報の内容が話題クラスタの内容を示している精度を向上させることができる。

　また、本実施例では、検索条件との適合度が高い話題クラスタの順に、話題クラスタの要約を表示する。これによって、管理者等が所望する順番で話題クラスタの要約を把握できる。

　また、本実施例では、検索条件に適合する話題クラスタと時間帯を跨いで対応する話題の話題クラスタを時系列対応話題クラスタとして選択し、選択された検索条件に適合する話題クラスタの要約、及び、選択された時系列対応話題クラスタの要約を表示する。これによって、検索条件に適合する話題クラスタの話題の時系列的な変遷を容易に把握できる。

　なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることも可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

　また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（Solid State Drive）等の記録装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

　また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。

Claims

　投稿された複数の投稿情報を収集する投稿情報収集部と、
　前記収集された複数の投稿情報が話題ごとにクラスタリングされた話題クラスタを管理する話題クラスタ管理部と、
　検索条件の入力を受け付ける検索条件入力受付部と、
　前記検索条件入力受付部が入力を受け付けた検索条件に適合する少なくとも一つの話題クラスタを選択する話題クラスタ選択部と、
　前記話題クラスタの内容の要約を作成する要約作成部と、
　前記話題クラスタ選択部によって選択された少なくとも一つの話題クラスタの要約を前記検索条件の検索結果として表示する検索結果表示部と、を備えることを特徴とする話題クラスタ選択装置。
　請求項１に記載の話題クラスタ選択装置であって、
　前記話題クラスタ管理部は、
　前記収集された投稿情報の特徴ベクトルを、前記投稿情報の文書情報及び属性情報の少なくとも一方に基づいて算出し、
　前記算出された特徴ベクトルに基づいて類似する複数の投稿情報を選択し、
　前記選択した複数の投稿情報を一つの話題クラスタにクラスタリングすることを特徴とする話題クラスタ選択装置。
　請求項１に記載の話題クラスタ選択装置であって、
　前記要約作成部は、前記話題クラスタにクラスタリングされた投稿情報から、前記話題クラスタの内容を要約した一つの投稿情報を選択することによって、前記話題クラスタの内容の要約を作成することを特徴とする話題クラスタ選択装置。
　請求項３に記載の話題クラスタ選択装置であって、
　前記話題クラスタ管理部は、
　前記収集された投稿情報の特徴ベクトルを、前記投稿情報の文書情報及び属性情報の少なくとも一方に基づいて算出し、
　前記算出された特徴ベクトルに基づいて類似する複数の投稿情報を選択し、
　前記選択した複数の投稿情報を一つの話題クラスタにクラスタリングし、
　前記要約作成部は、
　前記話題クラスタにクラスタリングされた投稿情報の特徴ベクトルの統計量を算出し、
　前記算出した統計量に最も近い投稿情報を、前記話題クラスタの内容を要約した一つの投稿情報として選択することを特徴とする話題クラスタ選択装置。
　請求項１に記載の話題クラスタ選択装置であって、
　前記検索結果表示部は、前記検索条件との適合度が高い話題クラスタの順に、前記話題クラスタの要約を表示することを特徴とする話題クラスタ選択装置。
　請求項１に記載の話題クラスタ選択装置であって、
　前記話題クラスタ管理部は、
　前記収集された投稿情報の特徴ベクトルを、前記投稿情報の文書情報及び属性情報の少なくとも一方に基づいて算出し、
　同じ時間帯に投稿された投稿情報の中から、前記算出された特徴ベクトルに基づいて類似する複数の投稿情報を選択し、
　前記選択した類似する投稿情報を一つの話題クラスタにクラスタリングすることによって、前記収集された投稿情報を所定の時間帯毎の話題クラスタにクラスタリングし、
　前記話題クラスタの投稿情報の特徴量に基づいて、時間帯を跨いで対応する話題の話題クラスタを選択し、
　前記選択した時間帯を跨いで対応する話題の話題クラスタ同士を対応付け、
　前記話題クラスタ選択部は、
　前記選択した検索条件に適合する話題クラスタと時間帯を跨いで対応する話題の話題クラスタを時系列対応話題クラスタとして選択し、
　前記検索結果表示部は、前記選択された検索条件に適合する話題クラスタの要約、及び、前記選択された時系列対応話題クラスタの要約を表示することを特徴とする話題クラスタ選択装置。
　プロセッサを有する計算機において投稿された複数の投稿情報を検索する検索方法であって、
　前記検索方法は、
　前記計算機が、前記投稿された複数の投稿情報を収集し、
　前記計算機が、前記収集された複数の投稿情報が話題ごとにクラスタリングされた話題クラスタを管理し、
　前記計算機が、検索条件の入力を受け付け、
　前記計算機が、前記入力を受け付けた検索条件に適合する少なくとも一つの話題クラスタを選択し、
　前記計算機が、前記話題クラスタの内容の要約を作成し、
　前記計算機が、前記選択された少なくとも一つの話題クラスタの要約を前記検索条件の検索結果として表示することを特徴とする検索方法。
　請求項７に記載の検索方法であって、
　前記計算機が、前記収集された投稿情報の特徴ベクトルを、前記投稿情報の文書情報及び属性情報の少なくとも一方に基づいて算出し、
　前記計算機が、前記算出された特徴ベクトルに基づいて類似する複数の投稿情報を選択し、
　前記計算機が、前記選択した複数の投稿情報を一つの話題クラスタにクラスタリングすることを特徴とする検索方法。
　請求項７に記載の検索方法であって、
　前記計算機が、前記話題クラスタにクラスタリングされた投稿情報から、前記話題クラスタの内容を要約した一つの投稿情報を選択することによって、前記話題クラスタの内容の要約を作成することを特徴とする検索方法。
　請求項９に記載の検索方法であって、
　前記計算機が、前記収集された投稿情報の特徴ベクトルを、前記投稿情報の文書情報及び属性情報の少なくとも一方に基づいて算出し、
　前記計算機が、前記算出された特徴ベクトルに基づいて類似する複数の投稿情報を選択し、
　前記計算機が、前記選択した複数の投稿情報を一つの話題クラスタにクラスタリングし、
　前記計算機が、前記話題クラスタの投稿情報の特徴ベクトルの統計量を算出し、
　前記計算機が、前記算出した統計量に最も近い投稿情報を、前記話題クラスタの内容を要約した一つの投稿情報として選択することを特徴とする検索方法。
　請求項７に記載の検索方法であって、
　前記計算機が、前記検索条件との適合度が高い話題クラスタの順に、前記話題クラスタの要約を表示することを特徴とする検索方法。
　請求項７に記載の検索方法であって、
　前記計算機が、前記収集された投稿情報の特徴ベクトルを、前記投稿情報の文書情報及び属性情報の少なくとも一方に基づいて算出し、
　前記計算機が、同じ時間帯に投稿された投稿情報の中から、前記算出された特徴ベクトルに基づいて対応する複数の投稿情報を選択し、
　前記計算機が、前記選択した類似する投稿情報を一つの話題クラスタにクラスタリングすることによって、前記収集された投稿情報を所定の時間帯毎の話題クラスタにクラスタリングし、
　前記計算機が、前記話題クラスタの投稿情報の特徴量に基づいて、時間帯を跨いで対応する話題の話題クラスタを選択し、
　前記計算機が、前記選択した時間帯を跨いで対応する話題の話題クラスタ同士を対応付け、
　前記計算機が、前記選択した検索条件に適合する話題クラスタと時間帯を跨いで対応する話題の話題クラスタを時系列対応話題クラスタとして選択し、
　前記計算機が、前記選択された検索条件に適合する話題クラスタの要約、及び、前記選択された時系列対応話題クラスタの要約を表示することを特徴とする検索方法。