JPWO2008087728A1 - キーワード管理プログラム、キーワード管理システムおよびキーワード管理方法 - Google Patents

キーワード管理プログラム、キーワード管理システムおよびキーワード管理方法 Download PDF

Info

Publication number
JPWO2008087728A1
JPWO2008087728A1 JP2008553929A JP2008553929A JPWO2008087728A1 JP WO2008087728 A1 JPWO2008087728 A1 JP WO2008087728A1 JP 2008553929 A JP2008553929 A JP 2008553929A JP 2008553929 A JP2008553929 A JP 2008553929A JP WO2008087728 A1 JPWO2008087728 A1 JP WO2008087728A1
Authority
JP
Japan
Prior art keywords
keyword
burst value
value
burst
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008553929A
Other languages
English (en)
Other versions
JP4797069B2 (ja
Inventor
内野 寛治
寛治 内野
哲朗 ▲高▼橋
哲朗 ▲高▼橋
張 軍
軍 張
岡本 青史
青史 岡本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2008087728A1 publication Critical patent/JPWO2008087728A1/ja
Application granted granted Critical
Publication of JP4797069B2 publication Critical patent/JP4797069B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

キーワード管理システムは、ネット話題集積装置(100)がキーワードの単位時間当たりの増加値を示すBurst値を算出し、算出したBurst値とこのBurst値に対応するキーワードのコンテンツ上の特徴(キーワードがタイトルに含まれる数、リンクが張られた数、エンハンスされた数)とを基にして総合Burst値を算出する。そして、ネット話題集積装置(100)は、総合Burst値の時系列推移を基にして総合Burst値に対応するキーワードに関連キーワード(相関キーワードおよび共起キーワード)をコンテンツから抽出し、キーワードと関連キーワードとを対応づけた情報をトピックとしてユーザ端末(20)に出力する。

Description

本発明は、ネットワークに接続された利用者の端末がコンテンツにアクセスする場合に利用するキーワードを管理するキーワード管理プログラム、キーワード管理システムおよびキーワード管理方法に関するものである。
近年、インターネットが広く普及し、利用者はインターネットに接続されたユーザ端末を利用して、様々な情報をネット上から取得している。例えば、利用者が所定のキーワードに関連する情報をネット上から取得する場合には、検索エンジンを利用することによって取得することができる。
また、利用者は、特定のキーワードを知らなくても、サービス提供者が管理するポータルサイトやブロクなどにアクセスすることによって、サービス提供者が選出したニュース、話題、お勧め情報などの各種情報を取得することもできる。
この他にも情報収集を行う利用者に対応して、ネット上では様々なサービス提供が行われている。例えば、非特許文献1では、利用者に話題のキーワードを提供し、かかるキーワードの検索を促すというサービスが開示されている。このサービスは、所定期間内に検索されたキーワードのランキングを行い、利用者にランキング結果を通知することで、利用者に話題のキーワードを提供することを可能としている。
なお、特許文献1では、利用者の情報検索をより快適なものにするため、検索されたキーワードとキーワードに関連する情報との関連性の度合いによって、キーワードに関連する情報の配置を設定するという技術が公開されている。
ニフティ株式会社 "瞬ワード"、[online]、[平成18年12月25日検索]、インターネット<http://www.nifty.com/shun/> 特開2006−31577号公報
しかしながら、上述した従来の技術では、話題となっているトピックを利用者に提供することはできても、どうして提供したトピックが話題となっているのかが不明のままになってしまうという問題があった。
この場合、利用者は、提供されたトピックがどうして話題になっているのかがわからないため、話題の理由がわからないまま検索を行う必要がある。そして、検索した結果、トピックに関連する様々な情報(話題に関係のない情報を含む)にヒットしてしまい、利用者はトピックを利用した検索を快適に行うことができなかった。
すなわち、何故トピックが話題となっているかという点を明確にして、話題となっているトピックの情報を利用者に通知することが極めて重要な課題となっている。
本発明は、上記に鑑みてなされたものであって、何故トピックが話題となっているかという点を明確にして、話題となっているトピックの情報を利用者に通知することができるキーワード管理プログラム、キーワード管理システムおよびキーワード管理方法を提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、ネットワークに接続された利用者の端末がコンテンツにアクセスする場合に利用するキーワードを管理するキーワード管理システムのキーワード管理プログラムであって、前記キーワードの単位時間当たりの増加値を示すバースト値を算出するバースト値算出手順と、前記バースト値に対応するキーワードの前記コンテンツ上の特徴を基にして前記バースト値を補正した総合バースト値を算出する総合バースト値算出手順と、前記総合バースト値の時系列推移を基にして当該総合バースト値に対応するキーワードに関連する関連キーワードを前記コンテンツから抽出し、前記キーワードと関連キーワードとを対応付けて前記利用者の端末に出力する出力制御手順と、をコンピュータに実行させることを特徴とする。
また、本発明は、上記発明において、前記バースト値が閾値以上となるキーワードに基づいて前記コンテンツに含まれるテキストの形態素解析を実行する形態素解析実行手順を更にコンピュータに実行させ、前記バースト値算出手順は、前記形態素解析結果から得られるキーワードに対して更にバースト値を算出することを特徴とする。
また、本発明は、上記発明において、前記総合バースト値の時系列推移に基づいて当該総合バースト値に対応するキーワードを予め用意された複数の型のいずれかに分類する分類手順を更にコンピュータに実行させ、前記出力制御手順は、前記分類手順の分類結果を更に前記利用者の端末に出力することを特徴とする。
また、本発明は、上記発明において、前記キーワードのコンテンツ上の特徴は、前記コンテンツにおいて、タイトルに含まれている前記キーワードの数、リンクが張られている前記キーワードの数、修飾されている前記キーワードの数を含んでいることを特徴とする。
また、本発明は、上記発明において、前記出力制御手順は、前記総合バースト値の時系列推移と相関するキーワードを前記関連キーワードとして抽出することを特徴とする。
また、本発明は、上記発明において、前記出力制御手順は、前記コンテンツのテキスト中で前記総合バースト値が閾値以上となるキーワードと共に表れるキーワードを前記関連キーワードとして更に抽出することを特徴とする。
また、本発明は、ネットワークに接続された利用者の端末がコンテンツにアクセスする場合に利用するキーワードを管理するキーワード管理システムであって、前記キーワードの単位時間当たりの増加値を示すバースト値を算出するバースト値算出手段と、前記バースト値に対応するキーワードの前記コンテンツ上の特徴を基にして前記バースト値を補正した総合バースト値を算出する総合バースト値算出手段と、前記総合バースト値の時系列推移を基にして当該総合バースト値に対応するキーワードに関連する関連キーワードを前記コンテンツから抽出し、前記キーワードと関連キーワードとを対応付けて前記利用者の端末に出力する出力制御手段と、を備えたことを特徴とする。
また、本発明は、上記発明において、前記バースト値が閾値以上となるキーワードに基づいて前記コンテンツに含まれるテキストの形態素解析を実行する形態素解析実行手段を更に備え、前記バースト値算出手段は、前記形態素解析結果から得られるキーワードに対して更にバースト値を算出することを特徴とする。
また、本発明は、上記発明において、前記総合バースト値の時系列推移に基づいて当該総合バースト値に対応するキーワードを予め用意された複数の型のいずれかに分類する分類手段を更に備え、前記出力制御手段は、前記分類手段の分類結果を更に前記利用者の端末に出力することを特徴とする。
また、本発明は、上記発明において、前記キーワードのコンテンツ上の特徴は、前記コンテンツにおいて、タイトルに含まれている前記キーワードの数、リンクが張られている前記キーワードの数、修飾されている前記キーワードの数を含んでいることを特徴とする。
また、本発明は、上記発明において、前記出力制御手段は、前記総合バースト値の時系列推移と相関するキーワードを前記関連キーワードとして抽出することを特徴とする。
また、本発明は、上記発明において、前記出力制御手段は、前記コンテンツのテキスト中で前記総合バースト値が閾値以上となるキーワードと共に表れるキーワードを前記関連キーワードとして更に抽出することを特徴とする。
また、本発明は、ネットワークに接続された利用者の端末がコンテンツにアクセスする場合に利用するキーワードを管理するキーワード管理システムのキーワード管理方法であって、前記キーワードの単位時間当たりの増加値を示すバースト値を算出するバースト値算出工程と、前記バースト値に対応するキーワードの前記コンテンツ上の特徴を基にして前記バースト値を補正した総合バースト値を算出する総合バースト値算出工程と、前記総合バースト値の時系列推移を基にして当該総合バースト値に対応するキーワードに関連する関連キーワードを前記コンテンツから抽出し、前記キーワードと関連キーワードとを対応付けて前記利用者の端末に出力する出力制御工程と、を含んだことを特徴とする。
また、本発明は、上記発明において、前記バースト値が閾値以上となるキーワードに基づいて前記コンテンツに含まれるテキストの形態素解析を実行する形態素解析実行工程を更に含み、前記バースト値算出工程は、前記形態素解析結果から得られるキーワードに対して更にバースト値を算出することを特徴とする。
また、本発明は、上記発明において、前記総合バースト値の時系列推移に基づいて当該総合バースト値に対応するキーワードを予め用意された複数の型のいずれかに分類する分類工程を更に含み、前記出力制御工程は、前記分類工程の分類結果を更に前記利用者の端末に出力することを特徴とする。
また、本発明は、上記発明において、前記キーワードのコンテンツ上の特徴は、前記コンテンツにおいて、タイトルに含まれている前記キーワードの数、リンクが張られている前記キーワードの数、修飾されている前記キーワードの数を含んでいることを特徴とする。
また、本発明は、上記発明において、前記出力制御工程は、前記総合バースト値の時系列推移と相関するキーワードを前記関連キーワードとして抽出することを特徴とする。
また、本発明は、上記発明において、前記出力制御工程は、前記コンテンツのテキスト中で前記総合バースト値が閾値以上となるキーワードと共に表れるキーワードを前記関連キーワードとして更に抽出することを特徴とする。
本発明によれば、キーワードの単位時間当たりの増加値を示すバースト値を算出し、算出したバースト値に対応するキーワードのコンテンツ上の特徴を基にしてバースト値を補正した総合バースト値を算出し、この総合バースト値の時系列推移を基にして総合バースト値に対応するキーワードに関連する関連キーワードをコンテンツから抽出し、キーワードと関連キーワードとを対応付けて前記利用者の端末に出力するので、話題となっているキーワードと関連キーワードから利用者は何故かかるキーワードが話題となっているのかを容易に理解することができる。
また、本発明によれば、バースト値が閾値以上となるキーワードに基づいてコンテンツに含まれるテキストの形態素解析を実行し、形態素解析結果から得られるキーワードに対して更にバースト値を算出するので話題となっているキーワードをより正確に抽出することができる。
また、本発明によれば、総合バースト値の時系列推移に基づいて総合バースト値に対応するキーワードを予め用意された複数の型のいずれかに分類するので、利用者はどのような経緯によって話題のキーワードになったかを容易に理解することができる。
また、本発明によれば、タイトルに含まれている前記キーワードの数、リンクが張られているキーワードの数、修飾されているキーワードの数を含んだキーワードのコンテンツ上の特徴を基にして総合バースト値を補正するので、話題のキーワードをより的確に抽出することができる。
また、本発明によれば、総合バースト値の時系列推移と相関するキーワードを関連キーワードとして抽出するので、話題となっているキーワードと関連キーワードから利用者は何故かかるキーワードが話題となっているのかを容易に理解することができる。
また、本発明によれば、コンテンツのテキスト中で総合バースト値が閾値以上となるキーワードと共に表れるキーワードを関連キーワードとして更に抽出するので、話題となっているキーワードと関連キーワードから利用者は何故かかるキーワードが話題となっているのかを容易に理解することができ、キーワードを用いた情報検索をより快適に実行することができる。
図1は、従来技術と本実施例にかかるキーワード管理システムとの違いを説明するための説明図である。 図2は、本実施例にかかるキーワード管理システムの構成を示すシステム構成図である。 図3は、本実施例にかかるネット話題集積装置の構成を示す機能ブロック図である。 図4は、ニュース・ブログテーブルのデータ構造の一例を示す図である。 図5は、検索語テーブルのデータ構造の一例を示す図である。 図6は、ユーザ辞書テーブルのデータ構造の一例を示す図である。 図7は、形態素解析結果管理テーブルのデータ構造の一例を示す図である。 図8は、Burst算出パラメータテーブルのデータ構造の一例を示す図である。 図9は、総合Burst格納テーブルのデータ構造の一例を示す図である。 図10は、トピックタイプ管理テーブルのデータ構造の一例を示す図である。 図11は、関連キーワードテーブルのデータ構造の一例を示す図である。 図12は、共起キーワードテーブルのデータ構造の一例を示す図である。 図13は、最終結果格納テーブルのデータ構造の一例を示す図である。 図14は、本実施例にかかるネット話題集積装置の処理手順を示すフローチャートである。 図15は、図3に示したネット話題集積装置を構成するコンピュータのハードウェア構成を示す図である。
符号の説明
10 ネットワーク
20 ユーザ端末
30 各種コンテンツ記憶装置
40 サーバ
50 コンピュータ
51 入力装置
52 モニタ
53 RAM
53a 各種データ
54 ROM
55 媒体読取装置
56 ネットワークインターフェース
57 CPU
57a 話題キーワード提供プロセス
58 HDD
58a 各種データ
58b 話題キーワード提供プログラム
59 バス
100 ネット話題集積装置
110 入力部
120 出力部
130 通信制御IF部
140 入出力制御IF部
150 記憶部
150a Webコンテンツデータベース
150b ニュース・ブログテーブル
150c 検索語テーブル
150d ユーザ辞書テーブル
150e 形態素解析結果管理テーブル
150f Burst算出パラメータテーブル
150g 総合Burst格納テーブル
150h トピックタイプ管理テーブル
150i 相関キーワードテーブル
150j 共起キーワードテーブル
150k 最終結果格納テーブル
160 制御部
160a データ管理部
160b Burst算出部
160c ユーザ辞書登録部
160d 形態素解析部
160e 総合Burst算出部
160f トピックタイプ判定部
160g 相関キーワード検出部
160h 共起キーワード検出部
160i 出力キーワード判定処理部
以下に、本発明にかかるキーワード管理プログラム、キーワード管理システムおよびキーワード管理方法の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
まず、本実施例にかかるキーワード管理システムの特徴を従来技術と比較して説明する。図1は、従来技術と本実施例にかかるキーワード管理システムとの違いを説明するための説明図である。図1の左側に示すように、従来技術では、コンテンツにアクセスする場合に利用されるキーワードの利用頻度を基にして話題となっているキーワードを選択し、選択したキーワードを利用頻度の高いものから順にならべ、トピックとして利用者の端末(以下、ユーザ端末)に通知していた(図1の左側参照)。
しかし、従来技術は、単に、話題となっているキーワードを利用頻度に応じて並べているだけなので、利用者は何故各キーワードがトピックになっているかが理解できず、快適に各キーワードを利用した情報検索を行うことができなかった。
一方、本実施例にかかるキーワード管理システムは、利用者がコンテンツにアクセスする場合に利用するキーワードの単位時間当たりの増加値を示すバースト値を算出し、算出したバースト値をこのバースト値に対応するキーワードのコンテンツ上の特徴に基づいて補正した総合バースト値を算出する。そして、総合バースト値の時系列推移を基にして総合バースト値に対応するキーワードに関連するキーワード(以下、関連キーワード)をコンテンツから抽出し、キーワードと関連キーワードとを対応付けた情報をトピックとしてユーザ端末に通知することを特徴としている(図1の右側参照)。
このように、本実施例にかかるキーワード管理システムは、話題となっているキーワードと密接に関連する他のキーワードをセットにしたキーワード群をトピックとして利用者に通知しているので、利用者は何故各トピックが話題となっているかを理解することができ、トピックを利用した情報検索を快適に実行することができる。
次に、本実施例にかかるキーワード管理システムの構成について説明する。図2は、本実施例にかかるキーワード管理システムの構成を示すシステム構成図である。同図に示すように、このキーワード管理システムは、ユーザ端末20と、各種コンテンツ記憶装置30と、サーバ40と、ネット話題集積装置100とをネットワーク10で接続して構成される。
ユーザ端末20は、サーバ40によって運営されるポータルサイト(検索エンジンを含む)を利用して、各種情報を取得する装置である。なお、ユーザ端末20が、各種情報を取得する場合には、利用者から入力装置(図示略)を介してキーワードを受け付け、受け付けたキーワードをサーバ40に出力する。
各種コンテンツ記憶装置30は、ネットワーク上で送受信される各種コンテンツ(ニュース、ブログ、BBS(Bulletin Board System)、株価、天気、占いなどのテキストコンテンツ)を記憶する記憶装置である。なお、各種コンテンツは、そのコンテンツが作成された日時の情報を含んでいるものとする。
サーバ40は、ポータルサイトを運営すると共に、ユーザ端末20からキーワードを取得した場合に、取得したキーワードに関連する情報を各種コンテンツ記憶装置30から検索し、検索した情報をユーザ端末20に出力する装置である。また、サーバ40は、ユーザ端末20から取得したキーワードの履歴を検索ログ情報として記憶装置(図示略)に記憶する。この検索ログ情報は、検索されたキーワード、検索された日時、検索数(同一利用者による重複検索は一回と見なす)、キーワードによって各種情報がヒットした件数の情報を対応付けて記憶しているものとする。
ネット話題集積装置100は、話題となっているキーワードと関連キーワードとを対応付けてユーザ端末20に出力する装置である。ここで、ネット話題集積装置100の構成について説明する。図3は、本実施例にかかるネット話題集積装置100の構成を示す機能ブロック図である。同図に示すように、このネット話題集積装置100は、入力部110と、出力部120と、通信制御IF部130と、入出力制御IF部140と、記憶部150と、制御部160とを備えて構成される。
このうち、入力部110は、各種の情報を入力する入力手段であり、キーボードやマウス、マイクなどによって構成される。なお、後述するモニタ(出力部120)も、マウスと協働してポインティングデバイス機能を実現する。
出力部120は、各種の情報を出力する出力手段であり、モニタ(若しくはディスプレイ、タッチパネル)やスピーカなどによって構成される。通信制御IF部130は、主に、ユーザ端末20、各種コンテンツ記憶装置30、サーバ40との間における通信を制御する手段である。入出力制御IF部140は、入力部110、出力部120、通信制御IF部130、記憶部150、制御部160によるデータの入出力を制御する手段である。
記憶部150は、制御部160による各種処理に必要なデータおよびプログラムを記憶する記憶手段(格納手段)であり、特に本発明に密接に関連するものとしては、図3に示すように、Webコンテンツデータベース150aと、ニュース・ブログテーブル150bと、検索語テーブル150cと、ユーザ辞書テーブル150dと、形態素解析結果管理テーブル150eと、Burst算出パラメータテーブル150fと、総合Burst格納テーブル150gと、トピックタイプ管理テーブル150hと、相関キーワードテーブル150iと、共起キーワードテーブル150jと、最終結果格納テーブル150kとを備える。
Webコンテンツデータベース150aは、ネット話題集積装置100がサーバ40から取得する検索ログ情報および各種コンテンツ記憶装置30から取得する各種コンテンツの情報(ニュース、ブログ、BBS、株価、天気、占いなどのテキストコンテンツの情報)を記憶するデータベースである。なお、各種コンテンツの情報は、ユニークな文書ソースID(Identification)と対応付けられて記憶されているものとする。
ニュース・ブログテーブル150bは、ニュースやブログ(あるいはBBS)の情報をキーワードおよびニュースおよびブログが発信(あるいは作成)された日時によって分類した(インデックス化した)テーブルである。図4は、ニュース・ブログテーブル150bのデータ構造の一例を示す図である。同図に示すように、ニュース・ブログテーブル150bは、キーワード、日時、文書ソースID、ニュース(ブログ)内容から構成される。このうち、日時は、ニュースまたはブログが発信(あるいは作成)された日時を示す。なお、ここでは、ニュース・ブログテーブル150bがニュースやブログの情報を記憶する場合を示すが、その他の情報(例えば、BBS、そのたコンテンツ)の情報を含めて記憶してもよい。
検索語テーブル150cは、検索ログ情報に含まれるキーワードの各種情報を記憶するテーブルである。図5は、検索語テーブル150cのデータ構造の一例を示す図である。同図に示すように、この検索語テーブル150cは、キーワード、日時、検索数、ヒット件数、平均検索数、Burst値から構成される。
このうち、検索数は、利用者によって該当キーワードが検索された回数を示す。例えば、図5の1段目では、株式会社Aというキーワードの検索回数が111であることが示されている。
ヒット件数は、キーワードを所定の検索エンジンによって検索した場合にヒットする件数を示す。例えば、図5の1段目では、キーワードとなる「株式会社A」のヒット件数が「1200000」であることが示されている。
平均検索数は、過去に検索されたキーワードの検索数に基づいて算出される単位時間当たりの平均検索数を示す。例えば、図5の一段目では、キーワードとなる「株式会社A」の平均検索数が「9.0」であることが示されている。
Burst値は、コンテンツに対するアクセス時に利用される(利用者によって検索エンジンなどに入力される)キーワードの単位時間当たりの増加量(時間経過によって変化する検索されるキーワードの微分値)を示す。このBurst値は、後述するBurst算出部160bによって算出される。
図3の説明に戻ると、ユーザ辞書テーブル150dは、ニュースおよびブログを形態素解析する場合に用いられる形態素の情報を記憶するテーブルである。図6は、ユーザ辞書テーブル150dのデータ構造の一例を示す図である。同図に示すように、このユーザ辞書テーブル150dは、形態素、読み、品詞、その他の情報から構成される。
形態素解析結果管理テーブル150eは、ニュースやブログから抽出した形態素となるキーワードの各種解析結果を記憶するテーブルである。図7は、形態素解析結果管理テーブル150eのデータ構造の一例を示す図である。同図に示すように、この形態素解析結果管理テーブル150eは、キーワード、日時、文書ソースID、ロケール、タイトル、エンハンス、リンク、コンテンツから構成される。
このうち、文書ソースIDは、該当するキーワードが含まれる文書の識別番号を示す。例えば、図7において、「株式会社A」というキーワードを含む文書の識別番号(文書ソースID)は、「CN001、CN002、CN003」である旨が示されている。
ロケールは、該当キーワードの文書内の位置を示す。例えば、「株式会社A」というキーワードは、文書ソースID「CN001」の文書内において、1番目、15番目、50番目に位置していることが示されている。
タイトルは、文書のタイトルに含まれるキーワードの数を示す。例えば、「株式会社A」というキーワードは、文書ソースID「CN001」の文書のタイトルに一つ含まれていることが示されている。
エンハンスは、該当キーワードが文書中で修飾されている数を示す(該当キーワードが文書中でBoldなどでエンハンスされている数を示す;例えば、キーワード「株式会社A」がエンハンスされると、「株式会社A」となる)。リンクは、文書中でキーワードがリンクを張られている数を示す。コンテンツは、文書中に含まれるキーワードの数を示す。
Burst算出パラメータテーブル150fは、形態素解析が行われた結果、ニュースあるいはブログから抽出された各形態素のBurst値に関連する情報を記憶するテーブルである。図8は、Burst算出パラメータテーブル150fのデータ構造の一例を示す図である。同図に示すように、このBurst算出パラメータテーブル150fは、キーワード、日時、タイトル、エンハンス、リンク、コンテンツ、平均、Burst値から構成される。
このうち、タイトル、エンハンス、リンク、コンテンツは、図7において説明したタイトル、エンハンス、リンク、コンテンツにそれぞれ対応する。平均およびBurst値は、図5において説明した平均検索数およびBurst値に対応する。なお、図7の平均およびBurst値は、ニュースおよびブログ中のキーワードが対象となっている(図5の平均検索数およびBurst値は、検索ログ情報中のキーワードが対象となっている)。
総合Burst格納テーブル150gは、各キーワードに対応する総合バースト値を記憶するテーブルである。図9は、総合Burst格納テーブル150gのデータ構造の一例を示す図である。同図に示すように、この総合Burst格納テーブル150gは、キーワード、日時、SB(kwi)、CB(kwi)、α(kwi)、TB(kwi)から構成される。
このうち、SB(kwi)は、検索ログ情報に含まれるキーワードのBurst値を示す。このSB(kwi)は、検索語テーブル150cに記憶された各情報に基づいて算出される。CB(kwi)は、ニュースやブログに含まれるキーワードのBurst値を示す。このCB(kwi)は、Burst算出パラメータテーブル150fに記憶された各情報に基づいて算出される。
α(kwi)は、総合Burst値を算出する場合に利用される係数である。TB(kwi)は、キーワードに対応する総合Burst値を示す。この総合Burst値は、後述する総合Burst算出部160eによって算出される。総合Burst格納テーブル150gは、様々な時点におけるキーワードのSB(kwi)、CB(kwi)、α(kwi)、TB(kwi)を記憶しているものとする。
トピックタイプ管理テーブル150hは、キーワードを予め準備した複数のトピックタイプに分類するテーブルである。図10は、トピックタイプ管理テーブル150hのデータ構造の一例を示す図である。同図に示すように、このトピックタイプ管理テーブル150hは、キーワードと、日付と、トピックタイプとから構成される。
このうち、トピックタイプは、ユーザによって検索されるキーワードの時間的変化の特徴を示す。例えば、トピックタイプが「繰り返し型」の場合には、キーワードの検索数が増加減少を繰り返していることを示す。トピックタイプはこのほかにも、「じわり型」と「突発型」などが存在する。「じわり型」は、キーワードの検索数が時間経過と共になだらかに増加していることを示すものであり、「突発型」は、所定時間内にキーワードの検索数が急激に増加したことを示すものである。
相関キーワードテーブル150iは、キーワードとこのキーワードに相関するキーワード(相関キーワード)とを対応付けて記憶するテーブルである。図11は、相関キーワードテーブル150iのデータ構造の一例を示す図である。同図に示すように、この相関キーワードテーブル150iは、キーワードと相関キーワードからなり、それぞれ対応付けがなされている。例えば、図11の1段目では、キーワードとなる株式会社Aと、相関キーワードとなるサービスAおよびパソコンBとが対応付けられている。
共起キーワードテーブル150jは、キーワードとこのキーワードと共起関係にあるキーワード(文書中でキーワードと共にあらわれるキーワード;以下、共起キーワード)とを対応付けて記憶するテーブルである。図12は、共起キーワードテーブル150jのデータ構造の一例を示す図である。同図に示すように、この共起キーワードテーブル150jは、キーワードと共起キーワードからなり、それぞれ対応付けがなされている。例えば、図12の1段目では、キーワードとなる株式会社Aと、共起キーワードとなる研究所および開発とが対応付けられている。
最終結果格納テーブル150kは、ユーザ端末20に出力する情報を格納するテーブルである。図13は、最終結果格納テーブル150kのデータ構造の一例を示す図である。同図に示すように、この最終結果格納テーブル150kは、キーワード、日時、TB(kwi)、SUB(kwi)、トピックタイプから構成される。このうち、SUB(kwi)は、キーワードと共にユーザ端末20に出力される相関キーワードあるいは共起キーワードを示す。なお、最終結果格納テーブル150kは、総合Burst値TB(kwi)の大きい順にキーワードが記憶される。
図3の説明に戻ると、制御部160は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、これらによって種々の処理を実行する制御手段であり、特に本発明に密接に関連するものとしては、図3に示すように、データ管理部160a、Burst算出部160b、ユーザ辞書登録部160c、形態素解析部160d、総合Burst算出部160e、トピックタイプ判定部160f、相関キーワード検出部160g、共起キーワード検出部160h、出力キーワード判定処理部160iを備える。
このうちデータ管理部160aは、サーバ40から検索ログ情報を取得し、Webコンテンツデータベース150aに記憶すると共に、各種コンテンツ記憶装置30から各種コンテンツの情報を取得してWebコンテンツデータベース150aに記憶する手段である。なお、データ管理部160aは、発信日時が保証された各種コンテンツを収集する場合は、従来技術(特開2006−236262)に開示されている技術を利用すればよい。
また、データ管理部160aは、Webコンテンツデータベース150aに記憶されたニュースおよびブログのインデックス化を行い、ニュース・ブログテーブル150bを作成する(図4参照)。なお、インデックス化を行う場合にニュース・ブログから選択されるキーワードは、日時及び選択したキーワードによって該当ニュースあるいはブログが一意に特定できるものであれば、どのようなキーワードを選択しても構わない。
更に、データ管理部160aは、Webコンテンツデータベース150aに記憶された検索ログ情報を基にして、検索語テーブル150cを作成する(図5参照)。検索語テーブルを作成する場合に、データ管理部160aは、検索ログ情報に含まれる過去のキーワードの検索数に基づいて、平均検索数を算出し、算出した平均検索数を検索語テーブル150cに記憶する。
Burst算出部160bは、検索語テーブル150cあるいはBurst算出パラメータテーブル150fに基づいてBurst値を算出する手段である。まず、Burst算出部160bが検索語テーブル150cに基づいてBurst値を算出する場合について説明する。このBurst値は、上述したように、利用者によって検索されるキーワードの単位時間当たりの増加量を示す値である。Burst値はどのように算出しても構わないが、例えば、
Figure 2008087728
によって算出することができる。
ここで、式(1)の各項目について説明する。UUt(Wi)は、時刻tにおけるキーワード(wi)の利用者数を表し、Ct1は、UUt(Wi)の補正値を示す。式(1)を用いることにより、時刻tにおけるBurst値ATt(Wi)1を算出することができる。なお、式(1)の分母は、検索語テーブルの平均検索数に対応し、式(1)のUUt(Wi)は、検索語テーブル150cの検索数に対応する。Burst算出部160bは、キーワードと対応付けて、Burst値ATt(Wi)1を検索語テーブル150cのBurst値フィールドに記憶する。
続いて、Burst算出部160bが、Burst算出パラメータテーブル150fに基づいてBurst値を算出する場合について説明する。この場合のBurst値は、例えば、
Figure 2008087728
によって算出することができる。
ここで、式(2)の各項目について説明する。Ft(Wi)は、時刻tに発信されたコンテンツに含まれるキーワードの頻度を表し、Ct2は、Ft(Wi)の補正値を示す。式(2)を用いることにより、時刻tにおけるBurst値ATt(Wi)2を算出することができる。なお、式(2)の分母は、Burst算出パラメータテーブル150fの平均に対応し、式(2)のFt(Wi)は、Burst算出パラメータテーブル150fのコンテンツに対応する。Burst算出部160bは、キーワードと対応付けて、Burst値ATt(Wi)2をBurst算出パラメータテーブル150fのBurst値フィールドに記憶する。
ユーザ辞書登録部160cは、検索語テーブル150cに記憶された情報を基にして、Burst値フィールドに記憶されたBurst値が閾値以上となるキーワードを検索し、検索したキーワードをユーザ辞書テーブル150d(図6参照)に記憶する手段である。
形態素解析部160dは、ユーザ辞書テーブル150dの形態素フィールドに記載された各キーワードを利用して、ニュース・ブログテーブル150bのニュース(ブログ)内容フィールドに記載されたテキストコンテンツあるいはWebコンテンツデータベース150aに記憶された情報の形態素解析を実行する手段である。形態素解析部160dは、形態素解析結果を形態素解析結果管理テーブル150eに記憶する。
形態素解析部160dは、ニュース・ブログテーブル150bのニュース(ブログ)内容フィールドに記載されたテキストコンテンツあるいはWebコンテンツデータベース150aに記憶された情報に基づき、形態素解析結果から得られる形態素(キーワード)を用いて、タイトルに含まれるキーワードの数、エンハンスされたキーワードの数、キーワードがリンクを張られた数、ニュースおよびブログに含まれるキーワードの数を計数する。
形態素解析部160dは、計数した数をキーワードと対応付けて形態素解析結果テーブル150eのタイトルフィールド、エンハンスフィールド、リンクフィールド、コンテンツフィールドに記憶する。また、形態素解析部160dは、文書ソースID、ロケールの情報も合わせて形態素解析結果テーブル150eに記憶する。
更に、形態素解析部160dは、形態素解析結果からえられる形態素(キーワード)とWebコンテンツデータベース150aあるいはニュース・ブログテーブル150bに記憶された情報を基にして、Burst算出パラメータテーブル150f(図8参照)を作成する。形態素解析部160dは、Webコンテンツデータベース150aあるいはニュース・ブログテーブル150bに記憶された情報に含まれるキーワードの検索数に基づいて、単位時間当たりのキーワードが検索される平均検索数を算出し、算出した平均検索数をBurst算出パラメータテーブル150fの平均フィールドに記憶する。
総合Burst算出部160eは、キーワードに対応する総合Burst値を算出する手段である。具体的に、総合Burst算出部160eの行う処理について説明すると、キーワードに対応する総合Burst値TB(kwi)は、
TB(kwi)=SB(kwi)×CB(kwi)+α(kwi)
によって算出することができる。ここで、各項目の説明を行うと、SB(kwi)は、検索語テーブル150cのBurst値フィールドに記憶された(該当キーワードに対応する)Burst値を示す。また、CB(kwi)は、Burst算出パラメータテーブル150fのBurst値フィールドに記憶された(該当キーワードに対応する)Burst値を示す。
α(kwi)は、Burst算出パラメータテーブル150fのタイトルフィールドに記憶されたキーワードの数を示すT(kwi)、エンハンスフィールドに記憶されたキーワードの数を示すL(kwi)、リンクフィールドに記憶されたキーワードの数を示すE(kwi)によって算出される値であり、具体的には、
α(kwi)=β×(T(kwi)+L(kwi)+E(kwi))
によって算出される。上記式におけるβは、総合Burst値のバランスを取るための係数である。
総合Burst算出部160eは、算出した総合Burst値(TB(kwi))をキーワードと対応付けて総合Burst格納テーブル150g(図9参照)に記憶する。なお、総合Burst算出部160eは、Burst算出パラメータテーブル150fに基づいて、総合Burst格納テーブル150gの各キーワードに対応するSB(kwi)、CB(kwi)、α(kwi)の値を予め登録しておく。なお、総合Burst算出部160eは、SB(kwi)の値が0の場合には、0の代わりに1を登録する。同様に、総合Burst算出部160eは、CB(kwi)の値が0の場合には、0の代わりに1を登録する。
トピックタイプ判定部160fは、キーワードに対応するトピックタイプ(繰り返し型、じわり型あるいは突発型)を判定し、判定結果をキーワードごとにトピックタイプ管理テーブルに記憶する手段である。具体的に、トピックタイプ判定部160fは、総合Burst格納テーブル150gのTB(kwi)フィールドに記憶された総合Burst値が閾値以上となるキーワードを検出する。
そして、トピックタイプ判定部160fは、検出したキーワードに対応する総合Burst値の過去一定期間における時系列推移を算出し、過去のt−1からt(tにはある日にちの時刻に対応する数値が代入される)までの微分値を複数の時点において算出し、各時点での微分値を基にしてトピックタイプを判定する。なお過去一定期間における総合Burst値の時系列推移は、過去一定期間における総合Burst値と日時との関係から近似式によって特定することができる。
トピックタイプ判定部160fは、各時点での微分値がプラスマイナスをn回以上繰り返している場合には、対応するキーワードのトピックタイプを「繰り返し型」と判定する。また、トピックタイプ判定部160fは、各時点での微分値が所定期間以上の間にm回以上連続してプラスとなっている場合には、対応するキーワードのトピックタイプを「じわり型」と判定する。また、トピックタイプ判定部160fは、各時点での微分値が所定期間未満の間にm回連続してプラスとなっている場合には、対応するキーワードのトピックタイプを「突発型」と判定する。
相関キーワード検出部160gは、総合Bust値が閾値以上となるキーワードを利用して相関係数が所定値以上となるキーワード群を検出する手段である。具体的に、この相関キーワード検出部160gは、総合Burst格納テーブル150gを基にして、総合Burst値TB(kwi)が閾値T以上となるキーワードを取り出す。
そして、相関キーワード検出部160gは、取り出した各キーワードの総合Burst値TB(kwi)を利用して、相関係数を算出する。相関係数はどのようにして算出しても構わないが、例えば
Figure 2008087728
によって算出することができる。
ここで、式(3)の各項目について説明すると、xiは、キーワードの総合Burst値TB(kwi)に対応し、yiは、相関係数の比較対象となるキーワードの総合Burst値(kwj)に対応する。
相関キーワード検出部160gは、式(3)を用いてキーワードとの相関係数の所定値以上となるキーワード群を取り出し、取り出したキーワード群を相関キーワードCO(kwi)として相関キーワードテーブルに記憶する。図11の一段目に記憶された結果から、キーワード「株式会社A」の総合Burst値TB(kwi)と相関キーワード「サービスA」の総合Burst値TB(kwj)との相関係数が所定値以上であったことがわかる。同様に、キーワード「株式会社A」の総合Burst値TB(kwi)と相関キーワード「パソコンB」の総合Burst値TB(kwi)との相関係数が所定値以上であったことがわかる。
共起キーワード検出部160hは、総合Burst値が閾値以上となるキーワードを利用して、かかるキーワードと文書中で共に表れる(共起する)キーワードを共起キーワードとして取り出す手段である。
具体的に、共起キーワード検出部160hは、総合Burst格納テーブル150gを基にして、総合Burst値TB(kwi)が閾値T以上となるキーワードを取り出す。そして、共起キーワード検出部160hは、取り出したキーワードと形態素解析結果テーブル150eとを基にして、かかるキーワードのロケール(文書上の位置)を特定する。
共起キーワード検出部160hは、特定したロケールと、Webコンテンツデータベース150aあるいはニュース・ブログテーブル150bとを基にして、ロケール値の前後のm語(キーワード)を共起キーワードRK(kwi)として取り出し、取り出した共起キーワードを、対応するキーワードと対応付けて共起キーワードテーブル150jに記憶する。共起キーワード検出部160hは、かかる処理を他の文書ソースIDに対しても実行する。
なお、共起キーワード検出部160hは、共起キーワードを共起キーワードテーブル150jに記憶する場合に、文書上における共起キーワードの頻度の大きい順に記憶する。図12の1段目に示す例では、共起キーワードが研究所、開発、・・・の順に記憶されているので、キーワード「株式会社A」と共に文書上に表れる頻度は、共起キーワード「研究所」のほうが「開発」よりも大きいこととなる。
出力キーワード判定処理部160iは、ユーザ端末20に出力するキーワード群(最終結果格納テーブル150kに記憶される情報)を作成し、作成したキーワード群をユーザ端末20に出力する手段である。具体的に、出力キーワード判定処理部160iは、キーワード(kwi)&相関キーワードCO(kwi)&RK(kwi)&日時という検索条件によって、ニュース・ブログテーブル150bを検索する。
出力キーワード判定処理部160iは、かかる検索条件によってヒットした件数が1以上であった場合には、検索条件に対応するキーワード、日時、総合Burst値TB(kwi)、SUB(kwi)、およびキーワードのトピックタイプを最終結果格納テーブル150kに記憶する。なお、SUB(kwi)には、検索条件に含まれる相関キーワードCO(kwi)および共起キーワードRK(kwi)を記憶する。出力キーワード判定処理部160iは、トピックタイプ管理テーブル150hを基にしてキーワードのトピックタイプを最終結果格納テーブルに記憶する。出力キーワード判定処理部160iは、最終結果格納テーブル150kに記憶するキーワードを総合Burst値の大きい順に記憶する。
上記した検索結果のヒット数が0であった場合には、頻度の低い相関キーワードCO(kwi)あるいは共起キーワードRK(kwi)を検索条件から除外し、再び、ニュース・ブログテーブル150bを検索する。出力キーワード判定処理部160iは、検索結果のヒット数が1以上となるまで、検索条件の再設定(頻度の低い相関キーワードCO(kwi)あるいは共起キーワードRK(kwi)を検索条件から除外する設定)を行い、検索を繰り返す。
なお、出力キーワード判定処理部160iは、最終結果格納テーブル150kのトピックタイプフィールドを参照し、突発型のキーワードを取り出す。そして、出力キーワード判定処理部160jは、取り出したキーワード(kwi)&CO(kwi)&RK(kwi)という日時を検索条件から除いた新たな検索条件によってニュース・ブログテーブル150bを検索し、ヒット件数が1よりも大きいか否かを判定する。出力キーワード判定処理部160iは、ヒット件数が1よりも大きいと判定した場合には、対応するキーワードのトピックタイプ「突発型」を削除する。それ以外の場合には、トピックタイプをそのままにする。
次に、本実施例にかかるネット話題集積装置100の処理について説明する。図14は、本実施例にかかるネット話題集積装置100の処理手順を示すフローチャートである。同図に示すように、ネット話題集積装置100は、データデータ管理部160aが各種コンテンツ記憶装置30およびサーバ40からニュース、ブログ、検索ログの情報を取得し、Webコンテンツデータベース150aに記憶する(ステップS101)。
データ管理部160aは、Webコンテンツデータベース150aに記憶されたデータのインデックス化を行い、ニュース・ブログテーブル150bおよび検索語テーブル150cを作成し(ステップS102)、Burst算出部160bが検索語テーブル150cに含まれるキーワードのBurst値を算出する(ステップS103)。
続いて、ユーザ辞書登録部160cは、Burst値が閾値以上となるキーワードをユーザ辞書テーブル150dに登録し(ステップS104)、形態素解析部160dがユーザ辞書テーブル150dに登録されたデータを基にしてニュース・ブログのテキストコンテンツに対して形態素解析を実行する(ステップS105)。Burst算出部160bは、形態素解析を実行した結果得られたキーワードのBurst値を算出し、Burst算出パラメータテーブル150fに記憶する(ステップS106)。
そして、形態素解析部160dは、タイトルに含まれるキーワードの数を計数し(ステップS107)、キーワードに対してリンクが張られている数を計数し(ステップS108)、キーワードがBoldなどによってエンハンスされている数を計数する(ステップS109)。
総合Burst算出部160eは、Burst算出パラメータテーブル150fを基にして総合Burst値を算出し、総合Burst格納テーブル150gに記憶する(ステップS110)。トピックタイプ判定部160fは、過去の総合Burst値の時系列推移に基づいてトピックタイプを判定し、トピックタイプ管理テーブル150hに記憶する(ステップS111)。
続いて、相関キーワード検出部160gは、過去の総合Burst値の時系列推移と相関の高い(相関係数が閾値以上となる)キーワード群COを検出し、相関キーワードテーブル150iに記憶する(ステップS112)。共起キーワード検出部160hは、ニュースおよびブログのコンテンツの中で、総合Burst値の高い(閾値以上となる)キーワードと共に表れるキーワード群RKを検出し、共起キーワードテーブル150jに記憶する(ステップS113)。
そして、出力キーワード判定処理部150iが、総合Burst値のランキング(総合Burst値の大きい順)にしたがって、キーワード(kwi)&相関キーワードCO(kwi)&共起キーワードRK(kwi)&日時(Date)の検索条件によってニュース・ブログテーブル150bを検索し(ステップS114)、総合Burst値のランキングにしたがって、キーワード(kwi)+相関キーワードCO(kwi)+共起キーワードRW(kwi)+トピックタイプの形式でトピックをユーザ端末20に出力する(ステップS115)。
このように、出力キーワード判定処理部が、キーワード(kwi)+相関キーワードCO(kwi)+共起キーワードRW(kwi)+トピックタイプの形式でトピックをユーザ端末20に出力するので、利用者は話題のトピックを入手できると共に、トピックが話題となっている理由を容易に把握することができる。
上述してきたように、本実施例にかかるキーワード管理システムは、ネット話題集積装置100がキーワードの単位時間当たりの増加値を示すBurst値を算出し、算出したBurst値とこのBurst値に対応するキーワードのコンテンツ上の特徴(キーワードがタイトルに含まれる数、リンクが張られた数、エンハンスされた数)とを基にして総合Burst値を算出する。そして、ネット話題集積装置100は、総合Burst値の時系列推移を基にして総合Burst値に対応するキーワードに関連キーワード(相関キーワードおよび共起キーワード)をコンテンツから抽出し、キーワードと関連キーワードとを対応づけた情報をトピックとしてユーザ端末20に出力するので、何故トピックが話題となっているかという点を明確にして、話題となっているトピックの情報を利用者に通知することができる。
また、本実施例にかかるネット話題集積装置100は、トピックの情報にトピックタイプを含ませてユーザ端末に出力するので、利用者はどのような経緯によって話題のトピックになったかを容易に理解することができる。
また、本実施例にかかるネット話題集積装置100は、形態素解析部160dがユーザ辞書テーブル150dに記憶された形態素を利用してニュースやブログの形態素解析を実行するので、未知語などの切り出しをより正確に実行することができる。
ところで、本実施例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部あるいは一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
また、図2に示したキーワード管理システムの構成および図3に示したネット話題集積装置100の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部または任意の一部がCPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
図15は、図3に示したネット話題集積装置100を構成するコンピュータのハードウェア構成を示す図である。このコンピュータ50は、ユーザからのデータの入力を受け付ける入力装置51、モニタ52、RAM(Random Access Memory)53、ROM(Read Only Memory)54、各種プログラムを記録した記録媒体からプログラムを読み取る媒体読取装置55、ネットワークを介して他のコンピュータとの間でデータの授受をおこなうネットワークインターフェース56、CPU(Central Processing Unit)57、および、HDD(Hard Disk Drive)58をバス59で接続して構成される。
そして、HDD58には、上述したネット話題集積装置100の機能と同様の機能を発揮する話題キーワード提供プログラム58bが記憶されている。そして、CPU57が話題キーワード提供プログラム58bをHDD58から読み出して実行することにより、上述したネット話題集積装置100の機能部の機能を実現する話題キーワード提供プロセス57aが起動される。この話題キーワード提供プロセス57aは、図3に示したデータ管理部160a、Burst算出部160b、ユーザ辞書登録部160c、形態素解析部160d、総合Burst算出部160e、トピックタイプ判定部160f、相関キーワード検出部160g、共起キーワード検出部160h、出力キーワード判定処理部160iに対応する。
また、HDD58には、上述したネット話題集積装置100の記憶部150に記憶されるデータに対応する各種データ58aが記憶される。この各種データ58aは、図3に示したWebコンテンツデータベース150aと、ニュース・ブログテーブル150bと、検索語テーブル150cと、ユーザ辞書テーブル150dと、形態素解析結果管理テーブル150eと、Burst算出パラメータテーブル150fと、総合Burst格納テーブル150gと、トピックタイプ管理テーブル150hと、相関キーワードテーブル150iと、共起キーワードテーブル150jと、最終結果格納テーブル150kに対応する。
CPU57は、各種データ58aをHDD58に記憶するとともに、各種データ58aをHDD58から読み出してRAM53に格納し、RAM53に格納された各種データ53aを利用して話題となっているトピックの情報を関連キーワードと対応付けてユーザ端末20に出力する。
以上のように、本発明にかかるキーワード管理システムは、利用者の端末にトピックを提供するサービスを行うシステムに有用であり、特に、話題となっているトピックを利用者が快適に検索できるようにトピックを提供する必要がある場合に適している。特に、話題となっているトピックを時系列で整理して利用者が興味のあるトピックに対してトラックバックを行ったり、コメントを付加し同じ嗜好をもつ利用者を集めるようなコミュニティサービスへの適用が考えられる。
本発明は、ネットワークに接続された利用者の端末がコンテンツにアクセスする場合に利用するキーワードを管理するキーワード管理プログラム、キーワード管理システムおよびキーワード管理方法に関するものである。
近年、インターネットが広く普及し、利用者はインターネットに接続されたユーザ端末を利用して、様々な情報をネット上から取得している。例えば、利用者が所定のキーワードに関連する情報をネット上から取得する場合には、検索エンジンを利用することによって取得することができる。
また、利用者は、特定のキーワードを知らなくても、サービス提供者が管理するポータルサイトやブロクなどにアクセスすることによって、サービス提供者が選出したニュース、話題、お勧め情報などの各種情報を取得することもできる。
この他にも情報収集を行う利用者に対応して、ネット上では様々なサービス提供が行われている。例えば、非特許文献1では、利用者に話題のキーワードを提供し、かかるキーワードの検索を促すというサービスが開示されている。このサービスは、所定期間内に検索されたキーワードのランキングを行い、利用者にランキング結果を通知することで、利用者に話題のキーワードを提供することを可能としている。
なお、特許文献1では、利用者の情報検索をより快適なものにするため、検索されたキーワードとキーワードに関連する情報との関連性の度合いによって、キーワードに関連する情報の配置を設定するという技術が公開されている。
ニフティ株式会社 "瞬ワード"、[online]、[平成18年12月25日検索]、インターネット<http://www.nifty.com/shun/> 特開2006−31577号公報
しかしながら、上述した従来の技術では、話題となっているトピックを利用者に提供することはできても、どうして提供したトピックが話題となっているのかが不明のままになってしまうという問題があった。
この場合、利用者は、提供されたトピックがどうして話題になっているのかがわからないため、話題の理由がわからないまま検索を行う必要がある。そして、検索した結果、トピックに関連する様々な情報(話題に関係のない情報を含む)にヒットしてしまい、利用者はトピックを利用した検索を快適に行うことができなかった。
すなわち、何故トピックが話題となっているかという点を明確にして、話題となっているトピックの情報を利用者に通知することが極めて重要な課題となっている。
本発明は、上記に鑑みてなされたものであって、何故トピックが話題となっているかという点を明確にして、話題となっているトピックの情報を利用者に通知することができるキーワード管理プログラム、キーワード管理システムおよびキーワード管理方法を提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、ネットワークに接続された利用者の端末がコンテンツにアクセスする場合に利用するキーワードを管理するキーワード管理システムのキーワード管理プログラムであって、前記キーワードの単位時間当たりの増加値を示すバースト値を算出するバースト値算出手順と、前記バースト値に対応するキーワードの前記コンテンツ上の特徴を基にして前記バースト値を補正した総合バースト値を算出する総合バースト値算出手順と、前記総合バースト値の時系列推移を基にして当該総合バースト値に対応するキーワードに関連する関連キーワードを前記コンテンツから抽出し、前記キーワードと関連キーワードとを対応付けて前記利用者の端末に出力する出力制御手順と、をコンピュータに実行させることを特徴とする。
また、本発明は、上記発明において、前記バースト値が閾値以上となるキーワードに基づいて前記コンテンツに含まれるテキストの形態素解析を実行する形態素解析実行手順を更にコンピュータに実行させ、前記バースト値算出手順は、前記形態素解析結果から得られるキーワードに対して更にバースト値を算出することを特徴とする。
また、本発明は、上記発明において、前記総合バースト値の時系列推移に基づいて当該総合バースト値に対応するキーワードを予め用意された複数の型のいずれかに分類する分類手順を更にコンピュータに実行させ、前記出力制御手順は、前記分類手順の分類結果を更に前記利用者の端末に出力することを特徴とする。
また、本発明は、上記発明において、前記キーワードのコンテンツ上の特徴は、前記コンテンツにおいて、タイトルに含まれている前記キーワードの数、リンクが張られている前記キーワードの数、修飾されている前記キーワードの数を含んでいることを特徴とする。
また、本発明は、上記発明において、前記出力制御手順は、前記総合バースト値の時系列推移と相関するキーワードを前記関連キーワードとして抽出することを特徴とする。
また、本発明は、上記発明において、前記出力制御手順は、前記コンテンツのテキスト中で前記総合バースト値が閾値以上となるキーワードと共に表れるキーワードを前記関連キーワードとして更に抽出することを特徴とする。
また、本発明は、ネットワークに接続された利用者の端末がコンテンツにアクセスする場合に利用するキーワードを管理するキーワード管理システムであって、前記キーワードの単位時間当たりの増加値を示すバースト値を算出するバースト値算出手段と、前記バースト値に対応するキーワードの前記コンテンツ上の特徴を基にして前記バースト値を補正した総合バースト値を算出する総合バースト値算出手段と、前記総合バースト値の時系列推移を基にして当該総合バースト値に対応するキーワードに関連する関連キーワードを前記コンテンツから抽出し、前記キーワードと関連キーワードとを対応付けて前記利用者の端末に出力する出力制御手段と、を備えたことを特徴とする。
また、本発明は、上記発明において、前記バースト値が閾値以上となるキーワードに基づいて前記コンテンツに含まれるテキストの形態素解析を実行する形態素解析実行手段を更に備え、前記バースト値算出手段は、前記形態素解析結果から得られるキーワードに対して更にバースト値を算出することを特徴とする。
また、本発明は、上記発明において、前記総合バースト値の時系列推移に基づいて当該総合バースト値に対応するキーワードを予め用意された複数の型のいずれかに分類する分類手段を更に備え、前記出力制御手段は、前記分類手段の分類結果を更に前記利用者の端末に出力することを特徴とする。
また、本発明は、上記発明において、前記キーワードのコンテンツ上の特徴は、前記コンテンツにおいて、タイトルに含まれている前記キーワードの数、リンクが張られている前記キーワードの数、修飾されている前記キーワードの数を含んでいることを特徴とする。
また、本発明は、上記発明において、前記出力制御手段は、前記総合バースト値の時系列推移と相関するキーワードを前記関連キーワードとして抽出することを特徴とする。
また、本発明は、上記発明において、前記出力制御手段は、前記コンテンツのテキスト中で前記総合バースト値が閾値以上となるキーワードと共に表れるキーワードを前記関連キーワードとして更に抽出することを特徴とする。
また、本発明は、ネットワークに接続された利用者の端末がコンテンツにアクセスする場合に利用するキーワードを管理するキーワード管理システムのキーワード管理方法であって、前記キーワードの単位時間当たりの増加値を示すバースト値を算出するバースト値算出工程と、前記バースト値に対応するキーワードの前記コンテンツ上の特徴を基にして前記バースト値を補正した総合バースト値を算出する総合バースト値算出工程と、前記総合バースト値の時系列推移を基にして当該総合バースト値に対応するキーワードに関連する関連キーワードを前記コンテンツから抽出し、前記キーワードと関連キーワードとを対応付けて前記利用者の端末に出力する出力制御工程と、を含んだことを特徴とする。
また、本発明は、上記発明において、前記バースト値が閾値以上となるキーワードに基づいて前記コンテンツに含まれるテキストの形態素解析を実行する形態素解析実行工程を更に含み、前記バースト値算出工程は、前記形態素解析結果から得られるキーワードに対して更にバースト値を算出することを特徴とする。
また、本発明は、上記発明において、前記総合バースト値の時系列推移に基づいて当該総合バースト値に対応するキーワードを予め用意された複数の型のいずれかに分類する分類工程を更に含み、前記出力制御工程は、前記分類工程の分類結果を更に前記利用者の端末に出力することを特徴とする。
また、本発明は、上記発明において、前記キーワードのコンテンツ上の特徴は、前記コンテンツにおいて、タイトルに含まれている前記キーワードの数、リンクが張られている前記キーワードの数、修飾されている前記キーワードの数を含んでいることを特徴とする。
また、本発明は、上記発明において、前記出力制御工程は、前記総合バースト値の時系列推移と相関するキーワードを前記関連キーワードとして抽出することを特徴とする。
また、本発明は、上記発明において、前記出力制御工程は、前記コンテンツのテキスト中で前記総合バースト値が閾値以上となるキーワードと共に表れるキーワードを前記関連キーワードとして更に抽出することを特徴とする。
本発明によれば、キーワードの単位時間当たりの増加値を示すバースト値を算出し、算出したバースト値に対応するキーワードのコンテンツ上の特徴を基にしてバースト値を補正した総合バースト値を算出し、この総合バースト値の時系列推移を基にして総合バースト値に対応するキーワードに関連する関連キーワードをコンテンツから抽出し、キーワードと関連キーワードとを対応付けて前記利用者の端末に出力するので、話題となっているキーワードと関連キーワードから利用者は何故かかるキーワードが話題となっているのかを容易に理解することができる。
また、本発明によれば、バースト値が閾値以上となるキーワードに基づいてコンテンツに含まれるテキストの形態素解析を実行し、形態素解析結果から得られるキーワードに対して更にバースト値を算出するので話題となっているキーワードをより正確に抽出することができる。
また、本発明によれば、総合バースト値の時系列推移に基づいて総合バースト値に対応するキーワードを予め用意された複数の型のいずれかに分類するので、利用者はどのような経緯によって話題のキーワードになったかを容易に理解することができる。
また、本発明によれば、タイトルに含まれている前記キーワードの数、リンクが張られているキーワードの数、修飾されているキーワードの数を含んだキーワードのコンテンツ上の特徴を基にして総合バースト値を補正するので、話題のキーワードをより的確に抽出することができる。
また、本発明によれば、総合バースト値の時系列推移と相関するキーワードを関連キーワードとして抽出するので、話題となっているキーワードと関連キーワードから利用者は何故かかるキーワードが話題となっているのかを容易に理解することができる。
また、本発明によれば、コンテンツのテキスト中で総合バースト値が閾値以上となるキーワードと共に表れるキーワードを関連キーワードとして更に抽出するので、話題となっているキーワードと関連キーワードから利用者は何故かかるキーワードが話題となっているのかを容易に理解することができ、キーワードを用いた情報検索をより快適に実行することができる。
以下に、本発明にかかるキーワード管理プログラム、キーワード管理システムおよびキーワード管理方法の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
まず、本実施例にかかるキーワード管理システムの特徴を従来技術と比較して説明する。図1は、従来技術と本実施例にかかるキーワード管理システムとの違いを説明するための説明図である。図1の左側に示すように、従来技術では、コンテンツにアクセスする場合に利用されるキーワードの利用頻度を基にして話題となっているキーワードを選択し、選択したキーワードを利用頻度の高いものから順にならべ、トピックとして利用者の端末(以下、ユーザ端末)に通知していた(図1の左側参照)。
しかし、従来技術は、単に、話題となっているキーワードを利用頻度に応じて並べているだけなので、利用者は何故各キーワードがトピックになっているかが理解できず、快適に各キーワードを利用した情報検索を行うことができなかった。
一方、本実施例にかかるキーワード管理システムは、利用者がコンテンツにアクセスする場合に利用するキーワードの単位時間当たりの増加値を示すバースト値を算出し、算出したバースト値をこのバースト値に対応するキーワードのコンテンツ上の特徴に基づいて補正した総合バースト値を算出する。そして、総合バースト値の時系列推移を基にして総合バースト値に対応するキーワードに関連するキーワード(以下、関連キーワード)をコンテンツから抽出し、キーワードと関連キーワードとを対応付けた情報をトピックとしてユーザ端末に通知することを特徴としている(図1の右側参照)。
このように、本実施例にかかるキーワード管理システムは、話題となっているキーワードと密接に関連する他のキーワードをセットにしたキーワード群をトピックとして利用者に通知しているので、利用者は何故各トピックが話題となっているかを理解することができ、トピックを利用した情報検索を快適に実行することができる。
次に、本実施例にかかるキーワード管理システムの構成について説明する。図2は、本実施例にかかるキーワード管理システムの構成を示すシステム構成図である。同図に示すように、このキーワード管理システムは、ユーザ端末20と、各種コンテンツ記憶装置30と、サーバ40と、ネット話題集積装置100とをネットワーク10で接続して構成される。
ユーザ端末20は、サーバ40によって運営されるポータルサイト(検索エンジンを含む)を利用して、各種情報を取得する装置である。なお、ユーザ端末20が、各種情報を取得する場合には、利用者から入力装置(図示略)を介してキーワードを受け付け、受け付けたキーワードをサーバ40に出力する。
各種コンテンツ記憶装置30は、ネットワーク上で送受信される各種コンテンツ(ニュース、ブログ、BBS(Bulletin Board System)、株価、天気、占いなどのテキストコンテンツ)を記憶する記憶装置である。なお、各種コンテンツは、そのコンテンツが作成された日時の情報を含んでいるものとする。
サーバ40は、ポータルサイトを運営すると共に、ユーザ端末20からキーワードを取得した場合に、取得したキーワードに関連する情報を各種コンテンツ記憶装置30から検索し、検索した情報をユーザ端末20に出力する装置である。また、サーバ40は、ユーザ端末20から取得したキーワードの履歴を検索ログ情報として記憶装置(図示略)に記憶する。この検索ログ情報は、検索されたキーワード、検索された日時、検索数(同一利用者による重複検索は一回と見なす)、キーワードによって各種情報がヒットした件数の情報を対応付けて記憶しているものとする。
ネット話題集積装置100は、話題となっているキーワードと関連キーワードとを対応付けてユーザ端末20に出力する装置である。ここで、ネット話題集積装置100の構成について説明する。図3は、本実施例にかかるネット話題集積装置100の構成を示す機能ブロック図である。同図に示すように、このネット話題集積装置100は、入力部110と、出力部120と、通信制御IF部130と、入出力制御IF部140と、記憶部150と、制御部160とを備えて構成される。
このうち、入力部110は、各種の情報を入力する入力手段であり、キーボードやマウス、マイクなどによって構成される。なお、後述するモニタ(出力部120)も、マウスと協働してポインティングデバイス機能を実現する。
出力部120は、各種の情報を出力する出力手段であり、モニタ(若しくはディスプレイ、タッチパネル)やスピーカなどによって構成される。通信制御IF部130は、主に、ユーザ端末20、各種コンテンツ記憶装置30、サーバ40との間における通信を制御する手段である。入出力制御IF部140は、入力部110、出力部120、通信制御IF部130、記憶部150、制御部160によるデータの入出力を制御する手段である。
記憶部150は、制御部160による各種処理に必要なデータおよびプログラムを記憶する記憶手段(格納手段)であり、特に本発明に密接に関連するものとしては、図3に示すように、Webコンテンツデータベース150aと、ニュース・ブログテーブル150bと、検索語テーブル150cと、ユーザ辞書テーブル150dと、形態素解析結果管理テーブル150eと、Burst算出パラメータテーブル150fと、総合Burst格納テーブル150gと、トピックタイプ管理テーブル150hと、相関キーワードテーブル150iと、共起キーワードテーブル150jと、最終結果格納テーブル150kとを備える。
Webコンテンツデータベース150aは、ネット話題集積装置100がサーバ40から取得する検索ログ情報および各種コンテンツ記憶装置30から取得する各種コンテンツの情報(ニュース、ブログ、BBS、株価、天気、占いなどのテキストコンテンツの情報)を記憶するデータベースである。なお、各種コンテンツの情報は、ユニークな文書ソースID(Identification)と対応付けられて記憶されているものとする。
ニュース・ブログテーブル150bは、ニュースやブログ(あるいはBBS)の情報をキーワードおよびニュースおよびブログが発信(あるいは作成)された日時によって分類した(インデックス化した)テーブルである。図4は、ニュース・ブログテーブル150bのデータ構造の一例を示す図である。同図に示すように、ニュース・ブログテーブル150bは、キーワード、日時、文書ソースID、ニュース(ブログ)内容から構成される。このうち、日時は、ニュースまたはブログが発信(あるいは作成)された日時を示す。なお、ここでは、ニュース・ブログテーブル150bがニュースやブログの情報を記憶する場合を示すが、その他の情報(例えば、BBS、そのたコンテンツ)の情報を含めて記憶してもよい。
検索語テーブル150cは、検索ログ情報に含まれるキーワードの各種情報を記憶するテーブルである。図5は、検索語テーブル150cのデータ構造の一例を示す図である。同図に示すように、この検索語テーブル150cは、キーワード、日時、検索数、ヒット件数、平均検索数、Burst値から構成される。
このうち、検索数は、利用者によって該当キーワードが検索された回数を示す。例えば、図5の1段目では、株式会社Aというキーワードの検索回数が111であることが示されている。
ヒット件数は、キーワードを所定の検索エンジンによって検索した場合にヒットする件数を示す。例えば、図5の1段目では、キーワードとなる「株式会社A」のヒット件数が「1200000」であることが示されている。
平均検索数は、過去に検索されたキーワードの検索数に基づいて算出される単位時間当たりの平均検索数を示す。例えば、図5の一段目では、キーワードとなる「株式会社A」の平均検索数が「9.0」であることが示されている。
Burst値は、コンテンツに対するアクセス時に利用される(利用者によって検索エンジンなどに入力される)キーワードの単位時間当たりの増加量(時間経過によって変化する検索されるキーワードの微分値)を示す。このBurst値は、後述するBurst算出部160bによって算出される。
図3の説明に戻ると、ユーザ辞書テーブル150dは、ニュースおよびブログを形態素解析する場合に用いられる形態素の情報を記憶するテーブルである。図6は、ユーザ辞書テーブル150dのデータ構造の一例を示す図である。同図に示すように、このユーザ辞書テーブル150dは、形態素、読み、品詞、その他の情報から構成される。
形態素解析結果管理テーブル150eは、ニュースやブログから抽出した形態素となるキーワードの各種解析結果を記憶するテーブルである。図7は、形態素解析結果管理テーブル150eのデータ構造の一例を示す図である。同図に示すように、この形態素解析結果管理テーブル150eは、キーワード、日時、文書ソースID、ロケール、タイトル、エンハンス、リンク、コンテンツから構成される。
このうち、文書ソースIDは、該当するキーワードが含まれる文書の識別番号を示す。例えば、図7において、「株式会社A」というキーワードを含む文書の識別番号(文書ソースID)は、「CN001、CN002、CN003」である旨が示されている。
ロケールは、該当キーワードの文書内の位置を示す。例えば、「株式会社A」というキーワードは、文書ソースID「CN001」の文書内において、1番目、15番目、50番目に位置していることが示されている。
タイトルは、文書のタイトルに含まれるキーワードの数を示す。例えば、「株式会社A」というキーワードは、文書ソースID「CN001」の文書のタイトルに一つ含まれていることが示されている。
エンハンスは、該当キーワードが文書中で修飾されている数を示す(該当キーワードが文書中でBoldなどでエンハンスされている数を示す;例えば、キーワード「株式会社A」がエンハンスされると、「株式会社A」となる)。リンクは、文書中でキーワードがリンクを張られている数を示す。コンテンツは、文書中に含まれるキーワードの数を示す。
Burst算出パラメータテーブル150fは、形態素解析が行われた結果、ニュースあるいはブログから抽出された各形態素のBurst値に関連する情報を記憶するテーブルである。図8は、Burst算出パラメータテーブル150fのデータ構造の一例を示す図である。同図に示すように、このBurst算出パラメータテーブル150fは、キーワード、日時、タイトル、エンハンス、リンク、コンテンツ、平均、Burst値から構成される。
このうち、タイトル、エンハンス、リンク、コンテンツは、図7において説明したタイトル、エンハンス、リンク、コンテンツにそれぞれ対応する。平均およびBurst値は、図5において説明した平均検索数およびBurst値に対応する。なお、図7の平均およびBurst値は、ニュースおよびブログ中のキーワードが対象となっている(図5の平均検索数およびBurst値は、検索ログ情報中のキーワードが対象となっている)。
総合Burst格納テーブル150gは、各キーワードに対応する総合バースト値を記憶するテーブルである。図9は、総合Burst格納テーブル150gのデータ構造の一例を示す図である。同図に示すように、この総合Burst格納テーブル150gは、キーワード、日時、SB(kwi)、CB(kwi)、α(kwi)、TB(kwi)から構成される。
このうち、SB(kwi)は、検索ログ情報に含まれるキーワードのBurst値を示す。このSB(kwi)は、検索語テーブル150cに記憶された各情報に基づいて算出される。CB(kwi)は、ニュースやブログに含まれるキーワードのBurst値を示す。このCB(kwi)は、Burst算出パラメータテーブル150fに記憶された各情報に基づいて算出される。
α(kwi)は、総合Burst値を算出する場合に利用される係数である。TB(kwi)は、キーワードに対応する総合Burst値を示す。この総合Burst値は、後述する総合Burst算出部160eによって算出される。総合Burst格納テーブル150gは、様々な時点におけるキーワードのSB(kwi)、CB(kwi)、α(kwi)、TB(kwi)を記憶しているものとする。
トピックタイプ管理テーブル150hは、キーワードを予め準備した複数のトピックタイプに分類するテーブルである。図10は、トピックタイプ管理テーブル150hのデータ構造の一例を示す図である。同図に示すように、このトピックタイプ管理テーブル150hは、キーワードと、日付と、トピックタイプとから構成される。
このうち、トピックタイプは、ユーザによって検索されるキーワードの時間的変化の特徴を示す。例えば、トピックタイプが「繰り返し型」の場合には、キーワードの検索数が増加減少を繰り返していることを示す。トピックタイプはこのほかにも、「じわり型」と「突発型」などが存在する。「じわり型」は、キーワードの検索数が時間経過と共になだらかに増加していることを示すものであり、「突発型」は、所定時間内にキーワードの検索数が急激に増加したことを示すものである。
相関キーワードテーブル150iは、キーワードとこのキーワードに相関するキーワード(相関キーワード)とを対応付けて記憶するテーブルである。図11は、相関キーワードテーブル150iのデータ構造の一例を示す図である。同図に示すように、この相関キーワードテーブル150iは、キーワードと相関キーワードからなり、それぞれ対応付けがなされている。例えば、図11の1段目では、キーワードとなる株式会社Aと、相関キーワードとなるサービスAおよびパソコンBとが対応付けられている。
共起キーワードテーブル150jは、キーワードとこのキーワードと共起関係にあるキーワード(文書中でキーワードと共にあらわれるキーワード;以下、共起キーワード)とを対応付けて記憶するテーブルである。図12は、共起キーワードテーブル150jのデータ構造の一例を示す図である。同図に示すように、この共起キーワードテーブル150jは、キーワードと共起キーワードからなり、それぞれ対応付けがなされている。例えば、図12の1段目では、キーワードとなる株式会社Aと、共起キーワードとなる研究所および開発とが対応付けられている。
最終結果格納テーブル150kは、ユーザ端末20に出力する情報を格納するテーブルである。図13は、最終結果格納テーブル150kのデータ構造の一例を示す図である。同図に示すように、この最終結果格納テーブル150kは、キーワード、日時、TB(kwi)、SUB(kwi)、トピックタイプから構成される。このうち、SUB(kwi)は、キーワードと共にユーザ端末20に出力される相関キーワードあるいは共起キーワードを示す。なお、最終結果格納テーブル150kは、総合Burst値TB(kwi)の大きい順にキーワードが記憶される。
図3の説明に戻ると、制御部160は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、これらによって種々の処理を実行する制御手段であり、特に本発明に密接に関連するものとしては、図3に示すように、データ管理部160a、Burst算出部160b、ユーザ辞書登録部160c、形態素解析部160d、総合Burst算出部160e、トピックタイプ判定部160f、相関キーワード検出部160g、共起キーワード検出部160h、出力キーワード判定処理部160iを備える。
このうちデータ管理部160aは、サーバ40から検索ログ情報を取得し、Webコンテンツデータベース150aに記憶すると共に、各種コンテンツ記憶装置30から各種コンテンツの情報を取得してWebコンテンツデータベース150aに記憶する手段である。なお、データ管理部160aは、発信日時が保証された各種コンテンツを収集する場合は、従来技術(特開2006−236262)に開示されている技術を利用すればよい。
また、データ管理部160aは、Webコンテンツデータベース150aに記憶されたニュースおよびブログのインデックス化を行い、ニュース・ブログテーブル150bを作成する(図4参照)。なお、インデックス化を行う場合にニュース・ブログから選択されるキーワードは、日時及び選択したキーワードによって該当ニュースあるいはブログが一意に特定できるものであれば、どのようなキーワードを選択しても構わない。
更に、データ管理部160aは、Webコンテンツデータベース150aに記憶された検索ログ情報を基にして、検索語テーブル150cを作成する(図5参照)。検索語テーブルを作成する場合に、データ管理部160aは、検索ログ情報に含まれる過去のキーワードの検索数に基づいて、平均検索数を算出し、算出した平均検索数を検索語テーブル150cに記憶する。
Burst算出部160bは、検索語テーブル150cあるいはBurst算出パラメータテーブル150fに基づいてBurst値を算出する手段である。まず、Burst算出部160bが検索語テーブル150cに基づいてBurst値を算出する場合について説明する。このBurst値は、上述したように、利用者によって検索されるキーワードの単位時間当たりの増加量を示す値である。Burst値はどのように算出しても構わないが、例えば、
Figure 2008087728
によって算出することができる。
ここで、式(1)の各項目について説明する。UUt(Wi)は、時刻tにおけるキーワード(wi)の利用者数を表し、Ct1は、UUt(Wi)の補正値を示す。式(1)を用いることにより、時刻tにおけるBurst値ATt(Wi)1を算出することができる。なお、式(1)の分母は、検索語テーブルの平均検索数に対応し、式(1)のUUt(Wi)は、検索語テーブル150cの検索数に対応する。Burst算出部160bは、キーワードと対応付けて、Burst値ATt(Wi)1を検索語テーブル150cのBurst値フィールドに記憶する。
続いて、Burst算出部160bが、Burst算出パラメータテーブル150fに基づいてBurst値を算出する場合について説明する。この場合のBurst値は、例えば、
Figure 2008087728
によって算出することができる。
ここで、式(2)の各項目について説明する。Ft(Wi)は、時刻tに発信されたコンテンツに含まれるキーワードの頻度を表し、Ct2は、Ft(Wi)の補正値を示す。式(2)を用いることにより、時刻tにおけるBurst値ATt(Wi)2を算出することができる。なお、式(2)の分母は、Burst算出パラメータテーブル150fの平均に対応し、式(2)のFt(Wi)は、Burst算出パラメータテーブル150fのコンテンツに対応する。Burst算出部160bは、キーワードと対応付けて、Burst値ATt(Wi)2をBurst算出パラメータテーブル150fのBurst値フィールドに記憶する。
ユーザ辞書登録部160cは、検索語テーブル150cに記憶された情報を基にして、Burst値フィールドに記憶されたBurst値が閾値以上となるキーワードを検索し、検索したキーワードをユーザ辞書テーブル150d(図6参照)に記憶する手段である。
形態素解析部160dは、ユーザ辞書テーブル150dの形態素フィールドに記載された各キーワードを利用して、ニュース・ブログテーブル150bのニュース(ブログ)内容フィールドに記載されたテキストコンテンツあるいはWebコンテンツデータベース150aに記憶された情報の形態素解析を実行する手段である。形態素解析部160dは、形態素解析結果を形態素解析結果管理テーブル150eに記憶する。
形態素解析部160dは、ニュース・ブログテーブル150bのニュース(ブログ)内容フィールドに記載されたテキストコンテンツあるいはWebコンテンツデータベース150aに記憶された情報に基づき、形態素解析結果から得られる形態素(キーワード)を用いて、タイトルに含まれるキーワードの数、エンハンスされたキーワードの数、キーワードがリンクを張られた数、ニュースおよびブログに含まれるキーワードの数を計数する。
形態素解析部160dは、計数した数をキーワードと対応付けて形態素解析結果テーブル150eのタイトルフィールド、エンハンスフィールド、リンクフィールド、コンテンツフィールドに記憶する。また、形態素解析部160dは、文書ソースID、ロケールの情報も合わせて形態素解析結果テーブル150eに記憶する。
更に、形態素解析部160dは、形態素解析結果からえられる形態素(キーワード)とWebコンテンツデータベース150aあるいはニュース・ブログテーブル150bに記憶された情報を基にして、Burst算出パラメータテーブル150f(図8参照)を作成する。形態素解析部160dは、Webコンテンツデータベース150aあるいはニュース・ブログテーブル150bに記憶された情報に含まれるキーワードの検索数に基づいて、単位時間当たりのキーワードが検索される平均検索数を算出し、算出した平均検索数をBurst算出パラメータテーブル150fの平均フィールドに記憶する。
総合Burst算出部160eは、キーワードに対応する総合Burst値を算出する手段である。具体的に、総合Burst算出部160eの行う処理について説明すると、キーワードに対応する総合Burst値TB(kwi)は、
TB(kwi)=SB(kwi)×CB(kwi)+α(kwi)
によって算出することができる。ここで、各項目の説明を行うと、SB(kwi)は、検索語テーブル150cのBurst値フィールドに記憶された(該当キーワードに対応する)Burst値を示す。また、CB(kwi)は、Burst算出パラメータテーブル150fのBurst値フィールドに記憶された(該当キーワードに対応する)Burst値を示す。
α(kwi)は、Burst算出パラメータテーブル150fのタイトルフィールドに記憶されたキーワードの数を示すT(kwi)、エンハンスフィールドに記憶されたキーワードの数を示すL(kwi)、リンクフィールドに記憶されたキーワードの数を示すE(kwi)によって算出される値であり、具体的には、
α(kwi)=β×(T(kwi)+L(kwi)+E(kwi))
によって算出される。上記式におけるβは、総合Burst値のバランスを取るための係数である。
総合Burst算出部160eは、算出した総合Burst値(TB(kwi))をキーワードと対応付けて総合Burst格納テーブル150g(図9参照)に記憶する。なお、総合Burst算出部160eは、Burst算出パラメータテーブル150fに基づいて、総合Burst格納テーブル150gの各キーワードに対応するSB(kwi)、CB(kwi)、α(kwi)の値を予め登録しておく。なお、総合Burst算出部160eは、SB(kwi)の値が0の場合には、0の代わりに1を登録する。同様に、総合Burst算出部160eは、CB(kwi)の値が0の場合には、0の代わりに1を登録する。
トピックタイプ判定部160fは、キーワードに対応するトピックタイプ(繰り返し型、じわり型あるいは突発型)を判定し、判定結果をキーワードごとにトピックタイプ管理テーブルに記憶する手段である。具体的に、トピックタイプ判定部160fは、総合Burst格納テーブル150gのTB(kwi)フィールドに記憶された総合Burst値が閾値以上となるキーワードを検出する。
そして、トピックタイプ判定部160fは、検出したキーワードに対応する総合Burst値の過去一定期間における時系列推移を算出し、過去のt−1からt(tにはある日にちの時刻に対応する数値が代入される)までの微分値を複数の時点において算出し、各時点での微分値を基にしてトピックタイプを判定する。なお過去一定期間における総合Burst値の時系列推移は、過去一定期間における総合Burst値と日時との関係から近似式によって特定することができる。
トピックタイプ判定部160fは、各時点での微分値がプラスマイナスをn回以上繰り返している場合には、対応するキーワードのトピックタイプを「繰り返し型」と判定する。また、トピックタイプ判定部160fは、各時点での微分値が所定期間以上の間にm回以上連続してプラスとなっている場合には、対応するキーワードのトピックタイプを「じわり型」と判定する。また、トピックタイプ判定部160fは、各時点での微分値が所定期間未満の間にm回連続してプラスとなっている場合には、対応するキーワードのトピックタイプを「突発型」と判定する。
相関キーワード検出部160gは、総合Bust値が閾値以上となるキーワードを利用して相関係数が所定値以上となるキーワード群を検出する手段である。具体的に、この相関キーワード検出部160gは、総合Burst格納テーブル150gを基にして、総合Burst値TB(kwi)が閾値T以上となるキーワードを取り出す。
そして、相関キーワード検出部160gは、取り出した各キーワードの総合Burst値TB(kwi)を利用して、相関係数を算出する。相関係数はどのようにして算出しても構わないが、例えば
Figure 2008087728
によって算出することができる。
ここで、式(3)の各項目について説明すると、xiは、キーワードの総合Burst値TB(kwi)に対応し、yiは、相関係数の比較対象となるキーワードの総合Burst値(kwj)に対応する。
相関キーワード検出部160gは、式(3)を用いてキーワードとの相関係数の所定値以上となるキーワード群を取り出し、取り出したキーワード群を相関キーワードCO(kwi)として相関キーワードテーブルに記憶する。図11の一段目に記憶された結果から、キーワード「株式会社A」の総合Burst値TB(kwi)と相関キーワード「サービスA」の総合Burst値TB(kwj)との相関係数が所定値以上であったことがわかる。同様に、キーワード「株式会社A」の総合Burst値TB(kwi)と相関キーワード「パソコンB」の総合Burst値TB(kwi)との相関係数が所定値以上であったことがわかる。
共起キーワード検出部160hは、総合Burst値が閾値以上となるキーワードを利用して、かかるキーワードと文書中で共に表れる(共起する)キーワードを共起キーワードとして取り出す手段である。
具体的に、共起キーワード検出部160hは、総合Burst格納テーブル150gを基にして、総合Burst値TB(kwi)が閾値T以上となるキーワードを取り出す。そして、共起キーワード検出部160hは、取り出したキーワードと形態素解析結果テーブル150eとを基にして、かかるキーワードのロケール(文書上の位置)を特定する。
共起キーワード検出部160hは、特定したロケールと、Webコンテンツデータベース150aあるいはニュース・ブログテーブル150bとを基にして、ロケール値の前後のm語(キーワード)を共起キーワードRK(kwi)として取り出し、取り出した共起キーワードを、対応するキーワードと対応付けて共起キーワードテーブル150jに記憶する。共起キーワード検出部160hは、かかる処理を他の文書ソースIDに対しても実行する。
なお、共起キーワード検出部160hは、共起キーワードを共起キーワードテーブル150jに記憶する場合に、文書上における共起キーワードの頻度の大きい順に記憶する。図12の1段目に示す例では、共起キーワードが研究所、開発、・・・の順に記憶されているので、キーワード「株式会社A」と共に文書上に表れる頻度は、共起キーワード「研究所」のほうが「開発」よりも大きいこととなる。
出力キーワード判定処理部160iは、ユーザ端末20に出力するキーワード群(最終結果格納テーブル150kに記憶される情報)を作成し、作成したキーワード群をユーザ端末20に出力する手段である。具体的に、出力キーワード判定処理部160iは、キーワード(kwi)&相関キーワードCO(kwi)&RK(kwi)&日時という検索条件によって、ニュース・ブログテーブル150bを検索する。
出力キーワード判定処理部160iは、かかる検索条件によってヒットした件数が1以上であった場合には、検索条件に対応するキーワード、日時、総合Burst値TB(kwi)、SUB(kwi)、およびキーワードのトピックタイプを最終結果格納テーブル150kに記憶する。なお、SUB(kwi)には、検索条件に含まれる相関キーワードCO(kwi)および共起キーワードRK(kwi)を記憶する。出力キーワード判定処理部160iは、トピックタイプ管理テーブル150hを基にしてキーワードのトピックタイプを最終結果格納テーブルに記憶する。出力キーワード判定処理部160iは、最終結果格納テーブル150kに記憶するキーワードを総合Burst値の大きい順に記憶する。
上記した検索結果のヒット数が0であった場合には、頻度の低い相関キーワードCO(kwi)あるいは共起キーワードRK(kwi)を検索条件から除外し、再び、ニュース・ブログテーブル150bを検索する。出力キーワード判定処理部160iは、検索結果のヒット数が1以上となるまで、検索条件の再設定(頻度の低い相関キーワードCO(kwi)あるいは共起キーワードRK(kwi)を検索条件から除外する設定)を行い、検索を繰り返す。
なお、出力キーワード判定処理部160iは、最終結果格納テーブル150kのトピックタイプフィールドを参照し、突発型のキーワードを取り出す。そして、出力キーワード判定処理部160jは、取り出したキーワード(kwi)&CO(kwi)&RK(kwi)という日時を検索条件から除いた新たな検索条件によってニュース・ブログテーブル150bを検索し、ヒット件数が1よりも大きいか否かを判定する。出力キーワード判定処理部160iは、ヒット件数が1よりも大きいと判定した場合には、対応するキーワードのトピックタイプ「突発型」を削除する。それ以外の場合には、トピックタイプをそのままにする。
次に、本実施例にかかるネット話題集積装置100の処理について説明する。図14は、本実施例にかかるネット話題集積装置100の処理手順を示すフローチャートである。同図に示すように、ネット話題集積装置100は、データデータ管理部160aが各種コンテンツ記憶装置30およびサーバ40からニュース、ブログ、検索ログの情報を取得し、Webコンテンツデータベース150aに記憶する(ステップS101)。
データ管理部160aは、Webコンテンツデータベース150aに記憶されたデータのインデックス化を行い、ニュース・ブログテーブル150bおよび検索語テーブル150cを作成し(ステップS102)、Burst算出部160bが検索語テーブル150cに含まれるキーワードのBurst値を算出する(ステップS103)。
続いて、ユーザ辞書登録部160cは、Burst値が閾値以上となるキーワードをユーザ辞書テーブル150dに登録し(ステップS104)、形態素解析部160dがユーザ辞書テーブル150dに登録されたデータを基にしてニュース・ブログのテキストコンテンツに対して形態素解析を実行する(ステップS105)。Burst算出部160bは、形態素解析を実行した結果得られたキーワードのBurst値を算出し、Burst算出パラメータテーブル150fに記憶する(ステップS106)。
そして、形態素解析部160dは、タイトルに含まれるキーワードの数を計数し(ステップS107)、キーワードに対してリンクが張られている数を計数し(ステップS108)、キーワードがBoldなどによってエンハンスされている数を計数する(ステップS109)。
総合Burst算出部160eは、Burst算出パラメータテーブル150fを基にして総合Burst値を算出し、総合Burst格納テーブル150gに記憶する(ステップS110)。トピックタイプ判定部160fは、過去の総合Burst値の時系列推移に基づいてトピックタイプを判定し、トピックタイプ管理テーブル150hに記憶する(ステップS111)。
続いて、相関キーワード検出部160gは、過去の総合Burst値の時系列推移と相関の高い(相関係数が閾値以上となる)キーワード群COを検出し、相関キーワードテーブル150iに記憶する(ステップS112)。共起キーワード検出部160hは、ニュースおよびブログのコンテンツの中で、総合Burst値の高い(閾値以上となる)キーワードと共に表れるキーワード群RKを検出し、共起キーワードテーブル150jに記憶する(ステップS113)。
そして、出力キーワード判定処理部150iが、総合Burst値のランキング(総合Burst値の大きい順)にしたがって、キーワード(kwi)&相関キーワードCO(kwi)&共起キーワードRK(kwi)&日時(Date)の検索条件によってニュース・ブログテーブル150bを検索し(ステップS114)、総合Burst値のランキングにしたがって、キーワード(kwi)+相関キーワードCO(kwi)+共起キーワードRW(kwi)+トピックタイプの形式でトピックをユーザ端末20に出力する(ステップS115)。
このように、出力キーワード判定処理部が、キーワード(kwi)+相関キーワードCO(kwi)+共起キーワードRW(kwi)+トピックタイプの形式でトピックをユーザ端末20に出力するので、利用者は話題のトピックを入手できると共に、トピックが話題となっている理由を容易に把握することができる。
上述してきたように、本実施例にかかるキーワード管理システムは、ネット話題集積装置100がキーワードの単位時間当たりの増加値を示すBurst値を算出し、算出したBurst値とこのBurst値に対応するキーワードのコンテンツ上の特徴(キーワードがタイトルに含まれる数、リンクが張られた数、エンハンスされた数)とを基にして総合Burst値を算出する。そして、ネット話題集積装置100は、総合Burst値の時系列推移を基にして総合Burst値に対応するキーワードに関連キーワード(相関キーワードおよび共起キーワード)をコンテンツから抽出し、キーワードと関連キーワードとを対応づけた情報をトピックとしてユーザ端末20に出力するので、何故トピックが話題となっているかという点を明確にして、話題となっているトピックの情報を利用者に通知することができる。
また、本実施例にかかるネット話題集積装置100は、トピックの情報にトピックタイプを含ませてユーザ端末に出力するので、利用者はどのような経緯によって話題のトピックになったかを容易に理解することができる。
また、本実施例にかかるネット話題集積装置100は、形態素解析部160dがユーザ辞書テーブル150dに記憶された形態素を利用してニュースやブログの形態素解析を実行するので、未知語などの切り出しをより正確に実行することができる。
ところで、本実施例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部あるいは一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
また、図2に示したキーワード管理システムの構成および図3に示したネット話題集積装置100の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部または任意の一部がCPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
図15は、図3に示したネット話題集積装置100を構成するコンピュータのハードウェア構成を示す図である。このコンピュータ50は、ユーザからのデータの入力を受け付ける入力装置51、モニタ52、RAM(Random Access Memory)53、ROM(Read Only Memory)54、各種プログラムを記録した記録媒体からプログラムを読み取る媒体読取装置55、ネットワークを介して他のコンピュータとの間でデータの授受をおこなうネットワークインターフェース56、CPU(Central Processing Unit)57、および、HDD(Hard Disk Drive)58をバス59で接続して構成される。
そして、HDD58には、上述したネット話題集積装置100の機能と同様の機能を発揮する話題キーワード提供プログラム58bが記憶されている。そして、CPU57が話題キーワード提供プログラム58bをHDD58から読み出して実行することにより、上述したネット話題集積装置100の機能部の機能を実現する話題キーワード提供プロセス57aが起動される。この話題キーワード提供プロセス57aは、図3に示したデータ管理部160a、Burst算出部160b、ユーザ辞書登録部160c、形態素解析部160d、総合Burst算出部160e、トピックタイプ判定部160f、相関キーワード検出部160g、共起キーワード検出部160h、出力キーワード判定処理部160iに対応する。
また、HDD58には、上述したネット話題集積装置100の記憶部150に記憶されるデータに対応する各種データ58aが記憶される。この各種データ58aは、図3に示したWebコンテンツデータベース150aと、ニュース・ブログテーブル150bと、検索語テーブル150cと、ユーザ辞書テーブル150dと、形態素解析結果管理テーブル150eと、Burst算出パラメータテーブル150fと、総合Burst格納テーブル150gと、トピックタイプ管理テーブル150hと、相関キーワードテーブル150iと、共起キーワードテーブル150jと、最終結果格納テーブル150kに対応する。
CPU57は、各種データ58aをHDD58に記憶するとともに、各種データ58aをHDD58から読み出してRAM53に格納し、RAM53に格納された各種データ53aを利用して話題となっているトピックの情報を関連キーワードと対応付けてユーザ端末20に出力する。
以上のように、本発明にかかるキーワード管理システムは、利用者の端末にトピックを提供するサービスを行うシステムに有用であり、特に、話題となっているトピックを利用者が快適に検索できるようにトピックを提供する必要がある場合に適している。特に、話題となっているトピックを時系列で整理して利用者が興味のあるトピックに対してトラックバックを行ったり、コメントを付加し同じ嗜好をもつ利用者を集めるようなコミュニティサービスへの適用が考えられる。
図1は、従来技術と本実施例にかかるキーワード管理システムとの違いを説明するための説明図である。 図2は、本実施例にかかるキーワード管理システムの構成を示すシステム構成図である。 図3は、本実施例にかかるネット話題集積装置の構成を示す機能ブロック図である。 図4は、ニュース・ブログテーブルのデータ構造の一例を示す図である。 図5は、検索語テーブルのデータ構造の一例を示す図である。 図6は、ユーザ辞書テーブルのデータ構造の一例を示す図である。 図7は、形態素解析結果管理テーブルのデータ構造の一例を示す図である。 図8は、Burst算出パラメータテーブルのデータ構造の一例を示す図である。 図9は、総合Burst格納テーブルのデータ構造の一例を示す図である。 図10は、トピックタイプ管理テーブルのデータ構造の一例を示す図である。 図11は、関連キーワードテーブルのデータ構造の一例を示す図である。 図12は、共起キーワードテーブルのデータ構造の一例を示す図である。 図13は、最終結果格納テーブルのデータ構造の一例を示す図である。 図14は、本実施例にかかるネット話題集積装置の処理手順を示すフローチャートである。 図15は、図3に示したネット話題集積装置を構成するコンピュータのハードウェア構成を示す図である。
10 ネットワーク
20 ユーザ端末
30 各種コンテンツ記憶装置
40 サーバ
50 コンピュータ
51 入力装置
52 モニタ
53 RAM
53a 各種データ
54 ROM
55 媒体読取装置
56 ネットワークインターフェース
57 CPU
57a 話題キーワード提供プロセス
58 HDD
58a 各種データ
58b 話題キーワード提供プログラム
59 バス
100 ネット話題集積装置
110 入力部
120 出力部
130 通信制御IF部
140 入出力制御IF部
150 記憶部
150a Webコンテンツデータベース
150b ニュース・ブログテーブル
150c 検索語テーブル
150d ユーザ辞書テーブル
150e 形態素解析結果管理テーブル
150f Burst算出パラメータテーブル
150g 総合Burst格納テーブル
150h トピックタイプ管理テーブル
150i 相関キーワードテーブル
150j 共起キーワードテーブル
150k 最終結果格納テーブル
160 制御部
160a データ管理部
160b Burst算出部
160c ユーザ辞書登録部
160d 形態素解析部
160e 総合Burst算出部
160f トピックタイプ判定部
160g 相関キーワード検出部
160h 共起キーワード検出部
160i 出力キーワード判定処理部

Claims (18)

  1. ネットワークに接続された利用者の端末がコンテンツにアクセスする場合に利用するキーワードを管理するキーワード管理システムのキーワード管理プログラムであって、
    前記キーワードの単位時間当たりの増加値を示すバースト値を算出するバースト値算出手順と、
    前記バースト値に対応するキーワードの前記コンテンツ上の特徴を基にして前記バースト値を補正した総合バースト値を算出する総合バースト値算出手順と、
    前記総合バースト値の時系列推移を基にして当該総合バースト値に対応するキーワードに関連する関連キーワードを前記コンテンツから抽出し、前記キーワードと関連キーワードとを対応付けて前記利用者の端末に出力する出力制御手順と、
    をコンピュータに実行させることを特徴とするキーワード管理プログラム。
  2. 前記バースト値が閾値以上となるキーワードに基づいて前記コンテンツに含まれるテキストの形態素解析を実行する形態素解析実行手順を更にコンピュータに実行させ、前記バースト値算出手順は、前記形態素解析結果から得られるキーワードに対して更にバースト値を算出することを特徴とする請求項1に記載のキーワード管理プログラム。
  3. 前記総合バースト値の時系列推移に基づいて当該総合バースト値に対応するキーワードを予め用意された複数の型のいずれかに分類する分類手順を更にコンピュータに実行させ、前記出力制御手順は、前記分類手順の分類結果を更に前記利用者の端末に出力することを特徴とする請求項1に記載のキーワード管理プログラム。
  4. 前記キーワードのコンテンツ上の特徴は、前記コンテンツにおいて、タイトルに含まれている前記キーワードの数、リンクが張られている前記キーワードの数、修飾されている前記キーワードの数を含んでいることを特徴とする請求項1に記載のキーワード管理プログラム。
  5. 前記出力制御手順は、前記総合バースト値の時系列推移と相関するキーワードを前記関連キーワードとして抽出することを特徴とする請求項1〜4のいずれか一つに記載のキーワード管理プログラム。
  6. 前記出力制御手順は、前記コンテンツのテキスト中で前記総合バースト値が閾値以上となるキーワードと共に表れるキーワードを前記関連キーワードとして更に抽出することを特徴とする請求項5に記載のキーワード管理プログラム。
  7. ネットワークに接続された利用者の端末がコンテンツにアクセスする場合に利用するキーワードを管理するキーワード管理システムであって、
    前記キーワードの単位時間当たりの増加値を示すバースト値を算出するバースト値算出手段と、
    前記バースト値に対応するキーワードの前記コンテンツ上の特徴を基にして前記バースト値を補正した総合バースト値を算出する総合バースト値算出手段と、
    前記総合バースト値の時系列推移を基にして当該総合バースト値に対応するキーワードに関連する関連キーワードを前記コンテンツから抽出し、前記キーワードと関連キーワードとを対応付けて前記利用者の端末に出力する出力制御手段と、
    を備えたことを特徴とするキーワード管理システム。
  8. 前記バースト値が閾値以上となるキーワードに基づいて前記コンテンツに含まれるテキストの形態素解析を実行する形態素解析実行手段を更に備え、前記バースト値算出手段は、前記形態素解析結果から得られるキーワードに対して更にバースト値を算出することを特徴とする請求項7に記載のキーワード管理システム。
  9. 前記総合バースト値の時系列推移に基づいて当該総合バースト値に対応するキーワードを予め用意された複数の型のいずれかに分類する分類手段を更に備え、前記出力制御手段は、前記分類手段の分類結果を更に前記利用者の端末に出力することを特徴とする請求項7に記載のキーワード管理システム。
  10. 前記キーワードのコンテンツ上の特徴は、前記コンテンツにおいて、タイトルに含まれている前記キーワードの数、リンクが張られている前記キーワードの数、修飾されている前記キーワードの数を含んでいることを特徴とする請求項7に記載のキーワード管理システム。
  11. 前記出力制御手段は、前記総合バースト値の時系列推移と相関するキーワードを前記関連キーワードとして抽出することを特徴とする請求項7〜10のいずれか一つに記載のキーワード管理システム。
  12. 前記出力制御手段は、前記コンテンツのテキスト中で前記総合バースト値が閾値以上となるキーワードと共に表れるキーワードを前記関連キーワードとして更に抽出することを特徴とする請求項11に記載のキーワード管理システム。
  13. ネットワークに接続された利用者の端末がコンテンツにアクセスする場合に利用するキーワードを管理するキーワード管理システムのキーワード管理方法であって、
    前記キーワードの単位時間当たりの増加値を示すバースト値を算出するバースト値算出工程と、
    前記バースト値に対応するキーワードの前記コンテンツ上の特徴を基にして前記バースト値を補正した総合バースト値を算出する総合バースト値算出工程と、
    前記総合バースト値の時系列推移を基にして当該総合バースト値に対応するキーワードに関連する関連キーワードを前記コンテンツから抽出し、前記キーワードと関連キーワードとを対応付けて前記利用者の端末に出力する出力制御工程と、
    を含んだことを特徴とするキーワード管理方法。
  14. 前記バースト値が閾値以上となるキーワードに基づいて前記コンテンツに含まれるテキストの形態素解析を実行する形態素解析実行工程を更に含み、前記バースト値算出工程は、前記形態素解析結果から得られるキーワードに対して更にバースト値を算出することを特徴とする請求項13に記載のキーワード管理方法。
  15. 前記総合バースト値の時系列推移に基づいて当該総合バースト値に対応するキーワードを予め用意された複数の型のいずれかに分類する分類工程を更に含み、前記出力制御工程は、前記分類工程の分類結果を更に前記利用者の端末に出力することを特徴とする請求項13に記載のキーワード管理方法。
  16. 前記キーワードのコンテンツ上の特徴は、前記コンテンツにおいて、タイトルに含まれている前記キーワードの数、リンクが張られている前記キーワードの数、修飾されている前記キーワードの数を含んでいることを特徴とする請求項13に記載のキーワード管理方法。
  17. 前記出力制御工程は、前記総合バースト値の時系列推移と相関するキーワードを前記関連キーワードとして抽出することを特徴とする請求項13〜16のいずれか一つに記載のキーワード管理方法。
  18. 前記出力制御工程は、前記コンテンツのテキスト中で前記総合バースト値が閾値以上となるキーワードと共に表れるキーワードを前記関連キーワードとして更に抽出することを特徴とする請求項17に記載のキーワード管理方法。
JP2008553929A 2007-01-18 2007-01-18 キーワード管理プログラム、キーワード管理システムおよびキーワード管理方法 Expired - Fee Related JP4797069B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2007/050702 WO2008087728A1 (ja) 2007-01-18 2007-01-18 キーワード管理プログラム、キーワード管理システムおよびキーワード管理方法

Publications (2)

Publication Number Publication Date
JPWO2008087728A1 true JPWO2008087728A1 (ja) 2010-05-06
JP4797069B2 JP4797069B2 (ja) 2011-10-19

Family

ID=39635737

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008553929A Expired - Fee Related JP4797069B2 (ja) 2007-01-18 2007-01-18 キーワード管理プログラム、キーワード管理システムおよびキーワード管理方法

Country Status (4)

Country Link
US (1) US8316026B2 (ja)
JP (1) JP4797069B2 (ja)
CN (1) CN101583951B (ja)
WO (1) WO2008087728A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8577930B2 (en) 2008-08-20 2013-11-05 Yahoo! Inc. Measuring topical coherence of keyword sets
JP5097186B2 (ja) * 2009-09-30 2012-12-12 京セラコミュニケーションシステム株式会社 穴場情報提供装置またはその方法
JP5216042B2 (ja) * 2010-04-20 2013-06-19 ヤフー株式会社 検索スコア算出装置及び方法
JP5296011B2 (ja) * 2010-06-04 2013-09-25 ヤフー株式会社 関連バーストクエリ抽出装置及び方法
JP5341847B2 (ja) * 2010-09-13 2013-11-13 日本電信電話株式会社 検索クエリ推薦方法、検索クエリ推薦装置、検索クエリ推薦プログラム
JP5295295B2 (ja) * 2011-03-14 2013-09-18 ヤフー株式会社 解析装置及び方法
JP5323143B2 (ja) * 2011-08-03 2013-10-23 ヤフー株式会社 情報処理装置、情報処理方法、及びプログラム
TW201403528A (zh) * 2012-07-10 2014-01-16 Telexpress Corp 用於諮詢服務系統之關鍵字管理系統及其方法
JP6365032B2 (ja) * 2014-07-08 2018-08-01 富士通株式会社 データ分類方法、データ分類プログラム、及び、データ分類装置
JP6599727B2 (ja) * 2015-10-26 2019-10-30 株式会社Screenホールディングス 時系列データ処理方法、時系列データ処理プログラム、および、時系列データ処理装置
US10078632B2 (en) * 2016-03-12 2018-09-18 International Business Machines Corporation Collecting training data using anomaly detection
JP2018092367A (ja) * 2016-12-02 2018-06-14 日本放送協会 関連語抽出装置及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001188375A (ja) * 1999-12-28 2001-07-10 Mitsubishi Chemicals Corp 電子写真感光体の製造方法及び電子写真感光体
JP2004206517A (ja) * 2002-12-26 2004-07-22 Nifty Corp ホットキーワード提示方法及びホットサイト提示方法
JP2004348554A (ja) * 2003-05-23 2004-12-09 Nippon Telegr & Teleph Corp <Ntt> 検索キーワード情報提供装置、検索キーワード情報提供方法、及び検索キーワード情報提供プログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6457004B1 (en) * 1997-07-03 2002-09-24 Hitachi, Ltd. Document retrieval assisting method, system and service using closely displayed areas for titles and topics
JP4289513B2 (ja) * 1997-04-09 2009-07-01 富士通株式会社 文書表示装置およびプログラム記憶媒体
JP2002236681A (ja) * 2001-02-09 2002-08-23 Inst Of Physical & Chemical Res 日常言語コンピューティングシステムおよびその方法
JP4489994B2 (ja) 2001-05-11 2010-06-23 富士通株式会社 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体
JP2003006195A (ja) * 2001-06-21 2003-01-10 Nec System Technologies Ltd キーワード情報通知方式及びその方法
US7375731B2 (en) * 2002-11-01 2008-05-20 Mitsubishi Electric Research Laboratories, Inc. Video mining using unsupervised clustering of video content
JP4038501B2 (ja) * 2003-09-02 2008-01-30 株式会社東芝 逆モデル計算装置及び逆モデル計算方法
JP2006031577A (ja) 2004-07-21 2006-02-02 Hideki Mima 情報の検索俯瞰方法および装置
JP2006079454A (ja) 2004-09-10 2006-03-23 Fujitsu Ltd 検索キーワード分析方法、検索キーワード分析プログラムおよび検索キーワード分析装置
JP2006092368A (ja) 2004-09-24 2006-04-06 Fuji Xerox Co Ltd 活動記録装置、活動記録方法およびプログラム
JP4923413B2 (ja) 2005-02-28 2012-04-25 富士通株式会社 情報抽出プロブラム及び方法
US7788131B2 (en) * 2005-12-15 2010-08-31 Microsoft Corporation Advertising keyword cross-selling

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001188375A (ja) * 1999-12-28 2001-07-10 Mitsubishi Chemicals Corp 電子写真感光体の製造方法及び電子写真感光体
JP2004206517A (ja) * 2002-12-26 2004-07-22 Nifty Corp ホットキーワード提示方法及びホットサイト提示方法
JP2004348554A (ja) * 2003-05-23 2004-12-09 Nippon Telegr & Teleph Corp <Ntt> 検索キーワード情報提供装置、検索キーワード情報提供方法、及び検索キーワード情報提供プログラム

Also Published As

Publication number Publication date
WO2008087728A1 (ja) 2008-07-24
US20090276424A1 (en) 2009-11-05
US8316026B2 (en) 2012-11-20
JP4797069B2 (ja) 2011-10-19
CN101583951A (zh) 2009-11-18
CN101583951B (zh) 2012-02-15

Similar Documents

Publication Publication Date Title
JP4797069B2 (ja) キーワード管理プログラム、キーワード管理システムおよびキーワード管理方法
US8965893B2 (en) System and method for grouping multiple streams of data
US8630972B2 (en) Providing context for web articles
JP5160601B2 (ja) 相対頻度に基づくフレーズマイニングのためのシステム、方法、及び装置
KR101114012B1 (ko) 정보 신규성 및 다이내믹스의 분석을 통해 뉴스피드를 개인화하는 원리 및 방법
CN105069103B (zh) App搜索引擎利用用户评论的方法及系统
US20140122405A1 (en) Information processing apparatus, information processing method, and program
US20080228574A1 (en) System And Method For Conveying Content Changes Over A Network
US10318543B1 (en) Obtaining and enhancing metadata for content items
US8874553B2 (en) Establishing “is a” relationships for a taxonomy
WO2009096523A1 (ja) 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム
JP5615857B2 (ja) 分析装置、分析方法及び分析プログラム
US10152478B2 (en) Apparatus, system and method for string disambiguation and entity ranking
CN106021583B (zh) 页面流量数据的统计方法及其系统
WO2007140364A2 (en) Method for scoring changes to a webpage
US9245035B2 (en) Information processing system, information processing method, program, and non-transitory information storage medium
JP2011154467A (ja) 検索結果順位付け方法および検索結果順位付けシステム
US8037403B2 (en) Apparatus, method, and computer program product for extracting structured document
JP5952756B2 (ja) 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法
JP2008146293A (ja) 閲覧対象情報の評価システム、方法、およびプログラム
Joshi et al. Web 2.0 mining: Analyzing social media
KR102126911B1 (ko) KeyplayerRank를 이용한 소셜 미디어상의 주제별 키플레이어 탐지 방법
Badache et al. A priori relevance based on quality and diversity of social signals
Sarnikar et al. Query‐performance prediction for effective query routing in domain‐specific repositories
CN111597386A (zh) 一种视频采集方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110726

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110801

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140805

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees