JPWO2011013191A1

JPWO2011013191A1 - 関連性提示装置、方法およびプログラム

Info

Publication number: JPWO2011013191A1
Application number: JP2011524553A
Authority: JP
Inventors: 山崎　智弘; 智弘山崎; 鈴木　優; 優鈴木
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2009-07-27
Filing date: 2009-07-27
Publication date: 2013-01-07
Anticipated expiration: 2029-07-27
Also published as: WO2011013191A1; US20120185466A1; US8452760B2; JP5289573B2

Abstract

キーワード間の共起関係に基づいてクラスタリングしたネットワークである時事ネットワークを複数格納する格納部（１０１）と、キーワード間の概念上のつながりを示し、キーワードがノードを示すオントロジを格納する格納部（１０９）と、文書内容の話題となる主題キーワードを抽出する抽出部（１０５）と、時事ネットワークに含まれる主題キーワード以外のキーワードを関連ワードとして得る展開部（１０７）と、主題キーワードを含むオントロジ上から閾値に達するまでノードを取得する展開部（１０８）と、関連ワードおよびノードに共通するキーワードと主題キーワードとを除いた時事ネットワークに含まれる残りの関連ワードの出現頻度が定常であるかどうかを判定する判定部（１１０）と、出現頻度が定常であるかどうかに基づいて検索クエリを生成し、コンテンツの検索結果およびコンテンツの関連性の理由を生成する生成部（１１１）と、を具備する。

Description

本発明は、関連性を提示する関連性提示装置、方法およびプログラムに関する。

コンテンツ推薦においては、利用者の興味に適合したコンテンツを提示するだけではなく利用者の興味を広げるコンテンツ推薦を実現するため、キーワード間の連想ネットワークを用いて主題キーワードに対するクエリ拡張を行い、関連コンテンツを検索するということが行われている（例えば、特許文献１参照）。

特開２００８−１５２６３４号公報

キーワード間の連想ネットワークとしては、オントロジが広く利用されている。しかしオントロジを連想ネットワークとして利用する場合、連想元ワードに対する関連ワードが多数存在する場合は連想先ワードとしてどれを選択すべきかの判断が難しい。また、何らかの手段によって選択した場合でも、連想元ワードに対する連想先ワードが利用者にとっては脈絡なく見えてしまいやすい。他方、世の中の話題を幅広く知るという観点からネットワーク上にある膨大な情報を集合知として捕らえ、頻出するキーワードを時事性に基づいて分類することで、ある時点での話題を構成するキーワードのネットワーク（時事ネットワーク）を構築するということが行われている。時事ネットワークを連想ネットワークとして利用する場合、オントロジと異なり直接的な意味のつながりはないが関連するコンテンツを検索することができる利点がある。しかし現時点ないし直近の時事ネットワークだけでは含まれるキーワードが乏しく、検索対象のコンテンツが限定され主題キーワードに対するクエリ拡張が行えないことが多いという欠点がある。また過去の時事ネットワークを用いる場合は、作成日が古くて現在の主題とは関連性が乏しいコンテンツまで検索されてしまい、利用者にとっては推薦コンテンツに関心を持ちづらい。

本発明は、上述の課題を解決するためになされたものであり、利用者にとって関連性が見えやすい適切なクエリ拡張、コンテンツ検索を行うことを可能にする関連性提示装置、方法およびプログラムを提供することを目的とする。

上述の課題を解決するため、本発明に係る関連性提示装置は、第１キーワード間の共起関係に基づいて、時事に関する該第１キーワードをクラスタリングしたネットワークである時事ネットワークを複数格納する第１格納部と、第２キーワード間の概念上のつながりを階層的に表現し、上層ほど上位概念に対応するネットワークであり、該第２キーワードがノードを示すオントロジを格納する第２格納部と、文書中から該文書内容の話題となる主題キーワードを抽出する抽出部と、前記主題キーワードが含まれる前記時事ネットワークから、該時事ネットワークに含まれる該主題キーワード以外の前記第１キーワードを第１関連ワードとして少なくとも１つ以上得る第１展開部と、前記主題キーワードを前記オントロジ上で検索し、該オントロジ上に該主題キーワードがある場合、同一階層のノードを取得し、該同一階層にある該ノードをすべて取得しても取得したノードの数が第１閾値に達しない場合、該数が該第１閾値に達するまで１つ上の階層にあるノードを取得する第２展開部と、前記第１関連ワードおよび前記ノードに共通するキーワードを共通関連ワードとして抽出し、該共通関連ワードの出現頻度が定常であるかどうかを判定する判定部と、前記出現頻度が定常であるかどうかに基づいて検索クエリを生成し、コンテンツの検索結果および該コンテンツの関連性の理由を生成する生成部と、を具備することを特徴とする。

本発明の関連性提示装置、方法およびプログラムによれば、利用者にとって関連性が見えやすい適切なクエリ拡張、コンテンツ検索を行うことを可能にする。

図１は、本実施形態に係る関連性提示装置を示すブロック図である。図２は、文書収集元の設定の一例を示す図である。図３は、時事ネットワーク格納部に格納された時事ネットワークの一例を示す図である。図４は、時事性判定部の動作の一例を示すフローチャートである。図５は、時事ネットワークの一例を示す図である。図６は、キーワード抽出部のキーワード抽出処理に用いる意味属性辞書の一例を示す図である。図７は、キーワード抽出部のキーワード抽出処理に用いる意味属性ルールの一例を示す図である。図８は、時事性展開部の動作の一例を示すフローチャートである。図９は、オントロジ展開部の動作の一例を示すフローチャートである。図１０は、オントロジ格納部に格納しているオントロジの一例を示す図である。図１１は、定常性判定部の動作の一例を示すフローチャートである。図１２は、関連ワードの出現頻度分布を示す図である。図１３は、クエリ生成部の動作の一例を示すフローチャートである。図１４は、コンテンツ提示部における関連性提示の一例を示す図である。

以下、図面を参照しながら本発明の実施形態に係る関連性提示装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の番号を付した部分については同様の動作を行うものとして、重ねての説明を省略する。
本実施形態に係る関連性提示装置の構成について図１を参照して詳細に説明する。
本実施形態に係る関連性提示装置１００は、文書収集部１０１、時事性判定部１０２、時事ネットワーク格納部１０３、ｗｅｂページ表示部１０４、キーワード抽出部１０５、キーワード展開部１０６、オントロジ格納部１０９、定常性判定部１１０、クエリ生成部１１１を含む。さらにキーワード展開部１０６は、時事性展開部１０７、オントロジ展開部１０８を含む。

文書収集部１０１は、時事ネットワークを作成するために日時情報を持つ文書群の収集を行う。時事ネットワークは、ある時点で話題を構成するキーワード群のつながりを示す木構造のネットワークである。１つの時事ネットワークだけでは含まれるキーワードが乏しいことが多いため、観点ごとに時事ネットワークを作成する。そのため、テレビ放送の映像自体に重畳して毎日配信されているＥＰＧ（ＥｌｅｃｔｒｏｎｉｃＰｒｏｇｒａｍＧｕｉｄｅ）データや、ｗｅｂ上のニュースサイトが数時間ごとに配信しているＲＳＳデータなど、定期的に配信される複数の収集元を利用することが望ましい。収集間隔は、ＥＰＧデータの場合は配信間隔が１日であるため１日でよいが、ＲＳＳデータの場合は配信間隔がサイトによって異なるため、収集元ごとに設定を行う。
文書収集部１０１が収集する文書の配信元ＵＲＬ、種別、および収集間隔の一例を図２を参照して詳細に説明する。配信元ＵＲＬ２０１は、文書が保存されているＵＲＬを示す。種別２０２は、上述したＥＰＧやＲＳＳといった文書の収集元のデータ形式を示し、さらに各データ形式に含まれる文書内容の種類を含む。文書内容の種類とは、例えば、ニュース、スポーツ、教養、または地デジ、ＢＳという種類である。収集間隔２０３は、配信元ＵＲＬ２０１から文書を取得する時間間隔である。文書収集部１０１は、図２に示すような文書収集に関するテーブルを有しており、このテーブルを参照して収集間隔に合わせて文書の収集を行う。図２の例では「http://aaa」という配信元ＵＲＬ２０１からＥＰＧを１日に１回、「http://bbb」というＵＲＬからニュースに関するＲＳＳを１時間に１回、「http://ccc」という配信元ＵＲＬ２０１から旅行に関するＲＳＳを１週間に１回、文書の収集を行うように文書収集部１０１に設定する。また文書収集部１０１は、外部にあるメモリに配信元ＵＲＬ２０１およびそのＵＲＬから取得した文書群を関連付けて記憶させてもよい。

時事性判定部１０２は、文書収集部１０１から、配信元ＵＲＬと収集間隔とを受け取り、後述するキーワード抽出部１０５からキーワードを受け取り、文書中でのキーワード（単語ないし複合語）の日時ごとの出現頻度分布を算出し、時事性のあるキーワードかどうかの時事性判定処理をおこなう。時事性判定処理により時事性があると判定されたキーワードについて、共起関係に基づきクラスタリングして得られた時事ネットワークを複数生成する。ここで、共起関係とは、複数の単語が同一文書中に出現することを示し、単語Ａと単語Ｂが共起関係にあるとは、単語Ａと単語Ｂが同一文書中に出現することを示す。時事性判定部１０２における時事性判定処理については図４を用いて詳細に後述する。また、時事性判定部１０２は、外部にあるメモリに時事性判定処理をおこなったキーワードおよび配信元ＵＲＬを、文書収集部１０１が格納した配信元ＵＲＬおよび文書群と関連付けて格納してもよい。すなわち、外部にあるメモリは、キーワード、配信元ＵＲＬ、文書群を関連付けて格納する。なお、時事性判定部１０２は、文書収集部１０１から配信元ＵＲＬと収集間隔とを受け取るかわりに、キーワード抽出部１０５から配信元ＵＲＬと収集間隔を受け取ってもよい。

時事ネットワーク格納部１０３は、時事性判定部１０２から、ある時点ごとに生成された複数の時事ネットワークと配信元ＵＲＬとを受け取り、ある配信元ＵＲＬに対して生成された時事ネットワークと、その時事ネットワーク生成の処理日時とを関連付けて格納する。
格納される時事ネットワークの一例を図３を参照して説明する。図３に示すように、ある配信元ＵＲＬ２０１に対して、時事ネットワーク生成の処理日時３０１とその時事ネットワーク３０２とを関連付けて格納する。また、ある時点の処理日時３０１において生成された時事ネットワークが複数ある場合もある。例えば、配信元ＵＲＬ２０１「http://aaa」から収集した処理日時３０１「２００９／０１／２２００：００：００」での時事ネットワーク３０２は１つだが、配信元ＵＲＬ２０１「http://bbb」から収集した処理日時３０１「２００９／０１／２１００：００：００」での時事ネットワーク３０２は２つある。このように各時点で生成された時事ネットワーク３０２は、すべて格納する。

ｗｅｂページ表示部１０４は、利用者が所望のコンテンツを閲覧する際に、ｗｅｂページにあるコンテンツを表示する。
キーワード抽出部１０５は、文書収集部１０１が収集した文書群に含まれるテキストを形態素解析するなどしてキーワードを抽出し、抽出したキーワードを時事性判定部１０２へ送る。またキーワード抽出部１０５は、利用者がコンテンツを閲覧するたびに、ｗｅｂページ表示部１０４に表示されたコンテンツから、コンテンツの話題となるキーワードである主題キーワードを取得し、１つ以上の主題キーワードからなる主題キーワード集合を得て、主題キーワード集合をキーワード展開部１０６へ送る。キーワード抽出部１０５における主題キーワードの抽出処理については図６および図７を参照して後述する。
キーワード展開部１０６は、キーワード抽出部１０５から主題キーワード集合を受け取り、キーワード展開部１０６に含まれる時事性展開部１０７およびオントロジ展開部１０８によって、主題キーワードに関連づく語である関連ワードの展開処理を行う。そして、時事性展開部１０７およびオントロジ展開部１０８のそれぞれで、関連ワード集合を生成する。キーワード展開部１０６の動作、すなわち時事性展開部１０７およびオントロジ展開部１０８における関連ワードの展開処理は図８から図１０を用いて詳細に後述する。

オントロジ格納部１０９では、様々なキーワードを含んだオントロジを格納しており、オントロジ展開部１０８の要求により格納しているオントロジをオントロジ展開部１０８へ送る。オントロジは、キーワード間の概念上のつながりを表現したものである。格納しているオントロジは、すべての概念を包含した一つの巨大なネットワークであってもよいし、カテゴリごとに分割されている複数のネットワークであってもよい。

定常性判定部１１０は、キーワード抽出部１０６から、時事性展開部１０７およびオントロジ展開部１０８において生成したそれぞれの関連ワード集合から共通部分を求め、共通の関連ワードである共通関連ワードが定常であるかどうかを判定する。定常性判定処理については図１１を用いて詳細に後述する。

クエリ生成部１１１は、定常性判定部１１０から定常性を判定した共通関連ワードを受け取り、利用者に関連ワードを提示するためのクエリ生成を行い、生成したクエリを用いてコンテンツを検索する。クエリの検索結果に基づいて関連性の理由を示すテキストを生成する。クエリ生成部１１１におけるクエリ生成処理については図１３を用いて詳細に後述する。

ここで、時事性判定部１０２およびキーワード抽出部１０５における時事性判定処理について図４のフローチャートを用いて詳細に説明する。
初めにステップＳ４０１では、キーワード抽出部１０５において、文書配信元の配信間隔に応じて、後のステップＳ４０４でキーワードの出現頻度分布を計算するための短期用期間Ｓおよび長期用期間Ｌを決定する。配信間隔は、文書収集部１０１が格納している図２のようなテーブルの収集間隔２０３を参照する。例えば、図２の例では「http://aaa」というＵＲＬからＥＰＧを１日に１回収集するので、例えば短期用期間Ｓを３日、長期用期間Ｌを７日と設定する。

次にステップＳ４０２では、キーワード抽出部１０５において、短期用期間Ｓ、長期用期間Ｌの間に配信された文書群を形態素解析する。形態素解析は一般的な手法を用いればよいので、ここでの詳細な説明は省略する。
次にステップＳ４０３では、キーワード抽出部１０５において、助詞や記号など不要表現を除去し、形態素を連結してキーワードを抽出する。
最後にステップＳ４０４では、時事性判定部１０２において、キーワードごとに短期用期間Ｓでの出現頻度、および長期用期間Ｌでの出現頻度を算出し、短期的な出現頻度が長期的な出現頻度よりも有意に上昇しているかどうかを判定することで、各キーワードが時事的であるかどうかの時事性判定を行う。この判定の例として、長期的な出現確率は一様分布に従っていると仮定し「短期的な出現確率も平均が同じ一様分布に従う」という帰無仮説の検定を行うことで、各キーワードが時事的であるかどうかを判定する。具体的には、例えば、長期的な出現頻度をＮ（Ｌ）とすると、短期的な出現頻度Ｎ（Ｓ）は確率分布_Ｎ（Ｌ）Ｃ_Ｎ（Ｓ）（Ｓ／Ｌ）^Ｎ（Ｓ）（１−Ｓ／Ｌ）^{Ｎ（Ｌ）−Ｎ（Ｓ）}に従う。実際に観測された短期的な出現頻度のＺ値が閾値よりも大きいかどうかによりＺ検定を行ない、時事性を判定する。収集元によって配信間隔や文書の傾向が異なるため、収集元ごとに判定を行うほうがよいが、すべての文書群をまとめて行うようにしてもよい。

この処理によって、短期的な出現頻度のＺ値が閾値よりも大きい場合は時事性があると判定され、現在盛り上がっている話題であるため、時事キーワードとして抽出し以降の処理を行う。また、短期的な出現頻度のＺ値が閾値以下の場合は時事性がないと判定され、以降の処理を行わない。以上で時事性判定処理を終了する。また、この時事性のあるキーワードを時事キーワードと呼ぶ。

このようにして抽出された時事キーワードの集合に対して、時事性判定部１０２がすべての時事キーワード間の条件付出現確率を計算する。一例を挙げれば、ある時事キーワードＫＷ１とＫＷ２とに対し、それぞれが出現した文書の個数をＮ（ＫＷ１）、Ｎ（ＫＷ２）とし、ＫＷ１とＫＷ２とが同時に出現した文書の個数をＮ（ＫＷ１、ＫＷ２）とする。このときＫＷ１に対するＫＷ２の条件付出現確率はＰ（ＫＷ２｜ＫＷ１）＝Ｐ（ＫＷ１、ＫＷ２）／Ｐ（ＫＷ１）＝Ｎ（ＫＷ１、ＫＷ２）／Ｎ（ＫＷ１）となる。すべての時事キーワードを頂点とし、条件付出現確率があらかじめ設定された閾値αより大きいときに時事キーワード間に有向辺を引くことにすると、時事キーワード間の共起関係グラフを生成することができる。

次に、時事性判定部１０２が生成した共起関係グラフに基づき、関連度の高いキーワードを併合して次々と新しいグループにまとめる階層的クラスタリングを行う。このとき関連度は、両方向に有向辺がある場合は条件付確率の和を用いてもよいし、一方向にしかない場合は条件付確率に適当な係数をかけたものを用いてもよい。階層的クラスタリング方法は例えば以下のような手順で行えばよい。
１．共起関係グラフのそれぞれの時事キーワードに対し、それぞれのキーワードだけからなる要素数１のクラスタを生成する。
２．関連度のもっとも大きい時事キーワードＫＷ１とＫＷ２とを求める。
３．ＫＷ１とＫＷ２との関連度と、ある閾値とを比較する。ＫＷ１とＫＷ２との関連度が閾値以下の場合は、１つのクラスタにまとめるべきクラスタがすでになくなったものとしてクラスタリングを終了する。ＫＷ１とＫＷ２との関連度が閾値より大きい場合は、特徴ベクトルＡとＢとからなる新しい特徴ベクトルＣ＝Ａ＋Ｂのクラスタを生成し、もとの２つのクラスタを削除する。
４．特徴ベクトルＡのクラスタと特徴ベクトルＢのクラスタとが削除され、特徴ベクトルＣのクラスタが追加されたクラスタ集合に対して、改めてもっとも関連度が大きいクラスタを求めることを繰り返す。

以上の処理を行うことにより階層的クラスタリングを実行することができる。なお、クラスタリングを行うタイミングは、文書群の配信間隔に応じて決定すればよい。時事性判定部１０２は、例えば、図２の例では、配信元ＵＲＬ２０１が「http://aaa」というＵＲＬに対しては、収集間隔２０３が１日に１回なのでクラスタリングを行う間隔を１日に１回に設定する。また、階層的クラスタリングにおいて、キーワードによっては1つのクラスタのみからなる時事ネットワークが生成されてもよい。

ここで、ツリー形式で表現された階層的クラスタリングのある時点での時事ネットワークの一部を図５に示す。（ａ）は、「五輪」という上位キーワードに対して「女子」「運命」「予選」「ハンドボール」といった下位キーワードが階層的につながり、（ｂ）は、「中国製ギョーザ」という上位キーワードに対して「重体」「農薬」「被害拡大」といった下位キーワードが階層的につながり階層的クラスタリングを生成する。

次に、キーワード抽出部１０５における主題キーワード集合抽出処理について図６および図７を参照して説明する。主題キーワード集合は、利用者が閲覧しているコンテンツの話題に関連するキーワードの集合である。
主題キーワード集合抽出処理は、利用者がコンテンツを閲覧するたびに行われる。まず利用者が閲覧しているコンテンツからヘッダやフッタ、広告、リンク集などそのコンテンツの主題ではないと考えられる箇所を削除し、画面の大きな領域を占めるなどレイアウト上重要である箇所を抽出することで主題テキストの抽出を行う。非常に長いコンテンツなど、中で話題が一つに定まっていないような場合は、段落ごとに分割し、話題ごとに一つ一つを主題テキストとして抽出してもよい。その後それぞれの主題テキストに対し、金額や時刻のような定型表現、人名や地名のような固有名詞、あるいは食物や動植物名のような事物のカテゴリといったキーワードを主題キーワードとする。そして主題テキストから主題キーワードとして取り得るすべて抽出し、抽出した主題キーワードの意味属性を含めて主題キーワード集合とする。主題キーワード集合抽出処理は、図６に示すように、キーワードをあらかじめ与えられた辞書とのマッチングにより抽出処理を行ってもよい。例えば、「イグアナ」という主題キーワードが抽出された場合、「イグアナ」の意味属性である「動物、爬虫類」を一緒に抽出する。この意味属性は、後述するオントロジ格納部１０９から概念の分類を選択する際に使用される。また図７に示すように、あらかじめ与えられた文字列の並び方、あるいは形態素の並び方のルールとのマッチングで行ってもよい。例えば、「神奈川県」という主題キーワードが抽出された場合、「神奈川県」のルールエントリは、「○○県」であり、この意味属性である「地名、日本の都市」を一緒に抽出する。この意味属性は、図６と同様にオントロジ格納部１０９から概念の分類を選択する際に使用される。

次に、時事性展開部１０７における関連ワードの展開処理を図８のフローチャートを用いて詳細に説明する。ここでは１つずつ主題キーワードＸを取得し、時事ネットワーク格納部１０３に格納されている時事ネットワークＮを現時点のものから一つずつ過去に遡りながら、当該主題キーワードが含まれているかどうかの判定を行う。
まず初めに、ステップＳ８０１では、［主題キーワード、配信元ＵＲＬ、時刻、関連ワード集合］の関連付けを格納する表Ｔを初期化する。
次に、ステップＳ８０２では、未処理の主題キーワードＸがあるかどうかを判定する。未処理の主題キーワードＸがある場合、その主題キーワードＸをキーワード抽出部１０５から１つ取得して次のステップＳ８０３に進む。未処理の主題キーワードＸがない場合、ステップＳ８０９に進む。
続いて、ステップＳ８０３では、未処理の主題キーワードＸに対して、未処理の配信元ＵＲＬＵがあるかどうかを判定する。未処理の配信元ＵＲＬＵがある場合、ステップＳ８０４に進む。未処理の配信元ＵＲＬＵがない場合、再度ステップＳ８０２に進み、次の主題キーワードＸについて処理を繰り返す。

ステップＳ８０４では、未処理の配信元ＵＲＬＵについて、時事ネットワーク格納部１０３に格納されている時事ネットワークの生成処理が行われた、処理日時が最新の処理日時を時刻Ｍ＝０とし、最新の処理日時よりもＱ回過去である処理日時はＭ＝−Ｑで表現する。具体的には、例えば図３では、処理日時「２００９／１／２２００：００：００」が時刻Ｍ＝０であり、格納されている日時が１つ過去である処理日時「２００９／１／２１００：００：００」が時刻Ｍ＝−１に対応する。つまり、時刻Ｍの間隔はここでは１日である。
ステップＳ８０５では、着目した配信元ＵＲＬＵについて、時事ネットワーク格納部１０３に時刻Ｍの時事ネットワークＮがあるかどうかを判定する。すなわち、ステップＳ８０５の処理が１回目であれば、現時点（Ｍ＝０）において時事ネットワークＮがあるかどうかを判定する。現時点での時事ネットワークＮがある場合、ステップＳ８０６に進む。現時点での時事ネットワークＮがない場合、ステップＳ８０３に戻り、着目する主題キーワードＸに対して未処理の配信元ＵＲＬがあるかどうかを判定する。

ステップＳ８０６では、時刻Ｍの時事ネットワークＮに着目する主題キーワードＸがあるかどうかを判定する。ステップＳ８０６の処理が１回目であれば、現時点の時事ネットワークＮに主題キーワードＸがあるかどうかを判定する。主題キーワードＸがある場合、ステップＳ８０８に進む。主題キーワードＸがない場合、ステップＳ８０７に進む。

ステップＳ８０７では、時刻Ｍを１減らして処理日時を１つ過去に遡り、遡った時刻Ｍが閾値以内であるかどうかを判定する。遡った時刻Ｍが閾値以内である場合、再度ステップＳ８０５に戻り、ステップＳ８０５およびステップＳ８０６における処理を１つ過去の時事ネットワークＮについて同様の処理を繰り返す。遡った時刻Ｍが閾値以内でない場合、例えば、あるＭまで遡っても主題キーワードＸがない場合はステップＳ８０３に戻り、その主題キーワードＸに対して他の未処理の配信元ＵＲＬがあるかどうかを判定する。閾値は、例えば過去に遡る範囲を限定し、時事ネットワーク格納部１０３に格納されているすべてを対象にしてもよいし、１年前までなど判定する処理日時の期間でもよい。または、主題キーワードが１つ見つかるまでなどでもよい。

ステップＳ８０８では、主題キーワードＸが属する時事ネットワークＮに含まれる複数のキーワードを関連ワード集合Ｚｓとして、表Ｔに［主題キーワードＸ，配信元ＵＲＬＵ，時刻Ｍ，関連ワード集合Ｚｓ］を追加して、ステップＳ８０３からステップＳ８０８までの処理を繰り返す。なお、時事ネットワークＮに含まれるキーワードをすべて関連ワード集合Ｚｓとして抽出してもよいし、主題キーワードＸが含まれるクラスタから、所定の階層目（例えば３階層目）までのクラスタに含まれるキーワードを抽出するとしてもよい。

ステップＳ８０９では、すべての主題キーワードＸに対して処理を終了した場合に、主題キーワードＸ、配信元ＵＲＬＵ、時刻Ｍ、および関連ワード集合Ｚｓをそれぞれ関連付けた表Ｔを出力して関連ワード展開処理を終了する。

なおこのとき、すべての文書群をまとめて作成しているときは単純に時事ネットワークＮを一つずつ過去に遡ってもよいが、配信元ＵＲＬが異なる時事ネットワークＮは分けて遡るようにする。例えば、図３の例では、２００９／０１／２２の利用者の閲覧コンテンツから主題キーワードＸとして「銀座」が得られた場合は、作成日時２００９／０１／２２００：００に対しては「大売出し」「大須」「泥棒」など、作成日時２００９／０１／２１００：００に対しては「元町」「イルミネーション」「ラーメン」などが関連ワードとして展開されることになる。
次に、オントロジ展開部１０８における関連ワードの展開処理を図９のフローチャートを用いて詳細に説明する。
初めにステップＳ９０１では、［主題キーワード、関連ワード集合］を保持しておく表Ｓを初期化する。
続いてステップＳ９０２では、未処理の主題キーワードＸがあるかどうかを判定する。未処理の主題キーワードＸがある場合、その主題キーワードＸをキーワード抽出部１０５から１つ取得してステップＳ９０３に進む。未処理の主題キーワードＸがない場合、ステップＳ９０９へ進む。
続いてステップＳ９０３では、オントロジ格納部１０９に格納しているオントロジ上に主題キーワードＸがあるかどうかを判定する。この判定処理は、文字列としての完全マッチでもよいし曖昧マッチでもよい。オントロジが複数のネットワークから構成される場合は、それぞれに対して判定を行う。この判定処理によって、オントロジ上に主題キーワードＸがある場合、ステップＳ９０４に進む。オントロジ上に主題キーワードＸがない場合、ステップＳ９０２に戻り処理を繰り返す。
ステップＳ９０４では、同じ階層のノードＹｓ、すなわち兄弟ノードであるノードＹｓに着目する。ここでノードＹｓは、１つのキーワードを表し、主題キーワードに対する関連ワードとなる。

ステップＳ９０５では、兄弟ノードであるノードＹｓをオントロジ格納部１０９からすべて取得する。ここで、兄弟ノードの中でさらに下に階層を持つノードに関しては、そのノードが持つ下の階層についてもすべて取得する。兄弟ノードをすべて取得することにより、実質的に１つ上の親ノードを取得したことになる。
ステップＳ９０６では、取得したノードＹｓの個数が閾値よりも大きいかどうかを判定する。ノードＹｓの個数が閾値よりも大きければステップＳ９０８に進む。ノードＹｓの個数が閾値以下である場合、ステップＳ９０７に進み、注目しているノードＹｓよりも１つ上の階層を着目する。そしてステップＳ９０５に戻り同様の処理を繰り返す。具体的には、図１０（ａ）の場合、あらかじめ与えた閾値を超えるまでＴチームの選手→野球選手→スポーツ選手とノードＹｓの範囲を拡大することになる。
ステップＳ９０８では、表Ｓに［主題キーワードＸ、ノードＹｓ］を関連付けて追加する。つまり、主題キーワードＸに対し複数のノードＹｓが関連付けられることになり、この複数のノードＹｓが、時事性展開部１０７における関連ワード集合にあたる。そしてステップＳ９０２へ戻り、ステップＳ９０２からステップＳ９０８までの処理を同様に繰り返す。
最後にステップＳ９０９では、主題キーワードＸとノードＹｓとを関連付けた表Ｓを出力して関連ワード展開処理を終了する。

オントロジ格納部１０９に格納されているオントロジの一例を図１０を用いて説明する。図１０（ａ）のように、階層構造がしっかりしているオントロジの場合は、近隣ノード群が少数に限定されるため、利用者にとって関連性が見えやすい適切なクエリ拡張を実現できる。一方、図１０（ｂ）のように、階層構造がほとんどなく、兄弟ノードが多数存在するオントロジの場合は、それぞれの関係性が見えにくくなることがある。そのような場合は、本実施形態による処理を施すことが必要であり、オントロジ展開部１０８と時事性展開部１０７とから抽出される関連ワードとの共通部分を得ることで、兄弟ノードが多数存在する場合でも関連性を見えやすくする。

次に、定常性判定部１１０における関連ワードの定常性判定処理について図１１のフローチャートを用いて詳細に説明する。
初めにステップＳ１１０１では、上述した時事性展開部１０７における時事ネットワーク展開処理およびオントロジ展開部１０８におけるオントロジ展開処理によって、主題キーワードに対する関連ワード集合が表Ｔと表Ｓとに求められているので、１つずつ主題キーワードＸを取得し、表Ｔおよび表Ｓのそれぞれの関連ワード集合の共通部分である共通関連ワードＺｓ’を取得する。例えば、２００９／０１／２２の利用者の閲覧コンテンツから主題キーワードとして「銀座」が得られた場合は、オントロジ展開処理からは図１０を参照すると「大須」「元町」などの日本の商店街名が得られる。また、時事ネットワーク展開処理からは図３を参照すると配信元ＵＲＬ２０１が「http://aaa」で、処理日時３０１が「２００９／０１／２２００：００：００」の時事ネットワーク３０２から「大売出し」「大須」「泥棒」などが得られ、同じ配信元ＵＲＬ２０１で処理日時３０１が１日前の時事ネットワーク３０２からは、「元町」「イルミネーション」「ラーメン」が得られる。よって、表Ｔと表Ｓとの共通関連ワードＺｓ’としては「大須」「元町」が得られる。すなわち、「銀座」と「大須」は日本の商店街名という関連があるほか、「大売出し」「泥棒」という関連があることになる。同様に「銀座」と「元町」は日本の商店街名という関連があるほか、「イルミネーション」「ラーメン」という関連があることになる。

次に、ステップＳ１１０２では、共通関連ワードＺｓ’を有する未処理の主題キーワードＸがあるかどうかを判定する。共通関連ワードＺｓ’がある場合、ステップ１１０３に進み、共通関連ワードＺｓ’がない場合、主題キーワードに対して共通部分が存在しないので、以降の定常性判定処理を行わずに終了する。
ステップＳ１１０３では、未処理の主題キーワードＸに対する配信元ＵＲＬＵを取得する。すなわち、共通関連ワードＺｓ’を含む時事ネットワークを作成するのに使われた文書群の配信元ＵＲＬをキーワード展開部１０６から取得する。

ステップＳ１１０４では、ステップＳ１１０３で取得した配信元ＵＲＬＵに対し、未処理の関連ワードＺ’があるかどうかを判定する。ここでの未処理とは、時事ネットワークに含まれるキーワードのうち、主題キーワードＸおよび共通関連ワードＺｓ’ではないキーワードに対して処理がおこなわれていないことを指す。具体的には、関連ワード集合Ｚｓのうちオントロジ展開部１０８で生成した表Ｓには含まれない未処理の関連ワードＺ’があるかどうかを判定する。例えば図３では、配信元ＵＲＬ２０１が「http://aaa」で、処理日時３０１が「２００９／０１／２２００：００：００」の時事ネットワーク３０２について、共通関連ワードＺｓ’として、「銀座」と「大須」があるので、オントロジ展開部１０８で生成した表Ｓに含まれない未処理の関連ワードＺ’として、「大売出し」「泥棒」が選択される。未処理の関連ワードＺ’がある場合、それを取得してステップＳ１１０５へ進み、未処理の関連ワードＺ’がない場合、ステップＳ１１０２へ戻り、ステップＳ１１０２からステップＳ１１０４までの処理を繰り返す。

ステップＳ１１０５では、配信元ＵＲＬＵの時事ネットワークに対し、関連ワードＺ’の出現頻度分布を算出する。ただし、時事ネットワークにおける出現頻度は０または１の値しかとらない、すなわち時事ネットワークに出現しているかどうかであるため、後述する検定において判定が難しいことがある。そこで、時事ネットワーク作成に用いられた文書群における出現頻度を算出するようにしてもよい。これは外部にあるメモリからキーワード抽出部１０５がキーワードの抽出に使用した文書群を参照して、関連ワードＺ’の出現頻度分布を算出してもよい。また、時事ネットワーク格納部１０３に時事ネットワークだけではなく、時事性判定部１０２が作成する際に用いた１０１からのすべての文書群も保持しておき、この文書群を参照して関連ワードＺ’の出現頻度分布を計算してもよい。

ステップＳ１１０６では、関連ワードＺ’の出現頻度分布と一様分布との差（以下、距離ともいう）を計算する。距離の計算は、Ｋ−Ｌｄｉｖｅｒｇｅｎｃｅなどの手法を用いればよい。関連ワードＺ’の出現頻度分布の一例として、「大売出し」「イルミネーション」「泥棒」の各関連ワードの出現頻度分布を図１２を参照して説明する。
時事性判定部１０２における時事性判定処理と同じように、長期的な出現確率は一様分布に従っていると仮定し「実際の出現頻度分布も平均が同じ一様分布に従う」という帰無仮説の検定を行うことでキーワードの定常性を判定する。具体的に、例えば図１２の場合、（ａ）「大売出し」は、すべての期間において平均して出現しているので、各時刻における出現頻度と一様分布との距離が小さくなる。一方（ｂ）「イルミネーション」および（ｃ）「泥棒」は、出現する回数が局所的にあるのみで一様分布はほぼ０に近くなり、出現頻度と一様分布との距離が大きくなる。

ステップＳ１１０７では、ステップＳ１１０６において計算した出現頻度分布と一様分布との距離を用いて閾値より小さいかどうかで定常性を判定する。距離が閾値よりも大きければ突発的であると判定し、距離が閾値以下であれば定常的であると判定する。例えば図１２の場合、（ａ）「大売出し」は、出現頻度と一様分布との距離が小さいので閾値以下であれば、関連ワードは定常的であると判定される。（ｂ）「イルミネーション」および（ｃ）「泥棒」は、出現頻度と一様分布との距離が大きいので閾値より大きければ、関連ワードは突発的であると判定される。判定後はステップＳ１１０１へ戻り、ステップＳ１１０１からステップＳ１１０７までの処理を未処理の主題キーワードＸが無くなるまで繰り返す。

次に、クエリ生成部１１１におけるクエリ生成処理について図１３のフローチャートを用いて詳細に説明する。定常性判定部１１０で定常的であると判定された関連ワードは、いつでも起こっている事象であり過去に遡って関連コンテンツを提示しても利用者は関心を持ちづらい。逆に突発的であると判定された関連ワードは、あまり起こらない事象であり利用者の関心を持つ可能性があるという点で、過去に遡って関連コンテンツを提示する意味がある。

初めに、ステップＳ１３０１では、未処理の主題キーワードＸがあるかどうかを判定する。未処理の主題キーワードＸがある場合、取得してステップＳ１３０２へ進む。未処理の主題キーワードＸがない場合、クエリ生成処理を終了する。

次に、ステップＳ１３０２では、共通関連ワードＺｓ’のうち、表Ｓには含まれない未処理の関連ワードＺ’があるかどうかを判定する。関連ワードＺ’がある場合、ステップＳ１３０３に進む。関連ワードＺ’がない場合、クエリ生成処理を終了する。

次に、ステップＳ１３０３では、関連ワードＺ’が突発的であるか定常的であるかを判定する。この判定は定常性判定部１１０で行われた処理結果を参照すればよい。関連ワードＺ’が突発的である場合、ステップＳ１３０４に進み、関連ワードＺ’が定常的である場合、ステップＳ１３０６に進む。

ステップＳ１３０４では、関連ワードＺ’と元々の主題キーワードＸ、および表Ｔに含まれる共通関連ワードＺｓ’を組み合わせた「ＸａｎｄＺｓ’ ａｎｄＺ’」をクエリ文字列として生成し、検索対象のコンテンツの作成日時として時刻に関する条件に加えないようにする。これは、突発的な事象の場合はそれだけで利用者の興味を引くことができる可能性が高いので、過去のすべての関連コンテンツを提示するためである。ここでの関連ワードＺは時事ネットワーク全部に含まれるキーワードを示す。

ステップＳ１３０５では、ステップＳ１３０４でクエリ処理した結果に対し、関連性の理由を付与する。例えば、「過去Ｚ’で話題であったＸとＺｓ’に関するコンテンツ」というテキストを作成する。そして突発的な関連ワードＺ’についての処理を終了し、ステップＳ１３０１に戻り未処理の主題キーワードＸについて同様に処理を繰り返す。

ステップＳ１３０６では、定常的であると判定された関連ワードＺ’が時刻Ｍ＝０、つまり最新の処理日時の時事ネットワークに出現しているかどうかを判定する。これは、定常的な関連ワードは過去から常時出現しており、最新の処理日時でその関連ワードが話題でなければ、新たに利用者の関心を引くことは少なく、最新の処理日時よりも過去の事象を検索する意味が薄いと考えられるので、最新の処理日時より過去に遡ってまで関連コンテンツを提示しないようにするためである。最新の処理日時の時事ネットワークに出現している場合は、ステップＳ１３０７に進む。最新の処理日時の時事ネットワークに出現していない場合は、クエリ生成処理を行わずに、ステップＳ１３０２へ戻り同様の処理を繰り返す。

ステップＳ１３０７では、検索対象のコンテンツ作成日時として時刻Ｍ＝０を条件に加えて、そして関連ワードＺ’と元々の主題キーワードＸ、および表Ｔに含まれる共通関連ワードＺｓ’を組み合わせた「ＸａｎｄＺｓ’ ａｎｄＺ’」クエリ文字列として生成する。ここでの関連ワードＺはオントロジに含まれる全部のキーワードを示す。

ステップＳ１３０８では、ステップＳ１３０７でクエリ処理した結果に対し、関連性の理由を付与する。例えば、「現在Ｚ’で話題であったＸとＺｓ’に関するコンテンツ」というテキストを作成する。そして定常的な関連ワードＺ’についての処理を終了し、ステップＳ１３０１に戻り未処理の主題キーワードＸについて同様に処理を繰り返す。

図１２の例の場合、定常性判定処理で、定常的であると判定された関連ワード「大売出し」は時刻Ｍ＝０、すなわち、最新の処理日時の時事ネットワークに出現しているためクエリ生成処理を継続する。そして、時刻Ｍ＝０のコンテンツを対象に「銀座ａｎｄ大須ａｎｄ大売出し」で検索を行い、関連性の理由として「現在大売出しで話題である銀座と大須に関するコンテンツ」と利用者に提示することになる。なお関連性の理由において、「銀座」と「大須」は「日本の商店街名」というオントロジによる関連があるため、それを明示して「現在大売出しで話題である日本の商店街銀座と大須に関するコンテンツ」としてもよい。

一方、定常性判定処理で、突発的であると判定された「イルミネーション」「泥棒」のそれぞれの場合は、過去のすべての関連コンテンツを提示するため時刻に関する条件に加えずに、「銀座ａｎｄ元町ａｎｄイルミネーション」「銀座ａｎｄ元町ａｎｄ泥棒」で検索を行う。また検索結果のコンテンツを提示するときの関連性の理由として、「過去イルミネーションで話題であった銀座と元町に関するコンテンツ」「過去泥棒で話題であった銀座と元町に関するコンテンツ」と利用者に提示することになる。

最後に、関連性の提示方法の一例について図１４を用いて詳細に説明する。図１４に示すように、関連性の提示方法としてここでは３つの例を挙げる。
図１４（ａ）は、推薦完了のアイコンのみを表示する。例えば、利用者がコンテンツを見ているのをなるべく妨げずに推薦するために、主題キーワードに対して推薦コンテンツが取得できた場合のみ画面の下部などに「推薦完了」アイコンを表示する。そして、利用者が明示的にクリックしたときのみ推薦画面を表示する。
図１４（ｂ）は、コンテンツの閲覧画面の隅に推薦コンテンツの関連性の理由またはスニペットを表示する。そして、利用者が明示的にクリックしたときのみ推薦画面を表示する。
図１４（ｃ）は、常に推薦コンテンツを表示する。これは、利用者が推薦対象を絶対に見逃したくないと望んでいる場合に有効であり、推薦コンテンツを表示する領域をあらかじめ確保しておき、常に推薦コンテンツを表示する。

これらの表示方法は、あらかじめ利用者がシステムに対して設定しておいてもよいし、利用者が閲覧しているデバイスの種別や推薦コンテンツの種別などに応じて自動的に切り替えてもよい。なお、これらの提示方法に限らず、例えば音声による通知といった、利用者が関連性の提示を認知できる方法であればよい。

さらに、関連ワードＺ’が突発的であると判定された場合は、強制的に利用者の関心をずらすために、主題キーワードを含めない「Ｚｓ’ ａｎｄＺ’」をクエリ文字列とし、関連性の理由を「過去ＸのようにＺ’で話題であったＺｓ’に関連するコンテンツ」などと表示してもよい。通常この場合はクエリ文字列に主題キーワードＸが含まれないため、検索結果のコンテンツだけを見ると、利用者は現在閲覧中のコンテンツとの関連性がわかりづらいが、本実施形態による関連性の理由提示を行うことによって利用者にとって関連性がわかりやすい提示を実現することができる。

以上に示した実施形態によれば、関連性の見えにくい突発的な事象を表すキーワードについても、関連性の理由を明示的に表示することによって、利用者の関心を強制的にずらすことができ、関連性が見えやすい適切なクエリ拡張、コンテンツ検索を行うことが可能となり、関連性がわかりやすい提示を実現することができる。

本発明に係る関連例提示装置は、ユーザがコンテンツ検索する検索装置で利用される。

１００・・・関連性提示装置、１０１・・・文書収集部、１０２・・・時事性判定部、１０３・・・時事ネットワーク格納部、１０４・・・ｗｅｂページ表示部、１０５・・・キーワード抽出部、１０６・・・キーワード展開部、１０７・・・時事性展開部、１０８・・・オントロジ展開部、１０９・・・オントロジ格納部、１１０・・・定常性判定部、１１１・・・クエリ生成部、２０１・・・配信元ＵＲＬ、２０２・・・種別、２０３・・・収集間隔、３０１・・・処理日時、３０２・・・時事ネットワーク。

Claims

第１キーワード間の共起関係に基づいて、時事に関する該第１キーワードをクラスタリングしたネットワークである時事ネットワークを複数格納する第１格納部と、
第２キーワード間の概念上のつながりを階層的に表現し、上層ほど上位概念に対応するネットワークであり、該第２キーワードがノードを示すオントロジを格納する第２格納部と、
文書中から該文書内容の話題となる主題キーワードを抽出する抽出部と、
前記主題キーワードが含まれる前記時事ネットワークから、該時事ネットワークに含まれる該主題キーワード以外の前記第１キーワードを第１関連ワードとして少なくとも１つ以上得る第１展開部と、
前記主題キーワードを前記オントロジ上で検索し、該オントロジ上に該主題キーワードがある場合、同一階層のノードを取得し、該同一階層にある該ノードをすべて取得しても取得したノードの数が第１閾値に達しない場合、該数が該第１閾値に達するまで１つ上の階層にあるノードを取得する第２展開部と、
前記第１関連ワードおよび前記ノードに共通するキーワードを共通関連ワードとして抽出し、該共通関連ワードの出現頻度が定常であるかどうかを判定する判定部と、
前記出現頻度が定常であるかどうかに基づいて検索クエリを生成し、コンテンツの検索結果および該コンテンツの関連性の理由を生成する生成部と、を具備することを特徴とする関連性提示装置。
前記判定部は、前記共通関連ワードを含む時事ネットワークで、該共通関連ワードと前記主題キーワードとを除いた時事ネットワークに含まれる残りの関連ワードである第２関連ワードの出現頻度分布と該第２関連ワードの一様分布との距離が第２閾値以下であれば定常的であると判定し、該距離が該第２閾値よりも大きければ定常的でないと判定することを特徴とする請求項１に記載の関連性提示装置。
日時情報を持つ文書群の収集を行う収集部と、
前記第１キーワードの出現頻度分布を生成することで時事性を判定し、前記第１キーワードを得る判定部と、をさらに具備することを特徴とする請求項１に記載の関連性提示装置。
前記抽出部は、利用者がコンテンツを閲覧するたびに該コンテンツに含まれるテキストから、前記主題キーワードを抽出することを特徴とする請求項１に記載の関連性提示装置。
前記生成部は、前記第２関連ワードが突発的であると判定された場合は、第１格納部が格納する最新の時事ネットワークを生成した時刻と最新の１つ前に生成した時事ネットワークを生成した時刻との差である期間ごとに、該第２関連ワードを含む前記時事ネットワークを遡って検索クエリを生成し、該第２関連ワードが定常的であると判定された場合は、該第２関連ワードが該最新の時事ネットワークに含まれる場合のみ検索クエリを生成し、検索されたコンテンツごとに前記理由を合わせて提示することを特徴とする請求項１に記載の関連性提示装置。
第１キーワード間の共起関係に基づいて、時事に関する該第１キーワードをクラスタリングしたネットワークである時事ネットワークを複数格納し、
第２キーワード間の概念上のつながりを階層的に表現し、上層ほど上位概念に対応するネットワークであり、該第２キーワードがノードを示すオントロジを格納し、
文書中から該文書内容の話題となる主題キーワードを抽出し、
前記主題キーワードが含まれる前記時事ネットワークから、該時事ネットワークに含まれる該主題キーワード以外の前記第１キーワードを第１関連ワードとして少なくとも１つ以上得、
前記主題キーワードを前記オントロジ上で検索し、該オントロジ上に該主題キーワードがある場合、同一階層のノードを取得し、該同一階層にある該ノードをすべて取得しても取得したノードの数が第１閾値に達しない場合、該数が該第１閾値に達するまで１つ上の階層にあるノードを取得し、
前記第１関連ワードおよび前記ノードに共通するキーワードを共通関連ワードとして抽出し、該共通関連ワードの出現頻度が定常であるかどうかを判定し、
前記出現頻度が定常であるかどうかに基づいて検索クエリを生成し、コンテンツの検索結果および該コンテンツの関連性の理由を生成することを特徴とする関連性提示方法。
コンピュータを、
第１キーワード間の共起関係に基づいて、時事に関する該第１キーワードをクラスタリングしたネットワークである時事ネットワークを複数格納する第１格納手段と、
第２キーワード間の概念上のつながりを階層的に表現し、上層ほど上位概念に対応するネットワークであり、該第２キーワードがノードを示すオントロジを格納する第２格納手段と、
文書中から該文書内容の話題となる主題キーワードを抽出する抽出手段と、
前記主題キーワードが含まれる前記時事ネットワークから、該時事ネットワークに含まれる該主題キーワード以外の前記第１キーワードを第１関連ワードとして少なくとも１つ以上得る第１展開手段と、
前記主題キーワードを前記オントロジ上で検索し、該オントロジ上に該主題キーワードがある場合、同一階層のノードを取得し、該同一階層にある該ノードをすべて取得しても取得したノードの数が第１閾値に達しない場合、該数が該第１閾値に達するまで１つ上の階層にあるノードを取得する第２展開手段と、
前記第１関連ワードおよび前記ノードに共通するキーワードを共通関連ワードとして抽出し、該共通関連ワードの出現頻度が定常であるかどうかを判定する判定手段と、
前記出現頻度が定常であるかどうかに基づいて検索クエリを生成し、コンテンツの検索結果および該コンテンツの関連性の理由を生成する生成手段として機能させるための関連性提示プログラム。