JPWO2008146456A1

JPWO2008146456A1 - 情報探索支援方法および情報探索支援装置

Info

Publication number: JPWO2008146456A1
Application number: JP2008532533A
Authority: JP
Inventors: 井上　剛; 剛井上; 松浦　聰; 聰松浦
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2007-05-28
Filing date: 2008-05-14
Publication date: 2010-08-19
Anticipated expiration: 2028-05-14
Also published as: JP4203967B1; US8099418B2; US20100281036A1; WO2008146456A1

Abstract

再帰的なクラスタリングにより情報の絞込みを行い簡単な操作でユーザの興味のある情報の取りこぼしを低減する情報探索支援装置を提供する。各クラスタの内容に関する情報とユーザがどのクラスタを選択したかを示すクラスタ選択履歴情報とを蓄積するクラスタ選択情報記憶部（１０７）と、クラスタ選択情報記憶部（１０７）に蓄積された情報を基に、ユーザの探索対象があいまいな状態から明確になった度合いを示す確定度を算出する確定度算出部（１１１）と、選択したクラスタの内容に関する情報のうちから探索対象を推定するための条件を取得する探索対象推定部（１０８）と、選択しなかったクラスタに含まれかつ取得した条件から推定される探索漏れ情報を、選択しなかったクラスタから抽出する探索漏れ情報抽出部（１０９）と、確定度が閾値以上の場合に、ユーザが選択したクラスタに抽出した探索漏れ情報を追加する探索漏れ情報追加判定部（１１２）とを備える。

Description

本発明は、ユーザが大量の情報から興味の湧く情報を見つけ出すことを支援する方法及びその装置に関し、特に情報をいくつかのクラスタに自動分類することを再帰的に行うことで情報の絞り込みを行う情報探索支援方法及び情報探索支援装置に関する。

近年、テレビ番組や書籍などのコンテンツに関する情報から、観光地やレストランなどのランドマーク、商品の評判や在庫情報に至るまで様々なデータの電子化が進んでいる。これに伴い、電子化された膨大な情報の中からユーザにとって興味のある情報を見つけ出す情報探索ツールに対するニーズが拡大してきている。

膨大な情報から興味のある情報を探す最も一般的な方法として、キーワード検索法がある。キーワード検索法では、興味の対象を示す単語をユーザが検索キーワードとして入力し、システムは入力された検索キーワードに関連した情報をキーワードと文書との関連度に基づいてあらかじめ作成されたインデックスを利用して検索し、結果をユーザに提示する。

上記キーワード検索法は、ユーザの興味の対象が明確であり、興味の対象を検索キーワードにより明確に表現できる場合に有効である。しかしながら、ユーザの興味の対象が漠然としている場合や、興味の対象を代表する適切な検索キーワードが思い浮かばない場合には、入力した検索キーワードがユーザの興味の対象と一致しないため、ユーザが本当に検索したい情報が検索結果の上位に含まれないといった問題が発生する。

このような問題に対して、探索対象となる情報をいくつかのクラスタに分割し、各クラスタの内容をユーザに知らせるために、各クラスタに含まれる情報を代表するキーワードと見出しをユーザに提示する。これにより、目的が漠然としたユーザに手がかりを与えながら、情報の絞り込みを行えるようにした情報探索支援手法としてScatter/Gather法（非特許文献１）がある。Scatter/Gather法では、ユーザが関心のあるクラスタを選択すると、システムは選択されたクラスタに含まれている文書やコンテンツなどの情報を一旦、一まとめにした上で再度クラスタリングを行いユーザに提示する。この作業を再帰的に繰り返すことにより、探索対象が絞り込まれていき、ユーザの漠然とした興味が次第に明確になる。その結果、ユーザは興味のある情報を簡単に見つけ出すことができるようになる。

一方で、ユーザはクラスタの代表となるキーワードと見出しを手がかりにクラスタを選択することになるが、これらのキーワードと見出しのみでクラスタ内に含まれるすべての情報を把握することは困難である。したがって、ユーザがクラスタを選択する時点で、非選択クラスタに含まれる興味対象と一致する情報が探索対象から漏れてしまう「取りこぼし」が生じるという課題がある。

この課題に対して特許文献１が開示されている。特許文献１では、探索対象となる情報を単一のクラスタに分類することが問題の原因と考え、探索対象となる情報の各クラスタに対する帰属度を計算し、これを棒グラフなどで提示して他の選択すべきクラスタの存在を示唆することにより、上記問題に対する解決を図っている。
Scatter/gather: A cluster-based approach to browsing large document collections. In Proceedings of the SIGIR '92(pp.318-329), 1992 特開２００３−３４５８１０号公報

しかしながら、特許文献１では探索対象となるすべての情報に対して、各クラスタへの帰属度を視覚化して提示するものであるため、非特許文献１の課題である「取りこぼし」を防ぐためには、探索対象となるすべての情報に対して、ユーザが帰属度を参照して取捨選択を行う必要がある。このため、探索対象の情報数が膨大になると、帰属度の閲覧操作、および前記判断に対するユーザの負担が大きくなるという課題がある。

また、非特許文献１の課題である「取りこぼし」の他の原因として、ユーザの興味対象が探索開始時点で定まっていない場合や探索の途中で変更される場合など、ユーザの興味対象が動的に変化することが挙げられる。非特許文献１や特許文献１の属する再帰的クラスタリングによる情報探索支援方法では、一般的にユーザの興味対象はシステムから提示される代表キーワードなどの手がかりによって、曖昧な状態から明確な状態へ変化するものであり、探索を開始してしばらくの間のクラスタ選択は必ずしも明確な興味対象を意識して行われるとは限らない。このため、ユーザの興味対象が明確になるまでに行ったクラスタ選択によって、必然的に「見落とし」や「取りこぼし」が生じてしまう。同様に、初めはある代表キーワードに興味を持ってクラスタの選択を行っていたが、途中で興味のある見出しを見つけ、それ以降その見出しに関連した代表キーワードを含むクラスタを選択する場合にも、途中までのクラスタ選択においては、新しい興味の対象を意識していないため「見落とし」や「取りこぼし」が生じている可能性が高い。しかしながら、特許文献１では、探索対象となる情報の各クラスタに対する帰属度を示すのみであり、これら原因による「見落とし」や「取りこぼし」に対処できない。

本発明は、上記の課題を解決するためになされたものであって、ユーザの興味対象の動的な変化に対応し、かつ、ユーザに特別な操作を要求することなしに、「見落とし」や「取りこぼし」なくユーザの興味対象に合致した文書やコンテンツを選択できるようにすることを可能とする情報探索支援方法及び情報探索支援装置を提供することを目的とする。

前記従来の課題を解決するために、本発明の情報探索支援装置は、探索対象である情報をクラスタリングして各クラスタの特徴を表す情報を表示し、表示されたクラスタのうちからユーザによって選択されたクラスタに含まれる情報をさらにクラスタリングすることによって選択対象となる情報を絞り込み、ユーザによる情報の探索を支援する情報探索支援装置であって、各クラスタの内容に関する情報と、ユーザがどのクラスタを選択したかを示すクラスタ選択履歴情報とを蓄積するクラスタ選択履歴情報蓄積手段と、前記クラスタ選択履歴情報蓄積手段に蓄積されている前記クラスタの内容に関する情報および前記クラスタ選択履歴情報を基に、ユーザの探索対象があいまいな状態から明確になった度合いを示す確定度を算出する確定度算出手段と、前記ユーザが選択したクラスタの内容に関する情報のうちから、ユーザの探索対象を推定するための条件を取得する探索対象推定手段と、表示された前記クラスタのうちでユーザが選択しなかったクラスタに含まれる情報であり、かつ、前記探索対象推定手段が取得した条件から推定される情報群に帰属する情報である探索漏れ情報を、ユーザが選択しなかったクラスタから抽出する探索漏れ情報抽出手段と、前記確定度算出手段が算出した確定度が予め定められた閾値以上である場合に、前記探索漏れ情報抽出手段が抽出した前記探索漏れ情報を、ユーザが選択したクラスタに追加する探索漏れ情報追加手段とを備えることを特徴とする。

本構成により、ユーザがクラスタの代表単語を基にクラスタを選択するという特徴を利用して、ユーザの探索対象が確定したか否かの判断とユーザの興味に合った情報の抽出をシステムが自動に行うことで、現在の探索対象外の情報からユーザの興味のある情報を抽出し、現在の探索対象の内容を変更することが可能となる。

以上のように本発明の情報探索支援装置によれば、ユーザに情報を探索するための負担を増加することなく、明確となった探索対象に対して「見落とし」や「取りこぼし」がないように探索対象の情報の数を絞り込むことが可能となる。

図１は、本実施の形態１における情報探索支援装置の構成を示すブロック図である。図２は、本実施の形態１における情報探索支援装置の動作の主旨を示す図である。図３は、本実施の形態１の情報探索支援装置がＥＰＧ（Electric Program Guide）のデータを利用し、特に明確に見たいと思っている番組がないユーザが大量の番組の中から興味のある番組を見つけることを支援する動作を示すフローチャートである。図４は、クラスタリング実行部によって決定されたクラスタが出力部より出力される画面例を示す図である。図５は、クラスタリング実行部によって決定されたクラスタが出力部より出力される場合の他の画面例を示す図である。図６は、クラスタリング実行部によって決定されたクラスタが出力部より出力される場合のさらに他の画面例を示す図である。図７は、図４の画面例で再分割が実行されたときに作成され、クラスタ選択情報記憶部に格納される一操作に対するクラスタ選択履歴の具体例を示す図である。図８は、候補情報記憶部に格納される選択されたクラスタに含まれる番組に関する情報の例を示す図である。図９は、図７に示されるクラスタ選択履歴の一部の情報をある具体的なシーケンスに対応させて示した図である。図１０（ａ）及び（ｂ）は、図９で示される具体的操作シーケンスに対応した確定度の算出に必要なデータの具体例を示した図である。図１１は、探索漏れ番組を抽出して再分割の対象に追加したことを表示する出力画面の一例を示す図である。図１２は、探索漏れ番組の追加を行なわずに、図９の操作Ｎｏ．２、クラスタ番号４に属する１３番組の中から医療に関する番組を抽出した場合の抽出結果（番組一覧）を示す図である。図１３は、図９の操作Ｎｏ．１及び操作Ｎｏ．２で選択されなかったクラスタの中から医療に関する番組を抽出した結果を示す図である。図１４は、図１３に示した８件の医療に関する番組が、どのクラスタに属していたのかを示す情報を図９のクラスタ選択履歴に加えた結果を示す図である。図１５は、本実施の形態２の情報探索支援装置の構成を示すブロック図である。図１６は、本実施の形態２の情報探索支援装置の基本的な動作を表すフローチャートである。図１７は、図９及び図１０の操作シーケンスに対応して保存されるデータ例を示す図である。図１８（ａ）（ｂ）（ｃ）は、ある具体的な操作シーケンスに対応してクラスタ選択情報記憶部に格納される、図７に示される選択情報に関するクラスタ選択履歴の一部の情報を示す図である。図１９（ａ）（ｂ）（ｃ）は、図１８に示したクラスタ選択履歴に対応して、選択された各クラスタのより詳細な内容を示す図である。図２０は、過去のクラスタリングにおいて作成された抽出ベクトルと、次のクラスタリングにおいて作成された抽出ベクトルとの関係を示す図である。

符号の説明

１０１、１４０１入力部
１０２、１４０２テキストコーパス記憶部
１０３、１４０３情報データ作成部
１０４、１４０４情報データ記憶部
１０５、１４０５クラスタリング実行部
１０６、１４０６候補情報記憶部
１０７、１４０７クラスタ選択情報記憶部
１０８、１４０８探索対象推定部
１０９、１４０９探索漏れ情報抽出部
１１０、１４１０探索漏れ情報記憶部
１１１、１４１１確定度算出部
１１２探索漏れ情報追加判定部
１４１２探索漏れ情報抽出判定部
１１３、１４１３システム仕様記憶部
１１４、１４１４表示方法決定部
１１５、１４１５出力部
１１６、１４１６タイマ
１１７、１３１７制御部

以下本発明の実施の形態について、図面を参照しながら説明する。

（実施の形態１）
図１は本発明の実施の形態１における情報探索支援装置の構成を示すブロック図である。図１において、本実施の形態１の情報探索支援装置は、入力部１０１、テキストコーパス記憶部１０２、情報データ作成部１０３、情報データ記憶部１０４、クラスタリング実行部１０５、候補情報記憶部１０６、クラスタ選択情報記憶部１０７、探索対象推定部１０８、探索漏れ情報抽出部１０９、探索漏れ情報記憶部１１０、確定度算出部１１１、探索漏れ情報追加判定部１１２、システム仕様記憶部１１３、表示方法決定部１１４、出力部１１５、タイマ１１６、および制御部１１７を備える。入力部１０１はキーボードやマウス、リモコンなどユーザからの入力を受け付ける。テキストコーパス記憶部１０２は情報探索の対象に関するテキストコーパスを格納している。情報データ作成部１０３は対象情報をテキストコーパス記憶部１０２に記憶されたテキストコーパスから、情報探索支援に必要なデータ形式に変更する。情報データ記憶部１０４は情報データ作成部１０３で作成されたデータを格納する。クラスタリング実行部１０５は初期状態では全体の探索領域を対象に、情報探索時にはユーザが選択した探索領域を対象にクラスタリングを行う。候補情報記憶部１０６は、選択されたクラスタに含まれる情報又は選択されたクラスタに含まれる情報を特定するための識別情報を格納する。クラスタ選択情報記憶部１０７は、「各クラスタの内容に関する情報と、ユーザがどのクラスタを選択したかを示すクラスタ選択履歴情報とを蓄積するクラスタ選択履歴情報蓄積手段」の一例であり、ユーザの選択に関する情報を格納する。探索対象推定部１０８は、「前記ユーザが選択したクラスタの内容に関する情報のうちから、ユーザの探索対象を推定するための条件を取得する探索対象推定手段」の一例であり、クラスタ選択情報記憶部１０７に格納されるユーザのクラスタ選択情報からユーザの探索対象を推定するための条件を取得する。探索漏れ情報抽出部１０９は「表示された前記クラスタのうちでユーザが選択しなかったクラスタに含まれる情報であり、かつ、前記探索対象推定手段が取得した条件から推定される情報群に帰属する情報である探索漏れ情報を、ユーザが選択しなかったクラスタから抽出する探索漏れ情報抽出手段」の一例であり、前記探索対象に含まれる情報のうち候補情報記憶部１０６に格納されていない探索漏れ情報を抽出する。探索漏れ情報記憶部１１０は前記探索漏れ情報抽出部１０９で抽出した探索漏れ情報を格納する。確定度算出部１１１は「前記クラスタ選択履歴情報蓄積手段に蓄積されている前記クラスタの内容に関する情報および前記クラスタ選択履歴情報を基に、ユーザの探索対象があいまいな状態から明確になった度合いを示す確定度を算出する確定度算出手段」の一例であり、前記推定された探索対象の確定度を計算する。探索漏れ情報追加判定部１１２は「前記確定度算出手段が算出した確定度が予め定められた閾値以上である場合に、前記探索漏れ情報抽出手段が抽出した前記探索漏れ情報を、ユーザが選択したクラスタに追加する探索漏れ情報追加手段」の一例であり、前記確定度算出部１１１で計算した確定度に基づき、前記探索漏れ情報を候補情報に追加するかどうかの判断を行う。システム仕様記憶部１１３はシステムの状態遷移や画面仕様などを格納する。表示方法決定部１１４は出力部１１５に出力する画面情報や音声情報を決定する。出力部１１５はディスプレイ等によりクラスタの表示および情報の一覧表示などを行うとともに、スピーカなどにより音声による操作の案内などを行う。タイマ１１６は、時刻を計測する。制御部１１７は上記の情報データ作成部１０３、クラスタリング実行部１０５、探索対象推定部１０８、探索漏れ情報抽出部１０９、確定度算出部１１１、探索漏れ情報追加判定部１１２および表示方法決定部１１４を内部に備え、これら各処理部による取りこぼし情報抽出に関する全般的な制御を行う。

前記のように構成された情報探索支援装置の動作概略について図２を用いて説明する。

図２は、実施の形態１における情報探索支援装置の動作の主旨を示す図である。本実施の形態１で説明する情報探索支援装置では漠然とした探索要求しか持たないユーザが提示された複数のクラスタの中から少なくとも１つの興味あるクラスタを選択し、システムはそのクラスタをまとめて再度クラスタリングを行い、より細かいクラスタに分割してユーザに示すことで、ユーザの興味範囲の絞り込みを支援し、ユーザが興味を持つ情報を提供する。しかし、ユーザの漠然とした興味が明確になったとき、これまで選択しなかったクラスタの中にユーザの興味のある情報が存在する可能性がある。そこで、本情報探索支援装置では、ユーザの選択履歴から興味が明確になったことを自動的に判断し、ユーザの興味が明確になったと判断した時点で、これまでの探索では興味が明確でなかったために取りこぼしてきた情報をこれまでの探索時に選択しなかったクラスタの中から抽出し、現在選択されている情報集合に追加する。この動作によりユーザの興味を持った情報を漏れ少なくユーザに提示することが可能となる。

以下、詳細な動作の一例について図３のフローチャートを参照しながら説明する。なお図３は、本実施の形態１の情報探索支援装置がＥＰＧ（ＥｌｅｃｔｒｉｃＰｒｏｇｒａｍＧｕｉｄｅ）のデータを利用し、特に明確に見たいと思っている番組がないユーザが大量の番組の中から興味のある番組を見つけることを支援する動作を示すフローチャートである。

本実施の形態１では、ユーザがクラスタを選択して更なるクラスタリングを指示する都度、ユーザによる選択の履歴を示す選択情報から探索対象推定部１０８がユーザの探索対象の推定条件の取得を行い、探索漏れ情報を抽出する例について説明する。この探索漏れ情報は、推定された探索対象に類似するにもかかわらず、選択されたクラスタに含まれなかった情報を指す。これにおいて、抽出された探索漏れ情報は、確定度算出部１１１が算出した前記推定結果の確定度が一定値を超えたとき、探索漏れ情報追加判定部１１２によりユーザの探索対象が曖昧な状態から明確になったと判定され、その結果、現在の探索対象に加えられる。

まず、ステップＳ２０１において、情報データ作成部１０３はテキストコーパス記憶部１０２に記憶されているＥＰＧデータ、すなわち各番組に関する構造化されたテキストデータを取得する。そして、番組のクラスタリングや探索漏れ番組の抽出に利用する単語（以後、索引語と記述）を決定し、索引語が各番組の説明テキスト（以後単に、各文書と記述）にどのくらい含まれるか等、索引語と文書の関係を計算し、情報データ記憶部１０４に格納する。より具体的には、情報データ作成部１０３は、各索引語が各文書でどのくらい出現したかを表すＴＦ値（ＴｅｒｍＦｒｅｑｕｅｎｃｙ）、索引語が出現する文書数を表すＤＦ値（ＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）、およびＤＦ値を基にしたＩＤＦ値（ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）などを計算し、計算結果を情報データ記憶部１０４に格納する。さらに、情報データ作成部１０３は、これらの値を利用して索引語と文書との関係を行列で表現した索引語・文書行列を作成し、情報データ記憶部１０４に格納する。

ここで、各番組の説明テキストとしては、例えば、通常のＥＰＧデータには各番組について「ジャンル」「タイトル」「詳細内容」がテキスト情報として存在するため、これらを合わせたものを各番組に対する説明テキスト（文書）として利用する。また、索引語の決定方法としては各文書を形態素解析し、特定の品詞の単語を索引語としてもよいし、固有名詞抽出技術を用いて、抽出された固有名詞を利用してもよい。

ステップＳ２０２において、クラスタリング実行部１０５は情報データ作成部１０３によって作成された索引語・文書行列を用いてクラスタリングを行う。クラスタリングの手法としては既存の方法を利用する。例えば階層的クラスタリングであるウォード法を利用してもよいし非階層的クラスタリングであるｋ−ｍｅａｎｓ法を利用してもよい。共に前記索引語・文書行列から各文書をベクトル表現し、文書ベクトル空間で距離計算を行うことでクラスタリングを行う。

次にクラスタリング実行部１０５は作成した各クラスタの代表番組と代表単語を決定する。クラスタの代表番組の決定方法としては、例えば各クラスタの文書ベクトルに対する重心ベクトルを求め、その重心から近い距離にある番組を代表番組とする。また、各クラスタの代表単語としては、前記各クラスタに対する重心ベクトルの成分が大きな索引語を代表単語としてもよいし、各クラスタの文書のＴＦ値やＤＦ値が大きな単語を代表単語としてもよい。

クラスタリング実行部１０５で決定されたクラスタリング結果は候補情報記憶部１０６とクラスタ選択情報記憶部１０７に格納されると共に、表示方法決定部１１４に出力される。

ステップＳ２０３において、表示方法決定部１１４は、システム仕様記憶部１１３に記憶されている画面仕様に基づいてクラスタリング結果を出力部１１５に出力する。図４は、クラスタリング実行部１０５によって決定されたクラスタが出力部１１５より出力される画面例を示す図である。ここで、３０１の欄は各クラスタの代表単語を表している。この欄には、例えば、そのクラスタの具体的な代表単語が「単語１」、「単語２」、・・・、「単語５」のように列記される。３０２の欄はクラスタの代表番組を表している。この欄には、クラスタに含まれる各番組に対する重心ベクトルで示される重心から最も近い距離にある、例えば、上位５個の番組が、このクラスタの代表番組として表示される。代表番組は、例えば、「１．番組名２−１」、「２．番組名２−２」、・・・、「５．番組名２−５」のように具体的な番組名で列記される。３０３の欄は各クラスタに含まれている番組の数を表す。３０４の欄は、ユーザがクラスタを選択したか否かを示すチェックを入れるためのチェックボックスである。例えば、チェックボックスにチェックが入れられていれば、そのクラスタは選択されており、チェックボックスにチェックが入れられていなければ、そのクラスタは選択されていないことを示している。３０５の再分割ボタンは、ユーザがチェックボックスにチェックを入れることによって選択したクラスタに対して、再度クラスタリングを行い、絞込みを行う処理の実行（以後単に、再分割を行うと記述）を情報探索支援装置に指示するボタンである。３０６の番組一覧ボタンは、ユーザがチェックボックスにチェックを入れることによって選択したクラスタの番組一覧を表示する画面へ遷移するためのボタンである。ユーザによってこのボタンが押された場合、例えば、図４のように、２つのクラスタにチェックボックスにチェックが入れられている場合には、それら２つのクラスタに含まれている全番組が一覧表示される。３０７の矢印のボタンは、前の選択状態へ戻ったり、先の選択状態へ進んだりすることを指示するためのボタンである。なお、これらの各ボタンを押したときの動作や表示される項目については、図４に示した例に限らず、システム仕様記憶部１１３に記憶されている定義に基づく。

また、本実施の形態では図４に示すように、代表番組と代表単語を５つずつ表示しているが、代表番組及び代表単語はいくつ出してもよい。さらに各クラスタについて代表番組だけを表示するのではなく、全ての番組をリスト表示にしてもよい。図５は、クラスタリング実行部１０５によって決定されたクラスタが出力部１１５より出力される場合の他の画面例を示す図である。また、例えば、画面が小さい場合は図５のように各クラスタにつき、代表番組は出さずに代表単語のみを表示してもよい。図５で、４０１の欄はクラスタの代表単語を示しており、４０２の欄はクラスタに含まれる番組の数を示しており、４０３はチェックを入れることによりクラスタの選択／非選択を示すチェックボックスを示している。４０４の再分割ボタン、４０５の番組一覧ボタンは、いずれも図４で説明した３０５の再分割ボタン、３０６の番組一覧ボタンと同じである。４０６の十字ボタンは、カーソル移動キーであり、左方向を示す三角形のボタン（戻る）を押すと前の画面に戻り、右方向を示す三角形のボタン（進む）を押すと次の画面に進む。上下の三角形のボタンを押すと、各クラスタのチェックボックス上をカーソルが上下に移動し、カーソルが止まった位置で中央の丸い選択ボタンを押すとカーソルの位置のチェックボックスにチェックが入れられる。図６は、クラスタリング実行部１０５によって決定されたクラスタが出力部１１５より出力される場合のさらに他の画面例を示す図である。また、例えば図６の５０２のように、代表番組を表示する代わりに、一定時間間隔でクラスタ内の異なる番組の映像の一部やサムネイルを対応する番組名と共に表示しても良い。

なお、最終的にユーザが視聴する番組の選択方法としては、本実施の形態ではユーザが選択したクラスタの番組一覧ボタン３０６を選択し、番組一覧を見た上でその中から１つをユーザが選択する仕様を想定したが、図４の代表番組３０２の番組を直接指定して番組を選択する仕様でもよい。

本実施の形態では、図４、図５及び図６のような上記階層構造のメニュー画面から、ユーザが番組の選択を行う場合を例として、図３を参照しながら情報探索支援装置の動作を説明する。

ステップＳ２０４において、制御部１１７は入力部１０１より入力されたユーザの指示についての判断を行う。もし、ユーザによって再分割ボタンが押されたのでない場合、ステップＳ２０５の処理へ進む。ステップＳ２０５では、ステップＳ２０４の操作で番組一覧ボタンが押されたかもしくは終了の指示が入力されたかの判断を行い、番組一覧ボタンが押されたか終了の指示が入力されたのであれば、その処理を行う。一方、ステップＳ２０４の操作で「戻る」や「進む」の操作が行われていた場合、ステップＳ２０６において、制御部１１７はクラスタ選択情報記憶部１０７から必要な情報を取得し、その処理を実行してステップＳ２０４に戻る。ステップＳ２０４において、ユーザの入力が再分割の指示である場合はステップＳ２０７の処理へ進む。

また、ステップＳ２０４では、制御部１１７が判定したユーザの入力及びシステムの状態をクラスタ選択情報記憶部１０７に格納すると共に、選択されたクラスタに含まれる番組を候補情報記憶部１０６に格納する。図７は、図４の画面例で再分割が実行されたときに作成され、クラスタ選択情報記憶部１０７に格納される一操作に対するクラスタ選択履歴の具体例を示す図である。クラスタ選択情報記憶部１０７は、「各クラスタの内容に関する情報として、選択されたクラスタに含まれる情報の数、表示されたクラスタのうちから選択されたクラスタの数、探索対象の情報の内容を表す文書のうち選択されたクラスタを代表する代表単語を含む文書の数のいずれかを蓄積する前記クラスタ選択履歴情報蓄積手段」の一例である。図７において項目６０１は操作Ｎｏ．を示しており、操作Ｎｏ．には、例えば、ユーザがコマンドを入力した操作のシリアル番号が記述される。コマンドの入力は、例えば、ユーザが図４のメニュー画面に表示された再分割ボタン３０５や番組一覧ボタン３０６などのボタンを押すことにより行われる。項目６０２は画面表示開始時間を示しており、例えば、図４のメニュー画面を表示した時刻が記述される。項目６０３はこの操作で入力されたコマンドのコマンド名を示しており、例えば、再分割ボタン３０５が押されることによって入力されたコマンドのコマンド名「再分割」などが記述される。項目６０４は項目６０３のコマンド名で示されるコマンドが実行された時刻を示している。項目６０５は全てのクラスタに含まれる番組の総数を示している。項目６０６はクラスタ番号を示し、例えば、クラスタのシリアル番号が記述される。項目６０７はクラスタが選択されたか否かを示す選択・非選択情報を示している。項目６０８は各クラスタに含まれる番組の数を示している。また、項目６０９は各クラスタの代表単語を示している。項目６１０は各クラスタに含まれる代表番組を示している。図８は、候補情報記憶部１０６に格納される選択されたクラスタに含まれる番組に関する情報の例を示す図である。項目７０１にはあらかじめ番組固有に付与された番組番号が記述される。また、項目７０２には番組名が記述される。さらに、項目７０３には番組内容が記述される。この番組内容には、例えば、ＥＰＧデータの詳細内容などが用いられる。なお、ここでは、前記３つの項目に関する情報を候補情報記憶部１０６に格納したが、候補情報記憶部１０６には単に番組番号７０１のみを格納しておいてもよい。そして、番組一覧などを最終的に表示する段階になってから、前記格納した番組番号をキーとして、各番組の情報が構造化されて蓄積されているテキストコーパス記憶部１０２を検索し、各番組の詳細情報（例えば、番組名及び詳細内容など）を取得するとしても良い。

以下、再び図３を参照して、ステップＳ２０７からステップＳ２１１で行われる探索漏れ情報の追加方法について、図９に示す具体的なクラスタ選択履歴を例にして説明する。図９は図７に示されるクラスタ選択履歴の一部の情報をある具体的なシーケンスに対応させて示した図である。

なお、再分割の対象に選択されなかったクラスタに含まれる探索対象に類似した情報である探索漏れ情報の追加が必要となるのは、ユーザの探索対象が曖昧な状態から明確な状態になったときである。従って、ユーザの探索対象がどのぐらい明確になったかを表すため、その明確度合いを確定度として定量化する。この確定度はユーザが選択したクラスタがどれくらい絞り込まれた領域なのか、または先ほどまでの選択からどのくらい絞られたのかという情報を基に定量化する。ここで、確定度算出部１１１は「前記クラスタ選択履歴情報蓄積手段に蓄積されている、クラスタの内容に関するいずれかの情報について、その数が小さくなるほど前記確定度が大きくなる規則に従って、前記確定度を算出する前記確定度算出手段」の一例である。確定度算出部１１１は、この確定度の計算に利用する情報として、ユーザが選択したクラスタの選択数、代表単語のＤＦ値、代表番組の数及びその変化量が利用可能である。これはクラスタ選択数が減れば減るほどユーザの探索対象は明確であり、代表単語のＤＦ値が小さくなればなるほどより少ない番組に関連した単語を選んでいるのでユーザの探索対象は明確であり、代表番組の数が減れば減るほどクラスタはより狭い領域となるので、ユーザの探索対象は明確であるという考えに基づく。

ステップＳ２０７において、探索対象推定部１０８は「前記条件として、選択されたクラスタを代表する代表単語を取得する前記探索対象推定手段」の一例であり、クラスタ選択情報記憶部１０７に格納されるユーザのクラスタ選択を基にユーザの探索対象を推定するための条件を取得する。ここではユーザが選択したクラスタの代表単語を抽出し、それをユーザの探索対象を推定するための条件とする。なお、ここでは、ユーザが選択したクラスタの代表単語をユーザの探索対象を推定するための条件としたが、表示情報として、図４のようにクラスタ毎にそのクラスタに含まれる番組名も表示している場合、番組名に含まれる単語も合わせてユーザの探索対象を推定するための条件としても良いし、出力画面には表示されてはいないが、クラスタに含まれる番組の情報において利用されている単語の中からクラスタとの関連が強い単語をＴＦ値やＤＦ値、ＩＤＦ値などを利用してユーザの探索対象を推定するための条件としても良い。

なお、「前記出力画面には表示されていないが、クラスタに含まれる番組の情報」とは、図４の例でいうと、表示されている５つの代表番組以外の番組のタイトルや番組内容に含まれる単語である。

ステップＳ２０８において、探索漏れ情報抽出部１０９は「前記探索対象推定手段が取得した前記代表単語から得られるベクトルを用いて、ユーザが選択しなかったクラスタに含まれる前記情報から前記探索漏れ情報を抽出するための抽出ベクトルを作成する前記探索漏れ情報抽出手段」の一例であり、探索漏れ番組の抽出に利用するベクトル（以後単に、抽出ベクトル）の作成を行う。この抽出ベクトルはステップＳ２０７で求めたユーザの探索対象クラスタの代表単語のベクトルを前記索引語・文書行列から作成し、それらの和を求めることで作成する。

次に探索漏れ情報抽出部１０９は作成された前記抽出ベクトルを用いて非選択のクラスタに含まれる番組領域から探索漏れ番組の抽出を行う。具体的には索引語・文書行列から非選択のクラスタに含まれる番組に対するベクトルを作成し、前記抽出ベクトルとの距離を計算し、閾値以上の距離を持つ番組を探索漏れ番組として抽出する。

なお、抽出する探索漏れ番組の数は閾値により決定するのではなく、現在の選択クラスタ内の番組数や現在の全対象番組数に応じて決定してもよい。例えば、抽出する数は現在の選択クラスタ内の番組数の半分以下にしてもよい。この範囲の限定は、予め決めた一定値により決定してもよいし、これまでの番組数の変化に応じて決定してもよい。例えば、常に半分以下に絞り込みを行っているユーザに対しては、変化量として半分以上にならないように制御する。この制御により、絞込みを行ったのに探索漏れ番組の抽出により絞り込む前より絞り込んだ結果の番組数が増えてしまうということを防ぐことが可能となる。

次に探索漏れ情報抽出部１０９は抽出された探索漏れ番組を探索漏れ情報記憶部１１０に格納する。格納する情報としては、図８で示した前記候補情報記憶部１０６に格納される選択されたクラスタに含まれる番組と同様の情報、例えば、番組番号、番組名及び番組内容などを格納する。

ステップＳ２０９において、確定度算出部１１１は、ステップＳ２０７で推定されたユーザの探索対象の確定度を、クラスタ選択情報記憶部１０７に記憶された情報を基に算出する。まず、確定度算出部１１１は確定度を求めるために必要なデータをクラスタ選択情報記憶部１０７から取得して計算し、その結果をクラスタ選択情報記憶部１０７に格納する。図１０（ａ）及び図１０（ｂ）は、図９で示される具体的操作シーケンスに対応した確定度の算出に必要なデータの具体例を示した図である。図１０（ａ）及び図１０（ｂ）において、項目９０１は操作Ｎｏ．を示す。項目９０２は、現在選択されているクラスタに含まれる対象番組の数と、前回選択されていたクラスタに含まれる対象番組の数からの番組数の変化量とを示している。項目９０３は、現在選択されているクラスタの数と、前回選択されたクラスタの数からの選択されたクラスタの数の変化量とを示している。項目９０４及び項目９０５は、それぞれ、選択されたクラスタに含まれる代表単語及びその代表単語のＤＦ値を示している。項目９０６は項目９０４に示された代表単語のＤＦ値（項目９０５）の総和と、前回の選択クラスタに含まれていた代表単語のＤＦ値の総和からの代表単語のＤＦ値の総和の変化量を示している。項目９０７は、項目９０４に示された代表単語のＤＦ値（項目９０５）の平均値と、前回の選択クラスタに含まれる代表単語のＤＦ値の平均値からの平均値の変化量とを示している。項目９１０は、後述の確定度を示している。

なお、ここでは、項目９０２の対象番組数の変化量として、前回対象番組数から今回対象番組数を引き、その結果を今回対象番組で割った値を用いた。他の項目における変化量は対象値に対する前回値から今回値を引いた値を用いた。すなわち、計算式は、以下の通りである。

（対象番組数の変化量）＝[（前回対象番組数）−（今回対象番組数）]／（今回対象番組数）

次に確定度算出部１１１は確定度を計算する。確定度は前記のようにユーザの探索対象が明確になると共に変化する情報を用いて定量化する。本実施の形態ではＤＦ値の平均値の逆数×１００を確定度として利用する。すなわち、計算式は、以下の通りである。

（確定度）＝１００／（ＤＦ値の平均値）

ステップＳ２１０において、探索漏れ情報追加判定部１１２は、ステップＳ２０９で計算された確定度を用いてユーザの探索対象が明確になったか否かの判断を行う。すなわち、前記ＤＦ値を用いて定義された確定度が閾値以上になったとき、ユーザの探索対象が明確になったと判定する。より具体的には、前記閾値を５．０とすると、図１０（ａ）に示すように、システムが操作Ｎｏ．１の状態のとき、確定度は１．８であり閾値より小さな値である。従って、探索漏れ情報追加判定部１１２は、ユーザの探索対象はまだ明確でないと判断し、探索漏れ情報の追加は行わずにステップＳ２０１へ進む。一方、システムが図１０（ｂ）に示すように、操作Ｎｏ．２の状態のときは、確定度は９．６であり、閾値５．０より大きな値であるので、探索漏れ情報追加判定部１１２はユーザの探索対象が明確になったと判定し、ステップＳ２１１へ進む。なお、今回確定度として利用したＤＦ値の閾値はシステム開発者が対象情報の総数とＤＦ値の分布から決定しても良いし、ユーザ評価実験を行い、ユーザの絞込み領域が明確になった時点のＤＦ値の分布を調べることで決定しても良い。

ステップＳ２１１において、探索漏れ情報追加判定部１１２は、ステップＳ２０４で候補情報記憶部１０６に格納された選択されたクラスタに含まれる番組に加え、ステップＳ２０８で探索漏れ情報記憶部１１０に格納された探索漏れ番組を追加した上、ステップＳ２０１へ進み、ステップＳ２０２でクラスタリングの処理を実行する。

なお、探索漏れ番組を追加する際に、表示方法決定部１１４は探索漏れ番組を追加したという情報を表示画面に出力しても良い。理由は、ユーザが情報の絞り込みを行っているにもかかわらず、探索漏れ番組が自動的に追加されることによって、情報の数が増加するために、ユーザが違和感を持つ可能性があるからである。図１１は、探索漏れ番組を抽出して再分割の対象に追加したことを表示する出力画面の一例を示す図である。具体的には図１１に示すように、出力画面に探索漏れ番組の抽出を行ったこと（項目１００７）と、どのような単語に関する番組を抽出したのかという情報（項目１００８）を出力しても良い。

また、ユーザの探索対象が明確になったという判断が行なわれた際に、より具体的な番組の理解と番組へのアクセスを容易にするため、ユーザの探索対象が明確になったと判断されるまでは、図５及び図６のような具体的な番組を列記して表示しない出力画面を出力し、ユーザの探索対象が明確になったと判断された後は図４のような具体的な番組を列記して表示する出力画面を出力しても良い。

ここで、図９の操作Ｎｏ．２において、ユーザの探索対象が医療に関するものに絞り込まれたとするとき、探索漏れ番組の追加を行わなかった場合の番組一覧と、探索漏れ番組の追加を行なった場合の番組一覧との相違について説明する。すなわち、上記処理による探索漏れ番組の抽出結果の例について述べる。

図１２は、探索漏れ番組の追加を行なわずに、図９の操作Ｎｏ．２、クラスタ番号４に属する１３番組の中から医療に関する番組を抽出した場合の抽出結果（番組一覧）を示す図である。ここで、項目１１０１は番組番号、項目１１０２は番組名、項目１１０３は番組内容を示す。ユーザの絞込みが明確に医療関係になったとき、ユーザが選択したクラスタ４に属する番組は１３件であり、クラスタ４の代表単語は「あした、職人、医療、治療、地域」である。そのうち、医療に関係する番組は２件であった。この２件を図１２に示している。この場合、操作Ｎｏ．１および操作Ｎｏ．２で、選択されていないクラスタに含まれている探索漏れ番組を追加していないので、この２件は、従来の手法による結果と同様である。

図１３は、図９の操作Ｎｏ．１及び操作Ｎｏ．２で選択されなかったクラスタの中から医療に関する番組を抽出した結果を示す図である。ここで、項目１２０１は番組番号を示し、項目１２０２は番組名を示している。さらに、項目１２０３は番組内容を示している。このように、選択されなかったクラスタの中から探索漏れ番組の抽出を行った結果、図１２に示した２件に加えて、さらに、８件の医療に関する番組が抽出された。

図１４は、図１３に示した８件の医療に関する番組が、どのクラスタに属していたのかを示す情報を図９のクラスタ選択履歴に加えた結果を示す図である。図１４に示すように、システムが操作Ｎｏ．１の状態のとき、ユーザが選択しなかったクラスタ３に番組番号２８１の番組が１件含まれており、システムが操作Ｎｏ．２の状態のとき、ユーザが選択しなかったクラスタ２に番組番号４８２、１９、１６、４９９及び３０の番組５件と、クラスタ３に番組番号９５及び６２の番組２件とが含まれていることが分かる。このように、本実施の形態の情報探索支援装置によれば、選択されていないクラスタに探索漏れ番組が存在している場合であっても、それを抽出できている。ここで、図１４の操作Ｎｏ．２の非選択クラスタであるクラスタ２が最も医療に関する番組を取りこぼしていることが分かる。これは、このクラスタの代表単語のうち「生活」「社会・報道」などは医療と関係がありそうな単語であるため、このクラスタが医療に関する番組を含むであろうということはユーザに理解できるが、直接医療に関する単語が代表単語に含まれていないため見落としてまったと考えられる。

このように上記の動作により、本実施の形態の情報探索支援装置は、ユーザの選択情報（クラスタ選択履歴）からユーザの探索対象を推定し、ユーザが選択しなかったクラスタの中からユーザの探索対象と推定される探索漏れ情報を抽出すると共に、ユーザの探索対象が明確になったか否かを表す確定度を確定度算出部１１１が算出する。さらに、算出された確定度に応じて、探索漏れ情報抽出部１０９が抽出した番組を選択対象の番組に加え、さらにクラスタリングすることが可能となる。このため、ユーザは、探索対象が明確になったことを情報探索支援装置に通知する必要もなく、一貫した探索操作を行なうだけで、情報探索支援装置が自動的にユーザの探索対象が明確になったことを判断することができる。これによって、ユーザの操作負担を増加させることなく、しかもユーザが興味を持った番組の「見落とし」や「取りこぼし」を低減し、ユーザの興味に一致する情報をより正確に探索及び提示することができるという効果がある。

また、本実施の形態の情報探索支援装置は、ユーザの探索対象が明確か否かを表す確定度を常に算出しているために、ユーザの興味が番組探索中に変化した場合でも、探索漏れの番組を追加することができるので、ユーザの興味対象の動的な変化にも対応できるという効果がある。

なお、上記実施の形態１では、図９の操作Ｎｏ．２においてユーザの興味が医療関係に絞り込まれたとき、ユーザは、「医療」という代表単語を含むクラスタ４を選択して、選択されたクラスタに含まれる番組一覧を表示させる。このとき、探索漏れ情報抽出部１０９が抽出した探索漏れ番組が追加されて番組一覧が表示される。これによってユーザは番組一覧の中から医療に関する所望の番組を選択することになる。しかし、本発明はこれに限定されず、例えば、ユーザの興味が医療関係に絞り込まれたとき、ユーザは、クラスタ４に表示されている代表単語の中から「医療」を選択することによって、クラスタ４及び非選択クラスタの中から「医療」という単語を含む番組を抽出するとしてもよい。本発明においては、ユーザの探索対象と推定される探索漏れ情報を抽出し、クラスタに加えるため、その代表単語は本処理を行わない場合に比べ、よりユーザの興味に一致した代表単語が表示される。よって代表単語を用いてキーワード検索を行う際においてもユーザの興味に一致した検索を行うことができる効果を有する。

（実施の形態２）
上記実施の形態１では、ユーザの探索対象が明確化したか否かを、選択クラスタがどれくらい絞られた領域になったかという情報（選択されたクラスタの代表単語のＤＦ値）を基に判断し、明確化したと判断すれば、クラスタ選択の度に抽出しておいた探索漏れ番組を次のクラスタリングまたは一覧表示の対象となる候補番組に加えることで、ユーザの興味に応じた探索漏れ番組の追加を実現した。

以下、本実施の形態２では、探索漏れ番組を毎回抽出するのではなく、ユーザの探索対象の確定度が閾値以上になったときのみ、探索漏れ番組の抽出を行う方法について述べる。これはユーザの興味の対象が明確になったか否かの判断を行い、明確になったと判断されたときのみ探索漏れ番組の抽出を行うということである。さらに本実施の形態２では、探索漏れ情報抽出方法において、抽出結果に明確になったユーザの探索対象以外の番組が入らないように、各単語に重要度を示す重みを付けてベクトルの作成を行う方法について述べる。

図１５は、本実施の形態２の情報探索支援装置の構成を示すブロック図であり、図１６は、本実施の形態２の情報探索支援装置の基本的な動作を表すフローチャートである。ここで、本実施の形態２の情報探索支援装置は図１の探索漏れ情報追加判定部１１２を図１５の探索漏れ情報抽出判定部１４１２に変更し、図３のステップＳ２０７からステップＳ２１１を図１６のステップＳ１５０７からステップＳ１５１２に変更したのみであり、他は実施の形態１と同一である。従って本実施の形態２においては、実施の形態１との相違点を中心に説明する。

以下、図１６のステップＳ１５０７からステップＳ1５１２で行われる探索漏れ情報の抽出・追加処理について、上記実施の形態１と同様に図９に示す具体的なクラスタ選択履歴を例にして説明する。ここで、図９は図７に示されるクラスタ選択履歴の一部の情報をある具体的なシーケンスに対応させて示したものである。

ステップＳ１５０７において、探索対象推定部１４０８はクラスタ選択情報記憶部１４０７に格納されているユーザのクラスタ選択を基に、ユーザの探索対象の推定を行う。ここでは上記実施の形態１と同様にユーザが選択したクラスタに関係のある単語を抽出し、それを用いてユーザの探索対象を推定する。

ステップＳ１５０８において、確定度算出部１４１１は前記ステップＳ１５０７で推定されたユーザの探索対象の確定度をクラスタ選択情報記憶部１４０７に記憶された情報を基に決定する。この確定度は実施の形態１と同様の方法で計算する。

ステップＳ１５０９において、探索漏れ情報抽出判定部１４１２はステップＳ１５０８で計算された確定度を基に、探索漏れ情報の抽出を行うか否かの判定を行う。具体的には確定度が閾値を超えるとユーザの探索対象が明確になったと判断し、探索漏れ情報の抽出を行うと判定する。例えば、前記閾値を５．０とすると、システムが図１０（ａ）の操作Ｎｏ．１の状態のとき、確定度は１．８であり閾値より小さな値であるので、ユーザの探索対象は明確でないと判断し、探索漏れ情報の抽出は行わずにステップＳ１５０１へ進む。一方、システムが図１０（ｂ）の操作Ｎｏ．２の状態のときは、確定度は９．６であり、閾値５．０より大きな値であるので、探索漏れ情報抽出判定部１４１２はユーザの探索対象が明確になったと判定し、ステップＳ１５１０へ進む。

ステップＳ１５１０において、探索漏れ情報抽出部１４０９は探索漏れ情報の抽出に利用するベクトル（以後単に抽出ベクトル）の作成を行う。この抽出ベクトルは、ユーザの探索対象が明確になったと判断されたときに選択されていたクラスタの代表単語、即ち探索対象推定部１４０８で獲得した代表単語のベクトルを前記索引語・文書行列から作成し、それらの和を求めることで作成する。なお、表示情報として、図４のようにクラスタ毎にそのクラスタに含まれる代表番組名も表示している場合は番組名に含まれる単語を利用して抽出ベクトルを作成しても良いし、出力画面には表示されてはいないが、クラスタに含まれる番組の情報において利用されている単語の中からクラスタとの関連が強い単語をＴＦ値やＤＦ値、ＩＤＦ値などを利用して抽出ベクトルを作成しても良い。

作成された抽出ベクトルはステップＳ１５０９での判定結果と共にクラスタ選択情報記憶部１４０７に保存される。図１７は、図９及び図１０の操作シーケンスに対応して保存されるデータ例を示す図である。項目１６０１は操作Ｎｏ．であり、項目１６０２はステップＳ１５０９で行われる探索漏れ情報抽出判定部１４１２による探索漏れ情報抽出判定の結果であり、項目１６０３は作成された抽出ベクトルであり、項目１６０４は過去に作成された抽出ベクトルとの距離をいつ（どの操作Ｎｏ．のときに）作成された抽出ベクトルとの距離かの情報も含めて格納したものである。図１７に示すように、項目１６０１が操作Ｎｏ．１のときでは、確定度（１．８）が閾値（５．０）より小さい値であるので、項目１６０２、項目１６０３及び項目１６０４のいずれにもデータがない。これに対し、操作Ｎｏ．２のときでは、確定度（９．６）が閾値（５．０）以上であるので、項目１６０２には「確定度は閾値以上」という探索漏れ情報抽出判定結果が記述され、項目１６０３には「（・・・）」という抽出ベクトルが記述される。また、例えば、操作Ｎｏ．２の状態でさらに再分割が行なわれた場合には、操作Ｎｏ．３で項目１６０２には「確定度は閾値以上」という探索漏れ情報抽出判定結果が記述され、項目１６０３には「（・・・）」という抽出ベクトルが記述される。さらに、項目１６０４には過去抽出ベクトルとの距離として、過去抽出ベクトルの操作Ｎｏ．である「２」と、操作Ｎｏ．２の項目１６０３の抽出ベクトル「（・・・）」と操作Ｎｏ．３の項目１６０３の抽出ベクトル「（・・・）」との距離である「０．７」とが記述される。

なお、ここで、探索漏れ情報抽出部１４０９が抽出ベクトルを作成する際には、探索漏れ情報の抽出結果に、明確になったユーザの探索対象以外の番組が入らないように、各単語に重要度を示す重みを付けてベクトルの作成を行う。探索漏れ情報抽出部１４０９は、「探索漏れ情報の抽出に利用する代表単語の重要度を決定し、前記重要度は、前記代表単語が出現する探索対象の情報の内容を表す文書の数が小さくなるほど重要であると決定し、決定した重要度に応じた重み付けをした代表単語から抽出ベクトルを作成する前記探索漏れ情報抽出手段」の一例である。この単語の重要度はユーザの探索対象が明確になったという判断がされているため、多くの番組と関係する単語ほど重要度が小さな値になるようにクラスタの代表単語のＤＦ値の逆数を利用する。例えば、システムが図１０（ｂ）に示す操作Ｎｏ．２の状態において、探索漏れ番組を抽出する際には、単語「あした」にはα・（１÷９）を、単語「地域」にはα・（１÷１６）を重要度とする（αは定数）。この方法により多くの番組に関係する単語の影響が少なくなるため、抽出結果が大量になってしまうのを防ぐことができる。

さらに、上記選択クラスタの代表単語のみではなく、これまで選択してこなかったクラスタの代表単語（以後単に、非選択クラスタの代表単語と記述）を利用してもよい。具体的には、非選択クラスタの代表単語に関してもベクトル化し、選択されたクラスタの代表単語と足して抽出ベクトルを作成する。但し、非選択クラスタの代表単語はユーザが興味を持たなかった単語であるので、その重要度は負とする。ここで、非選択クラスタの代表単語では、具体的番組が明確であるＤＦ値が低い単語ほど負の値が大きくなるように、ＤＦ値の値に反比例した負の重要度を設定する。また、情報探索開始から全ての非選択クラスタの代表単語を利用してもよいし、現在から一定回前までの非選択クラスタ代表単語を利用してもよい。

また、代表単語の種類によって重要度の決定を行ってもよい。代表単語の種類とはＥＰＧ等でタグ付けされている単語の種類であり、例えば「人物名」「ジャンル」などであり、「ジャンル」の場合はさらに「大ジャンル」「中ジャンル」「小ジャンル」などに分かれている。重要度としては、上記ＤＦ値を利用した場合と同様の考え方でユーザの探索対象が明確になったとして「大ジャンル」「中ジャンル」「小ジャンル」の順に重要度は大きくなるように設定する。一方、「人物名」はＤＦ値に関わらず番組の内容をある程度明確に想像することが可能であるという性質を持つので、ＤＦ値に関わらず大きな値に設定する。例えば、上記ＤＦ値を用いた重要度計算方法において、代表単語の中で最も高い値と同値を「人物名」には付与する。非選択クラスタ代表単語に関しては上記選択代表単語と逆の考え方で「大ジャンル」「中ジャンル」「小ジャンル」の順に負の値を大きくし、「人物名」に関しても非選択単語の中で最も小さな値（負の値が大きい）を付与する。

ステップＳ１５１１おいて、探索漏れ情報抽出部１４０９はこれまで作成した抽出ベクトルと現操作Ｎｏ．で作成された抽出ベクトルとの距離を計算し、クラスタ選択情報記憶部１４０７に保存する（図１７の項目１６０４）。そして、両ベクトルの距離が閾値以上である場合、既にこの単語集合による探索漏れ番組の抽出は既に行われていると判断し、ステップＳ１５０１に進み、探索漏れ番組の抽出は行わない。一方、ステップＳ１５１１の判定において、両ベクトルの距離が閾値より小さい場合、ステップＳ１５１２へ進み探索漏れ番組の抽出を行う。例えばステップＳ１５１１の判定において、両ベクトルの距離の閾値を０．５とした場合、図１７の操作Ｎｏ．２の抽出ベクトルと操作Ｎｏ．３の抽出ベクトルの距離は０．７であり閾値よりも大きいため、図１７の操作Ｎｏ．２の抽出ベクトルと操作Ｎｏ．３の抽出ベクトルは近いと判断され、操作Ｎｏ．３においては探索漏れ番組の抽出を行わない。なお、これまでに作成した探索漏れ番組の抽出に使用したベクトルが複数ある場合、最も距離が近いベクトルとの差をこの判断に利用する。なお、仮に両ベクトルの距離が０．５より小さい場合には、操作Ｎｏ．２の抽出ベクトルと操作Ｎｏ．３の抽出ベクトルは遠いと判断されるため、操作Ｎｏ．３において探索漏れ番組の抽出を行う。このように、操作ごとに探索漏れ番組の抽出を行なうか行なわないかを判断して、探索漏れ番組の抽出を行なうため、操作Ｎｏ．２と操作Ｎｏ．３との間で探索対象が変化した場合には、探索漏れを抽出し、操作Ｎｏ．２と操作Ｎｏ．３との間で探索対象が変化していない場合には、ＤＦ値や番組数がある一定以下に少なくなっても探索漏れを抽出しないようにすることが可能となる。以上のような動作によって、探索対象が動的に変化した場合にも対応した探索漏れ番組の抽出が可能となる。

ここで、ベクトルの距離は例えばベクトルの内積により定義するので距離は大きいほど近い、すなわち両ベクトルは類似しているとする。

ステップＳ１５１２において、まず探索漏れ情報抽出部１４０９は作成された前記抽出ベクトルを用いて非選択の番組領域から探索漏れ番組の抽出を行い、その結果を探索漏れ情報記憶部１４１０に格納する。具体的には索引語・文書行列から非選択の番組に対するベクトルを作成し、前記抽出ベクトルとの距離を計算し、閾値以上の距離を持つ番組をユーザにとって明確となった探索対象に関する番組として抽出する。なお、抽出する数は閾値により決定するのではなく、実施の形態１で述べたように現在の選択クラスタ内の番組数や現在の全対象番組数に応じて決定してもよい。

さらに、現在の選択クラスタ内の番組に対するベクトルと抽出ベクトルとの距離を求め、探索漏れ番組の抽出で抽出した番組に対するベクトルと抽出ベクトルとの距離と比較し、もし、探索漏れ番組の抽出により得られた番組の方が抽出ベクトルとの距離が大きい場合、現在の選択番組数を越えない範囲で現在の選択番組と入れ替えても良い。これにより、より探索対象が明確となったユーザの探索対象に適した番組に絞り込むことが可能となる。

次に制御部１３１７は、ステップＳ１５０４で候補情報記憶部１４０６に記憶された選択されたクラスタに含まれる番組に加え、本ステップで探索漏れ情報記憶部１４１０に格納された探索漏れ番組を追加し、ステップＳ１５０１へ進み、次のクラスタリングの処理へと続く。

このように本実施の形態２の情報探索支援装置によれば、上記の動作により、ユーザの選択情報（クラスタ選択履歴）からユーザの探索対象が明確になったか否かを自動的に判定することができるとともに、探索対象が明確になったかまたは変化したと推定される時点で、明確になったまたは変化した探索対象と関係があるにもかかわらずこれまでの選択で取りこぼされたと考えられる番組を自動的に抽出することができる。これにより、これまでの選択で取りこぼされたと考えられる番組を、現在選択されている探索対象に加えることが可能となる。従って、ユーザの探索対象に一致する番組をより多くユーザに提示することができる。さらに、探索漏れ番組の抽出に利用する各単語に重要度を付与して抽出を行うため、明確になったユーザの探索対象以外の番組が探索漏れ情報として抽出されることを低減することができるという効果がある。

（実施の形態３）
上記実施の形態１及び２では、ユーザの探索対象が明確になったか否かを、選択クラスタがどれくらい絞られた領域になったかという情報（ＤＦ値）を用いて定義した確定度を基に判断し、探索漏れ番組の抽出を実現している。しかし、この場合では、急速に選択クラスタが絞り込まれた場合にはユーザの探索対象が明確になったことを容易に判断できるが、徐々に絞り込まれている場合には、判断が容易でないという問題がある。

そこで、本実施の形態３では、ユーザの絞込み領域が明確になると、ユーザは一貫性のある単語を含むクラスタを選ぶようになるという特徴を利用して、ユーザの探索対象が明確になったか否かを判定する。具体的には、ユーザの探索対象の確定度を、ユーザが選択する代表単語にどのくらい一貫性があるかという情報を基に定量化し、その値をもとに探索対象が明確になったか否かを判定する方法について述べる。本手法では、選択された代表単語の一貫性を用いてユーザの探索対象の確定度を決定するため、クラスタの代表単語のＤＦ値や対象番組数に依存せず、ユーザの探索対象の確定度を計算することが可能となる。

本実施の形態３と上記実施の形態２との相違点は、ステップＳ１５０１で作成するデータと、ステップＳ１５０９の探索対象が確定したか否かの判断に必要なデータと、ステップＳ１５０８の確定度の計算方法と、ステップＳ１５１０の探索漏れ番組の抽出に利用する抽出ベクトルの作成方法と、ステップＳ１５１２の探索漏れ番組の抽出方法が異なるというものであり、他は実施の形態２と同一である。従って本実施の形態においては、その相違点を中心に説明する。

なお、本実施の形態３で説明する確定度の計算方法及び探索漏れ番組抽出用のベクトルの作成は上記実施の形態１及び２で説明した計算方法及び抽出ベクトルの作成方法とは独立であるので、両手法を併用してもよい。

図１６のステップＳ１５０１において、まず、情報データ作成部１４０３は索引語・文書行列に加え、索引語・文書行列に対して特異値分解を行い、次元圧縮を行った行列を作成する。次に、前記次元圧縮された行列を利用して索引語と文書を圧縮した次元のベクトルで表現し、これを情報データ記憶部１４０４に格納する。

前記圧縮した行列を基に作られる索引語ベクトルや文書ベクトルを用いて、索引語間の意味的距離を求めたり、索引語から文書を意味的類似度に基づいて検索したりすることが可能となる。これらの技術は潜在的意味解析（Latent Semantic Analysis；LSA）や潜在的意味インデキシング（Latent semantic indexing ; LSI）と呼ばれる（非特許文献２：日本知能情報ファジィ学会誌 Vol.17、No.1 p.76(2005)、非特許文献３：情報検索アルゴリズム（共立出版） p.65(2002)）。この手法により単語間や単語・文書間の意味的類似度を定量化できると共に、抽出速度の向上が図れる。

以下、探索漏れ番組の抽出判定及び抽出方法について、図１８に示すクラスタ選択履歴を例にして説明する。なお、図１８は上記実施の形態１の図９と同様にある具体的な操作シーケンスに対応してクラスタ選択情報記憶部１４０７に格納される図７に示される選択情報に関するクラスタ選択履歴の一部の情報を示す図である。

探索漏れ番組の抽出判定及び抽出方法について、図１６のフローチャートを用いて説明する。

ステップＳ１５０７において、まず探索対象推定部１４０８はクラスタ選択情報記憶部１４０７に格納されるユーザのクラスタ選択を基にユーザの探索対象を推定するための条件を取得する。ここで上記実施の形態１及び２と同様に、探索対象推定部１４０８は、ユーザが選択したクラスタの代表単語を抽出し、抽出された代表単語に基づいて抽出される番組をユーザの探索対象であると推定する。次に探索漏れ情報抽出部１４０９は、選択されたクラスタの各代表単語のベクトルを抽出し、そのベクトルを足し合わせることで選択されたクラスタの抽出ベクトルを作成し、クラスタ選択情報記憶部１４０７に格納する。

ステップＳ１５０８において、確定度算出部１４１１は、「前回選択されたクラスタを代表する代表単語と、今回選択されたクラスタを代表する代表単語との意味的類似度を算出し、算出した意味的類似度が大きくなるほど前記確定度が大きくなる計算式に従って、前記確定度を算出する前記確定度算出手段」の一例であり、前回選択されたクラスタの代表単語ベクトルと今回作成されたクラスタの代表単語ベクトルとの距離を求める。この距離をユーザの探索対象の確定度として、その結果をクラスタ選択情報記憶部１４０７に保存する。

ステップＳ１５０９において、ステップＳ１５０８で計算された確定度を基に、ユーザの探索対象が明確になったか否か、すなわち、探索漏れ番組の抽出を行うか否かの判断を行う。具体的には確定度が閾値以上である場合、探索漏れ番組の抽出を行う。

図１９は、図１８に示したクラスタ選択履歴に対応して、選択された各クラスタのより詳細な内容を示す図である。すなわち、図１９に図１８で示されるクラスタ選択履歴のシーケンスに対して、ステップＳ１５０７で作成された選択クラスタの代表単語ベクトルと、本ステップで計算される前回の選択代表単語ベクトルとの距離と、ステップＳ１５１０で生成される抽出ベクトルをクラスタ選択情報記憶部１４０７に格納したデータ例を示す。ここで、項目１８０１はステップＳ１５０７で作成される選択クラスタの代表単語ベクトルであり、項目１８０２は一つ前に選択されたクラスタの代表単語ベクトルと今回選択されたクラスタの代表単語ベクトルとの距離であり、項目１８０３はステップＳ１５１０で作成される探索漏れ番組抽出用の抽出ベクトルである。

図１９（ｂ）の表を見れば、例えばシステムが図１８の操作Ｎｏ．１の状態で選択されたクラスタ１の代表単語ベクトルと、システムが図１８の操作Ｎｏ．２の状態で選択されたクラスタ２の代表単語ベクトルとの距離は０．２であることが分かる。

今、探索漏れ番組抽出の判断に利用する閾値を０．５とすると、ステップＳ１５０９において、図１９の操作Ｎｏ．２の再分割実行時にも図１９の操作Ｎｏ．３の再分割実行時にも閾値を超える値があるので、ステップＳ１５１０へ進む。

なお、本実施の形態ではユーザが一貫性のある代表単語を含むクラスタを選ぶようになると、ユーザの絞込みが明確になったと判断し、探索漏れ番組の抽出を行う。以下では、その具体例について述べる。この一貫性のある単語を含むクラスタを選んでいるか否かの判断は、前回選択されたクラスタの代表単語と今回選択された代表単語の類似度を確定度として計算することにより行う。この確定度は似た単語を選ぶほど高くなるような定義をすればよいので、上記のクラスタの代表単語ベクトル間の距離を確定度と定義とするほかに、確定度の定義として前回選択されたクラスタと今回選択したクラスタの代表単語間で、同じ代表単語の含まれる数や割合を利用してもよいし、上記索引語の単語ベクトルを用いて各単語間の距離を求め、一定値以上の距離を持つ単語の数や割合を利用してもよい。

ステップＳ１５１０において、探索漏れ情報抽出部１４０９は探索漏れ番組の抽出に利用するベクトル（以後単に抽出ベクトル）を選択クラスタごとに作成する。但し、ここで作成される抽出ベクトルはステップＳ１５０７で前回の選択クラスタと一貫性があると判定された選択クラスタのみに対してであり、例えば図１９の操作Ｎｏ．２の状態ではクラスタ２とクラスタ３が選択されているが、前回の選択クラスタの代表単語ベクトルとの距離が閾値０．５以上あるものとしてはクラスタ２のみであるので、図１９の操作Ｎｏ．２の状態ではクラスタ２に対してのみ抽出ベクトルを作成する。同様に図１９の操作Ｎｏ．３の状態ではクラスタ２とクラスタ４について抽出ベクトルを作成する。

抽出ベクトルは選択クラスタの代表単語ベクトルと同様に、選択されたクラスタの代表単語を基に作成するが、抽出ベクトルを作成する際には、明確になったユーザの探索対象以外の番組が探索漏れ番組の抽出結果に入らないように、各単語に重要度を示す重みを付けて抽出ベクトルの作成を行う。

この重要度は一貫性のある単語ほど大きくなるような定義を行う。これは、一貫性があると判断された前回の選択クラスタの代表単語と意味的に近い単語に大きな重要度を与えることで実現できる。探索漏れ情報抽出部１０９は、「前回選択されたクラスタと今回選択されたクラスタとの間でクラスタを代表する代表単語の意味的類似度を算出し、算出された意味的類似度が大きいほど選択されたクラスタを前記代表単語の一貫性が強いと判定し、前記代表単語の一貫性が強いほど探索漏れ情報の抽出に利用する代表単語の重要度が高くなるように前記代表単語の重要度を決定し、決定した重要度に応じた重み付けをした前記代表単語から抽出ベクトルを作成する前記探索漏れ情報抽出手段」の一例である。例えば一貫性があると判断された前回の選択クラスタの代表単語ベクトルと、抽出ベクトル作成の対象となる各代表単語との距離をそれぞれ計算し、距離が近い単語ほど大きな重要度を付与してもよいし、一貫性があると判断された前回の選択クラスタの代表単語と抽出ベクトル作成の対象となる各代表単語との距離を計算し、最大値が大きい単語ほど重要度を大きくしてもよい。

なお、前回の複数の選択クラスタに対して代表単語ベクトル間の距離が閾値を超える選択クラスタがあった場合、最も距離が近い前回の選択クラスタを対象にして単語の重要度を決定しても良いし、全てのクラスタに対して上記方法で重要度を計算し、その結果に代表単語ベクトル間の距離を掛け合わせて新たな重要度としても良い。

ステップＳ１５１１において、探索漏れ情報抽出部１４０９はこれまで作成した抽出ベクトルと現操作で作成された抽出ベクトルとの距離を計算し、クラスタ選択情報記憶部１４０７に保存する。図２０は、過去のクラスタリングにおいて作成された抽出ベクトルと、次のクラスタリングにおいて作成された抽出ベクトルとの関係を示す図である。ステップＳ１５１１で計算された抽出ベクトル間の距離は、図２０の項目１９０５に記録される。そして、両ベクトルの距離が閾値以上である場合、既にこの単語集合による探索漏れ番組の抽出は行われていると判断し、ステップＳ１５０１に進み、探索漏れ番組の抽出は行わない。一方、両ベクトルの距離が閾値より小さい場合、ステップＳ１５１２へ進み探索漏れ番組の抽出を行う。例えば閾値を０．５とした場合、図２０の操作Ｎｏ．３の状態において、クラスタ２の抽出ベクトルは前回抽出ベクトルである操作Ｎｏ．２のクラスタ２の抽出ベクトルとの距離が０．７と閾値以上であるため、既に抽出済みだと判断し、探索漏れ番組の抽出は行わない。一方、同じ状態において、クラスタ４の抽出ベクトルは前回抽出ベクトルとの距離が０．０と閾値よりも小さいため、まだ抽出をしたことが無いと判断し、このベクトルを用いて探索漏れ番組の抽出を行うと判断する。もし、これまでに作成した探索漏れ番組の抽出に使用したベクトルが複数ある場合、最も距離が近いベクトルとの差を利用し、既に抽出を行ったか否かの判断を行う。

ステップＳ１５１２において、まず探索漏れ情報抽出判定部１４１２は作成された前記抽出ベクトルを用いて非選択のクラスタに属する番組領域の番組に対して探索漏れ番組の抽出を行い、その結果を探索漏れ情報記憶部１４１０に格納する。具体的には図２０の操作Ｎｏ．２ではクラスタ２の代表単語を用いて作成した抽出ベクトルを用いて取りこぼしの抽出を行い、図２０の操作Ｎｏ．３ではクラスタ４の代表単語を用いて作成した抽出ベクトルを用いて非選択のクラスタに属する番組から探索漏れ番組の抽出を行い、その結果を格納する。

ここで、図２０の操作Ｎｏ．３における探索漏れ番組の抽出では、図２０の操作Ｎｏ．２のクラスタ２と図２０の操作Ｎｏ．３のクラスタ４とで代表単語及び番組数の変化は殆ど無いが、上記方法により、ユーザの興味が確定したことを判断できる。

次に制御部１３１７は、ステップＳ１５０４で候補情報記憶部１４０６に記憶された、選択されたクラスタに含まれる番組に加え、本ステップで探索漏れ情報記憶部１４１０に格納された探索漏れ番組を追加し、ステップＳ１５０１へ進み、次のクラスタリングの処理を行う。

以上のように、ユーザが選択したクラスタの代表単語に一貫性があるか否かに基づいて、探索対象が確定したか否かの判断基準となる確定度を定義することによって、探索対象が明確になったかまたは変化したと推定される時点で、明確になったかまたは変化した探索対象に関する番組で、かつ、これまでの選択によって取りこぼされたと考えられる番組を自動的に抽出し、現在の探索対象に加えることが可能となる。このため、ユーザの操作負担を増加することなく、しかもユーザの興味を持った番組の「見落とし」や「取りこぼし」を減らすことができる。

さらに単語の一貫性を用いて探索漏れ番組の抽出の実行判断を行うので、探索対象が明確になったにもかかわらず、選択クラスタの番組数や代表単語のＤＦ値が徐々にしか変化しない場合でも、精度良く探索対象の明確化の判断が可能となる。

また単語の一貫性を用いて抽出時に利用する単語の重要度を決定しているので、ユーザが絞り込みで重要だと考える単語に対して正しく重要度を付与することが可能となり、精度の良い探索漏れ番組抽出が可能となる。

本実施の形態１から３における構成により実現される自動的にユーザが興味を持つ情報を収集し選択クラスタに追加するという処理は、システムの操作方法を変えることなくその結果を反映することが可能となるため、ユーザは一貫した操作方法により興味のある情報を精度良く取得できる。このように同一操作により探索を行うことは、ユーザの興味が明確になった後、ユーザ自らキーワード検索を行うインタフェースに比べて、検索キーワード及びその組み合わせについてユーザが作成する負荷を与えないだけではなく、検索思考の変更を必要としないという効果を奏する。

さらに、本手法では、ユーザの興味領域を選択したクラスタに関する情報から自動で推定しているため、キーワード検索のようなユーザ主導の検索では実現できない、ユーザ自身も気づいていない可能性があるユーザの興味対象に対して自動的に関連情報を収集することを可能とする。

なお、上記実施の形態１から３では情報探索支援の具体的な例として、番組の探索に対する絞り込み動作の説明を行ったが、クラスタリングにより自動分類を行い、代表単語をもとにクラスタをユーザが選択することで、絞込みを行うシステムであれば、本技術は利用可能である。例えば新聞記事、マニュアルの機能説明、及びＷｅｂサイトの商品情報などの情報の探索支援にも利用可能である。

本発明は、ユーザの探索対象が明確になっていないときに、大量の文書やメタデータが付与されたコンテンツなどの中からユーザが興味を持つ情報を見つけることを支援する情報探索装置に対して利用可能であり、番組コンテンツや音楽コンテンツ、記事や商品の情報、機器の機能などの探索装置に対する探索支援技術及びＧＵＩとして、その利用可能性は非常に大きい。

本構成により、ユーザがクラスタの代表単語を基にクラスタを選択するという特徴を利用して、ユーザの探索対象が確定したか否かの判断とユーザの興味に合った情報の抽出をシステムが自動に行うことで、現在の探索対象以外の情報からユーザの興味のある情報を抽出し、現在の探索対象の内容を変更することが可能となる。

ステップＳ２０３において、表示方法決定部１１４は、システム仕様記憶部１１３に記憶されている画面仕様に基づいてクラスタリング結果を出力部１１５に出力する。図４は、クラスタリング実行部１０５によって決定されたクラスタが出力部１１５より出力される画面例を示す図である。ここで、３０１の欄は各クラスタの代表単語を表している。この欄には、例えば、そのクラスタの具体的な代表単語が「単語１」、「単語２」、・・・、「単語５」のように列記される。３０２の欄はクラスタの代表番組を表している。この欄には、クラスタに含まれる各番組に対する重心ベクトルで示される重心から最も近い距離にある、例えば、上位５個の番組が、このクラスタの代表番組として表示される。代表番組は、例えば、「１．番組名２−１」、「２．番組名２−２」、・・・、「５．番組名２−５」のように具体的な番組名で列記される。３０３の欄は各クラスタに含まれている番組の数を表す。３０４の欄は、ユーザがクラスタを選択したか否かを示すチェックを入れるためのチェックボックスである。例えば、チェックボックスにチェックが入れられていれば、そのクラスタは選択されており、チェックボックスにチェックが入れられていなければ、そのクラスタは選択されていないことを示している。３０５の再分割ボタンは、ユーザがチェックボックスにチェックを入れることによって選択したクラスタに対して、再度クラスタリングを行い、絞込みを行う処理の実行（以後単に、再分割を行うと記述）を情報探索支援装置に指示するボタンである。３０６の番組一覧ボタンは、ユーザがチェックボックスにチェックを入れることによって選択したクラスタの番組一覧を表示する画面へ遷移するためのボタンである。ユーザによってこのボタンが押された場合、例えば、図４のように、２つのクラスタのチェックボックスにチェックが入れられている場合には、それら２つのクラスタに含まれている全番組が一覧表示される。３０７の矢印のボタンは、前の選択状態へ戻ったり、先の選択状態へ進んだりすることを指示するためのボタンである。なお、これらの各ボタンを押したときの動作や表示される項目については、図４に示した例に限らず、システム仕様記憶部１１３に記憶されている定義に基づく。

（確定度）＝１００／（ＤＦ値の平均値）

図１４は、図１３に示した８件の医療に関する番組が、どのクラスタに属していたのかを示す情報を図９のクラスタ選択履歴に加えた結果を示す図である。図１４に示すように、システムが操作Ｎｏ．１の状態のとき、ユーザが選択しなかったクラスタ３に番組番号２８１の番組が１件含まれており、システムが操作Ｎｏ．２の状態のとき、ユーザが選択しなかったクラスタ２に番組番号４８２、１９、１６、４９９及び３０の番組５件と、クラスタ３に番組番号９５及び６２の番組２件とが含まれていることが分かる。このように、本実施の形態の情報探索支援装置によれば、選択されていないクラスタに探索漏れ番組が存在している場合であっても、それを抽出できている。ここで、図１４の操作Ｎｏ．２の非選択クラスタであるクラスタ２が最も医療に関する番組を取りこぼしていることが分かる。これは、このクラスタの代表単語のうち「生活」「社会・報道」などは医療と関係がありそうな単語であるため、このクラスタが医療に関する番組を含むであろうということはユーザに理解できるが、直接医療に関する単語が代表単語に含まれていないため見落としてしまったと考えられる。

以下、図１６のステップＳ１５０７からステップＳ１５１２で行われる探索漏れ情報の抽出・追加処理について、上記実施の形態１と同様に図９に示す具体的なクラスタ選択履歴を例にして説明する。ここで、図９は図７に示されるクラスタ選択履歴の一部の情報をある具体的なシーケンスに対応させて示したものである。

ステップＳ１５１１において、探索漏れ情報抽出部１４０９はこれまで作成した抽出ベクトルと現操作Ｎｏ．で作成された抽出ベクトルとの距離を計算し、クラスタ選択情報記憶部１４０７に保存する（図１７の項目１６０４）。そして、両ベクトルの距離が閾値以上である場合、既にこの単語集合による探索漏れ番組の抽出は既に行われていると判断し、ステップＳ１５０１に進み、探索漏れ番組の抽出は行わない。一方、ステップＳ１５１１の判定において、両ベクトルの距離が閾値より小さい場合、ステップＳ１５１２へ進み探索漏れ番組の抽出を行う。例えばステップＳ１５１１の判定において、両ベクトルの距離の閾値を０．５とした場合、図１７の操作Ｎｏ．２の抽出ベクトルと操作Ｎｏ．３の抽出ベクトルの距離は０．７であり閾値よりも大きいため、図１７の操作Ｎｏ．２の抽出ベクトルと操作Ｎｏ．３の抽出ベクトルは近いと判断され、操作Ｎｏ．３においては探索漏れ番組の抽出を行わない。なお、これまでに作成した探索漏れ番組の抽出に使用したベクトルが複数ある場合、最も距離が近いベクトルとの差をこの判断に利用する。なお、仮に両ベクトルの距離が０．５より小さい場合には、操作Ｎｏ．２の抽出ベクトルと操作Ｎｏ．３の抽出ベクトルは遠いと判断されるため、操作Ｎｏ．３において探索漏れ番組の抽出を行う。このように、操作ごとに探索漏れ番組の抽出を行なうか行なわないかを判断して、探索漏れ番組の抽出を行なうため、操作Ｎｏ．２と操作Ｎｏ．３との間で探索対象が変化した場合には、探索漏れを抽出し、操作Ｎｏ．２と操作Ｎｏ．３との間で探索対象が変化していない場合には、ＤＦ値や番組数がある一定以下に少なくなっても探索漏れを抽出しないようにすることが可能となる。以上のような動作によって、探索対象が動的に変化した場合にも対応した探索漏れ番組の抽出が可能となる。

なお、本実施の形態ではユーザが一貫性のある代表単語を含むクラスタを選ぶようになると、ユーザの絞込みが明確になったと判断し、探索漏れ番組の抽出を行う。以下では、その具体例について述べる。この一貫性のある単語を含むクラスタを選んでいるか否かの判断は、前回選択されたクラスタの代表単語と今回選択された代表単語の類似度を確定度として計算することにより行う。この確定度は似た単語を選ぶほど高くなるような定義をすればよいので、上記のクラスタの代表単語ベクトル間の距離を確定度の定義とするほかに、確定度の定義として前回選択されたクラスタと今回選択したクラスタの代表単語間で、同じ代表単語の含まれる数や割合を利用してもよいし、上記索引語の単語ベクトルを用いて各単語間の距離を求め、一定値以上の距離を持つ単語の数や割合を利用してもよい。

図１は、本実施の形態１における情報探索支援装置の構成を示すブロック図である。図２は、本実施の形態１における情報探索支援装置の動作の主旨を示す図である。図３は、本実施の形態１の情報探索支援装置がＥＰＧ（Electric Program Guide）のデータを利用し、特に明確に見たいと思っている番組がないユーザが大量の番組の中から興味のある番組を見つけることを支援する動作を示すフローチャートである。図４は、クラスタリング実行部によって決定されたクラスタが出力部より出力される画面例を示す図である。図５は、クラスタリング実行部によって決定されたクラスタが出力部より出力される場合の他の画面例を示す図である。図６は、クラスタリング実行部によって決定されたクラスタが出力部より出力される場合のさらに他の画面例を示す図である。図７は、図４の画面例で再分割が実行されたときに作成され、クラスタ選択情報記憶部に格納される一操作に対するクラスタ選択履歴の具体例を示す図である。図８は、候補情報記憶部に格納される選択されたクラスタに含まれる番組に関する情報の例を示す図である。図９は、図７に示されるクラスタ選択履歴の一部の情報をある具体的なシーケンスに対応させて示す図である。図１０（ａ）及び（ｂ）は、図９で示される具体的操作シーケンスに対応した確定度の算出に必要なデータの具体例を示した図である。図１１は、探索漏れ番組を抽出して再分割の対象に追加したことを表示する出力画面の一例を示す図である。図１２は、探索漏れ番組の追加を行なわずに、図９の操作Ｎｏ．２、クラスタ番号４に属する１３番組の中から医療に関する番組を抽出した場合の抽出結果（番組一覧）を示す図である。図１３は、図９の操作Ｎｏ．１及び操作Ｎｏ．２で選択されなかったクラスタの中から医療に関する番組を抽出した結果を示す図である。図１４は、図１３に示した８件の医療に関する番組が、どのクラスタに属していたのかを示す情報を図９のクラスタ選択履歴に加えた結果を示す図である。図１５は、本実施の形態２の情報探索支援装置の構成を示すブロック図である。図１６は、本実施の形態２の情報探索支援装置の基本的な動作を表すフローチャートである。図１７は、図９及び図１０の操作シーケンスに対応して保存されるデータ例を示す図である。図１８（ａ）（ｂ）（ｃ）は、ある具体的な操作シーケンスに対応してクラスタ選択情報記憶部に格納される、図７に示される選択情報に関するクラスタ選択履歴の一部の情報を示す図である。図１９（ａ）（ｂ）（ｃ）は、図１８に示したクラスタ選択履歴に対応して、選択された各クラスタのより詳細な内容を示す図である。図２０は、過去のクラスタリングにおいて作成された抽出ベクトルと、次のクラスタリングにおいて作成された抽出ベクトルとの関係を示す図である。

符号の説明

Claims

探索対象である情報をクラスタリングして各クラスタの特徴を表す情報を表示し、表示されたクラスタのうちからユーザによって選択されたクラスタに含まれる情報をさらにクラスタリングすることによって選択対象となる情報を絞り込み、ユーザによる情報の探索を支援する情報探索支援装置であって、
各クラスタの内容に関する情報と、ユーザがどのクラスタを選択したかを示すクラスタ選択履歴情報とを蓄積するクラスタ選択履歴情報蓄積手段と、
前記クラスタ選択履歴情報蓄積手段に蓄積されている前記クラスタの内容に関する情報および前記クラスタ選択履歴情報を基に、ユーザの探索対象があいまいな状態から明確になった度合いを示す確定度を算出する確定度算出手段と、
前記ユーザが選択したクラスタの内容に関する情報のうちから、ユーザの探索対象を推定するための条件を取得する探索対象推定手段と、
表示された前記クラスタのうちでユーザが選択しなかったクラスタに含まれる情報であり、かつ、前記探索対象推定手段が取得した条件から推定される情報群に帰属する情報である探索漏れ情報を、ユーザが選択しなかったクラスタから抽出する探索漏れ情報抽出手段と、
前記確定度算出手段が算出した確定度が予め定められた閾値以上である場合に、前記探索漏れ情報抽出手段が抽出した前記探索漏れ情報を、ユーザが選択したクラスタに追加する探索漏れ情報追加手段と
を備えることを特徴とする情報探索支援装置。
前記探索対象推定手段は、前記条件として、選択されたクラスタを代表する代表単語を取得し、
前記探索漏れ情報抽出手段は、前記探索対象推定手段が取得した前記代表単語から得られるベクトルを用いて、ユーザが選択しなかったクラスタに含まれる前記情報から前記探索漏れ情報を抽出するための抽出ベクトルを作成する
ことを特徴とする請求項１記載の情報探索支援装置。
前記クラスタ選択履歴情報蓄積手段は、各クラスタの内容に関する情報として、選択されたクラスタに含まれる情報の数、表示されたクラスタのうちから選択されたクラスタの数、探索対象の情報の内容を表す文書のうち選択されたクラスタを代表する代表単語を含む文書の数のいずれかを蓄積し、
前記確定度算出手段は、前記クラスタ選択履歴情報蓄積手段に蓄積されている、クラスタの内容に関するいずれかの情報について、その数が小さくなるほど前記確定度が大きくなる規則に従って、前記確定度を算出する
ことを特徴とする請求項１記載の情報探索支援装置。
前記確定度算出手段は、前回選択されたクラスタを代表する代表単語と、今回選択されたクラスタを代表する代表単語との意味的類似度を算出し、算出した意味的類似度が大きくなるほど前記確定度が大きくなる計算式に従って、前記確定度を算出する
ことを特徴とする請求項１記載の情報探索支援装置。
前記探索漏れ情報抽出手段は、探索漏れ情報の抽出に利用する代表単語の重要度を決定し、前記重要度は、前記代表単語が出現する探索対象の情報の内容を表す文書の数が小さくなるほど重要であると決定し、決定した重要度に応じた重み付けをした代表単語から抽出ベクトルを作成する
ことを特徴とする請求項１記載の情報探索支援装置。
前記探索漏れ情報抽出手段は、前回選択されたクラスタと今回選択されたクラスタとの間でクラスタを代表する代表単語の意味的類似度を算出し、算出された意味的類似度が大きいほど選択されたクラスタを前記代表単語の一貫性が強いと判定し、前記代表単語の一貫性が強いほど探索漏れ情報の抽出に利用する代表単語の重要度が高くなるように前記代表単語の重要度を決定し、決定した重要度に応じた重み付けをした前記代表単語から抽出ベクトルを作成する
ことを特徴とする請求項１記載の情報探索支援装置。
探索対象である情報をクラスタリングして各クラスタの特徴を表す情報を表示し、表示されたクラスタのうちからユーザによって選択されたクラスタに含まれる情報をさらにクラスタリングすることによって選択対象となる情報を絞り込み、ユーザによる情報の探索を支援する情報探索支援方法であって、
クラスタ選択履歴情報蓄積手段が、各クラスタの内容に関する情報と、ユーザがどのクラスタを選択したかを示すクラスタ選択履歴情報とを蓄積するクラスタ選択履歴情報蓄積ステップと、
前記クラスタ選択履歴情報蓄積ステップで蓄積されている前記クラスタの内容に関する情報および前記クラスタ選択履歴情報を基に、確定度算出手段が、ユーザの探索対象があいまいな状態から明確になった度合いを示す確定度を算出する確定度算出ステップと、
前記ユーザが選択したクラスタの内容に関する情報のうちから、探索対象推定手段が、ユーザの探索対象を推定するための条件を取得する探索対象推定ステップと、
探索漏れ情報抽出手段が、表示された前記クラスタのうちでユーザが選択しなかったクラスタに含まれる情報であり、かつ、前記探索対象推定ステップで取得した条件から推定される情報群に帰属する情報である探索漏れ情報を、ユーザが選択しなかったクラスタから抽出する探索漏れ情報抽出ステップと、
前記確定度算出ステップで算出した確定度が予め定められた閾値以上である場合に、前記探索漏れ情報抽出ステップで抽出した前記探索漏れ情報を、探索漏れ情報追加手段が、ユーザが選択したクラスタに追加する探索漏れ情報追加ステップと
を含むことを特徴とする情報探索支援方法。
探索対象である情報をクラスタリングして各クラスタの特徴を表す情報を表示し、表示されたクラスタのうちからユーザによって選択されたクラスタに含まれる情報をさらにクラスタリングすることによって選択対象となる情報を絞り込み、ユーザによる情報の探索を支援する情報探索支援装置のためのプログラムであって、
各クラスタの内容に関する情報と、ユーザがどのクラスタを選択したかを示すクラスタ選択履歴情報とを蓄積するクラスタ選択履歴情報蓄積ステップと、前記クラスタ選択履歴情報蓄積ステップで蓄積されている前記クラスタの内容に関する情報および前記クラスタ選択履歴情報を基に、ユーザの探索対象があいまいな状態から明確になった度合いを示す確定度を算出する確定度算出ステップと、前記ユーザが選択したクラスタの内容に関する情報のうちから、ユーザの探索対象を推定するための条件を取得する探索対象推定ステップと、表示された前記クラスタのうちでユーザが選択しなかったクラスタに含まれる情報であり、かつ、前記探索対象推定ステップで取得した条件から推定される情報群に帰属する情報である探索漏れ情報を、ユーザが選択しなかったクラスタから抽出する探索漏れ情報抽出ステップと、前記確定度算出ステップで算出した確定度が予め定められた閾値以上である場合に、前記探索漏れ情報抽出ステップで抽出した前記探索漏れ情報を、ユーザが選択したクラスタに追加する探索漏れ情報追加ステップとをコンピュータに実行させる情報探索支援プログラム。