JPWO2008146456A1 - 情報探索支援方法および情報探索支援装置 - Google Patents

情報探索支援方法および情報探索支援装置 Download PDF

Info

Publication number
JPWO2008146456A1
JPWO2008146456A1 JP2008532533A JP2008532533A JPWO2008146456A1 JP WO2008146456 A1 JPWO2008146456 A1 JP WO2008146456A1 JP 2008532533 A JP2008532533 A JP 2008532533A JP 2008532533 A JP2008532533 A JP 2008532533A JP WO2008146456 A1 JPWO2008146456 A1 JP WO2008146456A1
Authority
JP
Japan
Prior art keywords
information
cluster
search
user
program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008532533A
Other languages
English (en)
Other versions
JP4203967B1 (ja
Inventor
井上 剛
剛 井上
松浦 聰
聰 松浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Application granted granted Critical
Publication of JP4203967B1 publication Critical patent/JP4203967B1/ja
Publication of JPWO2008146456A1 publication Critical patent/JPWO2008146456A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

再帰的なクラスタリングにより情報の絞込みを行い簡単な操作でユーザの興味のある情報の取りこぼしを低減する情報探索支援装置を提供する。各クラスタの内容に関する情報とユーザがどのクラスタを選択したかを示すクラスタ選択履歴情報とを蓄積するクラスタ選択情報記憶部(107)と、クラスタ選択情報記憶部(107)に蓄積された情報を基に、ユーザの探索対象があいまいな状態から明確になった度合いを示す確定度を算出する確定度算出部(111)と、選択したクラスタの内容に関する情報のうちから探索対象を推定するための条件を取得する探索対象推定部(108)と、選択しなかったクラスタに含まれかつ取得した条件から推定される探索漏れ情報を、選択しなかったクラスタから抽出する探索漏れ情報抽出部(109)と、確定度が閾値以上の場合に、ユーザが選択したクラスタに抽出した探索漏れ情報を追加する探索漏れ情報追加判定部(112)とを備える。

Description

本発明は、ユーザが大量の情報から興味の湧く情報を見つけ出すことを支援する方法及びその装置に関し、特に情報をいくつかのクラスタに自動分類することを再帰的に行うことで情報の絞り込みを行う情報探索支援方法及び情報探索支援装置に関する。
近年、テレビ番組や書籍などのコンテンツに関する情報から、観光地やレストランなどのランドマーク、商品の評判や在庫情報に至るまで様々なデータの電子化が進んでいる。これに伴い、電子化された膨大な情報の中からユーザにとって興味のある情報を見つけ出す情報探索ツールに対するニーズが拡大してきている。
膨大な情報から興味のある情報を探す最も一般的な方法として、キーワード検索法がある。キーワード検索法では、興味の対象を示す単語をユーザが検索キーワードとして入力し、システムは入力された検索キーワードに関連した情報をキーワードと文書との関連度に基づいてあらかじめ作成されたインデックスを利用して検索し、結果をユーザに提示する。
上記キーワード検索法は、ユーザの興味の対象が明確であり、興味の対象を検索キーワードにより明確に表現できる場合に有効である。しかしながら、ユーザの興味の対象が漠然としている場合や、興味の対象を代表する適切な検索キーワードが思い浮かばない場合には、入力した検索キーワードがユーザの興味の対象と一致しないため、ユーザが本当に検索したい情報が検索結果の上位に含まれないといった問題が発生する。
このような問題に対して、探索対象となる情報をいくつかのクラスタに分割し、各クラスタの内容をユーザに知らせるために、各クラスタに含まれる情報を代表するキーワードと見出しをユーザに提示する。これにより、目的が漠然としたユーザに手がかりを与えながら、情報の絞り込みを行えるようにした情報探索支援手法としてScatter/Gather法(非特許文献1)がある。Scatter/Gather法では、ユーザが関心のあるクラスタを選択すると、システムは選択されたクラスタに含まれている文書やコンテンツなどの情報を一旦、一まとめにした上で再度クラスタリングを行いユーザに提示する。この作業を再帰的に繰り返すことにより、探索対象が絞り込まれていき、ユーザの漠然とした興味が次第に明確になる。その結果、ユーザは興味のある情報を簡単に見つけ出すことができるようになる。
一方で、ユーザはクラスタの代表となるキーワードと見出しを手がかりにクラスタを選択することになるが、これらのキーワードと見出しのみでクラスタ内に含まれるすべての情報を把握することは困難である。したがって、ユーザがクラスタを選択する時点で、非選択クラスタに含まれる興味対象と一致する情報が探索対象から漏れてしまう「取りこぼし」が生じるという課題がある。
この課題に対して特許文献1が開示されている。特許文献1では、探索対象となる情報を単一のクラスタに分類することが問題の原因と考え、探索対象となる情報の各クラスタに対する帰属度を計算し、これを棒グラフなどで提示して他の選択すべきクラスタの存在を示唆することにより、上記問題に対する解決を図っている。
Scatter/gather: A cluster-based approach to browsing large document collections. In Proceedings of the SIGIR '92(pp.318-329), 1992 特開2003−345810号公報
しかしながら、特許文献1では探索対象となるすべての情報に対して、各クラスタへの帰属度を視覚化して提示するものであるため、非特許文献1の課題である「取りこぼし」を防ぐためには、探索対象となるすべての情報に対して、ユーザが帰属度を参照して取捨選択を行う必要がある。このため、探索対象の情報数が膨大になると、帰属度の閲覧操作、および前記判断に対するユーザの負担が大きくなるという課題がある。
また、非特許文献1の課題である「取りこぼし」の他の原因として、ユーザの興味対象が探索開始時点で定まっていない場合や探索の途中で変更される場合など、ユーザの興味対象が動的に変化することが挙げられる。非特許文献1や特許文献1の属する再帰的クラスタリングによる情報探索支援方法では、一般的にユーザの興味対象はシステムから提示される代表キーワードなどの手がかりによって、曖昧な状態から明確な状態へ変化するものであり、探索を開始してしばらくの間のクラスタ選択は必ずしも明確な興味対象を意識して行われるとは限らない。このため、ユーザの興味対象が明確になるまでに行ったクラスタ選択によって、必然的に「見落とし」や「取りこぼし」が生じてしまう。同様に、初めはある代表キーワードに興味を持ってクラスタの選択を行っていたが、途中で興味のある見出しを見つけ、それ以降その見出しに関連した代表キーワードを含むクラスタを選択する場合にも、途中までのクラスタ選択においては、新しい興味の対象を意識していないため「見落とし」や「取りこぼし」が生じている可能性が高い。しかしながら、特許文献1では、探索対象となる情報の各クラスタに対する帰属度を示すのみであり、これら原因による「見落とし」や「取りこぼし」に対処できない。
本発明は、上記の課題を解決するためになされたものであって、ユーザの興味対象の動的な変化に対応し、かつ、ユーザに特別な操作を要求することなしに、「見落とし」や「取りこぼし」なくユーザの興味対象に合致した文書やコンテンツを選択できるようにすることを可能とする情報探索支援方法及び情報探索支援装置を提供することを目的とする。
前記従来の課題を解決するために、本発明の情報探索支援装置は、探索対象である情報をクラスタリングして各クラスタの特徴を表す情報を表示し、表示されたクラスタのうちからユーザによって選択されたクラスタに含まれる情報をさらにクラスタリングすることによって選択対象となる情報を絞り込み、ユーザによる情報の探索を支援する情報探索支援装置であって、各クラスタの内容に関する情報と、ユーザがどのクラスタを選択したかを示すクラスタ選択履歴情報とを蓄積するクラスタ選択履歴情報蓄積手段と、前記クラスタ選択履歴情報蓄積手段に蓄積されている前記クラスタの内容に関する情報および前記クラスタ選択履歴情報を基に、ユーザの探索対象があいまいな状態から明確になった度合いを示す確定度を算出する確定度算出手段と、前記ユーザが選択したクラスタの内容に関する情報のうちから、ユーザの探索対象を推定するための条件を取得する探索対象推定手段と、表示された前記クラスタのうちでユーザが選択しなかったクラスタに含まれる情報であり、かつ、前記探索対象推定手段が取得した条件から推定される情報群に帰属する情報である探索漏れ情報を、ユーザが選択しなかったクラスタから抽出する探索漏れ情報抽出手段と、前記確定度算出手段が算出した確定度が予め定められた閾値以上である場合に、前記探索漏れ情報抽出手段が抽出した前記探索漏れ情報を、ユーザが選択したクラスタに追加する探索漏れ情報追加手段とを備えることを特徴とする。
本構成により、ユーザがクラスタの代表単語を基にクラスタを選択するという特徴を利用して、ユーザの探索対象が確定したか否かの判断とユーザの興味に合った情報の抽出をシステムが自動に行うことで、現在の探索対象外の情報からユーザの興味のある情報を抽出し、現在の探索対象の内容を変更することが可能となる。
以上のように本発明の情報探索支援装置によれば、ユーザに情報を探索するための負担を増加することなく、明確となった探索対象に対して「見落とし」や「取りこぼし」がないように探索対象の情報の数を絞り込むことが可能となる。
図1は、本実施の形態1における情報探索支援装置の構成を示すブロック図である。 図2は、本実施の形態1における情報探索支援装置の動作の主旨を示す図である。 図3は、本実施の形態1の情報探索支援装置がEPG(Electric Program Guide)のデータを利用し、特に明確に見たいと思っている番組がないユーザが大量の番組の中から興味のある番組を見つけることを支援する動作を示すフローチャートである。 図4は、クラスタリング実行部によって決定されたクラスタが出力部より出力される画面例を示す図である。 図5は、クラスタリング実行部によって決定されたクラスタが出力部より出力される場合の他の画面例を示す図である。 図6は、クラスタリング実行部によって決定されたクラスタが出力部より出力される場合のさらに他の画面例を示す図である。 図7は、図4の画面例で再分割が実行されたときに作成され、クラスタ選択情報記憶部に格納される一操作に対するクラスタ選択履歴の具体例を示す図である。 図8は、候補情報記憶部に格納される選択されたクラスタに含まれる番組に関する情報の例を示す図である。 図9は、図7に示されるクラスタ選択履歴の一部の情報をある具体的なシーケンスに対応させて示した図である。 図10(a)及び(b)は、図9で示される具体的操作シーケンスに対応した確定度の算出に必要なデータの具体例を示した図である。 図11は、探索漏れ番組を抽出して再分割の対象に追加したことを表示する出力画面の一例を示す図である。 図12は、探索漏れ番組の追加を行なわずに、図9の操作No.2、クラスタ番号4に属する13番組の中から医療に関する番組を抽出した場合の抽出結果(番組一覧)を示す図である。 図13は、図9の操作No.1及び操作No.2で選択されなかったクラスタの中から医療に関する番組を抽出した結果を示す図である。 図14は、図13に示した8件の医療に関する番組が、どのクラスタに属していたのかを示す情報を図9のクラスタ選択履歴に加えた結果を示す図である。 図15は、本実施の形態2の情報探索支援装置の構成を示すブロック図である。 図16は、本実施の形態2の情報探索支援装置の基本的な動作を表すフローチャートである。 図17は、図9及び図10の操作シーケンスに対応して保存されるデータ例を示す図である。 図18(a)(b)(c)は、ある具体的な操作シーケンスに対応してクラスタ選択情報記憶部に格納される、図7に示される選択情報に関するクラスタ選択履歴の一部の情報を示す図である。 図19(a)(b)(c)は、図18に示したクラスタ選択履歴に対応して、選択された各クラスタのより詳細な内容を示す図である。 図20は、過去のクラスタリングにおいて作成された抽出ベクトルと、次のクラスタリングにおいて作成された抽出ベクトルとの関係を示す図である。
符号の説明
101、1401 入力部
102、1402 テキストコーパス記憶部
103、1403 情報データ作成部
104、1404 情報データ記憶部
105、1405 クラスタリング実行部
106、1406 候補情報記憶部
107、1407 クラスタ選択情報記憶部
108、1408 探索対象推定部
109、1409 探索漏れ情報抽出部
110、1410 探索漏れ情報記憶部
111、1411 確定度算出部
112 探索漏れ情報追加判定部
1412 探索漏れ情報抽出判定部
113、1413 システム仕様記憶部
114、1414 表示方法決定部
115、1415 出力部
116、1416 タイマ
117、1317 制御部
以下本発明の実施の形態について、図面を参照しながら説明する。
(実施の形態1)
図1は本発明の実施の形態1における情報探索支援装置の構成を示すブロック図である。図1において、本実施の形態1の情報探索支援装置は、入力部101、テキストコーパス記憶部102、情報データ作成部103、情報データ記憶部104、クラスタリング実行部105、候補情報記憶部106、クラスタ選択情報記憶部107、探索対象推定部108、探索漏れ情報抽出部109、探索漏れ情報記憶部110、確定度算出部111、探索漏れ情報追加判定部112、システム仕様記憶部113、表示方法決定部114、出力部115、タイマ116、および制御部117を備える。入力部101はキーボードやマウス、リモコンなどユーザからの入力を受け付ける。テキストコーパス記憶部102は情報探索の対象に関するテキストコーパスを格納している。情報データ作成部103は対象情報をテキストコーパス記憶部102に記憶されたテキストコーパスから、情報探索支援に必要なデータ形式に変更する。情報データ記憶部104は情報データ作成部103で作成されたデータを格納する。クラスタリング実行部105は初期状態では全体の探索領域を対象に、情報探索時にはユーザが選択した探索領域を対象にクラスタリングを行う。候補情報記憶部106は、選択されたクラスタに含まれる情報又は選択されたクラスタに含まれる情報を特定するための識別情報を格納する。クラスタ選択情報記憶部107は、「各クラスタの内容に関する情報と、ユーザがどのクラスタを選択したかを示すクラスタ選択履歴情報とを蓄積するクラスタ選択履歴情報蓄積手段」の一例であり、ユーザの選択に関する情報を格納する。探索対象推定部108は、「前記ユーザが選択したクラスタの内容に関する情報のうちから、ユーザの探索対象を推定するための条件を取得する探索対象推定手段」の一例であり、クラスタ選択情報記憶部107に格納されるユーザのクラスタ選択情報からユーザの探索対象を推定するための条件を取得する。探索漏れ情報抽出部109は「表示された前記クラスタのうちでユーザが選択しなかったクラスタに含まれる情報であり、かつ、前記探索対象推定手段が取得した条件から推定される情報群に帰属する情報である探索漏れ情報を、ユーザが選択しなかったクラスタから抽出する探索漏れ情報抽出手段」の一例であり、前記探索対象に含まれる情報のうち候補情報記憶部106に格納されていない探索漏れ情報を抽出する。探索漏れ情報記憶部110は前記探索漏れ情報抽出部109で抽出した探索漏れ情報を格納する。確定度算出部111は「前記クラスタ選択履歴情報蓄積手段に蓄積されている前記クラスタの内容に関する情報および前記クラスタ選択履歴情報を基に、ユーザの探索対象があいまいな状態から明確になった度合いを示す確定度を算出する確定度算出手段」の一例であり、前記推定された探索対象の確定度を計算する。探索漏れ情報追加判定部112は「前記確定度算出手段が算出した確定度が予め定められた閾値以上である場合に、前記探索漏れ情報抽出手段が抽出した前記探索漏れ情報を、ユーザが選択したクラスタに追加する探索漏れ情報追加手段」の一例であり、前記確定度算出部111で計算した確定度に基づき、前記探索漏れ情報を候補情報に追加するかどうかの判断を行う。システム仕様記憶部113はシステムの状態遷移や画面仕様などを格納する。表示方法決定部114は出力部115に出力する画面情報や音声情報を決定する。出力部115はディスプレイ等によりクラスタの表示および情報の一覧表示などを行うとともに、スピーカなどにより音声による操作の案内などを行う。タイマ116は、時刻を計測する。制御部117は上記の情報データ作成部103、クラスタリング実行部105、探索対象推定部108、探索漏れ情報抽出部109、確定度算出部111、探索漏れ情報追加判定部112および表示方法決定部114を内部に備え、これら各処理部による取りこぼし情報抽出に関する全般的な制御を行う。
前記のように構成された情報探索支援装置の動作概略について図2を用いて説明する。
図2は、実施の形態1における情報探索支援装置の動作の主旨を示す図である。本実施の形態1で説明する情報探索支援装置では漠然とした探索要求しか持たないユーザが提示された複数のクラスタの中から少なくとも1つの興味あるクラスタを選択し、システムはそのクラスタをまとめて再度クラスタリングを行い、より細かいクラスタに分割してユーザに示すことで、ユーザの興味範囲の絞り込みを支援し、ユーザが興味を持つ情報を提供する。しかし、ユーザの漠然とした興味が明確になったとき、これまで選択しなかったクラスタの中にユーザの興味のある情報が存在する可能性がある。そこで、本情報探索支援装置では、ユーザの選択履歴から興味が明確になったことを自動的に判断し、ユーザの興味が明確になったと判断した時点で、これまでの探索では興味が明確でなかったために取りこぼしてきた情報をこれまでの探索時に選択しなかったクラスタの中から抽出し、現在選択されている情報集合に追加する。この動作によりユーザの興味を持った情報を漏れ少なくユーザに提示することが可能となる。
以下、詳細な動作の一例について図3のフローチャートを参照しながら説明する。なお図3は、本実施の形態1の情報探索支援装置がEPG(Electric Program Guide)のデータを利用し、特に明確に見たいと思っている番組がないユーザが大量の番組の中から興味のある番組を見つけることを支援する動作を示すフローチャートである。
本実施の形態1では、ユーザがクラスタを選択して更なるクラスタリングを指示する都度、ユーザによる選択の履歴を示す選択情報から探索対象推定部108がユーザの探索対象の推定条件の取得を行い、探索漏れ情報を抽出する例について説明する。この探索漏れ情報は、推定された探索対象に類似するにもかかわらず、選択されたクラスタに含まれなかった情報を指す。これにおいて、抽出された探索漏れ情報は、確定度算出部111が算出した前記推定結果の確定度が一定値を超えたとき、探索漏れ情報追加判定部112によりユーザの探索対象が曖昧な状態から明確になったと判定され、その結果、現在の探索対象に加えられる。
まず、ステップS201において、情報データ作成部103はテキストコーパス記憶部102に記憶されているEPGデータ、すなわち各番組に関する構造化されたテキストデータを取得する。そして、番組のクラスタリングや探索漏れ番組の抽出に利用する単語(以後、索引語と記述)を決定し、索引語が各番組の説明テキスト(以後単に、各文書と記述)にどのくらい含まれるか等、索引語と文書の関係を計算し、情報データ記憶部104に格納する。より具体的には、情報データ作成部103は、各索引語が各文書でどのくらい出現したかを表すTF値(Term Frequency)、索引語が出現する文書数を表すDF値(Document Frequency)、およびDF値を基にしたIDF値(Inverse Document Frequency)などを計算し、計算結果を情報データ記憶部104に格納する。さらに、情報データ作成部103は、これらの値を利用して索引語と文書との関係を行列で表現した索引語・文書行列を作成し、情報データ記憶部104に格納する。
ここで、各番組の説明テキストとしては、例えば、通常のEPGデータには各番組について「ジャンル」「タイトル」「詳細内容」がテキスト情報として存在するため、これらを合わせたものを各番組に対する説明テキスト(文書)として利用する。また、索引語の決定方法としては各文書を形態素解析し、特定の品詞の単語を索引語としてもよいし、固有名詞抽出技術を用いて、抽出された固有名詞を利用してもよい。
ステップS202において、クラスタリング実行部105は情報データ作成部103によって作成された索引語・文書行列を用いてクラスタリングを行う。クラスタリングの手法としては既存の方法を利用する。例えば階層的クラスタリングであるウォード法を利用してもよいし非階層的クラスタリングであるk−means法を利用してもよい。共に前記索引語・文書行列から各文書をベクトル表現し、文書ベクトル空間で距離計算を行うことでクラスタリングを行う。
次にクラスタリング実行部105は作成した各クラスタの代表番組と代表単語を決定する。クラスタの代表番組の決定方法としては、例えば各クラスタの文書ベクトルに対する重心ベクトルを求め、その重心から近い距離にある番組を代表番組とする。また、各クラスタの代表単語としては、前記各クラスタに対する重心ベクトルの成分が大きな索引語を代表単語としてもよいし、各クラスタの文書のTF値やDF値が大きな単語を代表単語としてもよい。
クラスタリング実行部105で決定されたクラスタリング結果は候補情報記憶部106とクラスタ選択情報記憶部107に格納されると共に、表示方法決定部114に出力される。
ステップS203において、表示方法決定部114は、システム仕様記憶部113に記憶されている画面仕様に基づいてクラスタリング結果を出力部115に出力する。図4は、クラスタリング実行部105によって決定されたクラスタが出力部115より出力される画面例を示す図である。ここで、301の欄は各クラスタの代表単語を表している。この欄には、例えば、そのクラスタの具体的な代表単語が「単語1」、「単語2」、・・・、「単語5」のように列記される。302の欄はクラスタの代表番組を表している。この欄には、クラスタに含まれる各番組に対する重心ベクトルで示される重心から最も近い距離にある、例えば、上位5個の番組が、このクラスタの代表番組として表示される。代表番組は、例えば、「1.番組名2−1」、「2.番組名2−2」、・・・、「5.番組名2−5」のように具体的な番組名で列記される。303の欄は各クラスタに含まれている番組の数を表す。304の欄は、ユーザがクラスタを選択したか否かを示すチェックを入れるためのチェックボックスである。例えば、チェックボックスにチェックが入れられていれば、そのクラスタは選択されており、チェックボックスにチェックが入れられていなければ、そのクラスタは選択されていないことを示している。305の再分割ボタンは、ユーザがチェックボックスにチェックを入れることによって選択したクラスタに対して、再度クラスタリングを行い、絞込みを行う処理の実行(以後単に、再分割を行うと記述)を情報探索支援装置に指示するボタンである。306の番組一覧ボタンは、ユーザがチェックボックスにチェックを入れることによって選択したクラスタの番組一覧を表示する画面へ遷移するためのボタンである。ユーザによってこのボタンが押された場合、例えば、図4のように、2つのクラスタにチェックボックスにチェックが入れられている場合には、それら2つのクラスタに含まれている全番組が一覧表示される。307の矢印のボタンは、前の選択状態へ戻ったり、先の選択状態へ進んだりすることを指示するためのボタンである。なお、これらの各ボタンを押したときの動作や表示される項目については、図4に示した例に限らず、システム仕様記憶部113に記憶されている定義に基づく。
また、本実施の形態では図4に示すように、代表番組と代表単語を5つずつ表示しているが、代表番組及び代表単語はいくつ出してもよい。さらに各クラスタについて代表番組だけを表示するのではなく、全ての番組をリスト表示にしてもよい。図5は、クラスタリング実行部105によって決定されたクラスタが出力部115より出力される場合の他の画面例を示す図である。また、例えば、画面が小さい場合は図5のように各クラスタにつき、代表番組は出さずに代表単語のみを表示してもよい。図5で、401の欄はクラスタの代表単語を示しており、402の欄はクラスタに含まれる番組の数を示しており、403はチェックを入れることによりクラスタの選択/非選択を示すチェックボックスを示している。404の再分割ボタン、405の番組一覧ボタンは、いずれも図4で説明した305の再分割ボタン、306の番組一覧ボタンと同じである。406の十字ボタンは、カーソル移動キーであり、左方向を示す三角形のボタン(戻る)を押すと前の画面に戻り、右方向を示す三角形のボタン(進む)を押すと次の画面に進む。上下の三角形のボタンを押すと、各クラスタのチェックボックス上をカーソルが上下に移動し、カーソルが止まった位置で中央の丸い選択ボタンを押すとカーソルの位置のチェックボックスにチェックが入れられる。図6は、クラスタリング実行部105によって決定されたクラスタが出力部115より出力される場合のさらに他の画面例を示す図である。また、例えば図6の502のように、代表番組を表示する代わりに、一定時間間隔でクラスタ内の異なる番組の映像の一部やサムネイルを対応する番組名と共に表示しても良い。
なお、最終的にユーザが視聴する番組の選択方法としては、本実施の形態ではユーザが選択したクラスタの番組一覧ボタン306を選択し、番組一覧を見た上でその中から1つをユーザが選択する仕様を想定したが、図4の代表番組302の番組を直接指定して番組を選択する仕様でもよい。
本実施の形態では、図4、図5及び図6のような上記階層構造のメニュー画面から、ユーザが番組の選択を行う場合を例として、図3を参照しながら情報探索支援装置の動作を説明する。
ステップS204において、制御部117は入力部101より入力されたユーザの指示についての判断を行う。もし、ユーザによって再分割ボタンが押されたのでない場合、ステップS205の処理へ進む。ステップS205では、ステップS204の操作で番組一覧ボタンが押されたかもしくは終了の指示が入力されたかの判断を行い、番組一覧ボタンが押されたか終了の指示が入力されたのであれば、その処理を行う。一方、ステップS204の操作で「戻る」や「進む」の操作が行われていた場合、ステップS206において、制御部117はクラスタ選択情報記憶部107から必要な情報を取得し、その処理を実行してステップS204に戻る。ステップS204において、ユーザの入力が再分割の指示である場合はステップS207の処理へ進む。
また、ステップS204では、制御部117が判定したユーザの入力及びシステムの状態をクラスタ選択情報記憶部107に格納すると共に、選択されたクラスタに含まれる番組を候補情報記憶部106に格納する。図7は、図4の画面例で再分割が実行されたときに作成され、クラスタ選択情報記憶部107に格納される一操作に対するクラスタ選択履歴の具体例を示す図である。クラスタ選択情報記憶部107は、「各クラスタの内容に関する情報として、選択されたクラスタに含まれる情報の数、表示されたクラスタのうちから選択されたクラスタの数、探索対象の情報の内容を表す文書のうち選択されたクラスタを代表する代表単語を含む文書の数のいずれかを蓄積する前記クラスタ選択履歴情報蓄積手段」の一例である。図7において項目601は操作No.を示しており、操作No.には、例えば、ユーザがコマンドを入力した操作のシリアル番号が記述される。コマンドの入力は、例えば、ユーザが図4のメニュー画面に表示された再分割ボタン305や番組一覧ボタン306などのボタンを押すことにより行われる。項目602は画面表示開始時間を示しており、例えば、図4のメニュー画面を表示した時刻が記述される。項目603はこの操作で入力されたコマンドのコマンド名を示しており、例えば、再分割ボタン305が押されることによって入力されたコマンドのコマンド名「再分割」などが記述される。項目604は項目603のコマンド名で示されるコマンドが実行された時刻を示している。項目605は全てのクラスタに含まれる番組の総数を示している。項目606はクラスタ番号を示し、例えば、クラスタのシリアル番号が記述される。項目607はクラスタが選択されたか否かを示す選択・非選択情報を示している。項目608は各クラスタに含まれる番組の数を示している。また、項目609は各クラスタの代表単語を示している。項目610は各クラスタに含まれる代表番組を示している。図8は、候補情報記憶部106に格納される選択されたクラスタに含まれる番組に関する情報の例を示す図である。項目701にはあらかじめ番組固有に付与された番組番号が記述される。また、項目702には番組名が記述される。さらに、項目703には番組内容が記述される。この番組内容には、例えば、EPGデータの詳細内容などが用いられる。なお、ここでは、前記3つの項目に関する情報を候補情報記憶部106に格納したが、候補情報記憶部106には単に番組番号701のみを格納しておいてもよい。そして、番組一覧などを最終的に表示する段階になってから、前記格納した番組番号をキーとして、各番組の情報が構造化されて蓄積されているテキストコーパス記憶部102を検索し、各番組の詳細情報(例えば、番組名及び詳細内容など)を取得するとしても良い。
以下、再び図3を参照して、ステップS207からステップS211で行われる探索漏れ情報の追加方法について、図9に示す具体的なクラスタ選択履歴を例にして説明する。図9は図7に示されるクラスタ選択履歴の一部の情報をある具体的なシーケンスに対応させて示した図である。
なお、再分割の対象に選択されなかったクラスタに含まれる探索対象に類似した情報である探索漏れ情報の追加が必要となるのは、ユーザの探索対象が曖昧な状態から明確な状態になったときである。従って、ユーザの探索対象がどのぐらい明確になったかを表すため、その明確度合いを確定度として定量化する。この確定度はユーザが選択したクラスタがどれくらい絞り込まれた領域なのか、または先ほどまでの選択からどのくらい絞られたのかという情報を基に定量化する。ここで、確定度算出部111は「前記クラスタ選択履歴情報蓄積手段に蓄積されている、クラスタの内容に関するいずれかの情報について、その数が小さくなるほど前記確定度が大きくなる規則に従って、前記確定度を算出する前記確定度算出手段」の一例である。確定度算出部111は、この確定度の計算に利用する情報として、ユーザが選択したクラスタの選択数、代表単語のDF値、代表番組の数及びその変化量が利用可能である。これはクラスタ選択数が減れば減るほどユーザの探索対象は明確であり、代表単語のDF値が小さくなればなるほどより少ない番組に関連した単語を選んでいるのでユーザの探索対象は明確であり、代表番組の数が減れば減るほどクラスタはより狭い領域となるので、ユーザの探索対象は明確であるという考えに基づく。
ステップS207において、探索対象推定部108は「前記条件として、選択されたクラスタを代表する代表単語を取得する前記探索対象推定手段」の一例であり、クラスタ選択情報記憶部107に格納されるユーザのクラスタ選択を基にユーザの探索対象を推定するための条件を取得する。ここではユーザが選択したクラスタの代表単語を抽出し、それをユーザの探索対象を推定するための条件とする。なお、ここでは、ユーザが選択したクラスタの代表単語をユーザの探索対象を推定するための条件としたが、表示情報として、図4のようにクラスタ毎にそのクラスタに含まれる番組名も表示している場合、番組名に含まれる単語も合わせてユーザの探索対象を推定するための条件としても良いし、出力画面には表示されてはいないが、クラスタに含まれる番組の情報において利用されている単語の中からクラスタとの関連が強い単語をTF値やDF値、IDF値などを利用してユーザの探索対象を推定するための条件としても良い。
なお、「前記出力画面には表示されていないが、クラスタに含まれる番組の情報」とは、図4の例でいうと、表示されている5つの代表番組以外の番組のタイトルや番組内容に含まれる単語である。
ステップS208において、探索漏れ情報抽出部109は「前記探索対象推定手段が取得した前記代表単語から得られるベクトルを用いて、ユーザが選択しなかったクラスタに含まれる前記情報から前記探索漏れ情報を抽出するための抽出ベクトルを作成する前記探索漏れ情報抽出手段」の一例であり、探索漏れ番組の抽出に利用するベクトル(以後単に、抽出ベクトル)の作成を行う。この抽出ベクトルはステップS207で求めたユーザの探索対象クラスタの代表単語のベクトルを前記索引語・文書行列から作成し、それらの和を求めることで作成する。
次に探索漏れ情報抽出部109は作成された前記抽出ベクトルを用いて非選択のクラスタに含まれる番組領域から探索漏れ番組の抽出を行う。具体的には索引語・文書行列から非選択のクラスタに含まれる番組に対するベクトルを作成し、前記抽出ベクトルとの距離を計算し、閾値以上の距離を持つ番組を探索漏れ番組として抽出する。
なお、抽出する探索漏れ番組の数は閾値により決定するのではなく、現在の選択クラスタ内の番組数や現在の全対象番組数に応じて決定してもよい。例えば、抽出する数は現在の選択クラスタ内の番組数の半分以下にしてもよい。この範囲の限定は、予め決めた一定値により決定してもよいし、これまでの番組数の変化に応じて決定してもよい。例えば、常に半分以下に絞り込みを行っているユーザに対しては、変化量として半分以上にならないように制御する。この制御により、絞込みを行ったのに探索漏れ番組の抽出により絞り込む前より絞り込んだ結果の番組数が増えてしまうということを防ぐことが可能となる。
次に探索漏れ情報抽出部109は抽出された探索漏れ番組を探索漏れ情報記憶部110に格納する。格納する情報としては、図8で示した前記候補情報記憶部106に格納される選択されたクラスタに含まれる番組と同様の情報、例えば、番組番号、番組名及び番組内容などを格納する。
ステップS209において、確定度算出部111は、ステップS207で推定されたユーザの探索対象の確定度を、クラスタ選択情報記憶部107に記憶された情報を基に算出する。まず、確定度算出部111は確定度を求めるために必要なデータをクラスタ選択情報記憶部107から取得して計算し、その結果をクラスタ選択情報記憶部107に格納する。図10(a)及び図10(b)は、図9で示される具体的操作シーケンスに対応した確定度の算出に必要なデータの具体例を示した図である。図10(a)及び図10(b)において、項目901は操作No.を示す。項目902は、現在選択されているクラスタに含まれる対象番組の数と、前回選択されていたクラスタに含まれる対象番組の数からの番組数の変化量とを示している。項目903は、現在選択されているクラスタの数と、前回選択されたクラスタの数からの選択されたクラスタの数の変化量とを示している。項目904及び項目905は、それぞれ、選択されたクラスタに含まれる代表単語及びその代表単語のDF値を示している。項目906は項目904に示された代表単語のDF値(項目905)の総和と、前回の選択クラスタに含まれていた代表単語のDF値の総和からの代表単語のDF値の総和の変化量を示している。項目907は、項目904に示された代表単語のDF値(項目905)の平均値と、前回の選択クラスタに含まれる代表単語のDF値の平均値からの平均値の変化量とを示している。項目910は、後述の確定度を示している。
なお、ここでは、項目902の対象番組数の変化量として、前回対象番組数から今回対象番組数を引き、その結果を今回対象番組で割った値を用いた。他の項目における変化量は対象値に対する前回値から今回値を引いた値を用いた。すなわち、計算式は、以下の通りである。
(対象番組数の変化量)=[(前回対象番組数)−(今回対象番組数)]/(今回対象番組数)
次に確定度算出部111は確定度を計算する。確定度は前記のようにユーザの探索対象が明確になると共に変化する情報を用いて定量化する。本実施の形態ではDF値の平均値の逆数×100を確定度として利用する。すなわち、計算式は、以下の通りである。
(確定度)=100/(DF値の平均値)
ステップS210において、探索漏れ情報追加判定部112は、ステップS209で計算された確定度を用いてユーザの探索対象が明確になったか否かの判断を行う。すなわち、前記DF値を用いて定義された確定度が閾値以上になったとき、ユーザの探索対象が明確になったと判定する。より具体的には、前記閾値を5.0とすると、図10(a)に示すように、システムが操作No.1の状態のとき、確定度は1.8であり閾値より小さな値である。従って、探索漏れ情報追加判定部112は、ユーザの探索対象はまだ明確でないと判断し、探索漏れ情報の追加は行わずにステップS201へ進む。一方、システムが図10(b)に示すように、操作No.2の状態のときは、確定度は9.6であり、閾値5.0より大きな値であるので、探索漏れ情報追加判定部112はユーザの探索対象が明確になったと判定し、ステップS211へ進む。なお、今回確定度として利用したDF値の閾値はシステム開発者が対象情報の総数とDF値の分布から決定しても良いし、ユーザ評価実験を行い、ユーザの絞込み領域が明確になった時点のDF値の分布を調べることで決定しても良い。
ステップS211において、探索漏れ情報追加判定部112は、ステップS204で候補情報記憶部106に格納された選択されたクラスタに含まれる番組に加え、ステップS208で探索漏れ情報記憶部110に格納された探索漏れ番組を追加した上、ステップS201へ進み、ステップS202でクラスタリングの処理を実行する。
なお、探索漏れ番組を追加する際に、表示方法決定部114は探索漏れ番組を追加したという情報を表示画面に出力しても良い。理由は、ユーザが情報の絞り込みを行っているにもかかわらず、探索漏れ番組が自動的に追加されることによって、情報の数が増加するために、ユーザが違和感を持つ可能性があるからである。図11は、探索漏れ番組を抽出して再分割の対象に追加したことを表示する出力画面の一例を示す図である。具体的には図11に示すように、出力画面に探索漏れ番組の抽出を行ったこと(項目1007)と、どのような単語に関する番組を抽出したのかという情報(項目1008)を出力しても良い。
また、ユーザの探索対象が明確になったという判断が行なわれた際に、より具体的な番組の理解と番組へのアクセスを容易にするため、ユーザの探索対象が明確になったと判断されるまでは、図5及び図6のような具体的な番組を列記して表示しない出力画面を出力し、ユーザの探索対象が明確になったと判断された後は図4のような具体的な番組を列記して表示する出力画面を出力しても良い。
ここで、図9の操作No.2において、ユーザの探索対象が医療に関するものに絞り込まれたとするとき、探索漏れ番組の追加を行わなかった場合の番組一覧と、探索漏れ番組の追加を行なった場合の番組一覧との相違について説明する。すなわち、上記処理による探索漏れ番組の抽出結果の例について述べる。
図12は、探索漏れ番組の追加を行なわずに、図9の操作No.2、クラスタ番号4に属する13番組の中から医療に関する番組を抽出した場合の抽出結果(番組一覧)を示す図である。ここで、項目1101は番組番号、項目1102は番組名、項目1103は番組内容を示す。ユーザの絞込みが明確に医療関係になったとき、ユーザが選択したクラスタ4に属する番組は13件であり、クラスタ4の代表単語は「あした、職人、医療、治療、地域」である。そのうち、医療に関係する番組は2件であった。この2件を図12に示している。この場合、操作No.1および操作No.2で、選択されていないクラスタに含まれている探索漏れ番組を追加していないので、この2件は、従来の手法による結果と同様である。
図13は、図9の操作No.1及び操作No.2で選択されなかったクラスタの中から医療に関する番組を抽出した結果を示す図である。ここで、項目1201は番組番号を示し、項目1202は番組名を示している。さらに、項目1203は番組内容を示している。このように、選択されなかったクラスタの中から探索漏れ番組の抽出を行った結果、図12に示した2件に加えて、さらに、8件の医療に関する番組が抽出された。
図14は、図13に示した8件の医療に関する番組が、どのクラスタに属していたのかを示す情報を図9のクラスタ選択履歴に加えた結果を示す図である。図14に示すように、システムが操作No.1の状態のとき、ユーザが選択しなかったクラスタ3に番組番号281の番組が1件含まれており、システムが操作No.2の状態のとき、ユーザが選択しなかったクラスタ2に番組番号482、19、16、499及び30の番組5件と、クラスタ3に番組番号95及び62の番組2件とが含まれていることが分かる。このように、本実施の形態の情報探索支援装置によれば、選択されていないクラスタに探索漏れ番組が存在している場合であっても、それを抽出できている。ここで、図14の操作No.2の非選択クラスタであるクラスタ2が最も医療に関する番組を取りこぼしていることが分かる。これは、このクラスタの代表単語のうち「生活」「社会・報道」などは医療と関係がありそうな単語であるため、このクラスタが医療に関する番組を含むであろうということはユーザに理解できるが、直接医療に関する単語が代表単語に含まれていないため見落としてまったと考えられる。
このように上記の動作により、本実施の形態の情報探索支援装置は、ユーザの選択情報(クラスタ選択履歴)からユーザの探索対象を推定し、ユーザが選択しなかったクラスタの中からユーザの探索対象と推定される探索漏れ情報を抽出すると共に、ユーザの探索対象が明確になったか否かを表す確定度を確定度算出部111が算出する。さらに、算出された確定度に応じて、探索漏れ情報抽出部109が抽出した番組を選択対象の番組に加え、さらにクラスタリングすることが可能となる。このため、ユーザは、探索対象が明確になったことを情報探索支援装置に通知する必要もなく、一貫した探索操作を行なうだけで、情報探索支援装置が自動的にユーザの探索対象が明確になったことを判断することができる。これによって、ユーザの操作負担を増加させることなく、しかもユーザが興味を持った番組の「見落とし」や「取りこぼし」を低減し、ユーザの興味に一致する情報をより正確に探索及び提示することができるという効果がある。
また、本実施の形態の情報探索支援装置は、ユーザの探索対象が明確か否かを表す確定度を常に算出しているために、ユーザの興味が番組探索中に変化した場合でも、探索漏れの番組を追加することができるので、ユーザの興味対象の動的な変化にも対応できるという効果がある。
なお、上記実施の形態1では、図9の操作No.2においてユーザの興味が医療関係に絞り込まれたとき、ユーザは、「医療」という代表単語を含むクラスタ4を選択して、選択されたクラスタに含まれる番組一覧を表示させる。このとき、探索漏れ情報抽出部109が抽出した探索漏れ番組が追加されて番組一覧が表示される。これによってユーザは番組一覧の中から医療に関する所望の番組を選択することになる。しかし、本発明はこれに限定されず、例えば、ユーザの興味が医療関係に絞り込まれたとき、ユーザは、クラスタ4に表示されている代表単語の中から「医療」を選択することによって、クラスタ4及び非選択クラスタの中から「医療」という単語を含む番組を抽出するとしてもよい。本発明においては、ユーザの探索対象と推定される探索漏れ情報を抽出し、クラスタに加えるため、その代表単語は本処理を行わない場合に比べ、よりユーザの興味に一致した代表単語が表示される。よって代表単語を用いてキーワード検索を行う際においてもユーザの興味に一致した検索を行うことができる効果を有する。
(実施の形態2)
上記実施の形態1では、ユーザの探索対象が明確化したか否かを、選択クラスタがどれくらい絞られた領域になったかという情報(選択されたクラスタの代表単語のDF値)を基に判断し、明確化したと判断すれば、クラスタ選択の度に抽出しておいた探索漏れ番組を次のクラスタリングまたは一覧表示の対象となる候補番組に加えることで、ユーザの興味に応じた探索漏れ番組の追加を実現した。
以下、本実施の形態2では、探索漏れ番組を毎回抽出するのではなく、ユーザの探索対象の確定度が閾値以上になったときのみ、探索漏れ番組の抽出を行う方法について述べる。これはユーザの興味の対象が明確になったか否かの判断を行い、明確になったと判断されたときのみ探索漏れ番組の抽出を行うということである。さらに本実施の形態2では、探索漏れ情報抽出方法において、抽出結果に明確になったユーザの探索対象以外の番組が入らないように、各単語に重要度を示す重みを付けてベクトルの作成を行う方法について述べる。
図15は、本実施の形態2の情報探索支援装置の構成を示すブロック図であり、図16は、本実施の形態2の情報探索支援装置の基本的な動作を表すフローチャートである。ここで、本実施の形態2の情報探索支援装置は図1の探索漏れ情報追加判定部112を図15の探索漏れ情報抽出判定部1412に変更し、図3のステップS207からステップS211を図16のステップS1507からステップS1512に変更したのみであり、他は実施の形態1と同一である。従って本実施の形態2においては、実施の形態1との相違点を中心に説明する。
以下、図16のステップS1507からステップS1512で行われる探索漏れ情報の抽出・追加処理について、上記実施の形態1と同様に図9に示す具体的なクラスタ選択履歴を例にして説明する。ここで、図9は図7に示されるクラスタ選択履歴の一部の情報をある具体的なシーケンスに対応させて示したものである。
ステップS1507において、探索対象推定部1408はクラスタ選択情報記憶部1407に格納されているユーザのクラスタ選択を基に、ユーザの探索対象の推定を行う。ここでは上記実施の形態1と同様にユーザが選択したクラスタに関係のある単語を抽出し、それを用いてユーザの探索対象を推定する。
ステップS1508において、確定度算出部1411は前記ステップS1507で推定されたユーザの探索対象の確定度をクラスタ選択情報記憶部1407に記憶された情報を基に決定する。この確定度は実施の形態1と同様の方法で計算する。
ステップS1509において、探索漏れ情報抽出判定部1412はステップS1508で計算された確定度を基に、探索漏れ情報の抽出を行うか否かの判定を行う。具体的には確定度が閾値を超えるとユーザの探索対象が明確になったと判断し、探索漏れ情報の抽出を行うと判定する。例えば、前記閾値を5.0とすると、システムが図10(a)の操作No.1の状態のとき、確定度は1.8であり閾値より小さな値であるので、ユーザの探索対象は明確でないと判断し、探索漏れ情報の抽出は行わずにステップS1501へ進む。一方、システムが図10(b)の操作No.2の状態のときは、確定度は9.6であり、閾値5.0より大きな値であるので、探索漏れ情報抽出判定部1412はユーザの探索対象が明確になったと判定し、ステップS1510へ進む。
ステップS1510において、探索漏れ情報抽出部1409は探索漏れ情報の抽出に利用するベクトル(以後単に抽出ベクトル)の作成を行う。この抽出ベクトルは、ユーザの探索対象が明確になったと判断されたときに選択されていたクラスタの代表単語、即ち探索対象推定部1408で獲得した代表単語のベクトルを前記索引語・文書行列から作成し、それらの和を求めることで作成する。なお、表示情報として、図4のようにクラスタ毎にそのクラスタに含まれる代表番組名も表示している場合は番組名に含まれる単語を利用して抽出ベクトルを作成しても良いし、出力画面には表示されてはいないが、クラスタに含まれる番組の情報において利用されている単語の中からクラスタとの関連が強い単語をTF値やDF値、IDF値などを利用して抽出ベクトルを作成しても良い。
なお、「前記出力画面には表示されていないが、クラスタに含まれる番組の情報」とは、図4の例でいうと、表示されている5つの代表番組以外の番組のタイトルや番組内容に含まれる単語である。
作成された抽出ベクトルはステップS1509での判定結果と共にクラスタ選択情報記憶部1407に保存される。図17は、図9及び図10の操作シーケンスに対応して保存されるデータ例を示す図である。項目1601は操作No.であり、項目1602はステップS1509で行われる探索漏れ情報抽出判定部1412による探索漏れ情報抽出判定の結果であり、項目1603は作成された抽出ベクトルであり、項目1604は過去に作成された抽出ベクトルとの距離をいつ(どの操作No.のときに)作成された抽出ベクトルとの距離かの情報も含めて格納したものである。図17に示すように、項目1601が操作No.1のときでは、確定度(1.8)が閾値(5.0)より小さい値であるので、項目1602、項目1603及び項目1604のいずれにもデータがない。これに対し、操作No.2のときでは、確定度(9.6)が閾値(5.0)以上であるので、項目1602には「確定度は閾値以上」という探索漏れ情報抽出判定結果が記述され、項目1603には「(・・・)」という抽出ベクトルが記述される。また、例えば、操作No.2の状態でさらに再分割が行なわれた場合には、操作No.3で項目1602には「確定度は閾値以上」という探索漏れ情報抽出判定結果が記述され、項目1603には「(・・・)」という抽出ベクトルが記述される。さらに、項目1604には過去抽出ベクトルとの距離として、過去抽出ベクトルの操作No.である「2」と、操作No.2の項目1603の抽出ベクトル「(・・・)」と操作No.3の項目1603の抽出ベクトル「(・・・)」との距離である「0.7」とが記述される。
なお、ここで、探索漏れ情報抽出部1409が抽出ベクトルを作成する際には、探索漏れ情報の抽出結果に、明確になったユーザの探索対象以外の番組が入らないように、各単語に重要度を示す重みを付けてベクトルの作成を行う。探索漏れ情報抽出部1409は、「探索漏れ情報の抽出に利用する代表単語の重要度を決定し、前記重要度は、前記代表単語が出現する探索対象の情報の内容を表す文書の数が小さくなるほど重要であると決定し、決定した重要度に応じた重み付けをした代表単語から抽出ベクトルを作成する前記探索漏れ情報抽出手段」の一例である。この単語の重要度はユーザの探索対象が明確になったという判断がされているため、多くの番組と関係する単語ほど重要度が小さな値になるようにクラスタの代表単語のDF値の逆数を利用する。例えば、システムが図10(b)に示す操作No.2の状態において、探索漏れ番組を抽出する際には、単語「あした」にはα・(1÷9)を、単語「地域」にはα・(1÷16)を重要度とする(αは定数)。この方法により多くの番組に関係する単語の影響が少なくなるため、抽出結果が大量になってしまうのを防ぐことができる。
さらに、上記選択クラスタの代表単語のみではなく、これまで選択してこなかったクラスタの代表単語(以後単に、非選択クラスタの代表単語と記述)を利用してもよい。具体的には、非選択クラスタの代表単語に関してもベクトル化し、選択されたクラスタの代表単語と足して抽出ベクトルを作成する。但し、非選択クラスタの代表単語はユーザが興味を持たなかった単語であるので、その重要度は負とする。ここで、非選択クラスタの代表単語では、具体的番組が明確であるDF値が低い単語ほど負の値が大きくなるように、DF値の値に反比例した負の重要度を設定する。また、情報探索開始から全ての非選択クラスタの代表単語を利用してもよいし、現在から一定回前までの非選択クラスタ代表単語を利用してもよい。
また、代表単語の種類によって重要度の決定を行ってもよい。代表単語の種類とはEPG等でタグ付けされている単語の種類であり、例えば「人物名」「ジャンル」などであり、「ジャンル」の場合はさらに「大ジャンル」「中ジャンル」「小ジャンル」などに分かれている。重要度としては、上記DF値を利用した場合と同様の考え方でユーザの探索対象が明確になったとして「大ジャンル」「中ジャンル」「小ジャンル」の順に重要度は大きくなるように設定する。一方、「人物名」はDF値に関わらず番組の内容をある程度明確に想像することが可能であるという性質を持つので、DF値に関わらず大きな値に設定する。例えば、上記DF値を用いた重要度計算方法において、代表単語の中で最も高い値と同値を「人物名」には付与する。非選択クラスタ代表単語に関しては上記選択代表単語と逆の考え方で「大ジャンル」「中ジャンル」「小ジャンル」の順に負の値を大きくし、「人物名」に関しても非選択単語の中で最も小さな値(負の値が大きい)を付与する。
ステップS1511おいて、探索漏れ情報抽出部1409はこれまで作成した抽出ベクトルと現操作No.で作成された抽出ベクトルとの距離を計算し、クラスタ選択情報記憶部1407に保存する(図17の項目1604)。そして、両ベクトルの距離が閾値以上である場合、既にこの単語集合による探索漏れ番組の抽出は既に行われていると判断し、ステップS1501に進み、探索漏れ番組の抽出は行わない。一方、ステップS1511の判定において、両ベクトルの距離が閾値より小さい場合、ステップS1512へ進み探索漏れ番組の抽出を行う。例えばステップS1511の判定において、両ベクトルの距離の閾値を0.5とした場合、図17の操作No.2の抽出ベクトルと操作No.3の抽出ベクトルの距離は0.7であり閾値よりも大きいため、図17の操作No.2の抽出ベクトルと操作No.3の抽出ベクトルは近いと判断され、操作No.3においては探索漏れ番組の抽出を行わない。なお、これまでに作成した探索漏れ番組の抽出に使用したベクトルが複数ある場合、最も距離が近いベクトルとの差をこの判断に利用する。なお、仮に両ベクトルの距離が0.5より小さい場合には、操作No.2の抽出ベクトルと操作No.3の抽出ベクトルは遠いと判断されるため、操作No.3において探索漏れ番組の抽出を行う。このように、操作ごとに探索漏れ番組の抽出を行なうか行なわないかを判断して、探索漏れ番組の抽出を行なうため、操作No.2と操作No.3との間で探索対象が変化した場合には、探索漏れを抽出し、操作No.2と操作No.3との間で探索対象が変化していない場合には、DF値や番組数がある一定以下に少なくなっても探索漏れを抽出しないようにすることが可能となる。以上のような動作によって、探索対象が動的に変化した場合にも対応した探索漏れ番組の抽出が可能となる。
ここで、ベクトルの距離は例えばベクトルの内積により定義するので距離は大きいほど近い、すなわち両ベクトルは類似しているとする。
ステップS1512において、まず探索漏れ情報抽出部1409は作成された前記抽出ベクトルを用いて非選択の番組領域から探索漏れ番組の抽出を行い、その結果を探索漏れ情報記憶部1410に格納する。具体的には索引語・文書行列から非選択の番組に対するベクトルを作成し、前記抽出ベクトルとの距離を計算し、閾値以上の距離を持つ番組をユーザにとって明確となった探索対象に関する番組として抽出する。なお、抽出する数は閾値により決定するのではなく、実施の形態1で述べたように現在の選択クラスタ内の番組数や現在の全対象番組数に応じて決定してもよい。
さらに、現在の選択クラスタ内の番組に対するベクトルと抽出ベクトルとの距離を求め、探索漏れ番組の抽出で抽出した番組に対するベクトルと抽出ベクトルとの距離と比較し、もし、探索漏れ番組の抽出により得られた番組の方が抽出ベクトルとの距離が大きい場合、現在の選択番組数を越えない範囲で現在の選択番組と入れ替えても良い。これにより、より探索対象が明確となったユーザの探索対象に適した番組に絞り込むことが可能となる。
次に制御部1317は、ステップS1504で候補情報記憶部1406に記憶された選択されたクラスタに含まれる番組に加え、本ステップで探索漏れ情報記憶部1410に格納された探索漏れ番組を追加し、ステップS1501へ進み、次のクラスタリングの処理へと続く。
このように本実施の形態2の情報探索支援装置によれば、上記の動作により、ユーザの選択情報(クラスタ選択履歴)からユーザの探索対象が明確になったか否かを自動的に判定することができるとともに、探索対象が明確になったかまたは変化したと推定される時点で、明確になったまたは変化した探索対象と関係があるにもかかわらずこれまでの選択で取りこぼされたと考えられる番組を自動的に抽出することができる。これにより、これまでの選択で取りこぼされたと考えられる番組を、現在選択されている探索対象に加えることが可能となる。従って、ユーザの探索対象に一致する番組をより多くユーザに提示することができる。さらに、探索漏れ番組の抽出に利用する各単語に重要度を付与して抽出を行うため、明確になったユーザの探索対象以外の番組が探索漏れ情報として抽出されることを低減することができるという効果がある。
(実施の形態3)
上記実施の形態1及び2では、ユーザの探索対象が明確になったか否かを、選択クラスタがどれくらい絞られた領域になったかという情報(DF値)を用いて定義した確定度を基に判断し、探索漏れ番組の抽出を実現している。しかし、この場合では、急速に選択クラスタが絞り込まれた場合にはユーザの探索対象が明確になったことを容易に判断できるが、徐々に絞り込まれている場合には、判断が容易でないという問題がある。
そこで、本実施の形態3では、ユーザの絞込み領域が明確になると、ユーザは一貫性のある単語を含むクラスタを選ぶようになるという特徴を利用して、ユーザの探索対象が明確になったか否かを判定する。具体的には、ユーザの探索対象の確定度を、ユーザが選択する代表単語にどのくらい一貫性があるかという情報を基に定量化し、その値をもとに探索対象が明確になったか否かを判定する方法について述べる。本手法では、選択された代表単語の一貫性を用いてユーザの探索対象の確定度を決定するため、クラスタの代表単語のDF値や対象番組数に依存せず、ユーザの探索対象の確定度を計算することが可能となる。
本実施の形態3と上記実施の形態2との相違点は、ステップS1501で作成するデータと、ステップS1509の探索対象が確定したか否かの判断に必要なデータと、ステップS1508の確定度の計算方法と、ステップS1510の探索漏れ番組の抽出に利用する抽出ベクトルの作成方法と、ステップS1512の探索漏れ番組の抽出方法が異なるというものであり、他は実施の形態2と同一である。従って本実施の形態においては、その相違点を中心に説明する。
なお、本実施の形態3で説明する確定度の計算方法及び探索漏れ番組抽出用のベクトルの作成は上記実施の形態1及び2で説明した計算方法及び抽出ベクトルの作成方法とは独立であるので、両手法を併用してもよい。
図16のステップS1501において、まず、情報データ作成部1403は索引語・文書行列に加え、索引語・文書行列に対して特異値分解を行い、次元圧縮を行った行列を作成する。次に、前記次元圧縮された行列を利用して索引語と文書を圧縮した次元のベクトルで表現し、これを情報データ記憶部1404に格納する。
前記圧縮した行列を基に作られる索引語ベクトルや文書ベクトルを用いて、索引語間の意味的距離を求めたり、索引語から文書を意味的類似度に基づいて検索したりすることが可能となる。これらの技術は潜在的意味解析(Latent Semantic Analysis;LSA)や潜在的意味インデキシング(Latent semantic indexing ; LSI)と呼ばれる(非特許文献2:日本知能情報ファジィ学会誌 Vol.17、No.1 p.76(2005)、非特許文献3:情報検索アルゴリズム(共立出版) p.65(2002))。この手法により単語間や単語・文書間の意味的類似度を定量化できると共に、抽出速度の向上が図れる。
以下、探索漏れ番組の抽出判定及び抽出方法について、図18に示すクラスタ選択履歴を例にして説明する。なお、図18は上記実施の形態1の図9と同様にある具体的な操作シーケンスに対応してクラスタ選択情報記憶部1407に格納される図7に示される選択情報に関するクラスタ選択履歴の一部の情報を示す図である。
探索漏れ番組の抽出判定及び抽出方法について、図16のフローチャートを用いて説明する。
ステップS1507において、まず探索対象推定部1408はクラスタ選択情報記憶部1407に格納されるユーザのクラスタ選択を基にユーザの探索対象を推定するための条件を取得する。ここで上記実施の形態1及び2と同様に、探索対象推定部1408は、ユーザが選択したクラスタの代表単語を抽出し、抽出された代表単語に基づいて抽出される番組をユーザの探索対象であると推定する。次に探索漏れ情報抽出部1409は、選択されたクラスタの各代表単語のベクトルを抽出し、そのベクトルを足し合わせることで選択されたクラスタの抽出ベクトルを作成し、クラスタ選択情報記憶部1407に格納する。
ステップS1508において、確定度算出部1411は、「前回選択されたクラスタを代表する代表単語と、今回選択されたクラスタを代表する代表単語との意味的類似度を算出し、算出した意味的類似度が大きくなるほど前記確定度が大きくなる計算式に従って、前記確定度を算出する前記確定度算出手段」の一例であり、前回選択されたクラスタの代表単語ベクトルと今回作成されたクラスタの代表単語ベクトルとの距離を求める。この距離をユーザの探索対象の確定度として、その結果をクラスタ選択情報記憶部1407に保存する。
ステップS1509において、ステップS1508で計算された確定度を基に、ユーザの探索対象が明確になったか否か、すなわち、探索漏れ番組の抽出を行うか否かの判断を行う。具体的には確定度が閾値以上である場合、探索漏れ番組の抽出を行う。
図19は、図18に示したクラスタ選択履歴に対応して、選択された各クラスタのより詳細な内容を示す図である。すなわち、図19に図18で示されるクラスタ選択履歴のシーケンスに対して、ステップS1507で作成された選択クラスタの代表単語ベクトルと、本ステップで計算される前回の選択代表単語ベクトルとの距離と、ステップS1510で生成される抽出ベクトルをクラスタ選択情報記憶部1407に格納したデータ例を示す。ここで、項目1801はステップS1507で作成される選択クラスタの代表単語ベクトルであり、項目1802は一つ前に選択されたクラスタの代表単語ベクトルと今回選択されたクラスタの代表単語ベクトルとの距離であり、項目1803はステップS1510で作成される探索漏れ番組抽出用の抽出ベクトルである。
図19(b)の表を見れば、例えばシステムが図18の操作No.1の状態で選択されたクラスタ1の代表単語ベクトルと、システムが図18の操作No.2の状態で選択されたクラスタ2の代表単語ベクトルとの距離は0.2であることが分かる。
今、探索漏れ番組抽出の判断に利用する閾値を0.5とすると、ステップS1509において、図19の操作No.2の再分割実行時にも図19の操作No.3の再分割実行時にも閾値を超える値があるので、ステップS1510へ進む。
なお、本実施の形態ではユーザが一貫性のある代表単語を含むクラスタを選ぶようになると、ユーザの絞込みが明確になったと判断し、探索漏れ番組の抽出を行う。以下では、その具体例について述べる。この一貫性のある単語を含むクラスタを選んでいるか否かの判断は、前回選択されたクラスタの代表単語と今回選択された代表単語の類似度を確定度として計算することにより行う。この確定度は似た単語を選ぶほど高くなるような定義をすればよいので、上記のクラスタの代表単語ベクトル間の距離を確定度と定義とするほかに、確定度の定義として前回選択されたクラスタと今回選択したクラスタの代表単語間で、同じ代表単語の含まれる数や割合を利用してもよいし、上記索引語の単語ベクトルを用いて各単語間の距離を求め、一定値以上の距離を持つ単語の数や割合を利用してもよい。
ステップS1510において、探索漏れ情報抽出部1409は探索漏れ番組の抽出に利用するベクトル(以後単に抽出ベクトル)を選択クラスタごとに作成する。但し、ここで作成される抽出ベクトルはステップS1507で前回の選択クラスタと一貫性があると判定された選択クラスタのみに対してであり、例えば図19の操作No.2の状態ではクラスタ2とクラスタ3が選択されているが、前回の選択クラスタの代表単語ベクトルとの距離が閾値0.5以上あるものとしてはクラスタ2のみであるので、図19の操作No.2の状態ではクラスタ2に対してのみ抽出ベクトルを作成する。同様に図19の操作No.3の状態ではクラスタ2とクラスタ4について抽出ベクトルを作成する。
抽出ベクトルは選択クラスタの代表単語ベクトルと同様に、選択されたクラスタの代表単語を基に作成するが、抽出ベクトルを作成する際には、明確になったユーザの探索対象以外の番組が探索漏れ番組の抽出結果に入らないように、各単語に重要度を示す重みを付けて抽出ベクトルの作成を行う。
この重要度は一貫性のある単語ほど大きくなるような定義を行う。これは、一貫性があると判断された前回の選択クラスタの代表単語と意味的に近い単語に大きな重要度を与えることで実現できる。探索漏れ情報抽出部109は、「前回選択されたクラスタと今回選択されたクラスタとの間でクラスタを代表する代表単語の意味的類似度を算出し、算出された意味的類似度が大きいほど選択されたクラスタを前記代表単語の一貫性が強いと判定し、前記代表単語の一貫性が強いほど探索漏れ情報の抽出に利用する代表単語の重要度が高くなるように前記代表単語の重要度を決定し、決定した重要度に応じた重み付けをした前記代表単語から抽出ベクトルを作成する前記探索漏れ情報抽出手段」の一例である。例えば一貫性があると判断された前回の選択クラスタの代表単語ベクトルと、抽出ベクトル作成の対象となる各代表単語との距離をそれぞれ計算し、距離が近い単語ほど大きな重要度を付与してもよいし、一貫性があると判断された前回の選択クラスタの代表単語と抽出ベクトル作成の対象となる各代表単語との距離を計算し、最大値が大きい単語ほど重要度を大きくしてもよい。
なお、前回の複数の選択クラスタに対して代表単語ベクトル間の距離が閾値を超える選択クラスタがあった場合、最も距離が近い前回の選択クラスタを対象にして単語の重要度を決定しても良いし、全てのクラスタに対して上記方法で重要度を計算し、その結果に代表単語ベクトル間の距離を掛け合わせて新たな重要度としても良い。
ステップS1511において、探索漏れ情報抽出部1409はこれまで作成した抽出ベクトルと現操作で作成された抽出ベクトルとの距離を計算し、クラスタ選択情報記憶部1407に保存する。図20は、過去のクラスタリングにおいて作成された抽出ベクトルと、次のクラスタリングにおいて作成された抽出ベクトルとの関係を示す図である。ステップS1511で計算された抽出ベクトル間の距離は、図20の項目1905に記録される。そして、両ベクトルの距離が閾値以上である場合、既にこの単語集合による探索漏れ番組の抽出は行われていると判断し、ステップS1501に進み、探索漏れ番組の抽出は行わない。一方、両ベクトルの距離が閾値より小さい場合、ステップS1512へ進み探索漏れ番組の抽出を行う。例えば閾値を0.5とした場合、図20の操作No.3の状態において、クラスタ2の抽出ベクトルは前回抽出ベクトルである操作No.2のクラスタ2の抽出ベクトルとの距離が0.7と閾値以上であるため、既に抽出済みだと判断し、探索漏れ番組の抽出は行わない。一方、同じ状態において、クラスタ4の抽出ベクトルは前回抽出ベクトルとの距離が0.0と閾値よりも小さいため、まだ抽出をしたことが無いと判断し、このベクトルを用いて探索漏れ番組の抽出を行うと判断する。もし、これまでに作成した探索漏れ番組の抽出に使用したベクトルが複数ある場合、最も距離が近いベクトルとの差を利用し、既に抽出を行ったか否かの判断を行う。
ステップS1512において、まず探索漏れ情報抽出判定部1412は作成された前記抽出ベクトルを用いて非選択のクラスタに属する番組領域の番組に対して探索漏れ番組の抽出を行い、その結果を探索漏れ情報記憶部1410に格納する。具体的には図20の操作No.2ではクラスタ2の代表単語を用いて作成した抽出ベクトルを用いて取りこぼしの抽出を行い、図20の操作No.3ではクラスタ4の代表単語を用いて作成した抽出ベクトルを用いて非選択のクラスタに属する番組から探索漏れ番組の抽出を行い、その結果を格納する。
ここで、図20の操作No.3における探索漏れ番組の抽出では、図20の操作No.2のクラスタ2と図20の操作No.3のクラスタ4とで代表単語及び番組数の変化は殆ど無いが、上記方法により、ユーザの興味が確定したことを判断できる。
次に制御部1317は、ステップS1504で候補情報記憶部1406に記憶された、選択されたクラスタに含まれる番組に加え、本ステップで探索漏れ情報記憶部1410に格納された探索漏れ番組を追加し、ステップS1501へ進み、次のクラスタリングの処理を行う。
以上のように、ユーザが選択したクラスタの代表単語に一貫性があるか否かに基づいて、探索対象が確定したか否かの判断基準となる確定度を定義することによって、探索対象が明確になったかまたは変化したと推定される時点で、明確になったかまたは変化した探索対象に関する番組で、かつ、これまでの選択によって取りこぼされたと考えられる番組を自動的に抽出し、現在の探索対象に加えることが可能となる。このため、ユーザの操作負担を増加することなく、しかもユーザの興味を持った番組の「見落とし」や「取りこぼし」を減らすことができる。
さらに単語の一貫性を用いて探索漏れ番組の抽出の実行判断を行うので、探索対象が明確になったにもかかわらず、選択クラスタの番組数や代表単語のDF値が徐々にしか変化しない場合でも、精度良く探索対象の明確化の判断が可能となる。
また単語の一貫性を用いて抽出時に利用する単語の重要度を決定しているので、ユーザが絞り込みで重要だと考える単語に対して正しく重要度を付与することが可能となり、精度の良い探索漏れ番組抽出が可能となる。
本実施の形態1から3における構成により実現される自動的にユーザが興味を持つ情報を収集し選択クラスタに追加するという処理は、システムの操作方法を変えることなくその結果を反映することが可能となるため、ユーザは一貫した操作方法により興味のある情報を精度良く取得できる。このように同一操作により探索を行うことは、ユーザの興味が明確になった後、ユーザ自らキーワード検索を行うインタフェースに比べて、検索キーワード及びその組み合わせについてユーザが作成する負荷を与えないだけではなく、検索思考の変更を必要としないという効果を奏する。
さらに、本手法では、ユーザの興味領域を選択したクラスタに関する情報から自動で推定しているため、キーワード検索のようなユーザ主導の検索では実現できない、ユーザ自身も気づいていない可能性があるユーザの興味対象に対して自動的に関連情報を収集することを可能とする。
なお、上記実施の形態1から3では情報探索支援の具体的な例として、番組の探索に対する絞り込み動作の説明を行ったが、クラスタリングにより自動分類を行い、代表単語をもとにクラスタをユーザが選択することで、絞込みを行うシステムであれば、本技術は利用可能である。例えば新聞記事、マニュアルの機能説明、及びWebサイトの商品情報などの情報の探索支援にも利用可能である。
本発明は、ユーザの探索対象が明確になっていないときに、大量の文書やメタデータが付与されたコンテンツなどの中からユーザが興味を持つ情報を見つけることを支援する情報探索装置に対して利用可能であり、番組コンテンツや音楽コンテンツ、記事や商品の情報、機器の機能などの探索装置に対する探索支援技術及びGUIとして、その利用可能性は非常に大きい。
本発明は、ユーザが大量の情報から興味の湧く情報を見つけ出すことを支援する方法及びその装置に関し、特に情報をいくつかのクラスタに自動分類することを再帰的に行うことで情報の絞り込みを行う情報探索支援方法及び情報探索支援装置に関する。
近年、テレビ番組や書籍などのコンテンツに関する情報から、観光地やレストランなどのランドマーク、商品の評判や在庫情報に至るまで様々なデータの電子化が進んでいる。これに伴い、電子化された膨大な情報の中からユーザにとって興味のある情報を見つけ出す情報探索ツールに対するニーズが拡大してきている。
膨大な情報から興味のある情報を探す最も一般的な方法として、キーワード検索法がある。キーワード検索法では、興味の対象を示す単語をユーザが検索キーワードとして入力し、システムは入力された検索キーワードに関連した情報をキーワードと文書との関連度に基づいてあらかじめ作成されたインデックスを利用して検索し、結果をユーザに提示する。
上記キーワード検索法は、ユーザの興味の対象が明確であり、興味の対象を検索キーワードにより明確に表現できる場合に有効である。しかしながら、ユーザの興味の対象が漠然としている場合や、興味の対象を代表する適切な検索キーワードが思い浮かばない場合には、入力した検索キーワードがユーザの興味の対象と一致しないため、ユーザが本当に検索したい情報が検索結果の上位に含まれないといった問題が発生する。
このような問題に対して、探索対象となる情報をいくつかのクラスタに分割し、各クラスタの内容をユーザに知らせるために、各クラスタに含まれる情報を代表するキーワードと見出しをユーザに提示する。これにより、目的が漠然としたユーザに手がかりを与えながら、情報の絞り込みを行えるようにした情報探索支援手法としてScatter/Gather法(非特許文献1)がある。Scatter/Gather法では、ユーザが関心のあるクラスタを選択すると、システムは選択されたクラスタに含まれている文書やコンテンツなどの情報を一旦、一まとめにした上で再度クラスタリングを行いユーザに提示する。この作業を再帰的に繰り返すことにより、探索対象が絞り込まれていき、ユーザの漠然とした興味が次第に明確になる。その結果、ユーザは興味のある情報を簡単に見つけ出すことができるようになる。
一方で、ユーザはクラスタの代表となるキーワードと見出しを手がかりにクラスタを選択することになるが、これらのキーワードと見出しのみでクラスタ内に含まれるすべての情報を把握することは困難である。したがって、ユーザがクラスタを選択する時点で、非選択クラスタに含まれる興味対象と一致する情報が探索対象から漏れてしまう「取りこぼし」が生じるという課題がある。
この課題に対して特許文献1が開示されている。特許文献1では、探索対象となる情報を単一のクラスタに分類することが問題の原因と考え、探索対象となる情報の各クラスタに対する帰属度を計算し、これを棒グラフなどで提示して他の選択すべきクラスタの存在を示唆することにより、上記問題に対する解決を図っている。
Scatter/gather: A cluster-based approach to browsing large document collections. In Proceedings of the SIGIR '92(pp.318-329), 1992 特開2003−345810号公報
しかしながら、特許文献1では探索対象となるすべての情報に対して、各クラスタへの帰属度を視覚化して提示するものであるため、非特許文献1の課題である「取りこぼし」を防ぐためには、探索対象となるすべての情報に対して、ユーザが帰属度を参照して取捨選択を行う必要がある。このため、探索対象の情報数が膨大になると、帰属度の閲覧操作、および前記判断に対するユーザの負担が大きくなるという課題がある。
また、非特許文献1の課題である「取りこぼし」の他の原因として、ユーザの興味対象が探索開始時点で定まっていない場合や探索の途中で変更される場合など、ユーザの興味対象が動的に変化することが挙げられる。非特許文献1や特許文献1の属する再帰的クラスタリングによる情報探索支援方法では、一般的にユーザの興味対象はシステムから提示される代表キーワードなどの手がかりによって、曖昧な状態から明確な状態へ変化するものであり、探索を開始してしばらくの間のクラスタ選択は必ずしも明確な興味対象を意識して行われるとは限らない。このため、ユーザの興味対象が明確になるまでに行ったクラスタ選択によって、必然的に「見落とし」や「取りこぼし」が生じてしまう。同様に、初めはある代表キーワードに興味を持ってクラスタの選択を行っていたが、途中で興味のある見出しを見つけ、それ以降その見出しに関連した代表キーワードを含むクラスタを選択する場合にも、途中までのクラスタ選択においては、新しい興味の対象を意識していないため「見落とし」や「取りこぼし」が生じている可能性が高い。しかしながら、特許文献1では、探索対象となる情報の各クラスタに対する帰属度を示すのみであり、これら原因による「見落とし」や「取りこぼし」に対処できない。
本発明は、上記の課題を解決するためになされたものであって、ユーザの興味対象の動的な変化に対応し、かつ、ユーザに特別な操作を要求することなしに、「見落とし」や「取りこぼし」なくユーザの興味対象に合致した文書やコンテンツを選択できるようにすることを可能とする情報探索支援方法及び情報探索支援装置を提供することを目的とする。
前記従来の課題を解決するために、本発明の情報探索支援装置は、探索対象である情報をクラスタリングして各クラスタの特徴を表す情報を表示し、表示されたクラスタのうちからユーザによって選択されたクラスタに含まれる情報をさらにクラスタリングすることによって選択対象となる情報を絞り込み、ユーザによる情報の探索を支援する情報探索支援装置であって、各クラスタの内容に関する情報と、ユーザがどのクラスタを選択したかを示すクラスタ選択履歴情報とを蓄積するクラスタ選択履歴情報蓄積手段と、前記クラスタ選択履歴情報蓄積手段に蓄積されている前記クラスタの内容に関する情報および前記クラスタ選択履歴情報を基に、ユーザの探索対象があいまいな状態から明確になった度合いを示す確定度を算出する確定度算出手段と、前記ユーザが選択したクラスタの内容に関する情報のうちから、ユーザの探索対象を推定するための条件を取得する探索対象推定手段と、表示された前記クラスタのうちでユーザが選択しなかったクラスタに含まれる情報であり、かつ、前記探索対象推定手段が取得した条件から推定される情報群に帰属する情報である探索漏れ情報を、ユーザが選択しなかったクラスタから抽出する探索漏れ情報抽出手段と、前記確定度算出手段が算出した確定度が予め定められた閾値以上である場合に、前記探索漏れ情報抽出手段が抽出した前記探索漏れ情報を、ユーザが選択したクラスタに追加する探索漏れ情報追加手段とを備えることを特徴とする。
本構成により、ユーザがクラスタの代表単語を基にクラスタを選択するという特徴を利用して、ユーザの探索対象が確定したか否かの判断とユーザの興味に合った情報の抽出をシステムが自動に行うことで、現在の探索対象以外の情報からユーザの興味のある情報を抽出し、現在の探索対象の内容を変更することが可能となる。
以上のように本発明の情報探索支援装置によれば、ユーザに情報を探索するための負担を増加することなく、明確となった探索対象に対して「見落とし」や「取りこぼし」がないように探索対象の情報の数を絞り込むことが可能となる。
以下本発明の実施の形態について、図面を参照しながら説明する。
(実施の形態1)
図1は本発明の実施の形態1における情報探索支援装置の構成を示すブロック図である。図1において、本実施の形態1の情報探索支援装置は、入力部101、テキストコーパス記憶部102、情報データ作成部103、情報データ記憶部104、クラスタリング実行部105、候補情報記憶部106、クラスタ選択情報記憶部107、探索対象推定部108、探索漏れ情報抽出部109、探索漏れ情報記憶部110、確定度算出部111、探索漏れ情報追加判定部112、システム仕様記憶部113、表示方法決定部114、出力部115、タイマ116、および制御部117を備える。入力部101はキーボードやマウス、リモコンなどユーザからの入力を受け付ける。テキストコーパス記憶部102は情報探索の対象に関するテキストコーパスを格納している。情報データ作成部103は対象情報をテキストコーパス記憶部102に記憶されたテキストコーパスから、情報探索支援に必要なデータ形式に変更する。情報データ記憶部104は情報データ作成部103で作成されたデータを格納する。クラスタリング実行部105は初期状態では全体の探索領域を対象に、情報探索時にはユーザが選択した探索領域を対象にクラスタリングを行う。候補情報記憶部106は、選択されたクラスタに含まれる情報又は選択されたクラスタに含まれる情報を特定するための識別情報を格納する。クラスタ選択情報記憶部107は、「各クラスタの内容に関する情報と、ユーザがどのクラスタを選択したかを示すクラスタ選択履歴情報とを蓄積するクラスタ選択履歴情報蓄積手段」の一例であり、ユーザの選択に関する情報を格納する。探索対象推定部108は、「前記ユーザが選択したクラスタの内容に関する情報のうちから、ユーザの探索対象を推定するための条件を取得する探索対象推定手段」の一例であり、クラスタ選択情報記憶部107に格納されるユーザのクラスタ選択情報からユーザの探索対象を推定するための条件を取得する。探索漏れ情報抽出部109は「表示された前記クラスタのうちでユーザが選択しなかったクラスタに含まれる情報であり、かつ、前記探索対象推定手段が取得した条件から推定される情報群に帰属する情報である探索漏れ情報を、ユーザが選択しなかったクラスタから抽出する探索漏れ情報抽出手段」の一例であり、前記探索対象に含まれる情報のうち候補情報記憶部106に格納されていない探索漏れ情報を抽出する。探索漏れ情報記憶部110は前記探索漏れ情報抽出部109で抽出した探索漏れ情報を格納する。確定度算出部111は「前記クラスタ選択履歴情報蓄積手段に蓄積されている前記クラスタの内容に関する情報および前記クラスタ選択履歴情報を基に、ユーザの探索対象があいまいな状態から明確になった度合いを示す確定度を算出する確定度算出手段」の一例であり、前記推定された探索対象の確定度を計算する。探索漏れ情報追加判定部112は「前記確定度算出手段が算出した確定度が予め定められた閾値以上である場合に、前記探索漏れ情報抽出手段が抽出した前記探索漏れ情報を、ユーザが選択したクラスタに追加する探索漏れ情報追加手段」の一例であり、前記確定度算出部111で計算した確定度に基づき、前記探索漏れ情報を候補情報に追加するかどうかの判断を行う。システム仕様記憶部113はシステムの状態遷移や画面仕様などを格納する。表示方法決定部114は出力部115に出力する画面情報や音声情報を決定する。出力部115はディスプレイ等によりクラスタの表示および情報の一覧表示などを行うとともに、スピーカなどにより音声による操作の案内などを行う。タイマ116は、時刻を計測する。制御部117は上記の情報データ作成部103、クラスタリング実行部105、探索対象推定部108、探索漏れ情報抽出部109、確定度算出部111、探索漏れ情報追加判定部112および表示方法決定部114を内部に備え、これら各処理部による取りこぼし情報抽出に関する全般的な制御を行う。
前記のように構成された情報探索支援装置の動作概略について図2を用いて説明する。
図2は、実施の形態1における情報探索支援装置の動作の主旨を示す図である。本実施の形態1で説明する情報探索支援装置では漠然とした探索要求しか持たないユーザが提示された複数のクラスタの中から少なくとも1つの興味あるクラスタを選択し、システムはそのクラスタをまとめて再度クラスタリングを行い、より細かいクラスタに分割してユーザに示すことで、ユーザの興味範囲の絞り込みを支援し、ユーザが興味を持つ情報を提供する。しかし、ユーザの漠然とした興味が明確になったとき、これまで選択しなかったクラスタの中にユーザの興味のある情報が存在する可能性がある。そこで、本情報探索支援装置では、ユーザの選択履歴から興味が明確になったことを自動的に判断し、ユーザの興味が明確になったと判断した時点で、これまでの探索では興味が明確でなかったために取りこぼしてきた情報をこれまでの探索時に選択しなかったクラスタの中から抽出し、現在選択されている情報集合に追加する。この動作によりユーザの興味を持った情報を漏れ少なくユーザに提示することが可能となる。
以下、詳細な動作の一例について図3のフローチャートを参照しながら説明する。なお図3は、本実施の形態1の情報探索支援装置がEPG(Electric Program Guide)のデータを利用し、特に明確に見たいと思っている番組がないユーザが大量の番組の中から興味のある番組を見つけることを支援する動作を示すフローチャートである。
本実施の形態1では、ユーザがクラスタを選択して更なるクラスタリングを指示する都度、ユーザによる選択の履歴を示す選択情報から探索対象推定部108がユーザの探索対象の推定条件の取得を行い、探索漏れ情報を抽出する例について説明する。この探索漏れ情報は、推定された探索対象に類似するにもかかわらず、選択されたクラスタに含まれなかった情報を指す。これにおいて、抽出された探索漏れ情報は、確定度算出部111が算出した前記推定結果の確定度が一定値を超えたとき、探索漏れ情報追加判定部112によりユーザの探索対象が曖昧な状態から明確になったと判定され、その結果、現在の探索対象に加えられる。
まず、ステップS201において、情報データ作成部103はテキストコーパス記憶部102に記憶されているEPGデータ、すなわち各番組に関する構造化されたテキストデータを取得する。そして、番組のクラスタリングや探索漏れ番組の抽出に利用する単語(以後、索引語と記述)を決定し、索引語が各番組の説明テキスト(以後単に、各文書と記述)にどのくらい含まれるか等、索引語と文書の関係を計算し、情報データ記憶部104に格納する。より具体的には、情報データ作成部103は、各索引語が各文書でどのくらい出現したかを表すTF値(Term Frequency)、索引語が出現する文書数を表すDF値(Document Frequency)、およびDF値を基にしたIDF値(Inverse Document Frequency)などを計算し、計算結果を情報データ記憶部104に格納する。さらに、情報データ作成部103は、これらの値を利用して索引語と文書との関係を行列で表現した索引語・文書行列を作成し、情報データ記憶部104に格納する。
ここで、各番組の説明テキストとしては、例えば、通常のEPGデータには各番組について「ジャンル」「タイトル」「詳細内容」がテキスト情報として存在するため、これらを合わせたものを各番組に対する説明テキスト(文書)として利用する。また、索引語の決定方法としては各文書を形態素解析し、特定の品詞の単語を索引語としてもよいし、固有名詞抽出技術を用いて、抽出された固有名詞を利用してもよい。
ステップS202において、クラスタリング実行部105は情報データ作成部103によって作成された索引語・文書行列を用いてクラスタリングを行う。クラスタリングの手法としては既存の方法を利用する。例えば階層的クラスタリングであるウォード法を利用してもよいし非階層的クラスタリングであるk−means法を利用してもよい。共に前記索引語・文書行列から各文書をベクトル表現し、文書ベクトル空間で距離計算を行うことでクラスタリングを行う。
次にクラスタリング実行部105は作成した各クラスタの代表番組と代表単語を決定する。クラスタの代表番組の決定方法としては、例えば各クラスタの文書ベクトルに対する重心ベクトルを求め、その重心から近い距離にある番組を代表番組とする。また、各クラスタの代表単語としては、前記各クラスタに対する重心ベクトルの成分が大きな索引語を代表単語としてもよいし、各クラスタの文書のTF値やDF値が大きな単語を代表単語としてもよい。
クラスタリング実行部105で決定されたクラスタリング結果は候補情報記憶部106とクラスタ選択情報記憶部107に格納されると共に、表示方法決定部114に出力される。
ステップS203において、表示方法決定部114は、システム仕様記憶部113に記憶されている画面仕様に基づいてクラスタリング結果を出力部115に出力する。図4は、クラスタリング実行部105によって決定されたクラスタが出力部115より出力される画面例を示す図である。ここで、301の欄は各クラスタの代表単語を表している。この欄には、例えば、そのクラスタの具体的な代表単語が「単語1」、「単語2」、・・・、「単語5」のように列記される。302の欄はクラスタの代表番組を表している。この欄には、クラスタに含まれる各番組に対する重心ベクトルで示される重心から最も近い距離にある、例えば、上位5個の番組が、このクラスタの代表番組として表示される。代表番組は、例えば、「1.番組名2−1」、「2.番組名2−2」、・・・、「5.番組名2−5」のように具体的な番組名で列記される。303の欄は各クラスタに含まれている番組の数を表す。304の欄は、ユーザがクラスタを選択したか否かを示すチェックを入れるためのチェックボックスである。例えば、チェックボックスにチェックが入れられていれば、そのクラスタは選択されており、チェックボックスにチェックが入れられていなければ、そのクラスタは選択されていないことを示している。305の再分割ボタンは、ユーザがチェックボックスにチェックを入れることによって選択したクラスタに対して、再度クラスタリングを行い、絞込みを行う処理の実行(以後単に、再分割を行うと記述)を情報探索支援装置に指示するボタンである。306の番組一覧ボタンは、ユーザがチェックボックスにチェックを入れることによって選択したクラスタの番組一覧を表示する画面へ遷移するためのボタンである。ユーザによってこのボタンが押された場合、例えば、図4のように、2つのクラスタのチェックボックスにチェックが入れられている場合には、それら2つのクラスタに含まれている全番組が一覧表示される。307の矢印のボタンは、前の選択状態へ戻ったり、先の選択状態へ進んだりすることを指示するためのボタンである。なお、これらの各ボタンを押したときの動作や表示される項目については、図4に示した例に限らず、システム仕様記憶部113に記憶されている定義に基づく。
また、本実施の形態では図4に示すように、代表番組と代表単語を5つずつ表示しているが、代表番組及び代表単語はいくつ出してもよい。さらに各クラスタについて代表番組だけを表示するのではなく、全ての番組をリスト表示にしてもよい。図5は、クラスタリング実行部105によって決定されたクラスタが出力部115より出力される場合の他の画面例を示す図である。また、例えば、画面が小さい場合は図5のように各クラスタにつき、代表番組は出さずに代表単語のみを表示してもよい。図5で、401の欄はクラスタの代表単語を示しており、402の欄はクラスタに含まれる番組の数を示しており、403はチェックを入れることによりクラスタの選択/非選択を示すチェックボックスを示している。404の再分割ボタン、405の番組一覧ボタンは、いずれも図4で説明した305の再分割ボタン、306の番組一覧ボタンと同じである。406の十字ボタンは、カーソル移動キーであり、左方向を示す三角形のボタン(戻る)を押すと前の画面に戻り、右方向を示す三角形のボタン(進む)を押すと次の画面に進む。上下の三角形のボタンを押すと、各クラスタのチェックボックス上をカーソルが上下に移動し、カーソルが止まった位置で中央の丸い選択ボタンを押すとカーソルの位置のチェックボックスにチェックが入れられる。図6は、クラスタリング実行部105によって決定されたクラスタが出力部115より出力される場合のさらに他の画面例を示す図である。また、例えば図6の502のように、代表番組を表示する代わりに、一定時間間隔でクラスタ内の異なる番組の映像の一部やサムネイルを対応する番組名と共に表示しても良い。
なお、最終的にユーザが視聴する番組の選択方法としては、本実施の形態ではユーザが選択したクラスタの番組一覧ボタン306を選択し、番組一覧を見た上でその中から1つをユーザが選択する仕様を想定したが、図4の代表番組302の番組を直接指定して番組を選択する仕様でもよい。
本実施の形態では、図4、図5及び図6のような上記階層構造のメニュー画面から、ユーザが番組の選択を行う場合を例として、図3を参照しながら情報探索支援装置の動作を説明する。
ステップS204において、制御部117は入力部101より入力されたユーザの指示についての判断を行う。もし、ユーザによって再分割ボタンが押されたのでない場合、ステップS205の処理へ進む。ステップS205では、ステップS204の操作で番組一覧ボタンが押されたかもしくは終了の指示が入力されたかの判断を行い、番組一覧ボタンが押されたか終了の指示が入力されたのであれば、その処理を行う。一方、ステップS204の操作で「戻る」や「進む」の操作が行われていた場合、ステップS206において、制御部117はクラスタ選択情報記憶部107から必要な情報を取得し、その処理を実行してステップS204に戻る。ステップS204において、ユーザの入力が再分割の指示である場合はステップS207の処理へ進む。
また、ステップS204では、制御部117が判定したユーザの入力及びシステムの状態をクラスタ選択情報記憶部107に格納すると共に、選択されたクラスタに含まれる番組を候補情報記憶部106に格納する。図7は、図4の画面例で再分割が実行されたときに作成され、クラスタ選択情報記憶部107に格納される一操作に対するクラスタ選択履歴の具体例を示す図である。クラスタ選択情報記憶部107は、「各クラスタの内容に関する情報として、選択されたクラスタに含まれる情報の数、表示されたクラスタのうちから選択されたクラスタの数、探索対象の情報の内容を表す文書のうち選択されたクラスタを代表する代表単語を含む文書の数のいずれかを蓄積する前記クラスタ選択履歴情報蓄積手段」の一例である。図7において項目601は操作No.を示しており、操作No.には、例えば、ユーザがコマンドを入力した操作のシリアル番号が記述される。コマンドの入力は、例えば、ユーザが図4のメニュー画面に表示された再分割ボタン305や番組一覧ボタン306などのボタンを押すことにより行われる。項目602は画面表示開始時間を示しており、例えば、図4のメニュー画面を表示した時刻が記述される。項目603はこの操作で入力されたコマンドのコマンド名を示しており、例えば、再分割ボタン305が押されることによって入力されたコマンドのコマンド名「再分割」などが記述される。項目604は項目603のコマンド名で示されるコマンドが実行された時刻を示している。項目605は全てのクラスタに含まれる番組の総数を示している。項目606はクラスタ番号を示し、例えば、クラスタのシリアル番号が記述される。項目607はクラスタが選択されたか否かを示す選択・非選択情報を示している。項目608は各クラスタに含まれる番組の数を示している。また、項目609は各クラスタの代表単語を示している。項目610は各クラスタに含まれる代表番組を示している。図8は、候補情報記憶部106に格納される選択されたクラスタに含まれる番組に関する情報の例を示す図である。項目701にはあらかじめ番組固有に付与された番組番号が記述される。また、項目702には番組名が記述される。さらに、項目703には番組内容が記述される。この番組内容には、例えば、EPGデータの詳細内容などが用いられる。なお、ここでは、前記3つの項目に関する情報を候補情報記憶部106に格納したが、候補情報記憶部106には単に番組番号701のみを格納しておいてもよい。そして、番組一覧などを最終的に表示する段階になってから、前記格納した番組番号をキーとして、各番組の情報が構造化されて蓄積されているテキストコーパス記憶部102を検索し、各番組の詳細情報(例えば、番組名及び詳細内容など)を取得するとしても良い。
以下、再び図3を参照して、ステップS207からステップS211で行われる探索漏れ情報の追加方法について、図9に示す具体的なクラスタ選択履歴を例にして説明する。図9は図7に示されるクラスタ選択履歴の一部の情報をある具体的なシーケンスに対応させて示した図である。
なお、再分割の対象に選択されなかったクラスタに含まれる探索対象に類似した情報である探索漏れ情報の追加が必要となるのは、ユーザの探索対象が曖昧な状態から明確な状態になったときである。従って、ユーザの探索対象がどのぐらい明確になったかを表すため、その明確度合いを確定度として定量化する。この確定度はユーザが選択したクラスタがどれくらい絞り込まれた領域なのか、または先ほどまでの選択からどのくらい絞られたのかという情報を基に定量化する。ここで、確定度算出部111は「前記クラスタ選択履歴情報蓄積手段に蓄積されている、クラスタの内容に関するいずれかの情報について、その数が小さくなるほど前記確定度が大きくなる規則に従って、前記確定度を算出する前記確定度算出手段」の一例である。確定度算出部111は、この確定度の計算に利用する情報として、ユーザが選択したクラスタの選択数、代表単語のDF値、代表番組の数及びその変化量が利用可能である。これはクラスタ選択数が減れば減るほどユーザの探索対象は明確であり、代表単語のDF値が小さくなればなるほどより少ない番組に関連した単語を選んでいるのでユーザの探索対象は明確であり、代表番組の数が減れば減るほどクラスタはより狭い領域となるので、ユーザの探索対象は明確であるという考えに基づく。
ステップS207において、探索対象推定部108は「前記条件として、選択されたクラスタを代表する代表単語を取得する前記探索対象推定手段」の一例であり、クラスタ選択情報記憶部107に格納されるユーザのクラスタ選択を基にユーザの探索対象を推定するための条件を取得する。ここではユーザが選択したクラスタの代表単語を抽出し、それをユーザの探索対象を推定するための条件とする。なお、ここでは、ユーザが選択したクラスタの代表単語をユーザの探索対象を推定するための条件としたが、表示情報として、図4のようにクラスタ毎にそのクラスタに含まれる番組名も表示している場合、番組名に含まれる単語も合わせてユーザの探索対象を推定するための条件としても良いし、出力画面には表示されてはいないが、クラスタに含まれる番組の情報において利用されている単語の中からクラスタとの関連が強い単語をTF値やDF値、IDF値などを利用してユーザの探索対象を推定するための条件としても良い。
なお、「前記出力画面には表示されていないが、クラスタに含まれる番組の情報」とは、図4の例でいうと、表示されている5つの代表番組以外の番組のタイトルや番組内容に含まれる単語である。
ステップS208において、探索漏れ情報抽出部109は「前記探索対象推定手段が取得した前記代表単語から得られるベクトルを用いて、ユーザが選択しなかったクラスタに含まれる前記情報から前記探索漏れ情報を抽出するための抽出ベクトルを作成する前記探索漏れ情報抽出手段」の一例であり、探索漏れ番組の抽出に利用するベクトル(以後単に、抽出ベクトル)の作成を行う。この抽出ベクトルはステップS207で求めたユーザの探索対象クラスタの代表単語のベクトルを前記索引語・文書行列から作成し、それらの和を求めることで作成する。
次に探索漏れ情報抽出部109は作成された前記抽出ベクトルを用いて非選択のクラスタに含まれる番組領域から探索漏れ番組の抽出を行う。具体的には索引語・文書行列から非選択のクラスタに含まれる番組に対するベクトルを作成し、前記抽出ベクトルとの距離を計算し、閾値以上の距離を持つ番組を探索漏れ番組として抽出する。
なお、抽出する探索漏れ番組の数は閾値により決定するのではなく、現在の選択クラスタ内の番組数や現在の全対象番組数に応じて決定してもよい。例えば、抽出する数は現在の選択クラスタ内の番組数の半分以下にしてもよい。この範囲の限定は、予め決めた一定値により決定してもよいし、これまでの番組数の変化に応じて決定してもよい。例えば、常に半分以下に絞り込みを行っているユーザに対しては、変化量として半分以上にならないように制御する。この制御により、絞込みを行ったのに探索漏れ番組の抽出により絞り込む前より絞り込んだ結果の番組数が増えてしまうということを防ぐことが可能となる。
次に探索漏れ情報抽出部109は抽出された探索漏れ番組を探索漏れ情報記憶部110に格納する。格納する情報としては、図8で示した前記候補情報記憶部106に格納される選択されたクラスタに含まれる番組と同様の情報、例えば、番組番号、番組名及び番組内容などを格納する。
ステップS209において、確定度算出部111は、ステップS207で推定されたユーザの探索対象の確定度を、クラスタ選択情報記憶部107に記憶された情報を基に算出する。まず、確定度算出部111は確定度を求めるために必要なデータをクラスタ選択情報記憶部107から取得して計算し、その結果をクラスタ選択情報記憶部107に格納する。図10(a)及び図10(b)は、図9で示される具体的操作シーケンスに対応した確定度の算出に必要なデータの具体例を示した図である。図10(a)及び図10(b)において、項目901は操作No.を示す。項目902は、現在選択されているクラスタに含まれる対象番組の数と、前回選択されていたクラスタに含まれる対象番組の数からの番組数の変化量とを示している。項目903は、現在選択されているクラスタの数と、前回選択されたクラスタの数からの選択されたクラスタの数の変化量とを示している。項目904及び項目905は、それぞれ、選択されたクラスタに含まれる代表単語及びその代表単語のDF値を示している。項目906は項目904に示された代表単語のDF値(項目905)の総和と、前回の選択クラスタに含まれていた代表単語のDF値の総和からの代表単語のDF値の総和の変化量を示している。項目907は、項目904に示された代表単語のDF値(項目905)の平均値と、前回の選択クラスタに含まれる代表単語のDF値の平均値からの平均値の変化量とを示している。項目910は、後述の確定度を示している。
なお、ここでは、項目902の対象番組数の変化量として、前回対象番組数から今回対象番組数を引き、その結果を今回対象番組で割った値を用いた。他の項目における変化量は対象値に対する前回値から今回値を引いた値を用いた。すなわち、計算式は、以下の通りである。
(対象番組数の変化量)=[(前回対象番組数)−(今回対象番組数)]/(今回対象番組数)
次に確定度算出部111は確定度を計算する。確定度は前記のようにユーザの探索対象が明確になると共に変化する情報を用いて定量化する。本実施の形態ではDF値の平均値の逆数×100を確定度として利用する。すなわち、計算式は、以下の通りである。
(確定度)=100/(DF値の平均値)
ステップS210において、探索漏れ情報追加判定部112は、ステップS209で計算された確定度を用いてユーザの探索対象が明確になったか否かの判断を行う。すなわち、前記DF値を用いて定義された確定度が閾値以上になったとき、ユーザの探索対象が明確になったと判定する。より具体的には、前記閾値を5.0とすると、図10(a)に示すように、システムが操作No.1の状態のとき、確定度は1.8であり閾値より小さな値である。従って、探索漏れ情報追加判定部112は、ユーザの探索対象はまだ明確でないと判断し、探索漏れ情報の追加は行わずにステップS201へ進む。一方、システムが図10(b)に示すように、操作No.2の状態のときは、確定度は9.6であり、閾値5.0より大きな値であるので、探索漏れ情報追加判定部112はユーザの探索対象が明確になったと判定し、ステップS211へ進む。なお、今回確定度として利用したDF値の閾値はシステム開発者が対象情報の総数とDF値の分布から決定しても良いし、ユーザ評価実験を行い、ユーザの絞込み領域が明確になった時点のDF値の分布を調べることで決定しても良い。
ステップS211において、探索漏れ情報追加判定部112は、ステップS204で候補情報記憶部106に格納された選択されたクラスタに含まれる番組に加え、ステップS208で探索漏れ情報記憶部110に格納された探索漏れ番組を追加した上、ステップS201へ進み、ステップS202でクラスタリングの処理を実行する。
なお、探索漏れ番組を追加する際に、表示方法決定部114は探索漏れ番組を追加したという情報を表示画面に出力しても良い。理由は、ユーザが情報の絞り込みを行っているにもかかわらず、探索漏れ番組が自動的に追加されることによって、情報の数が増加するために、ユーザが違和感を持つ可能性があるからである。図11は、探索漏れ番組を抽出して再分割の対象に追加したことを表示する出力画面の一例を示す図である。具体的には図11に示すように、出力画面に探索漏れ番組の抽出を行ったこと(項目1007)と、どのような単語に関する番組を抽出したのかという情報(項目1008)を出力しても良い。
また、ユーザの探索対象が明確になったという判断が行なわれた際に、より具体的な番組の理解と番組へのアクセスを容易にするため、ユーザの探索対象が明確になったと判断されるまでは、図5及び図6のような具体的な番組を列記して表示しない出力画面を出力し、ユーザの探索対象が明確になったと判断された後は図4のような具体的な番組を列記して表示する出力画面を出力しても良い。
ここで、図9の操作No.2において、ユーザの探索対象が医療に関するものに絞り込まれたとするとき、探索漏れ番組の追加を行わなかった場合の番組一覧と、探索漏れ番組の追加を行なった場合の番組一覧との相違について説明する。すなわち、上記処理による探索漏れ番組の抽出結果の例について述べる。
図12は、探索漏れ番組の追加を行なわずに、図9の操作No.2、クラスタ番号4に属する13番組の中から医療に関する番組を抽出した場合の抽出結果(番組一覧)を示す図である。ここで、項目1101は番組番号、項目1102は番組名、項目1103は番組内容を示す。ユーザの絞込みが明確に医療関係になったとき、ユーザが選択したクラスタ4に属する番組は13件であり、クラスタ4の代表単語は「あした、職人、医療、治療、地域」である。そのうち、医療に関係する番組は2件であった。この2件を図12に示している。この場合、操作No.1および操作No.2で、選択されていないクラスタに含まれている探索漏れ番組を追加していないので、この2件は、従来の手法による結果と同様である。
図13は、図9の操作No.1及び操作No.2で選択されなかったクラスタの中から医療に関する番組を抽出した結果を示す図である。ここで、項目1201は番組番号を示し、項目1202は番組名を示している。さらに、項目1203は番組内容を示している。このように、選択されなかったクラスタの中から探索漏れ番組の抽出を行った結果、図12に示した2件に加えて、さらに、8件の医療に関する番組が抽出された。
図14は、図13に示した8件の医療に関する番組が、どのクラスタに属していたのかを示す情報を図9のクラスタ選択履歴に加えた結果を示す図である。図14に示すように、システムが操作No.1の状態のとき、ユーザが選択しなかったクラスタ3に番組番号281の番組が1件含まれており、システムが操作No.2の状態のとき、ユーザが選択しなかったクラスタ2に番組番号482、19、16、499及び30の番組5件と、クラスタ3に番組番号95及び62の番組2件とが含まれていることが分かる。このように、本実施の形態の情報探索支援装置によれば、選択されていないクラスタに探索漏れ番組が存在している場合であっても、それを抽出できている。ここで、図14の操作No.2の非選択クラスタであるクラスタ2が最も医療に関する番組を取りこぼしていることが分かる。これは、このクラスタの代表単語のうち「生活」「社会・報道」などは医療と関係がありそうな単語であるため、このクラスタが医療に関する番組を含むであろうということはユーザに理解できるが、直接医療に関する単語が代表単語に含まれていないため見落としてしまったと考えられる。
このように上記の動作により、本実施の形態の情報探索支援装置は、ユーザの選択情報(クラスタ選択履歴)からユーザの探索対象を推定し、ユーザが選択しなかったクラスタの中からユーザの探索対象と推定される探索漏れ情報を抽出すると共に、ユーザの探索対象が明確になったか否かを表す確定度を確定度算出部111が算出する。さらに、算出された確定度に応じて、探索漏れ情報抽出部109が抽出した番組を選択対象の番組に加え、さらにクラスタリングすることが可能となる。このため、ユーザは、探索対象が明確になったことを情報探索支援装置に通知する必要もなく、一貫した探索操作を行なうだけで、情報探索支援装置が自動的にユーザの探索対象が明確になったことを判断することができる。これによって、ユーザの操作負担を増加させることなく、しかもユーザが興味を持った番組の「見落とし」や「取りこぼし」を低減し、ユーザの興味に一致する情報をより正確に探索及び提示することができるという効果がある。
また、本実施の形態の情報探索支援装置は、ユーザの探索対象が明確か否かを表す確定度を常に算出しているために、ユーザの興味が番組探索中に変化した場合でも、探索漏れの番組を追加することができるので、ユーザの興味対象の動的な変化にも対応できるという効果がある。
なお、上記実施の形態1では、図9の操作No.2においてユーザの興味が医療関係に絞り込まれたとき、ユーザは、「医療」という代表単語を含むクラスタ4を選択して、選択されたクラスタに含まれる番組一覧を表示させる。このとき、探索漏れ情報抽出部109が抽出した探索漏れ番組が追加されて番組一覧が表示される。これによってユーザは番組一覧の中から医療に関する所望の番組を選択することになる。しかし、本発明はこれに限定されず、例えば、ユーザの興味が医療関係に絞り込まれたとき、ユーザは、クラスタ4に表示されている代表単語の中から「医療」を選択することによって、クラスタ4及び非選択クラスタの中から「医療」という単語を含む番組を抽出するとしてもよい。本発明においては、ユーザの探索対象と推定される探索漏れ情報を抽出し、クラスタに加えるため、その代表単語は本処理を行わない場合に比べ、よりユーザの興味に一致した代表単語が表示される。よって代表単語を用いてキーワード検索を行う際においてもユーザの興味に一致した検索を行うことができる効果を有する。
(実施の形態2)
上記実施の形態1では、ユーザの探索対象が明確化したか否かを、選択クラスタがどれくらい絞られた領域になったかという情報(選択されたクラスタの代表単語のDF値)を基に判断し、明確化したと判断すれば、クラスタ選択の度に抽出しておいた探索漏れ番組を次のクラスタリングまたは一覧表示の対象となる候補番組に加えることで、ユーザの興味に応じた探索漏れ番組の追加を実現した。
以下、本実施の形態2では、探索漏れ番組を毎回抽出するのではなく、ユーザの探索対象の確定度が閾値以上になったときのみ、探索漏れ番組の抽出を行う方法について述べる。これはユーザの興味の対象が明確になったか否かの判断を行い、明確になったと判断されたときのみ探索漏れ番組の抽出を行うということである。さらに本実施の形態2では、探索漏れ情報抽出方法において、抽出結果に明確になったユーザの探索対象以外の番組が入らないように、各単語に重要度を示す重みを付けてベクトルの作成を行う方法について述べる。
図15は、本実施の形態2の情報探索支援装置の構成を示すブロック図であり、図16は、本実施の形態2の情報探索支援装置の基本的な動作を表すフローチャートである。ここで、本実施の形態2の情報探索支援装置は図1の探索漏れ情報追加判定部112を図15の探索漏れ情報抽出判定部1412に変更し、図3のステップS207からステップS211を図16のステップS1507からステップS1512に変更したのみであり、他は実施の形態1と同一である。従って本実施の形態2においては、実施の形態1との相違点を中心に説明する。
以下、図16のステップS1507からステップS1512で行われる探索漏れ情報の抽出・追加処理について、上記実施の形態1と同様に図9に示す具体的なクラスタ選択履歴を例にして説明する。ここで、図9は図7に示されるクラスタ選択履歴の一部の情報をある具体的なシーケンスに対応させて示したものである。
ステップS1507において、探索対象推定部1408はクラスタ選択情報記憶部1407に格納されているユーザのクラスタ選択を基に、ユーザの探索対象の推定を行う。ここでは上記実施の形態1と同様にユーザが選択したクラスタに関係のある単語を抽出し、それを用いてユーザの探索対象を推定する。
ステップS1508において、確定度算出部1411は前記ステップS1507で推定されたユーザの探索対象の確定度をクラスタ選択情報記憶部1407に記憶された情報を基に決定する。この確定度は実施の形態1と同様の方法で計算する。
ステップS1509において、探索漏れ情報抽出判定部1412はステップS1508で計算された確定度を基に、探索漏れ情報の抽出を行うか否かの判定を行う。具体的には確定度が閾値を超えるとユーザの探索対象が明確になったと判断し、探索漏れ情報の抽出を行うと判定する。例えば、前記閾値を5.0とすると、システムが図10(a)の操作No.1の状態のとき、確定度は1.8であり閾値より小さな値であるので、ユーザの探索対象は明確でないと判断し、探索漏れ情報の抽出は行わずにステップS1501へ進む。一方、システムが図10(b)の操作No.2の状態のときは、確定度は9.6であり、閾値5.0より大きな値であるので、探索漏れ情報抽出判定部1412はユーザの探索対象が明確になったと判定し、ステップS1510へ進む。
ステップS1510において、探索漏れ情報抽出部1409は探索漏れ情報の抽出に利用するベクトル(以後単に抽出ベクトル)の作成を行う。この抽出ベクトルは、ユーザの探索対象が明確になったと判断されたときに選択されていたクラスタの代表単語、即ち探索対象推定部1408で獲得した代表単語のベクトルを前記索引語・文書行列から作成し、それらの和を求めることで作成する。なお、表示情報として、図4のようにクラスタ毎にそのクラスタに含まれる代表番組名も表示している場合は番組名に含まれる単語を利用して抽出ベクトルを作成しても良いし、出力画面には表示されてはいないが、クラスタに含まれる番組の情報において利用されている単語の中からクラスタとの関連が強い単語をTF値やDF値、IDF値などを利用して抽出ベクトルを作成しても良い。
なお、「前記出力画面には表示されていないが、クラスタに含まれる番組の情報」とは、図4の例でいうと、表示されている5つの代表番組以外の番組のタイトルや番組内容に含まれる単語である。
作成された抽出ベクトルはステップS1509での判定結果と共にクラスタ選択情報記憶部1407に保存される。図17は、図9及び図10の操作シーケンスに対応して保存されるデータ例を示す図である。項目1601は操作No.であり、項目1602はステップS1509で行われる探索漏れ情報抽出判定部1412による探索漏れ情報抽出判定の結果であり、項目1603は作成された抽出ベクトルであり、項目1604は過去に作成された抽出ベクトルとの距離をいつ(どの操作No.のときに)作成された抽出ベクトルとの距離かの情報も含めて格納したものである。図17に示すように、項目1601が操作No.1のときでは、確定度(1.8)が閾値(5.0)より小さい値であるので、項目1602、項目1603及び項目1604のいずれにもデータがない。これに対し、操作No.2のときでは、確定度(9.6)が閾値(5.0)以上であるので、項目1602には「確定度は閾値以上」という探索漏れ情報抽出判定結果が記述され、項目1603には「(・・・)」という抽出ベクトルが記述される。また、例えば、操作No.2の状態でさらに再分割が行なわれた場合には、操作No.3で項目1602には「確定度は閾値以上」という探索漏れ情報抽出判定結果が記述され、項目1603には「(・・・)」という抽出ベクトルが記述される。さらに、項目1604には過去抽出ベクトルとの距離として、過去抽出ベクトルの操作No.である「2」と、操作No.2の項目1603の抽出ベクトル「(・・・)」と操作No.3の項目1603の抽出ベクトル「(・・・)」との距離である「0.7」とが記述される。
なお、ここで、探索漏れ情報抽出部1409が抽出ベクトルを作成する際には、探索漏れ情報の抽出結果に、明確になったユーザの探索対象以外の番組が入らないように、各単語に重要度を示す重みを付けてベクトルの作成を行う。探索漏れ情報抽出部1409は、「探索漏れ情報の抽出に利用する代表単語の重要度を決定し、前記重要度は、前記代表単語が出現する探索対象の情報の内容を表す文書の数が小さくなるほど重要であると決定し、決定した重要度に応じた重み付けをした代表単語から抽出ベクトルを作成する前記探索漏れ情報抽出手段」の一例である。この単語の重要度はユーザの探索対象が明確になったという判断がされているため、多くの番組と関係する単語ほど重要度が小さな値になるようにクラスタの代表単語のDF値の逆数を利用する。例えば、システムが図10(b)に示す操作No.2の状態において、探索漏れ番組を抽出する際には、単語「あした」にはα・(1÷9)を、単語「地域」にはα・(1÷16)を重要度とする(αは定数)。この方法により多くの番組に関係する単語の影響が少なくなるため、抽出結果が大量になってしまうのを防ぐことができる。
さらに、上記選択クラスタの代表単語のみではなく、これまで選択してこなかったクラスタの代表単語(以後単に、非選択クラスタの代表単語と記述)を利用してもよい。具体的には、非選択クラスタの代表単語に関してもベクトル化し、選択されたクラスタの代表単語と足して抽出ベクトルを作成する。但し、非選択クラスタの代表単語はユーザが興味を持たなかった単語であるので、その重要度は負とする。ここで、非選択クラスタの代表単語では、具体的番組が明確であるDF値が低い単語ほど負の値が大きくなるように、DF値の値に反比例した負の重要度を設定する。また、情報探索開始から全ての非選択クラスタの代表単語を利用してもよいし、現在から一定回前までの非選択クラスタ代表単語を利用してもよい。
また、代表単語の種類によって重要度の決定を行ってもよい。代表単語の種類とはEPG等でタグ付けされている単語の種類であり、例えば「人物名」「ジャンル」などであり、「ジャンル」の場合はさらに「大ジャンル」「中ジャンル」「小ジャンル」などに分かれている。重要度としては、上記DF値を利用した場合と同様の考え方でユーザの探索対象が明確になったとして「大ジャンル」「中ジャンル」「小ジャンル」の順に重要度は大きくなるように設定する。一方、「人物名」はDF値に関わらず番組の内容をある程度明確に想像することが可能であるという性質を持つので、DF値に関わらず大きな値に設定する。例えば、上記DF値を用いた重要度計算方法において、代表単語の中で最も高い値と同値を「人物名」には付与する。非選択クラスタ代表単語に関しては上記選択代表単語と逆の考え方で「大ジャンル」「中ジャンル」「小ジャンル」の順に負の値を大きくし、「人物名」に関しても非選択単語の中で最も小さな値(負の値が大きい)を付与する。
ステップS1511において、探索漏れ情報抽出部1409はこれまで作成した抽出ベクトルと現操作No.で作成された抽出ベクトルとの距離を計算し、クラスタ選択情報記憶部1407に保存する(図17の項目1604)。そして、両ベクトルの距離が閾値以上である場合、既にこの単語集合による探索漏れ番組の抽出は既に行われていると判断し、ステップS1501に進み、探索漏れ番組の抽出は行わない。一方、ステップS1511の判定において、両ベクトルの距離が閾値より小さい場合、ステップS1512へ進み探索漏れ番組の抽出を行う。例えばステップS1511の判定において、両ベクトルの距離の閾値を0.5とした場合、図17の操作No.2の抽出ベクトルと操作No.3の抽出ベクトルの距離は0.7であり閾値よりも大きいため、図17の操作No.2の抽出ベクトルと操作No.3の抽出ベクトルは近いと判断され、操作No.3においては探索漏れ番組の抽出を行わない。なお、これまでに作成した探索漏れ番組の抽出に使用したベクトルが複数ある場合、最も距離が近いベクトルとの差をこの判断に利用する。なお、仮に両ベクトルの距離が0.5より小さい場合には、操作No.2の抽出ベクトルと操作No.3の抽出ベクトルは遠いと判断されるため、操作No.3において探索漏れ番組の抽出を行う。このように、操作ごとに探索漏れ番組の抽出を行なうか行なわないかを判断して、探索漏れ番組の抽出を行なうため、操作No.2と操作No.3との間で探索対象が変化した場合には、探索漏れを抽出し、操作No.2と操作No.3との間で探索対象が変化していない場合には、DF値や番組数がある一定以下に少なくなっても探索漏れを抽出しないようにすることが可能となる。以上のような動作によって、探索対象が動的に変化した場合にも対応した探索漏れ番組の抽出が可能となる。
ここで、ベクトルの距離は例えばベクトルの内積により定義するので距離は大きいほど近い、すなわち両ベクトルは類似しているとする。
ステップS1512において、まず探索漏れ情報抽出部1409は作成された前記抽出ベクトルを用いて非選択の番組領域から探索漏れ番組の抽出を行い、その結果を探索漏れ情報記憶部1410に格納する。具体的には索引語・文書行列から非選択の番組に対するベクトルを作成し、前記抽出ベクトルとの距離を計算し、閾値以上の距離を持つ番組をユーザにとって明確となった探索対象に関する番組として抽出する。なお、抽出する数は閾値により決定するのではなく、実施の形態1で述べたように現在の選択クラスタ内の番組数や現在の全対象番組数に応じて決定してもよい。
さらに、現在の選択クラスタ内の番組に対するベクトルと抽出ベクトルとの距離を求め、探索漏れ番組の抽出で抽出した番組に対するベクトルと抽出ベクトルとの距離と比較し、もし、探索漏れ番組の抽出により得られた番組の方が抽出ベクトルとの距離が大きい場合、現在の選択番組数を越えない範囲で現在の選択番組と入れ替えても良い。これにより、より探索対象が明確となったユーザの探索対象に適した番組に絞り込むことが可能となる。
次に制御部1317は、ステップS1504で候補情報記憶部1406に記憶された選択されたクラスタに含まれる番組に加え、本ステップで探索漏れ情報記憶部1410に格納された探索漏れ番組を追加し、ステップS1501へ進み、次のクラスタリングの処理へと続く。
このように本実施の形態2の情報探索支援装置によれば、上記の動作により、ユーザの選択情報(クラスタ選択履歴)からユーザの探索対象が明確になったか否かを自動的に判定することができるとともに、探索対象が明確になったかまたは変化したと推定される時点で、明確になったまたは変化した探索対象と関係があるにもかかわらずこれまでの選択で取りこぼされたと考えられる番組を自動的に抽出することができる。これにより、これまでの選択で取りこぼされたと考えられる番組を、現在選択されている探索対象に加えることが可能となる。従って、ユーザの探索対象に一致する番組をより多くユーザに提示することができる。さらに、探索漏れ番組の抽出に利用する各単語に重要度を付与して抽出を行うため、明確になったユーザの探索対象以外の番組が探索漏れ情報として抽出されることを低減することができるという効果がある。
(実施の形態3)
上記実施の形態1及び2では、ユーザの探索対象が明確になったか否かを、選択クラスタがどれくらい絞られた領域になったかという情報(DF値)を用いて定義した確定度を基に判断し、探索漏れ番組の抽出を実現している。しかし、この場合では、急速に選択クラスタが絞り込まれた場合にはユーザの探索対象が明確になったことを容易に判断できるが、徐々に絞り込まれている場合には、判断が容易でないという問題がある。
そこで、本実施の形態3では、ユーザの絞込み領域が明確になると、ユーザは一貫性のある単語を含むクラスタを選ぶようになるという特徴を利用して、ユーザの探索対象が明確になったか否かを判定する。具体的には、ユーザの探索対象の確定度を、ユーザが選択する代表単語にどのくらい一貫性があるかという情報を基に定量化し、その値をもとに探索対象が明確になったか否かを判定する方法について述べる。本手法では、選択された代表単語の一貫性を用いてユーザの探索対象の確定度を決定するため、クラスタの代表単語のDF値や対象番組数に依存せず、ユーザの探索対象の確定度を計算することが可能となる。
本実施の形態3と上記実施の形態2との相違点は、ステップS1501で作成するデータと、ステップS1509の探索対象が確定したか否かの判断に必要なデータと、ステップS1508の確定度の計算方法と、ステップS1510の探索漏れ番組の抽出に利用する抽出ベクトルの作成方法と、ステップS1512の探索漏れ番組の抽出方法が異なるというものであり、他は実施の形態2と同一である。従って本実施の形態においては、その相違点を中心に説明する。
なお、本実施の形態3で説明する確定度の計算方法及び探索漏れ番組抽出用のベクトルの作成は上記実施の形態1及び2で説明した計算方法及び抽出ベクトルの作成方法とは独立であるので、両手法を併用してもよい。
図16のステップS1501において、まず、情報データ作成部1403は索引語・文書行列に加え、索引語・文書行列に対して特異値分解を行い、次元圧縮を行った行列を作成する。次に、前記次元圧縮された行列を利用して索引語と文書を圧縮した次元のベクトルで表現し、これを情報データ記憶部1404に格納する。
前記圧縮した行列を基に作られる索引語ベクトルや文書ベクトルを用いて、索引語間の意味的距離を求めたり、索引語から文書を意味的類似度に基づいて検索したりすることが可能となる。これらの技術は潜在的意味解析(Latent Semantic Analysis;LSA)や潜在的意味インデキシング(Latent Semantic Indexing ; LSI)と呼ばれる(非特許文献2:日本知能情報ファジィ学会誌 Vol.17、No.1 p.76(2005)、非特許文献3:情報検索アルゴリズム(共立出版) p.65(2002))。この手法により単語間や単語・文書間の意味的類似度を定量化できると共に、抽出速度の向上が図れる。
以下、探索漏れ番組の抽出判定及び抽出方法について、図18に示すクラスタ選択履歴を例にして説明する。なお、図18は上記実施の形態1の図9と同様にある具体的な操作シーケンスに対応してクラスタ選択情報記憶部1407に格納される図7に示される選択情報に関するクラスタ選択履歴の一部の情報を示す図である。
探索漏れ番組の抽出判定及び抽出方法について、図16のフローチャートを用いて説明する。
ステップS1507において、まず探索対象推定部1408はクラスタ選択情報記憶部1407に格納されるユーザのクラスタ選択を基にユーザの探索対象を推定するための条件を取得する。ここで上記実施の形態1及び2と同様に、探索対象推定部1408は、ユーザが選択したクラスタの代表単語を抽出し、抽出された代表単語に基づいて抽出される番組をユーザの探索対象であると推定する。次に探索漏れ情報抽出部1409は、選択されたクラスタの各代表単語のベクトルを抽出し、そのベクトルを足し合わせることで選択されたクラスタの抽出ベクトルを作成し、クラスタ選択情報記憶部1407に格納する。
ステップS1508において、確定度算出部1411は、「前回選択されたクラスタを代表する代表単語と、今回選択されたクラスタを代表する代表単語との意味的類似度を算出し、算出した意味的類似度が大きくなるほど前記確定度が大きくなる計算式に従って、前記確定度を算出する前記確定度算出手段」の一例であり、前回選択されたクラスタの代表単語ベクトルと今回作成されたクラスタの代表単語ベクトルとの距離を求める。この距離をユーザの探索対象の確定度として、その結果をクラスタ選択情報記憶部1407に保存する。
ステップS1509において、ステップS1508で計算された確定度を基に、ユーザの探索対象が明確になったか否か、すなわち、探索漏れ番組の抽出を行うか否かの判断を行う。具体的には確定度が閾値以上である場合、探索漏れ番組の抽出を行う。
図19は、図18に示したクラスタ選択履歴に対応して、選択された各クラスタのより詳細な内容を示す図である。すなわち、図19に図18で示されるクラスタ選択履歴のシーケンスに対して、ステップS1507で作成された選択クラスタの代表単語ベクトルと、本ステップで計算される前回の選択代表単語ベクトルとの距離と、ステップS1510で生成される抽出ベクトルをクラスタ選択情報記憶部1407に格納したデータ例を示す。ここで、項目1801はステップS1507で作成される選択クラスタの代表単語ベクトルであり、項目1802は一つ前に選択されたクラスタの代表単語ベクトルと今回選択されたクラスタの代表単語ベクトルとの距離であり、項目1803はステップS1510で作成される探索漏れ番組抽出用の抽出ベクトルである。
図19(b)の表を見れば、例えばシステムが図18の操作No.1の状態で選択されたクラスタ1の代表単語ベクトルと、システムが図18の操作No.2の状態で選択されたクラスタ2の代表単語ベクトルとの距離は0.2であることが分かる。
今、探索漏れ番組抽出の判断に利用する閾値を0.5とすると、ステップS1509において、図19の操作No.2の再分割実行時にも図19の操作No.3の再分割実行時にも閾値を超える値があるので、ステップS1510へ進む。
なお、本実施の形態ではユーザが一貫性のある代表単語を含むクラスタを選ぶようになると、ユーザの絞込みが明確になったと判断し、探索漏れ番組の抽出を行う。以下では、その具体例について述べる。この一貫性のある単語を含むクラスタを選んでいるか否かの判断は、前回選択されたクラスタの代表単語と今回選択された代表単語の類似度を確定度として計算することにより行う。この確定度は似た単語を選ぶほど高くなるような定義をすればよいので、上記のクラスタの代表単語ベクトル間の距離を確定度の定義とするほかに、確定度の定義として前回選択されたクラスタと今回選択したクラスタの代表単語間で、同じ代表単語の含まれる数や割合を利用してもよいし、上記索引語の単語ベクトルを用いて各単語間の距離を求め、一定値以上の距離を持つ単語の数や割合を利用してもよい。
ステップS1510において、探索漏れ情報抽出部1409は探索漏れ番組の抽出に利用するベクトル(以後単に抽出ベクトル)を選択クラスタごとに作成する。但し、ここで作成される抽出ベクトルはステップS1507で前回の選択クラスタと一貫性があると判定された選択クラスタのみに対してであり、例えば図19の操作No.2の状態ではクラスタ2とクラスタ3が選択されているが、前回の選択クラスタの代表単語ベクトルとの距離が閾値0.5以上あるものとしてはクラスタ2のみであるので、図19の操作No.2の状態ではクラスタ2に対してのみ抽出ベクトルを作成する。同様に図19の操作No.3の状態ではクラスタ2とクラスタ4について抽出ベクトルを作成する。
抽出ベクトルは選択クラスタの代表単語ベクトルと同様に、選択されたクラスタの代表単語を基に作成するが、抽出ベクトルを作成する際には、明確になったユーザの探索対象以外の番組が探索漏れ番組の抽出結果に入らないように、各単語に重要度を示す重みを付けて抽出ベクトルの作成を行う。
この重要度は一貫性のある単語ほど大きくなるような定義を行う。これは、一貫性があると判断された前回の選択クラスタの代表単語と意味的に近い単語に大きな重要度を与えることで実現できる。探索漏れ情報抽出部109は、「前回選択されたクラスタと今回選択されたクラスタとの間でクラスタを代表する代表単語の意味的類似度を算出し、算出された意味的類似度が大きいほど選択されたクラスタを前記代表単語の一貫性が強いと判定し、前記代表単語の一貫性が強いほど探索漏れ情報の抽出に利用する代表単語の重要度が高くなるように前記代表単語の重要度を決定し、決定した重要度に応じた重み付けをした前記代表単語から抽出ベクトルを作成する前記探索漏れ情報抽出手段」の一例である。例えば一貫性があると判断された前回の選択クラスタの代表単語ベクトルと、抽出ベクトル作成の対象となる各代表単語との距離をそれぞれ計算し、距離が近い単語ほど大きな重要度を付与してもよいし、一貫性があると判断された前回の選択クラスタの代表単語と抽出ベクトル作成の対象となる各代表単語との距離を計算し、最大値が大きい単語ほど重要度を大きくしてもよい。
なお、前回の複数の選択クラスタに対して代表単語ベクトル間の距離が閾値を超える選択クラスタがあった場合、最も距離が近い前回の選択クラスタを対象にして単語の重要度を決定しても良いし、全てのクラスタに対して上記方法で重要度を計算し、その結果に代表単語ベクトル間の距離を掛け合わせて新たな重要度としても良い。
ステップS1511において、探索漏れ情報抽出部1409はこれまで作成した抽出ベクトルと現操作で作成された抽出ベクトルとの距離を計算し、クラスタ選択情報記憶部1407に保存する。図20は、過去のクラスタリングにおいて作成された抽出ベクトルと、次のクラスタリングにおいて作成された抽出ベクトルとの関係を示す図である。ステップS1511で計算された抽出ベクトル間の距離は、図20の項目1905に記録される。そして、両ベクトルの距離が閾値以上である場合、既にこの単語集合による探索漏れ番組の抽出は行われていると判断し、ステップS1501に進み、探索漏れ番組の抽出は行わない。一方、両ベクトルの距離が閾値より小さい場合、ステップS1512へ進み探索漏れ番組の抽出を行う。例えば閾値を0.5とした場合、図20の操作No.3の状態において、クラスタ2の抽出ベクトルは前回抽出ベクトルである操作No.2のクラスタ2の抽出ベクトルとの距離が0.7と閾値以上であるため、既に抽出済みだと判断し、探索漏れ番組の抽出は行わない。一方、同じ状態において、クラスタ4の抽出ベクトルは前回抽出ベクトルとの距離が0.0と閾値よりも小さいため、まだ抽出をしたことが無いと判断し、このベクトルを用いて探索漏れ番組の抽出を行うと判断する。もし、これまでに作成した探索漏れ番組の抽出に使用したベクトルが複数ある場合、最も距離が近いベクトルとの差を利用し、既に抽出を行ったか否かの判断を行う。
ステップS1512において、まず探索漏れ情報抽出判定部1412は作成された前記抽出ベクトルを用いて非選択のクラスタに属する番組領域の番組に対して探索漏れ番組の抽出を行い、その結果を探索漏れ情報記憶部1410に格納する。具体的には図20の操作No.2ではクラスタ2の代表単語を用いて作成した抽出ベクトルを用いて取りこぼしの抽出を行い、図20の操作No.3ではクラスタ4の代表単語を用いて作成した抽出ベクトルを用いて非選択のクラスタに属する番組から探索漏れ番組の抽出を行い、その結果を格納する。
ここで、図20の操作No.3における探索漏れ番組の抽出では、図20の操作No.2のクラスタ2と図20の操作No.3のクラスタ4とで代表単語及び番組数の変化は殆ど無いが、上記方法により、ユーザの興味が確定したことを判断できる。
次に制御部1317は、ステップS1504で候補情報記憶部1406に記憶された、選択されたクラスタに含まれる番組に加え、本ステップで探索漏れ情報記憶部1410に格納された探索漏れ番組を追加し、ステップS1501へ進み、次のクラスタリングの処理を行う。
以上のように、ユーザが選択したクラスタの代表単語に一貫性があるか否かに基づいて、探索対象が確定したか否かの判断基準となる確定度を定義することによって、探索対象が明確になったかまたは変化したと推定される時点で、明確になったかまたは変化した探索対象に関する番組で、かつ、これまでの選択によって取りこぼされたと考えられる番組を自動的に抽出し、現在の探索対象に加えることが可能となる。このため、ユーザの操作負担を増加することなく、しかもユーザの興味を持った番組の「見落とし」や「取りこぼし」を減らすことができる。
さらに単語の一貫性を用いて探索漏れ番組の抽出の実行判断を行うので、探索対象が明確になったにもかかわらず、選択クラスタの番組数や代表単語のDF値が徐々にしか変化しない場合でも、精度良く探索対象の明確化の判断が可能となる。
また単語の一貫性を用いて抽出時に利用する単語の重要度を決定しているので、ユーザが絞り込みで重要だと考える単語に対して正しく重要度を付与することが可能となり、精度の良い探索漏れ番組抽出が可能となる。
本実施の形態1から3における構成により実現される自動的にユーザが興味を持つ情報を収集し選択クラスタに追加するという処理は、システムの操作方法を変えることなくその結果を反映することが可能となるため、ユーザは一貫した操作方法により興味のある情報を精度良く取得できる。このように同一操作により探索を行うことは、ユーザの興味が明確になった後、ユーザ自らキーワード検索を行うインタフェースに比べて、検索キーワード及びその組み合わせについてユーザが作成する負荷を与えないだけではなく、検索思考の変更を必要としないという効果を奏する。
さらに、本手法では、ユーザの興味領域を選択したクラスタに関する情報から自動で推定しているため、キーワード検索のようなユーザ主導の検索では実現できない、ユーザ自身も気づいていない可能性があるユーザの興味対象に対して自動的に関連情報を収集することを可能とする。
なお、上記実施の形態1から3では情報探索支援の具体的な例として、番組の探索に対する絞り込み動作の説明を行ったが、クラスタリングにより自動分類を行い、代表単語をもとにクラスタをユーザが選択することで、絞込みを行うシステムであれば、本技術は利用可能である。例えば新聞記事、マニュアルの機能説明、及びWebサイトの商品情報などの情報の探索支援にも利用可能である。
本発明は、ユーザの探索対象が明確になっていないときに、大量の文書やメタデータが付与されたコンテンツなどの中からユーザが興味を持つ情報を見つけることを支援する情報探索装置に対して利用可能であり、番組コンテンツや音楽コンテンツ、記事や商品の情報、機器の機能などの探索装置に対する探索支援技術及びGUIとして、その利用可能性は非常に大きい。
図1は、本実施の形態1における情報探索支援装置の構成を示すブロック図である。 図2は、本実施の形態1における情報探索支援装置の動作の主旨を示す図である。 図3は、本実施の形態1の情報探索支援装置がEPG(Electric Program Guide)のデータを利用し、特に明確に見たいと思っている番組がないユーザが大量の番組の中から興味のある番組を見つけることを支援する動作を示すフローチャートである。 図4は、クラスタリング実行部によって決定されたクラスタが出力部より出力される画面例を示す図である。 図5は、クラスタリング実行部によって決定されたクラスタが出力部より出力される場合の他の画面例を示す図である。 図6は、クラスタリング実行部によって決定されたクラスタが出力部より出力される場合のさらに他の画面例を示す図である。 図7は、図4の画面例で再分割が実行されたときに作成され、クラスタ選択情報記憶部に格納される一操作に対するクラスタ選択履歴の具体例を示す図である。 図8は、候補情報記憶部に格納される選択されたクラスタに含まれる番組に関する情報の例を示す図である。 図9は、図7に示されるクラスタ選択履歴の一部の情報をある具体的なシーケンスに対応させて示す図である。 図10(a)及び(b)は、図9で示される具体的操作シーケンスに対応した確定度の算出に必要なデータの具体例を示した図である。 図11は、探索漏れ番組を抽出して再分割の対象に追加したことを表示する出力画面の一例を示す図である。 図12は、探索漏れ番組の追加を行なわずに、図9の操作No.2、クラスタ番号4に属する13番組の中から医療に関する番組を抽出した場合の抽出結果(番組一覧)を示す図である。 図13は、図9の操作No.1及び操作No.2で選択されなかったクラスタの中から医療に関する番組を抽出した結果を示す図である。 図14は、図13に示した8件の医療に関する番組が、どのクラスタに属していたのかを示す情報を図9のクラスタ選択履歴に加えた結果を示す図である。 図15は、本実施の形態2の情報探索支援装置の構成を示すブロック図である。 図16は、本実施の形態2の情報探索支援装置の基本的な動作を表すフローチャートである。 図17は、図9及び図10の操作シーケンスに対応して保存されるデータ例を示す図である。 図18(a)(b)(c)は、ある具体的な操作シーケンスに対応してクラスタ選択情報記憶部に格納される、図7に示される選択情報に関するクラスタ選択履歴の一部の情報を示す図である。 図19(a)(b)(c)は、図18に示したクラスタ選択履歴に対応して、選択された各クラスタのより詳細な内容を示す図である。 図20は、過去のクラスタリングにおいて作成された抽出ベクトルと、次のクラスタリングにおいて作成された抽出ベクトルとの関係を示す図である。
符号の説明
101、1401 入力部
102、1402 テキストコーパス記憶部
103、1403 情報データ作成部
104、1404 情報データ記憶部
105、1405 クラスタリング実行部
106、1406 候補情報記憶部
107、1407 クラスタ選択情報記憶部
108、1408 探索対象推定部
109、1409 探索漏れ情報抽出部
110、1410 探索漏れ情報記憶部
111、1411 確定度算出部
112 探索漏れ情報追加判定部
1412 探索漏れ情報抽出判定部
113、1413 システム仕様記憶部
114、1414 表示方法決定部
115、1415 出力部
116、1416 タイマ
117、1317 制御部

Claims (8)

  1. 探索対象である情報をクラスタリングして各クラスタの特徴を表す情報を表示し、表示されたクラスタのうちからユーザによって選択されたクラスタに含まれる情報をさらにクラスタリングすることによって選択対象となる情報を絞り込み、ユーザによる情報の探索を支援する情報探索支援装置であって、
    各クラスタの内容に関する情報と、ユーザがどのクラスタを選択したかを示すクラスタ選択履歴情報とを蓄積するクラスタ選択履歴情報蓄積手段と、
    前記クラスタ選択履歴情報蓄積手段に蓄積されている前記クラスタの内容に関する情報および前記クラスタ選択履歴情報を基に、ユーザの探索対象があいまいな状態から明確になった度合いを示す確定度を算出する確定度算出手段と、
    前記ユーザが選択したクラスタの内容に関する情報のうちから、ユーザの探索対象を推定するための条件を取得する探索対象推定手段と、
    表示された前記クラスタのうちでユーザが選択しなかったクラスタに含まれる情報であり、かつ、前記探索対象推定手段が取得した条件から推定される情報群に帰属する情報である探索漏れ情報を、ユーザが選択しなかったクラスタから抽出する探索漏れ情報抽出手段と、
    前記確定度算出手段が算出した確定度が予め定められた閾値以上である場合に、前記探索漏れ情報抽出手段が抽出した前記探索漏れ情報を、ユーザが選択したクラスタに追加する探索漏れ情報追加手段と
    を備えることを特徴とする情報探索支援装置。
  2. 前記探索対象推定手段は、前記条件として、選択されたクラスタを代表する代表単語を取得し、
    前記探索漏れ情報抽出手段は、前記探索対象推定手段が取得した前記代表単語から得られるベクトルを用いて、ユーザが選択しなかったクラスタに含まれる前記情報から前記探索漏れ情報を抽出するための抽出ベクトルを作成する
    ことを特徴とする請求項1記載の情報探索支援装置。
  3. 前記クラスタ選択履歴情報蓄積手段は、各クラスタの内容に関する情報として、選択されたクラスタに含まれる情報の数、表示されたクラスタのうちから選択されたクラスタの数、探索対象の情報の内容を表す文書のうち選択されたクラスタを代表する代表単語を含む文書の数のいずれかを蓄積し、
    前記確定度算出手段は、前記クラスタ選択履歴情報蓄積手段に蓄積されている、クラスタの内容に関するいずれかの情報について、その数が小さくなるほど前記確定度が大きくなる規則に従って、前記確定度を算出する
    ことを特徴とする請求項1記載の情報探索支援装置。
  4. 前記確定度算出手段は、前回選択されたクラスタを代表する代表単語と、今回選択されたクラスタを代表する代表単語との意味的類似度を算出し、算出した意味的類似度が大きくなるほど前記確定度が大きくなる計算式に従って、前記確定度を算出する
    ことを特徴とする請求項1記載の情報探索支援装置。
  5. 前記探索漏れ情報抽出手段は、探索漏れ情報の抽出に利用する代表単語の重要度を決定し、前記重要度は、前記代表単語が出現する探索対象の情報の内容を表す文書の数が小さくなるほど重要であると決定し、決定した重要度に応じた重み付けをした代表単語から抽出ベクトルを作成する
    ことを特徴とする請求項1記載の情報探索支援装置。
  6. 前記探索漏れ情報抽出手段は、前回選択されたクラスタと今回選択されたクラスタとの間でクラスタを代表する代表単語の意味的類似度を算出し、算出された意味的類似度が大きいほど選択されたクラスタを前記代表単語の一貫性が強いと判定し、前記代表単語の一貫性が強いほど探索漏れ情報の抽出に利用する代表単語の重要度が高くなるように前記代表単語の重要度を決定し、決定した重要度に応じた重み付けをした前記代表単語から抽出ベクトルを作成する
    ことを特徴とする請求項1記載の情報探索支援装置。
  7. 探索対象である情報をクラスタリングして各クラスタの特徴を表す情報を表示し、表示されたクラスタのうちからユーザによって選択されたクラスタに含まれる情報をさらにクラスタリングすることによって選択対象となる情報を絞り込み、ユーザによる情報の探索を支援する情報探索支援方法であって、
    クラスタ選択履歴情報蓄積手段が、各クラスタの内容に関する情報と、ユーザがどのクラスタを選択したかを示すクラスタ選択履歴情報とを蓄積するクラスタ選択履歴情報蓄積ステップと、
    前記クラスタ選択履歴情報蓄積ステップで蓄積されている前記クラスタの内容に関する情報および前記クラスタ選択履歴情報を基に、確定度算出手段が、ユーザの探索対象があいまいな状態から明確になった度合いを示す確定度を算出する確定度算出ステップと、
    前記ユーザが選択したクラスタの内容に関する情報のうちから、探索対象推定手段が、ユーザの探索対象を推定するための条件を取得する探索対象推定ステップと、
    探索漏れ情報抽出手段が、表示された前記クラスタのうちでユーザが選択しなかったクラスタに含まれる情報であり、かつ、前記探索対象推定ステップで取得した条件から推定される情報群に帰属する情報である探索漏れ情報を、ユーザが選択しなかったクラスタから抽出する探索漏れ情報抽出ステップと、
    前記確定度算出ステップで算出した確定度が予め定められた閾値以上である場合に、前記探索漏れ情報抽出ステップで抽出した前記探索漏れ情報を、探索漏れ情報追加手段が、ユーザが選択したクラスタに追加する探索漏れ情報追加ステップと
    を含むことを特徴とする情報探索支援方法。
  8. 探索対象である情報をクラスタリングして各クラスタの特徴を表す情報を表示し、表示されたクラスタのうちからユーザによって選択されたクラスタに含まれる情報をさらにクラスタリングすることによって選択対象となる情報を絞り込み、ユーザによる情報の探索を支援する情報探索支援装置のためのプログラムであって、
    各クラスタの内容に関する情報と、ユーザがどのクラスタを選択したかを示すクラスタ選択履歴情報とを蓄積するクラスタ選択履歴情報蓄積ステップと、前記クラスタ選択履歴情報蓄積ステップで蓄積されている前記クラスタの内容に関する情報および前記クラスタ選択履歴情報を基に、ユーザの探索対象があいまいな状態から明確になった度合いを示す確定度を算出する確定度算出ステップと、前記ユーザが選択したクラスタの内容に関する情報のうちから、ユーザの探索対象を推定するための条件を取得する探索対象推定ステップと、表示された前記クラスタのうちでユーザが選択しなかったクラスタに含まれる情報であり、かつ、前記探索対象推定ステップで取得した条件から推定される情報群に帰属する情報である探索漏れ情報を、ユーザが選択しなかったクラスタから抽出する探索漏れ情報抽出ステップと、前記確定度算出ステップで算出した確定度が予め定められた閾値以上である場合に、前記探索漏れ情報抽出ステップで抽出した前記探索漏れ情報を、ユーザが選択したクラスタに追加する探索漏れ情報追加ステップとをコンピュータに実行させる情報探索支援プログラム。
JP2008532533A 2007-05-28 2008-05-14 情報探索支援方法および情報探索支援装置 Expired - Fee Related JP4203967B1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007141103 2007-05-28
JP2007141103 2007-05-28
PCT/JP2008/001208 WO2008146456A1 (ja) 2007-05-28 2008-05-14 情報探索支援方法および情報探索支援装置

Publications (2)

Publication Number Publication Date
JP4203967B1 JP4203967B1 (ja) 2009-01-07
JPWO2008146456A1 true JPWO2008146456A1 (ja) 2010-08-19

Family

ID=40074733

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008532533A Expired - Fee Related JP4203967B1 (ja) 2007-05-28 2008-05-14 情報探索支援方法および情報探索支援装置

Country Status (3)

Country Link
US (1) US8099418B2 (ja)
JP (1) JP4203967B1 (ja)
WO (1) WO2008146456A1 (ja)

Families Citing this family (216)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8775441B2 (en) * 2008-01-16 2014-07-08 Ab Initio Technology Llc Managing an archive for approximate string matching
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
KR101607178B1 (ko) 2008-10-23 2016-03-29 아브 이니티오 테크놀로지 엘엘시 데이터 조작 수행, 데이터 품질 측정, 또는 데이터 요소 결합을 위한 방법, 시스템, 및 컴퓨터 프로그램을 저장하는 컴퓨터 판독 가능한 매체
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8595228B1 (en) 2009-01-09 2013-11-26 Google Inc. Preferred sites
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8676803B1 (en) * 2009-11-04 2014-03-18 Google Inc. Clustering images
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8713021B2 (en) * 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US11544652B2 (en) * 2010-09-01 2023-01-03 Apixio, Inc. Systems and methods for enhancing workflow efficiency in a healthcare management system
US11481411B2 (en) 2010-09-01 2022-10-25 Apixio, Inc. Systems and methods for automated generation classifiers
US11195213B2 (en) 2010-09-01 2021-12-07 Apixio, Inc. Method of optimizing patient-related outcomes
US11694239B2 (en) 2010-09-01 2023-07-04 Apixio, Inc. Method of optimizing patient-related outcomes
US11610653B2 (en) 2010-09-01 2023-03-21 Apixio, Inc. Systems and methods for improved optical character recognition of health records
US20130262144A1 (en) 2010-09-01 2013-10-03 Imran N. Chaudhri Systems and Methods for Patient Retention in Network Through Referral Analytics
JP5495235B2 (ja) * 2010-12-02 2014-05-21 株式会社日立製作所 監視対象者の行動を監視する装置及び方法
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
CN102436482B (zh) * 2011-10-25 2013-08-28 四川九洲电器集团有限责任公司 基于jdl2004架构标准的单源目标估计方法
EP3591538B1 (en) * 2011-11-15 2021-01-20 AB Initio Technology LLC Data clustering, segmentation, and parallelization
US8688728B2 (en) * 2012-02-27 2014-04-01 Hewlett-Packard Development Company, L.P. System and method of searching a corpus
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
JP2013210911A (ja) * 2012-03-30 2013-10-10 Fuji Xerox Co Ltd 情報処理装置、情報処理システム及びプログラム
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
WO2014136173A1 (ja) * 2013-03-04 2014-09-12 三菱電機株式会社 検索装置
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008964B1 (en) 2013-06-13 2019-09-25 Apple Inc. System and method for emergency calls initiated by voice command
US10430809B2 (en) 2013-06-28 2019-10-01 Rakuten, Inc. Information processing apparatus and information processing method for modifying a list associated with a user
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US11003659B2 (en) * 2013-10-25 2021-05-11 Rakuten, Inc. Search system, search criteria setting device, control method for search criteria setting device, program, and information storage medium
JP5568195B1 (ja) * 2013-10-25 2014-08-06 楽天株式会社 検索システム、検索条件設定装置、検索条件設定装置の制御方法、プログラム、及び情報記憶媒体
TWI508561B (zh) * 2013-11-27 2015-11-11 Wistron Corp 電子節目表單之產生裝置及電子節目表單之產生方法
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
KR101581917B1 (ko) * 2014-08-12 2016-01-04 네이버 주식회사 컨텐츠 표시 제어 장치, 컨텐츠 표시 제어 방법 및 이를 컴퓨터에서 실행하기 위한 컴퓨터 프로그램
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
WO2016101133A1 (en) * 2014-12-23 2016-06-30 Microsoft Technology Licensing, Llc Surfacing relationships between datasets
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
WO2016147220A1 (ja) * 2015-03-18 2016-09-22 日本電気株式会社 テキスト可視化システム、テキスト可視化方法、及び、記録媒体
US10489514B2 (en) 2015-03-18 2019-11-26 Nec Corporation Text visualization system, text visualization method, and recording medium
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10789278B1 (en) * 2016-06-30 2020-09-29 Costar Realty Information, Inc. Database search engine optimization
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
JP6872703B2 (ja) 2016-10-17 2021-05-19 パナソニックIpマネジメント株式会社 プログラム生成方法、プログラム生成装置および制御プログラム
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
CN109815475B (zh) * 2017-11-22 2023-03-21 阿里巴巴集团控股有限公司 文本匹配方法、装置、计算设备及系统
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
JP7139728B2 (ja) * 2018-06-29 2022-09-21 富士通株式会社 分類方法、装置、及びプログラム
JP7131130B2 (ja) * 2018-06-29 2022-09-06 富士通株式会社 分類方法、装置、及びプログラム
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
CN111026937B (zh) 2019-11-13 2021-02-19 百度在线网络技术(北京)有限公司 提取poi名称的方法、装置、设备和计算机存储介质
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5265065A (en) * 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
JP2000076282A (ja) 1998-08-31 2000-03-14 Mitsubishi Electric Corp データベース検索装置
US7139762B2 (en) * 2001-02-27 2006-11-21 Microsoft Corporation System and method for filtering database records
JP2003345810A (ja) 2002-05-28 2003-12-05 Hitachi Ltd 文書検索方法、文書検索システム及び文書検索結果示方システム
US7870147B2 (en) * 2005-03-29 2011-01-11 Google Inc. Query revision using known highly-ranked queries
US7730060B2 (en) * 2006-06-09 2010-06-01 Microsoft Corporation Efficient evaluation of object finder queries

Also Published As

Publication number Publication date
JP4203967B1 (ja) 2009-01-07
US8099418B2 (en) 2012-01-17
US20100281036A1 (en) 2010-11-04
WO2008146456A1 (ja) 2008-12-04

Similar Documents

Publication Publication Date Title
JP4203967B1 (ja) 情報探索支援方法および情報探索支援装置
JP4436894B2 (ja) コンテンツ検索装置
US7945864B2 (en) Operation assisting apparatus and operation assisting method
KR101118454B1 (ko) 문서 데이터베이스에서 문서들의 도메인 식별방법
US7801887B2 (en) Method for re-ranking documents retrieved from a document database
US8200667B2 (en) Method and apparatus for constructing user profile using content tag, and method for content recommendation using the constructed user profile
CN105005562B (zh) 检索结果的显示处理方法及装置
JP2011175362A (ja) 情報処理装置、重要度算出方法及びプログラム
JP7252914B2 (ja) 検索提案を提供する方法、装置、機器及び媒体
Arguello Aggregated search
US20140379719A1 (en) System and method for tagging and searching documents
US9165058B2 (en) Apparatus and method for searching for personalized content based on user's comment
JP5952711B2 (ja) 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法
US7949959B2 (en) Target estimation device and target estimation method
JP2011210090A (ja) 情報推薦装置、情報推薦方法およびプログラム
CN104376034B (zh) 信息处理设备,信息处理方法和程序
JP5918714B2 (ja) 文献検索装置、文献検索方法、プログラム、および文献検索システム
JP5056542B2 (ja) コンテンツ表示方法、コンテンツ表示装置およびコンテンツ表示プログラム
JP2007316803A (ja) 操作支援装置および操作支援方法
JP4134975B2 (ja) 話題文書提示方法及び装置及びプログラム
Hoxha et al. Towards a modular recommender system for research papers written in albanian
JP2014146076A (ja) 文字列抽出方法、文字列抽出装置、および文字列抽出プログラム
JP5574775B2 (ja) アイデア整理支援装置およびアイデア整理支援プログラム
JP2005234732A (ja) 文書管理装置および方法
KR20190134230A (ko) 콘텐츠 추천어 제공 방법 및 그 콘텐츠 제공 장치

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080916

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081008

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111024

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121024

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131024

Year of fee payment: 5

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees