JPWO2007088893A1 - 情報分類装置および情報検索装置 - Google Patents

情報分類装置および情報検索装置 Download PDF

Info

Publication number
JPWO2007088893A1
JPWO2007088893A1 JP2007556892A JP2007556892A JPWO2007088893A1 JP WO2007088893 A1 JPWO2007088893 A1 JP WO2007088893A1 JP 2007556892 A JP2007556892 A JP 2007556892A JP 2007556892 A JP2007556892 A JP 2007556892A JP WO2007088893 A1 JPWO2007088893 A1 JP WO2007088893A1
Authority
JP
Japan
Prior art keywords
category
information
candidate
combination
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007556892A
Other languages
English (en)
Other versions
JP4808736B2 (ja
Inventor
前田 茂則
茂則 前田
崇 西森
崇 西森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2007556892A priority Critical patent/JP4808736B2/ja
Publication of JPWO2007088893A1 publication Critical patent/JPWO2007088893A1/ja
Application granted granted Critical
Publication of JP4808736B2 publication Critical patent/JP4808736B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本発明は、ユーザの嗜好や興味に基づいて情報が収集された場合でも、ユーザが所望する情報を高速に検索することができる情報検索装置等を提供する。分類項目生成部(121)〜(12N)の各々が異なる分類観点(情報の内容又は属性)に基づき情報を多数の分類項目に分類し、前記分類項目をカテゴリ生成部(13)で組み合わせて種々のカテゴリを生成する。カテゴリ組合せ探索部(14)で所定数ずつ前記カテゴリを組み合わせて所属情報の数が最も均等に近いカテゴリ組合せを生成する。このカテゴリ組合せで情報の絞込みを行えば、ユーザが検索目標とする情報にたどり着くまでの操作数(具体的には、カテゴリを選択したりカテゴリ内の検索目標とする情報を探したりするための操作数)を最少に抑えることができるので、より高速な検索が可能となる。

Description

本発明は、大量の情報をその内容又は属性によって複数のカテゴリに分類する情報分類装置、および分類されたカテゴリに基づいて情報を検索する情報検索装置に関するものである。
近年、情報の多様化および記憶媒体の大容量化に伴い、個人が管理する情報の数が膨大となる場合も少なくなく、大量の情報をその内容に基づいて効率的に検索できる情報検索装置の重要性が増大している。情報検索装置において、ユーザが検索したい情報を特定するための方式には種々の方式がある。従来、一般に使われている方式には、検索に用いるキーワードを指定する「キーワード指定方式」、情報を一覧表示する際のパターンを指定する「並び替えパターン指定方式」、情報の内容を表すカテゴリを一覧から選択する「カテゴリ選択方式」がある。
キーワード指定方式では、ユーザは検索したい情報そのものに含まれるフレーズ、もしくは検索したい情報(検索目標の情報)にタグとして付与されているフレーズ、即ちキーワードを推定して入力を行う。このとき、入力したキーワードが適切であれば非常にすばやく目的の情報を得ることができる。しかし、一般にキーワードには幾通りかの言い換えがあるので、照合できなかったり、照合できても該当する情報が大量にあって精査に時間がかかったりする場合がある。すなわち、適切なキーワードを推定することは困難であり、ユーザは試行錯誤を余儀なくされるので、必ずしも効率的に検索できるとはいえない。
また、情報を一覧表示させる際に並び替えパターンを選択する並び替えパターン指定方式では、情報の作成日時順や表題の五十音順など幾つかの用意された並び替えパターンからユーザが任意に並び替えパターンを選択し、情報一覧表における情報の並び替えを行うものである。この並び替えパターン指定方式では、一覧表に含まれる情報が多くなると、いずれの並び替えパターンでも上位に出現しない情報が多数となり、効率的に検索できない場合が多くなる。
これに対し、適切なキーワードが想起できない場合でも大量の情報を検索できる方式として、内容の意味的距離に基づき階層構造を成すよう整理されたカテゴリ群に情報を分類し、ユーザが階層を追ってカテゴリを選択していくことで情報を絞り込む「カテゴリ選択方式」がある。このカテゴリ選択方式では、ユーザが所有する情報又は検索対象範囲に指定される情報によって、効率的に検索できるカテゴリ構成が異なる。そのため、ユーザが所有する情報又は検索対象範囲に指定される情報に応じてカテゴリの階層構造を自動的に構成する技術が提案されている(例えば、特許文献1、2および3参照)。
上記特許文献1では、予め用意された階層構造を成すカテゴリそれぞれに対して重要度を設定し、重要度が大きいカテゴリのみを選択することで、限られた画面内でユーザに合わせたカテゴリを提示する手法が提案されている。また、特許文献2では、テキストから抽出したキーワードをその意味関係に基づいてクラスタリングしてトピックを表すカテゴリを生成し、それらをユーザが選択可能なように階層的なマップ形式で提示する手法が提案されている。
一方、これらカテゴリの階層構造の自動構成技術においては、生成されるカテゴリの大きさ(そのカテゴリに含まれる情報の数)に大きな偏りが生じ、分類結果の一覧性が悪くなる。そのため、カテゴリ内から検索目標の情報を探し出したり、情報を絞り込むためにカテゴリを選択したりするのに必要な操作数や労力が増大するという課題がある。すなわち、カテゴリが大きすぎれば、そのカテゴリを選択して情報を絞り込んでも、なおその配下に多数の情報が含まれるため、検索目標の情報を見つけ出すのが困難になる。逆に、カテゴリが小さすぎれば、全ての情報をいずれかのカテゴリに分類するためにカテゴリが多く必要になるので、カテゴリの選択自体が困難になるという問題が生じる。この課題に対し、特許文献3では、カテゴリの階層構造を情報の意味的距離に基づいて生成した後、各カテゴリの大きさなどに基づいてスコアを計算し、スコア総計が最大となる階層を決定し、その階層からスコアの大きいカテゴリを所定の数だけ採用することにより、ユーザに提示するカテゴリの大きさの偏りを小さくする手法が提案されている。
特開平09−297770号公報 特表2001−513242号公報 特開2005−63157号公報
従来のカテゴリ階層構造自動生成技術では、カテゴリ間の意味的距離に基づいて構成された階層構造を基本にしているため、同一階層内でユーザに提示されるカテゴリの抽象度、すなわちカテゴリが指し示す概念の広さが一様になる。上記のように構成された分類構造では、図書館や商品カタログなど、多くの人の要望に応えるために広く収集された情報に対しては、カテゴリの抽象度とカテゴリの大きさとはある程度の相関が期待できる。したがって、カテゴリの抽象度を一様に保つことでカテゴリの大きさの偏りを十分小さくできると考えられる。
しかしながら、ユーザが嗜好や興味に基づいて収集した情報に対しては、ユーザの嗜好や興味により生じる情報の偏りを考慮することが必要となる。すなわち、ユーザが強い嗜好や興味をもつ分野ほど情報が多く収集されるため、カテゴリの抽象度を一様に保とうとすれば、ユーザが強い嗜好や興味を持つ分野の情報を格納するカテゴリが、それ以外の情報を格納するカテゴリに比べて大きくなりすぎてしまう。以下、この点について詳しく説明する。
図1は、カテゴリをユーザに選択させる際のユーザインタフェース例を示す図である。ここでは、ユーザがサッカーに強い興味をもつ場合を想定している。まず、図1(A)に示すように、「地上波映画」「BS映画」「ドラマ」「スポーツ」等のジャンルとともに、それぞれのジャンルに属する番組の数「5」「24」「12」「37」が提示される。この状態でユーザが「スポーツ」を選択すると、図1(B)に示すように、スポーツに属するサブジャンル「野球」「サッカー」「ゴルフ」等が提示される。ここで、「サッカー」に属する番組の数は30であるのに対して、「野球」に属する番組の数は1、「ゴルフ」に属する番組の数は0である。すなわち、ユーザが強い嗜好や興味を持つ分野の情報を格納するカテゴリが、それ以外の情報を格納するカテゴリに比べて大きくなりすぎてしまう。
以上のことから明らかなように、従来のカテゴリの抽象度を一様にするカテゴリ階層構造自動生成技術では、ユーザの嗜好や興味の強弱に伴って特定のカテゴリに情報が集中することが避けられず、検索時において十分に情報を絞り込むことができない。このため、多くの情報の中から検索目標の情報を探さなければならなかったり、情報を絞り込むために多くのカテゴリを選択しなければならなかったりして、高速かつ有効な検索ができないという課題を有している。
本発明は、上記課題に鑑みてなされたものであり、ユーザの嗜好や興味に基づいて膨大な情報が収集された場合でも、ユーザが所望する情報を高速に検索することができる情報検索装置や、高速な検索を可能にするために情報を効果的に分類することができる情報分類装置等を提供することを目的とする。
上記課題を解決するために、本発明に係る情報分類装置は、情報を分類する情報分類装置であって、情報を記録する情報記憶手段と、前記情報記憶手段に記録されている情報の内容又は属性を抽出する情報抽出手段と、前記情報抽出手段によって抽出された情報の内容又は属性に基づいて複数の分類項目を生成する、少なくとも一つの分類項目生成手段と、前記分類項目生成手段によって生成された分類項目を一つ以上組み合わせることによってカテゴリを生成するカテゴリ生成手段と、前記カテゴリ生成手段によって生成されたカテゴリを所定の数だけ組み合わせたカテゴリ組合せについて、当該カテゴリ組合せを構成するカテゴリの少なくとも一つに所属する情報の総数であるカテゴリ組合せカバー量を計測するカテゴリ組合せカバー量計測手段と、前記カテゴリ生成手段によって生成されたカテゴリのサイズを計測するカテゴリサイズ計測手段と、前記カテゴリ組合せカバー量計測手段によって計測されるカテゴリ組合せカバー量が前記情報記憶手段に記録されている情報の総数と一致するカテゴリ組合せのうち、前記カテゴリサイズ計測手段によって計測されるカテゴリのサイズの二乗和が最小となるカテゴリ組合せを探索するカテゴリ組合せ探索手段と、前記カテゴリ組合せ探索手段によって探索されたカテゴリ組合せを保持するカテゴリ保持手段とを備える。これにより、ユーザの嗜好や興味に基づいて膨大な情報が収集された場合でも、カテゴリ間でサイズの偏りや所属情報の重複が少ないような分類を生成することができ、その結果ユーザが検索目標とする情報にたどり着くまでの操作数(具体的には、カテゴリ一覧からカテゴリを選択したり、選択したカテゴリに所属する情報の一覧から検索目標の情報を探し出し選択したりするための操作数)を最少に抑えた高速な検索を可能にする。
ここで、前記カテゴリサイズ計測手段は、前記カテゴリに所属する情報の数を前記カテゴリのサイズとしてもよい。これにより、各カテゴリに所属する情報の数を均等にすることができる。
また、前記カテゴリサイズ計測手段は、前記カテゴリに所属する情報の重要度に応じた数値の和を前記カテゴリのサイズとしてもよい。これにより、情報が視聴される確率を前記重要度として採用した場合は、情報が視聴される確率をカテゴリ間で均等にすることができる。
また、前記カテゴリ生成手段は、二つ以上の分類項目の和集合とることによって、前記カテゴリを生成してもよい。これにより、ユーザがあまり強い嗜好や興味を持たない情報を格納する抽象度の高い大きくまとめられたカテゴリを生成することができる。
また、前記分類項目生成手段は、所属する情報の内容又は属性が共通の上位概念を有する分類項目同士をまとめて上位概念共有グループを構成し、前記カテゴリ生成手段は、同一の前記上位概念共有グループに属する分類項目同士に限って、それらを組み合わせた前記カテゴリを生成してもよい。これにより、ユーザがあまり強い嗜好や興味を持たない情報を格納する抽象度の高い大きくまとめられたカテゴリを生成することができる。
また、前記分類項目生成手段は、前記上位概念共有グループを階層構造をなすように構成してもよい。これにより、抽象度の高い大きくまとめられたカテゴリを生成した場合でも、そのカテゴリを細分化することができる。
また、前記カテゴリ生成手段は、二つ以上の分類項目の積集合とることによって、前記カテゴリを生成してもよい。これにより、ユーザが強い嗜好や興味を持つ情報を格納する抽象度の低い細分化されたカテゴリを生成することができる。
また、前記情報抽出手段は、さらに、前記カテゴリ保持手段に保持されているカテゴリ組合せのうち、所定数を超える情報が所属するカテゴリがある場合は、当該カテゴリに所属する情報の内容又は属性のみを前記情報記憶手段から抽出してもよい。これにより、所定数を超える情報が所属する大きなカテゴリが存在する場合は、そのカテゴリを所定の大きさに細分化することができる。
また、前記カテゴリ探索手段は、前記カテゴリ生成手段によって生成されたカテゴリを所定の数だけ組み合わせたカテゴリ組合せに加えて、その組合せの中の一つのカテゴリを、その他のカテゴリのいずれにも所属しない全ての情報が所属する「その他」カテゴリと置き換えた組合せについても探索してもよい。これにより、「その他」カテゴリという単純で分かりやすいカテゴリをユーザに提示することができる。
また、前記カテゴリ組合せ探索手段は、前記カテゴリ生成手段によって生成されたカテゴリの中から、前記カテゴリサイズ計測手段によって計測されたカテゴリサイズが所定の範囲内であるカテゴリを探索して候補カテゴリを生成する候補カテゴリ生成部を有してもよい。これにより、カテゴリサイズが所定の範囲内であるカテゴリのみを候補カテゴリとすることができる。
また、前記カテゴリ組合せ探索手段は、さらに、前記候補カテゴリ生成部によって生成された候補カテゴリに対して、当該候補カテゴリに所属する情報の構成が類似するカテゴリ同士をグループ化して候補カテゴリグループを生成する候補カテゴリグループ生成部と、前記候補カテゴリグループ生成部によって生成された候補カテゴリグループを所定数だけ選択して候補カテゴリグループ組合せを生成し、前記カテゴリ組合せカバー量計測手段によって計測されたカテゴリ情報カバー量が前記情報記憶手段に記録されている情報の総数と一致する候補カテゴリグループ組合せの一つを選択して前記カテゴリ保持手段に保持させる候補カテゴリグループ選択部とを有してもよい。これにより、カテゴリの大きさに偏りが少ない分類構造を維持しながら、ユーザに提示されるカテゴリを部分的に別のカテゴリと置き換えることを高速かつ効率的に実現できる。
また、前記候補カテゴリグループ選択部は、前記カテゴリ組合せカバー量計測手段によって計測されたカテゴリ組合せカバー量が前記情報記憶手段に記録されている情報の総数と一致する候補カテゴリグループの組合せが存在しない場合に、前記カテゴリ組合せカバー量が最大となる候補カテゴリグループの組合せを選択し、前記情報記憶手段に記録されている情報のうち、いずれの候補カテゴリグループにも所属しない情報を所属させる「その他」カテゴリを生成し、前記カテゴリ保持手段に追加保持させてもよい。これにより、「その他」カテゴリという単純で分かりやすいカテゴリをユーザに提示することができる。
また、前記カテゴリ生成手段は、所定の数を越えない分類項目を組み合わせることによりカテゴリを生成してもよい。これにより、複雑なカテゴリが生成されるので、ユーザに提示したカテゴリ組合せの一部がユーザにとって好ましくない場合は、その一部をユーザにとってより好ましいカテゴリと置き換えた別のカテゴリ組合せをユーザに提示することが可能となる。
本発明に係る情報検索装置は、情報を検索する情報検索装置であって、情報を記録する情報記憶手段と、前記情報記憶手段に記録されている情報の内容又は属性を抽出する情報抽出手段と、前記情報抽出手段によって抽出された情報の内容又は属性に基づいて複数の分類項目を生成する、少なくとも一つの分類項目生成手段と、前記分類項目生成手段によって生成された分類項目を一つ以上組み合わせることによってカテゴリを生成するカテゴリ生成手段と、前記カテゴリ生成手段によって生成されたカテゴリを所定の数だけ組み合わせたカテゴリ組合せについて、当該カテゴリ組合せを構成するカテゴリの少なくとも一つに所属する情報の総数であるカテゴリ組合せカバー量を計測するカテゴリ組合せカバー量計測手段と、前記カテゴリ生成手段によって生成されたカテゴリのサイズを計測するカテゴリサイズ計測手段と、前記カテゴリ組合せカバー量計測手段によって計測されるカテゴリ組合せカバー量が前記情報記憶手段に記録されている情報の総数と一致するカテゴリ組合せのうち、前記カテゴリサイズ計測手段によって計測されるカテゴリのサイズの二乗和が最小となるカテゴリ組合せを探索するカテゴリ組合せ探索手段と、前記カテゴリ組合せ探索手段によって探索されたカテゴリ組合せを保持するカテゴリ保持手段とユーザからカテゴリの指示を受け付ける入力手段と、前記カテゴリ保持手段において保持されているカテゴリ組合せと、前記入力手段を通じてユーザから受け付けたカテゴリに所属する情報の一方または両方の一覧をユーザに提示することができるように配置する表示内容配置手段と、前記表示内容配置手段によって配置されたカテゴリ組合せと情報の一方または両方の一覧をユーザに提示するカテゴリ表示手段とを備える。これにより、ユーザの嗜好や興味に基づいて膨大な情報が収集された場合でも、ユーザが所望する情報を高速に検索することができる。
なお、この発明は装置またはシステムとして実現できるのみでなく、前記装置の特徴的な構成要素をステップとする方法としても実現可能である。さらに、それらのステップをコンピュータに実行させるためのプログラムとして実現することができることは云うまでもない。また、そのようなプログラムを含むソフトウェア製品もこの発明の技術的な範囲に含まれることも当然である。
本発明に係る情報分類装置または情報検索装置によれば、ユーザの嗜好や興味に基づいて膨大な情報が収集された場合でも、カテゴリ間の抽象度の違いにとらわれることなく柔軟に、各階層がカテゴリ間のサイズの偏りや所属情報の重複が少ない所定数のカテゴリからなる階層構造に情報を分類することにより、ユーザが検索目標とする情報にたどり着くまでの操作数を最少に抑えることができるので、高速な検索が可能となる。
図1(A)(B)は、従来技術によってカテゴリをユーザに選択させる際のユーザインタフェース例を示す図である。 図2は、実施の形態1における情報検索装置の使用状態を示す図である。 図3は、本発明の概要を示す図である。 図4は、本発明におけるカテゴリ生成処理を概念的に示す図である。 図5は、実施の形態1における情報検索装置の機能構成を示すブロック図である。 図6は、実施の形態1における分類項目生成方法の具体例を示す図である。 図7は、実施の形態1におけるカテゴリ生成部およびカテゴリ組合せ探索部のより詳細な機能構成を示すブロック図である。 図8は、実施の形態1におけるカテゴリ組合せ探索部によって実行される処理の流れを示すフローチャートである。 図9は、実施の形態1におけるカテゴリ生成部にによって実行される処理の一例を示す図である。 図10(A)(B)は、実施の形態1においてカテゴリをユーザに選択させる際のユーザインタフェース例を示す図である。 図11は、実施の形態1におけるカテゴリ生成部によって実行される処理の一例を示す図である。 図12は、実施の形態2における情報検索装置の機能構成を示すブロック図である。 図13は、実施の形態2における候補カテゴリ生成部によって実行される処理の流れを示すフローチャートである。 図14は、実施の形態2における候補カテゴリグループ生成部によって実行される処理の流れを示すフローチャートである。 図15は、実施の形態2における候補カテゴリグループ選択部によって実行される処理の流れを示すフローチャートである。 図16(A)〜(C)は、実施の形態2において代表カテゴリを変更する際のユーザインタフェース例を示す図である。
符号の説明
10 情報記憶部
11 情報抽出部
121〜12N 分類項目生成部
13 カテゴリ生成部
14 カテゴリ組合せ探索部
14a カテゴリ組合せ保持部
14b 組合せ評価部
14c 最良カテゴリ組合せ保持部
15 カテゴリサイズ計測部
16 カテゴリ組合せカバー量計測部
17 カテゴリ保持部
18 表示内容配置部
19 カテゴリ表示部
20 入力部
100 情報検索装置
141 候補カテゴリ生成部
142 候補カテゴリグループ生成部
143 候補カテゴリグループ選択部
200 情報検索装置
以下、本発明に係る実施の形態について図面を参照しながら説明する。なお、本発明について、以下の実施の形態および添付の図面を用いて説明を行うが、これは例示を目的としており、本発明がこれらに限定されることを意図しない。
(実施の形態1)
図2は、本実施の形態における情報検索装置100の使用状態を示す図である。この図に示すように、本実施の形態における情報検索装置100は、DVDレコーダとして実現することができる。DVDレコーダには、ユーザの嗜好や興味に基づいて収集された情報(例えば、動画データ、静止画データ、文書データ、楽曲データ、音声データなど)が蓄積されているものとする。DVDレコーダに蓄積されている情報は、テレビ300や外部スピーカ400に出力することができる。
図3は、本発明の概要を示す図である。本発明は、カテゴリ選択方式に関する技術であって、目的の番組が見つかるまでの操作数を最少化する技術である。例えば、図3に示すように、300番組が存在する場合、その300番組を50番組ずつ6つのカテゴリに分類し、さらに、各カテゴリに属する50番組を10番組ずつ5つのサブカテゴリに分類する。このようにすれば、2回カテゴリを選択するだけで10番組にまで絞り込むことができる。ここで、カテゴリの分かりやすさを保証することは重要である。例えば、300番組を50番組ずつ6つのカテゴリに分類する場合も、各カテゴリがユーザにとって意味のあるカテゴリ(理解可能なカテゴリ)でなければならない。ここでは、1階層のカテゴリは、「サッカー・国外」「サッカー・国内」「サッカー・高校」「医療関係」「バラエティ・トーク」「その他」の6つであり、いずれも意味のある分かりやすいものとなっている。
図4は、カテゴリを生成する処理を概念的に示す図である。この図に示すように、本発明では、あらかじめ整理された分類項目を用いてカテゴリを生成する。分類項目とは、共通の特徴でまとまった番組の集合である。詳細については後述するが、兄弟分類項目の和集合をとれば大きなカテゴリを生成することができ、また、分類項目の積集合をとれば小さなカテゴリを生成することができる。その結果、番組数が均等になるように6つのカテゴリを生成することが可能となる。
図5は、本実施の形態における情報検索装置100の機能構成を示すブロック図である。図5において、情報検索装置100は、必要な操作数を最少に抑えて高速検索を可能とする情報検索装置であり、情報記憶部10、情報抽出部11、分類項目生成部121〜12N、カテゴリ生成部13、カテゴリ組合せ探索部14、カテゴリサイズ計測部15、カテゴリ組合せカバー量計測部16、カテゴリ保持部17、表示内容配置部18、カテゴリ表示部19および入力部20を備える。
情報記憶部10は、本発明に係る情報記録手段の一例である。すなわち、情報記憶部10は、各種の記録媒体(例えばハードディスク装置、フラッシュメモリ、リムーバブルメディアなど)であり、各種の情報(例えば、動画データ、静止画データ、文書データ、楽曲データ、音声データなど)を蓄積する。以下、情報の種類が楽曲データの場合を例に挙げて説明する。なお、本発明は、単一の種類の情報しか存在しない場合だけでなく、複数の種類の情報が混在している場合にも適用することができる。
情報抽出部11は、本発明に係る情報抽出手段の一例である。すなわち、情報抽出部11は、情報記憶部10に蓄積されている楽曲データの中から、検索目標となる楽曲データを含む検索対象範囲の楽曲データを抽出し、分類項目生成部121〜12Nに出力する。この場合、そのグループに属する楽曲データのすべてではなく、各楽曲データの内容や属性(例えば、楽曲データのタイトルやジャンル、演奏者名、作詞者名、作曲者名など)のみを抽出し、分類項目生成部121〜12Nに出力することとしてもよい。なお、属性データは、例えば、楽曲データの属性情報データベースであるCDDB(Compact Disc Data Base)から抽出することができる。
分類項目生成部121〜12Nは、本発明に係る分類項目生成手段の一例である。すなわち、分類項目生成部121〜12Nは、それぞれ、異なる観点(例えば、楽曲データのタイトルやジャンル、歌手名、作詞者名、作曲者名など)に基づき、情報抽出部11から入力された楽曲データを多数の分類項目に分類する。ここでは、分類項目間で楽曲データが互いに重複することを許している。すなわち、一つの楽曲データが二つ以上の分類項目に同時に所属し得るものとする。
図6は、分類項目生成方法の具体例を示す図である。情報抽出部11は、各楽曲データの属性データ111を抽出する。各楽曲の属性データにはデータIDが振られる。属性データの種類としては、前述のとおり、タイトルやジャンル、演奏者名、作詞者名、作曲者名、地域、時期などがある。各属性データ111においては、少なくとも1種類については値が存在する必要があるが、全種類について値が存在する必要はない。情報抽出部11によって抽出された属性データ111は分類項目生成部121〜12Nに送られる。各分類項目生成部121〜12Nは、各楽曲データの属性データ111を読み込み、適切な分類項目を生成する。図6の場合、分類項目生成部121は、属性「ジャンル」についての分類項目を生成する。具体的には、データID「000001」の楽曲データの属性「ジャンル」は「クラシック」なので、1211に示すように分類項目「クラシック」を生成し、その分類項目に属するデータリストにデータID「000001」を追加する。分類項目生成部122は、属性「地域」についての分類項目を生成する。具体的には、データID「000001」の楽曲データの属性「地域」は「ヨーロッパ」なので、1221に示すように分類項目「ヨーロッパ」を生成し、その分類項目に属するデータリストにデータID「000001」を追加する。
分類項目生成部121〜12Nによって生成された分類項目は、カテゴリ生成部13に出力される。カテゴリ生成部13は、本発明に係るカテゴリ生成手段の一例である。すなわち、カテゴリ生成部13は、一つの分類項目を選択することによって、もしくは複数の分類項目を組み合わせることによって種々のカテゴリを生成し、生成したカテゴリをカテゴリ組合せ探索部14に出力する。
カテゴリ組合せ探索部14は、本発明に係るカテゴリ組合せ探索手段の一例である。すなわち、カテゴリ組合せ探索部14は、情報抽出部11によって抽出された全ての楽曲データをいずれかのカテゴリに所属させた場合に、予め規定した所定の数(以下C個であるとする)のカテゴリ組合せにおいて、最もカテゴリの大きさが均等となる組合せを探索する。ここで、カテゴリの大きさ(即ち、カテゴリサイズ)とは、カテゴリに所属する楽曲データの数をいう。
次に、カテゴリ組合せ探索部14がC個のカテゴリを生成する処理を図7および図8を用いて説明する。図7は、カテゴリ生成部13およびカテゴリ組合せ探索部14のより詳細な機能構成を示すブロック図である。また、図8は、カテゴリ組合せ探索部14における処理の流れを示すフローチャートである。
まず、カテゴリ生成部(1)〜(C)を初期化する(ステップS301)。具体的には、生成されるべきC個のカテゴリのうち、何個目を調べているかを示すインデックスiを「1」に初期化する。カテゴリ生成部13は、1〜C個目のカテゴリの候補として、分類項目生成部121〜12Nから出力された1個以上M個以下の分類項目からなる組合せを順次生成する。ここで、カテゴリ生成部(i)における分類項目を組み合わせる処理では、例えば図9に示すように、二つ以上の分類項目のいずれにも共通して所属する楽曲データの集合(これを「積集合」という。)をとることによって、単独の分類項目よりも少ない楽曲データが所属するカテゴリを作るものとする。積集合をとるのではなく、二つ以上の分類項目のいずれかに所属する楽曲データの集合(これを「和集合」という。)をとることによって、単独の分類項目よりも多くの楽曲データが所属するカテゴリを作るように構成してもよい。
次に、カテゴリ生成部(i)が終端に達したかどうか調べ(ステップS302)、終端に達していなければカテゴリ生成部(i)から次の分類項目の組合せを取得してカテゴリ組合せ保持部14aのi番目の位置に格納する(ステップS303)。さらに、インデックスiがC個目まで到達したかどうか調べ(ステップS304)、到達していなければインデックスiを一つ増加させ(ステップS305)、再びステップS302に戻る。
上記ステップS304でインデックスiがC個目まで到達したと判定されれば(ステップS304:Yes)、カテゴリ組合せ保持部14aにC個のカテゴリ組合せが一組揃うことになる。
次に、組合せ評価部14bは、カテゴリ組合せ保持部14aに保持されているカテゴリ組合せをカテゴリ組合せカバー量計測部16に出力し、いずれかのカテゴリに所属する楽曲データの総数を計測させる(S306)。そして、その総数が情報抽出部11によって抽出された検索対象範囲に指定された楽曲データの総数と一致しているか(すなわち、カテゴリ組合せ保持部14aに保持されているカテゴリ組合せが検索対象範囲に指定された楽曲データの全てをカバーしているか)どうかについて調べる(S307)。一致しない場合は、不適合であるとしてカテゴリ組合せ保持部14aに保持されているカテゴリ組合せを破棄し、ステップS302に戻って次のカテゴリ組合せを調べる。なお、S307では、情報抽出部11によって抽出された検索対象範囲に指定された楽曲データの総数と一致しているかどうかについて調べることとしているが、情報記憶部10に記録されている楽曲データの総数と一致しているかどうかについて調べるようにしてもよい。
上記ステップS307でカテゴリ組合せ保持部14aに保持されているカテゴリ組合せが検索対象範囲に指定された楽曲データの全てをカバーしていると判定された場合(S307:Yes)、組合せ評価部14bは、カテゴリ組合せ保持部14aに保持されているカテゴリ組合せを構成するカテゴリ各々のカテゴリサイズをカテゴリサイズ計測部15に計測させ、その二乗和を計算する(S308)。そして、ステップS308で計算されたカテゴリサイズの二乗和が、既に調べた他のカテゴリ組合せとの関係で最小であるか否かを調べる(S309)。最小である場合は、カテゴリ組合せ保持部14aに保持されているカテゴリ組合せを最良カテゴリ組合せ保持部14cに保持する(S310)。
上記ステップS302においてカテゴリ生成部(i)が終端に達した場合は、インデックスiが1番目のカテゴリを指しているかどうか調べ(S311)、1番目を指していれば全てのカテゴリ組合せを調べたとして終了する。1番目を指していなければ、カテゴリ生成部(i)を初期化して再び1番目のカテゴリから出力しなおすように指示し(S312)、(i−1)番目のカテゴリを置き換えて次のカテゴリ組合せを作るべくインデックスiを一つ減じ(S313)、ステップS302に戻る。
以上の処理が終了した時点で、カテゴリ組合せ探索部14は、最良カテゴリ組合せ保持部14cに保持されているカテゴリ組合せをカテゴリ保持部17に出力して保持させる。ここで保持されたカテゴリ組合せを構成する各カテゴリに所属する楽曲データの数が所定数より多い場合には、カテゴリ保持部17は、各カテゴリに所属する楽曲データを新たな検索対象範囲とするように情報抽出部11に指示する。その後、前述の処理を繰り返すことにより、各カテゴリをさらに細分化したカテゴリ組合せをカテゴリ保持部17に格納する。これにより、カテゴリ保持部17には、各階層がC個ずつのカテゴリからなる階層構造が保持される。
なお、このカテゴリの階層構造を生成する処理は、ユーザが検索を開始する毎に実行する必要はない。例えば、一度階層構造を生成した後は、情報記憶部10に記憶されている楽曲データに一定数以上の変更(楽曲データの追加、削除、属性の変更)があったときのみに実行すればよい。また、情報記憶部10に記憶されている楽曲データに変更があったことが検知できない場合には、階層構造を生成してから一定期間が経過する毎に実行してもよい。
次に、表示内容配置部18は、本発明に係る表示内容配置手段の一例である。すなわち、表示内容配置部18は、カテゴリ保持部17に保持されているカテゴリ組合せの中から最上位階層のC個のカテゴリを読出して一覧できるように配置する。カテゴリ表示部19は、本発明に係るカテゴリ表示手段の一例である。すなわち、カテゴリ表示部19は、配置されたC個のカテゴリを表示し、そのC個のカテゴリのうち少なくとも一つをユーザが選択できるようにする。
図10(A)は、カテゴリ組合せの配置例を示す図である。図10(A)では、カテゴリ保持部17が保持しているカテゴリ組合せが「Classic」〜「Jazz∩Europe」等であり、ユーザが選択しているカテゴリとして「Classic」が反転表示されている様子が示されている。このように、表示内容配置部18は、入力部20がユーザから選択カテゴリ変更指示を受け付けると、その選択カテゴリ変更指示に基づいてカテゴリを変更する。
なお、図10(A)に示したように、カテゴリ組合せだけでなく、現在選択されているカテゴリである「Classic」に所属する楽曲データ「1st Symphony」〜「17th Piano Quartet」(この場合、7曲目〜50曲目は表示されていない。)も一覧形式で表示するようにしてもよい。これにより、ユーザは、選択しているカテゴリの内容を理解しやすくなる。さらに、カテゴリの名称とともにそのカテゴリに所属する楽曲データの数を表示するようにしてもよい。例えば、図10(A)の「Classic(50)」は、「Classic」に所属する楽曲データの数が50曲であることを示している。これにより、ユーザは、そのカテゴリを選択することによってどの程度楽曲データを絞り込めるかが把握しやすくなる。
次に、表示内容配置部18は、入力部20がユーザから受け付けたカテゴリを細分化する指示に基づき、現在選択されているカテゴリを細分化した下位階層のカテゴリ組合せをカテゴリ保持部17から取得する。次に、表示内容配置部18は、取得した下位階層のカテゴリ組合せをユーザが一覧できるように配置し、配置したカテゴリ組み合わせをカテゴリ表示部19に表示してユーザに提示する。これにより、ユーザは、カテゴリを階層的に選択してすばやく少数の楽曲データに絞り込むことができる。
図10(B)は、表示内容配置部18におけるカテゴリ組合せの配置例を示す図である。図10(B)では、カテゴリ保持部17が新たに保持したカテゴリ組合せが「Opera」〜「others」であり、ユーザの選択しているカテゴリである「Symphony」が反転表示されている様子が示されている。また、図10(A)と同様、選択されているカテゴリである「Symphony」に所属する楽曲データ「1st Symphony」〜「6th Symphony」が併せて配置される。
なお、図10(B)に示したように、細分化前の(上位階層の)カテゴリ組合せ「Classic」〜「Jazz∩Europe」を併せて配置するようにしてもよい。これにより、ユーザは、選択履歴が一目でわかるので、上位階層のカテゴリ選択のやり直しなど、カテゴリの探索が容易になる。
かかる構成によれば、情報記憶部11に蓄積された楽曲データが、ユーザの嗜好や興味に基づいて収集された楽曲データであっても、各階層がカテゴリの大きさが最も均等に近いカテゴリで構成される階層構造に分類され整理されることになる。そのため、ユーザが検索目標とする楽曲データにたどり着くまでに選択肢として提示されるカテゴリや楽曲データの数の期待値を最小化することができ、ユーザが検索目標の楽曲データを高速に検索することが可能な情報検索装置を実現できる。
なお、前記の説明では、カテゴリサイズ計測部15は、カテゴリの大きさを計測する際、カテゴリに所属する楽曲データの数を用いたが、カテゴリに所属する情報の重要度に応じた数値の和を用いてもよい。例えば、各楽曲データが検索目標になる確率が一様でなくその確率分布を推定できる場合には、各楽曲データが検索目標となる確率の推定値をカテゴリ内で累積した値を用いてもよい。この場合、検索されやすい楽曲データについてより少ない選択肢数で検索が可能となる。
さらに、前記の説明では、カテゴリ生成部13のカテゴリ生成部(1)〜(C)は、分類項目生成部121〜12Nによって生成された分類項目を任意に組み合わせることができるとしたが、本発明はこれに限定されるものではない。例えば、図11に示すように、分類項目生成部121〜12Nによって生成される分類項目について、その所属する楽曲データの内容又は属性が共通の上位概念を有する分類項目同士で上位概念共有グループを構成し、それを階層化してそれぞれ一つの木構造をなすように構成する。そして、カテゴリ生成部(1)〜(C)が分類項目を組み合わせる場合には、木構造で共通の親ノードを持つ分類項目同士、すなわち上位概念を共有する分類項目同士(例えば、図11において共通の親ノードである分類項目[Jazz]を共有する分類項目[SwingJazz]〜分類項目[SmoothJazz]など)の和集合をとるようにしてもよい。これにより、カテゴリ生成部(1)〜(C)が生成するカテゴリを、互いに関連のある分類項目の上位概念となるように限定することができ、カテゴリ組合せ探索部14が生成するカテゴリをユーザにとってより理解しやすいものにすることができる。
さらに、前記の説明では、カテゴリ生成部13から取得したC個のカテゴリからなるカテゴリ組合せを組合せ評価部14bが評価することとしたが、本発明はこれに限定されるものではない。例えば、各カテゴリ組合せを構成するカテゴリの一つ、例えば、カテゴリ保持部14aのC番目に格納されるカテゴリを、残りの(C−1)個のカテゴリのいずれにも所属しない楽曲データが所属する「その他」カテゴリと置き換えたカテゴリ組合せについても同様に組合せ評価部14bが評価するようにしてもよい。これにより、万一いずれの分類項目にも所属しない楽曲データが存在しても「その他」カテゴリには所属することになる。したがって、より確実に適切なカテゴリ組合せを見つけることができるようになるほか、非常に多くの分類項目を組み合わせた複雑なカテゴリが「その他」カテゴリに置き換わるので、カテゴリ組合せをより単純で分かりやすくすることができる。
さらに、図8のフローチャートに示したように、カテゴリ組合せ探索部14におけるカテゴリ組合せ探索処理では探索可能な全てのカテゴリ組合せについて探索する全探索アルゴリズムを用いたが、本発明はこれに限定されるものではない。例えば、検索対象範囲の全情報をカバーするという制約のもとでカテゴリサイズの二乗和が最小化となるカテゴリ組合せを探索するという、組合せ最適化問題としてとらえて探索処理を行ってもよい。この場合、例えば「西川▲よし▼一、三宮信夫、茨木俊秀著“岩波講座情報科学19 最適化”岩波書店 1982年」に記載されているような分枝限定法や近似解法などの公知のアルゴリズムを用い、カテゴリ組合せ探索処理の高速化を行ってもよい。
(実施の形態2)
図12は、実施の形態2における情報検索装置200の機能構成を示すブロック図である。図12において、上記実施の形態1における図5と同じ機能を持つ構成要素については同じ符号を用い、その説明は省略する。また、扱う情報の一例として実施の形態1と同様に楽曲データを挙げて説明する。
情報検索装置200は、カテゴリの大きさに偏りが少ない分類構造を維持しながら、ユーザに提示されるカテゴリを部分的に別のカテゴリと置き換えることを高速かつ効率的に実現する装置であり、情報記憶部10、情報抽出部11、分類項目生成部121〜12N、カテゴリ生成部13、候補カテゴリ生成部141、候補カテゴリグループ生成部142、候補カテゴリグループ選択部143、カテゴリサイズ計測部15、カテゴリ組合せカバー量計測部16、カテゴリ保持部17、表示内容配置部18、カテゴリ表示部19および入力部20を備える。
前記実施の形態1と同様、カテゴリ生成部13は、分類項目生成部121〜12Nによって生成された分類項目を組み合わせることによりカテゴリを生成する。ここで、候補カテゴリ生成部141は、カテゴリ生成部13によって生成されたカテゴリを順次読込み、最終的にユーザに提示されるカテゴリになり得る条件を満たしているカテゴリを選び出し、候補カテゴリとして出力する。「最終的にユーザに提示されるカテゴリになり得る条件」とは、所属する楽曲データの総数が規定の範囲内であり、かつ基となる分類項目の数が所定の数以下であることをいう。所属する楽曲データの総数を規定の範囲に限定することにより、カテゴリ間の所属楽曲数の偏りが一定以下になるようにする。好ましくは、この規定の範囲は、情報抽出部11が抽出した検索対象となる情報の総数を生成するカテゴリの数Cで除した数を含むように設定する。
なお、所属する楽曲データの総数の計算方法としては、組み合わせられた各分類項目に所属する楽曲データの和集合あるいは積集合のいずれか一方をとるように処理全体を通して統一すれば、カテゴリをユーザにとってより分かりやすいものにすることができる。
図13は、候補カテゴリ生成部141によって実行される処理の流れを示すフローチャートである。以下、図13を用いて、候補カテゴリ生成部141における候補カテゴリ生成処理について説明する。
まず、カテゴリ生成部13よりカテゴリが入力される(S801)。
この後、入力されたカテゴリから、あらかじめ設定された組み合わせ可能な上限個数以下の分類項目を組み合わせて生成されたカテゴリが選択される(S802)。例えば、分類項目を「3個」まで組み合わせることが可能であれば、1個、2個あるいは3個の分類項目の組み合わせが考えられる。なお、組み合わせ可能な分類項目数を上回らないカテゴリのみをカテゴリ生成部13が生成するようにすれば、ステップS802は省略可能である。
次に、ステップS802で選択されたカテゴリに含まれる楽曲データの総数を算出し(S803)、楽曲データの総数があらかじめ設定されている範囲内にあるかどうかを判定する(S804)。このカテゴリに含まれる楽曲データの総数があらかじめ設定されている範囲内であれば、ステップS805に進み、そうでなければステップS806に進む。
ステップS805では、このカテゴリを候補カテゴリの一つとして出力し、ステップS806に進む。ステップS806では、入力されたカテゴリの探索が全て終了したかどうかを判定する。探索が全て終了した場合には(S806:Yes)、候補カテゴリ生成処理を終了する。探索が全て終了していない場合には(S806:No)、ステップS802に戻り処理を繰り返す。
最後に、ステップS807で、一連の処理で生成された全候補カテゴリが候補カテゴリ群として出力され、処理を終了する。
候補カテゴリグループ生成部142は、前記候補カテゴリ生成部141によって生成された候補カテゴリ群が入力されると、各候補カテゴリに所属する楽曲データの類似度をもとにグループ化した候補カテゴリグループ群を出力する。
図14は、候補カテゴリグループ生成部142によって実行される処理の流れを示すフローチャートである。以下、図14を用いて、候補カテゴリグループ生成部142における候補カテゴリグループ生成処理について説明する。
まず、候補カテゴリ群が入力され、i=1,j=1がセットされる(S901)。
ステップS902では、現段階で候補カテゴリグループが一つも存在しなければステップS905に移り、一つ以上存在していればステップS903に移る。
ステップS903では、候補カテゴリ(i)と候補カテゴリグループ(j)との情報構成類似度が計算される。情報構成類似度とは、候補カテゴリ(i)に所属する楽曲データと候補カテゴリグループ(j)に所属する楽曲データとで一致する楽曲データの数を、候補カテゴリ(i)に所属する楽曲データの数で割った値である。
ステップS904では、ここで算出された情報構成類似度が一定以上であればステップS905に進み、そうでなければjに1を加えてステップS906に進む。
ステップS905では、候補カテゴリ(i)を候補カテゴリグループ(j)のメンバーに追加し、候補カテゴリグループ(j)に所属する楽曲データに候補カテゴリ(i)に所属する楽曲データを加え、j=1にし、iに1を加えてステップS908に進む。
ステップS906では、jが候補カテゴリグループ数より大きいかどうかを判定し、大きければステップS907に、そうでなければステップS903に進む。ステップS907では、新しい候補カテゴリグループを生成し、候補カテゴリ(i)をその新しく生成された候補カテゴリグループのメンバーに追加し、新しく生成された候補カテゴリグループに所属する楽曲データに候補カテゴリ(i)に所属する楽曲データを加え、iに1を加えてステップS908に進む。
ステップS908では、iが候補カテゴリ数よりも大きいかどうかを判定し、大きければステップS909に、そうでなければステップS903に進む。ステップS909では、一連の処理で生成された全候補カテゴリグループを候補カテゴリグループ群として出力し、処理を終了する。
候補カテゴリグループ選択部143は、候補カテゴリグループ生成部142によって生成された候補カテゴリグループ群が入力されると、カバーする楽曲データの数が最大となる候補カテゴリグループの組合せを選択し、選択した各候補カテゴリグループの中から代表となる各候補カテゴリを選択し、その組合せをカテゴリとして出力する。
図15は、候補カテゴリグループ選択部143によって実行される処理の流れを示すフローチャートである。以下、図15を用いて、候補カテゴリグループ選択部143における候補カテゴリグループ選択処理について説明する。
まず、候補カテゴリグループ群が入力される(S1001)。
次に、入力された候補カテゴリグループ群から所定の数より1少ない個数以下の候補カテゴリグループが選択される(S1002)。
ステップS1003では、選択されている候補カテゴリグループの組合せの評価値を算出する。ここで評価値は、選択されている候補カテゴリグループに所属する楽曲データの重複を除いた総数のことである。ステップS1004では、現処理で算出された評価値の判定を行う。現処理で算出された評価値がこれまでの処理で算出されている評価値の中で最大であればステップS1005に進み、そうでなければステップS1006に進む。
ステップS1005では、選択されている候補カテゴリグループの組合せを解候補として保持する。ステップS1006で、候補カテゴリグループの組合せ探索を全て終了したかどうかを判定し、全て終了していればステップS1007に進み、そうでなければステップS1002に進み、これまでに探索されていない別の組合せの探索を再開する。
ステップS1007では、解候補として保持されている候補カテゴリグループの組合せに含まれる各候補カテゴリグループの中から、代表となる候補カテゴリを選択する。最後にステップS1008では、代表カテゴリのリストと各代表カテゴリが属している候補カテゴリグループのセットを出力し、処理を終了する。
代表となる候補カテゴリの選択方法としては、例えば、各候補カテゴリグループの持つ候補カテゴリのリストの先頭、あるいはそれ以降の特定の順目に格納されている候補カテゴリを代表カテゴリにする方法がある。また、以下のアルゴリズムによる方法もある。
まず、代表カテゴリを選択したい候補カテゴリグループに所属する全ての楽曲データについて、その候補カテゴリグループに属するいくつの候補カテゴリに含まれるかを計算する。次に、候補カテゴリグループに含まれるk番目の候補カテゴリの評価値E(k)を、以下の式で算出する。
Figure 2007088893
ここで、S(k,i)は、k番目の候補カテゴリがi番目の楽曲データを含んでいるかどうかを示す値であり、含んでいれば「1」、含んでいなければ「0」が入る。n(i)は、i番目の楽曲データを含む候補カテゴリ数である。この評価値E(k)が最大となる候補カテゴリを代表カテゴリとする。この手法により、その候補カテゴリグループにおける最も一般的な候補カテゴリを選択できることになる。
次に、カテゴリ保持部17に、候補カテゴリグループ選択部143より出力された候補カテゴリグループのセットと代表カテゴリのリストとが入力され保持される。またここで、代表カテゴリのセットでカバーできなかった楽曲データの集合を「その他」カテゴリとして一つのカテゴリを生成し保持する。
表示内容配置部18は、図16(A)に示すように代表カテゴリのリストを表示装置に表示させるが、ここに表示される代表カテゴリからそれぞれに含まれる楽曲データの内容をユーザが判断しにくい場合がある。この場合、ユーザは、代表カテゴリを変更するための入力を入力部20から行うことができる。
入力部20においてユーザが代表カテゴリを変更する命令が入力されると、変更しようとしている代表カテゴリに対する置換候補のリストが表示される。例えば、図16(A)において「Classic」を変更しようとする場合、「Classic」を選択した状態で「変更」を指示する。すると図16(B)に示すように「Classic」の置換候補のリストが表示される。ここで表示される置換候補リストは、前記カテゴリ保持部17に保持されている候補カテゴリグループのセットの中から、置き換えようとしている代表カテゴリと同じ候補カテゴリグループに属する候補カテゴリである。ユーザは、このリストから、代表カテゴリに適していると判断する候補カテゴリを選択し確定することで、選択した候補カテゴリに元の代表カテゴリを置き換えることができる。例えば、図16(B)に示すように、代表カテゴリ「Classic」をその置換候補である「Beethoven」に変更したい場合、「Beethoven」を選択し「確定」を指示する。これにより、図16(C)にあるように「Classic」が「Beethoven」に置き換えられる。
代表カテゴリを置き換えると、置換前の代表カテゴリと置換後の代表カテゴリとでカテゴリに所属する楽曲データに差異が生じる可能性がある。差異が生じない場合にはそのまま置き換えるが、差異の生じる場合には以下の処理を行う。
まず、置換前の代表カテゴリに所属する楽曲データの全てが置換後の代表カテゴリに含まれている場合は、置換後の代表カテゴリに所属する楽曲データの方が多いこととなる。その差分の楽曲データのうち「その他」カテゴリに所属する楽曲データがあれば、「その他」カテゴリからその楽曲データを削除し、代表カテゴリを置き換える。
次に、置換後の代表カテゴリに所属する楽曲データの全てが置換前の代表カテゴリに含まれている場合は、置換前の代表カテゴリに所属する楽曲データの方が多いこととなる。その差分の楽曲データのうち、置換前のカテゴリ以外のどのカテゴリにも所属していない楽曲データについては「その他」カテゴリに追加し、代表カテゴリを置き換える。
かかる構成によると、候補カテゴリ生成部141は、カテゴリになる可能性のある組み合わせを全て探索しておくことになる。また、候補カテゴリグループ生成部142は、所属する楽曲データの構成が類似する候補カテゴリをグループ化し保持しておくことになる。これにより、カテゴリの大きさに偏りが少ない分類構造を維持しながら、ユーザに提示されるカテゴリを部分的に別のカテゴリと置き換えることを高速かつ効率的に実現できる。
本発明に係る情報分類装置や情報検索装置は、ユーザの嗜好や興味に基づいて情報が収集された場合でも、カテゴリの大きさに偏りの少ない分類を行うことを特徴とし、電子配信で購入された楽曲データもしくはデジタルオーディオプレーヤに格納された楽曲データのみならず、ビデオレコーダ等で録画した動画データやデジタルカメラ等で撮影した写真等の静止画データなど、ユーザの嗜好や興味に基づいて大量に蓄積されるAVコンテンツ等の情報を分類する情報分類装置やこれらから所望の情報を検索する情報検索装置として有用である。またユーザの嗜好や興味に基づいて収集される情報であれば、AVコンテンツ以外の文書又はメール等の分類や検索にも応用が可能である。
本発明は、大量の情報をその内容又は属性によって複数のカテゴリに分類する情報分類装置、および分類されたカテゴリに基づいて情報を検索する情報検索装置に関するものである。
近年、情報の多様化および記憶媒体の大容量化に伴い、個人が管理する情報の数が膨大となる場合も少なくなく、大量の情報をその内容に基づいて効率的に検索できる情報検索装置の重要性が増大している。情報検索装置において、ユーザが検索したい情報を特定するための方式には種々の方式がある。従来、一般に使われている方式には、検索に用いるキーワードを指定する「キーワード指定方式」、情報を一覧表示する際のパターンを指定する「並び替えパターン指定方式」、情報の内容を表すカテゴリを一覧から選択する「カテゴリ選択方式」がある。
キーワード指定方式では、ユーザは検索したい情報そのものに含まれるフレーズ、もしくは検索したい情報(検索目標の情報)にタグとして付与されているフレーズ、即ちキーワードを推定して入力を行う。このとき、入力したキーワードが適切であれば非常にすばやく目的の情報を得ることができる。しかし、一般にキーワードには幾通りかの言い換えがあるので、照合できなかったり、照合できても該当する情報が大量にあって精査に時間がかかったりする場合がある。すなわち、適切なキーワードを推定することは困難であり、ユーザは試行錯誤を余儀なくされるので、必ずしも効率的に検索できるとはいえない。
また、情報を一覧表示させる際に並び替えパターンを選択する並び替えパターン指定方式では、情報の作成日時順や表題の五十音順など幾つかの用意された並び替えパターンからユーザが任意に並び替えパターンを選択し、情報一覧表における情報の並び替えを行うものである。この並び替えパターン指定方式では、一覧表に含まれる情報が多くなると、いずれの並び替えパターンでも上位に出現しない情報が多数となり、効率的に検索できない場合が多くなる。
これに対し、適切なキーワードが想起できない場合でも大量の情報を検索できる方式として、内容の意味的距離に基づき階層構造を成すよう整理されたカテゴリ群に情報を分類し、ユーザが階層を追ってカテゴリを選択していくことで情報を絞り込む「カテゴリ選択方式」がある。このカテゴリ選択方式では、ユーザが所有する情報又は検索対象範囲に指定される情報によって、効率的に検索できるカテゴリ構成が異なる。そのため、ユーザが所有する情報又は検索対象範囲に指定される情報に応じてカテゴリの階層構造を自動的に構成する技術が提案されている(例えば、特許文献1、2および3参照)。
上記特許文献1では、予め用意された階層構造を成すカテゴリそれぞれに対して重要度を設定し、重要度が大きいカテゴリのみを選択することで、限られた画面内でユーザに合わせたカテゴリを提示する手法が提案されている。また、特許文献2では、テキストから抽出したキーワードをその意味関係に基づいてクラスタリングしてトピックを表すカテゴリを生成し、それらをユーザが選択可能なように階層的なマップ形式で提示する手法が提案されている。
一方、これらカテゴリの階層構造の自動構成技術においては、生成されるカテゴリの大きさ(そのカテゴリに含まれる情報の数)に大きな偏りが生じ、分類結果の一覧性が悪くなる。そのため、カテゴリ内から検索目標の情報を探し出したり、情報を絞り込むためにカテゴリを選択したりするのに必要な操作数や労力が増大するという課題がある。すなわち、カテゴリが大きすぎれば、そのカテゴリを選択して情報を絞り込んでも、なおその配下に多数の情報が含まれるため、検索目標の情報を見つけ出すのが困難になる。逆に、カテゴリが小さすぎれば、全ての情報をいずれかのカテゴリに分類するためにカテゴリが多く必要になるので、カテゴリの選択自体が困難になるという問題が生じる。この課題に対し、特許文献3では、カテゴリの階層構造を情報の意味的距離に基づいて生成した後、各カテゴリの大きさなどに基づいてスコアを計算し、スコア総計が最大となる階層を決定し、その階層からスコアの大きいカテゴリを所定の数だけ採用することにより、ユーザに提示するカテゴリの大きさの偏りを小さくする手法が提案されている。
特開平09−297770号公報 特表2001−513242号公報 特開2005−63157号公報
従来のカテゴリ階層構造自動生成技術では、カテゴリ間の意味的距離に基づいて構成された階層構造を基本にしているため、同一階層内でユーザに提示されるカテゴリの抽象度、すなわちカテゴリが指し示す概念の広さが一様になる。上記のように構成された分類構造では、図書館や商品カタログなど、多くの人の要望に応えるために広く収集された情報に対しては、カテゴリの抽象度とカテゴリの大きさとはある程度の相関が期待できる。したがって、カテゴリの抽象度を一様に保つことでカテゴリの大きさの偏りを十分小さくできると考えられる。
しかしながら、ユーザが嗜好や興味に基づいて収集した情報に対しては、ユーザの嗜好や興味により生じる情報の偏りを考慮することが必要となる。すなわち、ユーザが強い嗜好や興味をもつ分野ほど情報が多く収集されるため、カテゴリの抽象度を一様に保とうとすれば、ユーザが強い嗜好や興味を持つ分野の情報を格納するカテゴリが、それ以外の情報を格納するカテゴリに比べて大きくなりすぎてしまう。以下、この点について詳しく説明する。
図1は、カテゴリをユーザに選択させる際のユーザインタフェース例を示す図である。ここでは、ユーザがサッカーに強い興味をもつ場合を想定している。まず、図1(A)に示すように、「地上波映画」「BS映画」「ドラマ」「スポーツ」等のジャンルとともに、それぞれのジャンルに属する番組の数「5」「24」「12」「37」が提示される。この状態でユーザが「スポーツ」を選択すると、図1(B)に示すように、スポーツに属するサブジャンル「野球」「サッカー」「ゴルフ」等が提示される。ここで、「サッカー」に属する番組の数は30であるのに対して、「野球」に属する番組の数は1、「ゴルフ」に属する番組の数は0である。すなわち、ユーザが強い嗜好や興味を持つ分野の情報を格納するカテゴリが、それ以外の情報を格納するカテゴリに比べて大きくなりすぎてしまう。
以上のことから明らかなように、従来のカテゴリの抽象度を一様にするカテゴリ階層構造自動生成技術では、ユーザの嗜好や興味の強弱に伴って特定のカテゴリに情報が集中することが避けられず、検索時において十分に情報を絞り込むことができない。このため、多くの情報の中から検索目標の情報を探さなければならなかったり、情報を絞り込むために多くのカテゴリを選択しなければならなかったりして、高速かつ有効な検索ができないという課題を有している。
本発明は、上記課題に鑑みてなされたものであり、ユーザの嗜好や興味に基づいて膨大な情報が収集された場合でも、ユーザが所望する情報を高速に検索することができる情報検索装置や、高速な検索を可能にするために情報を効果的に分類することができる情報分類装置等を提供することを目的とする。
上記課題を解決するために、本発明に係る情報分類装置は、情報を分類する情報分類装置であって、情報を記録する情報記憶手段と、前記情報記憶手段に記録されている情報の内容又は属性を抽出する情報抽出手段と、前記情報抽出手段によって抽出された情報の内容又は属性に基づいて複数の分類項目を生成する、少なくとも一つの分類項目生成手段と、前記分類項目生成手段によって生成された分類項目を一つ以上組み合わせることによってカテゴリを生成するカテゴリ生成手段と、前記カテゴリ生成手段によって生成されたカテゴリを所定の数だけ組み合わせたカテゴリ組合せについて、当該カテゴリ組合せを構成するカテゴリの少なくとも一つに所属する情報の総数であるカテゴリ組合せカバー量を計測するカテゴリ組合せカバー量計測手段と、前記カテゴリ生成手段によって生成されたカテゴリのサイズを計測するカテゴリサイズ計測手段と、前記カテゴリ組合せカバー量計測手段によって計測されるカテゴリ組合せカバー量が前記情報記憶手段に記録されている情報の総数と一致するカテゴリ組合せのうち、前記カテゴリサイズ計測手段によって計測されるカテゴリのサイズの二乗和が最小となるカテゴリ組合せを探索するカテゴリ組合せ探索手段と、前記カテゴリ組合せ探索手段によって探索されたカテゴリ組合せを保持するカテゴリ保持手段とを備える。これにより、ユーザの嗜好や興味に基づいて膨大な情報が収集された場合でも、カテゴリ間でサイズの偏りや所属情報の重複が少ないような分類を生成することができ、その結果ユーザが検索目標とする情報にたどり着くまでの操作数(具体的には、カテゴリ一覧からカテゴリを選択したり、選択したカテゴリに所属する情報の一覧から検索目標の情報を探し出し選択したりするための操作数)を最少に抑えた高速な検索を可能にする。
ここで、前記カテゴリサイズ計測手段は、前記カテゴリに所属する情報の数を前記カテゴリのサイズとしてもよい。これにより、各カテゴリに所属する情報の数を均等にすることができる。
また、前記カテゴリサイズ計測手段は、前記カテゴリに所属する情報の重要度に応じた数値の和を前記カテゴリのサイズとしてもよい。これにより、情報が視聴される確率を前記重要度として採用した場合は、情報が視聴される確率をカテゴリ間で均等にすることができる。
また、前記カテゴリ生成手段は、二つ以上の分類項目の和集合とることによって、前記カテゴリを生成してもよい。これにより、ユーザがあまり強い嗜好や興味を持たない情報を格納する抽象度の高い大きくまとめられたカテゴリを生成することができる。
また、前記分類項目生成手段は、所属する情報の内容又は属性が共通の上位概念を有する分類項目同士をまとめて上位概念共有グループを構成し、前記カテゴリ生成手段は、同一の前記上位概念共有グループに属する分類項目同士に限って、それらを組み合わせた前記カテゴリを生成してもよい。これにより、ユーザがあまり強い嗜好や興味を持たない情報を格納する抽象度の高い大きくまとめられたカテゴリを生成することができる。
また、前記分類項目生成手段は、前記上位概念共有グループを階層構造をなすように構成してもよい。これにより、抽象度の高い大きくまとめられたカテゴリを生成した場合でも、そのカテゴリを細分化することができる。
また、前記カテゴリ生成手段は、二つ以上の分類項目の積集合とることによって、前記カテゴリを生成してもよい。これにより、ユーザが強い嗜好や興味を持つ情報を格納する抽象度の低い細分化されたカテゴリを生成することができる。
また、前記情報抽出手段は、さらに、前記カテゴリ保持手段に保持されているカテゴリ組合せのうち、所定数を超える情報が所属するカテゴリがある場合は、当該カテゴリに所属する情報の内容又は属性のみを前記情報記憶手段から抽出してもよい。これにより、所定数を超える情報が所属する大きなカテゴリが存在する場合は、そのカテゴリを所定の大きさに細分化することができる。
また、前記カテゴリ探索手段は、前記カテゴリ生成手段によって生成されたカテゴリを所定の数だけ組み合わせたカテゴリ組合せに加えて、その組合せの中の一つのカテゴリを、その他のカテゴリのいずれにも所属しない全ての情報が所属する「その他」カテゴリと置き換えた組合せについても探索してもよい。これにより、「その他」カテゴリという単純で分かりやすいカテゴリをユーザに提示することができる。
また、前記カテゴリ組合せ探索手段は、前記カテゴリ生成手段によって生成されたカテゴリの中から、前記カテゴリサイズ計測手段によって計測されたカテゴリサイズが所定の範囲内であるカテゴリを探索して候補カテゴリを生成する候補カテゴリ生成部を有してもよい。これにより、カテゴリサイズが所定の範囲内であるカテゴリのみを候補カテゴリとすることができる。
また、前記カテゴリ組合せ探索手段は、さらに、前記候補カテゴリ生成部によって生成された候補カテゴリに対して、当該候補カテゴリに所属する情報の構成が類似するカテゴリ同士をグループ化して候補カテゴリグループを生成する候補カテゴリグループ生成部と、前記候補カテゴリグループ生成部によって生成された候補カテゴリグループを所定数だけ選択して候補カテゴリグループ組合せを生成し、前記カテゴリ組合せカバー量計測手段によって計測されたカテゴリ情報カバー量が前記情報記憶手段に記録されている情報の総数と一致する候補カテゴリグループ組合せの一つを選択して前記カテゴリ保持手段に保持させる候補カテゴリグループ選択部とを有してもよい。これにより、カテゴリの大きさに偏りが少ない分類構造を維持しながら、ユーザに提示されるカテゴリを部分的に別のカテゴリと置き換えることを高速かつ効率的に実現できる。
また、前記候補カテゴリグループ選択部は、前記カテゴリ組合せカバー量計測手段によって計測されたカテゴリ組合せカバー量が前記情報記憶手段に記録されている情報の総数と一致する候補カテゴリグループの組合せが存在しない場合に、前記カテゴリ組合せカバー量が最大となる候補カテゴリグループの組合せを選択し、前記情報記憶手段に記録されている情報のうち、いずれの候補カテゴリグループにも所属しない情報を所属させる「その他」カテゴリを生成し、前記カテゴリ保持手段に追加保持させてもよい。これにより、「その他」カテゴリという単純で分かりやすいカテゴリをユーザに提示することができる。
また、前記カテゴリ生成手段は、所定の数を越えない分類項目を組み合わせることによりカテゴリを生成してもよい。これにより、複雑なカテゴリが生成されるので、ユーザに提示したカテゴリ組合せの一部がユーザにとって好ましくない場合は、その一部をユーザにとってより好ましいカテゴリと置き換えた別のカテゴリ組合せをユーザに提示することが可能となる。
本発明に係る情報検索装置は、情報を検索する情報検索装置であって、情報を記録する情報記憶手段と、前記情報記憶手段に記録されている情報の内容又は属性を抽出する情報抽出手段と、前記情報抽出手段によって抽出された情報の内容又は属性に基づいて複数の分類項目を生成する、少なくとも一つの分類項目生成手段と、前記分類項目生成手段によって生成された分類項目を一つ以上組み合わせることによってカテゴリを生成するカテゴリ生成手段と、前記カテゴリ生成手段によって生成されたカテゴリを所定の数だけ組み合わせたカテゴリ組合せについて、当該カテゴリ組合せを構成するカテゴリの少なくとも一つに所属する情報の総数であるカテゴリ組合せカバー量を計測するカテゴリ組合せカバー量計測手段と、前記カテゴリ生成手段によって生成されたカテゴリのサイズを計測するカテゴリサイズ計測手段と、前記カテゴリ組合せカバー量計測手段によって計測されるカテゴリ組合せカバー量が前記情報記憶手段に記録されている情報の総数と一致するカテゴリ組合せのうち、前記カテゴリサイズ計測手段によって計測されるカテゴリのサイズの二乗和が最小となるカテゴリ組合せを探索するカテゴリ組合せ探索手段と、前記カテゴリ組合せ探索手段によって探索されたカテゴリ組合せを保持するカテゴリ保持手段とユーザからカテゴリの指示を受け付ける入力手段と、前記カテゴリ保持手段において保持されているカテゴリ組合せと、前記入力手段を通じてユーザから受け付けたカテゴリに所属する情報の一方または両方の一覧をユーザに提示することができるように配置する表示内容配置手段と、前記表示内容配置手段によって配置されたカテゴリ組合せと情報の一方または両方の一覧をユーザに提示するカテゴリ表示手段とを備える。これにより、ユーザの嗜好や興味に基づいて膨大な情報が収集された場合でも、ユーザが所望する情報を高速に検索することができる。
なお、この発明は装置またはシステムとして実現できるのみでなく、前記装置の特徴的な構成要素をステップとする方法としても実現可能である。さらに、それらのステップをコンピュータに実行させるためのプログラムとして実現することができることは云うまでもない。また、そのようなプログラムを含むソフトウェア製品もこの発明の技術的な範囲に含まれることも当然である。
本発明に係る情報分類装置または情報検索装置によれば、ユーザの嗜好や興味に基づいて膨大な情報が収集された場合でも、カテゴリ間の抽象度の違いにとらわれることなく柔軟に、各階層がカテゴリ間のサイズの偏りや所属情報の重複が少ない所定数のカテゴリからなる階層構造に情報を分類することにより、ユーザが検索目標とする情報にたどり着くまでの操作数を最少に抑えることができるので、高速な検索が可能となる。
以下、本発明に係る実施の形態について図面を参照しながら説明する。なお、本発明について、以下の実施の形態および添付の図面を用いて説明を行うが、これは例示を目的としており、本発明がこれらに限定されることを意図しない。
(実施の形態1)
図2は、本実施の形態における情報検索装置100の使用状態を示す図である。この図に示すように、本実施の形態における情報検索装置100は、DVDレコーダとして実現することができる。DVDレコーダには、ユーザの嗜好や興味に基づいて収集された情報(例えば、動画データ、静止画データ、文書データ、楽曲データ、音声データなど)が蓄積されているものとする。DVDレコーダに蓄積されている情報は、テレビ300や外部スピーカ400に出力することができる。
図3は、本発明の概要を示す図である。本発明は、カテゴリ選択方式に関する技術であって、目的の番組が見つかるまでの操作数を最少化する技術である。例えば、図3に示すように、300番組が存在する場合、その300番組を50番組ずつ6つのカテゴリに分類し、さらに、各カテゴリに属する50番組を10番組ずつ5つのサブカテゴリに分類する。このようにすれば、2回カテゴリを選択するだけで10番組にまで絞り込むことができる。ここで、カテゴリの分かりやすさを保証することは重要である。例えば、300番組を50番組ずつ6つのカテゴリに分類する場合も、各カテゴリがユーザにとって意味のあるカテゴリ(理解可能なカテゴリ)でなければならない。ここでは、1階層のカテゴリは、「サッカー・国外」「サッカー・国内」「サッカー・高校」「医療関係」「バラエティ・トーク」「その他」の6つであり、いずれも意味のある分かりやすいものとなっている。
図4は、カテゴリを生成する処理を概念的に示す図である。この図に示すように、本発明では、あらかじめ整理された分類項目を用いてカテゴリを生成する。分類項目とは、共通の特徴でまとまった番組の集合である。詳細については後述するが、兄弟分類項目の和集合をとれば大きなカテゴリを生成することができ、また、分類項目の積集合をとれば小さなカテゴリを生成することができる。その結果、番組数が均等になるように6つのカテゴリを生成することが可能となる。
図5は、本実施の形態における情報検索装置100の機能構成を示すブロック図である。図5において、情報検索装置100は、必要な操作数を最少に抑えて高速検索を可能とする情報検索装置であり、情報記憶部10、情報抽出部11、分類項目生成部121〜12N、カテゴリ生成部13、カテゴリ組合せ探索部14、カテゴリサイズ計測部15、カテゴリ組合せカバー量計測部16、カテゴリ保持部17、表示内容配置部18、カテゴリ表示部19および入力部20を備える。
情報記憶部10は、本発明に係る情報記録手段の一例である。すなわち、情報記憶部10は、各種の記録媒体(例えばハードディスク装置、フラッシュメモリ、リムーバブルメディアなど)であり、各種の情報(例えば、動画データ、静止画データ、文書データ、楽曲データ、音声データなど)を蓄積する。以下、情報の種類が楽曲データの場合を例に挙げて説明する。なお、本発明は、単一の種類の情報しか存在しない場合だけでなく、複数の種類の情報が混在している場合にも適用することができる。
情報抽出部11は、本発明に係る情報抽出手段の一例である。すなわち、情報抽出部11は、情報記憶部10に蓄積されている楽曲データの中から、検索目標となる楽曲データを含む検索対象範囲の楽曲データを抽出し、分類項目生成部121〜12Nに出力する。この場合、そのグループに属する楽曲データのすべてではなく、各楽曲データの内容や属性(例えば、楽曲データのタイトルやジャンル、演奏者名、作詞者名、作曲者名など)のみを抽出し、分類項目生成部121〜12Nに出力することとしてもよい。なお、属性データは、例えば、楽曲データの属性情報データベースであるCDDB(Compact Disc Data Base)から抽出することができる。
分類項目生成部121〜12Nは、本発明に係る分類項目生成手段の一例である。すなわち、分類項目生成部121〜12Nは、それぞれ、異なる観点(例えば、楽曲データのタイトルやジャンル、歌手名、作詞者名、作曲者名など)に基づき、情報抽出部11から入力された楽曲データを多数の分類項目に分類する。ここでは、分類項目間で楽曲データが互いに重複することを許している。すなわち、一つの楽曲データが二つ以上の分類項目に同時に所属し得るものとする。
図6は、分類項目生成方法の具体例を示す図である。情報抽出部11は、各楽曲データの属性データ111を抽出する。各楽曲の属性データにはデータIDが振られる。属性データの種類としては、前述のとおり、タイトルやジャンル、演奏者名、作詞者名、作曲者名、地域、時期などがある。各属性データ111においては、少なくとも1種類については値が存在する必要があるが、全種類について値が存在する必要はない。情報抽出部11によって抽出された属性データ111は分類項目生成部121〜12Nに送られる。各分類項目生成部121〜12Nは、各楽曲データの属性データ111を読み込み、適切な分類項目を生成する。図6の場合、分類項目生成部121は、属性「ジャンル」についての分類項目を生成する。具体的には、データID「000001」の楽曲データの属性「ジャンル」は「クラシック」なので、1211に示すように分類項目「クラシック」を生成し、その分類項目に属するデータリストにデータID「000001」を追加する。分類項目生成部122は、属性「地域」についての分類項目を生成する。具体的には、データID「000001」の楽曲データの属性「地域」は「ヨーロッパ」なので、1221に示すように分類項目「ヨーロッパ」を生成し、その分類項目に属するデータリストにデータID「000001」を追加する。
分類項目生成部121〜12Nによって生成された分類項目は、カテゴリ生成部13に出力される。カテゴリ生成部13は、本発明に係るカテゴリ生成手段の一例である。すなわち、カテゴリ生成部13は、一つの分類項目を選択することによって、もしくは複数の分類項目を組み合わせることによって種々のカテゴリを生成し、生成したカテゴリをカテゴリ組合せ探索部14に出力する。
カテゴリ組合せ探索部14は、本発明に係るカテゴリ組合せ探索手段の一例である。すなわち、カテゴリ組合せ探索部14は、情報抽出部11によって抽出された全ての楽曲データをいずれかのカテゴリに所属させた場合に、予め規定した所定の数(以下C個であるとする)のカテゴリ組合せにおいて、最もカテゴリの大きさが均等となる組合せを探索する。ここで、カテゴリの大きさ(即ち、カテゴリサイズ)とは、カテゴリに所属する楽曲データの数をいう。
次に、カテゴリ組合せ探索部14がC個のカテゴリを生成する処理を図7および図8を用いて説明する。図7は、カテゴリ生成部13およびカテゴリ組合せ探索部14のより詳細な機能構成を示すブロック図である。また、図8は、カテゴリ組合せ探索部14における処理の流れを示すフローチャートである。
まず、カテゴリ生成部(1)〜(C)を初期化する(ステップS301)。具体的には、生成されるべきC個のカテゴリのうち、何個目を調べているかを示すインデックスiを「1」に初期化する。カテゴリ生成部13は、1〜C個目のカテゴリの候補として、分類項目生成部121〜12Nから出力された1個以上M個以下の分類項目からなる組合せを順次生成する。ここで、カテゴリ生成部(i)における分類項目を組み合わせる処理では、例えば図9に示すように、二つ以上の分類項目のいずれにも共通して所属する楽曲データの集合(これを「積集合」という。)をとることによって、単独の分類項目よりも少ない楽曲データが所属するカテゴリを作るものとする。積集合をとるのではなく、二つ以上の分類項目のいずれかに所属する楽曲データの集合(これを「和集合」という。)をとることによって、単独の分類項目よりも多くの楽曲データが所属するカテゴリを作るように構成してもよい。
次に、カテゴリ生成部(i)が終端に達したかどうか調べ(ステップS302)、終端に達していなければカテゴリ生成部(i)から次の分類項目の組合せを取得してカテゴリ組合せ保持部14aのi番目の位置に格納する(ステップS303)。さらに、インデックスiがC個目まで到達したかどうか調べ(ステップS304)、到達していなければインデックスiを一つ増加させ(ステップS305)、再びステップS302に戻る。
上記ステップS304でインデックスiがC個目まで到達したと判定されれば(ステップS304:Yes)、カテゴリ組合せ保持部14aにC個のカテゴリ組合せが一組揃うことになる。
次に、組合せ評価部14bは、カテゴリ組合せ保持部14aに保持されているカテゴリ組合せをカテゴリ組合せカバー量計測部16に出力し、いずれかのカテゴリに所属する楽曲データの総数を計測させる(S306)。そして、その総数が情報抽出部11によって抽出された検索対象範囲に指定された楽曲データの総数と一致しているか(すなわち、カテゴリ組合せ保持部14aに保持されているカテゴリ組合せが検索対象範囲に指定された楽曲データの全てをカバーしているか)どうかについて調べる(S307)。一致しない場合は、不適合であるとしてカテゴリ組合せ保持部14aに保持されているカテゴリ組合せを破棄し、ステップS302に戻って次のカテゴリ組合せを調べる。なお、S307では、情報抽出部11によって抽出された検索対象範囲に指定された楽曲データの総数と一致しているかどうかについて調べることとしているが、情報記憶部10に記録されている楽曲データの総数と一致しているかどうかについて調べるようにしてもよい。
上記ステップS307でカテゴリ組合せ保持部14aに保持されているカテゴリ組合せが検索対象範囲に指定された楽曲データの全てをカバーしていると判定された場合(S307:Yes)、組合せ評価部14bは、カテゴリ組合せ保持部14aに保持されているカテゴリ組合せを構成するカテゴリ各々のカテゴリサイズをカテゴリサイズ計測部15に計測させ、その二乗和を計算する(S308)。そして、ステップS308で計算されたカテゴリサイズの二乗和が、既に調べた他のカテゴリ組合せとの関係で最小であるか否かを調べる(S309)。最小である場合は、カテゴリ組合せ保持部14aに保持されているカテゴリ組合せを最良カテゴリ組合せ保持部14cに保持する(S310)。
上記ステップS302においてカテゴリ生成部(i)が終端に達した場合は、インデックスiが1番目のカテゴリを指しているかどうか調べ(S311)、1番目を指していれば全てのカテゴリ組合せを調べたとして終了する。1番目を指していなければ、カテゴリ生成部(i)を初期化して再び1番目のカテゴリから出力しなおすように指示し(S312)、(i−1)番目のカテゴリを置き換えて次のカテゴリ組合せを作るべくインデックスiを一つ減じ(S313)、ステップS302に戻る。
以上の処理が終了した時点で、カテゴリ組合せ探索部14は、最良カテゴリ組合せ保持部14cに保持されているカテゴリ組合せをカテゴリ保持部17に出力して保持させる。ここで保持されたカテゴリ組合せを構成する各カテゴリに所属する楽曲データの数が所定数より多い場合には、カテゴリ保持部17は、各カテゴリに所属する楽曲データを新たな検索対象範囲とするように情報抽出部11に指示する。その後、前述の処理を繰り返すことにより、各カテゴリをさらに細分化したカテゴリ組合せをカテゴリ保持部17に格納する。これにより、カテゴリ保持部17には、各階層がC個ずつのカテゴリからなる階層構造が保持される。
なお、このカテゴリの階層構造を生成する処理は、ユーザが検索を開始する毎に実行する必要はない。例えば、一度階層構造を生成した後は、情報記憶部10に記憶されている楽曲データに一定数以上の変更(楽曲データの追加、削除、属性の変更)があったときのみに実行すればよい。また、情報記憶部10に記憶されている楽曲データに変更があったことが検知できない場合には、階層構造を生成してから一定期間が経過する毎に実行してもよい。
次に、表示内容配置部18は、本発明に係る表示内容配置手段の一例である。すなわち、表示内容配置部18は、カテゴリ保持部17に保持されているカテゴリ組合せの中から最上位階層のC個のカテゴリを読出して一覧できるように配置する。カテゴリ表示部19は、本発明に係るカテゴリ表示手段の一例である。すなわち、カテゴリ表示部19は、配置されたC個のカテゴリを表示し、そのC個のカテゴリのうち少なくとも一つをユーザが選択できるようにする。
図10(A)は、カテゴリ組合せの配置例を示す図である。図10(A)では、カテゴリ保持部17が保持しているカテゴリ組合せが「Classic」〜「Jazz∩Europe」等であり、ユーザが選択しているカテゴリとして「Classic」が反転表示されている様子が示されている。このように、表示内容配置部18は、入力部20がユーザから選択カテゴリ変更指示を受け付けると、その選択カテゴリ変更指示に基づいてカテゴリを変更する。
なお、図10(A)に示したように、カテゴリ組合せだけでなく、現在選択されているカテゴリである「Classic」に所属する楽曲データ「1st Symphony」〜「17th Piano Quartet」(この場合、7曲目〜50曲目は表示されていない。)も一覧形式で表示するようにしてもよい。これにより、ユーザは、選択しているカテゴリの内容を理解しやすくなる。さらに、カテゴリの名称とともにそのカテゴリに所属する楽曲データの数を表示するようにしてもよい。例えば、図10(A)の「Classic(50)」は、「Classic」に所属する楽曲データの数が50曲であることを示している。これにより、ユーザは、そのカテゴリを選択することによってどの程度楽曲データを絞り込めるかが把握しやすくなる。
次に、表示内容配置部18は、入力部20がユーザから受け付けたカテゴリを細分化する指示に基づき、現在選択されているカテゴリを細分化した下位階層のカテゴリ組合せをカテゴリ保持部17から取得する。次に、表示内容配置部18は、取得した下位階層のカテゴリ組合せをユーザが一覧できるように配置し、配置したカテゴリ組み合わせをカテゴリ表示部19に表示してユーザに提示する。これにより、ユーザは、カテゴリを階層的に選択してすばやく少数の楽曲データに絞り込むことができる。
図10(B)は、表示内容配置部18におけるカテゴリ組合せの配置例を示す図である。図10(B)では、カテゴリ保持部17が新たに保持したカテゴリ組合せが「Opera」〜「others」であり、ユーザの選択しているカテゴリである「Symphony」が反転表示されている様子が示されている。また、図10(A)と同様、選択されているカテゴリである「Symphony」に所属する楽曲データ「1st Symphony」〜「6th Symphony」が併せて配置される。
なお、図10(B)に示したように、細分化前の(上位階層の)カテゴリ組合せ「Classic」〜「Jazz∩Europe」を併せて配置するようにしてもよい。これにより、ユーザは、選択履歴が一目でわかるので、上位階層のカテゴリ選択のやり直しなど、カテゴリの探索が容易になる。
かかる構成によれば、情報記憶部11に蓄積された楽曲データが、ユーザの嗜好や興味に基づいて収集された楽曲データであっても、各階層がカテゴリの大きさが最も均等に近いカテゴリで構成される階層構造に分類され整理されることになる。そのため、ユーザが検索目標とする楽曲データにたどり着くまでに選択肢として提示されるカテゴリや楽曲データの数の期待値を最小化することができ、ユーザが検索目標の楽曲データを高速に検索することが可能な情報検索装置を実現できる。
なお、前記の説明では、カテゴリサイズ計測部15は、カテゴリの大きさを計測する際、カテゴリに所属する楽曲データの数を用いたが、カテゴリに所属する情報の重要度に応じた数値の和を用いてもよい。例えば、各楽曲データが検索目標になる確率が一様でなくその確率分布を推定できる場合には、各楽曲データが検索目標となる確率の推定値をカテゴリ内で累積した値を用いてもよい。この場合、検索されやすい楽曲データについてより少ない選択肢数で検索が可能となる。
さらに、前記の説明では、カテゴリ生成部13のカテゴリ生成部(1)〜(C)は、分類項目生成部121〜12Nによって生成された分類項目を任意に組み合わせることができるとしたが、本発明はこれに限定されるものではない。例えば、図11に示すように、分類項目生成部121〜12Nによって生成される分類項目について、その所属する楽曲データの内容又は属性が共通の上位概念を有する分類項目同士で上位概念共有グループを構成し、それを階層化してそれぞれ一つの木構造をなすように構成する。そして、カテゴリ生成部(1)〜(C)が分類項目を組み合わせる場合には、木構造で共通の親ノードを持つ分類項目同士、すなわち上位概念を共有する分類項目同士(例えば、図11において共通の親ノードである分類項目[Jazz]を共有する分類項目[SwingJazz]〜分類項目[SmoothJazz]など)の和集合をとるようにしてもよい。これにより、カテゴリ生成部(1)〜(C)が生成するカテゴリを、互いに関連のある分類項目の上位概念となるように限定することができ、カテゴリ組合せ探索部14が生成するカテゴリをユーザにとってより理解しやすいものにすることができる。
さらに、前記の説明では、カテゴリ生成部13から取得したC個のカテゴリからなるカテゴリ組合せを組合せ評価部14bが評価することとしたが、本発明はこれに限定されるものではない。例えば、各カテゴリ組合せを構成するカテゴリの一つ、例えば、カテゴリ保持部14aのC番目に格納されるカテゴリを、残りの(C−1)個のカテゴリのいずれにも所属しない楽曲データが所属する「その他」カテゴリと置き換えたカテゴリ組合せについても同様に組合せ評価部14bが評価するようにしてもよい。これにより、万一いずれの分類項目にも所属しない楽曲データが存在しても「その他」カテゴリには所属することになる。したがって、より確実に適切なカテゴリ組合せを見つけることができるようになるほか、非常に多くの分類項目を組み合わせた複雑なカテゴリが「その他」カテゴリに置き換わるので、カテゴリ組合せをより単純で分かりやすくすることができる。
さらに、図8のフローチャートに示したように、カテゴリ組合せ探索部14におけるカテゴリ組合せ探索処理では探索可能な全てのカテゴリ組合せについて探索する全探索アルゴリズムを用いたが、本発明はこれに限定されるものではない。例えば、検索対象範囲の全情報をカバーするという制約のもとでカテゴリサイズの二乗和が最小化となるカテゴリ組合せを探索するという、組合せ最適化問題としてとらえて探索処理を行ってもよい。この場合、例えば「西川▲よし▼一、三宮信夫、茨木俊秀著“岩波講座情報科学19 最適化”岩波書店 1982年」に記載されているような分枝限定法や近似解法などの公知のアルゴリズムを用い、カテゴリ組合せ探索処理の高速化を行ってもよい。
(実施の形態2)
図12は、実施の形態2における情報検索装置200の機能構成を示すブロック図である。図12において、上記実施の形態1における図5と同じ機能を持つ構成要素については同じ符号を用い、その説明は省略する。また、扱う情報の一例として実施の形態1と同様に楽曲データを挙げて説明する。
情報検索装置200は、カテゴリの大きさに偏りが少ない分類構造を維持しながら、ユーザに提示されるカテゴリを部分的に別のカテゴリと置き換えることを高速かつ効率的に実現する装置であり、情報記憶部10、情報抽出部11、分類項目生成部121〜12N、カテゴリ生成部13、候補カテゴリ生成部141、候補カテゴリグループ生成部142、候補カテゴリグループ選択部143、カテゴリサイズ計測部15、カテゴリ組合せカバー量計測部16、カテゴリ保持部17、表示内容配置部18、カテゴリ表示部19および入力部20を備える。
前記実施の形態1と同様、カテゴリ生成部13は、分類項目生成部121〜12Nによって生成された分類項目を組み合わせることによりカテゴリを生成する。ここで、候補カテゴリ生成部141は、カテゴリ生成部13によって生成されたカテゴリを順次読込み、最終的にユーザに提示されるカテゴリになり得る条件を満たしているカテゴリを選び出し、候補カテゴリとして出力する。「最終的にユーザに提示されるカテゴリになり得る条件」とは、所属する楽曲データの総数が規定の範囲内であり、かつ基となる分類項目の数が所定の数以下であることをいう。所属する楽曲データの総数を規定の範囲に限定することにより、カテゴリ間の所属楽曲数の偏りが一定以下になるようにする。好ましくは、この規定の範囲は、情報抽出部11が抽出した検索対象となる情報の総数を生成するカテゴリの数Cで除した数を含むように設定する。
なお、所属する楽曲データの総数の計算方法としては、組み合わせられた各分類項目に所属する楽曲データの和集合あるいは積集合のいずれか一方をとるように処理全体を通して統一すれば、カテゴリをユーザにとってより分かりやすいものにすることができる。
図13は、候補カテゴリ生成部141によって実行される処理の流れを示すフローチャートである。以下、図13を用いて、候補カテゴリ生成部141における候補カテゴリ生成処理について説明する。
まず、カテゴリ生成部13よりカテゴリが入力される(S801)。
この後、入力されたカテゴリから、あらかじめ設定された組み合わせ可能な上限個数以下の分類項目を組み合わせて生成されたカテゴリが選択される(S802)。例えば、分類項目を「3個」まで組み合わせることが可能であれば、1個、2個あるいは3個の分類項目の組み合わせが考えられる。なお、組み合わせ可能な分類項目数を上回らないカテゴリのみをカテゴリ生成部13が生成するようにすれば、ステップS802は省略可能である。
次に、ステップS802で選択されたカテゴリに含まれる楽曲データの総数を算出し(S803)、楽曲データの総数があらかじめ設定されている範囲内にあるかどうかを判定する(S804)。このカテゴリに含まれる楽曲データの総数があらかじめ設定されている範囲内であれば、ステップS805に進み、そうでなければステップS806に進む。
ステップS805では、このカテゴリを候補カテゴリの一つとして出力し、ステップS806に進む。ステップS806では、入力されたカテゴリの探索が全て終了したかどうかを判定する。探索が全て終了した場合には(S806:Yes)、候補カテゴリ生成処理を終了する。探索が全て終了していない場合には(S806:No)、ステップS802に戻り処理を繰り返す。
最後に、ステップS807で、一連の処理で生成された全候補カテゴリが候補カテゴリ群として出力され、処理を終了する。
候補カテゴリグループ生成部142は、前記候補カテゴリ生成部141によって生成された候補カテゴリ群が入力されると、各候補カテゴリに所属する楽曲データの類似度をもとにグループ化した候補カテゴリグループ群を出力する。
図14は、候補カテゴリグループ生成部142によって実行される処理の流れを示すフローチャートである。以下、図14を用いて、候補カテゴリグループ生成部142における候補カテゴリグループ生成処理について説明する。
まず、候補カテゴリ群が入力され、i=1,j=1がセットされる(S901)。
ステップS902では、現段階で候補カテゴリグループが一つも存在しなければステップS905に移り、一つ以上存在していればステップS903に移る。
ステップS903では、候補カテゴリ(i)と候補カテゴリグループ(j)との情報構成類似度が計算される。情報構成類似度とは、候補カテゴリ(i)に所属する楽曲データと候補カテゴリグループ(j)に所属する楽曲データとで一致する楽曲データの数を、候補カテゴリ(i)に所属する楽曲データの数で割った値である。
ステップS904では、ここで算出された情報構成類似度が一定以上であればステップS905に進み、そうでなければjに1を加えてステップS906に進む。
ステップS905では、候補カテゴリ(i)を候補カテゴリグループ(j)のメンバーに追加し、候補カテゴリグループ(j)に所属する楽曲データに候補カテゴリ(i)に所属する楽曲データを加え、j=1にし、iに1を加えてステップS908に進む。
ステップS906では、jが候補カテゴリグループ数より大きいかどうかを判定し、大きければステップS907に、そうでなければステップS903に進む。ステップS907では、新しい候補カテゴリグループを生成し、候補カテゴリ(i)をその新しく生成された候補カテゴリグループのメンバーに追加し、新しく生成された候補カテゴリグループに所属する楽曲データに候補カテゴリ(i)に所属する楽曲データを加え、iに1を加えてステップS908に進む。
ステップS908では、iが候補カテゴリ数よりも大きいかどうかを判定し、大きければステップS909に、そうでなければステップS903に進む。ステップS909では、一連の処理で生成された全候補カテゴリグループを候補カテゴリグループ群として出力し、処理を終了する。
候補カテゴリグループ選択部143は、候補カテゴリグループ生成部142によって生成された候補カテゴリグループ群が入力されると、カバーする楽曲データの数が最大となる候補カテゴリグループの組合せを選択し、選択した各候補カテゴリグループの中から代表となる各候補カテゴリを選択し、その組合せをカテゴリとして出力する。
図15は、候補カテゴリグループ選択部143によって実行される処理の流れを示すフローチャートである。以下、図15を用いて、候補カテゴリグループ選択部143における候補カテゴリグループ選択処理について説明する。
まず、候補カテゴリグループ群が入力される(S1001)。
次に、入力された候補カテゴリグループ群から所定の数より1少ない個数以下の候補カテゴリグループが選択される(S1002)。
ステップS1003では、選択されている候補カテゴリグループの組合せの評価値を算出する。ここで評価値は、選択されている候補カテゴリグループに所属する楽曲データの重複を除いた総数のことである。ステップS1004では、現処理で算出された評価値の判定を行う。現処理で算出された評価値がこれまでの処理で算出されている評価値の中で最大であればステップS1005に進み、そうでなければステップS1006に進む。
ステップS1005では、選択されている候補カテゴリグループの組合せを解候補として保持する。ステップS1006で、候補カテゴリグループの組合せ探索を全て終了したかどうかを判定し、全て終了していればステップS1007に進み、そうでなければステップS1002に進み、これまでに探索されていない別の組合せの探索を再開する。
ステップS1007では、解候補として保持されている候補カテゴリグループの組合せに含まれる各候補カテゴリグループの中から、代表となる候補カテゴリを選択する。最後にステップS1008では、代表カテゴリのリストと各代表カテゴリが属している候補カテゴリグループのセットを出力し、処理を終了する。
代表となる候補カテゴリの選択方法としては、例えば、各候補カテゴリグループの持つ候補カテゴリのリストの先頭、あるいはそれ以降の特定の順目に格納されている候補カテゴリを代表カテゴリにする方法がある。また、以下のアルゴリズムによる方法もある。
まず、代表カテゴリを選択したい候補カテゴリグループに所属する全ての楽曲データについて、その候補カテゴリグループに属するいくつの候補カテゴリに含まれるかを計算する。次に、候補カテゴリグループに含まれるk番目の候補カテゴリの評価値E(k)を、以下の式で算出する。
Figure 2007088893
ここで、S(k,i)は、k番目の候補カテゴリがi番目の楽曲データを含んでいるかどうかを示す値であり、含んでいれば「1」、含んでいなければ「0」が入る。n(i)は、i番目の楽曲データを含む候補カテゴリ数である。この評価値E(k)が最大となる候補カテゴリを代表カテゴリとする。この手法により、その候補カテゴリグループにおける最も一般的な候補カテゴリを選択できることになる。
次に、カテゴリ保持部17に、候補カテゴリグループ選択部143より出力された候補カテゴリグループのセットと代表カテゴリのリストとが入力され保持される。またここで、代表カテゴリのセットでカバーできなかった楽曲データの集合を「その他」カテゴリとして一つのカテゴリを生成し保持する。
表示内容配置部18は、図16(A)に示すように代表カテゴリのリストを表示装置に表示させるが、ここに表示される代表カテゴリからそれぞれに含まれる楽曲データの内容をユーザが判断しにくい場合がある。この場合、ユーザは、代表カテゴリを変更するための入力を入力部20から行うことができる。
入力部20においてユーザが代表カテゴリを変更する命令が入力されると、変更しようとしている代表カテゴリに対する置換候補のリストが表示される。例えば、図16(A)において「Classic」を変更しようとする場合、「Classic」を選択した状態で「変更」を指示する。すると図16(B)に示すように「Classic」の置換候補のリストが表示される。ここで表示される置換候補リストは、前記カテゴリ保持部17に保持されている候補カテゴリグループのセットの中から、置き換えようとしている代表カテゴリと同じ候補カテゴリグループに属する候補カテゴリである。ユーザは、このリストから、代表カテゴリに適していると判断する候補カテゴリを選択し確定することで、選択した候補カテゴリに元の代表カテゴリを置き換えることができる。例えば、図16(B)に示すように、代表カテゴリ「Classic」をその置換候補である「Beethoven」に変更したい場合、「Beethoven」を選択し「確定」を指示する。これにより、図16(C)にあるように「Classic」が「Beethoven」に置き換えられる。
代表カテゴリを置き換えると、置換前の代表カテゴリと置換後の代表カテゴリとでカテゴリに所属する楽曲データに差異が生じる可能性がある。差異が生じない場合にはそのまま置き換えるが、差異の生じる場合には以下の処理を行う。
まず、置換前の代表カテゴリに所属する楽曲データの全てが置換後の代表カテゴリに含まれている場合は、置換後の代表カテゴリに所属する楽曲データの方が多いこととなる。その差分の楽曲データのうち「その他」カテゴリに所属する楽曲データがあれば、「その他」カテゴリからその楽曲データを削除し、代表カテゴリを置き換える。
次に、置換後の代表カテゴリに所属する楽曲データの全てが置換前の代表カテゴリに含まれている場合は、置換前の代表カテゴリに所属する楽曲データの方が多いこととなる。その差分の楽曲データのうち、置換前のカテゴリ以外のどのカテゴリにも所属していない楽曲データについては「その他」カテゴリに追加し、代表カテゴリを置き換える。
かかる構成によると、候補カテゴリ生成部141は、カテゴリになる可能性のある組み合わせを全て探索しておくことになる。また、候補カテゴリグループ生成部142は、所属する楽曲データの構成が類似する候補カテゴリをグループ化し保持しておくことになる。これにより、カテゴリの大きさに偏りが少ない分類構造を維持しながら、ユーザに提示されるカテゴリを部分的に別のカテゴリと置き換えることを高速かつ効率的に実現できる。
本発明に係る情報分類装置や情報検索装置は、ユーザの嗜好や興味に基づいて情報が収集された場合でも、カテゴリの大きさに偏りの少ない分類を行うことを特徴とし、電子配信で購入された楽曲データもしくはデジタルオーディオプレーヤに格納された楽曲データのみならず、ビデオレコーダ等で録画した動画データやデジタルカメラ等で撮影した写真等の静止画データなど、ユーザの嗜好や興味に基づいて大量に蓄積されるAVコンテンツ等の情報を分類する情報分類装置やこれらから所望の情報を検索する情報検索装置として有用である。またユーザの嗜好や興味に基づいて収集される情報であれば、AVコンテンツ以外の文書又はメール等の分類や検索にも応用が可能である。
図1(A)(B)は、従来技術によってカテゴリをユーザに選択させる際のユーザインタフェース例を示す図である。 図2は、実施の形態1における情報検索装置の使用状態を示す図である。 図3は、本発明の概要を示す図である。 図4は、本発明におけるカテゴリ生成処理を概念的に示す図である。 図5は、実施の形態1における情報検索装置の機能構成を示すブロック図である。 図6は、実施の形態1における分類項目生成方法の具体例を示す図である。 図7は、実施の形態1におけるカテゴリ生成部およびカテゴリ組合せ探索部のより詳細な機能構成を示すブロック図である。 図8は、実施の形態1におけるカテゴリ組合せ探索部によって実行される処理の流れを示すフローチャートである。 図9は、実施の形態1におけるカテゴリ生成部にによって実行される処理の一例を示す図である。 図10(A)(B)は、実施の形態1においてカテゴリをユーザに選択させる際のユーザインタフェース例を示す図である。 図11は、実施の形態1におけるカテゴリ生成部によって実行される処理の一例を示す図である。 図12は、実施の形態2における情報検索装置の機能構成を示すブロック図である。 図13は、実施の形態2における候補カテゴリ生成部によって実行される処理の流れを示すフローチャートである。 図14は、実施の形態2における候補カテゴリグループ生成部によって実行される処理の流れを示すフローチャートである。 図15は、実施の形態2における候補カテゴリグループ選択部によって実行される処理の流れを示すフローチャートである。 図16(A)〜(C)は、実施の形態2において代表カテゴリを変更する際のユーザインタフェース例を示す図である。
符号の説明
10 情報記憶部
11 情報抽出部
121〜12N 分類項目生成部
13 カテゴリ生成部
14 カテゴリ組合せ探索部
14a カテゴリ組合せ保持部
14b 組合せ評価部
14c 最良カテゴリ組合せ保持部
15 カテゴリサイズ計測部
16 カテゴリ組合せカバー量計測部
17 カテゴリ保持部
18 表示内容配置部
19 カテゴリ表示部
20 入力部
100 情報検索装置
141 候補カテゴリ生成部
142 候補カテゴリグループ生成部
143 候補カテゴリグループ選択部
200 情報検索装置

Claims (20)

  1. 情報を分類する情報分類装置であって、
    情報を記録する情報記憶手段と、
    前記情報記憶手段に記録されている情報の内容又は属性を抽出する情報抽出手段と、
    前記情報抽出手段によって抽出された情報の内容又は属性に基づいて複数の分類項目を生成する、少なくとも一つの分類項目生成手段と、
    前記分類項目生成手段によって生成された分類項目を一つ以上組み合わせることによってカテゴリを生成するカテゴリ生成手段と、
    前記カテゴリ生成手段によって生成されたカテゴリを所定の数だけ組み合わせたカテゴリ組合せについて、当該カテゴリ組合せを構成するカテゴリの少なくとも一つに所属する情報の総数であるカテゴリ組合せカバー量を計測するカテゴリ組合せカバー量計測手段と、
    前記カテゴリ生成手段によって生成されたカテゴリのサイズを計測するカテゴリサイズ計測手段と、
    前記カテゴリ組合せカバー量計測手段によって計測されるカテゴリ組合せカバー量が前記情報記憶手段に記録されている情報の総数と一致するカテゴリ組合せのうち、前記カテゴリサイズ計測手段によって計測されるカテゴリのサイズの二乗和が最小となるカテゴリ組合せを探索するカテゴリ組合せ探索手段と、
    前記カテゴリ組合せ探索手段によって探索されたカテゴリ組合せを保持するカテゴリ保持手段と
    を備えることを特徴とする情報分類装置。
  2. 前記カテゴリサイズ計測手段は、前記カテゴリに所属する情報の数を前記カテゴリのサイズとする
    ことを特徴とする請求項1に記載の情報分類装置。
  3. 前記カテゴリサイズ計測手段は、前記カテゴリに所属する情報の重要度に応じた数値の和を前記カテゴリのサイズとする
    ことを特徴とする請求項1に記載の情報分類装置。
  4. 前記カテゴリ生成手段は、二つ以上の分類項目の和集合とることによって、前記カテゴリを生成する
    ことを特徴とする請求項1に記載の情報分類装置。
  5. 前記分類項目生成手段は、所属する情報の内容又は属性が共通の上位概念を有する分類項目同士をまとめて上位概念共有グループを構成し、
    前記カテゴリ生成手段は、同一の前記上位概念共有グループに属する分類項目同士に限って、それらを組み合わせた前記カテゴリを生成する
    ことを特徴とする請求項4に記載の情報分類装置。
  6. 前記分類項目生成手段は、前記上位概念共有グループを階層構造をなすように構成する
    ことを特徴とする請求項5に記載の情報分類装置。
  7. 前記カテゴリ生成手段は、二つ以上の分類項目の積集合とることによって、前記カテゴリを生成する
    ことを特徴とする請求項1に記載の情報分類装置。
  8. 前記情報抽出手段は、さらに、前記カテゴリ保持手段に保持されているカテゴリ組合せのうち、所定数を超える情報が所属するカテゴリがある場合は、当該カテゴリに所属する情報の内容又は属性のみを前記情報記憶手段から抽出する
    ことを特徴とする請求項1に記載の情報分類装置。
  9. 前記カテゴリ探索手段は、前記カテゴリ生成手段によって生成されたカテゴリを所定の数だけ組み合わせたカテゴリ組合せに加えて、その組合せの中の一つのカテゴリを、その他のカテゴリのいずれにも所属しない全ての情報が所属する「その他」カテゴリと置き換えた組合せについても探索する
    ことを特徴とする請求項1に記載の情報分類装置。
  10. 前記カテゴリ組合せ探索手段は、
    前記カテゴリ生成手段によって生成されたカテゴリの中から、前記カテゴリサイズ計測手段によって計測されたカテゴリサイズが所定の範囲内であるカテゴリを探索して候補カテゴリを生成する候補カテゴリ生成部を有する
    ことを特徴とする請求項1に記載の情報分類装置。
  11. 前記カテゴリ組合せ探索手段は、さらに、
    前記候補カテゴリ生成部によって生成された候補カテゴリに対して、当該候補カテゴリに所属する情報の構成が類似するカテゴリ同士をグループ化して候補カテゴリグループを生成する候補カテゴリグループ生成部と、
    前記候補カテゴリグループ生成部によって生成された候補カテゴリグループを所定数だけ選択して候補カテゴリグループ組合せを生成し、前記カテゴリ組合せカバー量計測手段によって計測されたカテゴリ情報カバー量が前記情報記憶手段に記録されている情報の総数と一致する候補カテゴリグループ組合せの一つを選択して前記カテゴリ保持手段に保持させる候補カテゴリグループ選択部とを有する
    ことを特徴とする請求項10に記載の情報分類装置。
  12. 前記候補カテゴリグループ選択部は、前記カテゴリ組合せカバー量計測手段によって計測されたカテゴリ組合せカバー量が前記情報記憶手段に記録されている情報の総数と一致する候補カテゴリグループの組合せが存在しない場合に、前記カテゴリ組合せカバー量が最大となる候補カテゴリグループの組合せを選択し、前記情報記憶手段に記録されている情報のうち、いずれの候補カテゴリグループにも所属しない情報を所属させる「その他」カテゴリを生成し、前記カテゴリ保持手段に追加保持させる
    ことを特徴とする請求項11に記載の情報分類装置。
  13. 前記カテゴリ生成手段は、所定の数を越えない分類項目を組み合わせることによりカテゴリを生成する
    ことを特徴とする請求項11に記載の情報分類装置。
  14. 情報を検索する情報検索装置であって、
    情報を記録する情報記憶手段と、
    前記情報記憶手段に記録されている情報の内容又は属性を抽出する情報抽出手段と、
    前記情報抽出手段によって抽出された情報の内容又は属性に基づいて複数の分類項目を生成する、少なくとも一つの分類項目生成手段と、
    前記分類項目生成手段によって生成された分類項目を一つ以上組み合わせることによってカテゴリを生成するカテゴリ生成手段と、
    前記カテゴリ生成手段によって生成されたカテゴリを所定の数だけ組み合わせたカテゴリ組合せについて、当該カテゴリ組合せを構成するカテゴリの少なくとも一つに所属する情報の総数であるカテゴリ組合せカバー量を計測するカテゴリ組合せカバー量計測手段と、
    前記カテゴリ生成手段によって生成されたカテゴリのサイズを計測するカテゴリサイズ計測手段と、
    前記カテゴリ組合せカバー量計測手段によって計測されるカテゴリ組合せカバー量が前記情報記憶手段に記録されている情報の総数と一致するカテゴリ組合せのうち、前記カテゴリサイズ計測手段によって計測されるカテゴリのサイズの二乗和が最小となるカテゴリ組合せを探索するカテゴリ組合せ探索手段と、
    前記カテゴリ組合せ探索手段によって探索されたカテゴリ組合せを保持するカテゴリ保持手段と、
    ユーザからカテゴリの指示を受け付ける入力手段と、
    前記カテゴリ保持手段において保持されているカテゴリ組合せと、前記入力手段を通じてユーザから受け付けたカテゴリに所属する情報の一方または両方の一覧をユーザに提示することができるように配置する表示内容配置手段と、
    前記表示内容配置手段によって配置されたカテゴリ組合せと情報の一方または両方の一覧をユーザに提示するカテゴリ表示手段と
    を備えることを特徴とする情報検索装置。
  15. 情報を分類する情報分類方法であって、
    情報記憶手段に記録されている情報の内容又は属性を抽出する情報抽出ステップと、
    前記情報抽出ステップにおいて抽出された情報の内容又は属性に基づいて複数の分類項目を生成する、少なくとも一つの分類項目生成ステップと、
    前記分類項目生成ステップにおいて生成された分類項目を一つ以上組み合わせることによってカテゴリを生成するカテゴリ生成ステップと、
    前記カテゴリ生成ステップにおいて生成されたカテゴリを所定の数だけ組み合わせたカテゴリ組合せについて、当該カテゴリ組合せを構成するカテゴリの少なくとも一つに所属する情報の総数であるカテゴリ組合せカバー量を計測するカテゴリ組合せカバー量計測ステップと、
    前記カテゴリ生成ステップにおいて生成されたカテゴリのサイズを計測するカテゴリサイズ計測ステップと、
    前記カテゴリ組合せカバー量計測ステップにおいて計測されるカテゴリ組合せカバー量が前記情報記憶手段に記録されている情報の総数と一致するカテゴリ組合せのうち、前記カテゴリサイズ計測ステップにおいて計測されるカテゴリのサイズの二乗和が最小となるカテゴリ組合せを探索するカテゴリ組合せ探索ステップと、
    前記カテゴリ組合せ探索ステップにおいて探索されたカテゴリ組合せをカテゴリ保持手段に保持させるカテゴリ保持ステップと
    を含むことを特徴とする情報分類方法。
  16. 前記カテゴリ組合せ探索ステップは、
    前記カテゴリ生成ステップにおいて生成されたカテゴリの中から、前記カテゴリサイズ計測ステップにおいて計測されたカテゴリサイズが所定の範囲内であるカテゴリを探索して候補カテゴリを生成する候補カテゴリ生成ステップを含む
    ことを特徴とする請求項15に記載の情報分類方法。
  17. 前記カテゴリ組合せ探索ステップは、さらに、
    前記候補カテゴリ生成ステップにおいて生成された候補カテゴリに対して、当該候補カテゴリに所属する情報の構成が類似するカテゴリ同士をグループ化して候補カテゴリグループを生成する候補カテゴリグループ生成ステップと、
    前記候補カテゴリグループ生成ステップにおいて生成された候補カテゴリグループを所定数だけ選択して候補カテゴリグループ組合せを生成し、前記カテゴリ組合せカバー量計測ステップにおいて計測されたカテゴリ情報カバー量が前記情報記憶手段に記録されている情報の総数と一致する候補カテゴリグループ組合せの一つを選択して前記カテゴリ生成手段に保持させる候補カテゴリグループ選択ステップとを含む
    ことを特徴とする請求項16に記載の情報分類方法。
  18. 情報を分類するためのプログラムであって、
    情報記憶手段に記録されている情報の内容又は属性を抽出する情報抽出ステップと、
    前記情報抽出ステップにおいて抽出された情報の内容又は属性に基づいて複数の分類項目を生成する、少なくとも一つの分類項目生成ステップと、
    前記分類項目生成ステップにおいて生成された分類項目を一つ以上組み合わせることによってカテゴリを生成するカテゴリ生成ステップと、
    前記カテゴリ生成ステップにおいて生成されたカテゴリを所定の数だけ組み合わせたカテゴリ組合せについて、当該カテゴリ組合せを構成するカテゴリの少なくとも一つに所属する情報の総数であるカテゴリ組合せカバー量を計測するカテゴリ組合せカバー量計測ステップと、
    前記カテゴリ生成ステップにおいて生成されたカテゴリのサイズを計測するカテゴリサイズ計測ステップと、
    前記カテゴリ組合せカバー量計測ステップにおいて計測されるカテゴリ組合せカバー量が前記情報記憶手段に記録されている情報の総数と一致するカテゴリ組合せのうち、前記カテゴリサイズ計測ステップにおいて計測されるカテゴリのサイズの二乗和が最小となるカテゴリ組合せを探索するカテゴリ組合せ探索ステップと、
    前記カテゴリ組合せ探索ステップにおいて探索されたカテゴリ組合せをカテゴリ保持手段に保持させるカテゴリ保持ステップと
    をコンピュータに実行させるためのプログラム。
  19. 前記カテゴリ組合せ探索ステップは、
    前記カテゴリ生成ステップにおいて生成されたカテゴリの中から、前記カテゴリサイズ計測ステップにおいて計測されたカテゴリサイズが所定の範囲内であるカテゴリを探索して候補カテゴリを生成する候補カテゴリ生成ステップを含む
    ことを特徴とする請求項18に記載のプログラム。
  20. 前記カテゴリ組合せ探索ステップは、さらに、
    前記候補カテゴリ生成ステップにおいて生成された候補カテゴリに対して、当該候補カテゴリに所属する情報の構成が類似するカテゴリ同士をグループ化して候補カテゴリグループを生成する候補カテゴリグループ生成ステップと、
    前記候補カテゴリグループ生成ステップにおいて生成された候補カテゴリグループを所定数だけ選択して候補カテゴリグループ組合せを生成し、前記カテゴリ組合せカバー量計測ステップにおいて計測されたカテゴリ情報カバー量が前記情報記憶手段に記録されている情報の総数と一致する候補カテゴリグループ組合せの一つを選択して前記カテゴリ保持手段に保持させる候補カテゴリグループ選択ステップとを含む
    ことを特徴とする請求項19に記載のプログラム。
JP2007556892A 2006-02-01 2007-01-31 情報分類装置および情報検索装置 Active JP4808736B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007556892A JP4808736B2 (ja) 2006-02-01 2007-01-31 情報分類装置および情報検索装置

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2006025072 2006-02-01
JP2006025072 2006-02-01
JP2007556892A JP4808736B2 (ja) 2006-02-01 2007-01-31 情報分類装置および情報検索装置
PCT/JP2007/051606 WO2007088893A1 (ja) 2006-02-01 2007-01-31 情報分類装置および情報検索装置

Publications (2)

Publication Number Publication Date
JPWO2007088893A1 true JPWO2007088893A1 (ja) 2009-06-25
JP4808736B2 JP4808736B2 (ja) 2011-11-02

Family

ID=38327464

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007556892A Active JP4808736B2 (ja) 2006-02-01 2007-01-31 情報分類装置および情報検索装置

Country Status (4)

Country Link
US (1) US20090055390A1 (ja)
JP (1) JP4808736B2 (ja)
CN (1) CN101379492B (ja)
WO (1) WO2007088893A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017102977A (ja) * 2017-03-06 2017-06-08 株式会社野村総合研究所 商品検索システムおよび商品検索プログラム

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7774294B2 (en) 2006-03-06 2010-08-10 Veveo, Inc. Methods and systems for selecting and presenting content based on learned periodicity of user content selection
JPWO2008120338A1 (ja) * 2007-03-28 2010-07-15 富士通株式会社 一覧表示方法、一覧表示装置および一覧表示プログラム
JP5069525B2 (ja) * 2007-09-11 2012-11-07 株式会社野村総合研究所 データ処理システム
US20110119261A1 (en) * 2007-10-12 2011-05-19 Lexxe Pty Ltd. Searching using semantic keys
US9875298B2 (en) 2007-10-12 2018-01-23 Lexxe Pty Ltd Automatic generation of a search query
US9396262B2 (en) * 2007-10-12 2016-07-19 Lexxe Pty Ltd System and method for enhancing search relevancy using semantic keys
US8250120B2 (en) * 2009-02-24 2012-08-21 GM Global Technology Operations LLC Methods and systems for merging media files from multiple media devices
US9335916B2 (en) * 2009-04-15 2016-05-10 International Business Machines Corporation Presenting and zooming a set of objects within a window
CN102612691B (zh) 2009-09-18 2015-02-04 莱克西私人有限公司 给文本评分的方法和系统
US10198506B2 (en) 2011-07-11 2019-02-05 Lexxe Pty Ltd. System and method of sentiment data generation
US10311113B2 (en) * 2011-07-11 2019-06-04 Lexxe Pty Ltd. System and method of sentiment data use
JP5568077B2 (ja) * 2011-12-28 2014-08-06 楽天株式会社 情報処理装置、情報処理方法、情報処理プログラム、及び情報処理プログラムが記録された記録媒体
US9582572B2 (en) * 2012-12-19 2017-02-28 Intel Corporation Personalized search library based on continual concept correlation
US10319020B2 (en) * 2014-03-04 2019-06-11 Rakuten, Inc. Information processing device, information processing method, program and storage medium
KR102277087B1 (ko) * 2014-08-21 2021-07-14 삼성전자주식회사 콘텐츠 분류 방법 및 전자 장치
CN104657456B (zh) * 2015-02-06 2017-12-05 南华大学 一种基于体裁的多维信息检索系统
CN104657455B (zh) * 2015-02-06 2017-12-05 南华大学 一种多维信息检索方法
CN111860549B (zh) * 2019-04-08 2024-02-20 北京嘀嘀无限科技发展有限公司 信息识别装置、方法、计算机设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04114277A (ja) * 1990-09-04 1992-04-15 Matsushita Electric Ind Co Ltd 情報検索装置
JPH11250102A (ja) * 1998-03-05 1999-09-17 Kdd Corp 情報検索方法及び装置
JP2002259409A (ja) * 2001-03-01 2002-09-13 Nippon Telegr & Teleph Corp <Ntt> 情報抽出方法、情報抽出装置、コンピュータ読取可能な記憶媒体およびコンピュータ・プログラム
JP2005063157A (ja) * 2003-08-13 2005-03-10 Fuji Xerox Co Ltd 文書クラスタ抽出装置および方法
JP2005235196A (ja) * 2004-01-26 2005-09-02 Microsoft Corp 自動クエリクラスタリング
JP2005235041A (ja) * 2004-02-23 2005-09-02 Nippon Telegr & Teleph Corp <Ntt> 検索画像表示方法および検索画像表示プログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5963965A (en) * 1997-02-18 1999-10-05 Semio Corporation Text processing and retrieval system and method
WO2000019340A1 (en) * 1998-09-30 2000-04-06 I2 Technologies, Inc. Multi-dimensional data management system
US20010047353A1 (en) * 2000-03-30 2001-11-29 Iqbal Talib Methods and systems for enabling efficient search and retrieval of records from a collection of biological data
US6836777B2 (en) * 2001-11-15 2004-12-28 Ncr Corporation System and method for constructing generic analytical database applications
JP2005202535A (ja) * 2004-01-14 2005-07-28 Hitachi Ltd 文書集計方法及び装置並びにそれらに用いるプログラムを記憶した媒体
US7555486B2 (en) * 2005-01-20 2009-06-30 Pi Corporation Data storage and retrieval system with optimized categorization of information items based on category selection

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04114277A (ja) * 1990-09-04 1992-04-15 Matsushita Electric Ind Co Ltd 情報検索装置
JPH11250102A (ja) * 1998-03-05 1999-09-17 Kdd Corp 情報検索方法及び装置
JP2002259409A (ja) * 2001-03-01 2002-09-13 Nippon Telegr & Teleph Corp <Ntt> 情報抽出方法、情報抽出装置、コンピュータ読取可能な記憶媒体およびコンピュータ・プログラム
JP2005063157A (ja) * 2003-08-13 2005-03-10 Fuji Xerox Co Ltd 文書クラスタ抽出装置および方法
JP2005235196A (ja) * 2004-01-26 2005-09-02 Microsoft Corp 自動クエリクラスタリング
JP2005235041A (ja) * 2004-02-23 2005-09-02 Nippon Telegr & Teleph Corp <Ntt> 検索画像表示方法および検索画像表示プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017102977A (ja) * 2017-03-06 2017-06-08 株式会社野村総合研究所 商品検索システムおよび商品検索プログラム

Also Published As

Publication number Publication date
JP4808736B2 (ja) 2011-11-02
WO2007088893A1 (ja) 2007-08-09
CN101379492B (zh) 2010-11-03
US20090055390A1 (en) 2009-02-26
CN101379492A (zh) 2009-03-04

Similar Documents

Publication Publication Date Title
JP4808736B2 (ja) 情報分類装置および情報検索装置
US11070553B2 (en) Apparatus and method for context-based storage and retrieval of multimedia content
US8321456B2 (en) Generating metadata for association with a collection of content items
WO2018072071A1 (zh) 知识图谱构建系统及方法
US6794566B2 (en) Information type identification method and apparatus, e.g. for music file name content identification
Torrens et al. Visualizing and exploring personal music libraries.
US20160019217A1 (en) Systems and methods for recommending media items
KR101540429B1 (ko) 콘텐츠 플레이 리스트 추천 방법 및 장치
KR20080011643A (ko) 정보 처리 장치, 방법, 및 프로그램
KR20060128202A (ko) 메타 데이터를 이용한 브라우징 방법 및 장치
Van Gulik et al. Visual Playlist Generation on the Artist Map.
WO2009044341A2 (en) Classifying a set of content items
JP2000148796A (ja) 映像インデックス情報を用いた映像検索方法および音声インデックス情報を用いた音声検索方法並びに映像検索システム
JP5117589B2 (ja) 文書分析装置およびプログラム
JP5155710B2 (ja) 文書群分析支援装置
JP4134975B2 (ja) 話題文書提示方法及び装置及びプログラム
Wang et al. Enriching music mood annotation by semantic association reasoning
Campanella et al. Interactive visualization of video content and associated description for semantic annotation
JP5112117B2 (ja) 協調的分類装置及びプログラム
Iyer et al. Prioritization strategies for video storyboard keyframes
Brisebois et al. Text and data mining & machine learning models to build an assisted literature review with relevant papers
Luo et al. Integrating multi-modal content analysis and hyperbolic visualization for large-scale news video retrieval and exploration
Peeters et al. A Multimedia Search and Navigation Prototype, Including Music and Video-clips.
TWI780333B (zh) 動態處理並播放多媒體內容的方法及多媒體播放裝置
Goh et al. User Song Preferences using Artificial Intelligence

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110215

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110411

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110719

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110817

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140826

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4808736

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150