WO2007037139A1

WO2007037139A1 - 情報処理装置、方法、およびプログラム

Info

Publication number: WO2007037139A1
Application number: PCT/JP2006/318373
Authority: WO
Inventors: Noriyuki Yamamoto; Kei Tateno; Mari Saito; Tomohiro Tsunoda; Mitsuhiro Miyazaki
Original assignee: Sony Corporation
Priority date: 2005-09-28
Filing date: 2006-09-15
Publication date: 2007-04-05
Also published as: CN101069184A; JP4378646B2; US8117211B2; EP1835419A4; EP1835419A1; JP2007122683A; US20090077132A1; CN100594496C; KR20080045659A

Abstract

本発明は、CF手法において一部のコンテンツに推薦が集中されてしまうことを抑止するとともに、履歴情報の少ない利用者に対してもコンテンツを推薦することができる情報処理装置、情報処理方法、およびプログラムに関する。ステップＳ１１で、楽曲が推薦される利用者Ａと履歴情報が最も類似している他の利用者Ｘを検出し、ステップＳ１２で、利用者Ｘが有している楽曲であって、利用者Ａが有していない楽曲ａを検出する。ステップＳ１３で、楽曲ａが属する各クラスタ層のクラスタを特定する。そして、ステップＳ１４で、特定した全てのクラスタに共通して分類されている楽曲を抽出して推薦候補とする。さらに、ステップＳ１５で、推薦候補の楽曲のうち、楽曲ａとクラスタ情報が最も類似している１楽曲を選択する。ここで選択した楽曲を利用者Ａに推薦する。本発明は、例えばインタネットに開設されるコンテンツ販売サイトに適用できる。

Description

情報処理装置、情報処理方法、およびプログラム

技術分野

[0001] 本発明は、情報処理装置、情報処理方法、およびプログラムに関し、特に、コンテンッをクラスタに分類し、コンテンツが分類されたクラスタを用いてコンテンツの特徴を管理し、コンテンツの検索や推薦に利用するようにした情報処理装置、情報処理方法、およびプログラムに関する。

背景技術

[0002] 従来、利用者の嗜好に基づ!/、てテレビジョン番組、楽曲などのコンテンツを検索して推薦する（いわゆる、コンテンツパーソナライゼーシヨン)ための発明が提案されている（例えば、特許文献 1参照)。

[0003] コンテンツパーソナライゼーシヨンには、協調フィルタリング (CF)と称する手法ゃコンテントべ一ストフィルタリング (CBF)と称される手法が広く使われている。

[0004] CF手法は、各利用者の購入履歴を管理し、コンテンツを推薦しょうとする利用者 A に対し、購入履歴が似ている他の利用者 Xを検出して、当該他の利用者 Xが購入しており、かつ、利用者 Aが購入していないコンテンツを推薦するようにしたものであり、例えば、インタネット上の通信販売サイトにぉ、て採用されて、る。

[0005] CBF手法は、コンテンツに対して配信側や販売側によって予め付与されているメタデータが直接的に嗜好の抽出やコンテンツの推薦に利用されていた。すなわち、利用者の嗜好を示す特徴ベクトルと、候補となる各楽曲の特徴ベクトルとの距離 (余弦相関など)を算出し、算出された距離の短い楽曲が利用者の嗜好に合致したものとして推薦されるようになされて!、る。

[0006] 特許文献 1 :特開 2004— 194107号公報

発明の開示

発明が解決しょうとする課題

[0007] 上述した CF手法の以下の不都合が生じてしまう。

(1)どの利用者にも購入されていないコンテンツは、誰に対しても推薦されることがない。したがって、膨大に用意されているコンテンツのうち、推薦されるコネテンッがー部に集中し、残りの大多数のコンテンツが推薦されない。

(2)新規の利用者に対してコンテンツを推薦する場合、当該利用者の購入履歴が少ないので、履歴情報が類似している他の利用者を検出することができず、コンテンツを推薦することができな、 (V、わゆる、コールドスタート問題)。

(3)通常、コンテンツの数も利用者の数も増力!]していくが、その場合、購入履歴が似ている他の利用者を検出する際の演算が多くなり、推薦するコンテンツを速やかに決定することができない。

[0008] 本発明はこのような状況に鑑みてなされたものであり、 CF手法において一部のコンテンッに推薦が集中されてしまうことを抑止するとともに、履歴情報の少ない利用者に対してもコンテンツを推薦できるようにするものである。

課題を解決するための手段

[0009] 本発明の一側面である情報処理装置は、コンテンツ群のな力から所定の条件を満たすコンテンツを選択して利用者に提示する情報処理装置であって、前記コンテンツ群を構成する各コンテンツを、コンテンツのメタデータに応じた階層のそれぞれにお V、て複数の第 1のクラスタの、ずれかに分類するコンテンツ分類手段と、各コンテンッと各コンテンツのそれぞれが分類された前記階層における前記第 1のクラスタとの対応関係を示すデータベースを保持する保持手段と、前記利用者のコンテンツに対する履歴情報を管理する管理手段と、前記履歴情報に基づき、注目する第 1のクラスタを特定し、特定した前記第 1のクラスタに分類されているコンテンツを選択する選択手段と、選択された前記コンテンツを提示する提示手段とを含む。

[0010] 前記選択手段は、第 1の利用者と前記履歴情報が類似している第 2の利用者を検出する検出手段と、前記第 1の利用者の履歴情報上に存在せず、前記第 2の利用者の履歴情報上に存在するコンテンツが分類されている第 1のクラスタを特定する特定手段と、特定された前記第 1のクラスタに分類されているコンテンツを抽出する抽出手段とを含み、前記提示手段は、前記第 1の利用者に対して抽出された前記コンテンッを提示するようにすることができる。

[0011] 本発明の一側面である情報処理装置は、利用者の履歴情報と前記データベースに基づき、前記利用者の嗜好を前記第 1のクラスタ単位で示す嗜好情報を生成する生成手段と、前記嗜好情報に基づ!/ヽて利用者をグループ化するグループ化手段とをさらに含み、前記選択手段は、第 1の利用者と同じグループに属する第 2の利用者を検出する検出手段と、前記第 1の利用者の履歴情報上に存在せず、前記第 2の利用者の履歴情報上に存在するコンテンツが分類されている第 1のクラスタを特定する特定手段と、特定された前記第 1のクラスタに分類されているコンテンツを抽出する抽出手段とを含み、前記提示手段は、前記第 1の利用者に対して抽出された前記コンテンッを提示するよう〖こすることができる。

[0012] 本発明の一側面である情報処理装置には、利用者の履歴情報と前記データべ一スに基づき、前記利用者の嗜好を前記第 1のクラスタ単位で示す嗜好情報を生成する生成手段をさらに設け、前記選択手段には、第 1の利用者と前記嗜好情報で示される嗜好が類似している第 2の利用者を検出する検出手段と、前記第 1の利用者の嗜好情報と前記第 2の利用者の嗜好情報に基づいて注目する第 1のクラスタを特定する特定手段と、特定された前記第 1のクラスタに分類されているコンテンツを抽出する抽出手段とを設け、前記提示手段には、前記第 1の利用者に対して抽出された前記コンテンツを提示させることができる。

[0013] 前記検出手段には、利用者の嗜好情報を正規化する正規化手段と、正規化された各利用者の嗜好情報から、利用者のそれぞれについて階層毎の重みを計算する重み計算手段と、階層毎の重みと前記嗜好情報とから、利用者のうちの第 1の利用者と

、利用者のうちの他の利用者との嗜好の類似の度合いを示す類似度を計算する類似度計算手段とを設け、計算された類似度から、第 1の利用者と嗜好が類似している第 2の利用者を検出させることができる。

[0014] 本発明の一側面である情報処理装置には、利用者の履歴情報と前記データべ一スに基づき、前記利用者の嗜好を前記第 1のクラスタ単位で示す嗜好情報を生成する生成手段と、前記嗜好情報に基づ、て利用者をグループ化するグループ化手段とをさらに設け、前記選択手段には、第 1の利用者と同じグループに属する第 2の利用者を検出する検出手段と、前記第 1の利用者の嗜好情報と前記第 2の利用者の嗜好情報に基づいて注目する第 1のクラスタを特定する特定手段と、特定された前記第 1 のクラスタに分類されているコンテンツを抽出する抽出手段とを設け、前記提示手段には、前記第 1の利用者に対して抽出された前記コンテンツを提示させることができる。

[0015] 本発明の一側面である情報処理装置には、前記コンテンツ分類手段によって前記メタデータが分類される第 1のクラスタのそれぞれに対してキーワードを設定する設定手段と、前記設定手段によって設定されたキーワードを用い、コンテンツの提示理由を表す理由文を作成する作成手段とをさらに設け、前記提示手段には、前記理由文ち提示させることがでさる。

[0016] コンテンツのメタデータを複数の第 2のクラスタのいずれかに分類し、第 2のクラスタに前記階層を割り当てるメタデータ分類手段を更に設け、前記コンテンツ分類手段には、各コンテンツを、割り当てられた前記階層のそれぞれにおいて複数の第 1のクラスタの!/、ずれかに分類させることができる。

[0017] 利用者の履歴情報と前記データベースに基づき、前記利用者の嗜好を前記第 1のクラスタ単位で示す嗜好情報を生成する生成手段をさらに設け、前記選択手段には、全部の前記階層の全部の前記第 1のクラスタのうち、前記嗜好情報で示される前記第 1のクラスタであって、最も多くの前記第 1のクラスタに分類されているコンテンツを選択させることができる。

[0018] 本発明の一側面である情報処理方法は、コンテンツ群のな力から所定の条件を満たすコンテンツを選択して利用者に提示する情報処理装置の情報処理方法であつて、前記コンテンツ群を構成する各コンテンツを、コンテンツのメタデータに応じた各階層におヽて複数のクラスタのヽずれかに分類し、各コンテンツと各コンテンツのそれぞれが分類された前記階層における前記クラスタとの対応関係を示すデータべ一スを保持し、前記利用者のコンテンツに対する履歴情報を管理し、前記履歴情報に基づき、注目するクラスタを特定し、特定した前記クラスタに分類されているコンテンッを選択し、選択された前記コンテンッを提示するステップを含む。

[0019] 本発明の一側面であるプログラムは、コンテンツ群のな力から所定の条件を満たすコンテンツを選択して利用者に推薦するためのプログラムであって、前記コンテンツ群を構成する各コンテンツを、コンテンツのメタデータに応じた各階層において複数のクラスタのヽずれかに分類し、各コンテンツと各コンテンツのそれぞれが分類された前記階層における前記クラスタとの対応関係を示すデータベースを保持し、前記利用者のコンテンツに対する履歴情報を管理し、前記履歴情報に基づき、注目するクラスタを特定し、特定した前記クラスタに分類されているコンテンツを選択し、選択された前記コンテンツを提示するステップを含む処理をコンピュータに実行させる。

[0020] 本発明の一側面においては、前記コンテンツ群を構成する各コンテンツが、コンテンッのメタデータに応じた各階層におヽて複数のクラスタの!/ヽずれかに分類される。そして、各コンテンツと各コンテンツのそれぞれが分類された前記階層における前記クラスタとの対応関係を示すデータベースが保持される。また、前記利用者のコンテンッに対する履歴情報が管理される。そして、前記履歴情報に基づき、注目するクラスタが特定され、特定された前記クラスタに分類されているコンテンツが選択され、選択された前記コンテンツが提示される。

発明の効果

[0021] 以上のように、本発明の一側面によれば、 CF手法により利用者にコンテンツを推薦することが可能となる。

[0022] また、本発明の一側面によれば、全コンテンツのうち、一部のコンテンツに推薦が集中されてしまうことを抑止することが可能となる。

[0023] さらに、本発明の一側面によれば、履歴情報の少ない利用者に対してもコンテンツを推薦することが可能となる。

図面の簡単な説明

[0024] [図 1]本発明を適用した推薦システムの構成例を示すブロック図である。

[図 2]楽曲のメタデータを分類するクラスタとクラスタ層の概念を示す図である。

[図 3]楽曲クラスタ対応表の一例を示す図である。

[図 4]クラスター楽曲対応表の一例を示す図である。

[図 5]利用者の嗜好ベクトルの一例を示す図である。

[図 6]オフライン時の前処理を説明するフローチャートである。

[図 7]第 1の推薦処理を説明するフローチャートである。

[図 8]第 2および 3の推薦処理を説明するフローチャートである。 [図 9]第 4の推薦処理を説明するフローチャートである。

[図 10]第 5および 6の推薦処理を説明するフローチャートである。

[図 11]第 7の推薦処理を説明するフローチャートである。

[図 12]汎用パーソナルコンピュータの構成例を示すブロック図である。

[図 13]本発明の一実施の形態の推薦システムの他の構成の例を示すブロック図である。

[図 14]オフライン時の前処理の他の例を説明するフローチャートである。

[図 15]ソフトクラスタリングされた各楽曲のメタデータの例を示す図である。

[図 16]各楽曲のメタデータの例を示す図である。

[図 17]クラスタリングされた各楽曲のメタデータの例を示す図である。

[図 18]類似利用者検出部の構成の例を示すブロック図である。

[図 19]嗜好の類似する利用者 Xの検出の処理を説明するフローチャートである。

[図 20]嗜好ベクトルの例を示す図である。

[図 21]正規ィ匕された嗜好ベクトルの例を示す図である。

[図 22]重みの例を示す図である。

[図 23]重み付けせずに計算した類似度の例を示す図である。

[図 24]重み付けして計算した類似度の例を示す図である。

符号の説明

1 推薦システム， 11 楽曲 DB, 12 クラスタリング部， 13 キーワード設定部 , 14 クラスタリング済 DB, 15 クラスタ一楽曲対応表， 16 楽曲一クラスタ対応表， 17 利用者履歴情報 DB, 18 推薦候補選択部， 19 嗜好ベクトル生成部 , 20 類似利用者検出部， 21 利用者グループィ匕部， 22 差分検出部， 23 推薦クラスタ決定部， 24 抽出部， 25 楽曲選択部， 26 新規性判定部， 27 選択理由生成部， 28 提示部， 100 パーソナルコンピュータ， 101 CPU, 111 記録媒体， 201 メタデータクラスタリング部， 202 楽曲クラスタリング部， 203 類似利用者検出部， 231 正規化部， 232 重み計算部， 233 類似度十异部

発明を実施するための最良の形態 [0026] 以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。

[0027] 図 1は本発明の一実施の形態である推薦システムの構成例を示している。この推薦システム 1は、例えばインタネット上に開設された楽曲データの販売サイトにおいて、利用者の履歴情報 (楽曲データの購入、試聴、検索、保有などの情報)を管理し、 C F法を用いて推薦する楽曲を選択し、利用者に提示するものである。なお、推薦システム 1は、楽曲以外のコンテンツ、例えばテレビジョン番組、映画、書籍などを販売する販売サイトにも適用することが可能である。

[0028] 推薦システム 1は、利用者に推薦して販売するための数多くの楽曲データ (以下、単に楽曲とも記述する）のメタデータが記録されている楽曲データベース (DB) 11、楽曲データベース 11に記録されてヽる各楽曲のメタデータを基に、各楽曲をクラスタリングして各楽曲のクラスタ情報を生成するクラスタリング部 12、各クラスタ層とクラスタ層における各クラスタの特徴をそれぞれ示すキーワードを設定するキーワード設定部 13、および、各楽曲のクラスタリング結果を保持するクラスタリング済データベース (DB) 14から構成される。

[0029] クラスタリング済 DB14には、クラスタリング結果として、各クラスタに属する楽曲を示すクラスター楽曲対応表 15と、各楽曲が属するクラスタを示す楽曲クラスタ対応表 16が保持されている。

[0030] さらに、推薦システム 1は、各利用者の履歴情報を管理している利用者履歴情報データベース (DB) 17、利用者情報に基づいて推薦候補となる複数の楽曲を選択する推薦候補選択部 18、選択された複数の推薦候補の中から 1楽曲を選択する楽曲選択部 25、選択された楽曲が推薦される利用者にとって新規性のあるものである力否かを判定する新規性判定部 26、選択された楽曲を利用者に提示するときの推薦理由文を生成する選択理由生成部 27、および、選択された楽曲と推薦理由文を利用者に提示する提示部 28から構成される。

[0031] 推薦候補選択部 18は、嗜好ベクトル生成部 19、利用者グループ化部 20、類似利用者検出部 21、差分検出部 22、推薦クラスタ決定部 23、および抽出部 24を含む。

[0032] 楽曲 DB11は、音楽 CDに収録されている楽曲のメタデータを供給するインタネット上のデータサーバである CDDB(CD Data Base)や Music Naviなどと同様、推薦して販売する楽曲のメタデータを保持して、る。

[0033] クラスタリング部 12は、楽曲 DB11の全ての楽曲に対し、楽曲のメタデータの各項目（アーティスト名、ジャンル、アルバム、アーティストレビュー、楽曲レビュー、タイトル、テンポ、ビート、リズムなど）あるいはそれらの組み合わせ (テンポ、ビート、リズムなど）を基にして、図 2に示すようなクラスタ層（第 1乃至 n層）を作り、楽曲を各クラスタ層に設けられる複数のクラスタのいずれか、あるいは複数に分類する（クラスタリングする)。

[0034] ここでは楽曲を例に説明されている力アーティスト、アルバムに対しても同様に多くのメタを使ってそれぞれ多層にクラスタリングする。楽曲推薦、アーティスト推薦、ァルバム推薦のために、それぞれ楽曲用多層クラスタ、アーティスト用多層クラスタ、ァルバム用多層クラスタを用いる。

[0035] クラスタリングはいかなる手法を用いてもよいが、クラスタ層毎に最適なクラスタリング手法、距離尺度を選ぶようにする。例えば、メタデータの実情報がテンポなどの数値属性であるならばそのまま、タイトルなどの名義属性の場合は主成分分析等の数量化手法を用いて数値にして、ユークリッド距離などの距離尺度を定義してクラスタリングすること〖こなる。代表的なクラスタリング手法としては、 K-means法、階層クラスタリング法 (群平均法、最遠法、ウォード法)、ソフトクラスタリング法などを挙げることができる。

[0036] この際、嗜好距離を反映したクラスタリング (例えば、制約付きクラスタリング）によつて実施することが望ましい。そのためには、事前調査により部分的な正解集 (嗜好的に近い実情報の集合、遠い実情報の集合など)を作り、それに適合する数値表現、距離、クラスタリング手法を用いるものとする。またさらに、形成される各クラスタ層の独立性が高くなるクラスタリング手法 (すなわち、特性の異なるクラスタリング手法)を選ぶことが望ましい。

[0037] なお、 1つの実情報を同一クラスタ層の複数のクラスタに分類してもよい。同一クラスタ層に存在するクラスタ間の距離 (類似の程度を示す）は既知であるものとする。このクラスタリングの手法については後述する。そして、メタデータの代わりに楽曲の特徴を示す情報として、メタデータの各項目の実情報を分類したクラスタのクラスタ ID (図 2における CL11など）から成るクラスタ情報を生成してクラスタリング済 DB14に出力する。

[0038] なお、分類に適したクラスタが存在しな、場合、新たにクラスタを新設してもよヽ。各クラスタのサイズは任意であって複数の実情報を包含できるものである。なお、単一の実情報だけしか分類することができないクラスタを設けてもよい。この場合、当該クラスタのクラスタ IDに唯一分類可能な実情報の ID (アーティスト ID、アルバム、タイトル ID)を用いてもよい。

[0039] クラスタリング済 DB14は、クラスタリング部 12によって生成された各楽曲のクラスタ情報に基づいて、クラスタ一楽曲対応表 15と楽曲一クラスタ対応表 16を生成して保持している。また、クラスタリング済 DB14は、キーワード設定部 13によって設定された各クラスタ層や各クラスタに対して設定されたキーワードも保持している。

[0040] 図 3は楽曲一クラスタ対応表 16の一例を示している。同図においては、例えば、楽曲 ID=ABC123の楽曲のクラスタ情報は、（CL12、 CL21、 CL35, CL47, CL52, · ··, CLn2)であることを示している。また例えば、楽曲 ID=CTH863の楽曲のクラスタ情報は、クラスタ ID (CL11、 CL25、 CL31, CL42, CL53, · ··, CLnl)であることを示している。

[0041] 図 4は、図 3に示された楽曲クラスタ対応表 16に応じたクラスター楽曲対応表 15 の一例を示している。同図においては、例えば、クラスタ ID = CL11には、楽曲 ID= CTH863が対応することを示している。また例えば、クラスタ ID = CL21には、楽曲 ID =ABC123が対応することを示している。さらに例えば、クラスタ ID = CL32には、楽曲 ID = XYZ567が対応することを示している。

[0042] なお、クラスタリング部 12、キーワード設定部 13、およびクラスタリング済 DB14の処理は、楽曲 DB11に新たな楽曲のメタデータが追加される毎に実行しておく必要がある。

[0043] 図 1に戻る。利用者履歴情報 DB17には、各利用者が当該販売サイトにて購入、試聴、または検索した楽曲、あるいは、いずれかで購入し既に保有していることを申告した楽曲を示す履歴情報が保持されている。また、利用者履歴情報 DB17には、嗜好ベクトル生成部 19によって生成される各利用者の嗜好ベクトルが保持されている。さらに、利用者履歴情報 DB17には、利用者グループィ匕部 20による利用者のグループ化結果、すなわち、各利用者がどの利用者グループに属するかを示す情報が保持されている。

[0044] 嗜好ベクトル生成部 19は、利用者履歴情報 DB17に保持されている各利用者の履歴情報に基づき、各利用者に対して、全てのクラスタをそれぞれ 1次元とする多次元の嗜好ベクトルを生成し、利用者履歴情報 DB17に出力する。具体的には、利用者の履歴情報にある各楽曲について、クラスタリング済 DB 14の楽曲クラスタ対応表 16を参照し、楽曲の属するクラスタに対応する嗜好ベクトルの次元に所定の値を加算する。生成された各利用者の嗜好べ外ルは、利用者履歴情報 DB17で管理される。楽曲の購入などによって利用者の履歴情報が更新されれば、嗜好ベクトルも更新されること〖こなる。

[0045] ここで説明の便宜上、全てのクラスタが図 5に示すにょうに、第 1層には 3クラスタ CL 11, CL12, CL13,第 2層に ίま 4クラスタ CL21, CL22, CL23, CL24,第 3層に【ま 3クラスタ CL31, CL32, CL33,第 4層には 3クラスタ CL41, CL42, CL43のみ力 S 存在していると仮定する。この場合、嗜好ベクトルは 13次元である。

[0046] 例えば、利用者 Αの履歴情報に 2楽曲を購入した記録があり、 1つ目の楽曲の属するクラスタ IDが CL11, CL22, CL33, CL41であれば、これらに対応する次元の値にそれぞれ 1が加算される。また、 2つ目の楽曲の属するクラスタ IDが CL12, CL24 , CL32, CL43であれば、これらに対応する次元の値にそれぞれ 1が加算される。そして、利用者 Aの嗜好ベクトル（1, 1, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0, 1)が生成される

[0047] また例えば、利用者 Xの履歴情報に 3楽曲を購入した記録があり、 1つ目の楽曲の属するクラスタ IDが CL11, CL22, CL32, CL43であれば、これらに対応する次元の値にそれぞれ 1が加算される。また、 2つ目の楽曲の属するクラスタ IDが CL12, C L22, CL33, CL42であれば、これらに対応する次元の値にそれぞれ 1が加算される。さらに、 3つ目の楽曲の属するクラスタ IDが CL13, CL24, CL33, CL41であれば、これらに対応する次元の値にそれぞれ 1が加算される。そして、利用者 Xの嗜好ベタ卜ノレ（1, 1, 1, 0, 2, 0, 1, 0, 1, 2, 1, 1, 1)力生成される。

[0048] なお、各次元への加算値は履歴情報の種別 (すなわち、購入、試聴、検索、または保有）に応じて変更するようにしてもよい。例えば、購入または保有であれば 1を加算し、試聴であれば 0. 5を加算し、検索であれば 0. 3を加算するようにしてもよい。

[0049] 図 1に戻る。利用者グループィ匕部 20は、利用者履歴情報 DB17に保持されている各利用者の嗜好べ外ルの類似性に基づき、全利用者をグループ化する。ただし、多次元の嗜好ベクトルの類似性を判定する処理を容易にするため、各利用者の嗜好ベクトルの各次元の値を 2値ィ匕する。すなわち、各次元の値が 1以上であるときには 1 に置換し、 0であるときには 0のままとする。このように、嗜好ベクトルの各次元の値を 2 値化すると、 2値化しなヽ場合に比較して類似性の判定これに要する演算量を減少させることができ、容易にグループィ匕を行うことができる。このグループィ匕結果は、利用者履歴情報 DB17で管理される。

[0050] 類似利用者検出部 21は、利用者履歴情報 DB17に保持されている各利用者の履歴情報を比較することにより、楽曲が推薦される利用者と履歴情報が類似している他の利用者を検出する。また、類似利用者検出部 21は、利用者履歴情報 DB17に保持されている各利用者の嗜好ベクトルを比較することにより、楽曲が推薦される利用者と嗜好ベクトルが類似している他の利用者を検出する。差分検出部 22は、利用者履歴情報 DB17に保持されている各利用者の履歴情報に基づき、楽曲が推薦される利用者と、類似利用者検出部 21によって検出された他の利用者との履歴情報の差分を検出する。推薦クラスタ決定部 23は、楽曲が推薦される利用者と、類似利用者検出部 21によって検出された他の利用者との嗜好ベクトルの差に基づいて推薦クラスタを決定する。抽出部 24は、類似利用者検出部 21乃至推薦クラスタ決定部 23の処理結果と、クラスタリング済 DB14に基づき、推薦候補となる楽曲を抽出する。

[0051] 楽曲選択部 25は、抽出された複数の楽曲の中から所定の条件に従って 1楽曲を選択する。例えば、より多くの推薦クラスタに属しているもの、予め設定されている優先順位が高いクラスタ層における推薦クラスタに属しているもの、またはランダムで 1楽曲を選択し、選択結果を新規性判定部 26、および選択理由生成部 27に出力する。新規性判定部 26は、楽曲が推薦される利用者の嗜好ベクトルに基づき、選択された楽曲が属するクラスタの、当該嗜好ベクトルに対する重複度が所定の割合 (例えば 3 0%)以上である場合には新規性がないものと判定し、所定の割合未満である場合には新規性があるものと判定し、判定結果を選択理由生成部 27に出力する。

[0052] 選択理由生成部 27は、選択された楽曲の属するクラスタ層やクラスタに対応するキ一ワードをクラスタリング済 DB14から取得し、取得したキーワードなどを用いて選択の理由を示す選択理由文を生成する。また、新規性判定部 26からの判定結果に基づいても例えば、新規性のあるものについては「意外な」、新規性のないものについては「、つもの」ある、は「なじみの」などの文言を含めて選択理由文を生成する。そして、生成した選択理由文を、選択された楽曲の楽曲 IDとともに提示部 28に出力する。

[0053] なお、選択された楽曲のレビューテキストをそのまま選択理由文として引用したり、選択された楽曲のレビューテキストから抽出した単語を用いて選択理由文を生成してもよい。なお、レビューテキストから選択理由文に用いる単語を抽出するには Tf/idlf去を適用することができる。

[0054] 提示部 29は、選択された楽曲に関する情報を楽曲 DBから取得して、生成された選択理由文とともに利用者側に提示する。

[0055] 次に、推薦システム 1の動作について説明する。まず、楽曲を推薦する処理の準備であるオフライン時の前処理にっ、て、図 6のフローチャートを参照して説明する。

[0056] ステップ S1において、クラスタリング部 12は、楽曲 DB11の全ての楽曲を、楽曲のメタデータの各項目クラスタ層（第 1乃至 n層）の、ずれかに分類し、各項目の実情報を分類したクラスタ層に設けられる複数のクラスタのヽずれかに分類 (クラスタリング)する。そして、クラスタリング部 12は、メタデータの代わりに楽曲の特徴を示す情報として、メタデータの各項目の実情報を分類したクラスタのクラスタ ID力も成るクラスタ情報を生成してクラスタリング済 DB14に出力する。なお、既にクラスタリング済の楽曲については、クラスタリングを省略し、未クラスタリング済の楽曲についてのみ、クラスタリングするようにしても力まわない。クラスタリング済 DB14は、クラスタリング部 12によって生成された各楽曲のクラスタ情報に基づいて、クラスター楽曲対応表 15と楽曲クラスタ対応表 16を生成する。 [0057] ステップ S2において、推薦候補選択部 18の嗜好ベクトル生成部 19は、利用者履歴情報 DB17に保持されている各利用者の履歴情報に基づき、各利用者に対して嗜好ベクトルを生成し、利用者履歴情報 DB17に出力する。ステップ S3において、利用者グループィ匕部 20は、利用者履歴情報 DB17に保持されている各利用者の嗜好ベクトルの類似性に基づき、全利用者をグループィ匕する。ただし、多次元の嗜好ベクトルの類似性を判定する処理を容易にするため、各利用者の嗜好ベクトルの各次元の値を 2値ィ匕する。そして、このグループィ匕結果を利用者履歴情報 DB17に出力する。以上で、オフライン時の前処理は終了される。

[0058] このように、楽曲 DB11に保持されている全楽曲のクラスタリングと、各利用者の嗜好ベクトルの生成、および利用者のグループィ匕を前処理として実施することにより、後述する第 1乃至 7の推薦処理を速やかに実行することができる。なお、第 1乃至 7の推薦処理のうち、利用者のグループ情報を利用しないものがあるので、利用者のグループ情報を利用しな、推薦処理のみを実行するときには、ステップ S3の処理を省略してもかまわない。

[0059] 次に第 1の推薦処理について、図 7のフローチャートを参照して説明する。以下においては、楽曲が推薦される利用者を利用者 Aと記述する。この処理は、例えば、利用者 Aが当該販売サイトにアクセスしたときに開始される。

[0060] ステップ S11において、類似利用者検出部 21は、利用者履歴情報 DB17に保持されて、る利用者 Aの履歴情報と他の利用者の履歴情報を比較することにより、利用者 Aと履歴情報が最も類似している他の利用者 Xを検出する。ステップ S12において、差分検出部 22は、利用者履歴情報 DB17に保持されている利用者 Aと利用者の履歴情報に基づき、利用者 Xが有している（過去に購入した、または保有している）楽曲であって、利用者 Aが有していない楽曲を検出する。なお、この条件を満たす楽曲が複数存在する場合、そのうちの 1楽曲を例えばランダムに選択する。検出された楽曲を楽曲 aとする。

[0061] ステップ S13において、推薦クラスタ決定部 23は、クラスタリング済 DB14の楽曲— クラスタ対応表 16を参照し、楽曲 aが属する各クラスタ層のクラスタを特定する。ステップ S14において、抽出部 24は、クラスタリング済 DB14のクラスタ一楽曲対応表 15を参照し、ステップ S 13の処理で特定された全てのクラスタに共通して分類されている楽曲を抽出する。ここで抽出された楽曲を推薦候補とする。推薦候補は複数あつてかまわない。なお、ステップ S 13の処理で特定した全てのクラスタに共通して分類されている楽曲が存在しない場合、ステップ S13の処理で特定したクラスタのうち、できるだけ多くのクラスタに共通して分類されている楽曲を抽出し、推薦候補とする。

[0062] ステップ S15において、楽曲選択部 25は、推薦候補の楽曲のうち、ステップ S12で検出した楽曲 aとクラスタ情報が最も類似している 1楽曲を選択し、選択結果を新規性判定部 26、および選択理由生成部 27に出力する。ステップ S16において、新規性判定部 26は、利用者 Aの嗜好ベクトルと、選択された楽曲が属するクラスタに基づき、新規性の有無を判定し、判定結果を選択理由生成部 27に出力する。選択理由生成部 27は、選択された楽曲の属するクラスタ層やクラスタに対応するキーワードをクラスタリング済 DB14から取得し、取得したキーワードなどを用いて選択の理由を示す選択理由文を生成する。また、新規性判定部 26からの判定結果に基づいても選択理由文を生成する。

そして、生成した選択理由文を、選択された楽曲の楽曲 IDとともに提示部 28に出力する。ステップ S17において、提示部 29は、選択された楽曲に関する情報を楽曲 DB カゝら取得して、生成された選択理由文とともに利用者側に提示する。以上で第 1の推薦処理が終了される。

[0063] 次に第 2および 3の推薦処理について、図 8のフローチャートを参照して説明する。

まず第 2の推薦処理について説明する。この処理は、例えば、利用者 Aが当該販売サイトにアクセスしたときに開始される。

[0064] ステップ S21において、類似利用者検出部 21は、利用者履歴情報 DB17に保持されている利用者 Aの嗜好ベクトルと他の利用者の嗜好ベクトルを比較することにより、利用者 Aと嗜好ベクトルが最も類似している他の利用者 Xを検出する。なお、利用者 Aの嗜好ベクトルと他の利用者の嗜好ベクトルとの類似は、例えば両者の余弦相関値を算出して判断する。

[0065] ステップ S22において、差分検出部 22は、利用者 Aの嗜好ベクトルにおいては値が 0であり、利用者 Xの嗜好ベクトルにお!/、ては 0以外の値である嗜好ベクトルの次元を検出し、検出した次元に相当するクラスタを推薦クラスタに決定する。

[0066] 例えば、利用者 Aの嗜好ベクトルが図 5の Aに示す（1, 1, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0, 1)であり、禾 IJ用者 Xの嗜好べク卜ノレ力 S図 5の Bに示す（1, 1, 1, 0, 2, 0, 1, 0, 1, 2, 1, 1, 1)である場合、図 5の Bに斜線で示すように、クラスタ CL13、および CL 42が推薦クラスタに決定される。

[0067] ステップ S23において、抽出部 24は、利用者履歴情報 DB17とクラスタリング済 DB 14のクラスタ楽曲対応表 15を参照し、推薦クラスタに分類されてヽる全ての楽曲のうち、利用者 Xが有しており、利用者 Aが有していないものを抽出して推薦候補とする。

[0068] ステップ S24において、楽曲選択部 25は、推薦候補の楽曲のうち、以下の 3方法のいずれか、または 3方法を組み合わせた方法により、 1楽曲を選択し、選択結果を新規性判定部 26、および選択理由生成部 27に出力する。 1つ目の方法は、より多くの推薦クラスタに共通して属している楽曲を選択する方法である。 2つ目の方法は、クラスタ層に予め優先順位を付与し、より優先順位の高、クラスタ層に属する推薦クラスタに分類されている楽曲を選択する方法である。 3つ目の方法は、ランダムに選択する方法である。

[0069] ステップ S25にお、て、新規性判定部 26は、利用者 Aの嗜好ベクトルと、選択された楽曲が属するクラスタに基づき、新規性の有無を判定し、判定結果を選択理由生成部 27に出力する。選択理由生成部 27は、選択された楽曲の属するクラスタ層ゃクラスタに対応するキーワードをクラスタリング済 DB14力も取得し、取得したキーワードなどを用いて選択の理由を示す選択理由文を生成する。また、新規性判定部 26からの判定結果に基づいても選択理由文を生成する。そして、生成した選択理由文を、選択された楽曲の楽曲 IDとともに提示部 28に出力する。ステップ S26において、提示部 29は、選択された楽曲に関する情報を楽曲 DBから取得して、生成された選択理由文とともに利用者側に提示する。以上で第 2の推薦処理が終了される。

[0070] 次に第 3の推薦処理について説明する。第 3の推薦処理は、上述した第 2の推薦処理におけるステップ S23の処理で、推薦クラスタに分類されている全ての楽曲のうち、利用者 Aが有していないものを抽出して推薦候補とするようにする。すなわち、利用者 Xが有して、な、ものも推薦候補とすることができる。このほかの処理にっ、ては第 2の推薦処理と同様であるので、その説明は省略する。

[0071] 次に第 4の推薦処理について、図 9のフローチャートを参照して説明する。この処理は、例えば、利用者 Aが当該販売サイトにアクセスしたときに開始される。

[0072] ステップ S41において、類似利用者検出部 21は、利用者履歴情報 DB17に保持されて、る利用者 Aのグループ情報に基づき、利用者 Aと同じグループに属する他の利用者 Xをランダムに決定する。ステップ S42において、差分検出部 22は、利用者履歴情報 DB 17に保持されて、る利用者 Aと利用者 Xの履歴情報に基づき、利用者 Xが有している楽曲であって、利用者 Aが有していない楽曲を検出する。なお、この条件を満たす楽曲が複数存在する場合、そのうちの 1楽曲を例えばランダムに選択する。検出された楽曲を楽曲 aとする。

[0073] ステップ S43において、推薦クラスタ決定部 23は、クラスタリング済 DB14の楽曲一クラスタ対応表 16を参照し、楽曲 aが属する各クラスタ層のクラスタを特定する。

ステップ S44において、抽出部 24は、クラスタリング済 DB14のクラスタ一楽曲対応表 15を参照し、ステップ S43の処理で特定された全てのクラスタに共通して分類されている楽曲を抽出する。ここで抽出された楽曲を推薦候補とする。推薦候補は複数あつてかまわない。なお、ステップ S43の処理で特定した全てのクラスタに共通して分類されている楽曲が存在しない場合、ステップ S43の処理で特定したクラスタのうち、できるだけ多くのクラスタに共通して分類されている楽曲を抽出し、推薦候補とする。

[0074] ステップ S45において、楽曲選択部 25は、推薦候補の楽曲のうち、ステップ S42で検出した楽曲 aとクラスタ情報が最も類似している 1楽曲を選択し、選択結果を新規性判定部 26、および選択理由生成部 27に出力する。ステップ S46において、新規性判定部 26は、利用者 Aの嗜好ベクトルと、選択された楽曲が属するクラスタに基づき、新規性の有無を判定し、判定結果を選択理由生成部 27に出力する。選択理由生成部 27は、選択された楽曲の属するクラスタ層やクラスタに対応するキーワードをクラスタリング済 DB14から取得し、取得したキーワードなどを用いて選択の理由を示す選択理由文を生成する。また、新規性判定部 26からの判定結果に基づいても選択理由文を生成する。そして、生成した選択理由文を、選択された楽曲の楽曲 IDとともに提示部 28に出力する。ステップ S47において、提示部 29は、選択された楽曲に関する情報を楽曲 DB カゝら取得して、生成された選択理由文とともに利用者側に提示する。以上で第 4の推薦処理が終了される。

[0075] 第 4の推薦処理にぉ、ては、オフライン時の前処理によってグループィ匕されて、る利用者のグループ情報を利用するので、利用者 Aの履歴に類似した利用者 Xを速や力こ決定することができる。

[0076] 次に第 5および 6の推薦処理について、図 10のフローチャートを参照して説明するまず第 5の推薦処理について説明する。この処理は、例えば、利用者 Aが当該販売サイトにアクセスしたときに開始される。

[0077] ステップ S51において、類似利用者検出部 21は、利用者履歴情報 DB17に保持されて、る利用者 Aのグループ情報に基づき、利用者 Aと同じグループに属する他の利用者 Xをランダムに決定する。

[0078] ステップ S52において、差分検出部 22は、利用者 Aの嗜好ベクトルにおいては値が 0であり、利用者 Xの嗜好ベクトルにお!/、ては 0以外の値である嗜好ベクトルの次元を検出し、検出した次元に相当するクラスタを推薦クラスタに決定する。

[0079] ステップ S53において、抽出部 24は、利用者履歴情報 DB17とクラスタリング済 DB

14のクラスタ楽曲対応表 15を参照し、推薦クラスタに分類されてヽる全ての楽曲のうち、利用者 Xが有しており、利用者 Aが有していないものを抽出して推薦候補とする。

[0080] ステップ S54において、楽曲選択部 25は、推薦候補の楽曲のうち、以下の 3方法のいずれか、または 3方法を組み合わせた方法により、 1楽曲を選択し、選択結果を新規性判定部 26、および選択理由生成部 27に出力する。 1つ目の方法は、より多くの推薦クラスタに共通して属している楽曲を選択する方法である。 2つ目の方法は、クラスタ層に予め優先順位を付与し、より優先順位の高、クラスタ層に属する推薦クラスタに分類されている楽曲を選択する方法である。 3つ目の方法は、ランダムに選択する方法である。 [0081] ステップ S55において、新規性判定部 26は、利用者 Aの嗜好ベクトルと、選択された楽曲が属するクラスタに基づき、新規性の有無を判定し、判定結果を選択理由生成部 27に出力する。選択理由生成部 27は、選択された楽曲の属するクラスタ層ゃクラスタに対応するキーワードをクラスタリング済 DB14力も取得し、取得したキーワードなどを用いて選択の理由を示す選択理由文を生成する。また、新規性判定部 26からの判定結果に基づいても選択理由文を生成する。そして、生成した選択理由文を、選択された楽曲の楽曲 IDとともに提示部 28に出力する。ステップ S56において、提示部 29は、選択された楽曲に関する情報を楽曲 DBから取得して、生成された選択理由文とともに利用者側に提示する。以上で第 5の推薦処理が終了される。

[0082] 次に第 6の推薦処理について説明する。第 6の推薦処理は、上述した第 5の推薦処理におけるステップ S53の処理で、推薦クラスタに分類されている全ての楽曲のうち、利用者 Aが有していないものを抽出して推薦候補とするようにする。すなわち、利用者 Xが有して、な、ものも推薦候補とすることができる。このほかの処理にっ、ては第 5の推薦処理と同様であるので、その説明は省略する。

[0083] 第 5および 6の推薦処理においては、オフライン時の前処理によってグループィ匕されて、る利用者のグループ情報を利用するので、利用者 Aの履歴に類似した利用者 Xを速やかに決定することができる。

[0084] 次に第 7の推薦処理について、図 11のフローチャートを参照して説明する。まず第 7の推薦処理について説明する。この処理は、利用者 Aの履歴情報が極端に少ない場合、他の利用者が少ない場合などに適し、例えば、利用者 Aが当該販売サイトにアクセスしたときに開始される。

[0085] ステップ S61において、差分検出部 22は、利用者 Aの嗜好ベクトルの各次元のうち、その値が所定の値以上のものを検出し、その次元に相当するクラスタを推薦クラスタに決定する。

[0086] ステップ S62において、抽出部 24は、利用者履歴情報 DB17とクラスタリング済 DB 14のクラスタ楽曲対応表 15を参照し、推薦クラスタに分類されてヽる全ての楽曲のうち、利用者 Aが有していないものを抽出して推薦候補とする。

[0087] ステップ S63において、楽曲選択部 25は、推薦候補の楽曲のうち、最も多くの推薦クラスタに属する 1楽曲を選択し、選択結果を新規性判定部 26、および選択理由生成部 27に出力する。なお、最も多くの推薦クラスタに属する楽曲が複数存在する場合、その中から例えばランダムに 1楽曲を選択する。

[0088] ステップ S64にお、て、新規性判定部 26は、利用者 Aの嗜好ベクトルと、選択された楽曲が属するクラスタに基づき、新規性の有無を判定し、判定結果を選択理由生成部 27に出力する。選択理由生成部 27は、選択された楽曲の属するクラスタ層ゃクラスタに対応するキーワードをクラスタリング済 DB14力も取得し、取得したキーワードなどを用いて選択の理由を示す選択理由文を生成する。また、新規性判定部 26からの判定結果に基づいても選択理由文を生成する。そして、生成した選択理由文を、選択された楽曲の楽曲 IDとともに提示部 28に出力する。ステップ S65において、提示部 29は、選択された楽曲に関する情報を楽曲 DBから取得して、生成された選択理由文とともに利用者側に提示する。以上で第 7の推薦処理が終了される。

[0089] 上述した第 1乃至 7の推薦処理によれば、利用者の履歴情報を、各クラスタを 1次元とする嗜好ベクトルに置き換えて CF手法を適用するので、利用者 Aに対する楽曲の推薦が楽曲 DB11に存在する全楽曲のうちの一部に集中してしまうことを抑止することができる。また、履歴情報が少ない利用者に対しても楽曲を推薦することができ、いわゆるコールドスタート問題を回避することができる。さらに、推薦された楽曲が選択された理由を利用者 Aに提示することができ、例えば、利用者 Aは、推薦された楽曲が自身にとって新規性のあるものであるのか否かを知ることができる。

[0090] なお、本発明は、楽曲を推薦する場合のみならず、楽曲以外のコンテンツ、例えばテレビジョン番組、映画、書籍などを販売する販売サイトにも適用することが可能である。

[0091] ところで、上述した一連の処理は、ハードウェアにより実行させることもできる力ソフトウエア〖こより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラム力専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば図 12に示すように構成される汎用のパーソナルコンビユータなどに、記録媒体からインストールされる。 [0092] このパーソナルコンピュータ 100は、 CPU(Central Processing Unit)101を内蔵している。 CPU101にはバス 104を介して、入出力インタフェース 105が接続されている。ノス 104には、 ROM(Read Only Memory)102および RAM(Random Access Memory) 103が接続されている。

[0093] 入出力インタフェース 105には、利用者が操作コマンドを入力するキーボード、マウス等の入力デバイスよりなる入力部 106、画面を表示する CRT(Cathode Ray Tube)または LCD(Liquid Crystal Display)等のディスプレイよりなる出力部 107、プログラムや各種データを格納するハードディスクドライブなどよりなる記憶部 108、およびモデム、 LAN (Local Area Network)アダプタなどよりなり、インタネットに代表されるネットヮークを介した通信処理を実行する通信部 109が接続されている。また、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD- ROM(Compact Disc-Read Only Memor y)、 DVD(Digital Versatile Disc)を含む）、光磁気ディスク（MD(Mini Disc)を含む）、もしくは半導体メモリなどの記録媒体 111に対してデータを読み書きするドライブ 110 が接続されている。

[0094] このパーソナルコンピュータ 100に上述した一連の処理を実行させるプログラムは、記録媒体 111に格納された状態でパーソナルコンピュータ 100に供給され、ドライブ 110によって読み出されて記憶部 108に内蔵されるハードディスクドライブにインストールされている。記憶部 108にインストールされているプログラムは、入力部 106に入力される利用者からのコマンドに対応する CPU101の指令によって、記憶部 108から RAM103にロードされて実行される。

[0095] 図 13は、本発明の一実施の形態の推薦システム 1の他の構成の例を示すブロック図である。図 13において、図 1に示す場合と同様の部分には同一の符号を付してあり、その説明は省略する。

[0096] 図 13に示される推薦システム 1は、楽曲 DB11、キーワード設定部 13、クラスタリング済 DB14、利用者履歴情報 DB17、推薦候補選択部 18、楽曲選択部 25、新規性判定部 26、選択理由生成部 27、提示部 28、メタデータクラスタリング部 201、および楽曲クラスタリング部 202から構成される。

[0097] メタデータクラスタリング部 201は、楽曲データベース 11に記録されている各楽曲のメタデータをクラスタリングする。すなわち、メタデータクラスタリング部 201は、コンテンッである楽曲のメタデータを複数のクラスタの、ずれかに分類し、クラスタに階層を割り当てる。

[0098] メタデータクラスタリング部 201は、各楽曲のメタデータのクラスタリングの結果を楽曲クラスタリング部 202に供給する。

[0099] 楽曲クラスタリング部 202は、メタデータクラスタリング部 201による各楽曲のメタデータのクラスタリングの結果を基に、クラスタリング部 12と同様に、各楽曲をクラスタリングして各楽曲のクラスタ情報を生成する。すなわち、楽曲クラスタリング部 202は、各楽曲のクラスタリングの結果に応じたクラスタ情報を生成してクラスタリング済 DB14 に出力する。

[0100] また、図 13に示される推薦システム 1の推薦候補選択部 18は、嗜好ベクトル生成部 19、利用者グループ化部 20、差分検出部 22、推薦クラスタ決定部 23、抽出部 24 、および類似利用者検出部 203を含む。

[0101] 類似利用者検出部 203は、利用者履歴情報 DB17に保持されている各利用者の嗜好ベクトルを比較することにより、楽曲が推薦される利用者と嗜好ベクトルが類似している他の利用者を検出する。より詳細には、類似利用者検出部 203は、利用者の嗜好情報の一例である嗜好ベクトルを正規化し、正規化された各利用者の嗜好べクトルから、利用者のそれぞれについて階層毎の重みを計算し、階層毎の重みと嗜好ベクトルとから、利用者間の嗜好の類似の度合いを示す類似度を計算し、計算された類似度から、第 1の利用者と嗜好が類似している第 2の利用者を検出する。

[0102] 次に、図 14のフローチャートを参照して、図 13に示される推薦システム 1における、楽曲を推薦する処理の準備であるオフライン時の前処理の他の例について説明する

[0103] ステップ S201において、メタデータクラスタリング部 201は、楽曲 DB11から楽曲のメタデータを取得して、取得したメタデータの次元を圧縮する。例えば、ステップ S20 1において、メタデータクラスタリング部 201は、楽曲 DB11から取得した楽曲のメタデ ~~タの次兀、 LbA {the latent semantic analysis)、 PLbA {the probabilistic latent se mantic analysis)、または数量化 III類などの手法により圧縮する。 [0104] なお、ステップ S201において、メタデータクラスタリング部 201は、楽曲のメタデータをベクトルィ匕するようにしてもょ、。

[0105] ステップ S202において、メタデータクラスタリング部 201は、各楽曲のメタデータをクラスタリングする。例えば、ステップ S 202において、メタデータクラスタリング部 201 は、各楽曲のメタデータをソフトクラスタリングする。

[0106] より具体的には、例えば、図 15で示されるように、メタデータクラスタリング部 201は、それぞれの階層内において、アイテムの各クラスタへの帰属重みの和が 1となるように、各楽曲のメタデータをソフトクラスタリングする。

[0107] 例えば、 ABC123である楽曲 IDで特定される楽曲のメタデータの第 1階層における第 1のクラスタ、第 2のクラスタ、第 3のクラスタ、および第 4のクラスタへの帰属重みは、それぞれ、 0. 0、 0. 8、 0. 0、および 0. 2である。 ABC123である楽曲 IDで特定される楽曲のメタデータの第 2階層における第 5のクラスタ、第 6のクラスタ、第 7のクラスタ、および第 8のクラスタへの帰属重みは、それぞれ、 0. 4、 0. 6、 0. 0、および 0. 0である。 ABC123である楽曲 IDで特定される楽曲のメタデータの第 3階層における第 9 のクラスタ、第 10のクラスタ、および第 11のクラスタへの帰属重みは、それぞれ、 0. 0 、 0. 0、および 1. 0である。また、 ABC123である楽曲 IDで特定される楽曲のメタデータの第 n階層における 4つのクラスタのそれぞれへの帰属重みは、それぞれ、 1. 0, 0 . 0、 0. 0、および 0. 0である。

[0108] 例えば、 CTH863である楽曲 IDで特定される楽曲のメタデータの第 1階層における第 1のクラスタ、第 2のクラスタ、第 3のクラスタ、および第 4のクラスタへの帰属重みは、それぞれ、 1. 0、 0. 0、 0. 0、および 0. 0である。 CTH863である楽曲 IDで特定される楽曲のメタデータの第 2階層における第 5のクラスタ、第 6のクラスタ、第 7のクラスタ、および第 8のクラスタへの帰属重みは、それぞれ、 0. 0、 0. 5、 0. 5、および 0. 0である。 CTH863である楽曲 IDで特定される楽曲のメタデータの第 3階層における第 9 のクラスタ、第 10のクラスタ、および第 11のクラスタへの帰属重みは、それぞれ、 0. 7 、 0. 3、および 0. 0である。また、 CTH863である楽曲 IDで特定される楽曲のメタデータの第 n階層における 4つのクラスタのそれぞれへの帰属重みは、それぞれ、 0. 0、 0 . 8、 0. 2、および 0. 0である。 [0109] 例えば、 XYZ567である楽曲 IDで特定される楽曲のメタデータの第 1階層における第 1のクラスタ、第 2のクラスタ、第 3のクラスタ、および第 4のクラスタへの帰属重みは、それぞれ、 0. 0、 0. 4、 0. 6、および 0. 0である。 XYZ567である楽曲 IDで特定される楽曲のメタデータの第 2階層における第 5のクラスタ、第 6のクラスタ、第 7のクラスタ、および第 8のクラスタへの帰属重みは、それぞれ、 0. 0、 0. 0、 0. 0、および 1. 0である。 XYZ567である楽曲 IDで特定される楽曲のメタデータの第 3階層における第 9のクラスタ、第 10のクラスタ、および第 11のクラスタへの帰属重みは、それぞれ、 0. 9、 0. 0、および 0. 1である。また、 XYZ567である楽曲 IDで特定される楽曲のメタデータの第 n階層における 4つのクラスタのそれぞれへの帰属重みは、それぞれ、 0. 3、 0. 0、 0. 0、および 0. 7である。

[0110] なお、各楽曲のメタデータのソフトクラスタリングは、それぞれの階層内において、ァィテム、すなわち楽曲の各クラスタへの帰属重みの和が 1となるものに限られない。また、各アイテムが各階層において、いずれのクラスタに属さないものとしてもよい。

[0111] ステップ S203において、メタデータクラスタリング部 201は、クラスタの層を割り当てる。

[0112] ここで、図 16および図 17を参照して、メタデータのクラスタリングおよびクラスタの層の割り当てについて説明する。図 16は、メタデータの例を示す図である。図 16で示されるメタデータは、簡単のため、 0または 1のいずれかの値のカテゴリカルデータとされている。

[0113] 高次の分類としてのメタグループ 1には、メタデータ 1、メタデータ 2、およびメタデータ 3が属し、高次の分類としてのメタグループ 2には、メタデータ 4、メタデータ 5、およびメタデータ 6が属する。例えば、メタグループ 1には、アーティストに関するメタデータが属し、メタデータ 1は、アーティストの外観を示し、メタデータ 2は、グループであることを示す。また、例えば、メタグループ 2には、ジャンルに関するメタデータが属し、メタデータ 4は、ポップスであることを示し、メタデータ 5は、ロックであることを示す。

[0114] 図 16に示す例において、 ABC123である楽曲 IDで特定される楽曲のメタデータ 1乃至メタデータ 6は、それぞれ、 1, 1, 1, 1, 1, 1であり、 CTH863である楽曲 IDで特定される楽曲のメタデータ 1乃至メタデータ 6は、それぞれ、 0, 1, 0, 0, 1, 1であり、 XY Z567である楽曲 IDで特定される楽曲のメタデータ 1乃至メタデータ 6は、それぞれ、 1 , 1, 1, 1, 1, 1である。また、 EKF534である楽曲 IDで特定される楽曲のメタデータ 1 乃至メタデータ 6は、それぞれ、 1, 0, 1, 0, 0, 1であり、 OPQ385である楽曲 IDで特定される楽曲のメタデータ 1乃至メタデータ 6は、それぞれ、 1, 0, 1, 1, 0, 0である。

[0115] このとき、 ABC123である楽曲 IDで特定される楽曲乃至 OPQ385である楽曲 IDで特定される楽曲についての、メタデータ 1をベクトルとみなす。同様に、 ABC123である楽曲 IDで特定される楽曲乃至 OPQ385である楽曲 IDで特定される楽曲についての、メタデータ 2乃至メタデータ 6のそれぞれをベクトルとみなす。すなわち、複数の楽曲についての 1つのメタデータの値をベクトルとみなす。

[0116] このベクトル同士の距離に注目する。

[0117] 図 16で示される例において、ベクトルとみなされたメタデータ 1、メタデータ 3、メタデータ 4が、マンハッタン距離 1以内のクラスタに、また、メタデータ 2、メタデータ 5、メタデータ 6が、マンハッタン距離 1以内の他のクラスタに、まとまつている。

[0118] そこで、これらのクラスタを、新たなメタデータの階層とする。すなわち、階層のそれぞれの層に、より近、メタデータが割り付けられる。

[0119] 図 17は、このようにクラスタリングされ、層が割り付けられたメタデータの例を示す。

図 17に示す例において、第 1層には、メタデータ 1、メタデータ 3、およびメタデータ 4 が属し、第 2層には、メタデータ 2、メタデータ 5、およびメタデータ 6が属する。

[0120] このように、相関の高いメタデータの集まりでそれぞれの層が形成され、その中でコンテンッのクラスタリングが行われるので、ジャンルやアーティストなどをそのまま階層とするような通常の階層分けでは表現しきれない微妙なコンテンツ間の差をクラスタに反映することができる。

[0121] 図 14に戻り、ステップ S204において、楽曲クラスタリング部 202は、層毎に楽曲をクラスタリングする。すなわち、楽曲クラスタリング部 202は、各コンテンツを、割り当てられた階層のそれぞれにおヽて複数のクラスタのヽずれかに分類する。

[0122] ステップ S205およびステップ S206は、それぞれ、図 6のステップ S2およびステツプ S3と同様なので、その説明は省略する。

[0123] このようにすることで、メタデータによるコンテンツの表現の詳細度（表現の詳細さの度合い）を保ったまま、データ量および計算量を削減して、コンテンツをクラスタリングすることができる。

[0124] また、以上のように、メタデータを階層化することにより、コンテンツ間の微妙な相違力く表現されるようにコンテンツをクラスタリングすることができる。

[0125] 次に、類似利用者検出部 203の詳細について説明する。

[0126] 図 18は、類似利用者検出部 203の構成の例を示すブロック図である。類似利用者検出部 203は、正規化部 231、重み計算部 232、および類似度計算部 233から構成される。

[0127] 正規化部 231は、利用者の嗜好情報の一例である嗜好ベクトルを正規化する。重み計算部 232は、正規ィ匕された各利用者の嗜好ベクトルから、利用者のそれぞれについて階層毎の重みを計算する。類似度計算部 233は、階層毎の重みと嗜好べタトルとから、楽曲を推薦しょうとする利用者と、他の利用者との嗜好の類似の度合いを示す類似度を計算する。

[0128] 次に、図 8のステップ S21に対応する、類似利用者検出部 203による、嗜好の類似する利用者 Xの検出の処理を、図 19のフローチャートを参照して説明する。

[0129] ステップ S231において、正規化部 231は、利用者それぞれの嗜好ベクトルを正規化する。

[0130] 図 20および図 21を参照して、嗜好ベクトルの正規化について説明する。図 20は、嗜好ベクトル生成部 19にお、て生成され、利用者履歴情報 DB 17に保持されて、る各利用者の嗜好ベクトルの例を示す図である。すなわち、図 20は、正規化される前の嗜好ベクトルの例を示す。

[0131] 図 20で示される嗜好ベクトルの要素のうち、最初の 4つの要素が第 1層に属し、次の 4つの要素が第 2層に属し、さらに次の 3つの要素が第 3層に属し、最後の 4つの要素が第 4層に属する。

[0132] 図 20に示す例において、 U001であるユーザ IDで特定される利用者の嗜好ベクトルは、 (0. 0, 2. 8, 0. 0, 2. 2, 0. 4, 0. 6, 0. 8, 0. 0, 0. 5, 0. 4, 0. 4, 0. 0, 0. 5 , 0. 4, 0. 0)である。ここで、それぞれ 0. 0, 2. 8, 0. 0, 2. 2である最初の 4つの要素は、第 1層に属し、それぞれ 0. 4, 0. 6, 0. 8, 0. 0である次の 4つの要素は、第 2 層に属し、それぞれ 0. 5, 0. 4, 0. 4であるさらに次の 3つの要素は、第 3層に属し、それぞれ 0. 0, 0. 5, 0. 4, 0. 0である最後の 4つの要素は、第 4層に属する。

[0133] 図 20に示す例において、 U002であるユーザ IDで特定される利用者の嗜好ベクトルは、 (0. 2, 0. 8, 0. 5, 0. 6, 0. 0, 0. 5, 0. 5, 0. 0, 0. 7, 0. 3, 0. 6, 0. 0, 0. 6 , 0. 2, 0. 0)である。ここで、それぞれ 0. 2, 0. 8, 0. 5, 0. 6である最初の 4つの要素は、第 1層に属し、それぞれ 0. 0, 0. 5, 0. 5, 0. 0である次の 4つの要素は、第 2 層に属し、それぞれ 0. 7, 0. 3, 0. 6であるさらに次の 3つの要素は、第 3層に属し、それぞれ 0. 0, 0. 6, 0. 2, 0. 0である最後の 4つの要素は、第 4層に属する。

[0134] 図 20に示す例において、 U003であるユーザ IDで特定される利用者の嗜好ベクトルは、 (0. 0, 2. 2, 0. 1, 1. 6, 0. 0, 1. 0, 2. 0, 1. 4, 0. 0, 1. 2, 0. 1, 0. 3, 0. 4 , 0. 6, 0. 7)である。ここで、それぞれ 0. 0, 2. 2, 0. 1, 1. 6である最初の 4つの要素は、第 1層に属し、それぞれ 0. 0, 1. 0, 2. 0, 1. 4である次の 4つの要素は、第 2 層に属し、それぞれ 0. 0, 1. 2, 0. 1であるさらに次の 3つの要素は、第 3層に属し、それぞれ 0. 3, 0. 4, 0. 6, 0. 7である最後の 4つの要素は、第 4層に属する。

[0135] 例えば、ステップ S231において、正規ィ匕部 231は、それぞれの層におけるノルムが 1になるように、それぞれの嗜好ベクトルを正規化する。

[0136] 図 21は、図 20の嗜好ベクトルを、それぞれの層におけるノルムが 1になるように正規ィ匕した嗜好ベクトルの例を示す図である。

[0137] 図 21に示す例において、 U001であるユーザ IDで特定される利用者の正規化された嗜好ベクトルは、 (0. 0, 0. 8, 0. 0, 0. 6, 0. 4, 0. 6, 0. 7, 0. 0, 0. 7, 0. 5, 0 . 5, 0. 0, 0. 5, 0. 4, 0. 0)である。ここで、それぞれ 0. 0, 0. 8, 0. 0, 0. 6である最初の 4つの要素は、第 1層に属し、それぞれ 0. 4, 0. 6, 0. 7, 0. 0である次の 4つの要素は、第 2層に属し、それぞれ 0. 7, 0. 5, 0. 5であるさらに次の 3つの要素は、第 3層に属し、それぞれ 0. 0, 0. 5, 0. 4, 0. 0である最後の 4つの要素は、第 4層に属する。

[0138] 図 21に示す例において、 U002であるユーザ IDで特定される利用者の正規化された嗜好ベクトルは、 (0. 2, 0. 7, 0. 4, 0. 5, 0. 0, 0. 7, 0. 7, 0. 0, 0. 7, 0. 3, 0 . 6, 0. 0, 0. 8, 0. 3, 0. 0)である。ここで、それぞれ 0. 2, 0. 7, 0. 4, 0. 5である最初の 4つの要素は、第 1層に属し、それぞれ 0. 0, 0. 7, 0. 7, 0. 0である次の 4つの要素は、第 2層に属し、それぞれ 0. 7, 0. 3, 0. 6であるさらに次の 3つの要素は、第 3層に属し、それぞれ 0. 0, 0. 8, 0. 3, 0. 0である最後の 4つの要素は、第 4層に属する。

[0139] 図 21に示す例において、 U003であるユーザ IDで特定される利用者の正規化された嗜好ベクトルは、 (0. 0, 0. 8, 0. 0, 0. 6, 0. 0, 0. 4, 0. 8, 0. 5, 0. 0, 1. 0, 0 . 1, 0. 3, 0. 2, 0. 2, 0. 3)である。ここで、それぞれ 0. 0, 0. 8, 0. 0, 0. 6である最初の 4つの要素は、第 1層に属し、それぞれ 0. 0, 0. 4, 0. 8, 0. 5である次の 4つの要素は、第 2層に属し、それぞれ 0. 0, 1. 0, 0. 1であるさらに次の 3つの要素は、第 3層に属し、それぞれ 0. 3, 0. 2, 0. 2, 0. 3である最後の 4つの要素は、第 4層に属する。

[0140] 図 19に戻り、ステップ S232において、重み計算部 232は、利用者それぞれの嗜好ベクトルの階層のそれぞれについて、重みを計算する。例えば、ステップ S232において、重み計算部 232は、それぞれの階層毎に、 1つの階層に属する要素の分散である重みを計算する。

[0141] 図 22は、利用者それぞれについて階層毎に計算された、それぞれの階層に属する要素の分散である重みの例を示す図である。図 22に示す例において、 U001であるユーザ IDで特定される利用者についての第 1層の重み、第 2層の重み、第 3層の重み、および第 4層の重みは、それぞれ、 0. 17、 0. 10、 0. 01、および 0. 06である。

[0142] U002であるユーザ IDで特定される利用者についての第 1層の重み、第 2層の重み、第 3層の重み、および第 4層の重みは、それぞれ、 0. 05、 0. 17、 0. 05、および 0 . 16である。また、 U003であるユーザ IDで特定される利用者についての第 1層の重み、第 2層の重み、第 3層の重み、および第 4層の重みは、それぞれ、 0. 16、 0. 10 、 0. 31、および 0. 00である。

[0143] ステップ S233において、類似度計算部 233は、利用者のそれぞれについて、重み付けした嗜好の類似度を計算する。ステップ S234において、類似利用者検出部 20 3は、利用者から、最大の嗜好の類似度の利用者 Xを検出して、処理は終了する。

[0144] 仮に、式（1)により、利用者 uおよび利用者 Vの類似度 sim (u,v)を重み付けせずに計算するとすれば、利用者 Xを U001であるユーザ IDで特定される利用者とした場合、 U002であるユーザ IDで特定される利用者および U003であるユーザ IDで特定される利用者にっ、ての類似度は、図 23に示されるようになる。

[0145] [数 1] s i m ( u, V) = ∑ ∑ h_u| _G h_v| _G ' · ' ( 1 )

l eL ceC ( l )

[0146] 式（1)において、 Lは、嗜好ベクトルの階層の数を示す値であり、 1は、嗜好ベクトルの階層を特定する値である。 C(l)は、嗜好ベクトルのクラスタの全体を示し、 cは、クラスタを特定する値である。 hは、正規化された嗜好ベクトルの要素の値を示す。

[0147] U001であるユーザ IDで特定される利用者の嗜好ベクトルの要素のうち、第 1層の要素と、 U002であるユーザ IDで特定される利用者の嗜好ベクトルの要素のうち、第 1層の要素とが、対応する要素同士で乗算され、乗算された結果が積算されると、図 23 の U002であるユーザ IDの第 1層に配置した値である 0. 88が求められる。同様に、第 2層、第 3層、および第 4層について、 U001であるユーザ IDで特定される利用者の嗜好ベクトルの要素と、 U002であるユーザ IDで特定される利用者の嗜好ベクトルの要素とが、対応する要素同士で乗算され、乗算された結果が積算されると、図 23の U00 2であるユーザ IDの第 2層、第 3層、および第 4層のそれぞれに配置した値である 0. 92、 0. 97、 0. 50力求められる。

[0148] 最終的に、 U001であるユーザ IDで特定される利用者と U002であるユーザ IDで特定される利用者との嗜好の類似度は、第 1層、第 2層、第 3層、および第 4層のそれぞれ【こつ、て求められた 0. 88、 0. 92、 0. 97、および 0. 50をカロ算した値である 3. 2 7とされる。

[0149] 同様に、 U001であるユーザ IDで特定される利用者の嗜好ベクトルの要素のうち、第 1層の要素と、 U003であるユーザ IDで特定される利用者の嗜好ベクトルの要素のうち、第 1層の要素とが、対応する要素同士で乗算され、乗算された結果が積算されると、図 23の U003であるユーザ IDの第 1層に配置した値である 1. 00が求められる。同様に、第 2層、第 3層、および第 4層について、 U001であるユーザ IDで特定される利用者の嗜好ベクトルの要素と、 U003であるユーザ IDで特定される利用者の嗜好べタトルの要素とが、対応する要素同士で乗算され、乗算された結果が積算されると、図 23の U003であるユーザ IDの第 2層、第 3層、および第 4層のそれぞれに配置した値である 0. 77、 0. 57、 0. 15力求められる。

[0150] 最終的に、 U001であるユーザ IDで特定される利用者と U003であるユーザ IDで特定される利用者との嗜好の類似度は、第 1層、第 2層、第 3層、および第 4層のそれぞれ【こつ、て求められた 1. 00、 0. 77、 0. 57、および 0. 15をカロ算した値である 2. 5 0とされる。

[0151] このように、重み付けせずに類似度を計算すると、 U001であるユーザ IDで特定される利用者と U002であるユーザ IDで特定される利用者との嗜好の類似度力 U001であるユーザ IDで特定される利用者と U003であるユーザ IDで特定される利用者との嗜好の類似度より大きいので、最大の嗜好の類似度の利用者 Xとして、 U002であるュ一ザ IDで特定される利用者が検出されることになる。

[0152] これに対して、ステップ S233において、類似度計算部 233は、式（2)により、重み付けした、利用者 uおよび利用者 Vの類似度 sim (u,v)を計算する。

[0153] [数 2] s i m ( u，v) = ∑ L _u| h_u |_G - b_v| h_v| _c ' · ' ( 2 )

l eL ceC ( l )

[0154] 式（1)において、 Lは、嗜好ベクトルの階層の数を示す値であり、 1は、嗜好ベクトルの階層を特定する値である。 C(l)は、嗜好ベクトルのクラスタの全体を示し、 cは、クラスタを特定する値である。 hは、正規化された嗜好ベクトルの要素の値を示す。 bは、階層のそれぞれにつ!/、ての重みを示す。

[0155] 図 24は、利用者 Xを U001であるユーザ IDで特定される利用者とした場合、 U002であるユーザ IDで特定される利用者および U003であるユーザ IDで特定される利用者についての重み付けした嗜好の類似度の例を示す図である。なお、図 24に示される値は、式（2)で算出される類似度 sim (u,v)を 100倍したものである。

[0156] U001であるユーザ IDで特定される利用者の嗜好ベクトルの要素のうち、第 1層の要素のそれぞれに、 U001であるユーザ IDで特定される利用者の第 1層の重みが乗算され、 U002であるユーザ IDで特定される利用者の嗜好ベクトルの要素のうち、第 1層の要素のそれぞれに、 U002であるユーザ IDで特定される利用者の第 1層の重みが乗算され、対応する要素同士で乗算され、乗算された結果が積算されると、図 24の U 002であるユーザ IDの第 1層に配置した値である 0. 72が求められる。

[0157] 同様に、第 2層、第 3層、および第 4層について、 U001であるユーザ IDで特定される利用者の嗜好ベクトルの要素のそれぞれに、 U001であるユーザ IDで特定される利用者の第 1層の重みが乗算され、 U002であるユーザ IDで特定される利用者の嗜好ベクトルの要素のそれぞれに、 U002であるユーザ IDで特定される利用者の第 1層の重みが乗算され、対応する要素同士で乗算され、乗算された結果が積算されると、図 24の U002であるユーザ IDの第 2層、第 3層、および第 4層のそれぞれに配置した値である 1. 54、 0. 03、 0. 48力求められる。

[0158] 最終的に、 U001であるユーザ IDで特定される利用者と U002であるユーザ IDで特定される利用者との重み付けされた嗜好の類似度は、第 1層、第 2層、第 3層、および第 4層のそれぞれ【こつ!ヽて求められた 0. 72、 1. 54、 0. 03、および 0. 48をカロ算した値である 2. 76とされる。

[0159] 同様に、 U001であるユーザ IDで特定される利用者の嗜好ベクトルの要素のうち、第 1層の要素のそれぞれに、 U001であるユーザ IDで特定される利用者の第 1層の重みが乗算され、 U003であるユーザ IDで特定される利用者の嗜好ベクトルの要素のうち、第 1層の要素のそれぞれに、 U003であるユーザ IDで特定される利用者の第 1層の重みが乗算され、対応する要素同士で乗算され、乗算された結果が積算されると、図 24の U003であるユーザ IDの第 1層に配置した値である 2. 74が求められる。同様に、第 2層、第 3層、および第 4層について、 U001であるユーザ IDで特定される利用者の嗜好ベクトルの要素のそれぞれに、 U001であるユーザ IDで特定される利用者の第 1層の重みが乗算され、 U003であるユーザ IDで特定される利用者の嗜好ベクトルの要素のそれぞれに、 U003であるユーザ IDで特定される利用者の第 1層の重みが乗算され、対応する要素同士で乗算され、乗算された結果が積算されると、図 24の U 003であるユーザ IDの第 2層、第 3層、および第 4層のそれぞれに配置した値である 0 . 79、 0. 10、 0. 00力求められる。

[0160] 最終的に、 U001であるユーザ IDで特定される利用者と U003であるユーザ IDで特定される利用者との重み付けされた嗜好の類似度は、第 1層、第 2層、第 3層、および第 4層のそれぞれ【こつ!ヽて求められた 2. 74、 0. 79、 0. 10、および 0. 00をカロ算した値である 3. 64とされる。

[0161] この結果、重み付けして類似度を計算すると、 U001であるユーザ IDで特定される利用者と U003であるユーザ IDで特定される利用者との嗜好の類似度力 U001であるユーザ IDで特定される利用者と U002であるユーザ IDで特定される利用者との嗜好の類似度より大きいので、最大の嗜好の類似度の利用者 Xとして、 U003であるュ一ザ IDで特定される利用者が検出される。

[0162] 図 20で示される嗜好ベクトルに注目すると、 U001であるユーザ IDで特定される利用者の嗜好ベクトルの各要素の値は、第 2層乃至第 4層に比較して、第 1層において大きく変化しているので、第 2層乃至第 4層に比較して、第 1層の各要素の値が、 U00 1であるユーザ IDで特定される利用者の嗜好により関係すると予測される。

[0163] U002であるユーザ IDで特定される利用者の嗜好ベクトル、および U003であるユーザ IDで特定される利用者の嗜好ベクトルの第 1層の各要素の値について注目すると、 U003であるユーザ IDで特定される利用者の嗜好ベクトルの第 1層の各要素の値が、 U002であるユーザ IDで特定される利用者の嗜好ベクトルの第 1層の各要素の値より、 U001であるユーザ IDで特定される利用者の嗜好ベクトルの第 1層の各要素の値に近似している。従って、 U002であるユーザ IDで特定される利用者に比較して、 U00 3であるユーザ IDで特定される利用者の嗜好は、 U001であるユーザ IDで特定される利用者の嗜好に類似していると予測される。

[0164] このように、重み付けすることによって、利用者の嗜好にあまり関係しないと予測される値に比較して、利用者の嗜好により関係すると予測される値によって、その値がより大きく変化する嗜好の類似度を求めることができるので、より正確に、嗜好の類似する利用者を検出することができる。

[0165] なお、ステップ S232において、重み計算部 232は、例えば、それぞれの階層に属する要素の分散である重みを計算すると説明したが、これに限らず、階層における要素のばらつきが大きい場合により大きい値となる重みを計算すればよぐ例えば、式（ 3)によりエントロピー Hを算出し、 1からエントロピー Hを引き算した結果得られる値である重みを計算するようにしてもょ、。

[0166] [数 3]

H(i) = ∑ h|_Glogh|_G … (3)

ceC(l)

[0167] このように、情報の欠落を最小限に抑えつつ、適切なコンテンツを選択するための計算量を削減することができる。また、利用者がどのような情報に着目してコンテンツを選択してヽるかを確実に反映したコンテンツを提示することができるようになる。

[0168] なお、本明細書にぉ、て、プログラムに基づ、て実行されるステップは、記載された順序に従って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

[0169] また、プログラムは、 1台のコンピュータにより処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであってもよい。

[0170] また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。

[0171] なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなぐ本発明の要旨を逸脱しな、範囲にぉ、て種々の変更が可能である。

Claims

請求の範囲

[1] コンテンツ群のなカゝから所定の条件を満たすコンテンツを選択して利用者に提示する情報処理装置において、

前記コンテンツ群を構成する各コンテンツを、コンテンツのメタデータに応じた階層のそれぞれにおいて複数の第 1のクラスタのいずれか〖こ分類するコンテンツ分類手段と、

各コンテンツと各コンテンツのそれぞれが分類された前記階層における前記第 1のクラスタとの対応関係を示すデータベースを保持する保持手段と、

前記利用者のコンテンツに対する履歴情報を管理する管理手段と、

前記履歴情報に基づき、注目する第 1のクラスタを特定し、特定した前記第 1のクラスタに分類されているコンテンツを選択する選択手段と、

選択された前記コンテンツを提示する提示手段と

を含む情報処理装置。

[2] 前記選択手段は、

第 1の利用者と前記履歴情報が類似している第 2の利用者を検出する検出手段と前記第 1の利用者の履歴情報上に存在せず、前記第 2の利用者の履歴情報上に存在するコンテンツが分類されている第 1のクラスタを特定する特定手段と、

特定された前記第 1のクラスタに分類されているコンテンツを抽出する抽出手段とを含み、

前記提示手段は、前記第 1の利用者に対して抽出された前記コンテンツを提示する

請求項 1に記載の情報処理装置。

[3] 利用者の履歴情報と前記データベースに基づき、前記利用者の嗜好を前記第 1のクラスタ単位で示す嗜好情報を生成する生成手段と、

前記嗜好情報に基づいて利用者をグループィヒするグループィヒ手段とをさらに含み前記選択手段は、第 1の利用者と同じグループに属する第 2の利用者を検出する検出手段と、前記第 1の利用者の履歴情報上に存在せず、前記第 2の利用者の履歴情報上に存在するコンテンツが分類されている第 1のクラスタを特定する特定手段と、

請求項 1に記載の情報処理装置。

[4] 利用者の履歴情報と前記データベースに基づき、前記利用者の嗜好を前記第 1のクラスタ単位で示す嗜好情報を生成する生成手段をさらに含み、

前記選択手段は、

第 1の利用者と前記嗜好情報で示される嗜好が類似している第 2の利用者を検出する検出手段と、

前記第 1の利用者の嗜好情報と前記第 2の利用者の嗜好情報に基づいて注目する第 1のクラスタを特定する特定手段と、

請求項 1に記載の情報処理装置。

[5] 前記検出手段は、

利用者の嗜好情報を正規化する正規化手段と、

正規化された各利用者の嗜好情報から、利用者のそれぞれについて階層毎の重みを計算する重み計算手段と、

階層毎の重みと前記嗜好情報とから、利用者のうちの第 1の利用者と、利用者のうちの他の利用者との嗜好の類似の度合いを示す類似度を計算する類似度計算手段と

を含み、計算された類似度から、第 1の利用者と嗜好が類似している第 2の利用者を検出する

請求項 4に記載の情報処理装置。

[6] 利用者の履歴情報と前記データベースに基づき、前記利用者の嗜好を前記第 1のクラスタ単位で示す嗜好情報を生成する生成手段と、

前記嗜好情報に基づいて利用者をグループィヒするグループィヒ手段とをさらに含み前記選択手段は、

第 1の利用者と同じグループに属する第 2の利用者を検出する検出手段と、前記第 1の利用者の嗜好情報と前記第 2の利用者の嗜好情報に基づいて注目する第 1のクラスタを特定する特定手段と、

請求項 1に記載の情報処理装置。

[7] 前記コンテンツ分類手段によって前記メタデータが分類される第 1のクラスタのそれぞれに対してキーワードを設定する設定手段と、

前記設定手段によって設定されたキーワードを用い、コンテンツの提示理由を表す理由文を作成する作成手段とをさらに含み、

前記提示手段は、前記理由文も提示する

請求項 1に記載の情報処理装置。

[8] コンテンツのメタデータを複数の第 2のクラスタのいずれかに分類し、第 2のクラスタに前記階層を割り当てるメタデータ分類手段を更に含み、

前記コンテンツ分類手段は、各コンテンツを、割り当てられた前記階層のそれぞれにお、て複数の第 1のクラスタの、ずれかに分類する

請求項 1に記載の情報処理装置。

[9] 利用者の履歴情報と前記データベースに基づき、前記利用者の嗜好を前記第 1のクラスタ単位で示す嗜好情報を生成する生成手段をさらに含み、

前記選択手段は、全部の前記階層の全部の前記第 1のクラスタのうち、前記嗜好情報で示される前記第 1のクラスタであって、最も多くの前記第 1のクラスタに分類されてヽるコンテンツを選択する

請求項 1に記載の情報処理装置。

[10] コンテンツ群のなカゝから所定の条件を満たすコンテンツを選択して利用者に提示する情報処理装置の情報処理方法にぉ、て、

前記コンテンツ群を構成する各コンテンツを、コンテンツのメタデータに応じた各階層にお、て複数のクラスタの!/、ずれかに分類し、

各コンテンツと各コンテンツのそれぞれが分類された前記階層における前記クラスタとの対応関係を示すデータベースを保持し、

前記利用者のコンテンッに対する履歴情報を管理し、

前記履歴情報に基づき、注目するクラスタを特定し、特定した前記クラスタに分類されてヽるコンテンツを選択し、

選択された前記コンテンッを提示する

ステップを含む情報処理方法。

[11] コンテンツ群のなカゝから所定の条件を満たすコンテンツを選択して利用者に推薦するためのプログラムであって、

前記利用者のコンテンッに対する履歴情報を管理し、

選択された前記コンテンッを提示する

ステップを含む処理をコンピュータに実行させるプログラム。