WO2011118037A1

WO2011118037A1 - カテゴリ生成プログラム、カテゴリ生成装置およびカテゴリ生成方法

Info

Publication number: WO2011118037A1
Application number: PCT/JP2010/055451
Authority: WO
Inventors: 陽子藤本
Original assignee: 富士通株式会社
Priority date: 2010-03-26
Filing date: 2010-03-26
Publication date: 2011-09-29
Also published as: JPWO2011118037A1; KR20120137376A; EP2551780A1; KR101469021B1; JP5516720B2; US9047916B2; CN102870109B; US20130071089A1; CN102870109A; EP2551780A4

Abstract

　カテゴリ生成装置は、楽曲を受け付けて、受け付けられた楽曲が有する映像情報を抽出し、抽出した映像情報を特徴ごとに分解する。そして、カテゴリ生成装置は、分解された映像情報それぞれについて、当該映像情報の特徴を表すカテゴリを生成する。また、カテゴリ生成装置は、受け付けられた楽曲の映像情報から文字情報を抽出し、抽出された文字情報を単語に分解する。そして、カテゴリ生成装置は、分解して得られた単語それぞれについて、当該単語が表す連想されるカテゴリを生成する。さらに、カテゴリ生成装置は、生成したカテゴリそれぞれについて、登場時間と登場回数とを加算した値を、文字情報に含まれる総単語数と楽曲の総時間とを加算した値で除算した出現率を算出し、カテゴリと出現率とを対応付ける。

Description

カテゴリ生成プログラム、カテゴリ生成装置およびカテゴリ生成方法

　本発明は、カテゴリ生成プログラム、カテゴリ生成装置およびカテゴリ生成方法に関する。

　従来、楽曲をリストなどにカテゴライズする手法として、楽曲自体に付加されている楽曲タイトル、作曲者、アーティスト等などの文字情報を用いた分類手法が利用されている。

　例えば、複数の楽曲を含むアナログ音声をデジタル音声に変換し、楽曲ごとに出だしと終わりとを特定する。続いて、出だしと終わりとが特定された楽曲に関する文字情報（メタ情報）を文字認識する。そして、出だしと終わりとが特定された楽曲と文字認識結果とを対応付けることで、楽曲をカテゴライズする手法が開示されている。

　また、楽曲のメタ情報からタイトル、アーティスト名、ジャンル、レビューテキスト、テンポ、ビート、リズムなどの各項目を抽出する。そして、抽出した各項目と抽出元の楽曲とを対応付けることで、楽曲を複数にカテゴライズする手法が開示されている。

特表２００６－５１５０９９号公報特開２００７－２６４２５号公報

　しかしながら、従来の技術では、楽曲に付加される文字情報を用いて楽曲を分類しているので、楽曲に付加されている文字情報の情報量が少ない場合には、楽曲を正確に分類することができないという課題があった。

　また、楽曲に付加される情報を利用せずに、テンポや階調など音楽的特徴で分類した場合、専門的な分類になってしまい、一般ユーザが利用できるような汎用性のある分類とは言えない。また、楽曲に文字情報を付加した上で分類する手法も考えられるが、楽曲ごとに文字情報を作成して付加する作業が非常に手間であり、現実的でない。

　開示の技術は、上記に鑑みてなされたものであって、楽曲に付加される文字情報が少ない場合でも、楽曲を正確に分類することが可能であるカテゴリ生成プログラム、カテゴリ生成装置およびカテゴリ生成方法を提供することを目的とする。

　本願の開示するカテゴリ生成プログラム、カテゴリ生成装置およびカテゴリ生成方法は、一つの態様において、楽曲を受け付ける楽曲受付手順と、前記楽曲受付手順により受け付けられた楽曲が有する映像情報を抽出し、抽出した映像情報を特徴ごとに分解する映像分解手順と、前記映像分解手順により分解された映像情報それぞれについて、当該映像情報の特徴を表すカテゴリを生成するカテゴリ生成手順とをコンピュータに実行させる。

　本願の開示するカテゴリ生成プログラム、カテゴリ生成装置およびカテゴリ生成方法の一つの態様によれば、楽曲に付加される文字情報が少ない場合でも、楽曲を正確に分類することが可能であるという効果を奏する。

図１は、実施例１に係るカテゴリ生成装置の構成を示すブロック図である。図２は、実施例２に係るカテゴリ生成装置の構成を示すブロック図である。図３は、シーンＤＢに記憶される情報の例を示す図である。図４は、単語ＤＢに記憶される情報の例を示す図である。図５は、カウント用ＤＢに記憶される情報の例を示す図である。図６は、楽曲情報ＤＢに記憶される情報の例を示す図である。図７は、曲リスト画面の例を示す図である。図８は、曲リストの詳細画面の例を示す図である。図９は、曲リストのメニュー画面の例を示す図である。図１０は、カテゴリ別の曲リスト画面の例を示す図である。図１１は、実施例２に係るカテゴリ生成装置の処理の流れを示すフローチャートである。図１２は、単語解析処理の流れを示すフローチャートである。図１３は、映像解析処理の流れを示すフローチャートである。図１４は、カテゴリ生成プログラムを実行するコンピュータシステムの例を示す図である。

　以下に、本願の開示するカテゴリ生成プログラム、カテゴリ生成装置およびカテゴリ生成方法の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

　図１は、実施例１に係るカテゴリ生成装置の構成を示すブロック図である。このカテゴリ生成装置１は、コンピュータなどの情報処理装置であってもよく、ＴＶ番組を録画する録画機やポータブル再生機など映像を扱う機器や携帯型の音楽プレーヤーなど様々な装置に適用できる。

　図１に示すように、カテゴリ生成装置１は、楽曲受付部１ａと映像分解部１ｂとカテゴリ生成部１ｃとを有する。楽曲受付部１ａは、楽曲を受け付ける。なお、楽曲受付部１ａは、ネットワークや放送回線などを介して受け付けてもよく、記憶媒体に録画された情報を読み出すようにしてもよい。

　映像分解部１ｂは、楽曲受付部１ａにより受け付けられた楽曲が有する映像情報を抽出し、抽出した映像情報を特徴ごとに分解する。そして、カテゴリ生成部１ｃは、映像分解部１ｂにより分解された映像情報それぞれについて、当該映像情報の特徴を表すカテゴリを生成する。この結果、楽曲に付加される文字情報が少ない場合でも、楽曲を正確に分類することが可能である。

　ところで、本願の開示するカテゴリ生成装置は、図１に示した制御部以外にも様々な制御部を有していてもよい。そこで、実施例２では、実施例１で説明した以外の制御部等を有するカテゴリ生成装置の一例を説明する。

［カテゴリ生成装置の構成］
　まず、図２を用いて、実施例２に係るカテゴリ生成装置の構成を説明する。図２は、実施例２に係るカテゴリ生成装置の構成を示すブロック図である。図２に示すように、カテゴリ生成装置１０は、通信制御Ｉ／Ｆ部１１と入力部１２と表示部１３と記憶部１４と制御部２０とを有する。

　通信制御Ｉ／Ｆ部１１は、他の装置と接続するインタフェースであり、例えばチューナーやセットトップボックス等を有し、放送されるテレビ番組を受信して後述する楽曲検出部２１に出力する。また、通信制御Ｉ／Ｆ部１１は、インターネットなどのネットワークを介してテレビ番組等を受信して楽曲検出部２１に出力する。

　入力部１２は、例えばカテゴリ処理開始や終了などユーザからの各種操作指示を受け付けるキーボードやマウスなどであり、受け付けた情報を制御部２０等に出力する。また、入力部１２は、ＣＤやＤＶＤなどの記憶媒体を受け付けることもできる。そして、入力部１２は、受け付けた記憶媒体から情報を読み出して楽曲検出部２１に出力する。後述する表示部１３も、マウスと協働してポインティングディバイス機能を実現する。表示部１３は、各種の情報を出力する出力手段であり、例えば後述する曲リスト表示部２７が出力する楽曲情報等を表示するモニタやスピーカーである。

　記憶部１４は、制御部２０による各種処理に必要なデータおよびプログラムを格納する半導体メモリ素子、または、ハードディスクなどの記憶装置である。この記憶部１４は、シーンＤＢ１４ａと単語ＤＢ１４ｂとカウント用ＤＢ１４ｃと楽曲情報ＤＢ１４ｄとを有する。

　シーンＤＢ１４ａは、映像の特徴を示すシーンとそのシーンが表すと思われるカテゴリとを対応付けて記憶する。例えば、シーンＤＢ１４ａは、図３に示すように、「Ｎｏ、シーン特徴、カテゴリ１、カテゴリ２、カテゴリ３」として「１、雪が多い、雪、冬、白」や「２、イルミネーションがある、夜、クリスマス、－」などを記憶する。

　ここで記憶される「Ｎｏ」は、シーンＤＢ１４ａに記憶されるレコードを区別する識別子である。「シーン特徴」は、映像を分解したときのシーンの特徴を示す情報であり、「カテゴリ１、カテゴリ２、カテゴリ３」は、シーンを示すカテゴリである。例えば、「１、雪が多い、雪、冬、白」は、雪が多いシーンが雪、冬、白のカテゴリを有していることを示す。また、「２、イルミネーションがある、夜、クリスマス、－」は、イルミネーションがあるシーンが夜、クリスマスのカテゴリを有していることを示す。なお、図３は、シーンＤＢに記憶される情報の例を示す図である。

　単語ＤＢ１４ｂは、単語とその単語が表すと連想できるカテゴリとを対応付けて記憶する。例えば、単語ＤＢ１４ｂは、図４に示すように、「Ｎｏ、単語、カテゴリ１、カテゴリ２、カテゴリ３」として「１、雪、雪、冬、白」や「２、サンタクロース、クリスマス、冬、－」などを記憶する。

　ここで記憶される「Ｎｏ」は、単語ＤＢ１４ｂに記憶されるレコードを区別する識別子である。「単語」は、得られた単語であり、「カテゴリ１、カテゴリ２、カテゴリ３」は、単語を表すカテゴリである。例えば、「１、雪、雪、冬、白」は、単語「雪」が雪、冬、白のカテゴリを有していることを示す。また、「２、サンタクロース、クリスマス、冬、－」は、単語「サンタクロース」がクリスマス、冬のカテゴリを有していることを示す。なお、図４は、単語ＤＢに記憶される情報の例を示す図である。

　カウント用ＤＢ１４ｃは、抽出された楽曲についてカテゴリの重み付けをするために、制御部２０によって生成された各種情報を一時的に保持する。例えば、カウント用ＤＢ１４ｃは、図５に示すように、「Ｎｏ、カテゴリ、登場回数、登場時間（分）、出現率」として「１、冬、１２、１０、８０％」や「２、クリスマス、１１、０、４０％」などを記憶する。

　ここで記憶される「Ｎｏ」は、カウント用ＤＢ１４ｃに記憶されるレコードを区別する識別子である。「カテゴリ」は、単語解析部２４や映像解析部２２によって分類されたカテゴリである。「登場回数」は、単語解析部２４によって係数されたカテゴリの総登場回数であり、「登場時間」は、映像解析部２２によって係数されたカテゴリの総登場時間である。「出現率」は、出現率計算部２６によって算出されたカテゴリの出現率である。

　一例として、「１、冬、１２、１０、８０％」は、カテゴリ＝冬が楽曲中に単語として１２回登場、映像として１０分登場し、その出現率が８０％であることを示す。また、「２、クリスマス、１１、０、４０％」は、カテゴリ＝クリスマスが楽曲中に単語として１１回登場、映像としては登場せず、その出現率が４０％であることを示す。なお、図５は、カウント用ＤＢに記憶される情報の例を示す図である。

　楽曲情報ＤＢ１４ｄは、楽曲検出部２１によって検出された楽曲のカテゴリ分類結果を記憶する。例えば、楽曲情報ＤＢ１４ｄは、図６に示すように、「Ｎｏ、ファイル名、楽曲開始位置、楽曲終了位置、番組タイトル、番組放送日時、楽曲のタイトル、楽曲の演者名、楽曲の作詞家名、楽曲の作曲家名、楽曲の歌詞、カテゴリ」が記憶される。

　一例として、「１、Ａ、0:11:15、0:16:30、ＡＡＡ、2009.01.02、クリスマスの歌、アアア、アアア、アアア、あいうえお・・・、冬８０％／クリスマス４０％」について説明する。この場合、番組放送日時＝2009.01.02に放送された番組タイトル＝ＡＡＡの番組を示すファイル名＝Ａには、当該番組の0:11:15～0:16:30の間に楽曲が演奏されている。そして、この楽曲は、タイトルがクリスマスの歌であり、楽曲の演者名と楽曲の作詞家名と楽曲の作曲家とがアアアである。さらに、このクリスマスの歌は、歌詞＝あいうえお・・であり、カテゴリ冬（８０％）とクリスマス（４０％）が生成されている。

　一例として、「２、Ａ、0:32:48、0:35:11、ＡＡＡ、2009.01.02、誕生日の歌、イイイ、アイウ、アアア、かきこくけこ・・・、誕生日２５％」について説明する。この場合、番組放送日時＝2009.01.02に放送された番組タイトル＝ＡＡＡの番組を示すファイル名＝Ａには、当該番組の0:32:48～0:35:11の間に楽曲が演奏されている。そして、この楽曲は、タイトルが誕生日の歌であり、楽曲の演者名がイイイと楽曲の作詞家名がアイウと楽曲の作曲家がアアアである。さらに、この誕生日の歌は、歌詞＝かきくけこ・・であり、カテゴリ誕生日（２５％）が生成されている。なお、図６は、楽曲情報ＤＢに記憶される情報の例を示す図である。

　制御部２０は、例えば、ＯＳ（Operating　System）などの制御プログラム、各種の処理手順などを規定したプログラムおよび所要データを格納するための内部メモリを有するＣＰＵ（Central　Processing　Unit）などの電子回路である。この制御部２０は、楽曲検出部２１と映像解析部２２と文字情報抽出部２３と単語解析部２４と番組情報抽出部２５と出現率計算部２６と曲リスト表示部２７とを有する。

　楽曲検出部２１は、通信制御Ｉ／Ｆ部１１や入力部１２によって受け付けられた番組などの映像データから楽曲部分を検出する。例えば、楽曲検出部２１は、映像データから楽曲の開始位置と楽曲の終了位置とを検出し、当該映像データを示すファイル名に対応付けて楽曲情報ＤＢ１４ｄに格納する。また、楽曲検出部２１は、受信した映像データや映像データから抽出した楽曲部分を映像解析部２２、文字情報抽出部２３、番組情報抽出部２５、出現率計算部２６のそれぞれに出力する。

　映像解析部２２は、楽曲検出部２１によって抽出された楽曲部分の映像部分を抽出して解析し、映像特徴よりカテゴリ（メタ情報）を生成する。そして、映像解析部２２は、カテゴリの生成が完了すると、完了通知を出現率計算部２６に出力する。

　例えば、映像解析部２２が、ファイル名Ａの番組の楽曲部分Ｘの映像を解析して、「雪が多い」シーンを得たとする。この場合、映像解析部２２は、シーンＤＢ１４ａを参照し、「雪が多い」シーンのカテゴリとして「雪、冬、白」を取得する。続いて、映像解析部２２は、楽曲部分Ｘにおける「雪が多い」シーンの登場時間（例えば１０分）を計算する。そして、映像解析部２２は、カテゴリ「雪、冬、白」それぞれの登場時間を１０分とし、これらをカウント用ＤＢ１４ｃに格納する。

　また、映像解析部２２は、楽曲部分Ｘの映像を解析しても「イルミネーションがある」シーンを取得できない場合には、「イルミネーションがある」シーンに対応するカテゴリ「夜、クリスマス」それぞれの登場時間を０分としてカウント用ＤＢ１４ｃに格納する。

　この映像解析部２２は、楽曲部分から得られたシーン全てについて上述した処理を実行し、各カテゴリが楽曲全体で登場した総時間を計測する。つまり、映像解析部２２は、上記例に加え、楽曲部分から得られた他のシーンのカテゴリが「雪」であった場合、この他のシーンの登場時間（例えば５分）を計測する。そして、映像解析部２２は、上記例で取得した「雪、１０分」に新たに計測した「５分」を加えた「雪、１５分」をカウント用ＤＢ１４ｃに格納する。

　文字情報抽出部２３は、楽曲検出部２１によって抽出された楽曲部分の文字部分を抽出して解析し、楽曲の情報を取得する。そして、文字情報抽出部２３は、取得した楽曲の情報を、楽曲検出部２１が楽曲情報ＤＢ１４ｄに格納したファイル名、楽曲の開始位置と楽曲の終了位置とに対応付けて格納する。また、文字情報抽出部２３は、楽曲部分から抽出した文字部分を単語解析部２４に出力する。

　例えば、文字情報抽出部２３は、楽曲部分の文字部分から「楽曲のタイトル、楽曲の演者、楽曲の作詞家、楽曲の作曲家、楽曲の歌詞」を取得して、楽曲情報ＤＢ１４ｄに格納する。なお、ここで取得される情報は、楽曲情報ＤＢ１４ｄが記憶する情報に従って任意に変更できる。また、文字情報抽出部２３は、楽曲部分の文字部分から取得できなかった情報については、「無題」や「取得不可」などの情報を格納する。

　単語解析部２４は、文字情報抽出部２３によって抽出された楽曲の文字部分を単語に分解してカテゴリを生成する。そして、単語解析部２４は、カテゴリの生成が完了すると、完了通知を出現率計算部２６に出力する。例えば、単語解析部２４は、文字情報抽出部２３によって抽出された「楽曲のタイトル」と「歌詞」のそれぞれを単語に分解する。また、単語解析部２４は、得られた総単語数を出現率計算部２６に出力する。

　一例として、単語解析部２４が、ファイル名Ａの番組の楽曲部分Ｘにおける「楽曲のタイトル」と「歌詞」を解析して、単語「雪」を得たとする。この場合、単語解析部２４は、単語ＤＢ１４ｂを参照し、単語「雪」のカテゴリとして「雪、冬、白」を取得する。続いて、単語解析部２４は、楽曲部分Ｘにおける単語「雪」の登場回数（例えば５回）を計算する。そして、単語解析部２４は、カテゴリ「雪、冬、白」それぞれの登場回数を５回とし、これらをカウント用ＤＢ１４ｃに格納する。

　また、単語解析部２４は、楽曲部分Ｘの文字部分を解析しても単語「夢」を取得できない場合には、単語「夢」に対応するカテゴリそれぞれの登場時間を０分としてカウント用ＤＢ１４ｃに格納する。

　この単語解析部２４は、文字部分から得られた単語全てについて上述した処理を実行し、各カテゴリが楽曲全体で登場した総回数を計測する。つまり、単語解析部２４は、上記例に加え、文字部分から単語「サンタクロース」を得たとする。この場合、単語解析部２４は、単語ＤＢ１４ｂを参照し、単語「サンタクロース」のカテゴリとして「クリスマス、冬」を取得する。続いて、単語解析部２４は、楽曲部分Ｘにおける単語「サンタクロース」の登場回数（例えば７回）を計算する。そして、単語解析部２４は、カテゴリ「雪、冬、白」の登場回数を７回とし、これらをカウント用ＤＢ１４ｃに格納する。このとき、単語解析部２４は、上記例で取得した「冬、５回」を計測しているので、両方を加算した「冬、１２回」をカウント用ＤＢ１４ｃに格納することとなる。

　したがって、映像解析部２２と単語解析部２４との両方で取得されたカテゴリについては、登場時間と登場回数との両方がカウント用ＤＢ１４ｃに格納される。また、映像解析部２２では取得されたが単語解析部２４では取得されなかったカテゴリについては、登場回数＝０と計測された登場時間とがカウント用ＤＢ１４ｃに格納される。また、映像解析部２２では取得されなかったが単語解析部２４では取得されたカテゴリについては、登場時間＝０と計測された登場回数とがカウント用ＤＢ１４ｃに格納される。

　番組情報抽出部２５は、楽曲検出部２１から受信した映像データから番組情報を取得する。そして、番組情報抽出部２５は、番組情報の取得が完了すると、完了通知を出現率計算部２６に出力する。例えば、番組情報抽出部２５は、映像データがテレビ番組や録画番組、ＤＶＤなどの情報である場合に、映像データから「番組タイトル、放送日時」を取得する。そして、番組情報抽出部２５は、取得した「番組タイトル、放送日時」を、楽曲検出部２１が楽曲情報ＤＢ１４ｄに格納したファイル名、楽曲の開始位置と楽曲の終了位置とに対応付けて格納する。

　出現率計算部２６は、カウント用ＤＢ１４ｃに格納されたカテゴリについて、登場回数や登場時間を用いて重み付けする。例えば、出現率計算部２６は、カウント用ＤＢ１４ｃに登録されるカテゴリが検出された楽曲の演奏時間を楽曲情報ＤＢ１４ｄから算出する。具体的には、出現率計算部２６は、カテゴリ「冬」が検出された楽曲「ファイル名＝Ａ」の楽曲開始位置と楽曲終了位置とを取得して、これらによって演奏時間を算出する。また、出現率計算部２６は、カテゴリ「冬」が検出された楽曲から得られた総単語数を単語解析部２４から受信する。

　そして、出現率計算部２６は、カテゴリの「登場回数＝ｎ２」、「登場時間＝ｍ２」、カテゴリを含む楽曲の「総演奏時間＝ｎ１」、楽曲の「総単語数＝ｍ１」とした場合、「（ｍ２＋ｎ２）／（ｍ１＋ｎ１）×１００」で算出した値を重み付けとする。また、出現率計算部２６は、カウント用ＤＢ１４ｃに格納されたカテゴリについて上記演算式を計算して重みを算出する。そして、出現率計算部２６は、カテゴリと重みとを対応付けたカテゴリ情報を当該カテゴリが取得されたファイル名に対応付けて楽曲情報ＤＢ１４ｄに格納する。

　例えば、ファイル名＝Ａの楽曲から取得されたカテゴリ「冬」の「登場回数が１４」、「登場時間が１０」、カテゴリを含む楽曲の「総演奏時間＝５」、楽曲の「総単語数＝２５」であるとする。この場合、出現率計算部２６は、カテゴリ「冬」の重みとして、「（１４＋１０）／（５＋２５）×１００＝８０」を算出する。そして、出現率計算部２６は、ファイル名＝Ａのカテゴリとして「冬、８０％」を楽曲情報ＤＢ１４ｄに格納する。

　曲リスト表示部２７は、ユーザからの要求に応じて、楽曲情報ＤＢ１４ｄに記憶される情報から曲リストを生成して表示部１３に表示出力する。例えば、曲リスト表示部２７は、ユーザから曲リスト表示指示が入力部１２によって受け付けられた場合、図７に示すような曲リスト画面を表示する。図７に示す画面例は、楽曲情報ＤＢ１４ｄに記憶される楽曲のタイトルを表示する画面である。曲リスト表示部２７は、楽曲情報ＤＢ１４ｄに記憶される情報から「タイトル、楽曲の演者、番組放送日時、番組タイトル、カテゴリ」を取得し、これらに「詳細データ表示」ボタンを付加して図７の画面を生成する。なお、曲リスト表示部２７は、「楽曲を追加」や「楽曲情報の編集」ボタンを設けることで、ユーザによる編集操作を可能にする。つまり、ユーザは、「楽曲を追加」や「楽曲情報の編集」ボタンをクリックすることで、楽曲情報ＤＢ１４ｄに記憶される情報を編集することができる。

　また、曲リスト表示部２７は、ユーザによって図７の画面の「詳細データ表示」ボタンがクリックされた場合、図８に示すような楽曲の詳細情報を表示する。つまり、曲リスト表示部２７は、楽曲の詳細情報として、楽曲情報ＤＢ１４ｄに記憶される情報そのものを表示する。

　また、曲リスト表示部２７は、ユーザから曲リスト表示指示が入力部１２によって受け付けられた場合、図９に示すようなメニュー画面を表示することもできる。曲リスト表示部２７は、このメニュー画面を表示することで、ユーザが所望する情報で並び替えた画面を提供することができる。例えば、曲リスト表示部２７は、図９に示すメニュー画面の「カテゴリ別表示」がクリックされた場合、楽曲情報ＤＢ１４ｄからカテゴリを取得し、図１０に示すように、取得したカテゴリ「冬」、「別れ」それぞれについて楽曲のタイトルを表示する。

　具体的には、曲リスト表示部２７は、楽曲情報ＤＢ１４ｄからカテゴリを取得し、取得したカテゴリごとに当該カテゴリを要するタイトルを取得する。そして、曲リスト表示部２７は、取得したカテゴリごとに、取得したタイトルに対応するレコードを表示する。なお、図７は、曲リスト画面の例を示す図であり、図８は、曲リストの詳細画面の例を示す図であり、図９は、曲リストのメニュー画面の例を示す図であり、図１０は、カテゴリ別の曲リスト画面の例を示す図である。

［カテゴリ生成装置による処理の流れ］
　次に、図１１～図１３を用いて、カテゴリ生成装置による処理の流れを説明する。図１１は、実施例２に係るカテゴリ生成装置の処理の流れを示すフローチャートであり、図１２は、単語解析処理の流れを示すフローチャートであり、図１３は、映像解析処理の流れを示すフローチャートである。

（カテゴリ生成装置の処理の流れ）
　図１１に示すように、カテゴリ生成装置１０の楽曲検出部２１は、映像データを受け付けると（ステップＳ１０１肯定）、映像データから楽曲部分を抽出する（ステップＳ１０２）。

　続いて、単語解析部２４は、抽出された楽曲の文字部分について単語解析処理を実行してカテゴリを生成してカウント用ＤＢ１４ｃに格納する（ステップＳ１０３）。なお、このとき、文字情報抽出部２３は、楽曲から文字情報として「楽曲のタイトル、楽曲の演者、楽曲の作詞家、楽曲の作曲家、楽曲の歌詞」を取得して、楽曲情報ＤＢ１４ｄに格納する。

　続いて、映像解析部２２は、楽曲検出部２１によって抽出された楽曲部分の映像部分を抽出して解析し、映像特徴よりカテゴリを生成してカウント用ＤＢ１４ｃに格納する（ステップＳ１０４）。なお、このとき、番組情報抽出部２５は、楽曲から「番組タイトル、放送日時」を取得して、楽曲情報ＤＢ１４ｄに格納する。

　そして、出現率計算部２６は、カウント用ＤＢ１４ｃに格納されたカテゴリについて、登場回数や登場時間を用いて重み付けを生成し、カウント用ＤＢ１４ｃに格納する（ステップＳ１０５）。

　その後、出現率計算部２６は、カウント用ＤＢ１４ｃに格納したカテゴリごとの登場回数や登場時間、重みを楽曲情報ＤＢ１４ｄに格納する（ステップＳ１０６）。そして、出現率計算部２６は、カウント用ＤＢ１４ｃをクリアする（ステップＳ１０７）。

（単語解析処理の流れ）
　次に、図１１のステップＳ１０３で実行される単語解析処理について説明する。図１２に示すように、カテゴリ生成装置１０の単語解析部２４は、楽曲から文字情報を抽出し（ステップＳ２０１）、抽出した文字情報を単語に分解する（ステップＳ２０２）。なお、単語解析対象の文字情報が文字情報抽出部２３によって抽出されている場合には、ステップＳ２０１を実行する必要はない。

　続いて、単語解析部２４は、文字情報から得られた総単語数をカウントし（ステップＳ２０３）、得られた単語１つを取得する（ステップＳ２０４）。そして、単語解析部２４は、取得した単語が単語ＤＢ１４ｂに登録されているか否かを判定する（ステップＳ２０５）。

　そして、単語解析部２４は、取得した単語が単語ＤＢ１４ｂに登録されている場合（ステップＳ２０５肯定）、当該単語に対応付けられたカテゴリを単語ＤＢ１４ｂから取得する（ステップＳ２０６）。続いて、単語解析部２４は、取得したカテゴリがカウント用ＤＢ１４ｃに登録されているか否かを判定する（ステップＳ２０７）。

　そして、単語解析部２４は、取得したカテゴリがカウント用ＤＢ１４ｃに登録されている場合（ステップＳ２０７肯定）、当該カテゴリの登場回数をインクリメントする（ステップＳ２０８）。一方、単語解析部２４は、取得したカテゴリがカウント用ＤＢ１４ｃに登録されていない場合（ステップＳ２０７否定）、当該カテゴリのレコードをカウント用ＤＢ１４ｃに新たに生成して、登場回数をインクリメントする（ステップＳ２０９）。

　また、ステップＳ２０５において、取得した単語が単語ＤＢ１４ｂに登録されていない場合（ステップＳ２０５否定）、単語解析部２４は、ステップＳ２０５～ステップＳ２０８の処理が実行されていない単語が存在するか否かを判定する（ステップＳ２１０）。

　そして、単語解析部２４は、未処理の単語が存在する場合（ステップＳ２１０肯定）、未処理の単語を取得してステップＳ２０５以降の処理を実行する。一方、単語解析部２４は、未処理の単語が存在しない場合（ステップＳ２１０否定）、単語解析処理を終了する。

（映像解析処理の流れ）
　次に、図１１のステップＳ１０４で実行される映像解析処理について説明する。図１３に示すように、カテゴリ生成装置１０の映像解析部２２は、楽曲から映像情報を抽出し（ステップＳ３０１）、楽曲の総時間を取得する（ステップＳ３０２）。続いて、映像解析部２２は、抽出した映像情報を特徴ごと（シーンごと）に分解する（ステップＳ３０３）。

　続いて、映像解析部２２は、映像情報から得られたシーン１つを取得し（ステップＳ３０４）、当該シーンがシーンＤＢ１４ａに登録されているか否かを判定する（ステップＳ３０５）。

　そして、映像解析部２２は、取得したシーンがシーンＤＢ１４ａに登録されている場合（ステップＳ３０５肯定）、当該シーンに対応付けられたカテゴリをシーンＤＢ１４ａから取得する（ステップＳ３０６）。続いて、映像解析部２２は、取得したカテゴリがカウント用ＤＢ１４ｃに登録されているか否かを判定する（ステップＳ３０７）。

　そして、映像解析部２２は、取得したカテゴリがカウント用ＤＢ１４ｃに登録されている場合（ステップＳ３０７肯定）、当該カテゴリの登場時間を計数する（ステップＳ３０８）。一方、映像解析部２２は、取得したカテゴリがカウント用ＤＢ１４ｃに登録されていない場合（ステップＳ３０７否定）、当該カテゴリのレコードをカウント用ＤＢ１４ｃに新たに生成して、登場時間を計数する（ステップＳ３０９）。

　また、取得したシーンがシーンＤＢ１４ａに登録されていない場合（ステップＳ３０５否定）、映像解析部２２は、ステップＳ３０５～ステップＳ３０８の処理が実行されていないシーンが存在するか否かを判定する（ステップＳ３１０）。

　そして、映像解析部２２は、未処理のシーンが存在する場合（ステップＳ３１０肯定）、未処理のシーンを取得してステップＳ３０５以降の処理を実行する。一方、映像解析部２２は、未処理のシーンが存在しない場合（ステップＳ３１０否定）、映像解析処理を終了する。

［実施例２による効果］
　このように、実施例２によれば、楽曲にメタ情報が乏しい場合でも、映像情報を持っている場合は、その映像の特徴から楽曲のイメージを表すカテゴリを作成し、そのメタデータを使うことにより楽曲を分類することができる。さらに、ユーザがあらかじめメタデータを楽曲に付与するという手間を省くことができる。

　従来は、楽曲が含まれる映像を保管しても、メタデータをユーザが自力で入力した上で整理をしない限り、好きな曲を探し出してその映像を再生することが難しかった。そのため、音楽を楽しむために映像を集めて活用するということが気軽にできなかった。実施例１によれば、メタデータをユーザが入力するという手間を省くだけでなく、楽曲タイトルだけでは想像しにくかった曲の内容までわかるようなカテゴリをメタデータとして追加することができるので、分類、整理が簡単にできる。この結果、扱いにくかった映像データが、音楽を気軽に楽しめるデータとなり新しい価値を提供できる。

　さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下に異なる実施例を説明する。

（重み付け）
　例えば、単語ＤＢ１４ｂやシーンＤＢ１４ａに記憶されるカテゴリに重み付けを行ってもよい。具体的には、単語＝雪、カテゴリ１＝雪×１．２、カテゴリ２＝冬×１．０、カテゴリ３＝白×０．８とする。そうして、登場回数を計算するときに、この重みを用いる。つまり、カテゴリ雪の登場回数が１．２倍、カテゴリ白の登場回数が０．８倍として計算される。なお、上述した実施例等のカテゴリの数はあくまで例であり、これに限定されるものではない。また、実施例では楽曲の映像データの検出を自動で行ったが、手動で任意の映像データを指定してから楽曲部分を検出して追加することもできることが望ましい。

（システム）
　また、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともできる。あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、例えば文字情報抽出部２３と単語解析部２４とを統合するなど各装置の分散・統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

（プログラム）
　ところで、上記の実施例で説明した各種の処理は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータシステムで実行することによって実現することができる。そこで、以下では、上記の実施例と同様の機能を有するプログラムを実行するコンピュータシステムの一例を説明する。

　図１４は、カテゴリ生成プログラムを実行するコンピュータシステム１００を示す図である。図１４に示すように、コンピュータシステム１００は、ＲＡＭ１０１と、ＨＤＤ１０２と、ＲＯＭ１０３と、ＣＰＵ１０４とを有する。ここで、ＲＯＭ１０３には、上の実施例と同様の機能を発揮するプログラムがあらかじめ記憶されている。つまり、図１４に示すように、楽曲検出プログラム１０３ａ、映像解析プログラム１０３ｂ、文字情報抽出プログラム１０３ｃ、単語解析プログラム１０３ｄがあらかじめ記憶されている。また、ＲＯＭ１０３には、番組情報抽出プログラム１０３ｅ、出現率計算プログラム１０３ｆ、曲リスト表示プログラム１０３ｇがあらかじめ記憶されている。

　そして、ＣＰＵ１０４には、これらのプログラム１０３ａ～１０３ｇを読み出して実行することで、図１４に示すように、各プロセスとなる。つまり、楽曲検出プロセス１０４ａ、映像解析プロセス１０４ｂ、文字情報抽出プロセス１０４ｃ、単語解析プロセス１０４ｄ、番組情報抽出プロセス１０４ｅ、出現率計算プロセス１０４ｆ、曲リスト表示プロセス１０４ｇとなる。

　なお、楽曲検出プロセス１０４ａは、図２に示した楽曲検出部２１に対応し、同様に、映像解析プロセス１０４ｂは、映像解析部２２に対応する。また、文字情報抽出プロセス１０４ｃは、文字情報抽出部２３に対応し、単語解析プロセス１０４ｄは、単語解析部２４に対応する。また、番組情報抽出プロセス１０４ｅは、番組情報抽出部２５に対応し、出現率計算プロセス１０４ｆは、出現率計算部２６に対応し、曲リスト表示プロセス１０４ｇは、曲リスト表示部２７に対応する。

　また、ＨＤＤ１０２には、シーンテーブル１０２ａ、単語テーブル１０２ｂ、カウント用テーブル１０２ｃ、楽曲情報テーブル１０２ｄが設けられる。シーンテーブル１０２ａは、図２に示したシーンＤＢ１４ａに対応し、単語テーブル１０２ｂは、単語ＤＢ１４ｂに対応し、カウント用テーブル１０２ｃは、カウント用ＤＢ１４ｃに対応し、楽曲情報テーブル１０２ｄは、楽曲情報ＤＢ１４ｄに対応する。

　ところで、上記したプログラム１０３ａ～１０３ｇは、必ずしもＲＯＭ１０３に記憶させておく必要はない。例えば、コンピュータシステム１００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に記憶させておくようにしてもよい。また、コンピュータシステム１００の内外に備えられるハードディスクドライブ（ＨＤＤ）などの「固定用の物理媒体」に記憶させておいてもよい。さらに、公衆回線、インターネット、ＬＡＮ、ＷＡＮなどを介してコンピュータシステム１００に接続される「他のコンピュータシステム」に記憶させておいてもよい。そして、コンピュータシステム１００がこれらからプログラムを読み出して実行するようにしてもよい。

　すなわち、この他の実施例でいうプログラムは、上記した「可搬用の物理媒体」、「固定用の物理媒体」、「通信媒体」などの記録媒体に、コンピュータ読み取り可能に記録されるものである。そして、コンピュータシステム１００は、このような記録媒体からプログラムを読み出して実行することで上記した実施例と同様の機能を実現する。なお、この他の実施例でいうプログラムは、コンピュータシステム１００によって実行されることに限定されるものではない。例えば、他のコンピュータシステムまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。

　１０　カテゴリ生成装置
　１１　通信制御Ｉ／Ｆ部
　１２　入力部
　１３　表示部
　１４　記憶部
　１４ａ　シーンＤＢ
　１４ｂ　単語ＤＢ
　１４ｃ　カウント用ＤＢ
　１４ｄ　楽曲情報ＤＢ
　２０　制御部
　２１　楽曲検出部
　２２　映像解析部
　２３　文字情報抽出部
　２４　単語解析部
　２５　番組情報抽出部
　２６　出現率計算部
　２７　曲リスト表示部

Claims

　楽曲を受け付ける楽曲受付手順と、
　前記楽曲受付手順により受け付けられた楽曲が有する映像情報を抽出し、抽出した映像情報を特徴ごとに分解する映像分解手順と、
　前記映像分解手順により分解された映像情報それぞれについて、当該映像情報の特徴を表すカテゴリを生成するカテゴリ生成手順と
　をコンピュータに実行させるためのカテゴリ生成プログラム。
　前記カテゴリ生成手順は、前記生成したカテゴリそれぞれについて、当該カテゴリに分類された映像情報が前記楽曲で登場する登場時間を計測し、前記カテゴリと登場時間とを対応付けることを特徴とする請求項１に記載のカテゴリ生成プログラム。
　情報処理装置が、前記楽曲受付手順により受け付けられた楽曲の映像情報から文字情報を抽出する文字情報抽出手順と、
　前記文字情報抽出手順により抽出された文字情報を単語に分解する単語分解手順とを前記コンピュータにさらに実行させ、
　前記カテゴリ生成手順は、前記単語分解手順により得られた単語それぞれについて、当該単語が表すと連想できるカテゴリを生成することを特徴とする請求項１または２に記載のカテゴリ生成プログラム。
　前記カテゴリ生成手順は、前記生成したカテゴリそれぞれについて、当該カテゴリに分類された単語が前記楽曲で登場する登場回数を計測し、前記カテゴリと登場回数とを対応付けることを特徴とする請求項３に記載のカテゴリ生成プログラム。
　前記カテゴリ生成手順は、前記生成したカテゴリそれぞれと前記登場時間と前記登場回数とを対応付けることを特徴とする請求項１～４のいずれか一つに記載のカテゴリ生成プログラム。
　前記カテゴリ生成手順は、前記生成したカテゴリそれぞれについて、前記登場時間と前記登場回数とを加算した値を、前記文字情報に含まれる総単語数と前記楽曲の総時間とを加算した値で除算した出現率を算出し、前記カテゴリと出現率とを対応付けることを特徴とする請求項１に記載のカテゴリ生成プログラム。
　楽曲を受け付ける楽曲受付部と、
　前記楽曲受付部により受け付けられた楽曲が有する映像情報を抽出し、抽出した映像情報を特徴ごとに分解する映像分解部と、
　前記映像分解部により分解された映像情報それぞれについて、当該映像情報の特徴を表すカテゴリを生成するカテゴリ生成部と
　を有することを特徴とするカテゴリ生成装置。
　情報処理装置により実行される方法において、
　楽曲を受け付ける楽曲受付ステップと、
　前記楽曲受付ステップにより受け付けられた楽曲が有する映像情報を抽出し、抽出した映像情報を特徴ごとに分解する映像分解ステップと、
　前記映像分解ステップにより分解された映像情報それぞれについて、当該映像情報の特徴を表すカテゴリを生成するカテゴリ生成ステップと
　を含んだことを特徴とするカテゴリ生成方法。