JPWO2007066450A1

JPWO2007066450A1 - 楽曲における区画を抽出する区画自動抽出システム、区画自動抽出方法および区画自動抽出プログラム

Info

Publication number: JPWO2007066450A1
Application number: JP2007549033A
Authority: JP
Inventors: 山田　昭雄; 昭雄山田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2005-12-08
Filing date: 2006-10-06
Publication date: 2009-05-14
Anticipated expiration: 2026-10-06
Also published as: JP5145939B2; WO2007066450A1; US20090132074A1

Abstract

一般ユーザに広く認知されている可能性が高いと推定される部位を楽曲中に表れる回数とは無関係に自動的に抽出し、抽出した楽曲における印象的な区画を楽曲のメタデータとして種々のアプリケーションに提供可能な区画自動抽出システム、区画自動抽出方法および区画自動抽出プログラムを提供する。第１の音響署名生成部１０１は、コンテンツ群の各コンテンツの音響信号の特徴量を示す音響署名を生成する。重要区画抽出部１０２は、音響署名生成部１０１によって生成された全ての音響署名を対象に検索した頻出する特徴量を示す音響区画署名を生成する。第２の音響署名生成部１１１は、楽曲信号から音響署名を生成する。共通区画抽出部１１２は、各音響区画署名が、楽曲信号の音響署名の一部に合致するか否かを判断し、合致した楽曲信号の音響署名を特定可能な時間情報を出力する。

Description

本発明は、楽曲における印象的な区画を自動抽出する区画自動抽出システム、区画自動抽出方法および区画自動抽出プログラムに関する。

楽曲の音響データから特徴的な区画を抽出する区画抽出システムの一例が、特許文献１に記載されている。

図１は、従来の区画抽出システムの構成例を示すブロック図である。図１に示すように、従来の区画抽出システムは、小フレーム分割手段５０１と、フレーム特徴量抽出手段５０２と、フレーム特徴量比較手段５０３と、共通区画抽出手段５０４と、後処理手段５０５とを備える。

このような構成を有する従来の区画抽出システムは、次のように動作する。

小フレーム分割手段５０１は、入力された音響信号を、複数のフレームに分割する。なお、フレームは、音響データを微小時間間隔で区切ることによって生成される各要素である。

次に、フレーム特徴量抽出手段５０２は、フレーム毎に、音響信号を特徴付ける１２次元ベクトルを生成する。フレーム特徴量比較手段５０３は、楽曲を構成する全フレームの１２次元ベクトルをそれぞれ比較することによって、フレーム間における類似度を算出する。フレーム特徴量比較手段５０３は、得られた類似度を閾値に基づいて処理することで、複数の同一または同一に近いフレームのペアを示したリストを生成する。

共通区画抽出手段５０４は、同一フレームが同じ順序で出現する区画を抜き出すことによって、その楽曲で繰り返し現れるフレーズを抽出することができる。

最後に、後処理手段５０５は、繰り返し現れるフレーズの中から、仮定された「さび」定義に該当する部分を選び出し、その部分を、楽曲における特徴的な区画として、自動抽出する。

特許文献２には、ＢＧＭ（ＢａｃｋｇｒｏｕｎｄＭｕｓｉｃ）が流れることが多い、テレビジョン番組内で盛り上がるシーンおよび重要なシーンを容易に検索でき、そのシーンからの頭出し再生が可能な録画装置の例が記載されている。

特許文献３には、時間的に連続する検索キーによる音声音楽信号の検索において、非定常な雑音を含む音声音楽信号を精度よく、高速に検索できる、前後の検索結果利用型類似音楽検索装置の例が記載されている。

特許文献４および５には、時間情報とともに記憶された特徴量列の間で共通する部分を、部分対部分で比較することにより探す技術の例が記載されている。
特開２００４−２３３９６５号公報（段落００３８−００４５）特開２００４−１４０６７５号公報（段落００１０−００１２）特開２００４−３３３６０５号公報（段落００２２−００２８）特許第３４５１９８５号公報（段落００２０−００２３）特開２００３−１９６６５８号公報（段落００２８−００３０）

既存の区画抽出方式は、必ずしも一般的なユーザにとって印象的な区画を自動抽出することができないという問題点を有する。

特許文献１に記載された方式では、楽曲内でのメロディの周期性に着目して、繰り返されるメロディを自動的に抜き出すことによって、「特徴的な区画（さびと称する）」が抽出される。

しかしながら、あくまで頻繁に繰り返される部分が選ばれるため、その区画は必ずしもユーザが認知している特徴的な区画とは限らない。

たとえ、あるショートフレーズが楽曲中で１度しか流れなくても、ユーザがそのシュートフレーズを積極的にまたは受動的に何度か聞いた経験があるならば、そのショートフレーズこそ特徴的な区画として定義することが望ましい。

あるいは、ユーザが、あるショートフレーズを一度しか聞いたことがなくても、ユーザがそのシュートフレーズを聴取した時に、例えばそれと関連づけられた映像など他のメディアにおいて強い印象を受けたことがあるならば、そのシュートフレーズこそ特徴的な区画として定義することが望ましい。

特許文献２に記載された録画装置は、テレビジョン番組の音声信号をチェックしてＢＧＭの開始部分およびＢＧＭの切り替わった部分を検出し、検出箇所のサムネイル画像を生成する。

しかし、生成されるサムネイル画像は、単にＢＧＭの開始部分およびＢＧＭの切り替わった部分に過ぎない。そのような検索処理に関わる技術にもとづいて、楽曲における区画を抽出するための構成が想起されることは不可能である。

また、特許文献３に記載された類似音楽検索装置は、音声音楽信号から逐次的に切り出した各信号部分のような時間的に連続する複数の信号の特徴量を検索キーとする場合に、検索キーに類似する部分を高速に検索する。そのため、ユーザが認知している特徴的な区画が検索されるとは限らない。

そこで、本発明は、一般ユーザに広く認知されている可能性が高いと推定される部位を楽曲中に表れる回数とは無関係に自動的に抽出し、抽出した部位を楽曲における印象的な区画として種々のアプリケーションに提供可能な区画自動抽出システム、区画自動抽出方法および区画自動抽出プログラムを提供することを目的とする。

本発明による区画自動抽出システムは、楽曲の印象的な区画を示す情報を自動抽出する区画自動抽出システムであって、音響信号を含む一つ以上のコンテンツ情報中に繰り返し出現する前記音響信号の一部を含む区画を、頻出区画として特定し、前記頻出区画を抽出する頻出区画抽出部と、音響信号を含む楽曲信号中に、前記頻出区画抽出部が抽出した頻出区画が存在するか否かを判断する共通区画判断部と、前記共通区画判断部が、前記頻出区画は前記楽音信号中に存在する、と判断した場合に、前記頻出区画に対応する前記楽曲信号の区画を特定可能な情報を出力する共通区画出力部と、を備える。

前記頻出区画抽出部は、あらかじめ定められた条件で区切られたコンテンツ情報中の音響信号の各区画を識別可能な音響区画識別情報を生成し、前記頻出区画を特定する音響区画識別情報を、頻出区画識別情報として抽出し、前記共通区画判断部は、あらかじめ定められた条件で区切られた楽曲信号の各区画を識別可能な楽曲区画識別情報を生成し、前記頻出区画識別情報と前記楽曲区画識別情報とを比較し、前記共通区画出力部は、前記頻出区画識別情報が前記楽曲区画識別情報のいずれかに合致する場合に、合致した前記楽曲区画識別情報を示す情報を出力してもよい。

そのような構成によれば、コンテンツおよび楽曲信号を区切るための所定の条件に応じた印象的な区画を自動抽出することができる。

前記音響区画識別情報および前記楽曲区画識別情報は、特徴量を含む情報であって、前記頻出区画抽出部は、各音響区画識別情報に含まれる特徴量をそれぞれ比較することによって、前記頻出区画を特定し、前記共通区画判断部は、前記頻出区画識別情報に含まれる特徴量と、各楽曲区画識別情報に含まれる各特徴量と、を比較し、前記共通区画出力部は、前記頻出区画識別情報に含まれる特徴量が、前記各楽曲区画識別情報に含まれる各特徴量のいずれかに合致する場合に、合致した前記楽曲区画識別情報を示す情報を出力してもよい。

そのような構成によれば、特徴量を比較して印象的な区画を自動抽出することができる。

前記頻出区画抽出部によって抽出された頻出区画識別情報に基づいて、前記楽曲区画識別情報に含まれる特徴量と同じ種類の特徴量を含む第２の頻出区画識別情報を生成する第２の抽出部が、さらに含まれ、前記共通区画判断部は、前記頻出区画抽出部によって抽出された頻出区画識別情報に含まれる特徴量と異なる種類の特徴量を含む前記楽曲区画識別情報を生成し、前記第２の頻出区画識別情報に含まれる特徴量と、前記楽曲区画識別情報に含まれる各特徴量と、を比較してもよい。

そのような構成によれば、処理件数の多い頻出区画抽出にかかる処理を簡便にし、一方特徴量を比較する処理を精緻に行うことで処理精度を維持することができる。

前記頻出区画抽出部は、入力された重み付け情報に応じて前記頻出区画を抽出してもよい。

そのような構成によれば、重み付け情報に応じて印象的な区画を自動抽出することができる。

前記頻出区画抽出部は、前記コンテンツ情報の音響信号の帯域を制限する第１のフィルタリング部を備え、前記共通区画判断部は、前記楽曲信号の音響信号の帯域を制限する第２のフィルタリング部を備えてもよい。

そのような構成によれば、コンテンツ情報または楽曲信号に雑音が混在している場合であっても、正しく印象的な区画を自動抽出することができる。

前記頻出区画抽出部は、複数のコンテンツ情報をあらかじめ定められた基準で抽出する部分集合生成部を備えてもよい。

そのような構成によれば、特定のコンテンツを対象として印象的な区画を自動抽出することができる。

前記コンテンツ情報はテレビジョン番組であって、前記部分集合生成部は、同一シリーズに属するテレビジョン番組を抽出してもよい。

そのような構成によれば、同一シリーズに属するテレビジョン番組を対象として印象的な区画を自動抽出することができる。

本発明による区画自動抽出方法は、楽曲の印象的な区画を示す情報を自動抽出する区画自動抽出システムが行う区画自動抽出方法であって、音響信号を含む一つ以上のコンテンツ情報中に繰り返し出現する音響信号の一部を含む区画を、頻出区画として特定し、前記頻出区画を抽出する頻出区画抽出ステップと、音響信号を含む楽曲信号中に、前記頻出区画抽出ステップにおいて抽出した頻出区画が存在するか否かを判断する共通区画判断ステップと、前記共通区画判断ステップにおいて前記頻出区画は前記楽音信号中に存在すると判断した場合に、前記頻出区画に対応する前記楽曲信号の部分を特定可能な情報を出力する共通区画出力ステップと、を含む。

前記頻出区画抽出ステップでは、あらかじめ定められた条件で区切られたコンテンツ情報中の音響信号の各区画を識別可能な音響区画識別情報を生成し、前記頻出区画を特定する音響区画識別情報を、頻出区画識別情報として抽出し、前記共通区画判断ステップでは、あらかじめ定められた条件で区切られた楽曲信号の各区画を識別可能な楽曲区画識別情報を生成し、前記頻出区画識別情報と前記楽曲区画識別情報とを比較し、前記共通区画出力ステップでは、前記頻出区画識別情報が前記楽曲区画識別情報のいずれかに合致する場合に、合致した前記楽曲区画識別情報を示す情報を出力してもよい。

前記音響区画識別情報および前記楽曲区画識別情報は、特徴量を含む情報であって、前記頻出区画抽出ステップでは、各音響区画識別情報に含まれる特徴量をそれぞれ比較することによって頻出区画を特定し、前記共通区画判断ステップでは、前記頻出区画識別情報に含まれる特徴量と、各楽曲区画識別情報に含まれる各特徴量と、を比較し、前記共通区画出力ステップでは、前記頻出区画識別情報に含まれる特徴量が、前記各楽曲区画識別情報に含まれる各特徴量のいずれかに合致する場合に、合致した前記楽曲区画識別情報を示す情報を出力してもよい。

前記頻出区画抽出ステップで抽出された頻出区画識別情報に基づいて、前記楽曲区画識別情報に含まれる特徴量と同じ種類の特徴量を含む第２の頻出区画識別情報を生成する第２の頻出区画抽出ステップが、さらに含まれ、前記共通区画判断ステップでは、前記頻出区画抽出ステップで抽出された頻出区画識別情報に含まれる特徴量と異なる種類の特徴量を含む前記楽曲区画識別情報を生成し、前記第２の頻出区画識別情報に含まれる特徴量と、前記楽曲区画識別情報に含まれる各特徴量と、を比較してもよい。

前記頻出区画抽出ステップでは、入力された重み付け情報に応じて前記頻出区画を抽出してもよい。

前記コンテンツ情報の音響信号の帯域を制限する第１のフィルタリングステップと、前記楽音信号の音響信号の帯域を制限する第２のフィルタリングステップと、がさらに含まれ、前記頻出区画抽出ステップでは、前記第１のフィルタリングステップで音響信号の帯域が制限されたコンテンツ情報中に繰り返し出現する音響信号の一部を含む区画を、前記頻出区画として特定し、前記頻出区画を抽出し、前記共通区画判断ステップでは、前記第２のフィルタリングステップで音響信号の帯域が制限された楽音信号中に、前記頻出区画抽出ステップにおいて抽出した頻出区画が存在するか否かを判断してもよい。

そのような構成によれば、コンテンツ情報や楽曲信号に雑音が混在している場合であっても、正しく印象的な区画を自動抽出することができる。

複数のコンテンツ情報をあらかじめ定められた基準で抽出する部分集合生成ステップがさらに含まれ、前記頻出区画抽出ステップでは、前記部分集合生成ステップで抽出された複数のコンテンツ情報中に繰り返し出現する音響信号の一部を含む区画を、前記頻出区画として特定し、前記頻出区画を抽出してもよい。

前記コンテンツ情報は、テレビジョン番組であって、前記部分集合生成ステップでは、同一シリーズに属するテレビジョン番組を抽出してもよい。

本発明による区画自動抽出プログラムは、楽曲の印象的な区画を示す情報を自動抽出する処理をコンピュータに実行させる区画自動抽出プログラムであって、前記コンピュータに、音響信号を含む一つ以上のコンテンツ情報中に繰り返し出現する音響信号の一部の区画を、頻出区画として特定し、前記頻出区画を抽出する頻出区画抽出処理と、音響信号を含む楽曲信号中に、前記頻出区画抽出処理で抽出した頻出区画が存在するか否かを判断する共通区画判断処理と、前記共通区画判断処理において前記頻出区画は前記楽音信号中に存在すると判断した場合に、前記頻出区画に対応する前記楽曲信号の部分を特定可能な情報を出力する共通区画出力処理と、を実行させる。

前記頻出区画抽出処理では、あらかじめ定められた条件で区切られたコンテンツ情報中の音響信号の各区画を識別可能な音響区画識別情報を生成し、前記頻出区画を特定する音響区画識別情報を、頻出区画識別情報として抽出し、前記共通区画判断処理では、あらかじめ定められた条件で区切られた楽曲信号の各区画を識別可能な楽曲区画識別情報を生成し、前記頻出区画識別情報と前記楽曲区画識別情報とを比較し、前記共通区画出力処理では、前記頻出区画識別情報が前記楽曲区画識別情報のいずれかに合致する場合に、合致した前記楽曲区画識別情報を示す情報を出力してもよい。

前記音響区画識別情報および前記楽曲区画識別情報は、特徴量を含む情報であって、前記頻出区画抽出処理では、各音響区画識別情報に含まれる特徴量をそれぞれ比較することによって頻出区画を特定し、前記共通区画判断処理では、前記頻出区画識別情報に含まれる特徴量と、各楽曲区画識別情報に含まれる各特徴量と、を比較し、前記共通区画出力処理では、前記頻出区画識別情報に含まれる特徴量が、前記楽曲区画識別情報に含まれる各特徴量のいずれかに合致する場合に、合致した前記楽曲区画識別情報を示す情報を出力してもよい。

前記頻出区画抽出処理で抽出された頻出区画識別情報に基づいて、前記楽曲区画識別情報に含まれる特徴量と同じ種類の特徴量を含む第２の頻出区画識別情報を生成する第２の頻出区画抽出処理を、さらに前記コンピュータに実行させ、前記共通区画判断処理では、前記頻出区画抽出処理で抽出された頻出区画識別情報に含まれる特徴量と異なる種類の特徴量を含む楽曲区画識別情報を生成し、前記第２の頻出区画識別情報に含まれる特徴量と、前記楽曲区画識別情報に含まれる各特徴量と、を比較してもよい。

前記頻出区画抽出処理では、入力された重み付け情報に応じて前記頻出区画を抽出してもよい。

前記コンテンツ情報の音響信号の帯域を制限する第１のフィルタリング処理と、前記楽音信号の音響信号の帯域を制限する第２のフィルタリング処理と、をさらに前記コンピュータに実行させ、前記頻出区画抽出処理では、前記第１のフィルタリング処理で音響信号の帯域が制限されたコンテンツ情報中に繰り返し出現する音響信号の一部を含む区画を、前記頻出区画として特定し、前記頻出区画を抽出し、前記共通区画判断処理では、前記第２のフィルタリング処理で音響信号の帯域が制限された楽音信号中に、前記頻出区画抽出ステップにおいて抽出した頻出区画が存在するか否かを判断してもよい。

複数のコンテンツ情報をあらかじめ定められた基準で抽出する部分集合生成処理を、さらに前記コンピュータに実行させ、前記頻出区画抽出処理では、前記部分集合生成処理で抽出された複数のコンテンツ情報中に繰り返し出現する音響信号の一部を含む区画を、前記頻出区画として特定し、前記頻出区画を抽出してもよい。

前記コンテンツ情報は、テレビジョン番組であって、前記部分集合生成処理では、同一シリーズに属するテレビジョン番組を抽出してもよい。

本発明による区画自動抽出システムの好ましい一態様は、例えば、楽曲を内部で利用しているコンテンツ群から、ユーザに頻繁に露出されている楽曲区画を調査してその部分を識別するための区画署名特徴量を生成する手段と、解析対象である楽曲の部分区画を識別するための署名特徴量を生成する手段と、二つの署名特徴量の比較により共通する部分を特定する共通区画抽出手段を備える。

このような構成を採用することで、ある楽曲において、種々のメディアを通して頻繁に視聴者に提示されている部分を自動的に一意に特定することができ、本発明の目的を達成することができる。

本発明によれば、楽曲中に表れる回数とは無関係に、一般ユーザに広く認知されている可能性が高いと推定される部位を自動的に抽出し、それを楽曲における印象的な区画として種々のアプリケーションに提供することができるという効果がある。すなわち、テレビジョン番組等のコンテンツを用いて、音楽コンテンツの分析をすることができるという効果がある。

従来の区画抽出システムの構成例を示すブロック図である。図２は本発明による区画自動抽出システムの第１の実施の形態を示すブロック図である。図３は本発明による区画自動抽出システムの第２の実施の形態を示すブロック図である。図４は本発明による区画自動抽出システムの第３の実施の形態を示すブロック図である。図５は本発明による区画自動抽出システムの第４の実施の形態を示すブロック図である。

符号の説明

１００、２００区画情報生成部
１０１音響署名生成部
１０２重要区画抽出部
１１１、２１１音響署名生成部
１１２共通区画抽出部
２０１音響区画署名生成部

実施の形態１．
以下、本発明の第１の実施の形態を図面を参照して説明する。図２は、本発明による区画自動抽出システムの第１の実施の形態を示すブロック図である。図２に示す区画自動抽出システムは、楽曲における印象的な区画情報を生成する区画情報生成部１００を備える。

区画情報生成部１００は、第１の音響署名生成部１０１と、重要区画抽出部１０２と、第２の音響署名生成部１１１と、共通区画抽出部１１２とを含む。なお、第１の音響署名生成部１０１と重要区画抽出部１０２が、頻出区画抽出部を構成し、第２の音響署名生成部１１１と共通区画抽出部１１２が、共通区画判断部を構成し、共通区画抽出部１１２が共通区画出力部を構成する。

区画情報生成部１００は、楽曲信号と、楽曲を内部で利用しているコンテンツ群と、に基づいて、楽曲における印象的な区画を示す区画情報を生成する。

印象的な区画は、一般に広く認知されている部分、例えばコンテンツ群においてよく現れるフレーズ（例えば、メロディの一節）である。

なお、以下の説明では、楽曲の一部または全体についての音響信号を楽曲信号と表記する。

楽曲信号は、一般の楽曲についての音響信号であって、例えば、データベース（図示せず。）の該当領域に記憶される。

コンテンツ群は、楽曲信号を含むコンテンツの集合であって、例えば、テレビジョン番組に代表される音声付映像コンテンツ、または、ウェブ（Ｗｅｂ）ページまたはブログ（Ｂｌｏｇ）などの、背景音楽が重畳されたインターネットリソースなどである。

コンテンツ群は、例えば、区画自動抽出システムの管理者等によってあらかじめ無作為に、または、楽曲信号に応じて選択される。選択されたコンテンツ群は、通信ネットワークを介して、区画自動抽出システムにダウンロードされる。

第１の音響署名生成部１０１は、コンテンツ群が入力されると、すべてのコンテンツについて、音響トラック（音響信号）を識別するためのメタデータである音響署名を生成する。

音響署名は、時間情報とその時間における音楽特徴量とのペアを時系列に並べた集合からなる。換言すると、音楽署名は、あらかじめ定められた条件で区切られたコンテンツ情報中の音響信号の各区画を識別するための音響区画識別情報である。

音響署名については、オーディオシグナチャー（ＡｕｄｉｏＳｉｇｎａｔｕｒｅ）として、様々な特徴量表現形態が開発されている。

例えば、アイ・エス・オー（ＩＳＯ）とアイ・イー・シー（ＩＥＣ）の共同国際標準でＭＰＥＧ−７オーディオとして知られる規格（ＩＳＯ／ＩＥＣ１５９３８−４）の６．２章に、音響署名の最良の実装例が示されている。すなわち、音響署名は、コンテンツ毎に、音楽特徴量が時間情報とともに時系列的に順次格納された情報である。

重要区画抽出部１０２は、音響署名生成部１０１によって生成された複数の音響署名に基づいて、一つまたは複数のコンテンツの中で頻出する音響信号の一部分（以下「音響信号部分」と称する。）を探し出す。重要区画抽出部１０２は、その音響信号部分を、音響区画署名として出力する。音響区画署名は、頻出区画識別情報の一例であり、広く認知されているフレーズを示す。

重要区画抽出部１０２は、ある一つのコンテンツの音響署名中に繰り返し現れる音楽特徴量を検索するだけでなく、複数のコンテンツに共通して含まれる音楽特徴量を検索する。

そのため、重要区画抽出部１０２は、一つのコンテンツ中には一度しか現れないが、いろいろなコンテンツに共通して現れるフレーズを、広く認知されているフレーズつまり音響区画署名として抽出することができる。

重要区画抽出部１０２は、音響署名のような時間情報つき特徴量列の間で共通する部分を、部分対部分比較（部分同士の比較）を行って探す技術として、例えば特許文献４または特許文献５などに公開されている技術、あるいは、前述した国際標準規格（ＩＳＯ／ＩＥＣ１５９３８−４）等において提示されている技術などを利用する。

重要区画抽出部１０２は、コンテンツ群の中で頻出する音響信号部分を識別するための時間情報と、頻出する音響信号部分の音楽特徴量と、を含む音響区画署名を生成する。すなわち、音響区画署名は、コンテンツ群の中で頻出する音響信号部分（例えばフレーズ）が属する区画に対応する音響署名である。

重要区画抽出部１０２は、入力される複数の音響署名を対象に上記の処理を行うことによって、入力されたコンテンツ群において繰り返されている音響信号部分群を特定するための複数の音響区画署名を生成する。

重要区画抽出部１０２は、生成された音響区画署名に、重要度を付与する。

重要度のもっとも簡単な例は、繰り返し回数である。

なお、重要度は、繰り返し回数に限らず適宜変更可能である。

例えば、重要区画抽出部１０２は、単純に繰り返し回数をカウントする代わりに、外部からコンテンツに関する重み情報を入力し、繰り返される区画ごとに、その区画に対応する重み情報を加算していき、その加算された重み情報の合計を、その区画の重要度としてもよい。

重み情報とは、時間ごとの視聴率などの客観指標値、または、コンテンツの部位ごとにあらかじめ設定された指標値などである。重み情報は、例えば、導入部は低く、コマーシャル挿入前およびエンディング付近など制作者が盛り上がりを設定する部位は高く設定された指標値などの人為的なパタンをさす。

なお、以下の説明において、重要区画抽出部１０２によって生成された複数の音響区画署名を音響区画署名群と表記する場合がある。

一方、もうひとつの入力である楽曲信号は、第２の音響署名生成部１１１に入力される。

第２の音響署名生成部１１１は、入力された楽曲信号から、音響署名生成部１０１で用いられたものと同じ種類の音楽特徴量を含む音響署名を生成する。すなわち、第２の音響署名生成部１１１は、入力された楽曲信号を識別するためのメタデータである音響署名を生成する。

音響署名は、あらかじめ定められた条件で区切られた楽曲信号の各区画を識別するための楽曲区画識別情報の一例である。

第２の音響署名生成部１１１によって生成された楽曲信号の音響署名と、重要区画抽出部１０２によって生成された音響区画署名群とは、共に共通区画抽出部１１２に入力される。

共通区画抽出部１１２は、音響区画署名群に含まれる各音響区画署名に相当する、楽曲信号の音響署名の一部の区画を特定し、その特定された区画の時間情報（区画情報）を出力する。

すなわち、共通区画抽出部１１２は、各音響区画署名に含まれる音楽特徴量と、楽曲信号の音響署名に含まれる音楽特徴量と、を比較する。共通区画抽出部１１２は、音楽特徴量において、音響区画署名が楽曲信号の音響署名の一部分と合致する場合に、合致した部分の楽曲信号を特定可能な時間情報を出力する。

なお、以下の説明では、合致した部分の楽曲信号を、共通区画と表記する場合がある。

共通区画抽出部１１２は、音響区画署名と、楽曲について生成された楽曲信号の音響署名と、の比較である、部分対全体比較を行うことによって、共通区画の有無を判断する。共通区画抽出部１１２は、共通区画があると、その共通区画を特定可能な時間情報を出力する。部分対全体比較は、技術的には先に説明した部分対部分比較と全く等価である。

共通区画抽出部１１２は、全ての音響区画署名と楽曲信号の音響署名とが合致しない場合には、共通区画の時間情報を出力しない。

共通区画の時間情報が出力されない場合には、入力された楽曲信号は、入力されたコンテンツ群において頻繁に利用されている部分を有していないということとなり、その楽曲信号には、印象的な区画は存在しないことになる。

なお、区画自動抽出システムは、コンピュータで実現可能である。区画自動抽出システムを構成する各構成要素、すなわち、区画情報生成部１００、第１の音響署名生成部１０１、重要区画抽出部１０２、第２の音響署名生成部１１１および共通区画抽出部１１２は、コンピュータの処理装置（ＣＰＵ）に上述した機能を実現させるためのプログラムによって実現可能である。

このプログラムは、例えば、コンピュータによって読み取り可能な記録媒体（メモリ等）に記録される。この場合、コンピュータの処理装置（ＣＰＵ）が、その記録媒体から、そのプログラムを読み取り、その読み取られたプログラムを実行する。

区画自動抽出システムを構成する各構成要素が、コンピュータで実現可能であること、プログラムによって実現可能であること、および、プログラムが記録媒体に記録されていることは、第１の実施の形態に限らず、以下の各実施の形態でも同様である。

以上に説明したように、第１の実施の形態によれば、楽曲内部の構造にかかわらずユーザが何度も耳にする特定フレーズを楽曲における印象的な区画として選ぶことができるという効果がある。
実施の形態２．
次に、本発明の第２の実施の形態を図面を参照して説明する。図３は、本発明による区画自動抽出システムの第２の実施の形態を示すブロック図である。図３に示す区画自動抽出システムは、楽曲における印象的な区画情報を生成する区画情報生成部２００を備える。

区画情報生成部２００は、第１の実施の形態の構成要素に加えて、音響区画署名生成部２０１を備えるとともに、第２の音響署名生成部１１１に代えて第２の音響署名生成部２１１を備える。

区画情報生成部２００は、楽曲信号と、楽曲を内部で利用しているコンテンツ群と、に基づいて、楽曲における印象的な区画を示す区画情報を生成する。なお、第１の実施の形態における音響署名生成部１０１、重要区画抽出部１０２および共通区画抽出部１１２と同様の構成部については、図２で示したものと同一の符号を付し、説明を省略する。

コンテンツ群が区画情報生成部２００に入力されると、第１の実施の形態と同様に、音響署名生成部１０１および重要区画抽出部１０２によって、音響区画署名群が生成される。

以下の説明では、重要区画抽出部１０２によって生成された音響区画署名を第１の音響区画署名と表記し、複数の第１の音響区画署名を第１の音響区画署名群と表記する。

第２の実施の形態において、重要区画抽出部１０２は、音響署名同士を簡便に比較することにより、高速に処理を行う。

音響区画署名生成部２０１は、第１の音響区画署名群から、音響署名生成部１０１が生成したものとは異なる種類の音楽特徴量を含む第２の音響区画署名群を生成する。

異なる種類の音楽特徴量は、例えば、第１の音響区画署名に含まれる音楽特徴量のパラメータを変更したもの、その音楽特徴量の一部のみを抜き出したもの、あるいは、その音楽特徴量に別の音楽特徴量を加えたものである。

音響区画署名生成部２０１は、第１の音響区画署名群を変換して、第２の音響区画署名群を生成してもよい。

また、音響区画署名生成部２０１は、第１の音響区画署名群を直接変換する代わりに、時間情報のみを重要区画抽出部１０２から受け取り、音楽特徴量を、入力されたコンテンツ群から直接生成しても構わない。

音響署名生成部２１１は、入力された楽曲信号から、音響区画署名生成部２０１が生成したものと同じ種類の音楽特徴量を含む音響署名を生成する。

音響署名生成部２１１によって生成された音響署名と、音響区画署名生成部２０１によって生成された第２の音響区画署名群とは、共に共通区画抽出部１１２に入力される。

共通区画抽出部１１２の動作は、第１の実施の形態と同様であって、音響区画署名生成部２０１および音響署名生成部２１１の出力から、楽曲における印象的な区画を示す共通区画を特定し、その共通区画を特定可能な時間情報（区画情報）を生成する。

なお、第２の実施の形態において、共通区画抽出部１１２は、第２の音響区画署名群と楽曲信号の音響署名とを精緻に比較することによって、共通区画を特定可能な時間情報を出力する。

以上に説明したように、第２の実施の形態によれば、第１の実施の形態による効果に加えて、繰り返し処理が非常に多いコンテンツ群内部での第１の音響署名比較処理では、簡便な音響署名比較を行って高速性を実現し、同時に、繰り返し数が格段に減る第２の音響区画署名群と音響署名との比較では、精緻な処理を実現することができる。
実施の形態３．
次に、本発明の第３の実施の形態を図面を参照して説明する。図４は、本発明による区画自動抽出システムの第３の実施の形態を示すブロック図である。図４に示す区画自動抽出システムは、区画情報生成部１００と、入力信号の加工を行う第１のフィルタリング部３０１と、第２のフィルタリング部３０２とを備える。

なお、図４には、区画情報生成部として、第１の実施の形態における区画情報生成部１００を例示したが、第２の実施の形態の区画情報生成部２００が用いられてもよい。

第１のフィルタリング部３０１は、コンテンツ群内の楽音信号に重畳される発話内容および各種特殊効果を少なくするために、コンテンツ群内の楽音信号から特定帯域の信号をカットする機能を有する。特に、発話音声の帯域の信号のみを阻止する帯域阻止フィルタが、第１のフィルタリング部３０１の典型的な実施例である。

第２のフィルタリング部３０２は、楽曲信号から特定帯域の信号をカットする機能を有する。

第２のフィルタリング部３０２は、共通区画抽出部１１２の誤動作を防ぐために、第１のフィルタリング部３０１と同じ周波数特性を持つとともに、楽音信号を含むコンテンツ群の記録時に生じる楽音信号の低域ないし高域の一部阻止または抑制と同様の帯域カット特性を有してもよい。

この場合、コンテンツ群に含まれる楽音信号の低域ないし高域の一部が、コンテンツ群の記録時にカットされていても、音響署名生成部１１１に入力される楽音信号の帯域を、コンテンツ群に含まれる楽音信号の帯域に合わせることが可能となる。よって、共通区画抽出部１１２の誤動作を防ぐことが可能になる。

第３の実施の形態によれば、第１および第２の実施の形態による効果に加えて、コンテンツが、音楽だけが静かに流れる場面ばかりでない場合においても、楽曲における印象的な区画情報の生成を高い確率で実現することができる。
実施の形態４．
次に、本発明の第４の実施の形態を図面を参照して説明する。図５は、本発明による区画自動抽出システムの第４の実施の形態を示すブロック図である。図５に示す区画自動抽出システムは、区画情報生成部１００と、入力されたコンテンツ群の加工を行うサブセット生成部４０１とを備える。

なお、図５には、区画情報生成部として、第１の実施の形態における区画情報生成部１００を例示したが、第２の実施の形態の区画情報生成部２００が用いられてもよい。

また、第４に実施の形態に、図４に示した第１のフィルタリング部３０１および第２のフィルタリング部３０２が追加されてもよい。

サブセット生成部４０１は、入力されたコンテンツ群の部分集合（サブセット）を生成する。例えば、サブセット生成部４０１は、複数のコンテンツ情報をあらかじめ定められた基準にしたがって抽出する。

部分集合は、例えば、同一シリーズに属するテレビジョン番組についてのコンテンツのみを集めたもの、視聴者層がほぼ重なるコンテンツのみを集めたもの、特定事象に関連したコンテンツのみを集めたものである。

同一シリーズのテレビジョン番組は、連続性を持つ一連のテレビジョン番組であって、例えば、主人公および主題の共通な２編以上の映画またはドラマ、あるいは、ある期間連続的に行われるスポーツの試合などである。

視聴者は、種々のコンテンツ群全体から強い印象を受ける場合もあるが、一般に視聴者が受ける印象は、特定のコンテンツグループと強く結びついている場合が多い。

第４の実施の形態によれば、第１、第２および第３の実施の形態による効果に加えて、例えば、特定のドラマ番組において主題歌として使われている楽曲の、そのドラマ内で繰り返し使われた部位を適切に抽出することができる。

なお、上記の各実施の形態では、音響信号の特徴量を示す情報として音楽署名を例示しているが、楽曲がプロモーション用のミュージッククリップなどの映像つき楽曲である場合には、音響署名に代えて映像署名を利用する構成としてもよい。

さらには、歌詞などの楽曲に同期したテキスト情報が付随する場合には、テキスト内容そのものを同一性確認のための信号署名として用いてもよい。

本発明は、音楽の楽曲信号から印象的な区画を自動抽出することに適用できる。

例えば、楽曲データベースの検索結果として、検索された楽曲を示す情報をユーザに通知する場合に、検索された楽曲の印象的な区画を自動抽出することにより、画面にテキストでタイトルを表示する代わりに、印象的な区画を演奏して通知することができる。

この場合、例えば、表示による通知ができない場面での楽曲選択といった用途に適用でき、自動車内または満員電車内で利用される音楽端末などにおいて有効である。

また、カラオケでの楽曲選択時など楽曲を選ぶ際に、タイトルなどの代わりに、自動抽出された印象的な区画を通知することにより、利用者がタイトルなどの書誌情報を正確に覚えていない場合であっても、利用者は、記憶に残っているフレーズと通知されたフレーズとを比べることで、楽曲選択を行うことができる。

さらに、映像編集などの折に効果音を探し出すにあたって、広く使われている人気のフレーズを選択肢として自動抽出して提示するといった用途にも適用可能である。

Claims

楽曲の印象的な区画を示す情報を自動抽出する区画自動抽出システムであって、
音響信号を含む一つ以上のコンテンツ情報中に繰り返し出現する前記音響信号の一部を含む区画を、頻出区画として特定し、前記頻出区画を抽出する頻出区画抽出部と、
音響信号を含む楽曲信号中に、前記頻出区画抽出部が抽出した頻出区画が存在するか否かを判断する共通区画判断部と、
前記共通区画判断部が、前記頻出区画は前記楽音信号中に存在する、と判断した場合に、前記頻出区画に対応する前記楽曲信号の区画を特定可能な情報を出力する共通区画出力部と、
を備える区画自動抽出システム。
前記頻出区画抽出部は、あらかじめ定められた条件で区切られたコンテンツ情報中の音響信号の各区画を識別可能な音響区画識別情報を生成し、前記頻出区画を特定する音響区画識別情報を、頻出区画識別情報として抽出し、
前記共通区画判断部は、あらかじめ定められた条件で区切られた楽曲信号の各区画を識別可能な楽曲区画識別情報を生成し、前記頻出区画識別情報と前記楽曲区画識別情報とを比較し、
前記共通区画出力部は、前記頻出区画識別情報が前記楽曲区画識別情報のいずれかに合致する場合に、合致した前記楽曲区画識別情報を示す情報を出力する、
請求項１記載の区画自動抽出システム。
前記音響区画識別情報および前記楽曲区画識別情報は、特徴量を含む情報であって、
前記頻出区画抽出部は、各音響区画識別情報に含まれる特徴量をそれぞれ比較することによって、前記頻出区画を特定し、
前記共通区画判断部は、前記頻出区画識別情報に含まれる特徴量と、各楽曲区画識別情報に含まれる各特徴量と、を比較し、
前記共通区画出力部は、前記頻出区画識別情報に含まれる特徴量が、前記各楽曲区画識別情報に含まれる各特徴量のいずれかに合致する場合に、合致した前記楽曲区画識別情報を示す情報を出力する、
請求項２記載の区画自動抽出システム。
前記頻出区画抽出部によって抽出された頻出区画識別情報に基づいて、前記楽曲区画識別情報に含まれる特徴量と同じ種類の特徴量を含む第２の頻出区画識別情報を生成する第２の抽出部を、さらに含み、
前記共通区画判断部は、前記頻出区画抽出部によって抽出された頻出区画識別情報に含まれる特徴量と異なる種類の特徴量を含む前記楽曲区画識別情報を生成し、前記第２の頻出区画識別情報に含まれる特徴量と、前記楽曲区画識別情報に含まれる各特徴量と、を比較する、
請求項３記載の区画自動抽出システム。
前記頻出区画抽出部は、入力された重み付け情報に応じて前記頻出区画を抽出する、
請求項１ないし４のいずれか１項に記載の区画自動抽出システム。
前記頻出区画抽出部は、前記コンテンツ情報の音響信号の帯域を制限する第１のフィルタリング部を備え、
前記共通区画判断部は、前記楽曲信号の音響信号の帯域を制限する第２のフィルタリング部を備える、
請求項１ないし５のいずれか１項に記載の区画自動抽出システム。
前記頻出区画抽出部は、複数のコンテンツ情報をあらかじめ定められた基準で抽出する部分集合生成部を備える、
請求項１ないし６のいずれか１項に記載の区画自動抽出システム。
前記コンテンツ情報は、テレビジョン番組であって、
前記部分集合生成部は、同一シリーズに属するテレビジョン番組を抽出する、
請求項７記載の区画自動抽出システム。
楽曲の印象的な区画を示す情報を自動抽出する区画自動抽出システムが行う区画自動抽出方法であって、
音響信号を含む一つ以上のコンテンツ情報中に繰り返し出現する音響信号の一部を含む区画を、頻出区画として特定し、前記頻出区画を抽出する頻出区画抽出ステップと、
音響信号を含む楽曲信号中に、前記頻出区画抽出ステップにおいて抽出した頻出区画が存在するか否かを判断する共通区画判断ステップと、
前記共通区画判断ステップにおいて前記頻出区画は前記楽音信号中に存在すると判断した場合に、前記頻出区画に対応する前記楽曲信号の部分を特定可能な情報を出力する共通区画出力ステップと、
を含む区画自動抽出方法。
前記頻出区画抽出ステップでは、あらかじめ定められた条件で区切られたコンテンツ情報中の音響信号の各区画を識別可能な音響区画識別情報を生成し、前記頻出区画を特定する音響区画識別情報を、頻出区画識別情報として抽出し、
前記共通区画判断ステップでは、あらかじめ定められた条件で区切られた楽曲信号の各区画を識別可能な楽曲区画識別情報を生成し、前記頻出区画識別情報と前記楽曲区画識別情報とを比較し、
前記共通区画出力ステップでは、前記頻出区画識別情報が前記楽曲区画識別情報のいずれかに合致する場合に、合致した前記楽曲区画識別情報を示す情報を出力する、
請求項９記載の区画自動抽出方法。
前記音響区画識別情報および前記楽曲区画識別情報は、特徴量を含む情報であって、
前記頻出区画抽出ステップでは、各音響区画識別情報に含まれる特徴量をそれぞれ比較することによって頻出区画を特定し、
前記共通区画判断ステップでは、前記頻出区画識別情報に含まれる特徴量と、各楽曲区画識別情報に含まれる各特徴量と、を比較し、
前記共通区画出力ステップでは、前記頻出区画識別情報に含まれる特徴量が、前記各楽曲区画識別情報に含まれる各特徴量のいずれかに合致する場合に、合致した前記楽曲区画識別情報を示す情報を出力する、
請求項１０記載の区画自動抽出方法。
前記頻出区画抽出ステップで抽出された頻出区画識別情報に基づいて、前記楽曲区画識別情報に含まれる特徴量と同じ種類の特徴量を含む第２の頻出区画識別情報を生成する第２の頻出区画抽出ステップを、さらに含み、
前記共通区画判断ステップでは、前記頻出区画抽出ステップで抽出された頻出区画識別情報に含まれる特徴量と異なる種類の特徴量を含む前記楽曲区画識別情報を生成し、前記第２の頻出区画識別情報に含まれる特徴量と、前記楽曲区画識別情報に含まれる各特徴量と、を比較する、
請求項１１記載の区画自動抽出方法。
前記頻出区画抽出ステップでは、入力された重み付け情報に応じて前記頻出区画を抽出する、
請求項９ないし１２のいずれか１項に記載の区画自動抽出方法。
前記コンテンツ情報の音響信号の帯域を制限する第１のフィルタリングステップと、
前記楽音信号の音響信号の帯域を制限する第２のフィルタリングステップと、をさらに含み、
前記頻出区画抽出ステップでは、前記第１のフィルタリングステップで音響信号の帯域が制限されたコンテンツ情報中に繰り返し出現する音響信号の一部を含む区画を、前記頻出区画として特定し、前記頻出区画を抽出し、
前記共通区画判断ステップでは、前記第２のフィルタリングステップで音響信号の帯域が制限された楽音信号中に、前記頻出区画抽出ステップにおいて抽出した頻出区画が存在するか否かを判断する、
請求項９ないし１３のいずれか１項に記載の区画自動抽出方法。
複数のコンテンツ情報をあらかじめ定められた基準で抽出する部分集合生成ステップをさらに含み、
前記頻出区画抽出ステップでは、前記部分集合生成ステップで抽出された複数のコンテンツ情報中に繰り返し出現する音響信号の一部を含む区画を、前記頻出区画として特定し、前記頻出区画を抽出する、
請求項９ないし１４のいずれか１項に記載の区画自動抽出方法。
前記コンテンツ情報は、テレビジョン番組であって、
前記部分集合生成ステップでは、同一シリーズに属するテレビジョン番組を抽出する、
請求項１５記載の区画自動抽出方法。
楽曲の印象的な区画を示す情報を自動抽出する処理をコンピュータに実行させる区画自動抽出プログラムであって、
前記コンピュータに、
音響信号を含む一つ以上のコンテンツ情報中に繰り返し出現する音響信号の一部の区画を、頻出区画として特定し、前記頻出区画を抽出する頻出区画抽出処理と、
音響信号を含む楽曲信号中に、前記頻出区画抽出処理で抽出した頻出区画が存在するか否かを判断する共通区画判断処理と、
前記共通区画判断処理において前記頻出区画は前記楽音信号中に存在すると判断した場合に、前記頻出区画に対応する前記楽曲信号の部分を特定可能な情報を出力する共通区画出力処理と、
を実行させるための区画自動抽出プログラム。
前記頻出区画抽出処理では、あらかじめ定められた条件で区切られたコンテンツ情報中の音響信号の各区画を識別可能な音響区画識別情報を生成し、前記頻出区画を特定する音響区画識別情報を、頻出区画識別情報として抽出し、
前記共通区画判断処理では、あらかじめ定められた条件で区切られた楽曲信号の各区画を識別可能な楽曲区画識別情報を生成し、前記頻出区画識別情報と前記楽曲区画識別情報とを比較し、
前記共通区画出力処理では、前記頻出区画識別情報が前記楽曲区画識別情報のいずれかに合致する場合に、合致した前記楽曲区画識別情報を示す情報を出力する、
請求項１７記載の区画自動抽出プログラム。
前記音響区画識別情報および前記楽曲区画識別情報は、特徴量を含む情報であって、
前記頻出区画抽出処理では、各音響区画識別情報に含まれる特徴量をそれぞれ比較することによって頻出区画を特定し、
前記共通区画判断処理では、前記頻出区画識別情報に含まれる特徴量と、各楽曲区画識別情報に含まれる各特徴量と、を比較し、
前記共通区画出力処理では、前記頻出区画識別情報に含まれる特徴量が、前記楽曲区画識別情報に含まれる各特徴量のいずれかに合致する場合に、合致した前記楽曲区画識別情報を示す情報を出力する、
請求項１８記載の区画自動抽出プログラム。
前記頻出区画抽出処理で抽出された頻出区画識別情報に基づいて、前記楽曲区画識別情報に含まれる特徴量と同じ種類の特徴量を含む第２の頻出区画識別情報を生成する第２の頻出区画抽出処理を、さらに前記コンピュータに実行させ、
前記共通区画判断処理では、前記頻出区画抽出処理で抽出された頻出区画識別情報に含まれる特徴量と異なる種類の特徴量を含む楽曲区画識別情報を生成し、前記第２の頻出区画識別情報に含まれる特徴量と、前記楽曲区画識別情報に含まれる各特徴量と、を比較する、
請求項１９記載の区画自動抽出プログラム。
前記頻出区画抽出処理では、入力された重み付け情報に応じて前記頻出区画を抽出する、
請求項１７ないし２０のいずれか１項に記載の区画自動抽出プログラム。
前記コンテンツ情報の音響信号の帯域を制限する第１のフィルタリング処理と、
前記楽音信号の音響信号の帯域を制限する第２のフィルタリング処理と、をさらに前記コンピュータに実行させ、
前記頻出区画抽出処理では、前記第１のフィルタリング処理で音響信号の帯域が制限されたコンテンツ情報中に繰り返し出現する音響信号の一部を含む区画を、前記頻出区画として特定し、前記頻出区画を抽出し、
前記共通区画判断処理では、前記第２のフィルタリング処理で音響信号の帯域が制限された楽音信号中に、前記頻出区画抽出ステップにおいて抽出した頻出区画が存在するか否かを判断する、
請求項１７ないし２１のいずれか１項に記載の区画自動抽出プログラム。
複数のコンテンツ情報をあらかじめ定められた基準で抽出する部分集合生成処理を、さらに前記コンピュータに実行させ、
前記頻出区画抽出処理では、前記部分集合生成処理で抽出された複数のコンテンツ情報中に繰り返し出現する音響信号の一部を含む区画を、前記頻出区画として特定し、前記頻出区画を抽出する、
請求項１７ないし２２のいずれか１項に記載の区画自動抽出プログラム。
前記コンテンツ情報は、テレビジョン番組であって、
前記部分集合生成処理では、同一シリーズに属するテレビジョン番組を抽出する、
請求項２３記載の区画自動抽出プログラム。