JPWO2010097870A1

JPWO2010097870A1 - 音楽検索装置

Info

Publication number: JPWO2010097870A1
Application number: JP2011501362A
Authority: JP
Inventors: 阿部　芳春; 芳春阿部
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2009-02-27
Filing date: 2009-11-16
Publication date: 2012-08-30
Anticipated expiration: 2029-11-16
Also published as: EP2402937B1; EP2402937A1; EP2402937A4; JP5127982B2; WO2010097870A1

Abstract

入力歌唱及び検索対象曲の旋律を表現するピッチ周波数系列を推定し、当該ピッチ周波数系列から所定の時間窓で切り出した系列毎に当該系列が取り得るピッチ曲線の形状を表す関数で得られる関数値との内積演算により、旋律の特徴量を求め、求めた特徴量のベクトルからなる特徴ベクトル時系列で入力歌唱と検索対象曲との旋律を照合し、この照合結果に基づいて検索対象曲から所望の楽曲を検索する。

Description

この発明は、楽曲を検索する音楽検索装置に関するものである。

楽曲を検索する従来の技術として、ハミング歌唱を手掛かりとした曲の旋律に基づいて楽曲を検索する方法が提案されている（例えば、特許文献１，２、非特許文献１〜３）。この方法では、入力されたハミング歌唱に基づく検索キーと、曲の旋律データに基づく検索キーとを照合することにより、所望の楽曲が検索される。

ハミング歌唱に基づく検索キーは、ハミングの各音符区間で算出した音高（音程）で構成される音高系列から相対音高を求めることにより作成される。
また、曲の旋律データに基づく検索キーは、当該曲の旋律データから抽出した音高系列を用いて、ハミング側と同様の処理で作成される。なお、曲の旋律データには、ＭＩＤＩデータが用いられ、ＭＩＤＩデータは楽曲提供者から供給されるため、採譜の誤りは殆どない。

また、楽曲の検索には、音符を単位とするＤＰ（Dynamic Programming）マッチングを用いる。例えば、非特許文献３に開示されるような、曲中の歌唱の類似度と照合区間との両方を検出するスポッティング検索が可能な連続ＤＰが用いられる。

楽曲から旋律データを抽出する従来の技術として、非特許文献４には、楽曲中の主旋律となるボーカルパートの旋律データを抽出する、ボーカルパートに限定した基本周波数推定手法が開示されている。

さらに、非特許文献５には、ステレオで収録された音楽音響信号から個々の音源を分離する従来の技術として、左右のチャンネルの信号の周波数成分ごとの音量比を用いて、曲全体をクラスタリングする方法が提案されている。

特許第３４６７４１５号公報特許第３８４４６２７号公報

園田智也、外２名、「ＷＷＷ上での歌声による曲検索システム」、電子情報通信学会論文誌、Ｖｏｌ．Ｊ８２−Ｄ−ＩＩ、Ｎｏ．４、ｐｐ．７２１−７３１、１９９９年４月蔭山哲也、高島洋典、「ハミング歌唱を手掛かりとするメロディ検索」、電子情報通信学会論文誌Ｖｏｌ．Ｊ７７−Ｄ−ＩＩ、Ｎｏ．８、ｐｐ．１５４３−１５５１、１９９４年８月橋口博樹、外４名、「モデル依存傾斜制限型の連続ＤＰを用いた鼻歌入力による楽曲信号のスポッティング検索」、電子情報通信学会論文誌、Ｖｏｌ．Ｊ８４−Ｄ−ＩＩ、Ｎｏ．１２、ｐｐ．２４７９−２４８８、２００１年１２月藤原弘将、外２名、「歌声ＧＭＭとビタビ探索を用いた多重相中のボーカルパートに限定した基本周波数推定手法」、情報処理学会音楽情報科学研究会研究報告２００７−ＭＵＳ−７１（２０）、Ｖｏｌ．２００７、Ｎｏ．８１、ｐｐ．１１９−１２６、２００７年８月２日三輪明宏、守田了、「ステレオ音響信号を用いた三重奏に対する自動採譜」、電子情報通信学会論文誌、Ｖｏｌ．Ｊ８４−Ｄ−ＩＩ、Ｎｏ．７、ｐｐ．１２５１−１２６０、２００１年７月

従来の技術では、入力された歌唱音声やハミングから音符区間を推定し、当該音符区間の音高推定等を行って音高や音長を求め、得られた音高や音長の時系列に基づいて、楽曲の旋律データを検索していた。このため、歌唱者の歌唱に変動があると、音符区間や音高に誤りが生じ、楽曲の検索誤りが発生するという課題があった。
また、検索対象となる楽曲の旋律データから検索キーを作成していたため、旋律データが存在しない曲の検索ができないという課題があった。

この発明は、上記のような課題を解決するためになされたもので、旋律データが存在しない楽曲の検索を可能とし、かつピッチ周波数の抽出に起因した検索誤りの発生を防止できる音楽検索装置を得ることを目的とする。

この発明に係る音楽検索装置は、検索入力からピッチ周波数系列を抽出し、当該ピッチ周波数系列から所定の時間窓毎に切り出した系列に対して、当該切り出した系列が取り得るピッチ曲線の形状を表す所定の関数で得られる関数値との内積演算を行うことにより、検索入力の旋律の特徴を表す特徴ベクトル時系列を生成する第１の特徴抽出部と、検索対象からピッチ周波数系列を抽出し、当該ピッチ周波数系列から所定の時間窓毎に切り出した系列に対して、前記所定の関数で得られる関数値との内積演算を行うことにより、検索対象の旋律の特徴を表す特徴ベクトル時系列を生成する第２の特徴抽出部と、検索入力の特徴ベクトル時系列と検索対象の特徴ベクトル時系列との間で照合を行って、検索入力の特徴ベクトル時系列の、検索対象の特徴ベクトル時系列における照合位置及び類似度を算出し、当該類似度に基づいて検索対象から楽曲を検索する検索部とを備えるものである。

この発明によれば、検索入力となる歌唱及び検索対象となる曲データの旋律を表現するピッチ周波数系列を推定し、当該ピッチ周波数系列から所定の時間窓で切り出した系列に対し、当該系列が取り得るピッチ曲線の形状を表す関数で得られる関数値との内積演算を行うことにより旋律の特徴量を求め、求めた特徴量のベクトルからなる特徴ベクトル時系列で入力歌唱と検索対象曲との旋律を照合し、この照合結果に基づいて検索対象曲から所望の楽曲を検索する。このように構成することにより、旋律データが存在しない曲の検索が可能となり、ピッチ周波数の抽出に起因した検索誤りを防止することができるという効果がある。

この発明の実施の形態１による音楽検索装置の構成を示すブロック図である。検索入力側の特徴抽出過程を説明するための図である。図１中のボーカル強調部の構成を示すブロック図である。ゲイン関数の特性を示すグラフである。元の音楽音響信号のスペクトログラム、そのピッチ抽出結果及びボーカル強調した後の音楽音響信号のスペクトログラム並びにそのピッチ抽出結果の一例を示す図である。検索対象側の特徴抽出過程を説明するための図である。図１中の検索部による連続ＤＰを説明するための図である。この発明の実施の形態２による検索対象側の特徴抽出過程を説明するための図である。この発明の実施の形態３による複数のピッチ候補からの特徴抽出過程を説明するための図である。

以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
図１は、この発明の実施の形態１による音楽検索装置の構成を示すブロック図である。図１において、実施の形態１による音楽検索装置は、音声入力部２、特徴抽出部３，８、曲取込部５、曲データ記憶部６、ボーカル強調部７、索引記憶部９及び検索部１０を備える。音声入力部２は、歌唱者が発した歌唱者音声１を入力して音声信号として出力する構成部であり、音声を収音するマイクや収音されたアナログの音声信号をデジタル信号に変換するＡ／Ｄ変換器等から構成される。

特徴抽出部（第１の特徴抽出部）３は、音声入力部２から入力した音声信号から、歌唱者音声（検索入力）１の旋律を表す特徴ベクトル時系列を抽出する構成部であって、ピッチ抽出部３１、重み計算部３２、窓部３３ａ，３３ｂ、係数行列部３４及び内積演算部３５を備える。ピッチ抽出部３１は、音声入力部２から出力される音声信号サンプルを所定の時間窓内でフレームとして取得し、取得したフレーム毎にピッチ周波数を推定する構成部である。重み計算部３２は、ピッチ抽出部３１で推定されたピッチ周波数の確からしさを表す数値（確度）である重み係数を算出する構成部である。

窓部３３ａは、ピッチ抽出部３１から出力されたピッチ周波数系列から所定の時間窓内に含まれるピッチ周波数のサンプル系列を切り出す構成部である。窓部３３ｂは、重み計算部３２から出力された重み係数の重み系列から、窓部３３ａで切り出されたピッチ周波数のサンプル系列に対応する、所定の時間窓内に含まれる重み係数のサンプル系列を切り出す構成部である。

係数行列部３４は、内積演算部３５が使用する係数行列を格納する記憶部であり、例えば（Ｍ＋１）行×Ｎ列の係数行列を格納する。ここで、Ｎは、内積演算における時間窓の幅であり、（Ｍ＋１）は内積を計算する関数値の数である。また、係数行列の各行には、窓部３３ａによって窓幅Ｎ毎に切り出されたピッチ周波数のサンプル系列が取り得るピッチ曲線の形状を表す関数の関数値が格納される。内積演算部３５は、窓部３３ａで切り出されたサンプル系列と係数行列部３４中の係数行列とに対して、窓部３３ｂで切り出された上記サンプル系列に対応する重み係数を加重として内積演算を行う構成部である。

曲取込部５は、検索対象の曲データを取り込む構成部であり、外部機器との間のインタフェースやネットワークを介した通信処理部等から構成され、ＣＤや携帯音楽プレーヤー及びネットワーク上の音楽サイト等に格納された音楽メディア４から、少なくとも楽曲の音楽音響信号を含む曲データを取り込む。曲データ記憶部６は、曲取込部５により取り込まれた曲データを格納する記憶部である。ボーカル強調部（強調処理部）７は、曲データ記憶部６から読み出した曲データに含まれる楽曲の音楽音響信号におけるボーカル成分を強調する構成部である。

特徴抽出部（第２の特徴抽出部）８は、ボーカル強調部７でボーカル成分が強調された音楽音響信号（検索対象）から旋律を表す特徴ベクトル時系列を抽出する構成部であり、ピッチ抽出部８１、重み計算部８２、窓部８３ａ，８３ｂ、係数行列部８４及び内積演算部８５を備える。ピッチ抽出部８１は、ボーカル強調部７から入力した音楽音響信号をフレームとして取得し、ピッチ抽出部３１と同様な手法で、取得したフレーム毎にピッチ周波数を推定する構成部である。重み計算部８２は、ピッチ抽出部８１で推定されたピッチ周波数の確からしさを表す数値である重み係数を算出する構成部である。

窓部８３ａは、ピッチ抽出部８１から出力されたピッチ周波数系列から、所定の時間窓内に含まれるピッチ周波数のサンプル系列を切り出す構成部である。窓部８３ｂは、重み計算部８２から出力された重み係数の重み系列から、窓部８３ａで切り出されたピッチ周波数のサンプル系列に対応する、所定の時間窓内に含まれる重み係数のサンプル系列を切り出す構成部である。

係数行列部８４は、内積演算部８５が使用する係数行列を格納する記憶部であり、特徴抽出部３の係数行列部３４と同一の係数行列を格納する。内積演算部８５は、窓部８３ａで切り出されたサンプル系列と係数行列部８４中の係数行列とに対して、窓部８３ｂで切り出された上記サンプル系列に対応する重み係数を加重として内積演算を行う構成部である。

索引記憶部９は、特徴抽出部８で抽出された特徴ベクトル時系列を、曲データ記憶部６に格納されている曲データに対応付けて記憶する記憶部である。検索部１０は、特徴抽出部３で抽出された特徴ベクトル時系列と、索引記憶部９から読み出した特徴ベクトル時系列との間で照合を行い、この照合結果に基づいて索引記憶部９の特徴ベクトル時系列に対応する曲データを曲データ記憶部６から検索し、検索結果１１として出力する構成部であり、上記照合を実行する照合部１０１及び検索結果１１を生成して出力する出力部１０２を備える。

次に動作について説明する。
（１）検索動作の概要
先ず、音声入力部２が、歌唱者音声１を入力し、マイク及びＡ／Ｄ変換器等によって、サンプリング周波数４４．１ｋＨｚのＰＣＭ（Pulse Code Modulation）信号として当該歌唱者音声１から得られるデジタル化された音声信号を出力する。特徴抽出部３は、音声入力部２からの音声信号を入力し、当該音声信号から歌唱者音声１に含まれる旋律情報を表す特徴量のベクトルの時系列である特徴ベクトル系列を抽出して出力する。

一方、ボーカル強調部７は、曲データ記憶部６から読み出した曲データの音楽音響信号に後述する処理を施して、楽曲中のボーカル成分を強調した音楽音響信号を生成して出力する。特徴抽出部８は、ボーカル強調部７から入力したボーカル成分が強調された音楽音響信号から、当該音楽音響信号の元になった曲データに含まれる旋律の特徴を表す特徴量のベクトルを成分とする特徴ベクトル時系列を抽出する。

この後、特徴抽出部８は、抽出した特徴ベクトル時系列を、その元になった曲データに対応付けて索引記憶部９へ格納する。例えば、曲データ記憶部６に格納されている曲データ毎に曲番号が付されている場合であれば、元になった曲データの曲番号とともに索引記憶部９に記憶される。

検索部１０は、特徴抽出部３から入力した特徴ベクトル時系列と、索引記憶部９から読み出した特徴ベクトル時系列との間で連続ＤＰによる系列間の照合を行い、曲中の照合位置及び類似度を計算し、類似度の高い候補から順に検索結果１１として出力する。

（２）特徴抽出部３による動作（検索入力側の特徴抽出過程）
特徴抽出部３のピッチ抽出部３１は、音声入力部２から出力されるサンプリングされた音声信号に対して、４０ミリ秒の間隔（サンプル数で１７６４点の間隔）で、長さＮＰ＝８１９２点の時間窓を時間軸方向に移動しながら、この時間窓をかけた音声信号サンプルをフレームとして取得し、取得されたフレームに対して周知のケプストラム法によるピッチ抽出を行って、フレーム毎にピッチ周波数を推定する。

ここで、ケプストラムは、上記時間窓で切り出された音声信号サンプルに対し、ＦＦＴ演算、絶対値演算及び対数演算を施して求めた対数振幅周波数スペクトルを、さらに逆ＦＦＴ演算することにより得られる波形である。また、ピッチ抽出とは、このケプストラム波形からピッチ周期に対応するピークを検出し、このピークの位置（時間の次元を持つ）の逆数としてピッチ周波数を求める方法である。

なお、ピッチ抽出には様々な方法があるが、この実施の形態１では、対数振幅周波数スペクトル上に広がるボーカル成分の調波構造を検出するため、ケプストラム法を用いる。ケプストラムを算出する対数スペクトルの周波数範囲はボーカルの主要な成分が存在する領域とする。具体的には、サンプリング周波数４４．１ｋＨｚの信号を１／４のサンプリング周波数１１．０２５ｋＨｚにダウンサンプリングしてから、対数振幅周波数スペクトルを求め、０〜５５１２．５Ｈｚに帯域制限された対数振幅周波数スペクトルからケプストラムを求める。この後、ケプストラムの波形上で、ピッチ周期に対応するピークのうちから閾値を超えるピークを検出する。ケプストラムピークに関する閾値としては、例えば０．２とする。

図２は、検索入力側の特徴抽出過程を説明するための図である。図２（ａ）には、入力された歌唱者音声１のスペクトログラムの一例を示している。ピッチ抽出部３１は、このスペクトログラムを対象としてピッチ周波数の推定を実行する。
図２（ｂ）は、図２（ａ）のスペクトログラムから得たピッチ周波数のグラフであり、横軸は時間、縦軸はピッチ周波数（単位はセント）である。Ｈｚ単位の周波数とセント単位の周波数は、下記式（１）により換算することができる。
また、以降の説明では、入力歌唱のｊ番目のフレームにおけるピッチ周波数をｙ（ｊ）で表すこととする。ここで、ｊ＝１，２，・・・，Ｊ（Ｊは、入力歌唱のフレーム数）である。なお、ピッチ周波数の検出されなかったフレームのピッチ周波数は０とする。

次に、重み計算部３２は、ピッチ抽出部３１で推定されたピッチ周波数の確からしさを表す数値である重み係数を算出する。重み係数としては、ピッチ周波数の確からしさを表す数値であれば、どのようなものでもかまわない。例えば、図２（ｃ）に示すように、ピッチ周波数の重み係数として、ピッチ抽出部３１で得られたケプストラム法によるケプストラム波形上のピッチ周期に対応するピークの高さを用いてもよい。以下、ｊ番目のフレームにおける重み係数をｗ（ｊ）（ｊ＝１，２，・・・，Ｊ）とする。

係数行列部３４に格納される係数行列は、内積演算における窓の幅をＮとし、内積を計算する関数値の数を（Ｍ＋１）とした場合、（Ｍ＋１）行×Ｎ列の行列となる。また、係数行列の各行には、ピッチ曲線の形状を表す関数値が格納される。なお、各行の関数値を与える関数は、ピッチ曲線の形状を表す関数であれば、どのようなものでもかまわない。この実施の形態１では、各行の関数値を与える関数として、周期によって大局的な形状から詳細な特徴を表すことができるコサイン関数を用いる。

具体的には、コサイン関数の周期を表すインデックスをｍ（１≦ｍ≦Ｍ＋１）とし、係数行列のｍ行ｎ列の値をＣ（ｍ，ｎ）（１≦ｎ≦Ｎ）とすれば、係数行列のｍ行ｎ列の値は、下記式（２）を用いて算出することができる。ここで、ｎは窓の先頭を１とする相対的なフレーム時刻である。また、ｍは周期を決めるインデックスであり、時間窓内の関数形状は、ｍ＝１のとき一定値、ｍ＝２のときは約半周期分の余弦波形状に対応する。
なお、以降の説明では、窓の幅ＮをＮ＝６４、ＭをＭ＝５と設定する。図２（ｄ）に係数行列の１〜４行に格納されている関数形状（この場合、コサイン関数）を例示する。

窓部３３ａでは、ピッチ抽出部３１が出力するピッチ周波数系列から、ｊ番目のフレームを中心として時間窓内に含まれるピッチ周波数のＮ個のサンプル系列ｙ（ｊ＋ｎ）（ｎ＝−Ｎ／２，１−Ｎ／２，２−Ｎ／２，・・・，Ｎ／２−１）が切り出される。ここで、中心フレームの番号ｊは、音声の開始フレーム１から終了フレームＪまでに１フレームを単位として逐次更新される。なお、添え字が範囲外の値は全て０とみなす（即ち、ｊ≦０又はｊ＞Ｊとなるｊに対してｙ（ｊ）＝０とする）。

また、窓部３３ｂは、重み計算部３２が出力する重み系列からｊ番目のフレームを中心として時間窓内に含まれる重み係数のＮ個のサンプル系列ｗ（ｊ＋ｎ）（ｎ＝−Ｎ／２，−Ｎ／２＋１，−Ｎ／２＋２，・・・，Ｎ／２−１）を切り出す。

内積演算部３５は、窓部３３ａにより切り出されたピッチ周波数のＮ個のサンプル系列と係数行列部３４から読み出した係数行列とに対し、窓部３３ｂで切り出されたサンプル系列の重み係数を加重として、下記式（３）に従って内積演算を行う。下記式（３）において、Ｙ（ｊ，ｍ）は、ｊ番目のフレームを中心とするピッチと重み係数との積からなる系列｛ｙ（ｊ＋ｎ）ｗ（ｊ＋ｎ）｜ｎ＝−Ｎ／２，−Ｎ／２＋１，・・・，Ｎ／２−１｝と、ｍ番目の係数系列｛Ｃ（ｍ，ｎ）｜ｎ＝１，２，・・・、Ｎ｝との間での内積を重み係数の総和で除した値である。このように内積演算に重みをつけることにより、重みが小さい（即ち、不確実性の大きい）フレームにおけるピッチの特徴量に占める影響を小さくすることができる。

上述の内積演算を各フレームについて行うことにより、（Ｍ＋１）次元の特徴ベクトルＹ（ｊ，＊）（１≦＊≦Ｍ＋１）のフレームにわたる系列｛Ｙ（１，＊），・・・，Ｙ（Ｊ，＊）｝が得られる。このようにして得られた特徴ベクトル時系列を図２（ｅ）に例示する。なお、図２（ｅ）において、特徴ベクトル時系列ａ０がインデックスｍ＝１に対応し、特徴ベクトル時系列ａ１がインデックスｍ＝２、特徴ベクトル時系列ａ２がインデックスｍ＝３、特徴ベクトル時系列ａ３がインデックスｍ＝４に対応する。図２（ｅ）に示すような特徴ベクトル時系列が、内積演算部３５から検索部１０へ出力される。

（３）ボーカル強調部７の動作（ボーカル強調処理）
この実施の形態１では、演歌、ポップス曲等のステレオで収録されたボーカル曲を検索の対象とする。ボーカル強調部７では、曲の主旋律成分が中央定位することが多いという事実に基づいて、ステレオ曲の中央定位成分を強調したモノラル音響信号を出力する。
即ち、ボーカル強調部７は、曲データ記憶部６に格納されるステレオ曲の左右チャンネルの音楽音響信号から、中央定位成分が強調されたモノラル音楽音響信号を生成することにより、ステレオ中央に定位した歌手の歌唱成分（ボーカル）を強調した音楽音響信号を出力する。

図３は、図１中のボーカル強調部７の構成を示すブロック図である。図３において、ボーカル強調部７は、信号分離部７０２、窓部７０４Ｌ，７０４Ｒ、ＦＦＴ部７０５Ｌ，７０５Ｒ、ピーク検出部７０６Ｌ，７０６Ｒ、一致評価部７０７、音量比計算部７０８、ゲイン計算部７０９、低域補正部７１０、加算平均部７１１、ゲイン乗算部７１２、逆ＦＦＴ部７１４及びオーバーラップ加算部７１５を備える。

信号分離部７０２は、曲データ記憶部６から読み出されたステレオ曲の曲入力信号７０１を入力して、左チャンネルの音楽音響信号７０３Ｌと右チャンネルの音楽音響信号７０３Ｒとに分離し、窓部７０４Ｌ，７０４Ｒへそれぞれ出力する。窓部７０４Ｌ，７０４Ｒでは、信号分離部７０２から入力した左右の各チャンネルの音楽音響信号７０３Ｌ，７０３Ｒから、時間窓関数に基づく信号サンプルで構成されるフレームをそれぞれ切り出し、ＦＦＴ部７０５Ｌ，７０５Ｒへ出力する。

ＦＦＴ部７０５Ｌ，７０５Ｒは、窓部７０４Ｌ，７０４Ｒによりそれぞれ切り出されたフレームに対して、長さＮＦ点（ＮＦ＝８１９２）のＦＦＴ（Fast Fourier Transform）による周波数分析を行い、左右の各チャンネルの短時間周波数スペクトル（複素周波数スペクトル）Ｚ_k ^L，Ｚ_k ^Rを求める。ここで、ｋは離散周波数、Ｌ，Ｒは左右の各チャンネルを表す。

次に、ピーク検出部７０６Ｌ，７０６Ｒは、左右の各チャンネルの短時間周波数スペクトルＺ_k ^L，Ｚ_k ^Rに対し、振幅スペクトル｜Ｚ_k ^L｜，｜Ｚ_k ^R｜上で調波構造成分に対応するローカルピークを検出する。一致評価部７０７は、ピーク検出部７０６Ｌ，７０６Ｒからのピーク検出結果を入力して、左右のチャンネル間で周波数位置が一致又は近接する（つまり、周波数位置の差がΔ以下である）ローカルピーク位置の集合Ｐｅａｋｓを求める。例えば、Δ＝２であるものとする。

音量比計算部７０８は、一致評価部７０７で求めたローカルピーク位置集合Ｐｅａｋｓ中の各ローカルピーク位置ｉ（ｉ∈Ｐｅａｋｓ）について、下記式（４ａ）に従って、左右チャンネル間の音量比ｒ_iを求める。
ゲイン計算部７０９では、下記式（４ｃ）に基づいて、周波数領域で、各ローカルピークｉ∈Ｐｅａｋｓを中心とし、高さがｇ（ｒ_i）であるインパルス列とバンド幅が２ｂ＋１であるインパルス応答ｈ_kを畳込みゲインＧ_kを求める。
ここで、ｇ（ｒ_i）は、下記式（４ｂ）で表されるゲイン関数である。この関数は、音量比ｒが１でゲインが１となり、音量比ｒが１から離れるに従って、ゲインが０に近づき、音量比ｒが閾値ｒ_θ以下であると、ゲインが０となる。
なお、このゲイン関数は、音量比ｒに対してゲインｇ（ｒ）が図４に示すような特性を有する。
また、低域補正部７１０は、ゲイン計算部７０９の出力のゲインにおける低い周波数領域に残存するベース音の成分を抑圧するため、下記式（４ｅ）に従って、遷移領域［Ｆｂ１，Ｆｂ２］でゲインが０から１まで直線的に増加する低域遮断特性ＨＰＦ_kを求める。
一方、加算平均部７１１は、ＦＦＴ部７０５Ｌ，７０５Ｒによって得られた左右の各チャンネルの複素周波数スペクトルの加算平均を算出する。ゲイン乗算部７１２では、加算平均部７１１からの複素周波数スペクトルに対し、下記式（４ｆ）に従って、ゲインＧ_kと低域遮断特性ＨＰＦ_kとを乗算することにより、モノラルの複素周波数スペクトル７１３（複素周波数スペクトルＺ_k ^C）を得る。
逆ＦＦＴ部７１４は、ゲイン乗算部７１２で得られた複素周波数スペクトル７１３に対して逆ＦＦＴ処理を施すことにより、信号波形に戻す。オーバーラップ加算部７１５は、このようにして戻されたフレーム単位の信号波形に対し、オーバーラップ加算法に従ってフレーム間で重み付け重畳加算を実行することで、最終的に、ボーカル成分が強調されたモノラル音響信号７１６を生成し出力する。なお、ｒ_θは、例えばｒ_θ＝０．８であり、ｂは、例えばｂ＝６であるものとする。

図５は、元の音楽音響信号のスペクトログラム、そのピッチ抽出結果及びボーカル強調した後の音楽音響信号のスペクトログラム並びにそのピッチ抽出結果の一例を示す図である。音楽音響信号のスペクトログラムは、図５（ａ）及び図５（ｃ）に示すように、色の濃さがスペクトル成分の強度に対応している。

図５の例では、図５（ａ）に示す元の音楽音響信号において、歌手の歌唱と背景にピアノ演奏が入っているため、図５（ｂ）に示すように、元の音楽音響信号からは歌唱のピッチ抽出が困難な箇所がある。
一方、図５（ｃ）に示すボーカル強調した後の音楽音響信号では、ピアノの演奏成分が抑圧されて、歌手の歌唱成分が強調されるため、図５（ｄ）に示すように、歌唱のピッチ抽出が容易となっている。

（４）特徴抽出部８による動作（検索対象側の特徴抽出過程）
特徴抽出部８は、ボーカル強調部７によってボーカル成分を強調されたモノラルの音楽音響信号を入力し、当該音楽音響信号から曲データの旋律の特徴を抽出する。
先ず、ピッチ抽出部８１は、ボーカル強調部７から出力される、図６（ａ）に示すような曲スペクトログラムを与えるモノラルの音楽音響信号を、所定の時間窓によるフレームを処理単位として入力する。この後、ピッチ抽出部３１と同様な処理で、ケプストラムを求め、当該ケプストラム波形上のピッチ周期に対応するピークの位置からピッチ周波数を推定して、フレーム毎に推定したピッチ周波数の系列（図６（ｂ）参照）を出力する。
なお、以降の説明では、曲番号ｋの曲データにおけるｉ番目のフレームのピッチ周波数をｘ（ｉ；ｋ）とする。ここで、１≦ｋ≦Ｋとして、Ｋは、検索対象の曲数とする。

次に、重み計算部８２は、重み計算部３２と同様な処理で、ピッチ抽出部８１で推定されたピッチ周波数の確からしさを表す数値である重み係数を算出する。ここでは、ピッチ抽出部８１で得たケプストラム波形上のピッチ周期に対応するピークの高さを重み係数として、フレーム毎に求めた重み係数の系列（図６（ｃ）参照）を出力する。
以下、ｉ番目のフレームの重み係数をｗ（ｉ；ｋ）（ｉ＝１，２，・・・，Ｉ（ｋ））とする。Ｉ（ｋ）は、曲番号ｋの曲データにおけるフレーム数である。

係数行列部８４には、特徴抽出部３の係数行列部３４と同一の係数行列が格納される（図６（ｄ）参照）。窓部８３ａでは、ピッチ抽出部８１が出力するピッチ周波数系列から、ｉ番目のフレームを先頭として時間窓内に含まれるピッチ周波数のＮ個のサンプル系列ｘ（ｉ＋ｎ；ｋ）（ｎ＝−Ｎ／２，−Ｎ／２＋１，−Ｎ／２＋２，・・・，Ｎ／２−１）が切り出される。ただし、ｉ≦０又はｉ＞Ｉ（ｋ）となるｉに対してはｘ（ｉ；ｋ）＝０とみなす。

また、窓部３３ｂは、重み計算部８２が出力する重み系列からｉ番目のフレームを先頭として時間窓内に含まれる重み係数のＮ個のサンプル系列ｗ（ｉ＋ｎ；ｋ）（ｎ＝−Ｎ／２，−Ｎ／２＋１，−Ｎ／２＋２，・・・，Ｎ／２−１）を切り出す。

内積演算部８５は、特徴抽出部３の内積演算部３５と同様に、窓部８３ａにより切り出されたピッチ周波数のＮ個のサンプル系列と係数行列部８４から読み出した係数行列とに対し、窓部８３ｂで切り出されたサンプル系列の重み係数を加重として、下記式（５）に従って内積演算を行う。ここでは、曲番号ｋのｉ番目のフレームの次元ｋの特徴量をＸ（ｉ，ｍ；ｋ）とし、係数行列の成分Ｃ（ｍ，ｎ）は、上記式（２）で与えられる。

上述の内積演算を各フレームについて行うことにより、図６（ｅ）に示す特徴ベクトル時系列が得られる。なお、図６（ｅ）において、特徴ベクトル時系列ｂ０がインデックスｍ＝１に対応し、特徴ベクトル時系列ｂ１がインデックスｍ＝２、特徴ベクトル時系列ｂ２がインデックスｍ＝３、特徴ベクトル時系列ｂ３がインデックスｍ＝４に対応する。図６（ｅ）に示すような特徴ベクトル時系列が、内積演算部８５から索引記憶部９へ出力される。索引記憶部９では、内積演算部８５から取得した特徴ベクトル時系列を、曲データ記憶部６に格納されている、その元となった曲データの曲番号とともに記憶する。

（５）検索部１０による動作（検索処理）
照合部１０１は、特徴抽出部３により抽出された特徴ベクトル時系列と、索引記憶部９から読み出した特徴ベクトル時系列との間で周知の連続ＤＰによる照合を行う。ここで、曲データ記憶部６に記憶される曲数を１以上の整数Ｋとし、特徴抽出部３で抽出した入力歌唱（検索入力）の特徴ベクトル時系列をＸ（ｊ，ｍ）（ｍは次元）とし、ｋ番目の曲（検索対象）の特徴ベクトル時系列をＹ（ｉ，ｍ；ｋ）とする。
なお、ｊは入力歌唱側のフレーム番号であり、ｊ＝１，２，・・・，Ｊとなり、Ｊは歌唱側のフレーム数である。また、ｉは曲側のフレーム番号であり、ｉ＝１，２，・・・，Ｉ（ｋ）となり、Ｉ（ｋ）はｋ番目の曲のフレーム数である。

連続ＤＰによる照合処理とは、曲（検索対象曲）の特徴ベクトル時系列の中でｉ番目のフレームを入力歌唱（検索入力）の終端とした入力歌唱の始端が照合するフレーム位置とその類似度とを算出する処理であり、下記式（６）で表される漸化式を用いて算出する。なお、下記式（６）におけるｄ（ｉ，ｊ；ｋ）は局所距離であり、局所距離ｄ（ｉ，ｊ；ｋ）は、特徴ベクトル間のユークリッド距離として、下記式（７）を用いて算出される。ここで、絶対音高のずれを除去するため、局所距離は、ピッチの平均値を表すｍ＝１の特徴量を除いたｍ＝２〜Ｍ＋１の範囲の特徴量を用いている。

照合部１０１は、上述のようにして得た類似度Ｓ（ｉ，ｊ；ｋ）の最大ピークＥ（ｋ）を、下記式（８）を用いて探索する。なお、ｉの探索範囲がＪ／２以上となっているのはＤＰ照合経路の傾斜制限により、Ｊ／２未満を探索することが無意味だからである。
この結果、ｉ番目のフレームを入力歌唱の終端とした照合区間の類似度Ｓ（Ｅ（ｋ），Ｊ；ｋ）と照合区間の始端フレームＢ（Ｅ（ｋ），Ｊ；ｋ）とが得られる。
ここで、Ｅ（ｋ）は、類似度Ｓ（ｉ，ｊ；ｋ）が最大となる入力歌唱の終端フレームに対応する照合区間の曲側の終端フレーム番号である。

図７は、図１中の検索部による連続ＤＰを説明するための図であり、図７（ａ）は連続ＤＰにおけるスポッティングの概要を示しており、図７（ｂ）は連続ＤＰにおける局所パスを示している。図７（ａ）において、上記式（６）に示した漸化式による類似度計算によって類似度Ｓ（ｉ，Ｊ；ｋ）が得られ、当該類似度がピークとなるフレームを照合区間としている。図７（ａ）では、照合区間を網掛けの矩形で記載している。

図７（ａ）の例では、入力歌唱の特徴ベクトル時系列｛Ｙ（１，＊），Ｙ（２，＊），・・・，Ｙ（Ｊ，＊）｝が、曲側の特徴ベクトル時系列の部分区間｛Ｙ（Ｂ（Ｅ（ｋ），Ｊ；ｋ），＊；ｋ），Ｙ（Ｂ（Ｅ（ｋ），Ｊ；ｋ）＋１，＊；ｋ），・・・，Ｙ（Ｅ（ｋ），＊；ｋ）｝と照合している。また、図７（ｂ）は、連続ＤＰにおける局所パスを示しており、上記式（６）における各経路に対応する。

上述のようにして、照合部１０１は、曲番号ｋ（ｋ＝１，２，・・・，Ｋ）について、曲番号ｋ、類似度Ｓ（Ｅ（ｋ），Ｊ；ｋ）、照合区間｛［Ｂ（Ｅ（ｋ），Ｊ；ｋ），Ｅ（ｋ）］｝の３つの情報からなる組を求め、これらの処理結果を出力部１０２に出力する。
出力部１０２では、照合部１０１から入力した、各曲番号ｋ（ｋ＝１，２，・・・，Ｋ）についての曲番号ｋ、類似度Ｓ（Ｅ（ｋ），Ｊ；ｋ）及び照合区間｛［Ｂ（Ｅ（ｋ），Ｊ；ｋ），Ｅ（ｋ）］｝の３つの情報からなる組を類似度の順に並べ替え、類似度の大きい方から検索結果１１として出力する。

以上のように、この実施の形態１によれば、入力歌唱及び検索対象曲の旋律を表現するピッチ周波数を推定し、所定の時間窓内で規定したフレーム毎に当該ピッチ周波数の確からしさを重みとしてピッチ曲線の形状を表す関数との内積演算により特徴量を求め、求めた特徴量のベクトルからなる特徴ベクトル時系列で入力歌唱と検索対象曲との旋律を照合し、この照合結果に基づいて曲データ記憶部６から所望の曲データを検索する。
このように構成することで、旋律データがない曲の検索を可能とし、さらにピッチ抽出誤りによる検索誤りを防止することができる。

実施の形態２．
上記実施の形態１では、重みとして、ピッチ周期に対応するケプストラム波形のピークの大きさを用いる場合を示したが、この実施の形態２では、推定したピッチ周波数系列におけるピッチ周波数の局所的な変動量により重み係数を計算する場合について述べる。

実施の形態２による音楽検索装置は、上記実施の形態１で図１を用いて説明した構成と基本的に同一であるが、重み計算部３２，８２が、ピッチ周波数の局所的な変動量により重み係数を計算する点で異なる。従って、実施の形態２による音楽検索装置の構成については、図１を参照するものとする。

次に動作について説明する。
ここでは、曲側（検索対象側）での特徴抽出過程を例に説明する。
先ず、ピッチ抽出部８１は、ボーカル強調部７から出力される、図８（ａ）に示すような曲スペクトログラムを与えるモノラルの音楽音響信号を、所定の時間窓によるフレームを処理単位として入力する。
この後、上記実施の形態１と同様な処理で、ケプストラムを求め、当該ケプストラム波形上のピッチ周期に対応するピークの位置からピッチ周波数を推定して、フレーム毎に推定したピッチ周波数の系列（図８（ｂ）参照）を出力する。

次に、重み計算部８２では、曲番号ｋのｉ番目のフレームのピッチ周波数をｙ（ｉ；ｋ）とした場合、ｉ番目のフレームの重み係数ｗ（ｉ；ｋ）を、下記式（９ａ）及び下記式（９ｂ）に従って計算する（図８（ｃ）参照）。ここで、δは、δ＝２とおくことができる。下記式（９ａ）は、ｉ番目のフレームのピッチ周波数が０、即ち、ピッチが検出されないときの重み係数ｗ（ｉ；ｋ）を０とする。また、ｉ番目のフレームを中心とする幅±δ内のピッチ周波数の変動量が閾値Θ_vを超えると、重み係数ｗ（ｉ；ｋ）を０とする。変動量が閾値Θ_v以下のとき、重み係数ｗ（ｉ；ｋ）を１とする。変動量ｖ（ｉ；ｋ）は、下記式（９ｂ）で計算される。

係数行列部８４には、特徴抽出部３の係数行列部３４と同一の係数行列が格納される（図８（ｄ）参照）。窓部８３ａでは、ピッチ抽出部８１が出力するピッチ周波数系列から、ｉ番目のフレームを先頭として時間窓内に含まれるピッチ周波数のＮ個のサンプル系列ｘ（ｉ＋ｎ；ｋ）（ｎ＝−Ｎ／２，−Ｎ／２＋１，−Ｎ／２＋２，・・・，Ｎ／２−１）が切り出される。また、窓部８３ｂは、重み計算部８２が出力する重み系列からｉ番目のフレームを先頭として時間窓内に含まれる重み係数のＮ個のサンプル系列ｗ（ｉ＋ｎ；ｋ）（ｎ＝−Ｎ／２，−Ｎ／２＋１，−Ｎ／２＋２，・・・，Ｎ／２−１）を切り出す。

内積演算部８５は、特徴抽出部３の内積演算部３５と同様に、窓部８３ａにより切り出されたピッチ周波数のＮ個のサンプル系列と係数行列部８４から読み出した係数行列とに対し、窓部８３ｂで切り出されたサンプル系列の重み係数を加重として、上記式（５）に従って内積演算を行う。ここでは、曲番号ｋのｉ番目のフレームの次元ｍの特徴量をＸ（ｉ，ｍ；ｋ）とし、係数行列の成分Ｃ（ｍ，ｎ）は、上記式（２）で与えられる。

上述の内積演算を各フレームについて行うことにより、図８（ｅ）に示す特徴ベクトル時系列が得られる。なお、図８（ｅ）において、特徴ベクトル時系列ｃ０がインデックスｍ＝１に対応し、特徴ベクトル時系列ｃ１がインデックスｍ＝２、特徴ベクトル時系列ｃ２がインデックスｍ＝３、特徴ベクトル時系列ｃ３がインデックスｍ＝４に対応する。
図８（ｅ）に示すような特徴ベクトル時系列が内積演算部８５から索引記憶部９へ出力される。索引記憶部９では、内積演算部８５から取得した特徴ベクトル時系列を、曲データ記憶部６に格納されている、その元となった曲データの曲番号とともに記憶する。
上記以外の処理は、実施の形態１と同様である。

以上のように、この実施の形態２によれば、ピッチ周波数の局所的な変動量により重み係数を計算するので、上記実施の形態１と同様な効果を得ることができる。

実施の形態３．
上記実施の形態１，２では、曲のピッチ周波数の抽出を単一のピッチ候補を求めることにより行っていたため、ピッチ周波数の数は、フレーム毎に０又は１であった。
これに対し、この実施の形態３は、マルチピッチ抽出を行う。この場合、ピッチ周波数の候補がフレーム毎に０又１若しくは２以上となるので、ピッチ周波数の候補の重みを考慮して特徴ベクトル時系列が生成される。

また、実施の形態３による音楽検索装置は、上記実施の形態１で図１を用いて説明した構成と基本的に同一であるが、特徴抽出部３，８の少なくとも一方にてマルチピッチ抽出を行い、これに応じた検索を検索部１０が実行する点で異なる。従って、実施の形態３による音楽検索装置の構成については、図１を参照するものとする。

次に、曲側（検索対象側）での特徴抽出過程を例にして動作を説明する。
（１）特徴抽出部８による動作（検索対象側の特徴抽出過程）
図９は、実施の形態３による複数のピッチ候補からの特徴抽出過程を説明するための図である。図９（ａ）は、上述のマルチピッチ抽出による曲のピッチ周波数を例示する。図９（ａ）において、ピッチ候補１は、フレーム番号ｉ１のフレームからフレーム番号ｉ２のフレームまでの範囲にあり、ピッチ候補３は、フレーム番号ｉ３のフレームからフレーム番号ｉ４のフレームまでの範囲にある。また、ピッチ候補２は、フレーム番号ｉ１のフレームの前からフレーム番号ｉ４のフレームの後まで続いている。
また、図９（ｂ）に示すように、各ピッチ候補１〜３は、ピッチ周波数の推定の確からしさに対応する重みが与えられている。図９（ｃ）は、各フレームにおけるピッチ候補数の変化を示している。

先ず、ピッチ抽出部８１は、ボーカル強調部７から出力されるモノラルの音楽音響信号を、所定幅Ｎの時間窓によるフレームを処理単位として入力し、これのケプストラム波形からマルチピッチ抽出によりピッチ周波数を推定し、フレーム毎にピッチ周波数及びピッチ候補数を得る。ここでは、図９に示すフレーム番号ｉ１からフレーム番号ｉ４までの範囲が時間窓内に入ったものとする。

次に、ピッチ抽出部８１は、時間窓内のピッチ候補数が変化したフレーム位置を変化点として求める。このピッチ候補数の変化点を境として、ピッチ抽出部８１は、図９（ｄ）に示すように各ピッチ曲線を切断し、切断した部分ピッチ曲線の集合を得る。図９（ｄ）において、Ａ１，Ａ２，Ｂ１，Ｃ１，Ｃ２は、ピッチ候補数の変化点で切断された部分ピッチ曲線を示しており、Ａ０，Ｂ０，Ｃ０は、本当はピッチが存在していない可能性を考慮して追加された候補（ピッチ無し候補）であり、その重み係数は、所定の値（例えば、０．１）に設定される。

重み計算部８２は、これらの部分ピッチ曲線を組み合わせて、｛Ａ０，Ｂ０，Ｃ０｝，｛Ａ０，Ｂ０，Ｃ１｝，｛Ａ０，Ｂ０，Ｃ２｝，｛Ａ０，Ｂ１，Ｃ０｝等の時間窓内のピッチ曲線候補を生成する。即ち、時間窓内の部分ピッチ曲線のとり得る全ての組み合わせとして得られる、時間窓内のピッチ曲線（ピッチ候補が取り得るピッチ曲線）に対応する重み曲線（上記ピッチ曲線に沿うようピッチ候補を重み付ける重み曲線）を生成する。

続いて、内積演算部８５は、生成された時間窓内における全てのピッチ曲線候補と重み曲線候補とについて、係数行列との重み付き内積演算を実行する。
例えば、フレーム番号ｉのフレームを中心とする時間窓内で部分ピッチ曲線を組み合わせて得られる曲番号ｋのピッチ曲線の候補数をＮＣ（ｉ；ｋ）とし、このうち、ｃ番目（ただし、１≦ｃ≦ＮＣ（ｉ；ｋ））のピッチ曲線をｘｃ（ｉ，ｎ；ｋ，ｃ）、ｃ番目の重み曲線をｗｃ（ｉ，ｎ；ｋ，ｃ）、ｃ番目のピッチ曲線とｃ番目の重み曲線から抽出されるｃ番目の次元ｍの特徴量をＸＣ（ｉ，ｍ；ｋ，ｃ）、ｃ番目の特徴量ＸＣ（ｉ，ｍ；ｋ，ｃ）に対する分岐重みをＷＣ（ｉ；ｋ，ｃ）とすると、特徴量ＸＣ（ｉ，ｍ；ｋ，ｃ）と分岐重みＷＣ（ｉ；ｋ，ｃ）とは、下記式（１０）を用いて算出できる。

上記特徴抽出の結果として得られた候補数ＮＣ（ｉ；ｋ）、特徴量ＸＣ（ｉ，ｍ；ｋ，ｃ）及び分岐重みＷＣ（ｉ；ｋ，ｃ）は、特徴抽出部８から索引記憶部９に出力される。索引記憶部９では、特徴抽出部８から取得した上記情報を、曲データ記憶部６に格納されている、その元となった曲データの曲番号ｋとともに記憶する。

（２）検索部１０による動作（検索処理）
照合部１０１は、特徴抽出部３により抽出された各ピッチ候補による特徴ベクトル時系列と、索引記憶部９から読み出した各ピッチ候補による特徴ベクトル時系列との間で連続ＤＰによる照合を行う。ここで、上記式（６）の漸化式における局所距離は、ユークリッド距離の重み付け和として、下記式（１１）から算出される。なお、絶対音高のずれを除去するため、局所距離の計算では、ピッチの平均値を表すｍ＝１の特徴量を除いて、ｍ＝２〜Ｍ＋１の範囲の特徴量を用いる。

出力部１０２では、照合部１０１による上記照合処理にて得られた、各曲番号ｋについての曲番号ｋ、類似度、及び照合区間の３つの情報からなる組を類似度の順に並べ替え、類似度の大きい方から検索結果１１として出力する。

以上のように、この実施の形態３によれば、特徴抽出の時間窓内で複数のピッチ候補が取り得る全てのピッチ曲線から複数の特徴ベクトルを求めて照合に用いるので、より頑健な音楽検索が可能となる。

また、上記実施の形態１〜３では、ハミング歌唱を検索入力としたが、曲の一部を検索の手掛り（検索入力）とすることもできる。この場合、特徴抽出部３の代用として、ボーカル強調部７と特徴抽出部８とを組み合わせたものと置き換える。

さらに、上記実施の形態１〜３では、ピッチ周波数を抽出するためにケプストラム法を用いる場合を示したが、ピッチ周波数の抽出方法として、周知の自己相関法や、相互相関法等を用いてもかまわない。また、周知のマルチピッチの抽出方法を用いてよい。

さらに、上記実施の形態１〜３では、特徴ベクトル間の局所距離を計算するため、ユークリッド距離を用いたが、周知のマハラノビス距離や周知の多次元ガウス分布や多次元ガウス混合分布のような統計的な尺度を用いてもかまわない。

さらに、上記実施の形態１〜３では、ボーカル強調部７がゲインＧ_kを求めるため、左右チャンネルの振幅スペクトルのローカルピークを求め、左右のローカルピークの位置が一致するローカルピーク位置を中心とする２ｂ＋１の帯域幅の周波数成分を通過させる場合を示したが、簡易な方法として、ローカルピークの抽出を省略し、全ての離散周波数ｋで音量比ｒ_kを求め、ゲインＧ_kをＧ_k＝ｇ（ｒ_k）としてもよい。

なお、上記実施の形態１〜３において、ボーカル強調部７が、ボーカル成分の主に存在する周波数範囲、例えば１００〜３４００Ｈｚでゲイン１を持ち、それ以外の周波数ではゲインを１より小さくする帯域通過特性を掛けてもよい。

また、上記実施の形態１〜３では、曲（検索対象の楽曲）の音楽音響信号からピッチを抽出する場合を示したが、ＭＩＤＩ情報等の旋律データが付いた曲については、主旋律に対応する旋律データからピッチを生成してもよい。この場合、ピッチの重みは１として、通常の重み無しの内積演算によって特徴ベクトルを計算することができる。なお、この場合であっても、検索入力側ではピッチ抽出が必要であり、ピッチの重みを考慮することが効を奏する。

この発明に係る音楽検索装置は、旋律データが存在しない曲の検索が可能となり、ピッチ周波数の抽出に起因した検索誤りを防止できるため、楽曲を検索する音楽検索装置等に用いるのに適している。

Claims

検索入力の旋律と検索対象の旋律とを照合し、当該照合結果に基づいて前記検索対象から所望の楽曲を検索する音楽検索装置において、
前記検索入力からピッチ周波数系列を抽出し、当該ピッチ周波数系列から所定の時間窓毎に切り出した系列に対して、当該切り出した系列が取り得るピッチ曲線の形状を表す所定の関数で得られる関数値との内積演算を行うことにより、前記検索入力の旋律の特徴を表す特徴ベクトル時系列を生成する第１の特徴抽出部と、
前記検索対象からピッチ周波数系列を抽出し、当該ピッチ周波数系列から前記所定の時間窓毎に切り出した系列に対して、前記所定の関数で得られる関数値との内積演算を行うことにより、前記検索対象の旋律の特徴を表す特徴ベクトル時系列を生成する第２の特徴抽出部と、
前記検索入力の特徴ベクトル時系列と前記検索対象の特徴ベクトル時系列との間で照合を行って、前記検索入力の特徴ベクトル時系列の、前記検索対象の特徴ベクトル時系列における照合位置及び類似度を算出し、当該類似度に基づいて前記検索対象から楽曲を検索する検索部とを備えたことを特徴とする音楽検索装置。
第１及び第２の特徴抽出部は、ピッチ周波数系列から所定の時間窓毎に切り出した系列に対して、当該系列が取り得るピッチ曲線に沿うよう重み付けをしてから、所定の関数で得られる関数値との内積演算を行うことにより、特徴ベクトル時系列を生成することを特徴とする請求項１記載の音楽検索装置。
第１及び第２の特徴抽出部の少なくとも一方は、所定の時間窓毎に複数のピッチ周波数の候補を抽出し、前記時間窓内のピッチ周波数の候補に対して、当該候補が取り得るピッチ曲線に沿うよう重み付けをしてから、所定の関数で得られる関数値との内積演算を行うことにより、特徴ベクトル時系列を生成することを特徴とする請求項１記載の音楽検索装置。
重み付けに使用する重みは、抽出されたピッチ周波数の確度であることを特徴とする請求項２記載の音楽検索装置。
重み付けに使用する重みは、抽出されたピッチ周波数の確度であることを特徴とする請求項３記載の音楽検索装置。
重み付けに使用する重みは、抽出されたピッチ周波数の変動量であることを特徴とする請求項２記載の音楽検索装置。
重み付けに使用する重みは、抽出されたピッチ周波数の変動量であることを特徴とする請求項３記載の音楽検索装置。
検索入力及び検索対象の少なくとも一方の主旋律成分を強調して、ピッチ周波数の抽出対象とする強調処理部を備えたことを特徴とする請求項１記載の音楽検索装置。
所定の関数は、コサイン関数であることを特徴とする請求項１記載の音楽検索装置。