WO2009099146A1

WO2009099146A1 - 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法

Info

Publication number: WO2009099146A1
Application number: PCT/JP2009/051970
Authority: WO
Inventors: Hiromasa Fujihara; Masataka Goto
Original assignee: National Institute Of Advanced Industrial Science And Technology
Priority date: 2008-02-05
Filing date: 2009-02-05
Publication date: 2009-08-13
Also published as: JP5046211B2; US8880409B2; US20110054910A1; JP2009186687A

Abstract

　従来よりもアラインメント精度を高めることができる音楽音響信号と歌詞の時間的対応付けを自動で行うシステムを提供する。非摩擦音区間抽出部４は、音楽音響信号から摩擦音が存在しない区間を抽出する。アラインメント部１７は、時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデル１５を備える。アラインメント部１７は、時間的対応付け用特徴量抽出部１１から得た時間的対応付け用特徴量と、歌声区間推定部９から得た歌声区間と非歌声区間に関する情報と、音素ネットワークＳＮとを入力として、少なくとも非歌声区間には音素が存在しないという条件及び摩擦音が存在しない区間には摩擦音となる音素が存在しないという条件の下で、アラインメント動作を実行する。

Description

音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法

　本発明は、歌声と伴奏音とを含む楽曲の音楽音響信号と歌詞との時間的対応付け（アラインメント）を自動で行うシステム及び方法並びに該システムで用いるプログラムに関するものである。

　特開２００１－１１７５８２号公報（特許文献１）には、カラオケ装置において、歌唱者（入力者）の歌声の音素列と特定の歌手の歌声の音素列とをアラインメント部を利用して対応付けする技術が開示されている。しかしながらこの公報には、音楽音響信号と歌詞とを時間的に対応付ける技術は何も開示されていない。

　また特開２００１－１２５５６２号公報（特許文献２）には、歌声と伴奏音とを含む混合音の音楽音響信号から、各時刻において歌声を含む最も優勢な音高の音高推定を行って優勢音音響信号を抽出する技術が開示されている。この技術を用いると、音楽音響信号から伴奏音を抑制した優勢音音響信号を抽出することができる。

　そして藤原弘将、奥乃博、後藤真孝他が、「伴奏音抑制と高信頼度フレーム選択に基づく楽曲の歌手名同定手法」と題する論文［情報処理学会論文誌Vol.47 No.6（発表：2006.6）］（非特許文献２）にも、特許文献２に示された伴奏音を抑制する技術が開示されている。またこの論文には、歌声と非歌声を学習させた２つの混合ガウス分布（GMM）を用いて、優勢音音響信号から歌声区間と非歌声区間を抽出する技術が開示されている。さらにこの論文には、歌声に関する特徴量としてLPCメルケプストラムを用いることが開示されている。

　また藤原弘将、奥乃博、後藤真孝他著の「音楽音響信号と歌詞の時間的対応付け手法：歌声の分離と母音のＶｉｔｅｒｂｉアラインメント」と題する論文［情報処理学会研究報告２００６－ＭＵＳ－６６；３７頁～４４頁］（非特許文献２）には、伴奏を含む音楽音響信号から抽出された歌声と対応する歌詞を、時間的に対応付けるシステムが開示されている。このシステムでは、歌詞の各フレーズの開始時間と終了時間を推定するため、まず伴奏を含む音響信号から各時刻で最も優勢な音を、調波構造に基づいて分離する（伴奏音抑制）。最も優勢な音は，歌唱が存在する区間（歌声区間）では、多くの場合歌声の母音を含んでいる。そして，それらの分離された音響信号から歌声区間を抽出する（歌声区間検出）。さらに、分離歌声に適応された音響モデルを使用し、音声認識で用いられる強制（Viterbi）アラインメント手法により、歌詞と分離された歌声の対応関係を推定する。このシステムでは、母音のみを使用し、子音は無視している。
特開２００１－１１７５８２号公報特開２００１－１２５５６２号公報藤原弘将、奥乃博、後藤真孝他著の「伴奏音抑制と高信頼度フレーム選択に基づく楽曲の歌手名同定手法」と題する論文［情報処理学会論文誌Vol.47 No.6（発表：2006.6）］藤原弘将、奥乃博、後藤真孝他著の「音楽音響信号と歌詞の時間的対応付け手法：歌声の分離と母音のＶｉｔｅｒｂｉアラインメント」と題する論文［情報処理学会研究報告２００６－ＭＵＳ－６６；３７頁～４４頁］

　非特許文献２に示されたシステムで採用する手法は、評価実験により有効であることが確認されている。しかしながらこの従来のシステムでは、子音を正しくアラインメントできない問題（課題１）や、歌詞に書かれていない発声（例えば歌手のシャウトなど）に歌詞を割り当ててしまう問題（課題２）や、歌声の基本周波数F0が高い場合は歌声区間検出が必ずしも正確に検出できないという問題（課題３）があった。

　本発明の目的は、上記課題１乃至３をすべて解消できる音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法、並びにシステムに用いるプログラムを提供することにある。

　本発明の目的は、上記課題１及び２を解消できる音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法、並びにシステムを提供することにある。

　本発明の目的は、上記課題１及び３を解消できる音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法、並びにシステムを提供することにある。

　本発明の目的は、上記課題１乃至３のいずれかを一つを解消できる音楽音響信号と歌詞の時間的対応付けを自動で行うシステムを提供することにある。

　上記課題１乃至３をすべて解消する本発明の音楽音響信号と歌詞の時間的対応付けを自動で行うシステムは、優勢音音響信号抽出部と、歌声区間推定用特徴量抽出部と、非摩擦音区間抽出部と、歌声区間推定部と、時間的対応付け用特徴量抽出部と、音素ネットワーク記憶部と、アラインメント部とを有する。

　優勢音音響信号抽出部は、歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻（例えば１０ｍsec毎)において歌声を含む最も優勢な音の優勢音音響信号を抽出する。なおこの優勢音音響信号の抽出技術は、前述の特許文献２及び非特許文献１及び２において使用されている抽出技術と同じである。

　歌声区間推定用特徴量抽出部は、各時刻（例えば１０ｍsec毎：フレーム毎)における優勢音音響信号から歌声が含まれている歌声区間と歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出する。ここで利用可能な歌声区間推定用特徴量は、歌声の基本周波数F0と、基本周波数F0の周波数成分のｈ次倍音（ｈは正の整数）までの倍音パワーのそれぞれの対数値を正規化したｈ次元の正規化対数倍音パワーである。なお基本周波数F0の微分係数ΔF0を特徴量に加えるとさらに好ましい。

　歌声区間推定部は、複数の歌声区間推定用特徴量に基づいて、歌声区間と非歌声区間を推定して、歌声区間と非歌声区間に関する情報を出力する。

　非摩擦音区間抽出部は、音楽音響信号から摩擦音が存在しない区間を抽出する。

　また時間的対応付け用特徴量抽出部は、各時刻における優勢音音響信号から、歌声の歌詞と前記優勢音音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出する。具体的な実施の形態では、時間的対応付け用特徴量として、音素の共鳴特性等の２５次元の特徴量を抽出する。

　なお歌声区間推定用特徴量抽出部、非摩擦音区間抽出部及び時間的対応付け用特徴量抽出部により抽出した結果は、それぞれの部に記憶部を設けておき、少なくとも１曲分を記憶部に記憶しておき、後の処理の際に利用するようにしてもよい。

　音素ネットワーク記憶部は、通常、音楽音響信号に対応する楽曲の歌詞に関して複数の音素と、ショートポーズとによって構成された音素ネットワークを記憶する。本発明では、歌詞に含まれる二つのフレーズの境界に位置するショートポーズを全ての母音音素を吸収するフィラーとしたものを音素ネットワークとして記憶している。このような音素ネットワークは、例えば、歌詞を音素列に変換し、その後、フレーズの境界をフィラーに変換し、単語の境界を１個のショートポーズに変換することにより得られる。日本語の歌詞であれば、母音または母音及び子音と、ショートポーズと、フィラーとからなる音素列を用いることができる。

　アラインメント部は、時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備えている。そしてアラインメント部は、音素ネットワーク中の複数の音素と優先音音響信号とを時間的に対応付けるアラインメント動作を実行する。具体的には、アラインメント部は、時間的対応付け用特徴量抽出部から出力される時間的対応付け用特徴量と、歌声区間と非歌声区間に関する情報と、摩擦音が存在しない区間に関する情報と、音素ネットワークとを入力として、歌声用音響モデルを用いて、少なくとも非歌声区間には音素が存在しないという条件及び摩擦音が存在しない区間には摩擦音となる音素が存在しないという条件の下で、アラインメントを実行して、音楽音響信号と歌詞の時間的対応付けを自動で行う。

　本発明によれば、第１の特徴として、歌声区間及び非歌声区間の推定に用いるのに適した特徴量（歌声区間推定用特徴量）として、歌声の基本周波数F0と、基本周波数F0の周波数成分のｈ次倍音（ｈは正の整数）までの倍音パワーのそれぞれの対数値を正規化したｈ次元の正規化対数倍音パワーとを少なくとも用い、好ましくは基本周波数F0の微分係数ΔF0を加えて用いるので、従来よりも歌声の基本周波数F0が高い場合における歌声区間の検出を正確に行うことができる。なおｈ次倍音の次元（ｈの値）は、試験を行って適宜に定めればよい。特に、本発明のように、歌声の基本周波数F0とｈ次元の正規化対数倍音パワーとの二つの特徴量を用いると、スペクトル包絡を推定せずに各倍音のパワーを直接比較するため、基本周波数F0が高い場合でも、歌声の音量の如何にかかわらず、歌声区間の検出を正確に行うことができる。これは、非特許文献２に示された従来の技術では、ケプストラムやLPCなどの特徴量を用いているが、これらの特徴量を使用する場合には、スペクトル包絡を推定するため、高い基本周波数F0を持つ音に対しては適切に機能しない場合があった。これに対して本発明で使用する正規化対数倍音パワーを用いると、スペクトル包絡を推定することなく高調波構造同士を比較することができる。そしてさらに微分係数ΔF0を特徴量に加えると、歌特有のピッチの変動を考慮することができる。

　また本発明では、第２の特徴として、歌詞に含まれる二つのフレーズの境界に位置するショートポーズを全ての母音音素を吸収するフィラーとしたものを音素ネットワークとして記憶しているので、歌詞に書かれていない発声（例えば歌手のシャウトなど）をフィラーが吸収して、これらの発音に歌詞を割り当ててしまう問題が発生するのを防止することができる。さらに本発明によれば、アラインメント部は、少なくとも非歌声区間には音素が存在しないという条件の下で、アラインメント動作を実行するので、非歌声区間の影響を極力排除した状態で、音素ネットワーク中の複数の音素と各時刻における優先音音響信号とを時間的に対応付けることができる。

　その上で本発明によれば、第３の特徴として、非摩擦音区間抽出部を設けて、音楽音響信号から摩擦音が存在しない区間を抽出し、アラインメント部における条件に、摩擦音が存在しない区間には摩擦音となる音素が存在しないという条件を加えた。子音の情報も使用するための最も単純なアプローチは、強制アラインメントで使われる音素ネットワークを作成する際に、子音も用いることであることが分かっている。しかし、本発明のように、伴奏音抑制手法において調波構造を利用する場合には、無声子音を分離することができない。そのため、それだけでは無声子音を正しくアラインメントする精度の向上には限界がある。そこで本発明では、無声子音の中でも摩擦音の候補を分離前の入力音響信号から直接推定することとし、摩擦音の情報もアラインメントの手がかりとして用いることとした。その結果、本発明によれば、従来よりも、高い精度で、音楽音響信号に同期した時間タグ付きの歌詞データを自動で得ることができる。ここで摩擦音のみを用いたのは、摩擦音の持続時間長は一般に他の無声子音の持続時間長より長く、検出がし易いためである。そして摩擦音が存在している区間を抽出することは、必ずしも容易ではない。これは子音と摩擦音の区別が難しい場合があるためである。これに対して摩擦音が存在しない区間を抽出することは比較的容易にである。そのため本発明では、摩擦音が存在しない区間に歌詞の摩擦音が割り当てられることがないようにアラインメント動作を行うことにした。これによってアラインメントの精度が向上した。

　なお上記第１乃至第３の特徴は、いずれか一つを用いた場合でも、従来のシステムと比べて精度を高めることができる。したがって上記第１乃至第３の特徴の少なくとも一つの特徴を用いたシステムも本発明に包含される。すなわち、第１の特徴と第３の特徴とを組み合わせた発明、第１の特徴と第２の特徴とを組み合わせた発明、第２の特徴と第３の特徴を組み合わせた発明、第１の特徴のみを備えた発明、第２の特徴のみを備えた発明、第３の特徴のみを備えた発明も、本発明に包含される。

　歌声区間推定用特徴量抽出部で用いるｈ次倍音は、任意であるが、実験によると、１２次倍音が好ましいことが分かった。そのためｈ次元の正規化対数倍音パワーは１２次元の正規化対数倍音パワーであることが好ましい。

　また歌声区間推定用特徴量抽出部は、例えば、次のようにしてｈ次元の正規化対数倍音パワーを抽出する。まず各時刻における優勢音音響信号のスペクトルから基本周波数F0の整数倍の周波数成分のパワーをｈ次倍音まで抽出する。次に、ｈ次倍音までの周波数成分のパワーの対数を計算してｈ次元の対数倍音パワーとする。そして、楽曲全体で、すべての対数倍音パワーの和が０になるようにｈ次元の対数倍音パワーを正規化してｈ次元の正規化対数倍音パワーとして抽出する。

　さらに非摩擦音区間抽出部は、例えば、次のようにして摩擦音が存在しない区間を抽出することができる。まず音楽音響信号の各時刻における周波数スペクトルからボトムエンベロープを推定する。そして推定したボトムエンベロープの利用有効帯域のうち摩擦音に含まれる周波数成分が含まれる高周波帯域における合計対数パワーと、ボトムエンベロープの利用有効帯域における全帯域合計対数パワーとの比が、予め定めた値より小さくなる区間を摩擦音が存在しない区間として抽出する。ここで「利用有効帯域」とは、ボトムエンベロープに摩擦音の特徴が現れる帯域範囲である。この抽出法は、摩擦音では、ボトムエンベロープの全帯域のうち高周波帯域に含まれる周波数成分が多くなるという事実を利用している。そして予め定めた値は、個人差はあるものの、試験によると、０．４程度が好ましいことが分かっている。

　本発明は、方法としても特定することができる。本発明の方法では、以下のステップを実行する。まず歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻において前記歌声を含む最も優勢な音の優勢音音響信号を抽出する（優勢音音響信号抽出ステップ）。各時刻における優勢音音響信号から歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出する（歌声区間推定用特徴量抽出ステップ）。記音楽音響信号から摩擦音が存在しない区間を抽出する（非摩擦音抽出ステップ）。複数の歌声区間推定用特徴量に基づいて、歌声区間と非歌声区間を推定して、歌声区間と非歌声区間に関する情報を出力する（歌声区間抽出ステップ）。各時刻における優勢音音響信号から、歌声の歌詞と音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出する（時間的対応付け用特徴量抽出ステップ）。音楽音響信号に対応する楽曲の歌詞に関して複数の音素と複数のショートポーズとによって構成された音素ネットワークを音素ネットワーク記憶部に記憶する（音素ネットワーク記憶ステップ）。時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを用いて、音素ネットワーク中の複数の音素と優先音音響信号とを時間的に対応付けるアラインメント動作を実行する（アラインメントステップ）。そして前述の歌声区間推定用特徴量を抽出するステップでは、歌声の基本周波数F0と、基本周波数F0の周波数成分のｈ次倍音（ｈは正の整数）までの倍音パワーのそれぞれの対数値を正規化したｈ次元の正規化対数倍音パワーとを歌声区間推定用特徴量として抽出する。また音素ネットワークに含まれる複数のショートポーズのうち、歌詞に含まれる二つのフレーズの間に位置すショートポーズを全ての母音音素を吸収するフィラーとする。そして時間的対応付け用特徴量と、歌声区間と前記非歌声区間に関する情報と、摩擦音が存在しない区間に関する情報と、音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件及び摩擦音が存在しない区間には摩擦音となる音素が存在しないという条件の下で、アラインメント動作を実行する。

　本発明の方法を、コンピュータを用いて本発明のシステムで実施する場合に用いるプログラムは、上記方法の各ステップをコンピュータ内で実行するように構成されている。そしてこのプログラムは、コンピュータ読み取り可能な記憶媒体に記憶させておくことができる。

音楽音響信号と歌詞の時間的対応付けを自動で行うシステムの実施の形態をコンピュータを用いて実現する場合に、コンピュータ内に実現される機能実現部の構成を示すブロック図である。図１の実施の形態をプログラムをコンピュータで実行することにより実施する場合のステップを示すフローチャートである。伴奏音抑制処理について、その処理手順を示す図である。（Ａ）乃至（Ｄ）は、音楽音響信号から優勢音音響信号を抽出する仮定を説明するために用いる波形図である。歌声推定用特徴量の抽出ステップを示す図である。歌声区間推定部の具体的な構成を示すブロック図である。図６に示した歌声区間推定部をプログラムにより実現する場合のフローチャートである。歌声区間の検出をプログラムで実現する際のフローチャートである。歌声状態（Ｓ_v）と非歌声状態（Ｓ_N）を行き来する隠れマルコフモデル（ＨＭＭ）を用いることを説明するために用いる図である。ビタビアラインメントの分析条件を示す図である。歌詞からアラインメント用の音素列への変換の例を示す図である。フィラーの構成を概念的に示す図である。（Ａ）乃至（Ｃ）はフィラーモデルの機能を説明するために用いる図である。スネアドラムの音、摩擦音、ハイハットシンバルの音を含むスペクトログラムの例を示す図である。スペクトルのボトムエンベロープの例を示す図である。摩擦音が存在しない区間を抽出するために用いる演算ステップを示す図である。アラインメント部をプログラムによりコンピュータで実現する場合のプログラムのアルゴリズムを示すフローチャートである。（Ａ）はビタビアラインメントを利用して、時刻において音楽音響信号から抽出した優勢音音響信号の信号波形に対して、音素ネットワークを時間的に対応付けた様子を示す図であり、（Ｂ）はアラインメントが完了した後、音素列から歌詞に戻すことによって伴奏音を含む混合音の音楽音響信号と歌詞の時間的対応付けが完了した様子を示す図である。時間情報を伴う適応用音素ラベルの一例を示す図である。音響モデルを作成する場合の流れを示すフローチャートである。音響モデルを作成する場合の流れを示すフローチャートである。音響モデルを作成する場合の流れを示すフローチャートである。評価基準を説明するために用いる図である。評価実験の結果を示す図である。

　以下図面を参照して、本発明の音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及びその方法の実施の形態の一例について詳細に説明する。図１は、音楽音響信号と歌詞の時間的対応付けを自動で行うシステム１の実施の形態をコンピュータを用いて実現する場合に、コンピュータ内に実現される機能実現部の構成を示すブロックである。また図２は、図１の実施の形態をプログラムをコンピュータで実行することにより実施する場合のステップを示すフローチャートである。このシステム１は、音楽音響信号記憶部３と、非摩擦音区間抽出部４と、優勢音音響信号抽出部５と、歌声区間推定用特徴量抽出部７と、歌声区間推定部９と、時間的対応付け用特徴量抽出部１１と、音素ネットワーク記憶部１３と、歌声用音響モデル１５を備えたアラインメント部１７とを備えている。

　本発明は基本的なアプローチとして、大きく以下の３つのステップを実行する。
　ステップ１：伴奏音抑制
　ステップ２：歌声区間検出
　ステップ３：アラインメント（時間的対応付け）

　ステップ１を実行するために、音楽音響信号記憶部３には、対象とする歌声と伴奏音とを含む複数の楽曲の音楽音響信号が記憶されている。優勢音音響信号抽出部５は、図３に示すフローチャートに従って、歌声と伴奏音とを含む楽曲の音楽音響信号Ｓ１から、各時刻（具体的には１０ｍsec毎)において歌声を含む最も優勢な音の優勢音音響信号Ｓ２を抽出する。本実施の形態においては、優勢音音響信号とは、伴奏音が抑制された信号と見ることができる。優勢音音響信号の抽出技術は、前述の特開２００１－１２５５６２号公報（特許文献２）及び非特許文献１に示された抽出技術と同じである。歌声と伴奏音とを含む楽曲の音楽音響信号Ｓ１の信号波形は、例えば図４（Ａ）に示すような信号波形であり、優勢音音響信号抽出部５が出力する伴奏音が抑制された優勢音音響信号Ｓ２の信号波形は、図４（Ｄ）に示すよう信号波形である。以下優勢音音響信号の抽出方法について説明する。

　まず歌声と伴奏音とを含む楽曲（混合音）の音楽音響信号から、後述する歌声区間推定用特徴量及び時間的対応付け用特徴量［メロディ（歌声）の音韻的特徴を表す特徴量等］を抽出するためには、音楽音響信号から伴奏音の影響を低減させた優勢音音響信号を得ることが必要である。そこで優勢音音響信号抽出部５では、図３に示す以下の３つのステップを実行する。

　ＳＴ１：メロディ（歌声）の基本周波数F0を推定する。
　ＳＴ２：推定された基本周波数に基づいて、メロディ（歌声）の調波構造を抽出する。
　ＳＴ３：抽出された調波構造を優勢音音響信号に再合成する。

　なお、優勢音音響信号には、間奏などの区間では歌声以外の音響信号（伴奏音や無音）を含んでいる場合がある。したがって本実施の形態では、伴奏音の「除去」ではなく伴奏音の「低減」と表現する。以下ステップＳＴ１乃至ＳＴ３について説明する。

（ＳＴ１：F0推定処理について）
　メロディ（歌声）の基本周波数の推定方法には種々の方法が知られている。例えば、音源数を仮定しない音高推定手法（PreFEst）により、基本周波数を推定する方法を用いることができる（例えば、後藤真孝著 "音楽音響信号を対象としたメロディとベースの音高推定"、電子情報通信学会論文誌 D-II, Vol.J84-D-II, No.1, pp.12-22, January 2001.参照）。ここで、PreFEstはメロディとベースの基本周波数F0を推定する手法として知られている。制限された周波数帯域において、各時刻で最も優勢な調波構造（つまり、最も大きな音）を持つ優勢音の基本周波数F0を推定する手法である。この音高推定手法（PreFEst）では、調波構造の形状を表す確率分布をあらゆる音高（基本周波数）に対して用意する。そして、それらの混合分布（加重混合＝重み付き和）として入力の周波数成分をモデル化する。

　メロディ（歌声）は中高域の周波数帯域において、各時刻で最も優勢な調波構造を持つ場合が多い。そこで周波数帯域を適切に制限することで、メロディ（歌声）の基本周波数F0を推定することができる。以下、PreFEstの概要について説明する。なお、以下の説明で用いられるｘはcentの単位で表される対数周波数軸上の周波数であり、（ｔ）は時間を表すものとする。また、centは、本来は音高差（音程）を表す尺度であるが、本明細書では、４４０×２｛^(3/12)-5｝［Ｈｚ］を基準として、次式のように絶対的な音高を表す単位として用いる。

　パワースペクトルΨ_p ^(t)（ｘ）に対して、メロディの周波数成分の多くが通過するように設計された帯域通過フィルタ（Band Pass Filter）を用いる。例えば、4800cent以上の成分を通過させるフィルタを用いるのが好ましい。フィルタを通過後の周波数成分は、
　　ＢＰＦ（ｘ）・Ψ_p ^(t)（ｘ）
と表される。但し、ＢＰＦ（ｘ）はフィルタの周波数応答である。以後の確率的処理を可能にするため、フィルタを通過後の周波数成分を確率密度関数（ＰＤＦ）として、以下のように表現する。

　その後、周波数成分の確率密度関数ＰＤＦが、全ての可能な基本周波数F0に対応する音モデル（確率分布）の重み付き和からなる確率モデル：

から生成されたと考える。

　ここで、ｐ（ｘ｜Ｆ）は、それぞれのF0についての音モデルであり、Ｆｈは取りうるF0の上限値を表し、Ｆｌは取りうるF0の下限値を表すものとする。また、ｗ^(t)（Ｆ）は音モデルの重みであり、

を満たす。すなわち、音モデルとは典型的な調波構造を表現した確率分布である。そして、ＥＭ（Expectation Maximization）アルゴリズムを用いてｗ^(t)（Ｆ）を推定し、推定したｗ^(t)（Ｆ）を基本周波数F0の確率密度関数（ＰＤＦ）と解釈する。最終的に、ｗ^(t)（Ｆ）の中の優勢なピークの軌跡をマルチエージェントモデルを用いて追跡することで、メロディ（歌声）のF0系列（F0　Estimation）を得る。図４は、このようにして取得したF0系列（F0　Estimation）を示している。

（ＳＴ２：調波構造抽出）
　このようにして推定された基本周波数F0に基づいて、メロディの調波構造の各倍音成分のパワーを抽出する。各周波数成分の抽出には、前後ｒcentずつの誤差を許容し、この範囲で最もパワーの大きなピークを抽出する。ｌ次倍音（ｌ＝１，・・・，Ｌ）のパワーＡ_lと周波数Ｆ_lは、以下のように表される。

　ここで、Ｓ（Ｆ）はスペクトルを表し、Ｆの上部にバー（－）のある記号は、PreFEstによって推定された基本周波数F0を表す。本願発明者らの実験では、ｒの値として２０を用いて調波構造の抽出を実施し、後述のとおりその効果を確認した。図４（Ｃ）は、抽出した各周波数成分の調波構造を示している。

（ＳＴ３：再合成）
　抽出された調波構造を正弦波重畳モデルに基づいて再合成することで、各時刻において歌声を含む最も優勢な音の優勢音音響信号を得る。ここで時刻ｔにおけるｌ次倍音の周波数をＦ_l ^(t)とし、振幅をＡ_l ^(t)と表す。各フレーム間（時刻ｔと時刻ｔ＋１との間）の周波数が線形に変化するように、位相の変化を２次関数で近似する。また、各フレーム間の振幅の変化は１次関数で近似する。再合成された優勢音音響信号ｓ（ｋ）は、以下のように表される。なお以下の式でθ_l（ｋ）は、ｌ次倍音の時刻ｋにおける位相であり、ｓ_l（ｋ）は、ｌ次倍音の時刻ｋにおける波形である。

　ここで、ｋは時間（単位：秒）を表し、時刻ｔにおいてｋ＝０とする。また、Ｋは（ｔ）と（ｔ＋１）の時間の差、つまりフレームシフトを秒の単位で表す。

　θ_l,0 ^(t)は、位相の初期値を表し、入力信号の先頭のフレームでは、θ_l,0 ^(t)＝０とする。以後のフレームでは、θ_l,0 ^(t)は、前フレームのｌ次倍音の周波数Ｆ_l ^(t-1)と、初期位相θ_l,0 ^(t-1)とを用いて

で与えられる。

　図１に戻って、歌声区間推定用特徴量抽出部７は、各時刻（具体的には、１０ｍsec毎)における優勢音音響信号から歌声が含まれている歌声区間と歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出する。本実施の形態では、１２次元の正規化対数倍音パワーと、１次元の基本周波数F0と、１次元の基本周波数F0の微分係数（ΔF0）をここで利用可能な歌声区間推定用特徴量として用いる。本実施の形態では、歌声区間推定用特徴量抽出部７は、歌声と非歌声を識別するために、歌声区間推定用特徴量（スペクトル特徴量）として、下記の三種類の特徴量を抽出する。

　・１２次元の正規化対数倍音パワー（第１の種類のスペクトル特徴量）及び基本周波数F0（第２の種類のスペクトル特徴量）について：
　高調波構造の抽出に基づく伴奏音抑制手法の後に歌声区間検出を行うことは、抽出された高調波構造が歌声かどうかを判定する問題と捉えることができる。非特許文献２に記載の従来のシステムでは、抽出された高調波構造のスペクトル包絡を推定し、学習データ中のスペクトル包絡との距離を計算していた。しかし、ケプストラムやLPCを用いて、高いF0を持つ音のスペクトル包絡を推定した場合、推定結果は各倍音成分の間の谷の部分に大きく影響を受ける。そのため、いくつかの楽曲（とくに女性歌手の楽曲）では、歌声区間検出が適切に機能しない場合があった。この問題はつまり、抽出された高調波構造から推定されたスペクトル包絡は、各倍音成分付近の周波数帯域以外は必ずしも信頼できないということである。なぜなら、ある高調波構造に対応するスペクトル包絡は、いくつもの可能性が考えられるからである。そのため、高調波構造からスペクトル包絡を完全に復元することは、困難である。また、MFCCやLPCなどのスペクトル包絡推定手法は、ある１つのスペクトル包絡の可能性のみを推定するため、元は同じスペクトル包絡であってもF0が異なる二つの高調波構造同士の距離が、適切に小さくならない場合がある。この問題を解決するためには，距離を計算する際に、高調波構造の各倍音成分上の信頼できる点のみを使用するとよい。そこで本実施の形態では、２つの高調波構造のF0がほとんど等しい場合は、F0の各倍音のパワーを直接比較できることに着目した。そこで各倍音成分のパワーの値を特徴量として直接使用し、学習データベース中で近いF0を持つ高調波構造のみと比較することにした。このアプローチは、スペクトル包絡を推定する必要がないため、学習データが十分に存在する場合は高い周波数の音に対しても頑健である。

　さらに，近いF0を持つ高調波構造のみと比較するため、F0の値自体も特徴量として追加した。そして、その特徴ベクトルをGMMを使用してモデリングすることで、GMMの各ガウス分布それぞれが、F0が近い特徴量をカバーする。GMMの尤度を計算する際は、F0が大きく異なるガウス分布の影響は極めて小さくなる。それにより，近いF0の値を持つ高調波構造のみとの比較が実現できる。しかし、高調波構造の各倍音パワーの絶対値は、各楽曲ごとの音量の違いにより、バイアスがかかっている。そのため、各楽曲ごとに倍音パワーを正規化する必要がある。正規化については後に説明する。

　図１の歌声区間推定用特徴量抽出部７は、図５に示すステップＳＴ２１～ＳＴ２４に従って、ｈ次元の正規化対数倍音パワーＰ^′t _hを抽出する。まずステップＳＴ２１で、基本F0を入力する。次にステップＳＴ２２で、各時刻における優勢音音響信号のスペクトルから基本周波数F0の整数倍（ｈ倍）の周波数成分のパワーをｈ次倍音（本実施の形態では、１２次倍音）まで抽出する。次に、ステップＳＴ２３において、ｈ次倍音（１２次倍音）までの周波数成分のパワーの対数を計算してｈ次元（１２次元）の対数倍音パワーを得る。さらにステップＳＴ２４において、楽曲全体で、すべての対数倍音パワーの和が０になるようにｈ次元（１２次元）の対数倍音パワーを正規化してｈ次元（１２次元）の正規化対数倍音パワーＰ^′t _hとして抽出する。正規化対数倍音パワーは、基本周波数F0が高くなった場合でも、フレームの特徴を明確に表すのに役立つ。

　正規化対数倍音パワーＰ^′tの演算には、下記の式を用いる。

　上記式において、前方の演算logＰ^t _hはｈ次倍音の各周波数成分のパワーの対数であり、後者の演算は楽曲全体の周波数成分のパワーの対数の平均値である。上記式にいて、ｔは時刻であり、Ｔは１曲中の全フレーム数（所定のフレーム幅の窓関数を用いて10msec間隔で１曲の信号からフレームを順次取り出した場合に得られるフレームの全数）であり、Ｈは抽出倍音数（本例では１２）である。

　・ΔF0（第３の種類のスペクトル特徴量）について：
　第３の種類のスペクトル特徴量として、図５のステップＳＴ２５において計算した基本周波数F0の微分係数（ΔF0）を用いる。これは、歌声の動的な性質を表現するのに役立つ。歌声は他の楽曲と比較して、ビブラートなどに起因する時間変動が多いので、基本周波数F0の軌跡の傾きを表す微分係数ΔF0は、歌声と非歌声の識別に適していると考えられるからである。なおΔF0の計算には、次式のように５フレーム間の回帰係数を用いた。

　ここで、ｆ［ｔ］は、時刻ｔにおける周波数（単位：cent）である。

　そして前述のステップ２を実行するために、歌声区間推定部９は、各時刻で抽出した複数の歌声区間推定用特徴量に基づいて、歌声区間と非歌声区間を推定して、歌声区間と非歌声区間に関する情報を出力する。本実施の形態の歌声区間推定部９は、図６に示す構成を有している。図６に示した歌声区間推定部９では、図２に示すように、予め複数の学習用楽曲８に基づいて学習により得られた歌声と非歌声の複数の混合ガウス分布を記憶するガウス分布記憶部９１を備えている。歌声区間推定部９は、１曲の音楽音響信号Ｓ１の全期間において、複数の歌声区間推定用特徴量と複数の混合ガウス分布とに基づいて、歌声区間と非歌声区間を推定し、その情報を出力する。そこでこの歌声区間推定部９は、さらに対数尤度計算部９２と、対数尤度差計算部９３と、ヒストグラム作成部９４と、バイアス調整値決定部９５と、推定用パラメータ決定部９６と、重み付け部９７と、最尤経路計算部９８とを備えている。対数尤度差計算部９３と、ヒストグラム作成部９４と、バイアス調整値決定部９５と、推定用パラメータ決定部９６とは、歌声区間の推定を行う前の前処理において使用される。図７は、図６に示した歌声区間推定部９をプログラムによりコンピュータで実現する場合のフローチャートを示している。また図８には、歌声区間の検出をプログラムで実現する際のフローチャートを示している。図８は、図７のステップＳＴ１１とステップＳＴ１６の詳細に相当する。図８にけるステップＳＴ１１′はステップＳＴ１１においてもステップＳＴ１２と同様に対数尤度を計算していることを示している。

　対数尤度計算部９２は、音楽音響信号Ｓ１の最初から最後までの期間中の各時刻にいて、歌声区間推定用特徴量抽出部７が抽出した歌声区間推定用特徴量（ステップＳＴ１１）と、事前に前処理によりガウス分布記憶部９１に記憶した混合ガウス分布とに基づいて、各時刻における歌声対数尤度と非歌声対数尤度とを計算する。

　そして対数尤度差計算部９３は、各時刻における歌声対数尤度と非歌声対数尤度との対数尤度差を計算する（ステップＳＴ１２）。この計算は、入力された音楽音響信号から抽出された歌声区間推定用特徴量（特徴ベクトル列）に対して、次式のように歌声対数尤度と非歌声対数尤度の対数尤度差ｌ（ｘ）を計算する。

　上記式の前方の関数が歌声対数尤度を示し、後者の関数が非歌声関数尤度を示す。ヒストグラム作成部９４は、音楽音響信号の全期間から抽出した優先音音響信号から得られる複数の対数尤度差に関するヒストグラムを作成する（ステップＳＴ１３）。図７には、ヒストグラム作成部９４が作成したヒストグラムの例が例示してある。

　そしてバイアス調整値決定部９５は、作成したヒストグラムを、楽曲に依存した、歌声区間における対数尤度差のクラスと非歌声区間における対数尤度差のクラスに２分割する場合に、クラス間分散を最大とするような閾値を決定し、この閾値を楽曲依存のバイアス調整値η_dyn.と定める（ステップＳＴ１４）。図７には、この閾値を図示してある。また推定用パラメータ決定部９６は、バイアス調整値η_dyn.を補正するため（アラインメントの精度を高めるため又は歌声区間を広げる調整のため）に、バイアス調整値η_dyn.にタスク依存値η_fixedを加算して歌声区間を推定する際に用いる推定用パラメータη（＝η_dyn.＋η_fixed）を決定する（ステップＳＴ１５）。混合ガウス分布（ＧＭＭ）の尤度には、楽曲によってバイアスがかかるため、全ての楽曲に適切な推定用パラメータηを定めるのは困難である。そこで、本実施の形態では、推定用パラメータηをバイアス調整値η_dyn.とタスク依存値η_fixedとに分割することとした。なおこのタスク依存値η_fixedは、楽曲の種別等を考慮して予め手動で設定する。一方、バイアス調整値η_dyn.は前述のステップを経てまたは公知の閾値自動設定法を用いて楽曲毎に自動的に設定してもよいし、楽曲の種別に応じて、代表的な学習用音楽音響信号に基づいて予め設定してもよい。

　そして重み付け部９７は、各時刻における歌声対数尤度及び非歌声対数尤度を推定用パラメータηを用いて重み付けを行う（図８のステップＳＴ１６Ａ）。なおこの例では、ここで使用する歌声対数尤度及び非歌声対数尤度として前処理の際に計算したものを用いる。すなわち重み付け部９７は、歌声対数尤度及び非歌声対数尤度の出力確率を、次式のように近似する。

　ここで、N_GMM（ｘ；θ）は混合ガウス分布（ＧＭＭ）の確率密度関数を表す。また、ηは正解率と棄却率の関係を調整する推定用パラメータである。歌声ＧＭＭのパラメータθ_vと非歌声ＧＭＭのパラメータθ_Nはそれぞれ学習データの歌声区間と非歌声区間とを用いて学習する。本願発明者らの実験では、混合数６４のＧＭＭを用いて実施し後述のとおりその効果を確認した。

　最尤経路計算部９８は、音楽音響信号の全期間から得られる、重み付けされた複数の歌声対数尤度及び重み付けされた複数の非歌声対数尤度を、それぞれ隠れマルコフモデルの歌声状態（Ｓ_Ｖ）の出力確率及び非歌声状態（Ｓ_N）の出力確率とみなす（図のステップＳＴ１６Ｂ）。そして最尤経路計算部９８は、音楽音響信号の全期間における歌声状態と非歌声状態の最尤経路を計算し（図８のステップＳＴ１６Ｃ）、最尤経路から音楽音響信号の全期間における歌声区間と非歌声区間に関する情報を決定する。すなわち歌声の検出には、図９に示すように、歌声状態（Ｓ_v）と非歌声状態（Ｓ_N）を行き来する隠れマルコフモデル（ＨＭＭ）を用いることとする。歌声状態とは、文字通り「歌声が存在する状態」を表し、「非歌声状態」は歌声が存在しない状態を表している。最尤経路計算部９８は、次式のように、入力音響信号から抽出された特徴ベクトル列に対して、歌声・非歌声状態の最尤経路

を検索する。

　上記式において、ｐ（ｘ｜ｓ_ｔ）は状態の出力確率を表し、ｐ（ｓ_ｔ＋１｜ｓ_ｔ）は状態ｓ_ｔ＋１から状態ｓ_ｔへの遷移確率を表している。

　この歌声区間推定部９では、前処理以外の通常の推定動作時においては、歌声区間推定用特徴量抽出部７から各時刻において出力される歌声区間推定用特徴量から、対数尤度計算部９２が計算した歌声対数尤度及び非歌声対数尤度に、直接重み付けを行って、最尤経路を計算することになる。このような前処理によって対数尤度差のヒストグラムを利用して、歌声対数尤度及び非歌声対数尤度のバイアス調整値η_dyn（閾値）を決定すると、音楽音響信号に合ったバイアス調整値η_dynを決定することができる。そしてバイアス調整値η_dynにより定めた推定用パラメータηを用いて重み付けを行うと、楽曲ごとの音楽音響信号の音響的特性の違いによって現れる歌声区間推定用特徴量の傾向に合わせて、歌声状態と非歌声状態との境界部を中心にして歌声対数尤度及び非歌声対数尤度を調整することができ、歌声区間及び非歌声区間の境界を、楽曲に合わせて適切に調整することができる。

　図１に戻って、時間的対応付け用特徴量抽出部１１は、各時刻における優勢音音響信号から、歌声の歌詞と優勢音音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出する。具体的な実施の形態では、時間的対応付け用特徴量として、音素の共鳴特性等の２５次元の特徴量を抽出する。この処理は、次のアラインメント処理において必要な前処理に当たる。詳細については図１０に示すビタビアラインメントの分析条件を参照して後述するが、本実施の形態で抽出する特徴量は、１２次元ＭＦＣＣ、１２次元ΔＭＦＣＣ及びΔパワーの２５次元とする。

　音素ネットワーク記憶部１３は、音楽音響信号に対応する楽曲の歌詞に関して複数の音素によって構成された音素ネットワークＳＮを記憶する。このような音素ネットワークＳＮは、例えば、日本語の歌詞であれば、歌詞を音素列に変換し、その後、フレーズの境界をフィラーに変換し、単語の境界を１個のショートポーズに変換することにより、母音と子音と、ショートポーズとフィラーとからなる音素列を用いて構成するのが好ましい。与えられた歌詞のテキストデータを元に、アラインメントに用いる文法（これを「アラインメント用の音素列」と定義する。）を作成する。

通常、日本語の歌詞のためのアラインメント用の音素列は、ショートポーズ（sp）すなわち空白と母音と子音とから構成される。これは、無声子音は調波構造を持たず、伴奏音抑制手法で抽出できないこと、有声子音も発声長が短いため安定して基本周波数F0を推定するのが難しいことなどがその理由である。具体的な処理としては、まず歌詞をそのまま音素列に変換（実質的には、歌詞を音読したものをローマ字に変換する作業に等しい）し、その後、以下の２つの規則（日本語用の文法）に従って、アラインメント用の音素列に変換する。

　ルール１：歌詞中の文やフレーズの境界を複数回のショートポーズ（sp）に代えてフィラーに変換する。
　ルール２：単語の境界を一回のショートポーズに変換する。
　なお上記ルール１及び２には、英語の歌詞にも適用できる。

　図１１は、英語の歌詞（Original Lyrics)からアラインメント用の音素列（音素ネットワーク）への変換の例を示している。まずオリジナルの歌詞のフレーズを表すテキストデータＡが音素列（Sequence of the phonemes）Ｂに変換される。音素列Ｂに上記「文法」を当てはめることにより、母音と子音と、フィラー（FILLER）と、ショートポーズ（sp）から構成される「アラインメント用の音素列」Ｃに変換される。

　この例では、英語の歌詞「Nothing untaken. Nothing lost.」という歌詞Ａが、「N AA TH IH NG AH N T EY K AH N N AA TH IH NG L AO S T」という音素列Ｂに変換され、さらに、母音と子音とを含む音素と、フィラー（FILLER）と、ショートポーズ（sp）からなるアラインメント用の音素列Ｃに変換される様子が示されている。このアラインメント用の音素列Ｃが、音素ネットワークＳＮである。ここでフィラー（FILLER）とは、全ての母音音素を吸収する特殊なショートポーズである。図１２はフィラー（FILLER）のこの機能を示している。すなわちフィラー（FILLER）の位置で歌詞に書かれていない発音（母音音素）、例えば「Ｏｈ，Ｏｈ、Ｏｈ」の発音があると、これらの発音はいくつあってもフィラー（FILLER）で置き換えられる［すなわちこれらの母音音素は、フィラー（FILLER）で吸収されて、歌詞に割り当てられることがない］。このフィラー（FILLER）は、音声認識技術において使用されているものであるが、歌声の認識には使用されたことがないものである。図１３（Ａ）乃至（Ｃ）は、フィラー（FILLER）の機能を概念的に示す図である。図１３（Ａ）は、実際の日本語の歌唱内容を示している。歌詞内容をアルファベットで表記してある。すなわち歌詞は、「Aishi Tsuzukete Iru Hito Sono Hokorashigena Kao Niwa」である。この例では、フレーズの境界に、「Ｏｈ，Ｏｈ、Ｏｈ」の歌詞に書かれていない発音がある。図１３（Ｂ）は、非特許文献２に示された従来技術と同様にフレーズの境界を複数のショートポーズに置き換えた場合において、フレーズの境界に発音された「Ｏｈ，Ｏｈ、Ｏｈ」を、前後の歌詞で無理矢理当てはめてしまった結果を示している。図１３（Ｃ）は、本実施の形態において、二つのフレーズの境界に置かれた従来のショートポーズをフィラー（FILLER）に置き換えた結果を示している。この結果では、「Ｏｈ，Ｏｈ、Ｏｈ」の発音がフィラー（FILLER）と置き換えられて（すなわち「Ｏｈ，Ｏｈ、Ｏｈ」の発音がフィラー（FILLER）に吸収されて）、この発音が歌詞に割り当てられていない。

　繰り返しになるが、前述の通り、歌詞中に書かれていない発声が原因のエラーを低減させるために、本実施の形態では、前述のフィラーモデルを使用する。図１２に示すように、フィラーモデルは連続する２つのフレーズ間にあらゆる母音が複数回登場することを許容する。フィラーモデルはすなわちあらゆる母音が登場してもこれらを吸収して歌詞と割り当てることをしない。従前のシステムでは、ショートポーズを表す音素/SP/を用いて、そのような短時間の非歌声区間を表現していた。しかし、歌手が歌詞に書かれていない単語を非歌声区間で歌った場合、非歌声区間を用いて学習された/SP/では表現しきれなかった。そのため、以前のシステムではそのような非歌声区間に、他の箇所の歌詞を誤って当てはめてしまっていた。フィラーモデルの導入により、そのようなフレーズ間の発声は、フィラーモデル中の母音音素によって表現され、歌詞に割り当てられることがない。

　図１に戻って、非摩擦音区間抽出部４は、摩擦音が存在しない区間を抽出する。非摩擦音区間抽出部４で摩擦音が存在しない区間を抽出する方法の一例を説明する。図１４は、スネアドラム、摩擦音、ハイハットシンバルの音などの非定常音を含むスペクトログラムの例である。非定常音はスペクトログラム中の縦方向に広がる周波数成分として表れ、定常音は横方向に広がる周波数成分として表れる。各時刻の周波数スペクトル上では、縦方向の成分は平坦な周波数成分として、横方向の成分はピークを持つ成分として表れる。非定常音に起因する平坦な周波数成分を検出するためには、スペクトル中のピークを持つ成分を除去するのがよい。そこで本実施の形態では、亀岡弘和他が「スペクトル制御エンベロープによる混合音中の周期および非周期成分の選択的イコライザ」と題する論文（情報処理学会研究報告, 2006-MUS-66-13, pp. 77.84, 2006.9）に提案されたスペクトルのボトムエンベロープを推定する手法を用いる。ボトムエンベロープとは、図１５のように、スペクトルの谷周辺を通るエンベロープ曲線のことである。図１６は、図１４に示すボトムエンベロープを利用して摩擦音が存在しない区間を抽出する方法の一例のステップを示している。ステップＳＴ３１では、まずフーリエ変換（ＦＦＴ）により、各時刻における入力された音楽音響信号の周波数スペクトルを計算する。そしてステップＳＴ３２で、図１５に示す周波数スペクトルからボトムエンベロープを推定する。次にステップＳＴ３３において、推定したボトムエンベロープの利用有効帯域（図１５の例では１０００Ｈｚ～８０００Ｈｚ）のうち摩擦音の特徴を含まない帯域（図１５の例では、１０００Ｈｚ～６０００Ｈｚの帯域）における合計対数パワーＡを計算する。次にステップＳＴ３４で、摩擦音に含まれる周波数成分が含まれる高周波帯域（図１５の例では６０００Ｈｚから８０００Ｈｚ）における合計対数パワーＢを計算する。そしてステップＳＴ３５で、高周波帯域における合計対数パワーＢと、ボトムエンベロープの利用有効帯域における全帯域合計対数パワー（Ａ＋Ｂ）との比［Ｂ／（Ａ＋Ｂ）］が、予め定めた値（図１４では０．４）より小さくなる区間を摩擦音が存在しない区間として抽出する。利用有効帯域とは、ボトムエンベロープに摩擦音の特徴が現れる帯域範囲である。試験によると、１０００Ｈｚ～８０００Ｈｚが利用有効帯域であり、６０００Ｈｚ～８０００Ｈｚが高周波帯域であることが分かっている。なお予め定めた値は、個人差はあるものの、試験によると、０．４程度が好ましいことが分かっている。

　以下に摩擦音が存在しない区間の抽出法を理論的に説明する。まず図１５に示すボトムエンベロープの関数クラスを、下記の式のように定義する。

　ただし、ｆはHzが単位の周波数を表し、N（x; m,σ²）はガウス分布を表す。また、ａ=（ａ₁,・・・,ａ_I）は各ガウス分布の重みを表す。そして、次式の目的関数を最小化するａを推定することで、ボトムエンベロープが推定できる。

　ここで、S(f)は各フレームのスペクトルを表す。この目的関数は，正の誤差と比べて負の誤差により重いペナルティを課す非対称な距離尺度である。この目的関数に基づいて下記式の左辺のａを推定するためには、以下の２つの式を反復計算する。

　ここで、ａ^′ _ｉは、前回の繰り返し時の推定値を表す。このようにして、スペクトルS(f)のボトムエンベロープはg(f,a.)として推定される。

　摩擦音の周波数成分は、スペクトルの特定の周波数帯域に集中している。そのため、ボトムエンベロープのその周波数帯域のパワーＢと、その他の帯域のパワー（Ａ＋Ｂ）の比［Ｂ／（Ａ＋Ｂ）］を用いて、摩擦音を検出する。例えば、図１５のデータを採取したときのサンプリング周波数は１６kHzであり、摩擦音の中でも、ナイキスト周波数である８kHz以下の帯域に成分が集中する/SH/の音素のみを扱った。６kHzから８kHzの帯域に強い成分を持つ/SH/の存在度合いを下記の式のように定義する。

　図１６の例では、上記に適宜されたＥ_SHが、閾値０．４を下回る区間を音素/SH/の非存在区間として検出する。０．４という閾値の値は実験的に定められた。なお、バスドラムに起因する周波数成分の影響を避けるため、１kHz以下の周波数帯域は計算に用いなかった。

　図１に戻って、前述のステップ３を実行するために、アラインメント部１７は、前述の時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデル１５を備えている。そしてアラインメント部１７は、音素ネットワーク中の複数の音素と優先音音響信号とを時間的に対応付けるアラインメント動作を実行する。具体的には、アラインメント部１７は、時間的対応付け用特徴量抽出部１１からの時間的対応付け用特徴量と、歌声区間推定部９からの歌声区間と非歌声区間に関する情報と、音素ネットワーク記憶部１３からの音素ネットワークとを入力として、歌声用音響モデル１５を用いて、少なくとも非歌声区間には音素が存在しないという条件の下で、アラインメントを実行して、音楽音響信号と歌詞の時間的対応付けを自動で行う。

　本実施の形態のアラインメント部１７は、ビタビアラインメントを用いてアラインメント動作を実行するように構成されている。ここで「ビタビアラインメント」とは、音声認識の技術分野において知られるもので、音響信号と文法（アラインメント用の音素列すなわち音素ネットワーク）との間の最尤経路を探索するビタビアルゴリズムを用いた最適解探索手法の一つである。ビタビアラインメントの実行においては、非歌声区間には音素が存在しないという条件として、少なくとも非歌声区間をショートポーズ（ｓｐ）とする条件及び摩擦音が存在しない区間には摩擦音となる音素が存在しないという条件を定める。そしてショートポーズ（ｓｐ）においては、他の音素の尤度をゼロとして、アラインメント動作を実行する。このようにするとショートポーズ（ｓｐ）の区間においては、他の音素の尤度がゼロになるため、歌声区間情報を利用することができ、精度の高いアラインメントを行うことができる。また摩擦音が存在しない区間に摩擦音となる音素が存在しないという条件を定めると、音（特に無声子音）が正しくアラインメントできない問題を解決できる。

　図１７は、「フレーム同期ビタビ探索」と呼ばれるビタビアラインメントを用いて、アラインメント部１７をプログラムによりコンピュータで実現する場合のプログラムのアルゴリズムを示すフローチャートである。なお以下のアラインメント動作の説明では、歌詞が日本語の場合を例として説明する。ステップＳＴ１０１のｔ＝１は最初の時間的対応付け用特徴量（以下図１７の説明においては、単に特徴量と言う）が入力されるフレームである。ステップＳＴ１０２では、スコア０で空の仮説を作成する。ここで「仮説」とは、今の時刻までの「音素の並び」を意味する。したがって空の仮説を作成するとは、何も音素がない状態にすることを意味する。

　次にステップＳＴ１０３では、ループ１として、現在持っているすべての仮説に対して処理をする。ループ１は、前のフレームでの処理が終わった時点で持っている仮説それぞれについてスコアの計算処理を行うループである。例えば、「ａ－ｉ－ｓｐ－ｕ－ｅ・・・」という音素ネットワークとの間の時間的対応を付けると仮定する。この場合に、６フレーム目（６音素目）まで来たときのあり得る仮説（音素の並び）には、「ａａａａａａ」という仮説や、「ａａａｉｉｉ」という仮説や、「ａａｉｉspｕ」という仮説等の様々な仮説が考えられる。探索の途中では、これら複数の仮説を同時に保持して計算処理が実行される。なおこれらの複数の仮説は、すべて自分のスコアを持っている。ここでスコアとは、６フレームまであるとしたとき、１～６フレームまでの特徴量それぞれが、例えば「ａａａｉｉｉ」という音素の並びであった可能性（対数尤度）を、特徴量と音響モデルとを比較することにより計算したものである。例えば、６フレーム目（ｔ＝６）の処理が終わり、７フレーム目の処理が始まると、現在保持しているすべての仮説に対して計算処理が行われる。このような処理をすることがループ１の処理である。

　次にステップＳＴ１０４では、音素ネットワークを元に仮説を「１フレーム展開」する。ここで「１フレーム展開」するとは、仮説の長さを１フレーム延ばすことを意味する。そして展開した場合には、一つ次の時刻のフレームまで考慮に入れることにより、１つの仮説に新たな音素が続いて複数の新たな仮説ができる可能性がある。次に続く可能性のある音素を見つけるために、音素ネットワークが参照される。例えば、「ａａａｉｉｉ」という仮説については、音素ネットワークを参照すると、次のフレームでは「ａａａｉｉｉｉ」というように「ｉ」が続く場合と、「ａａａｉｉｉsp」というようにショートポーズspに移る場合の２通りの新しい仮説が考えられる。この場合には、１つの仮説を「１フレームに展開」すると次の時刻のフレームまで考慮した新しい２つの仮説が出ることになる。ステップＳＴ１０５では、ループ２として、すべての仮説について１フレーム展開されて発生した新たなすべての仮説に対して、スコアを計算する。スコアの計算は、ループ１におけるスコアの計算と同じである。ループ２は、保持しているそれぞれの仮説から新たに幾つかの仮説が展開されるので、その新しく展開されたそれぞれの仮説についてスコア計算の処理を行うループである。

　次にステップＳＴ１０６では、歌声区間推定部９からの歌声区間情報を入力として、ｔ番目のフレームが歌声区間であるか又は音素がショートポーズ(sp)であるか否かの判定が行われる。例えば、７フレーム目は非歌声区間であるという歌声区間情報があるとする。この場合に、７フレーム目で仮説を展開した時点で、「ａａａｉｉｉsp」という仮説はあっても、「ａａａｉｉｉｉ」という仮説はあり得ないことになる。このようなあり得ない仮説は、ステップＳＴ１０７で棄却される。このように歌声区間情報があると、ステップＳＴ１０６及び１０７を経て、あり得ない仮説が棄却できるため、アラインメントが容易になる。ステップＳＴ１０６において、Ｙｅｓの判定がなされると、ステップＳＴ１０８へと進む。

　ステップＳＴ１０８では、非摩擦音区間抽出部９からの非摩擦音区間の情報を入力として、ｔ番目のフレームが非摩擦音区間であるか否かの判定が行われる。例えば、７フレーム目は非摩擦音区間であるという情報があるとする。この場合に、７フレーム目で仮説を展開した時点で、「ａａａｉｉｉｉ」という仮説はあっても、「ａａａｉｉｉｓｈ」という仮説はあり得ないことになる。このようなあり得ない仮説は、ステップＳＴ１０９とステップＳＴ１１０で棄却される。ステップＳＴ１０９で非摩擦音区間にsh(摩擦音の音素）がないと、ステップＳＴ１１１へと進む。またステップＳＴ１０８で非摩擦音区間でないことが判定されるとステップＳＴ１１１へと進む。このように非摩擦音区間情報があると、ステップＳＴ１０８乃至１１０を経て、あり得ない仮説が棄却できるため、アラインメントが容易になる。

　ステップＳＴ１１１では、入力された特徴量と音響モデルとを用いて、ｔ番目の特徴量の音響スコアを計算し、仮説のスコアに加算する。すなわちｔ番目の特徴量を音響モデルと比較して、対数尤度（スコア）を計算し、計算したスコアを仮説のスコアに加算する。結局、スコアの計算は、特徴量と音響モデルとを比較し、特徴量が音響モデル中にある複数の音素についての情報にどの程度似ているのかを計算していることになる。なおスコアは対数で計算するため、全く似ていないといった場合には、その値は－∞となる。ステップＳＴ１１１では、すべての仮説についてスコアの計算が行われる。ステップＳＴ１１１での計算が終了すると、ステップＳＴ１１２へと進み、仮説とスコアとが保持される。そしてステップＳＴ１１３ではステップＳＴ１０５に対応したループ２が終了する。ステップＳＴ１１４ではステップＳＴ１０３に対応したループ１が終了する。その後、ステップＳＴ１１５で、現在の処理対象時刻を１増加させ（ｔ＋１）、次のフレームに進む。そしてステップＳＴ１１６で、フレームが入力されてくる複数の特徴量の終端であるか否かの判断がなされる。すべての特徴量が入力されるまでは、ステップＳＴ１０３からステップＳＴ１１５までの各ステップが繰り返し実行される。すべての特徴量について処理が終了すると、ステップＳＴ１１７へと進む。この時点では、特徴量と音響モデルとの比較は、音素ネットワークの終端に達している。そして音素ネットワークの終端に達している複数の仮説の中から合計スコアが最大の仮説（音素の並び）を最終決定された仮説として選ぶ。この最終決定された仮説すなわち音素の並びは、時刻と対応している特徴量を基準にして定められている。すなわちこの最終決定された音素の並びは、音楽音響信号と同期した音素の並びになっている。したがってこの最終決定された音素の並びに基づいて表示される歌詞のデータが、時間タグ付きの（音楽音響信号と同期するための時刻情報が付いた）歌詞となる。

　図１８（Ａ）は、ビタビアラインメントを利用して、時刻において音楽音響信号から抽出した優勢音音響信号の信号波形Ｓ′（伴奏音が抑制された音響信号の音声波形）に対して、音素ネットワーク（文法）を時間的に対応付けた様子を示している。アラインメントが完了した後は、時間情報を伴ったアラインメント用の音素列（文法）から逆に歌詞に戻すことで、最終的に、時間情報を含む「時間タグ付き歌詞データ」が得られる。図１８（Ａ）では図示を簡単にするために母音のみを示してある。

　図１８（Ｂ）は、アラインメントが完了した後、音素列（文法）から歌詞に戻すことによって伴奏音を含む混合音の音楽音響信号Ｓと歌詞の時間的対応付けが完了した様子を示している。日本語の歌詞は、アルファベットで表記してある。ＰＡ～ＰＤは、それぞれ歌詞のフレーズである。フレーズＰＡの歌詞は「Kokorono　Sukimawo」であり、フレーズＰＢの歌詞は「Atatakaku」であり、フレーズＰＣの歌詞は「Terashite Kureta Toki」であり、フレーズＰＤの歌詞は「Kanjitano」である。

　次にアラインメント部１７で使用する歌声用音響モデル１５について説明する。使用する歌声用音響モデル１５としては、歌声の発話内容（歌詞）に対してアラインメントを行うため、大量の歌声のデータから学習された音響モデルを使用することが理想的である。しかしながら、現段階ではそのようなデータベースは構築されていない。そこで本実施の形態では、話し声用の音響モデルのパラメータを、歌声と伴奏音を含む楽曲中の歌声の音素を認識できるように再推定して（学習して）得た音響モデルを用いる。

　話し声用の音響モデルをベースにして歌声用音響モデルを作る手法（適応：adaptation）は、以下のように３段階ある。なお事前の作業として、「話し声用の音響モデル」を準備するステップが必要であるが、この点は公知であるので省略する。

　（１）話し声用の音響モデルを単独歌唱の歌声に適応させる。
　（２）単独歌唱用の音響モデルを伴奏音抑制手法によって抽出された分離歌声に適応させる。
　（３）分離歌声用の音響モデルを入力楽曲中の特定楽曲（特定歌手）に適応させる。

　これら（１）乃至（３）段階は、いずれも図２における「学習時」の処理に対応するものであり、実行時よりも前に行うものである。

（１）段階の適応では、図２に示すように、話し声用音響モデル１０１を音素ラベル１０２（教師情報）及び伴奏音を伴わない歌声だけのすなわち単独歌唱の歌声１０３に適応させて単独歌唱用の音響モデル１０４を生成する。（２）の適応では、単独歌唱用の音響モデル１０４を、伴奏音抑制手法によって抽出された優勢音音響信号からなる歌声データ１０５及び音素ラベル１０２（教師情報）に適応させて、分離歌声用の音響モデル１０６を生成する。（３）の適応では、分離歌声用の音響モデル１０６を、入力楽曲の特定楽曲の音素ラベル（音素ネットワーク）と特徴量とに適応させて、特定歌手用音響モデル１０７を生成する。図２の例では、図１の歌声用音響モデル１５として、特定歌手用音響モデル１０７を用いている。

　なお、（１）乃至（３）は必ずしも全て実施する必要はなく、例えば（１）のみを実施する場合（これを「１段階適応」という。）、（１）及び（２）を実施する場合（これを「２段階適応」という。）、及び（１）乃至（３）を全て実施する場合（これを「３段階適応」という。）、などのように、一つ又は複数を適宜組み合わせて、音響モデルの適応を実施することができる。

　ここで、教師情報とは、各音素ごとの時間情報(音素の始端時間、終端時間)を指している。従って、単独歌唱データ１０３や音素ラベル１０２のような教師情報を用いて、話し声用の音響モデルを適応させる場合は、時間情報により正確にセグメンテーションされた音素データを用いて適応が行われる。

　図１９は、時間情報を伴う日本語の歌詞の場合の適応用音素ラベル１０２の一例を示している。なお、図１９の音素ラベル１０２は手動で付与した。適応時のパラメータ推定には、最尤線形回帰ＭＬＬＲ（Maximum Likelihood Linear Regression）と最大事後確率ＭＡＰ（Maximum a Posterior）推定を組み合わせることができる。なお、ＭＬＬＲとＭＡＰを組み合わせるということの意味は、ＭＬＬＲ適応法で得られた結果を、ＭＡＰ推定法における事前分布（初期値のようなもの）として使用することを意味する。

　以下さらに音響モデルの具体的な適応技術について説明する。図２０は、前述の１段階適応の詳細を示すフローチャートである。１段階適応では、歌声用音響モデル１５としては、歌声だけを含む単独歌唱のデータすなわち適応用音楽音響信号１０３を、適応用音楽音響信号１０３に対する適応用音素ラベル１０２を元に音素ごとに分割する。そして音素ごとに分割されたデータを用いて、話し声用音響モデル１０１のパラメータを、適応用音楽音響信号１０３から歌声の音素を認識できるように再推定して単独歌唱用の音響モデル１０４を得る。この音響モデル１０４は、伴奏音が無いかまたは伴奏音が歌声に比べて小さい場合に、適している。

　また図２１は、前述の２段階適応の詳細を示すフローチャートである。２段階適応では、歌声に加えて伴奏音を含む適応用音楽音響信号から抽出した歌声を含む最も優勢な音の優勢音音響信号１０５を適応用音素ラベル１０２を元に音素ごとに分割する。そして音素ごとに分割されたデータを用いて、単独歌唱用の音響モデル１０４のパラメータを、優勢音音響信号１０５から歌声の音素を認識できるように再推定して得た分離歌声用の音響モデル１０６を得る。このような分離歌声用の音響モデル１０６は、歌声と同様に伴奏音が大きい場合に適している。

　さらに図２２は、前述の３段階適応の詳細を示すフローチャートである。３段階適応では、システムの実行時に入力された歌声と伴奏音とを含む音楽音響信号Ｓ１から伴奏音抑制法により伴奏音を抑制して得た優勢音音響信号Ｓ２を用いる。そしてシステムに入力された音楽音響信号から抽出した歌声を含む最も優勢な音の優勢音音響信号Ｓ２から時間的対応付け用特徴量抽出部１１によって抽出された複数の時間的対応付け用特徴量と入力された音楽音響信号に対する音素ネットワークＳＮを用いて、分離歌声用の音響モデル１０６のパラメータを音楽音響信号の楽曲を歌う特定の歌手の音素を認識できるように推定して特定歌手用の音響モデル１０７を得る。この特定歌手用の音響モデル１０７は、歌手を特定した音響モデルであるため、アラインメントの精度を最も高くすることができる。

　なお音楽音響信号に時間的に対応付けられた歌詞を、表示画面上に表示させながら音楽音響信号を再生する音楽音響信号再生装置において、本発明のシステムを用いて音楽音響信号に時間的に対応付けられた歌詞を表示画面に表示させると、再生される音楽と画面に表示される歌詞とが同期させて表示画面に表示することができる。

　本発明の音楽音響信号と歌詞の時間的対応付けを自動で行う方法を、図１及び図２を用いて説明する。まず歌声と伴奏音とを含む楽曲の音楽音響信号Ｓ１から、各時刻において歌声を含む最も優勢な音の優勢音音響信号Ｓ２を優勢音響信号抽出部５が抽出する（優勢音響信号抽出ステップ）。次に各時刻における優勢音音響信号Ｓ２から歌声が含まれている歌声区間と歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を歌声区間推定用特徴量抽出部７が抽出する（歌声区間推定用特徴量抽出ステップ）。そして複数の歌声区間推定用特徴量に基づいて、歌声区間と非歌声区間を歌声区間推定部が推定して、歌声区間と前記非歌声区間に関する情報を出力する（歌声区間推定ステップ）。また各時刻における優勢音音響信号Ｓ２から、歌声の歌詞と音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を時間的対応付け用特徴量抽出部１１が抽出する（時間的対応付け用特徴量抽出ステップ）。さらに音楽音響信号Ｓ１に対応する楽曲の歌詞の複数の音素が、該複数の音素の隣りあう二つの音素の時間的間隔が調整可能に繋がって構成された音素ネットワークＳＮを音素ネットワーク記憶部１３に記憶する（記憶ステップ）。そして時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデル１５を備え、音素ネットワークＳＮ中の複数の音素と優先音音響信号Ｓ１とを時間的に対応付けるアラインメント動作をアラインメント部１７が実行する（アラインメントステップ）。このアラインメントステップでは、アラインメント部１７が、時間的対応付け用特徴量抽出ステップで得られる時間的対応付け用特徴量と、歌声区間と非歌声区間に関する情報と、非摩擦音区間の情報と、音素ネットワークＳＮとを入力として、歌声用音響モデル１５を用いて、少なくとも非歌声区間には音素が存在しないという条件及び摩擦音が存在しない区間には摩擦音となる音素が存在しないという条件の下で、アラインメント動作を実行する。

　一般に、歌声の検出は、正解率（hit rate）と棄却率（correct rejection rate）によって評価される。但し、正解率とは実際に歌声を含む領域のうち、正しく歌声区間として検出できた割合を指し、棄却率とは実際に歌声を含まない領域のうち、正しく非歌声区間として棄却できた割合を指すものとする。なお、本上記実施の形態で採用した歌声区間推定部９は、正解率と棄却率のバランスを調整することができる仕組みとなっている。このような仕組みが必要になる理由は、正解率と棄却率の基準はいわばトレードオフの関係にあるからであり、適切な関係は例えば用途によっても異なるものだからである。歌声検出区間の推定は、ビタビアラインメントの前処理としての意味を持つため、正解率をある程度高く保つことによって歌声を含む可能性が少しでもあれば漏れなく検出できるようにすることが一般的には望ましい。しかし、その一方で、歌手名の同定などの用途に用いる場合は、棄却率を高く保つことによって、確実に歌声を含む部分のみを抽出するべきである。ちなみに、歌声の検出に関する従来技術では、正解率と棄却率のバランスを調整できるものはなかった。

　以下本発明の第１乃至３の種類の特徴を用いることにより効果が得られることを確認した評価実験について説明する。評価用のデータとして、「RWC研究用音楽データベース：ポピュラー音楽」（RWC-MDB-P-2001）から選択した１０曲を使用し、５ fold cross-validation法により評価した。歌声区間検出のための歌声・非歌声GMMの学習データとして、同じくRWC研究用音楽データベースから選択した別の１９曲を使用した。評価はフレーズ単位で行った。ここでフレーズとは、元の歌詞で空白または改行で区切られた一節のことを指す。評価基準として、楽曲の全体長の中で、フレーズ単位のラベルが正解していた区間の割合を計算した（図２３参照）。

　実験は下記の５つの条件で行われた。
　(i)比較法：非特許文献２に開示された以前のシステムをそのまま使用する。
　(ii)摩擦音検出：非特許文献２に開示された以前のシステムに加えて摩擦音検出を使用（第３の特徴を使用）する。
　(iii)フィラーモデル：非特許文献２に開示された以前のシステムに加えてフィラーモデルを使用（第２特徴を使用）する。
　(iv)新しい特徴量：非特許文献２に開示された以前のシステムに加えて、歌声区間検出用の新しい特徴量を使用（第１の特徴を使用）する。
　(v)提案法（実施の形態）：非特許文献２に開示された以前のシステムに加えて、第１乃至第３の特徴を全て使用する。

　結果は図２４の表に示した通りである。図２４の表から分かるように、比較法(i)と比べて、本発明で採用する第１乃至第３の特徴を個別に使用した場合［図２４の表中の(ii)と(iii)，(iv)］、平均の認識精度がそれぞれ2.0，3.3，3.7ポイント向上した。さらに，第１乃至第３の特徴をすべて使用した本実施の形態の場合［図２４の表中の(v)］、最も認識精度が高かった。この評価結果から、第１乃至第３の特徴を個別に使用した場合には、歌声区間検出のための新しい特徴量（第１の特徴）が、最も効果的であった。また、フィラーモデル（第２の特徴）を使用した際の出力結果を見ると、フィラーモデルは歌詞に出てこない発声を吸収しているだけでなく、歌声区間検出で除去しきれなかった非歌声区間も吸収していることがわかった。評価基準がフレーズ単位であるため、摩擦音検出の効果は十分には確認できなかったが、音素単位のアラインメントを見ると、フレーズ途中での音素のずれが削減できている例が見られた。

　上記実施の形態では、摩擦音が存在する区間を残さず正確に検出することは困難だが、摩擦音が存在しない非摩擦音区間ならば検出が比較的容易であることを利用し、その情報を統合することで性能向上を実現した。次に、フィラーモデルは、元の歌詞をスキップすることは許容しない一方で、歌詞に書かれていない様々な発声を取り除き、性能を向上させる効果があった．また、基本周波数F0と倍音パワーとに基づく新しい特徴量は、スペクトル包絡を推定する必要がないため、高い基本周波数F0の音に対して頑健に機能する汎用性の高い特徴量である。この特徴量は、本発明では、歌声区間検出のみに用いたが、十分な量の学習データを準備することで、強制アラインメントの特徴量としても使用できる可能性がある。

　本発明によれば、従来よりも歌声の基本周波数F0が高い場合における歌声区間の検出を正確に行うことができる。また本発明によれば、歌詞に含まれる二つのフレーズの境界に位置するショートポーズを全ての母音音素を吸収するフィラーとしたものを音素ネットワークとして記憶しているので、歌詞に書かれていない発声（例えば歌手のシャウトなど）をフィラーが吸収して、これらの発音に歌詞を割り当ててしまう問題が発生するのを防止することができる。さらに本発明によれば、アラインメント部は、少なくとも非歌声区間には音素が存在しないという条件の下で、アラインメント動作を実行するので、非歌声区間の影響を極力排除した状態で、音素ネットワーク中の複数の音素と各時刻における優先音音響信号とを時間的に対応付けることができる。また本発明によれば、従来よりも、高い精度で、音楽音響信号に同期した時間タグ付きの歌詞データを自動で得ることができる。

Claims

　歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻において前記歌声を含む最も優勢な音の優勢音音響信号を抽出する優勢音音響信号抽出部と、
　前記各時刻における前記優勢音音響信号から前記歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出する歌声区間推定用特徴量抽出部と、
　前記音楽音響信号から摩擦音が存在しない区間を抽出する非摩擦音区間抽出部と、
　複数の前記歌声区間推定用特徴量に基づいて、前記歌声区間と前記非歌声区間を推定して、前記歌声区間と前記非歌声区間に関する情報を出力する歌声区間推定部と、
　各時刻における前記優勢音音響信号から、前記歌声の歌詞と前記音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出する時間的対応付け用特徴量抽出部と、
　前記音楽音響信号に対応する楽曲の歌詞に関して複数の音素と複数のショートポーズとによって構成された音素ネットワークを記憶する音素ネットワーク記憶部と、
　前記時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備え、前記音素ネットワーク中の複数の音素と前記優先音音響信号とを時間的に対応付けるアラインメント動作を実行するアラインメント部とを備え、
　前記歌声区間推定用特徴量抽出部は、前記歌声の基本周波数F0と、前記基本周波数F0の周波数成分のｈ次倍音（ｈは正の整数）までの倍音パワーのそれぞれの対数値を正規化したｈ次元の正規化対数倍音パワーとを前記歌声区間推定用特徴量として抽出し、
　前記音素ネットワークに含まれる前記複数のショートポーズのうち、前記歌詞に含まれる二つのフレーズの境界に位置する前記ショートポーズを全ての母音音素を吸収するフィラーとしたものを前記音素ネットワークとして前記音素ネットワーク記憶部に記憶してあり、
　前記アラインメント部を、前記時間的対応付け用特徴量抽出部から出力される前記時間的対応付け用特徴量と、前記歌声区間と前記非歌声区間に関する情報と、前記摩擦音が存在しない区間に関する情報と、前記音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件及び前記摩擦音が存在しない区間には摩擦音となる音素が存在しないという条件の下で、前記アラインメント動作を実行することを特徴とする音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。
　前記歌声区間推定用特徴量抽出部は、前記基本周波数F0の微分係数ΔF0をさらに前記歌声区間推定用特徴量として抽出することを特徴とする請求項１に記載の音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。
　前記歌声区間推定用特徴量抽出部は、前記ｈ次倍音は１２次倍音であり、前記ｈ次元の正規化対数倍音パワーは１２次元の正規化対数倍音パワーである請求項１に記載の請求項２に記載の音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。
　前記歌声区間推定用特徴量抽出部は、前記各時刻における前記優勢音音響信号のスペクトルから前記基本周波数F0の整数倍の周波数成分のパワーをｈ次倍音まで抽出し、
　前記ｈ次倍音までの周波数成分のパワーの対数を計算してｈ次元の対数倍音パワーとし、
　前記楽曲全体で、すべての対数倍音パワーの和が０になるように前記ｈ次元の対数倍音パワーを正規化して前記ｈ次元の正規化対数倍音パワーとして抽出する請求項１に記載の音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。
　前記非摩擦音区間抽出部は、前記音楽音響信号の各時刻における周波数スペクトルからボトムエンベロープを推定し、推定した前記ボトムエンベロープの利用有効帯域のうち前記摩擦音に含まれる周波数成分が含まれる高周波帯域における合計対数パワーと、前記前記利用有効帯域における利用有効帯域合計対数パワーとの比が、予め定めた値より小さくなる区間を前記摩擦音が存在しない区間として抽出することを特徴とする請求項１に記載の音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。
　歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻において前記歌声を含む最も優勢な音の優勢音音響信号を抽出する優勢音音響信号抽出部と、
　前記各時刻における前記優勢音音響信号から前記歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出する歌声区間推定用特徴量抽出部と、
　前記音楽音響信号から摩擦音が存在しない区間を抽出する非摩擦音区間抽出部と、
　複数の前記歌声区間推定用特徴量に基づいて、前記歌声区間と前記非歌声区間を推定して、前記歌声区間と前記非歌声区間に関する情報を出力する歌声区間推定部と、
　各時刻における前記優勢音音響信号から、前記歌声の歌詞と前記音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出する時間的対応付け用特徴量抽出部と、
　前記音楽音響信号に対応する楽曲の歌詞に関して複数の音素と複数のショートポーズとによって構成された音素ネットワークを記憶する音素ネットワーク記憶部と、
　前記時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備え、前記音素ネットワーク中の複数の音素と前記優先音音響信号とを時間的に対応付けるアラインメント動作を実行するアラインメント部とを備え、
　前記音素ネットワークに含まれる前記複数のショートポーズのうち、前記歌詞に含まれる二つのフレーズの間に位置す前記ショートポーズを全ての母音音素を吸収するフィラーとしたものを前記音素ネットワークとして前記音素ネットワーク記憶部に記憶してあり、
　前記アラインメント部を、前記時間的対応付け用特徴量抽出部から出力される前記時間的対応付け用特徴量と、前記歌声区間と前記非歌声区間に関する情報と、前記摩擦音が存在しない区間に関する情報と、前記音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件及び前記摩擦音が存在しない区間には摩擦音となる音素が存在しないという条件の下で、前記アラインメント動作を実行することを特徴とする音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。
　歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻において前記歌声を含む最も優勢な音の優勢音音響信号を抽出する優勢音音響信号抽出部と、
　前記各時刻における前記優勢音音響信号から前記歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出する歌声区間推定用特徴量抽出部と、
　前記音楽音響信号から摩擦音が存在しない区間を抽出する非摩擦音区間抽出部と、
　複数の前記歌声区間推定用特徴量に基づいて、前記歌声区間と前記非歌声区間を推定して、前記歌声区間と前記非歌声区間に関する情報を出力する歌声区間推定部と、
　各時刻における前記優勢音音響信号から、前記歌声の歌詞と前記音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出する時間的対応付け用特徴量抽出部と、
　前記音楽音響信号に対応する楽曲の歌詞に関して複数の音素と複数のショートポーズとによって構成された音素ネットワークを記憶する音素ネットワーク記憶部と、
　前記時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備え、前記音素ネットワーク中の複数の音素と前記優先音音響信号とを時間的に対応付けるアラインメント動作を実行するアラインメント部とを備え、
　前記歌声区間推定用特徴量抽出部は、前記歌声の基本周波数F0と、前記基本周波数F0の周波数成分のｈ次倍音（ｈは正の整数）までの倍音パワーのそれぞれの対数値を正規化したｈ次元の正規化対数倍音パワーとを前記歌声区間推定用特徴量として抽出し、
　前記アラインメント部を、前記時間的対応付け用特徴量抽出部から出力される前記時間的対応付け用特徴量と、前記歌声区間と前記非歌声区間に関する情報と、前記摩擦音が存在しない区間に関する情報と、前記音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件及び前記摩擦音が存在しない区間には摩擦音となる音素が存在しないという条件の下で、前記アラインメント動作を実行することを特徴とする音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。
　歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻において前記歌声を含む最も優勢な音の優勢音音響信号を抽出する優勢音音響信号抽出部と、
　前記各時刻における前記優勢音音響信号から前記歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出する歌声区間推定用特徴量抽出部と、
　複数の前記歌声区間推定用特徴量に基づいて、前記歌声区間と前記非歌声区間を推定して、前記歌声区間と前記非歌声区間に関する情報を出力する歌声区間推定部と、
　各時刻における前記優勢音音響信号から、前記歌声の歌詞と前記音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出する時間的対応付け用特徴量抽出部と、
　前記音楽音響信号に対応する楽曲の歌詞に関して複数の音素と複数のショートポーズとによって構成された音素ネットワークを記憶する音素ネットワーク記憶部と、
　前記時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備え、前記音素ネットワーク中の複数の音素と前記優先音音響信号とを時間的に対応付けるアラインメント動作を実行するアラインメント部とを備え、
　前記歌声区間推定用特徴量抽出部は、前記歌声の基本周波数F0と、前記基本周波数F0の周波数成分のｈ次倍音（ｈは正の整数）までの倍音パワーのそれぞれの対数値を正規化したｈ次元の正規化対数倍音パワーとを前記歌声区間推定用特徴量として抽出し、
　前記音素ネットワークに含まれる前記複数のショートポーズのうち、前記歌詞に含まれる二つのフレーズの境界に位置する前記ショートポーズを全ての母音音素を吸収するフィラーとしたものを前記音素ネットワークとして前記音素ネットワーク記憶部に記憶してあり、
　前記アラインメント部を、前記時間的対応付け用特徴量抽出部から出力される前記時間的対応付け用特徴量と、前記歌声区間と前記非歌声区間に関する情報と、前記音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件の下で、前記アラインメント動作を実行することを特徴とする音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。
　歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻において前記歌声を含む最も優勢な音の優勢音音響信号を抽出する優勢音音響信号抽出部と、
　前記各時刻における前記優勢音音響信号から前記歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出する歌声区間推定用特徴量抽出部と、
　前記音楽音響信号から摩擦音が存在しない区間を抽出する非摩擦音区間抽出部と、
　複数の前記歌声区間推定用特徴量に基づいて、前記歌声区間と前記非歌声区間を推定して、前記歌声区間と前記非歌声区間に関する情報を出力する歌声区間推定部と、
　各時刻における前記優勢音音響信号から、前記歌声の歌詞と前記音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出する時間的対応付け用特徴量抽出部と、
　前記音楽音響信号に対応する楽曲の歌詞に関して複数の音素と複数のショートポーズとによって構成された音素ネットワークを記憶する音素ネットワーク記憶部と、
　前記時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備え、前記音素ネットワーク中の複数の音素と前記優先音音響信号とを時間的に対応付けるアラインメント動作を実行するアラインメント部とを備え、
　前記アラインメント部を、前記時間的対応付け用特徴量抽出部から出力される前記時間的対応付け用特徴量と、前記歌声区間と前記非歌声区間に関する情報と、前記摩擦音が存在しない区間に関する情報と、前記音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件及び前記摩擦音が存在しない区間には摩擦音となる音素が存在しないという条件の下で、前記アラインメント動作を実行することを特徴とする音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。
　歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻において前記歌声を含む最も優勢な音の優勢音音響信号を抽出する優勢音音響信号抽出部と、
　前記各時刻における前記優勢音音響信号から前記歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出する歌声区間推定用特徴量抽出部と、
　複数の前記歌声区間推定用特徴量に基づいて、前記歌声区間と前記非歌声区間を推定して、前記歌声区間と前記非歌声区間に関する情報を出力する歌声区間推定部と、
　各時刻における前記優勢音音響信号から、前記歌声の歌詞と前記音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出する時間的対応付け用特徴量抽出部と、
　前記音楽音響信号に対応する楽曲の歌詞に関して複数の音素と複数のショートポーズとによって構成された音素ネットワークを記憶する音素ネットワーク記憶部と、
　前記時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備え、前記音素ネットワーク中の複数の音素と前記優先音音響信号とを時間的に対応付けるアラインメント動作を実行するアラインメント部とを備え、
　前記歌声区間推定用特徴量抽出部は、前記歌声の基本周波数F0と、前記基本周波数F0の周波数成分のｈ次倍音（ｈは正の整数）までの倍音パワーのそれぞれの対数値を正規化したｈ次元の正規化対数倍音パワーとを前記歌声区間推定用特徴量として抽出し、
　前記アラインメント部を、前記時間的対応付け用特徴量抽出部から出力される前記時間的対応付け用特徴量と、前記歌声区間と前記非歌声区間に関する情報と、前記音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件の下で、前記アラインメント動作を実行することを特徴とする音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。
　歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻において前記歌声を含む最も優勢な音の優勢音音響信号を抽出する優勢音音響信号抽出部と、
　前記各時刻における前記優勢音音響信号から前記歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出する歌声区間推定用特徴量抽出部と、
　複数の前記歌声区間推定用特徴量に基づいて、前記歌声区間と前記非歌声区間を推定して、前記歌声区間と前記非歌声区間に関する情報を出力する歌声区間推定部と、
　各時刻における前記優勢音音響信号から、前記歌声の歌詞と前記音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出する時間的対応付け用特徴量抽出部と、
　前記音楽音響信号に対応する楽曲の歌詞に関して複数の音素と複数のショートポーズとによって構成された音素ネットワークを記憶する音素ネットワーク記憶部と、
　前記時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備え、前記音素ネットワーク中の複数の音素と前記優先音音響信号とを時間的に対応付けるアラインメント動作を実行するアラインメント部とを備え、
　前記音素ネットワークに含まれる前記複数のショートポーズのうち、前記歌詞に含まれる二つのフレーズの間に位置す前記ショートポーズを全ての母音音素を吸収するフィラーとしたものを前記音素ネットワークとして前記音素ネットワーク記憶部に記憶してあり、
　前記アラインメント部を、前記時間的対応付け用特徴量抽出部から出力される前記時間的対応付け用特徴量と、前記歌声区間と前記非歌声区間に関する情報と、前記音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件の下で、前記アラインメント動作を実行することを特徴とする音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。
　歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻において前記歌声を含む最も優勢な音の優勢音音響信号を抽出するステップと、
　前記各時刻における前記優勢音音響信号から前記歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出するステップと、
　前記音楽音響信号から摩擦音が存在しない区間を抽出するステップと、
　複数の前記歌声区間推定用特徴量に基づいて、前記歌声区間と前記非歌声区間を推定して、前記歌声区間と前記非歌声区間に関する情報を出力するステップと、
　各時刻における前記優勢音音響信号から、前記歌声の歌詞と前記音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出するステップと、
　前記音楽音響信号に対応する楽曲の歌詞に関して複数の音素と複数のショートポーズとによって構成された音素ネットワークを音素ネットワーク記憶部に記憶するステップと、
　前記時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを用いて、前記音素ネットワーク中の複数の音素と前記優先音音響信号とを時間的に対応付けるアラインメント動作を実行するステップとを実施し、
　前記歌声区間推定用特徴量を抽出するステップでは、前記歌声の基本周波数F0と、前記基本周波数F0の周波数成分のｈ次倍音（ｈは正の整数）までの倍音パワーのそれぞれの対数値を正規化したｈ次元の正規化対数倍音パワーとを前記歌声区間推定用特徴量として抽出し、
　前記音素ネットワークに含まれる前記複数のショートポーズのうち、前記歌詞に含まれる二つのフレーズの間に位置す前記ショートポーズを全ての母音音素を吸収するフィラーとし、
　前記時間的対応付け用特徴量と、前記歌声区間と前記非歌声区間に関する情報と、前記摩擦音が存在しない区間に関する情報と、前記音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件及び前記摩擦音が存在しない区間には摩擦音となる音素が存在しないという条件の下で、前記アラインメント動作を実行することを特徴とする音楽音響信号と歌詞の時間的対応付けを自動で行う方法。
　歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻において前記歌声を含む最も優勢な音の優勢音音響信号を抽出するステップと、
　前記各時刻における前記優勢音音響信号から前記歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出するステップと、
　前記音楽音響信号から摩擦音が存在しない区間を抽出するステップと、
　複数の前記歌声区間推定用特徴量に基づいて、前記歌声区間と前記非歌声区間を推定して、前記歌声区間と前記非歌声区間に関する情報を出力するステップと、
　各時刻における前記優勢音音響信号から、前記歌声の歌詞と前記音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出するステップと、
　前記音楽音響信号に対応する楽曲の歌詞に関して複数の音素と複数のショートポーズとによって構成された音素ネットワークを音素ネットワーク記憶部に記憶するステップと、
　前記時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備え、前記音素ネットワーク中の複数の音素と前記優先音音響信号とを時間的に対応付けるアラインメント動作を実行するステップとを実施し、
　前記歌声区間推定用特徴量を抽出するステップでは、前記歌声の基本周波数F0と、前記基本周波数F0の周波数成分のｈ次倍音（ｈは正の整数）までの倍音パワーのそれぞれの対数値を正規化したｈ次元の正規化対数倍音パワーとを前記歌声区間推定用特徴量として抽出し、
　前記音素ネットワークに含まれる前記複数のショートポーズのうち、前記歌詞に含まれる二つのフレーズの間に位置す前記ショートポーズを全ての母音音素を吸収するフィラーとし、
　前記時間的対応付け用特徴量と、前記歌声区間と前記非歌声区間に関する情報と、前記摩擦音が存在しない区間に関する情報と、前記音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件及び前記摩擦音が存在しない区間には摩擦音となる音素が存在しないという条件の下で、前記アラインメント動作を実行することを特徴とする音楽音響信号と歌詞の時間的対応付けを自動で行う方法。
　歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻において前記歌声を含む最も優勢な音の優勢音音響信号を抽出するステップと、
　前記各時刻における前記優勢音音響信号から前記歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出するステップと、
　前記音楽音響信号から摩擦音が存在しない区間を抽出するステップと、
　複数の前記歌声区間推定用特徴量に基づいて、前記歌声区間と前記非歌声区間を推定して、前記歌声区間と前記非歌声区間に関する情報を出力するステップと、
　各時刻における前記優勢音音響信号から、前記歌声の歌詞と前記音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出するステップと、
　前記音楽音響信号に対応する楽曲の歌詞に関して複数の音素と複数のショートポーズとによって構成された音素ネットワークを音素ネットワーク記憶部に記憶するステップと、
　前記時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備え、前記音素ネットワーク中の複数の音素と前記優先音音響信号とを時間的に対応付けるアラインメント動作を実行するステップとをコンピュータに実施させ、
　前記歌声区間推定用特徴量を抽出するステップでは、前記歌声の基本周波数F0と、前記基本周波数F0の周波数成分のｈ次倍音（ｈは正の整数）までの倍音パワーのそれぞれの対数値を正規化したｈ次元の正規化対数倍音パワーとを前記歌声区間推定用特徴量として抽出し、
　前記音素ネットワークに含まれる前記複数のショートポーズのうち、前記歌詞に含まれる二つのフレーズの間に位置す前記ショートポーズを全ての母音音素を吸収するフィラーとし、
　前記時間的対応付け用特徴量と、前記歌声区間と前記非歌声区間に関する情報と、前記摩擦音が存在しない区間に関する情報と、前記音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件及び前記摩擦音が存在しない区間には摩擦音となる音素が存在しないという条件の下で、前記アラインメント動作を実行することを特徴とする音楽音響信号と歌詞の時間的対応付けを自動で行うことをコンピュータに実施させるプログラム。
　請求項１４に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。