WO2009099146A1 - 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法 - Google Patents
音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法 Download PDFInfo
- Publication number
- WO2009099146A1 WO2009099146A1 PCT/JP2009/051970 JP2009051970W WO2009099146A1 WO 2009099146 A1 WO2009099146 A1 WO 2009099146A1 JP 2009051970 W JP2009051970 W JP 2009051970W WO 2009099146 A1 WO2009099146 A1 WO 2009099146A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- singing voice
- acoustic signal
- section
- sound
- voice section
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Abstract
従来よりもアラインメント精度を高めることができる音楽音響信号と歌詞の時間的対応付けを自動で行うシステムを提供する。非摩擦音区間抽出部4は、音楽音響信号から摩擦音が存在しない区間を抽出する。アラインメント部17は、時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデル15を備える。アラインメント部17は、時間的対応付け用特徴量抽出部11から得た時間的対応付け用特徴量と、歌声区間推定部9から得た歌声区間と非歌声区間に関する情報と、音素ネットワークSNとを入力として、少なくとも非歌声区間には音素が存在しないという条件及び摩擦音が存在しない区間には摩擦音となる音素が存在しないという条件の下で、アラインメント動作を実行する。
Description
本発明は、歌声と伴奏音とを含む楽曲の音楽音響信号と歌詞との時間的対応付け(アラインメント)を自動で行うシステム及び方法並びに該システムで用いるプログラムに関するものである。
特開2001-117582号公報(特許文献1)には、カラオケ装置において、歌唱者(入力者)の歌声の音素列と特定の歌手の歌声の音素列とをアラインメント部を利用して対応付けする技術が開示されている。しかしながらこの公報には、音楽音響信号と歌詞とを時間的に対応付ける技術は何も開示されていない。
また特開2001-125562号公報(特許文献2)には、歌声と伴奏音とを含む混合音の音楽音響信号から、各時刻において歌声を含む最も優勢な音高の音高推定を行って優勢音音響信号を抽出する技術が開示されている。この技術を用いると、音楽音響信号から伴奏音を抑制した優勢音音響信号を抽出することができる。
そして藤原弘将、奥乃博、後藤真孝他が、「伴奏音抑制と高信頼度フレーム選択に基づく楽曲の歌手名同定手法」と題する論文[情報処理学会論文誌Vol.47 No.6(発表:2006.6)](非特許文献2)にも、特許文献2に示された伴奏音を抑制する技術が開示されている。またこの論文には、歌声と非歌声を学習させた2つの混合ガウス分布(GMM)を用いて、優勢音音響信号から歌声区間と非歌声区間を抽出する技術が開示されている。さらにこの論文には、歌声に関する特徴量としてLPCメルケプストラムを用いることが開示されている。
また藤原弘将、奥乃博、後藤真孝他著の「音楽音響信号と歌詞の時間的対応付け手法:歌声の分離と母音のViterbiアラインメント」と題する論文[情報処理学会研究報告2006-MUS-66;37頁~44頁](非特許文献2)には、伴奏を含む音楽音響信号から抽出された歌声と対応する歌詞を、時間的に対応付けるシステムが開示されている。このシステムでは、歌詞の各フレーズの開始時間と終了時間を推定するため、まず伴奏を含む音響信号から各時刻で最も優勢な音を、調波構造に基づいて分離する(伴奏音抑制)。最も優勢な音は,歌唱が存在する区間(歌声区間)では、多くの場合歌声の母音を含んでいる。そして,それらの分離された音響信号から歌声区間を抽出する(歌声区間検出)。さらに、分離歌声に適応された音響モデルを使用し、音声認識で用いられる強制(Viterbi)アラインメント手法により、歌詞と分離された歌声の対応関係を推定する。このシステムでは、母音のみを使用し、子音は無視している。
特開2001-117582号公報
特開2001-125562号公報
藤原弘将、奥乃博、後藤真孝他著の「伴奏音抑制と高信頼度フレーム選択に基づく楽曲の歌手名同定手法」と題する論文[情報処理学会論文誌Vol.47 No.6(発表:2006.6)]
藤原弘将、奥乃博、後藤真孝他著の「音楽音響信号と歌詞の時間的対応付け手法:歌声の分離と母音のViterbiアラインメント」と題する論文[情報処理学会研究報告2006-MUS-66;37頁~44頁]
非特許文献2に示されたシステムで採用する手法は、評価実験により有効であることが確認されている。しかしながらこの従来のシステムでは、子音を正しくアラインメントできない問題(課題1)や、歌詞に書かれていない発声(例えば歌手のシャウトなど)に歌詞を割り当ててしまう問題(課題2)や、歌声の基本周波数F0が高い場合は歌声区間検出が必ずしも正確に検出できないという問題(課題3)があった。
本発明の目的は、上記課題1乃至3をすべて解消できる音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法、並びにシステムに用いるプログラムを提供することにある。
本発明の目的は、上記課題1及び2を解消できる音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法、並びにシステムを提供することにある。
本発明の目的は、上記課題1及び3を解消できる音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法、並びにシステムを提供することにある。
本発明の目的は、上記課題1乃至3のいずれかを一つを解消できる音楽音響信号と歌詞の時間的対応付けを自動で行うシステムを提供することにある。
上記課題1乃至3をすべて解消する本発明の音楽音響信号と歌詞の時間的対応付けを自動で行うシステムは、優勢音音響信号抽出部と、歌声区間推定用特徴量抽出部と、非摩擦音区間抽出部と、歌声区間推定部と、時間的対応付け用特徴量抽出部と、音素ネットワーク記憶部と、アラインメント部とを有する。
優勢音音響信号抽出部は、歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻(例えば10msec毎)において歌声を含む最も優勢な音の優勢音音響信号を抽出する。なおこの優勢音音響信号の抽出技術は、前述の特許文献2及び非特許文献1及び2において使用されている抽出技術と同じである。
歌声区間推定用特徴量抽出部は、各時刻(例えば10msec毎:フレーム毎)における優勢音音響信号から歌声が含まれている歌声区間と歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出する。ここで利用可能な歌声区間推定用特徴量は、歌声の基本周波数F0と、基本周波数F0の周波数成分のh次倍音(hは正の整数)までの倍音パワーのそれぞれの対数値を正規化したh次元の正規化対数倍音パワーである。なお基本周波数F0の微分係数ΔF0を特徴量に加えるとさらに好ましい。
歌声区間推定部は、複数の歌声区間推定用特徴量に基づいて、歌声区間と非歌声区間を推定して、歌声区間と非歌声区間に関する情報を出力する。
非摩擦音区間抽出部は、音楽音響信号から摩擦音が存在しない区間を抽出する。
また時間的対応付け用特徴量抽出部は、各時刻における優勢音音響信号から、歌声の歌詞と前記優勢音音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出する。具体的な実施の形態では、時間的対応付け用特徴量として、音素の共鳴特性等の25次元の特徴量を抽出する。
なお歌声区間推定用特徴量抽出部、非摩擦音区間抽出部及び時間的対応付け用特徴量抽出部により抽出した結果は、それぞれの部に記憶部を設けておき、少なくとも1曲分を記憶部に記憶しておき、後の処理の際に利用するようにしてもよい。
音素ネットワーク記憶部は、通常、音楽音響信号に対応する楽曲の歌詞に関して複数の音素と、ショートポーズとによって構成された音素ネットワークを記憶する。本発明では、歌詞に含まれる二つのフレーズの境界に位置するショートポーズを全ての母音音素を吸収するフィラーとしたものを音素ネットワークとして記憶している。このような音素ネットワークは、例えば、歌詞を音素列に変換し、その後、フレーズの境界をフィラーに変換し、単語の境界を1個のショートポーズに変換することにより得られる。日本語の歌詞であれば、母音または母音及び子音と、ショートポーズと、フィラーとからなる音素列を用いることができる。
アラインメント部は、時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備えている。そしてアラインメント部は、音素ネットワーク中の複数の音素と優先音音響信号とを時間的に対応付けるアラインメント動作を実行する。具体的には、アラインメント部は、時間的対応付け用特徴量抽出部から出力される時間的対応付け用特徴量と、歌声区間と非歌声区間に関する情報と、摩擦音が存在しない区間に関する情報と、音素ネットワークとを入力として、歌声用音響モデルを用いて、少なくとも非歌声区間には音素が存在しないという条件及び摩擦音が存在しない区間には摩擦音となる音素が存在しないという条件の下で、アラインメントを実行して、音楽音響信号と歌詞の時間的対応付けを自動で行う。
本発明によれば、第1の特徴として、歌声区間及び非歌声区間の推定に用いるのに適した特徴量(歌声区間推定用特徴量)として、歌声の基本周波数F0と、基本周波数F0の周波数成分のh次倍音(hは正の整数)までの倍音パワーのそれぞれの対数値を正規化したh次元の正規化対数倍音パワーとを少なくとも用い、好ましくは基本周波数F0の微分係数ΔF0を加えて用いるので、従来よりも歌声の基本周波数F0が高い場合における歌声区間の検出を正確に行うことができる。なおh次倍音の次元(hの値)は、試験を行って適宜に定めればよい。特に、本発明のように、歌声の基本周波数F0とh次元の正規化対数倍音パワーとの二つの特徴量を用いると、スペクトル包絡を推定せずに各倍音のパワーを直接比較するため、基本周波数F0が高い場合でも、歌声の音量の如何にかかわらず、歌声区間の検出を正確に行うことができる。これは、非特許文献2に示された従来の技術では、ケプストラムやLPCなどの特徴量を用いているが、これらの特徴量を使用する場合には、スペクトル包絡を推定するため、高い基本周波数F0を持つ音に対しては適切に機能しない場合があった。これに対して本発明で使用する正規化対数倍音パワーを用いると、スペクトル包絡を推定することなく高調波構造同士を比較することができる。そしてさらに微分係数ΔF0を特徴量に加えると、歌特有のピッチの変動を考慮することができる。
また本発明では、第2の特徴として、歌詞に含まれる二つのフレーズの境界に位置するショートポーズを全ての母音音素を吸収するフィラーとしたものを音素ネットワークとして記憶しているので、歌詞に書かれていない発声(例えば歌手のシャウトなど)をフィラーが吸収して、これらの発音に歌詞を割り当ててしまう問題が発生するのを防止することができる。さらに本発明によれば、アラインメント部は、少なくとも非歌声区間には音素が存在しないという条件の下で、アラインメント動作を実行するので、非歌声区間の影響を極力排除した状態で、音素ネットワーク中の複数の音素と各時刻における優先音音響信号とを時間的に対応付けることができる。
その上で本発明によれば、第3の特徴として、非摩擦音区間抽出部を設けて、音楽音響信号から摩擦音が存在しない区間を抽出し、アラインメント部における条件に、摩擦音が存在しない区間には摩擦音となる音素が存在しないという条件を加えた。子音の情報も使用するための最も単純なアプローチは、強制アラインメントで使われる音素ネットワークを作成する際に、子音も用いることであることが分かっている。しかし、本発明のように、伴奏音抑制手法において調波構造を利用する場合には、無声子音を分離することができない。そのため、それだけでは無声子音を正しくアラインメントする精度の向上には限界がある。そこで本発明では、無声子音の中でも摩擦音の候補を分離前の入力音響信号から直接推定することとし、摩擦音の情報もアラインメントの手がかりとして用いることとした。その結果、本発明によれば、従来よりも、高い精度で、音楽音響信号に同期した時間タグ付きの歌詞データを自動で得ることができる。ここで摩擦音のみを用いたのは、摩擦音の持続時間長は一般に他の無声子音の持続時間長より長く、検出がし易いためである。そして摩擦音が存在している区間を抽出することは、必ずしも容易ではない。これは子音と摩擦音の区別が難しい場合があるためである。これに対して摩擦音が存在しない区間を抽出することは比較的容易にである。そのため本発明では、摩擦音が存在しない区間に歌詞の摩擦音が割り当てられることがないようにアラインメント動作を行うことにした。これによってアラインメントの精度が向上した。
なお上記第1乃至第3の特徴は、いずれか一つを用いた場合でも、従来のシステムと比べて精度を高めることができる。したがって上記第1乃至第3の特徴の少なくとも一つの特徴を用いたシステムも本発明に包含される。すなわち、第1の特徴と第3の特徴とを組み合わせた発明、第1の特徴と第2の特徴とを組み合わせた発明、第2の特徴と第3の特徴を組み合わせた発明、第1の特徴のみを備えた発明、第2の特徴のみを備えた発明、第3の特徴のみを備えた発明も、本発明に包含される。
歌声区間推定用特徴量抽出部で用いるh次倍音は、任意であるが、実験によると、12次倍音が好ましいことが分かった。そのためh次元の正規化対数倍音パワーは12次元の正規化対数倍音パワーであることが好ましい。
また歌声区間推定用特徴量抽出部は、例えば、次のようにしてh次元の正規化対数倍音パワーを抽出する。まず各時刻における優勢音音響信号のスペクトルから基本周波数F0の整数倍の周波数成分のパワーをh次倍音まで抽出する。次に、h次倍音までの周波数成分のパワーの対数を計算してh次元の対数倍音パワーとする。そして、楽曲全体で、すべての対数倍音パワーの和が0になるようにh次元の対数倍音パワーを正規化してh次元の正規化対数倍音パワーとして抽出する。
さらに非摩擦音区間抽出部は、例えば、次のようにして摩擦音が存在しない区間を抽出することができる。まず音楽音響信号の各時刻における周波数スペクトルからボトムエンベロープを推定する。そして推定したボトムエンベロープの利用有効帯域のうち摩擦音に含まれる周波数成分が含まれる高周波帯域における合計対数パワーと、ボトムエンベロープの利用有効帯域における全帯域合計対数パワーとの比が、予め定めた値より小さくなる区間を摩擦音が存在しない区間として抽出する。ここで「利用有効帯域」とは、ボトムエンベロープに摩擦音の特徴が現れる帯域範囲である。この抽出法は、摩擦音では、ボトムエンベロープの全帯域のうち高周波帯域に含まれる周波数成分が多くなるという事実を利用している。そして予め定めた値は、個人差はあるものの、試験によると、0.4程度が好ましいことが分かっている。
本発明は、方法としても特定することができる。本発明の方法では、以下のステップを実行する。まず歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻において前記歌声を含む最も優勢な音の優勢音音響信号を抽出する(優勢音音響信号抽出ステップ)。各時刻における優勢音音響信号から歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出する(歌声区間推定用特徴量抽出ステップ)。記音楽音響信号から摩擦音が存在しない区間を抽出する(非摩擦音抽出ステップ)。複数の歌声区間推定用特徴量に基づいて、歌声区間と非歌声区間を推定して、歌声区間と非歌声区間に関する情報を出力する(歌声区間抽出ステップ)。各時刻における優勢音音響信号から、歌声の歌詞と音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出する(時間的対応付け用特徴量抽出ステップ)。音楽音響信号に対応する楽曲の歌詞に関して複数の音素と複数のショートポーズとによって構成された音素ネットワークを音素ネットワーク記憶部に記憶する(音素ネットワーク記憶ステップ)。時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを用いて、音素ネットワーク中の複数の音素と優先音音響信号とを時間的に対応付けるアラインメント動作を実行する(アラインメントステップ)。そして前述の歌声区間推定用特徴量を抽出するステップでは、歌声の基本周波数F0と、基本周波数F0の周波数成分のh次倍音(hは正の整数)までの倍音パワーのそれぞれの対数値を正規化したh次元の正規化対数倍音パワーとを歌声区間推定用特徴量として抽出する。また音素ネットワークに含まれる複数のショートポーズのうち、歌詞に含まれる二つのフレーズの間に位置すショートポーズを全ての母音音素を吸収するフィラーとする。そして時間的対応付け用特徴量と、歌声区間と前記非歌声区間に関する情報と、摩擦音が存在しない区間に関する情報と、音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件及び摩擦音が存在しない区間には摩擦音となる音素が存在しないという条件の下で、アラインメント動作を実行する。
本発明の方法を、コンピュータを用いて本発明のシステムで実施する場合に用いるプログラムは、上記方法の各ステップをコンピュータ内で実行するように構成されている。そしてこのプログラムは、コンピュータ読み取り可能な記憶媒体に記憶させておくことができる。
以下図面を参照して、本発明の音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及びその方法の実施の形態の一例について詳細に説明する。図1は、音楽音響信号と歌詞の時間的対応付けを自動で行うシステム1の実施の形態をコンピュータを用いて実現する場合に、コンピュータ内に実現される機能実現部の構成を示すブロックである。また図2は、図1の実施の形態をプログラムをコンピュータで実行することにより実施する場合のステップを示すフローチャートである。このシステム1は、音楽音響信号記憶部3と、非摩擦音区間抽出部4と、優勢音音響信号抽出部5と、歌声区間推定用特徴量抽出部7と、歌声区間推定部9と、時間的対応付け用特徴量抽出部11と、音素ネットワーク記憶部13と、歌声用音響モデル15を備えたアラインメント部17とを備えている。
本発明は基本的なアプローチとして、大きく以下の3つのステップを実行する。
ステップ1:伴奏音抑制
ステップ2:歌声区間検出
ステップ3:アラインメント(時間的対応付け)
ステップ1:伴奏音抑制
ステップ2:歌声区間検出
ステップ3:アラインメント(時間的対応付け)
ステップ1を実行するために、音楽音響信号記憶部3には、対象とする歌声と伴奏音とを含む複数の楽曲の音楽音響信号が記憶されている。優勢音音響信号抽出部5は、図3に示すフローチャートに従って、歌声と伴奏音とを含む楽曲の音楽音響信号S1から、各時刻(具体的には10msec毎)において歌声を含む最も優勢な音の優勢音音響信号S2を抽出する。本実施の形態においては、優勢音音響信号とは、伴奏音が抑制された信号と見ることができる。優勢音音響信号の抽出技術は、前述の特開2001-125562号公報(特許文献2)及び非特許文献1に示された抽出技術と同じである。歌声と伴奏音とを含む楽曲の音楽音響信号S1の信号波形は、例えば図4(A)に示すような信号波形であり、優勢音音響信号抽出部5が出力する伴奏音が抑制された優勢音音響信号S2の信号波形は、図4(D)に示すよう信号波形である。以下優勢音音響信号の抽出方法について説明する。
まず歌声と伴奏音とを含む楽曲(混合音)の音楽音響信号から、後述する歌声区間推定用特徴量及び時間的対応付け用特徴量[メロディ(歌声)の音韻的特徴を表す特徴量等]を抽出するためには、音楽音響信号から伴奏音の影響を低減させた優勢音音響信号を得ることが必要である。そこで優勢音音響信号抽出部5では、図3に示す以下の3つのステップを実行する。
ST1:メロディ(歌声)の基本周波数F0を推定する。
ST2:推定された基本周波数に基づいて、メロディ(歌声)の調波構造を抽出する。
ST3:抽出された調波構造を優勢音音響信号に再合成する。
ST2:推定された基本周波数に基づいて、メロディ(歌声)の調波構造を抽出する。
ST3:抽出された調波構造を優勢音音響信号に再合成する。
なお、優勢音音響信号には、間奏などの区間では歌声以外の音響信号(伴奏音や無音)を含んでいる場合がある。したがって本実施の形態では、伴奏音の「除去」ではなく伴奏音の「低減」と表現する。以下ステップST1乃至ST3について説明する。
(ST1:F0推定処理について)
メロディ(歌声)の基本周波数の推定方法には種々の方法が知られている。例えば、音源数を仮定しない音高推定手法(PreFEst)により、基本周波数を推定する方法を用いることができる(例えば、後藤 真孝著 "音楽音響信号を対象としたメロディとベースの音高推定"、電子情報通信学会論文誌 D-II, Vol.J84-D-II, No.1, pp.12-22, January 2001.参照)。ここで、PreFEstはメロディとベースの基本周波数F0を推定する手法として知られている。制限された周波数帯域において、各時刻で最も優勢な調波構造(つまり、最も大きな音)を持つ優勢音の基本周波数F0を推定する手法である。この音高推定手法(PreFEst)では、調波構造の形状を表す確率分布をあらゆる音高(基本周波数)に対して用意する。そして、それらの混合分布(加重混合=重み付き和)として入力の周波数成分をモデル化する。
メロディ(歌声)の基本周波数の推定方法には種々の方法が知られている。例えば、音源数を仮定しない音高推定手法(PreFEst)により、基本周波数を推定する方法を用いることができる(例えば、後藤 真孝著 "音楽音響信号を対象としたメロディとベースの音高推定"、電子情報通信学会論文誌 D-II, Vol.J84-D-II, No.1, pp.12-22, January 2001.参照)。ここで、PreFEstはメロディとベースの基本周波数F0を推定する手法として知られている。制限された周波数帯域において、各時刻で最も優勢な調波構造(つまり、最も大きな音)を持つ優勢音の基本周波数F0を推定する手法である。この音高推定手法(PreFEst)では、調波構造の形状を表す確率分布をあらゆる音高(基本周波数)に対して用意する。そして、それらの混合分布(加重混合=重み付き和)として入力の周波数成分をモデル化する。
メロディ(歌声)は中高域の周波数帯域において、各時刻で最も優勢な調波構造を持つ場合が多い。そこで周波数帯域を適切に制限することで、メロディ(歌声)の基本周波数F0を推定することができる。以下、PreFEstの概要について説明する。なお、以下の説明で用いられるxはcentの単位で表される対数周波数軸上の周波数であり、(t)は時間を表すものとする。また、centは、本来は音高差(音程)を表す尺度であるが、本明細書では、440×2{(3/12)-5}[Hz]を基準として、次式のように絶対的な音高を表す単位として用いる。
パワースペクトルΨp
(t)(x)に対して、メロディの周波数成分の多くが通過するように設計された帯域通過フィルタ(Band Pass Filter)を用いる。例えば、4800cent以上の成分を通過させるフィルタを用いるのが好ましい。フィルタを通過後の周波数成分は、
BPF(x)・Ψp (t)(x)
と表される。但し、BPF(x)はフィルタの周波数応答である。以後の確率的処理を可能にするため、フィルタを通過後の周波数成分を確率密度関数(PDF)として、以下のように表現する。
BPF(x)・Ψp (t)(x)
と表される。但し、BPF(x)はフィルタの周波数応答である。以後の確率的処理を可能にするため、フィルタを通過後の周波数成分を確率密度関数(PDF)として、以下のように表現する。
ここで、p(x|F)は、それぞれのF0についての音モデルであり、Fhは取りうるF0の上限値を表し、Flは取りうるF0の下限値を表すものとする。また、w(t)(F)は音モデルの重みであり、
を満たす。すなわち、音モデルとは典型的な調波構造を表現した確率分布である。そして、EM(Expectation Maximization)アルゴリズムを用いてw(t)(F)を推定し、推定したw(t)(F)を基本周波数F0の確率密度関数(PDF)と解釈する。最終的に、w(t)(F)の中の優勢なピークの軌跡をマルチエージェントモデルを用いて追跡することで、メロディ(歌声)のF0系列(F0 Estimation)を得る。図4は、このようにして取得したF0系列(F0 Estimation)を示している。
(ST2:調波構造抽出)
このようにして推定された基本周波数F0に基づいて、メロディの調波構造の各倍音成分のパワーを抽出する。各周波数成分の抽出には、前後rcentずつの誤差を許容し、この範囲で最もパワーの大きなピークを抽出する。l次倍音(l=1,・・・,L)のパワーAlと周波数Flは、以下のように表される。
このようにして推定された基本周波数F0に基づいて、メロディの調波構造の各倍音成分のパワーを抽出する。各周波数成分の抽出には、前後rcentずつの誤差を許容し、この範囲で最もパワーの大きなピークを抽出する。l次倍音(l=1,・・・,L)のパワーAlと周波数Flは、以下のように表される。
ここで、S(F)はスペクトルを表し、Fの上部にバー(-)のある記号は、PreFEstによって推定された基本周波数F0を表す。本願発明者らの実験では、rの値として20を用いて調波構造の抽出を実施し、後述のとおりその効果を確認した。図4(C)は、抽出した各周波数成分の調波構造を示している。
(ST3:再合成)
抽出された調波構造を正弦波重畳モデルに基づいて再合成することで、各時刻において歌声を含む最も優勢な音の優勢音音響信号を得る。ここで時刻tにおけるl次倍音の周波数をFl (t)とし、振幅をAl (t)と表す。各フレーム間(時刻tと時刻t+1との間)の周波数が線形に変化するように、位相の変化を2次関数で近似する。また、各フレーム間の振幅の変化は1次関数で近似する。再合成された優勢音音響信号s(k)は、以下のように表される。なお以下の式でθl(k)は、l次倍音の時刻kにおける位相であり、sl(k)は、l次倍音の時刻kにおける波形である。
抽出された調波構造を正弦波重畳モデルに基づいて再合成することで、各時刻において歌声を含む最も優勢な音の優勢音音響信号を得る。ここで時刻tにおけるl次倍音の周波数をFl (t)とし、振幅をAl (t)と表す。各フレーム間(時刻tと時刻t+1との間)の周波数が線形に変化するように、位相の変化を2次関数で近似する。また、各フレーム間の振幅の変化は1次関数で近似する。再合成された優勢音音響信号s(k)は、以下のように表される。なお以下の式でθl(k)は、l次倍音の時刻kにおける位相であり、sl(k)は、l次倍音の時刻kにおける波形である。
ここで、kは時間(単位:秒)を表し、時刻tにおいてk=0とする。また、Kは(t)と(t+1)の時間の差、つまりフレームシフトを秒の単位で表す。
θl,0
(t)は、位相の初期値を表し、入力信号の先頭のフレームでは、θl,0
(t)=0とする。以後のフレームでは、θl,0
(t)は、前フレームのl次倍音の周波数Fl
(t-1)と、初期位相θl,0
(t-1)とを用いて
で与えられる。
図1に戻って、歌声区間推定用特徴量抽出部7は、各時刻(具体的には、10msec毎)における優勢音音響信号から歌声が含まれている歌声区間と歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出する。本実施の形態では、12次元の正規化対数倍音パワーと、1次元の基本周波数F0と、1次元の基本周波数F0の微分係数(ΔF0)をここで利用可能な歌声区間推定用特徴量として用いる。本実施の形態では、歌声区間推定用特徴量抽出部7は、歌声と非歌声を識別するために、歌声区間推定用特徴量(スペクトル特徴量)として、下記の三種類の特徴量を抽出する。
・12次元の正規化対数倍音パワー(第1の種類のスペクトル特徴量)及び基本周波数F0(第2の種類のスペクトル特徴量)について:
高調波構造の抽出に基づく伴奏音抑制手法の後に歌声区間検出を行うことは、抽出された高調波構造が歌声かどうかを判定する問題と捉えることができる。非特許文献2に記載の従来のシステムでは、抽出された高調波構造のスペクトル包絡を推定し、学習データ中のスペクトル包絡との距離を計算していた。しかし、ケプストラムやLPCを用いて、高いF0を持つ音のスペクトル包絡を推定した場合、推定結果は各倍音成分の間の谷の部分に大きく影響を受ける。そのため、いくつかの楽曲(とくに女性歌手の楽曲)では、歌声区間検出が適切に機能しない場合があった。この問題はつまり、抽出された高調波構造から推定されたスペクトル包絡は、各倍音成分付近の周波数帯域以外は必ずしも信頼できないということである。なぜなら、ある高調波構造に対応するスペクトル包絡は、いくつもの可能性が考えられるからである。そのため、高調波構造からスペクトル包絡を完全に復元することは、困難である。また、MFCCやLPCなどのスペクトル包絡推定手法は、ある1つのスペクトル包絡の可能性のみを推定するため、元は同じスペクトル包絡であってもF0が異なる二つの高調波構造同士の距離が、適切に小さくならない場合がある。この問題を解決するためには,距離を計算する際に、高調波構造の各倍音成分上の信頼できる点のみを使用するとよい。そこで本実施の形態では、2つの高調波構造のF0がほとんど等しい場合は、F0の各倍音のパワーを直接比較できることに着目した。そこで各倍音成分のパワーの値を特徴量として直接使用し、学習データベース中で近いF0を持つ高調波構造のみと比較することにした。このアプローチは、スペクトル包絡を推定する必要がないため、学習データが十分に存在する場合は高い周波数の音に対しても頑健である。
高調波構造の抽出に基づく伴奏音抑制手法の後に歌声区間検出を行うことは、抽出された高調波構造が歌声かどうかを判定する問題と捉えることができる。非特許文献2に記載の従来のシステムでは、抽出された高調波構造のスペクトル包絡を推定し、学習データ中のスペクトル包絡との距離を計算していた。しかし、ケプストラムやLPCを用いて、高いF0を持つ音のスペクトル包絡を推定した場合、推定結果は各倍音成分の間の谷の部分に大きく影響を受ける。そのため、いくつかの楽曲(とくに女性歌手の楽曲)では、歌声区間検出が適切に機能しない場合があった。この問題はつまり、抽出された高調波構造から推定されたスペクトル包絡は、各倍音成分付近の周波数帯域以外は必ずしも信頼できないということである。なぜなら、ある高調波構造に対応するスペクトル包絡は、いくつもの可能性が考えられるからである。そのため、高調波構造からスペクトル包絡を完全に復元することは、困難である。また、MFCCやLPCなどのスペクトル包絡推定手法は、ある1つのスペクトル包絡の可能性のみを推定するため、元は同じスペクトル包絡であってもF0が異なる二つの高調波構造同士の距離が、適切に小さくならない場合がある。この問題を解決するためには,距離を計算する際に、高調波構造の各倍音成分上の信頼できる点のみを使用するとよい。そこで本実施の形態では、2つの高調波構造のF0がほとんど等しい場合は、F0の各倍音のパワーを直接比較できることに着目した。そこで各倍音成分のパワーの値を特徴量として直接使用し、学習データベース中で近いF0を持つ高調波構造のみと比較することにした。このアプローチは、スペクトル包絡を推定する必要がないため、学習データが十分に存在する場合は高い周波数の音に対しても頑健である。
さらに,近いF0を持つ高調波構造のみと比較するため、F0の値自体も特徴量として追加した。そして、その特徴ベクトルをGMMを使用してモデリングすることで、GMMの各ガウス分布それぞれが、F0が近い特徴量をカバーする。GMMの尤度を計算する際は、F0が大きく異なるガウス分布の影響は極めて小さくなる。それにより,近いF0の値を持つ高調波構造のみとの比較が実現できる。しかし、高調波構造の各倍音パワーの絶対値は、各楽曲ごとの音量の違いにより、バイアスがかかっている。そのため、各楽曲ごとに倍音パワーを正規化する必要がある。正規化については後に説明する。
図1の歌声区間推定用特徴量抽出部7は、図5に示すステップST21~ST24に従って、h次元の正規化対数倍音パワーP′t
hを抽出する。まずステップST21で、基本F0を入力する。次にステップST22で、各時刻における優勢音音響信号のスペクトルから基本周波数F0の整数倍(h倍)の周波数成分のパワーをh次倍音(本実施の形態では、12次倍音)まで抽出する。次に、ステップST23において、h次倍音(12次倍音)までの周波数成分のパワーの対数を計算してh次元(12次元)の対数倍音パワーを得る。さらにステップST24において、楽曲全体で、すべての対数倍音パワーの和が0になるようにh次元(12次元)の対数倍音パワーを正規化してh次元(12次元)の正規化対数倍音パワーP′t
hとして抽出する。正規化対数倍音パワーは、基本周波数F0が高くなった場合でも、フレームの特徴を明確に表すのに役立つ。
上記式において、前方の演算logPt
hはh次倍音の各周波数成分のパワーの対数であり、後者の演算は楽曲全体の周波数成分のパワーの対数の平均値である。上記式にいて、tは時刻であり、Tは1曲中の全フレーム数(所定のフレーム幅の窓関数を用いて10msec間隔で1曲の信号からフレームを順次取り出した場合に得られるフレームの全数)であり、Hは抽出倍音数(本例では12)である。
・ΔF0(第3の種類のスペクトル特徴量)について:
第3の種類のスペクトル特徴量として、図5のステップST25において計算した基本周波数F0の微分係数(ΔF0)を用いる。これは、歌声の動的な性質を表現するのに役立つ。歌声は他の楽曲と比較して、ビブラートなどに起因する時間変動が多いので、基本周波数F0の軌跡の傾きを表す微分係数ΔF0は、歌声と非歌声の識別に適していると考えられるからである。なおΔF0の計算には、次式のように5フレーム間の回帰係数を用いた。
ここで、f[t]は、時刻tにおける周波数(単位:cent)である。
第3の種類のスペクトル特徴量として、図5のステップST25において計算した基本周波数F0の微分係数(ΔF0)を用いる。これは、歌声の動的な性質を表現するのに役立つ。歌声は他の楽曲と比較して、ビブラートなどに起因する時間変動が多いので、基本周波数F0の軌跡の傾きを表す微分係数ΔF0は、歌声と非歌声の識別に適していると考えられるからである。なおΔF0の計算には、次式のように5フレーム間の回帰係数を用いた。
そして前述のステップ2を実行するために、歌声区間推定部9は、各時刻で抽出した複数の歌声区間推定用特徴量に基づいて、歌声区間と非歌声区間を推定して、歌声区間と非歌声区間に関する情報を出力する。本実施の形態の歌声区間推定部9は、図6に示す構成を有している。図6に示した歌声区間推定部9では、図2に示すように、予め複数の学習用楽曲8に基づいて学習により得られた歌声と非歌声の複数の混合ガウス分布を記憶するガウス分布記憶部91を備えている。歌声区間推定部9は、1曲の音楽音響信号S1の全期間において、複数の歌声区間推定用特徴量と複数の混合ガウス分布とに基づいて、歌声区間と非歌声区間を推定し、その情報を出力する。そこでこの歌声区間推定部9は、さらに対数尤度計算部92と、対数尤度差計算部93と、ヒストグラム作成部94と、バイアス調整値決定部95と、推定用パラメータ決定部96と、重み付け部97と、最尤経路計算部98とを備えている。対数尤度差計算部93と、ヒストグラム作成部94と、バイアス調整値決定部95と、推定用パラメータ決定部96とは、歌声区間の推定を行う前の前処理において使用される。図7は、図6に示した歌声区間推定部9をプログラムによりコンピュータで実現する場合のフローチャートを示している。また図8には、歌声区間の検出をプログラムで実現する際のフローチャートを示している。図8は、図7のステップST11とステップST16の詳細に相当する。図8にけるステップST11′はステップST11においてもステップST12と同様に対数尤度を計算していることを示している。
対数尤度計算部92は、音楽音響信号S1の最初から最後までの期間中の各時刻にいて、歌声区間推定用特徴量抽出部7が抽出した歌声区間推定用特徴量(ステップST11)と、事前に前処理によりガウス分布記憶部91に記憶した混合ガウス分布とに基づいて、各時刻における歌声対数尤度と非歌声対数尤度とを計算する。
そして対数尤度差計算部93は、各時刻における歌声対数尤度と非歌声対数尤度との対数尤度差を計算する(ステップST12)。この計算は、入力された音楽音響信号から抽出された歌声区間推定用特徴量(特徴ベクトル列)に対して、次式のように歌声対数尤度と非歌声対数尤度の対数尤度差l(x)を計算する。
上記式の前方の関数が歌声対数尤度を示し、後者の関数が非歌声関数尤度を示す。ヒストグラム作成部94は、音楽音響信号の全期間から抽出した優先音音響信号から得られる複数の対数尤度差に関するヒストグラムを作成する(ステップST13)。図7には、ヒストグラム作成部94が作成したヒストグラムの例が例示してある。
そしてバイアス調整値決定部95は、作成したヒストグラムを、楽曲に依存した、歌声区間における対数尤度差のクラスと非歌声区間における対数尤度差のクラスに2分割する場合に、クラス間分散を最大とするような閾値を決定し、この閾値を楽曲依存のバイアス調整値ηdyn.と定める(ステップST14)。図7には、この閾値を図示してある。また推定用パラメータ決定部96は、バイアス調整値ηdyn.を補正するため(アラインメントの精度を高めるため又は歌声区間を広げる調整のため)に、バイアス調整値ηdyn.にタスク依存値ηfixedを加算して歌声区間を推定する際に用いる推定用パラメータη(=ηdyn.+ηfixed)を決定する(ステップST15)。混合ガウス分布(GMM)の尤度には、楽曲によってバイアスがかかるため、全ての楽曲に適切な推定用パラメータηを定めるのは困難である。そこで、本実施の形態では、推定用パラメータηをバイアス調整値ηdyn.とタスク依存値ηfixedとに分割することとした。なおこのタスク依存値ηfixedは、楽曲の種別等を考慮して予め手動で設定する。一方、バイアス調整値ηdyn.は前述のステップを経てまたは公知の閾値自動設定法を用いて楽曲毎に自動的に設定してもよいし、楽曲の種別に応じて、代表的な学習用音楽音響信号に基づいて予め設定してもよい。
そして重み付け部97は、各時刻における歌声対数尤度及び非歌声対数尤度を推定用パラメータηを用いて重み付けを行う(図8のステップST16A)。なおこの例では、ここで使用する歌声対数尤度及び非歌声対数尤度として前処理の際に計算したものを用いる。すなわち重み付け部97は、歌声対数尤度及び非歌声対数尤度の出力確率を、次式のように近似する。
ここで、NGMM(x;θ)は混合ガウス分布(GMM)の確率密度関数を表す。また、ηは正解率と棄却率の関係を調整する推定用パラメータである。歌声GMMのパラメータθvと非歌声GMMのパラメータθNはそれぞれ学習データの歌声区間と非歌声区間とを用いて学習する。本願発明者らの実験では、混合数64のGMMを用いて実施し後述のとおりその効果を確認した。
最尤経路計算部98は、音楽音響信号の全期間から得られる、重み付けされた複数の歌声対数尤度及び重み付けされた複数の非歌声対数尤度を、それぞれ隠れマルコフモデルの歌声状態(SV)の出力確率及び非歌声状態(SN)の出力確率とみなす(図のステップST16B)。そして最尤経路計算部98は、音楽音響信号の全期間における歌声状態と非歌声状態の最尤経路を計算し(図8のステップST16C)、最尤経路から音楽音響信号の全期間における歌声区間と非歌声区間に関する情報を決定する。すなわち歌声の検出には、図9に示すように、歌声状態(Sv)と非歌声状態(SN)を行き来する隠れマルコフモデル(HMM)を用いることとする。歌声状態とは、文字通り「歌声が存在する状態」を表し、「非歌声状態」は歌声が存在しない状態を表している。最尤経路計算部98は、次式のように、入力音響信号から抽出された特徴ベクトル列に対して、歌声・非歌声状態の最尤経路
を検索する。
上記式において、p(x|st)は状態の出力確率を表し、p(st+1|st)は状態st+1から状態stへの遷移確率を表している。
この歌声区間推定部9では、前処理以外の通常の推定動作時においては、歌声区間推定用特徴量抽出部7から各時刻において出力される歌声区間推定用特徴量から、対数尤度計算部92が計算した歌声対数尤度及び非歌声対数尤度に、直接重み付けを行って、最尤経路を計算することになる。このような前処理によって対数尤度差のヒストグラムを利用して、歌声対数尤度及び非歌声対数尤度のバイアス調整値ηdyn(閾値)を決定すると、音楽音響信号に合ったバイアス調整値ηdynを決定することができる。そしてバイアス調整値ηdynにより定めた推定用パラメータηを用いて重み付けを行うと、楽曲ごとの音楽音響信号の音響的特性の違いによって現れる歌声区間推定用特徴量の傾向に合わせて、歌声状態と非歌声状態との境界部を中心にして歌声対数尤度及び非歌声対数尤度を調整することができ、歌声区間及び非歌声区間の境界を、楽曲に合わせて適切に調整することができる。
図1に戻って、時間的対応付け用特徴量抽出部11は、各時刻における優勢音音響信号から、歌声の歌詞と優勢音音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出する。具体的な実施の形態では、時間的対応付け用特徴量として、音素の共鳴特性等の25次元の特徴量を抽出する。この処理は、次のアラインメント処理において必要な前処理に当たる。詳細については図10に示すビタビアラインメントの分析条件を参照して後述するが、本実施の形態で抽出する特徴量は、12次元MFCC、12次元ΔMFCC及びΔパワーの25次元とする。
音素ネットワーク記憶部13は、音楽音響信号に対応する楽曲の歌詞に関して複数の音素によって構成された音素ネットワークSNを記憶する。このような音素ネットワークSNは、例えば、日本語の歌詞であれば、歌詞を音素列に変換し、その後、フレーズの境界をフィラーに変換し、単語の境界を1個のショートポーズに変換することにより、母音と子音と、ショートポーズとフィラーとからなる音素列を用いて構成するのが好ましい。与えられた歌詞のテキストデータを元に、アラインメントに用いる文法(これを「アラインメント用の音素列」と定義する。)を作成する。
通常、日本語の歌詞のためのアラインメント用の音素列は、ショートポーズ(sp)すなわち空白と母音と子音とから構成される。これは、無声子音は調波構造を持たず、伴奏音抑制手法で抽出できないこと、有声子音も発声長が短いため安定して基本周波数F0を推定するのが難しいことなどがその理由である。具体的な処理としては、まず歌詞をそのまま音素列に変換(実質的には、歌詞を音読したものをローマ字に変換する作業に等しい)し、その後、以下の2つの規則(日本語用の文法)に従って、アラインメント用の音素列に変換する。
ルール1:歌詞中の文やフレーズの境界を複数回のショートポーズ(sp)に代えてフィラーに変換する。
ルール2:単語の境界を一回のショートポーズに変換する。
なお上記ルール1及び2には、英語の歌詞にも適用できる。
ルール2:単語の境界を一回のショートポーズに変換する。
なお上記ルール1及び2には、英語の歌詞にも適用できる。
図11は、英語の歌詞(Original Lyrics)からアラインメント用の音素列(音素ネットワーク)への変換の例を示している。まずオリジナルの歌詞のフレーズを表すテキストデータAが音素列(Sequence of the phonemes)Bに変換される。音素列Bに上記「文法」を当てはめることにより、母音と子音と、フィラー(FILLER)と、ショートポーズ(sp)から構成される「アラインメント用の音素列」Cに変換される。
この例では、英語の歌詞「Nothing untaken. Nothing lost.」という歌詞Aが、「N AA TH IH NG AH N T EY K AH N N AA TH IH NG L AO S T」という音素列Bに変換され、さらに、母音と子音とを含む音素と、フィラー(FILLER)と、ショートポーズ(sp)からなるアラインメント用の音素列Cに変換される様子が示されている。このアラインメント用の音素列Cが、音素ネットワークSNである。ここでフィラー(FILLER)とは、全ての母音音素を吸収する特殊なショートポーズである。図12はフィラー(FILLER)のこの機能を示している。すなわちフィラー(FILLER)の位置で歌詞に書かれていない発音(母音音素)、例えば「Oh,Oh、Oh」の発音があると、これらの発音はいくつあってもフィラー(FILLER)で置き換えられる[すなわちこれらの母音音素は、フィラー(FILLER)で吸収されて、歌詞に割り当てられることがない]。このフィラー(FILLER)は、音声認識技術において使用されているものであるが、歌声の認識には使用されたことがないものである。図13(A)乃至(C)は、フィラー(FILLER)の機能を概念的に示す図である。図13(A)は、実際の日本語の歌唱内容を示している。歌詞内容をアルファベットで表記してある。すなわち歌詞は、「Aishi Tsuzukete Iru Hito Sono Hokorashigena Kao Niwa」である。この例では、フレーズの境界に、「Oh,Oh、Oh」の歌詞に書かれていない発音がある。図13(B)は、非特許文献2に示された従来技術と同様にフレーズの境界を複数のショートポーズに置き換えた場合において、フレーズの境界に発音された「Oh,Oh、Oh」を、前後の歌詞で無理矢理当てはめてしまった結果を示している。図13(C)は、本実施の形態において、二つのフレーズの境界に置かれた従来のショートポーズをフィラー(FILLER)に置き換えた結果を示している。この結果では、「Oh,Oh、Oh」の発音がフィラー(FILLER)と置き換えられて(すなわち「Oh,Oh、Oh」の発音がフィラー(FILLER)に吸収されて)、この発音が歌詞に割り当てられていない。
繰り返しになるが、前述の通り、歌詞中に書かれていない発声が原因のエラーを低減させるために、本実施の形態では、前述のフィラーモデルを使用する。図12に示すように、フィラーモデルは連続する2つのフレーズ間にあらゆる母音が複数回登場することを許容する。フィラーモデルはすなわちあらゆる母音が登場してもこれらを吸収して歌詞と割り当てることをしない。従前のシステムでは、ショートポーズを表す音素/SP/を用いて、そのような短時間の非歌声区間を表現していた。しかし、歌手が歌詞に書かれていない単語を非歌声区間で歌った場合、非歌声区間を用いて学習された/SP/では表現しきれなかった。そのため、以前のシステムではそのような非歌声区間に、他の箇所の歌詞を誤って当てはめてしまっていた。フィラーモデルの導入により、そのようなフレーズ間の発声は、フィラーモデル中の母音音素によって表現され、歌詞に割り当てられることがない。
図1に戻って、非摩擦音区間抽出部4は、摩擦音が存在しない区間を抽出する。非摩擦音区間抽出部4で摩擦音が存在しない区間を抽出する方法の一例を説明する。図14は、スネアドラム、摩擦音、ハイハットシンバルの音などの非定常音を含むスペクトログラムの例である。非定常音はスペクトログラム中の縦方向に広がる周波数成分として表れ、定常音は横方向に広がる周波数成分として表れる。各時刻の周波数スペクトル上では、縦方向の成分は平坦な周波数成分として、横方向の成分はピークを持つ成分として表れる。非定常音に起因する平坦な周波数成分を検出するためには、スペクトル中のピークを持つ成分を除去するのがよい。そこで本実施の形態では、亀岡弘和他が「スペクトル制御エンベロープによる混合音中の周期および非周期成分の選択的イコライザ」と題する論文(情報処理学会研究報告, 2006-MUS-66-13, pp. 77.84, 2006.9)に提案されたスペクトルのボトムエンベロープを推定する手法を用いる。ボトムエンベロープとは、図15のように、スペクトルの谷周辺を通るエンベロープ曲線のことである。図16は、図14に示すボトムエンベロープを利用して摩擦音が存在しない区間を抽出する方法の一例のステップを示している。ステップST31では、まずフーリエ変換(FFT)により、各時刻における入力された音楽音響信号の周波数スペクトルを計算する。そしてステップST32で、図15に示す周波数スペクトルからボトムエンベロープを推定する。次にステップST33において、推定したボトムエンベロープの利用有効帯域(図15の例では1000Hz~8000Hz)のうち摩擦音の特徴を含まない帯域(図15の例では、1000Hz~6000Hzの帯域)における合計対数パワーAを計算する。次にステップST34で、摩擦音に含まれる周波数成分が含まれる高周波帯域(図15の例では6000Hzから8000Hz)における合計対数パワーBを計算する。そしてステップST35で、高周波帯域における合計対数パワーBと、ボトムエンベロープの利用有効帯域における全帯域合計対数パワー(A+B)との比[B/(A+B)]が、予め定めた値(図14では0.4)より小さくなる区間を摩擦音が存在しない区間として抽出する。利用有効帯域とは、ボトムエンベロープに摩擦音の特徴が現れる帯域範囲である。試験によると、1000Hz~8000Hzが利用有効帯域であり、6000Hz~8000Hzが高周波帯域であることが分かっている。なお予め定めた値は、個人差はあるものの、試験によると、0.4程度が好ましいことが分かっている。
ただし、fはHzが単位の周波数を表し、N(x; m,σ2)はガウス分布を表す。また、a=(a1,・・・,aI)は各ガウス分布の重みを表す。そして、次式の目的関数を最小化するaを推定することで、ボトムエンベロープが推定できる。
ここで、S(f)は各フレームのスペクトルを表す。この目的関数は,正の誤差と比べて負の誤差により重いペナルティを課す非対称な距離尺度である。この目的関数に基づいて下記式の左辺のaを推定するためには、以下の2つの式を反復計算する。
ここで、a′
iは、前回の繰り返し時の推定値を表す。このようにして、スペクトルS(f)のボトムエンベロープはg(f,a.)として推定される。
摩擦音の周波数成分は、スペクトルの特定の周波数帯域に集中している。そのため、ボトムエンベロープのその周波数帯域のパワーBと、その他の帯域のパワー(A+B)の比[B/(A+B)]を用いて、摩擦音を検出する。例えば、図15のデータを採取したときのサンプリング周波数は16kHzであり、摩擦音の中でも、ナイキスト周波数である8kHz以下の帯域に成分が集中する/SH/の音素のみを扱った。6kHzから8kHzの帯域に強い成分を持つ/SH/の存在度合いを下記の式のように定義する。
図16の例では、上記に適宜されたESHが、閾値0.4を下回る区間を音素/SH/の非存在区間として検出する。0.4という閾値の値は実験的に定められた。なお、バスドラムに起因する周波数成分の影響を避けるため、1kHz以下の周波数帯域は計算に用いなかった。
図1に戻って、前述のステップ3を実行するために、アラインメント部17は、前述の時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデル15を備えている。そしてアラインメント部17は、音素ネットワーク中の複数の音素と優先音音響信号とを時間的に対応付けるアラインメント動作を実行する。具体的には、アラインメント部17は、時間的対応付け用特徴量抽出部11からの時間的対応付け用特徴量と、歌声区間推定部9からの歌声区間と非歌声区間に関する情報と、音素ネットワーク記憶部13からの音素ネットワークとを入力として、歌声用音響モデル15を用いて、少なくとも非歌声区間には音素が存在しないという条件の下で、アラインメントを実行して、音楽音響信号と歌詞の時間的対応付けを自動で行う。
本実施の形態のアラインメント部17は、ビタビアラインメントを用いてアラインメント動作を実行するように構成されている。ここで「ビタビアラインメント」とは、音声認識の技術分野において知られるもので、音響信号と文法(アラインメント用の音素列すなわち音素ネットワーク)との間の最尤経路を探索するビタビアルゴリズムを用いた最適解探索手法の一つである。ビタビアラインメントの実行においては、非歌声区間には音素が存在しないという条件として、少なくとも非歌声区間をショートポーズ(sp)とする条件及び摩擦音が存在しない区間には摩擦音となる音素が存在しないという条件を定める。そしてショートポーズ(sp)においては、他の音素の尤度をゼロとして、アラインメント動作を実行する。このようにするとショートポーズ(sp)の区間においては、他の音素の尤度がゼロになるため、歌声区間情報を利用することができ、精度の高いアラインメントを行うことができる。また摩擦音が存在しない区間に摩擦音となる音素が存在しないという条件を定めると、音(特に無声子音)が正しくアラインメントできない問題を解決できる。
図17は、「フレーム同期ビタビ探索」と呼ばれるビタビアラインメントを用いて、アラインメント部17をプログラムによりコンピュータで実現する場合のプログラムのアルゴリズムを示すフローチャートである。なお以下のアラインメント動作の説明では、歌詞が日本語の場合を例として説明する。ステップST101のt=1は最初の時間的対応付け用特徴量(以下図17の説明においては、単に特徴量と言う)が入力されるフレームである。ステップST102では、スコア0で空の仮説を作成する。ここで「仮説」とは、今の時刻までの「音素の並び」を意味する。したがって空の仮説を作成するとは、何も音素がない状態にすることを意味する。
次にステップST103では、ループ1として、現在持っているすべての仮説に対して処理をする。ループ1は、前のフレームでの処理が終わった時点で持っている仮説それぞれについてスコアの計算処理を行うループである。例えば、「a-i-sp-u-e・・・」という音素ネットワークとの間の時間的対応を付けると仮定する。この場合に、6フレーム目(6音素目)まで来たときのあり得る仮説(音素の並び)には、「aaaaaa」という仮説や、「aaaiii」という仮説や、「aaiispu」という仮説等の様々な仮説が考えられる。探索の途中では、これら複数の仮説を同時に保持して計算処理が実行される。なおこれらの複数の仮説は、すべて自分のスコアを持っている。ここでスコアとは、6フレームまであるとしたとき、1~6フレームまでの特徴量それぞれが、例えば「aaaiii」という音素の並びであった可能性(対数尤度)を、特徴量と音響モデルとを比較することにより計算したものである。例えば、6フレーム目(t=6)の処理が終わり、7フレーム目の処理が始まると、現在保持しているすべての仮説に対して計算処理が行われる。このような処理をすることがループ1の処理である。
次にステップST104では、音素ネットワークを元に仮説を「1フレーム展開」する。ここで「1フレーム展開」するとは、仮説の長さを1フレーム延ばすことを意味する。そして展開した場合には、一つ次の時刻のフレームまで考慮に入れることにより、1つの仮説に新たな音素が続いて複数の新たな仮説ができる可能性がある。次に続く可能性のある音素を見つけるために、音素ネットワークが参照される。例えば、「aaaiii」という仮説については、音素ネットワークを参照すると、次のフレームでは「aaaiiii」というように「i」が続く場合と、「aaaiiisp」というようにショートポーズspに移る場合の2通りの新しい仮説が考えられる。この場合には、1つの仮説を「1フレームに展開」すると次の時刻のフレームまで考慮した新しい2つの仮説が出ることになる。ステップST105では、ループ2として、すべての仮説について1フレーム展開されて発生した新たなすべての仮説に対して、スコアを計算する。スコアの計算は、ループ1におけるスコアの計算と同じである。ループ2は、保持しているそれぞれの仮説から新たに幾つかの仮説が展開されるので、その新しく展開されたそれぞれの仮説についてスコア計算の処理を行うループである。
次にステップST106では、歌声区間推定部9からの歌声区間情報を入力として、t番目のフレームが歌声区間であるか又は音素がショートポーズ(sp)であるか否かの判定が行われる。例えば、7フレーム目は非歌声区間であるという歌声区間情報があるとする。この場合に、7フレーム目で仮説を展開した時点で、「aaaiiisp」という仮説はあっても、「aaaiiii」という仮説はあり得ないことになる。このようなあり得ない仮説は、ステップST107で棄却される。このように歌声区間情報があると、ステップST106及び107を経て、あり得ない仮説が棄却できるため、アラインメントが容易になる。ステップST106において、Yesの判定がなされると、ステップST108へと進む。
ステップST108では、非摩擦音区間抽出部9からの非摩擦音区間の情報を入力として、t番目のフレームが非摩擦音区間であるか否かの判定が行われる。例えば、7フレーム目は非摩擦音区間であるという情報があるとする。この場合に、7フレーム目で仮説を展開した時点で、「aaaiiii」という仮説はあっても、「aaaiiish」という仮説はあり得ないことになる。このようなあり得ない仮説は、ステップST109とステップST110で棄却される。ステップST109で非摩擦音区間にsh(摩擦音の音素)がないと、ステップST111へと進む。またステップST108で非摩擦音区間でないことが判定されるとステップST111へと進む。このように非摩擦音区間情報があると、ステップST108乃至110を経て、あり得ない仮説が棄却できるため、アラインメントが容易になる。
ステップST111では、入力された特徴量と音響モデルとを用いて、t番目の特徴量の音響スコアを計算し、仮説のスコアに加算する。すなわちt番目の特徴量を音響モデルと比較して、対数尤度(スコア)を計算し、計算したスコアを仮説のスコアに加算する。結局、スコアの計算は、特徴量と音響モデルとを比較し、特徴量が音響モデル中にある複数の音素についての情報にどの程度似ているのかを計算していることになる。なおスコアは対数で計算するため、全く似ていないといった場合には、その値は-∞となる。ステップST111では、すべての仮説についてスコアの計算が行われる。ステップST111での計算が終了すると、ステップST112へと進み、仮説とスコアとが保持される。そしてステップST113ではステップST105に対応したループ2が終了する。ステップST114ではステップST103に対応したループ1が終了する。その後、ステップST115で、現在の処理対象時刻を1増加させ(t+1)、次のフレームに進む。そしてステップST116で、フレームが入力されてくる複数の特徴量の終端であるか否かの判断がなされる。すべての特徴量が入力されるまでは、ステップST103からステップST115までの各ステップが繰り返し実行される。すべての特徴量について処理が終了すると、ステップST117へと進む。この時点では、特徴量と音響モデルとの比較は、音素ネットワークの終端に達している。そして音素ネットワークの終端に達している複数の仮説の中から合計スコアが最大の仮説(音素の並び)を最終決定された仮説として選ぶ。この最終決定された仮説すなわち音素の並びは、時刻と対応している特徴量を基準にして定められている。すなわちこの最終決定された音素の並びは、音楽音響信号と同期した音素の並びになっている。したがってこの最終決定された音素の並びに基づいて表示される歌詞のデータが、時間タグ付きの(音楽音響信号と同期するための時刻情報が付いた)歌詞となる。
図18(A)は、ビタビアラインメントを利用して、時刻において音楽音響信号から抽出した優勢音音響信号の信号波形S′(伴奏音が抑制された音響信号の音声波形)に対して、音素ネットワーク(文法)を時間的に対応付けた様子を示している。アラインメントが完了した後は、時間情報を伴ったアラインメント用の音素列(文法)から逆に歌詞に戻すことで、最終的に、時間情報を含む「時間タグ付き歌詞データ」が得られる。図18(A)では図示を簡単にするために母音のみを示してある。
図18(B)は、アラインメントが完了した後、音素列(文法)から歌詞に戻すことによって伴奏音を含む混合音の音楽音響信号Sと歌詞の時間的対応付けが完了した様子を示している。日本語の歌詞は、アルファベットで表記してある。PA~PDは、それぞれ歌詞のフレーズである。フレーズPAの歌詞は「Kokorono Sukimawo」であり、フレーズPBの歌詞は「Atatakaku」であり、フレーズPCの歌詞は「Terashite Kureta Toki」であり、フレーズPDの歌詞は「Kanjitano」である。
次にアラインメント部17で使用する歌声用音響モデル15について説明する。使用する歌声用音響モデル15としては、歌声の発話内容(歌詞)に対してアラインメントを行うため、大量の歌声のデータから学習された音響モデルを使用することが理想的である。しかしながら、現段階ではそのようなデータベースは構築されていない。そこで本実施の形態では、話し声用の音響モデルのパラメータを、歌声と伴奏音を含む楽曲中の歌声の音素を認識できるように再推定して(学習して)得た音響モデルを用いる。
話し声用の音響モデルをベースにして歌声用音響モデルを作る手法(適応:adaptation)は、以下のように3段階ある。なお事前の作業として、「話し声用の音響モデル」を準備するステップが必要であるが、この点は公知であるので省略する。
(1)話し声用の音響モデルを単独歌唱の歌声に適応させる。
(2)単独歌唱用の音響モデルを伴奏音抑制手法によって抽出された分離歌声に適応させる。
(3)分離歌声用の音響モデルを入力楽曲中の特定楽曲(特定歌手)に適応させる。
(2)単独歌唱用の音響モデルを伴奏音抑制手法によって抽出された分離歌声に適応させる。
(3)分離歌声用の音響モデルを入力楽曲中の特定楽曲(特定歌手)に適応させる。
これら(1)乃至(3)段階は、いずれも図2における「学習時」の処理に対応するものであり、実行時よりも前に行うものである。
(1)段階の適応では、図2に示すように、話し声用音響モデル101を音素ラベル102(教師情報)及び伴奏音を伴わない歌声だけのすなわち単独歌唱の歌声103に適応させて単独歌唱用の音響モデル104を生成する。(2)の適応では、単独歌唱用の音響モデル104を、伴奏音抑制手法によって抽出された優勢音音響信号からなる歌声データ105及び音素ラベル102(教師情報)に適応させて、分離歌声用の音響モデル106を生成する。(3)の適応では、分離歌声用の音響モデル106を、入力楽曲の特定楽曲の音素ラベル(音素ネットワーク)と特徴量とに適応させて、特定歌手用音響モデル107を生成する。図2の例では、図1の歌声用音響モデル15として、特定歌手用音響モデル107を用いている。
なお、(1)乃至(3)は必ずしも全て実施する必要はなく、例えば(1)のみを実施する場合(これを「1段階適応」という。)、(1)及び(2)を実施する場合(これを「2段階適応」という。)、及び(1)乃至(3)を全て実施する場合(これを「3段階適応」という。)、などのように、一つ又は複数を適宜組み合わせて、音響モデルの適応を実施することができる。
ここで、教師情報とは、各音素ごとの時間情報(音素の始端時間、終端時間)を指している。従って、単独歌唱データ103や音素ラベル102のような教師情報を用いて、話し声用の音響モデルを適応させる場合は、時間情報により正確にセグメンテーションされた音素データを用いて適応が行われる。
図19は、時間情報を伴う日本語の歌詞の場合の適応用音素ラベル102の一例を示している。なお、図19の音素ラベル102は手動で付与した。適応時のパラメータ推定には、最尤線形回帰MLLR(Maximum Likelihood Linear Regression)と最大事後確率MAP(Maximum a Posterior)推定を組み合わせることができる。なお、MLLRとMAPを組み合わせるということの意味は、MLLR適応法で得られた結果を、MAP推定法における事前分布(初期値のようなもの)として使用することを意味する。
以下さらに音響モデルの具体的な適応技術について説明する。図20は、前述の1段階適応の詳細を示すフローチャートである。1段階適応では、歌声用音響モデル15としては、歌声だけを含む単独歌唱のデータすなわち適応用音楽音響信号103を、適応用音楽音響信号103に対する適応用音素ラベル102を元に音素ごとに分割する。そして音素ごとに分割されたデータを用いて、話し声用音響モデル101のパラメータを、適応用音楽音響信号103から歌声の音素を認識できるように再推定して単独歌唱用の音響モデル104を得る。この音響モデル104は、伴奏音が無いかまたは伴奏音が歌声に比べて小さい場合に、適している。
また図21は、前述の2段階適応の詳細を示すフローチャートである。2段階適応では、歌声に加えて伴奏音を含む適応用音楽音響信号から抽出した歌声を含む最も優勢な音の優勢音音響信号105を適応用音素ラベル102を元に音素ごとに分割する。そして音素ごとに分割されたデータを用いて、単独歌唱用の音響モデル104のパラメータを、優勢音音響信号105から歌声の音素を認識できるように再推定して得た分離歌声用の音響モデル106を得る。このような分離歌声用の音響モデル106は、歌声と同様に伴奏音が大きい場合に適している。
さらに図22は、前述の3段階適応の詳細を示すフローチャートである。3段階適応では、システムの実行時に入力された歌声と伴奏音とを含む音楽音響信号S1から伴奏音抑制法により伴奏音を抑制して得た優勢音音響信号S2を用いる。そしてシステムに入力された音楽音響信号から抽出した歌声を含む最も優勢な音の優勢音音響信号S2から時間的対応付け用特徴量抽出部11によって抽出された複数の時間的対応付け用特徴量と入力された音楽音響信号に対する音素ネットワークSNを用いて、分離歌声用の音響モデル106のパラメータを音楽音響信号の楽曲を歌う特定の歌手の音素を認識できるように推定して特定歌手用の音響モデル107を得る。この特定歌手用の音響モデル107は、歌手を特定した音響モデルであるため、アラインメントの精度を最も高くすることができる。
なお音楽音響信号に時間的に対応付けられた歌詞を、表示画面上に表示させながら音楽音響信号を再生する音楽音響信号再生装置において、本発明のシステムを用いて音楽音響信号に時間的に対応付けられた歌詞を表示画面に表示させると、再生される音楽と画面に表示される歌詞とが同期させて表示画面に表示することができる。
本発明の音楽音響信号と歌詞の時間的対応付けを自動で行う方法を、図1及び図2を用いて説明する。まず歌声と伴奏音とを含む楽曲の音楽音響信号S1から、各時刻において歌声を含む最も優勢な音の優勢音音響信号S2を優勢音響信号抽出部5が抽出する(優勢音響信号抽出ステップ)。次に各時刻における優勢音音響信号S2から歌声が含まれている歌声区間と歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を歌声区間推定用特徴量抽出部7が抽出する(歌声区間推定用特徴量抽出ステップ)。そして複数の歌声区間推定用特徴量に基づいて、歌声区間と非歌声区間を歌声区間推定部が推定して、歌声区間と前記非歌声区間に関する情報を出力する(歌声区間推定ステップ)。また各時刻における優勢音音響信号S2から、歌声の歌詞と音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を時間的対応付け用特徴量抽出部11が抽出する(時間的対応付け用特徴量抽出ステップ)。さらに音楽音響信号S1に対応する楽曲の歌詞の複数の音素が、該複数の音素の隣りあう二つの音素の時間的間隔が調整可能に繋がって構成された音素ネットワークSNを音素ネットワーク記憶部13に記憶する(記憶ステップ)。そして時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデル15を備え、音素ネットワークSN中の複数の音素と優先音音響信号S1とを時間的に対応付けるアラインメント動作をアラインメント部17が実行する(アラインメントステップ)。このアラインメントステップでは、アラインメント部17が、時間的対応付け用特徴量抽出ステップで得られる時間的対応付け用特徴量と、歌声区間と非歌声区間に関する情報と、非摩擦音区間の情報と、音素ネットワークSNとを入力として、歌声用音響モデル15を用いて、少なくとも非歌声区間には音素が存在しないという条件及び摩擦音が存在しない区間には摩擦音となる音素が存在しないという条件の下で、アラインメント動作を実行する。
一般に、歌声の検出は、正解率(hit rate)と棄却率(correct rejection rate)によって評価される。但し、正解率とは実際に歌声を含む領域のうち、正しく歌声区間として検出できた割合を指し、棄却率とは実際に歌声を含まない領域のうち、正しく非歌声区間として棄却できた割合を指すものとする。なお、本上記実施の形態で採用した歌声区間推定部9は、正解率と棄却率のバランスを調整することができる仕組みとなっている。このような仕組みが必要になる理由は、正解率と棄却率の基準はいわばトレードオフの関係にあるからであり、適切な関係は例えば用途によっても異なるものだからである。歌声検出区間の推定は、ビタビアラインメントの前処理としての意味を持つため、正解率をある程度高く保つことによって歌声を含む可能性が少しでもあれば漏れなく検出できるようにすることが一般的には望ましい。しかし、その一方で、歌手名の同定などの用途に用いる場合は、棄却率を高く保つことによって、確実に歌声を含む部分のみを抽出するべきである。ちなみに、歌声の検出に関する従来技術では、正解率と棄却率のバランスを調整できるものはなかった。
以下本発明の第1乃至3の種類の特徴を用いることにより効果が得られることを確認した評価実験について説明する。評価用のデータとして、「RWC研究用音楽データベース:ポピュラー音楽」(RWC-MDB-P-2001)から選択した10曲を使用し、5 fold cross-validation法により評価した。歌声区間検出のための歌声・非歌声GMMの学習データとして、同じくRWC研究用音楽データベースから選択した別の19曲を使用した。評価はフレーズ単位で行った。ここでフレーズとは、元の歌詞で空白または改行で区切られた一節のことを指す。評価基準として、楽曲の全体長の中で、フレーズ単位のラベルが正解していた区間の割合を計算した(図23参照)。
実験は下記の5つの条件で行われた。
(i)比較法:非特許文献2に開示された以前のシステムをそのまま使用する。
(ii)摩擦音検出:非特許文献2に開示された以前のシステムに加えて摩擦音検出を使用(第3の特徴を使用)する。
(iii)フィラーモデル:非特許文献2に開示された以前のシステムに加えてフィラーモデルを使用(第2特徴を使用)する。
(iv)新しい特徴量:非特許文献2に開示された以前のシステムに加えて、歌声区間検出用の新しい特徴量を使用(第1の特徴を使用)する。
(v)提案法(実施の形態):非特許文献2に開示された以前のシステムに加えて、第1乃至第3の特徴を全て使用する。
(i)比較法:非特許文献2に開示された以前のシステムをそのまま使用する。
(ii)摩擦音検出:非特許文献2に開示された以前のシステムに加えて摩擦音検出を使用(第3の特徴を使用)する。
(iii)フィラーモデル:非特許文献2に開示された以前のシステムに加えてフィラーモデルを使用(第2特徴を使用)する。
(iv)新しい特徴量:非特許文献2に開示された以前のシステムに加えて、歌声区間検出用の新しい特徴量を使用(第1の特徴を使用)する。
(v)提案法(実施の形態):非特許文献2に開示された以前のシステムに加えて、第1乃至第3の特徴を全て使用する。
結果は図24の表に示した通りである。図24の表から分かるように、比較法(i)と比べて、本発明で採用する第1乃至第3の特徴を個別に使用した場合[図24の表中の(ii)と(iii),(iv)]、平均の認識精度がそれぞれ2.0,3.3,3.7ポイント向上した。さらに,第1乃至第3の特徴をすべて使用した本実施の形態の場合[図24の表中の(v)]、最も認識精度が高かった。この評価結果から、第1乃至第3の特徴を個別に使用した場合には、歌声区間検出のための新しい特徴量(第1の特徴)が、最も効果的であった。また、フィラーモデル(第2の特徴)を使用した際の出力結果を見ると、フィラーモデルは歌詞に出てこない発声を吸収しているだけでなく、歌声区間検出で除去しきれなかった非歌声区間も吸収していることがわかった。評価基準がフレーズ単位であるため、摩擦音検出の効果は十分には確認できなかったが、音素単位のアラインメントを見ると、フレーズ途中での音素のずれが削減できている例が見られた。
上記実施の形態では、摩擦音が存在する区間を残さず正確に検出することは困難だが、摩擦音が存在しない非摩擦音区間ならば検出が比較的容易であることを利用し、その情報を統合することで性能向上を実現した。次に、フィラーモデルは、元の歌詞をスキップすることは許容しない一方で、歌詞に書かれていない様々な発声を取り除き、性能を向上させる効果があった.また、基本周波数F0と倍音パワーとに基づく新しい特徴量は、スペクトル包絡を推定する必要がないため、高い基本周波数F0の音に対して頑健に機能する汎用性の高い特徴量である。この特徴量は、本発明では、歌声区間検出のみに用いたが、十分な量の学習データを準備することで、強制アラインメントの特徴量としても使用できる可能性がある。
本発明によれば、従来よりも歌声の基本周波数F0が高い場合における歌声区間の検出を正確に行うことができる。また本発明によれば、歌詞に含まれる二つのフレーズの境界に位置するショートポーズを全ての母音音素を吸収するフィラーとしたものを音素ネットワークとして記憶しているので、歌詞に書かれていない発声(例えば歌手のシャウトなど)をフィラーが吸収して、これらの発音に歌詞を割り当ててしまう問題が発生するのを防止することができる。さらに本発明によれば、アラインメント部は、少なくとも非歌声区間には音素が存在しないという条件の下で、アラインメント動作を実行するので、非歌声区間の影響を極力排除した状態で、音素ネットワーク中の複数の音素と各時刻における優先音音響信号とを時間的に対応付けることができる。また本発明によれば、従来よりも、高い精度で、音楽音響信号に同期した時間タグ付きの歌詞データを自動で得ることができる。
Claims (15)
- 歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻において前記歌声を含む最も優勢な音の優勢音音響信号を抽出する優勢音音響信号抽出部と、
前記各時刻における前記優勢音音響信号から前記歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出する歌声区間推定用特徴量抽出部と、
前記音楽音響信号から摩擦音が存在しない区間を抽出する非摩擦音区間抽出部と、
複数の前記歌声区間推定用特徴量に基づいて、前記歌声区間と前記非歌声区間を推定して、前記歌声区間と前記非歌声区間に関する情報を出力する歌声区間推定部と、
各時刻における前記優勢音音響信号から、前記歌声の歌詞と前記音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出する時間的対応付け用特徴量抽出部と、
前記音楽音響信号に対応する楽曲の歌詞に関して複数の音素と複数のショートポーズとによって構成された音素ネットワークを記憶する音素ネットワーク記憶部と、
前記時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備え、前記音素ネットワーク中の複数の音素と前記優先音音響信号とを時間的に対応付けるアラインメント動作を実行するアラインメント部とを備え、
前記歌声区間推定用特徴量抽出部は、前記歌声の基本周波数F0と、前記基本周波数F0の周波数成分のh次倍音(hは正の整数)までの倍音パワーのそれぞれの対数値を正規化したh次元の正規化対数倍音パワーとを前記歌声区間推定用特徴量として抽出し、
前記音素ネットワークに含まれる前記複数のショートポーズのうち、前記歌詞に含まれる二つのフレーズの境界に位置する前記ショートポーズを全ての母音音素を吸収するフィラーとしたものを前記音素ネットワークとして前記音素ネットワーク記憶部に記憶してあり、
前記アラインメント部を、前記時間的対応付け用特徴量抽出部から出力される前記時間的対応付け用特徴量と、前記歌声区間と前記非歌声区間に関する情報と、前記摩擦音が存在しない区間に関する情報と、前記音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件及び前記摩擦音が存在しない区間には摩擦音となる音素が存在しないという条件の下で、前記アラインメント動作を実行することを特徴とする音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。 - 前記歌声区間推定用特徴量抽出部は、前記基本周波数F0の微分係数ΔF0をさらに前記歌声区間推定用特徴量として抽出することを特徴とする請求項1に記載の音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。
- 前記歌声区間推定用特徴量抽出部は、前記h次倍音は12次倍音であり、前記h次元の正規化対数倍音パワーは12次元の正規化対数倍音パワーである請求項1に記載の請求項2に記載の音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。
- 前記歌声区間推定用特徴量抽出部は、前記各時刻における前記優勢音音響信号のスペクトルから前記基本周波数F0の整数倍の周波数成分のパワーをh次倍音まで抽出し、
前記h次倍音までの周波数成分のパワーの対数を計算してh次元の対数倍音パワーとし、
前記楽曲全体で、すべての対数倍音パワーの和が0になるように前記h次元の対数倍音パワーを正規化して前記h次元の正規化対数倍音パワーとして抽出する請求項1に記載の音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。 - 前記非摩擦音区間抽出部は、前記音楽音響信号の各時刻における周波数スペクトルからボトムエンベロープを推定し、推定した前記ボトムエンベロープの利用有効帯域のうち前記摩擦音に含まれる周波数成分が含まれる高周波帯域における合計対数パワーと、前記前記利用有効帯域における利用有効帯域合計対数パワーとの比が、予め定めた値より小さくなる区間を前記摩擦音が存在しない区間として抽出することを特徴とする請求項1に記載の音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。
- 歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻において前記歌声を含む最も優勢な音の優勢音音響信号を抽出する優勢音音響信号抽出部と、
前記各時刻における前記優勢音音響信号から前記歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出する歌声区間推定用特徴量抽出部と、
前記音楽音響信号から摩擦音が存在しない区間を抽出する非摩擦音区間抽出部と、
複数の前記歌声区間推定用特徴量に基づいて、前記歌声区間と前記非歌声区間を推定して、前記歌声区間と前記非歌声区間に関する情報を出力する歌声区間推定部と、
各時刻における前記優勢音音響信号から、前記歌声の歌詞と前記音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出する時間的対応付け用特徴量抽出部と、
前記音楽音響信号に対応する楽曲の歌詞に関して複数の音素と複数のショートポーズとによって構成された音素ネットワークを記憶する音素ネットワーク記憶部と、
前記時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備え、前記音素ネットワーク中の複数の音素と前記優先音音響信号とを時間的に対応付けるアラインメント動作を実行するアラインメント部とを備え、
前記音素ネットワークに含まれる前記複数のショートポーズのうち、前記歌詞に含まれる二つのフレーズの間に位置す前記ショートポーズを全ての母音音素を吸収するフィラーとしたものを前記音素ネットワークとして前記音素ネットワーク記憶部に記憶してあり、
前記アラインメント部を、前記時間的対応付け用特徴量抽出部から出力される前記時間的対応付け用特徴量と、前記歌声区間と前記非歌声区間に関する情報と、前記摩擦音が存在しない区間に関する情報と、前記音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件及び前記摩擦音が存在しない区間には摩擦音となる音素が存在しないという条件の下で、前記アラインメント動作を実行することを特徴とする音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。 - 歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻において前記歌声を含む最も優勢な音の優勢音音響信号を抽出する優勢音音響信号抽出部と、
前記各時刻における前記優勢音音響信号から前記歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出する歌声区間推定用特徴量抽出部と、
前記音楽音響信号から摩擦音が存在しない区間を抽出する非摩擦音区間抽出部と、
複数の前記歌声区間推定用特徴量に基づいて、前記歌声区間と前記非歌声区間を推定して、前記歌声区間と前記非歌声区間に関する情報を出力する歌声区間推定部と、
各時刻における前記優勢音音響信号から、前記歌声の歌詞と前記音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出する時間的対応付け用特徴量抽出部と、
前記音楽音響信号に対応する楽曲の歌詞に関して複数の音素と複数のショートポーズとによって構成された音素ネットワークを記憶する音素ネットワーク記憶部と、
前記時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備え、前記音素ネットワーク中の複数の音素と前記優先音音響信号とを時間的に対応付けるアラインメント動作を実行するアラインメント部とを備え、
前記歌声区間推定用特徴量抽出部は、前記歌声の基本周波数F0と、前記基本周波数F0の周波数成分のh次倍音(hは正の整数)までの倍音パワーのそれぞれの対数値を正規化したh次元の正規化対数倍音パワーとを前記歌声区間推定用特徴量として抽出し、
前記アラインメント部を、前記時間的対応付け用特徴量抽出部から出力される前記時間的対応付け用特徴量と、前記歌声区間と前記非歌声区間に関する情報と、前記摩擦音が存在しない区間に関する情報と、前記音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件及び前記摩擦音が存在しない区間には摩擦音となる音素が存在しないという条件の下で、前記アラインメント動作を実行することを特徴とする音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。 - 歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻において前記歌声を含む最も優勢な音の優勢音音響信号を抽出する優勢音音響信号抽出部と、
前記各時刻における前記優勢音音響信号から前記歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出する歌声区間推定用特徴量抽出部と、
複数の前記歌声区間推定用特徴量に基づいて、前記歌声区間と前記非歌声区間を推定して、前記歌声区間と前記非歌声区間に関する情報を出力する歌声区間推定部と、
各時刻における前記優勢音音響信号から、前記歌声の歌詞と前記音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出する時間的対応付け用特徴量抽出部と、
前記音楽音響信号に対応する楽曲の歌詞に関して複数の音素と複数のショートポーズとによって構成された音素ネットワークを記憶する音素ネットワーク記憶部と、
前記時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備え、前記音素ネットワーク中の複数の音素と前記優先音音響信号とを時間的に対応付けるアラインメント動作を実行するアラインメント部とを備え、
前記歌声区間推定用特徴量抽出部は、前記歌声の基本周波数F0と、前記基本周波数F0の周波数成分のh次倍音(hは正の整数)までの倍音パワーのそれぞれの対数値を正規化したh次元の正規化対数倍音パワーとを前記歌声区間推定用特徴量として抽出し、
前記音素ネットワークに含まれる前記複数のショートポーズのうち、前記歌詞に含まれる二つのフレーズの境界に位置する前記ショートポーズを全ての母音音素を吸収するフィラーとしたものを前記音素ネットワークとして前記音素ネットワーク記憶部に記憶してあり、
前記アラインメント部を、前記時間的対応付け用特徴量抽出部から出力される前記時間的対応付け用特徴量と、前記歌声区間と前記非歌声区間に関する情報と、前記音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件の下で、前記アラインメント動作を実行することを特徴とする音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。 - 歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻において前記歌声を含む最も優勢な音の優勢音音響信号を抽出する優勢音音響信号抽出部と、
前記各時刻における前記優勢音音響信号から前記歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出する歌声区間推定用特徴量抽出部と、
前記音楽音響信号から摩擦音が存在しない区間を抽出する非摩擦音区間抽出部と、
複数の前記歌声区間推定用特徴量に基づいて、前記歌声区間と前記非歌声区間を推定して、前記歌声区間と前記非歌声区間に関する情報を出力する歌声区間推定部と、
各時刻における前記優勢音音響信号から、前記歌声の歌詞と前記音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出する時間的対応付け用特徴量抽出部と、
前記音楽音響信号に対応する楽曲の歌詞に関して複数の音素と複数のショートポーズとによって構成された音素ネットワークを記憶する音素ネットワーク記憶部と、
前記時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備え、前記音素ネットワーク中の複数の音素と前記優先音音響信号とを時間的に対応付けるアラインメント動作を実行するアラインメント部とを備え、
前記アラインメント部を、前記時間的対応付け用特徴量抽出部から出力される前記時間的対応付け用特徴量と、前記歌声区間と前記非歌声区間に関する情報と、前記摩擦音が存在しない区間に関する情報と、前記音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件及び前記摩擦音が存在しない区間には摩擦音となる音素が存在しないという条件の下で、前記アラインメント動作を実行することを特徴とする音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。 - 歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻において前記歌声を含む最も優勢な音の優勢音音響信号を抽出する優勢音音響信号抽出部と、
前記各時刻における前記優勢音音響信号から前記歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出する歌声区間推定用特徴量抽出部と、
複数の前記歌声区間推定用特徴量に基づいて、前記歌声区間と前記非歌声区間を推定して、前記歌声区間と前記非歌声区間に関する情報を出力する歌声区間推定部と、
各時刻における前記優勢音音響信号から、前記歌声の歌詞と前記音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出する時間的対応付け用特徴量抽出部と、
前記音楽音響信号に対応する楽曲の歌詞に関して複数の音素と複数のショートポーズとによって構成された音素ネットワークを記憶する音素ネットワーク記憶部と、
前記時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備え、前記音素ネットワーク中の複数の音素と前記優先音音響信号とを時間的に対応付けるアラインメント動作を実行するアラインメント部とを備え、
前記歌声区間推定用特徴量抽出部は、前記歌声の基本周波数F0と、前記基本周波数F0の周波数成分のh次倍音(hは正の整数)までの倍音パワーのそれぞれの対数値を正規化したh次元の正規化対数倍音パワーとを前記歌声区間推定用特徴量として抽出し、
前記アラインメント部を、前記時間的対応付け用特徴量抽出部から出力される前記時間的対応付け用特徴量と、前記歌声区間と前記非歌声区間に関する情報と、前記音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件の下で、前記アラインメント動作を実行することを特徴とする音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。 - 歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻において前記歌声を含む最も優勢な音の優勢音音響信号を抽出する優勢音音響信号抽出部と、
前記各時刻における前記優勢音音響信号から前記歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出する歌声区間推定用特徴量抽出部と、
複数の前記歌声区間推定用特徴量に基づいて、前記歌声区間と前記非歌声区間を推定して、前記歌声区間と前記非歌声区間に関する情報を出力する歌声区間推定部と、
各時刻における前記優勢音音響信号から、前記歌声の歌詞と前記音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出する時間的対応付け用特徴量抽出部と、
前記音楽音響信号に対応する楽曲の歌詞に関して複数の音素と複数のショートポーズとによって構成された音素ネットワークを記憶する音素ネットワーク記憶部と、
前記時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備え、前記音素ネットワーク中の複数の音素と前記優先音音響信号とを時間的に対応付けるアラインメント動作を実行するアラインメント部とを備え、
前記音素ネットワークに含まれる前記複数のショートポーズのうち、前記歌詞に含まれる二つのフレーズの間に位置す前記ショートポーズを全ての母音音素を吸収するフィラーとしたものを前記音素ネットワークとして前記音素ネットワーク記憶部に記憶してあり、
前記アラインメント部を、前記時間的対応付け用特徴量抽出部から出力される前記時間的対応付け用特徴量と、前記歌声区間と前記非歌声区間に関する情報と、前記音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件の下で、前記アラインメント動作を実行することを特徴とする音楽音響信号と歌詞の時間的対応付けを自動で行うシステム。 - 歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻において前記歌声を含む最も優勢な音の優勢音音響信号を抽出するステップと、
前記各時刻における前記優勢音音響信号から前記歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出するステップと、
前記音楽音響信号から摩擦音が存在しない区間を抽出するステップと、
複数の前記歌声区間推定用特徴量に基づいて、前記歌声区間と前記非歌声区間を推定して、前記歌声区間と前記非歌声区間に関する情報を出力するステップと、
各時刻における前記優勢音音響信号から、前記歌声の歌詞と前記音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出するステップと、
前記音楽音響信号に対応する楽曲の歌詞に関して複数の音素と複数のショートポーズとによって構成された音素ネットワークを音素ネットワーク記憶部に記憶するステップと、
前記時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを用いて、前記音素ネットワーク中の複数の音素と前記優先音音響信号とを時間的に対応付けるアラインメント動作を実行するステップとを実施し、
前記歌声区間推定用特徴量を抽出するステップでは、前記歌声の基本周波数F0と、前記基本周波数F0の周波数成分のh次倍音(hは正の整数)までの倍音パワーのそれぞれの対数値を正規化したh次元の正規化対数倍音パワーとを前記歌声区間推定用特徴量として抽出し、
前記音素ネットワークに含まれる前記複数のショートポーズのうち、前記歌詞に含まれる二つのフレーズの間に位置す前記ショートポーズを全ての母音音素を吸収するフィラーとし、
前記時間的対応付け用特徴量と、前記歌声区間と前記非歌声区間に関する情報と、前記摩擦音が存在しない区間に関する情報と、前記音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件及び前記摩擦音が存在しない区間には摩擦音となる音素が存在しないという条件の下で、前記アラインメント動作を実行することを特徴とする音楽音響信号と歌詞の時間的対応付けを自動で行う方法。 - 歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻において前記歌声を含む最も優勢な音の優勢音音響信号を抽出するステップと、
前記各時刻における前記優勢音音響信号から前記歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出するステップと、
前記音楽音響信号から摩擦音が存在しない区間を抽出するステップと、
複数の前記歌声区間推定用特徴量に基づいて、前記歌声区間と前記非歌声区間を推定して、前記歌声区間と前記非歌声区間に関する情報を出力するステップと、
各時刻における前記優勢音音響信号から、前記歌声の歌詞と前記音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出するステップと、
前記音楽音響信号に対応する楽曲の歌詞に関して複数の音素と複数のショートポーズとによって構成された音素ネットワークを音素ネットワーク記憶部に記憶するステップと、
前記時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備え、前記音素ネットワーク中の複数の音素と前記優先音音響信号とを時間的に対応付けるアラインメント動作を実行するステップとを実施し、
前記歌声区間推定用特徴量を抽出するステップでは、前記歌声の基本周波数F0と、前記基本周波数F0の周波数成分のh次倍音(hは正の整数)までの倍音パワーのそれぞれの対数値を正規化したh次元の正規化対数倍音パワーとを前記歌声区間推定用特徴量として抽出し、
前記音素ネットワークに含まれる前記複数のショートポーズのうち、前記歌詞に含まれる二つのフレーズの間に位置す前記ショートポーズを全ての母音音素を吸収するフィラーとし、
前記時間的対応付け用特徴量と、前記歌声区間と前記非歌声区間に関する情報と、前記摩擦音が存在しない区間に関する情報と、前記音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件及び前記摩擦音が存在しない区間には摩擦音となる音素が存在しないという条件の下で、前記アラインメント動作を実行することを特徴とする音楽音響信号と歌詞の時間的対応付けを自動で行う方法。 - 歌声と伴奏音とを含む楽曲の音楽音響信号から、各時刻において前記歌声を含む最も優勢な音の優勢音音響信号を抽出するステップと、
前記各時刻における前記優勢音音響信号から前記歌声が含まれている歌声区間と前記歌声が含まれていない非歌声区間とを推定するために利用可能な歌声区間推定用特徴量を抽出するステップと、
前記音楽音響信号から摩擦音が存在しない区間を抽出するステップと、
複数の前記歌声区間推定用特徴量に基づいて、前記歌声区間と前記非歌声区間を推定して、前記歌声区間と前記非歌声区間に関する情報を出力するステップと、
各時刻における前記優勢音音響信号から、前記歌声の歌詞と前記音楽音響信号との間の時間的対応を付けるのに適した時間的対応付け用特徴量を抽出するステップと、
前記音楽音響信号に対応する楽曲の歌詞に関して複数の音素と複数のショートポーズとによって構成された音素ネットワークを音素ネットワーク記憶部に記憶するステップと、
前記時間的対応付け用特徴量に基づいて該時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデルを備え、前記音素ネットワーク中の複数の音素と前記優先音音響信号とを時間的に対応付けるアラインメント動作を実行するステップとをコンピュータに実施させ、
前記歌声区間推定用特徴量を抽出するステップでは、前記歌声の基本周波数F0と、前記基本周波数F0の周波数成分のh次倍音(hは正の整数)までの倍音パワーのそれぞれの対数値を正規化したh次元の正規化対数倍音パワーとを前記歌声区間推定用特徴量として抽出し、
前記音素ネットワークに含まれる前記複数のショートポーズのうち、前記歌詞に含まれる二つのフレーズの間に位置す前記ショートポーズを全ての母音音素を吸収するフィラーとし、
前記時間的対応付け用特徴量と、前記歌声区間と前記非歌声区間に関する情報と、前記摩擦音が存在しない区間に関する情報と、前記音素ネットワークとを入力として、少なくとも前記非歌声区間には音素が存在しないという条件及び前記摩擦音が存在しない区間には摩擦音となる音素が存在しないという条件の下で、前記アラインメント動作を実行することを特徴とする音楽音響信号と歌詞の時間的対応付けを自動で行うことをコンピュータに実施させるプログラム。 - 請求項14に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/866,159 US8880409B2 (en) | 2008-02-05 | 2009-02-05 | System and method for automatic temporal alignment between music audio signal and lyrics |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008-025703 | 2008-02-05 | ||
JP2008025703A JP5046211B2 (ja) | 2008-02-05 | 2008-02-05 | 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2009099146A1 true WO2009099146A1 (ja) | 2009-08-13 |
Family
ID=40952219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2009/051970 WO2009099146A1 (ja) | 2008-02-05 | 2009-02-05 | 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8880409B2 (ja) |
JP (1) | JP5046211B2 (ja) |
WO (1) | WO2009099146A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011146366A1 (en) * | 2010-05-18 | 2011-11-24 | Shazam Entertainment Ltd. | Methods and systems for performing synchronization of audio with corresponding textual transcriptions and determining confidence values of the synchronization |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8386251B2 (en) * | 2009-06-08 | 2013-02-26 | Microsoft Corporation | Progressive application of knowledge sources in multistage speech recognition |
JP6047922B2 (ja) * | 2011-06-01 | 2016-12-21 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
JP5678912B2 (ja) * | 2012-03-12 | 2015-03-04 | ブラザー工業株式会社 | 発声特定装置、プログラム |
US8965766B1 (en) * | 2012-03-15 | 2015-02-24 | Google Inc. | Systems and methods for identifying music in a noisy environment |
US9305570B2 (en) * | 2012-06-13 | 2016-04-05 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for pitch trajectory analysis |
US9058820B1 (en) * | 2013-05-21 | 2015-06-16 | The Intellisis Corporation | Identifying speech portions of a sound model using various statistics thereof |
JP6281211B2 (ja) * | 2013-08-28 | 2018-02-21 | ヤマハ株式会社 | 音響信号のアライメント装置、アライメント方法及びコンピュータプログラム |
JP6299140B2 (ja) * | 2013-10-17 | 2018-03-28 | ヤマハ株式会社 | 音響処理装置および音響処理方法 |
US9704478B1 (en) * | 2013-12-02 | 2017-07-11 | Amazon Technologies, Inc. | Audio output masking for improved automatic speech recognition |
US9959886B2 (en) * | 2013-12-06 | 2018-05-01 | Malaspina Labs (Barbados), Inc. | Spectral comb voice activity detection |
JP6501259B2 (ja) * | 2015-08-04 | 2019-04-17 | 本田技研工業株式会社 | 音声処理装置及び音声処理方法 |
EP3389028A1 (en) * | 2017-04-10 | 2018-10-17 | Sugarmusic S.p.A. | Automatic music production from voice recording. |
US10839826B2 (en) * | 2017-08-03 | 2020-11-17 | Spotify Ab | Extracting signals from paired recordings |
US11880748B2 (en) * | 2018-10-19 | 2024-01-23 | Sony Corporation | Information processing apparatus, information processing method, and information processing program |
US11475887B2 (en) | 2018-10-29 | 2022-10-18 | Spotify Ab | Systems and methods for aligning lyrics using a neural network |
US11308943B2 (en) | 2018-10-29 | 2022-04-19 | Spotify Ab | Systems and methods for aligning lyrics using a neural network |
US11087744B2 (en) | 2019-12-17 | 2021-08-10 | Spotify Ab | Masking systems and methods |
US11430431B2 (en) * | 2020-02-06 | 2022-08-30 | Tencent America LLC | Learning singing from speech |
CN112735429B (zh) * | 2020-12-28 | 2023-11-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 确定歌词时间戳信息的方法和声学模型的训练方法 |
CN112786020B (zh) * | 2021-01-21 | 2024-02-23 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种歌词时间戳生成方法及存储介质 |
CN112992108B (zh) * | 2021-04-15 | 2023-12-29 | 上海叽喳网络科技有限公司 | 一种基于电子架子鼓数据的学习、评估和预测系统及方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001117598A (ja) * | 1999-10-21 | 2001-04-27 | Yamaha Corp | 音声変換装置及び方法 |
JP2008015388A (ja) * | 2006-07-10 | 2008-01-24 | Dds:Kk | 歌唱力評価方法及びカラオケ装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6836761B1 (en) | 1999-10-21 | 2004-12-28 | Yamaha Corporation | Voice converter for assimilation by frame synthesis with temporal alignment |
JP4323029B2 (ja) | 1999-10-21 | 2009-09-02 | ヤマハ株式会社 | 音声処理装置およびカラオケ装置 |
JP3413634B2 (ja) | 1999-10-27 | 2003-06-03 | 独立行政法人産業技術総合研究所 | 音高推定方法及び装置 |
US8131545B1 (en) * | 2008-09-25 | 2012-03-06 | Google Inc. | Aligning a transcript to audio data |
-
2008
- 2008-02-05 JP JP2008025703A patent/JP5046211B2/ja active Active
-
2009
- 2009-02-05 US US12/866,159 patent/US8880409B2/en not_active Expired - Fee Related
- 2009-02-05 WO PCT/JP2009/051970 patent/WO2009099146A1/ja active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001117598A (ja) * | 1999-10-21 | 2001-04-27 | Yamaha Corp | 音声変換装置及び方法 |
JP2008015388A (ja) * | 2006-07-10 | 2008-01-24 | Dds:Kk | 歌唱力評価方法及びカラオケ装置 |
Non-Patent Citations (2)
Title |
---|
FUJIWARA H. ET AL.: "Ongaku Onkyo Shingo to Kashi no Jikanteki Taiozuke Shuho: Utagoe no Bunri to Boin no Viterbi Alignment", INFORMATION PROCESSING SOCIETY OF JAPAN KENKYU HOKOKU, vol. 2006, no. 90, 8 August 2006 (2006-08-08), pages 37 - 44 * |
FUJIWARA H. ET AL.: "VocalFinder: Koeshitsu no Ruijido ni Motozuku Gakkyoku Kensaku System", INFORMATION PROCESSING SOCIETY OF JAPAN KENKYU HOKOKU, vol. 2007, no. 81, 1 August 2007 (2007-08-01), pages 27 - 32 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011146366A1 (en) * | 2010-05-18 | 2011-11-24 | Shazam Entertainment Ltd. | Methods and systems for performing synchronization of audio with corresponding textual transcriptions and determining confidence values of the synchronization |
Also Published As
Publication number | Publication date |
---|---|
JP5046211B2 (ja) | 2012-10-10 |
US8880409B2 (en) | 2014-11-04 |
US20110054910A1 (en) | 2011-03-03 |
JP2009186687A (ja) | 2009-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5046211B2 (ja) | 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法 | |
Chang et al. | Large vocabulary Mandarin speech recognition with different approaches in modeling tones | |
US7664642B2 (en) | System and method for automatic speech recognition from phonetic features and acoustic landmarks | |
JP4274962B2 (ja) | 音声認識システム | |
US8005666B2 (en) | Automatic system for temporal alignment of music audio signal with lyrics | |
Zeppenfeld et al. | Recognition of conversational telephone speech using the Janus speech engine | |
Bhardwaj et al. | Effect of pitch enhancement in Punjabi children's speech recognition system under disparate acoustic conditions | |
CN101436403B (zh) | 声调识别方法和系统 | |
Deshpande et al. | Accent classification in speech | |
JP4340685B2 (ja) | 音声認識装置及び音声認識方法 | |
JP2003521721A (ja) | ピッチ追跡方法および装置 | |
US20060129392A1 (en) | Method for extracting feature vectors for speech recognition | |
WO2007046267A1 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
Obin et al. | Syll-O-Matic: An adaptive time-frequency representation for the automatic segmentation of speech into syllables | |
JP4836076B2 (ja) | 音声認識システム及びコンピュータプログラム | |
Fujihara et al. | Three techniques for improving automatic synchronization between music and lyrics: Fricative detection, filler model, and novel feature vectors for vocal activity detection | |
JP5131904B2 (ja) | 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法 | |
Kruspe | Application of automatic speech recognition technologies to singing | |
Zolnay et al. | Extraction methods of voicing feature for robust speech recognition. | |
Fung et al. | Pronunciation modeling of Mandarin casual speech | |
Metze et al. | Fusion of acoustic and linguistic features for emotion detection | |
Kawai et al. | Lyric recognition in monophonic singing using pitch-dependent DNN | |
Xiang et al. | The BBN Mandarin broadcast news transcription system. | |
Mesaros et al. | Adaptation of a speech recognizer for singing voice | |
Yoon et al. | Voice quality dependent speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 09707731 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
WWE | Wipo information: entry into national phase |
Ref document number: 12866159 Country of ref document: US |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 09707731 Country of ref document: EP Kind code of ref document: A1 |