WO2011010647A1

WO2011010647A1 - 混合音信号中の混合比率推定方法及びシステム並びに音素認識方法

Info

Publication number: WO2011010647A1
Application number: PCT/JP2010/062205
Authority: WO
Inventors: 弘将藤原; 後藤　真孝
Original assignee: 独立行政法人産業技術総合研究所
Priority date: 2009-07-21
Filing date: 2010-07-21
Publication date: 2011-01-27
Also published as: JP5334142B2; JPWO2011010647A1

Abstract

　混合音信号中の対象音信号とノイズ信号との混合比率を推定することができる混合音信号の混合比率推定方法及びシステムを提供する。確率的スペクトルテンプレートを構成する対象音スペクトルテンプレートのゲインとノイズ・スペクトルテンプレートのゲインを変えて得た複数のゲイン変更スペクトルテンプレートと観測スペクトルとの距離が一番小さくなるゲイン変更スペクトルテンプレートを最小距離ゲイン変更スペクトルテンプレートとして決定する。最小距離ゲイン変更スペクトルテンプレートのゲインとノイズ・スペクトルテンプレートのゲインに基づいて混合比率を推定する。

Description

混合音信号中の混合比率推定方法及びシステム並びに音素認識方法

　本発明は、混合音信号中の対象音信号とノイズ信号との混合比率を推定する混合音信号の混合比率推定方法及びシステム並びに音素認識方法に関するものである。

　従来は、混合音信号中の対象音信号とノイズ信号との混合比率（Ｓ／Ｎ比）が既知であることを前提にして、音響信号中に含まれる音声を認識する技術や、音素認識技術において、認識精度を高める技術が提案されている（非特許文献１）。

Gales、 M. J.F. and Yound、 S.「 An improved approach to the hidden Markov model decomposition of speech and noise」、 Proceedings of the 1997 IEEE International Conference on Acoustics、 Speech、 and Signal Processing (ICASSP 1997)、 pp.835－838 (1997)

　従来は、混合比率（Ｓ／Ｎ比）が既知であることを前提にするため、混合音信号に含まれるノイズ信号の変動量が大きくなると、混合比率の推定精度が悪くなる問題があった。

　本発明の目的は、混合音信号中の対象音信号とノイズ信号との混合比率を推定することができる混合音信号の混合比率推定方法及びシステムを提供することにある。

　上記目的に加えて、本発明の他の目的は、有声音信号の混合比率を推定する際に、基本周波数Ｆ０も一緒に推定することができる混合音信号の混合比率推定方法を提供することにある。

　本発明の他の目的は、推定した混合比率を用いて音素認識を行う音素認識方法を提供することにある。

　本発明は、混合音信号から離散的に取得した１フレーム信号に含まれる対象音信号とノイズ信号との混合比率を、コンピュータを用いて推定する混合音信号の混合比率推定方法を改良の対象とする。本願明細書において、対象音信号には、音声信号（歌声信号を含む）や楽器の音響信号等が含まれる。またノイズ信号は、混合音信号に含まれる対象音信号以外の信号を言う。また「離散的に取得した１フレーム信号」とは、所定の時間幅のハニング窓を１フレームとして用いて混合音信号から取得した信号である。

　本発明では、１以上の学習用対象音信号の周波数成分とパワースペクトルの確率分布の関係を示す１以上の対象音スペクトルテンプレートを用意する。また１以上の学習用ノイズ信号の周波数成分とパワースペクトルの確率分布の関係を示す１以上のノイズ・スペクトルテンプレートを用意する。そして１以上の対象音スペクトルテンプレートと１以上のノイズ・スペクトルテンプレートとを組み合わせて合成することにより１以上の確率的スペクトルテンプレートを作成する。

　本願明細書において、音声（歌声を含む）等を含む混合音信号のスペクトルが存在する確率分布の集合を確率的スペクトルテンプレート（Probabilistic_Spectral Template）と呼ぶ。

　ここで学習用対象音信号とは、対象音に応じて集めた１以上の学習用の音信号である。例えば対象音が音声の場合には、母音、子音等の有声音、無声音などの単音の音信号が、学習用対象音信号となる。精度を高めるためには、複数の人の音声信号から複数の単音の音信号を学習用対象音信号として取得するのが好ましい。観測する混合音信号に応じて、男の音声信号、女の音声信号、子供の音声信号などの種類に分けて複数種類の学習用対象音信号を用いてもよい。また対象音が弦楽器の楽器音の場合には、ある弦楽器の単音の音信号が学習用対象音信号となり、対象音が打楽器の楽器音の場合には、ある打楽器の単音の音信号が学習用対象音信号となる。

　また本願明細書において、学習用ノイズ信号は、対象となる混合音信号に含まれる対象音の音信号以外の音信号である。歌声を含む楽曲の楽曲信号が混合音信号であれば、歌声が対象音で、背景の伴奏音がノイズ音となる。したがって学習用ノイズ音は、対象とする混合音信号に含まれるノイズ音の種類を想定して、適宜に選定されることになる。歌声だけの音信号があれば、この歌声だけの音信号が学習用対象音信号となり、また伴奏だけの音信号があれば、この伴奏だけの音信号が学習用ノイズ信号となる。このような学習用対象音信号及び学習用ノイズ信号は、それぞれ個別に入手することになる。

　しかし学習対象音信号及び学習用ノイズ信号が、簡単に入手できない場合もある。そこでこのような場合には、学習用対象音信号の対象音スペクトルテンプレートと学習用ノイズ信号のノイズ・スペクトルテンプレートを、共に学習用混合信号から推定してもよい。この場合、学習用混合音とは、対象音に相当する音の信号とノイズに相当する音の信号が混合されて構成されたものである。例えば、対象音が歌声であれば、歌声と伴奏音を含む、ある音信号が混合音信号であり、対象音がスピーチ等の音声であれば、その音声と背景の雑音を含む音信号が混合音信号である。

　観察対象の混合音信号が、女性のボーカル歌声を含む混合音信号であれば、１以上の学習用混合音信号として、女性のボーカル歌声を含む混合音信号を用いるのが好ましい。観測する混合音信号とは種類が異なる音信号であっても、ある程度の数の混合音信号を学習用混合音信号として集めて、それぞれの学習用混合音信号から、複数の対象音スペクトルテンプレート及び複数のノイズ・スペクトルテンプレートを推定すれば、平均化された学習データが取得できるので、精度の低下には大きな問題は生じない。

　本発明の方法では、観測する混合音信号から１フレーム中の観測スペクトルを取得する。観測スペクトルとは、混合音信号から得た１フレーム中の信号の周波数とパワースペクトルとの関係を示すスペクトル波形である。そして本発明では、１以上の確率的スペクトルテンプレートを構成する１以上の対象音スペクトルテンプレートのゲインと１以上のノイズ・スペクトルテンプレートのゲインを変えて得た複数のゲイン変更スペクトルテンプレートと前記観測スペクトルとの距離が一番小さくなるゲイン変更スペクトルテンプレートを最小距離ゲイン変更スペクトルテンプレートとして決定する。そして最小距離ゲイン変更スペクトルテンプレートのゲインとノイズ・スペクトルテンプレートのゲインに基づいて混合比率を推定する。

　なおゲイン決定のための最適化には、準ニュートン法を用いることができる。決定された最小距離ゲイン変更スペクトルテンプレートの対象音スペクトルテンプレートのゲインＧsとノイズ・スペクトルテンプレートのゲインＧnに基づいて、１フレームの混合音信号の混合比率（Ｓ／Ｎ比）を推定する。具体的には、Ｇs／Ｇnが、１フレームの混合音信号の混合比率となる。

　本発明によれば、対象音（音声、歌声等）がその他のノイズ（伴奏音等）と混ざった状態のスペクトルを、分離せずそのまま混合比率を認識することができる。本発明によれば、背景のノイズに関する情報も活用するため、混合音を認識するために混合音を構成する対象音及びノイズ音を分離し、その後分離した音を認識するという従来の技術と比べて、推定精度を向上させることができる。また本発明によれば、混合音信号について各フレームでＳ／Ｎ比の推定を行うので、ノイズの変動に対してロバストになるという利点がある。

　対象音信号が有声音信号のように調波構造を有する音信号であれば、対象音スペクトルテンプレートは駆動音源関数と音声包絡テンプレートとの積により定められる。駆動音源関数は、有声音信号のように調波構造を有する音信号の調波構造の標準的なスペクトルの周波数成分を示すフィルタである。なお駆動音源関数を用いる場合には、最小距離ゲイン変更スペクトルテンプレートを決定する際に、同時に駆動音源関数の基本周波数Ｆ０を推定する。基本周波数Ｆ０を推定する場合にも、前述の準ニュートン法を用いることができる。駆動音源関数を用いると、対象音信号のスペクトルのスペクトル包絡を推定しないため、調波構造を持つ音をそのまま表現できるという利点が得られる。

　対象音信号が音声信号であれば、対象音スペクトルテンプレートは音声スペクトルテンプレートである。そして調波構造を有する音信号が有声音信号であれば、対象音スペクトルテンプレートは有声音信号の調波構造の標準的なスペクトルの周波数成分を示す駆動音源関数と音声包絡テンプレートとの積により定められる。また対象音信号が無声音信号であれば、対象音スペクトルテンプレートは音声包絡テンプレートである。ここで音声包絡テンプレートは、対象とする有声音または無声音について収集した学習用音信号を周波数分析して得た周波数成分とパワーの関係を示す複数の周波数スペクトル波形に含まれるパワー中の複数のピークを繋ぐ包絡線の分布状態を示すテンプレートである。

　パワースペクトルの確率分布は、各周波数において対数正規分布で表されているのが好ましい。対数正規分布で表されていれば、推定のための演算が容易になる。

　なお対象音の種類が判っていない場合には、予め対象音スペクトルテンプレートを複数用意すればよい。

　本発明によれば、観測する混合音信号の１フレーム単位の混合比率を従来よりも高い精度で推定することができる。また対象音が有声音の場合に駆動音源関数を用いると、最小距離ゲイン変更スペクトルテンプレートを決定する際に、同時に駆動音源関数の基本周波数Ｆ０を推定することができる。

　本発明の混合比率推定方法を実施する混合比率推定システムは、スペクトルテンプレート記憶部と、確率的スペクトルテンプレート作成部と、観測スペクトル取得部と、決定部と、混合比率推定部とを備えている。

　スペクトルテンプレート記憶部は、１以上の学習用対象音信号の周波数成分とパワースペクトルの確率分布の関係を示す１以上の対象音スペクトルテンプレートと、１以上の学習用ノイズ信号の周波数成分とパワースペクトルの確率分布の関係を示す１以上のノイズ・スペクトルテンプレートとを記憶する。確率的スペクトルテンプレート作成部は、１以上の対象音スペクトルテンプレートと１以上のノイズ・スペクトルテンプレートとを組み合わせて合成することにより１以上の確率的スペクトルテンプレートを作成する。観測スペクトル取得部は、混合音信号から１フレーム中の観測スペクトルを取得する。そして決定部は、１以上の確率的スペクトルテンプレートをそれぞれ構成する対象音スペクトルテンプレートのゲインとノイズ・スペクトルテンプレートのゲインを変えて得た複数のゲイン変更スペクトルテンプレートと観測スペクトルとの距離が一番小さくなるゲイン変更スペクトルテンプレートを最小距離ゲイン変更スペクトルテンプレートとして決定する。推定部は、最小距離ゲイン変更スペクトルテンプレートのゲインとノイズ・スペクトルテンプレートのゲインに基づいて混合比率を推定する。

　本発明のシステムは、１以上の対象音スペクトルテンプレート及び１以上のノイズ・スペクトルテンプレートを生成するテンプレート生成部を備えていてもよい。テンプレート生成部は、対象音信号が調波構造を有する有声音信号であるときに、対象音スペクトルテンプレートを、有声音信号の調波構造の標準的なスペクトルの周波数成分を示す駆動音源関数と音声包絡テンプレートとの積により定め、且つ対象音信号が無声音信号であれば、対象音スペクトルテンプレートとして音声包絡テンプレートを用いるように構成することができる。

　またテンプレート生成部は、対象音スペクトルテンプレートとノイズ・スペクトルテンプレートとを共に学習用混合信号から推定するように構成してもよい。

　本発明の音素認識方法では、混合音信号中の混合比率推定方法により求めた、最小距離ゲイン変更スペクトルテンプレートに対応する音素を１フレームの音素と決定する。そして決定された複数のフレームの音素の連続性に基づいて音声の種類を決定する。ここで「フレームの音素の連続性」とは、実際の信号において、同じ音素が複数のフレームで連続して現れる傾向を示す性質を意味する。

本発明の混合音信号の混合比率推定方法を実施する本発明の混合音信号の混合比率推定システムの実施の形態を備えた音素認識システムの一例の構成を示すブロック図である。図１の実施の形態を、コンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示すフローチャートである。（ａ）乃至（ｃ）は、対象音が音声の場合における対象音スペクトルテンプレートとしての音声スペクトルテンプレートの生成過程を説明するために用いる図である。（ａ）乃至（ｄ）は、音声スペクトルテンプレート_v、fとノイズ・スペクトルテンプレートとに基づいて確率的スペクトルテンプレートＹ_fを生成する過程と、確率的スペクトルテンプレートＹ_n、fと観測スペクトルｙ（ｆ）との間の距離（尤度）を求める過程を説明するために用いる図である。音素認識方法の概要を示す図である。コンピュータを用いてゲイン変更スペクトルテンプレートＹ′_ｆと観測スペクトルｙ（ｆ）との距離（尤度）を求めるプログラムのアルゴリズの一例を示す図である。図６のステップＳＴ１２における基本周波数Ｆ０の推定のアルゴリズムの一例を示す図である。音素の推定をコンピュータを用いて行う場合に用いるプログラムのアルゴリズムの一例を示すフローチャートである。（ａ）乃至（ｄ）は、パラメータの推定過程の例を示す図である。パラメータ推定をコンピュータで実施する場合に用いるプログラムのアルゴリズムのフローチャートである。学習用混合音信号から対象音スペクトルテンプレートとノイズ・スペクトルテンプレートを推定するためのアルゴリズムを示すフローチャートである。サンプリングの概念を模式的に示す図である。

　図１は、本発明の混合音信号の混合比率推定方法を実施する本発明の混合音信号の混合比率推定システムの実施の形態を備えた音素認識システムの一例の構成を示すブロック図である。図２は、図１の実施の形態を、コンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示すフローチャートである。また図３は、対象音が音声の場合における対象音スペクトルテンプレートとしての音声スペクトルテンプレートの生成過程を説明するために用いる図である。図４は、音声スペクトルテンプレートとノイズ・スペクトルテンプレートとに基づいて確率的スペクトルテンプレートを生成する過程と、確率的スペクトルテンプレートと観測スペクトルとの間の距離（尤度）を求める過程を説明するために用いる図である。

　本実施の形態の混合比率推定システム１は、テンプレート生成部２と、スペクトルテンプレート記憶部３と、確率的スペクトルテンプレート作成部９と、観測スペクトル取得部１４と、決定部１５と、混合比率推定部２５とを備えている。テンプレート生成部２は、対象音スペクトルテンプレートとノイズ・スペクトルテンプレートとを生成する。本実施の形態で採用するテンプレート生成部２は、２つの生成方法のいずれかを実施できるように構成されている、第１の生成方法を実施する場合、テンプレート生成部２は対象音信号が調波構造を有する有声音信号であるときに、対象音スペクトルテンプレートを、有声音信号の調波構造の標準的なスペクトルの周波数成分を示す駆動音源関数と音声包絡テンプレートとの積により定め、且つ対象音信号が無声音信号であれば、対象音スペクトルテンプレートとして音声包絡テンプレートを用いるように構成される。第２の生成方法を実施する場合、テンプレート生成部２は、対象音スペクトルテンプレートとノイズ・スペクトルテンプレートとを共に学習用混合信号から推定するように構成されている。なおこれら第１及び第２の生成方法については後に詳しく説明する。

　スペクトルテンプレート記憶部３は、テンプレート生成部２が生成した対象音スペクトルテンプレートを記憶する対象音スペクトルテンプレート記憶部５とテンプレート生成部２が生成したノイズ・スペクトルテンプレートを記憶するノイズ・スペクトルテンプレート記憶部７とから構成されている。対象音スペクトルテンプレート記憶部５は、複数の学習用対象音信号に基づいて予め用意した複数の対象音スペクトルテンプレート（本実施の形態では音素認識に使用するため、具体的には「音声スペクトルテンプレート_v、f」）を記憶している。例えば、図３（ｃ）に示すように、対象音スペクトルテンプレートは、複数の学習用対象音信号に基づいて作成した複数の学習用対象音信号の周波数成分とパワースペクトルの確率分布（確率密度）の関係を示すテンプレートである。例えば、対象音が音声信号の場合には、母音及び子音の有声音、無声音などの学習用の複数の単音信号について、それぞれ得た周波数成分とパワースペクトルの確率分布（確率密度）の関係を示すテンプレートが、複数の対象音スペクトルテンプレートである。

　ここで１以上の学習用対象音信号とは、対象音に応じて集めた１以上の学習用の音信号であり、例えば対象音が音声の場合には、母音、子音等の有声音、無声音などの単音の音信号であり、複数の人の音声信号から取得したものである。観測対象の混合音信号に応じて、男の音声の音声信号、女の音声の音声信号、子供の音声の音声信号などの種類に分けて学習用対象音信号を用いてもよい。また１以上の学習用ノイズ信号は、対象となる混合音信号に含まれる対象音の音信号以外の音信号である。学習用ノイズ音は、対象とする混合音信号に含まれるノイズ音の種類を想定して、適宜に選定される。例えば、歌声だけの音信号があれば、この歌声だけの音信号が学習用対象音信号となり、また伴奏だけの音信号があれば、この伴奏だけの音信号が学習用ノイズ信号となる。

　また学習用混合音信号とは、対象音に相当する音の信号とノイズに相当する音の信号が混合されて構成されたものである。例えば、対象音が歌声であれば、歌声と伴奏音を含む、ある音信号が混合音信号であり、対象音がスピーチ等の音声であれば、その音声と背景の雑音を含む音信号が混合音信号である。

　観測対象の混合音信号が、女性のボーカル歌声を含む混合音信号であれば、１以上の学習用混合音信号として女性のボーカル歌声を含む混合音信号を用いるのが好ましい。しかしながら観測の混合音信号とは種類が異なる音信号であっても、ある程度の数の混合音信号を学習用混合音信号として集めて、それぞれの学習用混合音信号から複数の学習用対象音信号及び複数の学習用ノイズ信号を取得して、複数の対象音スペクトルテンプレート及び複数のノイズ・スペクトルテンプレートを用意すれば、平均化された学習データが取得できるので、精度の低下に大きな問題は生じない。

　対象音信号が有声音信号であれば、テンプレート生成部２は、対象音スペクトルテンプレートを図３（ｂ）に示す駆動音源関数Ｈ（ｆ；ｆ₀）と図３（ａ）に示す音声包絡テンプレートＹ′_v，fとの積により生成する。駆動音源関数（ｆ；ｆ₀）は、有声音信号の調波構造の標準的なスペクトルの周波数成分を示すフィルタである。適切な駆動音源関数Ｈ（ｆ；ｆ₀）の基本周波数Ｆ₀は、音声スペクトルテンプレートＹ_v、fとノイズ・スペクトルテンプレートのゲインまたは後述する重みパラメータｇ_v、ｇ_nの最適化の際に同時に決定されることなる。

　音声包絡テンプレートＹ′_v，fは、図３（ａ）に示すように、対象音（有声音または無声音）について収集した１以上の学習用対象音信号を、周波数分析して得た周波数成分とパワーの関係を示す周波数スペクトル波形に含まれるパワー中の複数のピークを繋ぐ包絡線の分布状態（確率密度）を示すテンプレートである。図３（ａ）の音声包絡テンプレートＹ′_v，fに示される濃淡は、分布状態（確率密度）を示している。音声包絡テンプレートＹ′_v，fは、対象音ごとに準備される。音素認識であれば、認識すべき全ての音素ごとに音声包絡テンプレートＹ′_v，fが準備される。前述のように、対象音が有声音の場合には、図３に示すように駆動音源関数Ｈ（ｆ；ｆ₀）と図３（ａ）に示す音声包絡テンプレートＹ′_v，fとの積により求められた音声スペクトルテンプレートが対象音スペクトルテンプレート記憶部５に記憶されている。駆動音源関数Ｈ（ｆ；ｆ₀）と音声包絡テンプレートＹ′_v，f
は、テンプレート生成部２内の内部メモリに保存されており、両者の積の演算がテンプレート生成部２内の演算部で実行される。

　対象音が無声音の場合には、テンプレート生成部２が内部メモリに保存している音声包絡テンプレートＹ′_v，fを、対象音スペクトルテンプレートとして対象音スペクトルテンプレート記憶部５に記憶させる。

　ノイズ・スペクトルテンプレート記憶部７は、１種以上のノイズ・スペクトルテンプレート［図４（ｂ）参照］を記憶している。ノイズ・スペクトルテンプレートとは、学習用ノイズ信号の周波数成分とパワースペクトルの確率分布の関係を示すテンプレートである。ここで学習用ノイズ信号は、観測対象となる混合音信号に含まれる対象音の音信号以外の音信号である。ノイズも混合音信号の種類によって、異なってくる。そこで学習用ノイズ音は、対象とする混合音信号に含まれるノイズ音の種類を想定して、適宜に選定されることになる。すなわち混合音信号の種類に応じて（ポップスの音楽信号、オペラのようなクラッシックの音楽信号等のように音楽種類に応じて）、ノイズ・スペクトルテンプレートを作成するのが好ましい。本実施の形態では、テンプレート生成部２が、学習用ノイズ信号の周波数成分とパワースペクトルの確率分布の関係に基づいてノイズ・スペクトルテンプレートを作成して、ノイズ・スペクトルテンプレート記憶部７にそれを記憶させる。本実施の形態では、観測対象となる混合音信号の種類に合わせて、複数種類のノイズ・スペクトルテンプレートが、ノイズ・スペクトルテンプレート記憶部７に記憶されている。図４（ｂ）のノイズ・スペクトルテンプレートに示される濃淡は、確率密度を示している。

　確率的スペクトルテンプレート作成部９は、組合せ部１１と確率的スペクトルテンプレート記憶部１３とを備えている。組合せ部１１は、対象音スペクトルテンプレート記憶部５に保存されている１以上の対象音スペクトルテンプレートと、ノイズ・スペクトルテンプレート記憶部７に保存されている１種類以上のノイズ・スペクトルテンプレートとを一つずつ組み合わせて合成することにより１以上確率的スペクトルテンプレートを作成する。１００の対象音スペクトルテンプレート（音声スペクトルテンプレート）と２つのノイズ・スペクトルテンプレートとがある場合、２００の確率的スペクトルテンプレートが、組合せ部１１で組み合わされて合成される。２００の確率的スペクトルテンプレートは、確率的スペクトルテンプレート記憶部１３に保存される。図４（ｃ）は、確率的スペクトルテンプレートＹ_fを一例を示している。

　観測スペクトル取得部１４は、観測対象の混合音信号から離散的に取得した１フレーム信号を周波数分析して、図４（ｄ）に示すような周波数とパワースペクトルとの関係を示す観測スペクトルｙ（ｆ）を取得する。具体的には、所定の時間幅のハニング窓を１フレームとして用いて混合音信号から１フレーム信号を取得し、周波数分析を行って観測スペクトルを取得する。

　決定部１５は、選択部１７と、距離演算部１９と、一時記憶部２１と、確定部２３とから構成される。選択部１７は、確率的スペクトルテンプレート記憶部１３から確率的スペクトルテンプレートを順番に選択する。そして距離演算部１９は、選択した１つの確率的スペクトルテンプレートを構成する対象音スペクトルテンプレートのゲインＧs（重みパラメータｇ_ｖ）とノイズ・スペクトルテンプレートのゲインＧn（重みパラメータｇ_n）を変えて得た複数のゲイン変更スペクトルテンプレートＹ′_ｆと観測スペクトルｙ（ｆ）との距離（尤度）を求め、この距離が一番小さくなるゲイン変更スペクトルテンプレートをその確率的スペクトルテンプレートにおける最小距離ゲイン変更スペクトルテンプレートＹ′_ｆminとして決定する。そして一時記憶部２１に、最小距離ゲイン変更スペクトルテンプレートＹ′_ｆminを記憶する。確率的スペクトルテンプレート記憶部１３に記憶されている全ての確率的スペクトルテンプレートについて最小距離ゲイン変更スペクトルテンプレートＹ′_ｆminを求めてそれらを一時記憶部２１に記憶した後、確定部２３は複数の確率的スペクトルテンプレートについてそれぞれ決定されて一時記憶部１２に記憶された複数の最小距離ゲイン変更スペクトルテンプレートの中で、距離が最も小さい最小距離ゲイン変更スペクトルテンプレートＹ′_ｆminを確定する。そして推定部２５は、確定した最小距離ゲイン変更スペクトルテンプレートＹ′_ｆminの対象音スペクトルテンプレートのゲインＧs（重みパラメータｇ_ｖ）とノイズ・スペクトルテンプレートのゲインＧn（重みパラメータｇ_n）に基づいて、混合比率Ｇs／Ｇnを推定する。例えば、１００の対象音スペクトルテンプレートと２つのノイズ・スペクトルテンプレートとがある場合、２００組の確率的スペクトルテンプレートが存在することにより、これら２００組の確率的スペクトルテンプレートのそれぞれを構成する対象音スペクトルテンプレートのゲインとノイズ・スペクトルテンプレートのゲインとを変更して、２００組の前述の候補を決定する。そして２００組の候補の中から観測スペクトルとの距離が一番小さくなるものが、最小距離ゲイン変更スペクトルテンプレートとして決定される。ゲイン決定のための最適化には、準ニュートン法を用いることができる。

　推定部２５が推定した１フレーム分の混合音信号の混合比率Ｇs／Ｇnは推定結果記憶部２７に、対象音スペクトルテンプレートの識別情報（音素の種類を特定する情報）と一緒に格納される。音素認定部２９は、推定結果記憶部２７に記憶されているデータに基づいて、最小距離ゲイン変更スペクトルテンプレートに対応する音素を１フレームの音素として決定する。そして決定されたフレームの音素の連続性に基づいて音声の種類を決定する。ここで「フレームの音素の連続性」とは、実際の信号において、同じ音素が複数のフレームで連続して現れる傾向を示す性質を意味する。例えば、歌声の中で１つの母音が連続する長さは、１フレーム周期の１００倍以上の長さになることもあり得る。

　したがってフレームの音素に基づいて、歌声の音素を決定する場合には、複数の連続するフレームの音素が、必ず、全てまたは大部分が同じになる。そこで本実施の形態では、フレームの音素の連続性に基づいて音声の種類を決定する。このようにすると混合音信号から音声信号だけを取り出すことなく、音素認識を行うことができる。

　次に、図１に示した実施の形態をコンピュータを用いて実施する場合のプログラムのアルゴリズムを示す図２に示したフローチャートについて説明する。このフローチャートは、一例であって、本発明はこのフローチャートに限定されるものではない。まずステップＳＴ１では、複数の確率スペクトルテンプレートを作成する。そこでステップＳＴ１を実施するために確率的スペクトルテンプレートを作成する。すなわち複数の学習用対象音信号に基づいて予め用意した複数の対象音スペクトルテンプレートと複数の学習用混合音信号に基づいて予め用意した１種類以上のノイズ・スペクトルテンプレートとを一つずつ組み合わせて合成することにより複数の確率的スペクトルテンプレートを作成する。次にステップＳＴ２では、混合音信号から１フレーム中の観測スペクトルを取得する。ステップＳＴ３では、複数（理論的には１つでも可能）の確率的スペクトルテンプレートのそれぞれについて、確率的スペクトルテンプレートを構成する対象音スペクトルテンプレートのゲインとノイズ・スペクトルテンプレートのゲインを変えて得た複数のゲイン変更スペクトルテンプレートと観測スペクトルとの距離が一番小さくなるゲイン変更スペクトルテンプレートを最小距離ゲイン変更スペクトルテンプレートとして決定する。ステップＳＴ４では、複数の確率的スペクトルテンプレートについてそれぞれ決定された複数の最小距離ゲイン変更スペクトルテンプレートの中で、距離が最も小さい最小距離ゲイン変更スペクトルテンプレートの対象音スペクトルテンプレートのゲインとノイズ・スペクトルテンプレートのゲインに基づいて、混合比率を推定する。

［具体的適用例］
　次に上記実施の形態の混合比率推定方法及びシステムを用いて、混合音信号中の歌声の歌詞（音素）と基本周波数（Ｆ０）を同時に認識する実施の形態について説明する。歌詞は歌い手が歌声によって伝えたい内容を表現し、基本周波数Ｆ０は楽曲の旋律を表すと同時に、歌手の技巧や表情なども表現するため、どちらも歌声を構成する重要な要素である。そのため、混合音中からこれらの要素を自動認識する技術は、音楽情報検索などにも応用可能で、重要な基礎技術となる。例えば、歌詞が認識できることで、歌詞が未知の楽曲を歌詞を手がかりに検索できる。また、音素の自動認識技術は、歌詞と音楽の時間的対応付けに適用することができ、歌詞をカラオケのように表示する音楽プレイヤーや音楽ビデオのテロップ自動作成などに応用できる。歌声の基本周波数（Ｆ０）の推定は、ボーカルパートの自動採譜やハミング検索などに応用可能である。さらに、ハミング検索に歌詞の情報を統合することで、ハミング検索の精度が向上することも報告されているなど、歌詞とＦ０を同時に推定することでさらに応用範囲が広まる。しかし、歌声は話し声に比べて、ビブラートやＦ０の変化幅の広さ、歌手の感情表現などに起因する変動が多い上に、伴奏音が大音量で重畳するため、歌声（音素）の自動認識は非常に難しい問題がある。

　発明者等は、今までに音楽と歌詞の時間的対応付け手法（下記論文１及び２）と混合音中の歌声のＦ０推定手法（下記論文３）について研究してきた。

　［論文１］
Fujihara，H.及びGoto，M.著の「Three Techniques for Improving Automatic Synchronization between Music and Lyrics: Fricative Sound Detection、 Filler Model、 and Novel Feature Vectors for Vocal Activity Detection」、 Proceedings of the 2008 IEEE International Conference on Acoustics、 Speech、 and Signal Processing(ICASSP2008)、 pp.69－72 (2008).
　［論文２］
　 Fujihara，H、 Goto，M.、 Ogata，J.、 Komatani，K.、 Ogata，T. 及びOkuno，H.G.著の「Automatic synchronization between lyrics and music CD recordings based on Viterbialignment of segregated vocal signals」、 Proc. ISM、 pp.257－264 (2006).
　［論文３］
　藤原弘将、後藤真孝及び奥乃博著「歌声の統計的モデル化とビタビ探索を用いた多重奏中のボーカルパートに対する音高推定手法」情報処理学会論文誌、 Vol.49、 No.10 (2008).
　上記論文に記載の手法では共通して、混合音から調波構造を手がかりに音を分離し、それを統計的手法により識別するというアプローチをとっていた。具体的には、歌詞の時間的対応付けの場合、既存手法によって推定された歌声のＦ０の音がどの音素であるかを識別し、歌声のＦ０推定の場合、各時刻の周波数成分の候補が歌声であるかそれ以外の音であるかを識別していた。しかし、それらの手法は下記の２つの問題点を抱えている。

　［分離の問題］
　歌声の認識性能が、その前段に行われる分離の性能に大きく依存していた。そのため、Ｆ０推定や、分離の際にスペクトルから調波成分を選択する処理の誤りが、性能に悪影響を与えていた。また、歌声とノイズのS/N比や歌声の歪み度合いなどの情報を含んでいる背景雑音（分離対象の音以外の音）を、分離の過程で捨ててしまっていた。

　［スペクトル包絡推定の問題］
　従来の手法では、スペクトル包絡を分離後の歌声の調波構造から推定しスペクトル包絡同士の距離を計算することで、歌声を認識していた。しかし、調波構造の各倍音成分は元のスペクトル包絡からＦ０の整数倍の周波数成分をサンプリングしたものと考えることができるため、与えられた調波構造から元のスペクトル包絡を一意に復元することは原理的に不可能であった。そのため、例えばＦ０が高い音など、調波構造の各倍音成分の谷間の幅が広い場合など、距離を正確に計算することが困難であった。

　本実施の形態では、歌声を分離したり、単一の調波構造からスペクトル包絡を推定したりせず、観測されたスペクトルを伴奏音が重畳したありのままの形を確率的にモデリングする。さらに、学習の過程では、複数の調波構造を用いることで、より正確にスペクトル包絡を推定する。

　具体的には、図４（ｃ）と図４（ｄ）に示すように、歌声を含む混合音信号のスペクトルがある確率分布の集合から生成されると仮定する。ここで、スペクトルの各周波数ビン（周波数分析幅）に現れるパワーはある確率分布に従い、その確率分布は複数のスペクトルのビンごとに異なると考える。スペクトルの加法性を仮定すると、確率的スペクトルテンプレートは、歌声を表現する音声（歌声）スペクトルテンプレート［図４（ａ）］と歌声以外の音を表現するノイズ・スペクトルテンプレート［図４（ｂ）］の線形軸上での加算で表現することができる。そしてこれら２つのスペクトルテンプレートの加算の際に重みパラメータ（ゲイン調整）を導入し、重み付きで加算することで、様々なＳ／Ｎ比のスペクトルを表現できる。さらに、ソースフィルターモデルを仮定すると、音声（歌声）スペクトルテンプレートは、スペクトル包絡を表現する音声（歌声）包絡テンプレート（Vocal Envelope Template）［図３（ａ）］と駆動源の調波構造を表現する駆動音源関数（Harmonic Filter）［図３（ｂ）］の積によって生成されると考えられる。駆動音源関数の形状は、基本周波数Ｆ０の値をパラメータとして、コントロールできる。

　確率モデルのパラメータである駆動音源関数のＦ０と、音声（歌声）スペクトルテンプレートとノイズ・スペクトルテンプレートのそれぞれの重みが定まれば、観測スペクト
ルの確率モデル（確率的スペクトルテンプレート）に対する尤度（距離）を計算することができる。このモデルを用いると、図５に示すように、各音素を表現する音声（歌声）包絡テンプレートＹ′_v，f［音素／ａ／，音素／ｂ／，・・・音素／ｏ／・・］をあらかじめ学習しておき、観測スペクトルに対して最尤な（最も距離が近い）音声（歌声）包絡テンプレートＹ′_v，fを選択することで音素認識ができて、最尤な（最も距離が近い）Ｆ０の値を推定することでＦ０推定ができる。図３を用いて説明した最初の実施の形態で説明したように、各音素を表現する音声（歌声）包絡テンプレート［音素／ａ／，音素／ｂ／，・・・音素／ｏ／・・］と駆動音源関数Ｈ（ｆ_i，ｆ₀）との積をとって、各音素のスペクトルテンプレートを表現する複数の音声（歌声）スペクトルテンプレート（対象音スペクトルテンプレート）Ｙ_v，fを作る。次に図４に示すように、各音素のスペクトルテンプレートを表現する複数の音声（歌声）スペクトルテンプレートＹ_v，fとノイズ・スペクトルテンプレートＹ_n，fとの積をとり（組み合わせて）、複数の音声（歌声）スペクトルテンプレートに対する複数の確率的スペクトルテンプレートＹ_fを作成する。

　各音素の確認的スペクトルテンプレートを構成する音声（歌声）スペクトルテンプレートとノイズ・スペクトルテンプレートのそれぞれの重みを定めるために、各確率的スペクトルテンプレートを構成する対象音スペクトルテンプレートのゲインＧs（重みパラメータｇ_ｖ）とノイズ・スペクトルテンプレートのゲインＧn（重みパラメータｇ_n）を変えて各音素についての複数のゲイン変更スペクトルテンプレートＹ′_ｆを得る。そして各音素についての複数のゲイン変更スペクトルテンプレートＹ′_ｆと観測スペクトルｙ（ｆ）との距離（尤度）を求め、この距離が一番小さくなるゲイン変更スペクトルテンプレートをその確率的スペクトルテンプレートにおける最小距離ゲイン変更スペクトルテンプレートＹ′_ｆminとして決定する。すなわち各音素についての複数のゲイン変更スペクトルテンプレートＹ′_ｆの中で距離（尤度）が一番小さくなるものを、その音素についての最小距離ゲイン変更スペクトルテンプレートＹ′_ｆminとする。全ての音素についての確率的スペクトルテンプレートについて最小距離ゲイン変更スペクトルテンプレートＹ′_ｆminを求め、求めた複数の最小距離ゲイン変更スペクトルテンプレートの中で、距離が最も小さい最小距離ゲイン変更スペクトルテンプレートＹ′_ｆminに対応する音素を、認識した音素として確定する。

　図６には、コンピュータを用いて前述のゲイン変更スペクトルテンプレートＹ′_ｆと観測スペクトルｙ（ｆ）との距離（尤度）を求めるプログラムのアルゴリズの一例を示している。このアルゴリズでは、ステップＳＴ１１で基本周波数Ｆ０の初期値を設定し、音声スペクトルテンプレートのゲインを設定し、ノイズ・スペクトルテンプレートのゲインの初期値を設定する。そしてステップＳＴ１２では、準ニュートン法等の非線形最適化手法で最適なゲインとＦ０を推定する。そしてステップＳＴ１３で、得られたゲインとＦ０値についての尤度を計算する。

　図７は、ステップＳＴ１２における基本周波数Ｆ０の推定のアルゴリズムの一例を示している。このアルゴリズムでは、ステップＳＴ２１で観測スペクトル中から複数個のＦ０候補を推定する。このＦ０候補の推定には、観測スペクトルの周波数ピークの値を使用する方法や、櫛形フィルタの応答に基づいて推定する手法等、公知の推定法を用いることができる。

　そしてステップＳＴ２２で全てのＦ０候補について以下のループ１を実施することが開始される。ステップＳＴ２３では、全ての音声スペクトルテンプレートについて以下のループ２を実施することが開始される。ステップＳＴ２４では、全ての音声スペクトルテンプレートについて以下のループ３を実施することが開始される。ステップＳＴ２５では、Ｆ０候補の値を初期値として、音声スペクトルテンプレート及びノイズ・スペクトルテンプレートと観測スペクトルとの尤度により最適なＦ０を計算して保存する。最適なＦ０は、後述する「パラメータ推定」の説明中におけるStep0～Step3を用いて計算する。このとき、Step0で与えるＦ０の初期値に、Ｆ０候補の値を使用する。ステップＳＴ２６でループ３を終了し、ステップＳＴ２７でループ２を終了する。そしてステップＳＴ２８でループ２とループ３で最も尤度が大きかったときのＦ０値と尤度を保存する。ステップＳＴ２９でループ１を終了し、ステップＳＴ３０では、ループ１で最も尤度が大きかったＦ０を推定結果として出力する。

　図８は、音素の推定をコンピュータを用いて行う場合に用いるプログラムのアルゴリズムの一例を示すフローチャートである。このアルゴリズムでは、ステップＳＴ３１で全ての音素について以下のループ１を実施することが開始される。ステップＳＴ３２では、その音素の全ての音声スペクトルテンプレートについて以下のループ２を実施することが開始される。ステップＳＴ３３では、全てのノイズ・スペクトルテンプレートについて以下のループ３を実施することが開始される。ステップＳＴ３４では、音声スペクトルテンプレート及びノイズ・スペクトルテンプレートと観測スペクトルとの尤度を計算して保存する。ステップＳＴ３５でループ３を終了し、ステップＳＴ３６でループ２を終了する。そしてステップＳＴ３７でループ２とループ３で最も尤度が大きかった値をこの音素の尤度として保存する。ステップＳＴ３８でループ１を終了し、ステップＳＴ３９では、ループ１で最も尤度が大きかった音素を推定結果として出力する。

　この具体的な実施の形態によれば、音声（歌声）を分離せずに、ノイズ（伴奏音）が混在した状態をそのまま表現する。この具体的な実施の形態は、人間は音声（歌声）を分離せずにそのまま音声を認識できることを考えると、人間の知覚の観点からも自然な方法である。本実施の形態の方法では、音声（歌声）とノイズ（伴奏音）のＳ／Ｎ比をフレームごとに推定できるため、ノイズ（伴奏音）の変動に対してシステムは頑健である。さらに、複数のノイズ・スペクトルテンプレートを用意し、最尤なものを選択することで、システムをより頑健にすることができる。

　また本実施の形態では、単一の調波構造からスペクトル包絡を推定しないため、高いＦ０を持つ音に対してもシステムは頑健である。更に本実施の形態では、Ｆ０を持たない無声子音など、他の音や音源に対しても、駆動音源関数を用いない音声（歌声）スペクトルテンプレートを用意することで容易に拡張できる。

［定式化］
　以下上記に述べた方法及びシステムの具体的な定式化について説明する。本発明の方法をコンピュータに実装するに当たって、下記の３つの方法を具体化する。

　（１）確率的スペクトルテンプレートの表現方法。

　（２）２つのスペクトルテンプレートの加算の計算方法。

　（３）パラメータである、Ｆ０とゲインを最適化する方法。

　上記の３つの方法を具体化するために、下記のようなアプローチを取る。

　（１）確率的スペクトルテンプレートの各周波数ビンの分布として、対数正規分布を用いる。

　（２）対数正規分布に従う確率変数を加算した確率変数が、対数正規分布に従うと仮定する。

　（３）準ニュートン法によりパラメータを最適化する。

［確率的スペクトルテンプレート］
　音声（歌声）を含む混合音のスペクトルy(f) は、確率変数Yf から生成されると仮定する。ただし、f は対数軸での周波数を表し、s は対数軸でのスペクトルのパワーを表す。この確率変数（の集合）Ｙ_f が前述の確率的スペクトルテンプレートである。

　次に、Ｙ_fは次式により２つの異なるスペクトルテンプレートに分割できると仮定する。

　ただし、Ｙ_v，fは音声（歌声）のスペクトルを表し、前述の音声（歌声）スペクトルテンプレートである。Ｙn，f は音声（歌声）以外の音（ノイズまたは伴奏音）のスペクトルを表し、前述のノイズ・スペクトルテンプレートである。ｇv とｇn は音声スペクトルテンプレート及びノイズ・スペクトルテンプレートの重みであり、それらを変化させることで音声（歌声）とその他の音のＳ／Ｎ比を変化させることができる。なお、式（１）においては、線形軸上でスペクトルの加法性を仮定している。Ｙ_v，fとＹn，fとが、次式のように、（対数周波数軸上で）正規分布に従うと仮定する。

　ここで、N(y; μ，σ²) は、平均μ、分散σ²の正規分布である。さらに、ソースフィルターモデルを仮定することで、調波構造を持つ音声（歌声）Ｙ_v，f は、次式のように、包絡の確率モデルと調波構造を表現するフィルタの対数軸上の加算で表現できると仮定する（図３）。

　ここで、Ｙ′_v，f ～N(y; μ′_v，f ; σ² _v，f ) は音声（歌声）のスペクトル包絡を表現する確率変数であり、前述の音声（歌声）包絡テンプレートである。また、H(f; ｆ₀) はＦ０の値がｆ₀のフィルタを表現し、駆動音源関数と呼ぶ。なお、駆動音源関数H(f; ｆ₀) は確率変数ではない。以上をまとめると、音声（歌声）とノイズ（伴奏音）が混ざったスペクトルを表現する確率的スペクトルテンプレートＹ_fは下記のように表される。

［スペクトルテンプレートの加算の近似］
　上記式（１）で表される確率的スペクトルテンプレートＹ_f は、解析的に計算することは困難であるので、正規分布を用いて近似計算する。下記の関数l(x_1， x₂)を考える。

　上記式の(x_1， x₂) ＝ (μ_v，f + g_v、μ_n，f+ g_n) における２次のテイラー展開は、

のように計算される。ただし、Ｃはx₁ とx₂とは独立な定数である。ここで、パラメータ
g_v、 g_n 、ｆ₀が固定された場合、式（１２）がx₁ とx₂の重み付き加算であることに注意すると、確率的スペクトルテンプレートＹ_fは以下のように表される。

　そしてＹ_fは、

のように表現される。

［音素とＦ０の推定］
　このモデルを使って音素とＦ０を認識するためには、まず、それぞれの音素ｉを表現する音声（歌声）包絡テンプレートθⁱ _vとノイズ・スペクトルテンプレートθ_nを準備する必要がある。観測スペクトルｙ（ｆ）が与えられたとき、次式によりｙ（ｆ）に含まれる音素ｉとＦ０を推定することができる。

　ただし、u_f とσ²f は、それぞれ式（１６）と（１７）で定義される。

［準ニュートン法によるパラメータ最適化］
　式（１９）を計算するためのパラメータθ = （g_v、g_n、ｆ₀) の最適化には、BFGS（Broyden－Fletcher－Goldfarb－Shanno）公式に基づく準ニュートン法を使用する。準ニュートン法は山登り法の一種であり、反復的にパラメータを更新する。本モデルにおいて、最小化すべき目的関数Ｑ（θ）は、

で表される。ただし、ｙ（ｆ）は観測スペクトルである。

　ニュートン法では、目的関数を現在のパラメータの周りの二次のテイラー展開で近似し、パラメータを逐次的に更新する。しかし、ニュートン法では、２次のテイラー展開の計算に必要な２次の導関数のヘッセ行列が正定値であることを仮定しているが、この仮定は必ずしも成立しなかった。一方、準ニュートン法では、ヘッセ行列を直接計算せずに、パラメータの更新による１次の導関数の変化を用いて次式のように数値的に近似することで、安定した最適化が可能である。

　ただし、k は反復回数を表す。

　パラメータは下記のように最適化できる。

　Step 0 ：k ＝ 0 とB⁽⁰⁾ ＝ I を設定し、θ⁽⁰⁾ を初期化する。

　Step 1 ：θ^(k+1) を次式により更新する。

　α^(k) の値は、線形探索により決定する。

　Step 2：式(21) によりB^(k+1) を更新する。

　Step 3：ステップ１に戻る。

［歌声包絡テンプレートの推定］
　式（４）中の音声（歌声）包絡テンプレートＹ_v、f とノイズ・スペクトルテンプレートＹ_n，f は、学習データから推定する。一般に、調波構造を持つ音声（歌声）のスペクトルは、真のスペクトル包絡に対して、基本周波数の整数倍の周波数成分の点をサンプリングしたものと考えることができる。そのため、観測スペクトル（調波構造）と、その元となるスペクトル包絡は一対多の関係になり得るので、単一フレームの調波構造から真のスペクトル包絡を推定することは困難である。そこで本実施の形態では、異なるＦ０の値を持つ複数フレームの調波構造を用いることで、信頼性の高いスペクトル包絡を推定する。また、スペクトル包絡を一意に定めるのではなく、確率分布として推定するので、歌声の変動や学習データとテストデータの違いに対して頑健となる。複数の調波構造からその元となるスペクトル包絡を推定する場合、フレームごとの音量の違いを考慮に入れる必要がある。そのため、本実施の形態では各フレームの音量を正規化するためのパラメータを導入し、それも未知パラメータとして推定することでこの問題を解決した。

［混合回帰分布］
　スペクトルテンプレートを表現するモデルとして、各回帰要素として線形回帰を使用した混合回帰モデルを導入する。この混合回帰モデルは、例えば、 Jacobs，R.J.、 Jordan， M.、 Nowlan，S.J. 及び Hinton，G.E.著の「Adaptive mixtures of　local experts」、 Neural Computation、 Vol.3、 pp.79－87 (1991)に記載されている。先に述べたように、本実施の形態では、スペクトルテンプレートはある周波数ｆにおける対数パワーの分布が正規分布で表現されるモデルを用いて定義される必要があるが、このモデルはその用件を満たしている。混合回帰モデルでは、スペクトルテンプレートの平均μ_v，fと分散σ²v，f を下記の通り表現する。

　ただし、Gm(f; ψ_m， μ_m，σ² _m) はゲート関数の出力で、次式で定義される正規化ガウス関数を用いた。この正規化ガウス関数は、Xu， L.、 Jordan，M. I. 及び Hinton，G.E.著の「An alternative model for mixtures of experts」、 Advances in Neural Information Processing Systems 7、 pp.633－640 (1994)に記載されている。

　このモデルにおいて、未知パラメータは{ψ_m， μ_m， σ² _m， a_m， b_m，β² _m} であり、EM（Expectation and Maximization）法により推定することが可能である。ただし、ψ_m は、ψ_m ≧ 0かつΣ_m ψ_m ＝ 1 である。

［パラメータ推定］
　学習データとして与えられた１フレーム分の調波構造si(i = 1，．．．，I) のh 次倍音の周波数f_i，h とその対数パワーy_i，hが、下記の式として表されたとする。

　この時、最大化したい尤度関数は、次式で表される。

　ここで、k_i は各調波構造の音量を正規化するオフセットパラメータである。混合回帰モデルのパラメータとk_iを同時に最適化することは困難であるため、それらを反復的に更新していく。

　パラメータは下記の手続きで推定される。

　Step 0：k_i　＝ 0 とし、その他のパラメータの初期値を与える。

　Step 1：混合回帰モデルのパラメータをEM法により推定する。

　Step 2：k_iを次式により更新する。

　Step 3：１に戻る。

　図９は、パラメータの推定過程の例である。図９は、混合回帰モデルのパラメータ推定の過程の一例であり、各図の中心の太い線は混合回帰モデルの平均を表し、その上下の細い２本の線は標準偏差を表す。背景の細かい点は学習データの調波成分を表し、図の下部の複数の山は、ゲート関数G_m(f; ψ_m， μ_m，σ² _m) を表す。図より、更新を重ねることで学習データの各調波構造に対するオフセットパラメータk_i が最適化されて、より分散の少ない回帰曲線が推定されていることが見てとれる。ノイズ・スペクトルテンプレートについては、s_i(i = 1，．．．．，I)を調波構造でなくスペクトルそのものと考えることで、同様に推定できる。

　図１０は、このパラメータ推定をコンピュータで実施する場合に用いるプログラムのアルゴリズムのフローチャートを示している。まずステップＳＴ４１でパラメータを初期化する。パラメータの初期化のために、学習データ、複数の調波構造（各倍音Ｆ０とパワー）が使用される。次にステップＳＴ４２では、ｔ＝１としてループ１を開始する。ステップＳＴ４３では、現在のオフセットパラメータと各混合回帰モデルのパラメータを用いて、学習データの調波構造の各混合回帰モデルに対する帰属確率を計算する。そしてステップＳＴ４４では、現在のオフセットパラメータと各混合回帰モデルのパラメータに対する帰属確率を用いて、各混合回帰モデルを用いて、各混合回帰モデルのパラメータをＥＭアルゴリズムにより推定する。ステップＳＴ４５では、オフセットパラメータを更新する。そしてステップＳＴ４６で、ｔが一定の回数を上回ったか否かの判定がなされる。Ｙｅｓであれば、ステップＳＴ４８で終了し、Ｎｏであればループ１が繰り返される。

　上記実施の形態では、使用する学習用対象音信号及び学習用ノイズ信号は、それぞれ個別に入手することを前提としている。しかし学習対象音信号及び学習用ノイズ信号が、簡単に入手できない場合もある。そこでこのような場合には、学習用対象音信号の対象音スペクトルテンプレートと学習用ノイズ信号のノイズ・スペクトルテンプレートを、共に学習用混合信号から推定することができる。この推定は、図１のテンプレート生成部２の構成を変えることにより実現できる。なお学習用混合音とは、対象音が属する種類の音の信号とノイズに相当する音の信号が混合されて構成されたものである。観察対象の混合音信号が、女性のボーカル歌声を含む混合音信号であれば、１以上の学習用混合音信号として、女性のボーカル歌声を含む混合音信号を用いる。

　具体的に、学習用混合音からテンプレートを推定する場合は、音声包絡テンプレートとノイズ・スペクトルテンプレートを同時に推定する必要がある。図１１には、テンプレート生成部２をコンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示してある。ステップＳＴ５１において、パラメータの初期化を行う。前提として、I 個の観測スペクトルy₁(f)，・・・，y_i(f)，・・・，y_I (f) を観測したと仮定する。推定すべき対象音（音声）スペクトルテンプレートのパラメータはθ_v = {ψ_v，m、μ_v，m、σ² _v，ｍ、a_v，m、b_v，ｍ、β² _v，ｍ} とし、ノイズ・スペクトルテンプレートのパラメータはθ_n = {ψ_n，m、 μ_n，m、 σ² _n，ｍ、 a_n，m、 b_n，m、 β² _n，ｍ} とする。i 番目のスペクトルにおける駆動音源関数を加えた後の対象音スペクトルテンプレートは、以下のように表すことができる。

　ただし、i 番目の観測スペクトルのF0 であるf₀(i) は全てのi について既知であるとする。

　先の実施の形態では、対数正規分布の加算を１次のテイラー展開を用いて近似計算した。しかし、得られた式(15)～(17) は複雑な形状となり、対象音（音声）スペクトルテンプレートθ_v、ノイズ・スペクトルテンプレートθ_n を最適化するのは困難である。そこで本実施の形態では、対数正規分布の加算を定義に従って厳密に計算した後、パラメータを近似的に推定するというアプローチをとる。合成後のスペクトルテンプレートの確率密度関数をp_i，f (y; θ_v、θ_n、g_i，v、g_i，n) と書くと［なお観測するスペクトルの番号ｉごとに確率密度関数の形状が異なるので、添え字ｉを追加している。］、目的関数Ｌは、以下のように表される。

　ここで、g_i,vとg_i,n は、先の実施の形態のオフセットパラメータk_i と同様で、音量をフレーム間で正規化するオフセットパラメータ（重み）である。また、g_i,vとg_i,n は、音声（歌声）包絡テンプレートとノイズ・スペクトルテンプレートのSIR（Signal-to-Interference Ratio）を調整する役割も持っている。実際の実装では、連続ウェーブレット変換は周波数軸に対して離散的に計算しているため、f に関する積分は和の演算で置き換えられる。

　ここで推定すべきパラメータは{g_i,v、 g_i,n、θ_v、θ_n} である。これらのパラメータを全て同時に最適化するのは困難であるので、逐次的に最適化する。まず、ステップＳＴ５２において、重みg_i,n とノイズ・スペクトルテンプレートθ_nを固定して、上記式(31) による重みg_i,v とノイズ・スペクトルテンプレートθ_v の最適化を行い、ステップＳＴ５６においては重みg_i,v と対象音スペクトルテンプレートθ_v を固定して、式(32) による重みg_i, n と対象音スペクトルテンプレートθ_n の最適化を交互に繰り返すことを考える。まず、ステップＳＴ５２において、g_i,n とθ_n を固定して考えると、式(31) の和の内部は期待値の計算と考えることができる。そこで、サンプルＵの期待値の計算（正規分布の積分を含む計算）をサンプリングにより和の計算で近似する。ここでサンプリングとは、図１２に模擬的に示すように、分布に関する積分を多くの点の和で近似することを意味する。このサンプリングにより、g_i,v とθ_v の近似的な最適化が可能になる。具体的には、学習用ノイズ音に関する正規分布N(U; μ_n,f + g_i,n、 σ² _n,f) をU = y_i(f) で切断した、確率変数の定義域の上限が有界な単一切断正規分布からそれぞれのi、f についてＲ個ずつのサンプル(U_i,1,f 、・・・、 U_i,r,f 、・・・、 U_i,R,f ) をサンプリングしたとき、目的関数Ｌは、以下のように近似できる。

　具体的な実施例では、Ｒの値を300 に設定している。ここで、重みg_i，n とノイズ・スペクトルテンプレートθ_n を固定すると、π_i，r,ｆと（log(exp(y_i(f))－exp(U_i,r,f )) は定数となるため、式(33) を用いて、重みg_i,vと対象音スペクトルテンプレートθ_v を最適化できる（ステップＳＴ５１～ステップＳＴ５５）。また、重みg_i,v と対象音スペクトルテンプレートθ_v を固定した場合も同様で、式(31) からサンプリングにより式(33) と同様の式を導出し、重みg_i,n とノイズ・スペクトルテンプレートθ_n を最適化する（ステップＳＴ５６～ステップＳＴ５９）。

　しかし、式(33) は和(Σ)の対数（log）の形をしているため、未だ直接の最適化が困難である。そこで、ＥＭアルゴリズムに似た反復法によって、式(33) を反復的に最適化する。便宜的に、推定したいパラメータをλ = {g_i,v,θ_v} と書く。また、一回前の反復におけるパラメータの推定値をλ′と置く。まず、下記の変数z_i，r，f を考える。

　そしてλ′を用いて計算したz_i，r，f をz′_i，r，f とする（ステップＳＴ４）。このとき、z_i，r，f を固定し、下記の新たな目的関数Q₁(λ|λ′)を定める。

　そして上記目的関数をλ に関して最適化する操作と、最適化されたλ を用いてz_i，r，f を再計算する操作を反復する（ステップＳＴ５３～ＳＴ５５の繰り返し反復をする）と真の目的関数Ｌが最大化できる。なおこの反復回数は少なくとも１回でよい。式(36) をよく見ると、π_i，r，f は最適化に無関係であることがわかる。したがって、下記の関数Q₂(λ|λ′) の最適化は、Q₁(λ|λ′) の最適化と等価であることがわかる。

　さらに、Q₂ は定数項z の存在を除くと、式(27) と同様の形式をしていることがわかる。そこで上記式(37)のQ₂関数の最適化を実施する（ステップＳＴ５４）。すなわち、先の実施の形態で述べた単独の学習用対象音信号及び学習用ノイズ信号からのテンプレート推定の場合と同様に、Q₂ 関数は最適化できることがわかる。

　上記と同様の操作を重みg_i,v と対象音スペクトルテンプレートθ_v を固定し、式(31) からサンプリングにより式(33) と同様の式を導出し、重みg_i,n とノイズ・スペクトルテンプレートθ_n を最適化する（ステップＳＴ５６～ステップＳＴ５９）。そしてステップＳＴ５２～ＳＴ５９を予め定めた回数反復（ステップＳＴ６０）すると終了する。この反復回数は少なくとも１回でよい。

　以上をまとめるとパラメータは下記の手続きで推定される。

　ステップＳＴ５１： g_i，v ＝ 0、g_i，n　＝0 とし、その他のパラメータに対して後述のように初期値を与える。

　ステップＳＴ５２： g_i，n とθ_n を固定して、式(31) のＵをサンプリングする。

　ステップＳＴ５３：サンプリングしたＵと現在のパラメータg_i，v、θ_v を用いて、式(35) のz_i，r，f を計算する。

　ステップＳＴ５４：　ステップＳＴ５３計算されたz_i，r，f を用いて、式(37) のQ₂ 関数を最適化する。この最適化には、反復的な最適化法を利用する。

　ステップＳＴ５５：ステップＳＴ５２～ステップ５４の反復が規定回数を超えた場合はステップＳＴ５６へ、そうでない場合はステップＳＴ５２に戻る。

　ステップＳＴ５６： g_i，v とθ_v を固定して、式(3１) のＵをサンプリングする。

　ステップＳＴ５７：サンプリングしたＵと現在のパラメータg_i，n，θ_n を用いて、式(35) のz_i，r，f を計算する。

　ステップＳＴ５８：計算されたz_i，r，f を用いて、式(37) のQ₂ 関数を最適化する。この最適化にも反復的な最適化法を利用する。

　ステップＳＴ５９：ステップＳＴ５７～ＳＴ５８の反復が規定回数を超えた場合はステップＳＴ６０へ、そうでない場合はステップＳＴ５７に戻る。

　ステップＳＴ６０：ステップＳＴ５２～ＳＴ５９の反復が規定回数を超えた場合は終了する。そうでない場合はステップＳＴ５２に戻る。

　対象音スペクトルテンプレートの初期値は、観測対象の対象音信号（例えば対象音が歌であれば、対象音の歌手とは異なる歌手の単独歌唱の音響信号から得る。またノイズ・スペクトルテンプレートの初期値は、歌声の入っていない音楽音響信号（例えば、カラオケトラック）から、それぞれ先の実施の形態で推定したパラメータの値を使用すればよい。

　本発明によれば、対象音（音声、歌声等）がその他のノイズ（伴奏音等）と混ざった状態のスペクトルを、分離せずそのまま認識することができる。混合音を認識するために、構成するそれぞれの音を分離し、その後分離した音を認識するという従来の技術と比べて、本発明によれば、背景のノイズに関する情報も活用するため、従来よりも性能を向上させることができる。また本発明によれば、混合音信号について各フレームでＳ／Ｎ比の推定を行うのでノイズの変動に対してロバストになるという利点がある。

　１　混合比率推定システム
　２　テンプレート生成部
　３　スペクトルテンプレート記憶部
　５　対象音スペクトルテンプレート記憶部
　７　ノイズ・スペクトルテンプレート記憶部
　９　確率的スペクトルテンプレート作成部
１１　組合せ部
１３　確率的スペクトルテンプレート記憶部
１４　観測スペクトル取得部
１５　決定部
１７　選択部
１９　距離演算部
２１　一時記憶部
２３　確定部
２５　推定部
２７　推定結果記憶部
２９　音素認識部

Claims

　混合音信号から離散的に取得した１フレーム信号に含まれる対象音信号とノイズ信号との混合比率を、コンピュータを用いて推定する混合音信号の混合比率推定方法であって、
　１以上の学習用対象音信号の周波数成分とパワースペクトルの確率分布の関係を示す１以上の対象音スペクトルテンプレートと、１以上の学習用ノイズ信号の周波数成分とパワースペクトルの確率分布の関係を示す１以上のノイズ・スペクトルテンプレートを用意し、
　前記１以上の対象音スペクトルテンプレートと前記１以上のノイズ・スペクトルテンプレートとを組み合わせて合成することにより１以上の確率的スペクトルテンプレートを作成し、
　前記混合音信号から前記１フレーム中の観測スペクトルを取得し、
　前記１以上の確率的スペクトルテンプレートを構成する前記１以上の対象音スペクトルテンプレートのゲインと前記１以上のノイズ・スペクトルテンプレートのゲインを変えて得た複数のゲイン変更スペクトルテンプレートと前記観測スペクトルとの距離が一番小さくなるゲイン変更スペクトルテンプレートを最小距離ゲイン変更スペクトルテンプレートとして決定し
　前記最小距離ゲイン変更スペクトルテンプレートの前記ゲインと前記ノイズ・スペクトルテンプレートの前記ゲインに基づいて前記混合比率を推定することを特徴とする混合音信号中の混合比率推定方法。
　前記対象音スペクトルテンプレートと前記ノイズ・スペクトルテンプレートが、共に学習用混合信号から推定されたものである請求項１に記載の混合音信号中の混合比率推定方法。
　前記対象音信号が調波構造を有する有声音信号であるときに、前記対象音スペクトルテンプレートを、前記有声音信号の調波構造の標準的なスペクトルの周波数成分を示す駆動音源関数と音声包絡テンプレートとの積により定め、
　前記対象音信号が無声音信号であれば、前記対象音スペクトルテンプレートとして前記音声包絡テンプレートを用い、
　前記音声包絡テンプレートは、対象とする有声音または無声音についての学習用音信号を周波数分析して得た周波数成分とパワーの関係を示す周波数スペクトル波形に含まれる前記パワー中の複数のピークを繋ぐ包絡線の分布状態を示すテンプレートであることを特徴とする請求項１に記載の混合音信号中の混合比率推定方法。
　前記最小距離ゲイン変更スペクトルテンプレートを決定する際に、前記駆動音源関数の基本周波数Ｆ０を推定する請求項１または３に記載の混合音信号中の混合比率推定方法。
　前記パワースペクトルの確率分布は、各周波数において対数正規分布で表されている請求項１に記載の混合音信号中の混合比率推定方法。
　前記ゲインの最適化及び前記基本周波数Ｆ０の推定に、準ニュートン法を用いることを特徴とする請求項４に記載の混合音信号中の混合比率推定方法。
　請求項１乃至６のいずれか１項に記載の混合音信号中の混合比率推定方法により求めた、前記最小距離ゲイン変更スペクトルテンプレートに対応する音素を前記１フレームの音素と決定し、決定された複数の前記フレームの音素の連続性に基づいて音声の種類を決定することを特徴とする音素認識方法。
　混合音信号から離散的に取得した１フレーム信号に含まれる対象音信号とノイズ信号との混合比率を推定する混合音信号の混合比率推定システムであって、
　１以上の学習用対象音信号の周波数成分とパワースペクトルの確率分布の関係を示す１以上の対象音スペクトルテンプレートと、１以上の学習用ノイズ信号の周波数成分とパワースペクトルの確率分布の関係を示す１以上のノイズ・スペクトルテンプレートとを記憶するスペクトルテンプレート記憶部と、
　前記１以上の対象音スペクトルテンプレートと前記１以上のノイズ・スペクトルテンプレートとを組み合わせて合成することにより１以上の確率的スペクトルテンプレートを作成する確率的スペクトルテンプレート作成部と、
　前記混合音信号から前記１フレーム中の観測スペクトルを取得する観測スペクトル取得部と、
　前記１以上の確率的スペクトルテンプレートをそれぞれ構成する前記対象音スペクトルテンプレートのゲインと前記ノイズ・スペクトルテンプレートのゲインを変えて得た複数のゲイン変更スペクトルテンプレートと前記観測スペクトルとの距離が一番小さくなるゲイン変更スペクトルテンプレートを最小距離ゲイン変更スペクトルテンプレートとして決定する決定部と、
　前記最小距離ゲイン変更スペクトルテンプレートの前記ゲインと前記ノイズ・スペクトルテンプレートの前記ゲインに基づいて前記混合比率を推定する推定部とを備えていることを特徴とする混合音信号中の混合比率推定システム。
　前記１以上の対象音スペクトルテンプレート及び前記１以上のノイズ・スペクトルテンプレートを生成するテンプレート生成部を備え、
　前記テンプレート生成部は、前記対象音信号が調波構造を有する有声音信号であるときに、前記対象音スペクトルテンプレートを、前記有声音信号の調波構造の標準的なスペクトルの周波数成分を示す調波駆動音源関数と音声包絡テンプレートとの積により定め、且つ前記対象音信号が無声音信号であれば、前記対象音スペクトルテンプレートとして前記音声包絡テンプレートを用いるように構成されており、
　前記音声包絡テンプレートは、対象とする有声音または無声音についての学習用音信号を周波数分析して得た周波数成分とパワーの関係を示す周波数スペクトル波形に含まれる前記パワー中の複数のピークを繋ぐ包絡線の分布状態を示すテンプレートであることを特徴とする請求項８に記載の混合音信号中の混合比率推定システム。
　前記テンプレート生成部は、前記対象音スペクトルテンプレートと前記ノイズ・スペクトルテンプレートとを共に学習用混合信号から推定するように構成されている請求項８に記載の混合音信号中の混合比率推定システム。