WO2012023268A1

WO2012023268A1 - 多マイクロホン話者分類装置、方法およびプログラム

Info

Publication number: WO2012023268A1
Application number: PCT/JP2011/004552
Authority: WO
Inventors: 祥史大西
Original assignee: 日本電気株式会社
Priority date: 2010-08-16
Filing date: 2011-08-11
Publication date: 2012-02-23

Abstract

　第一推定手段は、複数のマイクロホンで集音された各音源からの音声を時間周波数領域に変換した入力信号を成分とするベクトルに基づいて、音源の音源数および音源方向を推定する。信号較正手段は、第一推定手段が推定した音源数および音源方向に基づいて各マイクロホンの最寄りの音源を特定し、その音源から発せられる音声信号を基に、各マイクロホンに入力される音量を算出し、その音量が均一になるように入力信号を較正する。第二推定手段は、較正された入力信号に基づいて、音源の音源数および音源方向を推定し、推定された音源方向に基づいて話者を分類する。

Description

多マイクロホン話者分類装置、方法およびプログラム

　本発明は、複数のマイクロホンで集音された音声信号を用いて話者を分類する多マイクロホン話者分類装置、多マイクロホン話者分類方法および多マイクロホン話者分類用プログラムに関する。

　多マイクロホン話者分類とは、複数の音源から発せられた音声信号（例えば、複数の話者が発声した音声信号）を、複数のマイクロホンで集音した場合に、音声信号の各区間を話者ごとに分類することをいう。

　特許文献１には、複数のマイクロホンによって収音された同一音響区間内における多話者の発話信号から、各話者の発話区間を判定する判定装置が記載されている。特許文献１に記載された判定装置は、Ｍ個のマイクロホンによって集音された観測信号をノイズか各話者による発話かに分類し、各話者による発話と分類された観測信号の中から話者を判定する。

　図３は、特許文献１に記載された判定装置の概要を示すブロック図である。図３に示す判定装置は、周波数領域変換部１と、観測信号分類部３とを含み、次のように動作する。

　周波数領域変換部１は、Ｎ人の話者の発話をＭ個のマイクロホンによって収音した時間領域の観測信号ｘ_ｍ（ｔ）を（ｍ＝１，２，・・・，Ｍ）、周波数領域の観測信号ｘ_ｍ（ｆ，ｔ）に変換する。具体的には、周波数領域変換部１は、観測信号ｘ_ｍ（ｔ）を短時間フーリエ変換し、観測信号ｘ_ｍ（ｆ，ｔ）を算出する。ここで、ｔは時刻であり、ｆは周波数である。また、周波数領域の観測信号ベクトルＸ（ｆ，ｔ）は、以下に示す式１のように定義される。

　観測信号分類部３は、ある話者の発話がそれぞれのマイクロホンにどの程度の音量比で観測されたかを表す情報に基づいて、周波数領域の観測信号ｘ_ｍ（ｆ，ｔ）を分類する。具体的には、観測信号分類部３は、以下に示す式２に従って、周波数領域の観測信号ｘ_ｍ（ｆ，ｔ）を正規化し、それぞれのマイクロホンにどの程度の音量比で収音されたかを表す情報を求める。

　式２に示すように、観測信号分類部３は、周波数領域の各観測信号ｘ_ｍ（ｆ，ｔ）の絶対値を、周波数領域の観測信号ベクトルのノルムで割る。そして、観測信号分類部３は、正規化された周波数領域の観測信号ｘ’_ｍ（ｆ，ｔ）を時間周波数ごとに求める。また、観測信号ｘ’_ｍ（ｆ，ｔ）を成分とするベクトルをＸ’（ｆ，ｔ）と定義する。このＸ’（ｆ，ｔ）は、正規化された周波数領域の信号である。具体的には、Ｘ’（ｆ，ｔ）は、着目する周波数ｆごとに、マイク間の音量比として算出される周波数領域の信号の絶対値を意味する。

　次に、観測信号分類部３は、Ｘ’（ｆ，ｔ）をクラスタリングする。ここで、話者はＮ人とし、話者の近くにＭ個のマイクロホンが配置されているものとする。この場合、Ｍ個のマイクロホンで集音された信号の音量比はＮ個のクラスタを形成することが期待される。

　ここで、話者ｎ（ｎ＝１，・・・，Ｎ）の発話に対するクラスタを、平均ベクトルｍｅ_ｎ、共分散行列σ_ｎ ^２Ｉのガウス分布でモデル化した場合、その尤度ｐ_ｎは、以下に示す式３を用いて算出される。観測信号分類部３は、このモデルに入力信号の情報を用いて尤度を算出した際、最も尤度が高くなるモデルを求めることで、分類結果を出力する。

　なお、話者が推定された入力信号を用いて平均ベクトルおよび共分散行列を更新することで、上記モデルが更新される。

　なお、非特許文献１には、Ｘ’（ｆ，ｔ）をクラスタリングする他の例が記載されている。非特許文献１に記載された方法では、正規化された特徴量Ｘ’（ｆ，ｔ）を、ｋ－ｍｅａｎｓ法を用いてＭ次元空間上でクラスタリングし、それぞれのクラスタを音源話者と推定する。

　ここで、ｋ－ｍｅａｎｓ法について説明する。ｋ－ｍｅａｎｓ法によるクラスタリングでは、まず、あらかじめ定めたクラスタ数個、またはそれより少ない個数のクラスタ中心を与える。次に、対象とするデータ集合の各データは、最も近傍に存在するクラスタ中心のクラスタに所属するものとして、各データが所属するクラスタを決定する。各クラスタに所属するデータが決定すると、そのクラスタ内でクラスタ中心を決定し、そのクラスタ中心になったクラスタに所属するデータを再度決定する処理を繰り返す。この繰り返し処理は、クラスタが不変になるまで行われる。なお、初期のクラスタ中心の個数が、あらかじめ定めたクラスタの個数より少ない場合は、繰り返し処理の途中でクラスタ中心を複数に分割することにより、クラスタ数を増加させる。これを、クラスタの個数が所定の個数になるまで繰り返す。

　このように、複数のセンサ（マイクロホン）で集音した信号の音量比（Ｘ’（ｆ，ｔ））を特徴量としてクラスタリングすることで音源を分類し、発話者を分類する。

特開２００８－１５８０３５号公報

S. Araki, H. Sawada, R. Mukai and S. Makino, "A novel blind source separation method with observation vector clustering" in Proc. IWAENC2005, Sept. 2005.

　ところで、特許文献１に記載された判定装置によって算出される正規化されたＭ次元ベクトルの特徴量Ｘ’（ｆ，ｔ）は、Ｍ次元の超球面の上に制約されたものになる。一方、この特徴量Ｘ’（ｆ，ｔ）は、観測された信号Ｘ（ｆ，ｔ）のノルムで正規化されている。そのため、例えば、一つのマイクロホンの感度が高い場合、その感度が高いマイクロホンに対応する一つの次元の成分にベクトル値が集中する。そのため、十分な精度でクラスタリングを行うことは困難となり、話者分類性能が低下してしまう。

　すなわち、特許文献１に記載された判定装置を用いて話者を分類する際、異なる種類のマイクロホンが使用されている場合や、複数のマイクロホンの感度が調整されていない場合（すなわち、キャリブレーションが行われていない場合）、話者を分類する十分な性能が得られないと言う課題がある。

　そこで、本発明は、異なる種類のマイクロホンが使用されている場合や、マイクロホンの感度が調整されていない場合、すなわち、複数のマイクロホンの間でキャリブレーションが行われていない場合にも、話者数の推定及び話者の分類を適切に行うことができる多マイクロホン話者分類装置、多マイクロホン話者分類方法および多マイクロホン話者分類用プログラムを提供することを目的とする。

　本発明による多マイクロホン話者分類装置は、複数のマイクロホンで集音された各音源からの音声を時間周波数領域に変換した入力信号を成分とするベクトルに基づいて、音源の音源数および音源方向を推定する第一推定手段と、第一推定手段が推定した音源数および音源方向に基づいて各マイクロホンの最寄りの音源を特定し、当該音源から発せられる音声信号を基に、各マイクロホンに入力される音量を算出し、当該音量が均一になるように入力信号を較正する信号較正手段と、較正された入力信号に基づいて、音源の音源数および音源方向を推定し、推定された音源方向に基づいて話者を分類する第二推定手段とを備えたことを特徴とする。

　本発明による多マイクロホン話者分類方法は、複数のマイクロホンで集音された各音源からの音声を時間周波数領域に変換した入力信号を成分とするベクトルに基づいて、音源の音源数および音源方向を推定し、推定された音源数および音源方向に基づいて各マイクロホンの最寄りの音源を特定し、各マイクロホンの最寄りの音源から発せられる音声信号を基に、当該各マイクロホンに入力される音量を算出し、音量が均一になるように入力信号を較正し、較正された入力信号に基づいて、音源の音源数および音源方向を推定し、推定された音源方向に基づいて話者を分類することを特徴とする。

　本発明による多マイクロホン話者分類用プログラムは、コンピュータに、複数のマイクロホンで集音された各音源からの音声を時間周波数領域に変換した入力信号を成分とするベクトルに基づいて、音源の音源数および音源方向を推定する第一推定処理、第一推定処理で推定された音源数および音源方向に基づいて各マイクロホンの最寄りの音源を特定し、当該音源から発せられる音声信号を基に、各マイクロホンに入力される音量を算出し、当該音量が均一になるように入力信号を較正する信号較正処理、および、較正された入力信号に基づいて、音源の音源数および音源方向を推定し、推定された音源方向に基づいて話者を分類する第二推定処理を実行させることを特徴とする。

　本発明によれば、複数のマイクロホンの間でキャリブレーションが行われていない場合にも、話者数の推定及び話者の分類を適切に行うことができる。

本発明による多マイクロホン話者分類装置の一実施形態を示すブロック図である。本発明による多マイクロホン話者分類装置の最小構成の例を示すブロック図である。一般的な話者分類装置を示すブロック図である。

　以下、本発明の実施形態を図面を参照して説明する。

　図１は、本発明による多マイクロホン話者分類装置の一実施形態を示すブロック図である。本実施形態における多マイクロホン話者分類装置１００は、ハードウェア、ソフトウェア、およびこれらの組み合わせにより実現することができる。具体的には、多マイクロホン話者分類装置１００は、プログラムに従って動作するコンピュータ等の情報処理装置によって実現される。

　多マイクロホン話者分類装置１００は、多マイクロホン音声入力部１０１（以下、多マイク音声入力部１０１と記す。）と、周波数領域変換部１０２と、第一推定部１０３と、信号較正部１０４と、第二推定部１０５と、分類結果出力制御部１０６と、出力部１０７とを備えている。

　多マイク音声入力部１０１には、複数のマイクロホンから集音された音声が入力される。そして、多マイク音声入力部１０１は、入力された音声をデジタル化し、各マイクロホンのチャンネルごとの音声信号を周波数領域変換部１０２に入力する。なお、多マイク音声入力部１０１は、既にデジタル化して録音された音声信号をネットワーク経由やファイル経由などで受信し、受信した音声信号をデジタル化してもよい。以下の説明では、音声信号がＭ個のマイクロホンで集音されるものとし、時刻ｔにおいてマイクロホンｍが集音した音声信号をｘ_ｍ（ｔ）（ただし、ｍ＝１，２，…，Ｍ）と表す。

　分類結果出力制御部１０６は、話者を分類した結果を出力部１０７に出力させる。出力部１０７は、例えば、ディスプレイ装置により実現される。この場合、分類結果出力制御部１０６は、話者を分類した結果を出力部１０７に表示させる。ただし、出力部１０７は、ディスプレイ装置に限定されない。出力部１０７は、例えば、プリンタ等であってもよい。

　周波数領域変換部１０２は、多マイク音声入力部１０１がデジタル化した音声信号を時間周波数領域の信号に変換する。具体的には、周波数領域変換部１０２は、デジタル化された音声信号を短時間フーリエ変換することにより、時間周波数領域の信号に変換する。以下、音声信号ｘ_ｍ（ｔ）を時間周波数領域に変換した信号をｘ_ｍ（ｆ，ｔ）と表す。ここで、ｆは周波数である。また、時間周波数領域に変換されたＭ個の信号を並べて列としたＭ次元ベクトルを、Ｘ（ｆ，ｔ）と表す。すなわち、Ｘ（ｆ，ｔ）は、時間周波数領域の信号であり、以下に示す式４で表わされる。

　第一推定部１０３は、周波数領域変換部１０２が算出した時間周波数領域の信号Ｘ（ｆ，ｔ）を基に、音源数および音源方向を推定する。まず、第一推定部１０３は、周波数領域変換部１０２が算出した時間周波数領域の信号Ｘ（ｆ，ｔ）における各ベクトル成分の絶対値を、Ｘ（ｆ，ｔ）のノルムで正規化した特徴量Ｘ’（ｆ，ｔ）を算出する。Ｘ’（ｆ，ｔ）は、以下に示す式５で表わされる。なお、上述の通り、特徴量Ｘ’（ｆ，ｔ）は、マイクロホン間の音量比と言うことが出来る。

　次に、第一推定部１０３は、Ｘ’（ｆ，ｔ）から音源数および音源方向を推定し、推定された音源方向を基底ベクトルとして展開する。以下、第一推定部１０３が推定した音源数および音源方向を第一段階の音源数および音源方向と記す。ここで、推定音源数をＬ、各音源のＭ次元の音源方向ベクトルをφ_ｉ（ｆ）、音源方向ベクトルφ_ｉ（ｆ）を基底ベクトルとしたときの係数をａ_ｉ（ｆ，ｔ）とすると、Ｘ’（ｆ，ｔ）は、式６に示すように表わすことができる。

　第一推定部１０３は、推定音源数Ｌ、Ｍ次元の音源方向ベクトルφ_ｉ（ｆ）及び係数ａ_ｉ（ｆ，ｔ）を算出することにより音源数及び音源方向を推定する。なお、これらの算出方法については後述する。

　信号較正部１０４は、第一推定部１０３が推定した音源数および音源方向の情報を基に、マイクロホンの感度の較正を行う。具体的には、信号較正部１０４は、各マイクロホンの最寄りの音源から発せられた音声信号を基に音量を算出し、算出した音量が均一になるように入力信号を較正する。信号較正部１０４は、例えば、最寄りの音源から観測した信号の平均値が各マイクロホンで同一レベルになるように調整を行う。以下、詳細に説明する。

　まず、信号較正部１０４は、各マイクロホンの最寄りの音源を特定する。ここで、マイクロホンｍの最寄りの音源をｊ_ｍ（ｆ）とすると、この音源ｊ_ｍ（ｆ）を特定する関数は、以下に示す式７のように表わすことができる。

　ここで、φ_ｉｍ（ｆ）は、ベクトルφ_ｉ（ｆ）の第ｍ成分を表す。すなわち、ｊ_ｍ（ｆ）は、音源方向ベクトルの第ｍ成分φ_ｉｍ（ｆ）が最も大きい音源ｉとして選択されたものである。最も大きい音源方向ベクトルφ_ｉｍ（ｆ）を選択するとは、Ｌ個の音源φ_ｉ（ｆ）のうち、マイクｍの最も近くの音源を選択する意味を持つものである。このように、信号較正部１０４は、Ｌ個の音源ベクトルのうち、その第ｍ成分を比較して最も大きい音源ｊ_ｍ（ｆ）を選択することで、各マイクロホンの最寄りの音源を特定する。

　次に、信号較正部１０４は、時刻ｔにおける信号の周波数ｆが音源ｊ_ｍ（ｆ）から出力されたか否かを推定する。ここで、時刻ｔにおける信号の周波数成分ｆが音源ｊ_ｍ（ｆ）から出力されたか否かを表す値をδ_{ｊｍ（ｆ）}（ｔ）とすると、δ_{ｊｍ（ｆ）}（ｔ）は、以下に示す式８のように定義される。

　式８は、音源方向を基底ベクトルとしたときの係数が最も大きい音源ｉが、音源ｊ_ｍ（ｆ）であると判定する関数である。係数が最も大きい音源を選択するとは、信号の推定された音源方向のいずれかからの音か推定していると言うこともできる。具体的には、式８は、時刻ｔにおける信号の周波数成分ｆが、音源ｊ_ｍ（ｆ）から出力したと推定されるときは１、それ以外のときは０になる関数である。このように、信号較正部１０４は、時刻ｔにおける信号の周波数ｆが音源ｊ_ｍ（ｆ）から出力されたか否かを式８を用いて推定する。

　次に、信号較正部１０４は、マイクロホンｍの最寄りの音源ｊ_ｍ（ｆ）から観測される信号の絶対値の平均値を算出する。信号較正部１０４は、マイクｍの最寄りの音源ｊ_ｍ（ｆ）からの観測信号の絶対値の平均値ｒ_ｍ（ｆ）を、例えば、以下に示す式９を用いて算出する。

　そして、信号較正部１０４は、算出した平均値ｒ_ｍ（ｆ）を用いて、各マイクの音量が同一レベルになるように信号ｘ_ｍ（ｆ，ｔ）を調整する。具体的には、信号較正部１０４は、以下に示す式１０を用いて、信号ｘ_ｍ（ｆ，ｔ）を調整した信号ｙ_ｍ（ｆ，ｔ）を算出する。

　式９により算出された平均値ｒ_ｍ（ｆ）は、各マイクの最寄りの音源からの音量を示す量である。そのため、マイクごとに算出された平均値ｒ_ｍ（ｆ）で各マイクへの信号ｘ_ｍ（ｆ，ｔ）を除算することにより、各マイクの音量が同一レベルになるように調整された信号が得られることになる。以下、調整されたＭ個の信号を並べて列としてＭ次元ベクトルを、Ｙ（ｆ，ｔ）と表す。すなわち、Ｙ（ｆ，ｔ）は、以下に示す式１１で表わされる。

　また、信号較正部１０４は、信号Ｙ（ｆ，ｔ）における各ベクトル成分の絶対値を、Ｙ（ｆ，ｔ）のノルムで正規化したＹ’（ｆ，ｔ）を算出する。Ｙ’（ｆ，ｔ）は、以下に示す式１２で表わされる。

　なお、信号較正部１０４は、観測信号の絶対値の平均値ｒ_ｍ（ｆ）の代わりに、音声パワーである観測信号二乗の平均値を算出し、この平均値を用いて信号ｘ_ｍ（ｆ，ｔ）を較正してもよい。

　以上のように、信号較正部１０４は、推定された音源方向に基づいて各マイクロホンに最も近い音源を式７及び式８を用いて選択し、選択された音源から入力される入力信号が示す音量の平均値（例えば、ｒ_ｍ（ｆ））を、式９を用いてマイクロホンごとに算出する。そして、信号較正部１０４は、その平均値を用いて、式１０により入力信号ｘ_ｍ（ｆ，ｔ）を較正することにより、各マイクロホンに入力される入力信号の音量を均一にする。

　第二推定部１０５は、信号較正部１０４が算出した信号Ｙ’（ｆ，ｔ）を基に、音源数および音源方向を推定し、推定した音源方向に基づいて話者を分類する。以下、第二推定部１０５が推定した音源数および音源方向を第二段階の音源数および音源方向と記す。ここで、推定音源数をＫ、各音源のＭ次元の音源方向ベクトルをψ_ｉ（ｆ）、音源方向を基底ベクトルとしたときの係数をｂ_ｉ（ｆ，ｔ）とすると、Ｙ’（ｆ，ｔ）は、式１３に示すように表わすことができる。

　第二推定部１０５は、推定音源数Ｋ、Ｍ次元の音源方向ベクトルψ_ｉ（ｆ）及び係数ｂ_ｉ（ｆ，ｔ）を算出することにより音源数及び音源方向ベクトルを推定する。

　また、第二推定部１０５は、音源方向ｃ（ｆ，ｔ）を、以下に示す式１４を用いて算出する。この音源方向ｃ（ｆ，ｔ）を算出することにより、話者を分類する。

　なお、周波数領域変換部１０２と、第一推定部１０３と、信号較正部１０４と、第二推定部１０５と、分類結果出力制御部１０６とは、プログラム（多マイクロホン話者分類用プログラム）に従って動作するコンピュータのＣＰＵによって実現される。例えば、プログラムは、多マイク話者分類装置１００の記憶部に記憶され、ＣＰＵは、そのプログラムを読み込み、プログラムに従って、周波数領域変換部１０２、第一推定部１０３、信号較正部１０４、第二推定部１０５および分類結果出力制御部１０６として動作してもよい。また、周波数領域変換部１０２と、第一推定部１０３と、信号較正部１０４と、第二推定部１０５と、分類結果出力制御部１０６とは、それぞれが専用のハードウェアで実現されていてもよい。

　次に、第一推定部１０３及び第二推定部１０５が、第一段階および第二段階の音源数と音源方向とを推定する方法を説明する。第一段階および第二段階の音源数および音源方向を推定する方法は、第一推定部１０３と第二推定部１０５で同一であってもよく、異なっていてもよい。以下、第一推定部１０３が、音源数と音源方向を推定する場合について説明する。

　本実施形態では、第一推定部１０３が以下に示す式１５で定義される関数Ｆを最小化する係数ａ_ｉ（ｆ，ｔ）、基底φ_ｉ（ｆ）および音源数Ｌを算出することにより、第一段階の音源数と音源方向とを推定する方法を説明する。なお、第二推定部１０５が第二段階の音源数と音源方向とを推定する場合、式１５におけるｘをｙと、ａをｂと、φをψと、ＬをＫと、それぞれ読み替えてそれぞれ算出すればよい。具体的には、第二推定部１０５は、較正された入力信号を対象として第二段階の音源数と音源方向とを推定すればよい。

　式１５におけるＴは、時刻ｔ（ｔ＝１、２、・・・Ｔ）において観測した信号の数であり、観測信号数と呼ぶことが出来る。ここでは、信号がデジタル化されているため、時間方向の離散単位を１とすると、Ｔは信号数に一致する。また、λは、事前に指定されるパラメータである。

　ここで、式１５における右辺の値を最小化する方法は、スパースコーディングと呼ばれる。この方法により最小化する対象の式は、基底展開時の差分項と、係数ａ_ｉ（ｆ，ｔ）における非０の要素数が少ないほどより小さくなる罰則項との和からなる。この場合、係数ａ_ｉ（ｆ，ｔ）を、展開係数と呼ぶこともできる。関数Ｆを最小化する係数ａ_ｉ（ｆ，ｔ）及び基底φｉ（ｆ）は、係数ａ_ｉ（ｆ，ｔ）及び基底φｉ（ｆ）について交互に最急勾配法を適用することにより算出できる。この算出方法の詳細については、例えば、以下の参考文献に記載されている。

＜参考文献＞
　B.A. Olshausen and D.J. Field, “Emergence of simple-cell receptive field properties by learning a sparse code for natural images”, Nature vol. 381, pp607-609, 1996.

　以上のことから、式１５に例示する関数Ｆは、音源方向を示す基底ベクトル（基底φ_ｉ（ｆ））の重み付き和で信号を表現した音源方向ベクトル（すなわち、Σａ_ｉ（ｆ，ｔ）φ_ｉｍ（ｆ））と、元の信号を示すベクトル（すなわち、ｘ_ｍ（ｆ，ｔ））との差分に、出来るだけ多くの展開係数（すなわち、係数ａ_ｉ（ｆ，ｔ））が０になるような罰則項を加算した目的関数と言うことができる。また、この罰則項は、音源方向ベクトルの展開係数（すなわち、係数ａ_ｉ（ｆ，ｔ））のうち、０の値をとる展開係数の成分が多くなるほど小さな値になる罰則項であると言うこともできる。第一推定部１０３は、この目的関数を最小化することにより、音源数と音源方向ベクトルを推定する。

　さらに、関数Ｆは、基底数（ここでは、推定音源数Ｌ）と観測データ量（ここでは、観測信号数Ｔ）の増加関数を含んでいてもよい。このような罰則項を含む関数Ｆを、以下に示す式１６のように定義する。

　ここで、ηは、事前に指定されるパラメータである。この関数は、右辺第２項に、基底数が増加してモデルが複雑化しすぎることを抑制する罰則項を含む。この場合、第一推定部１０３は、Ｌを固定して第１項を最小化する作業を、異なるＬで繰り返すことにより関数Ｆを最小化するパラメータを算出することが出来る。

　このように、第一推定部１０３は、音源数の個数と入力信号数の増加関数となる罰則項を含む関数Ｆを最小化することにより、音源数と音源方向ベクトルとを推定してもよい。第一推定部１０３が式１６に例示する目的関数を最小化することで、モデルが複雑化しすぎることを抑制できる。

　なお、λ、ηとして、音源数、音源方向およびマイクの感度が既知の状態で収録した開発用の音声データを用い、推定結果が適切な値になるように最適化したパラメータを予め決定しておけばよい。

　また、上記説明では、基底数と観測データ量の増加関数を式１５の右辺に追加して式１６を定義する場合について説明した。ただし、基底数と観測データ量の増加関数を追加する対象の関数は、式１５の内容に限定されない。複数のマイクロホンに入力される信号から音源の音源数および音源方向を推定できる関数であれば、追加する対象の関数は、他の関数であってもよい。

　以上、第一推定部１０３が、上述した関数Ｆを最小化して音源数と音源方向ベクトルとを推定する場合について説明した。他にも、第一推定部１０３（および第二推定部１０５）は、クラスタ数を順次増やしながらｋ－ｍｅａｎｓ法によるクラスタリングを行うことで音源数と音源方向ベクトルとを推定してもよい。

　具体的には、クラスタ数の分割前後で、ベイズ情報量が増加すればクラスタの分割を行い、増加しなければクラスタを分割せずに、分割前のクラスタ数およびクラスタを推定値とする。そして、推定されたクラスタ数を音源数とし、クラスタ中心ベクトルを音源方向とする基底ベクトルとする。また、所属するクラスタの基底ベクトルに対しては係数ａを１に、それ以外は係数ａを０とする。このようにして第一推定部１０３は、音源方向ベクトルを推定してもよい。

　以下、ｋ－ｍｅａｎｓ法によるクラスタリングを行う方法を、さらに説明する。まず、第一推定部１０３は、少数のクラスタ中心点を与える。ここでのクラスタ中心点とは音源方向のことである。第一推定部１０３は、例えば、ｍ次元の空間の各次元の成分のみ１になるＭ個のクラスタ中心を与えてもよい。このことは、各マイクロホンで音源方向とする初期値を与えることに相当する。

　第一推定部１０３は、各中心点に隣接するデータ（すなわち、信号Ｘ’（ｆ，ｔ））をクラスタのメンバとし、クラスタメンバの中心を算出することでクラスタ中心を更新する。クラスタ中心の更新後、第一推定部１０３は、クラスタの分割を試みる。具体的には、第一推定部１０３は、クラスタ中心を複数に分割し、クラスタ中心を更新する上述の処理を行うことでクラスタ数を増加させる。次に、第一推定部１０３は、分割前後でベイズ情報量基準が改善するか否かを判断する。ベイズ情報量基準が改善する場合、第一推定部１０３は、分割処理を採用する。一方、ベイズ情報量基準が改善しない（すなわち、悪化する）場合、第一推定部１０３は、分割処理を中止する。

　以上のように、本実施形態によれば、第一推定部１０３が、複数のマイクロホンで集音された各音源からの音声を時間周波数領域に変換した入力信号を成分とするベクトル（すなわち、Ｘ（ｆ，ｔ））に基づいて、音源の音源数および音源方向を推定する。なお、入力信号は、多マイク音声入力部１０１に入力され、周波数領域変換部１０２が、入力信号を時間周波数領域に変換する。また、音源の音源数および音源方向は、例えば、式１５を用いて推定される。

　信号較正部１０４は、推定された音源数および音源方向に基づいて各マイクロホンの最寄りの音源を特定する。最寄りの音源は、例えば、式７用いて特定される。次に、信号較正部１０４は、各マイクロホンの最寄りの音源から発せられる音声信号を基に、その各マイクロホンに入力される音量を算出する。入力される音量の判断は、例えば、式８を用いて行われる。そして、信号較正部１０４は、その音量が均一になるように入力信号を較正する。入力信号の較正は、例えば、式９及び式１０を用いて行われる。

　第二推定部１０５は、較正された入力信号に基づいて、音源の音源数および音源方向を推定し、推定された音源方向に基づいて話者を分類する。音源の音源数および音源方向は、例えば、式１５を用いて推定される。また、話者の分類は、例えば、式１４を用いて行われる。その後、分類結果出力制御部１０６は、分類結果を出力部１０７に出力させる。

　以上の処理を行うことで、異なる種類のマイクロホンが使用されている場合や、マイクロホンの感度が調整されていない場合、すなわち、複数のマイクロホンの間で事前にキャリブレーションが行われていない場合にも、話者数の推定及び話者の分類を適切に行うことができる

　一般的に、ｍ番目のマイクロホンに入力される信号には、最寄りの音源だけでなく、それ以外の音源からの信号も混在する。また、各音源からの発言量を事前に把握することは困難である。そのため、例えば、単純にｍ番目のマイクロホンに入力される信号全体の平均値を用いて較正を行った場合、発話頻度が高い音源からのレベルに強い影響を受けることになる。このとき、発話頻度が高い音源が必ずしも最寄りの音源であるとは限らない。そのため、このような音源からの値を基準に較正を行ったとしても、必ずしも適切な値に較正することはできるとは限らない。

　しかし、本実施形態では、第一推定部１０３が、話者数および音源方向を推定し、信号較正部１０４が、推定された情報から、各マイクロホンの最寄りの音源と、その音源から発声された音声信号の平均値を算出後、それらの平均値が各マイクロホンで同一レベルになるように較正を行っている。そのため、話者数の推定及び話者の分類を適切に行うことができる。

　また、例えば、あるマイクロホンｍの最寄りの音源に複数の真の話者数が含まれている場合、推定される音源数が話者数よりも少なくなる場合も考えられる。このように、第一段階での分類を十分な精度で行うことが困難な状況であったとしても、上記複数の話者からマイクロホンｍへ発声される音量は同等程度になるため、マイクロホンの較正は正しく行うことが可能である。マイクロホンの較正が正しく行われた結果、音量比が正しく算出できるようになる。そのため、例えば、マイクｍの最寄りの音源に含まれる複数の話者間でマイクｍ以外の他のマイクとの相対位置が異なることが観測できる。したがって、再度音源数および音源方向を推定することにより、推定精度を高めることが可能になる。

　また、本実施形態では、音源数と音源方向とを推定するため、事前に話者数や音源方向の初期値を指定しておく必要はない。

　次に、本発明による多マイクロホン話者分類装置の最小構成の例を説明する。図２は、本発明による多マイクロホン話者分類装置の最小構成の例を示すブロック図である。本発明による多マイクロホン話者分類装置は、複数のマイクロホンで集音された各音源からの音声（例えば、ｘ_ｍ（ｔ））を時間周波数領域に変換した入力信号（例えば、ｘ_ｍ（ｆ，ｔ））を成分とするベクトル（例えば、Ｘ（ｆ，ｔ））に基づいて（例えば、式１５を用いて）、音源の音源数（例えば、推定音源数Ｌ）および音源方向（例えば、音源方向ベクトルφ_ｉ（ｆ）及び係数ａ_ｉ（ｆ，ｔ））を推定する第一推定手段８１と、第一推定手段８１が推定した音源数および音源方向に基づいて（例えば、式７を用いて）各マイクロホンの最寄りの音源を特定し、その音源から発せられる音声信号を基に（例えば、式８を用いて）、各マイクロホンに入力される音量を算出し、その音量が均一になるように（例えば、式９および式１０を用いて）入力信号を較正する信号較正手段８２と、較正された入力信号に基づいて（例えば、式１５を用いて）、音源の音源数および音源方向を推定し、推定された音源方向に基づいて（例えば、式１４を用いて）話者を分類する第二推定手段８３とを備えている。

　そのような構成により、複数のマイクロホンの間でキャリブレーションが行われていない場合にも、話者数の推定及び話者の分類を適切に行うことができる。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

（付記１）複数のマイクロホンで集音された各音源からの音声を時間周波数領域に変換した入力信号を成分とするベクトルに基づいて、前記音源の音源数および音源方向を推定する第一推定手段と、前記第一推定手段が推定した音源数および音源方向に基づいて各マイクロホンの最寄りの音源を特定し、当該音源から発せられる音声信号を基に、各マイクロホンに入力される音量を算出し、当該音量が均一になるように入力信号を較正する信号較正手段と、較正された入力信号に基づいて、音源の音源数および音源方向を推定し、推定された音源方向に基づいて話者を分類する第二推定手段とを備えたことを特徴とする多マイクロホン話者分類装置。

（付記２）第一推定手段は、音源方向を示す基底ベクトルの重み付き和で入力信号を表現した音源方向ベクトルと、元の入力信号を示す信号ベクトルとの差分に、前記音源方向ベクトルの展開係数のうち０の値をとる展開係数の成分が多くなるほど小さな値になる罰則項を加算した関数を最小化することにより、音源の音源数および音源方向を推定する付記１記載の多マイクロホン話者分類装置。

（付記３）第二推定手段は、音源方向を示す基底ベクトルの重み付き和で較正された入力信号を表現した音源方向ベクトルと、較正された入力信号を示す信号ベクトルとの差分に、前記音源方向ベクトルの展開係数のうち０の値をとる展開係数の成分が多くなるほど小さな値になる罰則項を加算した関数を最小化することにより、音源の音源数および音源方向を推定する付記１または付記２記載の多マイクロホン話者分類装置。

（付記４）第一推定手段は、音源の音源数と入力信号数に関する増加関数を項として含む関数を最小化することにより、音源の音源数および音源方向を推定する付記１から付記３のうちのいずれか１つに記載の多マイクロホン話者分類装置。

（付記５）第二推定手段は、音源の音源数と較正された入力信号数に関する増加関数を項として含む関数を最小化することにより、音源の音源数および音源方向を推定する付記１から付記４のうちのいずれか１つに記載の多マイクロホン話者分類装置。

（付記６）信号較正手段は、推定された音源方向に基づいて各マイクロホンに最も近い音源を選択し、選択された音源から入力される入力信号が示す音量の平均値をマイクロホンごとに算出し、当該平均値を用いて入力信号を較正することにより、各マイクロホンに入力される入力信号の音量を均一にする付記１から付記５のうちのいずれか１つに記載の多マイクロホン話者分類装置。

（付記７）第一推定手段は、入力信号を成分とするベクトルに基づいて各マイクロホンに入力される入力信号の音量比を算出し、当該音量比を成分とするベクトルに基づいて音源の音源数および音源方向を推定する付記１から付記６のうちのいずれか１つに記載の多マイクロホン話者分類装置。

（付記８）第二推定手段は、較正された入力信号を成分とするベクトルに基づいて各マイクロホンに入力される入力信号の音量比を算出し、当該音量比を成分とするベクトルに基づいて音源の音源数および音源方向を推定する付記１から付記７のうちのいずれか１つに記載の多マイクロホン話者分類装置。

（付記９）複数のマイクロホンで集音された各音源からの音声を時間周波数領域に変換した入力信号を成分とするベクトルに基づいて、前記音源の音源数および音源方向を推定し、推定された音源数および音源方向に基づいて各マイクロホンの最寄りの音源を特定し、各マイクロホンの最寄りの音源から発せられる音声信号を基に、当該各マイクロホンに入力される音量を算出し、前記音量が均一になるように入力信号を較正し、較正された入力信号に基づいて、音源の音源数および音源方向を推定し、推定された音源方向に基づいて話者を分類することを特徴とする多マイクロホン話者分類方法。

（付記１０）音源方向を示す基底ベクトルの重み付き和で入力信号を表現した音源方向ベクトルと、元の入力信号を示す信号ベクトルとの差分に、前記音源方向ベクトルの展開係数が０の値をとるほどより小さな値になる罰則項を加算した関数を最小化することにより、音源の音源数および音源方向を推定する付記９記載の多マイクロホン話者分類方法。

（付記１１）コンピュータに、複数のマイクロホンで集音された各音源からの音声を時間周波数領域に変換した入力信号を成分とするベクトルに基づいて、前記音源の音源数および音源方向を推定する第一推定処理、前記第一推定処理で推定された音源数および音源方向に基づいて各マイクロホンの最寄りの音源を特定し、当該音源から発せられる音声信号を基に、各マイクロホンに入力される音量を算出し、当該音量が均一になるように入力信号を較正する信号較正処理、および、較正された入力信号に基づいて、音源の音源数および音源方向を推定し、推定された音源方向に基づいて話者を分類する第二推定処理を実行させるための多マイクロホン話者分類用プログラム。

（付記１２）コンピュータに、第一推定処理で、音源方向を示す基底ベクトルの重み付き和で入力信号を表現した音源方向ベクトルと、元の入力信号を示す信号ベクトルとの差分に、前記音源方向ベクトルの展開係数が０の値をとるほどより小さな値になる罰則項を加算した関数を最小化することにより、音源の音源数および音源方向を推定させる付記１１記載の多マイクロホン話者分類用プログラム。

　以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２０１０年８月１６日に出願された日本特許出願２０１０－１８１６９３を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　本発明は、複数のマイクロホンで集音された音声信号を用いて話者を分類する多マイクロホン話者分類装置に好適に適用される。また、本発明を、音声認識システムにおける発話者分類や話者ラベリングといった用途にも適応可能である。

　１　周波数領域変換部
　３　観測信号分類部
　１００　多マイク話者分類装置
　１０１　多マイク音声入力部
　１０２　周波数領域変換部
　１０３　第一推定部
　１０４　信号較正部
　１０５　第二推定部
　１０６　分類結果出力制御部
　１０７　出力部

Claims

　複数のマイクロホンで集音された各音源からの音声を時間周波数領域に変換した入力信号を成分とするベクトルに基づいて、前記音源の音源数および音源方向を推定する第一推定手段と、
　前記第一推定手段が推定した音源数および音源方向に基づいて各マイクロホンの最寄りの音源を特定し、当該音源から発せられる音声信号を基に、各マイクロホンに入力される音量を算出し、当該音量が均一になるように入力信号を較正する信号較正手段と、
　較正された入力信号に基づいて、音源の音源数および音源方向を推定し、推定された音源方向に基づいて話者を分類する第二推定手段とを備えた
　ことを特徴とする多マイクロホン話者分類装置。
　第一推定手段は、音源方向を示す基底ベクトルの重み付き和で入力信号を表現した音源方向ベクトルと、元の入力信号を示す信号ベクトルとの差分に、前記音源方向ベクトルの展開係数のうち０の値をとる展開係数の成分が多くなるほど小さな値になる罰則項を加算した関数を最小化することにより、音源の音源数および音源方向を推定する
　請求項１記載の多マイクロホン話者分類装置。
　第二推定手段は、音源方向を示す基底ベクトルの重み付き和で較正された入力信号を表現した音源方向ベクトルと、較正された入力信号を示す信号ベクトルとの差分に、前記音源方向ベクトルの展開係数のうち０の値をとる展開係数の成分が多くなるほど小さな値になる罰則項を加算した関数を最小化することにより、音源の音源数および音源方向を推定する
　請求項１または請求項２記載の多マイクロホン話者分類装置。
　第一推定手段は、音源の音源数と入力信号数に関する増加関数を項として含む関数を最小化することにより、音源の音源数および音源方向を推定する
　請求項１から請求項３のうちのいずれか１項に記載の多マイクロホン話者分類装置。
　第二推定手段は、音源の音源数と較正された入力信号数に関する増加関数を項として含む関数を最小化することにより、音源の音源数および音源方向を推定する
　請求項１から請求項４のうちのいずれか１項に記載の多マイクロホン話者分類装置。
　信号較正手段は、推定された音源方向に基づいて各マイクロホンに最も近い音源を選択し、選択された音源から入力される入力信号が示す音量の平均値をマイクロホンごとに算出し、当該平均値を用いて入力信号を較正することにより、各マイクロホンに入力される入力信号の音量を均一にする
　請求項１から請求項５のうちのいずれか１項に記載の多マイクロホン話者分類装置。
　複数のマイクロホンで集音された各音源からの音声を時間周波数領域に変換した入力信号を成分とするベクトルに基づいて、前記音源の音源数および音源方向を推定し、
　推定された音源数および音源方向に基づいて各マイクロホンの最寄りの音源を特定し、
　各マイクロホンの最寄りの音源から発せられる音声信号を基に、当該各マイクロホンに入力される音量を算出し、
　前記音量が均一になるように入力信号を較正し、
　較正された入力信号に基づいて、音源の音源数および音源方向を推定し、
　推定された音源方向に基づいて話者を分類する
　ことを特徴とする多マイクロホン話者分類方法。
　音源方向を示す基底ベクトルの重み付き和で入力信号を表現した音源方向ベクトルと、元の入力信号を示す信号ベクトルとの差分に、前記音源方向ベクトルの展開係数が０の値をとるほどより小さな値になる罰則項を加算した関数を最小化することにより、音源の音源数および音源方向を推定する
　請求項７記載の多マイクロホン話者分類方法。
　コンピュータに、
　複数のマイクロホンで集音された各音源からの音声を時間周波数領域に変換した入力信号を成分とするベクトルに基づいて、前記音源の音源数および音源方向を推定する第一推定処理、
　前記第一推定処理で推定された音源数および音源方向に基づいて各マイクロホンの最寄りの音源を特定し、当該音源から発せられる音声信号を基に、各マイクロホンに入力される音量を算出し、当該音量が均一になるように入力信号を較正する信号較正処理、および、
　較正された入力信号に基づいて、音源の音源数および音源方向を推定し、推定された音源方向に基づいて話者を分類する第二推定処理
　を実行させるための多マイクロホン話者分類用プログラム。
　コンピュータに、
　第一推定処理で、音源方向を示す基底ベクトルの重み付き和で入力信号を表現した音源方向ベクトルと、元の入力信号を示す信号ベクトルとの差分に、前記音源方向ベクトルの展開係数が０の値をとるほどより小さな値になる罰則項を加算した関数を最小化することにより、音源の音源数および音源方向を推定させる
　請求項９記載の多マイクロホン話者分類用プログラム。