WO2012105386A1

WO2012105386A1 - 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム

Info

Publication number: WO2012105386A1
Application number: PCT/JP2012/051554
Authority: WO
Inventors: 祥史大西
Original assignee: 日本電気株式会社
Priority date: 2011-02-01
Filing date: 2012-01-25
Publication date: 2012-08-09
Also published as: US20130311183A1; US9245539B2; JP5994639B2; JPWO2012105386A1

Abstract

　音源からの音量が変動する場合や、音源数が未知の場合、異なる種類のマイクを混在して使用するような場合にも、観測信号の音声区間検出を適切に行う。

Description

有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム

本発明は音声信号から、音声信号から有音区間を検出する技術に関し、特に、複数のマイクで集音された音声信号を用いて有音区間検出を行う有音区間検出装置、有音区間検出方法、及び有音区間検出プログラムに関する。

　複数のマイクで収音された音声信号から有音区間を分類する技術は数多く開示されており、その一例が、例えば特許文献１に記載されている。

　特許文献１に記載の技術では、複数のマイクそれぞれの有音区間を正しく判定するために、まず周波数領域に変換された時間周波数ごとの各観測信号を音源毎に分類し、その分類された各観測信号について有音区間、無音区間の判定を行なっている。

　ここで、特許文献１等の背景技術における有音区間分類装置の構成図を図５に示す。背景技術における有音区間分類装置は、一般的に観測信号分類部５０１と、信号分離部５０２と有音区間判定部５０３とから構成されている。

　このような構成を有する背景技術における音声区間分類装置の動作を示すフローチャートを、図８に示す。

　背景技術における音声区間分類装置は、まず、Ｍ本のマイクで観測された音声を各マイクで時間－周波数分析した多マイク音声信号ｘ_ｍ（ｆ，ｔ）（ここでｍはマイク番号、ｆは周波数、ｔは時間を示す）と、各マイクにおける周波数ごとのノイズパワー推定値λ_ｍ（ｆ）とを入力する（ステップＳ８０１）。

　次いで、観測信号分離部５０１が、各時間周波数について音源分類を行い、分類結果Ｃ（ｆ，ｔ）を算出する（ステップＳ８０２）。

　次いで、信号分離部５０２が、該分類結果Ｃ（ｆ，ｔ）及び多マイク音声信号を用いて、音源ごとの分離信号ｙ_ｎ（ｆ，ｔ）を算出する（ステップＳ８０３）。

　次いで、有音区間判定部５０３が、該分離信号ｙ_ｎ（ｆ，ｔ）とノイズパワー推定値推定値λ_ｍ（ｆ）とを用いて、音源ごとに、Ｓ／Ｎ（ｓｉｇｎａｌ－ｎｏｉｓｅ　ｒａｔｉｏ）に基づき有音か無音かを判定する（ステップＳ８０４）。

　ここで、図６に示すように、観測信号分類部５０１は無音判定部６０２と分類部６０１とから構成されており、次のように動作する。観測信号分類部５０１の動作を示すフローチャートを、図９に示す。

　まず、無音判定部６０２のＳ／Ｎ非計算部６０７が、多マイク音声信号ｘ_ｍ（ｆ，ｔ）とノイズパワー推定値λ_ｍ（ｆ）を入力し、各マイクごとに、数１に従いＳ／Ｎ比γ_ｍ（ｆ，ｔ）を計算する（ステップＳ９０１）。

　次いで、非線形変換部６０８が、各マイクごとに、下式に従い非線形変換を施し、非線形変換後のＳ／Ｎ比Ｇ_ｍ（ｆ，ｔ）を計算する（ステップＳ９０２）。
Ｇ_ｍ（ｆ，ｔ）＝γ_ｍ（ｆ，ｔ）－ｌｎγ_ｍ（ｆ，ｔ）－１

　次に、判定部６０９が、予め定めた閾値η’と各マイクの非線形変換後のＳ／Ｎ比Ｇ_ｍ（ｆ，ｔ）とを比較して、すべてのマイクにおいて非線形変換後のＳ／Ｎ比Ｇ_ｍ（ｆ，ｔ）が閾値以下であれば、その時間－周波数における信号はノイズであるとみなしてＣ（ｆ，ｔ）＝０を出力する（ステップＳ９０３）。なお、分類結果Ｃ（ｆ，ｔ）は、０からＮまでの値をとるクラスタ情報である。

　次に、分類部６０１の正規化部６０３が、多マイク音声信号ｘ_ｍ（ｆ，ｔ）を入力し、ノイズと判断されなかった区間において、数２に従いＸ’（ｆ，ｔ）を計算する（ステップＳ９０４）。

　Ｘ’（ｆ，ｔ）は、Ｍ本のマイクの信号の振幅絶対値｜ｘ_ｍ（ｆ，ｔ）｜をＭ次元ベクトルとし、そのベクトルのノルムで正規化したベクトルである。

　次いで、尤度計算部６０４が、あらかじめ定めた平均ベクトルと共分散行列をもつガウス分布で表した話者Ｎ人の音源モデルとの尤度ｐ_ｎ（Ｘ’（ｆ，ｔ））ｎ＝１，…，Ｎを計算する（ステップＳ９０５）。

　次いで、最大値決定部６０６が、尤度ｐ_ｎ（Ｘ’（ｆ，ｔ））が最大値となるｎを、Ｃ（ｆ，ｔ）＝ｎとして出力する（ステップＳ９０６）。

　ここで、音源数ＮとＭは異なっていてもよいが、音源であるＮ人の各話者の近くにいずれかのマイクが配置されていると想定しているため、ｎは１，…，Ｍをとるものである。

　また、モデル更新部６０５は、Ｍ次元の各座標軸方向を平均ベクトルとするガウス分布を初期分布とし、話者推定結果を用いて自身の音源モデルに分類された信号を用いて平均ベクトルおよび共分散行列を更新することにより、音源モデルの更新を行う。

　信号分離部５０２は、入力された多マイク音声信号ｘ_ｍ（ｆ，ｔ）と観測信号分類部５０１で出力されたＣ（ｆ，ｔ）を用いて、数３に従い音源ごとの信号ｙ_ｎ（ｆ，ｔ）に分離する。

　ここで、ｋ（ｎ）は音源ｎの最寄りのマイク番号を表し、音源モデルのガウス分布が近接している座標軸から算出できる。

　有音区間判定部５０３は次のように動作する。

　有音区間判定部５０３は、まず、信号分離部５０２で計算された分離信号ｙ_ｎ（ｆ，ｔ）を用いて、数４に従いＧ_ｎ（ｔ）を求める。

　次いで、有音区間判定部５０３は、算出したＧ_ｎ（ｔ）と、予め定めた閾値ηとを比較し、Ｇ_ｎ（ｔ）が閾値ηよりも大きければ、時刻ｔは音源ｎの発話区間と判定し、Ｇ_ｎ（ｔ）が閾値η以下であれば、時刻ｔはノイズ区間であると判定する。

　なお、Ｆは考慮する波数の集合であり、｜Ｆ｜は集合Ｆの要素数である。

特開２００８－１５８０３５号公報

Ｐ．　Ｆｅａｒｎｈｅａｄ，　"Ｐａｒｔｉｃｌｅ　Ｆｉｌｔｅｒｓ　ｆｏｒ　Ｍｉｘｔｕｒｅ　Ｍｏｄｅｌｓ　ｗｉｔｈ　ａｎ　Ｕｎｋｎｏｗｎ　Ｎｕｍｂｅｒ　ｏｆ　Ｃｏｍｐｏｎｅｎｔｓ"，Ｓｔａｔｉｓｔｉｃｓ　ａｎｄ　Ｃｏｍｐｕｔｉｎｇ，　ｖｏｌ　１４，　ｐｐ．１１－２１，　２００４．Ｂ．Ａ．　Ｏｌｓｈａｕｓｅｎ　ａｎｄ　Ｄ．Ｊ．　Ｆｉｅｌｄ，　"Ｅｍｅｒｇｅｎｃｅ　ｏｆ　ｓｉｍｐｌｅ－ｃｅｌｌ　ｒｅｃｅｐｔｉｖｅ　ｆｉｅｌｄ　ｐｒｏｐｅｒｔｉｅｓ　ｂｙ　ｌｅａｒｎｉｎｇ　ａ　ｓｐａｒｓｅ　ｃｏｄｅ　ｆｏｒ　ｎａｔｕｒａｌ　ｉｍａｇｅｓ"，　Ｎａｔｕｒｅ　ｖｏｌ．　３８１，　ｐｐ６０７－６０９，　１９９６．

　特許文献１に記載の技術では、観測信号分類部５０１において行われる音源分類は、正規化ベクトルＸ’（ｆ，ｔ）が音源に近いマイクの座標軸方向にあるとして算出している。

　しかしながら実際には、音源が話者の場合などでは音声パワーは常に変動するため、音源位置が全く移動しない場合においても正規化ベクトルＸ’（ｆ，ｔ）はマイクの座標軸方向から大きく離れ、十分な精度で観測信号の音源分類が出来ないという課題がある。

　例えば２つのマイクで観測した信号の場合を図７に示す。今、マイク番号２の近くの話者が発話している場合を考えると、２つのマイクの観測信号絶対値からなる空間において、音源位置が変化していなくても、音声パワーは常に変動するため、図７の太線上を変動することとなる。

　ここで、λ_１（ｆ），λ_２（ｆ）はノイズパワーであり、その平方根が各マイクで観測される最小振幅程度に相当する。

　この時、正規化ベクトルＸ’（ｆ，ｔ）は半径１の円弧の上に制約されたベクトルとなるが、マイク番号１の観測振幅が小さくノイズレベルと同等で、マイク番号２の観測振幅がノイズレベルより十分に大きい領域である場合（すなわちγ_２（ｆ，ｔ）が閾値η’を超えて有音区間とみなせる場合）でも、Ｘ’（ｆ，ｔ）はマイク番号２の座標軸（すなわち音源方向）から大きく外れることとなり、図7の太点線上を変動して音源の分類が困難となり、その結果マイク番号２の音声区間を誤って無音と判定し、音声区間検出性能を劣化させる。

　また、特許文献１に記載の技術では、観測信号分類部５０１において、音源数Ｎは未知量であるため、尤度計算部６０４で音源分類のための適切な音源モデルを設定することは困難であることから、分類結果に誤りが生じ、その結果音声区間検出性能が劣化してしまう課題がある。

　例えば２マイク３音源（話者）で３番目の話者が２つのマイクの中間近くに位置していた場合、マイク軸近くの音源モデルでは適切に分類することはできない。また、事前の話者数の知識なしにマイク軸から離れた適切な位置に音源モデルを用意することは困難で、観測信号の音源分類が行えず、その結果音声区間検出性能が劣化してしまう。

　さらに、これら観測信号分類性能劣化の要因は、異なる種類のマイクをキャリブレーションせずに混在して使用するような場合、各マイクの振幅値やノイズレベルに差が生じることにより影響が増大して、音声区間検出性能劣化が大きくなる課題が存在する。

（発明の目的）
　本発明の目的は、上述した課題を解決し、音源からの音量が変動する場合や、音源数が未知の場合、異なる種類のマイクを混在して使用するような場合にも、観測信号の有音区間検出を適切に行うことが出来る、有音区間検出装置、有音区間検出方法、及び有音区間検出プログラムを提供することである。

　本発明によれば、音源からの音量が変動する場合や、音源数が未知の場合、異なる種類のマイクを混在して使用するような場合にも、観測信号の音声区間検出を適切に行うことが出来る。

本発明の第１の実施の形態による有音区間検出装置の構成を示すブロック図である。本発明の第２の実施の形態による有音区間検出装置の構成を示すブロック図である。本発明の効果を説明する図である。本発明の効果を説明する図である。背景技術による多マイク音声検出装置の構成を示すブロック図である。背景技術による多マイク音声検出装置の構成を示すブロック図である。背景技術による多マイク音声検出装置の課題を説明する図である。背景技術による多マイク音声検出装置の動作を示すフローチャートである。背景技術による多マイク音声検出装置の動作を示すフローチャートである。本発明の有音区間検出装置のハードウェア構成例を示すブロック図である。

　本発明の上記及び他の目的、特徴及び利点を明確にすべく、添付した図面を参照しながら、本発明の実施形態を以下に詳述する。

　なお、上述の本願発明の目的のほか、他の技術的課題、その技術的課題を解決する手段及びその作用効果についても、以下の実施形態による開示によって明らかとなるものである。また、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。

（第１の実施の形態）
　本発明の第１の実施の形態について、図面を参照して詳細に説明する。以下の図において、本発明の本質に関わらない部分の構成については適宜省略してあり、図示されていない。

　図１は、本発明の第１の実施の形態による有音区間検出装置１００の構成を示すブロック図である。図１を参照すると、本実施の形態による有音区間検出装置１００は、ベクトル算出手段１０１と、クラスタリング手段１０２と、有音声指標算出手段１０３と、有音区間判定手段１０６とを備えている。

　ベクトル算出手段１０１は、時間－周波数分析した多マイク音声信号ｘ_ｍ（ｆ，ｔ）（ｍ＝１，…，Ｍ）を入力し、数５に従いＭ次元パワースペクトルのベクトルＳ（ｆ，ｔ）を算出する。

　ここで、Ｍはマイクの数を示す。

　また、ベクトル算出手段１０１は、数６に示すように、対数パワースペクトルのベクトルＬＳ（ｆ，ｔ）を算出することとしてもよい。

　クラスタリング手段１０２は、ベクトル算出手段１０１で算出したＭ次元空間のベクトルをクラスタリングする。

　クラスタリング手段１０２は、周波数ｆの時刻１からｔまでのＭ次元パワースペクトルのベクトルＳ（ｆ，１：ｔ）が得られたとき、これらｔ個のベクトルデータをクラスタリングした状態をｚ_ｔで表す。なお、時刻の単位は、信号を所定の時間長で区切ったものである。

　また、ｈ（ｚ_ｔ）はクラスタリング状態ｚ_ｔを持つ系から算出できる任意の量ｈを表す関数とする。本実施の形態においては、クラスタリングは確率的に行うものとする。

　クラスタリング手段１０２は、数７の第２項に従い、事後分布ｐ（ｚ_ｔ｜Ｓ（ｆ，１：ｔ））を乗じてあらゆるクラスタリング状態ｚ_ｔについて積分することでｈの期待値を算出することが可能である。

　しかし、実際には数７の第３項に示すようにＬ個のクラスタリング状態ｚ_ｔ ^ｌ（ｌ＝１，…，Ｌ）とその重みω_ｔ ^ｌを用いることにより、重み付き和をとることで近似的に算出する。

　ここで、クラスタリング状態ｚ_ｔ ^ｌとは、ｔ個のデータがそれぞれどのようにクラスタリングされたかを表す。例えばｔ＝３の場合は、３個のデータのクラスタリングのすべての組み合わせが考えられ、クラスタリング状態ｚ_ｔ ^ｌは、クラスタ番号の集合で表すとｚ_ｔ ^１＝｛１，１，１｝，ｚ_ｔ ^２＝｛１，１，２｝，ｚ_ｔ ^３＝｛１，２，１｝，ｚ_ｔ ^４＝｛１，２，２｝，ｚ_ｔ ^５＝｛１，２，３｝のＬ＝５種類となる。

　また例えば、ｈ（ｚ_ｔ ^ｌ）として、時刻ｔのデータのクラスタ中心ベクトルを算出するものを考えると、前記ｔ＝３の場合では、クラスタリング状態ｚ_ｔ ^ｌは、各ｚ_ｔ ^ｌの集合に含まれるそれぞれのクラスタを、共役な事前分布を持つガウス分布として事後分布を算出し、そのうちｔ＝３のデータを含むクラスタの分布平均の値を取るものとなる。

　ここで、ｚ_ｔ ^ｌおよびω_ｔ ^ｌは、ディリクレプロセスミクスチャモデルに粒子フィルタ法適応することにより算出でき、例えば非特許文献１に詳細が記載されている。

　なお、Ｌ＝１とした場合には決定的なクラスタリングとなり、その場合も含んでいることとみなせる。

　有音性指標算出手段１０３は、前述のクラスタリング手段１０２におけるｈ（）として，数８に示すＧ（ｚ_ｔ ^ｌ）の期待値Ｇ（ｆ，ｔ）を計算し、有音性の指標を算出する。

　ここで、数８のＱは、ｚ_ｔ ^ｌにおける時刻ｔのクラスタ中心ベクトル、Λはｚ_ｔ ^ｌに含まれるクラスタのうちクラスタ中心が最小となる中心ベクトル、ＳはＳ（ｆ，ｔ）を略記したもので「・」は内積を表す。

　数８におけるγは、クラスタリング状態ｚ_ｔ ^ｌにおいて、ノイズパワーベクトルΛとパワースペクトルＳをそれぞれクラスタ中心ベクトル方向に射影して算出したＳ／Ｎ比に相当する。すなわちＧは
　　Ｇ_ｍ（ｆ，ｔ）＝γ_ｍ（ｆ，ｔ）－ｌｎγ_ｍ（ｆ，ｔ）－１
をＭ次元空間上へ拡張したものである。

　有音区間判定部１０６は、有音性指標算出手段１０３で算出されたＧ（ｆ，ｔ）と、予め定めた閾値ηと比較して、Ｇ（ｆ，ｔ）が閾値ηよりも大きければ発話区間と判定し、Ｇ（ｆ，ｔ）が閾値η以下であればノイズ区間であると判定する。

（第１の実施の形態による効果）
　次に、本実施の形態の効果について説明する。

　本実施の形態では、クラスタリング手段１０２において、ベクトル算出手段１０１で算出したＭ次元空間のベクトルをクラスタリングする。これにより、音源からの音量変動を反映したクラスタリングが行われる。

　例えば、図３に示すように、２つのマイクで観測する場合を考えると、マイク番号２の近くで話者が発話している場合、あるクラスタリング状態ｚ_ｔ ^ｌにおいて、ノイズベクトルΛ（ｆ，ｔ）近くのクラスタ１、マイク番号１の音量が小さい領域でのクラスタ２、より音量が大きい領域のクラスタ３といった、クラスタリングが行われる。

　ここで、さまざまなクラスタ数を持つクラスタリング状態ｚ_ｔ ^ｌを考慮して、それらクラスタリング状態を確率的に取り扱っているため、クラスタ数は予め決める必要はない。

　本実施の形態では、有音性指標算出手段２０３において、各時刻のパワースペクトルＳ（ｆ，ｔ）が入力されたとき、そのデータが属するクラスタ中心ベクトル方向において、有音性指標Ｇ（ｆ，ｔ）を算出する。

　このため、異なる種類のマイクを混在して使用するような場合、すなわち各マイク軸におけるパワースペクトルの値やノイズレベルに差が生じる場合でも、Ｍ次元空間でクラスタリングを行い、データ変動の影響を考慮して実現されたクラスタ中心ベクトルを算出し、その方向において有音性指標を評価しているため、マイク差の影響を受けにくい効果がある。

　また、有音区間判定手段１０６は、これら算出された有音性指標をもちいて有音区間を判定するため、音源からの音量が変動する場合や、音源数が未知の場合、異なる種類のマイクを混在して使用するような場合にも、観測信号の音声区間検出を適切に行うことが出来る。

なお、本発明では、音源は音声としたが、これに限定されるものではなく、例えば楽器の音等、他の音源についても適用できる。

（第２の実施の形態）
　次に、本発明の第２の実施の形態について、図面を参照して詳細に説明する。以下の図において、本発明の本質に関わらない部分の構成については適宜省略してあり、図示されていない。

　図２は本発明の第２の実施の形態による有音区間検出装置１００の構成を示すブロック図である。

　本実施の形態による有音区間検出装置１００は、図１に示す第１の実施の形態の構成に加え、差分算出手段１０４と、音源方向算出手段１０５とを備えている。

　差分算出手段１０４は、前記クラスタリング手段１０２におけるｈ（）として、数９に示すΔＱ（ｚ_ｔ ^ｌ）の期待値ΔＱ（ｆ，ｔ）を計算し、クラスタ中心の変動方向を算出する。

　ここで、数９は、時刻ｔとｔ－１のデータが含まれるクラスタ中心ベクトル差分Ｑ_ｔ－Ｑ_ｔ－１を、それら平均ノルム｜Ｑ_ｔ＋Ｑ_ｔ－１｜／２で規格化したものを表す。

　音源方向推定手段１０５は、差分算出手段１０４において算出された、ΔＱ（ｆ，ｔ）のｆ∈Ｆ，ｔ∈τのデータを用いて、下式に従い、Ｉを最小とする基底ベクトルφ（ｉ）、及び係数ａ_ｉ（ｆ，ｔ）を算出しする。
　　Ｉ（ａ，φ）＝Σ_{ｆ∈Ｆ，ｔ∈τ}［Σ_ｍ｛Ｑ_ｍ（ｆ，ｔ）－Σ_ｉａ_ｉ（ｆ，ｔ）φ_ｍ（ｉ）｝²］＋ξΣ_ｉ｜ａ_ｉ（ｆ，ｔ）｜］

　次いで、音源方向推定手段１０５は、下式に従い、各ｆ，ｔにおいて、ａ_ｉ（ｆ，ｔ）が最大となる基底ベクトルを、音源方向Ｄ（ｆ，ｔ）として推定する。
　　Ｄ（ｆ，ｔ）＝φ_ｊ，ｊ＝ａｒｇｍａｘ_ｉａ_ｉ（ｆ，ｔ）

　Ｉを最小にするφ及びａは、ａ及びφについて交互に再急降下法を適応することにより算出でき、この詳細についてはたとえば非特許文献２に記載されている。

　ここで、Ｆは考慮する波数の集合であり、τは予め定めたｔの前後のバッファ幅である。なお音源方向の不定を減少させるため、ｔ∈｛ｔ－τ１，…，ｔ＋τ２｝として、有音区間判定手段１０６でノイズ区間と判定された領域を含まないように変動を許したバッファ幅を用いることも出来る。

　また、基底ベクトルの個数は、十分な数を設定しておけば、不要な基底ベクトルの係数ａがゼロとなるため、音源数を事前に知っておく必要はない。

　有音区間判定手段１０６は、有音性指標算出手段１０３で算出された有音性指標Ｇ（ｆ，ｔ）と、音源方向推定手段１０５で推定さた音源方向Ｄ（ｆ，ｔ）を用いて、数１０に従い、各音源φ_ｊに分類された周波数の有音性指標Ｇ（ｆ，ｔ）の和Ｇ_ｊ（ｔ）を算出する。

　次いで、有音区間判定手段１０６は、予め定めた閾値ηと、算出したＧ_ｊ（ｔ）とを比較し、Ｇ_ｊ（ｔ）が閾値ηよりも大きければ、該音源方向は音源φ_ｊの発話区間と判定する。

　また、Ｇ_ｊ（ｔ）が閾値η以下であれば、該音源方向はノイズ区間であると判定する。

（第２の実施の形態による効果）
　次に、本実施の形態の効果について説明する。

　本実施の形態では差分算出手段１０４において、各時刻のパワースペクトルのベクトルＳ（ｆ，ｔ）が入力されたとき、クラスタリング手段１０２で算出されたその時刻および前時刻のデータが属するクラスタ中心の差分ベクトルΔＱ（ｆ，ｔ）を算出している。これにより、音源からの音量が変動する場合においてもその影響を受けずにΔＱ（ｆ，ｔ）は概ね音源方向を正しく示す効果がある。

　例えば図４に示すように、クラスタ間の差分は太点線で示すベクトルとなり、音源方向を示していることが分かる。

　また、音源方向推定手段１０５は、差分算出手段１０４で算出されたΔＱ（ｆ，ｔ）から、その主要成分を、非直交および空間次元を超えることを許して算出する。ここで、音源数を事前に知っておく必要はなく、また初期音源位置などを指定する必要もない。音源数が未知の場合でも、音源方向を算出できる効果がある。

　また、有音区間判定手段１０６は、これら算出された有音性指標および音源方向をもちいて有音区間を判定するため、音源からの音量が変動する場合や、音源数が未知の場合、異なる種類のマイクを混在して使用するような場合にも、観測信号の音源分類および音声区間検出を適切に行うことが出来る。

　次に、本発明の有音区間検出装置１００のハードウェア構成例について、図１０を参照して説明する。図１０は有音区間検出装置１００のハードウェア構成例を示すブロック図である。

　図１０を参照すると、有音区間検出装置１００は、一般的なコンピュータ装置と同様のハードウェア構成であり、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）８０１、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）等のメモリからなる、データの作業領域やデータの一時退避領域に用いられる主記憶部８０２、ネットワークを介してデータの送受信を行う通信部８０３、入力装置８０５や出力装置８０６及び記憶装置８０７と接続してデータの送受信を行う入出力インタフェース部８０４、上記各構成要素を相互に接続するシステムバス８０８を備えている。記憶装置８０７は、例えば、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、磁気ディスク、半導体メモリ等の不揮発性メモリから構成されるハードディスク装置等で実現される。

　本発明の有音区間検出装置１００のベクトル算出手段１０１、クラスタリング手段１０２、差分算出手段１０４、音源方向推定手段１０５、有音区間判定手段１０６、有音声指標算出手段１０３は、プログラムを組み込んだ、ＬＳＩ（Ｌａｒｇｅ　Ｓｃａｌｅ　Ｉｎｔｅｇｒａｔｉｏｎ）等のハードウェア部品である回路部品を実装することにより、その動作をハードウェア的に実現することは勿論として、その機能を提供するプログラムを、記憶装置８０７に格納し、そのプログラムを主記憶部８０２にロードしてＣＰＵ８０１で実行することにより、ソフトウェア的に実現することも可能である。

　なお、ハードウェア構成は上記に限定されるものではない。

　以上好ましい実施の形態をあげて本発明を説明したが、本発明は必ずしも、上記実施の形態に限定されるものでなく、その技術的思想の範囲内において様々に変形して実施することができる。

　なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

　また、本発明の各種の構成要素は、必ずしも個々に独立した存在である必要はなく、複数の構成要素が一個の部材として形成されていること、一つの構成要素が複数の部材で形成されていること、ある構成要素が他の構成要素の一部であること、ある構成要素の一部と他の構成要素の一部とが重複していること、等でもよい。

　また、本発明の方法およびコンピュータプログラムには複数の手順を順番に記載してあるが、その記載の順番は複数の手順を実行する順番を限定するものではない。このため、本発明の方法およびコンピュータプログラムを実施する時には、その複数の手順の順番は内容的に支障しない範囲で変更することができる。

　また、本発明の方法およびコンピュータプログラムの複数の手順は個々に相違するタイミングで実行されることに限定されない。このため、ある手順の実行中に他の手順が発生すること、ある手順の実行タイミングと他の手順の実行タイミングとの一部ないし全部が重複していること、等でもよい。

　さらに、上記実施形態の一部又は全部は、以下の付記のようにも記載されうるが、これに限定されない。

（付記１）
　複数のマイクで集音した音声信号のパワースペクトル時系列から、前記マイクの数の次元を持つパワースペクトルのベクトル系列である多次元ベクトル系列を算出するベクトル算出手段と、
　前記多次元ベクトル系列をクラスタリングするクラスタリング手段と、
　任意の時間長に区切った前記多次元ベクトル系列の各時刻において、ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトルをそれぞれ算出し、前記ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルを、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトル方向に射影した後、信号ノイズ比を有音性指標として算出する有音性指標算出手段と、
　前記有音性指標を所定の閾値と比較し、前記音声信号のベクトルが有音区間であるか無音区間であるかを判別する有音区間判定手段と
　を備えることを特徴とする有音区間検出装置。

（付記２）
　前記クラスタリング手段が、確率的なクラスタリングを行い、
　前記有音性指標算出手段が、前記クラスタリング結果から前記有音性指標の期待値を算出することを特徴とする付記１に記載の有音区間検出装置。

（付記３）
　前記多次元ベクトル系列が、対数パワースペクトルのベクトル系列であることを特徴とする付記１又は付記２に記載の有音区間検出装置。

（付記４）
　複数のマイクで集音した音声信号から、有音区間を検出する有音区間検出装置の有音区間分類方法であって、
　複数のマイクで集音した音声信号のパワースペクトル時系列から、前記マイクの数の次元を持つパワースペクトルのベクトル系列である多次元ベクトル系列を算出するベクトル算出ステップと、
　前記多次元ベクトル系列をクラスタリングするクラスタリングステップと、
　任意の時間長に区切った前記多次元ベクトル系列の各時刻において、ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトルをそれぞれ算出し、前記ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルを、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトル方向に射影した後、信号ノイズ比を有音性指標として算出する有音性指標算出ステップと、
　前記有音性指標を所定の閾値と比較し、前記音声信号のベクトルが有音区間であるか無音区間であるかを判別する有音区間判定ステップと
　を有することを特徴とする有音区間検出方法。

（付記５）
　前記クラスタリングステップが、確率的なクラスタリングを行い、
　前記有音性指標算出ステップが、前記クラスタリング結果から前記有音性指標の期待値を算出することを特徴とする付記４に記載の有音区間検出方法。

（付記６）
　前記多次元ベクトル系列が、対数パワースペクトルのベクトル系列であることを特徴とする付記４又は付記５に記載の有音区間検出方法。

（付記７）
　複数のマイクで集音した音声信号から、有音区間を検出する有音区間分類装置として機能するコンピュータ上で動作する有音区間検出プログラムであって、
　前記コンピュータに、
　複数のマイクで集音した音声信号のパワースペクトル時系列から、前記マイクの数の次元を持つパワースペクトルのベクトル系列である多次元ベクトル系列を算出するベクトル算出処理と、
　前記多次元ベクトル系列をクラスタリングするクラスタリング処理と、
　任意の時間長に区切った前記多次元ベクトル系列の各時刻において、ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトルをそれぞれ算出し、前記ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルを、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトル方向に射影した後、信号ノイズ比を有音性指標として算出する有音性指標算出処理と、
　前記有音性指標を所定の閾値と比較し、前記音声信号のベクトルが有音区間であるか無音区間であるかを判別する有音区間判定処理と
　を実行させることを特徴とする有音区間検出プログラム。

（付記８）
　前記クラスタリング処理が、確率的なクラスタリングを行い、
　前記有音性指標算出処理が、前記クラスタリング結果から前記有音性指標の期待値を算出することを特徴とする付記７に記載の有音区間検出プログラム。

（付記９）
　前記多次元ベクトル系列が、対数パワースペクトルのベクトル系列であることを特徴とする付記７又は付記８に記載の有音区間検出プログラム。

　この出願は、２０１１年２月１日に出願された日本出願特願２０１１－０１９８１５を基礎とする優先権を主張し、その開示の全てをここに取り込む。

本発明によれば、多マイクを用いて集音して音声認識を行うための、発話区間検出といった用途に適応できる。

Claims

　複数のマイクで集音した音声信号のパワースペクトル時系列から、前記マイクの数の次元を持つパワースペクトルのベクトル系列である多次元ベクトル系列を算出するベクトル算出手段と、
　前記多次元ベクトル系列をクラスタリングするクラスタリング手段と、
　任意の時間長に区切った前記多次元ベクトル系列の各時刻において、ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトルをそれぞれ算出し、前記ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルを、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトル方向に射影した後、信号ノイズ比を有音性指標として算出する有音性指標算出手段と、
　前記有音性指標を所定の閾値と比較し、前記音声信号のベクトルが有音区間であるか無音区間であるかを判別する有音区間判定手段と
　を備えることを特徴とする有音区間検出装置。
　前記クラスタリング手段が、確率的なクラスタリングを行い、
　前記有音性指標算出手段が、前記クラスタリング結果から前記有音性指標の期待値を算出することを特徴とする請求項１に記載の有音区間検出装置。
　前記多次元ベクトル系列が、対数パワースペクトルのベクトル系列であることを特徴とする請求項１又は請求項２に記載の有音区間検出装置。
　複数のマイクで集音した音声信号から、有音区間を検出する有音区間検出装置の有音区間分類方法であって、
　複数のマイクで集音した音声信号のパワースペクトル時系列から、前記マイクの数の次元を持つパワースペクトルのベクトル系列である多次元ベクトル系列を算出するベクトル算出ステップと、
　前記多次元ベクトル系列をクラスタリングするクラスタリングステップと、
　任意の時間長に区切った前記多次元ベクトル系列の各時刻において、ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトルをそれぞれ算出し、前記ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルを、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトル方向に射影した後、信号ノイズ比を有音性指標として算出する有音性指標算出ステップと、
　前記有音性指標を所定の閾値と比較し、前記音声信号のベクトルが有音区間であるか無音区間であるかを判別する有音区間判定ステップと
　を有することを特徴とする有音区間検出方法。
　前記クラスタリングステップが、確率的なクラスタリングを行い、
　前記有音性指標算出ステップが、前記クラスタリング結果から前記有音性指標の期待値を算出することを特徴とする請求項４に記載の有音区間検出方法。
　前記多次元ベクトル系列が、対数パワースペクトルのベクトル系列であることを特徴とする請求項４又は請求項５に記載の有音区間検出方法。
　複数のマイクで集音した音声信号から、有音区間を検出する有音区間分類装置として機能するコンピュータ上で動作する有音区間検出プログラムであって、
　前記コンピュータに、
　複数のマイクで集音した音声信号のパワースペクトル時系列から、前記マイクの数の次元を持つパワースペクトルのベクトル系列である多次元ベクトル系列を算出するベクトル算出処理と、
　前記多次元ベクトル系列をクラスタリングするクラスタリング処理と、
　任意の時間長に区切った前記多次元ベクトル系列の各時刻において、ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトルをそれぞれ算出し、前記ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルを、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトル方向に射影した後、信号ノイズ比を有音性指標として算出する有音性指標算出処理と、
　前記有音性指標を所定の閾値と比較し、前記音声信号のベクトルが有音区間であるか無音区間であるかを判別する有音区間判定処理と
　を実行させることを特徴とする有音区間検出プログラム。
　前記クラスタリング処理が、確率的なクラスタリングを行い、
　前記有音性指標算出処理が、前記クラスタリング結果から前記有音性指標の期待値を算出することを特徴とする請求項７に記載の有音区間検出プログラム。
　前記多次元ベクトル系列が、対数パワースペクトルのベクトル系列であることを特徴とする請求項７又は請求項８に記載の有音区間検出プログラム。