WO2023228785A1

WO2023228785A1 - 音響信号処理装置、音響信号処理方法及びプログラム

Info

Publication number: WO2023228785A1
Application number: PCT/JP2023/017957
Authority: WO
Inventors: 直樹平山; 裕作菊川; 政秀蟻生
Original assignee: 株式会社東芝; 東芝デジタルソリューションズ株式会社
Priority date: 2022-05-24
Filing date: 2023-05-12
Publication date: 2023-11-30
Also published as: JP2023172553A

Abstract

音声認識結果に依存せずに、雑音環境でも音声認識の認識率を向上させる。実施形態の音響信号処理装置は、空間フィルタ制御部と空間フィルタ記憶部と音響処理部とを備える。空間フィルタ制御部は、異なる位置で収録され、時間的に同期されたＮ個（Ｎ≧２）の音響信号に対して、目的音声成分の強調及び雑音成分の抑圧を行う空間フィルタを出力する。空間フィルタ記憶部は、前記空間フィルタを記憶する。音響処理部は、前記空間フィルタ記憶部から読み出した前記空間フィルタを用いて、前記音響信号の目的音声成分の強調と、前記音響信号の雑音成分の抑圧とを行う。前記空間フィルタ制御部は、判定部と音声空間相関計算部と雑音空間相関計算部と空間相関記憶部と空間フィルタ計算部とを備える。

Description

音響信号処理装置、音響信号処理方法及びプログラム

　本発明の実施形態は音響信号処理装置、音響信号処理方法及びプログラムに関する。

　異なる位置に設置された２個以上のマイクロフォンで収録された音響信号に対して、音声認識の対象とすべき目的音声を強調し、音声認識の対象とすべきでない雑音を抑圧する音響処理を実施することで、音声認識の認識率を向上させる技術が従来から知られている。例えば、音声認識によりキーワードが検出された際に、当該キーワードが話された時間区間内の信号を目的音声と仮定し、当該キーワードが話された時間区間外の信号を雑音と仮定して、目的音声を強調し、雑音を抑圧する音響処理を行うための空間フィルタを計算する技術がある。

特許第６７１１７８９号公報

　しかしながら従来の技術では、音声認識結果に依存せずに、雑音環境でも認識率を向上させることが難しかった。

　実施形態の音響信号処理装置は、空間フィルタ制御部と空間フィルタ記憶部と音響処理部とを備える。空間フィルタ制御部は、異なる位置で収録され、時間的に同期されたＮ個（Ｎ≧２）の音響信号に対して、目的音声成分の強調及び雑音成分の抑圧を行う空間フィルタを出力する。空間フィルタ記憶部は、前記空間フィルタを記憶する。音響処理部は、前記空間フィルタ記憶部から読み出した前記空間フィルタを用いて、前記音響信号の目的音声成分の強調と、前記音響信号の雑音成分の抑圧とを行う。前記空間フィルタ制御部は、判定部と音声空間相関計算部と雑音空間相関計算部と空間相関記憶部と空間フィルタ計算部とを備える。判定部は、前記音響信号が目的音声であるか、雑音であるかを判定する。音声空間相関計算部は、前記音響信号のうち、前記目的音声と判定された音声区間を用いて、音声空間相関行列を計算する。雑音空間相関計算部は、前記音響信号のうち、前記雑音と判定された雑音区間を用いて、雑音空間相関行列を計算する。空間相関記憶部は、前記音声空間相関行列及び前記雑音空間相関行列を記憶する。空間フィルタ計算部は、前記空間相関記憶部から読み出した前記音声空間相関行列及び前記雑音空間相関行列から、目的音声成分の強調及び雑音成分の抑圧を行う空間フィルタを計算する。

図１は、第１実施形態の音声認識装置の機能構成の例を示す図である。図２は、第１実施形態の空間フィルタ制御部の機能構成の例を示す図である。図３は、第１実施形態の音響信号処理方法の例を示すフローチャートである。図４は、第１実施形態の空間フィルタの更新方法の例を示すフローチャートである。図５は、第２実施形態の音声認識装置の機能構成の例を示す図である。図６は、第２実施形態の空間フィルタ制御部の機能構成の例を示す図である。図７は、第２実施形態の音響信号処理方法の例を示すフローチャートである。図８は、第２実施形態の空間フィルタの更新方法の例を示すフローチャートである。図９は、第１及び第２実施形態の音声認識装置のハードウェア構成の例を示す図である。

　以下に添付図面を参照して、音響信号処理装置、音響信号処理方法及びプログラムの実施形態を詳細に説明する。

（第１実施形態）
　第１実施形態の音響信号処理装置は、各時刻に入力された音響信号が目的音声であるか雑音であるかを判定し、目的音声と判定された区間の音響信号を強調し、雑音と判定された区間の音響信号を抑圧するように空間フィルタを計算する。そして、音響信号処理装置は、この空間フィルタを用いて雑音抑圧を行った音響信号を出力する。第１実施形態の音響信号処理装置は、例えば図１に示す音声認識装置に用いられる。

［音声認識装置の機能構成の例］
　図１は、第１実施形態の音声認識装置１００の機能構成の例を示す図である。第１実施形態の音声認識装置１００は、マイクロフォンアレイ１０と、短時間フーリエ変換部１１と、音響処理部１２と、空間フィルタ制御部１３と、空間フィルタ記憶部１４と、逆短時間フーリエ変換部１５と、音声認識部１６と、表示制御部１７と、ディスプレイ１８とを備える。

　このうち、音響処理部１２、空間フィルタ制御部１３及び空間フィルタ記憶部１４が、第１実施形態の音響信号処理装置１に相当する。第１実施形態の音声認識装置１００は、この出力音響信号を用いて後段で音声認識を行うことにより、音声認識結果を用いることなく、音声認識の認識率を向上させることができる。

　マイクロフォンアレイ１０は、異なる位置に設置されたＮ個（Ｎ≧２）のマイクロフォンを用いて、時間同期されたＮ個の音響信号ｘ_ｍ（ｔ）（ｍ＝１，２，・・・，Ｎ）を取得する。ここで、ｍはマイクロフォンの番号を表す。

　短時間フーリエ変換部１１は、Ｎ個の音響信号ｘ_ｍ（ｔ）に対して窓関数を適用して複数のフレームを生成し、フレームごとに短時間フーリエ変換を行って時間周波数領域に変換し、周波数スペクトル系列Ｘ_ｍ（ｆ，ｋ）を出力する。ここで、ｆは周波数ビンの番号を表し、ｋはフレームの番号を表す。

　音響処理部１２は、Ｎ個の周波数スペクトル系列に含まれる目的音声成分の強調及び雑音成分の抑圧を行い、１個の周波数スペクトル系列Ｙ（ｆ，ｋ）を出力する。なお、音響処理部１２は、音響信号そのものを入出力としてもよい。雑音の抑圧方法としては、例えば、ＧＥＶ（一般化固有値）ビームフォーマ、ＭＶＤＲ（最小分散無歪）ビームフォーマ及びそれらの派生手法が考えられる。

　空間フィルタ制御部１３は、Ｎ個の音響信号を用いて空間フィルタ記憶部１４の値を更新する。例えば、空間フィルタ制御部１３は、ＧＥＶビームフォーマを用いる場合、目的音声及び雑音のそれぞれに対応する空間相関行列の平均値を、音声区間及び雑音区間のそれぞれに対応するフレームの周波数スペクトルから計算し、それらの平均値から空間フィルタを計算する。

　空間フィルタ記憶部１４は、目的音声を強調し、雑音を抑圧する空間フィルタの値を記憶する。

　逆短時間フーリエ変換部１５は、音響処理部１２から出力された周波数スペクトル系列に対して逆短時間フーリエ変換を行い、目的音声の強調及び雑音の抑圧が行われた１個の音響信号ｙ（ｔ）を出力する。

　音声認識部１６は、音響信号ｙ（ｔ）に対して音声認識を行い、音声認識結果を得る。特に第１実施形態では、キーワード発声の検出結果を得る。

　表示制御部１７は、ディスプレイ１８に音声認識結果を表示するための制御を行う。ディスプレイ１８（表示部の一例）は、音声認識結果を表示する。

　続いて、図２を用いて、本実施形態の特徴部分である空間フィルタ制御部１３の機能について説明する。

［空間フィルタ制御部の機能構成の例］
　図２は、第１実施形態の空間フィルタ制御部１３の機能構成の例を示す図である。第１実施形態の空間フィルタ制御部１３は、マイクロフォンアレイ１０及び空間フィルタ記憶部１４と接続される。空間フィルタ制御部１３は、判定部１３１、音声空間相関計算部１３２、雑音空間相関計算部１３３、空間相関記憶部１３４及び空間フィルタ計算部１３５を備える。

　判定部１３１は、マイクロフォンアレイ１０から入力された各フレームの音響信号が、認識すべき目的音声であるか、抑圧すべき雑音であるかを判定する。例えば、判定部１３１は、音響信号に対して、音声らしさを表す音声スコアの値を計算し、音声スコアが音声閾値より大きい場合に、音響信号が目的音声であると判定し、音声スコアが音声閾値以下の場合に、音響信号が雑音であると判定する。

　具体的には、判定部１３１は、事前に学習されたＤＮＮ（ディープニューラルネットワーク）を用いて、音響信号が、認識すべき目的音声であるか、抑圧すべき雑音であるかを判定する。例えば、判定部１３１は、単一フレームの音響信号を入力に取って目的音声か雑音かの判定を行うＤＮＮを用いて、各フレームの音響信号を入力して得られる音声スコアが音声閾値より大きい場合に、認識すべき目的音声であると判定する。事前に学習されたＤＮＮ等のモデルによって出力された音声スコアに基づいて判定を行うことで、複雑な情報を用いた判定を行うことができる。なお、判定に使用される閾値は、定数として実装されていてもよいし、外部から閾値を設定するためのインタフェースが設けられていてもよい。また、判定部１３１は、短時間フーリエ変換部１１から出力された各フレームの周波数スペクトルにより判定を行ってもよい。

　また、判定結果として連続値を許容し、音声空間相関計算部１３２及び雑音空間相関計算部１３３では判定結果の値に応じて重みを付けて更新を行ってもよい。さらに、目的音声の判定と雑音との判定を、別々の判定器によって独立に行ってもよい。判定時の入力信号としては、Ｎ個の音響信号のうち１個の音響信号や、雑音抑圧後の１個の音響信号を用いることができる。Ｎ個の音響信号に対して、別途独立成分分析等の手法によって雑音成分を除去した信号を判定に用いてもよい。

　また、他の判定方法についてもいくつか挙げられる。例えば、判定部１３１は、各マイクロフォンによる音響信号に対して判定を行い、各判定結果の平均値、最大値及び最小値等の統計量を全体の判定結果としてもよい。判定部１３１は、Ｎ個の音響信号から計算された空間相関行列に含まれる支配的な固有値（値が大きい固有値）の数によって音源数を推定する手法［Ｍ．　Ｗａｘ　ａｎｄ　Ｔ．　Ｋａｉｌａｔｈ　１９８５］、あるいはその派生手法によって、支配的な固有値がある場合に目的音声が存在すると判定してもよい。すなわち、判定部１３１は、音響信号に含まれる音源数を推定する音源数推定器を備え、音声スコアが、音源数の関数で表されていてもよい。音源数を用いて目的音声の有無を判定することで、雑音が拡散性で、かつ目的音声のパワーが雑音と比較して十分に大きい場合に、判定部１３１の判定精度を向上させることができる。

　また例えば、判定部１３１は、Ｎ個の音響信号のパワーを計算し、当該音響信号のパワーに基づく統計量の関数で表された音声スコアが、音声閾値より大きい値であれば目的音声が存在すると判定してもよい。前記統計量としては、周波数ビンごとのパワーの時間方向の平均及び分散等が考えられる。目的音声と雑音とで統計量が大きく異なる場合に、判定部１３１をより少ない計算量で実装することができる。

　また例えば、判定部１３１は、マイクロフォンアレイ１０から見た相対的な目的話者の方向が不変であると仮定できる場合には、Ｎ個の音響信号に対してＭＵＳＩＣ（Ｍｕｌｔｉｐｌｅ　Ｓｉｇｎａｌ　Ｃｌａｓｓｉｆｉｃａｔｉｏｎ）法［Ｒ．　Ｏ．　Ｓｃｈｍｉｄｔ　１９８６］等の音源定位手法を適用し、当該目的話者の方向から音源が到来している場合にのみ当該目的話者が発話していると判定してもよい。この場合、空間フィルタ制御部１３は、マイクから見た目的話者の相対方向を保持する話者方向設定部と、当該音響信号に対して音源定位を行い、検出された音源方向を出力する音源定位部と、を更に備えてもよい。そして、判定部１３１は、音源方向の少なくとも１つについて、話者方向設定部により設定された相対方向との角度差が、角度閾値以下の場合に目的音声と判定し、角度閾値より大きい場合に雑音であると判定する。音源方向情報を用いて目的音声の有無を判定することで、既知の目的話者の方向から発話があるかどうかを判定できるので、音響信号のみを用いて、目的話者以外の話者が存在する場合に当該話者の音声の抑圧が可能となる。

　音声空間相関計算部１３２は、判定部１３１が目的音声であると判定した場合に、各フレームの音響信号を用いて、空間相関記憶部１３４に保持されている音声空間相関行列を更新する。具体的には、音声空間相関計算部１３２は、音響信号が目的音声であると判定された場合に、空間相関記憶部１３４から音声空間相関行列を読み出し、音声空間相関行列を計算し、計算された音声空間相関行列を空間相関記憶部１３４に書き込みする（音声空間相関行列更新処理）。

　更新方法の一例として、過去一定時間の音響信号及び判定部１３１の判定結果を記憶しておき、音声と判定された区間の音響信号のみを用いて、音声空間相関行列を計算する方法が考えられる。例えば、判定部１３１は、現在時刻から所定の期間前までに含まれる音響信号を保持する音響信号記憶部を備えてもよい。そして、判定部１３１は、現在時刻から所定の期間前までに含まれる各フレームの音響信号が、目的音声であるか否かを判定する判定を行う。音声空間相関計算部１３２は、現在時刻から所定の期間前までに含まれる音響信号を用いて音声空間相関行列を計算し、計算された音声空間相関行列を空間相関記憶部１３４に記憶する。有効な音声認識結果が得られるのは音響信号に目的発話が含まれているときだけであるので、この更新方法の例では、直近の音響信号（現在時刻から所定の期間前までに含まれる音響信号）に目的発話が含まれることを仮定する。例えば、前記所定の期間をＴフレームとすると、ｋ番目のフレームの音響信号が判定部１３１により目的音声であると判定された時、下記の（１）式に従って前記音声空間相関行列φ_ｓ（ｆ，ｋ）を計算する。

　ここで、Ｘ（ｆ，ｋ）は縦ベクトル［Ｘ_１（ｆ，ｋ），・・・，Ｘ_Ｎ（ｆ，ｋ）］^Ｔを表し、Ｈは共役転置を表し、ｓ（ｋ）はｋ番目のフレームに対する判定部１３１の判定結果が目的音声である場合に１を返し、雑音である場合に０を返す関数を表す。ｓ（ｋ）＝１を仮定しているため、（１）式の分母は０でないと仮定できる。

　また別の例として、音響信号のバッファリングや計算量を削減するために、指数平滑移動平均を用いて音声空間相関行列を逐次更新する方法が考えられる。例えば、ｓ（ｋ）＝１を満たすとき、下記の（２）式に従って前記音声空間相関行列φ_ｓ（ｆ，ｋ）を計算し、ｓ（ｋ）＝０のとき、φ_ｓ（ｆ，ｋ）＝φ_ｓ（ｆ，ｋ－１）とする。ここで、α_ｓは０＜α_ｓ＜１を満たす定数である。

　音声空間相関計算部１３２は、判定部１３１の判定結果ｓ（ｋ）を０又は１の２値ではなく、音響信号が目的音声である度合いを表す連続値とすることで、前記連続値が大きいほど、音声空間相関行列の値を更新する割合の重み付けを大きくして、音声空間相関行列を更新してもよい。例えば、判定結果を示す連続値の範囲が０～１であり、１に近いほど目的音声である度合いが大きいとする。例えば、前記判定結果ｓ（ｋ）を用いて、下記の（３）式に従って音声空間相関行列φ_ｓ（ｆ，ｋ）を計算する。

　判定部１３１の出力を２値ではなく連続値とすることにより、判定の信頼度に応じて音声空間相関行列の計算に、このような重み付けを行うことができる。これにより、音声空間相関の計算をより精密に行うことができ、音響処理の音声強調性能を更に向上させることができる。

　雑音空間相関計算部１３３は、判定部１３１が雑音であると判定した場合に、各フレームの音響信号を用いて、空間相関記憶部１３４に保持されている雑音空間相関行列を更新する。具体的には、雑音空間相関計算部１３３は、音響信号が雑音であると判定された場合に、空間相関記憶部１３４から雑音空間相関行列を読み出し、雑音空間相関行列を計算し、計算された雑音空間相関行列を空間相関記憶部１３４に書き込みする（雑音空間相関行列更新処理）。なお、第１実施形態の音響信号処理装置１は、雑音空間相関行列更新処理、及び、上述の音声空間相関行列更新処理の両方を行ってもよいし、いずれか一方を行ってもよい。

　雑音空間相関行列の更新方法は音声空間相関計算部１３２の場合と同様である。例えば、現在時刻から所定の期間前までに含まれる音響信号を用いて、下記の（４）式に従って雑音空間相関行列を計算し、計算された雑音空間相関行列を空間相関記憶部１３４に記憶する。

　音響信号のバッファリングや計算量を削減するために、指数平滑移動平均を用いて雑音空間相関行列を逐次更新してもよい。このとき、判定部１３１の判定結果を連続値として、雑音空間相関計算部１３３は、前記連続値が小さいほど、雑音空間相関行列の値を更新する割合の重み付けを大きくして、雑音空間相関行列を計算してもよい。例えば、指数平滑移動平均により、下記の（５）式に従って雑音空間相関行列φ_ｎ（ｆ，ｋ）を計算する。

　ここで、α_ｎは０＜α_ｎ＜１を満たす定数である。前記判定結果ｓ（ｋ）は０又は１の２値を取ってもよいし、０～１の連続値を取ってもよい。音声空間相関計算部１３２の場合と同様に、判定部１３１の出力を２値ではなく連続値とすることにより、判定の信頼度に応じて雑音空間相関行列の計算に重み付けを行うことができる。これにより、雑音空間相関の計算をより精密に行うことができ、音響処理の雑音抑圧性能を更に向上させることができる。

　なお、直近の目的音声をより確実に強調するために、音声空間相関計算部１３２は、判定部１３１の判定結果に関わらず、（１）式又は（２）式に従って音声空間相関行列を更新し、雑音空間相関計算部１３３は、ある一定時間過去の音響信号に対する前記判定結果が雑音である場合に、当該過去の音響信号を用いて雑音空間相関行列を更新してもよい。例えば、判定部１３１は、現在時刻から所定の期間前までに含まれる音響信号を保持する音響信号記憶部を備えてもよい。そして、判定部１３１は、所定の期間前の音響信号が雑音であるか否かを判定する判定を行う。雑音空間相関計算部１３３は、所定の期間前の音響信号が雑音と判定された場合に、所定の期間前の音響信号を用いて雑音空間相関行列を計算し、計算された雑音空間相関行列を空間相関記憶部１３４に記憶する。例えば、前記所定の期間をＤフレーム（Ｄ＞０）とすると、音声空間相関行列を判定部１３１の判定結果に関わらず上記の（２）式に従って計算し、判定部１３１がＤフレーム前の音響信号を雑音である（すなわちｓ（ｋ－Ｄ）＝０）と判定した場合に、雑音空間相関行列を下記の（６）式に従って計算する。

　有効な音声認識結果が得られるのは音響信号に目的発話が含まれているときだけであるので、目的発話を音声空間相関の計算に確実に含められる一方で、雑音空間相関については、時間遅れの音響信号（所定の期間前の音響信号）を用いて計算することにより、目的発話が含まれる場合の雑音抑圧効果を高めることができる。

　空間相関記憶部１３４は、音声空間相関計算部１３２及び雑音空間相関計算部１３３により計算された各空間相関行列の値を記憶する。

　空間フィルタ計算部１３５は、空間相関記憶部１３４に記憶された各空間相関行列を用いて、目的音声を強調し、雑音を抑圧する空間フィルタを計算し、計算された空間フィルタの値で空間フィルタ記憶部１４を更新する。この空間フィルタの計算は、ＧＥＶビームフォーマ及びＭＶＤＲビームフォーマ等の各手法に基づいて実施される。

［音響信号処理方法の例］
　図３は、第１実施形態の音響信号処理方法の例を示すフローチャートである。はじめに、短時間フーリエ変換部１１が、マイクロフォンアレイ１０から入力された音響信号を周波数スペクトル系列に変換する（ステップＳ１）。次に、音響処理部１２が、空間フィルタ記憶部１４に記憶された空間フィルタを用いて、短時間フーリエ変換部１１から入力された周波数スペクトル系列の雑音抑圧を実施する（ステップＳ２）。次に、逆短時間フーリエ変換部１５が、音響処理部１２により出力された周波数スペクトル系列（雑音抑圧後の周波数スペクトル系列）を音響信号に変換する（ステップＳ３）。次に、音声認識部１６が、逆短時間フーリエ変換部１５により出力された音響信号（雑音抑圧後の音響信号）に対して音声認識を実施する（ステップＳ４）。

　次に、表示制御部１７が、音声認識部１６の音声認識により検出されたキーワードの情報をディスプレイ１８に表示させる（ステップＳ５）。次に、空間フィルタ制御部１３が、マイクロフォンアレイ１０から入力された音響信号を用いて、空間フィルタ記憶部１４の空間フィルタの値を更新する（ステップＳ６）。なお、ステップＳ６の処理（空間フィルタの更新方法）の詳細は図４を参照して後述する。

　次に、音響処理部１２が、音響信号の入力が終端に達したか否かを判定する（ステップＳ７）。音響処理部１２は、音響信号の入力が終端に達したら（ステップＳ７，Ｙｅｓ）、処理を終了し、音響信号の入力が終端に達していなければ（ステップＳ７，Ｎｏ）、ステップＳ１の処理に戻り、以降の入力に対して同様の処理を繰り返す。

［空間フィルタの更新方法の例］
　図４は、第１実施形態の空間フィルタの更新方法の例を示すフローチャートである。はじめに、判定部１３１が、マイクロフォンアレイ１０から入力された音響信号の音声らしさを表す音声スコアを計算する（ステップＳ１１）。次に、判定部１３１が、音声スコアと、あらかじめ定められた音声閾値（または外部から設定された音声閾値）とを比較する（ステップＳ１２）。

　音声スコアが音声閾値より大きい場合（ステップＳ１２，Ｙｅｓ）、音声空間相関計算部１３２が、マイクロフォンアレイ１０から入力された音響信号を用いて、上記の（１）式、（２）式又は（３）式に従って目的音声の空間相関行列を更新する（ステップＳ１３）。

　音声スコアが音声閾値以下の場合（ステップＳ１２，Ｎｏ）、雑音空間相関計算部１３３が、マイクロフォンアレイ１０から入力された音響信号を用いて、上記の（４）式、（５）式又は（６）式に従って雑音の空間相関行列を更新する（ステップＳ１４）。

　次に、空間フィルタ計算部１３５が、目的音声の空間相関行列、及び、雑音の空間相関行列を用いて、空間フィルタの値を計算し、空間フィルタ記憶部１４の値を更新する（ステップＳ１５）。目的音声の空間相関行列、及び、雑音の空間相関行列は、各フレームで入力される音響信号により都度更新（逐次更新）されることから、目的音声や雑音の位置、方向及び周波数特性の時間変化に合わせて、空間フィルタが都度計算される。

　以上、説明したように、空間フィルタ制御部１３は、異なる位置で収録され、時間的に同期されたＮ個（Ｎ≧２）の音響信号に含まれる認識対象の目的音声を示す音声区間から計算された音声空間相関行列と、音響信号に含まれる抑圧対象の雑音を示す雑音区間から計算された雑音空間相関行列とから、目的音声成分の強調及び雑音成分の抑圧を行う空間フィルタを計算する。空間フィルタ記憶部１４は、空間フィルタを記憶する。音響処理部１２は、空間フィルタを用いて、音響信号の目的音声成分の強調と、音響信号の雑音成分の抑圧とを行う。

　これより第１実施形態の音響信号処理装置１によれば、音声認識結果に依存せずに、雑音環境でも認識率を向上させることができる。具体的には、第１実施形態の音響信号処理装置１によれば、入力装置としてマイクロフォンアレイ１０だけを用いて、音声認識部１６の出力に依存せずに空間フィルタを計算することができるので、目的音声や雑音の時間変化にも追従することができる。

　従来の技術では、空間フィルタの計算処理は、キーワード検出をトリガとして動作するため、キーワードと無関係な発話が行われるなど、キーワードが検出されない場合に空間フィルタを計算できないという問題があった。また、最初のキーワードが検出されるまでは音響処理が動作しないため、雑音のパワーが大きく、音響処理なしには音声認識が難しい環境下では使用できないという問題があった。さらに、第１のキーワードが検出された時点での空間フィルタは、次に第２のキーワードが検出されるまで保持されるため、第１のキーワードの発話と異なる位置から次の発話が行われる場合に、適切な雑音抑圧の効果を得られないという問題があった。

　一方、第１実施形態の空間フィルタ制御部１３によれば、音響信号から直接目的音声及び雑音の判定を行うことができ、音声認識部１６に依存せずに雑音抑圧の効果を得ることができる。これにより、入力された音響信号に対して、音声認識結果に依存せずに、より高い音声認識率を得る音声認識装置１００を構成することができる。

　なお、判定部１３１、音声空間相関計算部１３２及び雑音空間相関計算部１３３の少なくとも１つは、音響処理部１２から出力された音響信号が入力されてもよい。音響信号に対して音声強調・雑音抑圧を一度実施した結果を用いることで、音声空間相関と雑音空間相関との計算をより精密に行うことができ、音響処理の音声強調・雑音抑圧性能を更に向上させることができる。

　また、空間フィルタ制御部１３は、入力された音響信号に対して独立成分分析等の手法を用いて音源分離を行い、目的音声成分と雑音成分とに分離された分離音響信号を出力する音源分離部を更に備えていてもよい。そして、判定部１３１、音声空間相関計算部１３２、雑音空間相関計算部１３３及び音響処理部１２の少なくとも１つに、分離音響信号が入力されてもよい。音響信号を目的音声成分と雑音成分に分離することで、音声空間相関と雑音空間相関との計算をより精密に行うことができ、音響処理の音声強調・雑音抑圧性能を更に向上させることができる。

　また、判定部１３１は、音響信号に対して、目的音声らしさを表す目的音声スコアと、雑音らしさを表す雑音スコアとを計算してもよい。この場合、判定部１３１は、目的音声スコアが音声閾値より大きい場合に、音響信号が目的音声であると判定し、雑音スコアが雑音閾値より大きい場合に、音響信号が雑音であると判定する。判定部１３１が、目的音声スコアと雑音スコアとを別々に出力するようにすることで、目的音声と雑音との判定にそれぞれ異なるアルゴリズムを用いることができる。また、判定が難しいデータを音声空間相関行列及び雑音空間相関行列のいずれの計算にも用いないようにすることで、誤判定による音響信号処理への悪影響を防ぐことができる。

（第２実施形態）
　次に第２実施形態について説明する。第２実施形態の説明では、第１実施形態と同様の説明については省略し、第１実施形態と異なる箇所について説明する。

　第２実施形態の音響信号処理装置は、目的話者を映したカメラの映像を入力として当該目的話者が各時刻で発話中か否かを判定し、発話中と判定された区間の音響信号を強調し、発話中ではないと判定された区間の音響信号を抑圧するように空間フィルタを計算する。そして、音響信号処理装置は、この空間フィルタを用いて雑音抑圧を行った音響信号に対して、音声認識を行う。これにより、音声認識結果を用いることなく、音声認識の認識率を向上させることができる。また、音声スコアでは難しい、当該目的話者以外の話者の音声の抑圧も可能になる。

［音声認識装置の機能構成の例］
　図５は、第２実施形態の音声認識装置１００－２の機能構成の例を示す図である。第２実施形態の音声認識装置１００－２は、マイクロフォンアレイ１０と、カメラ２０と、音響処理部１２と、空間フィルタ制御部１３－２と、空間フィルタ記憶部１４と、音声認識部１６と、表示制御部１７と、ディスプレイ１８とを備える。このうち、音響処理部１２、空間フィルタ制御部１３－２及び空間フィルタ記憶部１４が、第２実施形態の音響信号処理装置１－２に相当する。

　カメラ２０は、常に目的話者の顔を映すように設置されており、各時刻の当該目的話者の顔画像を出力する。本実施形態では、カメラ２０と当該目的話者との相対位置は一定であるとみなし、カメラ２０を話者方向に固定し、常に当該目的話者の顔画像が得られるようにする。なお、当該目的話者の移動を許す代わりに、カメラ２０に当該目的話者の顔を追跡させることで、常に当該目的話者の顔画像が得られるようにしてもよい。顔追跡には、例えばＫＬＴ（Ｋａｎａｄｅ－Ｌｕｃａｓ－Ｔｏｍａｓｉ）　Ｔｒａｃｋｅｒ［Ｂ．Ｄ．Ｌｕｃａｓ　ａｎｄ　Ｔ．Ｋａｎａｄｅ　１９８１］等の公知技術が用いられる。

　空間フィルタ制御部１３－２は、目的話者の顔画像と、マイクロフォンアレイ１０から入力されるＮ個の音響信号とを用いて空間フィルタ記憶部１４の値を更新する。

　続いて、図６を用いて、本実施形態の特徴部分である空間フィルタ制御部１３－２の機能について説明する。

［空間フィルタ制御部の機能構成の例］
　図６は、第２実施形態の空間フィルタ制御部１３－２の機能構成の例を示す図である。第２実施形態の空間フィルタ制御部１３－２は、マイクロフォンアレイ１０、カメラ２０及び空間フィルタ記憶部１４と接続される。空間フィルタ制御部１３－２は、判定部１３１－２、音声空間相関計算部１３２、雑音空間相関計算部１３３、空間相関記憶部１３４及び空間フィルタ計算部１３５を備える。

　判定部１３１－２は、カメラ２０から入力された各フレームの目的話者の顔画像に対して、当該目的話者が発話中であるか否かを判定する。例えば、判定部１３１－２は、各フレームの顔画像から口唇領域の画像を抽出し、口唇領域が動いていると判定された場合に、当該目的話者が発話中であると判定し、口唇領域が動いていないと判定された場合に、当該目的話者が発話中ではないと判定する。第１実施形態と同様に、判定部１３１－２は、判定結果を０又は１の２値、又は０～１の連続値として出力し、音声空間相関計算部１３２は上記の（１）式、（２）式又は（３）式により、雑音空間相関計算部は上記の（４）式、（５）式又は（６）式により、それぞれ空間相関記憶部１３４を更新する。空間フィルタ制御部１３が音響信号処理に用いるフレーム間隔と画像処理に用いるフレーム間隔とは異なっていてもよい。例えば、空間フィルタ制御部１３は、判定部１３１－２の判定結果を記憶する判定結果記憶部を更に備えてもよい。そして、空間フィルタ制御部１３は、前記判定結果記憶部に記憶された判定結果を用いて、空間相関記憶部１３４を更新する。

　口唇領域の抽出及び動きを検出する方法としては、Ｖｉｏｌａ－Ｊｏｎｅｓ法［Ｐ．Ｖｉｏｌａ　ａｎｄ　Ｍ．Ｊｏｎｅｓ　２００１］が広く知られている。ここで、目的発話の誤検出を防止するために、さらに第１実施形態の音響信号処理装置１で述べた方法で音響信号が目的音声と判定された場合にのみ、当該目的話者が発話中であると判定してもよい。すなわち、判定部１３１－２は、顔画像から口唇領域の画像を抽出し、口唇領域が動いていると判定され、かつ、音響信号が目的音声と判定された場合に、当該目的話者が発話中であると判定してもよい。

　なお、口唇領域の動きの検出に用いるパラメータ及び閾値は、定数として実装されていてもよいし、外部から指定できるインタフェースが設けられていてもよい。

［音響信号処理方法の例］
　図７は、第２実施形態の音響信号処理方法の例を示すフローチャートである。ステップＳ２１～Ｓ２５の処理は、第１実施形態のステップＳ１～Ｓ５（図３参照）の処理と同じなので説明を省略する。

　次に、空間フィルタ制御部１３－２が、マイクロフォンアレイ１０から入力された音響信号、及びカメラ２０から入力された目的話者の顔画像を用いて空間フィルタ記憶部１４の空間フィルタの値を更新する（ステップＳ２６）。なお、ステップＳ２６の処理（空間フィルタの更新方法）の詳細は図８を参照して後述する。

　ステップＳ２７の処理は、第１実施形態のステップＳ７の処理と同じなので説明を省略する。

［空間フィルタの更新方法の例］
　図８は、第２実施形態の空間フィルタの更新方法の例を示すフローチャートである。はじめに、判定部１３１－２が、カメラ２０から入力された目的話者の顔画像に対して、当該目的話者が発話中であるか否かを表す発話スコアを計算する（ステップＳ３１）。次に、判定部１３１が、発話スコアと、あらかじめ定められた画像閾値（または外部から設定された画像閾値）とを比較する（ステップＳ３２）。

　発話スコアが画像閾値より大きい場合（ステップＳ３２，Ｙｅｓ）、音声空間相関計算部１３２が、マイクロフォンアレイ１０から入力された音響信号を用いて目的音声の空間相関行列を更新する（ステップＳ３３）。

　発話スコアが画像閾値以下の場合（ステップＳ３２，Ｎｏ）、雑音空間相関計算部１３３が、マイクロフォンアレイ１０から入力された音響信号を用いて雑音の空間相関行列を更新する（ステップＳ３４）。

　次に、空間フィルタ計算部１３５が、目的音声の空間相関行列、及び雑音の空間相関行列を用いて、空間フィルタの値を計算し、空間フィルタ記憶部１４の値を更新する（ステップＳ３５）。

　上述したように、第２実施形態の音響信号処理装置１－２では、判定部１３１－２が、目的話者の顔画像を用いて音声スコアを計算する。これにより、入力装置としてマイクロフォンアレイ１０及びカメラ２０を用いることで、背景雑音だけでなく、目的話者以外の発話についても雑音とみなして抑圧することができる。具体的には、カメラ２０から入力される目的話者の口唇領域の動き等の画像的特徴を用いて目的音声か雑音かの判定を行うことで、目的話者以外の話者が存在する場合に当該話者の音声の抑圧が可能となる。

　最後に、第１及び第２実施形態の音声認識装置１００（１００－２）のハードウェア構成の例について説明する。第１及び第２実施形態の音声認識装置１００（１００－２）は、例えば、任意のコンピュータ装置を基本ハードウェアとして用いることで実現できる。

［ハードウェア構成の例］
　図９は、第１及び第２実施形態の音声認識装置１００（１００－２）のハードウェア構成の例を示す図である。第１及び第２実施形態の音声認識装置１００（１００－２）は、プロセッサ２０１、主記憶装置２０２、補助記憶装置２０３、表示装置２０４、入力装置２０５及び通信装置２０６を備える。プロセッサ２０１、主記憶装置２０２、補助記憶装置２０３、表示装置２０４、入力装置２０５及び通信装置２０６は、バス２１０を介して接続されている。

　なお、音声認識装置１００（１００－２）は、上記構成の一部が備えられていなくてもよい。例えば、音声認識装置１００（１００－２）が、外部の装置の入力機能及び表示機能を利用可能な場合、音声認識装置１００（１００－２）に表示装置２０４及び入力装置２０５が備えられていなくてもよい。

　プロセッサ２０１は、補助記憶装置２０３から主記憶装置２０２に読み出されたプログラムを実行する。主記憶装置２０２は、ＲＯＭ及びＲＡＭ等のメモリである。補助記憶装置２０３は、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）及びメモリカード等である。

　表示装置２０４は、例えば液晶ディスプレイ等である。入力装置２０５は、音声認識装置１００（１００－２）を操作するためのインタフェースである。なお、表示装置２０４及び入力装置２０５は、表示機能と入力機能とを有するタッチパネル等により実現されていてもよい。通信装置２０６は、他の装置と通信するためのインタフェースである。

　例えば、音声認識装置１００（１００－２）で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルで、メモリカード、ハードディスク、ＣＤ－ＲＷ、ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＤＶＤ－ＲＡＭ及びＤＶＤ－Ｒ等のコンピュータで読み取り可能な記憶媒体に記録されてコンピュータ・プログラム・プロダクトとして提供される。

　また例えば、音声認識装置１００（１００－２）で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。

　また例えば、音声認識装置１００（１００－２）で実行されるプログラムをダウンロードさせずにインターネット等のネットワーク経由で提供するように構成してもよい。具体的には、サーバコンピュータから、プログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｅｒｖｉｃｅ　Ｐｒｏｖｉｄｅｒ）型のサービスによって、音声認識処理を実行する構成としてもよい。

　また例えば、音声認識装置１００（１００－２）のプログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

　音声認識装置１００（１００－２）で実行されるプログラムは、上述の機能構成のうち、プログラムによっても実現可能な機能を含むモジュール構成となっている。当該各機能は、実際のハードウェアとしては、プロセッサ２０１が記憶媒体からプログラムを読み出して実行することにより、上記各機能ブロックが主記憶装置２０２上にロードされる。すなわち上記各機能ブロックは主記憶装置２０２上に生成される。

　なお上述した各機能の一部又は全部をソフトウェアにより実現せずに、ＩＣ（Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）等のハードウェアにより実現してもよい。

　また複数のプロセッサ２０１を用いて各機能を実現してもよく、その場合、各プロセッサ２０１は、各機能のうち１つを実現してもよいし、各機能のうち２以上を実現してもよい。

　本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

Claims

　異なる位置で収録され、時間的に同期されたＮ個（Ｎ≧２）の音響信号に対して、目的音声成分の強調及び雑音成分の抑圧を行う空間フィルタを出力する空間フィルタ制御部と、
　前記空間フィルタを記憶する空間フィルタ記憶部と、
　前記空間フィルタ記憶部から読み出した前記空間フィルタを用いて、前記音響信号の目的音声成分の強調と、前記音響信号の雑音成分の抑圧とを行う音響処理部と、
　を備え、前記空間フィルタ制御部は、
　前記音響信号が目的音声であるか、雑音であるかを判定する判定部と、
　前記音響信号のうち、前記目的音声と判定された音声区間を用いて、音声空間相関行列を計算する音声空間相関計算部と、
　前記音響信号のうち、前記雑音と判定された雑音区間を用いて、雑音空間相関行列を計算する雑音空間相関計算部と、
　前記音声空間相関行列及び前記雑音空間相関行列を記憶する空間相関記憶部と、
　前記空間相関記憶部から読み出した前記音声空間相関行列及び前記雑音空間相関行列から、目的音声成分の強調及び雑音成分の抑圧を行う空間フィルタを計算する空間フィルタ計算部と、
　を備える音響信号処理装置。
　前記音声空間相関計算部は、前記判定部により前記音響信号が前記目的音声であると判定された場合に、前記空間相関記憶部から前記音声空間相関行列を読み出し、前記音声空間相関行列を更新し、更新された前記音声空間相関行列を前記空間相関記憶部に書き込みする音声空間相関行列更新処理、及び、
　前記雑音空間相関計算部は、前記判定部により前記音響信号が前記雑音であると判定された場合に、前記空間相関記憶部から前記雑音空間相関行列を読み出し、前記雑音空間相関行列を更新し、更新された前記雑音空間相関行列を前記空間相関記憶部に書き込みする雑音空間相関行列更新処理、
　の少なくとも一方を行う請求項１に記載の音響信号処理装置。
　前記判定部は、
　現在時刻から所定の期間前までに含まれる音響信号を保持する音響信号記憶部を備え、
　前記判定部は、前記現在時刻から所定の期間前までの各時刻に含まれる音響信号が、前記目的音声であるか否かを判定する判定を行い、
　前記音声空間相関計算部及び前記雑音空間相関計算部は、前記現在時刻から所定の期間前までに含まれる音響信号を用いて前記音声空間相関行列及び前記雑音空間相関行列を更新し、更新された前記音声空間相関行列及び前記雑音空間相関行列を前記空間相関記憶部に記憶する、
　請求項１又は２に記載の音響信号処理装置。
　前記判定部は、
　現在時刻から所定の期間前までに含まれる音響信号を保持する音響信号記憶部を備え、
　前記判定部は、前記所定の期間前の音響信号が前記雑音であるか否かを判定する判定を行い、
　前記音声空間相関計算部は、前記現在時刻の音響信号を用いて前記音声空間相関行列を更新し、更新された前記音声空間相関行列を前記空間相関記憶部に記憶し、
　前記雑音空間相関計算部は、前記所定の期間前の音響信号が雑音と判定された場合に、前記所定の期間前の音響信号を用いて前記雑音空間相関行列を更新し、更新された前記雑音空間相関行列を前記空間相関記憶部に記憶する、
　請求項１又は２に記載の音響信号処理装置。
　前記判定部は、前記音響信号に対して、音声らしさを表す音声スコアの値を計算し、前記音声スコアが音声閾値より大きい場合に、前記音響信号が前記目的音声であると判定し、前記音声スコアが前記音声閾値以下の場合に、前記音響信号が前記雑音であると判定する、
　請求項１又は２に記載の音響信号処理装置。
　前記判定部は、前記音響信号に対して、音声らしさを表す音声スコアの値と、雑音らしさを表す雑音スコアとを計算し、前記音声スコアが音声閾値より大きい場合に、前記音響信号が前記目的音声であると判定し、前記雑音スコアが雑音閾値より大きい場合に、前記音響信号が前記雑音であると判定する、
　請求項１又は２に記載の音響信号処理装置。
　前記判定部は、前記音響信号に含まれる音源数を推定する音源数推定器を備え、
　前記音声スコアは、前記音源数の関数で表される、
　請求項５に記載の音響信号処理装置。
　前記音声スコアは、前記音響信号のパワーに基づく統計量の関数で表される、
　請求項５に記載の音響信号処理装置。
　前記判定部は、目的話者の顔画像を用いて、前記目的話者が発話中であるか否かを表す発話スコアを計算し、前記発話スコアが画像閾値より大きい場合に、前記音響信号が前記目的音声であると判定し、前記発話スコアが前記画像閾値以下の場合に、前記音響信号が前記雑音であると判定する、
　請求項１又は２に記載の音響信号処理装置。
　前記空間フィルタ制御部は、
　マイクから見た目的話者の相対方向を保持する話者方向設定部と、
　前記音響信号に対して音源定位を行い、検出された音源方向を出力する音源定位部と、を備え、
　前記判定部は、
　前記音源方向の少なくとも１つについて、前記話者方向設定部により設定された前記相対方向との角度差が、角度閾値以下の場合に前記目的音声と判定し、前記角度閾値より大きい場合に前記雑音であると判定する、
　請求項１又は２に記載の音響信号処理装置。
　前記空間フィルタ制御部は、
　入力された前記音響信号に対して音源分離を行い、前記目的音声成分と前記雑音成分とに分離された分離音響信号を出力する音源分離部、を備え、
　前記判定部、前記音声空間相関計算部、前記雑音空間相関計算部及び前記音響処理部の少なくとも１つは、前記分離音響信号が入力される、
　請求項１又は２に記載の音響信号処理装置。
　前記判定部、前記音声空間相関計算部及び前記雑音空間相関計算部の少なくとも１つは、前記音響処理部から出力された音響信号が入力される、
　請求項１又は２に記載の音響信号処理装置。
　前記判定部は、前記音響信号が前記目的音声である度合いを示す連続値を出力し、
　前記音声空間相関計算部は、前記連続値が大きいほど、前記音声空間相関行列の値を更新する割合の重み付けを大きくして、前記音声空間相関行列を計算する、
　前記雑音空間相関計算部は、前記連続値が小さいほど、前記雑音空間相関行列の値を更新する割合の重み付けを大きくして、前記雑音空間相関行列を計算する、
　請求項１又は２に記載の音響信号処理装置。
　前記判定部は、前記音響信号に対して、目的音声らしさを表す目的音声スコアと、雑音らしさを表す雑音スコアとを計算し、
　前記目的音声スコアが音声閾値より大きい場合に、前記音響信号が前記目的音声であると判定し、
　前記雑音スコアが雑音閾値より大きい場合に、前記音響信号が前記雑音であると判定する、
　請求項１又は２に記載の音響信号処理装置。
　音響信号処理装置が、異なる位置で収録され、時間的に同期されたＮ個（Ｎ≧２）の音響信号に対して、目的音声成分の強調及び雑音成分の抑圧を行う空間フィルタを出力するステップと、
　前記音響信号処理装置が、前記空間フィルタを空間フィルタ記憶部に記憶するステップと、
　前記音響信号処理装置が、前記空間フィルタ記憶部から読み出した前記空間フィルタを用いて、前記音響信号の目的音声成分の強調と、前記音響信号の雑音成分の抑圧とを行うステップと、を含み、
　前記空間フィルタを出力するステップは、
　前記音響信号が目的音声であるか、雑音であるかを判定するステップと、
　前記音響信号のうち、前記目的音声と判定された音声区間を用いて、音声空間相関行列を計算するステップと、
　前記音響信号のうち、前記雑音と判定された雑音区間を用いて、雑音空間相関行列を計算するステップと、
　前記音声空間相関行列及び前記雑音空間相関行列を空間相関記憶部に記憶するステップと、
　前記空間相関記憶部から読み出した前記音声空間相関行列及び前記雑音空間相関行列から、目的音声成分の強調及び雑音成分の抑圧を行う空間フィルタを計算するステップと、
　を含む音響信号処理方法。
　コンピュータを、
　異なる位置で収録され、時間的に同期されたＮ個（Ｎ≧２）の音響信号に対して、目的音声成分の強調及び雑音成分の抑圧を行う空間フィルタを出力する空間フィルタ制御部と、
　前記空間フィルタを記憶する空間フィルタ記憶部と、
　前記空間フィルタ記憶部から読み出した前記空間フィルタを用いて、前記音響信号の目的音声成分の強調と、前記音響信号の雑音成分の抑圧とを行う音響処理部、として機能させ、
　前記空間フィルタ制御部は、
　前記音響信号が目的音声であるか、雑音であるかを判定する判定部と、
　前記音響信号のうち、前記目的音声と判定された音声区間を用いて、音声空間相関行列を計算する音声空間相関計算部と、
　前記音響信号のうち、前記雑音と判定された雑音区間を用いて、雑音空間相関行列を計算する雑音空間相関計算部と、
　前記音声空間相関行列及び前記雑音空間相関行列を記憶する空間相関記憶部と、
　前記空間相関記憶部から読み出した前記音声空間相関行列及び前記雑音空間相関行列から、目的音声成分の強調及び雑音成分の抑圧を行う空間フィルタを計算する空間フィルタ計算部、
　を有するプログラム。