WO2023228785A1 - 音響信号処理装置、音響信号処理方法及びプログラム - Google Patents
音響信号処理装置、音響信号処理方法及びプログラム Download PDFInfo
- Publication number
- WO2023228785A1 WO2023228785A1 PCT/JP2023/017957 JP2023017957W WO2023228785A1 WO 2023228785 A1 WO2023228785 A1 WO 2023228785A1 JP 2023017957 W JP2023017957 W JP 2023017957W WO 2023228785 A1 WO2023228785 A1 WO 2023228785A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- noise
- acoustic signal
- audio
- spatial
- correlation matrix
- Prior art date
Links
- 238000012545 processing Methods 0.000 title claims abstract description 70
- 238000003672 processing method Methods 0.000 title claims description 10
- 238000004364 calculation method Methods 0.000 claims abstract description 69
- 230000001360 synchronised effect Effects 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 101
- 238000000034 method Methods 0.000 claims description 41
- 230000005236 sound signal Effects 0.000 claims description 36
- 230000004807 localization Effects 0.000 claims description 5
- 238000000926 separation method Methods 0.000 claims description 3
- 230000001629 suppression Effects 0.000 abstract description 16
- 230000006870 function Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 10
- 238000001228 spectrum Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 230000003139 buffering effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012880 independent component analysis Methods 0.000 description 2
- 238000012905 input function Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 241000405217 Viola <butterfly> Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Abstract
音声認識結果に依存せずに、雑音環境でも音声認識の認識率を向上させる。実施形態の音響信号処理装置は、空間フィルタ制御部と空間フィルタ記憶部と音響処理部とを備える。空間フィルタ制御部は、異なる位置で収録され、時間的に同期されたN個(N≧2)の音響信号に対して、目的音声成分の強調及び雑音成分の抑圧を行う空間フィルタを出力する。空間フィルタ記憶部は、前記空間フィルタを記憶する。音響処理部は、前記空間フィルタ記憶部から読み出した前記空間フィルタを用いて、前記音響信号の目的音声成分の強調と、前記音響信号の雑音成分の抑圧とを行う。前記空間フィルタ制御部は、判定部と音声空間相関計算部と雑音空間相関計算部と空間相関記憶部と空間フィルタ計算部とを備える。
Description
本発明の実施形態は音響信号処理装置、音響信号処理方法及びプログラムに関する。
異なる位置に設置された2個以上のマイクロフォンで収録された音響信号に対して、音声認識の対象とすべき目的音声を強調し、音声認識の対象とすべきでない雑音を抑圧する音響処理を実施することで、音声認識の認識率を向上させる技術が従来から知られている。例えば、音声認識によりキーワードが検出された際に、当該キーワードが話された時間区間内の信号を目的音声と仮定し、当該キーワードが話された時間区間外の信号を雑音と仮定して、目的音声を強調し、雑音を抑圧する音響処理を行うための空間フィルタを計算する技術がある。
しかしながら従来の技術では、音声認識結果に依存せずに、雑音環境でも認識率を向上させることが難しかった。
実施形態の音響信号処理装置は、空間フィルタ制御部と空間フィルタ記憶部と音響処理部とを備える。空間フィルタ制御部は、異なる位置で収録され、時間的に同期されたN個(N≧2)の音響信号に対して、目的音声成分の強調及び雑音成分の抑圧を行う空間フィルタを出力する。空間フィルタ記憶部は、前記空間フィルタを記憶する。音響処理部は、前記空間フィルタ記憶部から読み出した前記空間フィルタを用いて、前記音響信号の目的音声成分の強調と、前記音響信号の雑音成分の抑圧とを行う。前記空間フィルタ制御部は、判定部と音声空間相関計算部と雑音空間相関計算部と空間相関記憶部と空間フィルタ計算部とを備える。判定部は、前記音響信号が目的音声であるか、雑音であるかを判定する。音声空間相関計算部は、前記音響信号のうち、前記目的音声と判定された音声区間を用いて、音声空間相関行列を計算する。雑音空間相関計算部は、前記音響信号のうち、前記雑音と判定された雑音区間を用いて、雑音空間相関行列を計算する。空間相関記憶部は、前記音声空間相関行列及び前記雑音空間相関行列を記憶する。空間フィルタ計算部は、前記空間相関記憶部から読み出した前記音声空間相関行列及び前記雑音空間相関行列から、目的音声成分の強調及び雑音成分の抑圧を行う空間フィルタを計算する。
以下に添付図面を参照して、音響信号処理装置、音響信号処理方法及びプログラムの実施形態を詳細に説明する。
(第1実施形態)
第1実施形態の音響信号処理装置は、各時刻に入力された音響信号が目的音声であるか雑音であるかを判定し、目的音声と判定された区間の音響信号を強調し、雑音と判定された区間の音響信号を抑圧するように空間フィルタを計算する。そして、音響信号処理装置は、この空間フィルタを用いて雑音抑圧を行った音響信号を出力する。第1実施形態の音響信号処理装置は、例えば図1に示す音声認識装置に用いられる。
第1実施形態の音響信号処理装置は、各時刻に入力された音響信号が目的音声であるか雑音であるかを判定し、目的音声と判定された区間の音響信号を強調し、雑音と判定された区間の音響信号を抑圧するように空間フィルタを計算する。そして、音響信号処理装置は、この空間フィルタを用いて雑音抑圧を行った音響信号を出力する。第1実施形態の音響信号処理装置は、例えば図1に示す音声認識装置に用いられる。
[音声認識装置の機能構成の例]
図1は、第1実施形態の音声認識装置100の機能構成の例を示す図である。第1実施形態の音声認識装置100は、マイクロフォンアレイ10と、短時間フーリエ変換部11と、音響処理部12と、空間フィルタ制御部13と、空間フィルタ記憶部14と、逆短時間フーリエ変換部15と、音声認識部16と、表示制御部17と、ディスプレイ18とを備える。
図1は、第1実施形態の音声認識装置100の機能構成の例を示す図である。第1実施形態の音声認識装置100は、マイクロフォンアレイ10と、短時間フーリエ変換部11と、音響処理部12と、空間フィルタ制御部13と、空間フィルタ記憶部14と、逆短時間フーリエ変換部15と、音声認識部16と、表示制御部17と、ディスプレイ18とを備える。
このうち、音響処理部12、空間フィルタ制御部13及び空間フィルタ記憶部14が、第1実施形態の音響信号処理装置1に相当する。第1実施形態の音声認識装置100は、この出力音響信号を用いて後段で音声認識を行うことにより、音声認識結果を用いることなく、音声認識の認識率を向上させることができる。
マイクロフォンアレイ10は、異なる位置に設置されたN個(N≧2)のマイクロフォンを用いて、時間同期されたN個の音響信号xm(t)(m=1,2,・・・,N)を取得する。ここで、mはマイクロフォンの番号を表す。
短時間フーリエ変換部11は、N個の音響信号xm(t)に対して窓関数を適用して複数のフレームを生成し、フレームごとに短時間フーリエ変換を行って時間周波数領域に変換し、周波数スペクトル系列Xm(f,k)を出力する。ここで、fは周波数ビンの番号を表し、kはフレームの番号を表す。
音響処理部12は、N個の周波数スペクトル系列に含まれる目的音声成分の強調及び雑音成分の抑圧を行い、1個の周波数スペクトル系列Y(f,k)を出力する。なお、音響処理部12は、音響信号そのものを入出力としてもよい。雑音の抑圧方法としては、例えば、GEV(一般化固有値)ビームフォーマ、MVDR(最小分散無歪)ビームフォーマ及びそれらの派生手法が考えられる。
空間フィルタ制御部13は、N個の音響信号を用いて空間フィルタ記憶部14の値を更新する。例えば、空間フィルタ制御部13は、GEVビームフォーマを用いる場合、目的音声及び雑音のそれぞれに対応する空間相関行列の平均値を、音声区間及び雑音区間のそれぞれに対応するフレームの周波数スペクトルから計算し、それらの平均値から空間フィルタを計算する。
空間フィルタ記憶部14は、目的音声を強調し、雑音を抑圧する空間フィルタの値を記憶する。
逆短時間フーリエ変換部15は、音響処理部12から出力された周波数スペクトル系列に対して逆短時間フーリエ変換を行い、目的音声の強調及び雑音の抑圧が行われた1個の音響信号y(t)を出力する。
音声認識部16は、音響信号y(t)に対して音声認識を行い、音声認識結果を得る。特に第1実施形態では、キーワード発声の検出結果を得る。
表示制御部17は、ディスプレイ18に音声認識結果を表示するための制御を行う。ディスプレイ18(表示部の一例)は、音声認識結果を表示する。
続いて、図2を用いて、本実施形態の特徴部分である空間フィルタ制御部13の機能について説明する。
[空間フィルタ制御部の機能構成の例]
図2は、第1実施形態の空間フィルタ制御部13の機能構成の例を示す図である。第1実施形態の空間フィルタ制御部13は、マイクロフォンアレイ10及び空間フィルタ記憶部14と接続される。空間フィルタ制御部13は、判定部131、音声空間相関計算部132、雑音空間相関計算部133、空間相関記憶部134及び空間フィルタ計算部135を備える。
図2は、第1実施形態の空間フィルタ制御部13の機能構成の例を示す図である。第1実施形態の空間フィルタ制御部13は、マイクロフォンアレイ10及び空間フィルタ記憶部14と接続される。空間フィルタ制御部13は、判定部131、音声空間相関計算部132、雑音空間相関計算部133、空間相関記憶部134及び空間フィルタ計算部135を備える。
判定部131は、マイクロフォンアレイ10から入力された各フレームの音響信号が、認識すべき目的音声であるか、抑圧すべき雑音であるかを判定する。例えば、判定部131は、音響信号に対して、音声らしさを表す音声スコアの値を計算し、音声スコアが音声閾値より大きい場合に、音響信号が目的音声であると判定し、音声スコアが音声閾値以下の場合に、音響信号が雑音であると判定する。
具体的には、判定部131は、事前に学習されたDNN(ディープニューラルネットワーク)を用いて、音響信号が、認識すべき目的音声であるか、抑圧すべき雑音であるかを判定する。例えば、判定部131は、単一フレームの音響信号を入力に取って目的音声か雑音かの判定を行うDNNを用いて、各フレームの音響信号を入力して得られる音声スコアが音声閾値より大きい場合に、認識すべき目的音声であると判定する。事前に学習されたDNN等のモデルによって出力された音声スコアに基づいて判定を行うことで、複雑な情報を用いた判定を行うことができる。なお、判定に使用される閾値は、定数として実装されていてもよいし、外部から閾値を設定するためのインタフェースが設けられていてもよい。また、判定部131は、短時間フーリエ変換部11から出力された各フレームの周波数スペクトルにより判定を行ってもよい。
また、判定結果として連続値を許容し、音声空間相関計算部132及び雑音空間相関計算部133では判定結果の値に応じて重みを付けて更新を行ってもよい。さらに、目的音声の判定と雑音との判定を、別々の判定器によって独立に行ってもよい。判定時の入力信号としては、N個の音響信号のうち1個の音響信号や、雑音抑圧後の1個の音響信号を用いることができる。N個の音響信号に対して、別途独立成分分析等の手法によって雑音成分を除去した信号を判定に用いてもよい。
また、他の判定方法についてもいくつか挙げられる。例えば、判定部131は、各マイクロフォンによる音響信号に対して判定を行い、各判定結果の平均値、最大値及び最小値等の統計量を全体の判定結果としてもよい。判定部131は、N個の音響信号から計算された空間相関行列に含まれる支配的な固有値(値が大きい固有値)の数によって音源数を推定する手法[M. Wax and T. Kailath 1985]、あるいはその派生手法によって、支配的な固有値がある場合に目的音声が存在すると判定してもよい。すなわち、判定部131は、音響信号に含まれる音源数を推定する音源数推定器を備え、音声スコアが、音源数の関数で表されていてもよい。音源数を用いて目的音声の有無を判定することで、雑音が拡散性で、かつ目的音声のパワーが雑音と比較して十分に大きい場合に、判定部131の判定精度を向上させることができる。
また例えば、判定部131は、N個の音響信号のパワーを計算し、当該音響信号のパワーに基づく統計量の関数で表された音声スコアが、音声閾値より大きい値であれば目的音声が存在すると判定してもよい。前記統計量としては、周波数ビンごとのパワーの時間方向の平均及び分散等が考えられる。目的音声と雑音とで統計量が大きく異なる場合に、判定部131をより少ない計算量で実装することができる。
また例えば、判定部131は、マイクロフォンアレイ10から見た相対的な目的話者の方向が不変であると仮定できる場合には、N個の音響信号に対してMUSIC(Multiple Signal Classification)法[R. O. Schmidt 1986]等の音源定位手法を適用し、当該目的話者の方向から音源が到来している場合にのみ当該目的話者が発話していると判定してもよい。この場合、空間フィルタ制御部13は、マイクから見た目的話者の相対方向を保持する話者方向設定部と、当該音響信号に対して音源定位を行い、検出された音源方向を出力する音源定位部と、を更に備えてもよい。そして、判定部131は、音源方向の少なくとも1つについて、話者方向設定部により設定された相対方向との角度差が、角度閾値以下の場合に目的音声と判定し、角度閾値より大きい場合に雑音であると判定する。音源方向情報を用いて目的音声の有無を判定することで、既知の目的話者の方向から発話があるかどうかを判定できるので、音響信号のみを用いて、目的話者以外の話者が存在する場合に当該話者の音声の抑圧が可能となる。
音声空間相関計算部132は、判定部131が目的音声であると判定した場合に、各フレームの音響信号を用いて、空間相関記憶部134に保持されている音声空間相関行列を更新する。具体的には、音声空間相関計算部132は、音響信号が目的音声であると判定された場合に、空間相関記憶部134から音声空間相関行列を読み出し、音声空間相関行列を計算し、計算された音声空間相関行列を空間相関記憶部134に書き込みする(音声空間相関行列更新処理)。
更新方法の一例として、過去一定時間の音響信号及び判定部131の判定結果を記憶しておき、音声と判定された区間の音響信号のみを用いて、音声空間相関行列を計算する方法が考えられる。例えば、判定部131は、現在時刻から所定の期間前までに含まれる音響信号を保持する音響信号記憶部を備えてもよい。そして、判定部131は、現在時刻から所定の期間前までに含まれる各フレームの音響信号が、目的音声であるか否かを判定する判定を行う。音声空間相関計算部132は、現在時刻から所定の期間前までに含まれる音響信号を用いて音声空間相関行列を計算し、計算された音声空間相関行列を空間相関記憶部134に記憶する。有効な音声認識結果が得られるのは音響信号に目的発話が含まれているときだけであるので、この更新方法の例では、直近の音響信号(現在時刻から所定の期間前までに含まれる音響信号)に目的発話が含まれることを仮定する。例えば、前記所定の期間をTフレームとすると、k番目のフレームの音響信号が判定部131により目的音声であると判定された時、下記の(1)式に従って前記音声空間相関行列φs(f,k)を計算する。
ここで、X(f,k)は縦ベクトル[X1(f,k),・・・,XN(f,k)]Tを表し、Hは共役転置を表し、s(k)はk番目のフレームに対する判定部131の判定結果が目的音声である場合に1を返し、雑音である場合に0を返す関数を表す。s(k)=1を仮定しているため、(1)式の分母は0でないと仮定できる。
また別の例として、音響信号のバッファリングや計算量を削減するために、指数平滑移動平均を用いて音声空間相関行列を逐次更新する方法が考えられる。例えば、s(k)=1を満たすとき、下記の(2)式に従って前記音声空間相関行列φs(f,k)を計算し、s(k)=0のとき、φs(f,k)=φs(f,k-1)とする。ここで、αsは0<αs<1を満たす定数である。
音声空間相関計算部132は、判定部131の判定結果s(k)を0又は1の2値ではなく、音響信号が目的音声である度合いを表す連続値とすることで、前記連続値が大きいほど、音声空間相関行列の値を更新する割合の重み付けを大きくして、音声空間相関行列を更新してもよい。例えば、判定結果を示す連続値の範囲が0~1であり、1に近いほど目的音声である度合いが大きいとする。例えば、前記判定結果s(k)を用いて、下記の(3)式に従って音声空間相関行列φs(f,k)を計算する。
判定部131の出力を2値ではなく連続値とすることにより、判定の信頼度に応じて音声空間相関行列の計算に、このような重み付けを行うことができる。これにより、音声空間相関の計算をより精密に行うことができ、音響処理の音声強調性能を更に向上させることができる。
雑音空間相関計算部133は、判定部131が雑音であると判定した場合に、各フレームの音響信号を用いて、空間相関記憶部134に保持されている雑音空間相関行列を更新する。具体的には、雑音空間相関計算部133は、音響信号が雑音であると判定された場合に、空間相関記憶部134から雑音空間相関行列を読み出し、雑音空間相関行列を計算し、計算された雑音空間相関行列を空間相関記憶部134に書き込みする(雑音空間相関行列更新処理)。なお、第1実施形態の音響信号処理装置1は、雑音空間相関行列更新処理、及び、上述の音声空間相関行列更新処理の両方を行ってもよいし、いずれか一方を行ってもよい。
雑音空間相関行列の更新方法は音声空間相関計算部132の場合と同様である。例えば、現在時刻から所定の期間前までに含まれる音響信号を用いて、下記の(4)式に従って雑音空間相関行列を計算し、計算された雑音空間相関行列を空間相関記憶部134に記憶する。
音響信号のバッファリングや計算量を削減するために、指数平滑移動平均を用いて雑音空間相関行列を逐次更新してもよい。このとき、判定部131の判定結果を連続値として、雑音空間相関計算部133は、前記連続値が小さいほど、雑音空間相関行列の値を更新する割合の重み付けを大きくして、雑音空間相関行列を計算してもよい。例えば、指数平滑移動平均により、下記の(5)式に従って雑音空間相関行列φn(f,k)を計算する。
ここで、αnは0<αn<1を満たす定数である。前記判定結果s(k)は0又は1の2値を取ってもよいし、0~1の連続値を取ってもよい。音声空間相関計算部132の場合と同様に、判定部131の出力を2値ではなく連続値とすることにより、判定の信頼度に応じて雑音空間相関行列の計算に重み付けを行うことができる。これにより、雑音空間相関の計算をより精密に行うことができ、音響処理の雑音抑圧性能を更に向上させることができる。
なお、直近の目的音声をより確実に強調するために、音声空間相関計算部132は、判定部131の判定結果に関わらず、(1)式又は(2)式に従って音声空間相関行列を更新し、雑音空間相関計算部133は、ある一定時間過去の音響信号に対する前記判定結果が雑音である場合に、当該過去の音響信号を用いて雑音空間相関行列を更新してもよい。例えば、判定部131は、現在時刻から所定の期間前までに含まれる音響信号を保持する音響信号記憶部を備えてもよい。そして、判定部131は、所定の期間前の音響信号が雑音であるか否かを判定する判定を行う。雑音空間相関計算部133は、所定の期間前の音響信号が雑音と判定された場合に、所定の期間前の音響信号を用いて雑音空間相関行列を計算し、計算された雑音空間相関行列を空間相関記憶部134に記憶する。例えば、前記所定の期間をDフレーム(D>0)とすると、音声空間相関行列を判定部131の判定結果に関わらず上記の(2)式に従って計算し、判定部131がDフレーム前の音響信号を雑音である(すなわちs(k-D)=0)と判定した場合に、雑音空間相関行列を下記の(6)式に従って計算する。
有効な音声認識結果が得られるのは音響信号に目的発話が含まれているときだけであるので、目的発話を音声空間相関の計算に確実に含められる一方で、雑音空間相関については、時間遅れの音響信号(所定の期間前の音響信号)を用いて計算することにより、目的発話が含まれる場合の雑音抑圧効果を高めることができる。
空間相関記憶部134は、音声空間相関計算部132及び雑音空間相関計算部133により計算された各空間相関行列の値を記憶する。
空間フィルタ計算部135は、空間相関記憶部134に記憶された各空間相関行列を用いて、目的音声を強調し、雑音を抑圧する空間フィルタを計算し、計算された空間フィルタの値で空間フィルタ記憶部14を更新する。この空間フィルタの計算は、GEVビームフォーマ及びMVDRビームフォーマ等の各手法に基づいて実施される。
[音響信号処理方法の例]
図3は、第1実施形態の音響信号処理方法の例を示すフローチャートである。はじめに、短時間フーリエ変換部11が、マイクロフォンアレイ10から入力された音響信号を周波数スペクトル系列に変換する(ステップS1)。次に、音響処理部12が、空間フィルタ記憶部14に記憶された空間フィルタを用いて、短時間フーリエ変換部11から入力された周波数スペクトル系列の雑音抑圧を実施する(ステップS2)。次に、逆短時間フーリエ変換部15が、音響処理部12により出力された周波数スペクトル系列(雑音抑圧後の周波数スペクトル系列)を音響信号に変換する(ステップS3)。次に、音声認識部16が、逆短時間フーリエ変換部15により出力された音響信号(雑音抑圧後の音響信号)に対して音声認識を実施する(ステップS4)。
図3は、第1実施形態の音響信号処理方法の例を示すフローチャートである。はじめに、短時間フーリエ変換部11が、マイクロフォンアレイ10から入力された音響信号を周波数スペクトル系列に変換する(ステップS1)。次に、音響処理部12が、空間フィルタ記憶部14に記憶された空間フィルタを用いて、短時間フーリエ変換部11から入力された周波数スペクトル系列の雑音抑圧を実施する(ステップS2)。次に、逆短時間フーリエ変換部15が、音響処理部12により出力された周波数スペクトル系列(雑音抑圧後の周波数スペクトル系列)を音響信号に変換する(ステップS3)。次に、音声認識部16が、逆短時間フーリエ変換部15により出力された音響信号(雑音抑圧後の音響信号)に対して音声認識を実施する(ステップS4)。
次に、表示制御部17が、音声認識部16の音声認識により検出されたキーワードの情報をディスプレイ18に表示させる(ステップS5)。次に、空間フィルタ制御部13が、マイクロフォンアレイ10から入力された音響信号を用いて、空間フィルタ記憶部14の空間フィルタの値を更新する(ステップS6)。なお、ステップS6の処理(空間フィルタの更新方法)の詳細は図4を参照して後述する。
次に、音響処理部12が、音響信号の入力が終端に達したか否かを判定する(ステップS7)。音響処理部12は、音響信号の入力が終端に達したら(ステップS7,Yes)、処理を終了し、音響信号の入力が終端に達していなければ(ステップS7,No)、ステップS1の処理に戻り、以降の入力に対して同様の処理を繰り返す。
[空間フィルタの更新方法の例]
図4は、第1実施形態の空間フィルタの更新方法の例を示すフローチャートである。はじめに、判定部131が、マイクロフォンアレイ10から入力された音響信号の音声らしさを表す音声スコアを計算する(ステップS11)。次に、判定部131が、音声スコアと、あらかじめ定められた音声閾値(または外部から設定された音声閾値)とを比較する(ステップS12)。
図4は、第1実施形態の空間フィルタの更新方法の例を示すフローチャートである。はじめに、判定部131が、マイクロフォンアレイ10から入力された音響信号の音声らしさを表す音声スコアを計算する(ステップS11)。次に、判定部131が、音声スコアと、あらかじめ定められた音声閾値(または外部から設定された音声閾値)とを比較する(ステップS12)。
音声スコアが音声閾値より大きい場合(ステップS12,Yes)、音声空間相関計算部132が、マイクロフォンアレイ10から入力された音響信号を用いて、上記の(1)式、(2)式又は(3)式に従って目的音声の空間相関行列を更新する(ステップS13)。
音声スコアが音声閾値以下の場合(ステップS12,No)、雑音空間相関計算部133が、マイクロフォンアレイ10から入力された音響信号を用いて、上記の(4)式、(5)式又は(6)式に従って雑音の空間相関行列を更新する(ステップS14)。
次に、空間フィルタ計算部135が、目的音声の空間相関行列、及び、雑音の空間相関行列を用いて、空間フィルタの値を計算し、空間フィルタ記憶部14の値を更新する(ステップS15)。目的音声の空間相関行列、及び、雑音の空間相関行列は、各フレームで入力される音響信号により都度更新(逐次更新)されることから、目的音声や雑音の位置、方向及び周波数特性の時間変化に合わせて、空間フィルタが都度計算される。
以上、説明したように、空間フィルタ制御部13は、異なる位置で収録され、時間的に同期されたN個(N≧2)の音響信号に含まれる認識対象の目的音声を示す音声区間から計算された音声空間相関行列と、音響信号に含まれる抑圧対象の雑音を示す雑音区間から計算された雑音空間相関行列とから、目的音声成分の強調及び雑音成分の抑圧を行う空間フィルタを計算する。空間フィルタ記憶部14は、空間フィルタを記憶する。音響処理部12は、空間フィルタを用いて、音響信号の目的音声成分の強調と、音響信号の雑音成分の抑圧とを行う。
これより第1実施形態の音響信号処理装置1によれば、音声認識結果に依存せずに、雑音環境でも認識率を向上させることができる。具体的には、第1実施形態の音響信号処理装置1によれば、入力装置としてマイクロフォンアレイ10だけを用いて、音声認識部16の出力に依存せずに空間フィルタを計算することができるので、目的音声や雑音の時間変化にも追従することができる。
従来の技術では、空間フィルタの計算処理は、キーワード検出をトリガとして動作するため、キーワードと無関係な発話が行われるなど、キーワードが検出されない場合に空間フィルタを計算できないという問題があった。また、最初のキーワードが検出されるまでは音響処理が動作しないため、雑音のパワーが大きく、音響処理なしには音声認識が難しい環境下では使用できないという問題があった。さらに、第1のキーワードが検出された時点での空間フィルタは、次に第2のキーワードが検出されるまで保持されるため、第1のキーワードの発話と異なる位置から次の発話が行われる場合に、適切な雑音抑圧の効果を得られないという問題があった。
一方、第1実施形態の空間フィルタ制御部13によれば、音響信号から直接目的音声及び雑音の判定を行うことができ、音声認識部16に依存せずに雑音抑圧の効果を得ることができる。これにより、入力された音響信号に対して、音声認識結果に依存せずに、より高い音声認識率を得る音声認識装置100を構成することができる。
なお、判定部131、音声空間相関計算部132及び雑音空間相関計算部133の少なくとも1つは、音響処理部12から出力された音響信号が入力されてもよい。音響信号に対して音声強調・雑音抑圧を一度実施した結果を用いることで、音声空間相関と雑音空間相関との計算をより精密に行うことができ、音響処理の音声強調・雑音抑圧性能を更に向上させることができる。
また、空間フィルタ制御部13は、入力された音響信号に対して独立成分分析等の手法を用いて音源分離を行い、目的音声成分と雑音成分とに分離された分離音響信号を出力する音源分離部を更に備えていてもよい。そして、判定部131、音声空間相関計算部132、雑音空間相関計算部133及び音響処理部12の少なくとも1つに、分離音響信号が入力されてもよい。音響信号を目的音声成分と雑音成分に分離することで、音声空間相関と雑音空間相関との計算をより精密に行うことができ、音響処理の音声強調・雑音抑圧性能を更に向上させることができる。
また、判定部131は、音響信号に対して、目的音声らしさを表す目的音声スコアと、雑音らしさを表す雑音スコアとを計算してもよい。この場合、判定部131は、目的音声スコアが音声閾値より大きい場合に、音響信号が目的音声であると判定し、雑音スコアが雑音閾値より大きい場合に、音響信号が雑音であると判定する。判定部131が、目的音声スコアと雑音スコアとを別々に出力するようにすることで、目的音声と雑音との判定にそれぞれ異なるアルゴリズムを用いることができる。また、判定が難しいデータを音声空間相関行列及び雑音空間相関行列のいずれの計算にも用いないようにすることで、誤判定による音響信号処理への悪影響を防ぐことができる。
(第2実施形態)
次に第2実施形態について説明する。第2実施形態の説明では、第1実施形態と同様の説明については省略し、第1実施形態と異なる箇所について説明する。
次に第2実施形態について説明する。第2実施形態の説明では、第1実施形態と同様の説明については省略し、第1実施形態と異なる箇所について説明する。
第2実施形態の音響信号処理装置は、目的話者を映したカメラの映像を入力として当該目的話者が各時刻で発話中か否かを判定し、発話中と判定された区間の音響信号を強調し、発話中ではないと判定された区間の音響信号を抑圧するように空間フィルタを計算する。そして、音響信号処理装置は、この空間フィルタを用いて雑音抑圧を行った音響信号に対して、音声認識を行う。これにより、音声認識結果を用いることなく、音声認識の認識率を向上させることができる。また、音声スコアでは難しい、当該目的話者以外の話者の音声の抑圧も可能になる。
[音声認識装置の機能構成の例]
図5は、第2実施形態の音声認識装置100-2の機能構成の例を示す図である。第2実施形態の音声認識装置100-2は、マイクロフォンアレイ10と、カメラ20と、音響処理部12と、空間フィルタ制御部13-2と、空間フィルタ記憶部14と、音声認識部16と、表示制御部17と、ディスプレイ18とを備える。このうち、音響処理部12、空間フィルタ制御部13-2及び空間フィルタ記憶部14が、第2実施形態の音響信号処理装置1-2に相当する。
図5は、第2実施形態の音声認識装置100-2の機能構成の例を示す図である。第2実施形態の音声認識装置100-2は、マイクロフォンアレイ10と、カメラ20と、音響処理部12と、空間フィルタ制御部13-2と、空間フィルタ記憶部14と、音声認識部16と、表示制御部17と、ディスプレイ18とを備える。このうち、音響処理部12、空間フィルタ制御部13-2及び空間フィルタ記憶部14が、第2実施形態の音響信号処理装置1-2に相当する。
カメラ20は、常に目的話者の顔を映すように設置されており、各時刻の当該目的話者の顔画像を出力する。本実施形態では、カメラ20と当該目的話者との相対位置は一定であるとみなし、カメラ20を話者方向に固定し、常に当該目的話者の顔画像が得られるようにする。なお、当該目的話者の移動を許す代わりに、カメラ20に当該目的話者の顔を追跡させることで、常に当該目的話者の顔画像が得られるようにしてもよい。顔追跡には、例えばKLT(Kanade-Lucas-Tomasi) Tracker[B.D.Lucas and T.Kanade 1981]等の公知技術が用いられる。
空間フィルタ制御部13-2は、目的話者の顔画像と、マイクロフォンアレイ10から入力されるN個の音響信号とを用いて空間フィルタ記憶部14の値を更新する。
続いて、図6を用いて、本実施形態の特徴部分である空間フィルタ制御部13-2の機能について説明する。
[空間フィルタ制御部の機能構成の例]
図6は、第2実施形態の空間フィルタ制御部13-2の機能構成の例を示す図である。第2実施形態の空間フィルタ制御部13-2は、マイクロフォンアレイ10、カメラ20及び空間フィルタ記憶部14と接続される。空間フィルタ制御部13-2は、判定部131-2、音声空間相関計算部132、雑音空間相関計算部133、空間相関記憶部134及び空間フィルタ計算部135を備える。
図6は、第2実施形態の空間フィルタ制御部13-2の機能構成の例を示す図である。第2実施形態の空間フィルタ制御部13-2は、マイクロフォンアレイ10、カメラ20及び空間フィルタ記憶部14と接続される。空間フィルタ制御部13-2は、判定部131-2、音声空間相関計算部132、雑音空間相関計算部133、空間相関記憶部134及び空間フィルタ計算部135を備える。
判定部131-2は、カメラ20から入力された各フレームの目的話者の顔画像に対して、当該目的話者が発話中であるか否かを判定する。例えば、判定部131-2は、各フレームの顔画像から口唇領域の画像を抽出し、口唇領域が動いていると判定された場合に、当該目的話者が発話中であると判定し、口唇領域が動いていないと判定された場合に、当該目的話者が発話中ではないと判定する。第1実施形態と同様に、判定部131-2は、判定結果を0又は1の2値、又は0~1の連続値として出力し、音声空間相関計算部132は上記の(1)式、(2)式又は(3)式により、雑音空間相関計算部は上記の(4)式、(5)式又は(6)式により、それぞれ空間相関記憶部134を更新する。空間フィルタ制御部13が音響信号処理に用いるフレーム間隔と画像処理に用いるフレーム間隔とは異なっていてもよい。例えば、空間フィルタ制御部13は、判定部131-2の判定結果を記憶する判定結果記憶部を更に備えてもよい。そして、空間フィルタ制御部13は、前記判定結果記憶部に記憶された判定結果を用いて、空間相関記憶部134を更新する。
口唇領域の抽出及び動きを検出する方法としては、Viola-Jones法[P.Viola and M.Jones 2001]が広く知られている。ここで、目的発話の誤検出を防止するために、さらに第1実施形態の音響信号処理装置1で述べた方法で音響信号が目的音声と判定された場合にのみ、当該目的話者が発話中であると判定してもよい。すなわち、判定部131-2は、顔画像から口唇領域の画像を抽出し、口唇領域が動いていると判定され、かつ、音響信号が目的音声と判定された場合に、当該目的話者が発話中であると判定してもよい。
なお、口唇領域の動きの検出に用いるパラメータ及び閾値は、定数として実装されていてもよいし、外部から指定できるインタフェースが設けられていてもよい。
[音響信号処理方法の例]
図7は、第2実施形態の音響信号処理方法の例を示すフローチャートである。ステップS21~S25の処理は、第1実施形態のステップS1~S5(図3参照)の処理と同じなので説明を省略する。
図7は、第2実施形態の音響信号処理方法の例を示すフローチャートである。ステップS21~S25の処理は、第1実施形態のステップS1~S5(図3参照)の処理と同じなので説明を省略する。
次に、空間フィルタ制御部13-2が、マイクロフォンアレイ10から入力された音響信号、及びカメラ20から入力された目的話者の顔画像を用いて空間フィルタ記憶部14の空間フィルタの値を更新する(ステップS26)。なお、ステップS26の処理(空間フィルタの更新方法)の詳細は図8を参照して後述する。
ステップS27の処理は、第1実施形態のステップS7の処理と同じなので説明を省略する。
[空間フィルタの更新方法の例]
図8は、第2実施形態の空間フィルタの更新方法の例を示すフローチャートである。はじめに、判定部131-2が、カメラ20から入力された目的話者の顔画像に対して、当該目的話者が発話中であるか否かを表す発話スコアを計算する(ステップS31)。次に、判定部131が、発話スコアと、あらかじめ定められた画像閾値(または外部から設定された画像閾値)とを比較する(ステップS32)。
図8は、第2実施形態の空間フィルタの更新方法の例を示すフローチャートである。はじめに、判定部131-2が、カメラ20から入力された目的話者の顔画像に対して、当該目的話者が発話中であるか否かを表す発話スコアを計算する(ステップS31)。次に、判定部131が、発話スコアと、あらかじめ定められた画像閾値(または外部から設定された画像閾値)とを比較する(ステップS32)。
発話スコアが画像閾値より大きい場合(ステップS32,Yes)、音声空間相関計算部132が、マイクロフォンアレイ10から入力された音響信号を用いて目的音声の空間相関行列を更新する(ステップS33)。
発話スコアが画像閾値以下の場合(ステップS32,No)、雑音空間相関計算部133が、マイクロフォンアレイ10から入力された音響信号を用いて雑音の空間相関行列を更新する(ステップS34)。
次に、空間フィルタ計算部135が、目的音声の空間相関行列、及び雑音の空間相関行列を用いて、空間フィルタの値を計算し、空間フィルタ記憶部14の値を更新する(ステップS35)。
上述したように、第2実施形態の音響信号処理装置1-2では、判定部131-2が、目的話者の顔画像を用いて音声スコアを計算する。これにより、入力装置としてマイクロフォンアレイ10及びカメラ20を用いることで、背景雑音だけでなく、目的話者以外の発話についても雑音とみなして抑圧することができる。具体的には、カメラ20から入力される目的話者の口唇領域の動き等の画像的特徴を用いて目的音声か雑音かの判定を行うことで、目的話者以外の話者が存在する場合に当該話者の音声の抑圧が可能となる。
最後に、第1及び第2実施形態の音声認識装置100(100-2)のハードウェア構成の例について説明する。第1及び第2実施形態の音声認識装置100(100-2)は、例えば、任意のコンピュータ装置を基本ハードウェアとして用いることで実現できる。
[ハードウェア構成の例]
図9は、第1及び第2実施形態の音声認識装置100(100-2)のハードウェア構成の例を示す図である。第1及び第2実施形態の音声認識装置100(100-2)は、プロセッサ201、主記憶装置202、補助記憶装置203、表示装置204、入力装置205及び通信装置206を備える。プロセッサ201、主記憶装置202、補助記憶装置203、表示装置204、入力装置205及び通信装置206は、バス210を介して接続されている。
図9は、第1及び第2実施形態の音声認識装置100(100-2)のハードウェア構成の例を示す図である。第1及び第2実施形態の音声認識装置100(100-2)は、プロセッサ201、主記憶装置202、補助記憶装置203、表示装置204、入力装置205及び通信装置206を備える。プロセッサ201、主記憶装置202、補助記憶装置203、表示装置204、入力装置205及び通信装置206は、バス210を介して接続されている。
なお、音声認識装置100(100-2)は、上記構成の一部が備えられていなくてもよい。例えば、音声認識装置100(100-2)が、外部の装置の入力機能及び表示機能を利用可能な場合、音声認識装置100(100-2)に表示装置204及び入力装置205が備えられていなくてもよい。
プロセッサ201は、補助記憶装置203から主記憶装置202に読み出されたプログラムを実行する。主記憶装置202は、ROM及びRAM等のメモリである。補助記憶装置203は、HDD(Hard Disk Drive)及びメモリカード等である。
表示装置204は、例えば液晶ディスプレイ等である。入力装置205は、音声認識装置100(100-2)を操作するためのインタフェースである。なお、表示装置204及び入力装置205は、表示機能と入力機能とを有するタッチパネル等により実現されていてもよい。通信装置206は、他の装置と通信するためのインタフェースである。
例えば、音声認識装置100(100-2)で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルで、メモリカード、ハードディスク、CD-RW、CD-ROM、CD-R、DVD-RAM及びDVD-R等のコンピュータで読み取り可能な記憶媒体に記録されてコンピュータ・プログラム・プロダクトとして提供される。
また例えば、音声認識装置100(100-2)で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。
また例えば、音声認識装置100(100-2)で実行されるプログラムをダウンロードさせずにインターネット等のネットワーク経由で提供するように構成してもよい。具体的には、サーバコンピュータから、プログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、音声認識処理を実行する構成としてもよい。
また例えば、音声認識装置100(100-2)のプログラムを、ROM等に予め組み込んで提供するように構成してもよい。
音声認識装置100(100-2)で実行されるプログラムは、上述の機能構成のうち、プログラムによっても実現可能な機能を含むモジュール構成となっている。当該各機能は、実際のハードウェアとしては、プロセッサ201が記憶媒体からプログラムを読み出して実行することにより、上記各機能ブロックが主記憶装置202上にロードされる。すなわち上記各機能ブロックは主記憶装置202上に生成される。
なお上述した各機能の一部又は全部をソフトウェアにより実現せずに、IC(Integrated Circuit)等のハードウェアにより実現してもよい。
また複数のプロセッサ201を用いて各機能を実現してもよく、その場合、各プロセッサ201は、各機能のうち1つを実現してもよいし、各機能のうち2以上を実現してもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
Claims (16)
- 異なる位置で収録され、時間的に同期されたN個(N≧2)の音響信号に対して、目的音声成分の強調及び雑音成分の抑圧を行う空間フィルタを出力する空間フィルタ制御部と、
前記空間フィルタを記憶する空間フィルタ記憶部と、
前記空間フィルタ記憶部から読み出した前記空間フィルタを用いて、前記音響信号の目的音声成分の強調と、前記音響信号の雑音成分の抑圧とを行う音響処理部と、
を備え、前記空間フィルタ制御部は、
前記音響信号が目的音声であるか、雑音であるかを判定する判定部と、
前記音響信号のうち、前記目的音声と判定された音声区間を用いて、音声空間相関行列を計算する音声空間相関計算部と、
前記音響信号のうち、前記雑音と判定された雑音区間を用いて、雑音空間相関行列を計算する雑音空間相関計算部と、
前記音声空間相関行列及び前記雑音空間相関行列を記憶する空間相関記憶部と、
前記空間相関記憶部から読み出した前記音声空間相関行列及び前記雑音空間相関行列から、目的音声成分の強調及び雑音成分の抑圧を行う空間フィルタを計算する空間フィルタ計算部と、
を備える音響信号処理装置。 - 前記音声空間相関計算部は、前記判定部により前記音響信号が前記目的音声であると判定された場合に、前記空間相関記憶部から前記音声空間相関行列を読み出し、前記音声空間相関行列を更新し、更新された前記音声空間相関行列を前記空間相関記憶部に書き込みする音声空間相関行列更新処理、及び、
前記雑音空間相関計算部は、前記判定部により前記音響信号が前記雑音であると判定された場合に、前記空間相関記憶部から前記雑音空間相関行列を読み出し、前記雑音空間相関行列を更新し、更新された前記雑音空間相関行列を前記空間相関記憶部に書き込みする雑音空間相関行列更新処理、
の少なくとも一方を行う請求項1に記載の音響信号処理装置。 - 前記判定部は、
現在時刻から所定の期間前までに含まれる音響信号を保持する音響信号記憶部を備え、
前記判定部は、前記現在時刻から所定の期間前までの各時刻に含まれる音響信号が、前記目的音声であるか否かを判定する判定を行い、
前記音声空間相関計算部及び前記雑音空間相関計算部は、前記現在時刻から所定の期間前までに含まれる音響信号を用いて前記音声空間相関行列及び前記雑音空間相関行列を更新し、更新された前記音声空間相関行列及び前記雑音空間相関行列を前記空間相関記憶部に記憶する、
請求項1又は2に記載の音響信号処理装置。 - 前記判定部は、
現在時刻から所定の期間前までに含まれる音響信号を保持する音響信号記憶部を備え、
前記判定部は、前記所定の期間前の音響信号が前記雑音であるか否かを判定する判定を行い、
前記音声空間相関計算部は、前記現在時刻の音響信号を用いて前記音声空間相関行列を更新し、更新された前記音声空間相関行列を前記空間相関記憶部に記憶し、
前記雑音空間相関計算部は、前記所定の期間前の音響信号が雑音と判定された場合に、前記所定の期間前の音響信号を用いて前記雑音空間相関行列を更新し、更新された前記雑音空間相関行列を前記空間相関記憶部に記憶する、
請求項1又は2に記載の音響信号処理装置。 - 前記判定部は、前記音響信号に対して、音声らしさを表す音声スコアの値を計算し、前記音声スコアが音声閾値より大きい場合に、前記音響信号が前記目的音声であると判定し、前記音声スコアが前記音声閾値以下の場合に、前記音響信号が前記雑音であると判定する、
請求項1又は2に記載の音響信号処理装置。 - 前記判定部は、前記音響信号に対して、音声らしさを表す音声スコアの値と、雑音らしさを表す雑音スコアとを計算し、前記音声スコアが音声閾値より大きい場合に、前記音響信号が前記目的音声であると判定し、前記雑音スコアが雑音閾値より大きい場合に、前記音響信号が前記雑音であると判定する、
請求項1又は2に記載の音響信号処理装置。 - 前記判定部は、前記音響信号に含まれる音源数を推定する音源数推定器を備え、
前記音声スコアは、前記音源数の関数で表される、
請求項5に記載の音響信号処理装置。 - 前記音声スコアは、前記音響信号のパワーに基づく統計量の関数で表される、
請求項5に記載の音響信号処理装置。 - 前記判定部は、目的話者の顔画像を用いて、前記目的話者が発話中であるか否かを表す発話スコアを計算し、前記発話スコアが画像閾値より大きい場合に、前記音響信号が前記目的音声であると判定し、前記発話スコアが前記画像閾値以下の場合に、前記音響信号が前記雑音であると判定する、
請求項1又は2に記載の音響信号処理装置。 - 前記空間フィルタ制御部は、
マイクから見た目的話者の相対方向を保持する話者方向設定部と、
前記音響信号に対して音源定位を行い、検出された音源方向を出力する音源定位部と、を備え、
前記判定部は、
前記音源方向の少なくとも1つについて、前記話者方向設定部により設定された前記相対方向との角度差が、角度閾値以下の場合に前記目的音声と判定し、前記角度閾値より大きい場合に前記雑音であると判定する、
請求項1又は2に記載の音響信号処理装置。 - 前記空間フィルタ制御部は、
入力された前記音響信号に対して音源分離を行い、前記目的音声成分と前記雑音成分とに分離された分離音響信号を出力する音源分離部、を備え、
前記判定部、前記音声空間相関計算部、前記雑音空間相関計算部及び前記音響処理部の少なくとも1つは、前記分離音響信号が入力される、
請求項1又は2に記載の音響信号処理装置。 - 前記判定部、前記音声空間相関計算部及び前記雑音空間相関計算部の少なくとも1つは、前記音響処理部から出力された音響信号が入力される、
請求項1又は2に記載の音響信号処理装置。 - 前記判定部は、前記音響信号が前記目的音声である度合いを示す連続値を出力し、
前記音声空間相関計算部は、前記連続値が大きいほど、前記音声空間相関行列の値を更新する割合の重み付けを大きくして、前記音声空間相関行列を計算する、
前記雑音空間相関計算部は、前記連続値が小さいほど、前記雑音空間相関行列の値を更新する割合の重み付けを大きくして、前記雑音空間相関行列を計算する、
請求項1又は2に記載の音響信号処理装置。 - 前記判定部は、前記音響信号に対して、目的音声らしさを表す目的音声スコアと、雑音らしさを表す雑音スコアとを計算し、
前記目的音声スコアが音声閾値より大きい場合に、前記音響信号が前記目的音声であると判定し、
前記雑音スコアが雑音閾値より大きい場合に、前記音響信号が前記雑音であると判定する、
請求項1又は2に記載の音響信号処理装置。 - 音響信号処理装置が、異なる位置で収録され、時間的に同期されたN個(N≧2)の音響信号に対して、目的音声成分の強調及び雑音成分の抑圧を行う空間フィルタを出力するステップと、
前記音響信号処理装置が、前記空間フィルタを空間フィルタ記憶部に記憶するステップと、
前記音響信号処理装置が、前記空間フィルタ記憶部から読み出した前記空間フィルタを用いて、前記音響信号の目的音声成分の強調と、前記音響信号の雑音成分の抑圧とを行うステップと、を含み、
前記空間フィルタを出力するステップは、
前記音響信号が目的音声であるか、雑音であるかを判定するステップと、
前記音響信号のうち、前記目的音声と判定された音声区間を用いて、音声空間相関行列を計算するステップと、
前記音響信号のうち、前記雑音と判定された雑音区間を用いて、雑音空間相関行列を計算するステップと、
前記音声空間相関行列及び前記雑音空間相関行列を空間相関記憶部に記憶するステップと、
前記空間相関記憶部から読み出した前記音声空間相関行列及び前記雑音空間相関行列から、目的音声成分の強調及び雑音成分の抑圧を行う空間フィルタを計算するステップと、
を含む音響信号処理方法。 - コンピュータを、
異なる位置で収録され、時間的に同期されたN個(N≧2)の音響信号に対して、目的音声成分の強調及び雑音成分の抑圧を行う空間フィルタを出力する空間フィルタ制御部と、
前記空間フィルタを記憶する空間フィルタ記憶部と、
前記空間フィルタ記憶部から読み出した前記空間フィルタを用いて、前記音響信号の目的音声成分の強調と、前記音響信号の雑音成分の抑圧とを行う音響処理部、として機能させ、
前記空間フィルタ制御部は、
前記音響信号が目的音声であるか、雑音であるかを判定する判定部と、
前記音響信号のうち、前記目的音声と判定された音声区間を用いて、音声空間相関行列を計算する音声空間相関計算部と、
前記音響信号のうち、前記雑音と判定された雑音区間を用いて、雑音空間相関行列を計算する雑音空間相関計算部と、
前記音声空間相関行列及び前記雑音空間相関行列を記憶する空間相関記憶部と、
前記空間相関記憶部から読み出した前記音声空間相関行列及び前記雑音空間相関行列から、目的音声成分の強調及び雑音成分の抑圧を行う空間フィルタを計算する空間フィルタ計算部、
を有するプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022-084452 | 2022-05-24 | ||
JP2022084452A JP2023172553A (ja) | 2022-05-24 | 2022-05-24 | 音響信号処理装置、音響信号処理方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023228785A1 true WO2023228785A1 (ja) | 2023-11-30 |
Family
ID=88919160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2023/017957 WO2023228785A1 (ja) | 2022-05-24 | 2023-05-12 | 音響信号処理装置、音響信号処理方法及びプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2023172553A (ja) |
WO (1) | WO2023228785A1 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019045576A (ja) * | 2017-08-30 | 2019-03-22 | 日本電信電話株式会社 | 目的音声抽出方法、目的音声抽出装置及び目的音声抽出プログラム |
JP2020148899A (ja) * | 2019-03-13 | 2020-09-17 | 日本電信電話株式会社 | 雑音抑圧装置、その方法、およびプログラム |
-
2022
- 2022-05-24 JP JP2022084452A patent/JP2023172553A/ja active Pending
-
2023
- 2023-05-12 WO PCT/JP2023/017957 patent/WO2023228785A1/ja unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019045576A (ja) * | 2017-08-30 | 2019-03-22 | 日本電信電話株式会社 | 目的音声抽出方法、目的音声抽出装置及び目的音声抽出プログラム |
JP2020148899A (ja) * | 2019-03-13 | 2020-09-17 | 日本電信電話株式会社 | 雑音抑圧装置、その方法、およびプログラム |
Non-Patent Citations (2)
Title |
---|
HIGUCHI TAKUYA; ITO NOBUTAKA; YOSHIOKA TAKUYA; NAKATANI TOMOHIRO: "Robust MVDR beamforming using time-frequency masks for online/offline ASR in noise", 2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), IEEE, 20 March 2016 (2016-03-20), pages 5210 - 5214, XP032901597, DOI: 10.1109/ICASSP.2016.7472671 * |
NOBUTAKA ITO, AKIKO ARAKI, DELCROIX MARC, TOMOHIRO NAKATANI: "Voice Enhancement for Multi-Party Conversation Voice Recognition Using Statistical Space Dictionary-Based Online Speaker Identification and Adaptive Beam Forming", SPRING AND AUTUMN MEETING OF THE ACOUSTICAL SOCIETY OF JAPAN, ACOUSTICAL SOCIETY OF JAPAN, JP, 11 September 2017 (2017-09-11) - 27 September 2019 (2019-09-27), JP , pages 507 - 508, XP009550811, ISSN: 1880-7658 * |
Also Published As
Publication number | Publication date |
---|---|
JP2023172553A (ja) | 2023-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112447191B (zh) | 信号处理装置以及信号处理方法 | |
KR101153093B1 (ko) | 다감각 음성 향상을 위한 방법 및 장치 | |
JP6140579B2 (ja) | 音響処理装置、音響処理方法、及び音響処理プログラム | |
JP5156043B2 (ja) | 音声判別装置 | |
US20150262590A1 (en) | Method and Device for Reconstructing a Target Signal from a Noisy Input Signal | |
CN111370014A (zh) | 多流目标-语音检测和信道融合 | |
US9786295B2 (en) | Voice processing apparatus and voice processing method | |
KR102152197B1 (ko) | 음성 검출기를 구비한 보청기 및 그 방법 | |
JP6464005B2 (ja) | 雑音抑圧音声認識装置およびそのプログラム | |
JP4705414B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
EP2745293B1 (en) | Signal noise attenuation | |
JP2006234888A (ja) | 残響除去装置、残響除去方法、残響除去プログラムおよび記録媒体 | |
WO2023228785A1 (ja) | 音響信号処理装置、音響信号処理方法及びプログラム | |
KR20070061216A (ko) | Gmm을 이용한 음질향상 시스템 | |
US9875755B2 (en) | Voice enhancement device and voice enhancement method | |
JP2001318687A (ja) | 音声認識装置 | |
JP6106618B2 (ja) | 音声区間検出装置、音声認識装置、その方法、及びプログラム | |
JP6653687B2 (ja) | 音響信号処理装置、方法及びプログラム | |
CN111226278B (zh) | 低复杂度的浊音语音检测和基音估计 | |
JP6125953B2 (ja) | 音声区間検出装置、その方法、及びプログラム | |
JPH11212588A (ja) | 音声処理装置、音声処理方法、及び音声処理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2000259198A (ja) | パターン認識装置および方法、並びに提供媒体 | |
JP2015022357A (ja) | 情報処理システム、情報処理方法および情報処理装置 | |
WO2021124537A1 (ja) | 情報処理装置、算出方法、及び算出プログラム | |
JP2000039899A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 23811659 Country of ref document: EP Kind code of ref document: A1 |