以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術について〉
本技術は、直接音の方向を判別する際に、直接音と反射音を含む複数の音のうち、時間的に先行してマイクロホンに到達した音を直接音とみなすことで、直接音の方向の判別精度を向上させることができるようにしたものである。
例えば本技術では前段に音声区間検出ブロックが設けられ、時間的に先行する音の判別のために、略同時に検出された2つの音声区間の音の各方向の成分が強調され、強調された音声区間の相互相関が計算されて相互相関のピーク位置が検出される。そして、それらのピーク位置に基づいて、どちらの音が時間的に先行しているかが判別される。
また、直接音の方向の判別時には、機器ノイズなどの定常雑音に対してロバスト(頑健)にするために相互相関の計算結果に基づいて雑音推定および雑音抑圧が行われる。
さらに、例えば相互相関のピークの大きさ(最大値)を用いて信頼度を算出し、その信頼度が低い場合にはMUSICスペクトル(空間スペクトル)の強度が強い方を直接音と判別することで、さらに判別精度を向上させることができる。
このような本技術は、複数のマイクロホンを有する対話型エージェントなどに適用することができる。
例えば本技術を適用した対話型エージェントでは、話者方向を精度よく検出することができる。すなわち、同時に複数方向から検出された音声のうち、どちらが直接音でどちらが反射音であるかの判別を高精度に行うことができる。
なお、以下においてはマイクロホンに到達する音のうち、複数回の反射によりマイクロホン到達時には方向性を失ったものは残響と定義し、反射(反射音)とは区別されている。
例えば対話型エージェントシステムにおいて、ユーザの呼びかけに応じて、話者であるユーザの方向を向くインタラクションを実現するためには、ユーザの方向を高い精度で推定することが必要である。
しかし、例えば図1に示すように、実リビング環境においてはユーザU11の発話による直接音だけでなく、壁やテレビOB11などによって反射した音声もマイクロホンMK11に到達する。
この例では、対話型エージェントシステムがマイクロホンMK11によりユーザU11の発話音声を収音し、収音により得られた信号からユーザU11の方向、つまりユーザU11の発話の直接音の方向を判別し、その判別結果に基づいてユーザU11の方向を向く。
ところが、空間内にはテレビOB11が配置されており、マイクロホンMK11により収音して得られた信号からは、矢印A11に示す直接音だけでなく、直接音の方向とは別の方向から到来する反射音も検出されることがある。この例では、矢印A12がテレビOB11で反射された反射音を表している。
対話型エージェント等では、このような直接音と反射音の方向を精度よく判別する技術が必要となる。
そこで、本技術では、直接音と反射音が有する物理的な特性に着目し、直接音と反射音の方向を高精度に判別することができるようにした。
すなわち、直接音と反射音のマイクロホンに到達するタイミングについて、直接音は反射音よりも先にマイクロホンに到達するという特性がある。
また、直接音と反射音の点音源らしさについて、直接音は反射せずにマイクロホンに到達するので点音源性が強く、反射音は壁面での反射時に拡散が発生することから点音源性が弱くなるという特性がある。
本技術では、これらのマイクロホンに到達するタイミングおよび点音源らしさに関する特性が利用されて直接音の方向が判別される。
このような手法を用いることにより、例えば空調やテレビなど、リビングで発生する雑音や、機器自身のファン音、サーボ音などの雑音がある状態においても、直接音と反射音の方向を高精度に判別することができるようになる。
特に、例えば図2に示すように、マイクロホンMK11から見て、話者であるユーザU11と、比較的大きな雑音の音源AS11とが同じ方向にある場合においても、ユーザU11の方向が直接音の方向であると正しく判別することが可能である。なお、図2において図1における場合と対応する部分には同一の符号を付してあり、その説明は省略する。
〈信号処理装置の構成例〉
それでは以下、音がマイクロホンに到達するタイミングおよび点音源らしさに着目した直接音と反射音の方向の判別手法について、より具体的に説明を行う。
図3は、本技術を適用した信号処理装置の一実施の形態の構成例を示す図である。
図3に示す信号処理装置11は、例えば対話型エージェント等を実現する機器に設けられ、複数マイクロホンによって取得された音声信号を入力として、複数方向から同時に到来した音声を検出し、そのなかの話者の方向に対応する直接音の方向を出力する。
信号処理装置11は、マイク入力部21、時間周波数変換部22、空間スペクトル算出部23、音声区間検出部24、同時発生区間検出部25、および直接音/反射音判別部26を有している。
マイク入力部21は、例えば複数のマイクロホンからなるマイクアレイにより構成され、周囲の音を収音し、その結果得られたPCM(Pulse Code Modulation)信号である音声信号を時間周波数変換部22に供給する。すなわち、マイク入力部21は、周囲の音の音声信号を取得する。
例えばマイク入力部21を構成するマイクアレイは、環状マイクアレイや球状マイクアレイ、直線マイクアレイなど、どのようなものであってもよい。
時間周波数変換部22は、マイク入力部21から供給された音声信号に対して、音声信号の時間フレームごとに時間周波数変換を行うことで、時間信号である音声信号を周波数信号である入力信号xkに変換する。
なお、入力信号xkにおけるkは周波数を示すインデックスであり、入力信号xkは、マイク入力部21を構成するマイクアレイのマイクロホン数分の次元の成分を有する複素数ベクトルとなる。
時間周波数変換部22は、時間周波数変換により得られた入力信号xkを空間スペクトル算出部23および直接音/反射音判別部26に供給する。
空間スペクトル算出部23は、時間周波数変換部22から供給された入力信号xkに基づいて、入力信号xkの各方向の強度を表す空間スペクトルを算出し、音声区間検出部24に供給する。
例えば空間スペクトル算出部23は、次式(1)を計算することで、一般化固有値分解を用いたMUSIC法により、マイク入力部21から見た各方向θにおける空間スペクトルP(θ)を算出する。この空間スペクトルP(θ)はMUSICスペクトルとも呼ばれている。
なお、式(1)においてa(θ)は方向θからのアレイマニフォールドベクトルであり、方向θに配置した、つまりθの方向に配置した音源からマイクロホンまでの伝達特性を表している。
また、式(1)においてMはマイク入力部21を構成するマイクアレイのマイクロホン数を示しており、Nは音源数を示している。例えば音源数Nは「2」など、予め定められた値とされる。
さらに式(1)において、eiは部分空間の固有ベクトルであり、次式(2)を満たすものとされる。
式(2)においてRは信号区間の空間相関行列を示しており、Kは雑音区間の空間相関行列を示している。またλiは所定の係数を示している。
ここで、入力信号xkにおけるユーザの発話の区間である信号区間の信号を観測信号xとし、入力信号xkにおけるユーザの発話以外の区間である雑音区間の信号を観測信号yとする。
この場合、空間相関行列Rは以下の式(3)により得ることができ、また空間相関行列Kは以下の式(4)により得ることができる。なお、式(3)および式(4)において、E[]は期待値を示している。
以上の式(1)を計算することで、例えば図4に示す空間スペクトルP(θ)が得られる。なお、図4において横軸は方向θを示しており、縦軸は空間スペクトルP(θ)を示している。ここでは、θは所定の方向を基準とした各方向を示す角度となっている。
図4に示す例では、θ=0度の方向において空間スペクトルP(θ)の値が強いピークとなっており、このことから0度の方向に音源が存在していると推定することができる。
図3の説明に戻り、音声区間検出部24は、空間スペクトル算出部23から供給された空間スペクトルP(θ)に基づいて、入力信号xk、すなわち音声信号におけるユーザの発話音声の区間である音声区間の開始時刻と終了時刻、および発話音声の到来方向を検出する。
例えば図5の矢印Q11に示すように発話音声がないタイミング、つまりユーザが発話していないタイミングでは、空間スペクトルP(θ)に明瞭なピークは存在しない。なお、図5において横軸は方向θを示しており、縦軸は空間スペクトルP(θ)を示している。
これに対して、発話音声があるタイミング、つまりユーザが発話したタイミングにおいては、矢印Q12に示すように空間スペクトルP(θ)に明瞭なピークが出現する。この例では、θ=0度の方向において空間スペクトルP(θ)のピークが出現している。
音声区間検出部24では、このようなピークの変化点を捉えることで、音声区間の開始時刻と終了時刻を検出するとともに、発話音声の到来方向も検出することができる。
例えば音声区間検出部24は、逐次供給される各時刻(時間フレーム)の空間スペクトルP(θ)に対して、各方向θの空間スペクトルP(θ)と、予め定められた開始検出用閾値thsとを比較する。
そして、音声区間検出部24は、空間スペクトルP(θ)の値が初めて開始検出用閾値ths以上となった時刻(時間フレーム)を音声区間の開始時刻とする。
また、音声区間検出部24は、音声区間の開始時刻以降の各時刻について、空間スペクトルP(θ)と予め定められた終了検出用閾値thdとを比較し、空間スペクトルP(θ)が初めて終了検出用閾値thd以下となった時刻(時間フレーム)を音声区間の終了時刻とする。
このとき、音声区間内の各時刻における空間スペクトルP(θ)がピークとなる方向θの平均値が発話音声の到来方向を示す方向θ1とされる。換言すれば音声区間検出部24は、方向θの平均値を求めることで発話音声の到来方向である方向θ1を推定(検出)する。
このような方向θ1は入力信号xk、すなわち音声信号から時間的に最初に検出された発話音声であろう音の到来方向を示しており、その方向θ1についての音声区間は、方向θ1から到来した発話音声が継続して検出された区間を示している。
通常、ユーザが発話を行うと、その発話音声の直接音は反射音よりも時間的に先行してマイク入力部21に到達するはずである。そのため、音声区間検出部24で検出される音声区間は、ユーザの発話音声の直接音の区間である可能性が高い。すなわち、方向θ1が発話を行ったユーザの方向である可能性が高い。
しかし、マイク入力部21の周囲で雑音がある場合などにおいては、実際の発話音声の直接音の空間スペクトルP(θ)のピーク部分が欠けてしまうことがあり、そのようなときには発話音声の反射音の区間が音声区間として検出されてしまうこともある。そのため、方向θ1を検出するだけでは、高精度にユーザの方向を判別することはできない。
図3の説明に戻り、音声区間検出部24は、以上のようにして検出された音声区間の開始時刻と終了時刻、方向θ1、および空間スペクトルP(θ)を同時発生区間検出部25に供給する。
同時発生区間検出部25は、音声区間検出部24から供給された音声区間の開始時刻と終了時刻、方向θ1、および空間スペクトルP(θ)に基づいて、方向θ1からの発話音声と略同時に方向θ1とは異なる別方向から到来した発話音声の区間を同時発生区間として検出する。
例えば図6に示すように、時間方向の所定の区間T11が方向θ1の音声区間として検出されたとする。なお、図6において縦軸は方向θを示しており、横軸は時間を示している。
この場合、同時発生区間検出部25は、音声区間である区間T11の開始時刻を基準として、その開始時刻よりも前の一定時間の区間T12をpre区間とする。
そして同時発生区間検出部25は、各方向θについて、そのpre区間における空間スペクトルP(θ)の時間方向の平均値Apre(θ)を算出する。このpre区間は、ユーザが発話を開始する前の区間であり、信号処理装置11やその周囲で発生する定常雑音等の雑音成分のみが含まれる区間である。ここでいう定常雑音(ノイズ)成分とは、例えば信号処理装置11に設けられたファンの音やサーボ音など、定常的な雑音である。
また、同時発生区間検出部25は、音声区間である区間T11の開始時刻を区間先頭とする一定時間の区間T13をpost区間とする。ここではpost区間の終了時刻は、音声区間である区間T11の終了時刻よりも前の時刻とされている。なお、post区間の開始時刻は区間T11の開始時刻よりも後の時刻であればよい。
同時発生区間検出部25はpre区間における場合と同様に、各方向θについて、post区間における空間スペクトルP(θ)の時間方向の平均値Apost(θ)を算出し、さらに各方向θについて平均値Apost(θ)と平均値Apre(θ)の差分dif(θ)を求める。
続いて同時発生区間検出部25は、互いに隣接する各方向θの差分dif(θ)を比較することで角度方向(θの方向)における差分dif(θ)のピークを検出する。そして、同時発生区間検出部25は、ピークが検出された方向θ、つまり差分dif(θ)がピークとなる方向θを、方向θ1からの発話音声と略同時に発生した同時発生音の到来方向を示す方向θ2の候補とする。
同時発生区間検出部25は、方向θ2の候補とされた1または複数の方向θの差分dif(θ)と所定の閾値thaとを比較し、方向θ2の候補とされた方向θのうち、差分dif(θ)が閾値tha以上であり、かつ最も差分dif(θ)が大きいものを方向θ2とする。
これにより、同時発生区間検出部25によって同時発生音の到来方向である方向θ2が推定(検出)されたことになる。
例えば閾値thaは、方向θ1について得られた差分dif(θ1)に一定の係数を乗算して得られる値などとすればよい。
なお、ここでは方向θ2として検出される方向が1つである場合について説明するが、方向θ2の候補とされた方向θのうち、差分dif(θ)が閾値tha以上となる方向θが全て方向θ2とされるなど、2以上の方向θ2が検出され得るようにしてもよい。
方向θ2からの同時発生音は音声区間内で検出された音声であって、方向θ1からの発話音声と略同時に発生し、その発話音声とは異なる方向からマイク入力部21に到来(到達)した音声である。したがって、同時発生音は、ユーザの発話音声の直接音または反射音であるはずである。
このようにして方向θ2を検出することは、方向θ1からの発話音声と略同時に発生した同時発生音の区間である同時発生区間を検出することであるともいうことができる。なお、方向θ2についての各時刻の差分dif(θ2)に対する閾値処理を行うことで、より詳細な同時発生区間を検出することが可能である。
図3の説明に戻り、同時発生区間検出部25は、同時発生音の方向θ2を検出すると、方向θ1および方向θ2、より詳細には方向θ1および方向θ2を示す情報を直接音/反射音判別部26に供給する。
音声区間検出部24と同時発生区間検出部25からなるブロックは、入力信号xkから音声区間を検出するとともに、その音声区間内で検出された2つの音声のマイク入力部21への到来方向を推定(検出)する方向推定を行う方向推定部として機能するといえる。
直接音/反射音判別部26は、時間周波数変換部22から供給された入力信号xkに基づいて、同時発生区間検出部25から供給された方向θ1と方向θ2のうち、何れの方向がユーザの発話音声の直接音の方向であるか、すなわちユーザ(音源)のいる方向であるかを判別し、その判別結果を出力する。換言すれば、直接音/反射音判別部26は、方向θ1から到来した音声と、方向θ2から到来した音声のうち、何れの音声が時間的に先行して、つまりより早いタイミングでマイク入力部21に到達したかを判別する。
なお、より詳細には直接音/反射音判別部26は、同時発生区間検出部25において方向θ2が検出されなかった場合、つまり閾値tha以上となる差分dif(θ)が検出されなかった場合には、方向θ1が直接音の方向である旨の判別結果を出力する。
これに対して直接音/反射音判別部26は、方向θ1および方向θ2という複数の方向が方向推定の結果として供給された場合、すなわち音声区間で互いに到来方向が異なる複数の音声が検出された場合、方向θ1と方向θ2のうちの何れの方向が直接音の方向であるかを判別し、その判別結果を出力する。
以下では、説明を簡単にするため、同時発生区間検出部25において必ず1つの方向θ2が検出されるものとして説明を続ける。
〈直接音/反射音判別部の構成例〉
次に、直接音/反射音判別部26のより詳細な構成例について説明する。
例えば直接音/反射音判別部26は、図7に示すように構成される。
図7に示す直接音/反射音判別部26は、時間差算出部51、点音源らしさ算出部52、および統合部53を有している。
時間差算出部51は、時間周波数変換部22から供給された入力信号xkと、同時発生区間検出部25から供給された方向θ1および方向θ2とに基づいて、何れの方向が直接音の方向であるかの判別を行い、その判別結果を統合部53に供給する。
時間差算出部51では、方向θ1からの音声と、方向θ2からの音声とのマイク入力部21への到達の時間差に関する情報に基づいて、直接音の方向の判別が行われる。
点音源らしさ算出部52は、時間周波数変換部22から供給された入力信号xkと、同時発生区間検出部25から供給された方向θ1および方向θ2とに基づいて、何れの方向が直接音の方向であるかの判別を行い、その判別結果を統合部53に供給する。
点音源らしさ算出部52では、方向θ1からの音声と方向θ2からの音声のそれぞれの点音源らしさに基づいて直接音の方向の判別が行われる。
統合部53は、時間差算出部51から供給された判別結果と、点音源らしさ算出部52から供給された判別結果とに基づいて直接音の方向の最終的な判別を行い、その判別結果を出力する。すなわち、統合部53では時間差算出部51で得られた判別結果と、点音源らしさ算出部52で得られた判別結果とが統合されて、最終的な判別結果が出力される。
〈時間差算出部の構成例〉
ここで、直接音/反射音判別部26を構成する各部についてさらに詳細に説明する。
例えば時間差算出部51は、より詳細には図8に示すように構成される。
図8に示す時間差算出部51は、方向強調部81−1、方向強調部81−2、相関計算部82、相関結果バッファ83、定常雑音推定部84、定常雑音抑圧部85、および判別部86を有している。
時間差算出部51では、方向θ1からの音声と方向θ2からの音声のうち、どちらの音が先行してマイク入力部21に到達したかを特定するために、方向θ1からの音声の区間である音声区間と、方向θ2からの音声の区間である同時発生区間の時間差を示す情報が求められる。
方向強調部81−1は、時間周波数変換部22から供給された各時間フレームの入力信号xkに対して、同時発生区間検出部25から供給された方向θ1の成分を強調する方向強調処理を行い、その結果得られた信号を相関計算部82に供給する。換言すれば方向強調部81−1における方向強調処理では、方向θ1から到来した音声の成分が強調される。
また、方向強調部81−2は、時間周波数変換部22から供給された各時間フレームの入力信号xkに対して、同時発生区間検出部25から供給された方向θ2の成分を強調する方向強調処理を行い、その結果得られた信号を相関計算部82に供給する。
なお、以下、方向強調部81−1および方向強調部81−2を特に区別する必要のない場合、単に方向強調部81とも称することとする。
例えば方向強調部81では、ある方向θ、すなわち方向θ1または方向θ2の成分を強調する方向強調処理としてDS(Delay and Sum)ビームフォーマが行われ、入力信号xkにおける方向θの成分が強調された信号ykが生成される。すなわち、入力信号xkに対してDSビームフォーマを適用することで信号ykが得られる。
具体的には、強調方向である方向θと入力信号xkとに基づいて次式(5)を計算することで信号ykを得ることができる。
なお、式(5)においてwkは、特定の方向θを強調するためのフィルタ係数を表しており、フィルタ係数wkは、マイク入力部21を構成するマイクアレイのマイクロホン数の次元の成分を有する複素数ベクトルとなる。また、信号ykおよびフィルタ係数wkにおけるkは周波数を示すインデックスである。
このような特定の方向θを強調するDSビームフォーマのフィルタ係数wkは、次式(6)により得ることができる。
なお、式(6)においてak,θは方向θからのアレイマニフォールドベクトルであり、方向θに配置した、つまりθの方向に配置した音源からマイク入力部21を構成するマイクアレイのマイクロホンまでの伝達特性を表している。
方向強調部81−1から相関計算部82には、方向θ1の成分が強調された信号ykが供給され、方向強調部81−2から相関計算部82には、方向θ2の成分が強調された信号ykが供給されることになる。
なお、以下では、方向θ1の成分を強調して得られた信号ykを信号yθ1,kとも記し、方向θ2の成分を強調して得られた信号ykを信号yθ2,kとも称することとする。
さらに時間フレームを識別するインデックスをnとし、時間フレームnにおける信号yθ1,kおよび信号yθ2,kを、それぞれ信号yθ1,k,nおよび信号yθ2,k,nとも記すこととする。
相関計算部82は、方向強調部81−1から供給された信号yθ1,k,nと、方向強調部81−2から供給された信号yθ2,k,nとの間の相互相関を計算し、その計算結果を相関結果バッファ83へと供給して保持させる。
具体的には、例えば相関計算部82は次式(7)を計算することで、所定の雑音区間と発話区間の各時間フレームnを対象として、信号yθ1,k,nと信号yθ2,k,nの白色化相互相関rn(τ)を、それらの2つの信号間の相互相関として算出する。
なお、式(7)においてNはフレームサイズを示しており、jは虚数を示している。また、τは時間ずれを表すインデックス、つまり時間のずれ量を示している。さらに式(7)において、yθ2,k,n *は信号yθ2,k,nの複素共役である。
ここで雑音区間とは、時間フレームn=T0を開始フレームとし、時間フレームn=T1を終了フレームとする定常雑音の区間であり、雑音区間は入力信号xkの音声区間よりも前の区間とされる。
例えば開始フレームT0は、図6に示したpre区間の開始時刻よりも時間的に後であり、かつ音声区間である区間T11の開始時刻よりも時間的に前の時間フレームnとされる。
また、終了フレームT1は、開始フレームT0よりも時間的に後であり、かつ音声区間である区間T11の開始時刻よりも時間的に前の時刻、または区間T11の開始時刻と同じ時刻の時間フレームnとされる。
これに対して発話区間とは、時間フレームn=T2を開始フレームとし、時間フレームn=T3を終了フレームとする、ユーザの発話の直接音や反射音の成分が含まれる区間である。すなわち、発話区間は音声区間内の区間とされる。
例えば開始フレームT2は、図6に示した音声区間である区間T11の開始時刻の時間フレームnとされる。また、終了フレームT3は、開始フレームT2よりも時間的に後であり、かつ音声区間である区間T11の終了時刻よりも時間的に前か、または区間T11の終了時刻と同じ時刻の時間フレームnとされる。
相関計算部82では、検出された発話音声ごとに雑音区間内の各時間フレームnと発話区間内の各時間フレームnについて、各インデックスτの白色化相互相関rn(τ)が求められ、相関結果バッファ83へと供給される。
これにより、例えば図9に示す白色化相互相関rn(τ)が得られる。なお、図9において縦軸は白色化相互相関rn(τ)を示しており、横軸は時間方向のずれ量であるインデックスτを示している。
このような白色化相互相関rn(τ)は、方向θ1の成分が強調された信号yθ1,k,nが、方向θ2の成分が強調された信号yθ2,k,nに対して、時間的にどの程度ずれているか、すなわちどの程度進んでいるか、または遅れているかを示す時間差情報となっている。
図8の説明に戻り、相関結果バッファ83は、相関計算部82から供給された各時間フレームnの白色化相互相関rn(τ)を保持(格納)するとともに、保持している白色化相互相関rn(τ)を定常雑音推定部84および定常雑音抑圧部85に供給する。
定常雑音推定部84は、相関結果バッファ83に格納された白色化相互相関rn(τ)に基づいて、検出された発話音声ごとに定常雑音の推定を行う。
例えば信号処理装置11が設けられた実際の機器においては、ファンの音やサーボ音など、機器自身が音源となる雑音が常時発生している。
定常雑音抑圧部85では、これらの雑音に対してロバストに動作させるための雑音抑圧が行われる。そこで、定常雑音推定部84では、発話前の区間、すなわち雑音区間における白色化相互相関rn(τ)を時間方向に平均することで、定常雑音成分を推定する。
具体的には、例えば定常雑音推定部84は、雑音区間における白色化相互相関rn(τ)に基づいて次式(8)を計算することで、発話区間の白色化相互相関rn(τ)に含まれているであろう定常雑音成分σ(τ)を算出する。
なお、式(8)において、T0およびT1は、それぞれ雑音区間の開始フレームT0および終了フレームT1を示している。したがって定常雑音成分σ(τ)は、雑音区間の各時間フレームnの白色化相互相関rn(τ)の平均値となる。定常雑音推定部84は、このようにして得られた定常雑音成分σ(τ)を定常雑音抑圧部85に供給する。
雑音区間は音声区間よりも前の区間であり、ユーザの発話音声の成分は含まれていない定常雑音成分のみが含まれる区間である。これに対して、発話区間にはユーザの発話音声だけでなく定常雑音も含まれている。
また、信号処理装置11自身やその周囲の雑音源からの定常雑音は、雑音区間にも発話区間にも同程度含まれているはずである。したがって、定常雑音成分σ(τ)を発話区間の白色化相互相関rn(τ)に含まれている定常雑音成分とみなして、発話区間の白色化相互相関rn(τ)に対する雑音抑圧を行えば、発話音声成分のみの白色化相互相関を得ることができるはずである。
定常雑音抑圧部85は、定常雑音推定部84から供給された定常雑音成分σ(τ)に基づいて、相関結果バッファ83から供給された発話区間の白色化相互相関rn(τ)に含まれている定常雑音成分を抑圧する処理を行い、白色化相互相関c(τ)を得る。
すなわち、定常雑音抑圧部85は次式(9)を計算することで、定常雑音成分が抑圧された白色化相互相関c(τ)を算出する。
なお、式(9)においてT2およびT3は、それぞれ発話区間の開始フレームT2および終了フレームT3を示している。
式(9)では、発話区間における白色化相互相関rn(τ)の平均値から、定常雑音推定部84で得られた定常雑音成分σ(τ)が差し引かれて白色化相互相関c(τ)とされている。
このような式(9)計算により、例えば図10に示す白色化相互相関c(τ)が得られる。なお、図10において縦軸は白色化相互相関を示しており、横軸は時間方向のずれ量であるインデックスτを示している。
図10において、矢印Q31に示す部分には発話区間における各時間フレームnの白色化相互相関rn(τ)の平均値が示されており、矢印Q32に示す部分には定常雑音成分σ(τ)が示されている。また、矢印Q33に示す部分には白色化相互相関c(τ)が示されている。
矢印Q31に示す部分から分かるように白色化相互相関rn(τ)の平均値には、定常雑音成分σ(τ)と同様の定常雑音成分が含まれているが、定常雑音の抑圧を行うことで、矢印Q33に示すように定常雑音が除去された白色化相互相関c(τ)を得ることができる。
このように白色化相互相関rn(τ)から定常雑音成分を除去することで、後段の判別部86において、より高精度に直接音の方向を判別することができるようになる。
図8の説明に戻り、定常雑音抑圧部85は、定常雑音の抑圧により得られた白色化相互相関c(τ)を判別部86に供給する。
判別部86は、同時発生区間検出部25から供給された方向θ1と方向θ2について、定常雑音抑圧部85から供給された白色化相互相関c(τ)に基づいて、方向θ1と方向θ2の何れの方向が直接音の方向、つまりユーザの方向であるかを判別(判定)する。すなわち、判別部86では、音声のマイク入力部21への到達タイミングの時間差に基づく判別処理が行われる。
具体的には、判別部86では、白色化相互相関c(τ)に基づいて、方向θ1と方向θ2のどちらが時間的に先行しているかを判定することにより、直接音の方向が判別される。
例えば判別部86は、次式(10)を計算することにより最大値γτ<0と最大値γτ≧0を算出する。
ここで、最大値γτ<0はインデックスτが0未満である領域、つまりτ<0である領域における白色化相互相関c(τ)の最大値、すなわちピーク値である。これに対して、最大値γτ≧0はインデックスτが0以上である領域、つまりτ≧0である領域における白色化相互相関c(τ)の最大値である。
さらに判別部86は、次式(11)に示すように最大値γτ<0と最大値γτ≧0の大小関係を特定することで、方向θ1からの音声と方向θ2からの音声のうちの何れの音声が時間的に先行しているかを判別する。これにより、直接音の方向が判別されたことになる。
なお、式(11)においてθdは、判別部86により判別された直接音の方向を示している。すなわち、ここでは最大値γτ<0が最大値γτ≧0以上である場合、方向θ1が直接音の方向θdであるとされ、逆に最大値γτ<0が最大値γτ≧0未満である場合、方向θ2が直接音の方向θdであるとされる。
また、判別部86は、最大値γτ<0と最大値γτ≧0に基づいて次式(12)を計算することにより、判別により得られた方向θdの確からしさを示す信頼度αdも算出する。
式(12)では、最大値γτ<0と最大値γτ≧0の大小関係に応じて、それらの最大値γτ<0と最大値γτ≧0の比を求めることで信頼度αdが算出されている。
判別部86は、以上の処理により得られた方向θdと信頼度αdを、直接音の方向の判別結果として統合部53に供給する。
〈点音源らしさ算出部の構成例〉
次に、点音源らしさ算出部52の構成例について説明する。
例えば点音源らしさ算出部52は、図11に示すように構成される。
図11に示す点音源らしさ算出部52は、空間スペクトル算出部111−1、空間スペクトル算出部111−2、および空間スペクトル判別モジュール112を有している。
空間スペクトル算出部111−1は、時間周波数変換部22から供給された入力信号xk、および同時発生区間検出部25から供給された方向θ1に基づいて、入力信号xkの音声区間の開始時刻以降の時刻における方向θ1の空間スペクトルμ1を算出する。
ここでは、例えば音声区間の開始時刻以降の所定の時刻における方向θ1の空間スペクトルが空間スペクトルμ1として算出されてもよいし、音声区間や発話区間の各時刻における方向θ1の空間スペクトルの平均値が空間スペクトルμ1として算出されてもよい。
空間スペクトル算出部111−1は、得られた空間スペクトルμ1と方向θ1を空間スペクトル判別モジュール112に供給する。
空間スペクトル算出部111−2は、時間周波数変換部22から供給された入力信号xk、および同時発生区間検出部25から供給された方向θ2に基づいて、入力信号xkの音声区間の開始時刻以降の時刻における方向θ2の空間スペクトルμ2を算出する。
例えば音声区間の開始時刻以降の所定の時刻における方向θ2の空間スペクトルが空間スペクトルμ2として算出されてもよいし、音声区間や同時発生区間の各時刻における方向θ2の空間スペクトルの平均値が空間スペクトルμ2として算出されてもよい。
空間スペクトル算出部111−2は、得られた空間スペクトルμ2と方向θ2を空間スペクトル判別モジュール112に供給する。
なお、以下、空間スペクトル算出部111−1および空間スペクトル算出部111−2を特に区別する必要のない場合、単に空間スペクトル算出部111とも称する。
空間スペクトル算出部111における空間スペクトルの算出方法は、例えばMUSIC法など、どのような方法とされてもよいが、空間スペクトル算出部23における場合と同様の方法で算出されたものを用いるのであれば、空間スペクトル算出部111を設ける必要はない。この場合、空間スペクトル算出部23から空間スペクトル判別モジュール112へと空間スペクトルP(θ)が供給されるようにすればよい。
空間スペクトル判別モジュール112は、空間スペクトル算出部111−1から供給された空間スペクトルμ1と方向θ1、および空間スペクトル算出部111−2から供給された空間スペクトルμ2と方向θ2に基づいて直接音の方向の判別を行う。すなわち、空間スペクトル判別モジュール112では、点音源らしさに基づく判別処理が行われる。
具体的には、例えば空間スペクトル判別モジュール112は、次式(13)に示すように空間スペクトルμ1と空間スペクトルμ2の大小関係を特定することで、方向θ1と方向θ2のうちの何れの方向が直接音の方向であるかを判別する。
空間スペクトル算出部111で得られる空間スペクトルμ1や空間スペクトルμ2は、方向θ1や方向θ2から到来する音声の点音源らしさを示しており、その空間スペクトルの値が大きいほど点音源らしさの度合いは高くなる。したがって式(13)では、より空間スペクトルが大きい方向が直接音の方向θdであると判別される。
空間スペクトル判別モジュール112は、このようにして得られた直接音の方向θdを、直接音の方向の判別結果として統合部53に供給する。
なお、ここでは方向θ1や方向θ2から到来する音声の点音源らしさの指標として空間スペクトルの値そのもの、つまり空間スペクトルの大きさが用いられる場合を例として説明したが、点音源らしさを示すものであれば、他のどのようなものが用いられてもよい。
例えば各方向θの空間スペクトルP(θ)を求め、その空間スペクトルP(θ)の方向θ1や方向θ2における尖度を、それらの方向θ1や方向θ2から到来する音声の点音源らしさを示す情報として用いてもよい。この場合、方向θ1と方向θ2のうちの尖度が大きい方の方向が直接音の方向θdであると判別される。
また、空間スペクトル判別モジュール112では、直接音の方向θdが判別結果として出力される例について説明するが、時間差算出部51における場合と同様に直接音の方向θdの信頼度も算出するようにしてもよい。
そのような場合、空間スペクトル判別モジュール112は、例えば空間スペクトルμ1や空間スペクトルμ2に基づいて信頼度βdを算出し、方向θdと信頼度βdを直接音の方向の判別結果として統合部53に供給する。
また、統合部53は、時間差算出部51の判別部86から供給された判別結果としての方向θdおよび信頼度αdと、点音源らしさ算出部52の空間スペクトル判別モジュール112から供給された判別結果としての方向θdとに基づいて最終的な判別を行う。
例えば統合部53は、信頼度αdが予め定められた所定の閾値以上である場合には、判別部86から供給された方向θdを最終的な直接音の方向の判別結果として出力する。
これに対して、統合部53は、信頼度αdが予め定められた所定の閾値未満である場合には、空間スペクトル判別モジュール112から供給された方向θdを最終的な直接音の方向の判別結果として出力する。
なお、最終的な判別に信頼度βdも用いられる場合には、統合部53は信頼度αdと信頼度βdに基づいて最終的な直接音の方向θdを判別する。
さらに、以上においては同時発生区間検出部25において方向θ2が1つだけ検出される場合について説明した。しかし、方向θ2が複数検出される場合には、方向θ1と複数の方向θ2のうちの2つの方向の組み合わせを順番に選択して直接音/反射音判別部26における処理を繰り返し実行すればよい。この場合、例えば方向θ1と複数の方向θ2のうちの最も時間的に先行している音声の方向、つまり最も早くマイク入力部21に到達した音声の方向が直接音の方向として判別されることになる。
〈直接音方向判別処理の説明〉
次に、以上において説明した信号処理装置11の動作について説明する。すなわち、以下、図12のフローチャートを参照して、信号処理装置11による直接音方向判別処理について説明する。
ステップS11において、マイク入力部21は周囲の音を収音し、その結果得られた音声信号を時間周波数変換部22に供給する。
ステップS12において、時間周波数変換部22はマイク入力部21から供給された音声信号に対して時間周波数変換を行い、その結果得られた入力信号xkを空間スペクトル算出部23、方向強調部81、および空間スペクトル算出部111に供給する。
ステップS13において、空間スペクトル算出部23は、時間周波数変換部22から供給された入力信号xkに基づいて空間スペクトルP(θ)を算出し、音声区間検出部24に供給する。例えばステップS13では、上述した式(1)を計算することにより空間スペクトルP(θ)が算出される。
ステップS14において、音声区間検出部24は、空間スペクトル算出部23から供給された空間スペクトルP(θ)に基づいて音声区間と発話音声の方向θ1を検出し、その検出結果と空間スペクトルP(θ)を同時発生区間検出部25に供給する。
例えば音声区間検出部24は、空間スペクトルP(θ)と、開始検出用閾値thsや終了検出用閾値thdとを比較することで音声区間を検出するとともに、空間スペクトルP(θ)のピークの平均を求めることで発話音声の方向θ1を検出する。
ステップS15において、同時発生区間検出部25は音声区間検出部24から供給された検出結果および空間スペクトルP(θ)に基づいて同時発生音の方向θ2を検出し、方向θ1と方向θ2を方向強調部81、判別部86、および空間スペクトル算出部111に供給する。
すなわち、同時発生区間検出部25は、音声区間の検出結果と空間スペクトルP(θ)に基づいて、各方向θについて差分dif(θ)を求め、その差分dif(θ)のピークと閾値thaとを比較することで同時発生音の方向θ2を検出する。また、同時発生区間検出部25は、必要に応じて同時発生音の同時発生区間の検出も行う。
ステップS16において方向強調部81は、時間周波数変換部22から供給された入力信号xkに対して、同時発生区間検出部25から供給された方向の成分を強調する方向強調処理を行い、その結果得られた信号を相関計算部82に供給する。
例えばステップS16では、上述した式(5)の計算が行われ、その結果得られた、方向θ1の成分が強調された信号yθ1,k,nと、方向θ2の成分が強調された信号yθ2,k,nとが相関計算部82に供給される。
ステップS17において相関計算部82は、方向強調部81から供給された信号yθ1,k,nおよび信号yθ2,k,nの白色化相互相関rn(τ)を算出し、相関結果バッファ83へと供給して保持させる。例えばステップS17では、上述した式(7)の計算が行われて白色化相互相関rn(τ)が算出される。
ステップS18において定常雑音推定部84は、相関結果バッファ83に格納された白色化相互相関rn(τ)に基づいて定常雑音成分σ(τ)を推定し、定常雑音抑圧部85に供給する。例えばステップS18では、上述した式(8)の計算が行われ、定常雑音成分σ(τ)が算出される。
ステップS19において定常雑音抑圧部85は、定常雑音推定部84から供給された定常雑音成分σ(τ)に基づいて、相関結果バッファ83から供給された発話区間の白色化相互相関rn(τ)の定常雑音成分を抑圧することで、白色化相互相関c(τ)を算出する。
例えば定常雑音抑圧部85は、上述した式(9)を計算することで白色化相互相関c(τ)を算出し、判別部86に供給する。
ステップS20において判別部86は、定常雑音抑圧部85から供給された白色化相互相関c(τ)に基づいて、同時発生区間検出部25から供給された方向θ1と方向θ2について時間差に基づく直接音の方向θdの判別を行い、その判別結果を統合部53に供給する。
例えば判別部86は、上述した式(10)および式(11)を計算することで直接音の方向θdを判別するとともに、式(12)を計算して信頼度αdを算出し、直接音の方向θdと信頼度αdを統合部53に供給する。
ステップS21において空間スペクトル算出部111は、時間周波数変換部22から供給された入力信号xk、および同時発生区間検出部25から供給された方向に基づいて、その方向の空間スペクトルを算出する。
例えばステップS21では、MUSIC法などにより方向θ1の空間スペクトルμ1と方向θ2の空間スペクトルμ2が算出され、それらの空間スペクトルと、方向θ1および方向θ2とが空間スペクトル判別モジュール112に供給される。
ステップS22において空間スペクトル判別モジュール112は、空間スペクトル算出部111から供給された空間スペクトルおよび方向に基づいて、点音源らしさに基づく直接音の方向の判別を行い、その判別結果を統合部53に供給する。
例えばステップS22では、上述した式(13)の計算が行われ、その結果得られた直接音の方向θdが統合部53に供給される。なお、このとき信頼度βdが算出されるようにしてもよい。
ステップS23において統合部53は、判別部86から供給された判別結果と、空間スペクトル判別モジュール112から供給された判別結果とに基づいて、直接音の方向の最終的な判別を行い、その判別結果を後段に出力する。
例えば統合部53は、信頼度αdが所定の閾値以上である場合、判別部86から供給された方向θdを最終的な直接音の方向の判別結果として出力し、信頼度αdが所定の閾値未満である場合、空間スペクトル判別モジュール112から供給された方向θdを最終的な直接音の方向の判別結果として出力する。
このようにして直接音の方向θdの判別結果が出力されると、直接音方向判別処理は終了する。
以上のようにして信号処理装置11は、収音により得られた音声信号について、時間差に基づく判別と点音源らしさに基づく判別を行い、それらの判別結果に基づいて直接音の方向の最終的な判別を行う。
このように到達タイミングと点音源性という直接音と反射音の特性を利用して直接音の方向を判別することで、直接音の方向の判別精度を向上させることができる。
〈第2の実施の形態〉
〈信号処理装置の構成例〉
以上において説明した直接音の方向の判別結果は、例えば発話を行ったユーザに対するフィードバックなどに利用することが可能である。
このように直接音の方向の判別結果(推定結果)について、ユーザに対して何らかのフィードバックを行う場合、信号処理装置は図13に示す構成とすることができる。なお、図13において図3における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図13に示す信号処理装置151は、マイク入力部21、時間周波数変換部22、エコーキャンセラ161、空間スペクトル算出部23、音声区間検出部24、同時発生区間検出部25、直接音/反射音判別部26、雑音抑圧部162、音声/非音声判別部163、スイッチ164、音声認識部165、および方向推定結果提示部166を有している。
信号処理装置151の構成は、図3の信号処理装置11の時間周波数変換部22と空間スペクトル算出部23の間にエコーキャンセラ161を設け、さらにエコーキャンセラ161に雑音抑圧部162乃至方向推定結果提示部166を接続した構成となっている。
例えば信号処理装置151はスピーカやマイクロホンを有し、複数のマイクロホンによって取得された音声信号から、直接音に相当する音声に対して音声認識を行い、話者方向の音を認識していることのフィードバックを行う機器やシステムなどとすることができる。
信号処理装置151では、時間周波数変換部22で得られた入力信号はエコーキャンセラ161へと供給される。
エコーキャンセラ161は、時間周波数変換部22から供給された入力信号に対して、信号処理装置151自身に設けられたスピーカにより再生された音の抑圧を行う。
例えば信号処理装置151自身に設けられたスピーカにより再生されたシステム発話や音楽はマイク入力部21へと回り込んで収音され、雑音となってしまう。
そこでエコーキャンセラ161では、スピーカにより再生される音を参照信号として利用することで回り込み雑音の抑圧が行われる。
例えばエコーキャンセラ161は、スピーカとマイク入力部21の間の伝達特性を逐次的に推定し、マイク入力部21に回り込むスピーカの再生音を予測して、実際のマイク入力信号である入力信号から差し引くことでスピーカの再生音を抑圧する。
すなわち、例えばエコーキャンセラ161は、次式(14)を計算することで、スピーカの再生音が抑圧された信号e(n)を算出する。
なお、式(14)において、d(n)は時間周波数変換部22から供給された入力信号を示しており、x(n)はスピーカの再生音の信号、すなわち参照信号を示している。また、式(14)において、w(n)はスピーカとマイク入力部21の間の推定伝達特性を示している。
例えば所定の時間フレーム(n+1)における推定伝達特性w(n+1)は、その直前の時間フレームnにおける推定伝達特性w(n)、信号e(n)、および参照信号x(n)に基づいて、次式(15)を計算することで得ることができる。なお、式(15)においてμは収束速度調整変数である。
エコーキャンセラ161は、式(14)を計算して得られた信号e(n)を、空間スペクトル算出部23、雑音抑圧部162、および直接音/反射音判別部26に供給する。
なお、以下では、エコーキャンセラ161から出力される信号e(n)を入力信号xkと記すこととする。エコーキャンセラ161から出力される信号e(n)は、第1の実施の形態で説明した時間周波数変換部22の出力である入力信号xkに対してスピーカの再生音の抑圧を行ったものであるから、この信号e(n)は時間周波数変換部22から出力される入力信号xkと略同等であるということができる。
空間スペクトル算出部23は、エコーキャンセラ161から供給された入力信号xkから空間スペクトルP(θ)を算出し、音声区間検出部24に供給する。
音声区間検出部24は、空間スペクトル算出部23から供給された空間スペクトルP(θ)に基づいて、音声認識部165における音声認識対象の発話の候補となる音声の音声区間を検出し、音声区間の検出結果と方向θ1と空間スペクトルP(θ)とを同時発生区間検出部25に供給する。
同時発生区間検出部25は、音声区間検出部24から供給された音声区間の検出結果、方向θ1、および空間スペクトルP(θ)に基づいて同時発生区間と方向θ2を検出し、音声区間の検出結果と方向θ1、および同時発生区間の検出結果と方向θ2を直接音/反射音判別部26に供給する。
直接音/反射音判別部26は、同時発生区間検出部25から供給された方向θ1および方向θ2と、エコーキャンセラ161から供給された入力信号xkとに基づいて直接音の方向θdを判別する。
直接音/反射音判別部26は、判別結果としての方向θdと、その方向θdからの直接音成分が含まれる直接音区間を示す直接音区間情報とを雑音抑圧部162、および方向推定結果提示部166に供給する。
例えば、方向θd=θ1であると判別された場合、音声区間検出部24で検出された音声区間が直接音区間であるとされ、その音声区間の開始時刻と終了時刻が直接音区間情報とされる。これに対して方向θd=θ2であると判別された場合、同時発生区間検出部25で検出された同時発生区間が直接音区間であるとされ、その同時発生区間の開始時刻と終了時刻が直接音区間情報とされる。
雑音抑圧部162は、直接音/反射音判別部26から供給された方向θdおよび直接音区間情報に基づいて、エコーキャンセラ161から供給された入力信号xkに対して、方向θdからの音声成分を強調する処理を行う。
例えば雑音抑圧部162では、方向θdからの音声成分を強調する処理として、複数のマイクロホンにより得られた信号を用いた雑音抑圧手法である最尤ビームフォーマ(MLBF(Maximum Likelihood Beamforming))などが行われる。
なお、方向θdからの音声成分を強調する処理は、最尤ビームフォーマに限らず、任意の雑音抑圧手法とすることが可能である。
例えば最尤ビームフォーマが行われる場合、雑音抑圧部162は、ビームフォーマ係数wkに基づいて次式(16)を計算することで入力信号xkに対して最尤ビームフォーマを行う。
なお、式(16)においてykは、入力信号xkに対して最尤ビームフォーマを行うことで得られる信号である。最尤ビームフォーマでは、複数チャンネルの入力信号xkに対して、1チャンネルの信号ykが出力として得られる。
また、入力信号xkおよびビームフォーマ係数wkにおけるkは周波数のインデックスであり、入力信号xkおよびビームフォーマ係数wkは、マイク入力部21を構成するマイクアレイのマイクロホン数の次元の成分を有する複素数ベクトルとなる。
さらに、最尤ビームフォーマのビームフォーマ係数wkは、次式(17)により得ることができる。
なお、式(17)においてak,θは方向θからのアレイマニフォールドベクトルであり、方向θに配置した、つまりθの方向に配置した音源からマイク入力部21を構成するマイクアレイのマイクロホンまでの伝達特性を表している。特にここでは、方向θは、直接音の方向θdとされる。
また、式(17)におけるRkは雑音相関行列であり、入力信号xkに基づいて以下の式(18)の計算により得ることができる。なお、式(18)においてE[]は期待値を示している。
最尤ビームフォーマは、発話者であるユーザの方向θdからの音声を変化させないように拘束した条件で、出力エネルギを最小化することにより、発話者の方向θd以外の方向からの雑音を抑圧する手法となっている。これにより、雑音が抑圧されるとともに相対的に方向θdからの音声成分が強調される。
例えば誤って入力信号xkにおける反射音の方向の成分が強調された場合、反射の経路によっては、特定周波数が強調されたり減衰によって周波数特性が乱れたりして、後段の音声認識部165における音声認識率が低下してしまうことがある。
しかし、信号処理装置151では、直接音の方向θdの判別を行うことで直接音の方向θdの成分を強調し、音声認識率の低下を抑制することが可能となる。
さらに、雑音抑圧部162において最尤ビームフォーマにより得られた1チャンネルの音声信号、つまり式(16)で得られる信号ykに対するポストフィルタの処理として、ウィーナーフィルタを用いた雑音抑圧を行うようにしてもよい。
そのような場合、例えばウィーナーフィルタのゲインWkは、次式(19)により得ることができる。
なお、式(19)においてSkは目的信号のパワースペクトルを示しており、ここでは直接音/反射音判別部26から供給された直接音区間情報により示される直接音区間の信号である。これに対して、Nkは雑音信号のパワースペクトルを示しており、ここでは直接音区間ではない区間の信号である。これらのパワースペクトルSkおよびパワースペクトルNkは、直接音区間情報と信号ykから得ることができる。
また、雑音抑圧部162は、最尤ビームフォーマにより得られた信号ykとゲインWkに基づいて、次式(20)を計算することで雑音が抑圧された信号zkを算出する。
雑音抑圧部162は、このようにして得られた信号zkを音声/非音声判別部163およびスイッチ164に供給する。
なお、雑音抑圧部162では、直接音区間のみが対象とされて最尤ビームフォーマ、およびウィーナーフィルタによる雑音抑圧が行われる。したがって、雑音抑圧部162からは直接音区間の信号zkだけが出力される。
音声/非音声判別部163は、雑音抑圧部162から供給された信号zkに対して、直接音区間ごとに、それらの直接音区間が音声の区間であるか雑音(非音声)の区間であるかの判別を行う。
音声区間検出部24では、空間情報を活用した音声区間検出を行っているので、実際には音声だけでなく雑音も発話音声として検出されることがある。
そこで、音声/非音声判別部163は、例えば事前に構築された判別器を利用して信号zkが音声の区間の信号であるか、または雑音の区間の信号であるかを判別する。すなわち、音声/非音声判別部163は、直接音区間の信号zkを判別器に代入して演算を行うことで、その直接音区間が音声の区間であるか、または雑音の区間であるかを判別し、その判別結果に応じてスイッチ164の開閉を制御する。
具体的には、音声/非音声判別部163は、直接音区間が音声の区間であるとの判別結果が得られた場合、スイッチ164をオンさせ、直接音区間が雑音の区間であるとの判別結果が得られた場合、スイッチ164をオフさせる。
これにより、雑音抑圧部162から出力された各直接音区間の信号zkのうち、音声の区間の信号であるとされたもののみがスイッチ164を介して音声認識部165へと供給されることになる。
音声認識部165は、スイッチ164を介して雑音抑圧部162から供給された信号zkに対して音声認識を行い、その認識結果を方向推定結果提示部166に供給する。音声認識部165では、信号zkの区間においてユーザがどのような内容の発話を行ったかが認識される。
方向推定結果提示部166は、例えばディスプレイやスピーカ、回転駆動部、LED(Light Emitting Diode)などからなり、方向θdや音声認識結果に応じた各種の提示をフィードバックとして行う。
すなわち、方向推定結果提示部166は、直接音/反射音判別部26から供給された方向θdおよび直接音区間情報と、音声認識部165から供給された音声認識結果とに基づいて、発話者であるユーザの方向の音を認識していることの提示を行う。
例えば方向推定結果提示部166が回転駆動部を有する場合、方向推定結果提示部166は、信号処理装置151の筐体の一部または全部が、発話者であるユーザがいる方向θdを向くように、その筐体の一部または全部を回転させるというフィードバックを行う。この場合、筐体の回転動作によって、ユーザがいる方向θdの提示が行われることになる。
このとき、例えば方向推定結果提示部166は、音声認識部165から供給された音声認識結果に応じた音声等を、ユーザの発話に対する応答としてスピーカから出力するようにしてもよい。
また、例えば方向推定結果提示部166が、信号処理装置151の外周を囲むように設けられた複数のLEDを有するとする。この場合、方向推定結果提示部166が、それらの複数のLEDのうち、発話者であるユーザがいる方向θdにあるLEDのみを点灯させ、ユーザを認識していることを伝えるというフィードバックを行ってもよい。換言すれば、方向推定結果提示部166がLEDの点灯による方向θdの提示を行うようにしてもよい。
さらに、例えば方向推定結果提示部166がディスプレイを有している場合、方向推定結果提示部166がディスプレイを制御し、発話者であるユーザがいる方向θdに対応する提示をさせるというフィードバックを行うようにしてもよい。
ここで、方向θdに対応する提示として、例えば方向θdに向けられた矢印等をUI(User Interface)などの画像上に表示させたり、方向θdに向けて音声認識部165での音声認識結果に対する応答メッセージ等をUIなどの画像上に表示させたりすることなどが考えられる。
〈第3の実施の形態〉
〈信号処理装置の構成例〉
また、画像から人を検出し、その検出結果も用いてユーザの方向を判別するようにしてもよい。
そのような場合、信号処理装置は、例えば図14に示すように構成される。なお、図14において図13における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図14に示す信号処理装置191は、マイク入力部21、時間周波数変換部22、エコーキャンセラ161、空間スペクトル算出部23、音声区間検出部24、同時発生区間検出部25、直接音/反射音判別部26、雑音抑圧部162、音声/非音声判別部163、スイッチ164、音声認識部165、方向推定結果提示部166、カメラ入力部201、人検出部202、および話者方向決定部203を有している。
信号処理装置191の構成は、図13に示した信号処理装置151にさらにカメラ入力部201乃至話者方向決定部203を設けた構成となっている。
信号処理装置191では、直接音/反射音判別部26から雑音抑圧部162には、判別結果としての方向θdと直接音区間情報とが供給される。
また、直接音/反射音判別部26から人検出部202には、判別結果としての方向θdと、方向θ1および音声区間の検出結果と、方向θ2および同時発生区間の検出結果とが供給される。
カメラ入力部201は、例えばカメラなどからなり、信号処理装置191の周囲を撮像し、その結果得られた画像を人検出部202に供給する。以下、カメラ入力部201で得られた画像を検出用画像とも称することとする。
人検出部202は、カメラ入力部201から供給された検出用画像と、直接音/反射音判別部26から供給された方向θd、方向θ1、音声区間の検出結果、方向θ2、および同時発生区間の検出結果とに基づいて検出用画像から人を検出する。
例えば、一例として直接音の方向θdが方向θ1である場合について説明する。
この場合、人検出部202は、まず直接音の方向θd=θ1からの音声が検出された音声区間に対応する期間において、検出用画像の方向θd=θ1に対応する領域を対象として顔認識や人物認識を行うことで、その対象となる領域から人を検出する。これにより、直接音の方向θdに人がいるか否かが検出されることになる。
同様に、人検出部202は、反射音の方向θ2からの音声が検出された同時発生区間に対応する期間において、検出用画像の方向θ2に対応する領域を対象として顔認識や人物認識を行うことで、その対象となる領域から人を検出する。これにより、反射音の方向θ2に人がいるか否かが検出されることになる。
このように人検出部202では、直接音の方向、および反射音の方向にそれぞれ人が存在するか否かが検出されることになる。
人検出部202は、直接音の方向に対する人の検出結果、反射音の方向に対する人の検出結果、方向θd、方向θ1、および方向θ2を話者方向決定部203に供給する。
話者方向決定部203は、人検出部202から供給された直接音の方向に対する人の検出結果、反射音の方向に対する人の検出結果、方向θd、方向θ1、および方向θ2に基づいて、最終的に出力する、発話者であるユーザの方向を決定(判別)する。
具体的には、例えば話者方向決定部203は、検出用画像に対する人検出により、直接音の方向θdで人が検出され、反射音の方向では人が検出されなかった場合、ユーザ(発話者)の方向を示す話者方向検出結果として、直接音の方向θdを示す情報を方向推定結果提示部166に供給する。
また、例えば話者方向決定部203は、検出用画像に対する人検出により、直接音の方向θdで人が検出されず、反射音の方向で人が検出された場合、反射音の方向を示す話者方向検出結果を方向推定結果提示部166に供給する。この場合、直接音/反射音判別部26では反射音の方向であるとされた方向が、話者方向決定部203においてはユーザ(発話者)の方向であるとされることになる。
さらに、例えば話者方向決定部203は、検出用画像に対する人検出により、直接音の方向θdでも反射音の方向でも人が検出されなかった場合、直接音の方向θdを示す話者方向検出結果を方向推定結果提示部166に供給する。
同様に、例えば話者方向決定部203は、検出用画像に対する人検出により、直接音の方向θdでも反射音の方向でも人が検出された場合、直接音の方向θdを示す話者方向検出結果を方向推定結果提示部166に供給する。
方向推定結果提示部166は、話者方向決定部203から供給された話者方向検出結果と、音声認識部165から供給された音声認識結果とに基づいて、発話者であるユーザの方向の音を認識していることのフィードバック(提示)を行う。
この場合、方向推定結果提示部166では、話者方向検出結果が直接音の方向θdと同様に扱われて、第2の実施の形態における場合と同様のフィードバックが行われる。
以上のように、第1の実施の形態乃至第3の実施の形態で説明した本技術によれば、直接音の方向、すなわちユーザの方向の判別精度を向上させることができる。
例えば本技術は、ユーザにより起動ワードが発せられると起動し、その起動ワードに応じて自身の向きをユーザ方向に向けるインタラクション(フィードバック)等を行う機器などに適用することができる。この場合、本技術では、機器周辺の雑音条件によらず、壁やテレビなどの構造物による反射音の方向ではなく、正しくユーザの方向を向く頻度を高めることができる。
さらに、例えば第2の実施の形態や第3の実施の形態では、雑音抑圧部162において、特定方向、すなわち直接音の方向を強調する処理が行われる。このとき、本来は直接音の方向を強調すべきところを誤って反射音の方向が強調されてしまうと、反射の経路によっては特定周波数が強調されたり、減衰によって周波数特性が乱れたりして、後段における音声認識率が低下してしまうことがある。
しかし、本技術では、到達タイミングと点音源性という直接音と反射音の特性を利用することで、直接音の方向を高精度に判別することができるので、そのような音声認識率の低下を抑制することができる。
〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図15は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、本技術は、以下の構成とすることも可能である。
(1)
音声信号から音声区間を検出し、前記音声区間に含まれる音声の到来方向を推定する方向推定部と、
前記音声区間に対して複数の前記到来方向が前記推定により得られた場合、前記複数の前記到来方向の音声のうちの何れの音声が先行して到達したかを判別する判別部と
を備える信号処理装置。
(2)
前記判別部は、所定の前記到来方向の音声成分が強調された前記音声信号と、他の前記到来方向の音声成分が強調された前記音声信号との相互相関に基づいて前記判別を行う
(1)に記載の信号処理装置。
(3)
前記判別部は、前記相互相関に対して定常雑音成分を抑圧する処理を行い、前記処理が行われた前記相互相関に基づいて前記判別を行う
(2)に記載の信号処理装置。
(4)
前記判別部は、前記到来方向の音声の点音源らしさに基づいて前記判別を行う
(1)乃至(3)の何れか一項に記載の信号処理装置。
(5)
前記点音源らしさは、前記音声信号の空間スペクトルの大きさまたは尖度である
(4)に記載の信号処理装置。
(6)
前記判別の結果に基づく提示を行う提示部をさらに備える
(1)乃至(5)の何れか一項に記載の信号処理装置。
(7)
前記信号処理装置の周囲を撮像して得られた画像からの人の検出結果と、前記判別部による前記判別の結果とに基づいて発話者の方向を決定する決定部をさらに備える
(1)乃至(6)の何れか一項に記載の信号処理装置。
(8)
信号処理装置が、
音声信号から音声区間を検出し、
前記音声区間に含まれる音声の到来方向を推定し、
前記音声区間に対して複数の前記到来方向が前記推定により得られた場合、前記複数の前記到来方向の音声のうちの何れの音声が先行して到達したかを判別する
信号処理方法。
(9)
音声信号から音声区間を検出し、
前記音声区間に含まれる音声の到来方向を推定し、
前記音声区間に対して複数の前記到来方向が前記推定により得られた場合、前記複数の前記到来方向の音声のうちの何れの音声が先行して到達したかを判別する
ステップを含む処理をコンピュータに実行させるプログラム。