JPWO2019202966A1

JPWO2019202966A1 - 信号処理装置および方法、並びにプログラム

Info

Publication number: JPWO2019202966A1
Application number: JP2020514054A
Authority: JP
Inventors: 高橋　秀介; 秀介高橋; 和也立石; 和樹落合; 高橋　晃; 晃高橋
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2018-04-16
Filing date: 2019-04-02
Publication date: 2021-04-22
Anticipated expiration: 2039-04-02
Also published as: WO2019202966A1; US20210166721A1; JP7279710B2

Abstract

本技術は、直接音の方向の判別精度を向上させることができるようにする信号処理装置および方法、並びにプログラムに関する。信号処理装置は、音声信号から音声区間を検出し、音声区間に含まれる音声の到来方向を推定する方向推定部と、音声区間に対して複数の到来方向が推定により得られた場合、複数の到来方向の音声のうちの何れの音声が先行して到達したかを判別する判別部とを備える。本技術は信号処理装置に適用することができる。

Description

本技術は、信号処理装置および方法、並びにプログラムに関し、特に、直接音の方向の判別精度を向上させることができるようにした信号処理装置および方法、並びにプログラムに関する。

例えば、主に室内で利用される音声対話エージェントにおいて機器を使用しているユーザの方向を判別する場合に、音声の到来方向の推定結果を利用することができる。

しかし、室内の環境によってはユーザ方向からの直接音以外に、壁やテレビ（TV）などによる反射音が同時に機器に到達するケースがある。

そのような場合には、機器に到達した音のうちの何れのものがユーザ方向からの直接音であるかを判別する必要がある。

例えば直接音の判別方法として、機器に到達した音についてMUSIC（Multiple Signal Clasiffication）スペクトルを算出し、その強度が大きい方を直接音とみなす方法を利用することができる。

また、音源位置を推定する技術として、反射により振動が伝わる環境や振動発生源以外から振動が発生する環境であっても、目的の振動発生源の位置を推定する技術が提案されている（例えば、特許文献１参照）。この技術では、収音された音のうち、SN比（Signal to Noise Ratio）が大きいものを直接音とみなす手法となっている。

特開２０１６−１１４５１２号公報

しかしながら、上述した技術では、直接音の方向を精度よく判別することは困難であった。

例えばMUSICスペクトルを利用する方法では、MUSICスペクトルの強度が大きいものが直接音とされるため、例えば発話者と雑音の音源が同じ方向にある場合には、反射音の方向が発話者の方向、つまり直接音の方向であると誤認識されることがある。

また、例えば特許文献１に記載の技術では、SN比が大きいものを直接音とみなしているため、実際の直接音が必ずしも直接音であると判別されるとは限らず、十分高い精度で直接音の方向を判別することができなかった。

本技術は、このような状況に鑑みてなされたものであり、直接音の方向の判別精度を向上させることができるようにするものである。

本技術の一側面の信号処理装置は、音声信号から音声区間を検出し、前記音声区間に含まれる音声の到来方向を推定する方向推定部と、前記音声区間に対して複数の前記到来方向が前記推定により得られた場合、前記複数の前記到来方向の音声のうちの何れの音声が先行して到達したかを判別する判別部とを備える。

本技術の一側面の信号処理方法またはプログラムは、音声信号から音声区間を検出し、前記音声区間に含まれる音声の到来方向を推定し、前記音声区間に対して複数の前記到来方向が前記推定により得られた場合、前記複数の前記到来方向の音声のうちの何れの音声が先行して到達したかを判別するステップを含む。

本技術の一側面においては、音声信号から音声区間が検出され、前記音声区間に含まれる音声の到来方向が推定され、前記音声区間に対して複数の前記到来方向が前記推定により得られた場合、前記複数の前記到来方向の音声のうちの何れの音声が先行して到達したかが判別される。

本技術の一側面によれば、直接音の方向の判別精度を向上させることができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。

直接音と反射音について説明する図である。直接音と反射音について説明する図である。信号処理装置の構成例を示す図である。空間スペクトルの例を示す図である。空間スペクトルのピークと音声の到来方向について説明する図である。同時発生区間の検出について説明する図である。直接音／反射音判別部の構成例を示す図である。時間差算出部の構成例を示す図である。白色化相互相関の例を示す図である。白色化相互相関に対する定常雑音の抑圧について説明する図である。点音源らしさ算出部の構成例を示す図である。直接音方向判別処理を説明するフローチャートである。信号処理装置の構成例を示す図である。信号処理装置の構成例を示す図である。コンピュータの構成例を示す図である。

以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈本技術について〉
本技術は、直接音の方向を判別する際に、直接音と反射音を含む複数の音のうち、時間的に先行してマイクロホンに到達した音を直接音とみなすことで、直接音の方向の判別精度を向上させることができるようにしたものである。

例えば本技術では前段に音声区間検出ブロックが設けられ、時間的に先行する音の判別のために、略同時に検出された２つの音声区間の音の各方向の成分が強調され、強調された音声区間の相互相関が計算されて相互相関のピーク位置が検出される。そして、それらのピーク位置に基づいて、どちらの音が時間的に先行しているかが判別される。

また、直接音の方向の判別時には、機器ノイズなどの定常雑音に対してロバスト（頑健）にするために相互相関の計算結果に基づいて雑音推定および雑音抑圧が行われる。

さらに、例えば相互相関のピークの大きさ（最大値）を用いて信頼度を算出し、その信頼度が低い場合にはMUSICスペクトル（空間スペクトル）の強度が強い方を直接音と判別することで、さらに判別精度を向上させることができる。

このような本技術は、複数のマイクロホンを有する対話型エージェントなどに適用することができる。

例えば本技術を適用した対話型エージェントでは、話者方向を精度よく検出することができる。すなわち、同時に複数方向から検出された音声のうち、どちらが直接音でどちらが反射音であるかの判別を高精度に行うことができる。

なお、以下においてはマイクロホンに到達する音のうち、複数回の反射によりマイクロホン到達時には方向性を失ったものは残響と定義し、反射（反射音）とは区別されている。

例えば対話型エージェントシステムにおいて、ユーザの呼びかけに応じて、話者であるユーザの方向を向くインタラクションを実現するためには、ユーザの方向を高い精度で推定することが必要である。

しかし、例えば図１に示すように、実リビング環境においてはユーザU11の発話による直接音だけでなく、壁やテレビOB11などによって反射した音声もマイクロホンMK11に到達する。

この例では、対話型エージェントシステムがマイクロホンMK11によりユーザU11の発話音声を収音し、収音により得られた信号からユーザU11の方向、つまりユーザU11の発話の直接音の方向を判別し、その判別結果に基づいてユーザU11の方向を向く。

ところが、空間内にはテレビOB11が配置されており、マイクロホンMK11により収音して得られた信号からは、矢印A11に示す直接音だけでなく、直接音の方向とは別の方向から到来する反射音も検出されることがある。この例では、矢印A12がテレビOB11で反射された反射音を表している。

対話型エージェント等では、このような直接音と反射音の方向を精度よく判別する技術が必要となる。

そこで、本技術では、直接音と反射音が有する物理的な特性に着目し、直接音と反射音の方向を高精度に判別することができるようにした。

すなわち、直接音と反射音のマイクロホンに到達するタイミングについて、直接音は反射音よりも先にマイクロホンに到達するという特性がある。

また、直接音と反射音の点音源らしさについて、直接音は反射せずにマイクロホンに到達するので点音源性が強く、反射音は壁面での反射時に拡散が発生することから点音源性が弱くなるという特性がある。

本技術では、これらのマイクロホンに到達するタイミングおよび点音源らしさに関する特性が利用されて直接音の方向が判別される。

このような手法を用いることにより、例えば空調やテレビなど、リビングで発生する雑音や、機器自身のファン音、サーボ音などの雑音がある状態においても、直接音と反射音の方向を高精度に判別することができるようになる。

特に、例えば図２に示すように、マイクロホンMK11から見て、話者であるユーザU11と、比較的大きな雑音の音源AS11とが同じ方向にある場合においても、ユーザU11の方向が直接音の方向であると正しく判別することが可能である。なお、図２において図１における場合と対応する部分には同一の符号を付してあり、その説明は省略する。

〈信号処理装置の構成例〉
それでは以下、音がマイクロホンに到達するタイミングおよび点音源らしさに着目した直接音と反射音の方向の判別手法について、より具体的に説明を行う。

図３は、本技術を適用した信号処理装置の一実施の形態の構成例を示す図である。

図３に示す信号処理装置１１は、例えば対話型エージェント等を実現する機器に設けられ、複数マイクロホンによって取得された音声信号を入力として、複数方向から同時に到来した音声を検出し、そのなかの話者の方向に対応する直接音の方向を出力する。

信号処理装置１１は、マイク入力部２１、時間周波数変換部２２、空間スペクトル算出部２３、音声区間検出部２４、同時発生区間検出部２５、および直接音／反射音判別部２６を有している。

マイク入力部２１は、例えば複数のマイクロホンからなるマイクアレイにより構成され、周囲の音を収音し、その結果得られたPCM（Pulse Code Modulation）信号である音声信号を時間周波数変換部２２に供給する。すなわち、マイク入力部２１は、周囲の音の音声信号を取得する。

例えばマイク入力部２１を構成するマイクアレイは、環状マイクアレイや球状マイクアレイ、直線マイクアレイなど、どのようなものであってもよい。

時間周波数変換部２２は、マイク入力部２１から供給された音声信号に対して、音声信号の時間フレームごとに時間周波数変換を行うことで、時間信号である音声信号を周波数信号である入力信号ｘ_ｋに変換する。

なお、入力信号ｘ_ｋにおけるｋは周波数を示すインデックスであり、入力信号ｘ_ｋは、マイク入力部２１を構成するマイクアレイのマイクロホン数分の次元の成分を有する複素数ベクトルとなる。

時間周波数変換部２２は、時間周波数変換により得られた入力信号ｘ_ｋを空間スペクトル算出部２３および直接音／反射音判別部２６に供給する。

空間スペクトル算出部２３は、時間周波数変換部２２から供給された入力信号ｘ_ｋに基づいて、入力信号ｘ_ｋの各方向の強度を表す空間スペクトルを算出し、音声区間検出部２４に供給する。

例えば空間スペクトル算出部２３は、次式（１）を計算することで、一般化固有値分解を用いたMUSIC法により、マイク入力部２１から見た各方向θにおける空間スペクトルP(θ)を算出する。この空間スペクトルP(θ)はMUSICスペクトルとも呼ばれている。

なお、式（１）においてa(θ)は方向θからのアレイマニフォールドベクトルであり、方向θに配置した、つまりθの方向に配置した音源からマイクロホンまでの伝達特性を表している。

また、式（１）においてMはマイク入力部２１を構成するマイクアレイのマイクロホン数を示しており、Nは音源数を示している。例えば音源数Nは「２」など、予め定められた値とされる。

さらに式（１）において、e_iは部分空間の固有ベクトルであり、次式（２）を満たすものとされる。

式（２）においてRは信号区間の空間相関行列を示しており、Kは雑音区間の空間相関行列を示している。またλ_iは所定の係数を示している。

ここで、入力信号ｘ_ｋにおけるユーザの発話の区間である信号区間の信号を観測信号ｘとし、入力信号ｘ_ｋにおけるユーザの発話以外の区間である雑音区間の信号を観測信号ｙとする。

この場合、空間相関行列Rは以下の式（３）により得ることができ、また空間相関行列Kは以下の式（４）により得ることができる。なお、式（３）および式（４）において、E[]は期待値を示している。

以上の式（１）を計算することで、例えば図４に示す空間スペクトルP(θ)が得られる。なお、図４において横軸は方向θを示しており、縦軸は空間スペクトルP(θ)を示している。ここでは、θは所定の方向を基準とした各方向を示す角度となっている。

図４に示す例では、θ＝０度の方向において空間スペクトルP(θ)の値が強いピークとなっており、このことから０度の方向に音源が存在していると推定することができる。

図３の説明に戻り、音声区間検出部２４は、空間スペクトル算出部２３から供給された空間スペクトルP(θ)に基づいて、入力信号ｘ_ｋ、すなわち音声信号におけるユーザの発話音声の区間である音声区間の開始時刻と終了時刻、および発話音声の到来方向を検出する。

例えば図５の矢印Q11に示すように発話音声がないタイミング、つまりユーザが発話していないタイミングでは、空間スペクトルP(θ)に明瞭なピークは存在しない。なお、図５において横軸は方向θを示しており、縦軸は空間スペクトルP(θ)を示している。

これに対して、発話音声があるタイミング、つまりユーザが発話したタイミングにおいては、矢印Q12に示すように空間スペクトルP(θ)に明瞭なピークが出現する。この例では、θ＝０度の方向において空間スペクトルP(θ)のピークが出現している。

音声区間検出部２４では、このようなピークの変化点を捉えることで、音声区間の開始時刻と終了時刻を検出するとともに、発話音声の到来方向も検出することができる。

例えば音声区間検出部２４は、逐次供給される各時刻（時間フレーム）の空間スペクトルP(θ)に対して、各方向θの空間スペクトルP(θ)と、予め定められた開始検出用閾値thsとを比較する。

そして、音声区間検出部２４は、空間スペクトルP(θ)の値が初めて開始検出用閾値ths以上となった時刻（時間フレーム）を音声区間の開始時刻とする。

また、音声区間検出部２４は、音声区間の開始時刻以降の各時刻について、空間スペクトルP(θ)と予め定められた終了検出用閾値thdとを比較し、空間スペクトルP(θ)が初めて終了検出用閾値thd以下となった時刻（時間フレーム）を音声区間の終了時刻とする。

このとき、音声区間内の各時刻における空間スペクトルP(θ)がピークとなる方向θの平均値が発話音声の到来方向を示す方向θ_１とされる。換言すれば音声区間検出部２４は、方向θの平均値を求めることで発話音声の到来方向である方向θ_１を推定（検出）する。

このような方向θ_１は入力信号ｘ_ｋ、すなわち音声信号から時間的に最初に検出された発話音声であろう音の到来方向を示しており、その方向θ_１についての音声区間は、方向θ_１から到来した発話音声が継続して検出された区間を示している。

通常、ユーザが発話を行うと、その発話音声の直接音は反射音よりも時間的に先行してマイク入力部２１に到達するはずである。そのため、音声区間検出部２４で検出される音声区間は、ユーザの発話音声の直接音の区間である可能性が高い。すなわち、方向θ_１が発話を行ったユーザの方向である可能性が高い。

しかし、マイク入力部２１の周囲で雑音がある場合などにおいては、実際の発話音声の直接音の空間スペクトルP(θ)のピーク部分が欠けてしまうことがあり、そのようなときには発話音声の反射音の区間が音声区間として検出されてしまうこともある。そのため、方向θ_１を検出するだけでは、高精度にユーザの方向を判別することはできない。

図３の説明に戻り、音声区間検出部２４は、以上のようにして検出された音声区間の開始時刻と終了時刻、方向θ_１、および空間スペクトルP(θ)を同時発生区間検出部２５に供給する。

同時発生区間検出部２５は、音声区間検出部２４から供給された音声区間の開始時刻と終了時刻、方向θ_１、および空間スペクトルP(θ)に基づいて、方向θ_１からの発話音声と略同時に方向θ_１とは異なる別方向から到来した発話音声の区間を同時発生区間として検出する。

例えば図６に示すように、時間方向の所定の区間T11が方向θ_１の音声区間として検出されたとする。なお、図６において縦軸は方向θを示しており、横軸は時間を示している。

この場合、同時発生区間検出部２５は、音声区間である区間T11の開始時刻を基準として、その開始時刻よりも前の一定時間の区間T12をpre区間とする。

そして同時発生区間検出部２５は、各方向θについて、そのpre区間における空間スペクトルP(θ)の時間方向の平均値Apre(θ)を算出する。このpre区間は、ユーザが発話を開始する前の区間であり、信号処理装置１１やその周囲で発生する定常雑音等の雑音成分のみが含まれる区間である。ここでいう定常雑音（ノイズ）成分とは、例えば信号処理装置１１に設けられたファンの音やサーボ音など、定常的な雑音である。

また、同時発生区間検出部２５は、音声区間である区間T11の開始時刻を区間先頭とする一定時間の区間T13をpost区間とする。ここではpost区間の終了時刻は、音声区間である区間T11の終了時刻よりも前の時刻とされている。なお、post区間の開始時刻は区間T11の開始時刻よりも後の時刻であればよい。

同時発生区間検出部２５はpre区間における場合と同様に、各方向θについて、post区間における空間スペクトルP(θ)の時間方向の平均値Apost(θ)を算出し、さらに各方向θについて平均値Apost(θ)と平均値Apre(θ)の差分dif(θ)を求める。

続いて同時発生区間検出部２５は、互いに隣接する各方向θの差分dif(θ)を比較することで角度方向（θの方向）における差分dif(θ)のピークを検出する。そして、同時発生区間検出部２５は、ピークが検出された方向θ、つまり差分dif(θ)がピークとなる方向θを、方向θ_１からの発話音声と略同時に発生した同時発生音の到来方向を示す方向θ_２の候補とする。

同時発生区間検出部２５は、方向θ_２の候補とされた１または複数の方向θの差分dif(θ)と所定の閾値thaとを比較し、方向θ_２の候補とされた方向θのうち、差分dif(θ)が閾値tha以上であり、かつ最も差分dif(θ)が大きいものを方向θ_２とする。

これにより、同時発生区間検出部２５によって同時発生音の到来方向である方向θ_２が推定（検出）されたことになる。

例えば閾値thaは、方向θ_１について得られた差分dif(θ_１)に一定の係数を乗算して得られる値などとすればよい。

なお、ここでは方向θ_２として検出される方向が１つである場合について説明するが、方向θ_２の候補とされた方向θのうち、差分dif(θ)が閾値tha以上となる方向θが全て方向θ_２とされるなど、２以上の方向θ_２が検出され得るようにしてもよい。

方向θ_２からの同時発生音は音声区間内で検出された音声であって、方向θ_１からの発話音声と略同時に発生し、その発話音声とは異なる方向からマイク入力部２１に到来（到達）した音声である。したがって、同時発生音は、ユーザの発話音声の直接音または反射音であるはずである。

このようにして方向θ_２を検出することは、方向θ_１からの発話音声と略同時に発生した同時発生音の区間である同時発生区間を検出することであるともいうことができる。なお、方向θ_２についての各時刻の差分dif(θ_２)に対する閾値処理を行うことで、より詳細な同時発生区間を検出することが可能である。

図３の説明に戻り、同時発生区間検出部２５は、同時発生音の方向θ_２を検出すると、方向θ_１および方向θ_２、より詳細には方向θ_１および方向θ_２を示す情報を直接音／反射音判別部２６に供給する。

音声区間検出部２４と同時発生区間検出部２５からなるブロックは、入力信号ｘ_ｋから音声区間を検出するとともに、その音声区間内で検出された２つの音声のマイク入力部２１への到来方向を推定（検出）する方向推定を行う方向推定部として機能するといえる。

直接音／反射音判別部２６は、時間周波数変換部２２から供給された入力信号ｘ_ｋに基づいて、同時発生区間検出部２５から供給された方向θ_１と方向θ_２のうち、何れの方向がユーザの発話音声の直接音の方向であるか、すなわちユーザ（音源）のいる方向であるかを判別し、その判別結果を出力する。換言すれば、直接音／反射音判別部２６は、方向θ_１から到来した音声と、方向θ_２から到来した音声のうち、何れの音声が時間的に先行して、つまりより早いタイミングでマイク入力部２１に到達したかを判別する。

なお、より詳細には直接音／反射音判別部２６は、同時発生区間検出部２５において方向θ_２が検出されなかった場合、つまり閾値tha以上となる差分dif(θ)が検出されなかった場合には、方向θ_１が直接音の方向である旨の判別結果を出力する。

これに対して直接音／反射音判別部２６は、方向θ_１および方向θ_２という複数の方向が方向推定の結果として供給された場合、すなわち音声区間で互いに到来方向が異なる複数の音声が検出された場合、方向θ_１と方向θ_２のうちの何れの方向が直接音の方向であるかを判別し、その判別結果を出力する。

以下では、説明を簡単にするため、同時発生区間検出部２５において必ず１つの方向θ_２が検出されるものとして説明を続ける。

〈直接音／反射音判別部の構成例〉
次に、直接音／反射音判別部２６のより詳細な構成例について説明する。

例えば直接音／反射音判別部２６は、図７に示すように構成される。

図７に示す直接音／反射音判別部２６は、時間差算出部５１、点音源らしさ算出部５２、および統合部５３を有している。

時間差算出部５１は、時間周波数変換部２２から供給された入力信号ｘ_ｋと、同時発生区間検出部２５から供給された方向θ_１および方向θ_２とに基づいて、何れの方向が直接音の方向であるかの判別を行い、その判別結果を統合部５３に供給する。

時間差算出部５１では、方向θ_１からの音声と、方向θ_２からの音声とのマイク入力部２１への到達の時間差に関する情報に基づいて、直接音の方向の判別が行われる。

点音源らしさ算出部５２は、時間周波数変換部２２から供給された入力信号ｘ_ｋと、同時発生区間検出部２５から供給された方向θ_１および方向θ_２とに基づいて、何れの方向が直接音の方向であるかの判別を行い、その判別結果を統合部５３に供給する。

点音源らしさ算出部５２では、方向θ_１からの音声と方向θ_２からの音声のそれぞれの点音源らしさに基づいて直接音の方向の判別が行われる。

統合部５３は、時間差算出部５１から供給された判別結果と、点音源らしさ算出部５２から供給された判別結果とに基づいて直接音の方向の最終的な判別を行い、その判別結果を出力する。すなわち、統合部５３では時間差算出部５１で得られた判別結果と、点音源らしさ算出部５２で得られた判別結果とが統合されて、最終的な判別結果が出力される。

〈時間差算出部の構成例〉
ここで、直接音／反射音判別部２６を構成する各部についてさらに詳細に説明する。

例えば時間差算出部５１は、より詳細には図８に示すように構成される。

図８に示す時間差算出部５１は、方向強調部８１−１、方向強調部８１−２、相関計算部８２、相関結果バッファ８３、定常雑音推定部８４、定常雑音抑圧部８５、および判別部８６を有している。

時間差算出部５１では、方向θ_１からの音声と方向θ_２からの音声のうち、どちらの音が先行してマイク入力部２１に到達したかを特定するために、方向θ_１からの音声の区間である音声区間と、方向θ_２からの音声の区間である同時発生区間の時間差を示す情報が求められる。

方向強調部８１−１は、時間周波数変換部２２から供給された各時間フレームの入力信号ｘ_ｋに対して、同時発生区間検出部２５から供給された方向θ_１の成分を強調する方向強調処理を行い、その結果得られた信号を相関計算部８２に供給する。換言すれば方向強調部８１−１における方向強調処理では、方向θ_１から到来した音声の成分が強調される。

また、方向強調部８１−２は、時間周波数変換部２２から供給された各時間フレームの入力信号ｘ_ｋに対して、同時発生区間検出部２５から供給された方向θ_２の成分を強調する方向強調処理を行い、その結果得られた信号を相関計算部８２に供給する。

なお、以下、方向強調部８１−１および方向強調部８１−２を特に区別する必要のない場合、単に方向強調部８１とも称することとする。

例えば方向強調部８１では、ある方向θ、すなわち方向θ_１または方向θ_２の成分を強調する方向強調処理としてDS（Delay and Sum）ビームフォーマが行われ、入力信号ｘ_ｋにおける方向θの成分が強調された信号ｙ_ｋが生成される。すなわち、入力信号ｘ_ｋに対してDSビームフォーマを適用することで信号ｙ_ｋが得られる。

具体的には、強調方向である方向θと入力信号ｘ_ｋとに基づいて次式（５）を計算することで信号ｙ_ｋを得ることができる。

なお、式（５）においてｗ_ｋは、特定の方向θを強調するためのフィルタ係数を表しており、フィルタ係数ｗ_ｋは、マイク入力部２１を構成するマイクアレイのマイクロホン数の次元の成分を有する複素数ベクトルとなる。また、信号ｙ_ｋおよびフィルタ係数ｗ_ｋにおけるｋは周波数を示すインデックスである。

このような特定の方向θを強調するDSビームフォーマのフィルタ係数ｗ_ｋは、次式（６）により得ることができる。

なお、式（６）においてa_k,θは方向θからのアレイマニフォールドベクトルであり、方向θに配置した、つまりθの方向に配置した音源からマイク入力部２１を構成するマイクアレイのマイクロホンまでの伝達特性を表している。

方向強調部８１−１から相関計算部８２には、方向θ_１の成分が強調された信号ｙ_ｋが供給され、方向強調部８１−２から相関計算部８２には、方向θ_２の成分が強調された信号ｙ_ｋが供給されることになる。

なお、以下では、方向θ_１の成分を強調して得られた信号ｙ_ｋを信号y_θ1,kとも記し、方向θ_２の成分を強調して得られた信号ｙ_ｋを信号y_θ2,kとも称することとする。

さらに時間フレームを識別するインデックスをｎとし、時間フレームｎにおける信号y_θ1,kおよび信号y_θ2,kを、それぞれ信号y_θ1,k,nおよび信号y_θ2,k,nとも記すこととする。

相関計算部８２は、方向強調部８１−１から供給された信号y_θ1,k,nと、方向強調部８１−２から供給された信号y_θ2,k,nとの間の相互相関を計算し、その計算結果を相関結果バッファ８３へと供給して保持させる。

具体的には、例えば相関計算部８２は次式（７）を計算することで、所定の雑音区間と発話区間の各時間フレームｎを対象として、信号y_θ1,k,nと信号y_θ2,k,nの白色化相互相関r_n(τ)を、それらの２つの信号間の相互相関として算出する。

なお、式（７）においてNはフレームサイズを示しており、jは虚数を示している。また、τは時間ずれを表すインデックス、つまり時間のずれ量を示している。さらに式（７）において、y_θ2,k,n ^*は信号y_θ2,k,nの複素共役である。

ここで雑音区間とは、時間フレームｎ＝T₀を開始フレームとし、時間フレームｎ＝T₁を終了フレームとする定常雑音の区間であり、雑音区間は入力信号ｘ_ｋの音声区間よりも前の区間とされる。

例えば開始フレームT₀は、図６に示したpre区間の開始時刻よりも時間的に後であり、かつ音声区間である区間T11の開始時刻よりも時間的に前の時間フレームｎとされる。

また、終了フレームT₁は、開始フレームT₀よりも時間的に後であり、かつ音声区間である区間T11の開始時刻よりも時間的に前の時刻、または区間T11の開始時刻と同じ時刻の時間フレームｎとされる。

これに対して発話区間とは、時間フレームｎ＝T₂を開始フレームとし、時間フレームｎ＝T₃を終了フレームとする、ユーザの発話の直接音や反射音の成分が含まれる区間である。すなわち、発話区間は音声区間内の区間とされる。

例えば開始フレームT₂は、図６に示した音声区間である区間T11の開始時刻の時間フレームｎとされる。また、終了フレームT₃は、開始フレームT₂よりも時間的に後であり、かつ音声区間である区間T11の終了時刻よりも時間的に前か、または区間T11の終了時刻と同じ時刻の時間フレームｎとされる。

相関計算部８２では、検出された発話音声ごとに雑音区間内の各時間フレームｎと発話区間内の各時間フレームｎについて、各インデックスτの白色化相互相関r_n(τ)が求められ、相関結果バッファ８３へと供給される。

これにより、例えば図９に示す白色化相互相関r_n(τ)が得られる。なお、図９において縦軸は白色化相互相関r_n(τ)を示しており、横軸は時間方向のずれ量であるインデックスτを示している。

このような白色化相互相関r_n(τ)は、方向θ_１の成分が強調された信号y_θ1,k,nが、方向θ_２の成分が強調された信号y_θ2,k,nに対して、時間的にどの程度ずれているか、すなわちどの程度進んでいるか、または遅れているかを示す時間差情報となっている。

図８の説明に戻り、相関結果バッファ８３は、相関計算部８２から供給された各時間フレームｎの白色化相互相関r_n(τ)を保持（格納）するとともに、保持している白色化相互相関r_n(τ)を定常雑音推定部８４および定常雑音抑圧部８５に供給する。

定常雑音推定部８４は、相関結果バッファ８３に格納された白色化相互相関r_n(τ)に基づいて、検出された発話音声ごとに定常雑音の推定を行う。

例えば信号処理装置１１が設けられた実際の機器においては、ファンの音やサーボ音など、機器自身が音源となる雑音が常時発生している。

定常雑音抑圧部８５では、これらの雑音に対してロバストに動作させるための雑音抑圧が行われる。そこで、定常雑音推定部８４では、発話前の区間、すなわち雑音区間における白色化相互相関r_n(τ)を時間方向に平均することで、定常雑音成分を推定する。

具体的には、例えば定常雑音推定部８４は、雑音区間における白色化相互相関r_n(τ)に基づいて次式（８）を計算することで、発話区間の白色化相互相関r_n(τ)に含まれているであろう定常雑音成分σ(τ)を算出する。

なお、式（８）において、T₀およびT₁は、それぞれ雑音区間の開始フレームT₀および終了フレームT₁を示している。したがって定常雑音成分σ(τ)は、雑音区間の各時間フレームｎの白色化相互相関r_n(τ)の平均値となる。定常雑音推定部８４は、このようにして得られた定常雑音成分σ(τ)を定常雑音抑圧部８５に供給する。

雑音区間は音声区間よりも前の区間であり、ユーザの発話音声の成分は含まれていない定常雑音成分のみが含まれる区間である。これに対して、発話区間にはユーザの発話音声だけでなく定常雑音も含まれている。

また、信号処理装置１１自身やその周囲の雑音源からの定常雑音は、雑音区間にも発話区間にも同程度含まれているはずである。したがって、定常雑音成分σ(τ)を発話区間の白色化相互相関r_n(τ)に含まれている定常雑音成分とみなして、発話区間の白色化相互相関r_n(τ)に対する雑音抑圧を行えば、発話音声成分のみの白色化相互相関を得ることができるはずである。

定常雑音抑圧部８５は、定常雑音推定部８４から供給された定常雑音成分σ(τ)に基づいて、相関結果バッファ８３から供給された発話区間の白色化相互相関r_n(τ)に含まれている定常雑音成分を抑圧する処理を行い、白色化相互相関c(τ)を得る。

すなわち、定常雑音抑圧部８５は次式（９）を計算することで、定常雑音成分が抑圧された白色化相互相関c(τ)を算出する。

なお、式（９）においてT₂およびT₃は、それぞれ発話区間の開始フレームT₂および終了フレームT₃を示している。

式（９）では、発話区間における白色化相互相関r_n(τ)の平均値から、定常雑音推定部８４で得られた定常雑音成分σ(τ)が差し引かれて白色化相互相関c(τ)とされている。

このような式（９）計算により、例えば図１０に示す白色化相互相関c(τ)が得られる。なお、図１０において縦軸は白色化相互相関を示しており、横軸は時間方向のずれ量であるインデックスτを示している。

図１０において、矢印Q31に示す部分には発話区間における各時間フレームｎの白色化相互相関r_n(τ)の平均値が示されており、矢印Q32に示す部分には定常雑音成分σ(τ)が示されている。また、矢印Q33に示す部分には白色化相互相関c(τ)が示されている。

矢印Q31に示す部分から分かるように白色化相互相関r_n(τ)の平均値には、定常雑音成分σ(τ)と同様の定常雑音成分が含まれているが、定常雑音の抑圧を行うことで、矢印Q33に示すように定常雑音が除去された白色化相互相関c(τ)を得ることができる。

このように白色化相互相関r_n(τ)から定常雑音成分を除去することで、後段の判別部８６において、より高精度に直接音の方向を判別することができるようになる。

図８の説明に戻り、定常雑音抑圧部８５は、定常雑音の抑圧により得られた白色化相互相関c(τ)を判別部８６に供給する。

判別部８６は、同時発生区間検出部２５から供給された方向θ_１と方向θ_２について、定常雑音抑圧部８５から供給された白色化相互相関c(τ)に基づいて、方向θ_１と方向θ_２の何れの方向が直接音の方向、つまりユーザの方向であるかを判別（判定）する。すなわち、判別部８６では、音声のマイク入力部２１への到達タイミングの時間差に基づく判別処理が行われる。

具体的には、判別部８６では、白色化相互相関c(τ)に基づいて、方向θ_１と方向θ_２のどちらが時間的に先行しているかを判定することにより、直接音の方向が判別される。

例えば判別部８６は、次式（１０）を計算することにより最大値γ_τ＜０と最大値γ_τ≧０を算出する。

ここで、最大値γ_τ＜０はインデックスτが０未満である領域、つまりτ＜０である領域における白色化相互相関c(τ)の最大値、すなわちピーク値である。これに対して、最大値γ_τ≧０はインデックスτが０以上である領域、つまりτ≧０である領域における白色化相互相関c(τ)の最大値である。

さらに判別部８６は、次式（１１）に示すように最大値γ_τ＜０と最大値γ_τ≧０の大小関係を特定することで、方向θ_１からの音声と方向θ_２からの音声のうちの何れの音声が時間的に先行しているかを判別する。これにより、直接音の方向が判別されたことになる。

なお、式（１１）においてθ_ｄは、判別部８６により判別された直接音の方向を示している。すなわち、ここでは最大値γ_τ＜０が最大値γ_τ≧０以上である場合、方向θ_１が直接音の方向θ_ｄであるとされ、逆に最大値γ_τ＜０が最大値γ_τ≧０未満である場合、方向θ_２が直接音の方向θ_ｄであるとされる。

また、判別部８６は、最大値γ_τ＜０と最大値γ_τ≧０に基づいて次式（１２）を計算することにより、判別により得られた方向θ_ｄの確からしさを示す信頼度α_ｄも算出する。

式（１２）では、最大値γ_τ＜０と最大値γ_τ≧０の大小関係に応じて、それらの最大値γ_τ＜０と最大値γ_τ≧０の比を求めることで信頼度α_ｄが算出されている。

判別部８６は、以上の処理により得られた方向θ_ｄと信頼度α_ｄを、直接音の方向の判別結果として統合部５３に供給する。

〈点音源らしさ算出部の構成例〉
次に、点音源らしさ算出部５２の構成例について説明する。

例えば点音源らしさ算出部５２は、図１１に示すように構成される。

図１１に示す点音源らしさ算出部５２は、空間スペクトル算出部１１１−１、空間スペクトル算出部１１１−２、および空間スペクトル判別モジュール１１２を有している。

空間スペクトル算出部１１１−１は、時間周波数変換部２２から供給された入力信号ｘ_ｋ、および同時発生区間検出部２５から供給された方向θ_１に基づいて、入力信号ｘ_ｋの音声区間の開始時刻以降の時刻における方向θ_１の空間スペクトルμ_１を算出する。

ここでは、例えば音声区間の開始時刻以降の所定の時刻における方向θ_１の空間スペクトルが空間スペクトルμ_１として算出されてもよいし、音声区間や発話区間の各時刻における方向θ_１の空間スペクトルの平均値が空間スペクトルμ_１として算出されてもよい。

空間スペクトル算出部１１１−１は、得られた空間スペクトルμ_１と方向θ_１を空間スペクトル判別モジュール１１２に供給する。

空間スペクトル算出部１１１−２は、時間周波数変換部２２から供給された入力信号ｘ_ｋ、および同時発生区間検出部２５から供給された方向θ_２に基づいて、入力信号ｘ_ｋの音声区間の開始時刻以降の時刻における方向θ_２の空間スペクトルμ_２を算出する。

例えば音声区間の開始時刻以降の所定の時刻における方向θ_２の空間スペクトルが空間スペクトルμ_２として算出されてもよいし、音声区間や同時発生区間の各時刻における方向θ_２の空間スペクトルの平均値が空間スペクトルμ_２として算出されてもよい。

空間スペクトル算出部１１１−２は、得られた空間スペクトルμ_２と方向θ_２を空間スペクトル判別モジュール１１２に供給する。

なお、以下、空間スペクトル算出部１１１−１および空間スペクトル算出部１１１−２を特に区別する必要のない場合、単に空間スペクトル算出部１１１とも称する。

空間スペクトル算出部１１１における空間スペクトルの算出方法は、例えばMUSIC法など、どのような方法とされてもよいが、空間スペクトル算出部２３における場合と同様の方法で算出されたものを用いるのであれば、空間スペクトル算出部１１１を設ける必要はない。この場合、空間スペクトル算出部２３から空間スペクトル判別モジュール１１２へと空間スペクトルP(θ)が供給されるようにすればよい。

空間スペクトル判別モジュール１１２は、空間スペクトル算出部１１１−１から供給された空間スペクトルμ_１と方向θ_１、および空間スペクトル算出部１１１−２から供給された空間スペクトルμ_２と方向θ_２に基づいて直接音の方向の判別を行う。すなわち、空間スペクトル判別モジュール１１２では、点音源らしさに基づく判別処理が行われる。

具体的には、例えば空間スペクトル判別モジュール１１２は、次式（１３）に示すように空間スペクトルμ_１と空間スペクトルμ_２の大小関係を特定することで、方向θ_１と方向θ_２のうちの何れの方向が直接音の方向であるかを判別する。

空間スペクトル算出部１１１で得られる空間スペクトルμ_１や空間スペクトルμ_２は、方向θ_１や方向θ_２から到来する音声の点音源らしさを示しており、その空間スペクトルの値が大きいほど点音源らしさの度合いは高くなる。したがって式（１３）では、より空間スペクトルが大きい方向が直接音の方向θ_ｄであると判別される。

空間スペクトル判別モジュール１１２は、このようにして得られた直接音の方向θ_ｄを、直接音の方向の判別結果として統合部５３に供給する。

なお、ここでは方向θ_１や方向θ_２から到来する音声の点音源らしさの指標として空間スペクトルの値そのもの、つまり空間スペクトルの大きさが用いられる場合を例として説明したが、点音源らしさを示すものであれば、他のどのようなものが用いられてもよい。

例えば各方向θの空間スペクトルP(θ)を求め、その空間スペクトルP(θ)の方向θ_１や方向θ_２における尖度を、それらの方向θ_１や方向θ_２から到来する音声の点音源らしさを示す情報として用いてもよい。この場合、方向θ_１と方向θ_２のうちの尖度が大きい方の方向が直接音の方向θ_ｄであると判別される。

また、空間スペクトル判別モジュール１１２では、直接音の方向θ_ｄが判別結果として出力される例について説明するが、時間差算出部５１における場合と同様に直接音の方向θ_ｄの信頼度も算出するようにしてもよい。

そのような場合、空間スペクトル判別モジュール１１２は、例えば空間スペクトルμ_１や空間スペクトルμ_２に基づいて信頼度β_ｄを算出し、方向θ_ｄと信頼度β_ｄを直接音の方向の判別結果として統合部５３に供給する。

また、統合部５３は、時間差算出部５１の判別部８６から供給された判別結果としての方向θ_ｄおよび信頼度α_ｄと、点音源らしさ算出部５２の空間スペクトル判別モジュール１１２から供給された判別結果としての方向θ_ｄとに基づいて最終的な判別を行う。

例えば統合部５３は、信頼度α_ｄが予め定められた所定の閾値以上である場合には、判別部８６から供給された方向θ_ｄを最終的な直接音の方向の判別結果として出力する。

これに対して、統合部５３は、信頼度α_ｄが予め定められた所定の閾値未満である場合には、空間スペクトル判別モジュール１１２から供給された方向θ_ｄを最終的な直接音の方向の判別結果として出力する。

なお、最終的な判別に信頼度β_ｄも用いられる場合には、統合部５３は信頼度α_ｄと信頼度β_ｄに基づいて最終的な直接音の方向θ_ｄを判別する。

さらに、以上においては同時発生区間検出部２５において方向θ_２が１つだけ検出される場合について説明した。しかし、方向θ_２が複数検出される場合には、方向θ_１と複数の方向θ_２のうちの２つの方向の組み合わせを順番に選択して直接音／反射音判別部２６における処理を繰り返し実行すればよい。この場合、例えば方向θ_１と複数の方向θ_２のうちの最も時間的に先行している音声の方向、つまり最も早くマイク入力部２１に到達した音声の方向が直接音の方向として判別されることになる。

〈直接音方向判別処理の説明〉
次に、以上において説明した信号処理装置１１の動作について説明する。すなわち、以下、図１２のフローチャートを参照して、信号処理装置１１による直接音方向判別処理について説明する。

ステップＳ１１において、マイク入力部２１は周囲の音を収音し、その結果得られた音声信号を時間周波数変換部２２に供給する。

ステップＳ１２において、時間周波数変換部２２はマイク入力部２１から供給された音声信号に対して時間周波数変換を行い、その結果得られた入力信号ｘ_ｋを空間スペクトル算出部２３、方向強調部８１、および空間スペクトル算出部１１１に供給する。

ステップＳ１３において、空間スペクトル算出部２３は、時間周波数変換部２２から供給された入力信号ｘ_ｋに基づいて空間スペクトルP(θ)を算出し、音声区間検出部２４に供給する。例えばステップＳ１３では、上述した式（１）を計算することにより空間スペクトルP(θ)が算出される。

ステップＳ１４において、音声区間検出部２４は、空間スペクトル算出部２３から供給された空間スペクトルP(θ)に基づいて音声区間と発話音声の方向θ_１を検出し、その検出結果と空間スペクトルP(θ)を同時発生区間検出部２５に供給する。

例えば音声区間検出部２４は、空間スペクトルP(θ)と、開始検出用閾値thsや終了検出用閾値thdとを比較することで音声区間を検出するとともに、空間スペクトルP(θ)のピークの平均を求めることで発話音声の方向θ_１を検出する。

ステップＳ１５において、同時発生区間検出部２５は音声区間検出部２４から供給された検出結果および空間スペクトルP(θ)に基づいて同時発生音の方向θ_２を検出し、方向θ_１と方向θ_２を方向強調部８１、判別部８６、および空間スペクトル算出部１１１に供給する。

すなわち、同時発生区間検出部２５は、音声区間の検出結果と空間スペクトルP(θ)に基づいて、各方向θについて差分dif(θ)を求め、その差分dif(θ)のピークと閾値thaとを比較することで同時発生音の方向θ_２を検出する。また、同時発生区間検出部２５は、必要に応じて同時発生音の同時発生区間の検出も行う。

ステップＳ１６において方向強調部８１は、時間周波数変換部２２から供給された入力信号ｘ_ｋに対して、同時発生区間検出部２５から供給された方向の成分を強調する方向強調処理を行い、その結果得られた信号を相関計算部８２に供給する。

例えばステップＳ１６では、上述した式（５）の計算が行われ、その結果得られた、方向θ_１の成分が強調された信号y_θ1,k,nと、方向θ_２の成分が強調された信号y_θ2,k,nとが相関計算部８２に供給される。

ステップＳ１７において相関計算部８２は、方向強調部８１から供給された信号y_θ1,k,nおよび信号y_θ2,k,nの白色化相互相関r_n(τ)を算出し、相関結果バッファ８３へと供給して保持させる。例えばステップＳ１７では、上述した式（７）の計算が行われて白色化相互相関r_n(τ)が算出される。

ステップＳ１８において定常雑音推定部８４は、相関結果バッファ８３に格納された白色化相互相関r_n(τ)に基づいて定常雑音成分σ(τ)を推定し、定常雑音抑圧部８５に供給する。例えばステップＳ１８では、上述した式（８）の計算が行われ、定常雑音成分σ(τ)が算出される。

ステップＳ１９において定常雑音抑圧部８５は、定常雑音推定部８４から供給された定常雑音成分σ(τ)に基づいて、相関結果バッファ８３から供給された発話区間の白色化相互相関r_n(τ)の定常雑音成分を抑圧することで、白色化相互相関c(τ)を算出する。

例えば定常雑音抑圧部８５は、上述した式（９）を計算することで白色化相互相関c(τ)を算出し、判別部８６に供給する。

ステップＳ２０において判別部８６は、定常雑音抑圧部８５から供給された白色化相互相関c(τ)に基づいて、同時発生区間検出部２５から供給された方向θ_１と方向θ_２について時間差に基づく直接音の方向θ_ｄの判別を行い、その判別結果を統合部５３に供給する。

例えば判別部８６は、上述した式（１０）および式（１１）を計算することで直接音の方向θ_ｄを判別するとともに、式（１２）を計算して信頼度α_ｄを算出し、直接音の方向θ_ｄと信頼度α_ｄを統合部５３に供給する。

ステップＳ２１において空間スペクトル算出部１１１は、時間周波数変換部２２から供給された入力信号ｘ_ｋ、および同時発生区間検出部２５から供給された方向に基づいて、その方向の空間スペクトルを算出する。

例えばステップＳ２１では、MUSIC法などにより方向θ_１の空間スペクトルμ_１と方向θ_２の空間スペクトルμ_２が算出され、それらの空間スペクトルと、方向θ_１および方向θ_２とが空間スペクトル判別モジュール１１２に供給される。

ステップＳ２２において空間スペクトル判別モジュール１１２は、空間スペクトル算出部１１１から供給された空間スペクトルおよび方向に基づいて、点音源らしさに基づく直接音の方向の判別を行い、その判別結果を統合部５３に供給する。

例えばステップＳ２２では、上述した式（１３）の計算が行われ、その結果得られた直接音の方向θ_ｄが統合部５３に供給される。なお、このとき信頼度β_ｄが算出されるようにしてもよい。

ステップＳ２３において統合部５３は、判別部８６から供給された判別結果と、空間スペクトル判別モジュール１１２から供給された判別結果とに基づいて、直接音の方向の最終的な判別を行い、その判別結果を後段に出力する。

例えば統合部５３は、信頼度α_ｄが所定の閾値以上である場合、判別部８６から供給された方向θ_ｄを最終的な直接音の方向の判別結果として出力し、信頼度α_ｄが所定の閾値未満である場合、空間スペクトル判別モジュール１１２から供給された方向θ_ｄを最終的な直接音の方向の判別結果として出力する。

このようにして直接音の方向θ_ｄの判別結果が出力されると、直接音方向判別処理は終了する。

以上のようにして信号処理装置１１は、収音により得られた音声信号について、時間差に基づく判別と点音源らしさに基づく判別を行い、それらの判別結果に基づいて直接音の方向の最終的な判別を行う。

このように到達タイミングと点音源性という直接音と反射音の特性を利用して直接音の方向を判別することで、直接音の方向の判別精度を向上させることができる。

〈第２の実施の形態〉
〈信号処理装置の構成例〉
以上において説明した直接音の方向の判別結果は、例えば発話を行ったユーザに対するフィードバックなどに利用することが可能である。

このように直接音の方向の判別結果（推定結果）について、ユーザに対して何らかのフィードバックを行う場合、信号処理装置は図１３に示す構成とすることができる。なお、図１３において図３における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図１３に示す信号処理装置１５１は、マイク入力部２１、時間周波数変換部２２、エコーキャンセラ１６１、空間スペクトル算出部２３、音声区間検出部２４、同時発生区間検出部２５、直接音／反射音判別部２６、雑音抑圧部１６２、音声／非音声判別部１６３、スイッチ１６４、音声認識部１６５、および方向推定結果提示部１６６を有している。

信号処理装置１５１の構成は、図３の信号処理装置１１の時間周波数変換部２２と空間スペクトル算出部２３の間にエコーキャンセラ１６１を設け、さらにエコーキャンセラ１６１に雑音抑圧部１６２乃至方向推定結果提示部１６６を接続した構成となっている。

例えば信号処理装置１５１はスピーカやマイクロホンを有し、複数のマイクロホンによって取得された音声信号から、直接音に相当する音声に対して音声認識を行い、話者方向の音を認識していることのフィードバックを行う機器やシステムなどとすることができる。

信号処理装置１５１では、時間周波数変換部２２で得られた入力信号はエコーキャンセラ１６１へと供給される。

エコーキャンセラ１６１は、時間周波数変換部２２から供給された入力信号に対して、信号処理装置１５１自身に設けられたスピーカにより再生された音の抑圧を行う。

例えば信号処理装置１５１自身に設けられたスピーカにより再生されたシステム発話や音楽はマイク入力部２１へと回り込んで収音され、雑音となってしまう。

そこでエコーキャンセラ１６１では、スピーカにより再生される音を参照信号として利用することで回り込み雑音の抑圧が行われる。

例えばエコーキャンセラ１６１は、スピーカとマイク入力部２１の間の伝達特性を逐次的に推定し、マイク入力部２１に回り込むスピーカの再生音を予測して、実際のマイク入力信号である入力信号から差し引くことでスピーカの再生音を抑圧する。

すなわち、例えばエコーキャンセラ１６１は、次式（１４）を計算することで、スピーカの再生音が抑圧された信号e(n)を算出する。

なお、式（１４）において、d(n)は時間周波数変換部２２から供給された入力信号を示しており、x(n)はスピーカの再生音の信号、すなわち参照信号を示している。また、式（１４）において、w(n)はスピーカとマイク入力部２１の間の推定伝達特性を示している。

例えば所定の時間フレーム(n+1)における推定伝達特性w(n+1)は、その直前の時間フレームｎにおける推定伝達特性w(n)、信号e(n)、および参照信号x(n)に基づいて、次式（１５）を計算することで得ることができる。なお、式（１５）においてμは収束速度調整変数である。

エコーキャンセラ１６１は、式（１４）を計算して得られた信号e(n)を、空間スペクトル算出部２３、雑音抑圧部１６２、および直接音／反射音判別部２６に供給する。

なお、以下では、エコーキャンセラ１６１から出力される信号e(n)を入力信号ｘ_ｋと記すこととする。エコーキャンセラ１６１から出力される信号e(n)は、第１の実施の形態で説明した時間周波数変換部２２の出力である入力信号ｘ_ｋに対してスピーカの再生音の抑圧を行ったものであるから、この信号e(n)は時間周波数変換部２２から出力される入力信号ｘ_ｋと略同等であるということができる。

空間スペクトル算出部２３は、エコーキャンセラ１６１から供給された入力信号ｘ_ｋから空間スペクトルP(θ)を算出し、音声区間検出部２４に供給する。

音声区間検出部２４は、空間スペクトル算出部２３から供給された空間スペクトルP(θ)に基づいて、音声認識部１６５における音声認識対象の発話の候補となる音声の音声区間を検出し、音声区間の検出結果と方向θ_１と空間スペクトルP(θ)とを同時発生区間検出部２５に供給する。

同時発生区間検出部２５は、音声区間検出部２４から供給された音声区間の検出結果、方向θ_１、および空間スペクトルP(θ)に基づいて同時発生区間と方向θ_２を検出し、音声区間の検出結果と方向θ_１、および同時発生区間の検出結果と方向θ_２を直接音／反射音判別部２６に供給する。

直接音／反射音判別部２６は、同時発生区間検出部２５から供給された方向θ_１および方向θ_２と、エコーキャンセラ１６１から供給された入力信号ｘ_ｋとに基づいて直接音の方向θ_ｄを判別する。

直接音／反射音判別部２６は、判別結果としての方向θ_ｄと、その方向θ_ｄからの直接音成分が含まれる直接音区間を示す直接音区間情報とを雑音抑圧部１６２、および方向推定結果提示部１６６に供給する。

例えば、方向θ_ｄ＝θ_１であると判別された場合、音声区間検出部２４で検出された音声区間が直接音区間であるとされ、その音声区間の開始時刻と終了時刻が直接音区間情報とされる。これに対して方向θ_ｄ＝θ_２であると判別された場合、同時発生区間検出部２５で検出された同時発生区間が直接音区間であるとされ、その同時発生区間の開始時刻と終了時刻が直接音区間情報とされる。

雑音抑圧部１６２は、直接音／反射音判別部２６から供給された方向θ_ｄおよび直接音区間情報に基づいて、エコーキャンセラ１６１から供給された入力信号ｘ_ｋに対して、方向θ_ｄからの音声成分を強調する処理を行う。

例えば雑音抑圧部１６２では、方向θ_ｄからの音声成分を強調する処理として、複数のマイクロホンにより得られた信号を用いた雑音抑圧手法である最尤ビームフォーマ（MLBF（Maximum Likelihood Beamforming））などが行われる。

なお、方向θ_ｄからの音声成分を強調する処理は、最尤ビームフォーマに限らず、任意の雑音抑圧手法とすることが可能である。

例えば最尤ビームフォーマが行われる場合、雑音抑圧部１６２は、ビームフォーマ係数ｗ_ｋに基づいて次式（１６）を計算することで入力信号ｘ_ｋに対して最尤ビームフォーマを行う。

なお、式（１６）においてｙ_ｋは、入力信号ｘ_ｋに対して最尤ビームフォーマを行うことで得られる信号である。最尤ビームフォーマでは、複数チャンネルの入力信号ｘ_ｋに対して、１チャンネルの信号ｙ_ｋが出力として得られる。

また、入力信号ｘ_ｋおよびビームフォーマ係数ｗ_ｋにおけるｋは周波数のインデックスであり、入力信号ｘ_ｋおよびビームフォーマ係数ｗ_ｋは、マイク入力部２１を構成するマイクアレイのマイクロホン数の次元の成分を有する複素数ベクトルとなる。

さらに、最尤ビームフォーマのビームフォーマ係数ｗ_ｋは、次式（１７）により得ることができる。

なお、式（１７）においてa_k,θは方向θからのアレイマニフォールドベクトルであり、方向θに配置した、つまりθの方向に配置した音源からマイク入力部２１を構成するマイクアレイのマイクロホンまでの伝達特性を表している。特にここでは、方向θは、直接音の方向θ_ｄとされる。

また、式（１７）におけるＲ_ｋは雑音相関行列であり、入力信号ｘ_ｋに基づいて以下の式（１８）の計算により得ることができる。なお、式（１８）においてE[]は期待値を示している。

最尤ビームフォーマは、発話者であるユーザの方向θ_ｄからの音声を変化させないように拘束した条件で、出力エネルギを最小化することにより、発話者の方向θ_ｄ以外の方向からの雑音を抑圧する手法となっている。これにより、雑音が抑圧されるとともに相対的に方向θ_ｄからの音声成分が強調される。

例えば誤って入力信号ｘ_ｋにおける反射音の方向の成分が強調された場合、反射の経路によっては、特定周波数が強調されたり減衰によって周波数特性が乱れたりして、後段の音声認識部１６５における音声認識率が低下してしまうことがある。

しかし、信号処理装置１５１では、直接音の方向θ_ｄの判別を行うことで直接音の方向θ_ｄの成分を強調し、音声認識率の低下を抑制することが可能となる。

さらに、雑音抑圧部１６２において最尤ビームフォーマにより得られた１チャンネルの音声信号、つまり式（１６）で得られる信号ｙ_ｋに対するポストフィルタの処理として、ウィーナーフィルタを用いた雑音抑圧を行うようにしてもよい。

そのような場合、例えばウィーナーフィルタのゲインＷ_ｋは、次式（１９）により得ることができる。

なお、式（１９）においてＳ_ｋは目的信号のパワースペクトルを示しており、ここでは直接音／反射音判別部２６から供給された直接音区間情報により示される直接音区間の信号である。これに対して、Ｎ_ｋは雑音信号のパワースペクトルを示しており、ここでは直接音区間ではない区間の信号である。これらのパワースペクトルＳ_ｋおよびパワースペクトルＮ_ｋは、直接音区間情報と信号ｙ_ｋから得ることができる。

また、雑音抑圧部１６２は、最尤ビームフォーマにより得られた信号ｙ_ｋとゲインＷ_ｋに基づいて、次式（２０）を計算することで雑音が抑圧された信号ｚ_ｋを算出する。

雑音抑圧部１６２は、このようにして得られた信号ｚ_ｋを音声／非音声判別部１６３およびスイッチ１６４に供給する。

なお、雑音抑圧部１６２では、直接音区間のみが対象とされて最尤ビームフォーマ、およびウィーナーフィルタによる雑音抑圧が行われる。したがって、雑音抑圧部１６２からは直接音区間の信号ｚ_ｋだけが出力される。

音声／非音声判別部１６３は、雑音抑圧部１６２から供給された信号ｚ_ｋに対して、直接音区間ごとに、それらの直接音区間が音声の区間であるか雑音（非音声）の区間であるかの判別を行う。

音声区間検出部２４では、空間情報を活用した音声区間検出を行っているので、実際には音声だけでなく雑音も発話音声として検出されることがある。

そこで、音声／非音声判別部１６３は、例えば事前に構築された判別器を利用して信号ｚ_ｋが音声の区間の信号であるか、または雑音の区間の信号であるかを判別する。すなわち、音声／非音声判別部１６３は、直接音区間の信号ｚ_ｋを判別器に代入して演算を行うことで、その直接音区間が音声の区間であるか、または雑音の区間であるかを判別し、その判別結果に応じてスイッチ１６４の開閉を制御する。

具体的には、音声／非音声判別部１６３は、直接音区間が音声の区間であるとの判別結果が得られた場合、スイッチ１６４をオンさせ、直接音区間が雑音の区間であるとの判別結果が得られた場合、スイッチ１６４をオフさせる。

これにより、雑音抑圧部１６２から出力された各直接音区間の信号ｚ_ｋのうち、音声の区間の信号であるとされたもののみがスイッチ１６４を介して音声認識部１６５へと供給されることになる。

音声認識部１６５は、スイッチ１６４を介して雑音抑圧部１６２から供給された信号ｚ_ｋに対して音声認識を行い、その認識結果を方向推定結果提示部１６６に供給する。音声認識部１６５では、信号ｚ_ｋの区間においてユーザがどのような内容の発話を行ったかが認識される。

方向推定結果提示部１６６は、例えばディスプレイやスピーカ、回転駆動部、LED（Light Emitting Diode）などからなり、方向θ_ｄや音声認識結果に応じた各種の提示をフィードバックとして行う。

すなわち、方向推定結果提示部１６６は、直接音／反射音判別部２６から供給された方向θ_ｄおよび直接音区間情報と、音声認識部１６５から供給された音声認識結果とに基づいて、発話者であるユーザの方向の音を認識していることの提示を行う。

例えば方向推定結果提示部１６６が回転駆動部を有する場合、方向推定結果提示部１６６は、信号処理装置１５１の筐体の一部または全部が、発話者であるユーザがいる方向θ_ｄを向くように、その筐体の一部または全部を回転させるというフィードバックを行う。この場合、筐体の回転動作によって、ユーザがいる方向θ_ｄの提示が行われることになる。

このとき、例えば方向推定結果提示部１６６は、音声認識部１６５から供給された音声認識結果に応じた音声等を、ユーザの発話に対する応答としてスピーカから出力するようにしてもよい。

また、例えば方向推定結果提示部１６６が、信号処理装置１５１の外周を囲むように設けられた複数のLEDを有するとする。この場合、方向推定結果提示部１６６が、それらの複数のLEDのうち、発話者であるユーザがいる方向θ_ｄにあるLEDのみを点灯させ、ユーザを認識していることを伝えるというフィードバックを行ってもよい。換言すれば、方向推定結果提示部１６６がLEDの点灯による方向θ_ｄの提示を行うようにしてもよい。

さらに、例えば方向推定結果提示部１６６がディスプレイを有している場合、方向推定結果提示部１６６がディスプレイを制御し、発話者であるユーザがいる方向θ_ｄに対応する提示をさせるというフィードバックを行うようにしてもよい。

ここで、方向θ_ｄに対応する提示として、例えば方向θ_ｄに向けられた矢印等をUI（User Interface）などの画像上に表示させたり、方向θ_ｄに向けて音声認識部１６５での音声認識結果に対する応答メッセージ等をUIなどの画像上に表示させたりすることなどが考えられる。

〈第３の実施の形態〉
〈信号処理装置の構成例〉
また、画像から人を検出し、その検出結果も用いてユーザの方向を判別するようにしてもよい。

そのような場合、信号処理装置は、例えば図１４に示すように構成される。なお、図１４において図１３における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図１４に示す信号処理装置１９１は、マイク入力部２１、時間周波数変換部２２、エコーキャンセラ１６１、空間スペクトル算出部２３、音声区間検出部２４、同時発生区間検出部２５、直接音／反射音判別部２６、雑音抑圧部１６２、音声／非音声判別部１６３、スイッチ１６４、音声認識部１６５、方向推定結果提示部１６６、カメラ入力部２０１、人検出部２０２、および話者方向決定部２０３を有している。

信号処理装置１９１の構成は、図１３に示した信号処理装置１５１にさらにカメラ入力部２０１乃至話者方向決定部２０３を設けた構成となっている。

信号処理装置１９１では、直接音／反射音判別部２６から雑音抑圧部１６２には、判別結果としての方向θ_ｄと直接音区間情報とが供給される。

また、直接音／反射音判別部２６から人検出部２０２には、判別結果としての方向θ_ｄと、方向θ_１および音声区間の検出結果と、方向θ_２および同時発生区間の検出結果とが供給される。

カメラ入力部２０１は、例えばカメラなどからなり、信号処理装置１９１の周囲を撮像し、その結果得られた画像を人検出部２０２に供給する。以下、カメラ入力部２０１で得られた画像を検出用画像とも称することとする。

人検出部２０２は、カメラ入力部２０１から供給された検出用画像と、直接音／反射音判別部２６から供給された方向θ_ｄ、方向θ_１、音声区間の検出結果、方向θ_２、および同時発生区間の検出結果とに基づいて検出用画像から人を検出する。

例えば、一例として直接音の方向θ_ｄが方向θ_１である場合について説明する。

この場合、人検出部２０２は、まず直接音の方向θ_ｄ＝θ_１からの音声が検出された音声区間に対応する期間において、検出用画像の方向θ_ｄ＝θ_１に対応する領域を対象として顔認識や人物認識を行うことで、その対象となる領域から人を検出する。これにより、直接音の方向θ_ｄに人がいるか否かが検出されることになる。

同様に、人検出部２０２は、反射音の方向θ_２からの音声が検出された同時発生区間に対応する期間において、検出用画像の方向θ_２に対応する領域を対象として顔認識や人物認識を行うことで、その対象となる領域から人を検出する。これにより、反射音の方向θ_２に人がいるか否かが検出されることになる。

このように人検出部２０２では、直接音の方向、および反射音の方向にそれぞれ人が存在するか否かが検出されることになる。

人検出部２０２は、直接音の方向に対する人の検出結果、反射音の方向に対する人の検出結果、方向θ_ｄ、方向θ_１、および方向θ_２を話者方向決定部２０３に供給する。

話者方向決定部２０３は、人検出部２０２から供給された直接音の方向に対する人の検出結果、反射音の方向に対する人の検出結果、方向θ_ｄ、方向θ_１、および方向θ_２に基づいて、最終的に出力する、発話者であるユーザの方向を決定（判別）する。

具体的には、例えば話者方向決定部２０３は、検出用画像に対する人検出により、直接音の方向θ_ｄで人が検出され、反射音の方向では人が検出されなかった場合、ユーザ（発話者）の方向を示す話者方向検出結果として、直接音の方向θ_ｄを示す情報を方向推定結果提示部１６６に供給する。

また、例えば話者方向決定部２０３は、検出用画像に対する人検出により、直接音の方向θ_ｄで人が検出されず、反射音の方向で人が検出された場合、反射音の方向を示す話者方向検出結果を方向推定結果提示部１６６に供給する。この場合、直接音／反射音判別部２６では反射音の方向であるとされた方向が、話者方向決定部２０３においてはユーザ（発話者）の方向であるとされることになる。

さらに、例えば話者方向決定部２０３は、検出用画像に対する人検出により、直接音の方向θ_ｄでも反射音の方向でも人が検出されなかった場合、直接音の方向θ_ｄを示す話者方向検出結果を方向推定結果提示部１６６に供給する。

同様に、例えば話者方向決定部２０３は、検出用画像に対する人検出により、直接音の方向θ_ｄでも反射音の方向でも人が検出された場合、直接音の方向θ_ｄを示す話者方向検出結果を方向推定結果提示部１６６に供給する。

方向推定結果提示部１６６は、話者方向決定部２０３から供給された話者方向検出結果と、音声認識部１６５から供給された音声認識結果とに基づいて、発話者であるユーザの方向の音を認識していることのフィードバック（提示）を行う。

この場合、方向推定結果提示部１６６では、話者方向検出結果が直接音の方向θ_ｄと同様に扱われて、第２の実施の形態における場合と同様のフィードバックが行われる。

以上のように、第１の実施の形態乃至第３の実施の形態で説明した本技術によれば、直接音の方向、すなわちユーザの方向の判別精度を向上させることができる。

例えば本技術は、ユーザにより起動ワードが発せられると起動し、その起動ワードに応じて自身の向きをユーザ方向に向けるインタラクション（フィードバック）等を行う機器などに適用することができる。この場合、本技術では、機器周辺の雑音条件によらず、壁やテレビなどの構造物による反射音の方向ではなく、正しくユーザの方向を向く頻度を高めることができる。

さらに、例えば第２の実施の形態や第３の実施の形態では、雑音抑圧部１６２において、特定方向、すなわち直接音の方向を強調する処理が行われる。このとき、本来は直接音の方向を強調すべきところを誤って反射音の方向が強調されてしまうと、反射の経路によっては特定周波数が強調されたり、減衰によって周波数特性が乱れたりして、後段における音声認識率が低下してしまうことがある。

しかし、本技術では、到達タイミングと点音源性という直接音と反射音の特性を利用することで、直接音の方向を高精度に判別することができるので、そのような音声認識率の低下を抑制することができる。

〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図１５は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

入力部５０６は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、本技術は、以下の構成とすることも可能である。

（１）
音声信号から音声区間を検出し、前記音声区間に含まれる音声の到来方向を推定する方向推定部と、
前記音声区間に対して複数の前記到来方向が前記推定により得られた場合、前記複数の前記到来方向の音声のうちの何れの音声が先行して到達したかを判別する判別部と
を備える信号処理装置。
（２）
前記判別部は、所定の前記到来方向の音声成分が強調された前記音声信号と、他の前記到来方向の音声成分が強調された前記音声信号との相互相関に基づいて前記判別を行う
（１）に記載の信号処理装置。
（３）
前記判別部は、前記相互相関に対して定常雑音成分を抑圧する処理を行い、前記処理が行われた前記相互相関に基づいて前記判別を行う
（２）に記載の信号処理装置。
（４）
前記判別部は、前記到来方向の音声の点音源らしさに基づいて前記判別を行う
（１）乃至（３）の何れか一項に記載の信号処理装置。
（５）
前記点音源らしさは、前記音声信号の空間スペクトルの大きさまたは尖度である
（４）に記載の信号処理装置。
（６）
前記判別の結果に基づく提示を行う提示部をさらに備える
（１）乃至（５）の何れか一項に記載の信号処理装置。
（７）
前記信号処理装置の周囲を撮像して得られた画像からの人の検出結果と、前記判別部による前記判別の結果とに基づいて発話者の方向を決定する決定部をさらに備える
（１）乃至（６）の何れか一項に記載の信号処理装置。
（８）
信号処理装置が、
音声信号から音声区間を検出し、
前記音声区間に含まれる音声の到来方向を推定し、
前記音声区間に対して複数の前記到来方向が前記推定により得られた場合、前記複数の前記到来方向の音声のうちの何れの音声が先行して到達したかを判別する
信号処理方法。
（９）
音声信号から音声区間を検出し、
前記音声区間に含まれる音声の到来方向を推定し、
前記音声区間に対して複数の前記到来方向が前記推定により得られた場合、前記複数の前記到来方向の音声のうちの何れの音声が先行して到達したかを判別する
ステップを含む処理をコンピュータに実行させるプログラム。

１１信号処理装置，２１マイク入力部，２４音声区間検出部，２５同時発生区間検出部，２６直接音／反射音判別部，５１時間差算出部，５２点音源らしさ算出部，５３統合部，１６５音声認識部，１６６方向推定結果提示部，２０１カメラ入力部，２０２人検出部，２０３話者方向決定部

Claims

音声信号から音声区間を検出し、前記音声区間に含まれる音声の到来方向を推定する方向推定部と、
前記音声区間に対して複数の前記到来方向が前記推定により得られた場合、前記複数の前記到来方向の音声のうちの何れの音声が先行して到達したかを判別する判別部と
を備える信号処理装置。
前記判別部は、所定の前記到来方向の音声成分が強調された前記音声信号と、他の前記到来方向の音声成分が強調された前記音声信号との相互相関に基づいて前記判別を行う
請求項１に記載の信号処理装置。
前記判別部は、前記相互相関に対して定常雑音成分を抑圧する処理を行い、前記処理が行われた前記相互相関に基づいて前記判別を行う
請求項２に記載の信号処理装置。
前記判別部は、前記到来方向の音声の点音源らしさに基づいて前記判別を行う
請求項１に記載の信号処理装置。
前記点音源らしさは、前記音声信号の空間スペクトルの大きさまたは尖度である
請求項４に記載の信号処理装置。
前記判別の結果に基づく提示を行う提示部をさらに備える
請求項１に記載の信号処理装置。
前記信号処理装置の周囲を撮像して得られた画像からの人の検出結果と、前記判別部による前記判別の結果とに基づいて発話者の方向を決定する決定部をさらに備える
請求項１に記載の信号処理装置。
信号処理装置が、
音声信号から音声区間を検出し、
前記音声区間に含まれる音声の到来方向を推定し、
前記音声区間に対して複数の前記到来方向が前記推定により得られた場合、前記複数の前記到来方向の音声のうちの何れの音声が先行して到達したかを判別する
信号処理方法。
音声信号から音声区間を検出し、
前記音声区間に含まれる音声の到来方向を推定し、
前記音声区間に対して複数の前記到来方向が前記推定により得られた場合、前記複数の前記到来方向の音声のうちの何れの音声が先行して到達したかを判別する
ステップを含む処理をコンピュータに実行させるプログラム。