WO2016056410A1

WO2016056410A1 - 音声処理装置および方法、並びにプログラム

Info

Publication number: WO2016056410A1
Application number: PCT/JP2015/077242
Authority: WO
Inventors: 祐基光藤
Original assignee: ソニー株式会社
Priority date: 2014-10-10
Filing date: 2015-09-28
Publication date: 2016-04-14
Also published as: US10602266B2; CN106797526A; CN106797526B; US20180279042A1; EP3206415A1; JPWO2016056410A1; JP6604331B2; EP3206415A4; EP3206415B1

Abstract

　本技術は、より低コストで音像の定位を改善することができるようにする音声処理装置および方法、並びにプログラムに関する。マイクアレイは、音源からの音声の平面波を収音する。駆動信号生成部は、マイクアレイによる収音により得られた収音信号の空間周波数スペクトルから、空間領域のスピーカ駆動信号を生成する。方位情報取得部は、話者の方位を示す話者方位情報を取得する。空間フィルタ適用部は、話者方位情報から定まる空間フィルタを用いてスピーカ駆動信号に対してフィルタ処理を施すことで、空間エリアシングを低減させる。本技術は空間エリアシング制御器に適用することができる。

Description

音声処理装置および方法、並びにプログラム

　本技術は音声処理装置および方法、並びにプログラムに関し、特に、より低コストで音像の定位を改善することができるようにした音声処理装置および方法、並びにプログラムに関する。

　従来、平面スピーカアレイや直線スピーカアレイを用いて音場を再現する波面合成技術が知られている。このような波面合成技術は、例えば図１に示すように次世代双方向通信などに利用することができる。

　図１では、通話者W11がいる空間P11と、通話者W12がいる空間P12との間で次世代双方向通信が行われる。

　具体的には、空間P11では、主に通話者W11が発した音声からなる音場Aが図中、縦方向に並べられた複数のマイクロフォンからなる直線マイクアレイMCA11により収音され、その結果得られた音源信号が空間P12へと伝送される。

　この例では、図中の矢印は音源である通話者W11からの音声の伝搬方向を示しており、通話者W11の音声は直線マイクアレイMCA11から見て角度θの方向から到来し、収音される。以下では、この角度θ、つまり音源からの音声の伝搬方向と、マイクアレイを構成するマイクロフォンが並ぶ方向とのなす角度を到来角度θと称することとする。

　空間P12では、空間P11から伝送されてきた音源信号から、音場Aを再現するためのスピーカ駆動信号が生成される。そして、空間P12内に図中、縦方向に並べられた複数のスピーカからなる直線スピーカアレイSPA11により、生成されたスピーカ駆動信号に基づいて音場Aが再現される。

　この例では、図中の矢印は直線スピーカアレイSPA11から出力され、通話者W12へと伝搬される音声の伝搬方向を示している。この伝搬方向と直線スピーカアレイSPA11とのなす角度は、到来角度θと同じ角度となる。

　なお、ここでは図示が省略されているが、空間P12にも直線マイクアレイが設けられており、この直線マイクアレイにより主に通話者W12が発した音声からなる音場Bが収音され、得られた音源信号が空間P11へと伝送される。また、空間P11では、空間P12から伝送されてきた音源信号からスピーカ駆動信号が生成され、得られたスピーカ駆動信号に基づいて図示せぬ直線スピーカアレイにより音場Bが再現される。

　ところで、このようにマイクアレイやスピーカアレイを利用して音場を再現する場合、物理的に正確な音場再現を行うためにはスピーカおよびマイクロフォンを無限個数配置しなければならない。例えば、図１に示した例のようにスピーカやマイクロフォンを離散的に配置すると、空間エリアシングが生じてしまう。

　空間エリアシングに侵されない最も高い空間周波数（以下、上限空間周波数と称する）k_limは、スピーカアレイを構成するスピーカの間隔、またはマイクアレイを構成するマイクロフォンの間隔で計算される空間ナイキスト周波数のより低い方によって決定される。

　すなわち、マイクロフォンの間隔をd_micとし、スピーカの間隔をd_spkとすると、上限空間周波数k_limは次式（１）により求まる。

　このようにして得られる上限空間周波数k_limは音像の定位に影響を与え、一般的に値が高い方が好ましい。

　また、音源信号の周波数（以下、時間周波数と称する）fと空間周波数kの関係は次式（２）に示す通りである。なお、式（２）において、cは音速を示している。

　したがって、特に工夫を行わない場合には、空間エリアシングに侵されない最も高い時間周波数（以下、上限時間周波数と称する）f_limを、式（２）によって求めることが可能となる。上限時間周波数f_limは音質に影響を与え、一般的には値が高い方が再現性が高い、つまりHiFi（High Fidelity）とされる。

　ここで、空間エリアシングについて説明する。図２は、音源からの音声の平面波の到来角度の違いによる空間スペクトルを示したものであり、空間スペクトルは平面波の到来角度によってスペクトルピークの位置が変化することから角度スペクトルとも呼ばれている。なお、図２において、縦軸は時間周波数fを示しており、横軸は空間周波数kを示している。また、直線L11乃至直線L13は、それぞれスペクトルピークを示している。

　図中、左側には、空間サンプリングされる前、すなわちマイクアレイにより収音される前の元の平面波の到来角度θ=0のときの角度スペクトルの様子が示されている。この例では、直線L11に示されるように、スペクトルピークは空間周波数kの正方向に現れる。

　これに対して図中、右側には、離散配置されたマイクロフォンからなるマイクアレイにより到来角度θ=0の平面波が空間サンプリング、つまり収音されて得られた音源信号の角度スペクトルの様子が示されている。

　この例では、直線L12は直線L11に対応し、本来現れるべきスペクトルピークを示している。また、直線L13は空間エリアシングにより出現したスペクトルピークを示しており、この例では時間周波数fが上限時間周波数f_limより高く、かつ空間周波数kが負である領域に顕著に空間エリアシングが生じている。

　空間エリアシングがなければ、本来、空間周波数kが負である領域にスペクトルピークが現れるのは平面波の到来角度θがπ/2≦θ≦πであるときのはずである。

　したがって、図中、右側に示す例では、収音された平面波（音場）を再現すると、空間エリアシングにより生じたスペクトルピークの影響で、様々な異なる角度からの平面波信号が混在しているように音像定位してしまう。

　そのため、収音により得られた音源信号から波面合成のスピーカ駆動信号を生成し、そのスピーカ駆動信号に基づいてスピーカアレイで平面波を再現しても、聴者に正しい平面波を感じさせることができない。なお、上述した次世代双方向通信の例等で通話者同士が近づいた場合には平面波ではなく球面波になるが、平面波の場合と同様のことがいえる。

　以上のように、空間エリアシングが生じると音像を正確に定位させることができなくなってしまう。そこで、空間エリアシングの低減に関して、互いにスピーカ間隔が異なる高音用スピーカユニットと低音用スピーカユニットとの二種類のスピーカアレイを用いることで、空間エリアシングに侵されない上限時間周波数f_limをより高くする技術が提案されている（例えば、特許文献１参照）。この技術によれば、より高い時間周波数を持つ信号の正確な再現が可能となる。

特許第４１２４１８２号公報

　しかしながら、上述した技術では、音像の定位を改善することはできるが、上限時間周波数f_limをより高くするために追加のスピーカアレイ、つまり二種類のスピーカアレイを用意しなければならず、コストがかかってしまう。音像の定位を改善するにあたっては、既存のスピーカアレイのスピーカ間隔を保ちつつ、上限時間周波数f_limをより高くすることが望ましい。

　本技術は、このような状況に鑑みてなされたものであり、より低コストで音像の定位を改善することができるようにするものである。

　本技術の一側面の音声処理装置は、音源の方向を示す方位情報を取得する方位情報取得部と、複数のマイクロフォンからなるマイクアレイにより前記音源からの音声を収音して得られた収音信号に対して、前記方位情報により定まる特性の空間フィルタを適用する空間フィルタ適用部とを備える。

　前記空間フィルタ適用部には、前記方位情報に基づいて、前記空間フィルタの特性として中心周波数およびバンド幅を決定させることができる。

　前記空間フィルタを、前記中心周波数および前記バンド幅により定まる空間周波数の帯域を透過周波数帯域として、前記収音信号の透過周波数帯域の成分を透過させるフィルタとすることができる。

　前記空間フィルタを、前記中心周波数および前記バンド幅により定まる時間周波数の帯域を透過周波数帯域として、前記収音信号の透過周波数帯域の成分を透過させるフィルタとすることができる。

　前記空間フィルタ適用部には、前記方位情報により示される前記音源の方向と、前記マイクアレイとのなす角度がπ/2に近くなるほど前記バンド幅が広くなるように前記空間フィルタの特性を決定させることができる。

　前記マイクアレイを直線マイクアレイとすることができる。

　本技術の一側面の音声処理方法またはプログラムは、音源の方向を示す方位情報を取得し、複数のマイクロフォンからなるマイクアレイにより前記音源からの音声を収音して得られた収音信号に対して、前記方位情報により定まる特性の空間フィルタを適用するステップを含む。

　本技術の一側面においては、音源の方向を示す方位情報が取得され、複数のマイクロフォンからなるマイクアレイにより前記音源からの音声を収音して得られた収音信号に対して、前記方位情報により定まる特性の空間フィルタが適用される。

　本技術の一側面によれば、より低コストで音像の定位を改善することができる。

　なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。

次世代双方向通信について説明する図である。空間エリアシングについて説明する図である。空間エリアシング制御器の構成例を示す図である。空間バンドパスフィルタの特性について説明する図である。空間バンドパスフィルタの特性について説明する図である。音場再現処理を説明するフローチャートである。コンピュータの構成例を示す図である。

　以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈空間エリアシング制御器の構成例〉
　本技術は、平面スピーカアレイや直線スピーカアレイを用いて音場を再現する場合に、波面合成を行うためのスピーカ駆動信号を生成する際、スピーカ駆動信号に適切な空間フィルタを適用することで、スピーカの離散配置によって生じる空間エリアシングを低減させるものである。

　具体的には、本技術では、目的外方向に伝搬する波面を犠牲にして空間エリアシングを低減させることで上限時間周波数f_limの上昇が実現される。

　例えば、図１を参照して説明した次世代双方向通信のように通話者同士の位置関係が明らかな場合には、再現が優先される波面の伝搬方向とその他の目的外方向を特定することができる。そこで、特定された目的外方向の空間周波数を遮断することで、上限時間周波数f_limを上昇させることができる。

　次に、本技術を空間エリアシング制御器に適用した場合を例として、本技術を適用した具体的な実施の形態について説明する。

　図３は、本技術を適用した空間エリアシング制御器の一実施の形態の構成例を示す図である。

　空間エリアシング制御器１１は、送信器２１および受信器２２を有している。この例では、例えば送信器２１が音場を収音する収音空間に配置され、受信器２２が収音空間で収音された音場を再現する再現空間に配置される。

　送信器２１は、音場を収音し、収音により得られた収音信号から空間周波数スペクトルを生成して受信器２２に送信する。受信器２２は、送信器２１から送信されてきた空間周波数スペクトルを受信してスピーカ駆動信号を生成するとともに、得られたスピーカ駆動信号に基づいて音場を再現する。

　送信器２１は、マイクアレイ３１、時間周波数分析部３２、空間周波数分析部３３、および通信部３４を有している。また、受信器２２は、方位情報取得部３５、通信部３６、駆動信号生成部３７、空間フィルタ適用部３８、空間周波数合成部３９、時間周波数合成部４０、およびスピーカアレイ４１を有している。

　マイクアレイ３１は、例えば直線状に配置された複数のマイクロフォンからなる直線マイクアレイなどからなり、到来した音声の平面波を収音し、その結果各マイクロフォンで得られた収音信号を時間周波数分析部３２に供給する。

　時間周波数分析部３２は、マイクアレイ３１から供給された収音信号に対して時間周波数変換を行い、その結果得られた時間周波数スペクトルを空間周波数分析部３３に供給する。空間周波数分析部３３は、時間周波数分析部３２から供給された時間周波数スペクトルに対して空間周波数変換を行い、その結果得られた空間周波数スペクトルを通信部３４に供給する。

　通信部３４は空間周波数分析部３３から供給された空間周波数スペクトルを、有線または無線により受信器２２の通信部３６に送信する。

　また、受信器２２の方位情報取得部３５は、マイクアレイ３１により収音された音声の音源である通話者の方位（方向）を示す話者方位情報を取得して空間フィルタ適用部３８に供給する。

　ここでは、収音される音場の音源が通話者である例について説明するが、音源は通話者に限らず、車等のオブジェクトや環境音の音源など、どのようなものであってもよい。また、話者方位情報は、音源である通話者からの音声を聴取する受話者に対する通話者の方向など、主たる音源と受話者の相対的な位置関係を示すものであればどのようなものであってもよいが、ここでは話者方位情報は、上述した到来角度θであるものとして説明を続ける。この場合、例えば図１に示した次世代双方向通信の例において、通話者W11が音源とされ、通話者W12が受話者とされるときには、通話者W11から通話者W12へと向かう音声の波面の伝搬方向を示す到来角度θが話者方位情報とされる。また、以下では、到来角度θを示す話者方位情報を話者方位情報θとも記すこととする。

　通信部３６は、通信部３４から送信されてきた空間周波数スペクトルを受信して駆動信号生成部３７に供給する。駆動信号生成部３７は、通信部３６から供給された空間周波数スペクトルに基づいて、収音された音場を再現するための空間領域のスピーカ駆動信号を生成し、空間フィルタ適用部３８に供給する。

　空間フィルタ適用部３８は、駆動信号生成部３７から供給されたスピーカ駆動信号に対して、方位情報取得部３５から供給された話者方位情報により定まる特性の空間フィルタを用いたフィルタ処理を施し、その結果得られた空間フィルタスペクトルを空間周波数合成部３９に供給する。

　空間周波数合成部３９は、空間フィルタ適用部３８から供給された空間フィルタスペクトルの空間周波数合成を行い、その結果得られた時間周波数スペクトルを時間周波数合成部４０に供給する。

　時間周波数合成部４０は、空間周波数合成部３９から供給された時間周波数スペクトルの時間周波数合成を行い、その結果得られたスピーカ駆動信号をスピーカアレイ４１に供給する。スピーカアレイ４１は、例えば直線状に配置された複数のスピーカからなる直線スピーカアレイなどからなり、時間周波数合成部４０から供給されたスピーカ駆動信号に基づいて音声を再生する。これにより、収音空間における音場が再現される。

　ここで、空間エリアシング制御器１１を構成する各部についてより詳細に説明する。

（時間周波数分析部）
　時間周波数分析部３２は、マイクアレイ３１を構成する各マイクロフォンで得られた収音信号s(n_mic,t)の時間周波数情報を分析する。

　但し、収音信号s(n_mic,t)においてn_micはマイクアレイ３１を構成するマイクロフォンを示すマイクインデクスであり、マイクインデクスn_mic＝0,…,N_mic-1である。ここで、N_micはマイクアレイ３１を構成するマイクロフォンの数である。また、収音信号s(n_mic,t)においてtは時間を示している。

　時間周波数分析部３２は、収音信号s(n_mic,t)に対して固定サイズの時間フレーム分割を行って入力フレーム信号s_fr(n_mic,n_fr,l)を得る。そして、時間周波数分析部３２は、次式（３）に示す窓関数w_T(n_fr)を入力フレーム信号s_fr(n_mic,n_fr,l)に乗算し、窓関数適用信号s_w(n_mic,n_fr,l)を得る。すなわち、以下の式（４）の計算が行われて窓関数適用信号s_w(n_mic,n_fr,l)が算出される。

　ここで、式（３）および式（４）において、n_frは時間フレーム内のサンプルを示す時間インデクスを示しており、時間インデクスn_fr＝0,…,N_fr-1である。また、lは時間フレームインデクスを示しており、時間フレームインデクスl＝0,…,L-1である。なお、N_frはフレームサイズ（時間フレームのサンプル数）であり、Lは総フレーム数である。

　また、フレームサイズN_frは、時間サンプリング周波数f_s ^T[Hz]における一フレームの時間T_fr[s]相当のサンプル数N_fr（＝R(f_s ^T×T_fr)、但しR()は任意の丸め関数）である。この実施の形態では、例えば一フレームの時間T_fr＝1.0[s]であり、丸め関数R()は四捨五入であるが、それ以外でも構わない。さらに、フレームのシフト量はフレームサイズN_frの50％としているが、それ以外でも構わない。

　さらに、ここでは窓関数としてハニング窓の平方根を用いているが、ハミング窓やブラックマンハリス窓などのその他の窓を用いるようにしてもよい。

　このようにして窓関数適用信号s_w(n_mic,n_fr,l)が得られると、時間周波数分析部３２は、以下の式（５）および式（６）を計算することで、窓関数適用信号s_w(n_mic,n_fr,l)に対して時間周波数変換を行い、時間周波数スペクトルS(n_mic,n_T,l)を算出する。

　すなわち、式（５）の計算によりゼロ詰め信号s_w’(n_mic,m_T,l)が求められ、得られたゼロ詰め信号s_w’(n_mic,m_T,l)に基づいて式（６）が計算され、時間周波数スペクトルS(n_mic,n_T,l)が算出される。

　なお、式（５）および式（６）において、M_Tは時間周波数変換に用いるポイント数を示している。また、n_Tは時間周波数スペクトルインデクスを示している。ここで、n_T＝0,…,N_T-1であり、N_T＝M_T/2+1である。さらに、式（６）においてiは純虚数を示している。

　また、この実施の形態では、STFT（Short Time Fourier Transform）（短時間フーリエ変換）による時間周波数変換を行っているが、DCT（Discrete Cosine Transform）（離散コサイン変換）やMDCT（Modified Discrete Cosine Transform）（修正離散コサイン変換）などの他の時間周波数変換を用いてもよい。

　さらに、STFTのポイント数M_Tは、N_fr以上である、N_frに最も近い2のべき乗の値としているが、それ以外のポイント数M_Tでも構わない。

　時間周波数分析部３２は、以上において説明した処理で得られた時間周波数スペクトルS(n_mic,n_T,l)を、空間周波数分析部３３に供給する。

（空間周波数分析部）
　続いて空間周波数分析部３３は、時間周波数分析部３２から供給された時間周波数スペクトルS(n_mic,n_T,l)に対して、次式（７）を計算することで空間周波数変換を行い、空間周波数スペクトルS_SP(n_S,n_T,l)を算出する。

　なお、式（７）においてM_Sは空間周波数変換に用いるポイント数を示しており、m_S＝0,…,M_S-1である。また、S’(m_S,n_T,l)は時間周波数スペクトルS(n_mic,n_T,l)に対してゼロ詰めを行うことにより得られるゼロ詰め時間周波数スペクトルを示しており、iは純虚数を示している。さらに、n_Sは空間周波数スペクトルインデクスを示している。

　この実施の形態では、式（７）の計算によってIDFT（Inverse Discrete Fourier Transform）（逆離散フーリエ変換）による空間周波数変換が行われている。

　また、必要であればIDFTのポイント数M_Sに合わせて適切にゼロ詰めを行ってもよい。この例では、0≦m_S≦N_mic-1であるポイントm_Sについては、ゼロ詰め時間周波数スペクトルS’(m_S,n_T,l)＝時間周波数スペクトルS(n_mic,n_T,l)とされ、N_mic≦m_S≦M_S-1であるポイントm_Sについては、ゼロ詰め時間周波数スペクトルS’(m_S,n_T,l)＝0とされる。

　以上において説明した処理により得られる空間周波数スペクトルS_SP(n_S,n_T,l)は、時間フレームlに含まれている時間周波数n_Tの信号が空間上においてどのような波形となっているかを示している。空間周波数分析部３３は、空間周波数スペクトルS_SP(n_S,n_T,l)を通信部３４に供給する。

（駆動信号生成部）
　駆動信号生成部３７には、通信部３６および通信部３４を介して、空間周波数分析部３３から空間周波数スペクトルS_SP(n_S,n_T,l)が供給される。

　駆動信号生成部３７は、空間周波数スペクトルS_SP(n_S,n_T,l)に基づいて、以下の式（８）を計算し、スピーカアレイ４１で音場（波面）を再現するための空間領域のスピーカ駆動信号D_SP(m_S,n_T,l)を求める。すなわち、SDM(Spectral Division Method)により、空間周波数スペクトルであるスピーカ駆動信号D_SP(m_S,n_T,l)が算出される。

　なお、式（８）においてy_refはSDMの基準距離を示しており、基準距離y_refは波面が正確に再現される位置である。この基準距離y_refはマイクアレイ３１を構成するマイクロフォンが並ぶ方向と垂直な方向の距離となる。例えば、ここでは基準距離y_ref＝1[m]とされているが、その他の値でもよい。

　さらに、式（８）においてH₀ ⁽²⁾は第二種ハンケル関数を示しており、K₀はベッセル関数を示している。また、式（８）においてiは純虚数を示しており、cは音速を示しており、ωは時間角周波数を示している。

　さらに、式（８）においてkは空間周波数を示しており、m_S、n_T、lは、それぞれ空間周波数スペクトルインデクス、時間周波数スペクトルインデクス、時間フレームインデクスを示している。

　なお、ここではSDMによりスピーカ駆動信号D_SP(m_S,n_T,l)を算出する手法を例として説明したが、他の手法によりスピーカ駆動信号が算出されてもよい。また、SDMについては、特に「Jens Adrens, Sascha Spors, “Applying the Ambisonics Approach on Planar and Linear Arrays of Loudspeakers”, in 2^nd International Symposium on Ambisonics and Spherical Acoustics」に詳細に記載されている。

　駆動信号生成部３７は、以上のようにして得られたスピーカ駆動信号D_SP(m_S,n_T,l)を空間フィルタ適用部３８に供給する。

（空間フィルタ適用部）
　空間フィルタ適用部３８は、駆動信号生成部３７から供給されたスピーカ駆動信号D_SP(m_S,n_T,l)と、方位情報取得部３５から供給された話者方位情報θにより特性が決定される空間バンドパスフィルタB_θ(m_S,n_T)とを用いて、空間フィルタスペクトルF(m_S,n_T,l)を求める。なお、ここでは空間バンドパスフィルタB_θ(m_S,n_T)の形状が矩形状であるものとするが、空間バンドパスフィルタB_θ(m_S,n_T)の形状は他のどのような形状であってもよい。

　具体的には、空間フィルタ適用部３８は話者方位情報θに基づいて、空間バンドパスフィルタB_θ(m_S,n_T)の中心周波数k_cenおよびバンド幅k_lenを決定することで、空間バンドパスフィルタB_θ(m_S,n_T)の特性を決定する。すなわち、目的とする主たる音源からの音声の平面波の到来角度θに応じて、空間バンドパスフィルタB_θ(m_S,n_T)の特性が決定される。

　例えば、空間フィルタ適用部３８は、以下の式（９）を計算することで中心周波数k_cenを算出し、以下の式（１０）を計算することでバンド幅k_lenを算出する。

　なお、式（９）および式（１０）において、θは話者方位情報、すなわち音源から出力され、受話者へと向かう平面波（音声）のマイクアレイ３１への到来角度を示している。また、式（９）および式（１０）において、k_limはマイクアレイ３１のマイクロフォン間隔と、スピーカアレイ４１のスピーカ間隔とから定まる上限空間周波数を示している。

　空間バンドパスフィルタB_θ(m_S,n_T)は、中心周波数k_cenを中心とするバンド幅k_lenの空間周波数帯域を透過周波数帯域（パスバンド）とし、それ以外の空間周波数帯域を遮断周波数帯域（ストップバンド）とするバンドパスフィルタである。

　したがって、空間バンドパスフィルタB_θ(m_S,n_T)の値は、空間周波数スペクトルインデクスm_Sにより示される空間周波数が透過周波数帯域内の周波数であれば1となり、空間周波数スペクトルインデクスm_Sにより示される空間周波数が遮断周波数帯域内の周波数であれば0となる。これにより、空間バンドパスフィルタB_θ(m_S,n_T)は、透過周波数帯域の成分のみを透過させる空間フィルタとなる。

　このようにして空間バンドパスフィルタが決定されると、空間フィルタ適用部３８は、次式（１１）に示すように空間バンドパスフィルタB_θ(m_S,n_T)をスピーカ駆動信号D_SP(m_S,n_T,l)に乗算し、空間フィルタスペクトルF(m_S,n_T,l)を得る。

　空間フィルタ適用部３８は、式（１１）の計算により得られた空間フィルタスペクトルF(m_S,n_T,l)を、空間周波数合成部３９に供給する。

　ここで、空間バンドパスフィルタB_θ(m_S,n_T)について、さらに説明する。

　式（９）により示される中心周波数k_cenは、話者方位情報θ、つまり到来角度θがθ＝0であるときにはk_lim/2となり、到来角度θがπ/2に近づくにしたがって小さくなり、到来角度θ＝π/2のときには0となる。また、中心周波数k_cenは、到来角度θがθ＝π/2からθ＝πに近づくにしたがって小さくなり、到来角度θ＝πのときには-k_lim/2となる。

　さらに式（１０）により示されるバンド幅k_lenは、到来角度θがθ＝0であるときにはk_limとなり、到来角度θがπ/2に近づくにしたがって大きくなり、到来角度θ＝π/2のときには2k_limとなる。また、バンド幅k_lenは、到来角度θがθ＝π/2からθ＝πに近づくにしたがって小さくなり、到来角度θ＝πのときにはk_limとなる。

　したがって、例えば到来角度θ＝0であるときには、図４に示すように空間周波数kが0から上限空間周波数k_limまでの間の帯域が透過周波数帯域となる。なお、図４において縦軸は時間周波数fを示しており、横軸は空間周波数kを示している。

　到来角度θ＝0である場合、矢印A11に示すようにマイクアレイ３１で収音された平面波の空間スペクトル（角度スペクトル）では、直線L21に示されるスペクトルピークと、直線L22に示されるスペクトルピークとが観測される。

　ここで、空間周波数kがk≧0である領域に現れている直線L21に示されるスペクトルピークは、本来現れるべきスペクトルピークである。これに対して、直線L22に示されるスペクトルピークは、空間エリアシングにより現れたものであり、空間周波数kが負である領域で空間エリアシングが顕著であることが分かる。

　この例では、空間エリアシングに起因する、直線L22に示されるスペクトルピークのない時間周波数fの領域が非エリアシング帯域R11となっている。これに対して、非エリアシング帯域R11の上限の時間周波数、つまり上述した上限時間周波数f_limより時間周波数が高い領域が、空間エリアシングに侵されたエリアシング帯域R12となっている。

　また、到来角度θ＝0である場合、空間バンドパスフィルタB_θ(m_S,n_T)の特性は、上述した式（９）および式（１０）から、折れ線L23に示される特性となる。

　すなわち、矢印A12に示すように空間バンドパスフィルタB_θ(m_S,n_T)は、中心周波数k_cen＝k_lim/2であり、バンド幅k_len＝k_limであるバンドパスフィルタとなる。したがって、この例では空間周波数kが開始周波数sb＝0から終了周波数eb＝k_limまでの間の成分がそのまま透過とされ、それ以外の遮断周波数帯域の成分は空間バンドパスフィルタB_θ(m_S,n_T)により遮断（除去）される。

　図４では、図中の斜線が施された領域が空間バンドパスフィルタB_θ(m_S,n_T)により遮断される領域を示しており、この例では直線L22に示される空間エリアシングのスペクトルピークのうちの空間周波数kが負である領域の部分が除去されることになる。

　その結果、空間エリアシングのスペクトルピークのない時間周波数fの領域である非エリアシング帯域R13は非エリアシング帯域R11よりも広くなり、その分だけ空間エリアシングに侵されたエリアシング帯域R14が狭くなる。換言すれば、空間バンドパスフィルタB_θ(m_S,n_T)によるフィルタ処理によって、上限時間周波数f_limをより高くすることができる。この例では、負の空間周波数成分を低減させることにより、空間エリアシングに侵されない上限時間周波数f_limが二倍に引き上げられている。

　このように空間バンドパスフィルタB_θ(m_S,n_T)によるフィルタ処理を行なえば、上限時間周波数f_limを上昇させることができるので、特に到来角度θ、つまり角度θで伝搬する平面波の音質を向上させることができる。また、空間エリアシングを低減させることができるので、本来ないはずの他の角度から伝搬してきた平面波が混在しているような音像の定位を改善することができる。つまり、より正確な音像定位を実現することができる。

　同様に式（９）および式（１０）から、例えば到来角度θ＝π/2であるときには図５に示すように、空間周波数kが-k_limから上限空間周波数k_limまでの間の帯域が透過周波数帯域となる。なお、図５において縦軸は時間周波数fを示しており、横軸は空間周波数kを示している。

　到来角度θ＝π/2である場合、矢印A21に示すようにマイクアレイ３１で収音された平面波の空間スペクトル（角度スペクトル）では、直線L31に示されるスペクトルピークが観測される。

　ここで、空間周波数kがk＝0である領域に現れている直線L31に示されるスペクトルピークは、本来現れるべきスペクトルピークである。また、到来角度θ＝π/2である場合には空間エリアシングは生じないため、空間エリアシングに起因するスペクトルピークは出現しない。この例では、空間エリアシングは発生しないため、時間周波数fの全領域が非エリアシング帯域となっている。

　このように到来角度θ＝π/2である場合、空間バンドパスフィルタB_θ(m_S,n_T)の特性は、上述した式（９）および式（１０）から、折れ線L32に示される特性となる。

　すなわち、矢印A22に示すように空間バンドパスフィルタB_θ(m_S,n_T)は、中心周波数k_cen＝0であり、バンド幅k_len＝2k_limであるバンドパスフィルタとなる。したがって、この例では空間周波数kが開始周波数sb＝-k_limから終了周波数eb＝k_limまでの間の成分がそのまま透過とされ、それ以外の遮断周波数帯域の成分は空間バンドパスフィルタB_θ(m_S,n_T)により遮断される。

　なお、図５では、図中の斜線が施された領域が空間バンドパスフィルタB_θ(m_S,n_T)により遮断される領域を示している。この例では、開始周波数sbが-k_limであり、終了周波数ebがk_limであるため、特に正および負の空間周波数成分の低減は行われない。

　以上のように空間バンドパスフィルタB_θ(m_S,n_T)によるフィルタ処理を行なえば、上限時間周波数f_limを上昇させ、特に目的とする到来角度θの方向に伝搬する平面波について音質を向上させるとともに、音像の定位を改善することができる。

　但し、空間バンドパスフィルタB_θ(m_S,n_T)により遮断周波数帯域の成分を除去すると、角度θとは異なる他の角度で伝搬する平面波の音質は、除去された成分に応じて劣化してしまう。そのため、その分だけ再現空間において良好な音質で音声を聴取できる領域の範囲が狭くなってしまう。

　しかし、空間エリアシング制御器１１では、到来角度θがπ/2に近くなるにしたがって、つまり空間エリアシングが少なくなるにしたがってバンド幅k_lenがより広くなり、良好な音質で音声を聴取できる領域が広くなるようになされているので、フィルタ処理により生じる影響を小さく抑えることができる。

　なお、以上においては空間バンドパスフィルタB_θ(m_S,n_T)の特性として、空間周波数について話者方位情報θに応じた透過周波数帯域を設定する例について説明したが、時間周波数についてのみ、話者方位情報θに応じた透過周波数帯域を設定するようにしてもよい。

　また、空間バンドパスフィルタB_θ(m_S,n_T)の特性として、空間周波数と時間周波数の両方について、それぞれ話者方位情報θに応じた透過周波数帯域を設定するようにしてもよい。そのような場合、空間周波数だけでなく、時間周波数についても話者方位情報θに応じた中心周波数およびバンド幅、つまり透過周波数帯域が決定される。そして、空間周波数スペクトルインデクスm_Sにより示される空間周波数が透過周波数帯域内の周波数であり、かつ時間周波数スペクトルインデクスn_Tにより示される時間周波数が透過周波数帯域内の周波数であるときに、空間バンドパスフィルタB_θ(m_S,n_T)の値は1となる。つまり、空間バンドパスフィルタB_θ(m_S,n_T)は、空間周波数の透過周波数帯域、かつ時間周波数の透過周波数帯域の成分のみを透過させる空間フィルタとなる。

（空間周波数合成部）
　続いて、空間周波数合成部３９について説明する。

　空間周波数合成部３９は、次式（１２）を計算することで、空間フィルタ適用部３８から供給された空間フィルタスペクトルF(m_S,n_T,l)の空間周波数合成、すなわち空間フィルタスペクトルF(m_S,n_T,l)に対する逆空間周波数変換を行い、時間周波数スペクトルD(n_spk,n_T,l)を算出する。式（１２）では、逆空間周波数変換として、DFT（Discrete Fourier Transform）（離散フーリエ変換）が行われる。

　なお、式（１２）において、n_spkはスピーカアレイ４１を構成するスピーカを特定するスピーカインデクスを示している。また、M_SはDFTのポイント数を示しており、iは純虚数を示している。

　空間周波数合成部３９は、このようにして得られた時間周波数スペクトルD(n_spk,n_T,l)を時間周波数合成部４０に供給する。

（時間周波数合成部）
　時間周波数合成部４０は、次式（１３）の計算を行うことで、空間周波数合成部３９から供給された時間周波数スペクトルD(n_spk,n_T,l)の時間周波数合成を行い、出力フレーム信号d_fr(n_spk,n_fr,l)を得る。ここでは、時間周波数合成として、ISTFT（Inverse Short Time Fourier Transform）（短時間逆フーリエ変換）が用いられているが、時間周波数分析部３２で行われる時間周波数変換（順変換）の逆変換に相当するものを用いればよい。

　なお、式（１３）におけるD’(n_spk,m_T,l)は、次式（１４）により得られるものである。

　式（１３）においてiは純虚数を示しており、n_frは時間インデクスを示している。また、式（１３）および式（１４）において、M_TはISTFTのポイント数を示しており、n_spkはスピーカインデクスを示している。

　さらに、時間周波数合成部４０は、得られた出力フレーム信号d_fr(n_spk,n_fr,l)に、窓関数w_T(n_fr)を乗算し、オーバーラップ加算を行うことでフレーム合成を行う。例えば、次式（１５）の計算によりフレーム合成が行われて、出力信号d(n_spk,t)が求められる。

　なお、ここでは、出力フレーム信号d_fr(n_spk,n_fr,l)に乗算する窓関数w_T(n_fr)として、時間周波数分析部３２で用いた窓関数と同じものを用いているが、ハミング窓などのその他の窓の場合は矩形窓で構わない。

　また、式（１５）において、d^prev(n_spk,n_fr+lN_fr)およびd^curr(n_spk,n_fr+lN_fr)は、どちらも出力信号d(n_spk,t)を示しているが、d^prev(n_spk,n_fr+lN_fr)は更新前の値を示し、d^curr(n_spk,n_fr+lN_fr)は更新後の値を示している。

　時間周波数合成部４０は、このようにして得られた出力信号d(n_spk,t)を、スピーカ駆動信号としてスピーカアレイ４１に供給する。

〈音場再現処理の説明〉
　次に、以上において説明した空間エリアシング制御器１１により行われる処理の流れについて説明する。空間エリアシング制御器１１は、収音空間における音声の平面波の収音が指示されると、その平面波の収音を行って音場を再現する音場再現処理を行う。

　以下、図６のフローチャートを参照して空間エリアシング制御器１１による音場再現処理について説明する。

　ステップＳ１１において、マイクアレイ３１は収音空間において音声の平面波を収音し、その結果得られた収音信号s(n_mic,t)を時間周波数分析部３２に供給する。

　ステップＳ１２において、時間周波数分析部３２はマイクアレイ３１から供給された収音信号s(n_mic,t)の時間周波数情報を分析する。

　具体的には、時間周波数分析部３２は収音信号s(n_mic,t)に対して時間フレーム分割を行い、その結果得られた入力フレーム信号s_fr(n_mic,n_fr,l)に窓関数w_T(n_fr)を乗算し、窓関数適用信号s_w(n_mic,n_fr,l)を算出する。

　また、時間周波数分析部３２は、窓関数適用信号s_w(n_mic,n_fr,l)に対して時間周波数変換を行い、その結果得られた時間周波数スペクトルS(n_mic,n_T,l)を空間周波数分析部３３に供給する。すなわち、式（６）の計算が行われて時間周波数スペクトルS(n_mic,n_T,l)が算出される。

　ステップＳ１３において、空間周波数分析部３３は、時間周波数分析部３２から供給された時間周波数スペクトルS(n_mic,n_T,l)に対して空間周波数変換を行い、その結果得られた空間周波数スペクトルS_SP(n_S,n_T,l)を通信部３４に供給する。

　具体的には、空間周波数分析部３３は式（７）を計算することで、時間周波数スペクトルS(n_mic,n_T,l)を空間周波数スペクトルS_SP(n_S,n_T,l)に変換する。

　ステップＳ１４において、通信部３４は、空間周波数分析部３３から供給された空間周波数スペクトルS_SP(n_S,n_T,l)を、無線通信により再現空間に配置された受信器２２に送信する。そして、ステップＳ１５において、受信器２２の通信部３６は、無線通信により送信されてきた空間周波数スペクトルS_SP(n_S,n_T,l)を受信し、駆動信号生成部３７に供給する。

　ステップＳ１６において、方位情報取得部３５は話者方位情報θを取得し、空間フィルタ適用部３８に供給する。例えば話者方位情報θは、予め定められていてもよいし、送信器２１等から取得されるようにしてもよい。

　ステップＳ１７において、駆動信号生成部３７は、通信部３６から供給された空間周波数スペクトルS_SP(n_S,n_T,l)に基づいて空間領域のスピーカ駆動信号D_SP(m_S,n_T,l)を算出し、空間フィルタ適用部３８に供給する。例えば駆動信号生成部３７は、式（８）を計算することで、空間領域のスピーカ駆動信号D_SP(m_S,n_T,l)を算出する。

　ステップＳ１８において、空間フィルタ適用部３８は、方位情報取得部３５から供給された話者方位情報θに基づいて、空間バンドパスフィルタB_θ(m_S,n_T)の特性を決定する。

　例えば、空間フィルタ適用部３８は、上述した式（９）および式（１０）を計算して、空間バンドパスフィルタB_θ(m_S,n_T)の中心周波数k_cenおよびバンド幅k_lenを算出することで空間バンドパスフィルタB_θ(m_S,n_T)の特性、つまり透過周波数帯域を決定する。

　ステップＳ１９において、空間フィルタ適用部３８は、駆動信号生成部３７から供給されたスピーカ駆動信号D_SP(m_S,n_T,l)に対して、決定された特性の空間バンドパスフィルタB_θ(m_S,n_T)を適用する。

　すなわち、空間フィルタ適用部３８は式（１１）の計算を行うことで、スピーカ駆動信号D_SP(m_S,n_T,l)に対して、空間バンドパスフィルタB_θ(m_S,n_T)を用いたフィルタ処理を施し、空間フィルタスペクトルF(m_S,n_T,l)を得る。

　空間フィルタ適用部３８は、フィルタ処理により得られた空間フィルタスペクトルF(m_S,n_T,l)を、空間周波数合成部３９に供給する。

　ステップＳ２０において、空間周波数合成部３９は、空間フィルタ適用部３８から供給された空間フィルタスペクトルF(m_S,n_T,l)に対して逆空間周波数変換を行い、その結果得られた時間周波数スペクトルD(n_spk,n_T,l)を時間周波数合成部４０に供給する。例えば空間周波数合成部３９は、式（１２）を計算することで逆空間周波数変換を行う。

　ステップＳ２１において、時間周波数合成部４０は、空間周波数合成部３９から供給された時間周波数スペクトルD(n_spk,n_T,l)の時間周波数合成を行う。

　具体的には、時間周波数合成部４０は式（１３）の計算を行って、時間周波数スペクトルD(n_spk,n_T,l)から出力フレーム信号d_fr(n_spk,n_fr,l)を算出する。さらに時間周波数合成部４０は、出力フレーム信号d_fr(n_spk,n_fr,l)に窓関数w_T(n_fr)を乗算して式（１５）の計算を行い、フレーム合成により出力信号d(n_spk,t)を算出する。

　ステップＳ２２において、スピーカアレイ４１は、時間周波数合成部４０から供給されたスピーカ駆動信号に基づいて音声を再生し、音場再現処理は終了する。このようにしてスピーカ駆動信号に基づいて音声が再生されると、再現空間において収音空間の音場が再現される。

　以上のようにして空間エリアシング制御器１１は、話者方位情報θに基づいて空間バンドパスフィルタB_θ(m_S,n_T)の特性を決定するとともに、空間バンドパスフィルタB_θ(m_S,n_T)をスピーカ駆動信号D_SP(m_S,n_T,l)に適用し、空間エリアシングを低減させる。

　このように話者方位情報θに応じた特性の空間バンドパスフィルタB_θ(m_S,n_T)を用いて空間エリアシングを低減させることで上限時間周波数f_limを上昇させ、音質を向上させるとともに音像の定位を改善することができる。しかも、空間エリアシング制御器１１では、特別なスピーカアレイを用意する必要もなく、フィルタ処理という簡単な処理で空間エリアシングを低減させることができるので、より低コストで上限時間周波数を上昇させることができる。

　ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図７は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

　バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

　入力部５０６は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア５１１を駆動する。

　以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブルメディア５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、本技術は、以下の構成とすることも可能である。

［１］
　音源の方向を示す方位情報を取得する方位情報取得部と、
　複数のマイクロフォンからなるマイクアレイにより前記音源からの音声を収音して得られた収音信号に対して、前記方位情報により定まる特性の空間フィルタを適用する空間フィルタ適用部と
　を備える音声処理装置。
［２］
　前記空間フィルタ適用部は、前記方位情報に基づいて、前記空間フィルタの特性として中心周波数およびバンド幅を決定する
　［１］に記載の音声処理装置。
［３］
　前記空間フィルタは、前記中心周波数および前記バンド幅により定まる空間周波数の帯域を透過周波数帯域として、前記収音信号の透過周波数帯域の成分を透過させるフィルタである
　［２］に記載の音声処理装置。
［４］
　前記空間フィルタは、前記中心周波数および前記バンド幅により定まる時間周波数の帯域を透過周波数帯域として、前記収音信号の透過周波数帯域の成分を透過させるフィルタである
　［２］または［３］に記載の音声処理装置。
［５］
　前記空間フィルタ適用部は、前記方位情報により示される前記音源の方向と、前記マイクアレイとのなす角度がπ/2に近くなるほど前記バンド幅が広くなるように前記空間フィルタの特性を決定する
　［２］乃至［４］の何れか一項に記載の音声処理装置。
［６］
　前記マイクアレイは直線マイクアレイである
　［１］乃至［５］の何れか一項に記載の音声処理装置。
［７］
　音源の方向を示す方位情報を取得し、
　複数のマイクロフォンからなるマイクアレイにより前記音源からの音声を収音して得られた収音信号に対して、前記方位情報により定まる特性の空間フィルタを適用する
　ステップを含む音声処理方法。
［８］
　音源の方向を示す方位情報を取得し、
　複数のマイクロフォンからなるマイクアレイにより前記音源からの音声を収音して得られた収音信号に対して、前記方位情報により定まる特性の空間フィルタを適用する
　ステップを含む処理をコンピュータに実行させるプログラム。

　１１　空間エリアシング制御器，　３１　マイクアレイ，　３２　時間周波数分析部，　３３　空間周波数分析部，　３５　方位情報取得部，　３７　駆動信号生成部，　３８　空間フィルタ適用部，　３９　空間周波数合成部，　４０　時間周波数合成部，　４１　スピーカアレイ

Claims

　音源の方向を示す方位情報を取得する方位情報取得部と、
　複数のマイクロフォンからなるマイクアレイにより前記音源からの音声を収音して得られた収音信号に対して、前記方位情報により定まる特性の空間フィルタを適用する空間フィルタ適用部と
　を備える音声処理装置。
　前記空間フィルタ適用部は、前記方位情報に基づいて、前記空間フィルタの特性として中心周波数およびバンド幅を決定する
　請求項１に記載の音声処理装置。
　前記空間フィルタは、前記中心周波数および前記バンド幅により定まる空間周波数の帯域を透過周波数帯域として、前記収音信号の透過周波数帯域の成分を透過させるフィルタである
　請求項２に記載の音声処理装置。
　前記空間フィルタは、前記中心周波数および前記バンド幅により定まる時間周波数の帯域を透過周波数帯域として、前記収音信号の透過周波数帯域の成分を透過させるフィルタである
　請求項２に記載の音声処理装置。
　前記空間フィルタ適用部は、前記方位情報により示される前記音源の方向と、前記マイクアレイとのなす角度がπ/2に近くなるほど前記バンド幅が広くなるように前記空間フィルタの特性を決定する
　請求項２に記載の音声処理装置。
　前記マイクアレイは直線マイクアレイである
　請求項１に記載の音声処理装置。
　音源の方向を示す方位情報を取得し、
　複数のマイクロフォンからなるマイクアレイにより前記音源からの音声を収音して得られた収音信号に対して、前記方位情報により定まる特性の空間フィルタを適用する
　ステップを含む音声処理方法。
　音源の方向を示す方位情報を取得し、
　複数のマイクロフォンからなるマイクアレイにより前記音源からの音声を収音して得られた収音信号に対して、前記方位情報により定まる特性の空間フィルタを適用する
　ステップを含む処理をコンピュータに実行させるプログラム。