WO2021251182A1

WO2021251182A1 - 信号処理装置および方法、並びにプログラム

Info

Publication number: WO2021251182A1
Application number: PCT/JP2021/020436
Authority: WO
Inventors: 雄太瀧田; ウェイシャンリャオ
Original assignee: ソニーグループ株式会社
Priority date: 2020-06-11
Filing date: 2021-05-28
Publication date: 2021-12-16

Abstract

本技術は、より適切な室内伝達関数を得ることができるようにする信号処理装置および方法、並びにプログラムに関する。信号処理装置は、スピーカから出力された測定音を受聴エリア内の複数のマイクロフォンで収音することにより得られた観測信号に基づいて推定された、スピーカから受聴エリアまでの伝達関数を取得する伝達関数取得部と、伝達関数に基づいてスピーカにより再生する音の駆動信号を生成する際に、音の再生環境が、受聴エリアから見てスピーカの存在に偏りがある再生環境である場合、または伝達関数の推定時とは伝達関数が異なる再生環境である場合、取得された伝達関数を補正する伝達関数補正部とを備える。本技術は音場制御システムに適用することができる。

Description

信号処理装置および方法、並びにプログラム

　本技術は、信号処理装置および方法、並びにプログラムに関し、特に、より適切な室内伝達関数を得ることができるようにした信号処理装置および方法、並びにプログラムに関する。

　広い受聴エリアにおける音場制御において、音響再生に用いるスピーカから受聴エリアへの伝達関数を計測することは、音場制御の精度面において重要である。

　例えば室内でスピーカを駆動させると、受聴エリアにはスピーカからの直接波成分に加え、室（部屋）の壁面等での反射によって生じる残響成分が伝搬する。

　一般的に複数のマイクロフォンを用いた室内伝達関数、すなわち伝達特性を推定する手法では、全周波数帯域において同一のアルゴリズムが適用される（例えば、非特許文献１参照）。

W. Jin and W. B. Kleijn, "Theory and design of multizone soundfield reproduction using sparse methods," IEEE/ACM TASLP, vol.23, no. 12, 2015.

　しかしながら、上述した技術では、再生時の環境に対して適切な室内伝達関数を得ることができないことがあった。

　例えば、推定した室内伝達関数をそのまま用いてしまうと、測定環境と再生環境の齟齬やスピーカの設置方法により、室内伝達関数から生成されるスピーカの駆動信号が不安定になったり、形成された音場に歪みが生じたりすることがある。

　本技術は、このような状況に鑑みてなされたものであり、より適切な室内伝達関数を得ることができるようにするものである。

　本技術の一側面の信号処理装置は、スピーカから出力された測定音を受聴エリア内の複数のマイクロフォンで収音することにより得られた観測信号に基づいて推定された、前記スピーカから前記受聴エリアまでの伝達関数を取得する伝達関数取得部と、前記伝達関数に基づいて前記スピーカにより再生する音の駆動信号を生成する際に、前記音の再生環境が、前記受聴エリアから見て前記スピーカの存在に偏りがある再生環境である場合、または前記伝達関数の推定時とは前記伝達関数が異なる再生環境である場合、取得された前記伝達関数を補正する伝達関数補正部とを備える。

　本技術の一側面の信号処理方法またはプログラムは、スピーカから出力された測定音を受聴エリア内の複数のマイクロフォンで収音することにより得られた観測信号に基づいて推定された、前記スピーカから前記受聴エリアまでの伝達関数を取得し、前記伝達関数に基づいて前記スピーカにより再生する音の駆動信号を生成する際に、前記音の再生環境が、前記受聴エリアから見て前記スピーカの存在に偏りがある再生環境である場合、または前記伝達関数の推定時とは前記伝達関数が異なる再生環境である場合、取得された前記伝達関数を補正するステップを含む。

　本技術の一側面においては、スピーカから出力された測定音を受聴エリア内の複数のマイクロフォンで収音することにより得られた観測信号に基づいて推定された、前記スピーカから前記受聴エリアまでの伝達関数が取得され、前記伝達関数に基づいて前記スピーカにより再生する音の駆動信号を生成する際に、前記音の再生環境が、前記受聴エリアから見て前記スピーカの存在に偏りがある再生環境である場合、または前記伝達関数の推定時とは前記伝達関数が異なる再生環境である場合、取得された前記伝達関数が補正される。

室内伝達関数の推定について説明する図である。音場制御システムの構成例を示す図である。受聴エリアと到来方向について説明する図である。スピーカアレイのスピーカ配置例を示す図である。スピーカアレイのスピーカ配置例を示す図である。スピーカ配置形状と制御可能な到来方向について説明する図である。室内伝達関数推定処理を説明するフローチャートである。コンピュータの構成例を示す図である。

　以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈本技術について〉
　本技術は、複数のマイクロフォンで収音を行うことにより得られた信号から、各周波数ビンに適した方式を用いて、各スピーカから収音位置までの室内伝達関数（伝達特性）、すなわち直接波成分および残響成分を推定することで音場制御の性能を向上させるものである。換言すれば、より精度よく所望の音場を形成することができるようにするものである。

　また、本技術では、室内伝達関数を特徴づける２つの要素である到来方向および複素振幅（振幅と位相）に着目し、再生環境に応じて室内伝達関数を補正するようにした。音場形成時には、適宜補正された室内伝達関数に基づいてスピーカの駆動信号が生成される。このようにすることで、より適切な室内伝達関数を得ることができ、高精度に所望の音場を形成することができる。

　このような本技術は、例えば波面合成や空間ノイズキャンセリングなどを含む任意の音場制御に適用することができる。

　音場制御は、多チャネルの同期されたスピーカを用いて、ユーザが意図した通りに現実空間上の音の伝わり方を制御するための技術の総称を指す。

　音場制御に関する研究については、例えば1993年に提案されたWFS（Wave field synthesis）に始まり、近年も多くの手法が提案されている。

　なお、WFSについては、例えば「A. J. Berkhout and D. de Vries and P. Vogel, “Acoustic control by wave field synthesis,” J. Acoust. Soc. Am., vol. 93, no. 5, 1993.」などに詳細に記載されている。

　音場制御の際、多くの場合、残響成分を無視したうえで、音場形成に用いるスピーカがそれぞれスピーカ位置を中心に等方的に伝わる球面波を生成すると近似してスピーカの駆動信号の空間フィルタが計算される。

　しかし、実際に音場制御する環境は室内であることが多く、実際のスピーカの室内伝達関数には直接波成分に加えて、室の床、天井、壁などでの反射等によって生成される残響成分も含まれている。

　したがって、精度の高い音場制御を行うためには、複数のマイクロフォンを用いて各スピーカについて室内伝達関数を推定（測定）することが、スピーカの指向性や残響成分が考慮されるため、有効である。

　ところが、全周波数帯域で最も性能が高い推定アルゴリズム（推定手法）は存在せず、室内伝達関数の推定手法によって推定精度のよい周波数帯域は異なる。

　そこで本技術では、マイクロフォンで収音して得られる観測信号に基づき、スピーカから受聴エリア、すなわちスピーカから各マイクロフォンへの室内伝達関数を、周波数ビンごとに適した手法を用いて推定することで、より適切な室内伝達関数を得ることができるようにした。また、推定により得られた室内伝達関数に対して、再生環境に適した補正を行うようにした。これにより、再生環境に対して適切な室内伝達関数を得ることができ、より高精度な音場制御を実現することができる。

　本技術では、例えば図１に示すように、音場制御の対象となる受聴エリアR11内に複数のマイクロフォン１１－１乃至マイクロフォン１１－Ｍが配置される。

　なお、図１では図を見やすくするため、一部のマイクロフォンにのみ符号が付されている。以下では、マイクロフォン１１－１乃至マイクロフォン１１－Ｍを特に区別する必要のない場合、単にマイクロフォン１１とも称することとする。

　また、受聴エリアR11の図中、上側には複数のスピーカからなるスピーカアレイ１２が配置されている。スピーカアレイ１２から音が出力されると、受聴エリアR11では、その音の直接波だけでなく、壁等での反射により生じる反射波（残響音）も観測される。

　この例では、受聴エリアR11を含む空間における各スピーカからマイクロフォン１１まで、すなわち各スピーカから受聴エリアR11までの音の伝達特性である室内伝達関数が推定され、得られた室内伝達関数がコンテンツ等の再生環境に応じて補正される。

　すなわち、まず、周波数帯域ごと、つまり周波数ビンごとに適した推定アルゴリズムで室内伝達関数が推定される。

　次に、得られた室内伝達関数に対して、適宜、再生環境を考慮した以下の２種類の補正が施される。

　１つ目の補正は、音場制御時における複数のスピーカの配置の形状などが考慮された、音の到来方向を示す到来方向情報に関する補正である。これは、スピーカ配置の形状によって、音場制御が不可能な方向成分が存在するためであり、室内伝達関数のうちの制御が不可能な到来方向の成分を消去（除去）する補正が行われる。

　このような到来方向情報に関する補正は、例えば音場制御時の環境、すなわち再生環境が、受聴エリアR11からスピーカアレイ１２を構成するスピーカを見たときに、スピーカの存在（配置）に偏りがある再生環境である場合などに行われる。換言すれば、受聴エリアR11から見てスピーカが存在しない方向がある再生環境である場合などに、到来方向情報に関する補正が行われる。

　２つ目の補正は、音速変化、すなわち音波の伝搬速度などが考慮された、複素振幅情報に関する補正である。これは、室内伝達関数を推定（計測）したときと、実際にコンテンツを再生するときとでは一般に室内の音速が異なるためであり、その音速の差異を推定により得られた室内伝達関数に適切に反映させる補正が行われる。室内伝達関数は、音速によって変化する。

　このような複素振幅情報に関する補正は、例えば室内伝達関数の推定（計測）時とは音速、つまり室内伝達関数が異なる再生環境である場合などに行われる。

　室内伝達関数に対して以上のような補正を行うことにより、よりコンテンツの再生環境に適した駆動信号を算出し、より精度よく音場制御を行うことができる。

〈音場制御システムの構成例〉
　続いて、以上において説明した本技術を適用した具体的な実施の形態について説明する。

　図２は、本技術を適用した音場制御システムの一実施の形態の構成例を示す図である。なお、図２において図１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図２に示す音場制御システムは、マイクロフォン１１－１乃至マイクロフォン１１－Ｍ、スピーカアレイ１２、および信号処理装置４１を有している。

　なお、ここでは複数のスピーカからなるスピーカアレイ１２が用いられる例について説明するが、室内伝達関数の推定やコンテンツの再生に用いられるスピーカは１つであってもよい。

　また、図２では、図中、左側には室内伝達関数の推定時の様子が示されており、図中、右側にはコンテンツの再生時の様子が示されている。特に、ここでは室内伝達関数の推定時とコンテンツ再生時とでは、受聴エリアR11が存在する室内等の空間と、その空間内におけるスピーカアレイ１２の配置は同じであるものとする。

　室内伝達関数の推定時には、室内等の空間における音場制御の対象となる受聴エリアR11には、Ｍ個のマイクロフォン１１が配置され、それらのマイクロフォン１１によって、スピーカアレイ１２により出力された室内伝達関数の測定用の音（測定音）が収音される。

　このようにして収音が行われると、その結果得られた観測信号が信号処理装置４１により取得され、それらの観測信号に基づいて受聴エリアR11の室内伝達関数が推定される。

　この例では信号処理装置４１は、取得部５１、伝達関数推定部５２、伝達関数取得部５３、伝達関数補正部５４、および駆動信号生成部５５を有している。

　取得部５１は、Ｍ個の各マイクロフォン１１から観測信号を取得して伝達関数推定部５２に供給する。伝達関数推定部５２は、取得部５１から供給された観測信号に基づいて室内伝達関数を推定し、その推定結果を伝達関数取得部５３に供給する。

　特にこの例では、伝達関数推定部５２は、低周波数帯域、つまり低い周波数ビンについて室内伝達関数を推定する低周波数推定部７１と、高周波数帯域、つまり高い周波数ビンについて室内伝達関数を推定する高周波数推定部７２とを有している。これらの低周波数推定部７１と高周波数推定部７２では、互いに異なる手法（推定アルゴリズム）で室内伝達関数が推定される。

　伝達関数取得部５３は、伝達関数推定部５２から各周波数ビンについての室内伝達関数を取得し、伝達関数補正部５４に供給する。

　伝達関数補正部５４は、コンテンツの再生時の環境（再生環境）に応じて、伝達関数取得部５３から供給された室内伝達関数を補正し、駆動信号生成部５５に供給する。

　駆動信号生成部５５は、伝達関数補正部５４から供給された補正後の室内伝達関数と、コンテンツの音を再生するための音源信号とに基づいて、スピーカアレイ１２を構成する各スピーカの駆動信号を生成し、スピーカアレイ１２に供給する。

　スピーカアレイ１２は、例えば多チャネルのスピーカ、すなわち複数のチャネルのスピーカを所定の形状に並べて配置した多チャネルのスピーカアレイである。スピーカアレイ１２では、複数の各スピーカから互いに異なる音を出力することが可能である。換言すれば、複数の各スピーカを独立に制御することが可能である。

　スピーカアレイ１２は、駆動信号生成部５５から供給された駆動信号に基づいてスピーカを駆動し、駆動信号に基づく音を出力させる。これにより、図中、右側に示すように受聴者であるユーザU11がいる受聴エリアR11ではコンテンツの音が再生される。換言すれば、受聴エリアR11では、コンテンツの音を再生する所望の音場が形成される。

　なお、ここでは取得部５１乃至駆動信号生成部５５が１つの信号処理装置４１に設けられる例について説明するが、これらの処理ブロックが異なる装置に設けられるようにしてもよい。例えば取得部５１および伝達関数推定部５２と、伝達関数取得部５３乃至駆動信号生成部５５とが互いに異なる信号処理装置に設けられていてもよい。

〈室内伝達関数の推定と補正について〉
（伝達関数推定部）
　ここで、室内伝達関数の推定と補正について、より詳細に説明する。換言すれば、伝達関数推定部５２および伝達関数補正部５４について、より詳細に説明する。

　まず、伝達関数推定部５２による室内伝達関数の推定について説明する。

　なお、以下では、マイクロフォン１１で得られる観測信号、およびスピーカアレイ１２の駆動信号を周波数領域で考えるものとする。また、以下では、音速をｃ、角周波数をω、波数ｋをｋ＝ω／ｃで定義する。さらに、以下では、上述した受聴エリアR11を受聴エリアΩとも記すこととする。

　伝達関数推定部５２では、複数の各マイクロフォン１１で得られる観測信号に基づいて、スピーカアレイ１２の各スピーカから受聴エリアΩ（マイクロフォン１１）までの伝達特性である室内伝達関数が推定される。

　例えば図３に示すように、スピーカアレイ１２のスピーカから出力された音の受聴エリアR11、すなわち受聴エリアΩへの到来方向をθと記すとする。

　この例では、矢印Q11がスピーカから出力された音の受聴エリアR11への１つの到来方向を表しており、このような到来方向、より詳細には到来方向を示すベクトルを到来方向θと記すこととする。

　例えば受聴エリアΩには、スピーカから出力された音が複数の到来方向θから到来し得るので、伝達関数推定部５２では、各到来方向θから到来する音の周波数ごと、つまり波数ｋごとの複素振幅p(θ,k)が室内伝達関数として推定される。特に、以下においては、マイクロフォン１１として、音圧マイクロフォンが用いられるものとして説明を行う。

　例えば伝達関数推定部５２では、周波数ビンごとに室内伝達関数の推定アルゴリズムが選択され、その選択結果に応じて、室内伝達関数の推定が周波数ビンごとに独立して行われる。

　一般的に、室内伝達関数の推定に必要なマイクロフォン１１の数Ｍは、受聴エリアΩの半径Ｒと信号の角周波数ωに比例する。

　また、室内伝達関数の測定（推定）の際には、その測定に用いられるマイクロフォン１１の数Ｍと受聴エリアΩの半径Ｒは定数とみなされる。

　例えば低い周波数（周波数ビン）、すなわち低い角周波数ωの室内伝達関数を推定する場合には、ヘルムホルツ方程式のみに基づいて室内伝達関数を推定することが可能である。

　これに対して、高い周波数（周波数ビン）、すなわち高い角周波数ωの室内伝達関数を推定する場合には、適切な仮定を置いたうえで圧縮センシングに基づく超解像技術を用いることが望まれる。

　なお、圧縮センシングについては、例えば「D. L. Donoho,“Compressed sensing,” IEEE Trans. Inf. Theory, vol. 52, no. 4, pp. 1289-1306, Apr. 2006.」などに詳細に記載されている。

　ここで、観測信号の周波数ビン（角周波数ω）、換言すれば駆動信号に基づく音の周波数（周波数ビン）に応じて、周波数ビンごとの室内伝達関数の推定アルゴリズム（推定手法）を選択する場合の具体的な例について説明する。

　例えば、低い周波数ビン（角周波数ω）では、特別な仮定を用いない音場の基礎方程式、すなわちヘルムホルツ方程式に基づく推定手法が用いられる。換言すればTranslation行列が用いられて室内伝達関数が推定される。

　一方、高い周波数ビンでは、本来、室内伝達関数の推定に必要なマイクロフォン１１の数の設置が困難であるので、室内伝達関数の到来方向θに対してスパース性を仮定する超解像技術を利用した推定手法が用いられる。すなわち、圧縮センシングに基づく超解像技術により室内伝達関数を推定する推定手法が用いられる。

　受聴エリアΩ内に音源が含まれない場合、スピーカアレイ１２のスピーカを駆動させたときに形成される音場u(r,k)（但しｒ∈Ω）は、以下の式（１）に示すヘルムホルツ方程式を満たす。なお、式（１）においてｒは受聴エリアΩ内の位置、すなわち位置を示すベクトルを表している。

　いま、室内伝達関数を推定するためにＭ個のマイクロフォン１１を用いることとし、それらのＭ個のうちのｍ番目のマイクロフォン１１の位置をr_mとし、その位置r_mでのマイクロフォン１１による収音で得られる周波数領域の観測信号をy_m(ω)と記すこととする。

　この場合、観測信号y_m(ω)は次式（２）で表すことができる。

　なお、式（２）において、ε_m(ω)は、ｍ番目のマイクロフォン１１の観測信号y_m(ω)に重畳される雑音成分を表している。

　室内伝達関数推定の目的は、Ｍ個の観測信号y_m(ω)（m=1,…,M）に基づき、受聴エリアΩ内に形成される音場、すなわち直接波（直接音）や反射波（残響音）等の音波の到来方向θと、その音場の複素振幅p(θ,k)を推定することである。

　まず、特別な仮定を必要としない、ヘルムホルツ方程式に基づく室内伝達関数の推定手法、すなわちTranslation行列を用いる推定手法について説明する。この推定手法では、次式（３）に示すように球面調和関数展開に基づいて室内伝達関数が推定される。

　なお、式（３）においてj_ν(kr)は球ベッセル関数を表しており、Y_ν ^μ(r’)は球面調和関数を表している。また、ここでは所定の定数をγとしてr=γr’とされている。さらに、式（３）ではα_ν ^μ(k)は展開係数を表しており、Ｎは球面調和関数の次数（最大次数）を表している。

　展開係数α_ν ^μ(k)と観測信号y_m(ω)には以下の式（４）に示す等式が成り立つ。

　なお、式（４）においてτ_ν ^μ(r_m,k)はtranslation行列T’(r_m,k)の第(ν,μ)要素に相当する。translation行列については、例えば「P. A. Martin, “Multiple Scattering: Interaction of Time-Harmonic Waves with N Obstacles”, Cambridge University Press, New York, 2006.」などに詳細に記載されている。

　このような式（４）はm=1,…,Mについて成り立ち、それらをまとめて次式（５）に示すように行列で表現することが可能である。

　なお、式（５）においてy(ω)は、所定の角周波数ωについてのＭ個の観測信号y_m(ω)からなるベクトルであり、ベクトルy(ω)の第ｍ成分はy_m(ω)である。

　また、T(k)は第(m,ν,μ)成分がτ_ν ^μ(r_m,k)である行列であり、α(k)は第(ν,μ)成分が展開係数α_ν ^μ(k)であるベクトルである。

　以上のことから、ベクトルα(k)の推定値であるベクトルα’(k)は次式（６）により得ることができる。

　なお、式（６）においてT(k)^†は行列T(k)の擬似逆行列を表している。

　このようにして得られたベクトルα’(k)、つまりベクトルα’(k)の要素である展開係数α_ν ^μ(k)の推定値（以下、展開係数α’_ν ^μ(k)とも記す）に基づいて、受聴エリアΩ内への到来方向θからの音の到来成分の複素振幅p(θ,k)を求めることができる。

　具体的には、次式（７）を計算することで複素振幅p(θ,k)を得ることができる。

　なお、式（７）において(・)^Hはエルミート転置を表しており、ｗは第(ν,μ)成分が次式（８）に示すw_ν ^μ*であるベクトルを表している。式（８）では、(・)^＊は複素共役を表している。

　以上のように、観測信号y_m(ω)に基づき式（６）を計算して得られるベクトルα(k)の推定値を求め、その推定値に基づいて式（７）を計算することで、任意の到来方向θの複素振幅p(θ,k)を推定することができる。

　例えば低周波数推定部７１では、以上において説明したTranslation行列を用いる推定手法により、室内伝達関数としての各到来方向θの複素振幅p(θ,k)が推定により求められる。換言すれば、到来方向θを示す到来方向情報と、複素振幅p(θ,k)を示す複素振幅情報とからなる室内伝達関数が得られる。

　次に、スパース最適化を用いた推定手法、すなわち圧縮センシングに基づく超解像技術による推定手法について説明する。

　スパース最適化を用いた推定手法では、受聴エリアΩへの室内伝達関数は少数の平面波によって近似可能であると仮定される。この仮定により、音場の超解像化が可能となる。

　ここではまず、観測信号y_m(ω)が次式（９）に示す過完備の平面波基底が用いられて以下の式（１０）に示すように展開される。

　なお、式（９）および式（１０）においてθ_l(||θ_l||₂=1)は離散化された波面の到来方向θの候補を表している。

　式（１０）はm=1,…,Mについて成り立ち、それらをまとめて次式（１１）に示すように行列で表現することが可能である。

　なお、式（１１）においてD(k)は第(m,l)成分が式（９）に示した平面波基底である行列であり、x(k)は第l成分が複素振幅p(θ_l,k)であるベクトルである。また、平面波基底、すなわち到来方向θの数Ｌは十分に大きいものとする。

　室内伝達関数の超解像化では、以下の式（１２）に示す最小化問題を解くことで各到来方向θの振幅および位相が決定される。すなわち、式（１２）を計算することで、室内伝達関数としての各到来方向θの複素振幅p(θ,k)を得ることができる。

　この推定手法では、ベクトルx(k)に対してスパース性を誘導するために、通常q≦1が用いられる。このようなl_qノルム正則を伴う最小化問題を解くためのアルゴリズムは多数提案されており、例えば「S. F. Cotter and B. D. Rao anf K. Engan and K. Kreutz-Delgado, “Sparse solutions to linear inverse problems with multiple measurement vectors,” IEEE TSP, vol. 53, no. 7, 2005.」などに詳細に記載されている。

　例えば高周波数推定部７２では、以上において説明したスパース最適化を用いた推定手法により、室内伝達関数としての各到来方向θの複素振幅p(θ,k)が推定により求められる。すなわち、到来方向θを示す到来方向情報と、複素振幅p(θ,k)を示す複素振幅情報とからなる室内伝達関数が得られる。特に、スパース最適化を用いた推定手法では、残響成分が到来方向θの情報として推定される。

　以上のように、Translation行列を用いる推定手法と、スパース最適化を用いた推定手法の何れの手法によっても、複数の各マイクロフォン１１で得られた観測信号y_m(ω)から、各到来方向θの複素振幅p(θ,k)を推定することが可能である。

　なお、伝達関数推定部５２における推定手法は、以上において説明した推定手法に限らず、各到来方向θと、それらの到来方向θの複素振幅p(θ,k)を推定することが可能な手法であれば、カーネル補間による推定手法など、他のどのような手法であってもよい。

（伝達関数補正部）
　続いて、伝達関数補正部５４について説明する。

　伝達関数補正部５４では、再生環境に応じて、推定により得られた室内伝達関数、すなわち各到来方向θの複素振幅p(θ,k)が補正される。

　このような室内伝達関数の補正により、音場制御の性能改善が見込まれる。すなわち、より高精度に所望の音場を形成することができるようになる。

　ここでは、室内伝達関数の補正の一例として、スピーカアレイ１２を構成するスピーカの配置形状を考慮した到来方向情報に関する補正と、音速変化を考慮した複素振幅情報の補正について説明する。

　まず、スピーカアレイ１２を構成するスピーカの配置形状を考慮した到来方向情報に関する補正について説明する。

　スピーカアレイ１２を構成するスピーカの配置形状は、例えば図４に示すように受聴エリアR11の前方に直線状にスピーカを並べて配置する形状や、図５に示すように受聴エリアR11を囲むように矩形状にスピーカを並べて配置する形状など、様々な形状が考えられる。なお、図４および図５において図２における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　このようにスピーカアレイ１２のスピーカ配置形状は、様々なものが考えられるが、実際には図５に示したように、受聴エリアR11、すなわち受聴エリアΩを囲むようにスピーカが配置されるケースは多くはない。

　例えば図４に示したようにスピーカアレイ１２を構成する各スピーカを直線状に並べて配置した場合、図６に示すようにスピーカを用いて音場を制御可能な到来方向θは、直線L11および直線L12の間の角度範囲Ｓ内の方向に制限される。換言すれば、受聴エリアΩから見たときに、スピーカアレイ１２を構成するスピーカが存在する方向に制限される。なお、図６において図２における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図６の例では、直線L11により示される方向から、直線L12により示される方向までの方向（角度）の範囲が角度範囲Ｓとなっており、受聴エリアΩから見て角度範囲Ｓ内の任意の方向にはスピーカアレイ１２のスピーカが存在している。

　受聴エリアΩ内に任意の音場を形成する場合、角度範囲Ｓ内に含まれる方向（角度）を到来方向θとすれば、すなわち、角度範囲Ｓ内に含まれる到来方向θからのみ音が到来するものとすれば、音場を精度よく形成することが可能（音場を制御可能）である。

　換言すれば、角度範囲Ｓ内に含まれる到来方向θの複素振幅情報（室内伝達関数）のみを用いるようにすれば、所望の音場を少ない誤差で形成することが可能である。

　しかし、角度範囲Ｓ外の方向、つまり受聴エリアΩから見てスピーカアレイ１２のスピーカが存在しない方向については、その方向から音波が到来する音場を精度よく形成することはできない。そのため、室内伝達関数として角度範囲Ｓ外の到来方向θの複素振幅情報も用いた場合には、角度範囲Ｓ外の到来方向θ、すなわち制御不可能な到来方向θからの音の成分を打ち消すために、音場制御の性能（精度）が劣化してしまう。

　さらに、制御不可能な到来方向θからの音の成分の推定誤差により、スピーカアレイ１２の駆動信号の空間フィルタが不安定になってしまう。すなわち、空間フィルタを得るための予測演算の難易度が高くなり、適切な空間フィルタ（解）を得ることが困難となる。

　このような角度範囲Ｓ外の到来方向θの成分は、室で生じる残響成分の一部である。

　そこで、このような音場制御の性能の劣化や、空間フィルタが不安定になってしまうことを抑制するために、伝達関数補正部５４では次式（１３）に示すように角度範囲Ｓ外の到来方向θの複素振幅p(θ,k)の値をゼロとする補正が室内伝達関数に対して行われる。

　このような式（１３）に示す補正は、受聴エリアΩから見てスピーカアレイ１２のスピーカが存在しない到来方向θの複素振幅p(θ,k)の値をゼロとする補正、すなわち制御が不可能な残響成分を間引く処理である。

　実際にスピーカアレイ１２により音場を形成する場合、スピーカアレイ１２のスピーカは、部屋の壁面に沿って配置されることが多く、形成される音場では角度範囲Ｓ内の到来方向θからの音の成分が支配的となる。

　したがって、伝達関数推定部５２で得られた室内伝達関数に対して、角度範囲Ｓ外の到来方向θの複素振幅p(θ,k)の値をゼロとする補正、つまり到来方向情報に関する補正を行うことで、室内伝達関数に基づき生成される空間フィルタが不安定になってしまうことを抑制することができる。すなわち、より頑健な空間フィルタを得ることができる。これにより、より精度よく音場を形成することができるようになる。

　なお、到来方向情報に関する室内伝達関数の補正は、スピーカアレイ１２のスピーカ配置の形状に応じた補正に限らず、他の情報を考慮して行われるようにしてもよい。

　また、ここではスピーカアレイ１２のスピーカ配置形状として図４や図５に例を示したが、その他、Ｌ字型にスピーカを並べて配置するなど、スピーカ配置形状はどのような形状であってもよい。

　例えばスピーカアレイ１２のスピーカをＬ字に並べて配置するときには、受聴エリアΩから見てスピーカアレイ１２のスピーカが存在しない到来方向θがあるので、その到来方向θについて複素振幅p(θ,k)の値をゼロとする補正が行われる。

　これに対して、例えば図５に示したようにスピーカアレイ１２のスピーカを、受聴エリアΩを囲むように四角形状に並べて配置するときには、受聴エリアΩから見てスピーカアレイ１２のスピーカが存在しない到来方向θはないので、到来方向θに関する室内伝達関数の補正は行われない。

　次に、音速変化を考慮した複素振幅情報の補正について説明する。

　音速は音波の伝搬速度に相当し、室内伝達関数のうち、特に複素振幅情報に寄与するパラメータの１つである。

　音速は室の温度、湿度、気圧などに依存し、時変なパラメータとして扱う必要がある。一般的に複数のマイクロフォン１１を用いて複素振幅p(θ,k)の観測を行うとき、つまり室内伝達関数を推定するときと、実際にコンテンツを再生するときとでは音速が異なる。

　したがって、音場制御の性能を悪化させないためには、室内伝達関数の推定時とコンテンツ再生時の両方の環境における音速を計測し、それらの音速の差異を考慮した補正を室内伝達関数に対して行う必要がある。例えば音速に応じた音場制御については、「T. Betlehem and L. Krishnan and P. Teal, “Temperature robust active-compensated sound field reproduction using impulse response shaping,” Proc. IEEE ICASSP, 2018.」などに詳細に記載されている。

　例えば伝達関数補正部５４では、推定によって得られた室内伝達関数としての複素振幅p(θ,k)を各到来方向θに対して波数ｋの関数として捉え、関係式k=2πf/cに基づいて、再生環境下における複素振幅p(θ,k)に対して以下の式（１４）に示す補正が行われる。

　なお、k=2πf/cにおけるｆは周波数を表しており、式（１４）において複素振幅p’(θ,k)は補正後の複素振幅p(θ,k)を表している。また、式（１４）におけるｅは室内伝達関数の測定（推定）時の音速と、コンテンツ再生時の音速との比（音速比）を表している。

　式（１４）に示す例では、音速比ｅに基づいて、音速の変化分だけ複素振幅p(θ,k)の波数ｋが補正され、補正後の複素振幅p’(θ,k)とされている。

　このような補正は、受聴エリアΩでのスピーカアレイ１２によるコンテンツの再生環境が、室内伝達関数の推定時とは音速が異なる再生環境である場合に行えばよい。

　図２に示した音場制御システムでは、何らかの方法により室内伝達関数の測定時の音速と、コンテンツ再生時の音速とが計測されて音速比ｅが求められる。

　伝達関数補正部５４では、音速比ｅに基づいて上述の式（１４）を計算し、室内伝達関数に対して音速変化を考慮した補正を行うことで、より適切な室内伝達関数を得ることができる。なお、音速比ｅは伝達関数補正部５４で算出されるようにしてもよいし、伝達関数補正部５４とは異なる処理ブロックで算出されて伝達関数補正部５４に供給されるようにしてもよい。

　また、複素振幅情報の補正は、音速変化に応じた補正に限らず、カーテン等による室内の壁面の材質の変化やスピーカアレイ１２のスピーカの非線形性の変化など、他の情報を考慮して行われるようにしてもよい。

〈室内伝達関数推定処理の説明〉
　次に図２に示した音場制御システムの動作について説明する。すなわち、以下、図７のフローチャートを参照して、音場制御システムによる室内伝達関数推定処理について説明する。

　ステップＳ１１において取得部５１は、複数の各マイクロフォン１１から収音により得られた観測信号y_m(ω)を取得して伝達関数推定部５２に供給する。

　例えば室内伝達関数の測定（推定）時には、スピーカアレイ１２を構成するスピーカは、駆動信号生成部５５から供給された、室内伝達関数測定用の駆動信号に基づいて音（測定音）を出力する。

　ここでは、スピーカアレイ１２を構成する複数のスピーカが１つずつ順番に音を出力し、各マイクロフォン１１ではスピーカごとに観測信号y_m(ω)が得られる。これにより、例えばスピーカアレイ１２の各スピーカからマイクロフォン１１へのインパルス応答が測定される。

　ステップＳ１２において低周波数推定部７１は、取得部５１から供給された観測信号y_m(ω)に基づいて、低周波数の室内伝達関数を推定する。

　例えば低周波数推定部７１は、角周波数ωが所定の閾値以下である観測信号y_m(ω)、つまり周波数が所定値以下である周波数ビンの観測信号y_m(ω)に基づいて、上述の式（６）および式（７）を計算することで各到来方向θの複素振幅p(θ,k)を推定し、その推定結果を低周波数の室内伝達関数とする。

　ステップＳ１３において高周波数推定部７２は、取得部５１から供給された観測信号y_m(ω)に基づいて、高周波数の室内伝達関数を推定する。

　例えば高周波数推定部７２は、角周波数ωが所定の閾値より大きい観測信号y_m(ω)、つまり周波数が所定値より大きい周波数ビンの観測信号y_m(ω)に基づいて、上述の式（１２）の計算を行うことで各到来方向θの複素振幅p(θ,k)を推定し、その推定結果を高周波数の室内伝達関数とする。

　伝達関数推定部５２は、ステップＳ１２およびステップＳ１３で得られた各室内伝達関数を出力する。また、室内伝達関数の推定時には、そのときの音速も計測されて、その計測結果が伝達関数補正部５４に供給される。

　このようにして室内伝達関数が得られると、その後、コンテンツ再生時には以下のステップＳ１４乃至ステップＳ１８の処理が行われる。また、コンテンツ再生時には、受聴エリアΩにおけるコンテンツ再生時の音速が計測されて、その計測結果が伝達関数補正部５４に供給される。

　ステップＳ１４において伝達関数取得部５３は、伝達関数推定部５２から室内伝達関数を取得し、伝達関数補正部５４に供給する。

　ステップＳ１５において伝達関数補正部５４は、伝達関数取得部５３から供給された室内伝達関数に対して到来方向情報に関する補正を行う。

　例えば伝達関数補正部５４は、コンテンツ再生時のスピーカアレイ１２のスピーカ配置形状に対して定まる角度範囲Ｓについて、上述した式（１３）に示したように角度範囲Ｓ外の到来方向θの複素振幅p(θ,k)の値をゼロとする補正を室内伝達関数に対して行う。

　なお、ステップＳ１５の処理は、再生環境が、受聴エリアΩからスピーカアレイ１２を構成するスピーカを見たときに、スピーカの存在に偏りがある再生環境である場合、つまりスピーカが存在しない到来方向θがある場合などに行われればよい。

　ステップＳ１６において伝達関数補正部５４は、ステップＳ１５の補正で得られた室内伝達関数に対して複素振幅情報に関する補正を行う。

　例えば伝達関数補正部５４は、供給された室内伝達関数の推定時の音速と、コンテンツ再生時の音速とに基づいて音速比ｅを算出する。そして伝達関数補正部５４は、上述の式（１４）を計算することで、ステップＳ１５で得られた室内伝達関数に対して音速比ｅに基づく補正を行い、最終的な室内伝達関数とする。

　例えばステップＳ１６の処理は、コンテンツの再生環境が、室内伝達関数の推定時と、コンテンツ再生時とで音速が異なる再生環境である場合に行われればよい。

　伝達関数補正部５４は、このようにして得られた室内伝達関数を駆動信号生成部５５へと供給する。

　ステップＳ１７において駆動信号生成部５５は、伝達関数補正部５４から供給された室内伝達関数に基づいて駆動信号を生成する。

　例えば駆動信号生成部５５は、伝達関数補正部５４から供給された室内伝達関数に基づいて空間フィルタを生成し、コンテンツを再生するための音源信号に対して空間フィルタによるフィルタリングを行うことで駆動信号を生成する。

　ステップＳ１８において駆動信号生成部５５は、生成された駆動信号をスピーカアレイ１２の各スピーカに供給して駆動させることで、各スピーカから音を出力させる。これにより、受聴エリアΩでは所望の音場が形成され、コンテンツの音が再生される。

　このようにしてコンテンツが再生されると、室内伝達関数推定処理は終了する。

　以上のようにして音場制御システムは、周波数ビンごとに異なる推定手法により室内伝達関数を推定するとともに、スピーカアレイ１２のスピーカ配置形状や音速変化に応じて室内伝達関数を補正する。

　このように周波数ビンごとに適した推定手法により室内伝達関数を推定することで、より適切な室内伝達関数を得ることができる。これにより、より高精度に所望の音場を形成することができる。しかも、スピーカ配置形状や音速変化に応じて室内伝達関数を補正することで、さらに適切な室内伝達関数を得ることができる。

〈コンピュータの構成例〉
　ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図８は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

　バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

　入力部５０６は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

　以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、本技術は、以下の構成とすることも可能である。

（１）
　スピーカから出力された測定音を受聴エリア内の複数のマイクロフォンで収音することにより得られた観測信号に基づいて推定された、前記スピーカから前記受聴エリアまでの伝達関数を取得する伝達関数取得部と、
　前記伝達関数に基づいて前記スピーカにより再生する音の駆動信号を生成する際に、前記音の再生環境が、前記受聴エリアから見て前記スピーカの存在に偏りがある再生環境である場合、または前記伝達関数の推定時とは前記伝達関数が異なる再生環境である場合、取得された前記伝達関数を補正する伝達関数補正部と
　を備える信号処理装置。
（２）
　前記伝達関数補正部は、前記受聴エリアから見て前記スピーカの存在に偏りがある再生環境である場合、前記スピーカが存在しない方向に関する前記伝達関数を補正する
　（１）に記載の信号処理装置。
（３）
　前記伝達関数補正部は、前記スピーカが存在しない方向に関する前記伝達関数の複素振幅の値をゼロとする補正を行う
　（２）に記載の信号処理装置。
（４）
　前記伝達関数補正部は、前記伝達関数の推定時とは前記伝達関数が異なる再生環境である場合、前記伝達関数の推定時の音速と、前記音を再生するときの音速との比に基づいて前記伝達関数を補正する
　（１）乃至（３）の何れか一項に記載の信号処理装置。
（５）
　前記伝達関数補正部は、前記比に基づいて、前記伝達関数の複素振幅の値を補正する
　（４）に記載の信号処理装置。
（６）
　前記伝達関数は、前記音の周波数に応じて異なるアルゴリズムで推定される
　（１）乃至（５）の何れか一項に記載の信号処理装置。
（７）
　前記伝達関数は、ヘルムホルツ方程式に基づいて推定される
　（６）に記載の信号処理装置。
（８）
　前記伝達関数は、圧縮センシングに基づく超解像技術により推定される
　（６）に記載の信号処理装置。
（９）
　高周波数帯域の前記伝達関数は、圧縮センシングに基づく超解像技術により推定される
　（８）に記載の信号処理装置。
（１０）
　前記観測信号に基づいて前記伝達関数を推定する伝達関数推定部をさらに備える
　（１）乃至（９）の何れか一項に記載の信号処理装置。
（１１）
　信号処理装置が、
　スピーカから出力された測定音を受聴エリア内の複数のマイクロフォンで収音することにより得られた観測信号に基づいて推定された、前記スピーカから前記受聴エリアまでの伝達関数を取得し、
　前記伝達関数に基づいて前記スピーカにより再生する音の駆動信号を生成する際に、前記音の再生環境が、前記受聴エリアから見て前記スピーカの存在に偏りがある再生環境である場合、または前記伝達関数の推定時とは前記伝達関数が異なる再生環境である場合、取得された前記伝達関数を補正する
　信号処理方法。
（１２）
　スピーカから出力された測定音を受聴エリア内の複数のマイクロフォンで収音することにより得られた観測信号に基づいて推定された、前記スピーカから前記受聴エリアまでの伝達関数を取得し、
　前記伝達関数に基づいて前記スピーカにより再生する音の駆動信号を生成する際に、前記音の再生環境が、前記受聴エリアから見て前記スピーカの存在に偏りがある再生環境である場合、または前記伝達関数の推定時とは前記伝達関数が異なる再生環境である場合、取得された前記伝達関数を補正する
　ステップを含む処理をコンピュータに実行させるプログラム。

　１１－１乃至１１－Ｍ，１１　マイクロフォン，　１２　スピーカアレイ，　４１　信号処理装置，　５１　取得部，　５２　伝達関数推定部，　５３　伝達関数取得部，　５４　伝達関数補正部，　５５　駆動信号生成部，　７１　低周波数推定部，　７２　高周波数推定部

Claims

　スピーカから出力された測定音を受聴エリア内の複数のマイクロフォンで収音することにより得られた観測信号に基づいて推定された、前記スピーカから前記受聴エリアまでの伝達関数を取得する伝達関数取得部と、
　前記伝達関数に基づいて前記スピーカにより再生する音の駆動信号を生成する際に、前記音の再生環境が、前記受聴エリアから見て前記スピーカの存在に偏りがある再生環境である場合、または前記伝達関数の推定時とは前記伝達関数が異なる再生環境である場合、取得された前記伝達関数を補正する伝達関数補正部と
　を備える信号処理装置。
　前記伝達関数補正部は、前記受聴エリアから見て前記スピーカの存在に偏りがある再生環境である場合、前記スピーカが存在しない方向に関する前記伝達関数を補正する
　請求項１に記載の信号処理装置。
　前記伝達関数補正部は、前記スピーカが存在しない方向に関する前記伝達関数の複素振幅の値をゼロとする補正を行う
　請求項２に記載の信号処理装置。
　前記伝達関数補正部は、前記伝達関数の推定時とは前記伝達関数が異なる再生環境である場合、前記伝達関数の推定時の音速と、前記音を再生するときの音速との比に基づいて前記伝達関数を補正する
　請求項１に記載の信号処理装置。
　前記伝達関数補正部は、前記比に基づいて、前記伝達関数の複素振幅の値を補正する
　請求項４に記載の信号処理装置。
　前記伝達関数は、前記音の周波数に応じて異なるアルゴリズムで推定される
　請求項１に記載の信号処理装置。
　前記伝達関数は、ヘルムホルツ方程式に基づいて推定される
　請求項６に記載の信号処理装置。
　前記伝達関数は、圧縮センシングに基づく超解像技術により推定される
　請求項６に記載の信号処理装置。
　高周波数帯域の前記伝達関数は、圧縮センシングに基づく超解像技術により推定される
　請求項８に記載の信号処理装置。
　前記観測信号に基づいて前記伝達関数を推定する伝達関数推定部をさらに備える
　請求項１に記載の信号処理装置。
　信号処理装置が、
　スピーカから出力された測定音を受聴エリア内の複数のマイクロフォンで収音することにより得られた観測信号に基づいて推定された、前記スピーカから前記受聴エリアまでの伝達関数を取得し、
　前記伝達関数に基づいて前記スピーカにより再生する音の駆動信号を生成する際に、前記音の再生環境が、前記受聴エリアから見て前記スピーカの存在に偏りがある再生環境である場合、または前記伝達関数の推定時とは前記伝達関数が異なる再生環境である場合、取得された前記伝達関数を補正する
　信号処理方法。
　スピーカから出力された測定音を受聴エリア内の複数のマイクロフォンで収音することにより得られた観測信号に基づいて推定された、前記スピーカから前記受聴エリアまでの伝達関数を取得し、
　前記伝達関数に基づいて前記スピーカにより再生する音の駆動信号を生成する際に、前記音の再生環境が、前記受聴エリアから見て前記スピーカの存在に偏りがある再生環境である場合、または前記伝達関数の推定時とは前記伝達関数が異なる再生環境である場合、取得された前記伝達関数を補正する
　ステップを含む処理をコンピュータに実行させるプログラム。