WO2021246195A1

WO2021246195A1 - 信号処理装置および方法、並びにプログラム

Info

Publication number: WO2021246195A1
Application number: PCT/JP2021/019304
Authority: WO
Inventors: 雄太瀧田; ウェイシャンリャオ
Original assignee: ソニーグループ株式会社
Priority date: 2020-06-05
Filing date: 2021-05-21
Publication date: 2021-12-09

Abstract

本技術は、より簡単かつ高精度に音速を推定することができるようにする信号処理装置および方法、並びにプログラムに関する。信号処理装置は、複数のスピーカから出力された音を単一のマイクロフォンにより収音して得られた観測信号を取得する取得部と、観測信号に基づいて、スピーカとマイクロフォンとの間における音速値を推定する推定部とを備える。本技術は音速推定システムに適用することができる。

Description

信号処理装置および方法、並びにプログラム

　本技術は、信号処理装置および方法、並びにプログラムに関し、特に、より簡単かつ高精度に音速を推定することができるようにした信号処理装置および方法、並びにプログラムに関する。

　従来、音響機器を用いて音速を推定する方法としては、スピーカと複数のマイクロフォンを用いる方法が一般的である（例えば、非特許文献１、特許文献１、および特許文献２参照）。

　例えば、一般的な音速推定手法では、複数のマイクロフォンが既知の間隔で配置された状態で、スピーカからパルス音と呼ばれる測定信号が出力される。そして、パルス音の各マイクロフォンへの第一波（直接波）の到達時間差と、スピーカから各マイクロフォンまでの距離差とに基づいて音速が計算される。

P. Annibale and R. Rabenstein, "Speed of sound and air temperature estimation using the TDOA-based localization framework, " Proc. IEEE ICASSP, 2012.

特開平６－３００６１７号公報特開平３－１２８４２２号公報

　しかしながら、上述した技術では、簡単かつ高精度に音速を推定することは困難であった。

　例えば上述した音速推定手法では、コンテンツ等の再生中に音速を推定する場合、パルス音が同一環境下にいる人の耳に届き、耳障りとなってしまうおそれがある。

　また、例えば人の声などのスピーカの駆動音（パルス音）以外の音成分がパルス音と同時にマイクロフォンによって観測された場合、その観測信号からパルス音の第一波を検出することが困難となってしまう。すなわち、高精度に音速を推定することができなくなってしまう。

　さらに、十分高い精度で音速を推定するには、複数の各マイクロフォン間の距離が十分離れている必要があるため、音速推定のためのシステム系が大きくなってしまう。

　本技術は、このような状況に鑑みてなされたものであり、より簡単かつ高精度に音速を推定することができるようにするものである。

　本技術の一側面の信号処理装置は、複数のスピーカから出力された音を単一のマイクロフォンにより収音して得られた観測信号を取得する取得部と、前記観測信号に基づいて、前記スピーカと前記マイクロフォンとの間における音速値を推定する推定部とを備える。

　本技術の一側面の信号処理方法またはプログラムは、複数のスピーカから出力された音を単一のマイクロフォンにより収音して得られた観測信号を取得し、前記観測信号に基づいて、前記スピーカと前記マイクロフォンとの間における音速値を推定するステップを含む。

　本技術の一側面においては、複数のスピーカから出力された音を単一のマイクロフォンにより収音して得られた観測信号が取得され、前記観測信号に基づいて、前記スピーカと前記マイクロフォンとの間における音速値が推定される。

音速推定システムの構成を示す図である。スピーカアレイとマイクロフォンの配置例を示す図である。駆動信号の生成と観測信号について説明する図である。駆動信号に基づくビーム波の音圧の分布を示す図である。仮定音速値と観測信号のパワーの関係を示す図である。仮定音速値と観測信号のパワーの関係を示す図である。音速推定処理を説明するフローチャートである。コンピュータの構成例を示す図である。

　以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈音速推定システムの構成例〉
　本技術は、駆動信号に基づき複数のスピーカを駆動させて特定の方向でのみ強め合うビーム波を形成し、各スピーカから出力された音波の重ね合わせを単一のマイクロフォンで観測することで、再生エリア下にいる人に知覚されないように音速を推定するものである。

　特に、本技術では自己相関性の強い信号や、高周波数帯域の成分のみを含む信号に基づく音をスピーカから出力させることで、スピーカからの直接波以外の雑音成分に対するロバスト性を向上させ、より高精度に音速を推定することができる。

　例えば、多チャネルのスピーカを用いた音響再生方式は多く存在する。近年では、5.1chや7.1chなどといったサラウンド方式も広く普及し、多数のスピーカを用いた音場合成システムなども存在する。

　なお、以下では、チャネル数が４以上であるものを多チャネルと称することとする。多チャネルのスピーカ、すなわち複数のチャネルのスピーカからなるスピーカアレイでは、複数の各スピーカから互いに異なる音を出力することが可能である。換言すれば、複数の各スピーカを独立に制御することが可能である。

　多チャネルのスピーカを用いた多くの空間音響システムでは、再生環境下における音速値を用いることで、より高い音響再生性能を実現することができる。すなわち、より正確に所望の音場を形成し、高い臨場感を得ることができる。

　これは、多チャネルのスピーカを用いた空間音響システム、つまり波面合成をはじめとする音場制御技術では、音速値に基づいて各スピーカの駆動信号が生成されるためである。音速値に基づき生成された駆動信号により各スピーカから音が出力されると、それらの音の位相差（波動性）により音場が形成される。

　また、駆動信号の計算時に用いられる仮定の音速値と、実際の音の再生環境下における真の音速値とに乖離がある場合には、空間内において音の位相、すなわち音波が強め合う位置にずれが生じる。そうすると、形成しようとする所望の音場と、実際に形成される音場とに誤差が生じてしまう。

　したがって、多チャネルのスピーカで音場制御を行う場合、再生環境における音速値を正確に、すなわち高い精度で推定することが重要である。

　本技術によれば、多チャネルのスピーカが既に設置されている環境下で、音響機器を用いて、より簡単かつ高精度に音速を推定することができる。

　図１は、本技術を適用した音速推定システムの一実施の形態の構成例を示す図である。

　図１に示す音速推定システムは、信号処理装置１１、スピーカアレイ１２、およびマイクロフォン１３を有している。

　本技術では、音速推定のために、既に設置済みと想定される多チャネルスピーカシステムに加えて、単一のマイクロフォンが最低限必要とされている。

　そのため、図１の音速推定システムでは、多チャネルスピーカシステムとして、独立に制御可能な複数のスピーカからなるスピーカアレイ１２と、単一のマイクロフォン１３とが設けられている。

　また、スピーカアレイ１２の前方には再生エリアＲ１１が設けられており、ユーザ（受聴者）が再生エリアＲ１１内で、スピーカアレイ１２から出力されるコンテンツ等の音を聴取することが想定されている。

　マイクロフォン１３は、設置済みの任意の多チャネルのスピーカアレイ１２に対して、再生エリアＲ１１外における、スピーカアレイ１２によりビーム波を形成しやすい位置に配置されている。換言すれば、マイクロフォン１３は、スピーカアレイ１２から見て再生エリアＲ１１のある方向とは異なる方向に配置されている。

　音速推定システムでは、多チャネルのスピーカアレイ１２に対して、各スピーカを駆動させるための駆動信号を自由に決定し、それらのスピーカから出力される音波をマイクロフォン１３で観測できるようになされている。

　信号処理装置１１は、スピーカアレイ１２を構成する各スピーカの駆動信号を決定する駆動信号計算部２１と、マイクロフォン１３で得られた観測信号を取得する取得部２２と、観測信号を解析する観測信号解析部２３とを有している。

　なお、ここでは駆動信号計算部２１と、取得部２２および観測信号解析部２３とが同じ装置（信号処理装置１１）に設けられる例について説明する。

　しかし、これに限らず、駆動信号計算部２１、取得部２２、および観測信号解析部２３のうちのいくつかは、互いに異なる装置に設けられ、必要に応じて、それらの装置が有線または無線により相互に接続されるようにしてもよい。

　駆動信号計算部２１は、スピーカアレイ１２の各スピーカを駆動させるための駆動信号を計算し、得られた駆動信号をスピーカアレイ１２に供給する。

　すると、スピーカアレイ１２の各スピーカは、駆動信号計算部２１から供給された駆動信号に基づいて駆動し、駆動信号に基づく音波（音）を出力する。

　これにより、再生エリアＲ１１では所望のコンテンツの音が再生される。また、再生エリアＲ１１外のマイクロフォン１３近傍のエリア（領域）では、各スピーカから出力された音速推定のための音波が重ね合わせられ、音波のビーム（以下、ビーム波とも称する）が形成される。特に、ここでは音速推定のためのビーム波として、マイクロフォン１３のある方向へと伝搬するビーム波が形成され、このビーム波がマイクロフォン１３によって観測（収音）される。

　駆動信号計算部２１では、仮定音速値が設定されて、その仮定音速値に基づいて、マイクロフォン１３近傍において音速推定のためのビーム波が観測されるように、各スピーカの駆動信号が計算される。

　ここでいう仮定音速値とは、実際のコンテンツ等の再生環境、すなわち例えばスピーカアレイ１２とマイクロフォン１３との間における音速値の仮定値である。換言すれば、仮定音速値とはスピーカアレイ１２から出力される音の音速値の仮定値である。

　マイクロフォン１３近傍、つまり音速推定のためのビーム波の観測位置においては、そのビーム波の仮定音速値と、ビーム波の真の音速値とが一致する場合に、最もビーム波、すなわち各スピーカからの音波が強め合い、観測信号のパワーが最大となる。

　そこで駆動信号計算部２１は、時間とともに仮定音速値を変化させながら駆動信号を計算し、スピーカアレイ１２から音を出力させる。

　取得部２２は、マイクロフォン１３が周囲の音を収音することにより得られた観測信号を取得し、観測信号解析部２３に供給する。

　観測信号解析部２３は、取得部２２から供給された観測信号に対する解析を行い、音速値を推定する推定部として機能する。

　すなわち、観測信号解析部２３では、観測信号のパワーに基づいてスピーカアレイ１２とマイクロフォン１３との間の真の音速値が推定される。具体的には、例えば観測信号解析部２３では、観測信号のパワーが最も大きくなるような仮定音速値がサーチ（探索）され、その探索結果が音速値の推定値（推定結果）とされる。

　なお、図１に示した例では、基本的にはスピーカアレイ１２を構成するスピーカの数は４以上であることが想定されているが、スピーカ数は２以上であればよく、またビーム波を観測するためのマイクロフォン１３の数は２以上であってもよい。

　さらに、図１の例では多チャネルのスピーカアレイ１２が設置済みである場合を想定しているが、音速推定のためのデバイスとして多チャネルでない複数のスピーカと、最低でも１本以上のマイクロフォン１３を導入することも考えられる。

　その他、スピーカアレイ１２を構成する複数のスピーカは、直線状や矩形状など、どのような形状で並べられて配置されてもよく、マイクロフォン１３の配置位置も任意の位置とすることができる。

〈信号処理装置の各部について〉
（駆動信号計算部について）
　次に、信号処理装置１１を構成する駆動信号計算部２１と観測信号解析部２３について、より詳細に説明する。まず、駆動信号計算部２１について説明する。

　この実施の形態では、駆動信号計算部２１により計算される駆動信号と、マイクロフォン１３で得られる観測信号とを周波数領域で考えるとする。また、以下では、スピーカアレイ１２はＬ個のスピーカ（ラウドスピーカ）から構成されるものとして説明を行う。

　駆動信号計算部２１では、マイクロフォン１３が配置された位置r_micでビーム波が形成されるように、スピーカアレイ１２の各スピーカｌ（但し、l＝1,…,L）の駆動信号d_l(ω,c’)が決定（生成）される。

　なお、c’は音速に関する引数を表しており、ここではc’は仮定音速値に相当する。また、ωは角周波数を表している。

　適切なマイクロフォン１３の位置r_micと各スピーカｌの駆動信号d_l(ω,c’)は、スピーカアレイ１２を構成する各スピーカｌの配置条件に依存する。

　例えば図２に示すように、スピーカアレイ１２を構成する各スピーカｌが直線状に等間隔で並んでいるとする。なお、図２において図１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　この例では、スピーカアレイ１２を構成する各スピーカｌが図中、横方向に直線状に並べられて配置されている。特に、ここでは互いに隣接するスピーカｌ間の距離がΔｘとなっている。つまり、各スピーカｌは距離Δｘの間隔で並べられている。

　このような場合、例えば図２に示されるように、各スピーカｌが並んでいる直線上の任意の位置、つまり各スピーカｌと同一直線上の任意の位置にマイクロフォン１３が配置されるようにすればよい。

　そうすれば、駆動信号d_l(ω,c’)を生成するための空間フィルタ、より詳細には空間フィルタのフィルタ係数h_l(ω,c’)を次式（１）に示すような遅延フィルタとすることで、各スピーカｌから出力（放射）された音波がマイクロフォン１３の位置r_micにおいて強め合うビーム波を形成することが可能である。

　なお、式（１）においてiは虚数単位を表しており、ωは角周波数を表している。また、Δｘは互いに隣接するスピーカｌ間の距離（間隔）を表しており、c’は仮定音速値を表している。

　駆動信号計算部２１は、予め用意された所定の原信号d(ω)に対して、空間フィルタh_l(ω,c’)によるフィルタリングを行うことで、スピーカｌごとの駆動信号d_l(ω,c’)を生成する。すなわち、駆動信号計算部２１は、次式（２）に示すように空間フィルタh_l(ω,c’)と原信号d(ω)とを畳み込むことで、スピーカｌの駆動信号d_l(ω,c’)を計算する。

　したがって例えば図３に示すように、１つの原信号d(ω)に対してスピーカアレイ１２を構成するスピーカｌごとに、式（２）が計算されて空間フィルタh_l(ω,c’)と原信号d(ω)とが畳み込まれ、スピーカｌごとの駆動信号d_l(ω,c’)が求められる。

　そして、それらの駆動信号d_l(ω,c’)に基づいて各スピーカｌが駆動され、マイクロフォン１３の方向へと伝搬するビーム波が形成される。これにより、マイクロフォン１３では、周囲の音を収音した結果として、観測信号s(ω,c’,c_true)が得られる。なお、c_trueは、スピーカアレイ１２から出力した音波の実際の音速値、すなわち音速の真値を表している。

　このように、空間フィルタh_l(ω,c’)に基づいて得られた駆動信号d_l(ω,c’)でスピーカを駆動させた場合、例えば図４に示すように同一直線上における音波成分が大きくなる分、スピーカアレイ１２と直交する方向における音波成分は小さくなる。

　図４において図中、横方向および縦方向はスピーカアレイ１２が配置された空間内における方向を示しており、図中の濃淡は音波成分の大きさ（パワー）を示している。すなわち、図４は、駆動信号d_l(ω,c’)に基づくビーム波の音圧分布を示している。

　特に、ここでは図中、横方向はスピーカアレイ１２を構成するスピーカが並べられている方向を示している。

　図４では、矢印Ｑ１１に示す位置にスピーカアレイ１２が配置されており、スピーカアレイ１２を構成するスピーカが並ぶ方向、特にスピーカアレイ１２と、その図中、右側の位置において、音波のパワーが大きいことが分かる。

　また、スピーカアレイ１２に対して、図中、上方向および下方向の各位置では、音波のパワーが小さくなっていることが分かる。

　したがって、例えば矢印Ｑ１２に示す位置にマイクロフォン１３を配置し、矢印Ｑ１３に示す位置を再生エリアＲ１１とすれば、マイクロフォン１３で十分大きなパワーのビーム波を観測し、再生エリアＲ１１でコンテンツを受聴するユーザ（受聴者）の耳に物理的に届く音波のパワーを十分小さくすることができる。

　これにより、スピーカアレイ１２から出力された、音速推定のための音をユーザに知覚させることなく、音速値を推定することができる。

　特に、音速推定用の駆動信号d_l(ω,c’)の生成に用いられる原信号d(ω)として、通常のスピーカで駆動可能な範囲内の高周波数帯域の成分のみが含まれる信号を用いれば、音速推定のための音をさらにユーザに知覚させにくくすることができる。

　また、例えば自己相関性が強く、その自己相関関数がｔ＝０にピークを有するようなデルタ関数δ（ｔ）に近似できる信号を原信号d(ω)として用いるようにしてもよい。そのような信号は、他の信号との相関が非常に小さいという性質をもつため、音速推定のための原信号d(ω)として用いるのに適している。

　デルタ関数δ（ｔ）に近似できる信号の例として、白色雑音などの擬似乱数族の信号がある。例えば白色雑音の信号に対してハイパスフィルタによりフィルタリングを行うことで得られる信号も、もとの白色雑音とほぼ同様の性質をもつため、そのような信号を原信号d(ω)として用いるようにしてもよい。

　なお、原信号d(ω)は、このような自己相関性および相互相関性に関する性質を満たすような信号であれば、白色雑音から得られる信号などに限らず、他のどのような信号であってもよい。

　例えば、よりビーム波の音圧差が生じるように、低周波数成分からなる信号を原信号d(ω)として用いるようにしてもよい。

　以上のような原信号d(ω)を用いることで、観測信号解析部２３で観測信号を解析する際に、スピーカアレイ１２のスピーカの駆動音以外のノイズ成分に対してロバストな処理を行うことができる。すなわち、ノイズ成分に対する頑健性を向上させることができる。さらに、再生エリアＲ１１にいるユーザに音速推定のための音を知覚させにくくすることができる。

（観測信号解析部について）
　次に、観測信号解析部２３について説明する。

　観測信号解析部２３は、マイクロフォン１３が収音することにより得られた観測信号s(ω,c’,c_true)を解析することで音速の推定値を得る。

　例えば、観測信号s(ω,c’,c_true)の実信号領域としてのパワーP_ss(ω,c’,c_true)は、次式（３）の計算により得られる。

　なお、式（３）においてP(ω,c_true)はスピーカアレイ１２の各スピーカからマイクロフォン１３への伝達のみに依存し、仮定音速値c’に依存しない定数項を表している。

　式（３）により求まるパワーP_ss(ω,c’,c_true)は、音速値c_trueの仮定値である仮定音速値c’が、実際の音速値c_trueと一致する場合に最大となる。

　したがって、例えば駆動信号d_l(ω,c’)を生成する際に、時間とともに仮定音速値c’を変化させていき、観測信号解析部２３がパワーP_ss(ω,c’,c_true)をプロットするなどして、パワーP_ss(ω,c’,c_true)の最大値を探索することで、より確からしい音速値c_trueの推定値、すなわち仮定音速値c’を得ることができる。

　具体的な例として、例えば図２に示したスピーカアレイ１２およびマイクロフォン１３の配置において、真の音速値c_trueが340m/sであったとする。

　この場合、仮定音速値c’と、各時刻の観測信号s(ω,c’,c_true)のパワーP_ss(ω,c’,c_true)との関係は、図５および図６に示すようになる。なお、図５および図６において、縦軸はパワーP_ss(ω,c’,c_true)を示しており、横軸は仮定音速値c’を示している。

　図５は、駆動信号d_l(ω,c’)の周波数を変化させたときの各仮定音速値c’におけるパワーP_ss(ω,c’,c_true)を示している。特に、図５の例ではスピーカアレイ１２を構成するスピーカの数、すなわちチャネル数Ｌは、３２チャネルとされている。

　図５から分かるように、各周波数において仮定音速値c’がその真値である340m/sであるときに最もパワーP_ss(ω,c’,c_true)が大きくなっている。

　また、図６は、スピーカアレイ１２を構成するスピーカの数、すなわちチャネル数Ｌを変化させたときの各仮定音速値c’におけるパワーP_ss(ω,c’,c_true)を示している。特に、図６の例では駆動信号d_l(ω,c’)の周波数は2kHzとされている。

　図６における場合でも、図５における場合と同様に、チャネル数Ｌによらず、仮定音速値c’がその真値である340m/sであるときに最もパワーP_ss(ω,c’,c_true)が大きくなっている。

　図５や図６の例からも分かるように、仮定音速値c’が真値である340m/sのときに観測信号s(ω,c’,c_true)のパワーP_ss(ω,c’,c_true)が最大となる。このことから、音速値c_trueの推定は、図５や図６に示した仮定音速値c’とパワーP_ss(ω,c’,c_true)の関係を示すグラフのピーク、つまりパワーP_ss(ω,c’,c_true)の最大値を探索する問題に帰着することが分かる。

　いま、実環境を想定し、観測信号s(ω,c’,c_true)に、駆動信号成分s_d(ω,c’,c_true)に加えて、その他の雑音成分s_n(ω,c’,c_true)も含まれているものとする。

　すなわち、観測信号s(ω,c’,c_true)が次式（４）に示すように、駆動信号成分s_d(ω,c’,c_true)と雑音成分s_n(ω,c’,c_true)の和により表されるものとする。

　なお、駆動信号成分s_d(ω,c’,c_true)は、多チャネルのスピーカアレイ１２から出力された音波の成分、すなわち各スピーカｌの駆動信号d_l(ω,c’)に基づく音波の成分を表している。また、雑音成分s_n(ω,c’,c_true)は、例えばユーザの声等のノイズ成分、すなわち駆動信号成分s_d(ω,c’,c_true)以外の成分を表している。

　この場合、観測信号解析部２３は、スピーカアレイ１２側の駆動信号d_l(ω,c’)の原信号d(ω)として、上述した白色雑音から得られる信号を選択したうえで、観測信号s(ω,c’,c_true)のパワーP_ss(ω,c’,c_true)の代わりに観測信号s(ω,c’,c_true)と原信号d(ω)との相互相関P_sd(ω,c’,c_true)を計算する。

　相互相関P_sd(ω,c’,c_true)は、例えば次式（５）により得ることができる。なお、式（５）において(・)^＊は複素共役を表している。

　原信号d(ω)と、他信号、すなわち駆動信号成分s_d(ω,c’,c_true)以外の信号との無相関性により、相互相関P_sd(ω,c’,c_true)には、駆動音（駆動信号成分s_d(ω,c’,c_true)）以外に由来する雑音成分は含まれない。

　すなわち、雑音成分s_n(ω,c’,c_true)と原信号d(ω)について以下の式（６）に示す関係が成立するので、相互相関P_sd(ω,c’,c_true)について次式（７）が成り立つ。つまり、相互相関P_sd(ω,c’,c_true)は観測信号s(ω,c’,c_true)のパワーP_ss(ω,c’,c_true)と等価である。

　したがって、観測信号解析部２３では、相互相関P_sd(ω,c’,c_true)の最大値を探索することで、より確からしい音速値c_trueの推定値を得ることができる。

　このようにすることで、観測信号s(ω,c’,c_true)にマイクロフォン１３の周囲で発生する物音や人の話し声等の雑音が含まれる場合でも、雑音成分に対してロバストな音速推定を実現することができる。

〈音速推定処理の説明〉
　続いて、図１に示した音速推定システムの動作について説明する。すなわち、以下、図７のフローチャートを参照して、音速推定システムによる音速推定処理について説明する。

　ステップＳ１１において駆動信号計算部２１は、仮定音速値c’を決定する。

　例えば仮定音速値c’の取り得る値の範囲が予め定められており、駆動信号計算部２１は、その範囲内の値を順番に選択し、仮定音速値c’とする。このとき、例えば仮定音速値c’が時間とともに連続的に変化するように仮定音速値c’の値が決定される。

　ステップＳ１２において駆動信号計算部２１は、ステップＳ１１で決定した仮定音速値c’に対応する空間フィルタh_l(ω,c’)と、予め用意された所定の原信号d(ω)とに基づいてフィルタリングを行うことで、駆動信号d_l(ω,c’)を生成する。

　例えばステップＳ１２では、上述した式（２）の計算が行われて、スピーカアレイ１２を構成するスピーカｌごとに駆動信号d_l(ω,c’)が生成される。

　なお、式（２）の計算にあたっては、駆動信号計算部２１が仮定音速値c’に基づいて上述の式（１）を計算し、空間フィルタh_l(ω,c’)を求めるようにしてもよいし、仮定音速値c’ごとに予め空間フィルタh_l(ω,c’)が用意されているようにしてもよい。

　ステップＳ１３において駆動信号計算部２１は、計算により得られた各駆動信号d_l(ω,c’)をスピーカアレイ１２の各スピーカに供給し、駆動信号d_l(ω,c’)に基づく音波、すなわち駆動音を出力させる。

　これにより、スピーカアレイ１２の周囲では、再生エリアＲ１１で音波が弱め合い、マイクロフォン１３の位置で音波が強め合うビーム波が形成される。すなわち、スピーカアレイ１２からマイクロフォン１３へと伝搬するビーム波が形成される。

　なお、より詳細には、駆動信号計算部２１は音速推定のための駆動信号d_l(ω,c’)と、コンテンツ再生のための駆動信号とを加算してスピーカアレイ１２に供給し、音波を出力させる。これにより、音速推定のための駆動音とともにコンテンツの音も再生される。したがって、このときには再生エリアＲ１１でコンテンツの音が再生されることになる。

　ステップＳ１４においてマイクロフォン１３は、周囲の音を収音し、その結果得られた観測信号s(ω,c’,c_true)を取得部２２に出力する。

　ステップＳ１５において取得部２２は、マイクロフォン１３から出力された観測信号s(ω,c’,c_true)を取得し、観測信号解析部２３に供給する。

　ステップＳ１６において観測信号解析部２３は、取得部２２から供給された観測信号s(ω,c’,c_true)と、ステップＳ１２での駆動信号d_l(ω,c’)の生成に用いられた原信号d(ω)とに基づいて、相互相関P_sd(ω,c’,c_true)を計算する。

　例えばステップＳ１６では、上述した式（５）の計算が行われ、ステップＳ１１で決定された仮定音速値c’について相互相関P_sd(ω,c’,c_true)が計算される。

　ステップＳ１７において駆動信号計算部２１は、仮定音速値c’を変化させるか否かを判定する。

　例えば、上述した範囲内の全ての値を仮定音速値c’としてステップＳ１２乃至ステップＳ１６の処理が行われた場合、ステップＳ１７では仮定音速値c’を変化させないと判定される。

　ステップＳ１７において仮定音速値c’を変化させると判定された場合、その後、処理はステップＳ１１に戻り、上述した処理が繰り返し行われる。すなわち、まだ相互相関P_sd(ω,c’,c_true)が求められていない新たな値が仮定音速値c’とされて、上述した処理が行われる。

　これに対して、ステップＳ１７において仮定音速値c’を変化させないと判定された場合、すなわち所定範囲内の仮定音速値c’全てについて相互相関P_sd(ω,c’,c_true)が得られた場合、その後、処理はステップＳ１８へと進む。

　ステップＳ１８において観測信号解析部２３は、各仮定音速値c’について求めた相互相関P_sd(ω,c’,c_true)のピーク値を探索する。ここでは、全ての仮定音速値c’について求めた相互相関P_sd(ω,c’,c_true)のなかの最大値がピーク値として探索される。

　観測信号解析部２３では、ステップＳ１６およびステップＳ１８の処理、つまり各仮定音速値c’に対応する相互相関P_sd(ω,c’,c_true)を計算し、その相互相関P_sd(ω,c’,c_true)のピーク値を探索する処理が、観測信号s(ω,c’,c_true)に対する解析処理として行われる。

　なお、ここでは予め所定範囲の全ての仮定音速値c’について相互相関P_sd(ω,c’,c_true)を求めてからピーク値を探索する例について説明した。

　しかし、これに限らず、例えばステップＳ１６の直後にステップＳ１８の処理を行い、探索によりピーク値が得られた時点で、新たな仮定音速値c’については駆動音の出力を行わないようにしてもよい。そのような場合、全ての仮定音速値c’についてステップＳ１１乃至ステップＳ１６の処理を行う必要がなくなるので、演算量と処理時間を削減することができる。その他、観測信号解析部２３が式（３）によりパワーP_ss(ω,c’,c_true)を計算し、そのパワーP_ss(ω,c’,c_true)のピーク値を探索するようにしてもよい。

　ステップＳ１９において観測信号解析部２３は、ステップＳ１８での探索結果に基づいて、音速の推定値を求めて出力し、音速推定処理は終了する。

　例えば観測信号解析部２３は、ステップＳ１８の処理でピーク値とされた相互相関P_sd(ω,c’,c_true)に対応する仮定音速値c’、すなわち相互相関P_sd(ω,c’,c_true)が計算されたときの駆動信号d_l(ω,c’)の生成に用いられた仮定音速値c’を、音速値の推定値とする。

　以上のようにして音速推定システムは、自己相関性の強い信号等を原信号d(ω)として用いて、マイクロフォン１３の配置位置の方向のみで音波が強め合うビーム波を形成し、そのビーム波の観測信号s(ω,c’,c_true)に基づいて音速値を推定する。

　このようにすることで、雑音成分に対してロバストな音速推定を実現し、より高精度に、すなわち、より正確に音速を推定することができる。しかも、音速推定システムでは、マイクロフォン１３の配置位置の方向のみで音波が強め合うビーム波を形成するため、単一のマイクロフォン１３で観測信号s(ω,c’,c_true)を観測すればよく、より簡単に音速推定を行うことができる。すなわち、より簡単な構成（より小さいシステム系）で音速推定を行うことができる。

〈コンピュータの構成例〉
　ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図８は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

　バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

　入力部５０６は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

　以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、本技術は、以下の構成とすることも可能である。

（１）
　複数のスピーカから出力された音を単一のマイクロフォンにより収音して得られた観測信号を取得する取得部と、
　前記観測信号に基づいて、前記スピーカと前記マイクロフォンとの間における音速値を推定する推定部と
　を備える信号処理装置。
（２）
　前記複数の前記スピーカから出力された音は、前記音速値の仮定値である仮定音速値に基づいて生成された駆動信号に基づく音であり、
　前記推定部は、前記観測信号のパワーに基づいて前記音速値を推定する
　（１）に記載の信号処理装置。
（３）
　前記複数の前記スピーカからは、時間とともに前記仮定音速値を変化させながら生成された前記駆動信号に基づく音が出力され、
　前記推定部は、前記観測信号のパワーが最大となるときの前記仮定音速値を、前記音速値の推定結果とする
　（２）に記載の信号処理装置。
（４）
　前記推定部は、前記観測信号と、前記駆動信号を得るための原信号との相互相関を計算することにより前記音速値を推定する
　（３）に記載の信号処理装置。
（５）
　前記複数の前記スピーカが音を出力することにより、前記マイクロフォンの方向へと伝搬するビーム波が形成される
　（１）乃至（４）の何れか一項に記載の信号処理装置。
（６）
　前記複数の前記スピーカは直線状に配置されており、
　前記マイクロフォンは前記複数の前記スピーカと同一直線上に配置されている
　（１）乃至（５）の何れか一項に記載の信号処理装置。
（７）
　前記複数の前記スピーカからは、自己相関性の強い信号または高周波数帯域の信号に基づく音が出力される
　（１）乃至（６）の何れか一項に記載の信号処理装置。
（８）
　信号処理装置が、
　複数のスピーカから出力された音を単一のマイクロフォンにより収音して得られた観測信号を取得し、
　前記観測信号に基づいて、前記スピーカと前記マイクロフォンとの間における音速値を推定する
　信号処理方法。
（９）
　複数のスピーカから出力された音を単一のマイクロフォンにより収音して得られた観測信号を取得し、
　前記観測信号に基づいて、前記スピーカと前記マイクロフォンとの間における音速値を推定する
　ステップを含む処理をコンピュータに実行させるプログラム。

　１１　信号処理装置，　１２　スピーカアレイ，　１３　マイクロフォン，　２１　駆動信号計算部，　２２　取得部，　２３　観測信号解析部

Claims

　複数のスピーカから出力された音を単一のマイクロフォンにより収音して得られた観測信号を取得する取得部と、
　前記観測信号に基づいて、前記スピーカと前記マイクロフォンとの間における音速値を推定する推定部と
　を備える信号処理装置。
　前記複数の前記スピーカから出力された音は、前記音速値の仮定値である仮定音速値に基づいて生成された駆動信号に基づく音であり、
　前記推定部は、前記観測信号のパワーに基づいて前記音速値を推定する
　請求項１に記載の信号処理装置。
　前記複数の前記スピーカからは、時間とともに前記仮定音速値を変化させながら生成された前記駆動信号に基づく音が出力され、
　前記推定部は、前記観測信号のパワーが最大となるときの前記仮定音速値を、前記音速値の推定結果とする
　請求項２に記載の信号処理装置。
　前記推定部は、前記観測信号と、前記駆動信号を得るための原信号との相互相関を計算することにより前記音速値を推定する
　請求項３に記載の信号処理装置。
　前記複数の前記スピーカが音を出力することにより、前記マイクロフォンの方向へと伝搬するビーム波が形成される
　請求項１に記載の信号処理装置。
　前記複数の前記スピーカは直線状に配置されており、
　前記マイクロフォンは前記複数の前記スピーカと同一直線上に配置されている
　請求項１に記載の信号処理装置。
　前記複数の前記スピーカからは、自己相関性の強い信号または高周波数帯域の信号に基づく音が出力される
　請求項１に記載の信号処理装置。
　信号処理装置が、
　複数のスピーカから出力された音を単一のマイクロフォンにより収音して得られた観測信号を取得し、
　前記観測信号に基づいて、前記スピーカと前記マイクロフォンとの間における音速値を推定する
　信号処理方法。
　複数のスピーカから出力された音を単一のマイクロフォンにより収音して得られた観測信号を取得し、
　前記観測信号に基づいて、前記スピーカと前記マイクロフォンとの間における音速値を推定する
　ステップを含む処理をコンピュータに実行させるプログラム。