WO2022254799A1

WO2022254799A1 - 情報処理装置、および情報処理方法、並びにプログラム

Info

Publication number: WO2022254799A1
Application number: PCT/JP2022/004997
Authority: WO
Inventors: 哲朗佐藤; 功誠山下; 裕之鎌田
Original assignee: ソニーグループ株式会社
Priority date: 2021-06-03
Filing date: 2022-02-09
Publication date: 2022-12-08
Also published as: CN117413197A; JPWO2022254799A1; EP4350381A1; US20240214761A1

Abstract

本開示は、２個のスピーカと１個のマイクとからなるシステムで、マイクの位置を測定できるようにする情報処理装置、および情報処理方法、並びにプログラムに関する。音声受信ブロックが、既知の位置に存在する２の音声出力ブロックより出力される、拡散符号がスペクトル拡散変調された拡散符号信号からなる音声信号を受信し、相互相関のピークが検出される到来時間に基づいた２の音声出力ブロックまでの距離の差である到来時間差距離に基づいて、音声受信部の位置を算出する。ゲームコントローラやHMDに適用することができる。

Description

情報処理装置、および情報処理方法、並びにプログラム

　本開示は、情報処理装置、および情報処理方法、並びにプログラムに関し、特に、ステレオスピーカとマイクとによりマイクの位置を測位できるようにした情報処理装置、および情報処理方法、並びにプログラムに関する。

　送信装置が、データ符号を符号系列で変調して、変調信号を生成し、変調信号を音声として放音すると共に、受信装置が、放音された音声を受信して、受信した音声信号である変調信号と符号系列との相関を取り、相関のピークに基づいて、送信装置との距離を測定する技術が提案されている（特許文献１参照）。

特開２０１４－２２０７４１号公報

　しかしながら、特許文献１に記載の技術を用いる場合、受信装置が送信装置との距離を測定することはできるが、受信装置の２次元位置を求めるためには、受信装置と送信装置との時刻同期がとれていない場合、少なくとも３個の送信装置を用いる必要がある。

　すなわち、２個のスピーカからなるステレオスピーカ（送信装置）とマイク（マイクロフォン（受信装置））とからなる一般的なオーディオシステムでは、マイクロフォンの２次元位置を求めることはできない。

　本開示は、このような状況に鑑みてなされたものであり、特に、ステレオスピーカとマイクとからなるオーディオシステムにおいて、マイクの２次元位置を測定できるようにするものである。

　本開示の一側面の情報処理装置、およびプログラムは、既知の位置に存在する２の音声出力ブロックより出力される、拡散符号がスペクトル拡散変調された拡散符号信号からなる音声信号を受信する音声受信部と、前記２の音声出力ブロックの前記音声信号が、前記音声受信部に到来して受信されるまでの時間である到来時間から特定される距離の差である到来時間差距離に基づいて、前記音声受信部の位置を算出する位置算出部とを備える情報処理装置、およびプログラムである。

　本開示の一側面の情報処理方法は、既知の位置に存在する２の音声出力ブロックより出力される、拡散符号がスペクトル拡散変調された拡散符号信号からなる音声信号を受信する音声受信部を備えた情報処理装置の情報処理方法であって、前記２の音声出力ブロックの前記音声信号が、前記音声受信部に到来して受信されるまでの時間である到来時間から特定される距離の差である到来時間差距離に基づいて、前記音声受信部の位置を算出するステップを含む情報処理方法である。

　本開示の一側面においては、音声受信部により、既知の位置に存在する２の音声出力ブロックより出力される、拡散符号がスペクトル拡散変調された拡散符号信号からなる音声信号が受信され、前記２の音声出力ブロックの前記音声信号が、前記音声受信部に到来して受信されるまでの時間である到来時間から特定される距離の差である到来時間差距離に基づいて、前記音声受信部の位置が算出される。

本開示のホームオーディオシステムの構成例を説明する図である。図１の音声出力ブロックの構成例を説明する図である。図１の電子機器の構成例を説明する図である。図３の位置算出部の構成例を説明する図である。拡散符号を用いた通信を説明する図である。拡散符号の自己相関と相互相関を説明する図である。相互相関を用いた拡散符号の到来時間を説明する図である。到来時間算出部の構成例を説明する図である。人間の聴覚を説明する図である。拡散符号の周波数シフトを説明する図である。拡散符号の周波数シフトの手順を説明する図である。マルチパスを考慮する場合の例を説明する図である。到来時間差距離を説明する図である。ピークパワー比を説明する図である。位置計算部の第１の実施の形態の構成例を説明する図である。音声出力ブロックによる音声放音処理を説明するフローチャートである。図３の電子機器による音声収音処理を説明するフローチャートである。位置計算部の第１の実施の形態の応用例を説明する図である。 TVを音声出力ブロック間の中心位置にするときの聴視可能範囲を説明する図である。 TVを音声出力ブロック間の中心位置にしないときの聴視可能範囲を説明する図である。ピークパワー周波数成分割合を説明する図である。第２の実施の形態における電子機器の構成例を説明する図である。図２２の位置算出部の構成例を説明する図である。位置計算部の第２の実施の形態の構成例を説明する図である。図２２の電子機器による音声収音処理を説明するフローチャートである。電子機器にIMUを設けるようにしたホームオーディオシステムの構成例である。第３の実施の形態における電子機器の構成例を説明する図である。図２７の位置算出部の構成例を説明する図である。図２７の電子機器による音声収音処理を説明するフローチャートである。第３の実施の形態の応用例を説明する図である。汎用のコンピュータの構成例を示している。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
　１．第１の実施の形態
　２．第１の実施の形態の応用例
　３．第２の実施の形態
　４．第３の実施の形態
　５．第３の実施の形態の応用例
　６．ソフトウェアにより実行させる例

　＜＜１．第１の実施の形態＞＞
　＜ホームオーディオシステム構成＞
　本開示は、特に、２個のスピーカで構成されるステレオスピーカとマイクロフォンからなるオーディオシステムで、マイクロフォンの位置を測定できるようにするものである。

　図１は、本開示を適用したホームオーディオシステムの構成例を示している。

　図１のホームオーディオシステム１１は、TV（テレビジョン受像機）等の表示装置３０、音声出力ブロック３１－１，３１－２、および電子機器３２からなる。尚、以降において、音声出力ブロック３１－１，３１－２を特に区別する必要がない場合、単に、音声出力ブロック３１と称し、その他の構成についても同様に称する。また、表示装置３０については、単に、TV３０とも称する。

　音声出力ブロック３１－１，３１－２は、それぞれスピーカを備えており、音楽コンテンツやゲーム等の音声に、電子機器３２の位置を特定するためのデータ符号を拡散符号でスペクトル拡散変調した変調信号からなる音声を含ませて放音する。

　電子機器３２は、ユーザが携帯する、または、装着するものであり、例えば、ゲームコントローラとして使用するスマートフォンやHMD（Head Mounted Display）などである。

　電子機器３２は、音声出力ブロック３１－１，３１－２のそれぞれより放音される音声を受信するマイク（マイクロフォン）などの音声入力部５１と、音声出力ブロック３１－１，３１－２に対する自らの位置を検出する位置検出部５２とを有する音声入力ブロック４１を備えている。

　音声入力ブロック４１は、表示装置３０、および音声出力ブロック３１－１，３１－２のそれぞれの空間内の位置を既知の位置情報として予め認識しており、音声入力部５１により、音声出力ブロック３１より放音される音声を収音し、位置検出部５２により、収音された音声に含まれる変調信号に基づいて、音声出力ブロック３１－１，３１－２までの距離をそれぞれ求め、自らの音声出力ブロック３１－１，３１－２に対する２次元位置（ｘ，ｙ）を検出する。

　これにより、電子機器３２の音声出力ブロック３１－１，３１－２に対する位置が特定されるので、音声出力ブロック３１－１，３１－２より出力される音声を特定された位置に応じた音場定位を補正して出力することができるので、ユーザは、自らの動きに応じた臨場感のある音声を聴視することが可能となる。

　＜音声出力ブロックの構成例＞
　次に、図２を参照して、音声出力ブロック３１の構成例について説明する。

　音声出力ブロック３１は、拡散符号生成部７１、既知楽曲音源生成部７２、音声生成部７３、音声出力部７４、および通信部７５を備えている。

　拡散符号生成部７１は、拡散符号を生成して、音声生成部７３に出力する。

　既知楽曲音源生成部７２は、既知の楽曲を記憶しており、記憶している既知の楽曲に基づいて、既知楽曲音源を生成して音声生成部７３に出力する。

　音声生成部７３は、既知楽曲音源に、拡散符号によるスペクトラム拡散変調を加えて、スペクトラム拡散信号からなる音声を生成して、音声出力部７４に出力する。

　より詳細には、音声生成部７３は、拡散部８１、周波数シフト処理部８２、および音場制御部８３を備えている。

　拡散部８１は、既知楽曲音源に、拡散符号によるスペクトラム拡散変調を加えて、スペクトラム拡散信号を生成する。

　周波数シフト処理部８２は、スペクトラム拡散信号における拡散符号の周波数を、人間の耳で聴視し難い周波数帯にシフトさせる。

　音場制御部８３は、電子機器３２より供給される電子機器３２の位置の情報に基づいて、自らとの位置関係に応じた音場を再現する。

　音声出力部７４は、例えば、スピーカであり、音声生成部７３より供給される既知楽曲音源と、スペクトラム拡散信号に基づいた音声とを出力する。

　通信部７５は、ブルートゥース（登録商標）等に代表される無線通信により、電子機器３２と通信し、各種のデータやコマンドを授受する。

　＜電子機器の構成例＞
　次に、図３を参照して、電子機器３２の構成例について説明する。

　電子機器３２は、音声入力ブロック４１、制御部４２、出力部４３、および通信部４４を備えている。

　音声入力ブロック４１は、音声出力ブロック３１－１，３１－２より放音される音声入力を受け付けて、受け付けた音声とスペクトラム拡散信号と拡散符号との相関に基づいて、それぞれの到来時間と、ピークパワーとを求め、求められた到来時間に基づいた到来時間差距離と、音声出力ブロック３１－１，３１－２のそれぞれのピークパワーの比となるピークパワー比とに基づいて、自らの２次元位置（ｘ，ｙ）を求めて制御部４２に出力する。

　制御部４２は、音声入力ブロック４１より供給される電子機器３２の位置に基づいて、例えば、通信部４４を制御して、音声出力ブロック３１－１，３１－２より通知される情報を取得すると、ディスプレイやスピーカなどからなる出力部４３によりユーザに提示する。また、制御部４２は、通信部４４を制御して、音声出力ブロック３１－１，３１－２に対して、電子機器３２の２次元位置に基づいた音場を設定するコマンドを送信する。

　通信部４４は、ブルートゥース（登録商標）等に代表される無線通信により、音声出力ブロック３１と通信し、各種のデータやコマンドを授受する。

　より詳細には、音声入力ブロック４１は、音声入力部５１、および位置検出部５２を備えている。

　音声入力部５１は、例えば、マイク（マイクロフォン）であり、音声出力ブロック３１－１，３１－２より放音される音声を収音し、位置検出部５２に出力する。

　位置検出部５２は、音声入力部５１より収音された、音声出力ブロック３１－１，３１－２より放音された音声に基づいて、電子機器３２の位置を求める。

　位置検出部５２は、既知楽曲音源除去部９１、空間伝達特性算出部９２、到来時間算出部９３、ピークパワー検出部９４、および位置算出部９５を備えている。

　空間伝達特性算出部９２は、音声入力部５１より供給される音声の情報と、音声入力部５１を構成するマイクロフォンの特性や、音声出力ブロック３１の音声出力部７４を構成するスピーカの特性に基づいて、空間伝達特性を算出し、既知楽曲音源除去部９１に出力する。

　既知楽曲音源除去部９１は、予め音声出力ブロック３１における既知楽曲音源生成部７２において予め記憶されている楽曲音源を、既知楽曲音源として記憶している。

　そして、既知楽曲音源除去部９１は、空間伝達特性算出部９２より供給される空間伝達特性を加味した上で、音声入力部５１より供給される音声から既知楽曲音源の成分を除去して、到来時間算出部９３、およびピークパワー検出部９４に出力する。

　すなわち、既知楽曲音源除去部９１は、音声入力部５１により収音された音声より、既知楽曲音源の成分を除去して、スペクトラム拡散信号成分のみを到来時間算出部９３、およびピークパワー検出部９４に出力する。

　到来時間算出部９３は、音声入力部５１において収音された音声に含まれる、スペクトラム拡散信号成分に基づいて、音声出力ブロック３１－１，３１－２のそれぞれより放音されてから、収音されるまでの到来時間を算出し、ピークパワー検出部９４、および位置算出部９５に出力する。

　尚、到来時間の算出方法については、詳細を後述する。

　ピークパワー検出部９４は、到来時間算出部９３により検出されるピーク時のスペクトラム拡散信号成分のパワーを検出し、位置算出部９５に出力する。

　位置算出部９５は、到来時間算出部９３より供給される、音声出力ブロック３１－１，３１－２のそれぞれの到来時間、ピークパワー検出部９４より供給されるピークパワーに基づいて、到来時間差距離とピークパワー比とを求め、求めた到来時間差距離とピークパワー比とに基づいて電子機器３２の位置（２次元位置）を求めて制御部４２に出力する。

　尚、位置算出部９５の詳細な構成については、図４を参照して、詳細を後述する。

　＜位置算出部の構成例＞
　次に、図４を参照して、位置算出部９５の構成例について説明する。

　位置算出部９５は、到来時間差距離算出部１１１、ピークパワー比算出部１１２、および位置計算部１１３を備えている。

　到来時間差距離算出部１１１は、音声出力ブロック３１－１，３１－２のそれぞれの到来時間に基づいて求められる音声出力ブロック３１－１，３１－２のそれぞれまでの距離の差分を到来時間差距離として算出して、位置計算部１１３に出力する。

　ピークパワー比算出部１１２は、音声出力ブロック３１－１，３１－２より放音される音声のそれぞれのピークパワーの比をピークパワー比として求めて位置計算部１１３に出力する。

　位置計算部１１３は、到来時間差距離算出部１１１より供給される音声出力ブロック３１－１，３１－２の到来時間差距離と、ピークパワー比算出部１１２より供給される音声出力ブロック３１－１，３１－２のピークパワー比とに基づいて、ニューラルネットワークを用いた機械学習により音声出力ブロック３１－１，３１－２に対する電子機器３２の位置を計算し、制御部４２に出力する。

　＜拡散符号を用いた通信の原理＞
　次に、図５を参照して、拡散符号を用いた通信の原理について説明する。

　図中左部の送信側においては、拡散部８１が、送信対象となるパルス幅Ｔｄの入力信号Ｄｉに対して、拡散符号Ｅｘを乗算することにより、スペクトラム拡散変調を施すことで、パルス幅Ｔｃの送信信号Ｄｅを生成して、図中右部の受信側に送信する。

　このとき、入力信号Ｄｉの周波数帯域Ｄｉｆが、例えば、周波数帯域－１／Ｔｄ乃至１／Ｔｄで示されるような場合、拡散符号Ｅｘが乗算されることにより、送信信号Ｄｅの周波数帯域Ｅｘｆは、広帯域化されることにより、周波数帯域－１／Ｔｃ乃至１／Ｔｃ（１／Ｔｃ＞１／Ｔｄ）とされることにより、エネルギーが周波数軸上に拡散される。

　尚、図５においては、送信信号Ｄｅは、妨害波ＩＦにより干渉される例が示されている。

　受信側においては、送信信号Ｄｅに対して妨害波ＩＦによる干渉を受けた信号が受信信号Ｄｅ’として受信される。

　到来時間算出部９３は、受信信号Ｄｅ’に対して、同一の拡散符号Ｅｘにより逆拡散を掛けることにより、受信信号Ｄｏを復元する。

　このとき、受信信号Ｄｅ’の周波数帯域Ｅｘｆ’には、妨害波の成分ＩＦＥｘが含まれているが、逆拡散された受信信号Ｄｏの周波数帯域Ｄｏｆにおいては、妨害波の成分ＩＦＥｘが拡散された周波数帯域ＩＦＤとして復元されることによりエネルギーが拡散されるので、受信信号Ｄｏにおける妨害波ＩＦによる影響を低減させることが可能となる。

　すなわち、上述したように、拡散符号を用いた通信においては、送信信号Ｄｅの伝送経路上において生じる妨害波ＩＦの影響を低減させることが可能となり、ノイズ耐性を向上させることが可能となる。

　また、拡散符号は、例えば、図６の上段の波形図で示されるように、自己相関がインパルス状であり、かつ、図６の下段の波形で示されるように、相互相関が0である。尚、図６は、拡散符号としてGold系列を用いた場合の相関値の変化を示しており、横軸が符号化系列であり、縦軸が相関値である。

　すなわち、音声出力ブロック３１－１，３１－２のそれぞれにランダム性の高い拡散符号を設定することにより、音声入力ブロック４１においては、音声に含まれているスペクトラム信号を音声出力ブロック３１－１，３１－２毎に適切に区別して認識することが可能となる。

　拡散符号は、Gold系列のみならず、M系列やPN（Pseudorandom Noise）などでもよい。

　＜到来時間算出部による到来時間の算出方法＞
　音声入力ブロック４１において、観測される相互相関のピークが観測されるタイミングは、音声出力ブロック３１で放音された音声が、音声入力ブロック４１において、収音されるタイミングであり、したがって、音声入力ブロック４１と音声出力ブロック３１との距離に応じて異なる。

　すなわち、例えば、音声入力ブロック４１と音声出力ブロック３１との距離が第１の距離であるときに、図７の左部で示されるように時刻Ｔ１において、ピークが検出されるとき、音声入力ブロック４１と音声出力ブロック３１との距離が第１の距離が遠い第２の距離であるときには、図７の右部で示されるように時刻Ｔ２（＞Ｔ１）において観測される。

　尚、図７においては、横軸が音声出力ブロック３１から音声が出力されてからの経過時間を示しており、縦軸が相互相関の強度を示している。

　すなわち、音声入力ブロック４１と音声出力ブロック３１との距離は、音声出力ブロック３１から音声が放音されてから相互相関においてピークが観測されるまでの時間、すなわち、音声出力ブロック３１から放音された音声が、音声入力ブロック４１において収音されるまでの到来時間に音速を乗じることで求めることができる。

　＜到来時間算出部の構成例＞
　次に、図８を参照して、到来時間算出部９３の構成例について説明する。

　到来時間算出部９３は、逆シフト処理部１３０、相互相関計算部１３１、およびピーク検出部１３２を備えている。

　逆シフト処理部１３０は、音声入力部５１により収音される音声信号における、音声出力ブロック３１の周波数シフト処理部８２においてアップサンプリングにより周波数シフトされたスペクトル拡散変調された拡散符号信号をダウンサンプリングにより元の周波数帯域に復元し、相互相関計算部１３１に出力する。

　尚、周波数シフト処理部８２による周波数帯域のシフトと、逆シフト処理部１３０による、周波数帯域の復元については図１０を参照して詳細を後述する。

　相互相関計算部１３１は、拡散符号と、音声入力ブロック４１の音声入力部５１により収音される音声信号における既知楽曲音源が除去された受信信号との相互相関を計算し、ピーク検出部１３２に出力する。

　ピーク検出部１３２は、相互相関計算部１３１により計算された相互相関におけるピークとなる時間を検出し、到来時間として出力する。

　ここで、相互相関計算部１３１においてなされる相互相関の計算は、一般的に計算量が非常に大きいことが知られているため、計算量の少ない等価計算により実現される。

　具体的には、相互相関計算部１３１は、音声出力ブロック３１の音声出力部７４により音声出力される送信信号と、音声入力ブロック４１の音声入力部５１により受信される音声信号における既知楽曲音源が除去された受信信号とを、以下の式（１），式（２）で示されるように、それぞれフーリエ変換する。

　ここで、gは、音声入力ブロック４１の音声入力部５１により受信される音声信号における既知楽曲音源が除去された受信信号であり、Gは、音声入力ブロック４１の音声入力部５１により受信される音声信号における既知楽曲音源が除去された受信信号gのフーリエ変換の結果である。

　また、hは、音声出力ブロック３１の音声出力部７４により音声出力される送信信号であり、Hは、音声出力ブロック３１の音声出力部７４により音声出力される送信信号のフーリエ変換の結果である。

　さらに、Vは、音速であり、ｖは、電子機器３２（の音声入力部５１）の速度であり、ｔは、時間であり、ｆは、周波数である。

　次に、相互相関計算部１３１は、以下の式（３）で示されるように、フーリエ変換の結果GとHとを相互に乗算することで、クロススペクトルを求める。

　ここで、Pは、フーリエ変換の結果GとHとが相互に乗算されることにより求められたクロススペクトルである。

　そして、相互相関計算部１３１は、以下の式（４）で示されるように、クロススペクトルPを逆フーリエ変換することにより、音声出力ブロック３１の音声出力部７４により音声出力される送信信号hと、音声入力ブロック４１の音声入力部５１により受信される音声信号における既知楽曲音源が除去された受信信号gとの相互相関を求める。

　ここで、pは、音声出力ブロック３１の音声出力部７４により音声出力される送信信号hと、音声入力ブロック４１の音声入力部５１により受信される音声信号における既知楽曲音源が除去された受信信号gとの相互相関である。

　そして、ピーク検出部１３２は、相互相関pのピークを検出し、検出した相互相関pのピークに基づいて到来時間Ｔを検出し、位置算出部９５に出力する。位置算出部９５の到来時間差距離算出部１１１は、検出した相互相関pのピークに基づいて、以下の式（５）を演算することにより、音声入力ブロック４１と音声出力ブロック３１との距離を求める。

・・・（５）

　ここで、Dは、音声入力ブロック４１（の音声入力部５１）と音声出力ブロック３１（の音声出力部７４）との距離（到来時間距離）であり、Tは、到来時間であり、Vは、音速である。また、音速Vは、例えば、331.5+0.6×Q（m/s）（Qは温度℃）である。

　そして、到来時間差距離算出部１１１は、上述したように求められる音声入力ブロック４１と音声出力ブロック３１－１，３１－２とのそれぞれの距離の差分を到来時間差距離として算出して位置計算部１１３に出力する。

　ピークパワー検出部９４は、到来時間算出部９３のピーク検出部１３２において検出される、音声入力ブロック４１と音声出力ブロック３１－１，３１－２との相互相関pのピークとなるタイミングにおいて収音された音声のそれぞれパワーをピークパワーとして検出し、位置算出部９５のピークパワー比算出部１１２に出力する。

　ピークパワー比算出部１１２は、ピークパワー検出部９４より供給されるピークパワーの比を求めて位置計算部１１３に出力する。

　尚、相互相関計算部１３１は、相互相関pを求めることで、さらに、電子機器３２（の音声入力部５１）の速度vを求めるようにしてもよい。

　より詳細には、相互相関計算部１３１は、速度vを所定の範囲（例えば、-1.00m/s乃至1.00m/s）内において、所定のステップ（例えば、0.01m/sステップ）で変化させながら、相互相関pを求め、相互相関pの最大ピークを示す速度vを電子機器３２（の音声入力部５１）の速度vとして求める。

　音声出力ブロック３１－１乃至３１－４のそれぞれについて求められた速度vに基づいて、電子機器３２（の音声入力ブロック４１）の絶対速度を求めることも可能である。

　＜周波数シフト＞
　拡散符号信号の周波数帯域は、サンプリング周波数の半分であるナイキスト周波数Fsである周波数であり、例えば、ナイキスト周波数Fsが8kHzである場合、ナイキスト周波数Fsよりも低い周波数帯域である0乃至8kHzとされる。

　ところで、人間の聴覚は、図９で示されるように、ラウドネスのレベルに関わらず、3kHz付近の周波数帯域の音声の感度が高く、10kHz付近から低減し、20kHzを超えるとほとんど聞こえないことが知られている。

　図９は、ラウドネスレベル０，２０，４０，６０，８０，１００ホン（phon）のそれぞれにおける周波数毎の音圧レベルの変化を示しており、横軸が周波数であり、縦軸が音圧レベルである。尚、太い一点鎖線は、マイクにおける音圧レベルを示しており、ラウドネスレベルとは無関係に一定であることが示されている。

　したがって、スペクトル拡散信号の周波数帯域が、0乃至8kHzである場合、拡散符号信号の音声が、既知楽曲音源の音声と併せて放音されると、人間の聴覚ではノイズとして聴視される恐れがある。

　例えば、楽曲を-50dBで再生させることを想定した場合、図１０の感度曲線Ｌより下の範囲については、人間に聴こえない範囲（人間の聴覚で認識し難い範囲）Ｚ１とされ、感度曲線Ｌより上の範囲については、人間に聴こえる範囲（人間の聴覚で認識し易い範囲）Ｚ２とされる。

　尚、図１０は、横軸が周波数帯域を示しており、縦軸が音圧レベルを示している。

　したがって、例えば、再生される既知楽曲音源の音声と、拡散符号信号の音声とが分離可能な範囲が-30dB以内であるとき、範囲Ｚ１内における、範囲Ｚ３で示される16kHz乃至24kHzの範囲において拡散符号信号の音声が出力されると人間に聴こえないようにする（人間の聴覚で認識し難くする）ことができる。

　そこで、周波数シフト処理部８２は、図１１の左上段で示されるように、拡散符号を含む拡散符号信号Fsを、左中段で示されるように、ｍ倍にアップサンプリングし、拡散符号信号Fs，2Fs，・・・mFsを生成する。

　そして、周波数シフト処理部８２は、図１１の左下段で示されるように、図１０を参照して説明した人間に聞こえない周波数帯域である16乃至24kHzの拡散符号信号uFsに帯域制限を掛けることにより、拡散符号信号を含む拡散符号信号Fsを周波数シフトして音声出力部７４より、既知楽曲音源と共に放音させる。

　逆シフト処理部１３０は、図１１の右下段で示されるように、音声入力部５１で収音された音声より、既知楽曲音源除去部９１により既知楽曲音源が除去された音声に対して、16乃至24kHzの範囲に帯域を制限することにより、図１１の右中段で示されるように、拡散符号信号uFsを抽出する。

　そして、逆シフト処理部１３０は、図１０の右上段で示されるように、1/mにダウンサンプリングすることにより、拡散符号を含む拡散符号信号Fsを生成することにより周波数帯域を元の帯域に復元する。

　このように周波数シフトを施すことにより、既知楽曲音源の音声が放音された状態で、拡散符号信号を含む音声が放音されても、拡散符号信号を含む音声については聴こえにくい状態（人間の聴覚で認識し難くい状態）にすることが可能となる。

　尚、以上においては、周波数シフトにより拡散符号信号を含む音声を人間に聴こえ難くする（人間の聴覚で認識し難くする）例について説明してきたが、高い周波数の音は直進性が高く、壁などの反射によるマルチパスや遮蔽物による音の遮断の影響を受けやすいので、図１２で示されるように、回折しやすい10kHz以下の、例えば、3kHz付近の低周波数帯域を含む、より低い帯域の音声も使えることが望ましい。図１２においては、範囲Ｚ３’で示される10kHz以下の低周波数帯域を含む範囲においても拡散符号信号の音声が出力される場合の例を示している。したがって、図１２の場合、範囲Ｚ１１においては、拡散符号信号の音声も人間の聴覚で認識し易い状態となる。

　このような場合については、例えば、既知楽曲音源の音圧レベルを-50dBとし、分離に必要な範囲を-30dBまでとした上で、ATRAC（商標登録）やMP3（商標登録）等で用いられている聴覚圧縮の手法により、既知楽曲により拡散符号信号を聴覚マスキングするようにして、拡散符号信号については聞こえないように放音するようにしてもよい。

　より具体的には、所定の再生単位時間（例えば、20ms単位）毎に再生する楽曲の周波数成分を解析し、臨界帯域毎（24bark）の拡散符号信号の音声の音圧レベルを聴覚マスキングされるように解析結果に合わせて動的に増減させるようにしてもよい。

　＜到来時間差距離について＞
　次に、図１３を参照して、到来時間差距離について説明する。図１３は、音声出力ブロック３１－１，３１－２に対する位置に応じた到来時間差距離のプロット図である。尚、図１３においては、音声出力ブロック３１－１，３１－２が音声を放音する正面方向に対する位置をｙ軸で表し、音声出力ブロック３１－１，３１－２が音声を放音する方向に対して垂直方向の位置をｘ軸で表しており、ｘ，ｙそれぞれを規格化された単位で表現するときに求められる到来時間差距離を規格化単位でプロットしたときの分布が示されている。

　すなわち、図１３においては、音声出力ブロック３１－１，３１－２がｘ軸方向に規格化された３単位だけ離れており、ｙ軸方向に音声出力ブロック３１－１，３１－２から３単位までの範囲における到来時間差距離のプロット結果が示されている。

　図１３で示されるように、ｘ軸方向に対しては、到来時間差距離との相関がみられるため、ｘ軸方向については、所定以上の精度で求めることが可能と考えられる。

　しかしながら、ｙ軸方向については、特に、ｘ軸方向における１．５単位の位置付近、すなわち、音声出力ブロック３１－１，３１－２間の中央付近においては、相関がみられないため、所定以上の精度で求めることはできないと考えられる。

　結果として、到来時間差距離を用いるだけでは、ｘ軸方向の位置のみしか、所定以上の精度で求めることはできないものと考えられる。

　＜ピークパワー比について＞
　次に、図１４を参照して、ピークパワー比について説明する。図１４は、音声出力ブロック３１－１，３１－２に対する位置に応じたピークパワー比のプロット図である。

　尚、図１４においては、音声出力ブロック３１－１，３１－２が音声を放音する正面方向に対する位置をｙ軸で表し、音声出力ブロック３１－１，３１－２が音声を放音する方向に対して垂直方向の位置をｘ軸で表しており、ｘ，ｙそれぞれを規格化された単位で表現するときに求められるピークパワー比を規格化単位でプロットしたときの分布が示されている。

　すなわち、図１４においては、音声出力ブロック３１－１，３１－２がｘ軸方向に規格化された３単位だけ離れており、ｙ軸方向に音声出力ブロック３１－１，３１－２から３単位までの範囲におけるピークパワーのプロット結果が示されている。

　図１４で示されるように、ｘ，ｙ軸方向のいずれに対しても、ピークパワー比との相関がみられるため、ｘ，ｙ軸方向のいずれについても、所定以上の精度で求めることが可能と考えられる。

　＜位置計算部の第１の実施の形態の構成例＞
　以上のことから、到来時間差距離とピークパワー比とを用いた機械学習により、音声出力ブロック３１－１，３１－２に対する電子機器３２（音声入力ブロック４１）の位置（ｘ，ｙ）を、所定以上の精度で求めることが可能であると考えられる。

　ただし、ここでは、音声出力ブロック３１－１，３１－２の位置は既知の位置に固定されている、または、音声出力ブロック３１－１，３１－２のうちのいずれか一方の位置が既知であり、かつ、相互の距離が既知であることを前提とする。

　そこで、位置計算部１１３は、例えば、図１５で示されるように、到来時間差距離Ｄと、ピークパワー比ＰＲとからなる所定のデータ数からなる入力層１５１に対して所定の隠れ層１５２を機械学習により構成し、電子機器３２（音声入力ブロック４１）の位置（ｘ，ｙ）からなる出力層１５３を求める。

　より詳細には、例えば、32760サンプルに対して、図１５の右上部で示されるように、3276サンプルのセットＣ１，Ｃ２，Ｃ３・・・毎に時間ｔｓずつスライドしてピーク計算を行ったデータ数１０を１つの入力層の情報とする。

　すなわち、ピーク計算が行われた到来時間差距離Ｄとピークパワー比ＰＲとからなる入力層１５１がデータ数１０で構成されるものとする。

　隠れ層１５２は、例えば、第１層１５２ａ乃至第ｎ層１５２ｎのｎ層から構成され、先頭の第１層１５２ａについては、入力層１５１のデータについて、所定の条件を満たすデータをマスクする機能が付された層とされ、例えば、1280chの層として構成とされる。また、第２層１５２ｂ乃至第ｎ層１５２ｎについては、それぞれ128chの層で構成される。

　第１層１５２ａは、入力層１５１のデータとして所定の条件を満たさないデータとしては、例えば、ピークのSN比が８倍以上、または、到来時間差距離が3m以下の条件を満たさないものをマスクして後段の層における処理に使用しないようにマスクする。

　これにより、隠れ層１５２のうち、第２層１５２ｂ乃至第ｎ層１５２ｎが、入力層１５１のデータのうち、所定の条件を満たすデータのみを使用して、出力層１５３となる電子機器３２の２次元位置（ｘ，ｙ）を求める。

　このような構成によりなる位置計算部１１３は、到来時間差距離Ｄとピークパワー比ＰＲとからなる入力層１５１に対して、機械学習により構成された隠れ層１５２により、出力層１５３である電子機器３２（音声入力ブロック４１）の位置（ｘ，ｙ）を出力する。

　＜音声放音処理＞
　次に、図１６のフローチャートを参照して、音声出力ブロック３１による音声放音（出力）処理について説明する。

　ステップＳ１１において、拡散符号生成部７１は、拡散符号を生成して音声生成部７３に出力する。

　ステップＳ１２において、既知楽曲音源生成部７２は、記憶している既知楽曲音源を生成して音声生成部７３に出力する。

　ステップＳ１３において、音声生成部７３は、拡散部８１を制御して、所定のデータ符号と、拡散符号と乗算してスペクトル拡散変調させて、拡散符号信号を生成させる。

　ステップＳ１４において、音声生成部７３は、周波数シフト処理部８２を制御して、図１１の左部を参照して説明したように、拡散符号信号を周波数シフトさせる。

　ステップＳ１５において、音声生成部７３は、既知楽曲音源と、周波数シフトさせた拡散符号信号とを、スピーカからなる音声出力部７４に出力して、所定の音声出力で音声として放音（出力）させる。

　音声出力ブロック３１－１，３１－２のそれぞれにおいて、以上の処理がなされることにより、電子機器３２を所持するユーザに対して、既知楽曲音源となる音声が放音されて聴取させることが可能となる。

　また、拡散符号信号をユーザである人間に聞こえない周波数帯域にシフトさせて音声として出力させることが可能となるので、電子機器３２は、ユーザに不快な音を聞かせることなく、放音された拡散符号信号からなる人間に聞こえない周波数帯域にシフトされた音声に基づいて、音声出力ブロック３１までの距離を測定することが可能となる。

　ステップＳ１６において、音声生成部７３は、通信部７５を制御して、後述する処理により、電子機器３２からピークが検出できないことが通知されてきたか否かを判定する。ステップＳ１６において、ピークが検出できないことが通知されてきた場合、処理は、ステップＳ１７に進む。

　ステップＳ１７において、音声生成部７３は、通信部７５を制御して、電子機器３２より放音出力の調整を指示するコマンドが送信されてきたか否かを判定する。

　ステップＳ１７において、放音出力の調整を指示するコマンドが送信されてきた判定された場合、処理は、ステップＳ１８に進む。

　ステップＳ１８において、音声生成部７３は、音声出力部７４の音声出力を調整させ、処理は、ステップＳ１５に戻る。尚、ステップＳ１７において、放音出力の調整を指示するコマンドが送信されてきていない場合、ステップＳ１８の処理は、スキップされる。

　すなわち、放音出力からピークが検出されない場合、ピークが検出されるまで音声を放音する処理が繰り返される。この際、放音出力の調整を指示するコマンドが電子機器３２より送信されてくるときには、このコマンドに基づいて、音声生成部７３は、音声出力部７４を制御して音声出力を調整し、電子機器３２において放音された音声からピークが検出されるように調整されるようにする。

　尚、電子機器３２より送信されてくる放音出力の調整を指示するコマンドについては、詳細を後述する。

　＜図３の電子機器３２による音声収音処理＞
　次に、図１７のフローチャートを参照して、図３の電子機器３２による音声収音処理について説明する。

　ステップＳ３１において、マイクからなる音声入力部５１は、音声を収音し、収音した音声を既知楽曲音源除去部９１、および空間伝達特性算出部９２に出力する。

　ステップＳ３２において、空間伝達特性算出部９２は、音声入力部５１より供給された音声、音声入力部５１の特性、および音声出力ブロック３１の音声出力部７４の特性に基づいて、空間伝達特性を算出して、既知楽曲音源除去部９１に出力する。

　ステップＳ３３において、既知楽曲音源除去部９１は、空間伝達特性算出部９２より供給された空間伝達特性を加味して、既知楽曲音源の逆相信号を生成し、音声入力部５１より供給された音声より、既知楽曲音源の成分を除去して、到来時間算出部９３、およびピークパワー検出部９４に出力する。

　ステップＳ３４において、到来時間算出部９３の逆シフト処理部１３０は、既知楽曲音源除去部９１より供給される音声入力部５１により入力された音声から既知楽曲音源が除去された拡散符号信号の周波数帯域を、図１１の右部を参照して説明したように逆シフトする。

　ステップＳ３５において、相互相関計算部１３１は、上述した式（１）乃至式（４）を用いた計算により、周波数帯域が逆シフトされた、音声入力部５１により入力された音声から既知楽曲音源が除去された拡散符号信号と、音声出力ブロック３１より出力された音声の拡散符号信号との相互相関を算出する。

　ステップＳ３６において、ピーク検出部１３２は、計算された相互相関におけるピークを検出する。

　ステップＳ３７において、ピークパワー検出部９４は、検出された音声出力ブロック３１－１，３１－２のそれぞれまでの距離に応じた相互相関がピークとなるタイミングの拡散符号信号の周波数帯域成分のパワーをピークパワーとして検出し、位置算出部９５に出力する。

　ステップＳ３８において、制御部４２は、到来時間算出部９３において、音声出力ブロック３１－１，３１－２のそれぞれまでの距離に応じた相互相関のピークが検出されたか否かを判定する。

　ステップＳ３８において、相互相関のピークが検出されていないと判定された場合、処理は、ステップＳ３９に進む。

　ステップＳ３９において、制御部４２は、通信部４４を制御して、電子機器３２に対して相互相関のピークが検出できなかったことを通知する。

　ステップＳ４０において、制御部４２は、音声出力ブロック３１－１，３１－２のピークパワーの何れかが所定の閾値よりも大きいか否かを判定する。すなわち、音声出力ブロック３１－１，３１－２のそれぞれまでの距離に応じたピークパワーのいずれか一方が極端に大きな値になっているか否かが判定される。

　ステップＳ４０において、ピークパワーの何れかが所定の閾値よりも大きいと判定された場合、処理は、ステップＳ４１に進む。

　ステップＳ４１において、制御部４２は、通信部４４を制御して、電子機器３２に対して放音出力を調整するように指示するコマンドを送信し、処理は、ステップＳ３１に戻る。尚、ステップＳ４０において、ピークパワーの何れかが所定の閾値よりも大きいと判定されない場合、ステップＳ４１の処理は、スキップされる。

　すなわち、相互相関のピークが検出されるまで、放音が繰り返され、何れか一方のピークパワーが所定の閾値よりも大きい場合については、放音出力の調整がなされる。この際、音声出力ブロック３１－１，３１－２の双方の放音出力のレベルは、ピークパワー比に影響がでないように、同等に調整される。

　ステップＳ３８において、相互相関のピークが検出されたと判定された場合、処理は、ステップＳ３４２に進む。

　ステップＳ４２において、位置算出部９５のピークパワー比算出部１１２は、音声出力ブロック３１－１，３１－２のそれぞれまでの距離に応じたピークパワーの比をピークパワー比として算出し、位置計算部１１３に出力する。

　ステップＳ４３において、到来時間算出部９３のピーク検出部１３２は、相互相関におけるピークとして検出された時間を到来時間として位置算出部９５に出力する。

　尚、音声出力ブロック３１－１，３１－２のそれぞれより出力された音声の拡散符号信号との相互相関が算出されることにより、音声出力ブロック３１－１，３１－２のそれぞれに対応する到来時間が求められる。

　ステップＳ４４において、位置算出部９５の到来時間差距離算出部１１１は、音声出力ブロック３１－１，３１－２のそれぞれまでの距離に応じた到来時間に基づいて、到来時間差距離を算出し、位置計算部１１３に出力する。

　ステップＳ４５において、位置計算部１１３は、到来時間差距離算出部１１１より供給される到来時間差距離と、ピークパワー比算出部１１２より供給されるピークパワー比とに基づいて、図１５を参照して説明した入力層１５１を構成し、隠れ層１５２のうちの先頭の第１層１５２ａにより所定の条件を満たさないデータをマスクする。

　ステップＳ４６において、位置計算部１１３は、図１５を参照して説明した隠れ層１５２のうちの第２層１５２ｂ乃至第ｎ層１５２ｎを順次使用して、出力層１５３としての電子機器３２の２次元位置を計算して、制御部４２に出力する。

　ステップＳ４７において、制御部４２は、求められた電子機器３２の２次元位置に基づいた処理を実行し、処理を終了する。

　例えば、制御部４２は、求められた電子機器３２の位置に基づいた音場を実現できるように、音声出力ブロック３１－１，３１－２の音声出力部７４から出力される音声のレベルやタイミングを制御するようなコマンドを、通信部４４を制御して、音声出力ブロック３１－１，３１－２に送信する。

　これにより、音声出力ブロック３１－１，３１－２においては、音場制御部８３が、電子機器３２より送信されてきたコマンドに基づいて、電子機器３２を所持したユーザの位置に対応する音場を実現するように音声出力部７４から出力される音声のレベルやタイミングを制御する。

　このような処理により、電子機器３２を装着したユーザは、音声出力ブロック３１－１，３１－２より出力される楽曲を、リアルタイムでユーザの動きに対応した、適切な音場で聴視することが可能となる。

　以上のように、一般的なステレオスピーカを構成するような２個の音声出力ブロック３１－１，３１－２と、電子機器３２（音声入力ブロック４１）とだけで、電子機器３２の音声出力ブロック３１－１，３１－２に対する位置を求めることが可能となる。

　また、この際、人間に聴こえ難い帯域の音声を利用して拡散符号信号を放音し、音声出力ブロック３１と音声入力ブロック４１を備えた電子機器３２との距離を測定して、電子機器３２の位置をリアルタイムに求めることができる。

　さらに、本開示の音声出力ブロック３１の音声出力部７４を構成するスピーカや、電子機器３２の音声入力部５１を構成するマイクは、既存の、例えば、スピーカが２個のオーディオ機器を利用できるので、低コストでの実現が可能であり、設置に係る手間を簡素化することが可能となる。

　また、使用するのは音声であり、既存のオーディオ機器を利用できるので、電波等を利用する場合に必要とされる認証等の免許などが不要なため、この点においても、利用に係るコストと手間を簡素化することが可能となる。

　さらに、ユーザが不快に感じる音声を聴視させることなく、既知楽曲音源の再生により音楽等を鑑賞させながら、電子機器３２を携帯する、または、装着するユーザの位置をリアルタイムで測定することが可能となる。

　尚、以上においては、到来時間差距離と、ピークパワー比とに基づいて、機械学習により形成される学習器により電子機器３２の２次元位置を求める例について説明してきたが、到来時間差距離のみ、または、ピークパワー比のみからなる入力に基づいて２次元位置を求めるようにしてもよい。

　ただし、到来時間差距離のみ、または、ピークパワー比のみからなる入力に基づいて２次元位置を求める場合、精度が低下するため、利用方法の工夫や制限をするようにしてもよい。

　例えば、到来時間差距離のみで入力が形成される場合、ｙ方向の位置の精度は低いことが想定されるので、ｘ方向の位置のみを用いるようにしてもよい。

　また、例えば、ピークパワー比のみで入力が形成される場合、音声出力ブロック３１から所定の距離以上離れると精度が低下することが想定されるので、音声出力ブロック３１から所定の距離内の範囲の２次元位置のみの利用に制限するようにしてもよい。

　さらに、以上においては、相互相関のピークが検出されるときの情報が入力層とされているが、相互相関のピークが検出できないときの情報が入力層とされてもよい。このようにすることで、例えば、一方の音声出力ブロック３１に対して極近い位置であるときには、他方の音声出力ブロック３１からの音声信号は受信できず、ピークが検出されないこともあるので、このような場合でも適切に２次元位置を特定することが可能となる。

　また、以上においては、音声出力ブロック３１－１，３１－２に対して電子機器３２（音声入力ブロック４１）の２次元位置を特定する例について説明してきたが、電子機器３２と音声出力ブロック３１－１，３１－２のいずれかの位置のみが既知である場合については、同様の処理により、位置が未知となっている音声出力ブロック３１の位置を特定することも可能である。

　＜＜２．第１の実施の形態の応用例＞＞
　＜音声出力ブロック間の距離を入力層とする例＞
　以上においては、本開示の技術を２個の音声出力ブロック３１－１，３１－２と電子機器３２とからなるホームオーディオシステムにおいて、音声入力ブロック４１を備えた電子機器３２の位置をリアルタイムで求め、電子機器３２の位置に基づいて、音声出力ブロック３１より出力される音声を制御して、適切な音場を実現する例について説明してきた。

　ただし、以上においては、音声出力ブロック３１－１，３１－２の位置が既知である、または、少なくとも何れか一方の位置が既知であり、かつ、相互間の距離が既知である場合の例について説明してきた。

　例えば、到来時間差距離Ｄと、ピークパワー比ＰＲとからなる入力層１５１の情報に加えて、さらに、相互間距離ＳＤからなる入力層１５１αを構成し、隠れ層１５２に入力するようにしてもよい。

　位置計算部１１３は、例えば、図１８で示されるように、隠れ層１５２’においては、第１層１５２ａを構成する到来時間差距離Ｄと、ピークパワー比ＰＲとの所定の条件を満たさないデータがマスクされたものと、相互間距離ＳＤからなる入力層１５１αとが、第２層１５２’ｂに入力されて、第２層１５２’ｂ乃至第ｎ層１５２’ｎの処理により、出力層１５３’として電子機器３２の位置が求められるようにしてもよい。

　このような構成により、音声出力ブロック３１－１，３１－２の距離が様々に変化しても２個の音声出力ブロック３１－１，３１－２と、１個の電子機器３２（マイク）とから電子機器３２の位置を求めることが可能となる。

　＜＜３．第２の実施の形態＞＞
　以上においては、既知の位置に存在する音声出力ブロック３１－１，３１－２と、電子機器３２とを用いて、音声出力ブロック３１－１，３１－２より放音される音声が電子機器３２で収音される際の到来時間差距離Ｄと、ピークパワー比ＰＲとを用いて、電子機器３２の位置を特定する例について説明してきた。

　ところで、上述した手法で求められる、音声出力ブロック３１－１，３１－２の放音方向に対して垂直方向となるｘ方向の位置については、図１３を参照して説明したように、比較的高精度に求めることが可能である。

　一方、音声出力ブロック３１－１，３１－２の放音方向となるｙ方向の位置については、図１４を参照して説明したように、ｘ方向の位置の精度と比較すると、やや精度が劣る。

　ここで、図１で示されるように、音声出力ブロック３１－１，３１－２が設けられ、TV３０が音声出力ブロック３１－１，３１－２の略中央位置に設けられている場合、ユーザは、一般的にTV３０を視聴しながら、音声出力ブロック３１－１，３１－２から放音される音声を聴視することが想定される。

　このとき、ユーザが、聴視する音声出力ブロック３１－１，３１－２から放音された音声は、TV３０の中心位置を基準として設定される角度で規定される範囲で聴視に係る評価がなされる。

　例えば、図１９で示されるように、音声出力ブロック３１－１，３１－２が設けられ、音声出力ブロック３１－１，３１－２の略中央位置で、かつ、表示面が音声出力ブロック３１－１，３１－２を結ぶ直線に対して平行にTV３０が設定される場合を考える。

　この場合、TV３０に対して正対する位置にユーザＨ１が存在するときには、図中のTV３０の中心位置を基準とした角度αの範囲が聴視可能範囲とされ、この範囲のうち、図中の一点鎖線に対して近い位置ほど、良好な聴視が可能となる。

　また、TV３０に対してユーザＨ２が存在するときには、図中のTV３０の中心位置を基準とした角度βの範囲が聴視可能範囲とされ、この範囲のうち、図中の一点鎖線に対して近い位置ほど、良好な聴視が可能となる。

　すなわち、音声出力ブロック３１－１，３１－２が設けられ、TV３０が音声出力ブロック３１－１，３１－２の略中央位置に設けられている場合、ユーザの視聴位置は、上述した音声出力ブロック３１－１，３１－２の放音方向に対して垂直方向となるｘ方向の位置がある程度の精度で求められれば、所定のレベルよりも良好な聴視を実現できる。

　換言すれば、音声出力ブロック３１－１，３１－２が設けられ、TV３０が音声出力ブロック３１－１，３１－２の略中央位置に設けられている場合、ユーザの視聴位置は、上述した音声出力ブロック３１－１，３１－２の放音方向となるｙ方向の位置については、所定の精度で求められていない状態でも、ｘ方向の位置が所定の精度で求められていれば、所定のレベルよりも良好な聴視を実現できる。

　これにより、上述したように、ｙ方向の位置の精度が所定レベルよりも低くても、ｘ方向の位置の精度が所定レベル以上であれば、所定レベル以上の良好な聴視を実現できる。

　しかしながら、図２０で示されるように、音声出力ブロック３１－１，３１－２が設けられ、TV３０が音声出力ブロック３１－１，３１－２の略中央位置からずれた位置に設けられている場合、音声出力ブロック３１－１，３１－２の略中央位置に正対する位置のユーザＨ１１に対応しては、TV３０に対する視聴位置が音声出力ブロック３１－１，３１－２の中央位置からずれているため、放音される音声により、適切な音場を実現できない恐れがある。

　したがって、この場合、音声出力ブロック３１－１，３１－２に対する電子機器３２のｘ方向の位置に加えて、ｙ方向の位置についても、所定の精度より高い精度で求める必要がある。

　＜ピークパワー周波数成分割合＞
　そこで、音声出力ブロック３１－１，３１－２より放音される音声が電子機器３２で収音される際の到来時間差距離Ｄと、ピークパワー比ＰＲとに加えて、音声出力ブロック３１－１，３１－２のそれぞれの高周波成分の相互相関のピークパワーと低周波成分の相互相関のピークパワーとの周波数成分割合を用いた機械学習により隠れ層を形成することで電子機器３２の位置からなる出力層を求めるようにしてもよい。

　例えば、音声出力ブロック３１より放音される音声の低周波成分（例えば、18乃至21kHz）の相互相関のピークにおけるパワーであるピークパワーＬＰと、高周波成分（例えば、21乃至24kHz）の相互相関のピークにおけるパワーであるピークパワーＨＰとから得られる、ピークパワー周波数成分割合ＦＲ（＝ＨＰ／ＬＰ）の音声出力ブロック３１を中心位置としたときのｘ方向およびｙ方向の分布は、図２１で示されるような分布となる。

　すなわち、図２１のピークパワー周波数成分割合ＦＲ（＝ＨＰ／ＬＰ）の分布で示されるように、音声出力ブロック３１の放音方向となるｙ方向については、音声出力ブロック３１に対して正対する範囲ほど、ｙ方向に対する距離との相関が高いため、高精度にｙ方向の位置を特定させることが可能となる。

　ただし、音声出力ブロック３１の位置を中心としてｘ方向、および、ｙ軸方向のそれぞれに対して離れるに従って、または、広角になるに従って、すなわち、音声出力ブロック３１からの距離が離れるほど、または、放音方向に対して広角な位置になるほどと、高周波成分のピークパワーＨＰは減衰することにより、例えば、図２１の範囲Ｚ１，Ｚ２で示されるように、ピークパワー周波数成分割合ＦＲ（＝ＨＰ／ＬＰ）は低下する。

　このため、ｙ方向の位置の精度については、音声出力ブロック３１からの距離に応じた判断が必要となるので、例えば、ｙ方向の位置については、音声出力ブロック３１から所定の距離までの値を採用するようにしてもよい。

　尚、図２１においては、１個の音声出力ブロック３１の成分割合ＦＲの例が示されているため、２個の音声出力ブロック３１－１，３１－２が用いられる場合、それぞれのピークパワー周波数成分割合ＦＲＬ，ＦＲＲが、到来時間差距離Ｄと、ピークパワー比ＰＲとに加えて用いられて隠れ層での処理がなされることにより、高精度な電子機器３２のｘ方向およびｙ方向の位置を求めることが可能となる。

　＜ピークパワー周波数成分割合を入力層として用いる場合の電子機器の構成例＞
　次に、図２２を参照して、音声出力ブロック３１より放音される音声の低周波成分（例えば、18乃至21kHz）の相互相関のピークパワーＬＰと、高周波成分（例えば、21乃至24kHz）の相互相関のピークパワーＨＰとから得られる、ピークパワー周波数成分割合ＦＲ（＝ＨＰ／ＬＰ）を新たに加えて入力層に用いるようにした電子機器３２の構成例について説明する。

　尚、図２２の電子機器３２において、図３の電子機器３２の構成と同一の機能を備えた構成については、同一の符号を付しており、その説明は適宜省略する。

　図２２の電子機器３２において、図３の電子機器３２と異なる点は、ピークパワー周波数成分割合算出部２０１を新たに設けられると共に、位置算出部９５に代えて、位置算出部２０２が設けられた点である。

　ピークパワー周波数成分割合算出部２０１は、到来時間算出部９３において相互相関のピークを求める場合と同様の処理を、音声出力ブロック３１－１，３１－２のそれぞれより放音される音声の低周波数帯域（例えば、18乃至21kHz）と、高周波数帯域（例えば、21乃至24kHz）とのそれぞれにおいて実行すると共に、それぞれの低周波帯域のピークパワーＬＰと高周波帯域のピークパワーＨＰとを求める。

　そして、ピークパワー周波数成分割合算出部２０１は、音声出力ブロック３１－１，３１－２のそれぞれの高周波帯域のピークパワーＨＰと分子とし、低周波帯域のピークパワーＬＰを分母とするピークパワー周波数成分割合ＦＲＲ，ＦＲＬを算出して、位置算出部２０２に出力する。すなわち、ピークパワー周波数成分割合算出部２０１は、音声出力ブロック３１－１，３１－２のそれぞれの低周波帯域のピークパワーＬＰに対する、高周波帯域のピークパワーＨＰの割合をピークパワー周波数成分割合ＦＲＲ，ＦＲＬとして算出して、位置算出部２０２に出力する。

　位置算出部２０２は、到来時間、ピークパワー、および音声出力ブロック３１－１，３１－２のそれぞれのピークパワー周波数成分割合に基づいて、機械学習により形成されたニューラルネットワークにより電子機器３２の位置（ｘ，ｙ）を算出する。

　＜図２２の位置算出部の構成例＞
　次に、図２３を参照して、図２２の電子機器３２の位置算出部２０２の構成例について説明する。尚、図２３の位置算出部２０２において、図４の位置算出部９５の構成と同一の機能を備えた構成については、同一の符号を付しており、その説明は適宜省略する。

　図２３の位置算出部２０２において、図４の位置算出部９５の構成と異なる構成は、位置計算部１１３に代えて、位置計算部２１１を設けた点である。

　位置計算部２１１の基本的な機能は、位置計算部１１３と同様であるが、位置計算部１１３が、到来時間差距離と、ピークパワー比とを入力層とした隠れ層として機能して、電子機器３２の位置を出力層として求めていた。

　これに対して、位置計算部２１１は、到来時間差距離Ｄと、ピークパワー比ＰＲとに加えて、音声出力ブロック３１－１，３１－２のそれぞれのピークパワー周波数成分割合ＦＲＲ，ＦＲＬ、および音声出力ブロック３１－１，３１－２間の相互間距離ＤＳを含んだ入力層に対して、隠れ層として機能し、電子機器３２の位置を出力層として求める。

　より詳細には、図２４で示されるように、位置計算部２１１における入力層２２１が、到来時間差距離Ｄ、ピークパワー比ＰＲ、音声出力ブロック３１－１，３１－２のそれぞれのピークパワー周波数成分割合ＦＲＲ，ＦＲＬから構成され、さらに、入力層２２１αが、音声出力ブロック３１－１，３１－２間の相互間距離ＤＳより構成される。

　そして、位置計算部２１１が、第１層２２２ａ乃至第ｎ層２２２ｎからなるニューラルネットワークで構成される隠れ層２２２として機能し、電子機器３２の位置（ｘ．ｙ）からなる出力層２２３が求められる。

　尚、図２４の入力層２２１、隠れ層２２２、および出力層２２３は、図１５の入力層１５１、隠れ層１５２、および出力層１５３に対応する構成である。

　＜図３の電子機器３２による音声収音処理＞
　次に、図２５のフローチャートを参照して、図２２の電子機器３２による音声収音処理について説明する。尚、音声放音処理については、図１６の処理と同様であるので、その説明は省略する。

　尚、図２５のフローチャートにおけるステップＳ１０１乃至Ｓ１１２，Ｓ１１４乃至Ｓ１１６，Ｓ１１８の処理は、図１７のフローチャートのステップＳ３１乃至Ｓ４５，Ｓ４７の処理と同様であるので、その説明は省略する。

　すなわち、ステップＳ１０１乃至Ｓ１１２により相互相関のピークが検出され、ピークパワー比が算出されると、処理は、ステップＳ１１３に進む。

　ステップＳ１１３において、ピークパワー周波数成分割合算出部２０１は、音声出力ブロック３１－１，３１－２のそれぞれより放音される音声の低周波数帯域（例えば、18乃至21kHz）と、高周波数帯域（例えば、21乃至24kHz）とのそれぞれにおいて相互相関に基づいたピークを求める。

　そして、ピークパワー周波数成分割合算出部２０１は、低周波帯域のピークパワーＬＰと高周波帯域のピークパワーＨＰとを求め、高周波帯域のピークパワーＨＰに対する、低周波帯域のピークパワーＬＰの割合をピークパワー周波数成分割合ＦＲＲ，ＦＲＬとして算出して、位置算出部２０２に出力する。

　ステップＳ１１４乃至Ｓ１１６において、到来時間が算出されて、到来時間差距離が算出され、所定の条件を満たさないデータがマスクされる。

　ステップＳ１１７において、位置算出部２０２は、図２４を参照して説明した到来時間差距離Ｄ、ピークパワー比ＰＲ、音声出力ブロック３１－１，３１－２のそれぞれのピークパワー周波数成分割合ＦＲＲ，ＦＲＬからなる入力層２２１と、相互間距離ＤＳからなる入力層２２１αに対して、隠れ層２２２のうちの第２層２２２ｂ乃至第ｎ層２２２ｎにより処理を順次実行して、出力層２２３としての電子機器３２の位置（２次元位置（ｘ，ｙ））を計算して、制御部４２に出力する。

　ステップＳ１１８において、制御部４２は、求められた電子機器３２の位置に基づいた処理を実行し、処理を終了する。

　以上のように、一般的なステレオスピーカを構成するような２個の音声出力ブロック３１－１，３１－２と、電子機器３２（音声入力ブロック４１）とだけで、さらに、TV３０が、音声出力ブロック３１－１，３１－２間の中心位置からずれた位置であっても、電子機器３２の音声出力ブロック３１－１，３１－２に対する位置をｘ，ｙ方向に対して高精度に求めることが可能となる。

　＜＜４．第３の実施の形態＞＞
　以上においては、到来時間差距離Ｄ、ピークパワー比ＰＲ、音声出力ブロック３１－１，３１－２のそれぞれのピークパワー周波数成分割合ＦＲＲ，ＦＲＬからなる入力層２２１を形成して、機械学習により形成されたニューラルネットワークからなる隠れ層２２２により処理が施されることで、出力層２２３としての電子機器３２（音声入力ブロック４１）の位置（ｘ，ｙ）を求める例について説明してきた。

　しかしながら、２個の音声出力ブロック３１と電子機器３２（音声入力ブロック４１）とにより、入力層を到来時間差距離Ｄ、およびピークパワー比ＰＲで構成しても、音声出力ブロック３１の放音方向に対して垂直方向となる、音声出力ブロック３１－１，３１－２に対する電子機器３２のｘ方向の位置は比較的高い精度で求めることができるが、ｙ方向の位置の精度についてはやや劣る。

　そこで、電子機器３２にIMUを設けて、電子機器３２を音声出力ブロック３１－１，３１－２のそれぞれに傾けたときの姿勢を検出し、電子機器３２を基準とした音声出力ブロック３１－１，３１－２間の角度θを求めることで、ｙ方向の位置を高精度に求めるようにしてもよい。

　すなわち、電子機器３２にIMUを搭載し、図２６で示されるように、例えば、電子機器３２の図中の上端部を音声出力ブロック３１－１，３１－２のそれぞれに向けた状態での姿勢を検出し、検出された姿勢変化から音声出力ブロック３１－１，３１－２のそれぞれへの方向がなす角度θを求める。

　このとき、例えば、音声出力ブロック３１－１，３１－２のそれぞれの既知の位置を（ａ１，ｂ１），（ａ２，ｂ２）で表現し、電子機器３２の位置を（ｘ，ｙ）で表現する。尚、ｘは、入力層を到来時間差距離Ｄ、およびピークパワー比ＰＲで構成することで求められた既知の値とする。

　電子機器３２の位置を基準とした、音声出力ブロック３１－１へのベクトルＡ１は、（ａ１－ｘ，ｂ１－ｙ）で表現され、同様に、音声出力ブロック３１－２へのベクトルＡ２は、（ｘ－ａ２，ｙ－ｂ２）で表現される。

　ここで、ベクトルＡ１，Ａ２の内積（Ａ１，Ａ２）は、（Ａ１，Ａ２）＝｜Ａ１｜・｜Ａ２｜cosθからなる関係式で表現される。上述したように、ベクトルＡ１，Ａ２は、ｙを除き既知の値であるから、この内積の関係式から、ｙを解くことでｙの値を求めるようにしてもよい。

　＜IMUを設けるようにした電子機器の構成例＞
　次に、図２７を参照して、IMUを設けるようにして、電子機器３２を基準とした音声出力ブロック３１－１，３１－２のなす角度θを求めて、角度θから内積の関係式を用いてｙの値を求めるようにする場合の電子機器３２の構成例について説明する。

　尚、図２７の電子機器３２において、図３の電子機器３２の構成と同一の機能を備えた構成については、同一の符号を付しており、その説明は適宜省略する。

　図２７の電子機器３２において、図３の電子機器３２と異なる点は、IMU（Inertial Measurement Unit）２３０と姿勢算出部２３１が新たに設けられると共に、位置算出部９５に代えて、位置算出部２３２が設けられた点である。

　IMU２３０は、角速度と加速度とを検出して、姿勢算出部２３１に出力する。

　姿勢算出部２３１は、IMU２３０より供給される角速度と加速度とに基づいて、電子機器３２の姿勢を算出し、位置算出部２３２に出力する。尚、ここでは、重力方向からRollおよびPitchは常に求めることができるため、姿勢として求められるRoll、Pitch、Yawのうち、ｘｙ平面上のYawについてのみ考える。

　位置算出部２３２は、基本的に位置算出部９５と同様の機能を備えており、電子機器３２のｘ方向の位置を求めると共に、上述した姿勢算出部２３１より供給される姿勢の情報を取得して、図２６を参照して説明した電子機器３２を基準とした音声出力ブロック３１－１，３１－２とのなす角度θを求め、内積の関係式から電子機器３２のｙ方向の位置を求める。

　この際、制御部４２は、スピーカやディスプレイからなる出力部４３を制御して、必要に応じて、電子機器３２の所定の部位を、音声出力ブロック３１－１，３１－２のそれぞれに向けるようにユーザに指示し、位置算出部２３２は、その時々の姿勢（方向）に基づいて角度θを求める。

　＜図２７の位置算出部の構成例＞
　次に、図２８を参照して、図２２の電子機器３２の位置算出部２３２の構成例について説明する。尚、図２８の位置算出部２３２において、図４の位置算出部９５の構成と同一の機能を備えた構成については、同一の符号を付しており、その説明は適宜省略する。

　図２８の位置算出部２３２において、図４の位置算出部９５の構成と異なる点は、位置計算部１１３に代えて、位置計算部２４１が設けられた点である。

　位置計算部２４１の基本的な機能は、位置計算部１１３と同様であるが、位置計算部１１３が、到来時間差距離と、ピークパワー比とを入力層とした隠れ層として機能して、電子機器３２の位置を出力層として求めていた。

　これに対して、位置計算部２４１は、到来時間差距離と、ピークパワー比とを入力層として求められる出力層である電子機器３２の位置については、ｘ方向の位置のみを採用する。また、位置計算部２４１は、姿勢算出部２３１より供給される姿勢の情報を取得して、図２６を参照して説明した角度θを求め、ｘ方向の位置の情報と内積の関係式から電子機器３２のｙ方向の位置を求める。

　＜図２７の電子機器３２による音声収音処理＞
　次に、図２９のフローチャートを参照して、図２７の電子機器３２による音声収音処理について説明する。尚、音声放音処理については、図１６の処理と同様であるので、その説明は省略する。

　ここで、図２５のフローチャートにおけるステップＳ１５１の処理は、図１７のフローチャートのステップＳ３１乃至Ｓ４６の処理であり、ここで求められる電子機器３２の位置の情報のうち、ｘ方向の位置の情報のみが採用されるものとし、その説明は省略する。また、音声出力ブロック３１－１，３１－２については、それぞれを左音声出力ブロック３１－１、および右音声出力ブロック３１－２とも称する。

　ステップＳ１５１の処理により、ｘ方向の位置が求められると、ステップＳ１５２において、制御部４２は、タッチパネルからなる出力部４３を制御して、例えば、電子機器３２の上端部を左音声出力ブロック３１－１に向けた状態でタップ操作するように要求する画像を表示する。

　ステップＳ１５３において、制御部４２は、出力部４３を制御して、タップされたか否かを判定し、タップ操作がなされたと判定されるまで、同様の処理を繰り返す。

　ステップＳ１５３において、例えば、ユーザが、電子機器３２の上端部を左音声出力ブロック３１－１に向けた状態でタップ操作すると、タップ操作がなされたものとみなされて、処理は、ステップＳ１５４に進む。

　ステップＳ１５４において、姿勢算出部２３１は、IMU２３０より供給される加速度および角速度の情報を取得すると、姿勢情報に変換して、位置算出部２３２に出力する。これに応じて、位置算出部２３２は、左音声出力ブロック３１－１の方向に向けた状態の姿勢（方向）を記憶する。

　ステップＳ１５５において、制御部４２は、タッチパネルからなる出力部４３を制御して、例えば、電子機器３２の上端部を右音声出力ブロック３１－２に向けた状態でタップ操作するように要求する画像を表示する。

　ステップＳ１５６において、制御部４２は、出力部４３を制御して、タップされたか否かを判定し、タップ操作がなされたと判定されるまで、同様の処理を繰り返す。

　ステップＳ１５６において、例えば、ユーザが、電子機器３２の上端部を右音声出力ブロック３１－２に向けた状態でタップ操作すると、タップ操作がなされたものとみなされて、処理は、ステップＳ１５７に進む。

　ステップＳ１５７において、姿勢算出部２３１は、IMU２３０より供給される加速度および角速度の情報を取得すると、姿勢情報に変換して、位置算出部２３２に出力する。これに応じて、位置算出部２３２は、右音声出力ブロック３１－２の方向に向けた状態の姿勢（方向）を記憶する。

　ステップＳ１５８において、位置算出部２３２の位置計算部２４１は、記憶している音声出力ブロック３１－１，３１－２のそれぞれの方向に向けた状態の姿勢（方向）の情報から、電子機器３２を基準とした左右の音声出力ブロック３１－１，３１－２のなす角度θを算出する。

　ステップＳ１５９において、位置計算部２４１は、音声出力ブロック３１－１，３１－２の既知の位置、電子機器３２のｘ方向の位置、および電子機器３２を基準とした左右の音声出力ブロック３１－１，３１－２のなす角度θに基づいて、内積の関係式から電子機器３２のｙ方向の位置を計算する。

　ステップＳ１６０において、位置計算部２４１は、求められた電子機器３２のｙ方向の位置の値が所定値よりも大きい、または小さいなど、極端に大きな値や極端に小さな値などであるか否かにより、ｙ方向の位置が適切に求められたか否かを判定する。

　ステップＳ１６０において、ｙ方向の位置が適切に求められていないとみなされた場合、処理は、ステップＳ１５２に戻る。

　すなわち、電子機器３２のｙ方向の位置が適切に求められるまで、ステップＳ１５２乃至Ｓ１６０の処理が繰り返される。

　そして、ステップＳ１６０において、適切にｙ方向の位置が求められたとみなされた場合、処理は、ステップＳ１６１に進む。

　ステップＳ１６１において、制御部４２は、タッチパネルからなる出力部４３を制御して、例えば、電子機器３２の上端部をTV３０に向けた状態でタップ操作するように要求する画像を表示する。

　ステップＳ１６２において、制御部４２は、出力部４３を制御して、タップされたか否かを判定し、タップ操作がなされたと判定されるまで、同様の処理を繰り返す。

　ステップＳ１６２において、例えば、ユーザが、電子機器３２の上端部をTV３０に向けた状態でタップ操作すると、タップ操作がなされたものとみなされて、処理は、ステップＳ１６３に進む。

　ステップＳ１６３において、姿勢算出部２３１は、IMU２３０より供給される加速度および角速度の情報を取得すると、姿勢情報に変換して、位置算出部２３２に出力する。これに応じて、位置算出部２３２は、TV３０の方向に向けた状態の姿勢（方向）を記憶する。

　ステップＳ１６４において、制御部４２は、求められた電子機器３２の位置、および電子機器３２からのTV３０の姿勢（方向）、並びに音声出力ブロック３１－１，３１－２の既知の位置に基づいた処理を実行し、処理を終了する。

　例えば、制御部４２は、求められた電子機器３２の位置、およびTV３０の方向、並びに音声出力ブロック３１－１，３１－２の既知の位置に基づいた適切な音場を実現できるように、音声出力ブロック３１－１，３１－２の音声出力部７４から出力される音声のレベルやタイミングを制御するようなコマンドを、通信部４４を制御して、音声出力ブロック３１－１，３１－２に送信する。

　以上の処理により、電子機器３２にIMUを設けて、電子機器３２を音声出力ブロック３１－１，３１－２のそれぞれに傾けたときの姿勢を検出し、電子機器３２を基準とした音声出力ブロック３１－１，３１－２間の角度θを求めることで、内積の関係式から、ｙ方向の位置を高精度に求めることが可能となる。結果として、２個のスピーカなどからなる音声出力ブロック３１－１，３１－２と電子機器３２（音声入力ブロック４１）とにより、高精度に電子機器３２の位置を測定することが可能となる。

　＜＜５．第３の実施の形態の応用例＞＞
　以上においては、電子機器３２にIMUを設けて、２個の音声出力ブロック３１と電子機器３２とにより、入力層を到来時間差距離Ｄ、およびピークパワー比ＰＲで、音声出力ブロック３１の放音方向に対して垂直方向となる、音声出力ブロック３１－１，３１－２に対する電子機器３２のｘ方向の位置を求め、さらに、電子機器３２を音声出力ブロック３１－１，３１－２のそれぞれに傾けたときの姿勢を検出し、電子機器３２を基準とした音声出力ブロック３１－１，３１－２間のなす角度θを求めることで、内積の関係式からｙ方向の位置を求めるようにする例について説明してきた。

　しかしながら、電子機器３２と音声出力ブロック３１－１，３１－２との位置関係や方向が分かれば、他の構成でもよく、例えば、IMUに加えて、マイクなどからなる音声入力部５１を２個にして、２個のマイクを用いて電子機器３２と音声出力ブロック３１－１，３１－２との位置関係や方向を認識するようにしてもよい。

　すなわち、図３０で示されるように、電子機器３２の上端部に音声入力部５１－１を設けて、下端部に音声入力部５１－２を設けるようにしてもよい。

　ここでは、音声入力部５１－１，５１－２が、一点鎖線で示されるように、電子機器３２の中心位置上に存在し、相互間の距離がＬであるものとする。また、この場合、電子機器３２は、図中の一点鎖線で示される電子機器３２の中心線上に、音声入力部５１－１，５１－２間を結ぶ直線上にTV３０が存在するものとし、音声出力ブロック３１－１，３１－２の放音方向に対してなす角度がθであるものとする。

　また、図３０の場合、音声入力部５１－１の位置を（ｘ，ｙ）で表現するものとすると、音声入力部５１－２の位置は、（ｘ＋Ｌsinθ，ｙ＋Ｌcosθ）で表現される。

　ここで、音声入力部５１－１，５１－２の相互の距離Ｌが既知であり、電子機器３２（の音声入力部５１－１）の位置（ｘ，ｙ）と角度θの３個のパラメータが未知であるものとすれば、音声出力ブロック３１－１と音声入力部５１－１との到達時間距離、音声出力ブロック３１－１と音声入力部５１－２との到達時間距離、音声出力ブロック３１－２と音声入力部５１－１との到達時間距離、および音声出力ブロック３１－２と音声入力部５１－２との到達時間距離、並びに、音声入力部５１－１および音声出力ブロック３１－１，３１－２の既知の位置の座標から構成される連立方程式により、電子機器３２（の音声入力部５１－１）の位置（ｘ，ｙ）と角度θを求めることが可能である。

　また、距離Ｌ、電子機器３２（の音声入力部５１－１）の位置（ｘ，ｙ）、および角度θの４個のパラメータが未知である場合、電子機器３２のｘ方向の位置については、上述したように、入力層を到来時間差距離Ｄ、およびピークパワー比ＰＲで構成し、機械学習で形成されたニューラルネットワークからなる隠れ層により処理が施されることで、出力層としてｘ方向の位置を求めることが可能である。

　さらに、電子機器３２の音声入力部５１－１のｘ方向の位置が既知となるので、未知の距離Ｌ、電子機器３２（の音声入力部５１－１）のｙ方向の位置、および角度θについては、上述した音声出力ブロック３１－１と音声入力部５１－１との到達時間距離、音声出力ブロック３１－１と音声入力部５１－２との到達時間距離、音声出力ブロック３１－２と音声入力部５１－１との到達時間距離、および音声出力ブロック３１－２と音声入力部５１－２との到達時間距離、並びに、音声入力部５１－１のｘ方向の位置、および音声出力ブロック３１－１，３１－２の既知の位置の座標から構成される連立方程式により、求めることが可能である。

　すなわち、図３０で示されるように、２個の音声入力部５１－１，５１－２が設けられる場合、距離Ｌが既知であり、電子機器３２（の音声入力部５１－１）の位置（ｘ，ｙ）と角度θの３個のパラメータが未知であるときは、連立方程式を用いた解析的な手法で未知のパラメータを求めることが可能である。

　一方、距離Ｌ、電子機器３２（の音声入力部５１－１）の位置（ｘ，ｙ）と角度θの４個のパラメータが未知であるときは、機械学習により形成されたニューラルネットワークを用いた手法でｘ方向の位置を求めた後、残りのパラメータについては、連立方程式を用いた解析的な手法で求めることが可能である。

　これにより、距離Ｌが既知であるか否かに関わらず、様々な種別の電子機器３２において、２個のスピーカ（音声出力ブロック３１－１，３１－２）と、１個の電子機器３２（音声入力ブロック４１）とで、電子機器３２（音声入力ブロック４１）の２次元位置を求めることが可能となり、適切な音場の設定を実現することが可能となる。

　＜＜６．ソフトウェアにより実行させる例＞＞
　ところで、上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどに、記録媒体からインストールされる。

　図３１は、汎用のコンピュータの構成例を示している。このコンピュータは、CPU(Central Processing Unit)１００１を内蔵している。CPU１００１にはバス１００４を介して、入出力インタフェース１００５が接続されている。バス１００４には、ROM(Read Only Memory)１００２およびRAM(Random Access Memory)１００３が接続されている。

　入出力インタフェース１００５には、ユーザが操作コマンドを入力するキーボード、マウスなどの入力デバイスよりなる入力部１００６、処理操作画面や処理結果の画像を表示デバイスに出力する出力部１００７、プログラムや各種データを格納するハードディスクドライブなどよりなる記憶部１００８、LAN（Local Area Network）アダプタなどよりなり、インターネットに代表されるネットワークを介した通信処理を実行する通信部１００９が接続されている。また、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)を含む）、光磁気ディスク（ＭＤ(Mini Disc)を含む）、もしくは半導体メモリなどのリムーバブル記憶媒体１０１１に対してデータを読み書きするドライブ１０１０が接続されている。

　CPU１００１は、ROM１００２に記憶されているプログラム、または磁気ディスク、光ディスク、光磁気ディスク、もしくは半導体メモリ等のリムーバブル記憶媒体１０１１ら読み出されて記憶部１００８にインストールされ、記憶部１００８からRAM１００３にロードされたプログラムに従って各種の処理を実行する。RAM１００３にはまた、CPU１００１が各種の処理を実行する上において必要なデータなども適宜記憶される。

　以上のように構成されるコンピュータでは、CPU１００１が、例えば、記憶部１００８に記憶されているプログラムを、入出力インタフェース１００５及びバス１００４を介して、RAM１００３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU１００１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記憶媒体１０１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記憶媒体１０１１をドライブ１０１０に装着することにより、入出力インタフェース１００５を介して、記憶部１００８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部１００９で受信し、記憶部１００８にインストールすることができる。その他、プログラムは、ROM１００２や記憶部１００８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　尚、図３１におけるCPU１００１が、図１の音声出力ブロック３１、および音声入力ブロック４１の機能を実現させる。

　また、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　なお、本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本開示は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　尚、本開示は、以下のような構成も取ることができる。
＜１＞　既知の位置に存在する２の音声出力ブロックより出力される、拡散符号がスペクトル拡散変調された拡散符号信号からなる音声信号を受信する音声受信部と、
　前記２の音声出力ブロックの前記音声信号が、前記音声受信部に到来して受信されるまでの時間である到来時間から特定される距離の差である到来時間差距離に基づいて、前記音声受信部の位置を算出する位置算出部と
　を備える情報処理装置。
＜２＞　前記２の音声出力ブロックの前記音声信号のそれぞれが前記音声受信部に到来するまでの到来時間を算出する到来時間算出部と、
　前記２の音声出力ブロックの前記音声信号のそれぞれの到来時間と、前記２の音声出力ブロックの既知の位置とに基づいて、前記２の音声出力ブロックと前記自らとのそれぞれの距離の差を前記到来時間差距離として算出する到来時間差距離算出部とをさらに含み、　前記位置算出部は、前記到来時間差距離からなる入力層に対して、機械学習により形成されたニューラルネットワークからなる隠れ層を用いた処理を施すことにより、出力層として前記音声受信部の位置を算出する
　＜１＞に記載の情報処理装置。
＜３＞　前記到来時間算出部は、
　　前記音声受信部により受信された前記音声信号における拡散符号信号と、前記２の音声出力ブロックより出力された前記音声信号の拡散符号信号との相互相関を計算する相互相関計算部と、
　　前記相互相関におけるピークとなる時間を前記到来時間として検出するピーク検出部とを含み、
　前記到来時間差距離算出部は、
　　前記ピーク検出部により検出された前記到来時間に基づいた、前記２の音声出力ブロックと前記自らとのそれぞれの距離の差を前記到来時間差距離として算出する
　＜２＞に記載の情報処理装置。
＜４＞　前記位置算出部は、前記到来時間差距離と、前記２の音声出力ブロックのそれぞれより出力される音声信号の、前記相互相関におけるピークとなるタイミングのパワーの比であるピークパワー比とからなる入力層に対して、前記機械学習により形成されたニューラルネットワークからなる隠れ層を用いた処理を施すことにより、出力層として前記音声受信部の位置を算出する
　＜３＞に記載の情報処理装置。
＜５＞　前記ピークにおける前記２の音声出力ブロックのそれぞれより出力される音声信号が、前記音声受信部において受信されるときのパワーをピークパワーとして検出するピークパワー検出部と、
　前記ピークパワー検出部により検出された、前記２の音声出力ブロックのそれぞれより出力される音声信号のピークパワーの比をピークパワー比として算出するピークパワー比算出部とをさらに含む
　＜４＞に記載の情報処理装置。
＜６＞　前記位置算出部は、前記到来時間差距離算出部により算出された前記到来時間差距離と、前記ピークパワー比算出部により算出されたピークパワー比とからなる入力層に対して、前記隠れ層を用いた処理を施すことにより、前記出力層として前記音声受信部の位置を算出する
　＜５＞に記載の情報処理装置。
＜７＞　前記位置算出部は、前記到来時間差距離、前記２の音声出力ブロックのそれぞれより出力される音声信号の前記ピークパワー比、および前記２の音声出力ブロックのそれぞれより出力される音声信号の高周波成分のピークパワーに対する低周波成分のピークパワーの割合であるピークパワー周波数成分割合からなる入力層に対して、前記機械学習により形成されたニューラルネットワークからなる隠れ層を用いた処理を施すことにより、出力層として前記音声受信部の位置を算出する
　＜４＞に記載の情報処理装置。
＜８＞　前記ピークにおける前記２の音声出力ブロックのそれぞれより出力される音声信号の前記低周波成分のピークパワーと、前記高周波成分のピークパワーとを検出し、前記低周波成分のピークパワーに対する、前記高周波成分のピークパワーの割合を前記ピークパワー周波数成分割合として算出するピークパワー周波数成分割合算出部をさらに含む
　＜７＞に記載の情報処理装置。
＜９＞　前記位置算出部は、
　　前記音声受信部により受信された、前記２の音声出力ブロックの前記音声信号の到来時間差距離に基づいて、前記機械学習により、前記音声受信部の前記音声出力ブロックにおける前記音声信号の放音方向に対して垂直方向の位置を算出し、
　　前記音声受信部を基準とする前記２の音声出力ブロックのそれぞれの方向がなす角度に基づいて、前記音声受信部の前記音声出力ブロックにおける前記音声信号の放音方向の位置を算出する
　＜２＞に記載の情報処理装置。
＜１０＞　前記音声受信部の角速度および加速度を検出するIMU（Inertial Measurement Unit）と、
　前記角速度および前記加速度に基づいて、前記自らの姿勢を検出する姿勢検出部とをさらに備え、
　前記位置算出部は、
　　前記姿勢検出部により検出された自らの姿勢に基づいて、前記音声受信部を基準とする前記２の音声出力ブロックのそれぞれの方向がなす角度を算出し、
　　算出した前記音声受信部を基準とする前記２の音声出力ブロックのそれぞれの方向がなす角度に基づいて、前記音声受信部の前記音声出力ブロックの前記音声信号の放音方向の位置を算出する
　＜９＞に記載の情報処理装置。
＜１１＞　前記位置算出部は、前記姿勢検出部により検出された、前記２の音声出力ブロックのそれぞれに自らを向けたときの姿勢に基づいて、前記音声受信部を基準とする前記２の音声出力ブロックのそれぞれの方向がなす角度を算出する
　＜１０＞に記載の情報処理装置。
＜１２＞　前記位置算出部は、前記音声受信部を基準とする前記２の音声出力ブロックのそれぞれの方向がなす角度に基づいて、内積の関係式から、前記音声受信部の前記音声出力ブロックの前記音声信号の放音方向の位置を算出する
　＜１１＞に記載の情報処理装置。
＜１３＞　前記音声受信部と異なる他の音声受信部をさらに含み、
　前記位置算出部は、
　　前記音声受信部により受信された、前記２の音声出力ブロックの前記音声信号の到来時間差距離に基づいて、機械学習により前記音声受信部の前記音声出力ブロックの前記音声信号の放音方向に対して垂直方向の位置を算出し、
　　前記音声受信部と前記他の音声受信部とのそれぞれにより受信された、前記２の音声出力ブロックの前記音声信号の到来時間差距離に基づいて、連立方程式を構成し、解くことにより、前記音声受信部の前記音声出力ブロックの前記音声信号の放音方向の位置、前記音声出力ブロックの前記音声信号の放音方向に対する、前記音声受信部と前記他の音声受信部とを結ぶ方向のなす角度、および前記音声受信部と前記他の音声受信部との距離を算出する
　＜２＞に記載の情報処理装置。
＜１４＞　前記音声受信部と異なる他の音声受信部をさらに含み、
　前記位置算出部は、前記音声受信部と前記他の音声受信部との距離が既知である場合、前記音声受信部と前記他の音声受信部とのそれぞれにより受信された、前記２の音声出力ブロックの前記音声信号の到来時間差距離、前記音声出力ブロックの既知の位置の情報、および前記音声受信部と前記他の音声受信部との既知の距離に基づいて、連立方程式を構成し、解くことにより、前記音声受信部の２次元位置、および前記音声出力ブロックの前記音声信号の放音方向に対する、前記音声受信部と前記他の音声受信部とを結ぶ方向のなす角度を算出する
　＜２＞に記載の情報処理装置。
＜１５＞　前記情報処理装置は、スマートフォンまたはHMD（Head Mounted Display）である
　＜１＞乃至＜１４＞のいずれかに記載の情報処理装置。
＜１６＞　既知の位置に存在する２の音声出力ブロックより出力される、拡散符号がスペクトル拡散変調された拡散符号信号からなる音声信号を受信する音声受信部を備えた情報処理装置の情報処理方法であって、
　前記２の音声出力ブロックの前記音声信号が、前記音声受信部に到来して受信されるまでの時間である到来時間から特定される距離の差である到来時間差距離に基づいて、前記音声受信部の位置を算出する
　ステップを含む情報処理方法。
＜１７＞　既知の位置に存在する２の音声出力ブロックより出力される、拡散符号がスペクトル拡散変調された拡散符号信号からなる音声信号を受信する音声受信部と、
　前記２の音声出力ブロックの前記音声信号が、前記音声受信部に到来して受信されるまでの時間である到来時間から特定される距離の差である到来時間差距離に基づいて、前記音声受信部の位置を算出する位置算出部と
　してコンピュータを機能させるプログラム。

　１１　ホームオーディオシステム，　３１　，３１－１，３１－２　音声出力ブロック，　３２　電子機器，　４１　音声入力ブロック，　４２　制御部，　４３　出力部，　４４　通信部，　５１，５１－１，５１－２　音声入力部，　７１　拡散符号生成部，　７２　既知楽曲音源生成部，　７３　音声生成部，　７４　音声出力部，　８１　拡散部，　８２　周波数シフト処理部，　８３　音場制御部，　９１　既知楽曲音源除去部，　９２　空間伝達特性算出部，　９３　到来時間算出部，　９４　ピークパワー検出部，　９５　位置算出部，　１１１　到来時間差距離算出部，　１１２　ピークパワー比算出部，　１１３　位置計算部，　１３０　逆シフト処理部，　１３１　相互相関計算部，　１３２　ピーク検出部，　２０１　ピークパワー周波数成分割合算出部，　２０２　位置算出部，　２１１　位置算出部，　２３０　IMU，　２３１　姿勢算出部，　２３２　位置算出部，　２４１　位置計算部

Claims

　既知の位置に存在する２の音声出力ブロックより出力される、拡散符号がスペクトル拡散変調された拡散符号信号からなる音声信号を受信する音声受信部と、
　前記２の音声出力ブロックの前記音声信号が、前記音声受信部に到来して受信されるまでの時間である到来時間から特定される距離の差である到来時間差距離に基づいて、前記音声受信部の位置を算出する位置算出部と
　を備える情報処理装置。
　前記２の音声出力ブロックの前記音声信号のそれぞれが前記音声受信部に到来するまでの到来時間を算出する到来時間算出部と、
　前記２の音声出力ブロックの前記音声信号のそれぞれの到来時間と、前記２の音声出力ブロックの既知の位置とに基づいて、前記２の音声出力ブロックと自らとのそれぞれの距離の差を前記到来時間差距離として算出する到来時間差距離算出部とをさらに含み、
　前記位置算出部は、前記到来時間差距離からなる入力層に対して、機械学習により形成されたニューラルネットワークからなる隠れ層を用いた処理を施すことにより、出力層として前記音声受信部の位置を算出する
　請求項１に記載の情報処理装置。
　前記到来時間算出部は、
　　前記音声受信部により受信された前記音声信号における拡散符号信号と、前記２の音声出力ブロックより出力された前記音声信号の拡散符号信号との相互相関を計算する相互相関計算部と、
　　前記相互相関におけるピークとなる時間を前記到来時間として検出するピーク検出部とを含み、
　前記到来時間差距離算出部は、
　　前記ピーク検出部により検出された前記到来時間に基づいた、前記２の音声出力ブロックと前記自らとのそれぞれの距離の差を前記到来時間差距離として算出する
　請求項２に記載の情報処理装置。
　前記位置算出部は、前記到来時間差距離と、前記２の音声出力ブロックのそれぞれより出力される音声信号の、前記相互相関におけるピークとなるタイミングのパワーの比であるピークパワー比とからなる入力層に対して、前記機械学習により形成されたニューラルネットワークからなる隠れ層を用いた処理を施すことにより、出力層として前記音声受信部の位置を算出する
　請求項３に記載の情報処理装置。
　前記ピークにおける前記２の音声出力ブロックのそれぞれより出力される音声信号が、前記音声受信部において受信されるときのパワーをピークパワーとして検出するピークパワー検出部と、
　前記ピークパワー検出部により検出された、前記２の音声出力ブロックのそれぞれより出力される音声信号のピークパワーの比をピークパワー比として算出するピークパワー比算出部とをさらに含む
　請求項４に記載の情報処理装置。
　前記位置算出部は、前記到来時間差距離算出部により算出された前記到来時間差距離と、前記ピークパワー比算出部により算出されたピークパワー比とからなる入力層に対して、前記隠れ層を用いた処理を施すことにより、前記出力層として前記音声受信部の位置を算出する
　請求項５に記載の情報処理装置。
　前記位置算出部は、前記到来時間差距離、前記２の音声出力ブロックのそれぞれより出力される音声信号の前記ピークパワー比、および前記２の音声出力ブロックのそれぞれより出力される音声信号の高周波成分のピークパワーに対する低周波成分のピークパワーの割合であるピークパワー周波数成分割合からなる入力層に対して、前記機械学習により形成されたニューラルネットワークからなる隠れ層を用いた処理を施すことにより、出力層として前記音声受信部の位置を算出する
　請求項４に記載の情報処理装置。
　前記ピークにおける前記２の音声出力ブロックのそれぞれより出力される音声信号の前記低周波成分のピークパワーと、前記高周波成分のピークパワーとを検出し、前記低周波成分のピークパワーに対する、前記高周波成分のピークパワーの割合を前記ピークパワー周波数成分割合として算出するピークパワー周波数成分割合算出部をさらに含む
　請求項７に記載の情報処理装置。
　前記位置算出部は、
　　前記音声受信部により受信された、前記２の音声出力ブロックの前記音声信号の到来時間差距離に基づいて、前記機械学習により、前記音声受信部の前記音声出力ブロックにおける前記音声信号の放音方向に対して垂直方向の位置を算出し、
　　前記音声受信部を基準とする前記２の音声出力ブロックのそれぞれの方向がなす角度に基づいて、前記音声受信部の前記音声出力ブロックにおける前記音声信号の放音方向の位置を算出する
　請求項２に記載の情報処理装置。
　前記音声受信部の角速度および加速度を検出するIMU（Inertial Measurement Unit）と、
　前記角速度および前記加速度に基づいて、前記自らの姿勢を検出する姿勢検出部とをさらに備え、
　前記位置算出部は、
　　前記姿勢検出部により検出された自らの姿勢に基づいて、前記音声受信部を基準とする前記２の音声出力ブロックのそれぞれの方向がなす角度を算出し、
　　算出した前記音声受信部を基準とする前記２の音声出力ブロックのそれぞれの方向がなす角度に基づいて、前記音声受信部の前記音声出力ブロックの前記音声信号の放音方向の位置を算出する
　請求項９に記載の情報処理装置。
　前記位置算出部は、前記姿勢検出部により検出された、前記２の音声出力ブロックのそれぞれに自らを向けたときの姿勢に基づいて、前記音声受信部を基準とする前記２の音声出力ブロックのそれぞれの方向がなす角度を算出する
　請求項１０に記載の情報処理装置。
　前記位置算出部は、前記音声受信部を基準とする前記２の音声出力ブロックのそれぞれの方向がなす角度に基づいて、内積の関係式から、前記音声受信部の前記音声出力ブロックの前記音声信号の放音方向の位置を算出する
　請求項１１に記載の情報処理装置。
　前記音声受信部と異なる他の音声受信部をさらに含み、
　前記位置算出部は、
　　前記音声受信部により受信された、前記２の音声出力ブロックの前記音声信号の到来時間差距離に基づいて、機械学習により前記音声受信部の前記音声出力ブロックの前記音声信号の放音方向に対して垂直方向の位置を算出し、
　　前記音声受信部と前記他の音声受信部とのそれぞれにより受信された、前記２の音声出力ブロックの前記音声信号の到来時間差距離に基づいて、連立方程式を構成し、解くことにより、前記音声受信部の前記音声出力ブロックの前記音声信号の放音方向の位置、前記音声出力ブロックの前記音声信号の放音方向に対する、前記音声受信部と前記他の音声受信部とを結ぶ方向のなす角度、および前記音声受信部と前記他の音声受信部との距離を算出する
　請求項２に記載の情報処理装置。
　前記音声受信部と異なる他の音声受信部をさらに含み、
　前記位置算出部は、前記音声受信部と前記他の音声受信部との距離が既知である場合、前記音声受信部と前記他の音声受信部とのそれぞれにより受信された、前記２の音声出力ブロックの前記音声信号の到来時間差距離、前記音声出力ブロックの既知の位置の情報、および前記音声受信部と前記他の音声受信部との既知の距離に基づいて、連立方程式を構成し、解くことにより、前記音声受信部の２次元位置、および前記音声出力ブロックの前記音声信号の放音方向に対する、前記音声受信部と前記他の音声受信部とを結ぶ方向のなす角度を算出する
　請求項２に記載の情報処理装置。
　前記情報処理装置は、スマートフォンまたはHMD（Head Mounted Display）である
　請求項１に記載の情報処理装置。
　既知の位置に存在する２の音声出力ブロックより出力される、拡散符号がスペクトル拡散変調された拡散符号信号からなる音声信号を受信する音声受信部を備えた情報処理装置の情報処理方法であって、
　前記２の音声出力ブロックの前記音声信号が、前記音声受信部に到来して受信されるまでの時間である到来時間から特定される距離の差である到来時間差距離に基づいて、前記音声受信部の位置を算出する
　ステップを含む情報処理方法。
　既知の位置に存在する２の音声出力ブロックより出力される、拡散符号がスペクトル拡散変調された拡散符号信号からなる音声信号を受信する音声受信部と、
　前記２の音声出力ブロックの前記音声信号が、前記音声受信部に到来して受信されるまでの時間である到来時間から特定される距離の差である到来時間差距離に基づいて、前記音声受信部の位置を算出する位置算出部と
　してコンピュータを機能させるプログラム。