WO2023199815A1

WO2023199815A1 - 音響処理方法、プログラム、及び音響処理システム

Info

Publication number: WO2023199815A1
Application number: PCT/JP2023/014064
Authority: WO
Inventors: 康太中橋; 成悟榎本; 陽宇佐見; 摩里子山田; 宏幸江原; 耕水野; 智一石川
Original assignee: パナソニックインテレクチュアルプロパティコーポレーションオブアメリカ
Priority date: 2022-04-14
Filing date: 2023-04-05
Publication date: 2023-10-19

Abstract

音響処理方法では、所定音を含む音に関する音情報、及び所定音が再生される空間に関する情報を含むメタ情報を取得し（Ｓ１）、音情報及びメタ情報に基づいて、音源オブジェクトからユーザへの直接音の後にユーザに到達する初期反射音を含む音を示す音信号を生成する音響処理を実行し（Ｓ２）、音信号を含む出力音信号を出力する（Ｓ３）。音響処理では、空間において初期反射音を発生する虚音源オブジェクトの位置を含む初期反射音を生成するためのパラメータを決定し（Ｓ２１）、決定したパラメータに基づいて初期反射音を生成する（Ｓ２２）。パラメータの少なくとも一部は、所定の条件に従って経時的に変動する。

Description

音響処理方法、プログラム、及び音響処理システム

　本開示は、空間における立体的な音響を実現するための音響処理方法、プログラム、及び音響処理システムに関する。

　特許文献１には、実際の部屋やモデルを使用することなく、任意の空間内での音環境を再現する音環境疑似体験装置が開示されている。

特許第３１５２８１８号公報

　本開示は、演算量を低減しつつ、ユーザが違和感を覚えにくい音を再生しやすい音響処理方法等を提供することを目的とする。

　本開示の一態様に係る音響処理方法では、所定音を含む音に関する音情報、及び前記所定音が再生される空間に関する情報を含むメタ情報を取得する。前記音響処理方法では、前記音情報及び前記メタ情報に基づいて、音源オブジェクトからユーザへの直接音の後に前記ユーザに到達する初期反射音を含む音を示す音信号を生成する音響処理を実行する。前記音響処理方法では、前記音信号を含む出力音信号を出力する。前記音響処理では、前記空間において前記初期反射音を発生する虚音源オブジェクトの位置を含む前記初期反射音を生成するためのパラメータを決定し、決定した前記パラメータに基づいて前記初期反射音を生成する。前記パラメータの少なくとも一部は、所定の条件に従って経時的に変動する。

　また、本開示の一態様に係るプログラムは、前記音響処理方法をコンピュータに実行させる。

　また、本開示の一態様に係る音響処理システムは、取得部と、音響処理部と、出力部と、を備える。前記取得部は、所定音を含む音に関する音情報、及び前記所定音が再生される空間に関する情報を含むメタ情報を取得する。前記音響処理部は、前記音情報及び前記メタ情報に基づいて、音源オブジェクトからユーザへの直接音の後に前記ユーザに到達する初期反射音を含む音を示す音信号を生成する音響処理を実行する。前記出力部は、前記音信号を含む出力音信号を出力する。前記音響処理部は、パラメータ決定部と、初期反射音生成処理部と、を有する。前記パラメータ決定部は、前記空間において前記初期反射音を発生する虚音源オブジェクトの位置を含む前記初期反射音を生成するためのパラメータを決定する。前記初期反射音生成処理部は、決定した前記パラメータに基づいて前記初期反射音を生成する。前記パラメータの少なくとも一部は、所定の条件に従って経時的に変動する。

　なお、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なＣＤ－ＲＯＭ等の非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。

　本開示によれば、演算量を低減しつつ、ユーザが違和感を覚えにくい音を再生しやすい、という利点がある。

図１は、実施の形態に係る音響再生装置の使用事例を示す概略図である。図２は、実施の形態に係る音響再生装置の機能構成を示すブロック図である。図３は、実施の形態に係る音響処理システムのより詳細な機能構成を示すブロック図である。図４は、初期反射音のパラメータの経時的な変動の説明図である。図５は、実施の形態に係る音響処理システムの基本動作を示すフローチャートである。図６は、実施の形態に係る音響処理システムの第１実施例での機能構成を示すブロック図である。図７は、実施の形態に係る音響処理システムの第１実施例での動作を示すフローチャートである。図８は、実施の形態に係る音響処理システムの第２実施例での動作の説明図である。図９は、実施の形態に係る音響処理システムの第２実施例での動作を示すフローチャートである。

　従来、仮想的な三次元空間内（以下、三次元音場という場合がある）で、ユーザの感覚上の音源オブジェクトである音像の位置を制御することにより、立体的な音をユーザに知覚させるための音響再生に関する技術が知られている。仮想的な三次元空間内における所定位置に音像を定位させることで、ユーザは、当該所定位置とユーザとを結ぶ直線に平行な方向（すなわち、所定方向）から到達する音であるかのごとく、この音を知覚することができる。このように仮想的な三次元空間内の所定位置に音像を定位させるには、例えば、収音された音に対して、立体的な音として知覚されるような両耳間での音の到達時間差、及び、両耳間での音のレベル差（又は音圧差）等を生じさせる計算処理が必要となる。

　また、近年、仮想現実（VR：Virtual Reality）又は拡張現実（AR：Augmented Reality）に関する技術の開発が盛んに行われている。例えば、仮想現実では、ユーザの動きに対して仮想空間の位置が追従せず、あたかもユーザが仮想空間内を移動しているように体感できることが主眼に置かれている。特に、この仮想現実又は拡張現実の技術において視覚的な要素に聴覚的な要素を取り入れることで、より臨場感を高めるといった試みが行われている。特に、聴覚的な没入感の向上のために、ユーザの頭の外から音が聴こえてくるように、上述のように音像の定位を強調することが有用である。

　ところで、三次元音場において立体的な音響を実現するためには、種々の音響処理が有用である。ここでいう音響処理は、音源オブジェクトからユーザへの直接音以外の音を三次元音場にて発生させる処理である。

　音響処理は、例えば、初期反射音を生成する処理を含み得る。初期反射音は、音源オブジェクトから直接音がユーザへ到達した後の比較的初期（例えば、直接音の到達時から数十ｍｓ程度）の段階で、１回以上の反射を経てユーザへ到達する反射音である。そして、仮想現実又は拡張現実においてコンテンツを再生する際には、初期反射音の生成に要する演算量を小さくすることが求められている。

　ここで、比較的小さい演算量で初期反射音を生成する方法として、例えば三次元音場における任意の１点を、初期反射音を発生する虚音源オブジェクトの位置として決定する方法が挙げられる。つまり、この方法では、初期反射音は、虚音源オブジェクトからユーザへ到達する直接音として表される。

　しかしながら、上記方法を採用した場合、以下の課題が生じ得る。すなわち、現実空間においては、音源オブジェクトから反射点を経由してユーザへ反射音が到達する場合に、反射点からユーザへと向かう音波は、その方向又は音圧に揺らぎがある。このため、仮に反射点が同じ位置にあり続けたとしても、反射点から全く同じ音波がユーザに到達し続けることはない。ところが、上記方法を採用した場合、反射点（虚音源オブジェクトの位置）から同じ反射音がユーザに到達し続けるため、ユーザが違和感を覚える可能性がある。

　なお、現実空間における反射点からの音波の揺らぎを模擬して初期反射音を生成することも考えられるが、膨大な演算量を必要とするため、初期反射音の生成に要する演算量を小さくするという目的を達成することができない、という課題がある。

　本開示は、上記に鑑みて、初期反射音を生成するためのパラメータの少なくとも一部を経時的に変動させることにより、演算量を低減しつつ、ユーザが違和感を覚えにくい音を再生しやすい音響処理方法等を提供することを目的とする。

　より具体的には、本開示の第１の態様に係る音響処理方法では、所定音を含む音に関する音情報、及び所定音が再生される空間に関する情報を含むメタ情報を取得し、音情報及びメタ情報に基づいて、音源オブジェクトからユーザへの直接音の後にユーザに到達する初期反射音を含む音を示す音信号を生成する音響処理を実行し、音信号を含む出力音信号を出力する。音響処理では、空間において初期反射音を発生する虚音源オブジェクトの位置を含む初期反射音を生成するためのパラメータを決定し、決定したパラメータに基づいて初期反射音を生成する。パラメータの少なくとも一部は、所定の条件に従って経時的に変動する。

　これによれば、ユーザへ到達する初期反射音の向き又は音圧等が経時的に変動するため、演算量を低減しつつ、ユーザが違和感を覚えにくい音を再生しやすい、という利点がある。

　また、例えば、本開示の第２の態様に係る音響処理方法では、第１の態様において、経時的に変動するパラメータは、空間において初期反射音を発生する虚音源オブジェクトの位置である。

　これによれば、虚音源オブジェクトの位置を経時的に変動させるという比較的小さい演算量で済む処理により、ユーザへ到達する初期反射音の向き又は音圧等を経時的に変動させやすい、という利点がある。

　また、例えば、本開示の第３の態様に係る音響処理方法では、第２の態様において、所定の条件は、虚音源オブジェクトの位置を決定するための乱数である。

　これによれば、虚音源オブジェクトの位置を経時的にランダムに変動させるという比較的小さい演算量で済む処理により、ユーザが初期反射音に対して違和感を覚えにくくなる、という利点がある。

　また、例えば、本開示の第４の態様に係る音響処理方法では、第２の態様において、所定の条件は、虚音源オブジェクトの位置を決定するための空間における軌道である。

　これによれば、虚音源オブジェクトの位置を経時的に軌道に沿って変動させるという比較的小さい演算量で済む処理により、ユーザが初期反射音に対して違和感を覚えにくくなる、という利点がある。

　また、例えば、本開示の第５の態様に係る音響処理方法では、第２～第４のいずれか１つの態様において、虚音源オブジェクトの位置の変動可能な範囲は、ユーザと虚音源オブジェクトとの位置関係に応じて決定される。

　これによれば、ユーザと虚音源オブジェクトとの位置関係に応じて適切な初期反射音を生成するので、ユーザが更に違和感を覚えにくくなる、という利点がある。

　また、例えば、本開示の第６の態様に係る音響処理方法では、第２～第５のいずれか１つの態様において、虚音源オブジェクトの位置の変動可能な範囲は、空間の音響特性に応じて決定される。

　これによれば、空間の音響特性に応じて適切な初期反射音を生成するので、ユーザが更に違和感を覚えにくくなる、という利点がある。

　また、例えば、本開示の第７の態様に係るプログラムは、第１～第６のいずれか１つの態様の音響処理方法をコンピュータに実行させる。

　これによれば、上記の音響処理方法と同様の効果を奏することができる、という利点がある。

　また、例えば、本開示の第８の態様に係る音響処理システムは、取得部と、音響処理部と、出力部と、を備える。取得部は、所定音を含む音に関する音情報、及び所定音が再生される空間に関する情報を含むメタ情報を取得する。音響処理部は、音情報及びメタ情報に基づいて、音源オブジェクトからユーザへの直接音の後にユーザに到達する初期反射音を含む音を示す音信号を生成する音響処理を実行する。出力部は、音信号を含む出力音信号を出力する。音響処理部は、パラメータ決定部と、初期反射音生成処理部と、を有する。パラメータ決定部は、空間において初期反射音を発生する虚音源オブジェクトの位置を含む初期反射音を生成するためのパラメータを決定する。初期反射音生成処理部は、決定したパラメータに基づいて初期反射音を生成する。パラメータの少なくとも一部は、所定の条件に従って経時的に変動する。

　さらに、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又はコンピュータ読み取り可能なＣＤ－ＲＯＭ等の非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び記録媒体の任意な組み合わせで実現されてもよい。

　以下、実施の形態について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、又はステップの順序等は、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。なお、各図は模式図であり、必ずしも厳密に図示されたものではない。また、各図において、実質的に同一の構成に対しては同一の符号を付し、重複する説明は省略又は簡略化される場合がある。

　（実施の形態）
　［１．概要］
　まず、実施の形態に係る音響再生装置の概要について説明する。図１は、実施の形態に係る音響再生装置の使用事例を示す概略図である。図１の（ａ）は、一例の音響再生装置１００を使用するユーザＵ１を示している。図１の（ｂ）は、他の一例の音響再生装置１００を使用するユーザＵ１を示している。

　図１に示す音響再生装置１００は、例えば、画像を表示する表示装置、又は立体映像を再生する立体映像再生装置と同時に使用される。立体映像再生装置は、ユーザＵ１の頭部に装着される画像表示デバイスであって、ユーザＵ１の頭部の動きに応じて表示する画像を変動させることで、ユーザＵ１が三次元音場（仮想空間）内で頭部を動かしているように知覚させる。また、立体映像再生装置は、ユーザＵ１の左右の目それぞれに視差分のずれが生じた２つの画像を表示する。ユーザＵ１は、表示される画像の視差分のずれに基づき、画像上の物体の三次元的な位置を知覚することができる。なお、ここでは立体映像再生装置としているが、上述した通り通常の画像表示装置であってもよい。

　音響再生装置１００は、ユーザＵ１の頭部に装着される音提示デバイスである。したがって、音響再生装置１００は、ユーザＵ１の頭部と一体的に移動する。例えば、実施の形態における音響再生装置１００は、図１の（ａ）に示すように、いわゆるオーバーイヤーヘッドホン型のデバイスであってもよいし、図１の（ｂ）に示すように、ユーザＵ１の左右の耳にそれぞれ独立して装着される２つの耳栓型のデバイスであってもよい。この２つのデバイスは、互いに通信することで、右耳用の音と左耳用の音とを同期して提示する。

　音響再生装置１００は、ユーザＵ１の頭部の動きに応じて提示する音を変動させることで、ユーザＵ１が三次元音場内で頭部を動かしているようにユーザＵ１に知覚させる。このため、上記したように、音響再生装置１００は、ユーザＵ１の動きに対して三次元音場をユーザの動きとは逆方向に移動させる。

　［２．構成］
　次に、実施の形態に係る音響再生装置１００の構成について、図２及び図３を用いて説明する。図２は、実施の形態に係る音響再生装置１００の機能構成を示すブロック図である。図３は、実施の形態に係る音響処理システム１０のより詳細な機能構成を示すブロック図である。実施の形態に係る音響再生装置１００は、図２に示すように、処理モジュール１と、通信モジュール２と、センサ３と、ドライバ４と、を備える。

　処理モジュール１は、音響再生装置１００における各種の信号処理を行うための演算装置である。処理モジュール１は、例えば、プロセッサとメモリとを備え、メモリに記憶されたプログラムがプロセッサによって実行されることで、各種の機能を発揮する。

　処理モジュール１は、抽出部１２を含む取得部１１と、音響処理部１３と、出力部１４と、を有する音響処理システム１０として機能する。音響処理システム１０が有する各機能部の詳細は、処理モジュール１以外の構成の詳細と併せて以下に説明する。

　通信モジュール２は、音響再生装置１００への音情報の入力、及びメタ情報の入力を受け付けるためのインタフェース装置である。通信モジュール２は、例えば、アンテナと信号変換器とを備え、無線通信により外部の装置から音情報及びメタ情報を受信する。より詳しくは、通信モジュール２は、無線通信のための形式に変換された音情報を示す無線信号を、アンテナを用いて受波し、信号変換器により無線信号から音情報への再変換を行う。これにより、音響再生装置１００は、外部の装置から無線通信により音情報を取得する。同様に、通信モジュール２は、無線通信のための形式に変換されたメタ情報を示す無線信号を、アンテナを用いて受波し、信号変換器により無線信号からメタ情報への再変換を行う。これにより、音響再生装置１００は、外部の装置から無線通信によりメタ情報を取得する。通信モジュール２によって取得された音情報及びメタ情報は、いずれも処理モジュール１の取得部１１によって取得される。なお、音響再生装置１００と外部の装置との通信は、有線通信によって行われてもよい。

　なお、本実施形態では音響再生装置１００に、音響効果を付加した音情報を生成するレンダラとしての機能を有する音響処理システム１０が含まれているが、レンダラの機能の全て又は一部をサーバが担ってもよい。つまり、取得部１１、抽出部１２、音響処理部１３、及び出力部１４の全て又は一部は、図示していないサーバに存在してもよい。その場合、サーバ内の音響処理部１３で生成された音信号、又はそれぞれの処理部で生成された音信号を合成した音信号は、通信モジュール２を通じて音響再生装置１００で受信され、再生される。

　実施の形態では、音情報及びメタ情報は、例えば、ＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏ（ＩＳＯ／ＩＥＣ　２３００８－３）等の所定の形式で符号化されたビットストリームとして音響再生装置１００に取得される。一例として、符号化された音情報は、音響再生装置１００によって再生される所定音についての情報を含む。ここでいう所定音は、三次元音場に存在する音源オブジェクトＡ１（図４等参照）が発する音又は自然環境音であって、例えば、機械音、又は人を含む動物の音声等を含み得る。なお、三次元音場に音源オブジェクトＡ１が複数存在する場合、音響再生装置１００は、複数の音源オブジェクトＡ１にそれぞれ対応する複数の音情報を取得することになる。

　メタ情報とは、例えば、音響再生装置１００において音情報に対する音響処理を制御するために用いられる情報である。メタ情報は、仮想空間（三次元音場）で表現されるシーンを記述するために用いられる情報であってもよい。ここでシーンとは、メタ情報を用いて、音響処理システム１０でモデリングされる、仮想空間における三次元映像及び音響イベントを表す全ての要素の集合体を指す用語である。つまり、ここでいうメタ情報とは、音響処理を制御する情報だけでなく、映像処理を制御する情報も含んでいてもよい。もちろん、メタ情報には、音響処理と映像処理のいずれか一方だけを制御する情報が含まれていてもよいし、両方の制御に用いられる情報が含まれていてもよい。

　音響再生装置１００は、ビットストリームに含まれるメタ情報、及び追加で取得されるインタラクティブなユーザＵ１の位置情報等を用いて、音情報に音響処理を行うことで、仮想的な音響効果を生成してもよい。本実施形態では、音響効果のうち、主に初期反射音の生成を行う場合を説明するが、メタ情報を用いて他の音響処理を行ってもよい。例えば、回折音、後期残響音の生成、距離減衰効果、ローカリゼーション、又はドップラー効果＆の音響効果を付加することが考えられる。また、音響効果の全て又は一部のオンオフを切り替える情報をメタ情報として付加してもよい。

　なお、全てのメタ情報または一部のメタ情報は音情報のビットストリーム以外から取得されてもよい。例えば、音響を制御するメタ情報と映像を制御するメタ情報のいずれかがビットストリーム以外から取得されてもよいし、両方のメタ情報がビットストリーム以外から取得されてもよい。

　また、映像を制御するメタ情報が音響再生装置１００で取得されるビットストリームに含まれる場合は、音響再生装置１００は映像の制御に用いることができるメタ情報を、画像を表示する表示装置、又は立体映像を再生する立体映像再生装置に対して出力する機能を備えていてもよい。

　また、一例として、符号化されたメタ情報は、音を発する音源オブジェクトＡ１、及び障害物を含む三次元音場（空間）に関する情報と、当該音の音像を三次元音場内において所定位置に定位させる（つまり、所定方向から到達する音として知覚させる）際の定位位置に関する情報、すなわち所定方向に関する情報と、を含む。ここで、障害物は、音源オブジェクトＡ１が発する音がユーザＵ１へと到達するまでの間において、例えば音を遮ったり、音を反射したりして、ユーザＵ１が知覚する音に影響を及ぼし得るオブジェクトである。障害物は、静止物体の他に、人等の動物、又は機械等の動体を含み得る。また、三次元音場に複数の音源オブジェクトＡ１が存在する場合、任意の音源オブジェクトＡ１にとっては、他の音源オブジェクトＡ１は障害物となり得る。また、建材又は無生物等の非発音源オブジェクトも、音を発する音源オブジェクトも、いずれも障害物となり得る。

　メタ情報には、三次元音場（空間）の形状、三次元音場に存在する障害物の形状及び位置、三次元音場に存在する音源オブジェクトＡ１の形状及び位置、並びに三次元音場におけるユーザＵ１の位置及び向きをそれぞれ表す情報が含まれる。

　三次元音場は、閉空間又は開空間のいずれであってもよいが、ここでは閉空間として説明する。また、メタ情報には、例えば床、壁、又は天井等の三次元音場において音を反射し得る構造物の反射率、及び三次元音場に存在する障害物の反射率を表す情報が含まれる。ここで、反射率は、反射音と入射音とのエネルギーの比であって、音の周波数帯域ごとに設定されている。もちろん、反射率は、音の周波数帯域に依らず、一律に設定されていてもよい。三次元音場が開空間の場合は、例えば一律で設定された減衰率、回折音、又は初期反射音等のパラメータが用いられてもよい。

　上記説明では、メタ情報に含まれる障害物又は音源オブジェクトＡ１に関するパラメータとして反射率を挙げたが、反射率以外の情報を含んでいてもよい。例えば、音源オブジェクト及び非発音源オブジェクトの両方に関わるメタ情報として、オブジェクトの素材に関する情報を含んでいてもよい。具体的には、メタ情報は、拡散率、透過率、又は吸音率等のパラメータを含んでいてもよい。

　音源オブジェクトに関する情報として、音量、放射特性（指向性）、再生条件、ひとつのオブジェクトから発せられる音源の数と種類、又はオブジェクトにおける音源領域を指定する情報等を含めてもよい。再生条件では、例えば、継続的に流れ続ける音なのかイベント発動する音なのかを定めてもよい。オブジェクトにおける音源領域は、ユーザＵ１の位置とオブジェクトの位置との相対的な関係で定めてもよいし、オブジェクトを基準として定めてもよい。ユーザＵ１の位置とオブジェクトの位置との相対的な関係で定める場合、ユーザＵ１がオブジェクトを見ている面を基準とし、ユーザＵ１から見てオブジェクトの右側からは音Ａ、左側からは音Ｂが発せられているようにユーザＵ１に知覚させることができる。オブジェクトを基準として定める場合、ユーザＵ１の見ている方向に関わらず、オブジェクトのどの領域からどの音を出すかは固定にすることができる。例えばオブジェクトを正面から見たときの右側からは高い音、左側からは低い音が流れているようにユーザＵ１に知覚させることができる。この場合、ユーザＵ１がオブジェクトの背面に回り込んだ場合、背面から見て右側からは低い音、左側からは高い音が流れているようにユーザＵ１に知覚させることができる。

　空間に関するメタ情報として、初期反射音までの時間、残響時間、直接音と拡散音の比率などを含めることができる。直接音と拡散音の比率がゼロの場合、直接音のみをユーザＵ１に知覚させることができる。

　ところで、ユーザＵ１の位置及び向きを示す情報がメタデータとしてビットストリームに含まれていると説明したが、インタラクティブに変化するユーザＵ１の位置及び向きを示す情報は、ビットストリームに含まれていなくてもよい。その場合、ユーザＵ１の位置及び向きを示す情報はビットストリーム以外の情報から取得される。例えば、ＶＲ空間におけるユーザＵ１の位置情報であればＶＲコンテンツを提供するアプリから取得されてもよいし、ＡＲとして音を提示するためのユーザＵ１の位置情報であれば、例えば携帯端末がＧＰＳ、カメラ、又はＬｉＤＡＲ（Laser Imaging Detection and Ranging）等を用いて自己位置推定を実施して得られた位置情報を用いてもよい。

　また、実施の形態では、メタ情報には、後述する初期反射音を生成するためのパラメータのうち、経時的に変動させるパラメータを示す情報を含む。なお、当該情報は、メタ情報に含まれていなくてもよい。

　センサ３は、ユーザＵ１の頭部の位置又は動きを検知するための装置である。センサ３は、例えば、ジャイロセンサ、又は加速度センサ等の動きの検知に使用される各種のセンサのいずれかまたは複数のセンサの組み合わせにより構成される。実施の形態では、センサ３は、音響再生装置１００に内蔵されているが、例えば、音響再生装置１００と同様にユーザＵ１の頭部の動きに応じて動作する立体映像再生装置等、外部の装置に内蔵されていてもよい。この場合、センサ３は、音響再生装置１００に含まれなくてもよい。また、センサ３として、外部の撮像装置等を用いて、ユーザＵ１の頭部の動きを撮像し、撮像された画像を処理することでユーザＵ１の動きを検知してもよい。

　センサ３は、例えば、音響再生装置１００の筐体に一体的に固定され、筐体の動きの速度を検知する。上記の筐体を含む音響再生装置１００は、ユーザＵ１が装着した後、ユーザＵ１の頭部と一体的に移動するため、センサ３は、結果としてユーザＵ１の頭部の動きの速度を検知することができる。

　センサ３は、例えば、ユーザＵ１の頭部の動きの量として、三次元音場内で互いに直交する３軸の少なくとも一つを回転軸とする回転量を検知してもよいし、上記３軸の少なくとも一つを変位方向とする変位量を検知してもよい。また、センサ３は、ユーザＵ１の頭部の動きの量として、回転量及び変位量の両方を検知してもよい。

　ドライバ４は、例えば、振動板と、マグネット又はボイスコイル等の駆動機構とを有する。ドライバ４は、出力部１４から出力される出力音信号Ｓｉｇ２に応じて駆動機構を動作させ、駆動機構によって振動板を振動させる。このようにして、ドライバ４は、出力音信号Ｓｉｇ２に応じた振動板の振動により、音波を発生させ、音波が空気等を伝播してユーザＵ１の耳に伝達し、ユーザＵ１が音を知覚する。

　以下、処理モジュール１（音響処理システム１０）について図２を用いて詳細に説明する。

　取得部１１は、音情報及びメタ情報を取得する。実施の形態では、メタ情報は、取得部１１が有する抽出部１２により取得される。取得部１１は、符号化された音情報を取得すると、取得した音情報を復号し、復号した音情報を音響処理部１３に与える。

　なお、音情報とメタ情報は、一つのビットストリームに格納されていてもよいし、複数のビットストリームに別々に格納されていてもよい。同様に、音情報とメタ情報は、一つのファイルに格納されていてもよいし、複数のファイルに別々に格納されていてもよい。

　音情報とメタ情報が複数のビットストリームに別々に格納されている場合、関連する他のビットストリームを示す情報が、音情報とメタ情報が格納された複数のビットストリームのうちの一つ又は一部のビットストリームに含まれていてもよい。また、関連する他のビットストリームを示す情報が、音情報とメタ情報が格納された複数のビットストリームの各ビットストリームのメタ情報又は制御情報に含まれていてもよい。音情報とメタ情報が複数のファイルに別々に格納されている場合、関連する他のビットストリーム又はファイルを示す情報が、音情報とメタ情報が格納された複数のファイルのうちの一つ又は一部のファイルに含まれていてもよい。また、関連する他のビットストリーム又はファイルを示す情報が、音情報とメタ情報が格納された複数のビットストリームの各ビットストリームのメタ情報又は制御情報に含まれていてもよい。

　ここで、関連するビットストリーム又はファイルとはそれぞれ、例えば、音響処理の際に同時に用いられる可能性のあるビットストリーム又はファイルである。また、関連する他のビットストリームを示す情報は、音情報とメタ情報を格納した複数のビットストリームのうちの一つのビットストリームのメタ情報又は制御情報にまとめて記述されていてもよいし、音情報とメタ情報を格納した複数のビットストリームのうちの二以上のビットストリームのメタ情報又は制御情報に分割して記述されていてもよい。同様に、関連する他のビットストリーム又はファイルを示す情報は、音情報とメタ情報を格納した複数のファイルのうちの一つのファイルのメタ情報又は制御情報にまとめて記述されていてもよいし、音情報とメタ情報を格納した複数のファイルのうちの二以上のファイルのメタ情報又は制御情報に分割して記述されていてもよい。また、関連する他のビットストリーム又はファイルを示す情報をまとめて記述した制御ファイルが、音情報とメタ情報を格納した複数のファイルとは別に生成されてもよい。このとき、制御ファイルは音情報とメタ情報を格納していなくてもよい。

　ここで、関連する他のビットストリーム又はファイルを示す情報とは、例えば当該他のビットストリームを示す識別子、他のファイルを示すファイル名、ＵＲＬ（Uniform Resource Locator）、又はＵＲＩ（Uniform Resource Identifier）等である。この場合、取得部１１は、関連する他のビットストリーム又はファイルを示す情報に基づいて、ビットストリーム又はファイルを特定又は取得する。また、関連する他のビットストリームを示す情報が、音情報とメタ情報を格納した複数のビットストリームのうちの少なくとも一部のビットストリームのメタ情報又は制御情報に含まれていると共に、関連する他のファイルを示す情報が音情報とメタ情報を格納した複数のファイルのうちの少なくとも一部のファイルのメタ情報又は制御情報に含まれていてもよい。ここで、関連するビットストリーム又はファイルを示す情報を含むファイルとは、例えばコンテンツの配信に用いられるマニフェストファイル等の制御ファイルであってもよい。

　抽出部１２は、符号化されたメタ情報を復号し、復号したメタ情報を音響処理部１３に与える。ここで、抽出部１２は、後述する音響処理部１３が有するパラメータ決定部１３１、初期反射音生成処理部１３２、方向制御部１３３、及び音量制御部１３４にそれぞれ同じメタ情報を与えるのではなく、処理部ごとに、対応する処理部で必要なメタ情報を与える。

　また、実施の形態では、抽出部１２は、センサ３で検知された回転量又は変位量等を含む検知情報を更に取得する。抽出部１２は、取得した検知情報に基づいて、三次元音場（空間）におけるユーザＵ１の位置及び向きを決定する。そして、抽出部１２は、決定したユーザＵ１の位置及び向きに応じて、メタ情報を更新する。したがって、抽出部１２が各処理部に与えるメタ情報は、更新されたメタ情報である。

　音響処理部１３は、音情報及びメタ情報に基づいて、音源オブジェクトＡ１からユーザＵ１への直接音の後にユーザＵ１に到達する初期反射音を含む音を示す音信号Ｓｉｇ１を生成する音響処理を実行する。初期反射音は、既に述べたように、音源オブジェクトＡ１から直接音がユーザＵ１へ到達した後の比較的初期（例えば、直接音の到達時から数十ｍｓ程度）の段階で、１回以上の反射を経てユーザＵ１へ到達する反射音である。実施の形態では、音響処理部１３は、図３に示すように、パラメータ決定部１３１と、初期反射音生成処理部１３２と、方向制御部１３３と、音量制御部１３４と、を有している。

　パラメータ決定部１３１は、例えば音情報及びメタ情報を参照し、三次元音場（空間）において初期反射音を発生する虚音源オブジェクトＢ１（図４等参照）の位置を含む初期反射音を生成するためのパラメータを決定する。虚音源オブジェクトＢ１は、音源オブジェクトＡ１とは異なり三次元音場上に存在しない仮想的な音源オブジェクトであって、三次元音場において音源オブジェクトＡ１からの音波が反射する仮想反射面に位置しており、ユーザＵ１に対して音を発生する。この虚音源オブジェクトＢ１が発生する音が、初期反射音となる。ここでいうパラメータは、三次元音場における虚音源オブジェクトＢ１の位置（座標）、虚音源オブジェクトＢ１が発生する音の音圧、及び当該音の周波数等を含む。

　実施の形態では、パラメータ決定部１３１は、パラメータの少なくとも一部を処理単位時間（例えば、１／６０秒）ごとに変動させる。言い換えれば、パラメータの少なくとも一部は、所定の条件に従って経時的に変動する。ここで、パラメータ決定部１３１は、処理単位時間ごとに取得する音情報及びメタ情報が同じである場合にも、パラメータの少なくとも一部については経時的に変動させる。つまり、ここでいうパラメータの経時的な変動は、取得した音情報及びメタ情報の変動に伴う変動とは独立した変動である。

　実施の形態では、パラメータの少なくとも一部、つまり経時的に変動するパラメータは、虚音源オブジェクトＢ１の位置である。具体的には、虚音源オブジェクトＢ１の位置は、基準位置を基準とした所定範囲内で経時的に変動する。虚音源オブジェクトＢ１の基準位置は、音源オブジェクトＡ１とユーザＵ１との相対的な位置に基づいて決定される。所定の条件については、後述する［３－２．第１実施例］及び［３－３．第２実施例］にて詳細に説明する。

　図４は、初期反射音のパラメータの経時的な変動の説明図である。図４の（ａ）は、時刻ｔ＝ｎ（ｎは実数）での三次元音場（空間）における音源オブジェクトＡ１、虚音源オブジェクトＢ１、及びユーザＵ１の位置を表している。また、図４の（ｂ）は、時刻ｔ＝ｎ＋１での三次元音場における音源オブジェクトＡ１、虚音源オブジェクトＢ１、及びユーザＵ１の位置を表している。時刻ｔ＝ｎと時刻ｔ＝ｎ＋１との差分は、処理単位時間に相当する。また、図４の（ａ）、（ｂ）では、音源オブジェクトＡ１及びユーザＵ１の位置は変動していない。

　図４の（ｂ）に示すように、虚音源オブジェクトＢ１の位置は、時刻ｔ＝ｎでの虚音源オブジェクトＢ１の位置（破線の丸印を参照）から変動している。このように、実施の形態では、パラメータ決定部１３１は、虚音源オブジェクトＢ１の位置が経時的に（ここでは、処理単位時間ごとに）変動するように、虚音源オブジェクトＢ１の位置を決定する。

　初期反射音生成処理部１３２は、パラメータ決定部１３１で決定したパラメータに基づいて、初期反射音を生成する。具体的には、初期反射音生成処理部１３２は、三次元音場（空間）においてパラメータ決定部１３１で決定された位置（座標）に虚音源オブジェクトＢ１を配置し、パラメータ決定部１３１で決定された音圧及び周波数の音を虚音源オブジェクトＢ１から発生させることで、初期反射音を生成する。

　方向制御部１３３は、メタ情報を参照し、虚音源オブジェクトＢ１からユーザＵ１へと到達する初期反射音の方向を制御する。具体的には、方向制御部１３３は、三次元音場（空間）における虚音源オブジェクトＢ１の位置、ユーザＵ１の位置、及びユーザＵ１の向きに基づいて、虚音源オブジェクトＢ１が発生する音が、虚音源オブジェクトＢ１からユーザＵ１の右耳（又は左耳）へと到達する方向を決定する。

　音量制御部１３４は、メタ情報を参照し、虚音源オブジェクトＢ１からユーザＵ１へと到達する初期反射音の音量（音圧）を制御する。具体的には、音量制御部１３４は、三次元音場（空間）における虚音源オブジェクトＢ１とユーザＵ１との間の距離に応じて、初期反射音がユーザＵ１に到達した際の初期反射音の音量を決定する。例えば、音量制御部１３４は、当該距離が長ければ長いほど初期反射音の音量を小さくし、当該距離が短ければ短いほど初期反射音の音量を大きくする。

　出力部１４は、音響処理部１３が生成した音信号Ｓｉｇ１を含む出力音信号Ｓｉｇ２をドライバ４に出力する。

　［３．動作］
　以下、実施の形態に係る音響処理システム１０の動作、つまり音響処理方法について説明する。

　［３－１．基本動作］
　まず、実施の形態に係る音響処理システム１０の基本動作について図５を用いて説明する。図５は、実施の形態に係る音響処理システム１０の基本動作を示すフローチャートである。以下では、図５に示すステップＳ１～Ｓ３を処理単位時間ごとに繰り返し実行することを前提として説明する。なお、図５では、方向制御部１３３による処理、及び音量制御部１３４による処理の図示を省略している。

　まず、音響再生装置１００の動作が開始されると、取得部１１は、通信モジュール２を介して音情報及びメタ情報を取得する（Ｓ１）。次に、音響処理部１３は、取得した音情報及びメタ情報に基づいて、音響処理を開始する（Ｓ２）。

　音響処理において、パラメータ決定部１３１は、音情報及びメタ情報を参照し、初期反射音を生成するためのパラメータを決定する（Ｓ２１）。ここで、既に述べたように、パラメータ決定部１３１は、初期反射音を生成するためのパラメータのうちの少なくとも一部については、所定の条件に従って経時的に変動させる。例えば、パラメータ決定部１３１は、パラメータの少なくとも一部を処理単位時間ごとに変動させる。次に、音響処理において、初期反射音生成処理部１３２は、パラメータ決定部１３１で決定したパラメータに基づいて、初期反射音を生成する（Ｓ２２）。

　また、音響処理において、方向制御部１３３は、メタ情報を参照し、虚音源オブジェクトＢ１からユーザＵ１へと到達する初期反射音の方向を決定する。さらに、音響処理において、音量制御部１３４は、メタ情報を参照し、虚音源オブジェクトＢ１からユーザＵ１へと到達する初期反射音の音量（音圧）を決定する。

　そして、出力部１４は、音響処理部１３で生成された音信号Ｓｉｇ１を含む出力音信号Ｓｉｇ２を出力する（Ｓ３）。

　［３－２．第１実施例］
　以下、実施の形態に係る音響処理システム１０の第１実施例について図６を用いて説明する。図６は、実施の形態に係る音響処理システム１０の第１実施例での機能構成を示すブロック図である。図６に示すように、第１実施例では、音響処理部１３は、乱数生成部１３５を更に有している。

　乱数生成部１３５は、適宜の乱数生成アルゴリズムに従って、処理単位時間ごとに乱数を生成する。具体的には、乱数生成部１３５は、三次元音場（空間）における虚音源オブジェクトＢ１のＸ座標、Ｙ座標、及びＺ座標にそれぞれ加算される乱数「ｎ１」、「ｎ２」、及び「ｎ３」（「ｎ１」、「ｎ２」、及び「ｎ３」は、いずれも実数）を処理単位時間ごとに生成する。第１実施例では、これらの乱数「ｎ１」、「ｎ２」、及び「ｎ３」の各々が取り得る範囲は、およそ±０．２（単位は「ｍ」）である。つまり、乱数生成部１３５が生成する乱数の取り得る範囲は、無制限ではなく、虚音源オブジェクトＢ１の位置を変動させた際にユーザが違和感を覚えにくい範囲で適宜設定される。

　そして、第１実施例では、パラメータ決定部１３１は、乱数生成部１３５で生成された乱数を参照して、虚音源オブジェクトＢ１の位置を経時的に（ここでは、処理単位時間ごとに）変動させる。例えば、三次元音場（空間）における虚音源オブジェクトＢ１の基準位置を以下の数式（１）で表した場合、乱数を参照して決定される虚音源オブジェクトＢ１の位置は、以下の数式（２）で表される。以下の数式（１）、（２）において、「（ｘ，ｙ，ｚ）」は虚音源オブジェクトＢ１の座標を表しており、「ａ」、「ｂ」、「ｃ」は実数である。

　以下、実施の形態に係る音響処理システム１０の第１実施例での動作について図７を用いて説明する。図７は、実施の形態に係る音響処理システム１０の第１実施例での動作を示すフローチャートである。図７に示す動作は、音響処理部１３による動作である。以下では、音響処理部１３が図７に示すステップＳ１０１～Ｓ１０６を処理単位時間ごとに繰り返し実行することを前提として説明する。

　まず、乱数生成部１３５は、乱数を生成する（Ｓ１０１）。次に、パラメータ決定部１３１は、音情報及びメタ情報を参照し、初期反射音を生成するためのパラメータを決定する（Ｓ１０２）。ここで、パラメータ決定部１３１は、初期反射音を生成するためのパラメータのうちの虚音源オブジェクトＢ１の位置については、乱数生成部１３５で生成された乱数を参照して決定する。これにより、虚音源オブジェクトＢ１の位置は、乱数に従って経時的に（ここでは、処理単位時間ごとに）変動することになる。次に、初期反射音生成処理部１３２は、パラメータ決定部１３１で決定したパラメータに基づいて、初期反射音を生成する（Ｓ１０３）。

　次に、方向制御部１３３は、メタ情報を参照し、虚音源オブジェクトＢ１からユーザＵ１へと到達する初期反射音の方向を決定する（Ｓ１０４）。さらに、音量制御部１３４は、メタ情報を参照し、虚音源オブジェクトＢ１からユーザＵ１へと到達する初期反射音の音量（音圧）を決定する（Ｓ１０５）。そして、音響処理部１３は、生成された音信号Ｓｉｇ１を出力部１４に出力する（Ｓ１０６）。

　このように、第１実施例では、パラメータ決定部１３１は、虚音源オブジェクトＢ１の位置を、虚音源オブジェクトＢ１の基準位置を基準として、乱数生成部１３５で生成された乱数に応じて処理単位時間ごとに変動させる。つまり、第１実施例では、所定の条件は、虚音源オブジェクトＢ１の位置を決定するための乱数である。

　なお、例えば三次元音場（空間）における虚音源オブジェクトＢ１とユーザＵ１との間の距離が１ｍ以内である等して、虚音源オブジェクトＢ１とユーザＵ１との位置が比較的近い場合、乱数の取り得る範囲を狭めてもよい。つまり、三次元音場における虚音源オブジェクトＢ１とユーザＵ１との位置に応じて、乱数の取り得る範囲を変動させてもよい。言い換えれば、虚音源オブジェクトＢ１の位置の変動可能な範囲は、ユーザＵ１と虚音源オブジェクトＢ１との位置関係に応じて決定されてもよい。この場合、乱数の取り得る範囲は、例えば±０．０５～±０．２である。

　また、三次元音場（空間）に含まれる障害物（例えば、壁等）の反射率に応じて、乱数の取り得る範囲を変動させてもよい。例えば、障害物の反射率が低いほど、乱数の取り得る範囲を狭めてもよい。また、三次元音場の大きさ又は形状に応じて、乱数の取り得る範囲を変動させてもよい。言い換えれば、虚音源オブジェクトＢ１の位置の変動可能な範囲は、三次元音場（空間）の音響特性に応じて決定されてもよい。

　［３－３．第２実施例］
　以下、実施の形態に係る音響処理システム１０の第２実施例について図８を用いて説明する。図８は、実施の形態に係る音響処理システム１０の第２実施例での動作の説明図である。

　第２実施例では、パラメータ決定部１３１は、虚音源オブジェクトＢ１の位置を所定の軌道Ｃ１に沿って経時的に（ここでは、処理単位時間ごとに）変動させる。具体的には、三次元音場（空間）における虚音源オブジェクトＢ１の基準位置を上記の数式（１）で表した場合、虚音源オブジェクトＢ１の位置は、以下の数式（３）を満たすように変動する。以下の数式（３）において、「ｒ」は球の半径を表しており、実数である。

　これにより、虚音源オブジェクトＢ１の位置は、図８に示すように、虚音源オブジェクトＢ１の基準位置（破線の丸印を参照）を中心とした半径「ｒ」の球（図８では、平面視で円形状）の周面（軌道Ｃ１）に沿って経時的に（ここでは、処理単位時間ごとに）変動することになる。第２実施例では、球の半径「ｒ」が取り得る範囲は、およそ０．２以下（単位は「ｍ」）である。つまり、軌道Ｃ１が取り得る範囲は無制限ではなく、虚音源オブジェクトＢ１の位置を変動させた際にユーザが違和感を覚えにくい範囲で適宜設定される。

　以下、実施の形態に係る音響処理システム１０の第２実施例での動作について図９を用いて説明する。図９は、実施の形態に係る音響処理システム１０の第２実施例での動作を示すフローチャートである。図９に示す動作は、音響処理部１３による動作である。以下では、音響処理部１３が図９に示すステップＳ２０１～Ｓ２０６を処理単位時間ごとに繰り返し実行することを前提として説明する。

　まず、パラメータ決定部１３１は、虚音源オブジェクトＢ１の軌道Ｃ１を決定する（Ｓ２０１）。次に、パラメータ決定部１３１は、音情報及びメタ情報を参照し、初期反射音を生成するためのパラメータを決定する（Ｓ２０２）。ここで、パラメータ決定部１３１は、初期反射音を生成するためのパラメータのうちの虚音源オブジェクトＢ１の位置については、ステップＳ２０１で決定した軌道Ｃ１を参照して決定する。これにより、虚音源オブジェクトＢ１の位置は、軌道Ｃ１に沿って経時的に（ここでは、処理単位時間ごとに）変動することになる。次に、初期反射音生成処理部１３２は、パラメータ決定部１３１で決定したパラメータに基づいて、初期反射音を生成する（Ｓ２０３）。

　次に、方向制御部１３３は、メタ情報を参照し、虚音源オブジェクトＢ１からユーザＵ１へと到達する初期反射音の方向を決定する（Ｓ２０４）。さらに、音量制御部１３４は、メタ情報を参照し、虚音源オブジェクトＢ１からユーザＵ１へと到達する初期反射音の音量（音圧）を決定する（Ｓ２０５）。そして、音響処理部１３は、生成された音信号Ｓｉｇ１を出力部１４に出力する（Ｓ２０６）。

　このように、第２実施例では、パラメータ決定部１３１は、虚音源オブジェクトＢ１の位置を、虚音源オブジェクトＢ１の基準位置を基準として、軌道Ｃ１に沿うように処理単位時間ごとに変動させる。つまり、第２実施例では、所定の条件は、虚音源オブジェクトＢ１の位置を決定するための三次元音場（空間）における軌道Ｃ１である。

　なお、例えば三次元音場（空間）における虚音源オブジェクトＢ１とユーザＵ１との間の距離が１ｍ以内である等して、虚音源オブジェクトＢ１とユーザＵ１との位置が比較的近い場合、軌道Ｃ１の取り得る範囲を狭めてもよい。つまり、三次元音場における虚音源オブジェクトＢ１とユーザＵ１との位置に応じて、軌道Ｃ１の取り得る範囲を変動させてもよい。言い換えれば、虚音源オブジェクトＢ１の位置の変動可能な範囲は、ユーザＵ１と虚音源オブジェクトＢ１との位置関係に応じて決定されてもよい。この場合、軌道Ｃ１の取り得る範囲は、例えば０．０５～０．２である。

　また、三次元音場（空間）に含まれる障害物（例えば、壁等）の反射率に応じて、軌道Ｃ１の取り得る範囲を変動させてもよい。例えば、障害物の反射率が低いほど、軌道Ｃ１の取り得る範囲を狭めてもよい。また、三次元音場の大きさ又は形状に応じて、軌道Ｃ１の取り得る範囲を変動させてもよい。言い換えれば、虚音源オブジェクトＢ１の位置の変動可能な範囲は、三次元音場（空間）の音響特性に応じて決定されてもよい。

　また、軌道Ｃ１の形状は、球状に限らず、例えば円形状又は楕円形状等の他の形状であってもよい。つまり、軌道Ｃ１は、三次元の軌道であってもよいし、二次元の軌道であってもよい。

　［４．利点］
　以下、実施の形態に係る音響処理システム１０（音響処理方法）の利点について、比較例の音響処理システムとの比較を交えて説明する。比較例の音響処理システムは、虚音源オブジェクトＢ１の位置を経時的に変動させずに固定する点で、実施の形態に係る音響処理システム１０と相違する。

　比較例の音響処理システムを用いた場合、虚音源オブジェクトＢ１の位置が経時的に変動しないため、同じ方向で、かつ、同じ音圧の反射音がユーザＵ１に到達し続けることになり、ユーザＵ１が違和感を覚える可能性がある。

　これに対して、実施の形態に係る音響処理システム１０（音響処理方法）では、虚音源オブジェクトＢ１の位置（つまり、初期反射音を生成するためのパラメータ）が経時的に変動するため、ユーザＵ１に到達する反射音の方向及び音圧も経時的に変動することになり、ユーザＵ１が違和感を覚えにくくなる。また、虚音源オブジェクトＢ１の位置を経時的に変動させる処理は、現実空間における反射点からの音波の揺らぎを模擬して初期反射音を生成する処理と比較して、演算量が小さくて済む。

　したがって、実施の形態に係る音響処理システム１０（音響処理方法）では、演算量を低減しつつ、ユーザＵ１が違和感を覚えにくい音を再生しやすい、という利点がある。

　（その他の実施の形態）
　以上、実施の形態について説明したが、本開示は、上記の実施の形態に限定されるものではない。

　上記実施の形態において、パラメータ決定部１３１は、経時的に変動するパラメータを処理単位時間ごとに変動させなくてもよい。例えば、パラメータ決定部１３１は、経時的に変動するパラメータを所定時間（例えば、処理単位時間の整数倍の時間）ごとに変動させてもよいし、不定間隔で変動させてもよい。

　上記実施の形態において、パラメータ決定部１３１は、乱数及び軌道Ｃ１以外の所定の条件に従って、パラメータの少なくとも一部を経時的に変動させてもよい。例えば、パラメータ決定部１３１は、予め定められた変動パターンに従って、パラメータの少なくとも一部を経時的に変動させてもよい。

　上記実施の形態において、経時的に変動するパラメータは、虚音源オブジェクトＢ１の位置に限られない。例えば、経時的に変動するパラメータは、虚音源オブジェクトＢ１の発生する音の音圧、又は当該音の周波数等であってもよい。また、経時的に変動するパラメータは、１つに限らず、複数であってもよい。例えば、経時的に変動するパラメータは、虚音源オブジェクトＢ１の位置、虚音源オブジェクトＢ１の発生する音の音圧、及び当該音の周波数のうちの２以上のパラメータであってもよい。

　上記実施の形態において、音響処理部１３は、初期反射音を生成する処理以外の処理を実行してもよい。例えば、音響処理部１３は、後期残響音を生成する後期残響音生成処理、回折音を生成する回折音生成処理、音信号の透過処理、又はドップラー効果のような音響効果を音信号に付加する付加処理等を実行してもよい。ここで、後期残響音は、初期反射音がユーザへ到達した後の比較的後期（例えば、直接音の到達時から百数十ｍｓ程度）の段階で、初期反射音よりも多くの回数（例えば、数十回）の反射を経てユーザへ到達する残響音である。回折音は、音源オブジェクトとユーザとの間に障害物がある場合に、当該障害物を回り込むようにして音源オブジェクトからユーザへ到達する音である。

　上記実施の形態では、取得部１１は、符号化されたビットストリームから音情報及びメタ情報を取得しているが、これに限られない。例えば、取得部１１は、音情報及びメタ情報を、個別にビットストリーム以外の情報から取得してもよい。

　また、例えば、上記の実施の形態に説明した音響再生装置は、構成要素をすべて備える一つの装置として実現されてもよいし、複数の装置に各機能が割り振られ、この複数の装置が連携することで実現されてもよい。後者の場合には、処理モジュールに該当する装置として、スマートフォン、タブレット端末、又は、ＰＣ等の情報処理装置が用いられてもよい。

　また、本開示の音響再生装置は、ドライバのみを備える再生装置に接続され、当該再生装置に対して音信号を出力するのみの音響処理装置として実現することもできる。この場合、音響処理装置は、専用の回路を備えるハードウェアとして実現してもよいし、汎用のプロセッサに特定の処理を実行させるためのソフトウェアとして実現してもよい。

　また、上記の実施の形態において、特定の処理部が実行する処理を別の処理部が実行してもよい。また、複数の処理の順序が変更されてもよいし、複数の処理が並行して実行されてもよい。

　また、上記の実施の形態において、各構成要素は、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵ（Central Processing Unit）又はプロセッサ等のプログラム実行部が、ハードディスク又は半導体メモリ等の記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

　また、各構成要素は、ハードウェアによって実現されてもよい。例えば、各構成要素は、回路（又は集積回路）でもよい。これらの回路は、全体として１つの回路を構成してもよいし、それぞれ別々の回路でもよい。また、これらの回路は、それぞれ、汎用的な回路でもよいし、専用の回路でもよい。

　また、本開示の全般的又は具体的な態様は、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なＣＤ－ＲＯＭ等の記録媒体で実現されてもよい。また、本開示の全般的又は具体的な態様は、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

　例えば、本開示は、コンピュータによって実行される音響処理方法として実現されてもよいし、音響処理方法をコンピュータに実行させるためのプログラムとして実現されてもよい。本開示は、このようなプログラムが記録されたコンピュータ読み取り可能な非一時的な記録媒体として実現されてもよい。

　その他、各実施の形態に対して当業者が思いつく各種変形を施して得られる形態、又は、本開示の趣旨を逸脱しない範囲で各実施の形態における構成要素及び機能を任意に組み合わせることで実現される形態も本開示に含まれる。

　本開示は、立体的な音をユーザに知覚させる等の音響再生の際に有用である。

　１　処理モジュール
　１０　音響処理システム
　１００　音響再生装置
　１１　取得部
　１２　抽出部
　１３　音響処理部
　１３１　パラメータ決定部
　１３２　初期反射音生成処理部
　１３３　方向制御部
　１３４　音量制御部
　１３５　乱数生成部
　１４　出力部
　２　通信モジュール
　３　センサ
　４　ドライバ
　Ａ１　音源オブジェクト
　Ｂ１　虚音源オブジェクト
　Ｃ１　軌道
　Ｓｉｇ１　音信号
　Ｓｉｇ２　出力音信号
　Ｕ１　ユーザ

Claims

　所定音を含む音に関する音情報、及び前記所定音が再生される空間に関する情報を含むメタ情報を取得し、
　前記音情報及び前記メタ情報に基づいて、音源オブジェクトからユーザへの直接音の後に前記ユーザに到達する初期反射音を含む音を示す音信号を生成する音響処理を実行し、
　前記音信号を含む出力音信号を出力し、
　前記音響処理では、
　前記空間において前記初期反射音を発生する虚音源オブジェクトの位置を含む前記初期反射音を生成するためのパラメータを決定し、
　決定した前記パラメータに基づいて前記初期反射音を生成し、
　前記パラメータの少なくとも一部は、所定の条件に従って経時的に変動する、
　音響処理方法。
　経時的に変動する前記パラメータは、前記空間において前記初期反射音を発生する虚音源オブジェクトの位置である、
　請求項１に記載の音響処理方法。
　前記所定の条件は、前記虚音源オブジェクトの位置を決定するための乱数である、
　請求項２に記載の音響処理方法。
　前記所定の条件は、前記虚音源オブジェクトの位置を決定するための前記空間における軌道である、
　請求項２に記載の音響処理方法。
　前記虚音源オブジェクトの位置の変動可能な範囲は、前記ユーザと前記虚音源オブジェクトとの位置関係に応じて決定される、
　請求項２～４のいずれか１項に記載の音響処理方法。
　前記虚音源オブジェクトの位置の変動可能な範囲は、前記空間の音響特性に応じて決定される、
　請求項２～４のいずれか１項に記載の音響処理方法。
　請求項１～４のいずれか１項に記載の音響処理方法をコンピュータに実行させる、
　プログラム。
　所定音を含む音に関する音情報、及び前記所定音が再生される空間に関する情報を含むメタ情報を取得する取得部と、
　前記音情報及び前記メタ情報に基づいて、音源オブジェクトからユーザへの直接音の後に前記ユーザに到達する初期反射音を含む音を示す音信号を生成する音響処理を実行する音響処理部と、
　前記音信号を含む出力音信号を出力する出力部と、を備え、
　前記音響処理部は、
　前記空間において前記初期反射音を発生する虚音源オブジェクトの位置を含む前記初期反射音を生成するためのパラメータを決定するパラメータ決定部と、
　決定した前記パラメータに基づいて前記初期反射音を生成する初期反射音生成処理部と、を有し、
　前記パラメータの少なくとも一部は、所定の条件に従って経時的に変動する、
　音響処理システム。