WO2023199813A1

WO2023199813A1 - 音響処理方法、プログラム、及び音響処理システム

Info

Publication number: WO2023199813A1
Application number: PCT/JP2023/014059
Authority: WO
Inventors: 康太中橋; 成悟榎本; 陽宇佐見; 摩里子山田; 宏幸江原; 耕水野; 智一石川
Original assignee: パナソニックインテレクチュアルプロパティコーポレーションオブアメリカ
Priority date: 2022-04-14
Filing date: 2023-04-05
Publication date: 2023-10-19

Abstract

音響処理方法では、所定音を含む音に関する音情報、及び所定音が再生される空間に関する情報を含むメタ情報を取得し（Ｓ１）、音情報及びメタ情報に基づいて、所定方向から到達する音として定位させるための音像定位強調用の反射音を含む音を示す第１音信号（Ｓｉｇ１）を生成する音像定位強調処理を実行し（Ｓ２）、音情報及びメタ情報に基づいて、音源オブジェクトからユーザへの直接音以外の音を含む音を示す第２音信号（Ｓｉｇ２）を生成する音響処理を実行し（Ｓ３）、第１音信号（Ｓｉｇ１）と第２音信号（Ｓｉｇ２）とを合成した出力音信号（Ｓｉｇ３）を出力する（Ｓ４）。音像定位強調処理及び音響処理の少なくとも一方の処理においては、他方の処理で用いられるパラメータが参照される。

Description

音響処理方法、プログラム、及び音響処理システム

　本開示は、空間における立体的な音響を実現するための音響処理方法、プログラム、及び音響処理システムに関する。

　特許文献１には、音像を聴取者の頭外に定位させるヘッドホン再生装置が開示されている。

特許第２９００９８５号公報

　本開示は、より適切に立体的な音をユーザに知覚させやすい音響処理方法等を提供することを目的とする。

　本開示の一態様に係る音響処理方法では、所定音を含む音に関する音情報、及び前記所定音が再生される空間に関する情報を含むメタ情報を取得する。前記音響処理方法では、前記音情報及び前記メタ情報に基づいて、所定方向から到達する音として定位させるための音像定位強調用の反射音を含む音を示す第１音信号を生成する音像定位強調処理を実行する。前記音響処理方法では、前記音情報及び前記メタ情報に基づいて、音源オブジェクトからユーザへの直接音以外の音を含む音を示す第２音信号を生成する音響処理を実行する。前記音響処理方法では、前記第１音信号と前記第２音信号とを合成した出力音信号を出力する。前記音像定位強調処理及び前記音響処理の少なくとも一方の処理においては、他方の処理で用いられるパラメータが参照される。

　また、本開示の一態様に係るプログラムは、前記音響処理方法をコンピュータに実行させる。

　また、本開示の一態様に係る音響処理システムは、取得部と、音像定位強調処理部と、音響処理部と、出力部と、を備える。前記取得部は、所定音を含む音に関する音情報、及び前記所定音が再生される空間に関する情報を含むメタ情報を取得する。前記音像定位強調処理部は、前記音情報及び前記メタ情報に基づいて、所定方向から到達する音として定位させるための音像定位強調用の反射音を含む音を示す第１音信号を生成する音像定位強調処理を実行する。前記音響処理部は、前記音情報及び前記メタ情報に基づいて、音源オブジェクトからユーザへの直接音以外の音を含む音を示す第２音信号を生成する音響処理を実行する。前記出力部は、前記第１音信号と前記第２音信号とを合成した出力音信号を出力する。前記音像定位強調処理及び前記音響処理の少なくとも一方の処理においては、他方の処理で用いられるパラメータが参照される。

　なお、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なＣＤ－ＲＯＭ等の非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。

　本開示によれば、より適切に立体的な音をユーザに知覚させやすい、という利点がある。

図１は、実施の形態に係る音響再生装置の使用事例を示す概略図である。図２は、実施の形態に係る音響再生装置の機能構成を示すブロック図である。図３は、実施の形態に係る音響処理システムのより詳細な機能構成を示すブロック図である。図４は、実施の形態に係る音響処理システムの基本動作例の説明図である。図５は、実施の形態に係る音像定位強調処理と初期反射音生成処理との相互処理の一例を示すフローチャートである。図６は、実施の形態に係る音像定位強調用の反射音と初期反射音との関係の説明図である。図７は、実施の形態に係る音像定位強調処理と後期残響音生成処理との相互処理の一例を示すフローチャートである。図８は、実施の形態に係る音像定位強調用の反射音と後期残響音との関係の説明図である。図９は、実施の形態に係る音像定位強調処理と回折音生成処理との相互処理の一例を示すフローチャートである。図１０は、実施の形態に係る音像定位強調用の反射音と回折音との関係の説明図である。図１１は、実施の形態の変形例に係る音像定位強調処理部の動作の説明図である。

　（本開示の基礎となった知見）
　従来、仮想的な三次元空間内（以下、三次元音場という場合がある）で、ユーザの感覚上の音源オブジェクトである音像の位置を制御することにより、立体的な音をユーザに知覚させるための音響再生に関する技術が知られている。仮想的な三次元空間内における所定位置に音像を定位させることで、ユーザは、当該所定位置とユーザとを結ぶ直線に平行な方向（すなわち、所定方向）から到達する音であるかのごとく、この音を知覚することができる。このように仮想的な三次元空間内の所定位置に音像を定位させるには、例えば、収音された音に対して、立体的な音として知覚されるような両耳間での音の到達時間差、及び、両耳間での音のレベル差（又は音圧差）等を生じさせる計算処理が必要となる。

　また、近年、仮想現実（VR：Virtual Reality）又は拡張現実（AR：Augmented Reality）に関する技術の開発が盛んに行われている。例えば、仮想現実では、ユーザの動きに対して仮想空間の位置が追従せず、あたかもユーザが仮想空間内を移動しているように体感できることが主眼に置かれている。特に、この仮想現実又は拡張現実の技術において視覚的な要素に聴覚的な要素を取り入れることで、より臨場感を高めるといった試みが行われている。特に、聴覚的な没入感の向上のために、ユーザの頭の外から音が聴こえてくるように、上述のように音像の定位を強調することが有用である。

　ところで、三次元音場において立体的な音響を実現するためには、上述の音像の定位を強調する処理（以下、「音像定位強調処理」ともいう）の他に、種々の音響処理が有用である。ここでいう音響処理は、音源オブジェクトからユーザへの直接音以外の音を三次元音場にて発生させる処理である。

　音響処理は、例えば、初期反射音を生成する処理（以下、「初期反射音生成処理」ともいう）を含み得る。初期反射音は、音源オブジェクトから直接音がユーザへ到達した後の比較的初期（例えば、直接音の到達時から数十ｍｓ程度）の段階で、１回以上の反射を経てユーザへ到達する反射音である。

　また、音響処理は、例えば、後期残響音を生成する処理（以下、「後期残響音生成処理」ともいう）を含み得る。後期残響音は、初期反射音がユーザへ到達した後の比較的後期（例えば、直接音の到達時から百数十ｍｓ程度）の段階で、初期反射音よりも多くの回数（例えば、数十回）の反射を経てユーザへ到達する残響音である。

　また、音響処理は、例えば、回折音を生成する処理（以下、「回折音生成処理」ともいう）を含み得る。回折音は、音源オブジェクトとユーザとの間に障害物がある場合に、当該障害物を回り込むようにして音源オブジェクトからユーザへ到達する音である。

　このような音響処理に対して音像定位強調処理を独立して実行した場合、音像の定位を強調するために生成された反射音と、音響処理により生成された音とが互いに干渉して強め合ったり弱め合ったりすることで、音像の定位を強調する効果が十分に得られない可能性がある、という課題があり、また、所望の立体音響を実現することが難しい、という課題がある。

　本開示では、上記に鑑みて、音像定位強調処理及び音響処理の少なくとも一方で、他方の処理で用いるパラメータを参照することにより、より適切に立体的な音をユーザに知覚させやすい音響処理方法等を提供することを目的とする。

　より具体的には、本開示の第１の態様に係る音響処理方法では、所定音を含む音に関する音情報、及び所定音が再生される空間に関する情報を含むメタ情報を取得し、音情報及びメタ情報に基づいて、所定方向から到達する音として定位させるための音像定位強調用の反射音を含む音を示す第１音信号を生成する音像定位強調処理を実行し、音情報及びメタ情報に基づいて、音源オブジェクトからユーザへの直接音以外の音を含む音を示す第２音信号を生成する音響処理を実行し、第１音信号と第２音信号とを合成した出力音信号を出力する。音像定位強調処理及び音響処理の少なくとも一方の処理においては、他方の処理で用いられるパラメータが参照される。

　これによれば、音像定位強調処理及び音響処理のうちの少なくとも一方で生成される音が、他方の処理で生成される音を考慮して調整されるので、音響処理に対して音像定位強調処理を独立して実行する場合と比較して、より適切に立体的な音をユーザに知覚させやすい、という利点がある。

　また、例えば、本開示の第２の態様に係る音響処理方法では、第１の態様において、音響処理は、直接音の後にユーザに到達する初期反射音を含む音を示す第２音信号を生成する初期反射音生成処理を含む。音像定位強調用の反射音の発生タイミングと、初期反射音の発生タイミングとに基づいて、音像定位強調用の反射音及び初期反射音の少なくとも一方のパラメータを調整する。

　これによれば、音像定位強調用の反射音及び初期反射音が互いに干渉しにくくなるため、音像定位強調用の反射音及び初期反射音を含む立体的な音が適切にユーザに知覚されやすい、という利点がある。

　また、例えば、本開示の第３の態様に係る音響処理方法では、第１又は第２の態様において、音響処理は、直接音の後に残響としてユーザに到達する後期残響音を含む音を示す第２音信号を生成する後期残響音生成処理を含む。後期残響音の音圧に基づいて、音像定位強調用の反射音及び後期残響音の少なくとも一方のパラメータを調整する。

　これによれば、音像定位強調用の反射音が後期残響音に対して強調されやすくなるため、音像定位強調用の反射音及び後期残響音を含む立体的な音が適切にユーザに知覚されやすい、という利点がある。

　また、例えば、本開示の第４の態様に係る音響処理方法では、第１～第３のいずれか１つの態様において、音響処理は、空間におけるユーザと音源オブジェクトとの間にある障害物に起因する回折音を含む音を示す第２音信号を生成する回折音生成処理を含む。音像定位強調用の反射音及び回折音の少なくとも一方のパラメータを調整する。

　これによれば、音像定位強調用の反射音が回折音に対して強調されやすくなるため、音像定位強調用の反射音及び回折音を含む立体的な音が適切にユーザに知覚されやすい、という利点がある。

　また、例えば、本開示の第５の態様に係る音響処理方法では、第１～第４のいずれか１つの態様において、メタ情報には、音像定位強調処理及び音響処理のうちのいずれを優先して処理するかを示す情報が含まれる。

　これによれば、音像定位強調用の反射音及び音響処理により生成される音のいずれを優先するかが、所定音が再生される空間に応じて決定されるので、より適切に立体的な音をユーザに知覚させやすい、という利点がある。

　また、例えば、本開示の第６の態様に係る音響処理方法では、第１～第５のいずれか１つの態様において、音像定位強調処理では、空間におけるユーザの位置と音源オブジェクトの位置とに基づいて、第１音信号を生成する。

　これによれば、ユーザと音源オブジェクトとの位置関係に応じて適切な音像定位強調用の反射音を生成するので、より適切に立体的な音をユーザに知覚させやすい、という利点がある。

　また、例えば、本開示の第７の態様に係るプログラムは、第１～第６のいずれか１つの態様の音響処理方法をコンピュータに実行させる。

　これによれば、上記の音響処理方法と同様の効果を奏することができる、という利点がある。

　また、例えば、本開示の第８の態様に係る音響処理システムは、取得部と、音像定位強調処理部と、音響処理部と、出力部と、を備える。取得部は、所定音を含む音に関する音情報、及び所定音が再生される空間に関する情報を含むメタ情報を取得する。音像定位強調処理部は、音情報及びメタ情報に基づいて、所定方向から到達する音として定位させるための音像定位強調用の反射音を含む音を示す第１音信号を生成する音像定位強調処理を実行する。音響処理部は、音情報及びメタ情報に基づいて、音源オブジェクトからユーザへの直接音以外の音を含む音を示す第２音信号を生成する音響処理を実行する。出力部は、第１音信号と第２音信号とを合成した出力音信号を出力する。音像定位強調処理及び音響処理の少なくとも一方の処理においては、他方の処理で用いられるパラメータが参照される。

　さらに、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又はコンピュータ読み取り可能なＣＤ－ＲＯＭ等の非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び記録媒体の任意な組み合わせで実現されてもよい。

　以下、実施の形態について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、又はステップの順序等は、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。なお、各図は模式図であり、必ずしも厳密に図示されたものではない。また、各図において、実質的に同一の構成に対しては同一の符号を付し、重複する説明は省略又は簡略化される場合がある。

　（実施の形態）
　［１．概要］
　まず、実施の形態に係る音響再生装置の概要について説明する。図１は、実施の形態に係る音響再生装置の使用事例を示す概略図である。図１の（ａ）は、一例の音響再生装置１００を使用するユーザＵ１を示している。図１の（ｂ）は、他の一例の音響再生装置１００を使用するユーザＵ１を示している。

　図１に示す音響再生装置１００は、例えば、画像を表示する表示装置、又は立体映像を再生する立体映像再生装置と同時に使用される。立体映像再生装置は、ユーザＵ１の頭部に装着される画像表示デバイスであって、ユーザＵ１の頭部の動きに応じて表示する画像を変化させることで、ユーザＵ１が三次元音場（仮想空間）内で頭部を動かしているように知覚させる。

　また、立体映像再生装置は、ユーザＵ１の左右の目それぞれに視差分のずれが生じた２つの画像を表示する。ユーザＵ１は、表示される画像の視差分のずれに基づき、画像上の物体の三次元的な位置を知覚することができる。なお、ここでは立体映像再生装置としているが、上述した通り通常の画像表示装置であってもよい。

　音響再生装置１００は、ユーザＵ１の頭部に装着される音提示デバイスである。したがって、音響再生装置１００は、ユーザＵ１の頭部と一体的に移動する。例えば、実施の形態における音響再生装置１００は、図１の（ａ）に示すように、いわゆるオーバーイヤーヘッドホン型のデバイスであってもよいし、図１の（ｂ）に示すように、ユーザＵ１の左右の耳にそれぞれ独立して装着される２つの耳栓型のデバイスであってもよい。この２つのデバイスは、互いに通信することで、右耳用の音と左耳用の音とを同期して提示する。

　音響再生装置１００は、ユーザＵ１の頭部の動きに応じて提示する音を変化させることで、ユーザＵ１が三次元音場内で頭部を動かしているようにユーザＵ１に知覚させる。このため、上記したように、音響再生装置１００は、ユーザＵ１の動きに対して三次元音場をユーザＵ１の動きとは逆方向に移動させる。

　［２．構成］
　次に、実施の形態に係る音響再生装置１００の構成について、図２及び図３を用いて説明する。図２は、実施の形態に係る音響再生装置１００の機能構成を示すブロック図である。図３は、実施の形態に係る音響処理システム１０のより詳細な機能構成を示すブロック図である。実施の形態に係る音響再生装置１００は、図２に示すように、処理モジュール１と、通信モジュール２と、センサ３と、ドライバ４と、を備える。

　処理モジュール１は、音響再生装置１００における各種の信号処理を行うための演算装置である、処理モジュール１は、例えば、プロセッサとメモリとを備え、メモリに記憶されたプログラムがプロセッサによって実行されることで、各種の機能を発揮する。

　処理モジュール１は、抽出部１２を含む取得部１１と、音像定位強調処理部１３と、音響処理部１４と、出力部１５と、を有する音響処理システム１０として機能する。

　音響処理システム１０が有する各機能部の詳細は、処理モジュール１以外の構成の詳細と併せて以下に説明する。

　通信モジュール２は、音響再生装置１００への音情報の入力、及びメタ情報の入力を受け付けるためのインタフェース装置である。通信モジュール２は、例えば、アンテナと信号変換器とを備え、無線通信により外部の装置から音情報及びメタ情報を受信する。より詳しくは、通信モジュール２は、無線通信のための形式に変換された音情報を示す無線信号を、アンテナを用いて受波し、信号変換器により無線信号から音情報への再変換を行う。これにより、音響再生装置１００は、外部の装置から無線通信により音情報を取得する。同様に、通信モジュール２は、無線通信のための形式に変換されたメタ情報を示す無線信号を、アンテナを用いて受波し、信号変換器により無線信号からメタ情報への再変換を行う。これにより、音響再生装置１００は、外部の装置から無線通信によりメタ情報を取得する。通信モジュール２によって取得された音情報及びメタ情報は、いずれも処理モジュール１の取得部１１によって取得される。なお、音響再生装置１００と外部の装置との通信は、有線通信によって行われてもよい。

　なお、本実施形態では音響再生装置１００に、音響効果を付加した音情報を生成するレンダラとしての機能を有する音響処理システム１０が含まれているが、レンダラの機能の全て又は一部をサーバが担ってもよい。つまり、取得部１１、抽出部１２、音像定位強調処理部１３、音響処理部１４、及び出力部１５の全て又は一部は、図示していないサーバに存在してもよい。その場合、サーバ内の音像定位強調処理部１３及び音響処理部１４で生成された音信号、又はそれぞれの処理部で生成された音信号を合成した音信号は、通信モジュール２を通じて音響再生装置１００で受信され、再生される。

　実施の形態では、音情報及びメタ情報は、例えば、ＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏ（ＩＳＯ／ＩＥＣ　２３００８－３）等の所定の形式で符号化されたビットストリームとして音響再生装置１００に取得される。一例として、符号化された音情報は、音響再生装置１００によって再生される所定音についての情報を含む。ここでいう所定音は、三次元音場に存在する音源オブジェクトＡ１（図１０等参照）が発する音又は自然環境音であって、例えば、機械音、又は人を含む動物の音声等を含み得る。なお、三次元音場に音源オブジェクトＡ１が複数存在する場合、音響再生装置１００は、複数の音源オブジェクトＡ１にそれぞれ対応する複数の音情報を取得することになる。

　メタ情報とは、例えば、音響再生装置１００において音情報に対する音響処理を制御するために用いられる情報である。メタ情報は、仮想空間（三次元音場）で表現されるシーンを記述するために用いられる情報であってもよい。ここでシーンとは、メタ情報を用いて、音響処理システム１０でモデリングされる、仮想空間における三次元映像及び音響イベントを表す全ての要素の集合体を指す用語である。つまり、ここでいうメタ情報とは、音響処理を制御する情報だけでなく、映像処理を制御する情報も含んでいてもよい。もちろん、メタ情報には、音響処理と映像処理のいずれか一方だけを制御する情報が含まれていてもよいし、両方の制御に用いられる情報が含まれていてもよい。

　音響再生装置１００は、ビットストリームに含まれるメタ情報、及び追加で取得されるインタラクティブなユーザＵ１の位置情報等を用いて、音情報に音響処理を行うことで、仮想的な音響効果を生成する。本実施形態では、音響効果のうち、初期反射音、回折音、後期残響音の生成、及び音像定位処理を行う場合を説明するが、メタ情報を用いて他の音響処理を行ってもよい。例えば、距離減衰効果、ローカリゼーション、又はドップラー効果等の音響効果を付加することが考えられる。また、音響効果の全てまたは一部のオンオフを切り替える情報をメタ情報として付加してもよい。

　なお、全てのメタ情報又は一部のメタ情報は、音情報のビットストリーム以外から取得されてもよい。例えば、音響を制御するメタ情報と映像を制御するメタ情報のいずれかがビットストリーム以外から取得されてもよいし、両方のメタ情報がビットストリーム以外から取得されてもよい。

　また、映像を制御するメタ情報が音響再生装置１００で取得されるビットストリームに含まれる場合は、音響再生装置１００は映像の制御に用いることができるメタ情報を、画像を表示する表示装置、又は立体映像を再生する立体映像再生装置に対して出力する機能を備えていてもよい。

　また、一例として、符号化されたメタ情報は、音を発する音源オブジェクトＡ１、及び障害物Ｂ１（図１０参照）を含む三次元音場（空間）に関する情報と、当該音の音像を三次元音場内において所定位置に定位させる（つまり、所定方向から到達する音として知覚させる）際の定位位置に関する情報、すなわち所定方向に関する情報と、を含む。ここで、障害物Ｂ１は、音源オブジェクトＡ１が発する音がユーザＵ１へと到達するまでの間において、例えば音を遮ったり、音を反射したりして、ユーザＵ１が知覚する音に影響を及ぼし得るオブジェクトである。障害物Ｂ１は、静止物体の他に、人等の動物、又は機械等の動体を含み得る。また、三次元音場に複数の音源オブジェクトＡ１が存在する場合、任意の音源オブジェクトＡ１にとっては、他の音源オブジェクトＡ１は障害物Ｂ１となり得る。また、建材又は無生物等の非発音源オブジェクトも、音を発する音源オブジェクトも、いずれも障害物Ｂ１となり得る。

　メタ情報には、三次元音場（空間）の形状、三次元音場に存在する障害物Ｂ１の形状及び位置、三次元音場に存在する音源オブジェクトＡ１の形状及び位置、並びに三次元音場におけるユーザＵ１の位置及び向きをそれぞれ表す情報が含まれる。

　三次元音場は、閉空間又は開空間のいずれであってもよいが、ここでは閉空間として説明する。また、メタ情報には、例えば床、壁、又は天井等の三次元音場において音を反射し得る構造物の反射率、及び三次元音場に存在する障害物Ｂ１の反射率を表す情報が含まれる。ここで、反射率は、反射音と入射音とのエネルギーの比であって、音の周波数帯域ごとに設定されている。もちろん、反射率は、音の周波数帯域に依らず、一律に設定されていてもよい。また、三次元音場が開空間の場合は、例えば一律で設定された減衰率、回折音、又は初期反射音等のパラメータが用いられてもよい。

　上記説明では、メタ情報に含まれる障害物Ｂ１又は音源オブジェクトＡ１に関するパラメータとして反射率を挙げたが、反射率以外の情報を含んでいてもよい。例えば、音源オブジェクト及び非発音源オブジェクトの両方に関わるメタ情報として、オブジェクトの素材に関する情報を含んでいてもよい。具体的には、メタ情報は、拡散率、透過率、又は吸音率等のパラメータを含んでいてもよい。

　音源オブジェクトに関する情報として、音量、放射特性（指向性）、再生条件、ひとつのオブジェクトから発せられる音源の数と種類、又はオブジェクトにおける音源領域を指定する情報等を含めてもよい。再生条件では、例えば、継続的に流れ続ける音なのかイベント発動する音なのかを定めてもよい。オブジェクトにおける音源領域は、ユーザＵ１の位置とオブジェクトの位置との相対的な関係で定めてもよいし、オブジェクトを基準として定めてもよい。ユーザＵ１の位置とオブジェクトの位置との相対的な関係で定める場合、ユーザＵ１がオブジェクトを見ている面を基準とし、ユーザＵ１から見てオブジェクトの右側からは音Ａ、左側からは音Ｂが発せられているようにユーザＵ１に知覚させることができる。オブジェクトを基準として定める場合、ユーザＵ１の見ている方向に関わらず、オブジェクトのどの領域からどの音を出すかは固定にすることができる。例えばオブジェクトを正面から見たときの右側からは高い音、左側からは低い音が流れているようにユーザＵ１に知覚させることができる。この場合、ユーザＵ１がオブジェクトの背面に回り込んだ場合、背面から見て右側からは低い音、左側からは高い音が流れているようにユーザＵ１に知覚させることができる。

　空間に関するメタ情報として、初期反射音までの時間、残響時間、又は直接音と拡散音の比率等を含めることができる。直接音と拡散音の比率がゼロの場合、直接音のみをユーザＵ１に知覚させることができる。

　ところで、ユーザＵ１の位置及び向きを示す情報がメタ情報としてビットストリームに含まれていると説明したが、インタラクティブに変化するユーザＵ１の位置及び向きを示す情報は、ビットストリームに含まれていなくてもよい。その場合、ユーザＵ１の位置及び向きを示す情報はビットストリーム以外の情報から取得される。例えば、ＶＲ空間におけるユーザＵ１の位置情報であれば、ＶＲコンテンツを提供するアプリから取得されてもよいし、ＡＲとして音を提示するためのユーザＵ１の位置情報であれば、例えば携帯端末がＧＰＳ、カメラ、又はＬｉＤＡＲ（Laser Imaging Detection and Ranging）等を用いて自己位置推定を実施して得られた位置情報を用いてもよい。

　また、実施の形態では、メタ情報には、音像定位強調処理を実行するか否かを示すフラグ情報、及び音像定位強調処理の音響処理に対する優先度を示す優先度情報等を含む。なお、これらの情報は、メタ情報に含まれていなくてもよい。

　センサ３は、ユーザＵ１の頭部の位置又は動きを検知するための装置である。センサ３は、例えば、ジャイロセンサ、又は加速度センサ等の動きの検知に使用される各種のセンサのいずれかまたは複数のセンサの組み合わせにより構成される。実施の形態では、センサ３は、音響再生装置１００に内蔵されているが、例えば、音響再生装置１００と同様にユーザＵ１の頭部の動きに応じて動作する立体映像再生装置等、外部の装置に内蔵されていてもよい。この場合、センサ３は、音響再生装置１００に含まれなくてもよい。また、センサ３として、外部の撮像装置等を用いて、ユーザＵ１の頭部の動きを撮像し、撮像された画像を処理することでユーザＵ１の動きを検知してもよい。

　センサ３は、例えば、音響再生装置１００の筐体に一体的に固定され、筐体の動きの速度を検知する。上記の筐体を含む音響再生装置１００は、ユーザＵ１が装着した後、ユーザＵ１の頭部と一体的に移動するため、センサ３は、結果としてユーザＵ１の頭部の動きの速度を検知することができる。

　センサ３は、例えば、ユーザＵ１の頭部の動きの量として、仮想空間内で互いに直交する３軸の少なくとも一つを回転軸とする回転量を検知してもよいし、上記３軸の少なくとも一つを変位方向とする変位量を検知してもよい。また、センサ３は、ユーザＵ１の頭部の動きの量として、回転量及び変位量の両方を検知してもよい。

　ドライバ４は、例えば、振動板と、マグネット又はボイスコイル等の駆動機構とを有する。ドライバ４は、出力部１５から出力される出力音信号Ｓｉｇ３に応じて駆動機構を動作させ、駆動機構によって振動板を振動させる。このようにして、ドライバ４は、出力音信号Ｓｉｇ３に応じた振動板の振動により、音波を発生させ、音波が空気等を伝播してユーザＵ１の耳に伝達し、ユーザＵ１が音を知覚する。

　以下、処理モジュール１（音響処理システム１０）について図２を用いて詳細に説明する。

　取得部１１は、音情報及びメタ情報を取得する。実施の形態では、メタ情報は、取得部１１が有する抽出部１２により取得される。取得部１１は、符号化された音情報を取得すると、取得した音情報を復号し、復号した音情報を音像定位強調処理部１３及び音響処理部１４にそれぞれ与える。

　なお、音情報とメタ情報は、一つのビットストリームに格納されていてもよいし、複数のビットストリームに別々に格納されていてもよい。同様に、音情報とメタ情報は、一つのファイルに格納されていてもよいし、複数のファイルに別々に格納されていてもよい。

　複数のビットストリームや複数のファイルに別々に格納されている場合、一つ又は一部のビットストリーム又はファイルに関連する他のビットストリームやファイルを示す情報が含まれていてもよいし、全てのビットストリーム又はファイルのそれぞれに関連する他のビットストリームやファイルを示す情報が含まれていてもよい。

　ここで、関連するビットストリーム又はファイルとは、例えば、音響処理の際に同時に用いられる可能性のあるビットストリーム又はファイルである。また、関連する他のビットストリーム又はファイルを示す情報をまとめて記述したビットストリーム又はファイルが含まれていてもよい。

　ここで、関連する他のビットストリーム又はファイルを示す情報とは、例えば当該他のビットストリームを示す識別子、他のファイルを示すファイル名、ＵＲＬ（Uniform Resource Locator）、又はＵＲＩ（Uniform Resource Identifier）等である。この場合、取得部１１は、関連する他のビットストリーム又はファイルを示す情報に基づいて、ビットストリーム又はファイルを特定又は取得する。また、ビットストリーム内に関連する他のビットストリームを示す情報が含まれていると共に、別のビットストリーム、ファイルに関連するビットストリーム、又はファイルを示す情報を含めていてもよい。ここで、関連するビットストリーム又はファイルを示す情報を含むファイルとは、例えばコンテンツの配信に用いられるマニフェストファイル等の制御ファイルであってもよい。

　抽出部１２は、符号化されたメタ情報を復号し、復号したメタ情報を音像定位強調処理部１３及び音響処理部１４にそれぞれ与える。ここで、抽出部１２は、音像定位強調処理部１３及び音響処理部１４にそれぞれ同じメタ情報を与えるのではなく、処理部ごとに、対応する処理部で必要なメタ情報を与える。

　また、実施の形態では、抽出部１２は、センサ３で検知された回転量又は変位量等を含む検知情報を更に取得する。抽出部１２は、取得した検知情報に基づいて、三次元音場（空間）におけるユーザＵ１の位置及び向きを決定する。そして、抽出部１２は、決定したユーザＵ１の位置及び向きに応じて、メタ情報を更新する。したがって、抽出部１２が各処理部に与えるメタ情報は、更新されたメタ情報である。

　音像定位強調処理部１３は、音情報及びメタ情報に基づいて、所定方向から到達する音として定位させるための音像定位強調用の反射音Ｓｄ２（図６等参照）を含む音を示す第１音信号Ｓｉｇ１を生成する音像定位強調処理を実行する。実施の形態では、音像定位強調処理部１３は、第１処理と、第２処理と、合成処理と、を実行する。第１処理では、音情報に対して、音情報に含まれる音を、所定方向から到達する音として定位させるための第１頭部伝達関数を畳み込むことで、第１信号を生成する。第２処理では、音情報に対して、音情報に含まれる音を、所定方向とは異なる方向から到達し、第１信号によって知覚される所定音に対して零より大きい遅延時間、及び零より大きい音量の減衰を有する音として定位させるための第２頭部伝達関数を畳み込むことで、第２信号を生成する。合成処理では、生成した第１信号及び第２信号を合成し、合成した信号を第１音信号Ｓｉｇ１として出力する。なお、音像定位強調処理は、音像定位強調用の反射音Ｓｄ２を生成可能な処理であればよく、上記の第１処理、第２処理、及び合成処理に限られない。

　音響処理部１４は、音情報及びメタ情報に基づいて、音源オブジェクトＡ１からユーザＵ１への直接音Ｓｄ１（図６等参照）以外の音を含む音を示す第２音信号Ｓｉｇ２を生成する。実施の形態では、音響処理部１４は、初期反射音生成処理部１４１と、後期残響音生成処理部１４２と、回折音生成処理部１４３と、を有している。

　初期反射音生成処理部１４１は、直接音Ｓｄ１の後にユーザＵ１に到達する初期反射音Ｓｄ３（図６等参照）を含む音を示す第２音信号Ｓｉｇ２を生成する初期反射音生成処理を実行する。言い換えれば、音響処理は、初期反射音生成処理を含む。初期反射音Ｓｄ３は、既に述べたように、音源オブジェクトＡ１から直接音Ｓｄ１がユーザＵ１へ到達した後の比較的初期（例えば、直接音Ｓｄ１の到達時から数十ｍｓ程度）の段階で、１回以上の反射を経てユーザＵ１へ到達する反射音である。

　初期反射音生成処理部１４１は、例えば音情報及びメタ情報を参照し、三次元音場（空間）の形状、大きさ、構造物等のオブジェクトの位置、及びオブジェクトの反射率等を用いて、音源オブジェクトＡ１からオブジェクトで反射してユーザＵ１に到達する反射音の経路を計算し、当該経路に基づいて初期反射音Ｓｄ３を生成する。

　後期残響音生成処理部１４２は、直接音Ｓｄ１の後に残響としてユーザＵ１に到達する後期残響音Ｓｄ４（図８等参照）を含む音を示す第２音信号Ｓｉｇ２を生成する後期残響音生成処理を実行する。言い換えれば、音響処理は、後期残響音生成処理を含む。後期残響音Ｓｄ４は、既に述べたように、初期反射音Ｓｄ３がユーザＵ１へ到達した後の比較的後期（例えば、直接音Ｓｄ１の到達時から百数十ｍｓ程度）の段階で、初期反射音Ｓｄ３よりも多くの回数（例えば、数十回）の反射を経てユーザＵ１へ到達する残響音である。

　後期残響音生成処理部１４２は、例えば音情報及びメタ情報を参照し、事前に準備してある後期残響音Ｓｄ４を生成するための所定の関数を用いて計算することにより、後期残響音Ｓｄ４を生成する。

　回折音生成処理部１４３は、三次元音場（空間）におけるユーザＵ１と音源オブジェクトＡ１との間にある障害物Ｂ１に起因する回折音Ｓｄ５（図１０参照）を含む音を示す第２音信号Ｓｉｇ２を生成する回折音生成処理を実行する。言い換えれば、音響処理は、回折音生成処理を含む。回折音Ｓｄ５は、既に述べたように、音源オブジェクトＡ１とユーザＵ１との間に障害物Ｂ１がある場合に、当該障害物Ｂ１を回り込むようにして音源オブジェクトＡ１からユーザＵ１へ到達する音である。

　回折音生成処理部１４３は、例えば音情報及びメタ情報を参照し、三次元音場（空間）における音源オブジェクトＡ１の位置、ユーザＵ１の位置、並びに障害物Ｂ１の位置、形状、及び大きさ等を用いて、音源オブジェクトＡ１から障害物Ｂ１を迂回してユーザＵ１へと到達する経路を計算し、当該経路に基づいて回折音Ｓｄ５を生成する。

　出力部１５は、第１音信号Ｓｉｇ１と第２音信号Ｓｉｇ２とを合成した出力音信号Ｓｉｇ３をドライバ４に出力する。

　［３．動作］
　以下、実施の形態に係る音響処理システム１０の動作、つまり音響処理方法について説明する。

　［３－１．基本動作］
　まず、実施の形態に係る音響処理システム１０の基本動作について図４を用いて説明する。図４は、実施の形態に係る音響処理システム１０の基本動作例の説明図である。図４に示す例では、音像定位強調処理が実行されることを前提として説明する。また、図４に示す例では、音像定位強調処理及び音響処理の各々が互いにパラメータを参照することを前提として説明する。

　まず、音響再生装置１００の動作が開始されると、取得部１１は、通信モジュール２を介して音情報及びメタ情報を取得する（Ｓ１）。次に、音像定位強調処理部１３は、取得した音情報及びメタ情報に基づいて、音像定位強調処理を開始する（Ｓ２）。この時点では、音像定位強調処理部１３は、音源オブジェクトＡ１からユーザＵ１への直接音Ｓｄ１に対する音像定位強調処理を実行することにより、音像定位強調用の反射音Ｓｄ２を仮計算する。

　また、音響処理部１４は、取得した音情報及びメタ情報に基づいて、音響処理を開始する（Ｓ３）。実施の形態では、音響処理においては、初期反射音生成処理部１４１による初期反射音生成処理（Ｓ３１）、後期残響音生成処理部１４２による後期残響音生成処理（Ｓ３２）、及び回折音生成処理部１４３による回折音生成処理（Ｓ３３）が、この順に実行される。また、音像定位強調処理は、音響処理の実行中において並行して実行される。

　ここで、音像定位強調処理では、初期反射音生成処理に応じた強調処理が実行され得る、言い換えれば、音像定位強調用の反射音Ｓｄ２のパラメータが更新され得る。また、初期反射音生成処理では、音像定位強調処理に応じて、初期反射音Ｓｄ３のパラメータが更新され得る。ここでいうパラメータは、音の発生タイミング、音圧、又は周波数等を含む。

　また、音像定位強調処理では、後期残響音生成処理に応じた強調処理が実行され得る、言い換えれば、音像定位強調用の反射音Ｓｄ２のパラメータが更新され得る。また、後期残響音生成処理では、音像定位強調処理に応じて、後期残響音Ｓｄ４のパラメータが更新され得る。また、音像定位強調処理では、回折音生成処理に応じた強調処理が実行され得る、言い換えれば、音像定位強調用の反射音Ｓｄ２のパラメータが更新され得る。また、回折音生成処理では、音像定位強調処理に応じて、回折音Ｓｄ５のパラメータが更新され得る。

　上述のように、実施の形態に係る音響処理システム１０（音響処理方法）では、音像定位強調処理及び音響処理の少なくとも一方の処理においては、他方の処理で用いられるパラメータが参照される。図４に示す例では、音像定位強調処理及び音響処理の各々が互いにパラメータを参照しているが、一方の処理のみが他方の処理で用いられるパラメータを参照してもよい。

　そして、出力部１５は、音像定位強調処理部１３で生成された第１音信号Ｓｉｇ１と、音響処理で生成された第２音信号Ｓｉｇ２とを合成し、合成した出力音信号Ｓｉｇ３を出力する（Ｓ４）。ここで、第１音信号Ｓｉｇ１は、初期反射音生成処理、後期残響音生成処理、及び回折音生成処理の各々に応じて更新されたパラメータに従って生成された音像定位強調用の反射音Ｓｄ２を含むことになる。また、第２音信号Ｓｉｇ２は、それぞれ音像定位強調処理に応じて更新されたパラメータに従って生成された初期反射音Ｓｄ３、後期残響音Ｓｄ４、及び回折音Ｓｄ５を含むことになる。なお、パラメータは、処理によっては更新されない場合もあり得る。

　［３－２．初期反射音生成処理と音像定位強調処理との相互処理］
　次に、初期反射音生成処理と音像定位強調処理との相互処理の一例について図５を用いて説明する。図５は、実施の形態に係る音像定位強調処理と初期反射音生成処理との相互処理の一例を示すフローチャートである。

　まず、メタ情報に音像定位強調処理を実行することを示すフラグ情報が含まれている場合（Ｓ１０１：Ｙｅｓ）、音像定位強調処理部１３は、音像定位強調用の反射音Ｓｄ２のパラメータを仮計算する（Ｓ１０２）。次に、初期反射音生成処理部１４１は、初期反射音Ｓｄ３のパラメータを計算する（Ｓ１０３）。なお、メタ情報に音像定位強調処理を実行しないことを示すフラグ情報が含まれている場合（Ｓ１０１：Ｎｏ）、音像定位強調処理は実行されず、初期反射音生成処理部１４１が初期反射音Ｓｄ３のパラメータを計算する（Ｓ１０３）。以下では、特に断りの無い限り、音像定位強調処理が実行されることを前提として説明する。

　次に、初期反射音Ｓｄ３が発生する場合であって（Ｓ１０４：Ｙｅｓ）、音像定位強調用の反射音Ｓｄ２及び初期反射音Ｓｄ３の発生タイミングが近い場合（Ｓ１０５：Ｙｅｓ）、処理モジュール１は、メタ情報に含まれる優先度情報を参照する。ここで、音像定位強調用の反射音Ｓｄ２及び初期反射音Ｓｄ３の発生タイミングが近いとは、音像定位強調用の反射音Ｓｄ２の発生タイミングと初期反射音Ｓｄ３の発生タイミングとの差分が閾値以下であることに相当する。閾値は、事前に適宜設定され得る。

　そして、音像定位強調処理の優先度が高い場合（Ｓ１０６：Ｙｅｓ）、初期反射音生成処理部１４１は、初期反射音Ｓｄ３の音圧を音像定位強調用の反射音Ｓｄ２と比較して下げるように、初期反射音Ｓｄ３のパラメータを更新する（Ｓ１０７）。一方、音像定位強調処理の優先度が低い場合（Ｓ１０６：Ｎｏ）、音像定位強調処理部１３は、音像定位強調用の反射音Ｓｄ２の音圧を初期反射音Ｓｄ３と比較して下げるように、音像定位強調用の反射音Ｓｄ２のパラメータを更新する（Ｓ１０８）。

　そして、初期反射音生成処理部１４１は、更新されたパラメータに従って、初期反射音Ｓｄ３を生成する（Ｓ１０９）。生成した初期反射音Ｓｄ３は、第２音信号Ｓｉｇ２に含められる。

　なお、音像定位強調用の反射音Ｓｄ２及び初期反射音Ｓｄ３の発生タイミングが離れている場合（Ｓ１０５：Ｎｏ）、音像定位強調用の反射音Ｓｄ２のパラメータ及び初期反射音Ｓｄ３のパラメータがいずれも更新されず、初期反射音生成処理部１４１は、更新されていないパラメータに従って、初期反射音Ｓｄ３を生成する（Ｓ１０９）。また、初期反射音Ｓｄ３が発生しない場合（Ｓ１０４：Ｎｏ）、初期反射音Ｓｄ３が生成されずに処理が終了する。

　図６は、実施の形態に係る音像定位強調用の反射音Ｓｄ２と初期反射音Ｓｄ３との関係の説明図である。図６において、縦軸は音圧、横軸は時間を表している。図６の（ａ）は、図５のステップＳ１０５でＹｅｓの場合、つまり音像定位強調用の反射音Ｓｄ２及び初期反射音Ｓｄ３の発生タイミングが近い場合を表している。具体的には、図６の（ａ）に示す例では、３つの初期反射音Ｓｄ３が発生しており、初回の初期反射音Ｓｄ３の発生タイミングが音像定位強調用の反射音Ｓｄ２の発生タイミングに近くなっている。

　そして、図６の（ｂ）は、音像定位強調処理の優先度が高い場合を表している。つまり、図６の（ｂ）に示す例では、初回の初期反射音Ｓｄ３の音圧が、音像定位強調用の反射音Ｓｄ２の音圧の半分程度になるまで下げられている。また、図６の（ｃ）は、音像定位強調処理の優先度が低い場合を表している。つまり、図６の（ｃ）に示す例では、音像定位強調用の反射音Ｓｄ２の音圧が、初回の初期反射音Ｓｄ３の音圧の半分程度になるまで下げられている。

　上述のようにして、実施の形態に係る音響処理システム１０（音響処理方法）では、音像定位強調用の反射音Ｓｄ２の発生タイミングと、初期反射音Ｓｄ３の発生タイミングとに基づいて、音像定位強調用の反射音Ｓｄ２及び初期反射音Ｓｄ３の少なくとも一方のパラメータ（ここでは、音圧）を調整する。このため、音像定位強調用の反射音Ｓｄ２と初期反射音Ｓｄ３とが互いに干渉しにくくなる。

　なお、音圧の低下量は、事前に設定されていてもよい。また、音圧の低下量を示す情報がメタ情報に含まれている場合、メタ情報を参照して音圧の低下量を決定してもよい。また、図５及び図６に示す例では、音像定位強調用の反射音Ｓｄ２及び初期反射音Ｓｄ３のいずれか一方の音圧を下げているが、いずれか一方の音圧を上げてもよい。

　［３－３．後期残響音生成処理と音像定位強調処理との相互処理］
　次に、後期残響音生成処理と音像定位強調処理との相互処理の一例について図７を用いて説明する。図７は、実施の形態に係る音像定位強調処理と後期残響音生成処理との相互処理の一例を示すフローチャートである。

　まず、後期残響音生成処理部１４２は、後期残響音Ｓｄ４のパラメータを計算する（Ｓ２０１）。次に、後期残響音Ｓｄ４が発生する場合であって（Ｓ２０２：Ｙｅｓ）、後期残響音Ｓｄ４の音圧が所定値よりも大きい場合（Ｓ２０３：Ｙｅｓ）、処理モジュール１は、メタ情報に含まれる優先度情報を参照する。所定値は、事前に適宜設定され得る。

　そして、音像定位強調処理の優先度が高い場合（Ｓ２０４：Ｙｅｓ）、後期残響音生成処理部１４２は、メタ情報を参照することで、３つのパターン（パターンＡ、パターンＢ、及びパターンＣ）のいずれに該当するかを判別する（Ｓ２０５）。

　パターンＡである場合、音像定位強調処理部１３は、音像定位強調用の反射音Ｓｄ２の音圧を上げるように、音像定位強調用の反射音Ｓｄ２のパラメータを更新する（Ｓ２０６）。パターンＢである場合、後期残響音生成処理部１４２は、後期残響音Ｓｄ４の音圧を下げるように、後期残響音Ｓｄ４のパラメータを更新する（Ｓ２０７）。パターンＣの場合、音像定位強調処理部１３が、音像定位強調用の反射音Ｓｄ２の音圧を上げるように音像定位強調用の反射音Ｓｄ２のパラメータを更新し、かつ、後期残響音生成処理部１４２が、後期残響音Ｓｄ４の音圧を下げるように後期残響音Ｓｄ４のパラメータを更新する（Ｓ２０８）。

　そして、後期残響音生成処理部１４２は、更新されたパラメータに従って、後期残響音Ｓｄ４を生成する（Ｓ２０９）。生成した後期残響音Ｓｄ４は、第２音信号Ｓｉｇ２に含められる。

　なお、後期残響音Ｓｄ４の音圧が所定値よりも小さい場合（Ｓ２０３：Ｎｏ）、又は音像定位強調処理の優先度が低い場合（Ｓ２０４：Ｎｏ）、音像定位強調用の反射音Ｓｄ２のパラメータ及び後期残響音Ｓｄ４のパラメータがいずれも更新されず、後期残響音生成処理部１４２は、更新されていないパラメータに従って、後期残響音Ｓｄ４を生成する（Ｓ２０９）。また、後期残響音Ｓｄ４が発生しない場合（Ｓ２０２：Ｎｏ）、後期残響音Ｓｄ４が生成されずに処理が終了する。

　図８は、実施の形態に係る音像定位強調用の反射音Ｓｄ２と後期残響音Ｓｄ４との関係の説明図である。図８において、縦軸は音圧、横軸は時間を表している。図８の（ａ）は、図７のステップＳ２０４でＹｅｓの場合、つまり後期残響音Ｓｄ４の音圧が所定値よりも大きく、かつ、音像定位強調処理の優先度が高い場合を表している。

　そして、図８の（ｂ）は、パターンＡの場合を表している。つまり、図８の（ｂ）に示す例では、音像定位強調用の反射音Ｓｄ２の音圧が上げられている。また、図８の（ｃ）は、パターンＢの場合を表している。つまり、図８の（ｃ）に示す例では、後期残響音Ｓｄ４の音圧が下げられている。

　上述のようにして、実施の形態に係る音響処理システム１０（音響処理方法）では、後期残響音Ｓｄ４の音圧に基づいて、音像定位強調用の反射音Ｓｄ２及び後期残響音Ｓｄ４の少なくとも一方のパラメータを調整する。このため、音像定位強調用の反射音Ｓｄ２が、後期残響音Ｓｄ４に対して強調されやすくなる。

　なお、音圧の低下量又は上昇量は、事前に設定されていてもよい。また、音圧の低下量又は上昇量を示す情報がメタ情報に含まれている場合、メタ情報を参照して音圧の低下量又は上昇量を決定してもよい。

　［３－４．回折音生成処理と音像定位強調処理との相互処理］
　次に、回折音生成処理と音像定位強調処理との相互処理の一例について図９を用いて説明する。図９は、実施の形態に係る音像定位強調処理と回折音生成処理との相互処理の一例を示すフローチャートである。

　まず、回折音生成処理部１４３は、回折音Ｓｄ５のパラメータを計算する（Ｓ３０１）。次に、回折音Ｓｄ５が発生する場合であって（Ｓ３０２：Ｙｅｓ）、音像定位強調処理を実行する場合（Ｓ３０３：Ｙｅｓ）、処理モジュール１は、メタ情報に含まれる優先度情報を参照する。

　そして、音像定位強調処理の優先度が高い場合（Ｓ３０４：Ｙｅｓ）、回折音生成処理部１４３は、音像定位強調処理の効果が高くなるように、回折音Ｓｄ５のパラメータを更新する（Ｓ３０５）。例えば、回折音生成処理部１４３は、回折音Ｓｄ５の所定の周波数帯域（例えば、１ｋＨｚ以上の周波数帯域）の周波数成分を上げる又は下げるように、回折音Ｓｄ５のパラメータを更新する。また、音像定位強調処理部１３は、回折音Ｓｄ５に対して音像定位強調処理を行うように、音像定位強調用の反射音Ｓｄ２のパラメータを更新する（Ｓ３０６）。つまり、回折音Ｓｄ５が発生する場合、直接音Ｓｄ１の代わりに回折音Ｓｄ５が発生するため、直接音Ｓｄ１に対して音像定位強調処理を行う代わりに、回折音Ｓｄ５に対して音像定位強調処理を行う。

　そして、回折音生成処理部１４３は、更新されたパラメータに従って、回折音Ｓｄ５を生成する（Ｓ３０７）。生成した回折音Ｓｄ５は、第２音信号Ｓｉｇ２に含められる。

　なお、音像定位強調処理を実行しない場合（Ｓ３０３：Ｎｏ）、又は音像定位強調処理の優先度が低い場合（Ｓ３０４：Ｎｏ）、音像定位強調用の反射音Ｓｄ２のパラメータ及び回折音Ｓｄ５のパラメータがいずれも更新されず、回折音生成処理部１４３は、更新されていないパラメータに従って、回折音Ｓｄ５を生成する（Ｓ３０７）。また、回折音Ｓｄ５が発生しない場合（Ｓ３０２：Ｎｏ）、回折音Ｓｄ５が生成されずに処理が終了する。

　図１０は、実施の形態に係る音像定位強調用の反射音Ｓｄ２と回折音Ｓｄ５との関係の説明図である。図１０の（ａ）は、三次元音場（空間）における音源オブジェクトＡ１とユーザＵ１との間に障害物Ｂ１が存在せず、音源オブジェクトＡ１からユーザＵ１へ直接音Ｓｄ１が到達する状況を表している。図１０の（ｂ）は、図１０の（ａ）で示す状況における直接音Ｓｄ１、音像定位強調用の反射音Ｓｄ２、初期反射音Ｓｄ３、及び後期残響音Ｓｄ４を表している。一方、図１０の（ｃ）は、三次元音場における音源オブジェクトＡ１とユーザＵ１との間に障害物Ｂ１が存在しており、音源オブジェクトＡ１から障害物Ｂ１を回り込むようにしてユーザＵ１へ回折音Ｓｄ５が到達する状況を表している。図１０の（ｄ）は、図１０の（ｃ）で示す状況における回折音Ｓｄ５、音像定位強調用の反射音Ｓｄ２、初期反射音Ｓｄ３、及び後期残響音Ｓｄ４を表している。

　図１０の（ａ）、（ｃ）において、縦軸は音圧、横軸は時間を表している。また、図１０の（ｄ）における黒塗りの点線状のブロックは、消去される直接音Ｓｄ１を表しており、実線ハッチングが施された点線状のブロックは、図１０の（ｂ）における音像定位強調用の反射音Ｓｄ２の発生タイミングを表している。

　図１０の（ｄ）に示すように、回折音Ｓｄ５が発生する場合は、直接音Ｓｄ１が消去される。そして、音像定位強調用の反射音Ｓｄ２は、直接音Ｓｄ１を基準としたタイミングではなく、回折音Ｓｄ５を基準としたタイミングで発生する。また、音像定位強調用の反射音Ｓｄ２は、直接音Ｓｄ１の音圧を基準とした大きさではなく、回折音Ｓｄ５を基準とした大きさとなる。

　上述のようにして、実施の形態に係る音響処理システム１０（音響処理方法）では、音像定位強調用の反射音Ｓｄ２及び回折音Ｓｄ５の少なくとも一方のパラメータを調整する。このため、音像定位強調用の反射音Ｓｄ２が、回折音Ｓｄ５に対して強調されやすくなる。

　なお、所定の周波数帯域の周波数成分の上昇量又は低下量は、事前に設定されていてもよい。また、所定の周波数帯域の周波数成分の上昇量又は低下量を示す情報がメタ情報に含まれている場合、メタ情報を参照して所定の周波数帯域の周波数成分の上昇量又は低下量を決定してもよい。

　［４．利点］
　以下、実施の形態に係る音響処理システム１０（音響処理方法）の利点について、比較例の音響処理システムとの比較を交えて説明する。比較例の音響処理システムは、音像定位強調処理と音響処理とが、それぞれ互いに独立して実行される点で、実施の形態に係る音響処理システム１０と相違する。

　比較例の音響処理システムを用いた場合、音像定位強調処理では、音響処理で用いられるパラメータを参照せずに音像定位強調用の反射音Ｓｄ２が生成される。同様に、音響処理では、音像定位強調処理で用いられるパラメータを参照せずに初期反射音Ｓｄ３等の音が生成される。このため、比較例の音響処理システムを用いた場合、音像定位強調用の反射音Ｓｄ２と音響処理で生成された音とが互いに干渉して強め合ったり弱め合ったりすることで、音像の定位を強調するという効果が十分に得られない、という課題があり、また、所望の立体音響を実現することが難しい、という課題がある。

　これに対して、実施の形態に係る音響処理システム１０（音響処理方法）では、音像定位強調処理及び音響処理のうちの少なくとも一方で生成される音が、他方の処理で生成される音を考慮して調整される。このため、実施の形態に係る音響処理システム１０を用いた場合、比較例の音響処理システムを用いた場合と比較して、音像定位強調用の反射音Ｓｄ２と音響処理で生成された音とが互いに干渉しにくく、強め合ったり弱め合ったりしにくくなる。

　したがって、実施の形態に係る音響処理システム１０（音響処理方法）を用いた場合、比較例の音響処理システムを用いた場合と比較して、音像の定位を強調するという効果を十分に得やすく、また、所望の立体音響を実現しやすい。つまり、実施の形態に係る音響処理システム１０（音響処理方法）では、より適切に立体的な音をユーザＵ１に知覚させやすい、という利点がある。

　（その他の実施の形態）
　以上、実施の形態について説明したが、本開示は、上記の実施の形態に限定されるものではない。

　例えば、上記の実施の形態において、音像定位強調処理部１３が実行する音像定位強調処理では、三次元音場（空間）におけるユーザＵ１の位置と音源オブジェクトＡ１の位置とに基づいて、第１音信号Ｓｉｇ１を生成してもよい。

　図１１は、実施の形態の変形例に係る音像定位強調処理部１３の動作の説明図である。図１１の（ａ）は、三次元音場（空間）における音源オブジェクトＡ１とユーザＵ１との間の距離ｄ１が比較的短い状況を表している。図１１の（ｂ）は、図１１の（ａ）で示す状況における直接音Ｓｄ１、音像定位強調用の反射音Ｓｄ２、初期反射音Ｓｄ３、及び後期残響音Ｓｄ４を表している。一方、図１１の（ｃ）は、三次元音場における音源オブジェクトＡ１とユーザＵ１との間の距離ｄ１が比較的長い状況を表している。図１１の（ｄ）は、図１１の（ｃ）で示す状況における直接音Ｓｄ１、音像定位強調用の反射音Ｓｄ２、初期反射音Ｓｄ３、及び後期残響音Ｓｄ４を表している。

　図１１の（ｂ）、（ｄ）の各々において、縦軸は音圧、横軸は時間を表している。また、図１１の（ｄ）における実線ハッチングが施された点線状のブロックは、図１１の（ｂ）における音像定位強調用の反射音Ｓｄ２の発生タイミングを表している。

　図１１に示すように、音像定位強調処理部１３の実行する音像定位強調処理では、ユーザＵ１と音源オブジェクトＡ１との間の距離ｄ１が長くなると、発生タイミングを距離ｄ１に応じて遅らせ、かつ、音圧を下げるように音像定位強調用の反射音Ｓｄ２を生成する。

　このようにユーザＵ１と音源オブジェクトＡ１との位置関係に応じて適切な音像定位強調用の反射音Ｓｄ２を生成することで、より適切に立体的な音をユーザに知覚させやすくなる。

　なお、上記の実施の形態において、音像定位強調処理部１３が実行する音像定位強調処理では、ユーザＵ１の位置及び音源オブジェクトＡ１の位置を参照せずに、事前に決定されたパラメータに基づいて実行されてもよい。

　上記実施の形態において、音響処理部１４は、初期反射音生成処理、後期残響音生成処理、及び回折音生成処理以外の処理を実行してもよい。例えば、音響処理部１４は、音信号の透過処理、又はドップラー効果のような音響効果を音信号に付加する付加処理等を実行してもよい。これらの処理についても、音像定位強調処理で用いられるパラメータを参照してもよい。また、音像定位強調処理において、これらの処理で用いられるパラメータを参照してもよい。

　上記実施の形態では、取得部１１は、符号化されたビットストリームから音情報及びメタ情報を取得しているが、これに限られない。例えば、取得部１１は、音情報及びメタ情報を、個別にビットストリーム以外の情報から取得してもよい。

　また、例えば、上記の実施の形態に説明した音響再生装置は、構成要素をすべて備える一つの装置として実現されてもよいし、複数の装置に各機能が割り振られ、この複数の装置が連携することで実現されてもよい。後者の場合には、処理モジュールに該当する装置として、スマートフォン、タブレット端末、又は、ＰＣ等の情報処理装置が用いられてもよい。

　また、本開示の音響再生装置は、ドライバのみを備える再生装置に接続され、当該再生装置に対して音信号を出力するのみの音響処理装置として実現することもできる。この場合、音響処理装置は、専用の回路を備えるハードウェアとして実現してもよいし、汎用のプロセッサに特定の処理を実行させるためのソフトウェアとして実現してもよい。

　また、上記の実施の形態において、特定の処理部が実行する処理を別の処理部が実行してもよい。また、複数の処理の順序が変更されてもよいし、複数の処理が並行して実行されてもよい。

　また、上記の実施の形態において、各構成要素は、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵ（Central Processing Unit）又はプロセッサ等のプログラム実行部が、ハードディスク又は半導体メモリ等の記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

　また、各構成要素は、ハードウェアによって実現されてもよい。例えば、各構成要素は、回路（又は集積回路）でもよい。これらの回路は、全体として１つの回路を構成してもよいし、それぞれ別々の回路でもよい。また、これらの回路は、それぞれ、汎用的な回路でもよいし、専用の回路でもよい。

　また、本開示の全般的又は具体的な態様は、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なＣＤ－ＲＯＭ等の記録媒体で実現されてもよい。また、本開示の全般的又は具体的な態様は、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

　例えば、本開示は、コンピュータによって実行される音響処理方法として実現されてもよいし、音響処理方法をコンピュータに実行させるためのプログラムとして実現されてもよい。本開示は、このようなプログラムが記録されたコンピュータ読み取り可能な非一時的な記録媒体として実現されてもよい。

　その他、各実施の形態に対して当業者が思いつく各種変形を施して得られる形態、又は、本開示の趣旨を逸脱しない範囲で各実施の形態における構成要素及び機能を任意に組み合わせることで実現される形態も本開示に含まれる。

　本開示は、立体的な音をユーザに知覚させる等の音響再生の際に有用である。

　１　処理モジュール
　１０　音響処理システム
　１００　音響再生装置
　１１　取得部
　１２　抽出部
　１３　音像定位強調処理部
　１４　音響処理部
　１４１　初期反射音生成処理部
　１４２　後期残響音生成処理部
　１４３　回折音生成処理部
　１５　出力部
　２　通信モジュール
　３　センサ
　４　ドライバ
　Ａ１　音源オブジェクト
　Ｂ１　障害物
　ｄ１　距離
　Ｓｄ１　直接音
　Ｓｄ２　音像定位強調用の反射音
　Ｓｄ３　初期反射音
　Ｓｄ４　後期残響音
　Ｓｄ５　回折音
　Ｓｉｇ１　第１音信号
　Ｓｉｇ２　第２音信号
　Ｓｉｇ３　出力音信号
　Ｕ１　ユーザ

Claims

　所定音を含む音に関する音情報、及び前記所定音が再生される空間に関する情報を含むメタ情報を取得し、
　前記音情報及び前記メタ情報に基づいて、所定方向から到達する音として定位させるための音像定位強調用の反射音を含む音を示す第１音信号を生成する音像定位強調処理を実行し、
　前記音情報及び前記メタ情報に基づいて、音源オブジェクトからユーザへの直接音以外の音を含む音を示す第２音信号を生成する音響処理を実行し、
　前記第１音信号と前記第２音信号とを合成した出力音信号を出力し、
　前記音像定位強調処理及び前記音響処理の少なくとも一方の処理においては、他方の処理で用いられるパラメータが参照される、
　音響処理方法。
　前記音響処理は、前記直接音の後に前記ユーザに到達する初期反射音を含む音を示す前記第２音信号を生成する初期反射音生成処理を含み、
　前記音像定位強調用の反射音の発生タイミングと、前記初期反射音の発生タイミングとに基づいて、前記音像定位強調用の反射音及び前記初期反射音の少なくとも一方のパラメータを調整する、
　請求項１に記載の音響処理方法。
　前記音響処理は、前記直接音の後に残響として前記ユーザに到達する後期残響音を含む音を示す前記第２音信号を生成する後期残響音生成処理を含み、
　前記後期残響音の音圧に基づいて、前記音像定位強調用の反射音及び前記後期残響音の少なくとも一方のパラメータを調整する、
　請求項１又は２に記載の音響処理方法。
　前記音響処理は、前記空間における前記ユーザと前記音源オブジェクトとの間にある障害物に起因する回折音を含む音を示す前記第２音信号を生成する回折音生成処理を含み、
　前記音像定位強調用の反射音及び前記回折音の少なくとも一方のパラメータを調整する、
　請求項１又は２に記載の音響処理方法。
　前記メタ情報には、前記音像定位強調処理及び前記音響処理のうちのいずれを優先して処理するかを示す情報が含まれる、
　請求項１又は２に記載の音響処理方法。
　前記音像定位強調処理では、前記空間におけるユーザの位置と前記音源オブジェクトの位置とに基づいて、前記第１音信号を生成する、
　請求項１又は２に記載の音響処理方法。
　請求項１又は２に記載の音響処理方法をコンピュータに実行させる、
　プログラム。
　所定音を含む音に関する音情報、及び前記所定音が再生される空間に関する情報を含むメタ情報を取得する取得部と、
　前記音情報及び前記メタ情報に基づいて、所定方向から到達する音として定位させるための音像定位強調用の反射音を含む音を示す第１音信号を生成する音像定位強調処理を実行する音像定位強調処理部と、
　前記音情報及び前記メタ情報に基づいて、音源オブジェクトからユーザへの直接音以外の音を含む音を示す第２音信号を生成する音響処理を実行する音響処理部と、
　前記第１音信号と前記第２音信号とを合成した出力音信号を出力する出力部と、を備え、
　前記音像定位強調処理及び前記音響処理の少なくとも一方の処理においては、他方の処理で用いられるパラメータが参照される、
　音響処理システム。