WO2023199813A1 - 音響処理方法、プログラム、及び音響処理システム - Google Patents

音響処理方法、プログラム、及び音響処理システム Download PDF

Info

Publication number
WO2023199813A1
WO2023199813A1 PCT/JP2023/014059 JP2023014059W WO2023199813A1 WO 2023199813 A1 WO2023199813 A1 WO 2023199813A1 JP 2023014059 W JP2023014059 W JP 2023014059W WO 2023199813 A1 WO2023199813 A1 WO 2023199813A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
image localization
processing
information
reflected
Prior art date
Application number
PCT/JP2023/014059
Other languages
English (en)
French (fr)
Inventor
康太 中橋
成悟 榎本
陽 宇佐見
摩里子 山田
宏幸 江原
耕 水野
智一 石川
Original Assignee
パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ filed Critical パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Publication of WO2023199813A1 publication Critical patent/WO2023199813A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • G10K15/12Arrangements for producing a reverberation or echo sound using electronic time-delay networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Abstract

音響処理方法では、所定音を含む音に関する音情報、及び所定音が再生される空間に関する情報を含むメタ情報を取得し(S1)、音情報及びメタ情報に基づいて、所定方向から到達する音として定位させるための音像定位強調用の反射音を含む音を示す第1音信号(Sig1)を生成する音像定位強調処理を実行し(S2)、音情報及びメタ情報に基づいて、音源オブジェクトからユーザへの直接音以外の音を含む音を示す第2音信号(Sig2)を生成する音響処理を実行し(S3)、第1音信号(Sig1)と第2音信号(Sig2)とを合成した出力音信号(Sig3)を出力する(S4)。音像定位強調処理及び音響処理の少なくとも一方の処理においては、他方の処理で用いられるパラメータが参照される。

Description

音響処理方法、プログラム、及び音響処理システム
 本開示は、空間における立体的な音響を実現するための音響処理方法、プログラム、及び音響処理システムに関する。
 特許文献1には、音像を聴取者の頭外に定位させるヘッドホン再生装置が開示されている。
特許第2900985号公報
 本開示は、より適切に立体的な音をユーザに知覚させやすい音響処理方法等を提供することを目的とする。
 本開示の一態様に係る音響処理方法では、所定音を含む音に関する音情報、及び前記所定音が再生される空間に関する情報を含むメタ情報を取得する。前記音響処理方法では、前記音情報及び前記メタ情報に基づいて、所定方向から到達する音として定位させるための音像定位強調用の反射音を含む音を示す第1音信号を生成する音像定位強調処理を実行する。前記音響処理方法では、前記音情報及び前記メタ情報に基づいて、音源オブジェクトからユーザへの直接音以外の音を含む音を示す第2音信号を生成する音響処理を実行する。前記音響処理方法では、前記第1音信号と前記第2音信号とを合成した出力音信号を出力する。前記音像定位強調処理及び前記音響処理の少なくとも一方の処理においては、他方の処理で用いられるパラメータが参照される。
 また、本開示の一態様に係るプログラムは、前記音響処理方法をコンピュータに実行させる。
 また、本開示の一態様に係る音響処理システムは、取得部と、音像定位強調処理部と、音響処理部と、出力部と、を備える。前記取得部は、所定音を含む音に関する音情報、及び前記所定音が再生される空間に関する情報を含むメタ情報を取得する。前記音像定位強調処理部は、前記音情報及び前記メタ情報に基づいて、所定方向から到達する音として定位させるための音像定位強調用の反射音を含む音を示す第1音信号を生成する音像定位強調処理を実行する。前記音響処理部は、前記音情報及び前記メタ情報に基づいて、音源オブジェクトからユーザへの直接音以外の音を含む音を示す第2音信号を生成する音響処理を実行する。前記出力部は、前記第1音信号と前記第2音信号とを合成した出力音信号を出力する。前記音像定位強調処理及び前記音響処理の少なくとも一方の処理においては、他方の処理で用いられるパラメータが参照される。
 なお、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なCD-ROM等の非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。
 本開示によれば、より適切に立体的な音をユーザに知覚させやすい、という利点がある。
図1は、実施の形態に係る音響再生装置の使用事例を示す概略図である。 図2は、実施の形態に係る音響再生装置の機能構成を示すブロック図である。 図3は、実施の形態に係る音響処理システムのより詳細な機能構成を示すブロック図である。 図4は、実施の形態に係る音響処理システムの基本動作例の説明図である。 図5は、実施の形態に係る音像定位強調処理と初期反射音生成処理との相互処理の一例を示すフローチャートである。 図6は、実施の形態に係る音像定位強調用の反射音と初期反射音との関係の説明図である。 図7は、実施の形態に係る音像定位強調処理と後期残響音生成処理との相互処理の一例を示すフローチャートである。 図8は、実施の形態に係る音像定位強調用の反射音と後期残響音との関係の説明図である。 図9は、実施の形態に係る音像定位強調処理と回折音生成処理との相互処理の一例を示すフローチャートである。 図10は、実施の形態に係る音像定位強調用の反射音と回折音との関係の説明図である。 図11は、実施の形態の変形例に係る音像定位強調処理部の動作の説明図である。
 (本開示の基礎となった知見)
 従来、仮想的な三次元空間内(以下、三次元音場という場合がある)で、ユーザの感覚上の音源オブジェクトである音像の位置を制御することにより、立体的な音をユーザに知覚させるための音響再生に関する技術が知られている。仮想的な三次元空間内における所定位置に音像を定位させることで、ユーザは、当該所定位置とユーザとを結ぶ直線に平行な方向(すなわち、所定方向)から到達する音であるかのごとく、この音を知覚することができる。このように仮想的な三次元空間内の所定位置に音像を定位させるには、例えば、収音された音に対して、立体的な音として知覚されるような両耳間での音の到達時間差、及び、両耳間での音のレベル差(又は音圧差)等を生じさせる計算処理が必要となる。
 また、近年、仮想現実(VR:Virtual Reality)又は拡張現実(AR:Augmented Reality)に関する技術の開発が盛んに行われている。例えば、仮想現実では、ユーザの動きに対して仮想空間の位置が追従せず、あたかもユーザが仮想空間内を移動しているように体感できることが主眼に置かれている。特に、この仮想現実又は拡張現実の技術において視覚的な要素に聴覚的な要素を取り入れることで、より臨場感を高めるといった試みが行われている。特に、聴覚的な没入感の向上のために、ユーザの頭の外から音が聴こえてくるように、上述のように音像の定位を強調することが有用である。
 ところで、三次元音場において立体的な音響を実現するためには、上述の音像の定位を強調する処理(以下、「音像定位強調処理」ともいう)の他に、種々の音響処理が有用である。ここでいう音響処理は、音源オブジェクトからユーザへの直接音以外の音を三次元音場にて発生させる処理である。
 音響処理は、例えば、初期反射音を生成する処理(以下、「初期反射音生成処理」ともいう)を含み得る。初期反射音は、音源オブジェクトから直接音がユーザへ到達した後の比較的初期(例えば、直接音の到達時から数十ms程度)の段階で、1回以上の反射を経てユーザへ到達する反射音である。
 また、音響処理は、例えば、後期残響音を生成する処理(以下、「後期残響音生成処理」ともいう)を含み得る。後期残響音は、初期反射音がユーザへ到達した後の比較的後期(例えば、直接音の到達時から百数十ms程度)の段階で、初期反射音よりも多くの回数(例えば、数十回)の反射を経てユーザへ到達する残響音である。
 また、音響処理は、例えば、回折音を生成する処理(以下、「回折音生成処理」ともいう)を含み得る。回折音は、音源オブジェクトとユーザとの間に障害物がある場合に、当該障害物を回り込むようにして音源オブジェクトからユーザへ到達する音である。
 このような音響処理に対して音像定位強調処理を独立して実行した場合、音像の定位を強調するために生成された反射音と、音響処理により生成された音とが互いに干渉して強め合ったり弱め合ったりすることで、音像の定位を強調する効果が十分に得られない可能性がある、という課題があり、また、所望の立体音響を実現することが難しい、という課題がある。
 本開示では、上記に鑑みて、音像定位強調処理及び音響処理の少なくとも一方で、他方の処理で用いるパラメータを参照することにより、より適切に立体的な音をユーザに知覚させやすい音響処理方法等を提供することを目的とする。
 より具体的には、本開示の第1の態様に係る音響処理方法では、所定音を含む音に関する音情報、及び所定音が再生される空間に関する情報を含むメタ情報を取得し、音情報及びメタ情報に基づいて、所定方向から到達する音として定位させるための音像定位強調用の反射音を含む音を示す第1音信号を生成する音像定位強調処理を実行し、音情報及びメタ情報に基づいて、音源オブジェクトからユーザへの直接音以外の音を含む音を示す第2音信号を生成する音響処理を実行し、第1音信号と第2音信号とを合成した出力音信号を出力する。音像定位強調処理及び音響処理の少なくとも一方の処理においては、他方の処理で用いられるパラメータが参照される。
 これによれば、音像定位強調処理及び音響処理のうちの少なくとも一方で生成される音が、他方の処理で生成される音を考慮して調整されるので、音響処理に対して音像定位強調処理を独立して実行する場合と比較して、より適切に立体的な音をユーザに知覚させやすい、という利点がある。
 また、例えば、本開示の第2の態様に係る音響処理方法では、第1の態様において、音響処理は、直接音の後にユーザに到達する初期反射音を含む音を示す第2音信号を生成する初期反射音生成処理を含む。音像定位強調用の反射音の発生タイミングと、初期反射音の発生タイミングとに基づいて、音像定位強調用の反射音及び初期反射音の少なくとも一方のパラメータを調整する。
 これによれば、音像定位強調用の反射音及び初期反射音が互いに干渉しにくくなるため、音像定位強調用の反射音及び初期反射音を含む立体的な音が適切にユーザに知覚されやすい、という利点がある。
 また、例えば、本開示の第3の態様に係る音響処理方法では、第1又は第2の態様において、音響処理は、直接音の後に残響としてユーザに到達する後期残響音を含む音を示す第2音信号を生成する後期残響音生成処理を含む。後期残響音の音圧に基づいて、音像定位強調用の反射音及び後期残響音の少なくとも一方のパラメータを調整する。
 これによれば、音像定位強調用の反射音が後期残響音に対して強調されやすくなるため、音像定位強調用の反射音及び後期残響音を含む立体的な音が適切にユーザに知覚されやすい、という利点がある。
 また、例えば、本開示の第4の態様に係る音響処理方法では、第1~第3のいずれか1つの態様において、音響処理は、空間におけるユーザと音源オブジェクトとの間にある障害物に起因する回折音を含む音を示す第2音信号を生成する回折音生成処理を含む。音像定位強調用の反射音及び回折音の少なくとも一方のパラメータを調整する。
 これによれば、音像定位強調用の反射音が回折音に対して強調されやすくなるため、音像定位強調用の反射音及び回折音を含む立体的な音が適切にユーザに知覚されやすい、という利点がある。
 また、例えば、本開示の第5の態様に係る音響処理方法では、第1~第4のいずれか1つの態様において、メタ情報には、音像定位強調処理及び音響処理のうちのいずれを優先して処理するかを示す情報が含まれる。
 これによれば、音像定位強調用の反射音及び音響処理により生成される音のいずれを優先するかが、所定音が再生される空間に応じて決定されるので、より適切に立体的な音をユーザに知覚させやすい、という利点がある。
 また、例えば、本開示の第6の態様に係る音響処理方法では、第1~第5のいずれか1つの態様において、音像定位強調処理では、空間におけるユーザの位置と音源オブジェクトの位置とに基づいて、第1音信号を生成する。
 これによれば、ユーザと音源オブジェクトとの位置関係に応じて適切な音像定位強調用の反射音を生成するので、より適切に立体的な音をユーザに知覚させやすい、という利点がある。
 また、例えば、本開示の第7の態様に係るプログラムは、第1~第6のいずれか1つの態様の音響処理方法をコンピュータに実行させる。
 これによれば、上記の音響処理方法と同様の効果を奏することができる、という利点がある。
 また、例えば、本開示の第8の態様に係る音響処理システムは、取得部と、音像定位強調処理部と、音響処理部と、出力部と、を備える。取得部は、所定音を含む音に関する音情報、及び所定音が再生される空間に関する情報を含むメタ情報を取得する。音像定位強調処理部は、音情報及びメタ情報に基づいて、所定方向から到達する音として定位させるための音像定位強調用の反射音を含む音を示す第1音信号を生成する音像定位強調処理を実行する。音響処理部は、音情報及びメタ情報に基づいて、音源オブジェクトからユーザへの直接音以外の音を含む音を示す第2音信号を生成する音響処理を実行する。出力部は、第1音信号と第2音信号とを合成した出力音信号を出力する。音像定位強調処理及び音響処理の少なくとも一方の処理においては、他方の処理で用いられるパラメータが参照される。
 これによれば、上記の音響処理方法と同様の効果を奏することができる、という利点がある。
 さらに、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又はコンピュータ読み取り可能なCD-ROM等の非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び記録媒体の任意な組み合わせで実現されてもよい。
 以下、実施の形態について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、又はステップの順序等は、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。なお、各図は模式図であり、必ずしも厳密に図示されたものではない。また、各図において、実質的に同一の構成に対しては同一の符号を付し、重複する説明は省略又は簡略化される場合がある。
 (実施の形態)
 [1.概要]
 まず、実施の形態に係る音響再生装置の概要について説明する。図1は、実施の形態に係る音響再生装置の使用事例を示す概略図である。図1の(a)は、一例の音響再生装置100を使用するユーザU1を示している。図1の(b)は、他の一例の音響再生装置100を使用するユーザU1を示している。
 図1に示す音響再生装置100は、例えば、画像を表示する表示装置、又は立体映像を再生する立体映像再生装置と同時に使用される。立体映像再生装置は、ユーザU1の頭部に装着される画像表示デバイスであって、ユーザU1の頭部の動きに応じて表示する画像を変化させることで、ユーザU1が三次元音場(仮想空間)内で頭部を動かしているように知覚させる。
 また、立体映像再生装置は、ユーザU1の左右の目それぞれに視差分のずれが生じた2つの画像を表示する。ユーザU1は、表示される画像の視差分のずれに基づき、画像上の物体の三次元的な位置を知覚することができる。なお、ここでは立体映像再生装置としているが、上述した通り通常の画像表示装置であってもよい。
 音響再生装置100は、ユーザU1の頭部に装着される音提示デバイスである。したがって、音響再生装置100は、ユーザU1の頭部と一体的に移動する。例えば、実施の形態における音響再生装置100は、図1の(a)に示すように、いわゆるオーバーイヤーヘッドホン型のデバイスであってもよいし、図1の(b)に示すように、ユーザU1の左右の耳にそれぞれ独立して装着される2つの耳栓型のデバイスであってもよい。この2つのデバイスは、互いに通信することで、右耳用の音と左耳用の音とを同期して提示する。
 音響再生装置100は、ユーザU1の頭部の動きに応じて提示する音を変化させることで、ユーザU1が三次元音場内で頭部を動かしているようにユーザU1に知覚させる。このため、上記したように、音響再生装置100は、ユーザU1の動きに対して三次元音場をユーザU1の動きとは逆方向に移動させる。
 [2.構成]
 次に、実施の形態に係る音響再生装置100の構成について、図2及び図3を用いて説明する。図2は、実施の形態に係る音響再生装置100の機能構成を示すブロック図である。図3は、実施の形態に係る音響処理システム10のより詳細な機能構成を示すブロック図である。実施の形態に係る音響再生装置100は、図2に示すように、処理モジュール1と、通信モジュール2と、センサ3と、ドライバ4と、を備える。
 処理モジュール1は、音響再生装置100における各種の信号処理を行うための演算装置である、処理モジュール1は、例えば、プロセッサとメモリとを備え、メモリに記憶されたプログラムがプロセッサによって実行されることで、各種の機能を発揮する。
 処理モジュール1は、抽出部12を含む取得部11と、音像定位強調処理部13と、音響処理部14と、出力部15と、を有する音響処理システム10として機能する。
 音響処理システム10が有する各機能部の詳細は、処理モジュール1以外の構成の詳細と併せて以下に説明する。
 通信モジュール2は、音響再生装置100への音情報の入力、及びメタ情報の入力を受け付けるためのインタフェース装置である。通信モジュール2は、例えば、アンテナと信号変換器とを備え、無線通信により外部の装置から音情報及びメタ情報を受信する。より詳しくは、通信モジュール2は、無線通信のための形式に変換された音情報を示す無線信号を、アンテナを用いて受波し、信号変換器により無線信号から音情報への再変換を行う。これにより、音響再生装置100は、外部の装置から無線通信により音情報を取得する。同様に、通信モジュール2は、無線通信のための形式に変換されたメタ情報を示す無線信号を、アンテナを用いて受波し、信号変換器により無線信号からメタ情報への再変換を行う。これにより、音響再生装置100は、外部の装置から無線通信によりメタ情報を取得する。通信モジュール2によって取得された音情報及びメタ情報は、いずれも処理モジュール1の取得部11によって取得される。なお、音響再生装置100と外部の装置との通信は、有線通信によって行われてもよい。
 なお、本実施形態では音響再生装置100に、音響効果を付加した音情報を生成するレンダラとしての機能を有する音響処理システム10が含まれているが、レンダラの機能の全て又は一部をサーバが担ってもよい。つまり、取得部11、抽出部12、音像定位強調処理部13、音響処理部14、及び出力部15の全て又は一部は、図示していないサーバに存在してもよい。その場合、サーバ内の音像定位強調処理部13及び音響処理部14で生成された音信号、又はそれぞれの処理部で生成された音信号を合成した音信号は、通信モジュール2を通じて音響再生装置100で受信され、再生される。
 実施の形態では、音情報及びメタ情報は、例えば、MPEG-H 3D Audio(ISO/IEC 23008-3)等の所定の形式で符号化されたビットストリームとして音響再生装置100に取得される。一例として、符号化された音情報は、音響再生装置100によって再生される所定音についての情報を含む。ここでいう所定音は、三次元音場に存在する音源オブジェクトA1(図10等参照)が発する音又は自然環境音であって、例えば、機械音、又は人を含む動物の音声等を含み得る。なお、三次元音場に音源オブジェクトA1が複数存在する場合、音響再生装置100は、複数の音源オブジェクトA1にそれぞれ対応する複数の音情報を取得することになる。
 メタ情報とは、例えば、音響再生装置100において音情報に対する音響処理を制御するために用いられる情報である。メタ情報は、仮想空間(三次元音場)で表現されるシーンを記述するために用いられる情報であってもよい。ここでシーンとは、メタ情報を用いて、音響処理システム10でモデリングされる、仮想空間における三次元映像及び音響イベントを表す全ての要素の集合体を指す用語である。つまり、ここでいうメタ情報とは、音響処理を制御する情報だけでなく、映像処理を制御する情報も含んでいてもよい。もちろん、メタ情報には、音響処理と映像処理のいずれか一方だけを制御する情報が含まれていてもよいし、両方の制御に用いられる情報が含まれていてもよい。
 音響再生装置100は、ビットストリームに含まれるメタ情報、及び追加で取得されるインタラクティブなユーザU1の位置情報等を用いて、音情報に音響処理を行うことで、仮想的な音響効果を生成する。本実施形態では、音響効果のうち、初期反射音、回折音、後期残響音の生成、及び音像定位処理を行う場合を説明するが、メタ情報を用いて他の音響処理を行ってもよい。例えば、距離減衰効果、ローカリゼーション、又はドップラー効果等の音響効果を付加することが考えられる。また、音響効果の全てまたは一部のオンオフを切り替える情報をメタ情報として付加してもよい。
 なお、全てのメタ情報又は一部のメタ情報は、音情報のビットストリーム以外から取得されてもよい。例えば、音響を制御するメタ情報と映像を制御するメタ情報のいずれかがビットストリーム以外から取得されてもよいし、両方のメタ情報がビットストリーム以外から取得されてもよい。
 また、映像を制御するメタ情報が音響再生装置100で取得されるビットストリームに含まれる場合は、音響再生装置100は映像の制御に用いることができるメタ情報を、画像を表示する表示装置、又は立体映像を再生する立体映像再生装置に対して出力する機能を備えていてもよい。
 また、一例として、符号化されたメタ情報は、音を発する音源オブジェクトA1、及び障害物B1(図10参照)を含む三次元音場(空間)に関する情報と、当該音の音像を三次元音場内において所定位置に定位させる(つまり、所定方向から到達する音として知覚させる)際の定位位置に関する情報、すなわち所定方向に関する情報と、を含む。ここで、障害物B1は、音源オブジェクトA1が発する音がユーザU1へと到達するまでの間において、例えば音を遮ったり、音を反射したりして、ユーザU1が知覚する音に影響を及ぼし得るオブジェクトである。障害物B1は、静止物体の他に、人等の動物、又は機械等の動体を含み得る。また、三次元音場に複数の音源オブジェクトA1が存在する場合、任意の音源オブジェクトA1にとっては、他の音源オブジェクトA1は障害物B1となり得る。また、建材又は無生物等の非発音源オブジェクトも、音を発する音源オブジェクトも、いずれも障害物B1となり得る。
 メタ情報には、三次元音場(空間)の形状、三次元音場に存在する障害物B1の形状及び位置、三次元音場に存在する音源オブジェクトA1の形状及び位置、並びに三次元音場におけるユーザU1の位置及び向きをそれぞれ表す情報が含まれる。
 三次元音場は、閉空間又は開空間のいずれであってもよいが、ここでは閉空間として説明する。また、メタ情報には、例えば床、壁、又は天井等の三次元音場において音を反射し得る構造物の反射率、及び三次元音場に存在する障害物B1の反射率を表す情報が含まれる。ここで、反射率は、反射音と入射音とのエネルギーの比であって、音の周波数帯域ごとに設定されている。もちろん、反射率は、音の周波数帯域に依らず、一律に設定されていてもよい。また、三次元音場が開空間の場合は、例えば一律で設定された減衰率、回折音、又は初期反射音等のパラメータが用いられてもよい。
 上記説明では、メタ情報に含まれる障害物B1又は音源オブジェクトA1に関するパラメータとして反射率を挙げたが、反射率以外の情報を含んでいてもよい。例えば、音源オブジェクト及び非発音源オブジェクトの両方に関わるメタ情報として、オブジェクトの素材に関する情報を含んでいてもよい。具体的には、メタ情報は、拡散率、透過率、又は吸音率等のパラメータを含んでいてもよい。
 音源オブジェクトに関する情報として、音量、放射特性(指向性)、再生条件、ひとつのオブジェクトから発せられる音源の数と種類、又はオブジェクトにおける音源領域を指定する情報等を含めてもよい。再生条件では、例えば、継続的に流れ続ける音なのかイベント発動する音なのかを定めてもよい。オブジェクトにおける音源領域は、ユーザU1の位置とオブジェクトの位置との相対的な関係で定めてもよいし、オブジェクトを基準として定めてもよい。ユーザU1の位置とオブジェクトの位置との相対的な関係で定める場合、ユーザU1がオブジェクトを見ている面を基準とし、ユーザU1から見てオブジェクトの右側からは音A、左側からは音Bが発せられているようにユーザU1に知覚させることができる。オブジェクトを基準として定める場合、ユーザU1の見ている方向に関わらず、オブジェクトのどの領域からどの音を出すかは固定にすることができる。例えばオブジェクトを正面から見たときの右側からは高い音、左側からは低い音が流れているようにユーザU1に知覚させることができる。この場合、ユーザU1がオブジェクトの背面に回り込んだ場合、背面から見て右側からは低い音、左側からは高い音が流れているようにユーザU1に知覚させることができる。
 空間に関するメタ情報として、初期反射音までの時間、残響時間、又は直接音と拡散音の比率等を含めることができる。直接音と拡散音の比率がゼロの場合、直接音のみをユーザU1に知覚させることができる。
 ところで、ユーザU1の位置及び向きを示す情報がメタ情報としてビットストリームに含まれていると説明したが、インタラクティブに変化するユーザU1の位置及び向きを示す情報は、ビットストリームに含まれていなくてもよい。その場合、ユーザU1の位置及び向きを示す情報はビットストリーム以外の情報から取得される。例えば、VR空間におけるユーザU1の位置情報であれば、VRコンテンツを提供するアプリから取得されてもよいし、ARとして音を提示するためのユーザU1の位置情報であれば、例えば携帯端末がGPS、カメラ、又はLiDAR(Laser Imaging Detection and Ranging)等を用いて自己位置推定を実施して得られた位置情報を用いてもよい。
 また、実施の形態では、メタ情報には、音像定位強調処理を実行するか否かを示すフラグ情報、及び音像定位強調処理の音響処理に対する優先度を示す優先度情報等を含む。なお、これらの情報は、メタ情報に含まれていなくてもよい。
 センサ3は、ユーザU1の頭部の位置又は動きを検知するための装置である。センサ3は、例えば、ジャイロセンサ、又は加速度センサ等の動きの検知に使用される各種のセンサのいずれかまたは複数のセンサの組み合わせにより構成される。実施の形態では、センサ3は、音響再生装置100に内蔵されているが、例えば、音響再生装置100と同様にユーザU1の頭部の動きに応じて動作する立体映像再生装置等、外部の装置に内蔵されていてもよい。この場合、センサ3は、音響再生装置100に含まれなくてもよい。また、センサ3として、外部の撮像装置等を用いて、ユーザU1の頭部の動きを撮像し、撮像された画像を処理することでユーザU1の動きを検知してもよい。
 センサ3は、例えば、音響再生装置100の筐体に一体的に固定され、筐体の動きの速度を検知する。上記の筐体を含む音響再生装置100は、ユーザU1が装着した後、ユーザU1の頭部と一体的に移動するため、センサ3は、結果としてユーザU1の頭部の動きの速度を検知することができる。
 センサ3は、例えば、ユーザU1の頭部の動きの量として、仮想空間内で互いに直交する3軸の少なくとも一つを回転軸とする回転量を検知してもよいし、上記3軸の少なくとも一つを変位方向とする変位量を検知してもよい。また、センサ3は、ユーザU1の頭部の動きの量として、回転量及び変位量の両方を検知してもよい。
 ドライバ4は、例えば、振動板と、マグネット又はボイスコイル等の駆動機構とを有する。ドライバ4は、出力部15から出力される出力音信号Sig3に応じて駆動機構を動作させ、駆動機構によって振動板を振動させる。このようにして、ドライバ4は、出力音信号Sig3に応じた振動板の振動により、音波を発生させ、音波が空気等を伝播してユーザU1の耳に伝達し、ユーザU1が音を知覚する。
 以下、処理モジュール1(音響処理システム10)について図2を用いて詳細に説明する。
 取得部11は、音情報及びメタ情報を取得する。実施の形態では、メタ情報は、取得部11が有する抽出部12により取得される。取得部11は、符号化された音情報を取得すると、取得した音情報を復号し、復号した音情報を音像定位強調処理部13及び音響処理部14にそれぞれ与える。
 なお、音情報とメタ情報は、一つのビットストリームに格納されていてもよいし、複数のビットストリームに別々に格納されていてもよい。同様に、音情報とメタ情報は、一つのファイルに格納されていてもよいし、複数のファイルに別々に格納されていてもよい。
 複数のビットストリームや複数のファイルに別々に格納されている場合、一つ又は一部のビットストリーム又はファイルに関連する他のビットストリームやファイルを示す情報が含まれていてもよいし、全てのビットストリーム又はファイルのそれぞれに関連する他のビットストリームやファイルを示す情報が含まれていてもよい。
 ここで、関連するビットストリーム又はファイルとは、例えば、音響処理の際に同時に用いられる可能性のあるビットストリーム又はファイルである。また、関連する他のビットストリーム又はファイルを示す情報をまとめて記述したビットストリーム又はファイルが含まれていてもよい。
 ここで、関連する他のビットストリーム又はファイルを示す情報とは、例えば当該他のビットストリームを示す識別子、他のファイルを示すファイル名、URL(Uniform Resource Locator)、又はURI(Uniform Resource Identifier)等である。この場合、取得部11は、関連する他のビットストリーム又はファイルを示す情報に基づいて、ビットストリーム又はファイルを特定又は取得する。また、ビットストリーム内に関連する他のビットストリームを示す情報が含まれていると共に、別のビットストリーム、ファイルに関連するビットストリーム、又はファイルを示す情報を含めていてもよい。ここで、関連するビットストリーム又はファイルを示す情報を含むファイルとは、例えばコンテンツの配信に用いられるマニフェストファイル等の制御ファイルであってもよい。
 抽出部12は、符号化されたメタ情報を復号し、復号したメタ情報を音像定位強調処理部13及び音響処理部14にそれぞれ与える。ここで、抽出部12は、音像定位強調処理部13及び音響処理部14にそれぞれ同じメタ情報を与えるのではなく、処理部ごとに、対応する処理部で必要なメタ情報を与える。
 また、実施の形態では、抽出部12は、センサ3で検知された回転量又は変位量等を含む検知情報を更に取得する。抽出部12は、取得した検知情報に基づいて、三次元音場(空間)におけるユーザU1の位置及び向きを決定する。そして、抽出部12は、決定したユーザU1の位置及び向きに応じて、メタ情報を更新する。したがって、抽出部12が各処理部に与えるメタ情報は、更新されたメタ情報である。
 音像定位強調処理部13は、音情報及びメタ情報に基づいて、所定方向から到達する音として定位させるための音像定位強調用の反射音Sd2(図6等参照)を含む音を示す第1音信号Sig1を生成する音像定位強調処理を実行する。実施の形態では、音像定位強調処理部13は、第1処理と、第2処理と、合成処理と、を実行する。第1処理では、音情報に対して、音情報に含まれる音を、所定方向から到達する音として定位させるための第1頭部伝達関数を畳み込むことで、第1信号を生成する。第2処理では、音情報に対して、音情報に含まれる音を、所定方向とは異なる方向から到達し、第1信号によって知覚される所定音に対して零より大きい遅延時間、及び零より大きい音量の減衰を有する音として定位させるための第2頭部伝達関数を畳み込むことで、第2信号を生成する。合成処理では、生成した第1信号及び第2信号を合成し、合成した信号を第1音信号Sig1として出力する。なお、音像定位強調処理は、音像定位強調用の反射音Sd2を生成可能な処理であればよく、上記の第1処理、第2処理、及び合成処理に限られない。
 音響処理部14は、音情報及びメタ情報に基づいて、音源オブジェクトA1からユーザU1への直接音Sd1(図6等参照)以外の音を含む音を示す第2音信号Sig2を生成する。実施の形態では、音響処理部14は、初期反射音生成処理部141と、後期残響音生成処理部142と、回折音生成処理部143と、を有している。
 初期反射音生成処理部141は、直接音Sd1の後にユーザU1に到達する初期反射音Sd3(図6等参照)を含む音を示す第2音信号Sig2を生成する初期反射音生成処理を実行する。言い換えれば、音響処理は、初期反射音生成処理を含む。初期反射音Sd3は、既に述べたように、音源オブジェクトA1から直接音Sd1がユーザU1へ到達した後の比較的初期(例えば、直接音Sd1の到達時から数十ms程度)の段階で、1回以上の反射を経てユーザU1へ到達する反射音である。
 初期反射音生成処理部141は、例えば音情報及びメタ情報を参照し、三次元音場(空間)の形状、大きさ、構造物等のオブジェクトの位置、及びオブジェクトの反射率等を用いて、音源オブジェクトA1からオブジェクトで反射してユーザU1に到達する反射音の経路を計算し、当該経路に基づいて初期反射音Sd3を生成する。
 後期残響音生成処理部142は、直接音Sd1の後に残響としてユーザU1に到達する後期残響音Sd4(図8等参照)を含む音を示す第2音信号Sig2を生成する後期残響音生成処理を実行する。言い換えれば、音響処理は、後期残響音生成処理を含む。後期残響音Sd4は、既に述べたように、初期反射音Sd3がユーザU1へ到達した後の比較的後期(例えば、直接音Sd1の到達時から百数十ms程度)の段階で、初期反射音Sd3よりも多くの回数(例えば、数十回)の反射を経てユーザU1へ到達する残響音である。
 後期残響音生成処理部142は、例えば音情報及びメタ情報を参照し、事前に準備してある後期残響音Sd4を生成するための所定の関数を用いて計算することにより、後期残響音Sd4を生成する。
 回折音生成処理部143は、三次元音場(空間)におけるユーザU1と音源オブジェクトA1との間にある障害物B1に起因する回折音Sd5(図10参照)を含む音を示す第2音信号Sig2を生成する回折音生成処理を実行する。言い換えれば、音響処理は、回折音生成処理を含む。回折音Sd5は、既に述べたように、音源オブジェクトA1とユーザU1との間に障害物B1がある場合に、当該障害物B1を回り込むようにして音源オブジェクトA1からユーザU1へ到達する音である。
 回折音生成処理部143は、例えば音情報及びメタ情報を参照し、三次元音場(空間)における音源オブジェクトA1の位置、ユーザU1の位置、並びに障害物B1の位置、形状、及び大きさ等を用いて、音源オブジェクトA1から障害物B1を迂回してユーザU1へと到達する経路を計算し、当該経路に基づいて回折音Sd5を生成する。
 出力部15は、第1音信号Sig1と第2音信号Sig2とを合成した出力音信号Sig3をドライバ4に出力する。
 [3.動作]
 以下、実施の形態に係る音響処理システム10の動作、つまり音響処理方法について説明する。
 [3-1.基本動作]
 まず、実施の形態に係る音響処理システム10の基本動作について図4を用いて説明する。図4は、実施の形態に係る音響処理システム10の基本動作例の説明図である。図4に示す例では、音像定位強調処理が実行されることを前提として説明する。また、図4に示す例では、音像定位強調処理及び音響処理の各々が互いにパラメータを参照することを前提として説明する。
 まず、音響再生装置100の動作が開始されると、取得部11は、通信モジュール2を介して音情報及びメタ情報を取得する(S1)。次に、音像定位強調処理部13は、取得した音情報及びメタ情報に基づいて、音像定位強調処理を開始する(S2)。この時点では、音像定位強調処理部13は、音源オブジェクトA1からユーザU1への直接音Sd1に対する音像定位強調処理を実行することにより、音像定位強調用の反射音Sd2を仮計算する。
 また、音響処理部14は、取得した音情報及びメタ情報に基づいて、音響処理を開始する(S3)。実施の形態では、音響処理においては、初期反射音生成処理部141による初期反射音生成処理(S31)、後期残響音生成処理部142による後期残響音生成処理(S32)、及び回折音生成処理部143による回折音生成処理(S33)が、この順に実行される。また、音像定位強調処理は、音響処理の実行中において並行して実行される。
 ここで、音像定位強調処理では、初期反射音生成処理に応じた強調処理が実行され得る、言い換えれば、音像定位強調用の反射音Sd2のパラメータが更新され得る。また、初期反射音生成処理では、音像定位強調処理に応じて、初期反射音Sd3のパラメータが更新され得る。ここでいうパラメータは、音の発生タイミング、音圧、又は周波数等を含む。
 また、音像定位強調処理では、後期残響音生成処理に応じた強調処理が実行され得る、言い換えれば、音像定位強調用の反射音Sd2のパラメータが更新され得る。また、後期残響音生成処理では、音像定位強調処理に応じて、後期残響音Sd4のパラメータが更新され得る。また、音像定位強調処理では、回折音生成処理に応じた強調処理が実行され得る、言い換えれば、音像定位強調用の反射音Sd2のパラメータが更新され得る。また、回折音生成処理では、音像定位強調処理に応じて、回折音Sd5のパラメータが更新され得る。
 上述のように、実施の形態に係る音響処理システム10(音響処理方法)では、音像定位強調処理及び音響処理の少なくとも一方の処理においては、他方の処理で用いられるパラメータが参照される。図4に示す例では、音像定位強調処理及び音響処理の各々が互いにパラメータを参照しているが、一方の処理のみが他方の処理で用いられるパラメータを参照してもよい。
 そして、出力部15は、音像定位強調処理部13で生成された第1音信号Sig1と、音響処理で生成された第2音信号Sig2とを合成し、合成した出力音信号Sig3を出力する(S4)。ここで、第1音信号Sig1は、初期反射音生成処理、後期残響音生成処理、及び回折音生成処理の各々に応じて更新されたパラメータに従って生成された音像定位強調用の反射音Sd2を含むことになる。また、第2音信号Sig2は、それぞれ音像定位強調処理に応じて更新されたパラメータに従って生成された初期反射音Sd3、後期残響音Sd4、及び回折音Sd5を含むことになる。なお、パラメータは、処理によっては更新されない場合もあり得る。
 [3-2.初期反射音生成処理と音像定位強調処理との相互処理]
 次に、初期反射音生成処理と音像定位強調処理との相互処理の一例について図5を用いて説明する。図5は、実施の形態に係る音像定位強調処理と初期反射音生成処理との相互処理の一例を示すフローチャートである。
 まず、メタ情報に音像定位強調処理を実行することを示すフラグ情報が含まれている場合(S101:Yes)、音像定位強調処理部13は、音像定位強調用の反射音Sd2のパラメータを仮計算する(S102)。次に、初期反射音生成処理部141は、初期反射音Sd3のパラメータを計算する(S103)。なお、メタ情報に音像定位強調処理を実行しないことを示すフラグ情報が含まれている場合(S101:No)、音像定位強調処理は実行されず、初期反射音生成処理部141が初期反射音Sd3のパラメータを計算する(S103)。以下では、特に断りの無い限り、音像定位強調処理が実行されることを前提として説明する。
 次に、初期反射音Sd3が発生する場合であって(S104:Yes)、音像定位強調用の反射音Sd2及び初期反射音Sd3の発生タイミングが近い場合(S105:Yes)、処理モジュール1は、メタ情報に含まれる優先度情報を参照する。ここで、音像定位強調用の反射音Sd2及び初期反射音Sd3の発生タイミングが近いとは、音像定位強調用の反射音Sd2の発生タイミングと初期反射音Sd3の発生タイミングとの差分が閾値以下であることに相当する。閾値は、事前に適宜設定され得る。
 そして、音像定位強調処理の優先度が高い場合(S106:Yes)、初期反射音生成処理部141は、初期反射音Sd3の音圧を音像定位強調用の反射音Sd2と比較して下げるように、初期反射音Sd3のパラメータを更新する(S107)。一方、音像定位強調処理の優先度が低い場合(S106:No)、音像定位強調処理部13は、音像定位強調用の反射音Sd2の音圧を初期反射音Sd3と比較して下げるように、音像定位強調用の反射音Sd2のパラメータを更新する(S108)。
 そして、初期反射音生成処理部141は、更新されたパラメータに従って、初期反射音Sd3を生成する(S109)。生成した初期反射音Sd3は、第2音信号Sig2に含められる。
 なお、音像定位強調用の反射音Sd2及び初期反射音Sd3の発生タイミングが離れている場合(S105:No)、音像定位強調用の反射音Sd2のパラメータ及び初期反射音Sd3のパラメータがいずれも更新されず、初期反射音生成処理部141は、更新されていないパラメータに従って、初期反射音Sd3を生成する(S109)。また、初期反射音Sd3が発生しない場合(S104:No)、初期反射音Sd3が生成されずに処理が終了する。
 図6は、実施の形態に係る音像定位強調用の反射音Sd2と初期反射音Sd3との関係の説明図である。図6において、縦軸は音圧、横軸は時間を表している。図6の(a)は、図5のステップS105でYesの場合、つまり音像定位強調用の反射音Sd2及び初期反射音Sd3の発生タイミングが近い場合を表している。具体的には、図6の(a)に示す例では、3つの初期反射音Sd3が発生しており、初回の初期反射音Sd3の発生タイミングが音像定位強調用の反射音Sd2の発生タイミングに近くなっている。
 そして、図6の(b)は、音像定位強調処理の優先度が高い場合を表している。つまり、図6の(b)に示す例では、初回の初期反射音Sd3の音圧が、音像定位強調用の反射音Sd2の音圧の半分程度になるまで下げられている。また、図6の(c)は、音像定位強調処理の優先度が低い場合を表している。つまり、図6の(c)に示す例では、音像定位強調用の反射音Sd2の音圧が、初回の初期反射音Sd3の音圧の半分程度になるまで下げられている。
 上述のようにして、実施の形態に係る音響処理システム10(音響処理方法)では、音像定位強調用の反射音Sd2の発生タイミングと、初期反射音Sd3の発生タイミングとに基づいて、音像定位強調用の反射音Sd2及び初期反射音Sd3の少なくとも一方のパラメータ(ここでは、音圧)を調整する。このため、音像定位強調用の反射音Sd2と初期反射音Sd3とが互いに干渉しにくくなる。
 なお、音圧の低下量は、事前に設定されていてもよい。また、音圧の低下量を示す情報がメタ情報に含まれている場合、メタ情報を参照して音圧の低下量を決定してもよい。また、図5及び図6に示す例では、音像定位強調用の反射音Sd2及び初期反射音Sd3のいずれか一方の音圧を下げているが、いずれか一方の音圧を上げてもよい。
 [3-3.後期残響音生成処理と音像定位強調処理との相互処理]
 次に、後期残響音生成処理と音像定位強調処理との相互処理の一例について図7を用いて説明する。図7は、実施の形態に係る音像定位強調処理と後期残響音生成処理との相互処理の一例を示すフローチャートである。
 まず、後期残響音生成処理部142は、後期残響音Sd4のパラメータを計算する(S201)。次に、後期残響音Sd4が発生する場合であって(S202:Yes)、後期残響音Sd4の音圧が所定値よりも大きい場合(S203:Yes)、処理モジュール1は、メタ情報に含まれる優先度情報を参照する。所定値は、事前に適宜設定され得る。
 そして、音像定位強調処理の優先度が高い場合(S204:Yes)、後期残響音生成処理部142は、メタ情報を参照することで、3つのパターン(パターンA、パターンB、及びパターンC)のいずれに該当するかを判別する(S205)。
 パターンAである場合、音像定位強調処理部13は、音像定位強調用の反射音Sd2の音圧を上げるように、音像定位強調用の反射音Sd2のパラメータを更新する(S206)。パターンBである場合、後期残響音生成処理部142は、後期残響音Sd4の音圧を下げるように、後期残響音Sd4のパラメータを更新する(S207)。パターンCの場合、音像定位強調処理部13が、音像定位強調用の反射音Sd2の音圧を上げるように音像定位強調用の反射音Sd2のパラメータを更新し、かつ、後期残響音生成処理部142が、後期残響音Sd4の音圧を下げるように後期残響音Sd4のパラメータを更新する(S208)。
 そして、後期残響音生成処理部142は、更新されたパラメータに従って、後期残響音Sd4を生成する(S209)。生成した後期残響音Sd4は、第2音信号Sig2に含められる。
 なお、後期残響音Sd4の音圧が所定値よりも小さい場合(S203:No)、又は音像定位強調処理の優先度が低い場合(S204:No)、音像定位強調用の反射音Sd2のパラメータ及び後期残響音Sd4のパラメータがいずれも更新されず、後期残響音生成処理部142は、更新されていないパラメータに従って、後期残響音Sd4を生成する(S209)。また、後期残響音Sd4が発生しない場合(S202:No)、後期残響音Sd4が生成されずに処理が終了する。
 図8は、実施の形態に係る音像定位強調用の反射音Sd2と後期残響音Sd4との関係の説明図である。図8において、縦軸は音圧、横軸は時間を表している。図8の(a)は、図7のステップS204でYesの場合、つまり後期残響音Sd4の音圧が所定値よりも大きく、かつ、音像定位強調処理の優先度が高い場合を表している。
 そして、図8の(b)は、パターンAの場合を表している。つまり、図8の(b)に示す例では、音像定位強調用の反射音Sd2の音圧が上げられている。また、図8の(c)は、パターンBの場合を表している。つまり、図8の(c)に示す例では、後期残響音Sd4の音圧が下げられている。
 上述のようにして、実施の形態に係る音響処理システム10(音響処理方法)では、後期残響音Sd4の音圧に基づいて、音像定位強調用の反射音Sd2及び後期残響音Sd4の少なくとも一方のパラメータを調整する。このため、音像定位強調用の反射音Sd2が、後期残響音Sd4に対して強調されやすくなる。
 なお、音圧の低下量又は上昇量は、事前に設定されていてもよい。また、音圧の低下量又は上昇量を示す情報がメタ情報に含まれている場合、メタ情報を参照して音圧の低下量又は上昇量を決定してもよい。
 [3-4.回折音生成処理と音像定位強調処理との相互処理]
 次に、回折音生成処理と音像定位強調処理との相互処理の一例について図9を用いて説明する。図9は、実施の形態に係る音像定位強調処理と回折音生成処理との相互処理の一例を示すフローチャートである。
 まず、回折音生成処理部143は、回折音Sd5のパラメータを計算する(S301)。次に、回折音Sd5が発生する場合であって(S302:Yes)、音像定位強調処理を実行する場合(S303:Yes)、処理モジュール1は、メタ情報に含まれる優先度情報を参照する。
 そして、音像定位強調処理の優先度が高い場合(S304:Yes)、回折音生成処理部143は、音像定位強調処理の効果が高くなるように、回折音Sd5のパラメータを更新する(S305)。例えば、回折音生成処理部143は、回折音Sd5の所定の周波数帯域(例えば、1kHz以上の周波数帯域)の周波数成分を上げる又は下げるように、回折音Sd5のパラメータを更新する。また、音像定位強調処理部13は、回折音Sd5に対して音像定位強調処理を行うように、音像定位強調用の反射音Sd2のパラメータを更新する(S306)。つまり、回折音Sd5が発生する場合、直接音Sd1の代わりに回折音Sd5が発生するため、直接音Sd1に対して音像定位強調処理を行う代わりに、回折音Sd5に対して音像定位強調処理を行う。
 そして、回折音生成処理部143は、更新されたパラメータに従って、回折音Sd5を生成する(S307)。生成した回折音Sd5は、第2音信号Sig2に含められる。
 なお、音像定位強調処理を実行しない場合(S303:No)、又は音像定位強調処理の優先度が低い場合(S304:No)、音像定位強調用の反射音Sd2のパラメータ及び回折音Sd5のパラメータがいずれも更新されず、回折音生成処理部143は、更新されていないパラメータに従って、回折音Sd5を生成する(S307)。また、回折音Sd5が発生しない場合(S302:No)、回折音Sd5が生成されずに処理が終了する。
 図10は、実施の形態に係る音像定位強調用の反射音Sd2と回折音Sd5との関係の説明図である。図10の(a)は、三次元音場(空間)における音源オブジェクトA1とユーザU1との間に障害物B1が存在せず、音源オブジェクトA1からユーザU1へ直接音Sd1が到達する状況を表している。図10の(b)は、図10の(a)で示す状況における直接音Sd1、音像定位強調用の反射音Sd2、初期反射音Sd3、及び後期残響音Sd4を表している。一方、図10の(c)は、三次元音場における音源オブジェクトA1とユーザU1との間に障害物B1が存在しており、音源オブジェクトA1から障害物B1を回り込むようにしてユーザU1へ回折音Sd5が到達する状況を表している。図10の(d)は、図10の(c)で示す状況における回折音Sd5、音像定位強調用の反射音Sd2、初期反射音Sd3、及び後期残響音Sd4を表している。
 図10の(a)、(c)において、縦軸は音圧、横軸は時間を表している。また、図10の(d)における黒塗りの点線状のブロックは、消去される直接音Sd1を表しており、実線ハッチングが施された点線状のブロックは、図10の(b)における音像定位強調用の反射音Sd2の発生タイミングを表している。
 図10の(d)に示すように、回折音Sd5が発生する場合は、直接音Sd1が消去される。そして、音像定位強調用の反射音Sd2は、直接音Sd1を基準としたタイミングではなく、回折音Sd5を基準としたタイミングで発生する。また、音像定位強調用の反射音Sd2は、直接音Sd1の音圧を基準とした大きさではなく、回折音Sd5を基準とした大きさとなる。
 上述のようにして、実施の形態に係る音響処理システム10(音響処理方法)では、音像定位強調用の反射音Sd2及び回折音Sd5の少なくとも一方のパラメータを調整する。このため、音像定位強調用の反射音Sd2が、回折音Sd5に対して強調されやすくなる。
 なお、所定の周波数帯域の周波数成分の上昇量又は低下量は、事前に設定されていてもよい。また、所定の周波数帯域の周波数成分の上昇量又は低下量を示す情報がメタ情報に含まれている場合、メタ情報を参照して所定の周波数帯域の周波数成分の上昇量又は低下量を決定してもよい。
 [4.利点]
 以下、実施の形態に係る音響処理システム10(音響処理方法)の利点について、比較例の音響処理システムとの比較を交えて説明する。比較例の音響処理システムは、音像定位強調処理と音響処理とが、それぞれ互いに独立して実行される点で、実施の形態に係る音響処理システム10と相違する。
 比較例の音響処理システムを用いた場合、音像定位強調処理では、音響処理で用いられるパラメータを参照せずに音像定位強調用の反射音Sd2が生成される。同様に、音響処理では、音像定位強調処理で用いられるパラメータを参照せずに初期反射音Sd3等の音が生成される。このため、比較例の音響処理システムを用いた場合、音像定位強調用の反射音Sd2と音響処理で生成された音とが互いに干渉して強め合ったり弱め合ったりすることで、音像の定位を強調するという効果が十分に得られない、という課題があり、また、所望の立体音響を実現することが難しい、という課題がある。
 これに対して、実施の形態に係る音響処理システム10(音響処理方法)では、音像定位強調処理及び音響処理のうちの少なくとも一方で生成される音が、他方の処理で生成される音を考慮して調整される。このため、実施の形態に係る音響処理システム10を用いた場合、比較例の音響処理システムを用いた場合と比較して、音像定位強調用の反射音Sd2と音響処理で生成された音とが互いに干渉しにくく、強め合ったり弱め合ったりしにくくなる。
 したがって、実施の形態に係る音響処理システム10(音響処理方法)を用いた場合、比較例の音響処理システムを用いた場合と比較して、音像の定位を強調するという効果を十分に得やすく、また、所望の立体音響を実現しやすい。つまり、実施の形態に係る音響処理システム10(音響処理方法)では、より適切に立体的な音をユーザU1に知覚させやすい、という利点がある。
 (その他の実施の形態)
 以上、実施の形態について説明したが、本開示は、上記の実施の形態に限定されるものではない。
 例えば、上記の実施の形態において、音像定位強調処理部13が実行する音像定位強調処理では、三次元音場(空間)におけるユーザU1の位置と音源オブジェクトA1の位置とに基づいて、第1音信号Sig1を生成してもよい。
 図11は、実施の形態の変形例に係る音像定位強調処理部13の動作の説明図である。図11の(a)は、三次元音場(空間)における音源オブジェクトA1とユーザU1との間の距離d1が比較的短い状況を表している。図11の(b)は、図11の(a)で示す状況における直接音Sd1、音像定位強調用の反射音Sd2、初期反射音Sd3、及び後期残響音Sd4を表している。一方、図11の(c)は、三次元音場における音源オブジェクトA1とユーザU1との間の距離d1が比較的長い状況を表している。図11の(d)は、図11の(c)で示す状況における直接音Sd1、音像定位強調用の反射音Sd2、初期反射音Sd3、及び後期残響音Sd4を表している。
 図11の(b)、(d)の各々において、縦軸は音圧、横軸は時間を表している。また、図11の(d)における実線ハッチングが施された点線状のブロックは、図11の(b)における音像定位強調用の反射音Sd2の発生タイミングを表している。
 図11に示すように、音像定位強調処理部13の実行する音像定位強調処理では、ユーザU1と音源オブジェクトA1との間の距離d1が長くなると、発生タイミングを距離d1に応じて遅らせ、かつ、音圧を下げるように音像定位強調用の反射音Sd2を生成する。
 このようにユーザU1と音源オブジェクトA1との位置関係に応じて適切な音像定位強調用の反射音Sd2を生成することで、より適切に立体的な音をユーザに知覚させやすくなる。
 なお、上記の実施の形態において、音像定位強調処理部13が実行する音像定位強調処理では、ユーザU1の位置及び音源オブジェクトA1の位置を参照せずに、事前に決定されたパラメータに基づいて実行されてもよい。
 上記実施の形態において、音響処理部14は、初期反射音生成処理、後期残響音生成処理、及び回折音生成処理以外の処理を実行してもよい。例えば、音響処理部14は、音信号の透過処理、又はドップラー効果のような音響効果を音信号に付加する付加処理等を実行してもよい。これらの処理についても、音像定位強調処理で用いられるパラメータを参照してもよい。また、音像定位強調処理において、これらの処理で用いられるパラメータを参照してもよい。
 上記実施の形態では、取得部11は、符号化されたビットストリームから音情報及びメタ情報を取得しているが、これに限られない。例えば、取得部11は、音情報及びメタ情報を、個別にビットストリーム以外の情報から取得してもよい。
 また、例えば、上記の実施の形態に説明した音響再生装置は、構成要素をすべて備える一つの装置として実現されてもよいし、複数の装置に各機能が割り振られ、この複数の装置が連携することで実現されてもよい。後者の場合には、処理モジュールに該当する装置として、スマートフォン、タブレット端末、又は、PC等の情報処理装置が用いられてもよい。
 また、本開示の音響再生装置は、ドライバのみを備える再生装置に接続され、当該再生装置に対して音信号を出力するのみの音響処理装置として実現することもできる。この場合、音響処理装置は、専用の回路を備えるハードウェアとして実現してもよいし、汎用のプロセッサに特定の処理を実行させるためのソフトウェアとして実現してもよい。
 また、上記の実施の形態において、特定の処理部が実行する処理を別の処理部が実行してもよい。また、複数の処理の順序が変更されてもよいし、複数の処理が並行して実行されてもよい。
 また、上記の実施の形態において、各構成要素は、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPU(Central Processing Unit)又はプロセッサ等のプログラム実行部が、ハードディスク又は半導体メモリ等の記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
 また、各構成要素は、ハードウェアによって実現されてもよい。例えば、各構成要素は、回路(又は集積回路)でもよい。これらの回路は、全体として1つの回路を構成してもよいし、それぞれ別々の回路でもよい。また、これらの回路は、それぞれ、汎用的な回路でもよいし、専用の回路でもよい。
 また、本開示の全般的又は具体的な態様は、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なCD-ROM等の記録媒体で実現されてもよい。また、本開示の全般的又は具体的な態様は、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
 例えば、本開示は、コンピュータによって実行される音響処理方法として実現されてもよいし、音響処理方法をコンピュータに実行させるためのプログラムとして実現されてもよい。本開示は、このようなプログラムが記録されたコンピュータ読み取り可能な非一時的な記録媒体として実現されてもよい。
 その他、各実施の形態に対して当業者が思いつく各種変形を施して得られる形態、又は、本開示の趣旨を逸脱しない範囲で各実施の形態における構成要素及び機能を任意に組み合わせることで実現される形態も本開示に含まれる。
 本開示は、立体的な音をユーザに知覚させる等の音響再生の際に有用である。
 1 処理モジュール
 10 音響処理システム
 100 音響再生装置
 11 取得部
 12 抽出部
 13 音像定位強調処理部
 14 音響処理部
 141 初期反射音生成処理部
 142 後期残響音生成処理部
 143 回折音生成処理部
 15 出力部
 2 通信モジュール
 3 センサ
 4 ドライバ
 A1 音源オブジェクト
 B1 障害物
 d1 距離
 Sd1 直接音
 Sd2 音像定位強調用の反射音
 Sd3 初期反射音
 Sd4 後期残響音
 Sd5 回折音
 Sig1 第1音信号
 Sig2 第2音信号
 Sig3 出力音信号
 U1 ユーザ

Claims (8)

  1.  所定音を含む音に関する音情報、及び前記所定音が再生される空間に関する情報を含むメタ情報を取得し、
     前記音情報及び前記メタ情報に基づいて、所定方向から到達する音として定位させるための音像定位強調用の反射音を含む音を示す第1音信号を生成する音像定位強調処理を実行し、
     前記音情報及び前記メタ情報に基づいて、音源オブジェクトからユーザへの直接音以外の音を含む音を示す第2音信号を生成する音響処理を実行し、
     前記第1音信号と前記第2音信号とを合成した出力音信号を出力し、
     前記音像定位強調処理及び前記音響処理の少なくとも一方の処理においては、他方の処理で用いられるパラメータが参照される、
     音響処理方法。
  2.  前記音響処理は、前記直接音の後に前記ユーザに到達する初期反射音を含む音を示す前記第2音信号を生成する初期反射音生成処理を含み、
     前記音像定位強調用の反射音の発生タイミングと、前記初期反射音の発生タイミングとに基づいて、前記音像定位強調用の反射音及び前記初期反射音の少なくとも一方のパラメータを調整する、
     請求項1に記載の音響処理方法。
  3.  前記音響処理は、前記直接音の後に残響として前記ユーザに到達する後期残響音を含む音を示す前記第2音信号を生成する後期残響音生成処理を含み、
     前記後期残響音の音圧に基づいて、前記音像定位強調用の反射音及び前記後期残響音の少なくとも一方のパラメータを調整する、
     請求項1又は2に記載の音響処理方法。
  4.  前記音響処理は、前記空間における前記ユーザと前記音源オブジェクトとの間にある障害物に起因する回折音を含む音を示す前記第2音信号を生成する回折音生成処理を含み、
     前記音像定位強調用の反射音及び前記回折音の少なくとも一方のパラメータを調整する、
     請求項1又は2に記載の音響処理方法。
  5.  前記メタ情報には、前記音像定位強調処理及び前記音響処理のうちのいずれを優先して処理するかを示す情報が含まれる、
     請求項1又は2に記載の音響処理方法。
  6.  前記音像定位強調処理では、前記空間におけるユーザの位置と前記音源オブジェクトの位置とに基づいて、前記第1音信号を生成する、
     請求項1又は2に記載の音響処理方法。
  7.  請求項1又は2に記載の音響処理方法をコンピュータに実行させる、
     プログラム。
  8.  所定音を含む音に関する音情報、及び前記所定音が再生される空間に関する情報を含むメタ情報を取得する取得部と、
     前記音情報及び前記メタ情報に基づいて、所定方向から到達する音として定位させるための音像定位強調用の反射音を含む音を示す第1音信号を生成する音像定位強調処理を実行する音像定位強調処理部と、
     前記音情報及び前記メタ情報に基づいて、音源オブジェクトからユーザへの直接音以外の音を含む音を示す第2音信号を生成する音響処理を実行する音響処理部と、
     前記第1音信号と前記第2音信号とを合成した出力音信号を出力する出力部と、を備え、
     前記音像定位強調処理及び前記音響処理の少なくとも一方の処理においては、他方の処理で用いられるパラメータが参照される、
     音響処理システム。
PCT/JP2023/014059 2022-04-14 2023-04-05 音響処理方法、プログラム、及び音響処理システム WO2023199813A1 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202263330924P 2022-04-14 2022-04-14
US63/330,924 2022-04-14
JP2023-010116 2023-01-26
JP2023010116 2023-01-26

Publications (1)

Publication Number Publication Date
WO2023199813A1 true WO2023199813A1 (ja) 2023-10-19

Family

ID=88329661

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/014059 WO2023199813A1 (ja) 2022-04-14 2023-04-05 音響処理方法、プログラム、及び音響処理システム

Country Status (1)

Country Link
WO (1) WO2023199813A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014236259A (ja) * 2013-05-31 2014-12-15 富士通株式会社 音源管理装置、音源管理方法、および音源管理システム
JP2022041721A (ja) * 2020-09-01 2022-03-11 日本放送協会 バイノーラル信号生成装置及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014236259A (ja) * 2013-05-31 2014-12-15 富士通株式会社 音源管理装置、音源管理方法、および音源管理システム
JP2022041721A (ja) * 2020-09-01 2022-03-11 日本放送協会 バイノーラル信号生成装置及びプログラム

Similar Documents

Publication Publication Date Title
CN112567768B (zh) 用于交互式音频环境的空间音频
CN112602053B (zh) 音频装置和音频处理的方法
EP3595337A1 (en) Audio apparatus and method of audio processing
WO2019193244A1 (en) An apparatus, a method and a computer program for controlling playback of spatial audio
WO2023199813A1 (ja) 音響処理方法、プログラム、及び音響処理システム
EP3985482A1 (en) Audiovisual rendering apparatus and method of operation therefor
WO2023199815A1 (ja) 音響処理方法、プログラム、及び音響処理システム
WO2023199817A1 (ja) 情報処理方法、情報処理装置、音響再生システム、及び、プログラム
WO2023199778A1 (ja) 音響信号処理方法、プログラム、音響信号処理装置、および、音響信号再生システム
WO2024084920A1 (ja) 音響処理方法、音響処理装置、及び、プログラム
RU2815366C2 (ru) Аудиоустройство и способ обработки аудио
RU2815621C1 (ru) Аудиоустройство и способ обработки аудио
RU2798414C2 (ru) Аудиоустройство и способ обработки аудио
WO2022220182A1 (ja) 情報処理方法、プログラム、及び情報処理システム
WO2023199746A1 (ja) 音響再生方法、コンピュータプログラム及び音響再生装置
WO2024014389A1 (ja) 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置
WO2024084998A1 (ja) 音響処理装置及び音響処理方法
CN117063489A (zh) 信息处理方法、程序和信息处理系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23788232

Country of ref document: EP

Kind code of ref document: A1