WO2022054602A1

WO2022054602A1 - 音響処理装置および方法、並びにプログラム

Info

Publication number: WO2022054602A1
Application number: PCT/JP2021/031449
Authority: WO
Inventors: 実辻; 徹知念
Original assignee: ソニーグループ株式会社
Priority date: 2020-09-09
Filing date: 2021-08-27
Publication date: 2022-03-17
Also published as: MX2023002587A; EP4213505A4; BR112023003964A2; EP4213505A1; CN116114267A; KR20230062814A; JPWO2022054602A1; US20230336913A1

Abstract

本技術は、より高音質なオーディオ再生を行うことができるようにする音響処理装置および方法、並びにプログラムに関する。音響処理装置は、オーディオ信号に基づいてレンダリング処理を行い、複数の第１のスピーカにより音を出力するための第１の出力オーディオ信号を生成する第１のレンダリング処理部と、オーディオ信号に基づいてレンダリング処理を行い、第１のスピーカとは再生帯域が異なる複数の第２のスピーカにより音を出力するための第２の出力オーディオ信号を生成する第２のレンダリング処理部とを備える。本技術はオーディオ再生システムに適用することができる。

Description

音響処理装置および方法、並びにプログラム

　本技術は、音響処理装置および方法、並びにプログラムに関し、特に、より高音質なオーディオ再生を行うことができるようにした音響処理装置および方法、並びにプログラムに関する。

　近年、オブジェクトベースのオーディオ技術が注目されている。

　オブジェクトベースオーディオでは、オブジェクトに対する波形信号（オーディオ信号）と、所定の基準となる視聴点（受聴位置）から見たオブジェクトの相対位置を示す定位情報を示すメタデータとによりオーディオデータが構成されている。そして、そのメタデータに基づき、例えばVBAP（Vector Based Amplitude Panning）により波形信号が所望のチャネル数にレンダリングされ、再生される（例えば、非特許文献１および非特許文献２参照）。

ISO/IEC 23008-3 Information technology － High efficiency coding and media delivery in heterogeneous environments － Part 3: 3D audio Ville Pulkki, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning", Journal of AES, vol.45, no.6, pp.456-466, 1997

　ところで、３次元空間に複数のスピーカを配置したスピーカレイアウトで、オブジェクトのレンダリング再生を行う場合、多くのスピーカが用いられることになるが、全てのスピーカが同一の再生帯域を持たないケースが考えられる。

　例えば、車載オーディオは、多くのスピーカを配置することができるユースケースである。車載オーディオは、一般的にウーハと呼ばれる低域の再生帯域をもつスピーカ、スコーカと呼ばれる中域の再生帯域をもつスピーカ、トゥイータと呼ばれる高域の再生帯域をもつスピーカが混在したスピーカレイアウトで構成される。

　しかしながら、このようなスピーカレイアウトでオブジェクトオーディオのVBAP等のレンダリングを行った場合、オブジェクトの定位位置によって、再生に用いられるスピーカの再生帯域が異なる。

　そのため、例えば高域成分のみを含むオブジェクトの音が、そのオブジェクトの定位位置近傍にあるウーハにより再生される場合など、オブジェクトの音の周波数帯域や定位位置によっては、音が消えてしまうなどの音質劣化が発生してしまう。

　本技術は、このような状況に鑑みてなされたものであり、より高音質なオーディオ再生を行うことができるようにするものである。

　本技術の一側面の音響処理装置は、オーディオ信号に基づいてレンダリング処理を行い、複数の第１のスピーカにより音を出力するための第１の出力オーディオ信号を生成する第１のレンダリング処理部と、前記オーディオ信号に基づいてレンダリング処理を行い、前記第１のスピーカとは再生帯域が異なる複数の第２のスピーカにより音を出力するための第２の出力オーディオ信号を生成する第２のレンダリング処理部とを備える。

　本技術の一側面の音響処理方法またはプログラムは、オーディオ信号に基づいてレンダリング処理を行い、複数の第１のスピーカにより音を出力するための第１の出力オーディオ信号を生成し、前記オーディオ信号に基づいてレンダリング処理を行い、前記第１のスピーカとは再生帯域が異なる複数の第２のスピーカにより音を出力するための第２の出力オーディオ信号を生成するステップを含む。

　本技術の一側面においては、オーディオ信号に基づいてレンダリング処理が行われ、複数の第１のスピーカにより音を出力するための第１の出力オーディオ信号が生成され、前記オーディオ信号に基づいてレンダリング処理が行われ、前記第１のスピーカとは再生帯域が異なる複数の第２のスピーカにより音を出力するための第２の出力オーディオ信号が生成される。

本技術について説明する図である。オーディオ再生システムの構成例を示す図である。 HPF、BPF、およびLPFの周波数特性例を示す図である。再生処理を説明するフローチャートである。オーディオ再生システムの構成例を示す図である。再生処理を説明するフローチャートである。オーディオ再生システムの構成例を示す図である。再生処理を説明するフローチャートである。オーディオ再生システムの構成例を示す図である。再生処理を説明するフローチャートである。オーディオ再生システムの構成例を示す図である。 HPFおよびLPFの周波数特性例を示す図である。再生処理を説明するフローチャートである。コンピュータの構成例を示す図である。

　以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈本技術について〉
　本技術は、互いに異なる複数の再生帯域を有するスピーカからなるスピーカシステムでオブジェクトベースオーディオを再生する場合に、同じ再生帯域を有するスピーカからなるスピーカレイアウトごとにレンダリング処理を行うことで、より高音質なオーディオ再生を行うものである。

　例えば本技術では、図１に示すようにオブジェクトベースオーディオの受聴者であるユーザU11を中心とする球P11の表面上に、ユーザU11を囲むように複数のスピーカSP11-1乃至スピーカSP11-18が配置される。

　そして、これらのスピーカSP11-1乃至スピーカSP11-18からなるスピーカシステムが用いられてオブジェクトベースオーディオが再生される。

　なお、以下、スピーカSP11-1乃至スピーカSP11-18を特に区別する必要のない場合、単にスピーカSP11とも称することとする。

　この例では、複数のスピーカSP11のなかには、互いに再生帯域が異なるものが含まれているため、再生帯域ごとにレンダリング処理が行われる。

　例えば、同じ再生帯域を有するスピーカSP11からなるスピーカ群（グループ）、より詳細にはそのスピーカ群を構成する各スピーカSP11の３次元的な配置を１つのスピーカレイアウトと呼ぶこととする。

　このとき、スピーカシステムを構成するスピーカレイアウトごとにレンダリング処理が行われ、スピーカレイアウトでオブジェクト（オーディオオブジェクト）の音を再生するためのスピーカ再生信号が生成される。

　なお、レンダリング処理は、VBAPやパニングなど、どのような処理であってもよい。

　１つのスピーカレイアウトに対してレンダリング処理が行われると、そのスピーカレイアウトの各スピーカSP11のスピーカ再生信号が生成される。

　レンダリング処理としてVBAPが行われる場合、スピーカレイアウトを構成する全スピーカSP11によって球P11の表面上に１または複数のメッシュが形成される。

　球P11の表面上における、スピーカレイアウトを構成する３つのスピーカSP11により囲まれる三角形状の領域が１つのメッシュである。

　いま、１つのオブジェクトについて所定のスピーカレイアウトのVBAPを行うこととする。

　また、オブジェクトのオブジェクトデータが供給され、そのオブジェクトデータは、オブジェクトの音を再生するためのオーディオ信号であるオブジェクト信号と、そのオブジェクトに関する情報であるメタデータとからなるものとする。

　メタデータには、少なくともオブジェクトの位置、つまりオブジェクトの音の音像定位位置を示す位置情報が含まれている。

　このオブジェクトの位置情報は、例えば所定の基準となる受聴位置であるユーザU11の頭部の位置から見たオブジェクトの相対的な位置を示す座標情報などとされる。換言すれば、位置情報は、ユーザU11の頭部位置を基準とするオブジェクトの相対的な位置を示す情報である。

　VBAPでは、スピーカレイアウトのスピーカSP11により形成されるメッシュのなかから、オブジェクトの位置情報により示される位置（以下、オブジェクト位置とも称する）が含まれる１つのメッシュが選択される。ここでは、選択されたメッシュを選択メッシュと呼ぶこととする。

　次に、選択メッシュを構成する各スピーカSP11の配置位置と、オブジェクト位置との位置関係に基づいて、それらのスピーカSP11ごとにVBAPゲインが求められ、VBAPゲインによりオブジェクト信号のゲイン調整が行われてスピーカ再生信号とされる。

　すなわち、スピーカSP11について求められたVBAPゲインに基づいてオブジェクト信号に対するゲイン調整を行うことで得られる信号が、そのスピーカSP11のスピーカ再生信号である。なお、スピーカレイアウトの全スピーカSP11のうち、選択メッシュを構成するスピーカSP11以外の他のスピーカSP11のスピーカ再生信号はゼロ信号とされる。換言すれば、選択メッシュを構成するスピーカSP11以外の他のスピーカSP11のVBAPゲインは０とされる。

　このようにして得られたスピーカレイアウトの各スピーカSP11のスピーカ再生信号に基づいて、それらのスピーカSP11から音を出力すると、位置情報により示されるオブジェクト位置に音像が定位するように、オブジェクトの音が再生される。

　その他、例えばパニングを利用してスピーカレイアウトの各スピーカSP11のスピーカ再生信号を生成することもできる。

　そのような場合、例えばスピーカレイアウトの各スピーカSP11と、オブジェクトとの図中、前後方向や左右方向、上下方向などの各方向における位置関係に基づいて、それらのスピーカSP11ごとのゲインが求められる。そして、求められたスピーカSP11ごとのゲインによりオブジェクト信号のゲイン調整が行われて、各スピーカSP11のスピーカ再生信号が生成される。

　このように、スピーカレイアウトごとのレンダリング処理は、VBAPやパニングなど、どのような処理であってもよいが、以下では、レンダリング処理としてVBAPが行われる場合について説明する。

　スピーカシステムでは、そのスピーカシステムを構成する互いに再生帯域が異なる複数のスピーカレイアウトごとにレンダリング処理が行われ、スピーカシステムを構成する全スピーカSP11のスピーカ再生信号が生成される。換言すれば、スピーカレイアウト構成が再生帯域ごとに複数用意され、それらの再生帯域ごとにレンダリング処理が行われる。

　このようにすることで、本技術では互いに再生帯域が異なるスピーカSP11が混在する場合であっても、スピーカSP11の再生帯域に起因する音質の劣化を抑制し、より高音質なオーディオ再生を行うことができる。

　例えばスピーカシステムを構成する全スピーカSP11によりメッシュを形成し、レンダリング処理としてVBAPを行ったとする。

　このとき、例えばスピーカSP11-1、スピーカSP11-2、およびスピーカSP11-5により形成されるメッシュ内にオブジェクト位置があるとすると、それらのスピーカSP11-1、スピーカSP11-2、およびスピーカSP11-5によりオブジェクトの音が再生される。

　この場合に、例えばオブジェクトの音が高域成分のみからなり、スピーカSP11-1、スピーカSP11-2、およびスピーカSP11-5が低域を再生帯域とするスピーカであるとすると、それらのスピーカSP11では十分な音圧でオブジェクトの音を再生することができない。そうすると、オブジェクトの音が小さくなって聞こえなくなるなど、音質の劣化が生じてしまうことになる。

　これに対して、本技術では、複数の再生帯域ごとにレンダリング処理が行われるので、各周波数帯域の成分の再生は、必ずそれらの周波数帯域を含む再生帯域のスピーカSP11により行われることになる。したがって、スピーカSP11の再生帯域に起因する音質の劣化を抑制し、より高音質なオーディオ再生を行うことができる。

　なお、本技術では、スピーカシステムを構成するスピーカSP11の数や、各スピーカSP11が有する再生帯域、各再生帯域のスピーカSP11の配置位置は、任意の数や再生帯域、配置位置とすることができる。

〈オーディオ再生システムの構成例〉
　図２は、本技術を適用したオーディオ再生システムの一実施の形態の構成例を示す図である。

　図２に示すオーディオ再生システム１１は、音響処理装置２１およびスピーカシステム２２を有しており、供給されたオブジェクトデータに基づいてオブジェクトベースオーディオのコンテンツを再生する。

　この例ではコンテンツは、N個のオブジェクトからなり、それらのN個のオブジェクトのオブジェクトデータが供給されるが、オブジェクトの数はいくつであってもよい。また、上述したように、１つのオブジェクトのオブジェクトデータには、そのオブジェクトの音を再生するためのオブジェクト信号と、オブジェクトのメタデータとが含まれている。

　音響処理装置２１は、再生信号生成部３１、D/A（Digital/Analog）変換部３２－１－１乃至D/A変換部３２－３－Nw、および増幅部３３－１－１乃至増幅部３３－３－Nwを有している。

　再生信号生成部３１は、再生帯域ごとのレンダリング処理を行って、出力となる出力オーディオ信号であるスピーカ再生信号を生成する。

　再生信号生成部３１は、レンダリング処理部４１－１乃至レンダリング処理部４１－３、HPF（High Pass Filter）４２－１乃至HPF４２－Nt、BPF（Band Pass Filter）４３－１乃至BPF４３－Ns、およびLPF（Low Pass Filter）４４－１乃至LPF４４－Nwを有している。

　スピーカシステム２２は、互いに異なる再生帯域を有するスピーカ５１－１－１乃至スピーカ５１－１－Nt、スピーカ５１－２－１乃至スピーカ５１－２－Ns、およびスピーカ５１－３－１乃至スピーカ５１－３－Nwを有している。

　なお、以下、スピーカ５１－１－１乃至スピーカ５１－１－Ntを特に区別する必要のない場合、単にスピーカ５１－１とも称する。

　同様に、以下、スピーカ５１－２－１乃至スピーカ５１－２－Nsを特に区別する必要のない場合、単にスピーカ５１－２とも称し、スピーカ５１－３－１乃至スピーカ５１－３－Nwを特に区別する必要のない場合、単にスピーカ５１－３とも称する。

　また、以下、スピーカ５１－１乃至スピーカ５１－３を特に区別する必要のない場合、単にスピーカ５１とも称することとする。スピーカシステム２２を構成するスピーカ５１は、図１に示したスピーカSP11に対応する。

　レンダリング処理部４１－１乃至レンダリング処理部４１－３は、供給されたオブジェクトデータを構成するオブジェクト信号とメタデータとに基づいてVBAP等のレンダリング処理を行い、各スピーカ５１のスピーカ再生信号を生成する。

　例えばレンダリング処理部４１－１は、N個のオブジェクトごとにレンダリング処理を行い、オブジェクトごとにスピーカ５１－１－１乃至スピーカ５１－１－Ntのそれぞれを出力先とするスピーカ再生信号のそれぞれを生成する。

　また、レンダリング処理部４１－１は、同じスピーカ５１－１について生成したオブジェクトごとのスピーカ再生信号を加算し、そのスピーカ５１－１の最終的なスピーカ再生信号とする。このようにして得られたスピーカ再生信号に基づく音には、N個の各オブジェクトの音が含まれている。

　レンダリング処理部４１－１は、スピーカ５１－１－１乃至スピーカ５１－１－Ntについて生成した最終的なスピーカ再生信号を、HPF４２－１乃至HPF４２－Ntに供給する。

　レンダリング処理部４１－２もレンダリング処理部４１－１と同様にして、スピーカ５１－２－１乃至スピーカ５１－２－Nsのそれぞれを最終的な出力先とする、N個のオブジェクトの音を再生するための各スピーカ５１－２のスピーカ再生信号を生成し、BPF４３－１乃至BPF４３－Nsに供給する。

　レンダリング処理部４１－３もレンダリング処理部４１－１と同様にして、スピーカ５１－３－１乃至スピーカ５１－３－Nwのそれぞれを最終的な出力先とする、N個のオブジェクトの音を再生するための各スピーカ５１－３のスピーカ再生信号を生成し、LPF４４－１乃至LPF４４－Nwに供給する。

　以下、レンダリング処理部４１－１乃至レンダリング処理部４１－３を特に区別する必要のない場合、単にレンダリング処理部４１とも称することとする。

　HPF４２－１乃至HPF４２－Ntは、少なくともスピーカ５１－１の再生帯域を含む周波数帯域、すなわち高域の成分を通過させ、中低域成分を遮断するHPFである。

　HPF４２－１乃至HPF４２－Ntは、レンダリング処理部４１－１から供給されたスピーカ再生信号に対してフィルタリング処理を行い、その結果得られた高域成分のみを含むスピーカ再生信号をD/A変換部３２－１－１乃至D/A変換部３２－１－Ntに供給する。

　なお、以下、HPF４２－１乃至HPF４２－Ntを特に区別する必要のない場合、単にHPF４２とも称することとする。HPF４２は、入力されたスピーカ再生信号に対して、HPFによるフィルタリング処理という、スピーカ５１－１の有する再生帯域に応じた帯域制限処理を行って、帯域制限されたスピーカ再生信号（帯域制限信号）を生成する帯域制限処理部として機能するということができる。

　BPF４３－１乃至BPF４３－Nsは、少なくともスピーカ５１－２の再生帯域を含む周波数帯域、すなわち中域の成分を通過させ、その他の成分を遮断するBPFである。

　BPF４３－１乃至BPF４３－Nsは、レンダリング処理部４１－２から供給されたスピーカ再生信号に対してフィルタリング処理を行い、その結果得られた中域成分のみを含むスピーカ再生信号をD/A変換部３２－２－１乃至D/A変換部３２－２－Nsに供給する。

　以下、BPF４３－１乃至BPF４３－Nsを特に区別する必要のない場合、単にBPF４３とも称することとする。BPF４３は、入力されたスピーカ再生信号に対して、BPFによるフィルタリング処理という、スピーカ５１－２の有する再生帯域に応じた帯域制限処理を行って、帯域制限されたスピーカ再生信号（帯域制限信号）を生成する帯域制限処理部として機能するということができる。

　LPF４４－１乃至LPF４４－Nwは、少なくともスピーカ５１－３の再生帯域を含む周波数帯域、すなわち低域の成分を通過させ、中高域の成分を遮断するLPFである。

　LPF４４－１乃至LPF４４－Nwは、レンダリング処理部４１－３から供給されたスピーカ再生信号に対してフィルタリング処理を行い、その結果得られた低域成分のみを含むスピーカ再生信号をD/A変換部３２－３－１乃至D/A変換部３２－３－Nwに供給する。

　以下、LPF４４－１乃至LPF４４－Nwを特に区別する必要のない場合、単にLPF４４とも称することとする。LPF４４は、入力されたスピーカ再生信号に対して、LPFによるフィルタリング処理という、スピーカ５１－３の有する再生帯域に応じた帯域制限処理を行って、帯域制限されたスピーカ再生信号（帯域制限信号）を生成する帯域制限処理部として機能するということができる。

　D/A変換部３２－１－１乃至D/A変換部３２－１－Ntは、HPF４２－１乃至HPF４２－Ntから供給されたスピーカ再生信号をD/A変換し、その結果得られたアナログのスピーカ再生信号を増幅部３３－１－１乃至増幅部３３－１－Ntに供給する。

　以下、D/A変換部３２－１－１乃至D/A変換部３２－１－Ntを特に区別する必要のない場合、単にD/A変換部３２－１とも称することとする。

　D/A変換部３２－２－１乃至D/A変換部３２－２－Nsは、BPF４３－１乃至BPF４３－Nsから供給されたスピーカ再生信号をD/A変換し、その結果得られたアナログのスピーカ再生信号を増幅部３３－２－１乃至増幅部３３－２－Nsに供給する。

　以下、D/A変換部３２－２－１乃至D/A変換部３２－２－Nsを特に区別する必要のない場合、単にD/A変換部３２－２とも称することとする。

　D/A変換部３２－３－１乃至D/A変換部３２－３－Nwは、LPF４４－１乃至LPF４４－Nwから供給されたスピーカ再生信号をD/A変換し、その結果得られたアナログのスピーカ再生信号を増幅部３３－３－１乃至増幅部３３－３－Nwに供給する。

　以下、D/A変換部３２－３－１乃至D/A変換部３２－３－Nwを特に区別する必要のない場合、単にD/A変換部３２－３とも称することとする。また、以下、D/A変換部３２－１乃至D/A変換部３２－３を特に区別する必要のない場合、単にD/A変換部３２とも称することとする。

　増幅部３３－１－１乃至増幅部３３－１－Ntは、D/A変換部３２－１－１乃至D/A変換部３２－１－Ntから供給されたスピーカ再生信号を増幅させ、スピーカ５１－１－１乃至スピーカ５１－１－Ntに供給する。

　増幅部３３－２－１乃至増幅部３３－２－Nsは、D/A変換部３２－２－１乃至D/A変換部３２－２－Nsから供給されたスピーカ再生信号を増幅させ、スピーカ５１－２－１乃至スピーカ５１－２－Nsに供給する。

　増幅部３３－３－１乃至増幅部３３－３－Nwは、D/A変換部３２－３－１乃至D/A変換部３２－３－Nwから供給されたスピーカ再生信号を増幅させ、スピーカ５１－３－１乃至スピーカ５１－３－Nwに供給する。

　以下、増幅部３３－１－１乃至増幅部３３－１－Ntを特に区別する必要のない場合、単に増幅部３３－１とも称し、増幅部３３－２－１乃至増幅部３３－２－Nsを特に区別する必要のない場合、単に増幅部３３－２とも称する。

　以下、増幅部３３－３－１乃至増幅部３３－３－Nwを特に区別する必要のない場合、単に増幅部３３－３とも称し、増幅部３３－１乃至増幅部３３－３を特に区別する必要のない場合、単に増幅部３３とも称する。

　なお、D/A変換部３２や増幅部３３は、音響処理装置２１の外部に設けられるようにしてもよい。

　スピーカ５１－１－１乃至スピーカ５１－１－Ntは、増幅部３３－１－１乃至増幅部３３－１－Ntから供給されたスピーカ再生信号に基づいて音を出力する。

　スピーカシステム２２を構成するNt個の各スピーカ５１－１は、主に高帯域（高域）の再生帯域をもつ、トゥイータ（Tweeter）と呼ばれるスピーカである。スピーカシステム２２では、これらのNt個のスピーカ５１－１により、高帯域用の１つのスピーカレイアウトが形成される。

　スピーカ５１－２－１乃至スピーカ５１－２－Nsは、増幅部３３－２－１乃至増幅部３３－２－Nsから供給されたスピーカ再生信号に基づいて音を出力する。

　スピーカシステム２２を構成するNs個の各スピーカ５１－２は、主に中帯域（中域）の再生帯域をもつ、スコーカ（Squawker）と呼ばれるスピーカである。スピーカシステム２２では、これらのNs個のスピーカ５１－２により、中帯域用の１つのスピーカレイアウトが形成される。

　スピーカ５１－３－１乃至スピーカ５１－３－Nwは、増幅部３３－３－１乃至増幅部３３－３－Nwから供給されたスピーカ再生信号に基づいて音を出力する。

　スピーカシステム２２を構成するNw個の各スピーカ５１－３は、主に低帯域（低域）の再生帯域をもつ、ウーハ（Woofer）と呼ばれるスピーカである。スピーカシステム２２では、これらのNw個のスピーカ５１－３により、低帯域用の１つのスピーカレイアウトが形成される。

　このようにスピーカシステム２２は、高帯域、中帯域、および低帯域という互いに異なる再生帯域を有する複数のスピーカ５１から構成される。すなわち、コンテンツを受聴する受聴者の周囲には、再生帯域が互いに異なる複数のスピーカ５１が混在して配置される。

　なお、ここではスピーカ５１－１乃至スピーカ５１－３からなるスピーカシステム２２が音響処理装置２１とは別に設けられている例について説明するが、スピーカシステム２２が音響処理装置２１に設けられた構成としてもよい。すなわち、スピーカシステム２２が音響処理装置２１に含まれるようにしてもよい。

　以上のようにオーディオ再生システム１１では、スピーカ５１の再生帯域ごと、すなわち各再生帯域のスピーカレイアウトごとにレンダリング処理が行われる。

　したがって、例えばレンダリング処理部４１－１において、レンダリング処理としてVBAPが行われる場合には、レンダリング処理部４１－１ではNt個のスピーカ５１－１により形成されるメッシュから上述の選択メッシュが選択される。

　同様に、レンダリング処理部４１－２ではNs個のスピーカ５１－２により形成されるメッシュから上述の選択メッシュが選択され、レンダリング処理部４１－３ではNw個のスピーカ５１－３により形成されるメッシュから上述の選択メッシュが選択される。

　また、帯域制限処理部として機能するHPF４２、BPF４３、およびLPF４４の周波数特性、すなわち制限帯域（通過帯域）は、例えば図３に示すようになされている。なお、図３において横軸は周波数（Hz）を示しており、縦軸は音圧レベル（dB）を示している。

　図３では、折れ線L11はHPF４２の周波数特性を示しており、折れ線L12はBPF４３の周波数特性を示しており、折れ線L13はLPF４４の周波数特性を示している。

　折れ線L11から分かるように、HPF４２では、他のBPF４３やLPF４４よりも高い周波数帯域の成分、すなわち高域成分を通過させる高域通過フィルタリングが行われる。

　また、BPF４３では、LPF４４よりも高く、HPF４２よりも低い周波数帯域の成分、すなわち中域成分を通過させる中域通過フィルタリングが行われることが分かる。LPF４４では、他のBPF４３やHPF４２よりも低い周波数帯域の成分、すなわち低域成分を通過させる低域通過フィルタリングが行われることが分かる。

　さらに、ここではHPF４２とBPF４３の通過帯域がクロスオーバーしており、BPF４３とLPF４４の通過帯域もクロスオーバーしている。ここでは、HPF４２とBPF４３の通過帯域、BPF４３とLPF４４の通過帯域がそれぞれクロスオーバーしている例を挙げたが、これに限定されない。例えば、HPF４２とBPF４３の通過帯域、BPF４３とLPF４４の通過帯域のいずれもがクロスオーバーをしていなくてもよく、どちらか一方がクロスオーバーするような特性を持っていてもよい。

　なお、オーディオ再生システム１１では、Nt個のHPF４２は同一の特性（周波数特性）を有しているものとするが、これらのNt個のHPF４２は互いに異なる特性を有するフィルタ（HPF）であってもよい。

　また、レンダリング処理部４１－１とスピーカ５１－１との間にHPF４２が設けられないようにし、レンダリング処理部４１－１で得られたスピーカ再生信号が、D/A変換部３２－１および増幅部３３－１を介してスピーカ５１－１に供給されるようにしてもよい。すなわち、HPF４２によるフィルタリング処理（帯域制限処理）が行われずに、スピーカ再生信号に基づく音がスピーカ５１－１で再生されるようにしてもよい。

　同様に、Ns個のBPF４３は同一の特性（周波数特性）を有しているものとするが、これらのBPF４３は互いに異なる特性を有していてもよいし、レンダリング処理部４１－２とスピーカ５１－２との間にBPF４３が設けられないようにしてもよい。

　さらにNw個のLPF４４は同一の特性（周波数特性）を有しているものとするが、これらのLPF４４は互いに異なる特性を有していてもよいし、レンダリング処理部４１－３とスピーカ５１－３との間にLPF４４が設けられないようにしてもよい。

〈再生処理の説明〉
　次に、オーディオ再生システム１１の動作について説明する。すなわち、以下、図４のフローチャートを参照して、オーディオ再生システム１１による再生処理について説明する。この再生処理は、コンテンツを構成するN個のオブジェクトのオブジェクトデータが各レンダリング処理部４１に供給されると開始される。

　ステップＳ１１においてレンダリング処理部４１－１は、供給されたN個のオブジェクトデータに基づいて、高帯域用のスピーカ５１－１についてレンダリング処理を行い、その結果得られたスピーカ再生信号をHPF４２に供給する。

　すなわち、Nt個のスピーカ５１－１からなるスピーカレイアウトに対するレンダリングが行われ、出力オーディオ信号としてのスピーカ再生信号が生成される。例えばステップＳ１１では、Nt個のスピーカ５１－１により形成されるメッシュが用いられて、レンダリング処理としてVBAPが行われる。

　ステップＳ１２においてHPF４２は、レンダリング処理部４１－１から供給されたスピーカ再生信号に対してHPFによるフィルタリング処理（帯域制限処理）を行い、その結果得られた、帯域制限後のスピーカ再生信号をD/A変換部３２－１に供給する。

　D/A変換部３２－１は、HPF４２から供給されたスピーカ再生信号をD/A変換して増幅部３３－１に供給し、増幅部３３－１はD/A変換部３２－１から供給されたスピーカ再生信号を増幅させてスピーカ５１－１に供給する。

　ステップＳ１３においてレンダリング処理部４１－２は、供給されたN個のオブジェクトデータに基づいて、中帯域用のスピーカ５１－２についてレンダリング処理を行い、その結果得られたスピーカ再生信号をBPF４３に供給する。

　例えばステップＳ１３では、Ns個のスピーカ５１－２により形成されるメッシュが用いられて、レンダリング処理としてVBAPが行われる。

　ステップＳ１４においてBPF４３は、レンダリング処理部４１－２から供給されたスピーカ再生信号に対してBPFによるフィルタリング処理（帯域制限処理）を行い、その結果得られた、帯域制限後のスピーカ再生信号をD/A変換部３２－２に供給する。

　D/A変換部３２－２は、BPF４３から供給されたスピーカ再生信号をD/A変換して増幅部３３－２に供給し、増幅部３３－２はD/A変換部３２－２から供給されたスピーカ再生信号を増幅させてスピーカ５１－２に供給する。

　ステップＳ１５においてレンダリング処理部４１－３は、供給されたN個のオブジェクトデータに基づいて、低帯域用のスピーカ５１－３についてレンダリング処理を行い、その結果得られたスピーカ再生信号をLPF４４に供給する。

　例えばステップＳ１５では、Nw個のスピーカ５１－３により形成されるメッシュが用いられて、レンダリング処理としてVBAPが行われる。

　ステップＳ１６においてLPF４４は、レンダリング処理部４１－３から供給されたスピーカ再生信号に対してLPFによるフィルタリング処理（帯域制限処理）を行い、その結果得られた、帯域制限後のスピーカ再生信号をD/A変換部３２－３に供給する。

　D/A変換部３２－３は、LPF４４から供給されたスピーカ再生信号をD/A変換して増幅部３３－３に供給し、増幅部３３－３はD/A変換部３２－３から供給されたスピーカ再生信号を増幅させてスピーカ５１－３に供給する。

　ステップＳ１７においてスピーカシステム２２を構成する全スピーカ５１は、増幅部３３から供給されたスピーカ再生信号に基づいて音を出力し、再生処理は終了する。

　全スピーカ５１からスピーカ再生信号に基づく音が出力されると、各再生帯域のスピーカレイアウトによって、再生帯域ごとにN個のオブジェクトの音が再生される。そして、それらのN個の各オブジェクトの音像は、各オブジェクトのメタデータに含まれる位置情報により示されるオブジェクト位置に定位する。

　以上のようにしてオーディオ再生システム１１は、スピーカ５１が有する再生帯域ごと、すなわち複数の各再生帯域のスピーカレイアウトごとにレンダリング処理を行い、コンテンツを再生する。このようにすることで、スピーカ５１の再生帯域に起因する音質の劣化を抑制し、より高音質なオーディオ再生を行うことができる。

　具体的には、例えばオーディオ再生システム１１では、再生帯域が異なるスピーカ５１が混在している。

　しかし、オーディオ再生システム１１では、スピーカレイアウト構成が複数の再生帯域ごとに用意され、各オブジェクトが再生帯域ごとにレンダリングされて再生される。

　したがって、オブジェクトが、それぞれの再生帯域のスピーカレイアウトごとに適切な定位で再生され、より適切なオブジェクトベースオーディオのレンダリング再生が実現される。これにより、例えばオブジェクトがもつ周波数帯域と定位位置によって、音が消えてしまうなどの音質の劣化を回避することができる。すなわち、より高音質なオーディオ再生を行うことができる。

〈第２の実施の形態〉
〈オーディオ再生システムの構成例〉
　なお、以上においてはレンダリング処理部４１の出力に対して、対象となるスピーカレイアウトに応じた帯域制限のフィルタリング処理が行われる例について説明した。

　しかし、これに限らず、例えばレンダリング処理部４１への入力となるオブジェクト信号に対して、対象となるスピーカレイアウトに応じた帯域制限のフィルタリング処理が行われるようにしてもよい。

　そのような場合、オーディオ再生システムは、例えば図５に示す構成とされる。なお、図５において図２における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図５に示すオーディオ再生システム８１は、音響処理装置９１およびスピーカシステム２２を有している。

　また、音響処理装置９１は、再生信号生成部１０１、D/A変換部３２－１－１乃至D/A変換部３２－３－Nw、および増幅部３３－１－１乃至増幅部３３－３－Nwを有している。

　再生信号生成部１０１は、HPF４２－１乃至HPF４２－N、BPF４３－１乃至BPF４３－N、LPF４４－１乃至LPF４４－N、およびレンダリング処理部４１－１乃至レンダリング処理部４１－３を有している。

　オーディオ再生システム８１の構成は、音響処理装置２１に代えて音響処理装置９１を設けた点で図２に示したオーディオ再生システム１１と異なり、その他の点ではオーディオ再生システム１１と同じ構成となっている。

　特に、音響処理装置９１の構成は、音響処理装置２１の再生信号生成部３１を再生信号生成部１０１に置き換えた構成となっている。

　上述したように再生信号生成部３１では、レンダリング処理部４１の後段にHPF４２、BPF４３、およびLPF４４が設けられている。

　これに対して、再生信号生成部１０１では、レンダリング処理部４１の前段にHPF４２、BPF４３、およびLPF４４が設けられている。

　しかも、再生信号生成部１０１では、レンダリング処理部４１の入力となるN個の各オブジェクトのオブジェクト信号に対してフィルタリング処理（帯域制限処理）が行われるため、HPF４２、BPF４３、およびLPF４４がそれぞれN個ずつ設けられている。すなわち、オブジェクトごとにHPF４２、BPF４３、およびLPF４４が設けられている。

　したがって、HPF４２－１乃至HPF４２－Nのそれぞれは、供給されたN個の各オブジェクトデータのオブジェクト信号のそれぞれに対してフィルタリング処理を行い、その結果得られた高域成分のみを含むオブジェクト信号をレンダリング処理部４１－１に供給する。なお、HPF４２－１乃至HPF４２－Nでは、再生信号生成部３１におけるHPF４２と同じフィルタリング処理（帯域制限処理）が行われる。

　同様に、BPF４３－１乃至BPF４３－Nのそれぞれは、供給されたN個の各オブジェクトデータのオブジェクト信号のそれぞれに対してフィルタリング処理を行い、その結果得られた中域成分のみを含むオブジェクト信号をレンダリング処理部４１－２に供給する。BPF４３－１乃至BPF４３－Nでは、再生信号生成部３１におけるBPF４３と同じフィルタリング処理（帯域制限処理）が行われる。

　LPF４４－１乃至LPF４４－Nのそれぞれは、供給されたN個の各オブジェクトデータのオブジェクト信号のそれぞれに対してフィルタリング処理を行い、その結果得られた低域成分のみを含むオブジェクト信号をレンダリング処理部４１－３に供給する。LPF４４－１乃至LPF４４－Nでは、再生信号生成部３１におけるLPF４４と同じフィルタリング処理（帯域制限処理）が行われる。

　このように、図２に示したオーディオ再生システム１１ではスピーカ５１ごとにHPF４２やBPF４３、LPF４４が設けられていたのに対して、オーディオ再生システム８１ではオブジェクトごとにHPF４２やBPF４３、LPF４４が設けられている。

　この例では、コンテンツがN個のオブジェクトからなるので、オーディオ再生システム８１では、HPF４２、BPF４３、およびLPF４４がそれぞれN個ずつ設けられている。

　なお、この例においてもオーディオ再生システム１１における場合と同様に、N個のHPF４２は同一の周波数特性を有しているが、これらのN個のHPF４２は互いに異なる特性を有するフィルタ（HPF）であってもよいし、レンダリング処理部４１－１の前段にHPF４２が設けられないようにしてもよい。

　同様に、N個のBPF４３は同一の特性（周波数特性）を有しているものとするが、これらのBPF４３は互いに異なる特性を有していてもよいし、レンダリング処理部４１－２の前段にBPF４３が設けられないようにしてもよい。

　さらにN個のLPF４４は同一の特性（周波数特性）を有しているものとするが、これらのLPF４４は互いに異なる特性を有していてもよいし、レンダリング処理部４１－３の前段にLPF４４が設けられないようにしてもよい。

〈再生処理の説明〉
　次に、図６のフローチャートを参照して、オーディオ再生システム８１による再生処理について説明する。

　ステップＳ４１においてHPF４２－１乃至HPF４２－Nのそれぞれは、供給されたN個のオブジェクトのオブジェクト信号のそれぞれに対して、HPFによるフィルタリング処理を行い、その結果得られた帯域制限後のオブジェクト信号をレンダリング処理部４１－１に供給する。

　ステップＳ４２においてレンダリング処理部４１－１は、供給されたN個の各オブジェクトのメタデータと、HPF４２－１乃至HPF４２－Nから供給されたN個の各オブジェクト信号とに基づいて、高帯域用のスピーカ５１－１についてレンダリング処理を行う。

　例えばステップＳ４２では、図４のステップＳ１１と同様の処理が行われる。レンダリング処理部４１－１は、レンダリング処理により得られた各スピーカ５１－１に対応するスピーカ再生信号をD/A変換部３２－１－１乃至D/A変換部３２－１－Ntに供給する。

　D/A変換部３２－１は、レンダリング処理部４１－１から供給されたスピーカ再生信号をD/A変換して増幅部３３－１に供給し、増幅部３３－１はD/A変換部３２－１から供給されたスピーカ再生信号を増幅させてスピーカ５１－１に供給する。

　ステップＳ４３においてBPF４３－１乃至BPF４３－Nのそれぞれは、供給されたN個のオブジェクトのオブジェクト信号のそれぞれに対して、BPFによるフィルタリング処理を行い、その結果得られた帯域制限後のオブジェクト信号をレンダリング処理部４１－２に供給する。

　ステップＳ４４においてレンダリング処理部４１－２は、供給されたN個の各オブジェクトのメタデータと、BPF４３－１乃至BPF４３－Nから供給されたN個の各オブジェクト信号とに基づいて、中帯域用のスピーカ５１－２についてレンダリング処理を行う。

　例えばステップＳ４４では、図４のステップＳ１３と同様の処理が行われる。レンダリング処理部４１－２は、レンダリング処理により得られた各スピーカ５１－２に対応するスピーカ再生信号をD/A変換部３２－２－１乃至D/A変換部３２－２－Nsに供給する。

　D/A変換部３２－２は、レンダリング処理部４１－２から供給されたスピーカ再生信号をD/A変換して増幅部３３－２に供給し、増幅部３３－２はD/A変換部３２－２から供給されたスピーカ再生信号を増幅させてスピーカ５１－２に供給する。

　ステップＳ４５においてLPF４４－１乃至LPF４４－Nのそれぞれは、供給されたN個のオブジェクトのオブジェクト信号のそれぞれに対して、LPFによるフィルタリング処理を行い、その結果得られた帯域制限後のオブジェクト信号をレンダリング処理部４１－３に供給する。

　ステップＳ４６においてレンダリング処理部４１－３は、供給されたN個の各オブジェクトのメタデータと、LPF４４－１乃至LPF４４－Nから供給されたN個の各オブジェクト信号とに基づいて、低帯域用のスピーカ５１－３についてレンダリング処理を行う。

　例えばステップＳ４６では、図４のステップＳ１５と同様の処理が行われる。レンダリング処理部４１－３は、レンダリング処理により得られた各スピーカ５１－３に対応するスピーカ再生信号をD/A変換部３２－３－１乃至D/A変換部３２－３－Nwに供給する。

　D/A変換部３２－３は、レンダリング処理部４１－３から供給されたスピーカ再生信号をD/A変換して増幅部３３－３に供給し、増幅部３３－３はD/A変換部３２－３から供給されたスピーカ再生信号を増幅させてスピーカ５１－３に供給する。

　このようにして再生帯域ごとのスピーカレイアウトについてレンダリング処理が行われると、その後、ステップＳ４７の処理が行われて再生処理は終了するが、ステップＳ４７の処理は図４のステップＳ１７の処理と同様であるので、その説明は省略する。

　以上のようにしてオーディオ再生システム８１は、オブジェクトごとにフィルタリング処理を行ってから、複数の各再生帯域のスピーカレイアウトごとにレンダリング処理を行い、コンテンツを再生する。このようにすることで、スピーカ５１の再生帯域に起因する音質の劣化を抑制し、より高音質なオーディオ再生を行うことができる。

　オーディオ再生システム８１のようにレンダリング処理前にフィルタリング処理を行う構成は、特にコンテンツを構成するオブジェクトの数（オブジェクト数N）が少ない場合に、オーディオ再生システム１１における場合と比較して処理量を少なく抑えることができる。

　例えばHPF４２やBPF４３、LPF４４でのフィルタリング処理の処理量が同一であるとする。そのような場合、オーディオ再生システム８１において必要となるフィルタリング処理の処理量（処理数）は、オブジェクト数N×３である。ここで、「３」はレンダリング処理部４１の数である。

　一方、オーディオ再生システム１１においては、スピーカシステム２２を構成するスピーカ５１の総数（Nt+Ns+Nw）の分（回数）だけフィルタリング処理が行われる。

　したがって、オブジェクト数N×３がスピーカ５１の総数（Nt+Ns+Nw）よりも小さい場合には、オーディオ再生システム８１の構成とすることで、オーディオ再生システム１１における場合よりもフィルタリング処理の処理数（処理回数）を少なくすることができ、結果として全体的な処理量を少なく抑えることができる。

〈第３の実施の形態〉
〈オーディオ再生システムの構成例〉
　ところで、フィルタリング処理をレンダリング処理の前段と後段のどちらで行う方が処理量が少なくなるかはオブジェクト数Nや、スピーカ５１の総数、スピーカ５１の種類（再生帯域）の数（レンダリング処理部４１の数）によって定まる。

　そこで、例えばオブジェクト数Nとスピーカ５１の総数に基づいた判断基準により、レンダリング処理の前段と後段のどちらでフィルタリング処理を行うかを切り替えるようにしてもよい。

　そのような場合、オーディオ再生システムは、例えば図７に示すように構成される。なお、図７において図２または図５における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図７に示すオーディオ再生システム１３１は、音響処理装置１４１およびスピーカシステム２２を有している。

　また、音響処理装置１４１は、選択部１５１、再生信号生成部３１、再生信号生成部１０１、D/A変換部３２－１－１乃至D/A変換部３２－３－Nw、および増幅部３３－１－１乃至増幅部３３－３－Nwを有している。

　再生信号生成部３１は図２における場合と同じ構成とされており、再生信号生成部１０１は図５における場合と同じ構成とされている。

　この例では、選択部１５１にN個の各オブジェクトのオブジェクトデータが入力される。選択部１５１は、オブジェクト数Nやスピーカ５１の総数に基づいて、オブジェクトデータの出力先として再生信号生成部３１と再生信号生成部１０１のうちの何れか１つを選択し、選択した出力先へとオブジェクトデータを出力する。

　換言すれば、選択部１５１は、オブジェクトごとに、再生信号生成部３１においてレンダリング処理を行わせてから帯域制限処理を行わせるか、または再生信号生成部１０１において帯域制限処理を行わせてからレンダリング処理を行わせるかを選択する。

　したがって、オーディオ再生システム１３１では、再生信号生成部３１と再生信号生成部１０１の何れか一方により、オブジェクトデータに基づいてスピーカ再生信号が生成され、D/A変換部３２へとスピーカ再生信号が供給される。

〈再生処理の説明〉
　次に、図８のフローチャートを参照して、オーディオ再生システム１３１による再生処理について説明する。この再生処理は、選択部１５１にコンテンツを構成するN個のオブジェクトのオブジェクトデータが供給されると開始される。

　ステップＳ７１において選択部１５１は、供給されたオブジェクトデータの個数Nやスピーカ５１の総数、再生帯域の数（レンダリング処理部４１の数）に基づいて、レンダリング処理よりも先にフィルタリング処理を行うか否かを判定する。すなわち、選択部１５１は、供給されたオブジェクトデータの出力先を選択する。なお、ここでは再生帯域の数、つまりレンダリング処理部４１の数は「３」である。

　例えば、選択部１５１はオブジェクト数N×３がスピーカ５１の総数（Nt+Ns+Nw）よりも小さい場合、先にフィルタリング処理を行うと判定する。

　これに対して、例えば選択部１５１は、オブジェクト数N×３がスピーカ５１の総数（Nt+Ns+Nw）以上である場合、フィルタリング処理をレンダリング処理の後に行うと判定する。

　ステップＳ７１において先にフィルタリング処理を行うと判定された場合、選択部１５１は、供給されたオブジェクトデータの出力先として再生信号生成部１０１を選択し、その後、処理はステップＳ７２へと進む。

　この場合、選択部１５１は、供給されたオブジェクトデータのオブジェクト信号を再生信号生成部１０１のHPF４２やBPF４３、LPF４４に供給するとともに、オブジェクトデータのメタデータを再生信号生成部１０１のレンダリング処理部４１に供給する。

　このようにして再生信号生成部１０１にオブジェクトデータが供給されると、ステップＳ７２乃至ステップＳ７７の処理が行われるが、これらの処理は図６のステップＳ４１乃至ステップＳ４６の処理と同様であるので、その説明は省略する。これらの処理が行われると、スピーカ再生信号がスピーカ５１へと供給される。

　一方、ステップＳ７１においてフィルタリング処理を後で行うと判定された場合、選択部１５１は、供給されたオブジェクトデータの出力先として再生信号生成部３１を選択し、その後、処理はステップＳ７８へと進む。

　この場合、選択部１５１は、供給されたオブジェクトデータ、すなわちオブジェクト信号およびメタデータを再生信号生成部３１のレンダリング処理部４１に供給する。

　再生信号生成部３１にオブジェクトデータが供給されると、その後、ステップＳ７８乃至ステップＳ８３の処理が行われるが、これらの処理は図４のステップＳ１１乃至ステップＳ１６の処理と同様であるので、その説明は省略する。これらの処理が行われると、スピーカ再生信号がスピーカ５１へと供給される。

　ステップＳ７７またはステップＳ８３の処理が行われると、その後、ステップＳ８４の処理が行われる。

　すなわち、ステップＳ８４において、スピーカシステム２２を構成する全スピーカ５１は、増幅部３３から供給されたスピーカ再生信号に基づいて音を出力し、再生処理は終了する。

　以上のようにしてオーディオ再生システム１３１は、オブジェクト数Nやスピーカ５１の総数に基づいて、再生信号生成部３１と再生信号生成部１０１のうちのより処理量が少なくなる方を選択し、フィルタリング処理とレンダリング処理を行う。すなわち、オブジェクト数Nやスピーカ５１の総数に応じて、再生信号生成部３１と再生信号生成部１０１の何れでレンダリング処理とフィルタリング処理を行うかが切り替えられる。

　このようにすることで、少ない処理量で、より高音質なオーディオ再生を行うことができる。なお、再生信号生成部３１と再生信号生成部１０１の何れでレンダリング処理とフィルタリング処理を行うかの切り替え（選択）は、フレームごとなどに行われてもよい。

　特に、再生信号生成部３１において、スピーカ再生信号に対して再生帯域ごとのスピーカレイアウトに応じた帯域制限を行うことは、オブジェクト数Nが多い場合に有効である。これに対して、再生信号生成部１０１において、オブジェクト信号に対して再生帯域ごとのスピーカレイアウトに応じた帯域制限を行うことは、オブジェクト数Nが少ない場合に有効である。

〈第４の実施の形態〉
〈オーディオ再生システムの構成例〉
　また、オブジェクトの内容、すなわちオブジェクトの音源種別やオブジェクト信号の特性など、オブジェクトが有する特徴によって、そのオブジェクトの音を再生するスピーカレイアウトを切り替えるようにしてもよい。

　そのような場合、オーディオ再生システムは、例えば図９に示すように構成される。なお、図９において図２における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図９に示すオーディオ再生システム１８１は、音響処理装置１９１およびスピーカシステム１９２を有している。

　音響処理装置１９１は、再生信号生成部２０１、D/A変換部３２－１－１乃至D/A変換部３２－１－Nt、D/A変換部３２－３－１乃至D/A変換部３２－３－Nw、増幅部３３－１－１乃至増幅部３３－１－Nt、および増幅部３３－３－１乃至増幅部３３－３－Nwを有している。

　また、再生信号生成部２０１は、判定部２１１、切り替え部２１２、レンダリング処理部４１－１、およびレンダリング処理部４１－３を有している。

　スピーカシステム１９２は、スピーカ５１－１－１乃至スピーカ５１－１－Nt、およびスピーカ５１－３－１乃至スピーカ５１－３－Nwを有している。

　例えばスピーカ５１－１の再生帯域の一部と、スピーカ５１－３の再生帯域の一部とが重なる、つまりスピーカ５１－１とスピーカ５１－３とが一部の共通する再生帯域を有するようにすることができる。

　また、再生信号生成部２０１には、HPF４２などの帯域制限処理部として機能するフィルタは設けられていない。さらに、スピーカシステム１９２には、トゥイータであるスピーカ５１－１と、ウーハであるスピーカ５１－３とが設けられているが、スコーカであるスピーカ５１－２は設けられていない。なお、前述のスピーカシステム２２と同様に、スピーカシステム１９２にスコーカであるスピーカ５１－２を設けてもよい。

　判定部２１１には、N個の各オブジェクトのオブジェクトデータが供給される。

　判定部２１１は、供給されたオブジェクトデータに含まれるオブジェクト信号やメタデータに基づいて、オブジェクトごとに、どのレンダリング処理部４１でレンダリング処理をするか、すなわちどのスピーカレイアウトで再生を行うかを判定する判定処理を行う。

　例えば判定部２１１では、各オブジェクトについて、レンダリング処理部４１－１のみでレンダリング処理を行うか、レンダリング処理部４１－３のみでレンダリング処理を行うか、またはレンダリング処理部４１－１およびレンダリング処理部４１－３の両方でレンダリング処理を行うかが判定（決定）される。このとき、例えばオブジェクト信号、およびメタデータ等のオブジェクトに関する情報の少なくとも何れか一方が用いられて判定が行われるようにすることができる。

　判定部２１１は、供給されたオブジェクトデータを切り替え部２１２に供給するとともに、判定処理の結果に基づいて切り替え部２１２を制御して、判定処理の結果に応じたレンダリング処理部４１へとオブジェクトデータを供給させる。

　例えば判定処理では、オブジェクトの有する特性として、オブジェクト信号の周波数特性に基づいて、どの再生帯域のスピーカレイアウトへのレンダリングを行うかをオブジェクトごとに判定するようにしてもよい。

　そのような場合、例えば判定部２１１は、供給されたオブジェクト信号に対してFFT（Fast Fourier Transform）などで周波数分析を行い、その結果得られる周波数特性を示す情報から、どの再生帯域のスピーカレイアウトへのレンダリングを行うか、つまりどのレンダリング処理部４１でレンダリング処理を行うかを判定（決定）する。

　具体的には、例えばオブジェクト信号に低域成分のみが含まれている場合には、レンダリング処理部４１－３のみでレンダリング処理が行われるようにすることができる。

　例えばオーディオ再生システム１１では、各オブジェクトが全ての再生帯域に対応するレンダリング処理部４１でレンダリング処理される。しかし、オブジェクト信号に低域成分のみが含まれている場合には、レンダリング処理部４１－３のみでレンダリング処理を行うようにしても音質の劣化は生じない。

　オーディオ再生システム１８１では、例えば低域成分のみが含まれているオブジェクト信号は、低帯域に対応するレンダリング処理部４１－３のみでレンダリング処理されるようにすることで、音質の劣化を生じさずに処理量を削減することができる。

　また、例えばオブジェクト信号に低域成分も高域成分も含まれている場合には、レンダリング処理部４１－１とレンダリング処理部４１－３の両方でレンダリング処理が行われるようにすることができる。

　さらに、例えばメタデータに、オブジェクトに関する情報が含まれていることもある。

　具体的には、例えばギター等の楽器やボーカルなど、オブジェクトがどのような種別の音源であるかを示す音源種別情報がメタデータに含まれているとする。

　そのような場合、例えば判定部２１１は、メタデータに含まれる音源種別情報に基づいて、どのレンダリング処理部４１でレンダリング処理を行うかを判定（決定）する。

　この場合、例えばオブジェクトがハイハットなど、高域成分を多く含む音源であるときには、そのオブジェクトについては高帯域を対象とするレンダリング処理部４１－１でレンダリング処理が行われるようにすることができる。なお、どの音源種別のオブジェクトがどのレンダリング処理部４１でレンダリング処理されるかは、予め定められているようにしてもよい。また、オブジェクト信号のファイル名などからオブジェクトの音源種別が特定されるようにしてもよい。

　その他、例えばコンテンツ製作者等が、予めどのオブジェクトをどのレンダリング処理部４１でレンダリング処理するかを指定しておき、その指定結果を示す指定情報がオブジェクトに関する情報としてメタデータに含まれているようにしてもよい。

　そのような場合、判定部２１１はメタデータに含まれる指定情報に基づいて、オブジェクトをどのレンダリング処理部４１でレンダリング処理するかを判定（決定）する。なお、指定情報はオブジェクトデータとは別に判定部２１１に供給されるようにしてもよい。

　切り替え部２１２は、判定部２１１の制御に従って、判定部２１１から供給されたオブジェクトデータの出力先をオブジェクトごとに切り替える。

　すなわち、切り替え部２１２は、判定部２１１の制御に従って、オブジェクトデータをレンダリング処理部４１－１に供給するか、レンダリング処理部４１－３に供給するか、またはレンダリング処理部４１－１およびレンダリング処理部４１－３に供給する。

〈再生処理の説明〉
　次に、図１０のフローチャートを参照して、オーディオ再生システム１８１による再生処理について説明する。この再生処理は、判定部２１１にコンテンツを構成するN個のオブジェクトのオブジェクトデータが供給されると開始される。

　ステップＳ１１１において判定部２１１は、供給されたオブジェクトデータに基づいて、オブジェクトごとに判定処理を行う。

　例えば判定処理では、少なくともオブジェクト信号とメタデータとに基づいて、どの再生帯域に対応するレンダリング処理部４１でレンダリング処理を行うかが判定される。判定部２１１は、供給されたオブジェクトデータを切り替え部２１２に供給するとともに、判定処理の結果に基づいて切り替え部２１２によるオブジェクトデータの出力を制御する。

　ステップＳ１１２において切り替え部２１２は、判定部２１１の制御に従って、判定部２１１から供給されたオブジェクトデータの判定処理の結果に応じた供給を行う。

　すなわち、切り替え部２１２は、オブジェクトごとに、判定部２１１から供給されたオブジェクトデータをレンダリング処理部４１－１、レンダリング処理部４１－３、またはレンダリング処理部４１－１およびレンダリング処理部４１－３へと供給する。

　ステップＳ１１３においてレンダリング処理部４１－１は、切り替え部２１２から供給されたオブジェクトデータに基づいて、高帯域用のスピーカ５１－１についてレンダリング処理を行い、その結果得られたスピーカ再生信号をD/A変換部３２－１および増幅部３３－１を介してスピーカ５１－１に供給する。

　ステップＳ１１４においてレンダリング処理部４１－３は、切り替え部２１２から供給されたオブジェクトデータに基づいて、低帯域用のスピーカ５１－３についてレンダリング処理を行い、その結果得られたスピーカ再生信号をD/A変換部３２－３および増幅部３３－３を介してスピーカ５１－３に供給する。

　例えばステップＳ１１３およびステップＳ１１４では、図４のステップＳ１１およびステップＳ１５と同様の処理が行われる。

　ステップＳ１１５においてスピーカシステム１９２を構成する全スピーカ５１は、増幅部３３から供給されたスピーカ再生信号に基づいて音を出力し、再生処理は終了する。

　この例では、高帯域用のスピーカ５１－１と、低帯域用のスピーカ５１－３とから音が出力され、コンテンツのN個のオブジェクトの音が再生される。

　以上のようにしてオーディオ再生システム１８１は、オブジェクト信号と、メタデータ等のオブジェクトに関する情報の少なくとも何れか一方に基づいて、どの再生帯域に対応するレンダリング処理部４１で処理を行うかを判定し、その判定結果に応じてレンダリング処理を行う。

　このようにすることで、適切な再生帯域に対応するレンダリング処理部４１でのレンダリング処理を選択的に行うことができ、より高音質なオーディオ再生を行うことができる。

　この例では、例えばオブジェクト信号の主な周波数帯域の成分に応じて、レンダリング処理の対象とする再生帯域ごとのスピーカレイアウトを切り替える（選択する）ことで、多重のレンダリング処理による処理量の増加をなるべく抑えることができる。すなわち、不要な再生帯域についてのレンダリング処理を省略し、処理量を削減することができる。

〈第５の実施の形態〉
〈オーディオ再生システムの構成例〉
　ところで、オーディオ再生時の低域の補強のためにサブウーハが追加され、ベース・マネジメントやバス・マネジメントなどと呼ばれる手法が用いられることがある。

　ベース・マネジメントでは、メインスピーカの再生信号からフィルタリング処理により低域成分の信号が抽出され、その抽出された信号が１台以上のサブウーハにルーティングされる。すなわち、低域成分の再生が１または複数のサブウーハにより行われる。

　しかし、例えば複数のサブウーハを用いた場合、一般的には全てのサブウーハで同一の低域成分が再生されるので、オブジェクトの定位感が損なわれてしまう。

　また、そのような定位感の低下を回避するために、サブウーハごとに、どのメインスピーカの低域成分をルーティングするかを分けて、オブジェクトの定位方向に応じて、低域成分が再生されるサブウーハが変わるようにすることもできる。ところが、そのような場合、ルーティング等のシステム全体での挙動は設計次第であるが、その設計は複雑で困難なものとなってしまう。

　これに対して、本技術では、複数の再生帯域ごとにレンダリング処理が行われ、それらの再生帯域ごとのスピーカレイアウトでコンテンツが再生されるため、複雑な設計を必要とせずに、オブジェクトの定位感の低下を抑制可能なベース・マネジメントを実現することができる。

　さらに、コンテンツによっては、サブウーハ用のLFE（Low Frequency Effect）チャネルのオーディオ信号（以下、LFEチャネル信号とも称する）が予め用意されている場合がある。そのような場合、本技術では、適宜、LFEチャネル信号のゲイン調整を行って、サブウーハのスピーカ再生信号に加算すればよい。

　このように、コンテンツでLFEチャネル信号が予め用意されており、ベース・マネジメントも行う場合、オーディオ再生システムは、例えば図１１に示すようになる。

　図１１に示すオーディオ再生システム２４１は、音響処理装置２５１およびスピーカシステム２５２を有しており、供給されたオブジェクトデータに基づいてオブジェクトベースオーディオのコンテンツを再生する。

　この例ではコンテンツのデータは、N個のオブジェクトのオブジェクトデータと、チャネルベースのLFEチャネル信号とからなる。この場合、LFEチャネル信号は、チャネルベースのオーディオ信号であるので、位置情報等を含むメタデータは供給されない。また、オブジェクト数Nは任意の数とすることができる。

　音響処理装置２５１は、再生信号生成部２６１、D/A変換部２７１－１－１乃至D/A変換部２７１－２－Nsw、および増幅部２７２－１－１乃至増幅部２７２－２－Nswを有している。

　また、再生信号生成部２６１は、レンダリング処理部２８１－１、レンダリング処理部２８１－２、HPF２８２－１乃至HPF２８２－Nls、およびLPF２８３－１乃至LPF２８３－Nswを有している。

　スピーカシステム２５２は、互いに異なる再生帯域を有するスピーカ２９１－１－１乃至スピーカ２９１－１－Nls、およびスピーカ２９１－２－１乃至スピーカ２９１－２－Nswを有している。

　以下、スピーカ２９１－１－１乃至スピーカ２９１－１－Nlsを特に区別する必要のない場合、単にスピーカ２９１－１とも称し、スピーカ２９１－２－１乃至スピーカ２９１－２－Nswを特に区別する必要のない場合、単にスピーカ２９１－２とも称する。

　また、以下、スピーカ２９１－１およびスピーカ２９１－２を特に区別する必要のない場合、単にスピーカ２９１とも称する。

　この例では、スピーカシステム２５２を構成するNls個の各スピーカ２９１－１は、主に比較的低い帯域から高域までの広い帯域（広帯域）を再生帯域としてもつ広帯域用のラウドスピーカ（Loudspeaker）と呼ばれるスピーカである。スピーカシステム２５２では、これらのNls個のスピーカ２９１－１により、広帯域用の１つのスピーカレイアウトが形成される。

　また、スピーカシステム２５２を構成するNsw個の各スピーカ２９１－２は、例えば100Hz程度以下の低帯域の再生帯域をもつ、低域補強用のサブウーハ（Sub-woofer）と呼ばれるスピーカである。スピーカシステム２５２では、これらのNsw個のスピーカ２９１－２により、低帯域用の１つのスピーカレイアウトが形成される。

　レンダリング処理部２８１－１およびレンダリング処理部２８１－２には、それぞれコンテンツを構成するN個のオブジェクトのオブジェクトデータが供給される。

　レンダリング処理部２８１－１およびレンダリング処理部２８１－２は、供給されたオブジェクトデータを構成するオブジェクト信号とメタデータとに基づいてVBAP等のレンダリング処理を行う。すなわち、レンダリング処理部２８１－１およびレンダリング処理部２８１－２では、レンダリング処理部４１における場合と同様の処理が行われる。

　例えばレンダリング処理部２８１－１では、オブジェクトごとにスピーカ２９１－１－１乃至スピーカ２９１－１－Nlsのそれぞれを出力先とするスピーカ再生信号のそれぞれが生成される。そして、同じスピーカ２９１－１について生成されたオブジェクトごとのスピーカ再生信号が加算され、最終的なスピーカ再生信号とされる。

　特に、レンダリング処理としてVBAPが行われる場合には、レンダリング処理部２８１－１では、Nls個のスピーカ２９１－１により形成されるメッシュが用いられる。

　レンダリング処理部２８１－１は、スピーカ２９１－１－１乃至スピーカ２９１－１－Nlsについて生成した最終的なスピーカ再生信号を、HPF２８２－１乃至HPF２８２－Nlsに供給する。

　レンダリング処理部２８１－２もレンダリング処理部２８１－１と同様にして、スピーカ２９１－２－１乃至スピーカ２９１－２－Nswのそれぞれを最終的な出力先とする、各スピーカ２９１－２のスピーカ再生信号を生成する。特に、レンダリング処理としてVBAPが行われる場合には、レンダリング処理部２８１－２では、Nsw個のスピーカ２９１－２により形成されるメッシュが用いられる。

　また、レンダリング処理部２８１－２には、LFEチャネル信号が供給される。

　一般的にLFEチャネル信号は定位情報（位置情報）を持たないので、レンダリング処理部２８１－２では、VBAP等のレンダリング処理ではなく、全てのスピーカ２９１－２にLFEチャネル信号が分配されるように一定の係数が掛けられて出力される。

　すなわち、レンダリング処理部２８１－２は、スピーカ２９１－２ごとに、レンダリング処理により得られたスピーカ２９１－２に対応するスピーカ再生信号に対して、LFEチャネル信号を所定の係数によりゲイン調整して得られた信号を加算し、最終的なスピーカ再生信号とする。このとき、ゲイン調整で用いられる係数は、例えば（1/Nsw）^1/2などとすることができる。

　レンダリング処理部２８１－２は、スピーカ２９１－２－１乃至スピーカ２９１－２－Nswについて生成した最終的なスピーカ再生信号を、LPF２８３－１乃至LPF２８３－Nswに供給する。

　以下、レンダリング処理部２８１－１およびレンダリング処理部２８１－２を特に区別する必要のない場合、単にレンダリング処理部２８１とも称することとする。

　HPF２８２－１乃至HPF２８２－Nlsは、少なくともスピーカ２９１－１の再生帯域を含む周波数帯域、すなわち比較的広い所定帯域の周波数成分を通過させるHPFである。

　HPF２８２－１乃至HPF２８２－Nlsは、レンダリング処理部２８１－１から供給されたスピーカ再生信号に対してフィルタリング処理を行い、その結果得られた所定帯域の周波数の成分からなるスピーカ再生信号をD/A変換部２７１－１－１乃至D/A変換部２７１－１－Nlsに供給する。

　なお、以下、HPF２８２－１乃至HPF２８２－Nlsを特に区別する必要のない場合、単にHPF２８２とも称することとする。このHPF２８２も図２に示したHPF４２と同様に、スピーカ２９１－１の有する再生帯域に応じた帯域制限処理を行う帯域制限処理部として機能する。

　LPF２８３－１乃至LPF２８３－Nswは、少なくともスピーカ２９１－２の再生帯域を含む周波数帯域、すなわち例えば100Hz程度以下の帯域の周波数成分を通過させるLPFである。

　LPF２８３－１乃至LPF２８３－Nswは、レンダリング処理部２８１－２から供給されたスピーカ再生信号に対してフィルタリング処理を行い、その結果得られた低い帯域の周波数成分からなるスピーカ再生信号をD/A変換部２７１－２－１乃至D/A変換部２７１－２－Nswに供給する。

　なお、以下、LPF２８３－１乃至LPF２８３－Nswを特に区別する必要のない場合、単にLPF２８３とも称することとする。このLPF２８３も図２に示したLPF４４と同様に、スピーカ２９１－２の有する再生帯域に応じた帯域制限処理を行う帯域制限処理部として機能する。

　D/A変換部２７１－１－１乃至D/A変換部２７１－１－Nlsは、HPF２８２－１乃至HPF２８２－Nlsから供給されたスピーカ再生信号をD/A変換し、その結果得られたアナログのスピーカ再生信号を増幅部２７２－１－１乃至増幅部２７２－１－Nlsに供給する。

　以下、D/A変換部２７１－１－１乃至D/A変換部２７１－１－Nlsを特に区別する必要のない場合、単にD/A変換部２７１－１とも称することとする。

　D/A変換部２７１－２－１乃至D/A変換部２７１－２－Nswは、LPF２８３－１乃至LPF２８３－Nswから供給されたスピーカ再生信号をD/A変換し、その結果得られたアナログのスピーカ再生信号を増幅部２７２－２－１乃至増幅部２７２－２－Nswに供給する。

　以下、D/A変換部２７１－２－１乃至D/A変換部２７１－２－Nswを特に区別する必要のない場合、単にD/A変換部２７１－２とも称することとする。また、以下、D/A変換部２７１－１およびD/A変換部２７１－２を特に区別する必要のない場合、単にD/A変換部２７１とも称することとする。

　増幅部２７２－１－１乃至増幅部２７２－１－Nlsは、D/A変換部２７１－１－１乃至D/A変換部２７１－１－Nlsから供給されたスピーカ再生信号を増幅させ、スピーカ２９１－１－１乃至スピーカ２９１－１－Nlsに供給する。

　増幅部２７２－２－１乃至増幅部２７２－２－Nswは、D/A変換部２７１－２－１乃至D/A変換部２７１－２－Nswから供給されたスピーカ再生信号を増幅させ、スピーカ２９１－２－１乃至スピーカ２９１－２－Nswに供給する。

　なお、以下、増幅部２７２－１－１乃至増幅部２７２－１－Nlsを特に区別する必要のない場合、単に増幅部２７２－１とも称し、増幅部２７２－２－１乃至増幅部２７２－２－Nswを特に区別する必要のない場合、単に増幅部２７２－２とも称することとする。

　また、以下、増幅部２７２－１および増幅部２７２－２を特に区別する必要のない場合、単に増幅部２７２とも称することとする。

　スピーカ２９１－１－１乃至スピーカ２９１－１－Nlsは、増幅部２７２－１－１乃至増幅部２７２－１－Nlsから供給されたスピーカ再生信号に基づいて音を出力する。

　スピーカ２９１－２－１乃至スピーカ２９１－２－Nswは、増幅部２７２－２－１乃至増幅部２７２－２－Nswから供給されたスピーカ再生信号に基づいて音を出力する。

　このようにスピーカシステム２５２は、互いに異なる再生帯域を有する複数のスピーカ２９１から構成される。すなわち、コンテンツを受聴する受聴者の周囲には、再生帯域が互いに異なる複数のスピーカ２９１が混在して配置される。

　なお、ここではスピーカシステム２５２が音響処理装置２５１とは別に設けられている例について説明するが、スピーカシステム２５２が音響処理装置２５１に設けられた構成としてもよい。

　また、帯域制限処理部として機能するHPF２８２およびLPF２８３の周波数特性、すなわち制限帯域（通過帯域）は、例えば図１２に示すようになされている。なお、図１２において横軸は周波数（Hz）を示しており、縦軸は音圧レベル（dB）を示している。

　図１２では、折れ線L21はHPF２８２の周波数特性を示しており、折れ線L22はLPF２８３の周波数特性を示している。

　折れ線L21から分かるように、HPF２８２では、LPF２８３よりも高い周波数帯域、すなわち100Hz程度以上の広い周波数帯域の成分を通過させる高域通過フィルタリングが行われる。これに対して、折れ線L22から分かるようにLPF２８３では、HPF２８２よりも低い周波数帯域、すなわち100Hz程度以下の低い周波数の成分を通過させる低域通過フィルタリングが行われる。ここではHPF２８２とLPF２８３の通過帯域がクロスオーバーしているが、HPF２８２とLPF２８３の通過帯域がクロスオーバーしていなくてもよい。

　なお、オーディオ再生システム２４１では、Nls個のHPF２８２は同一の特性（周波数特性）を有しているものとするが、これらのNls個のHPF２８２は互いに異なる特性を有するフィルタ（HPF）であってもよい。また、レンダリング処理部２８１－１とスピーカ２９１－１との間にHPF２８２が設けられないようにしてもよい。

　同様に、Nsw個のLPF２８３は同一の特性（周波数特性）を有しているものとするが、これらのLPF２８３は互いに異なる特性を有していてもよいし、レンダリング処理部２８１－２とスピーカ２９１－２との間にLPF２８３が設けられないようにしてもよい。

〈再生処理の説明〉
　次に、図１３のフローチャートを参照して、オーディオ再生システム２４１による再生処理について説明する。

　ステップＳ１４１においてレンダリング処理部２８１－１は、供給されたN個のオブジェクトデータに基づいて、広帯域用のスピーカ２９１－１についてレンダリング処理を行い、その結果得られたスピーカ再生信号をHPF２８２に供給する。例えばステップＳ１４１では、図４のステップＳ１１と同様の処理が行われる。

　ステップＳ１４２においてHPF２８２は、レンダリング処理部２８１－１から供給されたスピーカ再生信号に対してHPFによるフィルタリング処理（帯域制限処理）を行う。

　HPF２８２は、フィルタリング処理により得られた、帯域制限後のスピーカ再生信号をD/A変換部２７１－１および増幅部２７２－１を介してスピーカ２９１－１に供給する。

　ステップＳ１４３においてレンダリング処理部２８１－２は、供給されたN個のオブジェクトデータに基づいて、低帯域用のスピーカ２９１－２についてレンダリング処理を行う。例えばステップＳ１４３では、図４のステップＳ１５と同様の処理が行われる。

　ステップＳ１４４においてレンダリング処理部２８１－２は、供給されたLFEチャネル信号を所定の係数によりゲイン調整してスピーカ再生信号に加算し、その結果得られた最終的なスピーカ再生信号をLPF２８３に供給する。

　ステップＳ１４５においてLPF２８３は、レンダリング処理部２８１－２から供給されたスピーカ再生信号に対してLPFによるフィルタリング処理（帯域制限処理）を行う。

　LPF２８３は、フィルタリング処理により得られた、帯域制限後のスピーカ再生信号をD/A変換部２７１－２および増幅部２７２－２を介してスピーカ２９１－２に供給する。

　音響処理装置２５１では、ステップＳ１４３およびステップＳ１４４の処理により、ベース・マネジメントが実現される。

　特に、この例ではレンダリング処理部２８１－２により低帯域についてのレンダリング処理が行われるため、複雑な設計を必要とすることなく、簡単にオブジェクトの定位感の低下を抑制することができる。

　ステップＳ１４６においてスピーカシステム２５２を構成する全スピーカ２９１は、増幅部２７２から供給されたスピーカ再生信号に基づいて音を出力し、再生処理は終了する。

　以上のようにしてオーディオ再生システム２４１は、スピーカ２９１が有する再生帯域ごと、すなわち複数の再生帯域のスピーカレイアウトごとにレンダリング処理を行うとともに、LFEチャネル信号のゲイン調整を行い、低帯域のスピーカ再生信号に加算する。

　このようにすることで、オーディオ再生システム２４１では、複数のサブウーハ（スピーカ２９１－２）を用いて低域補強をした場合でも、オブジェクトのメタデータに応じた最適なレンダリングが実現される。これにより、スピーカ２９１の再生帯域に起因する音質の劣化を抑制するとともに、複雑な設計を必要とすることなく、簡単にオブジェクトの定位感の低下を抑制し、より高音質なオーディオ再生を行うことができる。

〈コンピュータの構成例〉
　ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図１４は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

　バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

　入力部５０６は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

　以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、本技術は、以下の構成とすることも可能である。

（１）
　オーディオ信号に基づいてレンダリング処理を行い、複数の第１のスピーカにより音を出力するための第１の出力オーディオ信号を生成する第１のレンダリング処理部と、
　前記オーディオ信号に基づいてレンダリング処理を行い、前記第１のスピーカとは再生帯域が異なる複数の第２のスピーカにより音を出力するための第２の出力オーディオ信号を生成する第２のレンダリング処理部と
　を備える音響処理装置。
（２）
　前記第１の出力オーディオ信号に対して、前記第１のスピーカの再生帯域に応じた帯域制限処理を行う第１の帯域制限処理部と、
　前記第２の出力オーディオ信号に対して、前記第２のスピーカの再生帯域に応じた帯域制限処理を行う第２の帯域制限処理部と
　をさらに備える（１）に記載の音響処理装置。
（３）
　前記オーディオ信号に対して、前記第１のスピーカの再生帯域に応じた帯域制限処理を行う第３の帯域制限処理部と、
　前記第３の帯域制限処理部による帯域制限処理により得られた第１の帯域制限信号に基づいてレンダリング処理を行い、複数の前記第１のスピーカにより音を出力するための第３の出力オーディオ信号を生成する第３のレンダリング処理部と、
　前記オーディオ信号に対して、前記第２のスピーカの再生帯域に応じた帯域制限処理を行う第４の帯域制限処理部と、
　前記第４の帯域制限処理部による帯域制限処理により得られた第２の帯域制限信号に基づいてレンダリング処理を行い、複数の前記第２のスピーカにより音を出力するための第４の出力オーディオ信号を生成する第４のレンダリング処理部と、
　　前記第３の帯域制限処理部および前記第４の帯域制限処理部に帯域制限処理を行わせるとともに、前記第３のレンダリング処理部および前記第４のレンダリング処理部にレンダリング処理を行わせるか、
　　または
　　前記第１のレンダリング処理部および前記第２のレンダリング処理部にレンダリング処理を行わせるとともに、前記第１の帯域制限処理部および前記第２の帯域制限処理部に帯域制限処理を行わせるか
　を選択する選択部と
　をさらに備える（２）に記載の音響処理装置。
（４）
　前記選択部は、前記オーディオ信号の数と、前記第１のスピーカおよび前記第２のスピーカの総数とに基づいて前記選択を行う
　（３）に記載の音響処理装置。
（５）
　前記オーディオ信号に対して、前記第１のスピーカの再生帯域に応じた帯域制限処理を行う第１の帯域制限処理部と、
　前記オーディオ信号に対して、前記第２のスピーカの再生帯域に応じた帯域制限処理を行う第２の帯域制限処理部と
　をさらに備え、
　前記第１のレンダリング処理部は、前記第１の帯域制限処理部による帯域制限処理により得られた第１の帯域制限信号に基づいてレンダリング処理を行い、
　前記第２のレンダリング処理部は、前記第２の帯域制限処理部による帯域制限処理により得られた第２の帯域制限信号に基づいてレンダリング処理を行う
　（１）に記載の音響処理装置。
（６）
　前記オーディオ信号、および前記オーディオ信号に関する情報の少なくとも何れか一方に基づいて、前記オーディオ信号ごとに、前記オーディオ信号に基づくレンダリング処理を、前記第１のレンダリング処理部に行わせるか、前記第２のレンダリング処理部に行わせるか、または前記第１のレンダリング処理部と前記第２のレンダリング処理部の両方に行わせるかを判定する判定部をさらに備える
　（１）、（２）、または（５）に記載の音響処理装置。
（７）
　前記判定部は、前記オーディオ信号の周波数特性に基づいて前記判定を行う
　（６）に記載の音響処理装置。
（８）
　前記判定部は、前記オーディオ信号の音源種別を示す情報に基づいて前記判定を行う
　（６）または（７）に記載の音響処理装置。
（９）
　前記オーディオ信号は、オーディオオブジェクトのオブジェクト信号であり、
　前記第１のレンダリング処理部および前記第２のレンダリング処理部は、前記オーディオ信号、および前記オーディオ信号のメタデータに基づいてレンダリング処理を行う
　（１）乃至（８）の何れか一項に記載の音響処理装置。
（１０）
　前記メタデータには、前記オーディオオブジェクトの位置を示す位置情報が含まれている
　（９）に記載の音響処理装置。
（１１）
　前記位置情報は、所定の受聴位置を基準とした前記オーディオオブジェクトの相対的な位置を示す情報である
　（１０）に記載の音響処理装置。
（１２）
　前記第２のレンダリング処理部は、レンダリング処理により得られた前記第２の出力オーディオ信号と、チャネルベースのオーディオ信号とを加算して、最終的な前記第２の出力オーディオ信号とする
　（９）乃至（１１）の何れか一項に記載の音響処理装置。
（１３）
　前記チャネルベースのオーディオ信号は、LFEチャネルのオーディオ信号である
　（１２）に記載の音響処理装置。
（１４）
　前記第１のレンダリング処理部および前記第２のレンダリング処理部は、レンダリング処理としてVBAPを用いた処理を行う
　（１）乃至（１３）の何れか一項に記載の音響処理装置。
（１５）
　前記複数の前記第１のスピーカおよび前記複数の前記第２のスピーカをさらに備える
　（１）乃至（１４）の何れか一項に記載の音響処理装置。
（１６）
　音響処理装置が、
　オーディオ信号に基づいてレンダリング処理を行い、複数の第１のスピーカにより音を出力するための第１の出力オーディオ信号を生成し、
　前記オーディオ信号に基づいてレンダリング処理を行い、前記第１のスピーカとは再生帯域が異なる複数の第２のスピーカにより音を出力するための第２の出力オーディオ信号を生成する
　音響処理方法。
（１７）
　オーディオ信号に基づいてレンダリング処理を行い、複数の第１のスピーカにより音を出力するための第１の出力オーディオ信号を生成し、
　前記オーディオ信号に基づいてレンダリング処理を行い、前記第１のスピーカとは再生帯域が異なる複数の第２のスピーカにより音を出力するための第２の出力オーディオ信号を生成する
　ステップを含む処理をコンピュータに実行させるプログラム。

　１１　オーディオ再生システム，　２１　音響処理装置，　２２　スピーカシステム，　４１－１乃至４１－３，４１　レンダリング処理部，　４２－１乃至４２－Nt，４２　HPF，　４３－１乃至４３－Ns，４３　BPF，　４４－１乃至４４－Nw，４４　LPF，　１５１　選択部，　２１１　判定部

Claims

　オーディオ信号に基づいてレンダリング処理を行い、複数の第１のスピーカにより音を出力するための第１の出力オーディオ信号を生成する第１のレンダリング処理部と、
　前記オーディオ信号に基づいてレンダリング処理を行い、前記第１のスピーカとは再生帯域が異なる複数の第２のスピーカにより音を出力するための第２の出力オーディオ信号を生成する第２のレンダリング処理部と
　を備える音響処理装置。
　前記第１の出力オーディオ信号に対して、前記第１のスピーカの再生帯域に応じた帯域制限処理を行う第１の帯域制限処理部と、
　前記第２の出力オーディオ信号に対して、前記第２のスピーカの再生帯域に応じた帯域制限処理を行う第２の帯域制限処理部と
　をさらに備える請求項１に記載の音響処理装置。
　前記オーディオ信号に対して、前記第１のスピーカの再生帯域に応じた帯域制限処理を行う第３の帯域制限処理部と、
　前記第３の帯域制限処理部による帯域制限処理により得られた第１の帯域制限信号に基づいてレンダリング処理を行い、複数の前記第１のスピーカにより音を出力するための第３の出力オーディオ信号を生成する第３のレンダリング処理部と、
　前記オーディオ信号に対して、前記第２のスピーカの再生帯域に応じた帯域制限処理を行う第４の帯域制限処理部と、
　前記第４の帯域制限処理部による帯域制限処理により得られた第２の帯域制限信号に基づいてレンダリング処理を行い、複数の前記第２のスピーカにより音を出力するための第４の出力オーディオ信号を生成する第４のレンダリング処理部と、
　　前記第３の帯域制限処理部および前記第４の帯域制限処理部に帯域制限処理を行わせるとともに、前記第３のレンダリング処理部および前記第４のレンダリング処理部にレンダリング処理を行わせるか、
　　または
　　前記第１のレンダリング処理部および前記第２のレンダリング処理部にレンダリング処理を行わせるとともに、前記第１の帯域制限処理部および前記第２の帯域制限処理部に帯域制限処理を行わせるか
　を選択する選択部と
　をさらに備える請求項２に記載の音響処理装置。
　前記選択部は、前記オーディオ信号の数と、前記第１のスピーカおよび前記第２のスピーカの総数とに基づいて前記選択を行う
　請求項３に記載の音響処理装置。
　前記オーディオ信号に対して、前記第１のスピーカの再生帯域に応じた帯域制限処理を行う第１の帯域制限処理部と、
　前記オーディオ信号に対して、前記第２のスピーカの再生帯域に応じた帯域制限処理を行う第２の帯域制限処理部と
　をさらに備え、
　前記第１のレンダリング処理部は、前記第１の帯域制限処理部による帯域制限処理により得られた第１の帯域制限信号に基づいてレンダリング処理を行い、
　前記第２のレンダリング処理部は、前記第２の帯域制限処理部による帯域制限処理により得られた第２の帯域制限信号に基づいてレンダリング処理を行う
　請求項１に記載の音響処理装置。
　前記オーディオ信号、および前記オーディオ信号に関する情報の少なくとも何れか一方に基づいて、前記オーディオ信号ごとに、前記オーディオ信号に基づくレンダリング処理を、前記第１のレンダリング処理部に行わせるか、前記第２のレンダリング処理部に行わせるか、または前記第１のレンダリング処理部と前記第２のレンダリング処理部の両方に行わせるかを判定する判定部をさらに備える
　請求項１に記載の音響処理装置。
　前記判定部は、前記オーディオ信号の周波数特性に基づいて前記判定を行う
　請求項６に記載の音響処理装置。
　前記判定部は、前記オーディオ信号の音源種別を示す情報に基づいて前記判定を行う
　請求項６に記載の音響処理装置。
　前記オーディオ信号は、オーディオオブジェクトのオブジェクト信号であり、
　前記第１のレンダリング処理部および前記第２のレンダリング処理部は、前記オーディオ信号、および前記オーディオ信号のメタデータに基づいてレンダリング処理を行う
　請求項１に記載の音響処理装置。
　前記メタデータには、前記オーディオオブジェクトの位置を示す位置情報が含まれている
　請求項９に記載の音響処理装置。
　前記位置情報は、所定の受聴位置を基準とした前記オーディオオブジェクトの相対的な位置を示す情報である
　請求項１０に記載の音響処理装置。
　前記第２のレンダリング処理部は、レンダリング処理により得られた前記第２の出力オーディオ信号と、チャネルベースのオーディオ信号とを加算して、最終的な前記第２の出力オーディオ信号とする
　請求項９に記載の音響処理装置。
　前記チャネルベースのオーディオ信号は、LFEチャネルのオーディオ信号である
　請求項１２に記載の音響処理装置。
　前記第１のレンダリング処理部および前記第２のレンダリング処理部は、レンダリング処理としてVBAPを用いた処理を行う
　請求項１に記載の音響処理装置。
　前記複数の前記第１のスピーカおよび前記複数の前記第２のスピーカをさらに備える
　請求項１に記載の音響処理装置。
　音響処理装置が、
　オーディオ信号に基づいてレンダリング処理を行い、複数の第１のスピーカにより音を出力するための第１の出力オーディオ信号を生成し、
　前記オーディオ信号に基づいてレンダリング処理を行い、前記第１のスピーカとは再生帯域が異なる複数の第２のスピーカにより音を出力するための第２の出力オーディオ信号を生成する
　音響処理方法。
　オーディオ信号に基づいてレンダリング処理を行い、複数の第１のスピーカにより音を出力するための第１の出力オーディオ信号を生成し、
　前記オーディオ信号に基づいてレンダリング処理を行い、前記第１のスピーカとは再生帯域が異なる複数の第２のスピーカにより音を出力するための第２の出力オーディオ信号を生成する
　処理をコンピュータに実行させるプログラム。