WO2021261235A1

WO2021261235A1 - 信号処理装置および方法、並びにプログラム

Info

Publication number: WO2021261235A1
Application number: PCT/JP2021/021663
Authority: WO
Inventors: 弘幸本間; 徹知念
Original assignee: ソニーグループ株式会社
Priority date: 2020-06-22
Filing date: 2021-06-08
Publication date: 2021-12-30
Also published as: US20230345195A1; JPWO2021261235A1; EP4171065A4; EP4171065A1; CN115836535A

Abstract

本技術は、低コストな装置でも高品質なオーディオ再生を行うことができるようにする信号処理装置および方法、並びにプログラムに関する。信号処理装置は、第１のオーディオ信号と、第１のオーディオ信号の帯域拡張のための第１の帯域拡張情報と、第１のオーディオ信号に所定の信号処理を施して得られる第２のオーディオ信号の帯域拡張のための第２の帯域拡張情報とを取得する取得部と、第１の帯域拡張情報と第２の帯域拡張情報の何れに基づき帯域拡張を行うかを選択する選択部と、選択された第１の帯域拡張情報または第２の帯域拡張情報と、第１のオーディオ信号または第２のオーディオ信号とに基づいて帯域拡張を行い、第３のオーディオ信号を生成する帯域拡張部とを備える。本技術は信号処理装置に適用することができる。

Description

信号処理装置および方法、並びにプログラム

　本技術は、信号処理装置および方法、並びにプログラムに関し、特に、低コストな装置でも高品質なオーディオ再生を行うことができるようにした信号処理装置および方法、並びにプログラムに関する。

　従来、映画やゲーム等でオブジェクトオーディオ技術が使われ、オブジェクトオーディオを扱える符号化方式も開発されている。具体的には、例えば国際標準規格であるMPEG（Moving Picture Experts Group）-H Part 3:3D audio規格などが知られている（例えば、非特許文献１参照）。

　このような符号化方式では、従来の２チャネルステレオ方式や５．１チャネル等のマルチチャネルステレオ方式とともに、移動する音源等を独立したオーディオオブジェクト（以下、単にオブジェクトとも称する）として扱い、オーディオオブジェクトの信号データとともにオブジェクトの位置情報をメタデータとして符号化することが可能である。

　これにより、スピーカの数や配置の異なる様々な視聴環境で再生を行うことができる。また、従来の符号化方式では困難であった特定の音源の音の音量調整や、特定の音源の音に対するエフェクトの追加など、特定の音源の音を再生時に加工することが容易にできる。

　このような符号化方式では、復号側においてビットストリームに対するデコードが行われ、オブジェクトのオーディオ信号であるオブジェクト信号と、空間内におけるオブジェクトの位置を示すオブジェクト位置情報を含むメタデータとが得られる。

　そして、オブジェクト位置情報に基づいて、空間内に仮想的に配置された複数の各仮想スピーカにオブジェクト信号をレンダリングするレンダリング処理が行われる。例えば非特許文献１の規格では、レンダリング処理に３次元VBAP（Vector Based Amplitude Panning）（以下、単にVBAPと称する）と呼ばれる方式が用いられる。

　また、レンダリング処理により、各仮想スピーカに対応する仮想スピーカ信号が得られると、それらの仮想スピーカ信号に基づいてHRTF（Head Related Transfer Function）処理が行われる。このHRTF処理では、あたかも仮想スピーカから音が再生されているかのように実際のヘッドフォンやスピーカから音を出力させるための出力オーディオ信号が生成される。

　このようなオブジェクトオーディオを実際に再生する場合、空間上に実際のスピーカを多数配置できるときには、仮想スピーカ信号に基づく再生が行われる。また、多数のスピーカを配置することができず、ヘッドフォンやサウンドバーなどの小数のスピーカでオブジェクトオーディオを再生するときには、上述の出力オーディオ信号に基づく再生が行われる。

　一方で、近年、ストレージ価格の下落やネットワークの広帯域化により、サンプリング周波数が96kHz以上の、いわゆるハイレゾ音源、すなわちハイレゾリューション音源が楽しめるようになってきている。

　非特許文献１に記載の符号化方式では、ハイレゾ音源を効率的に符号化するための技術として、SBR（Spectral Band Replication）等の技術を用いることができる。

　例えばSBRにおいては、符号化側では、スペクトルの高域成分は符号化されずに、高域サブバンド信号の平均振幅情報が高域サブバンドの個数分だけ符号化されて伝送される。

　そして、復号側においては、低域サブバンド信号と、高域の平均振幅情報とに基づいて、低域成分と高域成分とが含まれる最終的な出力信号が生成される。これにより、より高品質なオーディオ再生を実現することができる。

　この手法では、人間は高域信号成分の位相変化には鈍感で、その周波数包絡の概形がもとの信号に近い場合、その差を知覚できないという聴覚特性が利用されており、このような手法は、一般的に帯域拡張技術として広く知られている。

INTERNATIONAL STANDARD ISO/IEC 23008-3 Second edition 2019-02 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio

　ところで、上述のオブジェクトオーディオについて、レンダリング処理やHRTF処理と組み合わせて帯域拡張を行う場合、各オブジェクトのオブジェクト信号に対して帯域拡張処理が行われてから、レンダリング処理やHRTF処理が行われる。

　この場合、帯域拡張処理はオブジェクトの数だけ独立に行われるため、処理負荷、すなわち演算量が多くなってしまう。また、帯域拡張処理後には、帯域拡張により得られた、よりサンプリング周波数の高い信号を対象としてレンダリング処理やHRTF処理が行われるため、さらに処理負荷が増大してしまう。

　そうすると、低コストなプロセッサやバッテリの装置、すなわち演算処理能力が低い装置や、バッテリ容量が少ない装置など、低コストな装置では帯域拡張を行うことができず、結果として高品質なオーディオ再生を行うことができなくなってしまう。

　本技術は、このような状況に鑑みてなされたものであり、低コストな装置でも高品質なオーディオ再生を行うことができるようにするものである。

　本技術の一側面の信号処理装置は、第１のオーディオ信号と、前記第１のオーディオ信号の帯域拡張のための第１の帯域拡張情報と、前記第１のオーディオ信号に所定の信号処理を施して得られる第２のオーディオ信号の帯域拡張のための第２の帯域拡張情報とを取得する取得部と、前記第１の帯域拡張情報と前記第２の帯域拡張情報の何れに基づき帯域拡張を行うかを選択する選択部と、選択された前記第１の帯域拡張情報または前記第２の帯域拡張情報と、前記第１のオーディオ信号または前記第２のオーディオ信号とに基づいて帯域拡張を行い、第３のオーディオ信号を生成する帯域拡張部とを備える。

　本技術の一側面の信号処理方法またはプログラムは、第１のオーディオ信号と、前記第１のオーディオ信号の帯域拡張のための第１の帯域拡張情報と、前記第１のオーディオ信号に所定の信号処理を施して得られる第２のオーディオ信号の帯域拡張のための第２の帯域拡張情報とを取得し、前記第１の帯域拡張情報と前記第２の帯域拡張情報の何れに基づき帯域拡張を行うかを選択し、選択された前記第１の帯域拡張情報または前記第２の帯域拡張情報と、前記第１のオーディオ信号または前記第２のオーディオ信号とに基づいて帯域拡張を行い、第３のオーディオ信号を生成するステップを含む。

　本技術の一側面においては、第１のオーディオ信号と、前記第１のオーディオ信号の帯域拡張のための第１の帯域拡張情報と、前記第１のオーディオ信号に所定の信号処理を施して得られる第２のオーディオ信号の帯域拡張のための第２の帯域拡張情報とが取得され、前記第１の帯域拡張情報と前記第２の帯域拡張情報の何れに基づき帯域拡張を行うかが選択され、選択された前記第１の帯域拡張情報または前記第２の帯域拡張情報と、前記第１のオーディオ信号または前記第２のオーディオ信号とに基づいて帯域拡張が行われ、第３のオーディオ信号が生成される。

出力オーディオ信号の生成について説明する図である。 VBAPについて説明する図である。 HRTF処理について説明する図である。帯域拡張処理について説明する図である。帯域拡張処理について説明する図である。信号処理装置の構成例を示す図である。入力ビットストリームのシンタックス例を示す図である。信号生成処理を説明するフローチャートである。信号処理装置の構成例を示す図である。エンコーダの構成例を示す図である。符号化処理を説明するフローチャートである。信号処理装置の構成例を示す図である。信号生成処理を説明するフローチャートである。信号処理装置の構成例を示す図である。信号処理装置の構成例を示す図である。コンピュータの構成例を示す図である。

　以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈本技術について〉
　本技術は、符号化前のオブジェクト信号から直接得られる、帯域拡張処理のための高域情報とは別に、予め仮想スピーカ信号や出力オーディオ信号を対象とした帯域拡張処理のための高域情報をビットストリーム中に多重化して伝送するようにした。

　これにより、処理負荷の高いデコード処理やレンダリング処理、バーチャライズ処理を低いサンプリング周波数で行い、その後、高域情報に基づいて帯域拡張処理を行うようにすることができ、全体として演算量を低減させることができる。その結果、低コストな装置でも、より高いサンプリング周波数の出力オーディオ信号に基づく、高品質なオーディオ再生を行うことができる。

　まず、MPEG-H Part 3:3D audio規格の符号化方式での符号化により得られたビットストリームに対して復号（デコード）を行い、オブジェクトオーディオの出力オーディオ信号を生成するときに行われる一般的な処理について説明する。

　例えば図１に示すように、符号化（エンコード）により得られた入力ビットストリームがデコード処理部１１に入力されると、その入力ビットストリームに対して非多重化およびデコード処理が行われる。

　デコード処理によって、コンテンツを構成するオブジェクト（オーディオオブジェクト）の音を再生するためのオーディオ信号であるオブジェクト信号と、そのオブジェクトの空間内の位置を示すオブジェクト位置情報を含むメタデータとが得られる。

　続いて、レンダリング処理部１２では、メタデータに含まれるオブジェクト位置情報に基づいて、空間内に仮想的に配置された仮想スピーカにオブジェクト信号をレンダリングするレンダリング処理が行われ、各仮想スピーカから出力される音を再生するための仮想スピーカ信号が生成される。

　さらに、バーチャライズ処理部１３では、各仮想スピーカの仮想スピーカ信号に基づいてバーチャライズ処理が行われ、ユーザが装着するヘッドフォンや実空間に配置されたスピーカなどの再生装置から音を出力させるための出力オーディオ信号が生成される。

　バーチャライズ処理とは、実際の再生環境でのチャネル構成とは異なるチャネル構成で再生が行われているかのようなオーディオ再生を実現するためのオーディオ信号を生成する処理である。

　例えば、この例では、実際にはヘッドフォン等の再生装置から音が出力されているのにもかかわらず、あたかも各仮想スピーカから音が出力されているかのようなオーディオ再生を実現するための出力オーディオ信号を生成する処理がバーチャライズ処理である。

　バーチャライズ処理は、どのような手法により実現されてもよいが、以下ではバーチャライズ処理としてHRTF処理が行われるものとして説明を続ける。

　バーチャライズ処理で得られた出力オーディオ信号に基づいて、実際のヘッドフォンやスピーカから音を出力すれば、あたかも仮想スピーカから音が再生されているかのようなオーディオ再生を実現することができる。なお、以下では、実空間に実際に配置されるスピーカを特に実スピーカとも称することとする。

　このようなオブジェクトオーディオを再生する場合、空間内に多数の実スピーカを配置できるときには、レンダリング処理の出力をそのまま実スピーカで再生することができる。

　これに対して、空間内に多数の実スピーカを配置できないときには、HRTF処理を行ってヘッドフォンや、サウンドバーなどの少数の実スピーカによって再生を行うことになる。一般的には、ヘッドフォンや少数の実スピーカによって再生を行うことが多い。

　ここで、一般的なレンダリング処理とHRTF処理について、さらに説明を行う。

　例えばレンダリング時には、上述したVBAPなどの所定の方式のレンダリング処理が行われる。VBAPは一般的にパニングと呼ばれるレンダリング手法の１つで、ユーザ位置を原点とする球表面上に存在する仮想スピーカのうち、同じく球表面上に存在するオブジェクトに最も近い３個の仮想スピーカに対しゲインを分配することでレンダリングを行うものである。

　例えば図２に示すように、３次元空間に受聴者であるユーザU11がおり、そのユーザU11の前方に３つの仮想スピーカSP1乃至仮想スピーカSP3が配置されているとする。

　ここでは、ユーザU11の頭部の位置を原点Ｏとし、その原点Ｏを中心とする球の表面上に仮想スピーカSP1乃至仮想スピーカSP3が位置しているとする。

　いま、球表面上における仮想スピーカSP1乃至仮想スピーカSP3に囲まれる領域TR11内にオブジェクトが存在しており、そのオブジェクトの位置VSP1に音像を定位させることを考えるとする。

　そのような場合、VBAPではオブジェクトについて、位置VSP1の周囲にある仮想スピーカSP1乃至仮想スピーカSP3に対してゲインが分配されることになる。

　具体的には、原点Ｏを基準（原点）とする３次元座標系において、原点Ｏを始点とし、位置VSP1を終点とする３次元のベクトルPにより位置VSP1を表すこととする。

　また、原点Ｏを始点とし、各仮想スピーカSP1乃至仮想スピーカSP3の位置を終点とする３次元のベクトルをベクトルL₁乃至ベクトルL₃とすると、ベクトルPは次式（１）に示すようにベクトルL₁乃至ベクトルL₃の線形和によって表すことができる。

　ここで、式（１）においてベクトルL₁乃至ベクトルL₃に乗算されている係数g₁乃至係数g₃を算出し、これらの係数g₁乃至係数g₃を、仮想スピーカSP1乃至仮想スピーカSP3のそれぞれから出力する音のゲインとすれば、位置VSP1に音像を定位させることができる。

　例えば係数g₁乃至係数g₃を要素とするベクトルをg₁₂₃＝［g₁,g₂,g₃］とし、ベクトルL₁乃至ベクトルL₃を要素とするベクトルをL₁₂₃＝［L₁,L₂,L₃］とすると、上述した式（１）を変形して次式（２）を得ることができる。

　このような式（２）を計算して求めた係数g₁乃至係数g₃をゲインとして用いて、オブジェクト信号に基づく音を各仮想スピーカSP1乃至仮想スピーカSP3から出力すれば、位置VSP1に音像を定位させることができる。

　なお、各仮想スピーカSP1乃至仮想スピーカSP3の配置位置は固定されており、それらの仮想スピーカの位置を示す情報は既知であるため、逆行列であるL₁₂₃ ^-1は事前に求めておくことができる。

　図２に示した球表面上における、３個の仮想スピーカにより囲まれる三角形の領域TR11はメッシュと呼ばれている。空間内に配置された多数の仮想スピーカを組み合わせて複数のメッシュを構成することで、オブジェクトの音を空間内の任意の位置に定位させることが可能である。

　このように、各オブジェクトに対して仮想スピーカのゲインが求められると、次式（３）の演算を行うことで、各仮想スピーカの仮想スピーカ信号を得ることができる。

　なお、式（３）においてSP(m,t)は、Ｍ個の仮想スピーカのうちのｍ番目（但し、m＝0,1,…,M-1）の仮想スピーカの時刻ｔにおける仮想スピーカ信号を示している。また、式（３）においてS(n,t)はＮ個のオブジェクトのうちのｎ番目（但し、n＝0,1,…,N-1）のオブジェクトの時刻ｔにおけるオブジェクト信号を示している。

　さらに式（３）においてG(m,n)は、ｍ番目の仮想スピーカについての仮想スピーカ信号SP(m,t)を得るための、ｎ番目のオブジェクトのオブジェクト信号S(n,t)に乗算されるゲインを示している。すなわち、ゲインG(m,n)は、上述した式（２）により求められた、ｎ番目のオブジェクトについてのｍ番目の仮想スピーカに分配されたゲインを示している。

　レンダリング処理では、この式（３）の計算が最も計算コストがかかる処理となる。すなわち、式（３）の演算が最も演算量の多い処理となる。

　次に、式（３）の演算により得られた仮想スピーカ信号に基づく音をヘッドフォンまたは少数の実スピーカで再生する場合に行われるHRTF処理の例について図３を参照して説明する。なお、図３では説明を簡単にするため、２次元の水平面上に仮想スピーカが配置された例となっている。

　図３では、空間内に５個の仮想スピーカSP11-1乃至仮想スピーカSP11-5が円形状に並べられて配置されている。以下、仮想スピーカSP11-1乃至仮想スピーカSP11-5を特に区別する必要のない場合、単に仮想スピーカSP11とも称することとする。

　また、図３では５個の仮想スピーカSP11に囲まれる位置、すなわち仮想スピーカSP11が配置された円の中心位置に受聴者であるユーザU21が位置している。したがって、HRTF処理では、あたかもユーザU21が各仮想スピーカSP11から出力される音を聞いているかのようなオーディオ再生を実現するための出力オーディオ信号が生成される。

　特に、この例ではユーザU21がいる位置を聴取位置として、５個の各仮想スピーカSP11へのレンダリングにより得られた仮想スピーカ信号に基づく音をヘッドフォンにより再生することとする。

　そのような場合、例えば仮想スピーカ信号に基づいて仮想スピーカSP11-1から出力（放射）された音は矢印Q11に示す経路を通り、ユーザU21の左耳の鼓膜に到達する。そのため、仮想スピーカSP11-1から出力された音の特性は、仮想スピーカSP11-1からユーザU21の左耳までの空間伝達特性、ユーザU21の顔や耳の形状や反射吸収特性などにより変化するはずである。

　そこで、仮想スピーカSP11-1の仮想スピーカ信号に対して、仮想スピーカSP11-1からユーザU21の左耳までの空間伝達特性、およびユーザU21の顔や耳の形状、反射吸収特性などが加味された伝達関数H_L_SP11を畳み込めば、ユーザU21の左耳で聞こえるであろう仮想スピーカSP11-1からの音を再生する出力オーディオ信号を得ることができる。

　同様に、例えば仮想スピーカ信号に基づいて仮想スピーカSP11-1から出力された音は矢印Q12に示す経路を通り、ユーザU21の右耳の鼓膜に到達する。したがって、仮想スピーカSP11-1の仮想スピーカ信号に対して、仮想スピーカSP11-1からユーザU21の右耳までの空間伝達特性、およびユーザU21の顔や耳の形状、反射吸収特性などが加味された伝達関数H_R_SP11を畳み込めば、ユーザU21の右耳で聞こえるであろう仮想スピーカSP11-1からの音を再生する出力オーディオ信号を得ることができる。

　これらのことから、最終的に５個の仮想スピーカSP11の仮想スピーカ信号に基づく音をヘッドフォンで再生するときには、左チャネルについては、各仮想スピーカ信号に対して、各仮想スピーカの左耳用の伝達関数を畳み込んで、その結果得られた各信号を足し合わせて左チャネルの出力オーディオ信号とすればよい。

　同様に、右チャネルについては、各仮想スピーカ信号に対して、各仮想スピーカの右耳用の伝達関数を畳み込んで、その結果得られた各信号を足し合わせて右チャネルの出力オーディオ信号とすればよい。

　なお、再生に用いる再生装置がヘッドフォンではなく実スピーカである場合にも、ヘッドフォンにおける場合と同様のHRTF処理が行われる。しかし、この場合にはスピーカからの音は空間伝搬によりユーザの左右の両耳に到達するため、クロストークが考慮された処理が行われることになる。このような処理はトランスオーラル処理とも呼ばれている。

　一般的には周波数表現された左耳用、つまり左チャネルの出力オーディオ信号をL(ω)とし、周波数表現された右耳用、つまり右チャネルの出力オーディオ信号をR(ω)とすると、これらのL(ω)およびR(ω)は次式（４）を計算することで得ることができる。

　なお、式（４）においてωは周波数を示しており、SP(m,ω)はＭ個の仮想スピーカのうちのｍ番目（但し、m＝0,1,…,M-1）の仮想スピーカの周波数ωの仮想スピーカ信号を示している。仮想スピーカ信号SP(m,ω)は、上述した仮想スピーカ信号SP(m,t)を時間周波数変換することにより得ることができる。

　また、式（４）においてH_L(m,ω)は、左チャネルの出力オーディオ信号L(ω)を得るための、ｍ番目の仮想スピーカについての仮想スピーカ信号SP(m,ω)に乗算される左耳用の伝達関数を示している。同様にH_R(m,ω)は右耳用の伝達関数を示している。

　これらのHRTFの伝達関数H_L(m,ω)や伝達関数H_R(m,ω)を時間領域のインパルス応答として表現する場合、少なくとも１秒程度の長さが必要となる。そのため、例えば仮想スピーカ信号のサンプリング周波数が48kHzである場合には、48000タップの畳み込みを行わなければならず、伝達関数の畳み込みにFFT（Fast Fourier Transform）を用いた高速演算手法を用いてもなお多くの演算量が必要となる。

　以上のようにデコード処理、レンダリング処理、およびHRTF処理を行って出力オーディオ信号を生成し、ヘッドフォンや少数個の実スピーカを用いてオブジェクトオーディオを再生する場合、多くの演算量が必要となる。また、この演算量はオブジェクトの数が増えると、その分だけさらに多くなる。

　次に、帯域拡張処理について説明する。

　一般的な帯域拡張処理、すなわちSBRでは、符号化側において、オーディオ信号のスペクトルの高域成分は符号化されずに、高域の周波数帯域である高域サブバンドの高域サブバンド信号の平均振幅情報が高域サブバンドの個数分符号化され、復号側へと伝送される。

　また、復号側では、デコード処理（復号）により得られたオーディオ信号である低域サブバンド信号が、その平均振幅で正規化された後、正規化された信号が高域サブバンドへとコピー（複製）される。そして、その結果得られた信号に各高域サブバンドの平均振幅情報が乗算されて高域サブバンド信号とされ、低域サブバンド信号と高域サブバンド信号とがサブバンド合成されて、最終的な出力オーディオ信号とされる。

　このような帯域拡張処理により、例えばサンプリング周波数が96kHz以上のハイレゾ音源のオーディオ再生を行うことができる。

　しかし、例えば一般的なステレオのオーディオとは異なり、オブジェクトオーディオにおいてサンプリング周波数が96kHzの信号を処理する場合、SBR等の帯域拡張処理が行われるか否かによらず、復号により得られた96kHzのオブジェクト信号に対して、レンダリング処理やHRTF処理が行われることになる。そのため、オブジェクト数や仮想スピーカ数が多い場合、それらの処理の計算コストは莫大なものとなり、高性能のプロセッサと高い消費電力が必要となる。

　ここで、図４を参照して、オブジェクトオーディオにおいて帯域拡張により96kHzの出力オーディオ信号を得る場合に行われる処理例について説明する。なお、図４において図１における場合と対応する部分には同一の符号を付してあり、その説明は省略する。

　入力ビットストリームが供給されると、デコード処理部１１で非多重化およびデコード処理が行われ、その結果得られたオブジェクト信号と、オブジェクトのオブジェクト位置情報および高域情報とが出力される。

　例えば高域情報は、符号化前のオブジェクト信号から得られる高域サブバンド信号の平均振幅情報である。

　換言すれば高域情報は、デコード処理で得られるオブジェクト信号に対応する、よりサンプリング周波数の高い符号化前のオブジェクト信号の高域側の各サブバンド成分の大きさを示す、帯域拡張のための帯域拡張情報である。なお、ここではSBRを例として説明を行っているため、帯域拡張情報として高域サブバンド信号の平均振幅情報が用いられているが、帯域拡張処理のための帯域拡張情報は、符号化前のオブジェクト信号の高域側の各サブバンドの振幅の代表値や、周波数包絡の形状を示す情報など、どのようなものであってもよい。

　また、ここでは、デコード処理により得られるオブジェクト信号は、例えばサンプリング周波数が48kHzのものであるとし、以下では、そのようなオブジェクト信号を低FSオブジェクト信号とも称することとする。

　デコード処理後、帯域拡張部４１では、高域情報と低FSオブジェクト信号とに基づいて帯域拡張処理が行われ、よりサンプリング周波数の高いオブジェクト信号が得られる。この例では、帯域拡張処理により、例えばサンプリング周波数が96kHzであるオブジェクト信号が得られることとし、以下では、そのようなオブジェクト信号を高FSオブジェクト信号とも称することとする。

　また、レンダリング処理部１２では、デコード処理により得られたオブジェクト位置情報と、帯域拡張処理により得られた高FSオブジェクト信号とに基づいてレンダリング処理が行われる。特に、この例ではレンダリング処理により、サンプリング周波数が96kHzである仮想スピーカ信号が得られ、以下では、そのような仮想スピーカ信号を高FS仮想スピーカ信号とも称する。

　さらに、その後、バーチャライズ処理部１３において、高FS仮想スピーカ信号に基づいてHRTF処理等のバーチャライズ処理が行われ、サンプリング周波数が96kHzである出力オーディオ信号が得られる。

　ここで、図５を参照して、一般的な帯域拡張処理について説明する。

　図５は、所定のオブジェクト信号の周波数振幅特性を示している。なお、図５において縦軸は振幅（パワー）を示しており、横軸は周波数を示している。

　例えば折れ線L11は、帯域拡張部４１に供給される低FSオブジェクト信号の周波数振幅特性を示している。この低FSオブジェクト信号は、サンプリング周波数が48kHzであり、低FSオブジェクト信号には24kHz以上の周波数帯域の信号成分は含まれていない。

　ここでは、例えば24kHzまでの周波数帯域が、低域サブバンドsb-8乃至低域サブバンドsb-1を含む複数の低域サブバンドに分割されており、それらの各低域サブバンドの信号成分が低域サブバンド信号である。同様に、24kHzから48kHzまでの周波数帯域が、高域サブバンドsb乃至高域サブバンドsb+13に分割されており、それらの各高域サブバンドの信号成分が高域サブバンド信号である。

　また、帯域拡張部４１には、各高域サブバンドsb乃至高域サブバンドsb+13について、それらの高域サブバンドの平均振幅情報を示す高域情報が供給される。

　例えば図５では、直線L12は、高域サブバンドsbの高域情報として供給される平均振幅情報を示しており、直線L13は、高域サブバンドsb+1の高域情報として供給される平均振幅情報を示している。

　帯域拡張部４１では、低域サブバンド信号が、その低域サブバンド信号の平均振幅値で正規化され、正規化により得られた信号が高域側へとコピー（マッピング）される。ここで、コピー元となる低域サブバンドと、その低域サブバンドのコピー先となる高域サブバンドは拡張周波数帯域等により予め定められている。

　例えば低域サブバンドsb-8の低域サブバンド信号が正規化され、正規化により得られた信号が、高域サブバンドsbへとコピーされる。

　より具体的には、低域サブバンドsb-8の低域サブバンド信号の正規化後の信号に対して変調処理が行われ、高域サブバンドsbの周波数成分の信号へと変換される。

　同様に、例えば低域サブバンドsb-7の低域サブバンド信号は、正規化後、高域サブバンドsb+1へとコピーされる。

　このようにして正規化された低域サブバンド信号が高域サブバンドへとコピー（マッピング）されると、各高域サブバンドのコピーされた信号に対し、それらの各高域サブバンドの高域情報により示される平均振幅情報が乗算され、高域サブバンド信号が生成される。

　例えば高域サブバンドsbでは、低域サブバンドsb-8の低域サブバンド信号を正規化して高域サブバンドsbへとコピーすることにより得られた信号に対して、直線L12により示される平均振幅情報が乗算され、高域サブバンドsbの高域サブバンド信号とされる。

　各高域サブバンドについて、高域サブバンド信号が得られると、その後、各低域サブバンド信号と、各高域サブバンド信号とが96kHzサンプリングの帯域合成フィルタに入力されてフィルタリング（合成）され、その結果得られた高FSオブジェクト信号が出力される。すなわち、サンプリング周波数が96kHzへとアップサンプリングされた、高FSオブジェクト信号が得られる。

　図４に示した例では、帯域拡張部４１において、以上のような高FSオブジェクト信号を生成する帯域拡張処理が、入力ビットストリームに含まれる低FSオブジェクト信号ごとに、すなわちオブジェクトごとに独立して行われる。

　したがって、例えばオブジェクト数が３２個である場合、レンダリング処理部１２では、３２個の各オブジェクトについて、96kHzの高FSオブジェクト信号のレンダリング処理を行わなければならない。

　同様に、その後段のバーチャライズ処理部１３においても、仮想スピーカ数分だけ、96kHzの高FS仮想スピーカ信号のHRTF処理（バーチャライズ処理）を行わなければならない。

　その結果、装置全体における処理負荷は莫大なものとなってしまう。これは、帯域拡張処理を行わず、デコード処理により得られるオーディオ信号のサンプリング周波数が96kHzである場合でも同様である。

　そこで、本技術では、符号化前のオブジェクト信号から直接得られる各高域サブバンドの高域情報とは別に、予めハイレゾ、すなわち高いサンプリング周波数の仮想スピーカ信号等の高域情報も入力ビットストリームに多重化して伝送するようにした。

　このようにすることで、例えば処理負荷の高いデコード処理、レンダリング処理、HRTF処理を低いサンプリング周波数で行い、HRTF処理後の最終的な信号に対して、伝送された高域情報に基づく帯域拡張処理を行うことができる。これにより、全体における処理負荷を低減させ、低コストなプロセッサやバッテリでも高品質なオーディオ再生を実現することができるようになる。

〈信号処理装置の構成例〉
　図６は、本技術を適用した信号処理装置の一実施の形態の構成例を示す図である。なお、図６において図４における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図６に示す信号処理装置７１は、例えばスマートフォンやパーソナルコンピュータなどからなり、デコード処理部１１、レンダリング処理部１２、バーチャライズ処理部１３、および帯域拡張部４１を有している。

　図４に示した例ではデコード処理、帯域拡張処理、レンダリング処理、およびバーチャライズ処理の順で各処理が行われる。

　これに対して、信号処理装置７１では、デコード処理、レンダリング処理、バーチャライズ処理、および帯域拡張処理の順に各処理（信号処理）が行われる。すなわち、帯域拡張処理が最後に行われる。

　したがって信号処理装置７１では、まずデコード処理部１１において入力ビットストリームの非多重化およびデコード処理が行われる。この場合、デコード処理部１１は、図示せぬサーバ等から、オブジェクトオーディオの符号化されたオブジェクト信号や、オブジェクト位置情報、高域情報などを取得する取得部として機能するということができる。

　デコード処理部１１は、非多重化およびデコード処理（復号処理）により得られた高域情報を帯域拡張部４１に供給するとともに、オブジェクト位置情報およびオブジェクト信号をレンダリング処理部１２に供給する。

　ここで、入力ビットストリームには、バーチャライズ処理部１３の出力に対応した高域情報が含まれており、デコード処理部１１は、その高域情報を帯域拡張部４１に供給する。

　また、レンダリング処理部１２では、デコード処理部１１から供給されたオブジェクト位置情報およびオブジェクト信号に基づいてVBAP等のレンダリング処理が行われ、その結果得られた仮想スピーカ信号がバーチャライズ処理部１３に供給される。

　バーチャライズ処理部１３では、バーチャライズ処理としてHRTF処理が行われる。すなわち、バーチャライズ処理部１３では、レンダリング処理部１２から供給された仮想スピーカ信号と、事前に与えられた伝達関数に対応するHRTF係数とに基づく畳み込み処理と、その結果得られる信号を足し合わせる加算処理がHRTF処理として行われる。バーチャライズ処理部１３は、HRTF処理により得られたオーディオ信号を帯域拡張部４１に供給する。

　この例では、例えばデコード処理部１１からレンダリング処理部１２に供給されるオブジェクト信号は、サンプリング周波数が48kHzである低FSオブジェクト信号とされる。

　そのような場合、レンダリング処理部１２からバーチャライズ処理部１３に供給される仮想スピーカ信号もサンプリング周波数が48kHzである信号となるので、バーチャライズ処理部１３から帯域拡張部４１へと供給されるオーディオ信号のサンプリング周波数も48kHzとなる。

　以下では、バーチャライズ処理部１３から帯域拡張部４１へと供給されるオーディオ信号を、特に低FSオーディオ信号とも称することとする。このような低FSオーディオ信号は、オブジェクト信号に対してレンダリング処理やバーチャライズ処理等の信号処理を施すことにより得られた、ヘッドフォンや実スピーカなどの再生装置を駆動させて音を出力させる駆動信号である。

　帯域拡張部４１では、デコード処理部１１から供給された高域情報に基づいて、バーチャライズ処理部１３から供給された低FSオーディオ信号に対して帯域拡張処理を行うことで出力オーディオ信号を生成し、後段に出力する。帯域拡張部４１で得られる出力オーディオ信号は、例えばサンプリング周波数が96kHzである信号とされる。

〈入力ビットストリームのシンタックス例〉
　上述したように、信号処理装置７１の帯域拡張部４１では、バーチャライズ処理部１３の出力に対応した高域情報が必要となり、入力ビットストリームには、そのような高域情報が含まれている。

　ここで、デコード処理部１１に供給される入力ビットストリームのシンタックス例を図７に示す。

　図７において「num_objects」はオブジェクトの総数を示しており、「object_compressed_data」は符号化（圧縮）されたオブジェクト信号を示しており、「object_bwe_data」は各オブジェクトの帯域拡張のための高域情報を示している。

　この高域情報は、例えば図４を参照して説明したように、デコード処理により得られた低FSオブジェクト信号に対して帯域拡張処理を行う場合に用いられるものである。すなわち、「object_bwe_data」は、符号化前のオブジェクト信号から得られる各高域サブバンド信号の平均振幅情報からなる高域情報である。

　また、「position_azimuth」はオブジェクトの球面座標系における水平角度を示しており、「position_elevation」はオブジェクトの球面座標系における垂直角度を示しており、「position_radius」は球面座標系原点からオブジェクトまでの距離（半径）を示している。ここでは、これらの水平角度、垂直角度、および距離からなる情報がオブジェクトの位置を示すオブジェクト位置情報となっている。

　したがって、この例では、「num_objects」により示されるオブジェクト数分だけ、符号化されたオブジェクト信号、高域情報、およびオブジェクト位置情報が入力ビットストリームに含まれている。

　また、図７において「num_vspk」は、仮想スピーカの数を示しており、「vspk_bwe_data」は仮想スピーカ信号に対して帯域拡張処理を行う場合に用いられる高域情報を示している。

　この高域情報は、例えば符号化前のオブジェクト信号に対してレンダリング処理を行うことで得られた、信号処理装置７１のレンダリング処理部１２の出力よりもサンプリング周波数が高い仮想スピーカ信号の各高域サブバンド信号の平均振幅情報である。

　さらに、「num_output」は出力チャネル数、すなわち最終的に出力するマルチチャネル構成の出力オーディオ信号のチャネル数を示している。「output_bwe_data」は出力オーディオ信号を得るための高域情報、すなわちバーチャライズ処理部１３の出力に対して帯域拡張処理を行う場合に用いられる高域情報を示している。

　この高域情報は、例えば符号化前のオブジェクト信号に対してレンダリング処理およびバーチャライズ処理を行うことで得られた、信号処理装置７１のバーチャライズ処理部１３の出力よりもサンプリング周波数が高いオーディオ信号の各高域サブバンド信号の平均振幅情報である。

　このように、図７に示す例では、帯域拡張処理を行うタイミングに応じて、複数の高域情報が入力ビットストリームに含まれている。したがって、信号処理装置７１の計算資源等に応じたタイミングで帯域拡張処理を行うことができる。

　具体的には、例えば計算資源に余裕がある場合、「object_bwe_data」により示される高域情報を用いて、図４に示したようにデコード処理により得られた、各オブジェクトの低FSオブジェクト信号に対して帯域拡張処理を行うようにすることができる。

　この場合、オブジェクトごとに帯域拡張処理が行われ、その後、高いサンプリング周波数で、レンダリング処理やバーチャライズ処理が行われる。

　特に、この場合には、符号化前のオブジェクト信号、つまり原音に近い信号を帯域拡張処理により得ることができるので、レンダリング処理後やバーチャライズ処理後に帯域拡張処理を行う場合よりも、より高品質な出力オーディオ信号を得ることができる。

　一方、例えば計算資源に余裕がない場合には、信号処理装置７１のように、低いサンプリング周波数でデコード処理、レンダリング処理、およびバーチャライズ処理を行い、その後、「output_bwe_data」により示される高域情報を用いて、低FSオーディオ信号に対する帯域拡張処理を行うようにすることができる。このようにすれば、全体として処理量（処理負荷）を大幅に削減することができる。

　その他、例えば再生装置がスピーカである場合には、デコード処理とレンダリング処理を低いサンプリング周波数で行い、その後、「vspk_bwe_data」により示される高域情報を用いて、仮想スピーカ信号に対する帯域拡張処理を行うようにしてもよい。

　以上のように、１つの入力ビットストリーム内に「object_bwe_data」や「output_bwe_data」、「vspk_bwe_data」などの複数の高域情報が含まれるようにすると、圧縮効率を下げることになる。しかし、それらの高域情報のデータ量は、符号化されたオブジェクト信号「object_compressed_data」のデータ量と比較して極めて少ないため、データ量の増加分と比較して、より大きい処理負荷削減効果を得ることができる。

〈信号生成処理の説明〉
　次に、図６に示した信号処理装置７１の動作について説明する。すなわち、以下、図８のフローチャートを参照して、信号処理装置７１による信号生成処理について説明する。

　ステップＳ１１においてデコード処理部１１は、供給された入力ビットストリームに対して非多重化およびデコード処理を行い、その結果得られた高域情報を帯域拡張部４１に供給するとともに、オブジェクト位置情報およびオブジェクト信号をレンダリング処理部１２に供給する。

　ここでは、例えば図７に示した「output_bwe_data」により示される高域情報が入力ビットストリームから抽出され、帯域拡張部４１へと供給される。

　ステップＳ１２においてレンダリング処理部１２は、デコード処理部１１から供給されたオブジェクト位置情報およびオブジェクト信号に基づいてレンダリング処理を行い、その結果得られた仮想スピーカ信号をバーチャライズ処理部１３に供給する。例えばステップＳ１２では、VBAP等がレンダリング処理として行われる。

　ステップＳ１３においてバーチャライズ処理部１３はバーチャライズ処理を行う。例えばステップＳ１３では、HRTF処理がバーチャライズ処理として行われる。

　この場合、バーチャライズ処理部１３は、レンダリング処理部１２から供給された各仮想スピーカの仮想スピーカ信号と、予め保持している各仮想スピーカのHRTF係数とを畳み込んで、その結果得られた信号を加算する処理をHRTF処理として行う。バーチャライズ処理部１３は、HRTF処理により得られた低FSオーディオ信号を帯域拡張部４１に供給する。

　ステップＳ１４において帯域拡張部４１は、デコード処理部１１から供給された高域情報に基づいて、バーチャライズ処理部１３から供給された低FSオーディオ信号に対して帯域拡張処理を行い、その結果得られた出力オーディオ信号を後段に出力する。このようにして出力オーディオ信号が生成されると、信号生成処理は終了する。

　以上のようにして信号処理装置７１は、入力ビットストリームから抽出された（読み出された）高域情報を用いて帯域拡張処理を行い、出力オーディオ信号を生成する。

　この場合、レンダリング処理やHRTF処理が行われて得られた低FSオーディオ信号に対して帯域拡張処理を行うようにすることで、信号処理装置７１における処理負荷、すなわち演算量を低減させることができる。したがって、信号処理装置７１が低コストな装置であっても高品質なオーディオ再生を行うことができる。

〈信号処理装置の構成例〉
　なお、帯域拡張部４１で得られた出力オーディオ信号の出力先、つまり再生装置がヘッドフォンではなくスピーカであるときには、レンダリング処理部１２で得られた仮想スピーカ信号に対して帯域拡張処理を行うようにすることができる。

　そのような場合、信号処理装置７１の構成は図９に示すようになる。なお、図９において図６における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図９に示す信号処理装置７１は、デコード処理部１１、レンダリング処理部１２、および帯域拡張部４１を有している。

　図９に示す信号処理装置７１の構成は、バーチャライズ処理部１３が設けられていない点で図６の信号処理装置７１の構成と異なり、その他の点では図６の信号処理装置７１と同じ構成となっている。

　したがって、図９に示す信号処理装置７１では、図８を参照して説明したステップＳ１１およびステップＳ１２の処理が行われた後、ステップＳ１３の処理は行われずに、ステップＳ１４の処理が行われて出力オーディオ信号が生成される。

　そのため、ステップＳ１１では、デコード処理部１１は、入力ビットストリームから、例えば図７に示した「vspk_bwe_data」により示される高域情報を抽出し、帯域拡張部４１に供給する。また、ステップＳ１２でレンダリング処理が行われると、レンダリング処理部１２は、得られたスピーカ信号を帯域拡張部４１に供給する。このスピーカ信号は、図６のレンダリング処理部１２で得られる仮想スピーカ信号に対応し、例えばサンプリング周波数が48kHzである低FSスピーカ信号である。

　さらに、帯域拡張部４１は、デコード処理部１１から供給された高域情報に基づいて、レンダリング処理部１２から供給されたスピーカ信号に対して帯域拡張処理を行い、その結果得られた出力オーディオ信号を後段に出力する。

　このように、帯域拡張処理の前にレンダリング処理を行う場合においても、信号処理装置７１全体での処理負荷（演算量）を低減させることができる。

〈エンコーダの構成例〉
　続いて、図７に示した入力ビットストリームを生成するエンコーダ（符号化装置）について説明する。そのようなエンコーダは、例えば図１０に示すように構成される。

　図１０に示すエンコーダ２０１は、オブジェクト位置情報符号化部２１１、ダウンサプラ２１２、オブジェクト信号符号化部２１３、オブジェクト高域情報計算部２１４、レンダリング処理部２１５、スピーカ高域情報計算部２１６、バーチャライズ処理部２１７、再生装置高域情報計算部２１８、および多重化部２１９を有している。

　エンコーダ２０１には、符号化対象となるオブジェクトのオブジェクト信号と、そのオブジェクトの位置を示すオブジェクト位置情報とが入力（供給）される。ここでは、エンコーダ２０１に入力されるオブジェクト信号は、例えばサンプリング周波数が96kHzの信号であるものとする。

　オブジェクト位置情報符号化部２１１は、入力されたオブジェクト位置情報を符号化し、多重化部２１９に供給する。

　これにより、符号化されたオブジェクト位置情報として、例えば図７に示した水平角度「position_azimuth」、垂直角度「position_elevation」、および半径「position_radius」からなる符号化されたオブジェクト位置情報（オブジェクト位置データ）が得られる。

　ダウンサプラ２１２は、入力されたサンプリング周波数が96kHzのオブジェクト信号に対してダウンサンプリング処理、すなわち帯域制限を行い、その結果得られたサンプリング周波数が48kHzであるオブジェクト信号をオブジェクト信号符号化部２１３に供給する。

　オブジェクト信号符号化部２１３は、ダウンサプラ２１２から供給された48kHzのオブジェクト信号を符号化して多重化部２１９に供給する。これにより、例えば図７に示した「object_compressed_data」が符号化されたオブジェクト信号として得られる。

　なお、オブジェクト信号符号化部２１３での符号化方式は、MPEG-H Part 3:3D audio規格の符号化方式であってもよいし、その他の符号化方式であってもよい。すなわち、オブジェクト信号符号化部２１３での符号化方式とデコード処理部１１での復号方式とが対応するもの（同一規格のもの）であればよい。

　オブジェクト高域情報計算部２１４は、入力された96kHzのオブジェクト信号に基づいて高域情報（帯域拡張情報）を計算するとともに、得られた高域情報を圧縮符号化し、多重化部２１９に供給する。これにより、例えば図７に示した「object_bwe_data」が符号化された高域情報として得られる。

　オブジェクト高域情報計算部２１４で生成される高域情報は、例えば図５に示した各高域サブバンドの平均振幅情報（平均振幅値）である。

　例えばオブジェクト高域情報計算部２１４は、入力された96kHzのオブジェクト信号に対して帯域通過フィルタバンクに基づくフィルタリングを行って、各高域サブバンドの高域サブバンド信号を得る。そして、オブジェクト高域情報計算部２１４は、それらの各高域サブバンド信号の時間フレームの平均振幅値を計算することにより、高域情報を生成する。

　レンダリング処理部２１５は、入力されたオブジェクト位置情報および96kHzのオブジェクト信号に基づいてVBAP等のレンダリング処理を行い、その結果得られた仮想スピーカ信号をスピーカ高域情報計算部２１６およびバーチャライズ処理部２１７に供給する。

　なお、レンダリング処理部２１５でのレンダリング処理は、復号側（再生側）である信号処理装置７１のレンダリング処理部１２における場合と同じ処理であれば、VBAPに限らず他のどのようなレンダリング処理であってもよい。

　スピーカ高域情報計算部２１６は、レンダリング処理部２１５から供給された各チャネル、すなわち各仮想スピーカの仮想スピーカ信号に基づいて高域情報を計算するとともに、得られた高域情報を圧縮符号化し、多重化部２１９に供給する。

　例えばスピーカ高域情報計算部２１６では、オブジェクト高域情報計算部２１４における場合と同様の手法により、仮想スピーカ信号から高域情報が生成される。これにより、例えば図７に示した「vspk_bwe_data」が符号化された仮想スピーカ信号用の高域情報として得られる。

　このようにして得られる高域情報は、例えば再生側、つまり信号処理装置７１側におけるスピーカ数およびスピーカ配置が、レンダリング処理部２１５で得られる仮想スピーカ信号についてのスピーカ数およびスピーカ配置と同じである場合、信号処理装置７１での帯域拡張処理に用いられる。例えば信号処理装置７１が図９に示した構成とされる場合、スピーカ高域情報計算部２１６で生成された高域情報が帯域拡張部４１で利用される。

　バーチャライズ処理部２１７は、レンダリング処理部２１５から供給された仮想スピーカ信号に対してHRTF処理等のバーチャライズ処理を行い、その結果得られた装置再生信号を再生装置高域情報計算部２１８に供給する。

　なお、ここでいう装置再生信号とは、主にヘッドフォンや複数のスピーカでオブジェクトオーディオを再生するためのオーディオ信号、つまり再生装置の駆動信号である。

　例えばヘッドフォン再生を想定する場合には、装置再生信号はヘッドフォン用のステレオ信号（ステレオの駆動信号）である。

　また、例えばスピーカ再生を想定する場合には、装置再生信号はスピーカに供給されるスピーカ再生信号（スピーカの駆動信号）である。

　この場合、装置再生信号はレンダリング処理部２１５で得られる仮想スピーカ信号とは異なり、HRTF処理に加え実スピーカの数や配置に応じてトランスオーラル処理が行われて装置再生信号が生成されることが多い。すなわち、HRTF処理とトランスオーラル処理がバーチャライズ処理として行われる。

　このようにして得られた装置再生信号から後段で高域情報を生成することは、例えば再生側におけるスピーカ数およびスピーカ配置が、レンダリング処理部２１５で得られる仮想スピーカ信号についてのスピーカ数およびスピーカ配置と異なる場合に特に有用である。

　再生装置高域情報計算部２１８は、バーチャライズ処理部２１７から供給された装置再生信号に基づいて高域情報を計算するとともに、得られた高域情報を圧縮符号化し、多重化部２１９に供給する。

　例えば再生装置高域情報計算部２１８では、オブジェクト高域情報計算部２１４における場合と同様の手法により、装置再生信号から高域情報を生成する。これにより、例えば図７に示した「output_bwe_data」が符号化された装置再生信号用、つまり低FSオーディオ信号用の高域情報として得られる。

　なお、再生装置高域情報計算部２１８では、ヘッドフォン再生を想定した高域情報と、スピーカ再生を想定した高域情報の何れか一方だけでなく、それらの両方が生成されて多重化部２１９に供給されるようにしてもよい。また、スピーカ再生を想定した場合でも、例えば２チャネルや5.1チャネルなど、チャネル構成ごとに高域情報が生成されてもよい。

　多重化部２１９は、オブジェクト位置情報符号化部２１１から供給された符号化されたオブジェクト位置情報、オブジェクト信号符号化部２１３から供給された符号化されたオブジェクト信号、オブジェクト高域情報計算部２１４から供給された符号化された高域情報、スピーカ高域情報計算部２１６から供給された符号化された高域情報、および再生装置高域情報計算部２１８から供給された符号化された高域情報を多重化する。

　多重化部２１９は、オブジェクト位置情報やオブジェクト信号、高域情報を多重化して得られた出力ビットストリームを出力する。この出力ビットストリームは、入力ビットストリームとして信号処理装置７１に入力される。

〈符号化処理の説明〉
　次に、エンコーダ２０１の動作について説明する。すなわち、以下、図１１のフローチャートを参照して、エンコーダ２０１による符号化処理について説明する。

　ステップＳ４１においてオブジェクト位置情報符号化部２１１は、入力されたオブジェクト位置情報を符号化し、多重化部２１９に供給する。

　また、ダウンサプラ２１２は、入力されたオブジェクト信号をダウンサンプリングしてオブジェクト信号符号化部２１３に供給する。

　ステップＳ４２においてオブジェクト信号符号化部２１３は、ダウンサプラ２１２から供給されたオブジェクト信号を符号化して多重化部２１９に供給する。

　ステップＳ４３においてオブジェクト高域情報計算部２１４は、入力されたオブジェクト信号に基づいて高域情報を計算するとともに、得られた高域情報を圧縮符号化し、多重化部２１９に供給する。

　ステップＳ４４においてレンダリング処理部２１５は、入力されたオブジェクト位置情報およびオブジェクト信号に基づいてレンダリング処理を行い、その結果得られた仮想スピーカ信号をスピーカ高域情報計算部２１６およびバーチャライズ処理部２１７に供給する。

　ステップＳ４５においてスピーカ高域情報計算部２１６は、レンダリング処理部２１５から供給された仮想スピーカ信号に基づいて高域情報を計算するとともに、得られた高域情報を圧縮符号化し、多重化部２１９に供給する。

　ステップＳ４６においてバーチャライズ処理部２１７は、レンダリング処理部２１５から供給された仮想スピーカ信号に対してHRTF処理等のバーチャライズ処理を行い、その結果得られた装置再生信号を再生装置高域情報計算部２１８に供給する。

　ステップＳ４７において再生装置高域情報計算部２１８は、バーチャライズ処理部２１７から供給された装置再生信号に基づいて高域情報を計算するとともに、得られた高域情報を圧縮符号化し、多重化部２１９に供給する。

　ステップＳ４８において多重化部２１９は、オブジェクト位置情報符号化部２１１から供給された符号化されたオブジェクト位置情報、オブジェクト信号符号化部２１３から供給された符号化されたオブジェクト信号、オブジェクト高域情報計算部２１４から供給された符号化された高域情報、スピーカ高域情報計算部２１６から供給された符号化された高域情報、および再生装置高域情報計算部２１８から供給された符号化された高域情報を多重化する。

　多重化部２１９は、多重化により得られた出力ビットストリームを出力し、符号化処理は終了する。

　以上のようにしてエンコーダ２０１は、オブジェクト信号の高域情報だけでなく、仮想スピーカ信号や装置再生信号の高域情報も計算し、出力ビットストリームに格納する。このようにすることで、出力ビットストリームの復号側においては、所望のタイミングで帯域拡張処理を行うことができ、演算量を低減させることができる。これにより、低コストな装置でも帯域拡張処理を行い、高品質なオーディオ再生を行うことができるようになる。

〈第１の実施の形態の変形例１〉
〈信号処理装置の構成例〉
　なお、信号処理装置７１の処理能力や計算資源（計算リソース）の余裕の有無、バッテリ残量（電力残量）、各処理での消費電力量、コンテンツの再生時間などによっては、オブジェクト信号に対して帯域拡張処理を行ってから、レンダリング処理やバーチャライズ処理を行うことができる場合もある。

　そこで、信号処理装置７１側において、どのタイミングで帯域拡張処理を行うのかを選択するようにしてもよい。そのような場合、信号処理装置７１は、例えば図１２に示すように構成される。なお、図１２において図６における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図１２に示す信号処理装置７１は、デコード処理部１１、帯域拡張部２５１、レンダリング処理部１２、バーチャライズ処理部１３、および帯域拡張部４１を有している。また、デコード処理部１１には、選択部２６１も設けられている。

　図１２に示す信号処理装置７１の構成は、新たに帯域拡張部２５１および選択部２６１が設けられた点で図６の信号処理装置７１と異なり、その他の点では図６の信号処理装置７１と同じ構成となっている。

　選択部２６１は、オブジェクト信号用の高域情報と、低FSオーディオ信号用の高域情報の何れに基づき帯域拡張処理を行うかを選択する選択処理を行う。すなわち、オブジェクト信号用の高域情報を用いて、オブジェクト信号に対して帯域拡張処理を行うか、または低FSオーディオ信号用の高域情報を用いて、低FSオーディオ信号に対して帯域拡張処理を行うかが選択される。

　この選択処理は、例えば信号処理装置７１における現時点での計算資源や、信号処理装置７１でのデコード処理から帯域拡張処理までの各処理での消費電力量、信号処理装置７１の現時点でのバッテリ残量、出力オーディオ信号に基づくコンテンツの再生時間などに基づいて行われる。

　具体的には、例えばコンテンツの再生時間と各処理での消費電力量から、コンテンツ再生終了までに必要となる総消費電力量が分かるので、その総消費電力量以上にバッテリ残量があるときには、オブジェクト信号用の高域情報を用いた帯域拡張処理が選択される。

　この場合、例えば何らかの理由によりバッテリ残量が少なくなってしまったときや、計算資源に余裕がなくなってしまったときには、コンテンツの再生途中でも低FSオーディオ信号用の高域情報を用いた帯域拡張処理へと切り替えが行われる。なお、このような帯域拡張処理の切り替え時には、適宜、出力オーディオ信号に対するクロスフェード処理を行うようにすればよい。

　また、例えばコンテンツ再生前から計算資源やバッテリ残量に余裕がない場合には、コンテンツ再生開始時から低FSオーディオ信号用の高域情報を用いた帯域拡張処理が選択される。

　デコード処理部１１は、選択部２６１での選択結果に応じて、デコード処理により得られた高域情報やオブジェクト信号を出力する。

　すなわち、デコード処理部１１は、低FSオーディオ信号用の高域情報を用いた帯域拡張処理が選択された場合、デコード処理により得られた低FSオーディオ信号用の高域情報を帯域拡張部４１に供給するとともに、オブジェクト位置情報およびオブジェクト信号をレンダリング処理部１２に供給する。

　これに対して、デコード処理部１１は、オブジェクト信号用の高域情報を用いた帯域拡張処理が選択された場合、デコード処理により得られたオブジェクト信号用の高域情報およびオブジェクト信号を帯域拡張部２５１に供給するとともに、オブジェクト位置情報をレンダリング処理部１２に供給する。

　帯域拡張部２５１は、デコード処理部１１から供給されたオブジェクト信号用の高域情報およびオブジェクト信号に基づいて帯域拡張処理を行い、その結果得られた、より高いサンプリング周波数のオブジェクト信号をレンダリング処理部１２に供給する。

〈信号生成処理の説明〉
　次に、図１２に示した信号処理装置７１の動作について説明する。すなわち、以下、図１３のフローチャートを参照して、図１２の信号処理装置７１により行われる信号生成処理について説明する。

　ステップＳ７１においてデコード処理部１１は、供給された入力ビットストリームに対して非多重化およびデコード処理を行う。

　ステップＳ７２において選択部２６１は、信号処理装置７１の計算資源、各処理での消費電力量、バッテリ残量、およびコンテンツの再生時間の少なくとも何れか１つに基づいて、レンダリング処理およびバーチャライズ処理よりも先に帯域拡張処理を行うか否かを判定する。すなわち、オブジェクト信号用の高域情報と、低FSオーディオ信号用の高域情報とのうちの何れの高域情報を用いた帯域拡張処理を行うかが選択される。

　ステップＳ７２において先に帯域拡張処理を行うと判定された場合、すなわちオブジェクト信号用の高域情報を用いた帯域拡張処理が選択された場合、その後、処理はステップＳ７３へと進む。

　この場合、デコード処理部１１は、デコード処理により得られたオブジェクト信号用の高域情報およびオブジェクト信号を帯域拡張部２５１に供給するとともに、オブジェクト位置情報をレンダリング処理部１２に供給する。

　ステップＳ７３において帯域拡張部２５１は、デコード処理部１１から供給された高域情報およびオブジェクト信号に基づいて帯域拡張処理を行い、その結果得られた、より高いサンプリング周波数のオブジェクト信号、すなわち高FSオブジェクト信号をレンダリング処理部１２に供給する。

　ステップＳ７３では、図８のステップＳ１４と同様の処理が行われる。但し、この場合、例えばオブジェクト信号用の高域情報として、図７に示した高域情報「object_bwe_data」が用いられて帯域拡張処理が行われる。

　ステップＳ７４においてレンダリング処理部１２は、デコード処理部１１から供給されたオブジェクト位置情報と、帯域拡張部２５１から供給された高FSオブジェクト信号とに基づいてVBAP等のレンダリング処理を行い、その結果得られた高FS仮想スピーカ信号をバーチャライズ処理部１３に供給する。

　ステップＳ７５においてバーチャライズ処理部１３は、レンダリング処理部１２から供給された高FS仮想スピーカ信号と、予め保持しているHRTF係数とに基づいてバーチャライズ処理を行う。ステップＳ７５では、図８のステップＳ１３と同様の処理が行われる。

　バーチャライズ処理部１３は、バーチャライズ処理により得られたオーディオ信号を出力オーディオ信号として後段に出力し、信号生成処理は終了する。

　これに対して、ステップＳ７２において先に帯域拡張処理を行わないと判定された場合、すなわち低FSオーディオ信号用の高域情報を用いた帯域拡張処理が選択された場合、その後、処理はステップＳ７６へと進む。

　この場合、デコード処理部１１は、デコード処理により得られた低FSオーディオ信号用の高域情報を帯域拡張部４１に供給するとともに、オブジェクト位置情報およびオブジェクト信号をレンダリング処理部１２に供給する。

　そして、その後、ステップＳ７６乃至ステップＳ７８の処理が行われて信号生成処理は終了するが、これらの処理は図８のステップＳ１２乃至ステップＳ１４の処理と同様であるので、その説明は省略する。この場合、ステップＳ７８では、例えば図７に示した高域情報「output_bwe_data」が用いられて帯域拡張処理が行われる。

　信号処理装置７１では、以上において説明した信号生成処理がコンテンツ、すなわちオブジェクト信号のフレームごとなど、所定の時間間隔で行われる。

　以上のようにして信号処理装置７１は、何れの高域情報を用いて帯域拡張処理を行うかを選択し、その選択結果に応じた処理順序で各処理を行い、出力オーディオ信号を生成する。このようにすることで、計算資源やバッテリ残量に応じて帯域拡張処理を行い、出力オーディオ信号を生成することができる。したがって、必要に応じて演算量を低減させ、低コストな装置でも高品質なオーディオ再生を行うことができる。

　なお、図１２に示した信号処理装置７１において、仮想スピーカ信号に対して帯域拡張処理を行う帯域拡張部がさらに設けられるようにしてもよい。

　そのような場合、帯域拡張部は、デコード処理部１１から供給された仮想スピーカ信号用の高域情報に基づいて、レンダリング処理部１２から供給された仮想スピーカ信号に対して帯域拡張処理を行い、その結果得られたより高いサンプリング周波数の仮想スピーカ信号をバーチャライズ処理部１３に供給する。

　したがって、選択部２６１は、オブジェクト信号に対して帯域拡張処理を行うか、仮想スピーカ信号に対して帯域拡張処理を行うか、または低FSオーディオ信号に対して帯域拡張処理を行うかを選択することができる。

〈第２の実施の形態〉
〈信号処理装置の構成例〉
　ところで、以上においては信号処理装置７１でのデコード処理により得られるオブジェクト信号は、サンプリング周波数が48kHzの低FSオブジェクト信号である例について説明した。この例では、デコード処理により得られた低FSオブジェクト信号に対してレンダリング処理およびバーチャライズ処理が行われ、その後、帯域拡張処理が行われて、サンプリング周波数が96kHzである出力オーディオ信号が生成される。

　しかし、これに限らず、例えばデコード処理により得られるオブジェクト信号のサンプリング周波数が、出力オーディオ信号と同じ96kHzや、出力オーディオ信号のものよりもさらに高いサンプリング周波数であってもよい。

　そのような場合、信号処理装置７１は、例えば図１４に示すように構成される。なお、図１４において図６における場合と対応する部分には同一の符号を付してあり、その説明は省略する。

　図１４に示す信号処理装置７１は、デコード処理部１１、レンダリング処理部１２、バーチャライズ処理部１３、および帯域拡張部４１を有している。また、デコード処理部１１には、オブジェクト信号の帯域制限、すなわちダウンサンプリングを行う帯域制限部２８１が設けられている。

　図１４に示す信号処理装置７１の構成は、新たに帯域制限部２８１が設けられた点で図６の信号処理装置７１と異なり、その他の点では図６の信号処理装置７１と同じ構成となっている。

　図１４の例では、デコード処理部１１で入力ビットストリームの非多重化およびデコード処理を行うと、例えばサンプリング周波数が96kHzであるオブジェクト信号が得られる。

　そこでデコード処理部１１の帯域制限部２８１は、デコード処理により得られたサンプリング周波数が96kHzであるオブジェクト信号に対して帯域制限を行うことで、サンプリング周波数が48kHzである低FSオブジェクト信号を生成する。例えば、ここでは帯域制限の処理として、ダウンサンプリングが行われる。

　デコード処理部１１は、帯域制限により得られた低FSオブジェクト信号と、デコード処理により得られたオブジェクト位置情報とをレンダリング処理部１２に供給する。

　また、例えばMPEG-H Part 3:3D audio規格での符号化方式のように、MDCT（Modified Discrete Cosine Transform）（修正離散コサイン変換）を用いて時間周波数変換を行う方式であれば、ダウンサンプリングすることなく、低FSオブジェクト信号を得ることができる。

　そのような場合、帯域制限部２８１は、オブジェクト信号としてのMDCT係数（スペクトルデータ）を部分的に逆変換（IMDCT（Inverse Discrete Cosine Transform））することでサンプリング周波数が48kHzの低FSオブジェクト信号を生成し、レンダリング処理部１２に供給する。なお、IMDCTにより、より低いサンプリング周波数の信号を得る技術については、例えば特開２００１－２８５０７３号公報などに詳細に記載されている。

　以上のようにしてデコード処理部１１からレンダリング処理部１２に対して、低FSオブジェクト信号およびオブジェクト位置情報が供給されると、その後は、図８のステップＳ１２乃至ステップＳ１４と同様の処理が行われて、出力オーディオ信号が生成される。この場合、サンプリング周波数が48kHzの信号に対してレンダリング処理およびバーチャライズ処理が行われる。

　この実施の形態では、デコード処理により得られるオブジェクト信号が96kHzの信号であるので、帯域拡張部４１での高域情報を用いた帯域拡張処理は、信号処理装置７１における演算量削減のためだけに行われる。

　以上のように、デコード処理により得られるオブジェクト信号が96kHzの信号である場合でも、一旦、低FSオブジェクト信号を生成し、サンプリング周波数48kHzでレンダリング処理やバーチャライズ処理を行うことで、大幅に演算量を削減することができる。

　なお、信号処理装置７１の計算資源に大幅な余裕がある場合には、全ての処理、すなわちレンダリング処理やバーチャライズ処理をサンプリング周波数96kHzで行うようにしてもよく、そのようにすることは原音の忠実度の観点からも好ましい。

　さらに、図１２に示した例のようにデコード処理部１１に選択部２６１を設けるようにしてもよい。

　そのような場合、選択部２６１が信号処理装置７１の計算資源やバッテリ残量を監視しながら、サンプリング周波数96kHzのままレンダリング処理やバーチャライズ処理を行い、帯域拡張処理を行わないようにするか、または低FSオブジェクト信号を生成し、サンプリング周波数48kHzでレンダリング処理やバーチャライズ処理を行うかを選択する。

　その他、例えば帯域拡張部４１で出力オーディオ信号に対してクロスフェード処理などを行うことで、レンダリング処理やバーチャライズ処理をサンプリング周波数96kHzのまま行うか、サンプリング周波数48kHzで行うかを動的に切り替えるようにしてもよい。

　さらに、例えば帯域制限部２８１で帯域制限が行われる場合、デコード処理部１１がデコード処理により得られた96kHzのオブジェクト信号に基づいて、低FSオーディオ信号用の高域情報を生成し、帯域拡張部４１に供給するようにしてもよい。

　また、図１４における場合と同様に、例えば図９に示した信号処理装置７１のデコード処理部１１にも帯域制限部２８１が設けられるようにしてもよい。

　そのような場合、信号処理装置７１は、例えば図１５に示すように構成される。なお、図１５において図９または図１４における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図１５に示す例では、信号処理装置７１は、デコード処理部１１、レンダリング処理部１２、および帯域拡張部４１を有しており、デコード処理部１１には帯域制限部２８１が設けられている。

　この場合、帯域制限部２８１は、デコード処理により得られた96kHzのオブジェクト信号に対して帯域制限を行い、48kHzの低FSオブジェクト信号を生成する。このようにして得られた低FSオブジェクト信号は、オブジェクト位置情報とともにレンダリング処理部１２へと供給される。

　また、この例においてもデコード処理部１１が、デコード処理により得られた96kHzのオブジェクト信号に基づいて、低FSスピーカ信号用の高域情報を生成し、帯域拡張部４１に供給するようにしてもよい。

　その他、図１２に示した信号処理装置７１のデコード処理部１１に帯域制限部２８１が設けられるようにしてもよい。そのような場合、例えば帯域制限部２８１での帯域制限により得られた低FSオブジェクト信号がレンダリング処理部１２に供給され、その後、レンダリング処理、バーチャライズ処理、および帯域拡張処理が行われる。したがって、このような場合、例えば選択部２６１では、帯域拡張部２５１で帯域拡張を行ってからレンダリング処理およびバーチャライズ処理を行うか、帯域制限を行ってからレンダリング処理、バーチャライズ処理、および帯域拡張処理を行うか、または帯域制限を行わずにレンダリング処理、バーチャライズ処理、および帯域拡張処理を行うかが選択される。

　以上のように、本技術によれば、復号側（再生側）においてオブジェクト信号の高域情報ではなく、レンダリング処理やバーチャライズ処理といった信号処理後の信号に対する高域情報を用いて帯域拡張処理を行うことで、デコード処理やレンダリング処理、バーチャライズ処理を低いサンプリング周波数で行い、演算量を大幅に削減することができる。これにより、例えば低コストのプロセッサを採用したり、プロセッサの電力使用量を低減させたりすることができ、スマートフォンなどの携帯機器で、より長時間、ハイレゾ音源の連続再生を行うことが可能となる。

〈コンピュータの構成例〉
　ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図１６は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

　バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

　入力部５０６は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

　以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、本技術は、以下の構成とすることも可能である。

（１）
　第１のオーディオ信号と、前記第１のオーディオ信号の帯域拡張のための第１の帯域拡張情報と、前記第１のオーディオ信号に所定の信号処理を施して得られる第２のオーディオ信号の帯域拡張のための第２の帯域拡張情報とを取得する取得部と、
　前記第１の帯域拡張情報と前記第２の帯域拡張情報の何れに基づき帯域拡張を行うかを選択する選択部と、
　選択された前記第１の帯域拡張情報または前記第２の帯域拡張情報と、前記第１のオーディオ信号または前記第２のオーディオ信号とに基づいて帯域拡張を行い、第３のオーディオ信号を生成する帯域拡張部と
　を備える信号処理装置。
（２）
　前記選択部は、前記信号処理装置の計算資源、消費電力量、電力残量、および前記第３のオーディオ信号に基づくコンテンツの再生時間の少なくとも何れかに基づいて、前記第１の帯域拡張情報と前記第２の帯域拡張情報の何れに基づき帯域拡張を行うかを選択する
　（１）に記載の信号処理装置。
（３）
　前記第１のオーディオ信号は、オブジェクトオーディオのオブジェクト信号であり、
　前記所定の信号処理は、仮想スピーカへのレンダリング処理またはバーチャライズ処理の少なくとも一方を含む
　（１）または（２）に記載の信号処理装置。
（４）
　前記第２のオーディオ信号は、前記レンダリング処理により得られた仮想スピーカの仮想スピーカ信号、または前記バーチャライズ処理により得られた再生装置の駆動信号である
　（３）に記載の信号処理装置。
（５）
　前記再生装置は、スピーカまたはヘッドフォンである
　（４）に記載の信号処理装置。
（６）
　前記第２の帯域拡張情報は、前記仮想スピーカ信号に対応する、前記仮想スピーカ信号よりも高いサンプリング周波数の仮想スピーカ信号の高域情報、または前記駆動信号に対応する、前記駆動信号よりも高いサンプリング周波数の駆動信号の高域情報である
　（４）または（５）に記載の信号処理装置。
（７）
　前記第１の帯域拡張情報は、前記第１のオーディオ信号に対応する、前記第１のオーディオ信号よりも高いサンプリング周波数のオーディオ信号の高域情報である
　（１）乃至（６）の何れか一項に記載の信号処理装置。
（８）
　前記所定の信号処理を行う信号処理部をさらに備える
　（１）乃至（５）の何れか一項に記載の信号処理装置。
（９）
　前記第１のオーディオ信号に対する帯域制限を行う帯域制限部をさらに備え、
　前記信号処理部は、前記帯域制限により得られたオーディオ信号に対して前記所定の信号処理を行う
　（８）に記載の信号処理装置。
（１０）
　前記取得部は、前記第１のオーディオ信号に基づいて前記第２の帯域拡張情報を生成する
　（９）に記載の信号処理装置。
（１１）
　信号処理装置が、
　第１のオーディオ信号と、前記第１のオーディオ信号の帯域拡張のための第１の帯域拡張情報と、前記第１のオーディオ信号に所定の信号処理を施して得られる第２のオーディオ信号の帯域拡張のための第２の帯域拡張情報とを取得し、
　前記第１の帯域拡張情報と前記第２の帯域拡張情報の何れに基づき帯域拡張を行うかを選択し、
　選択された前記第１の帯域拡張情報または前記第２の帯域拡張情報と、前記第１のオーディオ信号または前記第２のオーディオ信号とに基づいて帯域拡張を行い、第３のオーディオ信号を生成する
　信号処理方法。
（１２）
　第１のオーディオ信号と、前記第１のオーディオ信号の帯域拡張のための第１の帯域拡張情報と、前記第１のオーディオ信号に所定の信号処理を施して得られる第２のオーディオ信号の帯域拡張のための第２の帯域拡張情報とを取得し、
　前記第１の帯域拡張情報と前記第２の帯域拡張情報の何れに基づき帯域拡張を行うかを選択し、
　選択された前記第１の帯域拡張情報または前記第２の帯域拡張情報と、前記第１のオーディオ信号または前記第２のオーディオ信号とに基づいて帯域拡張を行い、第３のオーディオ信号を生成する
　ステップを含む処理をコンピュータに実行させるプログラム。

　１１　デコード処理部，　１２　レンダリング処理部，　１３　バーチャライズ処理部，　４１　帯域拡張部，　７１　信号処理装置，　２０１　エンコーダ，　２１１　オブジェクト位置情報符号化部，　２１４　オブジェクト高域情報計算部，　２１６　スピーカ高域情報計算部，　２１８　再生装置高域情報計算部，　２６１　選択部，　２８１　帯域制限部

Claims

　第１のオーディオ信号と、前記第１のオーディオ信号の帯域拡張のための第１の帯域拡張情報と、前記第１のオーディオ信号に所定の信号処理を施して得られる第２のオーディオ信号の帯域拡張のための第２の帯域拡張情報とを取得する取得部と、
　前記第１の帯域拡張情報と前記第２の帯域拡張情報の何れに基づき帯域拡張を行うかを選択する選択部と、
　選択された前記第１の帯域拡張情報または前記第２の帯域拡張情報と、前記第１のオーディオ信号または前記第２のオーディオ信号とに基づいて帯域拡張を行い、第３のオーディオ信号を生成する帯域拡張部と
　を備える信号処理装置。
　前記選択部は、前記信号処理装置の計算資源、消費電力量、電力残量、および前記第３のオーディオ信号に基づくコンテンツの再生時間の少なくとも何れかに基づいて、前記第１の帯域拡張情報と前記第２の帯域拡張情報の何れに基づき帯域拡張を行うかを選択する
　請求項１に記載の信号処理装置。
　前記第１のオーディオ信号は、オブジェクトオーディオのオブジェクト信号であり、
　前記所定の信号処理は、仮想スピーカへのレンダリング処理またはバーチャライズ処理の少なくとも一方を含む
　請求項１に記載の信号処理装置。
　前記第２のオーディオ信号は、前記レンダリング処理により得られた仮想スピーカの仮想スピーカ信号、または前記バーチャライズ処理により得られた再生装置の駆動信号である
　請求項３に記載の信号処理装置。
　前記再生装置は、スピーカまたはヘッドフォンである
　請求項４に記載の信号処理装置。
　前記第２の帯域拡張情報は、前記仮想スピーカ信号に対応する、前記仮想スピーカ信号よりも高いサンプリング周波数の仮想スピーカ信号の高域情報、または前記駆動信号に対応する、前記駆動信号よりも高いサンプリング周波数の駆動信号の高域情報である
　請求項４に記載の信号処理装置。
　前記第１の帯域拡張情報は、前記第１のオーディオ信号に対応する、前記第１のオーディオ信号よりも高いサンプリング周波数のオーディオ信号の高域情報である
　請求項１に記載の信号処理装置。
　前記所定の信号処理を行う信号処理部をさらに備える
　請求項１に記載の信号処理装置。
　前記第１のオーディオ信号に対する帯域制限を行う帯域制限部をさらに備え、
　前記信号処理部は、前記帯域制限により得られたオーディオ信号に対して前記所定の信号処理を行う
　請求項８に記載の信号処理装置。
　前記取得部は、前記第１のオーディオ信号に基づいて前記第２の帯域拡張情報を生成する
　請求項９に記載の信号処理装置。
　信号処理装置が、
　第１のオーディオ信号と、前記第１のオーディオ信号の帯域拡張のための第１の帯域拡張情報と、前記第１のオーディオ信号に所定の信号処理を施して得られる第２のオーディオ信号の帯域拡張のための第２の帯域拡張情報とを取得し、
　前記第１の帯域拡張情報と前記第２の帯域拡張情報の何れに基づき帯域拡張を行うかを選択し、
　選択された前記第１の帯域拡張情報または前記第２の帯域拡張情報と、前記第１のオーディオ信号または前記第２のオーディオ信号とに基づいて帯域拡張を行い、第３のオーディオ信号を生成する
　信号処理方法。
　第１のオーディオ信号と、前記第１のオーディオ信号の帯域拡張のための第１の帯域拡張情報と、前記第１のオーディオ信号に所定の信号処理を施して得られる第２のオーディオ信号の帯域拡張のための第２の帯域拡張情報とを取得し、
　前記第１の帯域拡張情報と前記第２の帯域拡張情報の何れに基づき帯域拡張を行うかを選択し、
　選択された前記第１の帯域拡張情報または前記第２の帯域拡張情報と、前記第１のオーディオ信号または前記第２のオーディオ信号とに基づいて帯域拡張を行い、第３のオーディオ信号を生成する
　ステップを含む処理をコンピュータに実行させるプログラム。