WO2022050087A1

WO2022050087A1 - 信号処理装置および方法、学習装置および方法、並びにプログラム

Info

Publication number: WO2022050087A1
Application number: PCT/JP2021/030599
Authority: WO
Inventors: 弘幸本間; 徹知念; 明文河野
Original assignee: ソニーグループ株式会社
Priority date: 2020-09-03
Filing date: 2021-08-20
Publication date: 2022-03-10
Also published as: BR112023003488A2; MX2023002255A; CN116018641A; KR20230060502A; JPWO2022050087A1; EP4210048A1; US20230300557A1; EP4210048A4

Abstract

本技術は、低コストな装置でも高品質なオーディオ再生を行うことができるようにする信号処理装置および方法、学習装置および方法、並びにプログラムに関する。信号処理装置は、入力ビットストリームを第１のオーディオ信号と、第１のオーディオ信号のメタデータと、帯域拡張のための第１の高域情報とに非多重化するデコード処理部と、第１のオーディオ信号およびメタデータに基づいて信号処理を行うことで得られた第２のオーディオ信号と、第１の高域情報に基づいて生成された第２の高域情報とに基づいて帯域拡張処理を行い、出力オーディオ信号を生成する帯域拡張部とを備える。本技術はスマートフォンに適用することができる。

Description

信号処理装置および方法、学習装置および方法、並びにプログラム

　本技術は、信号処理装置および方法、学習装置および方法、並びにプログラムに関し、特に、低コストな装置でも高品質なオーディオ再生を行うことができるようにした信号処理装置および方法、学習装置および方法、並びにプログラムに関する。

　従来、映画やゲーム等でオブジェクトオーディオ技術が使われ、オブジェクトオーディオを扱える符号化方式も開発されている。具体的には、例えば国際標準規格であるMPEG（Moving Picture Experts Group）-H Part 3:3D audio規格などが知られている（例えば、非特許文献１参照）。

　このような符号化方式では、従来の２チャネルステレオ方式や５．１チャネル等のマルチチャネルステレオ方式とともに、移動する音源等を独立したオーディオオブジェクト（以下、単にオブジェクトとも称する）として扱い、オーディオオブジェクトの信号データとともにオブジェクトの位置情報をメタデータとして符号化することが可能である。

　これにより、スピーカの数や配置の異なる様々な視聴環境で再生を行うことができる。また、従来の符号化方式では困難であった特定の音源の音の音量調整や、特定の音源の音に対するエフェクトの追加など、特定の音源の音を再生時に加工することが容易にできる。

　このような符号化方式では、復号側においてビットストリームに対するデコードが行われ、オブジェクトのオーディオ信号であるオブジェクト信号と、空間内におけるオブジェクトの位置を示すオブジェクト位置情報を含むメタデータとが得られる。

　そして、オブジェクト位置情報に基づいて、空間内に仮想的に配置された複数の各仮想スピーカにオブジェクト信号をレンダリングするレンダリング処理が行われる。例えば非特許文献１の規格では、レンダリング処理に３次元VBAP（Vector Based Amplitude Panning）（以下、単にVBAPと称する）と呼ばれる方式が用いられる。

　また、レンダリング処理により、各仮想スピーカに対応する仮想スピーカ信号が得られると、それらの仮想スピーカ信号に基づいてHRTF（Head Related Transfer Function）処理が行われる。このHRTF処理では、あたかも仮想スピーカから音が再生されているかのように実際のヘッドフォンやスピーカから音を出力させるための出力オーディオ信号が生成される。

　このようなオブジェクトオーディオを実際に再生する場合、空間上に実際のスピーカを多数配置できるときには、仮想スピーカ信号に基づく再生が行われる。また、多数のスピーカを配置することができず、ヘッドフォンやサウンドバーなどの少数のスピーカでオブジェクトオーディオを再生するときには、上述の出力オーディオ信号に基づく再生が行われる。

　一方で、近年、ストレージ価格の下落やネットワークの広帯域化により、サンプリング周波数が96kHz以上の、いわゆるハイレゾ音源、すなわちハイレゾリューション音源が楽しめるようになってきている。

　非特許文献１に記載の符号化方式では、ハイレゾ音源を効率的に符号化するための技術として、SBR（Spectral Band Replication）等の技術を用いることができる。

　例えばSBRにおいては、符号化側では、スペクトルの高域成分は符号化されずに、高域サブバンド信号の平均振幅情報が高域サブバンドの個数分だけ符号化されて伝送される。

　そして、復号側においては、低域サブバンド信号と、高域の平均振幅情報とに基づいて、低域成分と高域成分とが含まれる最終的な出力信号が生成される。これにより、より高品質なオーディオ再生を実現することができる。

　この手法では、人間は高域信号成分の位相変化には鈍感で、その周波数包絡の概形がもとの信号に近い場合、その差を知覚できないという聴覚特性が利用されており、このような手法は、一般的に帯域拡張技術として広く知られている。

INTERNATIONAL STANDARD ISO/IEC 23008-3 Second edition 2019-02 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio

　ところで、上述のオブジェクトオーディオについて、レンダリング処理やHRTF処理と組み合わせて帯域拡張を行う場合、各オブジェクトのオブジェクト信号に対して帯域拡張処理が行われてから、レンダリング処理やHRTF処理が行われる。

　この場合、帯域拡張処理はオブジェクトの数だけ独立に行われるため、処理負荷、すなわち演算量が多くなってしまう。また、帯域拡張処理後には、帯域拡張により得られた、よりサンプリング周波数の高い信号を対象としてレンダリング処理やHRTF処理が行われるため、さらに処理負荷が増大してしまう。

　そうすると、低コストなプロセッサやバッテリの装置、すなわち演算処理能力が低い装置や、バッテリ容量が少ない装置など、低コストな装置では帯域拡張を行うことができず、結果として高品質なオーディオ再生を行うことができなくなってしまう。

　本技術は、このような状況に鑑みてなされたものであり、低コストな装置でも高品質なオーディオ再生を行うことができるようにするものである。

　本技術の第１の側面の信号処理装置は、入力ビットストリームを第１のオーディオ信号と、前記第１のオーディオ信号のメタデータと、帯域拡張のための第１の高域情報とに非多重化するデコード処理部と、前記第１のオーディオ信号および前記メタデータに基づいて信号処理を行うことで得られた第２のオーディオ信号と、前記第１の高域情報に基づいて生成された第２の高域情報とに基づいて帯域拡張処理を行い、出力オーディオ信号を生成する帯域拡張部とを備える。

　本技術の第１の側面の信号処理方法またはプログラムは、入力ビットストリームを第１のオーディオ信号と、前記第１のオーディオ信号のメタデータと、帯域拡張のための第１の高域情報とに非多重化し、前記第１のオーディオ信号および前記メタデータに基づいて信号処理を行うことで得られた第２のオーディオ信号と、前記第１の高域情報に基づいて生成された第２の高域情報とに基づいて帯域拡張処理を行い、出力オーディオ信号を生成するステップを含む。

　本技術の第１の側面においては、入力ビットストリームが第１のオーディオ信号と、前記第１のオーディオ信号のメタデータと、帯域拡張のための第１の高域情報とに非多重化され、前記第１のオーディオ信号および前記メタデータに基づいて信号処理を行うことで得られた第２のオーディオ信号と、前記第１の高域情報に基づいて生成された第２の高域情報とに基づいて帯域拡張処理が行われ、出力オーディオ信号が生成される。

　本技術の第２の側面の学習装置は、第１のオーディオ信号と第１の係数とに基づく信号処理により生成された第２のオーディオ信号に基づいて、帯域拡張のための第１の高域情報を生成する第１の高域情報計算部と、前記第１のオーディオ信号と第２の係数とに基づく前記信号処理により生成された第３のオーディオ信号に基づいて、帯域拡張のための第２の高域情報を生成する第２の高域情報計算部と、前記第１の係数、前記第２の係数、前記第１の高域情報、および前記第２の高域情報に基づいて、前記第２の高域情報を教師データとする学習を行い、前記第１の係数、前記第２の係数、および前記第１の高域情報から前記第２の高域情報を得るための係数データを生成する高域情報学習部とを備える。

　本技術の第２の側面の学習方法またはプログラムは、第１のオーディオ信号と第１の係数とに基づく信号処理により生成された第２のオーディオ信号に基づいて、帯域拡張のための第１の高域情報を生成し、前記第１のオーディオ信号と第２の係数とに基づく前記信号処理により生成された第３のオーディオ信号に基づいて、帯域拡張のための第２の高域情報を生成し、前記第１の係数、前記第２の係数、前記第１の高域情報、および前記第２の高域情報に基づいて、前記第２の高域情報を教師データとする学習を行い、前記第１の係数、前記第２の係数、および前記第１の高域情報から前記第２の高域情報を得るための係数データを生成するステップを含む。

　本技術の第２の側面においては、第１のオーディオ信号と第１の係数とに基づく信号処理により生成された第２のオーディオ信号に基づいて、帯域拡張のための第１の高域情報が生成され、前記第１のオーディオ信号と第２の係数とに基づく前記信号処理により生成された第３のオーディオ信号に基づいて、帯域拡張のための第２の高域情報が生成され、前記第１の係数、前記第２の係数、前記第１の高域情報、および前記第２の高域情報に基づいて、前記第２の高域情報を教師データとする学習が行われ、前記第１の係数、前記第２の係数、および前記第１の高域情報から前記第２の高域情報を得るための係数データが生成される。

出力オーディオ信号の生成について説明する図である。 VBAPについて説明する図である。 HRTF処理について説明する図である。帯域拡張処理について説明する図である。帯域拡張処理について説明する図である。信号処理装置の構成例を示す図である。本技術を適用した信号処理装置の構成例を示す図である。個人用高域情報生成部の構成例を示す図である。入力ビットストリームのシンタックス例を示す図である。信号生成処理を説明するフローチャートである。学習装置の構成例を示す図である。学習処理を説明するフローチャートである。エンコーダの構成例を示す図である。符号化処理を説明するフローチャートである。コンピュータの構成例を示す図である。

　以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈本技術について〉
　本技術は、予めHRTF出力信号を対象とした帯域拡張処理のための汎用の高域情報をビットストリーム中に多重化して伝送するとともに、復号側において、個人用のHRTF係数と、汎用のHRTF係数および高域情報とに基づいて、個人用のHRTF係数に対応する高域情報を生成するようにした。

　これにより、処理負荷の高いデコード処理やレンダリング処理、バーチャライズ処理を低いサンプリング周波数で行い、その後、個人用のHRTF係数に対応する高域情報に基づいて帯域拡張処理を行うようにすることができ、全体として演算量を低減させることができる。その結果、低コストな装置でも、より高いサンプリング周波数の出力オーディオ信号に基づく、高品質なオーディオ再生を行うことができる。

　特に、本技術では、復号側で個人用のHRTF係数に対応する高域情報を生成することで、符号化側でユーザ個人ごとに高域情報を用意する必要がなくなる。また、復号側では個人用のHRTF係数に対応する高域情報を生成することで、汎用の高域情報を用いる場合よりも、より高品質なオーディオ再生を行うことができる。

　それでは、以下、本技術について、より詳細に説明する。

　まず、MPEG-H Part 3:3D audio規格の符号化方式での符号化により得られたビットストリームに対して復号（デコード）を行い、オブジェクトオーディオの出力オーディオ信号を生成するときに行われる一般的な処理について説明する。

　例えば図１に示すように、符号化（エンコード）により得られた入力ビットストリームがデコード処理部１１に入力されると、その入力ビットストリームに対して非多重化およびデコード処理が行われる。

　デコード処理によって、コンテンツを構成するオブジェクト（オーディオオブジェクト）の音を再生するためのオーディオ信号であるオブジェクト信号と、そのオブジェクトの空間内の位置を示すオブジェクト位置情報を含むメタデータとが得られる。

　続いて、レンダリング処理部１２では、メタデータに含まれるオブジェクト位置情報に基づいて、空間内に仮想的に配置された仮想スピーカにオブジェクト信号をレンダリングするレンダリング処理が行われ、各仮想スピーカから出力される音を再生するための仮想スピーカ信号が生成される。

　さらに、バーチャライズ処理部１３では、各仮想スピーカの仮想スピーカ信号に基づいてバーチャライズ処理が行われ、ユーザが装着するヘッドフォンや実空間に配置されたスピーカなどの再生装置から音を出力させるための出力オーディオ信号が生成される。

　バーチャライズ処理とは、実際の再生環境でのチャネル構成とは異なるチャネル構成で再生が行われているかのようなオーディオ再生を実現するためのオーディオ信号を生成する処理である。

　例えば、この例では、実際にはヘッドフォン等の再生装置から音が出力されているのにもかかわらず、あたかも各仮想スピーカから音が出力されているかのようなオーディオ再生を実現するための出力オーディオ信号を生成する処理がバーチャライズ処理である。

　バーチャライズ処理は、どのような手法により実現されてもよいが、以下ではバーチャライズ処理としてHRTF処理が行われるものとして説明を続ける。

　バーチャライズ処理で得られた出力オーディオ信号に基づいて、実際のヘッドフォンやスピーカから音を出力すれば、あたかも仮想スピーカから音が再生されているかのようなオーディオ再生を実現することができる。なお、以下では、実空間に実際に配置されるスピーカを特に実スピーカとも称することとする。

　このようなオブジェクトオーディオを再生する場合、空間内に多数の実スピーカを配置できるときには、レンダリング処理の出力をそのまま実スピーカで再生することができる。

　これに対して、空間内に多数の実スピーカを配置できないときには、HRTF処理を行ってヘッドフォンや、サウンドバーなどの少数の実スピーカによって再生を行うことになる。一般的には、ヘッドフォンや少数の実スピーカによって再生を行うことが多い。

　ここで、一般的なレンダリング処理とHRTF処理について、さらに説明を行う。

　例えばレンダリング時には、上述したVBAPなどの所定の方式のレンダリング処理が行われる。VBAPは一般的にパニングと呼ばれるレンダリング手法の１つで、ユーザ位置を原点とする球表面上に存在する仮想スピーカのうち、同じく球表面上に存在するオブジェクトに最も近い３個の仮想スピーカに対しゲインを分配することでレンダリングを行うものである。

　例えば図２に示すように、３次元空間に受聴者であるユーザU11がおり、そのユーザU11の前方に３つの仮想スピーカSP1乃至仮想スピーカSP3が配置されているとする。

　ここでは、ユーザU11の頭部の位置を原点Ｏとし、その原点Ｏを中心とする球の表面上に仮想スピーカSP1乃至仮想スピーカSP3が位置しているとする。

　いま、球表面上における仮想スピーカSP1乃至仮想スピーカSP3に囲まれる領域TR11内にオブジェクトが存在しており、そのオブジェクトの位置VSP1に音像を定位させることを考えるとする。

　そのような場合、VBAPではオブジェクトについて、位置VSP1の周囲にある仮想スピーカSP1乃至仮想スピーカSP3に対してゲインが分配されることになる。

　具体的には、原点Ｏを基準（原点）とする３次元座標系において、原点Ｏを始点とし、位置VSP1を終点とする３次元のベクトルPにより位置VSP1を表すこととする。

　また、原点Ｏを始点とし、各仮想スピーカSP1乃至仮想スピーカSP3の位置を終点とする３次元のベクトルをベクトルL₁乃至ベクトルL₃とすると、ベクトルPは次式（１）に示すようにベクトルL₁乃至ベクトルL₃の線形和によって表すことができる。

　ここで、式（１）においてベクトルL₁乃至ベクトルL₃に乗算されている係数g₁乃至係数g₃を算出し、これらの係数g₁乃至係数g₃を、仮想スピーカSP1乃至仮想スピーカSP3のそれぞれから出力する音のゲインとすれば、位置VSP1に音像を定位させることができる。

　例えば係数g₁乃至係数g₃を要素とするベクトルをg₁₂₃＝［g₁,g₂,g₃］とし、ベクトルL₁乃至ベクトルL₃を要素とするベクトルをL₁₂₃＝［L₁,L₂,L₃］とすると、上述した式（１）を変形して次式（２）を得ることができる。

　このような式（２）を計算して求めた係数g₁乃至係数g₃をゲインとして用いて、オブジェクト信号に基づく音を各仮想スピーカSP1乃至仮想スピーカSP3から出力すれば、位置VSP1に音像を定位させることができる。

　なお、各仮想スピーカSP1乃至仮想スピーカSP3の配置位置は固定されており、それらの仮想スピーカの位置を示す情報は既知であるため、逆行列であるL₁₂₃ ^-1は事前に求めておくことができる。

　図２に示した球表面上における、３個の仮想スピーカにより囲まれる三角形の領域TR11はメッシュと呼ばれている。空間内に配置された多数の仮想スピーカを組み合わせて複数のメッシュを構成することで、オブジェクトの音を空間内の任意の位置に定位させることが可能である。

　このように、各オブジェクトに対して仮想スピーカのゲインが求められると、次式（３）の演算を行うことで、各仮想スピーカの仮想スピーカ信号を得ることができる。

　なお、式（３）においてSP(m,t)は、Ｍ個の仮想スピーカのうちのｍ番目（但し、m＝0,1,…,M-1）の仮想スピーカの時刻ｔにおける仮想スピーカ信号を示している。また、式（３）においてS(n,t)はＮ個のオブジェクトのうちのｎ番目（但し、n＝0,1,…,N-1）のオブジェクトの時刻ｔにおけるオブジェクト信号を示している。

　さらに式（３）においてG(m,n)は、ｍ番目の仮想スピーカについての仮想スピーカ信号SP(m,t)を得るための、ｎ番目のオブジェクトのオブジェクト信号S(n,t)に乗算されるゲインを示している。すなわち、ゲインG(m,n)は、上述した式（２）により求められた、ｎ番目のオブジェクトについてのｍ番目の仮想スピーカに分配されたゲインを示している。

　レンダリング処理では、この式（３）の計算が最も計算コストがかかる処理となる。すなわち、式（３）の演算が最も演算量の多い処理となる。

　次に、式（３）の演算により得られた仮想スピーカ信号に基づく音をヘッドフォンまたは少数の実スピーカで再生する場合に行われるHRTF処理の例について図３を参照して説明する。なお、図３では説明を簡単にするため、２次元の水平面上に仮想スピーカが配置された例となっている。

　図３では、空間内に５個の仮想スピーカSP11-1乃至仮想スピーカSP11-5が円形状に並べられて配置されている。以下、仮想スピーカSP11-1乃至仮想スピーカSP11-5を特に区別する必要のない場合、単に仮想スピーカSP11とも称することとする。

　また、図３では５個の仮想スピーカSP11に囲まれる位置、すなわち仮想スピーカSP11が配置された円の中心位置に受聴者であるユーザU21が位置している。したがって、HRTF処理では、あたかもユーザU21が各仮想スピーカSP11から出力される音を聞いているかのようなオーディオ再生を実現するための出力オーディオ信号が生成される。

　特に、この例ではユーザU21がいる位置を聴取位置として、５個の各仮想スピーカSP11へのレンダリングにより得られた仮想スピーカ信号に基づく音をヘッドフォンにより再生することとする。

　そのような場合、例えば仮想スピーカ信号に基づいて仮想スピーカSP11-1から出力（放射）された音は矢印Q11に示す経路を通り、ユーザU21の左耳の鼓膜に到達する。そのため、仮想スピーカSP11-1から出力された音の特性は、仮想スピーカSP11-1からユーザU21の左耳までの空間伝達特性、ユーザU21の顔や耳の形状や反射吸収特性などにより変化するはずである。

　そこで、仮想スピーカSP11-1の仮想スピーカ信号に対して、仮想スピーカSP11-1からユーザU21の左耳までの空間伝達特性、およびユーザU21の顔や耳の形状、反射吸収特性などが加味された伝達関数H_L_SP11を畳み込めば、ユーザU21の左耳で聞こえるであろう仮想スピーカSP11-1からの音を再生する出力オーディオ信号を得ることができる。

　同様に、例えば仮想スピーカ信号に基づいて仮想スピーカSP11-1から出力された音は矢印Q12に示す経路を通り、ユーザU21の右耳の鼓膜に到達する。したがって、仮想スピーカSP11-1の仮想スピーカ信号に対して、仮想スピーカSP11-1からユーザU21の右耳までの空間伝達特性、およびユーザU21の顔や耳の形状、反射吸収特性などが加味された伝達関数H_R_SP11を畳み込めば、ユーザU21の右耳で聞こえるであろう仮想スピーカSP11-1からの音を再生する出力オーディオ信号を得ることができる。

　これらのことから、最終的に５個の仮想スピーカSP11の仮想スピーカ信号に基づく音をヘッドフォンで再生するときには、左チャネルについては、各仮想スピーカ信号に対して、各仮想スピーカの左耳用の伝達関数を畳み込んで、その結果得られた各信号を足し合わせて左チャネルの出力オーディオ信号とすればよい。

　同様に、右チャネルについては、各仮想スピーカ信号に対して、各仮想スピーカの右耳用の伝達関数を畳み込んで、その結果得られた各信号を足し合わせて右チャネルの出力オーディオ信号とすればよい。

　なお、再生に用いる再生装置がヘッドフォンではなく実スピーカである場合にも、ヘッドフォンにおける場合と同様のHRTF処理が行われる。しかし、この場合にはスピーカからの音は空間伝搬によりユーザの左右の両耳に到達するため、クロストークが考慮された処理が行われることになる。このような処理はトランスオーラル処理とも呼ばれている。

　一般的には周波数表現された左耳用、つまり左チャネルの出力オーディオ信号をL(ω)とし、周波数表現された右耳用、つまり右チャネルの出力オーディオ信号をR(ω)とすると、これらのL(ω)およびR(ω)は次式（４）を計算することで得ることができる。

　なお、式（４）においてωは周波数を示しており、SP(m,ω)はＭ個の仮想スピーカのうちのｍ番目（但し、m＝0,1,…,M-1）の仮想スピーカの周波数ωの仮想スピーカ信号を示している。仮想スピーカ信号SP(m,ω)は、上述した仮想スピーカ信号SP(m,t)を時間周波数変換することにより得ることができる。

　また、式（４）においてH_L(m,ω)は、左チャネルの出力オーディオ信号L(ω)を得るための、ｍ番目の仮想スピーカについての仮想スピーカ信号SP(m,ω)に乗算される左耳用の伝達関数を示している。同様にH_R(m,ω)は右耳用の伝達関数を示している。

　これらのHRTFの伝達関数H_L(m,ω)や伝達関数H_R(m,ω)を時間領域のインパルス応答として表現する場合、少なくとも１秒程度の長さが必要となる。そのため、例えば仮想スピーカ信号のサンプリング周波数が48kHzである場合には、48000タップの畳み込みを行わなければならず、伝達関数の畳み込みにFFT（Fast Fourier Transform）を用いた高速演算手法を用いてもなお多くの演算量が必要となる。

　以上のようにデコード処理、レンダリング処理、およびHRTF処理を行って出力オーディオ信号を生成し、ヘッドフォンや少数個の実スピーカを用いてオブジェクトオーディオを再生する場合、多くの演算量が必要となる。また、この演算量はオブジェクトの数が増えると、その分だけさらに多くなる。

　次に、帯域拡張処理について説明する。

　一般的な帯域拡張処理、すなわちSBRでは、符号化側において、オーディオ信号のスペクトルの高域成分は符号化されずに、高域の周波数帯域である高域サブバンドの高域サブバンド信号の平均振幅情報が高域サブバンドの個数分符号化され、復号側へと伝送される。

　また、復号側では、デコード処理（復号）により得られたオーディオ信号である低域サブバンド信号が、その平均振幅で正規化された後、正規化された信号が高域サブバンドへとコピー（複製）される。そして、その結果得られた信号に各高域サブバンドの平均振幅情報が乗算されて高域サブバンド信号とされ、低域サブバンド信号と高域サブバンド信号とがサブバンド合成されて、最終的な出力オーディオ信号とされる。

　このような帯域拡張処理により、例えばサンプリング周波数が96kHz以上のハイレゾ音源のオーディオ再生を行うことができる。

　しかし、例えば一般的なステレオのオーディオとは異なり、オブジェクトオーディオにおいてサンプリング周波数が96kHzの信号を処理する場合、SBR等の帯域拡張処理が行われるか否かによらず、復号により得られた96kHzのオブジェクト信号に対して、レンダリング処理やHRTF処理が行われることになる。そのため、オブジェクト数や仮想スピーカ数が多い場合、それらの処理の計算コストは莫大なものとなり、高性能のプロセッサと高い消費電力が必要となる。

　ここで、図４を参照して、オブジェクトオーディオにおいて帯域拡張により96kHzの出力オーディオ信号を得る場合に行われる処理例について説明する。なお、図４において図１における場合と対応する部分には同一の符号を付してあり、その説明は省略する。

　入力ビットストリームが供給されると、デコード処理部１１で非多重化およびデコード処理が行われ、その結果得られたオブジェクト信号と、オブジェクトのオブジェクト位置情報および高域情報とが出力される。

　例えば高域情報は、符号化前のオブジェクト信号から得られる高域サブバンド信号の平均振幅情報である。

　換言すれば高域情報は、デコード処理で得られるオブジェクト信号に対応する、よりサンプリング周波数の高い符号化前のオブジェクト信号の高域側の各サブバンド成分の大きさを示す、帯域拡張のための帯域拡張情報である。なお、ここではSBRを例として説明を行っているため、帯域拡張情報として高域サブバンド信号の平均振幅情報が用いられているが、帯域拡張処理のための帯域拡張情報は、符号化前のオブジェクト信号の高域側の各サブバンドの振幅の代表値や、周波数包絡の形状を示す情報など、どのようなものであってもよい。

　また、ここでは、デコード処理により得られるオブジェクト信号は、例えばサンプリング周波数が48kHzのものであるとし、以下では、そのようなオブジェクト信号を低FSオブジェクト信号とも称することとする。

　デコード処理後、帯域拡張部４１では、高域情報と低FSオブジェクト信号とに基づいて帯域拡張処理が行われ、よりサンプリング周波数の高いオブジェクト信号が得られる。この例では、帯域拡張処理により、例えばサンプリング周波数が96kHzであるオブジェクト信号が得られることとし、以下では、そのようなオブジェクト信号を高FSオブジェクト信号とも称することとする。

　また、レンダリング処理部１２では、デコード処理により得られたオブジェクト位置情報と、帯域拡張処理により得られた高FSオブジェクト信号とに基づいてレンダリング処理が行われる。特に、この例ではレンダリング処理により、サンプリング周波数が96kHzである仮想スピーカ信号が得られ、以下では、そのような仮想スピーカ信号を高FS仮想スピーカ信号とも称する。

　さらに、その後、バーチャライズ処理部１３において、高FS仮想スピーカ信号に基づいてHRTF処理等のバーチャライズ処理が行われ、サンプリング周波数が96kHzである出力オーディオ信号が得られる。

　ここで、図５を参照して、一般的な帯域拡張処理について説明する。

　図５は、所定のオブジェクト信号の周波数振幅特性を示している。なお、図５において縦軸は振幅（パワー）を示しており、横軸は周波数を示している。

　例えば折れ線L11は、帯域拡張部４１に供給される低FSオブジェクト信号の周波数振幅特性を示している。この低FSオブジェクト信号は、サンプリング周波数が48kHzであり、低FSオブジェクト信号には24kHz以上の周波数帯域の信号成分は含まれていない。

　ここでは、例えば24kHzまでの周波数帯域が、低域サブバンドsb-8乃至低域サブバンドsb-1を含む複数の低域サブバンドに分割されており、それらの各低域サブバンドの信号成分が低域サブバンド信号である。同様に、24kHzから48kHzまでの周波数帯域が、高域サブバンドsb乃至高域サブバンドsb+13に分割されており、それらの各高域サブバンドの信号成分が高域サブバンド信号である。

　また、帯域拡張部４１には、各高域サブバンドsb乃至高域サブバンドsb+13について、それらの高域サブバンドの平均振幅情報を示す高域情報が供給される。

　例えば図５では、直線L12は、高域サブバンドsbの高域情報として供給される平均振幅情報を示しており、直線L13は、高域サブバンドsb+1の高域情報として供給される平均振幅情報を示している。

　帯域拡張部４１では、低域サブバンド信号が、その低域サブバンド信号の平均振幅値で正規化され、正規化により得られた信号が高域側へとコピー（マッピング）される。ここで、コピー元となる低域サブバンドと、その低域サブバンドのコピー先となる高域サブバンドは拡張周波数帯域等により予め定められている。

　例えば低域サブバンドsb-8の低域サブバンド信号が正規化され、正規化により得られた信号が、高域サブバンドsbへとコピーされる。

　より具体的には、低域サブバンドsb-8の低域サブバンド信号の正規化後の信号に対して変調処理が行われ、高域サブバンドsbの周波数成分の信号へと変換される。

　同様に、例えば低域サブバンドsb-7の低域サブバンド信号は、正規化後、高域サブバンドsb+1へとコピーされる。

　このようにして正規化された低域サブバンド信号が高域サブバンドへとコピー（マッピング）されると、各高域サブバンドのコピーされた信号に対し、それらの各高域サブバンドの高域情報により示される平均振幅情報が乗算され、高域サブバンド信号が生成される。

　例えば高域サブバンドsbでは、低域サブバンドsb-8の低域サブバンド信号を正規化して高域サブバンドsbへとコピーすることにより得られた信号に対して、直線L12により示される平均振幅情報が乗算され、高域サブバンドsbの高域サブバンド信号とされる。

　各高域サブバンドについて、高域サブバンド信号が得られると、その後、各低域サブバンド信号と、各高域サブバンド信号とが96kHzサンプリングの帯域合成フィルタに入力されてフィルタリング（合成）され、その結果得られた高FSオブジェクト信号が出力される。すなわち、サンプリング周波数が96kHzへとアップサンプリング（帯域拡張）された、高FSオブジェクト信号が得られる。

　図４に示した例では、帯域拡張部４１において、以上のような高FSオブジェクト信号を生成する帯域拡張処理が、入力ビットストリームに含まれる低FSオブジェクト信号ごとに、すなわちオブジェクトごとに独立して行われる。

　したがって、例えばオブジェクト数が３２個である場合、レンダリング処理部１２では、３２個の各オブジェクトについて、96kHzの高FSオブジェクト信号のレンダリング処理を行わなければならない。

　同様に、その後段のバーチャライズ処理部１３においても、仮想スピーカ数分だけ、96kHzの高FS仮想スピーカ信号のHRTF処理（バーチャライズ処理）を行わなければならない。

　その結果、装置全体における処理負荷は莫大なものとなってしまう。これは、帯域拡張処理を行わず、デコード処理により得られるオーディオ信号のサンプリング周波数が96kHzである場合でも同様である。

　そこで、ハイレゾ、すなわち高いサンプリング周波数のバーチャライズ処理後の信号の高域情報を符号化時に予め計算し、入力ビットストリームに多重化して伝送することが考えられる。

　このようにすることで、例えば処理負荷の高いデコード処理、レンダリング処理、HRTF処理を低いサンプリング周波数で行い、HRTF処理後の最終的な信号に対して、伝送された高域情報に基づく帯域拡張処理を行うことができる。これにより、全体における処理負荷を低減させ、低コストなプロセッサやバッテリでも高品質なオーディオ再生を実現することができる。

　そのような場合、復号側の信号処理装置を、例えば図６に示す構成とすることができる。なお、図６において図４における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図６に示す信号処理装置７１は、例えばスマートフォンやパーソナルコンピュータなどからなり、デコード処理部１１、レンダリング処理部１２、バーチャライズ処理部１３、および帯域拡張部４１を有している。

　図４に示した例ではデコード処理、帯域拡張処理、レンダリング処理、およびバーチャライズ処理の順で各処理が行われる。

　これに対して、信号処理装置７１では、デコード処理、レンダリング処理、バーチャライズ処理、および帯域拡張処理の順に各処理（信号処理）が行われる。すなわち、帯域拡張処理が最後に行われる。

　したがって信号処理装置７１では、まずデコード処理部１１において入力ビットストリームの非多重化およびデコード処理が行われる。

　デコード処理部１１は、非多重化およびデコード処理（復号処理）により得られた高域情報を帯域拡張部４１に供給するとともに、オブジェクト位置情報およびオブジェクト信号をレンダリング処理部１２に供給する。

　ここで、入力ビットストリームには、バーチャライズ処理部１３の出力に対応した高域情報が含まれており、デコード処理部１１は、その高域情報を帯域拡張部４１に供給する。

　また、レンダリング処理部１２では、デコード処理部１１から供給されたオブジェクト位置情報およびオブジェクト信号に基づいてVBAP等のレンダリング処理が行われ、その結果得られた仮想スピーカ信号がバーチャライズ処理部１３に供給される。

　バーチャライズ処理部１３では、バーチャライズ処理としてHRTF処理が行われる。すなわち、バーチャライズ処理部１３では、レンダリング処理部１２から供給された仮想スピーカ信号と、事前に与えられた伝達関数に対応するHRTF係数とに基づく畳み込み処理と、その結果得られる信号を足し合わせる加算処理がHRTF処理として行われる。バーチャライズ処理部１３は、HRTF処理により得られたオーディオ信号を帯域拡張部４１に供給する。

　この例では、例えばデコード処理部１１からレンダリング処理部１２に供給されるオブジェクト信号は、サンプリング周波数が48kHzである低FSオブジェクト信号とされる。

　そのような場合、レンダリング処理部１２からバーチャライズ処理部１３に供給される仮想スピーカ信号もサンプリング周波数が48kHzである信号となるので、バーチャライズ処理部１３から帯域拡張部４１へと供給されるオーディオ信号のサンプリング周波数も48kHzとなる。

　以下では、バーチャライズ処理部１３から帯域拡張部４１へと供給されるオーディオ信号を、特に低FSオーディオ信号とも称することとする。このような低FSオーディオ信号は、オブジェクト信号に対してレンダリング処理やバーチャライズ処理等の信号処理を施すことにより得られた、ヘッドフォンや実スピーカなどの再生装置を駆動させて音を出力させる駆動信号である。

　帯域拡張部４１は、デコード処理部１１から供給された高域情報に基づいて、バーチャライズ処理部１３から供給された低FSオーディオ信号に対して帯域拡張処理を行うことで出力オーディオ信号を生成し、後段に出力する。帯域拡張部４１で得られる出力オーディオ信号は、例えばサンプリング周波数が96kHzである信号とされる。

　ところで、バーチャライズ処理としてのHRTF処理に用いられるHRTF係数は、受聴者であるユーザ個人の耳や顔の形状に大きく依存することがよく知られている。

　一般的な仮想サラウンド対応のヘッドフォンなどでは、ユーザ個人に適した個人用HRTF係数を取得することが困難であるため、平均的な耳や顔の形状のための汎用的なHRTF係数、すなわち、いわゆる汎用HRTF係数が多く用いられている。

　しかし、汎用のHRTF係数を用いた場合、個人用HRTF係数を用いた場合と比較して、音源の定位感や音質そのものが大きく劣ることが知られている。

　そのため、ユーザ個人に適したHRTF係数をより簡単に取得する測定方法なども提案されており、そのような測定手法は、例えば国際公開第２０１８／１１０２６９号などに詳細に記載されている。

　以下では、人の平均的な耳や顔の形状について測定または生成された、汎用的なHRTF係数を、特に汎用HRTF係数とも称することとする。

　また、以下、ユーザ個人について測定または生成された、ユーザ個人の耳や顔の形状に対応するHRTF係数、つまりユーザ個人ごとのHRTF係数を、特に個人用HRTF係数とも称することとする。

　なお、個人用HRTF係数は、ユーザ個人について測定または生成されたものに限らず、耳や顔の形状ごとなどに測定または生成された複数のHRTF係数のなかから、ユーザの大よその耳や顔の形状や年齢、性別等のユーザ個人に関する情報に基づいて選択された、ユーザ個人に適したHRTF係数であってもよい。

　以上のように、ユーザごとに、そのユーザに適したHRTF係数は異なる。

　例えば、図６に示した信号処理装置７１のバーチャライズ処理部１３で、個人用HRTF係数を利用することとすると、帯域拡張部４１で利用される高域情報も個人用HRTF係数に対応したものとすることが望ましい。

　しかしながら、入力ビットストリームに含まれている高域情報は、汎用HRTF係数を用いてHRTF処理を行うことで得られるオーディオ信号に対して帯域拡張処理を行うことを想定したものである汎用高域情報となっている。

　そのため、個人用HRTF係数を用いてHRTF処理を行うことで得られるオーディオ信号に対して、入力ビットストリームに含まれている高域情報をそのまま用いて帯域拡張処理を行うと、得られる出力オーディオ信号に大きな音質劣化が生じてしまうことがある。

　一方で、予め個人用HRTF係数を用いることを前提とした、ユーザごと、つまり個人用HRTF係数ごとに生成した高域情報（個人用高域情報）を入力ビットストリームに格納して伝送することは運用上、容易ではない。

　これは、オブジェクトオーディオを再生するユーザ（個人）それぞれのために入力ビットストリームを用意したり、個人用HRTF係数ごとに、それらの個人用HRTF係数に対応する個人用高域情報を用意したりする必要があるからである。また、そのようにすると、オブジェクトオーディオ（入力ビットストリーム）を配信する側、つまり符号化側のサーバ等のストレージ容量も圧迫されてしまう。

　そこで、本技術では、汎用HRTF係数を前提とした汎用高域情報と、汎用HRTF係数と、個人用HRTF係数とを用いて、個人用高域情報を再生装置側（復号側）で生成するようにした。

　これにより、例えば処理負荷の高いデコード処理、レンダリング処理、HRTF処理を低いサンプリング周波数で行い、HRTF処理後の最終的な信号に対して、生成された個人用高域情報に基づく帯域拡張処理を行うことができるようになる。したがって、全体における処理負荷を低減させ、低コストなプロセッサやバッテリでも高品質なオーディオ再生を実現することができる。

〈信号処理装置の構成例〉
　図７は、本技術を適用した信号処理装置１０１の一実施の形態の構成例を示す図である。なお、図７において図６における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　信号処理装置１０１は、例えばスマートフォンやパーソナルコンピュータなどからなり、デコード処理部１１、レンダリング処理部１２、バーチャライズ処理部１３、個人用高域情報生成部１２１、HRTF係数記録部１２２、および帯域拡張部４１を有している。

　信号処理装置１０１の構成は、新たに個人用高域情報生成部１２１およびHRTF係数記録部１２２を設けた点で信号処理装置７１の構成と異なり、その他の点では信号処理装置７１と同じ構成となっている。

　デコード処理部１１は、図示せぬサーバ等から、オブジェクトオーディオの符号化されたオブジェクト信号や、オブジェクト位置情報等が含まれたメタデータ、汎用高域情報などが含まれている入力ビットストリームを取得（受信）する。

　入力ビットストリームに含まれている汎用高域情報は、基本的には信号処理装置７１のデコード処理部１１が取得する入力ビットストリームに含まれている高域情報と同じものとなっている。

　デコード処理部１１は、受信するなどして取得した入力ビットストリームを、符号化されたオブジェクト信号やメタデータ、汎用高域情報に非多重化するとともに、符号化されているオブジェクト信号やメタデータをデコードする。

　デコード処理部１１は、入力ビットストリームに対する非多重化およびデコード処理により得られた汎用高域情報を個人用高域情報生成部１２１に供給するとともに、オブジェクト位置情報およびオブジェクト信号をレンダリング処理部１２に供給する。

　ここで、入力ビットストリームには、汎用HRTF係数を用いてバーチャライズ処理部１３でHRTF処理を行ったときのバーチャライズ処理部１３の出力に対応した汎用高域情報が含まれている。すなわち、汎用高域情報は、汎用HRTF係数を用いてHRTF処理を行うことで得られるHRTF出力信号の帯域拡張のための高域情報である。

　レンダリング処理部１２は、デコード処理部１１から供給されたオブジェクト位置情報およびオブジェクト信号に基づいてVBAP等のレンダリング処理を行い、その結果得られた仮想スピーカ信号をバーチャライズ処理部１３に供給する。

　バーチャライズ処理部１３は、レンダリング処理部１２から供給された仮想スピーカ信号と、HRTF係数記録部１２２から供給された、事前に与えられた伝達関数に対応する個人用HRTF係数とに基づいて、バーチャライズ処理としてHRTF処理を行い、その結果得られたオーディオ信号を帯域拡張部４１に供給する。

　例えばHRTF処理では、仮想スピーカごとの仮想スピーカ信号と個人用HRTF係数との畳み込み処理、およびそれらの仮想スピーカごとの畳み込み処理により得られた信号を足し合わせる加算処理が行われる。

　なお、以下、バーチャライズ処理部１３でのHRTF処理により得られたオーディオ信号を、特にHRTF出力信号とも称することとする。HRTF出力信号は、オブジェクト信号に対してレンダリング処理やバーチャライズ処理等の信号処理を施すことにより得られた、ヘッドフォン等の再生装置を駆動させて音を出力させる駆動信号である。

　信号処理装置１０１では、例えばデコード処理部１１からレンダリング処理部１２に供給されるオブジェクト信号は、サンプリング周波数が48kHzである低FSオブジェクト信号とされる。

　そのような場合、レンダリング処理部１２からバーチャライズ処理部１３に供給される仮想スピーカ信号もサンプリング周波数が48kHzである信号となるので、バーチャライズ処理部１３から帯域拡張部４１へと供給されるHRTF出力信号のサンプリング周波数も48kHzとなる。

　信号処理装置１０１では、レンダリング処理部１２およびバーチャライズ処理部１３が、メタデータ（オブジェクト位置情報）や個人用HRTF係数、オブジェクト信号に基づいてレンダリング処理やバーチャライズ処理を含む信号処理を行い、HRTF出力信号を生成する信号処理部として機能するということができる。この場合、信号処理には、少なくともバーチャライズ処理が含まれていればよい。

　個人用高域情報生成部１２１は、デコード処理部１１から供給された汎用高域情報と、HRTF係数記録部１２２から供給された汎用HRTF係数および個人用HRTF係数とに基づいて個人用高域情報を生成し、帯域拡張部４１に供給する。

　この個人用高域情報は、個人用HRTF係数を用いてHRTF処理を行うことで得られるHRTF出力信号の帯域拡張のための高域情報である。

　HRTF係数記録部１２２は、予め記録されているか、または必要に応じて外部の装置から取得した汎用HRTF係数や個人用HRTF係数を記録（保持）する。

　HRTF係数記録部１２２は、記録している個人用HRTF係数をバーチャライズ処理部１３に供給したり、記録している汎用HRTF係数および個人用HRTF係数を個人用高域情報生成部１２１に供給したりする。

　一般的に、汎用HRTF係数は予め再生装置の記録領域内に格納されているため、この例でも汎用HRTF係数が再生装置として機能する信号処理装置１０１のHRTF係数記録部１２２に予め記録されているようにすることができる。

　また、個人用HRTF係数は、ネットワーク上のサーバ等から取得されるようにすることができる。

　そのような場合、例えば再生装置として機能する信号処理装置１０１自身や、信号処理装置１０１に接続された、スマートフォン等の端末装置により、ユーザの顔画像や耳画像等の画像データが撮影により生成される。

　そして、信号処理装置１０１は、ユーザについて得られた画像データをサーバに送信し、サーバは信号処理装置１０１から受信した画像データに基づいて、保持しているHRTF係数に対する変換処理を行ってユーザ個人の個人用HRTF係数を生成し、信号処理装置１０１に送信する。HRTF係数記録部１２２は、このようにしてサーバから送信され、信号処理装置１０１により受信された個人用HRTF係数を取得し、記録する。

　帯域拡張部４１は、個人用高域情報生成部１２１から供給された個人用高域情報に基づいて、バーチャライズ処理部１３から供給されたHRTF出力信号に対して帯域拡張処理を行うことで出力オーディオ信号を生成し、後段に出力する。帯域拡張部４１で得られる出力オーディオ信号は、例えばサンプリング周波数が96kHzである信号とされる。

〈個人用高域情報生成部の構成例〉
　上述のように、個人用高域情報生成部１２１では、汎用高域情報と、汎用HRTF係数と、個人用HRTF係数とに基づいて個人用高域情報が生成される。

　本来であれば、入力ビットストリーム内に個人用高域情報を多重化すべきであるが、そのようにすると、サーバ上で各ユーザの個人用の入力ビットストリームを保持することになり、サーバのストレージ容量の観点から好ましくない。

　したがって本技術では、入力ビットストリーム内には汎用高域情報が多重化され、何らかの方法により個人用高域情報生成部１２１により取得された個人用HRTF係数と汎用HRTF係数が用いられて、個人用高域情報が生成される。

　個人用高域情報生成部１２１での個人用高域情報の生成は、どのような方法により実現されてもよいが、一例として、例えばDNN（Deep Neural Network）のような深層学習技術を用いて実現することができる。

　ここで、個人用高域情報生成部１２１がDNNにより構成される場合を例として説明する。

　例えば個人用高域情報生成部１２１は、予め機械学習により生成されたDNNを構成する係数と、DNNの入力となる汎用高域情報、汎用HRTF係数、および個人用HRTF係数とに基づく、DNN（ニューラルネットワーク）による演算を行うことで、個人用高域情報を生成する。

　そのような場合、個人用高域情報生成部１２１は、例えば図８に示すように構成される。

　個人用高域情報生成部１２１は、MLP（Multi-Layer Perceptron）１５１、MLP１５２、RNN（Recurrent Neural Network）１５３、特徴量合成部１５４、およびMLP１５５を有している。

　MLP１５１は、非線形的に活性化されるノードの３つ以上の層、すなわち入力層と出力層と１つ以上の隠れ層とから構成されるMLPである。MLPはDNNにおいて一般的に用いられる技術の中の１つである。

　MLP１５１は、HRTF係数記録部１２２から供給された汎用HRTF係数をMLPの入力とするベクトルgh_inとし、ベクトルgh_inに基づく演算処理を行うことで、汎用HRTF係数の何らかの特徴を示すデータであるベクトルgh_outを生成（算出）し、特徴量合成部１５４に供給する。

　なお、MLPの入力となるベクトルgh_inは、汎用HRTF係数そのものでもよいし、後段の計算資源を削減するために、汎用HRTF係数に対して何らかの前処理を行うことで得られる特徴量であってもよい。

　MLP１５２は、MLP１５１と同様のMLPからなり、HRTF係数記録部１２２から供給された個人用HRTF係数をMLPの入力とするベクトルph_inとし、ベクトルph_inに基づく演算処理を行うことで、個人用HRTF係数の何らかの特徴を示すデータであるベクトルph_outを生成し、特徴量合成部１５４に供給する。

　なお、ベクトルph_inも個人用HRTF係数そのものであってもよいし、何らかの前処理を個人用HRTF係数に対して施すことにより得られる特徴量であってもよい。

　RNN１５３は、例えば一般的に入力層、隠れ層、出力層の３層で構成されるRNNからなる。このRNNでは、例えば隠れ層の出力が隠れ層の入力にフィードバックされるようになっており、RNNは、時系列のデータに対して適したニューラルネットワークの構造となっている。

　なお、ここでは個人用高域情報の生成にRNNを用いる例について説明するが、本技術は、個人用高域情報生成部１２１としてのDNNの構成に依存するものではなく、RNNに代えて、例えばより長期の時系列データに適したニューラルネットワークの構造であるLSTM（Long Short Term Memory）などを用いるようにしてもよい。

　RNN１５３は、デコード処理部１１から供給された汎用高域情報を入力とするベクトルge_in(n)とし、ベクトルge_in(n)に基づく演算処理を行うことで、汎用高域情報の何らかの特徴を示すデータであるベクトルge_out(n)を生成（算出）し、特徴量合成部１５４に供給する。

　なお、ベクトルge_in(n)およびベクトルge_out(n)におけるnは、オブジェクト信号の時間フレームのインデックスを表している。特にRNN１５３では、１フレーム分の個人用高域情報を生成するために、複数フレーム分のベクトルge_in(n)が用いられる。

　特徴量合成部１５４は、MLP１５１から供給されたベクトルgh_out、MLP１５２から供給されたベクトルph_out、およびRNN１５３から供給されたベクトルge_out(n)をベクトル連結することで、１つのベクトルco_out(n)を生成し、MLP１５５に供給する。

　なお、ここでは特徴量合成部１５４における特徴量合成の手法としてベクトル連結を用いているが、これに限らず、他のどのような手法によりベクトルco_out(n)を生成してもよい。例えば特徴量合成部１５４において、max-poolingと呼ばれる手法により特徴量合成を行い、特徴が十分表現できるコンパクトなサイズにベクトルが合成されるようにしてもよい。

　MLP１５５は、例えば入力層、出力層、および１以上の隠れ層を有するMLPからなり、特徴量合成部１５４から供給されたベクトルco_out(n)に基づいて演算処理を行い、その結果得られたベクトルpe_out(n)を個人用高域情報として帯域拡張部４１に供給する。

　以上のような個人用高域情報生成部１２１として機能するDNNを構成するMLP１５１、MLP１５２、RNN１５３、MLP１５５などのMLPやRNNを構成する係数は、事前に教師データを用いて機械学習を行うことにより得ることができる。

〈入力ビットストリームのシンタックス例〉
　信号処理装置１０１では、個人用高域情報の生成のために汎用高域情報が必要であり、入力ビットストリームには、汎用高域情報が格納されている。

　ここで、デコード処理部１１に供給される入力ビットストリームのシンタックス例、すなわち入力ビットストリームのフォーマット例を図９に示す。

　図９において「num_objects」はオブジェクトの総数を示しており、「object_compressed_data」は符号化（圧縮）されたオブジェクト信号を示している。

　また、「position_azimuth」はオブジェクトの球面座標系における水平角度を示しており、「position_elevation」はオブジェクトの球面座標系における垂直角度を示しており、「position_radius」は球面座標系原点からオブジェクトまでの距離（半径）を示している。ここでは、これらの水平角度、垂直角度、および距離からなる情報がオブジェクトの位置を示すオブジェクト位置情報となっている。

　したがって、この例では、「num_objects」により示されるオブジェクト数分だけ、符号化されたオブジェクト信号、およびオブジェクト位置情報が入力ビットストリームに含まれている。

　また、図９において「num_output」は、出力チャネル数、つまりHRTF出力信号のチャネル数を示しており、「output_bwe_data」は汎用高域情報を示している。したがって、この例では、HRTF出力信号のチャネルごとに汎用高域情報が格納されている。

〈信号生成処理の説明〉
　次に、信号処理装置１０１の動作について説明する。すなわち、以下、図１０のフローチャートを参照して、信号処理装置１０１による信号生成処理について説明する。

　ステップＳ１１においてデコード処理部１１は、供給された入力ビットストリームに対して非多重化およびデコード処理を行い、その結果得られた汎用高域情報を個人用高域情報生成部１２１に供給するとともに、オブジェクト位置情報およびオブジェクト信号をレンダリング処理部１２に供給する。

　ここでは、例えば図９に示した「output_bwe_data」により示される汎用高域情報が入力ビットストリームから抽出され、個人用高域情報生成部１２１へと供給される。

　ステップＳ１２においてレンダリング処理部１２は、デコード処理部１１から供給されたオブジェクト位置情報およびオブジェクト信号に基づいてレンダリング処理を行い、その結果得られた仮想スピーカ信号をバーチャライズ処理部１３に供給する。例えばステップＳ１２では、VBAP等がレンダリング処理として行われる。

　ステップＳ１３においてバーチャライズ処理部１３はバーチャライズ処理を行う。例えばステップＳ１３では、HRTF処理がバーチャライズ処理として行われる。

　この場合、バーチャライズ処理部１３は、レンダリング処理部１２から供給された各仮想スピーカの仮想スピーカ信号と、HRTF係数記録部１２２から供給されたチャネルごとの各仮想スピーカの個人用HRTF係数とを畳み込んで、その結果得られた信号をチャネルごとに加算する処理をHRTF処理として行う。バーチャライズ処理部１３は、HRTF処理により得られたHRTF出力信号を帯域拡張部４１に供給する。

　ステップＳ１４において個人用高域情報生成部１２１は、デコード処理部１１から供給された汎用高域情報と、HRTF係数記録部１２２から供給された汎用HRTF係数および個人用HRTF係数とに基づいて個人用高域情報を生成し、帯域拡張部４１に供給する。

　例えばステップＳ１４では、DNNを構成する個人用高域情報生成部１２１のMLP１５１乃至MLP１５５により、個人用高域情報が生成される。

　具体的には、MLP１５１は、HRTF係数記録部１２２から供給された汎用HRTF係数、すなわちベクトルgh_inに基づいて演算処理を行い、その結果得られたベクトルgh_outを特徴量合成部１５４に供給する。

　MLP１５２は、HRTF係数記録部１２２から供給された個人用HRTF係数、すなわちベクトルph_inに基づいて演算処理を行い、その結果得られたベクトルph_outを特徴量合成部１５４に供給する。

　RNN１５３は、デコード処理部１１から供給された汎用高域情報、すなわちベクトルge_in(n)に基づいて演算処理を行い、その結果得られたベクトルge_out(n)を特徴量合成部１５４に供給する。

　また、特徴量合成部１５４は、MLP１５１から供給されたベクトルgh_out、MLP１５２から供給されたベクトルph_out、およびRNN１５３から供給されたベクトルge_out(n)をベクトル連結し、その結果得られたベクトルco_out(n)をMLP１５５に供給する。

　MLP１５５は、特徴量合成部１５４から供給されたベクトルco_out(n)に基づいて演算処理を行い、その結果得られたベクトルpe_out(n)を個人用高域情報として帯域拡張部４１に供給する。

　ステップＳ１５において帯域拡張部４１は、個人用高域情報生成部１２１から供給された個人用高域情報に基づいて、バーチャライズ処理部１３から供給されたHRTF出力信号に対して帯域拡張処理を行い、その結果得られた出力オーディオ信号を後段に出力する。このようにして出力オーディオ信号が生成されると、信号生成処理は終了する。

　以上のようにして信号処理装置１０１は、入力ビットストリームから抽出された（読み出された）汎用高域情報を用いて個人用高域情報を生成し、その個人用高域情報を用いて帯域拡張処理を行って出力オーディオ信号を生成する。

　この場合、レンダリング処理やHRTF処理が行われて得られた、低いサンプリング周波数のHRTF出力信号に対して帯域拡張処理を行うようにすることで、信号処理装置１０１における処理負荷、すなわち演算量を低減させることができる。

　しかも、HRTF処理に用いられる個人用HRTF係数に対応する個人用高域情報を生成して帯域拡張処理を行うことで、高品質な出力オーディオ信号を得ることができる。

　したがって、信号処理装置１０１が低コストな装置であっても高品質なオーディオ再生を行うことができる。

〈学習装置の構成例〉
　次に、個人用高域情報生成部１２１としてのDNN（ニューラルネットワーク）を構成する係数、すなわちMLP１５１、MLP１５２、RNN１５３、およびMLP１５５を構成する係数を、個人用高域情報生成係数データとして生成する学習装置について説明する。

　そのような学習装置は、例えば図１１に示すように構成される。

　学習装置２０１は、レンダリング処理部２１１、個人用HRTF処理部２１２、個人用高域情報計算部２１３、汎用HRTF処理部２１４、汎用高域情報計算部２１５、および個人用高域情報学習部２１６を有している。

　レンダリング処理部２１１は、供給されたオブジェクト位置情報とオブジェクト信号とに基づいて、レンダリング処理部１２における場合と同様のレンダリング処理を行い、その結果得られた仮想スピーカ信号を個人用HRTF処理部２１２および汎用HRTF処理部２１４に供給する。

　なお、レンダリング処理部２１１の後段において、教師データとして個人用高域情報が必要となるため、レンダリング処理部２１１の出力である仮想スピーカ信号、すなわちレンダリング処理部２１１の入力となるオブジェクト信号には高域情報が含まれている必要がある。

　例えば、信号処理装置１０１のバーチャライズ処理部１３の出力であるHRTF出力信号がサンプリング周波数48kHzの信号であるとすると、レンダリング処理部２１１に入力されるオブジェクト信号のサンプリング周波数は96kHzなどとされる。

　この場合、レンダリング処理部２１１では、サンプリング周波数96kHzでVBAP等のレンダリング処理が行われ、サンプリング周波数が96kHzである仮想スピーカ信号が生成される。

　なお、以下においては、バーチャライズ処理部１３の出力であるHRTF出力信号がサンプリング周波数48kHzの信号であるものとして説明を行うが、本技術では、各信号のサンプリング周波数は、この例に制限されるものではない。例えばHRTF出力信号のサンプリング周波数が44.1kHzであり、レンダリング処理部２１１に入力されるオブジェクト信号のサンプリング周波数が88.2kHzであってもよい。

　個人用HRTF処理部２１２は、供給された個人用HRTF係数と、レンダリング処理部２１１から供給された仮想スピーカ信号とに基づいてHRTF処理（以下、特に個人用HRTF処理とも称する）を行い、その結果得られた個人用HRTF出力信号を個人用高域情報計算部２１３に供給する。個人用HRTF処理で得られる個人用HRTF出力信号は、サンプリング周波数が96kHzの信号である。

　この例では、レンダリング処理部２１１および個人用HRTF処理部２１２が、メタデータ（オブジェクト位置情報）や個人用HRTF係数、オブジェクト信号に基づいてレンダリング処理やバーチャライズ処理（個人用HRTF処理）を含む信号処理を行い、個人用HRTF出力信号を生成する１つの信号処理部として機能するということができる。この場合、信号処理には、少なくともバーチャライズ処理が含まれていればよい。

　個人用高域情報計算部２１３は、個人用HRTF処理部２１２から供給された個人用HRTF出力信号に基づいて個人用高域情報を生成（計算）し、得られた個人用高域情報を学習時の教師データとして個人用高域情報学習部２１６に供給する。

　例えば個人用高域情報計算部２１３では、図５を参照して説明したように、個人用HRTF出力信号の各高域サブバンドの平均振幅値が個人用高域情報として求められる。

　すなわち、サンプリング周波数が96kHzである個人用HRTF出力信号に対して、帯域通過フィルタバンクを適用して各高域サブバンドの高域サブバンド信号を生成した後、高域サブバンド信号の時間フレームの平均振幅値を計算することで個人用高域情報を得ることができる。

　汎用HRTF処理部２１４は、供給された汎用HRTF係数と、レンダリング処理部２１１から供給された仮想スピーカ信号とに基づいてHRTF処理（以下、特に汎用HRTF処理とも称する）を行い、その結果得られた汎用HRTF出力信号を汎用高域情報計算部２１５に供給する。汎用HRTF出力信号は、サンプリング周波数が96kHzの信号である。

　この例では、レンダリング処理部２１１および汎用HRTF処理部２１４が、メタデータ（オブジェクト位置情報）や汎用HRTF係数、オブジェクト信号に基づいてレンダリング処理やバーチャライズ処理（汎用HRTF処理）を含む信号処理を行い、汎用HRTF出力信号を生成する１つの信号処理部として機能するということができる。この場合、信号処理には、少なくともバーチャライズ処理が含まれていればよい。

　汎用高域情報計算部２１５は、汎用HRTF処理部２１４から供給された汎用HRTF出力信号に基づいて汎用高域情報を生成（計算）し、個人用高域情報学習部２１６に供給する。汎用高域情報計算部２１５では、個人用高域情報計算部２１３における場合と同様の計算が行われ、汎用高域情報が生成される。

　入力ビットストリームには、汎用高域情報計算部２１５で得られる汎用高域情報と同様のものが図９に示した「output_bwe_data」として含まれている。

　なお、汎用HRTF処理部２１４および汎用高域情報計算部２１５において行われる処理は、個人用HRTF処理部２１２および個人用高域情報計算部２１３において行われる処理と対をなすものであり、これらの処理は基本的には同じ処理である。

　これらの処理の違いは、個人用HRTF処理部２１２の入力が個人用HRTF係数であるのに対して、汎用HRTF処理部２１４の入力が汎用HRTF係数である点のみである。つまり、入力されるHRTF係数のみが異なっている。

　個人用高域情報学習部２１６は、供給された汎用HRTF係数および個人用HRTF係数と、個人用高域情報計算部２１３から供給された個人用高域情報と、汎用高域情報計算部２１５から供給された汎用高域情報とに基づいて学習（機械学習）を行い、その結果得られた個人用高域情報生成係数データを出力する。

　特に、個人用高域情報学習部２１６では、個人用高域情報を教師データとする機械学習が行われ、汎用HRTF係数、個人用HRTF係数、および汎用高域情報から、個人用高域情報を生成するための個人用高域情報生成係数データが生成される。

　このようにして得られた個人用高域情報生成係数データを構成する各係数を、図８の個人用高域情報生成部１２１のMLP１５１、MLP１５２、RNN１５３、およびMLP１５５で用いれば、学習結果に基づく個人用高域情報の生成が可能となる。

　例えば個人用高域情報学習部２１６で行われる学習処理は、個人用高域情報生成部１２１での処理結果として出力されるベクトルpe_out(n)と、教師データとしての個人用高域情報であるベクトルtpe_out(n)との誤差を評価することによって行われる。すなわち、ベクトルpe_out(n)とベクトルtpe_out(n)との誤差が最小となるように学習が行われる。

　DNNを構成するMLP１５１等の各要素の重み係数の初期値はランダムであるのが一般的であり、誤差評価に応じて各係数を調整する手法についてもBPTT（Back Propagation Through Time）のような誤差逆伝播法に基づく様々な手法を適用することができる。

〈学習処理の説明〉
　続いて、学習装置２０１の動作について説明する。すなわち、以下、図１２のフローチャートを参照して、学習装置２０１による学習処理について説明する。

　ステップＳ４１においてレンダリング処理部２１１は、供給されたオブジェクト位置情報とオブジェクト信号とに基づいてレンダリング処理を行い、その結果得られた仮想スピーカ信号を個人用HRTF処理部２１２および汎用HRTF処理部２１４に供給する。

　ステップＳ４２において個人用HRTF処理部２１２は、供給された個人用HRTF係数と、レンダリング処理部２１１から供給された仮想スピーカ信号とに基づいて個人用HRTF処理を行い、その結果得られた個人用HRTF出力信号を個人用高域情報計算部２１３に供給する。

　ステップＳ４３において個人用高域情報計算部２１３は、個人用HRTF処理部２１２から供給された個人用HRTF出力信号に基づいて個人用高域情報を計算し、得られた個人用高域情報を教師データとして個人用高域情報学習部２１６に供給する。

　ステップＳ４４において汎用HRTF処理部２１４は、供給された汎用HRTF係数と、レンダリング処理部２１１から供給された仮想スピーカ信号とに基づいて汎用HRTF処理を行い、その結果得られた汎用HRTF出力信号を汎用高域情報計算部２１５に供給する。

　ステップＳ４５において汎用高域情報計算部２１５は、汎用HRTF処理部２１４から供給された汎用HRTF出力信号に基づいて汎用高域情報を計算し、個人用高域情報学習部２１６に供給する。

　ステップＳ４６において個人用高域情報学習部２１６は、供給された汎用HRTF係数および個人用HRTF係数と、個人用高域情報計算部２１３から供給された個人用高域情報と、汎用高域情報計算部２１５から供給された汎用高域情報とに基づいて学習を行い、個人用高域情報生成係数データを生成する。

　学習時には、汎用高域情報、汎用HRTF係数、および個人用HRTF係数を入力とし、教師データである個人用高域情報を出力とするDNNを実現するための個人用高域情報生成係数データが生成される。このようにして個人用高域情報生成係数データが生成されると、学習処理は終了する。

　以上のようにして学習装置２０１は、汎用HRTF係数や個人用HRTF係数、オブジェクト信号に基づいて学習を行い、個人用高域情報生成係数データを生成する。

　このようにすることで、個人用高域情報生成部１２１では、入力された汎用高域情報、汎用HRTF係数、および個人用HRTF係数から、個人用HRTF係数に対応する適切な個人用高域情報を予測により得ることができるようになる。

〈エンコーダの構成例〉
　続いて、図９に示したフォーマットの入力ビットストリームを生成するエンコーダ（符号化装置）について説明する。そのようなエンコーダは、例えば図１３に示すように構成される。

　図１３に示すエンコーダ３０１は、オブジェクト位置情報符号化部３１１、ダウンサプラ３１２、オブジェクト信号符号化部３１３、レンダリング処理部３１４、汎用HRTF処理部３１５、汎用高域情報計算部３１６、および多重化部３１７を有している。

　エンコーダ３０１には、符号化対象となるオブジェクトのオブジェクト信号と、そのオブジェクトの位置を示すオブジェクト位置情報とが入力（供給）される。

　ここでは、エンコーダ３０１に入力されるオブジェクト信号は、例えばサンプリング周波数が96kHzの信号（FS96Kオブジェクト信号）であるものとする。

　オブジェクト位置情報符号化部３１１は、入力されたオブジェクト位置情報を符号化し、多重化部３１７に供給する。

　これにより、符号化されたオブジェクト位置情報として、例えば図９に示した水平角度「position_azimuth」、垂直角度「position_elevation」、および半径「position_radius」からなる符号化されたオブジェクト位置情報（オブジェクト位置データ）が得られる。

　ダウンサプラ３１２は、入力されたサンプリング周波数が96kHzのオブジェクト信号に対してダウンサンプリング処理、すなわち帯域制限を行い、その結果得られたサンプリング周波数が48kHzであるオブジェクト信号（FS48Kオブジェクト信号）をオブジェクト信号符号化部３１３に供給する。

　オブジェクト信号符号化部３１３は、ダウンサプラ３１２から供給された48kHzのオブジェクト信号を符号化して多重化部３１７に供給する。これにより、例えば図９に示した「object_compressed_data」が符号化されたオブジェクト信号として得られる。

　なお、オブジェクト信号符号化部３１３での符号化方式は、MPEG-H Part 3:3D audio規格の符号化方式であってもよいし、その他の符号化方式であってもよい。すなわち、オブジェクト信号符号化部３１３での符号化方式とデコード処理部１１での復号方式とが対応するもの（同一規格のもの）であればよい。

　レンダリング処理部３１４は、入力されたオブジェクト位置情報および96kHzのオブジェクト信号に基づいてVBAP等のレンダリング処理を行い、その結果得られた仮想スピーカ信号を汎用HRTF処理部３１５に供給する。

　なお、レンダリング処理部３１４でのレンダリング処理は、復号側（再生側）である信号処理装置１０１のレンダリング処理部１２における場合と同じ処理であれば、VBAPに限らず他のどのようなレンダリング処理であってもよい。

　汎用HRTF処理部３１５は、レンダリング処理部３１４から供給された仮想スピーカ信号に対して、汎用HRTF係数を用いたHRTF処理を行い、その結果得られた96kHzの汎用HRTF出力信号を汎用高域情報計算部３１６に供給する。

　汎用HRTF処理部３１５では、図１１の汎用HRTF処理部２１４における汎用HRTF処理と同様の処理が行われる。

　汎用高域情報計算部３１６は、汎用HRTF処理部３１５から供給された汎用HRTF出力信号に基づいて汎用高域情報を計算するとともに、得られた汎用高域情報を圧縮符号化し、多重化部３１７に供給する。

　汎用高域情報計算部３１６で生成される汎用高域情報は、例えば図５に示した各高域サブバンドの平均振幅情報（平均振幅値）である。

　例えば汎用高域情報計算部３１６は、入力された96kHzの汎用HRTF出力信号に対して帯域通過フィルタバンクに基づくフィルタリングを行って、各高域サブバンドの高域サブバンド信号を得る。そして、汎用高域情報計算部３１６は、それらの各高域サブバンド信号の時間フレームの平均振幅値を計算することにより、汎用高域情報を生成する。

　これにより、例えば図９に示した「output_bwe_data」が符号化された汎用高域情報として得られる。

　多重化部３１７は、オブジェクト位置情報符号化部３１１から供給された符号化されたオブジェクト位置情報、オブジェクト信号符号化部３１３から供給された符号化されたオブジェクト信号、および汎用高域情報計算部３１６から供給された符号化された汎用高域情報を多重化する。

　多重化部３１７は、オブジェクト位置情報やオブジェクト信号、汎用高域情報を多重化して得られた出力ビットストリームを出力する。この出力ビットストリームは、入力ビットストリームとして信号処理装置１０１に入力される。

〈符号化処理の説明〉
　次に、エンコーダ３０１の動作について説明する。すなわち、以下、図１４のフローチャートを参照して、エンコーダ３０１による符号化処理について説明する。

　ステップＳ７１においてオブジェクト位置情報符号化部３１１は、入力されたオブジェクト位置情報を符号化し、多重化部３１７に供給する。

　ステップＳ７２においてダウンサプラ３１２は、入力されたオブジェクト信号をダウンサンプリングしてオブジェクト信号符号化部３１３に供給する。

　ステップＳ７３においてオブジェクト信号符号化部３１３は、ダウンサプラ３１２から供給されたオブジェクト信号を符号化して多重化部３１７に供給する。

　ステップＳ７４においてレンダリング処理部３１４は、入力されたオブジェクト位置情報およびオブジェクト信号に基づいてレンダリング処理を行い、その結果得られた仮想スピーカ信号を汎用HRTF処理部３１５に供給する。

　ステップＳ７５において汎用HRTF処理部３１５は、レンダリング処理部３１４から供給された仮想スピーカ信号に対して、汎用HRTF係数を用いたHRTF処理を行い、その結果得られた汎用HRTF出力信号を汎用高域情報計算部３１６に供給する。

　ステップＳ７６において汎用高域情報計算部３１６は、汎用HRTF処理部３１５から供給された汎用HRTF出力信号に基づいて汎用高域情報を計算するとともに、得られた汎用高域情報を圧縮符号化し、多重化部３１７に供給する。

　ステップＳ７７において多重化部３１７は、オブジェクト位置情報符号化部３１１から供給された符号化されたオブジェクト位置情報、オブジェクト信号符号化部３１３から供給された符号化されたオブジェクト信号、および汎用高域情報計算部３１６から供給された符号化された汎用高域情報を多重化する。

　多重化部３１７は、多重化により得られた出力ビットストリームを出力し、符号化処理は終了する。

　以上のようにしてエンコーダ３０１は、汎用高域情報を計算し、出力ビットストリームに格納する。

　このようにすることで、出力ビットストリームの復号側においては、汎用高域情報を用いて個人用高域情報を生成することができる。これにより、復号側では、低コストな装置でも、高品質なオーディオ再生を行うことができるようになる。

　なお、以上においてはオーディオオブジェクトのオブジェクト信号から、帯域拡張の対象となるHRTF出力信号が生成される例について説明した。

　しかし、これに限らず、例えばチャネルベースの各チャネルのオーディオ信号（以下、チャネル信号とも称する）からHRTF出力信号を生成し、そのHRTF出力信号を帯域拡張するようにしてもよい。

　そのような場合、信号処理装置１０１にはレンダリング処理部１２は設けられず、入力ビットストリームには、符号化されたチャネル信号が含まれている。

　そして、入力ビットストリームに対してデコード処理部１１が非多重化およびデコード処理を行うことで得られたマルチチャネル構成の各チャネルのチャネル信号がバーチャライズ処理部１３に供給される。これらの各チャネルのチャネル信号は、各仮想スピーカの仮想スピーカ信号に対応する。

　バーチャライズ処理部１３は、デコード処理部１１から供給されたチャネル信号と、HRTF係数記録部１２２から供給されたチャネルごとの個人用HRTF係数とを畳み込んで、その結果得られた信号を加算する処理をHRTF処理として行う。バーチャライズ処理部１３は、このようなHRTF処理により得られたHRTF出力信号を帯域拡張部４１へと供給する。

　また、信号処理装置１０１でチャネル信号からHRTF出力信号が生成される場合には、学習装置２０１には、レンダリング処理部２１１が設けられず、サンプリング周波数が高い、つまり高域情報が含まれるチャネル信号が個人用HRTF処理部２１２および汎用HRTF処理部２１４に供給される。

　その他、例えばレンダリング処理部１２で、HOA（High Order Ambisonics）のレンダリング処理が行われるようにしてもよい。

　そのような場合、例えばレンダリング処理部１２は、デコード処理部１１から供給されたアンビソニックス形式、すなわち球面調和領域のオーディオ信号に基づいてレンダリング処理を行って、球面調和領域の仮想スピーカ信号を生成し、バーチャライズ処理部１３に供給する。

　バーチャライズ処理部１３は、レンダリング処理部１２から供給された球面調和領域の仮想スピーカ信号と、HRTF係数記録部１２２から供給された球面調和領域の個人用HRTF係数とに基づいて球面調和領域でHRTF処理を行い、その結果得られたHRTF出力信号を帯域拡張部４１に供給する。このとき、球面調和領域のHRTF出力信号が帯域拡張部４１に供給されるようにしてもよいし、必要に応じて変換等を行うことで得られる時間領域のHRTF出力信号が帯域拡張部４１に供給されるようにしてもよい。

　以上のように、本技術によれば、復号側（再生側）においてオブジェクト信号の高域情報ではなく、個人用HRTF処理後の信号に対する個人用高域情報を用いて帯域拡張処理を行うことができる。

　しかも、この場合、入力ビットストリームに個人用高域情報を多重化する必要がないので、サーバ等、つまりエンコーダ３０１のストレージ消費量を抑制することができ、かつエンコーダ３０１での符号化処理（エンコード処理）の処理時間の増加も抑制できる。

　また、再生装置側、つまり信号処理装置１０１側では、デコード処理やレンダリング処理、バーチャライズ処理を低いサンプリング周波数で行い、演算量を大幅に削減することができる。これにより、例えば低コストのプロセッサを採用したり、プロセッサの電力使用量を低減させたりすることができ、スマートフォンなどの携帯機器で、より長時間、ハイレゾ音源の連続再生を行うことが可能となる。

〈コンピュータの構成例〉
　ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図１５は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

　バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

　入力部５０６は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

　以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、本技術は、以下の構成とすることも可能である。

（１）
　入力ビットストリームを第１のオーディオ信号と、前記第１のオーディオ信号のメタデータと、帯域拡張のための第１の高域情報とに非多重化するデコード処理部と、
　前記第１のオーディオ信号および前記メタデータに基づいて信号処理を行うことで得られた第２のオーディオ信号と、前記第１の高域情報に基づいて生成された第２の高域情報とに基づいて帯域拡張処理を行い、出力オーディオ信号を生成する帯域拡張部と
　を備える信号処理装置。
（２）
　前記第１の高域情報に基づいて前記第２の高域情報を生成する高域情報生成部をさらに備える
　（１）に記載の信号処理装置。
（３）
　前記第１の高域情報は、第１の係数を用いて前記信号処理を行うことで得られる前記第２のオーディオ信号の帯域拡張のための高域情報であり、
　前記第２の高域情報は、第２の係数を用いて前記信号処理を行うことで得られる前記第２のオーディオ信号の帯域拡張のための高域情報であり、
　前記帯域拡張部は、前記第１のオーディオ信号、前記メタデータ、および前記第２の係数に基づいて前記信号処理を行うことで得られた前記第２のオーディオ信号と、前記第２の高域情報とに基づいて前記帯域拡張処理を行う
　（２）に記載の信号処理装置。
（４）
　前記高域情報生成部は、前記第１の高域情報、前記第１の係数、および前記第２の係数に基づいて、前記第２の高域情報を生成する
　（３）に記載の信号処理装置。
（５）
　前記高域情報生成部は、予め機械学習により生成された係数と、前記第１の高域情報、前記第１の係数、および前記第２の係数とに基づく演算を行うことで、前記第２の高域情報を生成する
　（３）または（４）に記載の信号処理装置。
（６）
　前記演算は、ニューラルネットワークによる演算である
　（５）に記載の信号処理装置。
（７）
　前記第１の係数は汎用の係数であり、前記第２の係数はユーザごとの係数である
　（３）乃至（６）の何れか一項に記載の信号処理装置。
（８）
　前記第１の係数および前記第２の係数はHRTF係数である
　（７）に記載の信号処理装置。
（９）
　前記第１の係数を記録する係数記録部をさらに備える
　（３）乃至（８）の何れか一項に記載の信号処理装置。
（１０）
　前記信号処理を行って前記第２のオーディオ信号を生成する信号処理部をさらに備える
　（１）乃至（９）の何れか一項に記載の信号処理装置。
（１１）
　前記信号処理は、バーチャライズ処理を含む処理である
　（１０）に記載の信号処理装置。
（１２）
　前記信号処理は、レンダリング処理を含む処理である
　（１１）に記載の信号処理装置。
（１３）
　前記第１のオーディオ信号は、オーディオオブジェクトのオブジェクト信号、またはチャネルベースのオーディオ信号である
　（１）乃至（１２）の何れか一項に記載の信号処理装置。
（１４）
　信号処理装置が、
　入力ビットストリームを第１のオーディオ信号と、前記第１のオーディオ信号のメタデータと、帯域拡張のための第１の高域情報とに非多重化し、
　前記第１のオーディオ信号および前記メタデータに基づいて信号処理を行うことで得られた第２のオーディオ信号と、前記第１の高域情報に基づいて生成された第２の高域情報とに基づいて帯域拡張処理を行い、出力オーディオ信号を生成する
　信号処理方法。
（１５）
　入力ビットストリームを第１のオーディオ信号と、前記第１のオーディオ信号のメタデータと、帯域拡張のための第１の高域情報とに非多重化し、
　前記第１のオーディオ信号および前記メタデータに基づいて信号処理を行うことで得られた第２のオーディオ信号と、前記第１の高域情報に基づいて生成された第２の高域情報とに基づいて帯域拡張処理を行い、出力オーディオ信号を生成する
　ステップを含む処理をコンピュータに実行させるプログラム。
（１６）
　第１のオーディオ信号と第１の係数とに基づく信号処理により生成された第２のオーディオ信号に基づいて、帯域拡張のための第１の高域情報を生成する第１の高域情報計算部と、
　前記第１のオーディオ信号と第２の係数とに基づく前記信号処理により生成された第３のオーディオ信号に基づいて、帯域拡張のための第２の高域情報を生成する第２の高域情報計算部と、
　前記第１の係数、前記第２の係数、前記第１の高域情報、および前記第２の高域情報に基づいて、前記第２の高域情報を教師データとする学習を行い、前記第１の係数、前記第２の係数、および前記第１の高域情報から前記第２の高域情報を得るための係数データを生成する高域情報学習部と
　を備える学習装置。
（１７）
　前記係数データは、ニューラルネットワークを構成する係数である
　（１６）に記載の学習装置。
（１８）
　前記第１の係数は汎用の係数であり、前記第２の係数はユーザごとの係数である
　（１６）または（１７）に記載の学習装置。
（１９）
　前記信号処理は、バーチャライズ処理を含む処理であり、
　前記第１の係数および前記第２の係数はHRTF係数である
　（１８）に記載の学習装置。
（２０）
　前記信号処理は、レンダリング処理を含む処理である
　（１９）に記載の学習装置。
（２１）
　前記第１のオーディオ信号は、オーディオオブジェクトのオブジェクト信号、またはチャネルベースのオーディオ信号である
　（１６）乃至（１９）の何れか一項に記載の学習装置。
（２２）
　学習装置が、
　第１のオーディオ信号と第１の係数とに基づく信号処理により生成された第２のオーディオ信号に基づいて、帯域拡張のための第１の高域情報を生成し、
　前記第１のオーディオ信号と第２の係数とに基づく前記信号処理により生成された第３のオーディオ信号に基づいて、帯域拡張のための第２の高域情報を生成し、
　前記第１の係数、前記第２の係数、前記第１の高域情報、および前記第２の高域情報に基づいて、前記第２の高域情報を教師データとする学習を行い、前記第１の係数、前記第２の係数、および前記第１の高域情報から前記第２の高域情報を得るための係数データを生成する
　学習方法。
（２３）
　第１のオーディオ信号と第１の係数とに基づく信号処理により生成された第２のオーディオ信号に基づいて、帯域拡張のための第１の高域情報を生成し、
　前記第１のオーディオ信号と第２の係数とに基づく前記信号処理により生成された第３のオーディオ信号に基づいて、帯域拡張のための第２の高域情報を生成し、
　前記第１の係数、前記第２の係数、前記第１の高域情報、および前記第２の高域情報に基づいて、前記第２の高域情報を教師データとする学習を行い、前記第１の係数、前記第２の係数、および前記第１の高域情報から前記第２の高域情報を得るための係数データを生成する
　ステップを含む処理をコンピュータに実行させるプログラム。

　１１　デコード処理部，　１２　レンダリング処理部，　１３　バーチャライズ処理部，　４１　帯域拡張部，　１０１　信号処理装置，　１２１　個人用高域情報生成部

Claims

　入力ビットストリームを第１のオーディオ信号と、前記第１のオーディオ信号のメタデータと、帯域拡張のための第１の高域情報とに非多重化するデコード処理部と、
　前記第１のオーディオ信号および前記メタデータに基づいて信号処理を行うことで得られた第２のオーディオ信号と、前記第１の高域情報に基づいて生成された第２の高域情報とに基づいて帯域拡張処理を行い、出力オーディオ信号を生成する帯域拡張部と
　を備える信号処理装置。
　前記第１の高域情報に基づいて前記第２の高域情報を生成する高域情報生成部をさらに備える
　請求項１に記載の信号処理装置。
　前記第１の高域情報は、第１の係数を用いて前記信号処理を行うことで得られる前記第２のオーディオ信号の帯域拡張のための高域情報であり、
　前記第２の高域情報は、第２の係数を用いて前記信号処理を行うことで得られる前記第２のオーディオ信号の帯域拡張のための高域情報であり、
　前記帯域拡張部は、前記第１のオーディオ信号、前記メタデータ、および前記第２の係数に基づいて前記信号処理を行うことで得られた前記第２のオーディオ信号と、前記第２の高域情報とに基づいて前記帯域拡張処理を行う
　請求項２に記載の信号処理装置。
　前記高域情報生成部は、前記第１の高域情報、前記第１の係数、および前記第２の係数に基づいて、前記第２の高域情報を生成する
　請求項３に記載の信号処理装置。
　前記高域情報生成部は、予め機械学習により生成された係数と、前記第１の高域情報、前記第１の係数、および前記第２の係数とに基づく演算を行うことで、前記第２の高域情報を生成する
　請求項３に記載の信号処理装置。
　前記演算は、ニューラルネットワークによる演算である
　請求項５に記載の信号処理装置。
　前記第１の係数は汎用の係数であり、前記第２の係数はユーザごとの係数である
　請求項３に記載の信号処理装置。
　前記第１の係数および前記第２の係数はHRTF係数である
　請求項７に記載の信号処理装置。
　前記信号処理を行って前記第２のオーディオ信号を生成する信号処理部をさらに備える
　請求項１に記載の信号処理装置。
　前記信号処理は、バーチャライズ処理またはレンダリング処理を含む処理である
　請求項９に記載の信号処理装置。
　前記第１のオーディオ信号は、オーディオオブジェクトのオブジェクト信号、またはチャネルベースのオーディオ信号である
　請求項１に記載の信号処理装置。
　信号処理装置が、
　入力ビットストリームを第１のオーディオ信号と、前記第１のオーディオ信号のメタデータと、帯域拡張のための第１の高域情報とに非多重化し、
　前記第１のオーディオ信号および前記メタデータに基づいて信号処理を行うことで得られた第２のオーディオ信号と、前記第１の高域情報に基づいて生成された第２の高域情報とに基づいて帯域拡張処理を行い、出力オーディオ信号を生成する
　信号処理方法。
　入力ビットストリームを第１のオーディオ信号と、前記第１のオーディオ信号のメタデータと、帯域拡張のための第１の高域情報とに非多重化し、
　前記第１のオーディオ信号および前記メタデータに基づいて信号処理を行うことで得られた第２のオーディオ信号と、前記第１の高域情報に基づいて生成された第２の高域情報とに基づいて帯域拡張処理を行い、出力オーディオ信号を生成する
　ステップを含む処理をコンピュータに実行させるプログラム。
　第１のオーディオ信号と第１の係数とに基づく信号処理により生成された第２のオーディオ信号に基づいて、帯域拡張のための第１の高域情報を生成する第１の高域情報計算部と、
　前記第１のオーディオ信号と第２の係数とに基づく前記信号処理により生成された第３のオーディオ信号に基づいて、帯域拡張のための第２の高域情報を生成する第２の高域情報計算部と、
　前記第１の係数、前記第２の係数、前記第１の高域情報、および前記第２の高域情報に基づいて、前記第２の高域情報を教師データとする学習を行い、前記第１の係数、前記第２の係数、および前記第１の高域情報から前記第２の高域情報を得るための係数データを生成する高域情報学習部と
　を備える学習装置。
　前記係数データは、ニューラルネットワークを構成する係数である
　請求項１４に記載の学習装置。
　前記第１の係数は汎用の係数であり、前記第２の係数はユーザごとの係数である
　請求項１４に記載の学習装置。
　前記信号処理は、バーチャライズ処理またはレンダリング処理を含む処理であり、
　前記第１の係数および前記第２の係数はHRTF係数である
　請求項１６に記載の学習装置。
　前記第１のオーディオ信号は、オーディオオブジェクトのオブジェクト信号、またはチャネルベースのオーディオ信号である
　請求項１４に記載の学習装置。
　学習装置が、
　第１のオーディオ信号と第１の係数とに基づく信号処理により生成された第２のオーディオ信号に基づいて、帯域拡張のための第１の高域情報を生成し、
　前記第１のオーディオ信号と第２の係数とに基づく前記信号処理により生成された第３のオーディオ信号に基づいて、帯域拡張のための第２の高域情報を生成し、
　前記第１の係数、前記第２の係数、前記第１の高域情報、および前記第２の高域情報に基づいて、前記第２の高域情報を教師データとする学習を行い、前記第１の係数、前記第２の係数、および前記第１の高域情報から前記第２の高域情報を得るための係数データを生成する
　学習方法。
　第１のオーディオ信号と第１の係数とに基づく信号処理により生成された第２のオーディオ信号に基づいて、帯域拡張のための第１の高域情報を生成し、
　前記第１のオーディオ信号と第２の係数とに基づく前記信号処理により生成された第３のオーディオ信号に基づいて、帯域拡張のための第２の高域情報を生成し、
　前記第１の係数、前記第２の係数、前記第１の高域情報、および前記第２の高域情報に基づいて、前記第２の高域情報を教師データとする学習を行い、前記第１の係数、前記第２の係数、および前記第１の高域情報から前記第２の高域情報を得るための係数データを生成する
　ステップを含む処理をコンピュータに実行させるプログラム。