WO2018190151A1

WO2018190151A1 - 信号処理装置および方法、並びにプログラム

Info

Publication number: WO2018190151A1
Application number: PCT/JP2018/013630
Authority: WO
Inventors: 本間　弘幸; 優樹山本
Original assignee: ソニー株式会社
Priority date: 2017-04-13
Filing date: 2018-03-30
Publication date: 2018-10-18
Also published as: KR102490786B1; KR20190139206A; BR112019020887A2; US20210204086A1; RU2019131411A; JPWO2018190151A1; RU2763391C2; US20200068336A1; EP3624116A1; EP3624116A4; RU2019131411A3; JP7143843B2; JP2022172391A; EP3624116B1; US10972859B2

Abstract

本技術は、計算負荷を低減させることができるようにする信号処理装置および方法、並びにプログラムに関する。信号処理装置は、オブジェクトのスプレッド情報に基づいて、オブジェクトが所定の位置にあるときのアンビソニックゲインを求めるアンビソニックゲイン計算部を備える。本技術はエンコーダおよびデコーダに適用することができる。

Description

信号処理装置および方法、並びにプログラム

　本技術は、信号処理装置および方法、並びにプログラムに関し、特に、計算負荷を低減させることができるようにした信号処理装置および方法、並びにプログラムに関する。

　従来、映画やゲーム等でオブジェクトオーディオ技術が使われ、オブジェクトオーディオを扱える符号化方式も開発されている。具体的には、例えば国際標準規格であるMPEG（Moving Picture Experts Group）-H Part 3:3D audio規格などが知られている（例えば、非特許文献１参照）。

　このような符号化方式では、従来の２チャネルステレオ方式や５．１チャネル等のマルチチャネルステレオ方式とともに、移動する音源等を独立したオーディオオブジェクトとして扱い、オーディオオブジェクトの信号データとともにオブジェクトの位置情報をメタデータとして符号化することが可能である。

　このようにすることで、従来の符号化方式では困難であった特定の音源の音の音量調整や、特定の音源の音に対するエフェクトの追加など、特定の音源の音を再生時に加工することが容易にできる。

　また、非特許文献１に記載の符号化方式では、前述のオーディオオブジェクトの他に、視聴者周辺の空間的な音響情報を扱うアンビソニック（HOA（High Order Ambisonic）とも呼ばれる）といったデータも扱うことができる。

　ところで、オーディオオブジェクトは、スピーカ信号やヘッドフォン信号等にレンダリングする際には、点音源であるものと仮定されているため、大きさを持ったオーディオオブジェクトを表現することができない。

　そこで、非特許文献１に記載の符号化方式などのオブジェクトオーディオを扱える符号化方式では、オーディオオブジェクトのメタデータの中にオブジェクトの大きさを表現するスプレッドと呼ばれる情報が格納される。

　そして、例えば非特許文献１の規格では、再生時にはスプレッドに基づいて１つのオーディオオブジェクトに対して１９個のスプレッド用オーディオオブジェクトの信号が新たに生成されてスピーカなどの再生装置にレンダリング出力される。これにより、擬似的に大きさを持つオーディオオブジェクトを表現することができる。

INTERNATIONAL STANDARD ISO/IEC 23008-3 First edition 2015-10-15 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio

　しかしながら、上述したように１個のオーディオオブジェクトに対して１９個ものスプレッド用オーディオオブジェクトの信号を新たに生成することはレンダリング処理の計算負荷を著しく増大させることに繋がる。

　本技術は、このような状況に鑑みてなされたものであり、計算負荷を低減させることができるようにするものである。

　本技術の一側面の信号処理装置は、オブジェクトのスプレッド情報に基づいて、前記オブジェクトが所定の位置にあるときのアンビソニックゲインを求めるアンビソニックゲイン計算部を備える。

　信号処理装置には、前記オブジェクトのオーディオオブジェクト信号と、前記アンビソニックゲインとに基づいて、前記オブジェクトのアンビソニック信号を生成するアンビソニック信号生成部をさらに設けることができる。

　前記アンビソニックゲイン計算部には、前記スプレッド情報に基づいて、前記オブジェクトが基準となる位置にあるとしたときの基準位置アンビソニックゲインを求めさせ、前記所定の位置を示すオブジェクト位置情報に基づいて、前記基準位置アンビソニックゲインに対して回転処理を行わせて前記アンビソニックゲインを求めさせることができる。

　前記アンビソニックゲイン計算部には、前記スプレッド情報とゲインテーブルとに基づいて前記基準位置アンビソニックゲインを求めさせることができる。

　前記ゲインテーブルを、スプレッド角度と、前記基準位置アンビソニックゲインとが対応付けられたものとすることができる。

　前記アンビソニックゲイン計算部には、前記ゲインテーブルにおける複数の前記スプレッド角度のそれぞれに対応付けられた前記基準位置アンビソニックゲインのそれぞれに基づいて補間処理を行わせることにより、前記スプレッド情報により示されるスプレッド角度に対応する前記基準位置アンビソニックゲインを求めさせることができる。

　前記基準位置アンビソニックゲインを、前記スプレッド情報により示されるスプレッド角度に対して定まる空間上の複数の位置のそれぞれを示す角度のそれぞれを球面調和関数に代入して得られた値のそれぞれの和とすることができる。

　本技術の一側面の信号処理方法またはプログラムは、オブジェクトのスプレッド情報に基づいて、前記オブジェクトが所定の位置にあるときのアンビソニックゲインを求めるステップを含む。

　本技術の一側面においては、オブジェクトのスプレッド情報に基づいて、前記オブジェクトが所定の位置にあるときのアンビソニックゲインが求められる。

　本技術の一側面によれば、計算負荷を低減させることができる。

　なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。

オーディオオブジェクトのメタデータについて説明する図である。オーディオオブジェクトの３次元空間上の位置について説明する図である。スプレッド用オーディオオブジェクトについて説明する図である。スプレッド用オーディオオブジェクトについて説明する図である。スプレッド用オーディオオブジェクトについて説明する図である。信号処理装置の構成例を示す図である。スプレッド角度と正面位置アンビソニックゲインの関係を示す図である。コンテンツレンダリング処理を説明するフローチャートである。オーディオオブジェクトのメタデータについて説明する図である。スプレッド用オーディオオブジェクトについて説明する図である。スプレッド用オーディオオブジェクトについて説明する図である。スプレッド角度と正面位置アンビソニックゲインの関係を示す図である。スプレッド角度と正面位置アンビソニックゲインの関係を示す図である。デコーダの構成例を示す図である。デコーダの構成例を示す図である。エンコーダの構成例を示す図である。コンピュータの構成例を示す図である。

　以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈本技術について〉
　本技術は、スプレッド情報に基づいてアンビソニックゲインを直接求め、得られたアンビソニックゲインと、オーディオオブジェクト信号とからアンビソニック信号を得ることで計算負荷を低減させることができるようにするものである。

　まず、MPEG-H Part 3:3D audio規格のオーディオオブジェクトのスプレッド（以下、スプレッド情報とも称する）について説明する。

　図１は、スプレッド情報を含むオーディオオブジェクトのメタデータのフォーマットの一例を示す図ある。

　オーディオオブジェクトのメタデータは、所定の時間間隔ごとに図１に示すフォーマットが用いられて符号化される。

　図１において、num_objectsはビットストリームに含まれるオーディオオブジェクトの数を示している。また、tcimsbfはTwo's complement integer, most significant bit firstの略であり、uimsbfはUnsigned integer, most significant bit firstの略である。

　この例では、メタデータにはオーディオオブジェクトごとにobject_priority、spread、position_azimuth、position_elevation、position_radius、およびgain_factorが格納されている。

　object_priorityは、オーディオオブジェクトをスピーカなどの再生装置にレンダリングする際の優先度を示す優先度情報である。例えば、計算リソースの少ない機器でオーディオデータの再生を行うような場合に、object_priorityが大きいオーディオオブジェクトの信号を優先的に再生するなどといったことが可能である。

　spreadは、オーディオオブジェクトの大きさを表すメタデータ（スプレッド情報）であり、MPEG-H Part 3:3D audio規格ではオーディオオブジェクトの空間位置からの広がりを表す角度として定義されている。gain_factorはオーディオオブジェクト個々のゲインを示すゲイン情報である。

　position_azimuth、position_elevation、およびposition_radiusは、オーディオオブジェクトの空間位置情報を表す方位角、仰角、および半径（距離）であり、これらの方位角、仰角、および半径の関係は、例えば図２に示すようになる。

　すなわち、図２では原点Ｏを通り、互いに垂直なｘ軸、ｙ軸、およびｚ軸が３次元直交座標系の軸となっている。

　いま、原点Ｏと空間上のオーディオオブジェクトＯＢ１１の位置とを結ぶ直線を直線ｒとし、この直線ｒをｘｙ平面上に投影して得られた直線を直線Ｌとする。

　このとき、ｘ軸と直線Ｌとのなす角がオーディオオブジェクトＯＢ１１の位置を示す方位角、すなわちposition_azimuthとされ、直線ｒとｘｙ平面とのなす角がオーディオオブジェクトＯＢ１１の位置を示す仰角、すなわちposition_elevationとされる。また、直線ｒの長さがオーディオオブジェクトＯＢ１１の位置を示す半径、すなわちposition_radiusとされる。

　図１の説明に戻り、復号側では図１に示したobject_priority、spread、position_azimuth、position_elevation、position_radius、およびgain_factorが読み出されて、適宜、用いられる。

　次に、MPEG-H Part 3:3D audio規格において、spread（スプレッド情報）を持つオーディオオブジェクトをスピーカなどの再生装置にレンダリングする方法について説明する。

　例えばspreadがない、つまりspreadにより示される角度が０度である通常のオーディオオブジェクトをレンダリングする場合には、VBAP（Vector Base Amplitude Panning）と呼ばれる手法が用いられる。

　なお、VBAPについては、例えば「INTERNATIONAL STANDARD ISO/IEC 23008-3 First edition 2015-10-15 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio」等に記載されているので、その説明は省略する。

　これに対して、オーディオオブジェクトのspreadがある場合、spreadに基づいて１９個のスプレッド用オーディオオブジェクトの位置を示すベクトルｐ₀乃至ベクトルｐ₁₈が求められる。

　すなわち、まず処理対象となっているオーディオオブジェクトのメタデータにより示される位置を示すベクトルを、基本となるベクトルｐ₀とする。また、処理対象のオーディオオブジェクトのposition_azimuthおよびposition_elevationのそれぞれにより示される角度を角度φおよび角度θとする。このとき、以下の式（１）および式（２）により基本ベクトルｖおよび基本ベクトルｕが求められる。

　なお式（２）において「×」はクロス積を示している。

　続いて、これらの２つの基本ベクトルｖおよび基本ベクトルｕと、ベクトルｐ₀とに基づいて、以下の式（３）により１８個のベクトルｐ₁'乃至ベクトルｐ₁₈'が求められる。

　式（３）により得られた１８個のベクトルｐ₁'乃至ベクトルｐ₁₈'、およびベクトルｐ₀のそれぞれにより示される位置を３次元直交座標系にプロットすると、図３に示すようになる。なお、図３では、１つの円が１つのベクトルにより示される位置を表している。

　ここで、オーディオオブジェクトのspreadにより示される角度をαとし、この角度αを0.001度以上90度以下に制限したものをα'とすると、spreadにより変形した１９個のベクトルｐ_m（但し、ｍ＝0,1,…,18）は以下の式（４）に示すようになる。

　このようにして得られたベクトルｐ_mを正規化することで、spread（スプレッド情報）に対応した１９個のスプレッド用オーディオオブジェクトが生成される。ここで、１つのスプレッド用オーディオオブジェクトは、１つのベクトルｐ_mにより示される空間上の位置にある仮想的なオブジェクトである。

　これらの１９個のスプレッド用オーディオオブジェクトの信号をスピーカなどの再生装置にレンダリングすることで、spreadに対応した空間的な広がりを持つ１つのオーディオオブジェクトの音の出力が可能となる。

　図４は、spreadにより示される角度が３０度である場合の１９個のスプレッド用オーディオオブジェクトを３次元直交座標系にプロットしたものを示す図である。また、図５は、spreadにより示される角度が９０度である場合の１９個のスプレッド用オーディオオブジェクトを３次元直交座標系にプロットしたものを示す図である。

　これらの図４および図５では、１つの円が１つのベクトルにより示される位置を表している。すなわち、１つの円が１つのスプレッド用オーディオオブジェクトを表している。

　オーディオオブジェクトの信号の再生時には、これらの１９個のスプレッド用オーディオオブジェクトの信号からなるオーディオ信号を１つのオーディオオブジェクトの信号として再生することで、大きさを持つオーディオオブジェクトが表現される。

　さらに、spreadにより示される角度が９０度を超える場合、次式（５）に示されるλが按分比とされ、spreadにより示される角度を９０度としたときのレンダリング結果と、全スピーカが一定ゲインとされたときの出力結果とが按分比λにより合成されて出力される。

　以上のように、オーディオオブジェクトの信号を再生するときにはspread（スプレッド情報）に基づいて１９個のスプレッド用オーディオオブジェクトが生成され、擬似的に大きさを持つオーディオオブジェクトが表現される。

　しかしながら、１個のオーディオオブジェクトに対して１９個ものスプレッド用オーディオオブジェクトを生成することは、レンダリング処理の計算負荷を著しく増大させることに繋がる。

　そこで本技術では、スプレッド情報を持つオーディオオブジェクトに対して、レンダリング時に１９個のスプレッド用オーディオオブジェクト生成することなく、スプレッド情報に基づくアンビソニックゲインを直接求めることで、計算負荷を低減させるようにした。

　特に、本技術はオブジェクトオーディオとアンビソニックの２つの方式が重畳されたビットストリームを復号（デコード）しレンダリングする場合や、符号化（エンコード）時にオブジェクトオーディオをアンビソニックに変換して符号化する際などに有用である。

〈信号処理装置の構成例〉
　図６は、本技術を適用した信号処理装置の一実施の形態の構成例を示す図である。

　図６に示す信号処理装置１１は、アンビソニックゲイン計算部２１、アンビソニック回転部２２、アンビソニックマトリクス適用部２３、加算部２４、およびアンビソニックレンダリング部２５を有している。

　この信号処理装置１１には、コンテンツの音を再生するためのオーディオ信号として、アンビソニック形式のオーディオ信号である入力アンビソニック信号と、オーディオオブジェクトの音のオーディオ信号である入力オーディオオブジェクト信号とが供給される。

　例えば入力アンビソニック信号は、球面調和関数S_n,m(θ,φ)の次数ｎおよび次数ｍに対応するアンビソニックチャネルC_n,mの信号である。すなわち、信号処理装置１１には、各アンビソニックチャネルC_n,mの入力アンビソニック信号が供給される。

　これに対して、入力オーディオオブジェクト信号は、１つのオーディオオブジェクトの音を再生するためのモノラルのオーディオ信号であり、信号処理装置１１には各オーディオオブジェクトの入力オーディオオブジェクト信号が供給される。

　また、信号処理装置１１には、各オーディオオブジェクトについて、メタデータとしてオブジェクト位置情報とスプレッド情報とが供給される。

　ここで、オブジェクト位置情報は、上述したposition_azimuth、position_elevation、およびposition_radiusからなる情報である。

　position_azimuthはオーディオオブジェクトの空間上の位置を示す方位角を示しており、position_elevationはオーディオオブジェクトの空間上の位置を示す仰角を示しており、position_radiusはオーディオオブジェクトの空間上の位置を示す半径を示している。

　また、スプレッド情報は上述したspreadであり、オーディオオブジェクトの大きさ、すなわちオーディオオブジェクトの音像の広がり度合いを示す角度情報である。

　なお、以下では説明を簡単にするため、信号処理装置１１に１つのオーディオオブジェクトについて、入力オーディオオブジェクト信号、オブジェクト位置情報、およびスプレッド情報が供給される場合について説明する。

　しかし、これに限らず、信号処理装置１１に複数のオーディオオブジェクトについて、入力オーディオオブジェクト信号、オブジェクト位置情報、およびスプレッド情報が供給されても勿論よい。

　アンビソニックゲイン計算部２１は、供給されたスプレッド情報に基づいて、オーディオオブジェクトが正面位置にあるとしたときのアンビソニックゲインを求め、アンビソニック回転部２２に供給する。

　なお、正面位置とは空間上の基準となるユーザ位置から見て正面方向の位置であり、オブジェクト位置情報としてのposition_azimuthおよびposition_elevationがそれぞれ０度となる位置である。換言すれば、position_azimuth＝0およびposition_elevation＝0となる位置が正面位置である。

　以下では、特にオーディオオブジェクトが正面位置にある場合における、オーディオオブジェクトのアンビソニックチャネルC_n,mのアンビソニックゲインを、正面位置アンビソニックゲインG_n,mとも称することとする。

　例えば各アンビソニックチャネルC_n,mの正面位置アンビソニックゲインG_n,mは、以下のようなものとなる。

　すなわち、各アンビソニックチャネルC_n,mの正面位置アンビソニックゲインG_n,mを入力オーディオオブジェクト信号に乗算して、それらの各アンビソニックチャネルC_n,mのアンビソニック信号、つまりアンビソニック形式の信号としたとする。

　このとき、それらの各アンビソニックチャネルC_n,mのアンビソニック信号からなる信号に基づいてオーディオオブジェクトの音を再生すると、そのオーディオオブジェクトの音の音像は正面位置に定位することになる。

　しかも、この場合、オーディオオブジェクトの音は、スプレッド情報により示される角度の広がりを持った音となる。すなわち、スプレッド情報を用いて１９個のスプレッド用オーディオオブジェクトを生成した場合と同様の音の広がり感を表現することができる。

　ここで、スプレッド情報により示される角度（以下、スプレッド角度とも称する）と、各アンビソニックチャネルC_n,mの正面位置アンビソニックゲインG_n,mとの関係は、図７に示すようになる。なお、図７において縦軸は正面位置アンビソニックゲインG_n,mの値を示しており、横軸はスプレッド角度を示している。

　図７において曲線Ｌ１１乃至曲線Ｌ１７は、各スプレッド角度に対するアンビソニックチャネルC_n,mの正面位置アンビソニックゲインG_n,mを示している。

　具体的には、曲線Ｌ１１は球面調和関数S_n,m(θ,φ)の次数ｎおよび次数ｍのそれぞれが１であるとき、すなわち次数ｎ＝１および次数ｍ＝１に相当するアンビソニックチャネルC_1,1の正面位置アンビソニックゲインG_1,1を示している。

　同様に、曲線Ｌ１２は次数ｎ＝０および次数ｍ＝０に相当するアンビソニックチャネルC_0,0の正面位置アンビソニックゲインG_0,0を示しており、曲線Ｌ１３は次数ｎ＝２および次数ｍ＝２に相当するアンビソニックチャネルC_2,2の正面位置アンビソニックゲインG_2,2を示している。

　また、曲線Ｌ１４は次数ｎ＝３および次数ｍ＝３に相当するアンビソニックチャネルC_3,3の正面位置アンビソニックゲインG_3,3を示しており、曲線Ｌ１５は次数ｎ＝３および次数ｍ＝１に相当するアンビソニックチャネルC_3,1の正面位置アンビソニックゲインG_3,1を示している。

　さらに曲線Ｌ１６は次数ｎ＝２および次数ｍ＝０に相当するアンビソニックチャネルC_2,0の正面位置アンビソニックゲインG_2,0を示しており、曲線Ｌ１７は上記以外の次数ｎおよび次数ｍ（但し、0≦ｎ≦3，-3≦ｍ≦3）に相当するアンビソニックチャネルC_n,mの正面位置アンビソニックゲインG_n,mを示している。すなわち、曲線Ｌ１７はアンビソニックチャネルC_1,-1、C_1,0、C_2,1、C_2,-1、C_2,-2、C_3,0、C_3,-1、C_3,2、C_3,-2、およびC_3,-3の正面位置アンビソニックゲインを示している。ここでは、曲線Ｌ１７により示される正面位置アンビソニックゲインは、スプレッド角度によらず０となっている。

　なお、球面調和関数S_n,m(θ,φ)の定義は、例えば「INTERNATIONAL STANDARD ISO/IEC 23008-3 First edition 2015-10-15 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio」のF.1.3章に詳細に記述されているので、その説明は省略する。

　これらのスプレッド角度と正面位置アンビソニックゲインG_n,mの関係は予め求めておくことができる。

　具体的には、スプレッド角度に応じて求められるスプレッド用オーディオオブジェクトの３次元空間位置を示す仰角および方位角をそれぞれθおよびφとする。

　特に、１９個のスプレッド用オーディオオブジェクトのうちのｉ番目（但し、0≦ｉ≦18）のスプレッド用オーディオオブジェクトの仰角および方位角をθ_iおよびφ_iと記すこととする。なお、仰角θ_iおよび方位角φ_iは、それぞれ上述したposition_elevationおよびposition_azimuthに対応する。

　この場合、スプレッド用オーディオオブジェクトの仰角θ_iおよび方位角φ_iを球面調和関数S_n,m(θ,φ)に代入し、その結果得られた１９個の各スプレッド用オーディオオブジェクトについての球面調和関数S_n,m(θ_i,φ_i)を加算することで正面位置アンビソニックゲインG_n,mを求めることができる。すなわち、次式（６）を計算することにより正面位置アンビソニックゲインG_n,mを得ることができる。

　式（６）の計算では、同じアンビソニックチャネルC_n,mについて得られた１９個の球面調和関数S_n,m(θ_i,φ_i)の和が、そのアンビソニックチャネルC_n,mの正面位置アンビソニックゲインG_n,mとされている。

　すなわち、スプレッド情報により示されるスプレッド角度に対して、複数個、ここでは１９個の各スプレッド用オーディオオブジェクトの空間上の位置が定められており、各スプレッド用オーディオオブジェクトの位置を示す角度が仰角θ_iおよび方位角φ_iとなる。

　そして、スプレッド用オーディオオブジェクトの仰角θ_iおよび方位角φ_iを球面調和関数に代入して得られる値が球面調和関数S_n,m(θ_i,φ_i)であり、１９個のスプレッド用オーディオオブジェクトについて得られた球面調和関数S_n,m(θ_i,φ_i)の和が正面位置アンビソニックゲインG_n,mとされる。

　図７に示した例では、アンビソニックチャネルC_0,0、C_1,1、C_2,0、C_2,2、C_3,1、およびC_3,3のみが実質的に正面位置アンビソニックゲインG_n,mを有し、それ以外のアンビソニックチャネルC_n,mの正面位置アンビソニックゲインG_n,mは０となっている。

　例えばアンビソニックゲイン計算部２１では、スプレッド情報に基づいて式（６）の計算を行い、各アンビソニックチャネルC_n,mの正面位置アンビソニックゲインG_n,mを算出してもよいが、ここではゲインテーブルが用いられて正面位置アンビソニックゲインG_n,mが取得される。

　すなわち、アンビソニックゲイン計算部２１では、各スプレッド角度と正面位置アンビソニックゲインG_n,mとが対応付けられたゲインテーブルがアンビソニックチャネルC_n,mごとに予め生成され、保持されている。

　例えばゲインテーブルでは、各スプレッド角度の値に対して、それらのスプレッド角度に対応する正面位置アンビソニックゲインG_n,mの値が対応付けられていてもよい。また、例えばスプレッド角度の値の範囲に対して、その範囲に対応する正面位置アンビソニックゲインG_n,mの値が対応付けられていてもよい。

　なお、ゲインテーブルにおけるスプレッド角度の分解能は、入力オーディオオブジェクト信号等に基づいてコンテンツの音を再生する装置のリソース規模や、コンテンツ再生時に求められる再生品質に応じて定めればよい。

　また、図７から分かるようにスプレッド角度が小さい場合には、スプレッド角度の変化に対して正面位置アンビソニックゲインG_n,mの変化量が少ない。そこで、ゲインテーブルにおいて、小さいスプレッド角度については、１つの正面位置アンビソニックゲインG_n,mを対応付けるスプレッド角度の範囲、すなわちスプレッド角度のステップ幅を大きくし、スプレッド角度が大きくなるにしたがってステップ幅を小さくするなどとしてもよい。

　さらに、スプレッド情報により示されるスプレッド角度が、ゲインテーブルにある２つのスプレッド角度の中間値などである場合には、線形補間等の補間処理を行って正面位置アンビソニックゲインG_n,mを求めるようにしてもよい。

　そのような場合、例えばアンビソニックゲイン計算部２１はゲインテーブルにおけるスプレッド角度に対応付けられた正面位置アンビソニックゲインG_n,mに基づいて補間処理を行うことにより、スプレッド情報により示されるスプレッド角度に対応する正面位置アンビソニックゲインG_n,mを求める。

　具体的には、例えばスプレッド情報により示されるスプレッド角度が６５度であったとする。また、ゲインテーブルでは、スプレッド角度「６０度」と正面位置アンビソニックゲインG_n,m「0.2」が対応付けられており、スプレッド角度「７０度」と正面位置アンビソニックゲインG_n,m「0.3」が対応付けられているとする。

　このとき、アンビソニックゲイン計算部２１は、スプレッド情報とゲインテーブルとに基づいて、スプレッド角度「６５度」に対応する正面位置アンビソニックゲインG_n,m「0.25」を線形補間処理により算出する。

　以上のように、アンビソニックゲイン計算部２１では、スプレッド角度に応じて変化する各アンビソニックチャネルC_n,mの正面位置アンビソニックゲインG_n,mをテーブル化して得られたゲインテーブルが予め保持されている。

　これにより、スプレッド情報から１９個のスプレッド用オーディオオブジェクトを別途生成することなく、ゲインテーブルから直接、正面位置アンビソニックゲインG_n,mを得ることができる。ゲインテーブルを用いれば、直接、正面位置アンビソニックゲインG_n,mを算出する場合よりも、さらに計算負荷を低減させることができる。

　なお、ここでは、アンビソニックゲイン計算部２１においてオーディオオブジェクトが正面位置にあるときのアンビソニックゲインが求められる例について説明する。しかし、正面位置に限らず、アンビソニックゲイン計算部２１においてオーディオオブジェクトが他の基準となる位置にあるときのアンビソニックゲインが求められるようにしてもよい。

　図６の説明に戻り、アンビソニックゲイン計算部２１は、供給されたスプレッド情報と、保持しているゲインテーブルとに基づいて各アンビソニックチャネルC_n,mの正面位置アンビソニックゲインG_n,mを求めると、得られた正面位置アンビソニックゲインG_n,mをアンビソニック回転部２２に供給する。

　アンビソニック回転部２２は、供給されたオブジェクト位置情報に基づいて、アンビソニックゲイン計算部２１から供給された正面位置アンビソニックゲインG_n,mに対する回転処理を行う。

　アンビソニック回転部２２は、回転処理により得られた各アンビソニックチャネルC_n,mのオブジェクト位置アンビソニックゲインG'_n,mをアンビソニックマトリクス適用部２３に供給する。

　ここで、オブジェクト位置アンビソニックゲインG'_n,mは、オーディオオブジェクトがオブジェクト位置情報により示される位置、つまりオーディオオブジェクトの実際の位置にあるとしたときのアンビソニックゲインである。

　したがって、回転処理ではオーディオオブジェクトの位置が正面位置から本来のオーディオオブジェクトの位置まで回転移動され、その回転移動後のアンビソニックゲインがオブジェクト位置アンビソニックゲインG'_n,mとして算出される。

　換言すれば、正面位置に対応する正面位置アンビソニックゲインG_n,mが回転移動され、オブジェクト位置情報により示される実際のオーディオオブジェクトの位置に対応するオブジェクト位置アンビソニックゲインG'_n,mが算出される。

　回転処理時には、次式（７）に示すようにオーディオオブジェクトの回転角度、つまりアンビソニックゲインの回転角度に応じた回転行列Ｍと、各アンビソニックチャネルC_n,mの正面位置アンビソニックゲインG_n,mからなる行列Ｇとの積が求められる。そして、その結果得られた行列Ｇ'の要素が、各アンビソニックチャネルC_n,mのオブジェクト位置アンビソニックゲインG'_n,mとされる。ここでいう回転角度とは、オーディオオブジェクトを正面位置からオブジェクト位置情報により示される位置まで回転させるときの回転角度である。

　なお、回転行列Ｍについては例えば「Wigner-D functions, J. Sakurai, J. Napolitano, "Modern Quantum Mechanics", Addison-Wesley, 2010」などに記載されており、例えば２次のアンビソニックの場合、回転行列Ｍは次式（８）に示すブロック対角行列となる。

　式（８）に示す例では、回転行列Ｍの非対角ブロック成分の行列要素は０であるので、回転行列Ｍを正面位置アンビソニックゲインG_n,mにかける処理の計算コストを削減することができる。

　以上のように、アンビソニックゲイン計算部２１およびアンビソニック回転部２２では、スプレッド情報とオブジェクト位置情報に基づいて、オーディオオブジェクトについてのオブジェクト位置アンビソニックゲインG'_n,mが算出される。

　アンビソニックマトリクス適用部２３は、アンビソニック回転部２２から供給されたオブジェクト位置アンビソニックゲインG'_n,mに基づいて、供給された入力オーディオオブジェクト信号をアンビソニック形式の信号に変換する。

　ここで、モノラルの時間信号である入力オーディオオブジェクト信号をObj(t)と記すこととすると、アンビソニックマトリクス適用部２３は、次式（９）を計算することで、各アンビソニックチャネルC_n,mの出力アンビソニック信号C_n,m(t)を求める。

　式（９）では、所定のアンビソニックチャネルC_n,mのオブジェクト位置アンビソニックゲインG'_n,mを入力オーディオオブジェクト信号Obj(t)に乗算することで、そのアンビソニックチャネルC_n,mの出力アンビソニック信号C_n,m(t)が得られる。

　各アンビソニックチャネルC_n,mについて式（９）の計算を行うことで、入力オーディオオブジェクト信号Obj(t)が、それらの各アンビソニックチャネルC_n,mの出力アンビソニック信号C_n,m(t)からなるアンビソニック形式の信号に変換される。

　このようにして得られた出力アンビソニック信号C_n,m(t)は、スプレッド情報を用いて１９個のスプレッド用オーディオオブジェクトを生成して入力オーディオオブジェクト信号に基づく音を再生したときと同様の音が再生される信号である。

　すなわち、出力アンビソニック信号C_n,m(t)は、オブジェクト位置情報により示される位置に音像を定位させ、かつスプレッド情報により示される音の広がりを表現することのできる、オーディオオブジェクトの音を再生するためのアンビソニック形式の信号である。

　このように入力オーディオオブジェクト信号Obj(t)を出力アンビソニック信号C_n,m(t)に変換すれば、より少ない処理量でのオーディオ再生を実現することができる。すなわち、レンダリング処理の計算負荷を低減させることができる。

　アンビソニックマトリクス適用部２３は、このようにして得られた各アンビソニックチャネルC_n,mの出力アンビソニック信号C_n,m(t)を加算部２４に供給する。

　このようなアンビソニックマトリクス適用部２３は、オーディオオブジェクトの入力オーディオオブジェクト信号Obj(t)と、オブジェクト位置アンビソニックゲインG'_n,mとに基づいて、出力アンビソニック信号C_n,m(t)を生成するアンビソニック信号生成部として機能する。

　加算部２４は、アンビソニックチャネルC_n,mごとに、アンビソニックマトリクス適用部２３から供給された出力アンビソニック信号C_n,m(t)と、供給された入力アンビソニック信号とを加算し、得られたアンビソニック信号C'_n,m(t)をアンビソニックレンダリング部２５に供給する。すなわち、加算部２４では、出力アンビソニック信号C_n,m(t)と入力アンビソニック信号のミキシングが行われる。

　アンビソニックレンダリング部２５は、加算部２４から供給された各アンビソニックチャネルC_n,mのアンビソニック信号C'_n,m(t)と、図示せぬ出力スピーカの３次元空間位置に対応したデコーディングマトリクスと呼ばれる行列とに基づいて、各出力スピーカに供給する出力オーディオ信号O_k(t)を求める。

　例えば各アンビソニックチャネルC_n,mのアンビソニック信号C'_n,m(t)からなる列ベクトル（行列）をベクトルＣとし、各出力スピーカに対応する各オーディオチャネルｋの出力オーディオ信号O_k(t)からなる列ベクトル（行列）をベクトルＯと記すこととする。また、デコーディングマトリクスをＤと記すこととする。

　この場合、アンビソニックレンダリング部２５は、例えば次式（１０）に示すように、デコーディングマトリクスＤとベクトルＣの積を求めることで、ベクトルＯを算出する。

　なお、式（１０）では、デコーディングマトリクスＤは、アンビソニックチャネルC_n,mを行とし、オーディオチャネルｋを列とする行列である。

　デコーディングマトリクスＤの作成方法には様々な方法がある。例えば出力スピーカの３次元空間位置を示す仰角θおよび方位角φを代入して求められた球面調和関数S_n,m(θ,φ)を要素とする行列の逆行列を直接計算することで、デコーディングマトリクスＤを求めるようにしてもよい。

　その他、例えば「INTERNATIONAL STANDARD ISO/IEC 23008-3 First edition 2015-10-15 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio」の12.4.3.3章には、出力オーディオ信号の品質を向上させるためのデコーディングマトリクスの計算方法が記述されている。

　アンビソニックレンダリング部２５は、以上のようにして得られた各オーディオチャネルｋの出力オーディオ信号O_k(t)を、例えばそれらのオーディオチャネルｋに対応する出力スピーカに出力する。

〈コンテンツレンダリング処理の説明〉
　次に、以上において説明した信号処理装置１１の動作について説明する。すなわち、以下、図８のフローチャートを参照して、信号処理装置１１によるコンテンツレンダリング処理について説明する。

　ステップＳ１１において、アンビソニックゲイン計算部２１は、供給されたスプレッド情報に基づいて、アンビソニックチャネルC_n,mごとに正面位置アンビソニックゲインG_n,mを求め、アンビソニック回転部２２に供給する。

　例えばアンビソニックゲイン計算部２１は、保持しているゲインテーブルから、供給されたスプレッド情報により示されるスプレッド角度に対応付けられている正面位置アンビソニックゲインG_n,mを読み出すことで、アンビソニックチャネルC_n,mの正面位置アンビソニックゲインG_n,mを得る。このとき、アンビソニックゲイン計算部２１は、必要に応じて補間処理を行って正面位置アンビソニックゲインG_n,mを求める。

　ステップＳ１２において、アンビソニック回転部２２は、供給されたオブジェクト位置情報に基づいて、アンビソニックゲイン計算部２１から供給された正面位置アンビソニックゲインG_n,mに対して回転処理を行う。

　すなわち、例えばアンビソニック回転部２２は、オブジェクト位置情報により定まる回転行列Ｍに基づいて上述した式（７）の計算を行い、各アンビソニックチャネルC_n,mのオブジェクト位置アンビソニックゲインG'_n,mを算出する。

　アンビソニック回転部２２は、得られたオブジェクト位置アンビソニックゲインG'_n,mをアンビソニックマトリクス適用部２３に供給する。

　ステップＳ１３において、アンビソニックマトリクス適用部２３は、アンビソニック回転部２２から供給されたオブジェクト位置アンビソニックゲインG'_n,mと、供給された入力オーディオオブジェクト信号とに基づいて出力アンビソニック信号C_n,m(t)を生成する。

　例えばアンビソニックマトリクス適用部２３は、上述した式（９）の計算を行うことで、アンビソニックチャネルC_n,mごとに出力アンビソニック信号C_n,m(t)を算出する。アンビソニックマトリクス適用部２３は、得られた出力アンビソニック信号C_n,m(t)を加算部２４に供給する。

　ステップＳ１４において、加算部２４は、アンビソニックマトリクス適用部２３から供給された出力アンビソニック信号C_n,m(t)と、供給された入力アンビソニック信号とをミキシングする。

　すなわち、加算部２４は、アンビソニックチャネルC_n,mごとに出力アンビソニック信号C_n,m(t)と入力アンビソニック信号とを加算し、得られたアンビソニック信号C'_n,m(t)をアンビソニックレンダリング部２５に供給する。

　ステップＳ１５において、アンビソニックレンダリング部２５は、加算部２４から供給されたアンビソニック信号C'_n,m(t)に基づいて、各オーディオチャネルｋの出力オーディオ信号O_k(t)を生成する。

　例えばアンビソニックレンダリング部２５は、上述した式（１０）の計算を行うことで、各オーディオチャネルｋの出力オーディオ信号O_k(t)を求める。

　出力オーディオ信号O_k(t)が得られると、アンビソニックレンダリング部２５は、得られた出力オーディオ信号O_k(t)を後段に出力し、コンテンツレンダリング処理は終了する。

　以上のようにして信号処理装置１１は、スプレッド情報とオブジェクト位置情報に基づいてオブジェクト位置アンビソニックゲインを算出し、オブジェクト位置アンビソニックゲインに基づいて入力オーディオオブジェクト信号をアンビソニック形式の信号に変換する。このように、入力オーディオオブジェクト信号をアンビソニック形式の信号に変換することで、レンダリング処理の計算負荷を低減させることができる。

〈第２の実施の形態〉
〈アンビソニックゲインについて〉
　ところで、以上においてはスプレッド、すなわちオーディオオブジェクトの形状は１つのスプレッド角度のみによって変化するものとしていた。しかし、MPEG-H 3D Audio Phase 2では、２つのスプレッド角度α_width、およびスプレッド角度α_heightにより楕円形状のスプレッドを実現する手法が記載されている。

　例えばMPEG-H 3D Audio Phase 2については、「INTERNATIONAL STANDARD ISO/IEC 23008-3: 2015/FDAM3:2016 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio, AMENDMENT 3: MPEG-H 3D Audio Phase 2」に詳細に記載されている。

　信号処理装置１１では、このような２つのスプレッド角度が用いられる場合においてもスプレッド情報から正面位置アンビソニックゲインを得ることが可能である。

　以下では、スプレッド情報に、水平方向、つまり方位角の方向のスプレッド角度α_widthと、垂直方向、つまり仰角の方向のスプレッド角度α_heightとが含まれている例について説明する。

　図９は、スプレッド情報として、スプレッド角度α_widthおよびスプレッド角度α_heightが含まれている場合におけるオーディオオブジェクトのメタデータのフォーマットの一例を示す図である。なお、図９において図１における場合と対応する部分については、その説明を省略する。

　図９に示す例では、図１に示した例におけるspread[i]に代えて、spread_width[i]およびspread_height[i]がスプレッド情報として格納されている。

　この例では、spread_width[i]はｉ番目のオーディオオブジェクトのスプレッド角度α_widthを示しており、spread_height[i]はｉ番目のオーディオオブジェクトのスプレッド角度α_heightを示している。

　MPEG-H 3D Audio Phase 2に基づく手法では、まず次式（１１）により２つのスプレッド角度α_widthおよびスプレッド角度α_heightの比であるα_rが求められる。

　そして、次式（１２）に示すように、スプレッド角度の比α_rが上述した式（１）に示した基本ベクトルｖに乗算されて、基本ベクトルｖが修正される。

　なお、式（１２）においてｖ'はスプレッド角度の比α_rが乗算された、修正後の基本ベクトルを示している。

　また、上述した式（２）および式（３）はそのまま計算され、式（４）における角度α'については、スプレッド角度α_widthが0.001度以上90度以下に制限されたものが角度α'として用いられる。さらに、式（５）における角度αとしてスプレッド角度α_widthが用いられて計算が行われる。

　MPEG-H 3D Audio Phase 2に基づく手法では、以上のような計算により１９個のスプレッド用オーディオオブジェクトが生成され、擬似的に大きさを持つオーディオオブジェクトが表現される。

　例えばスプレッド角度α_widthおよびスプレッド角度α_heightがそれぞれ10度および60度である場合に得られた１９個のスプレッド用オーディオオブジェクトを３次元直交座標系にプロットすると、図１０に示すようになる。なお、図１０では、１つの円が１つのスプレッド用オーディオオブジェクトを表している。

　同様に、例えばスプレッド角度α_widthおよびスプレッド角度α_heightがそれぞれ90度および30度である場合に得られた１９個のスプレッド用オーディオオブジェクトを３次元直交座標系にプロットすると、図１１に示すようになる。なお、図１１では、１つの円が１つのスプレッド用オーディオオブジェクトを表している。

　MPEG-H 3D Audio Phase 2に基づく手法など、スプレッド情報にスプレッド角度α_widthおよびスプレッド角度α_heightが含まれている場合においても、１９個のスプレッド用オーディオオブジェクトを生成することになる。そのため、レンダリング処理の計算負荷は大きいままである。

　これに対して、信号処理装置１１においては、スプレッド情報にスプレッド角度α_widthおよびスプレッド角度α_heightが含まれている場合でも、上述した第１の実施の形態と同様に、ゲインテーブルを用いて正面位置アンビソニックゲインG_n,mを得ることができる。

　すなわち、第１の実施の形態では、アンビソニックゲイン計算部２１には、例えばスプレッド情報により示される１つのスプレッド角度に対して、１つの正面位置アンビソニックゲインG_n,mが対応付けられているゲインテーブルが保持されていた。

　これに対して、スプレッド情報にスプレッド角度α_widthおよびスプレッド角度α_heightが含まれている場合には、例えばスプレッド角度α_widthおよびスプレッド角度α_heightの組み合わせに対して１つの正面位置アンビソニックゲインG_n,mが対応付けられているゲインテーブルがアンビソニックゲイン計算部２１に保持される。

　例えばスプレッド角度α_widthおよびスプレッド角度α_heightと、アンビソニックチャネルC_0,0の正面位置アンビソニックゲインG_0,0との関係は、図１２に示すようになる。

　なお、図１２においてｊ軸はスプレッド角度α_widthを示しており、ｋ軸はスプレッド角度α_heightを示しており、ｌ軸は正面位置アンビソニックゲインG_0,0を示している。

　この例では、曲面SF11は、スプレッド角度α_widthおよびスプレッド角度α_heightの各組み合わせに対して定まる正面位置アンビソニックゲインG_0,0を示している。

　特に、曲面SF11上において、スプレッド角度α_widthおよびスプレッド角度α_heightのそれぞれが０度である点から、スプレッド角度α_widthおよびスプレッド角度α_heightのそれぞれが９０度である点までを通る曲線は、図７に示した曲線Ｌ１２に対応する。

　アンビソニックゲイン計算部２１は、このような曲面SF11に示す関係から得られるテーブルをアンビソニックチャネルC_0,0のゲインテーブルとして保持している。

　同様に、例えばスプレッド角度α_widthおよびスプレッド角度α_heightと、アンビソニックチャネルC_3,1の正面位置アンビソニックゲインG_3,1との関係は、図１３に示すようになる。

　なお、図１３においてｊ軸はスプレッド角度α_widthを示しており、ｋ軸はスプレッド角度α_heightを示しており、ｌ軸は正面位置アンビソニックゲインG_3,1を示している。

　この例では、曲面SF21は、スプレッド角度α_widthおよびスプレッド角度α_heightの各組み合わせに対して定まる正面位置アンビソニックゲインG_3,1を示している。

　アンビソニックゲイン計算部２１は、アンビソニックチャネルC_n,mごとに、スプレッド角度α_widthおよびスプレッド角度α_heightと、正面位置アンビソニックゲインG_n,mとが対応付けられたゲインテーブルを保持している。

　したがって、スプレッド情報にスプレッド角度α_widthおよびスプレッド角度α_heightが含まれている場合においても、アンビソニックゲイン計算部２１は、図８のステップＳ１１においてゲインテーブルを用いて各アンビソニックチャネルC_n,mの正面位置アンビソニックゲインG_n,mを求める。すなわち、アンビソニックゲイン計算部２１は、供給されたスプレッド情報に含まれるスプレッド角度α_widthおよびスプレッド角度α_heightに基づいて、ゲインテーブルから正面位置アンビソニックゲインG_n,mを読み出すことで、各アンビソニックチャネルC_n,mの正面位置アンビソニックゲインG_n,mを取得する。なお、この場合においても、適宜、補間処理が行われる。

　このようにすることで、信号処理装置１１では、１９個のスプレッド用オーディオオブジェクトを生成することなく、ゲインテーブルから直接、正面位置アンビソニックゲインG_n,mを得ることができる。また、正面位置アンビソニックゲインG_n,mを用いれば、入力オーディオオブジェクト信号をアンビソニック形式の信号に変換することができる。これにより、レンダリング処理の計算負荷を低減させることができる。

　以上のように、本技術は、MPEG-H 3D Audio Phase 2で扱われるような楕円形状のスプレッドに対しても適用することができる。さらには、MPEG-H 3D Audio Phase 2には記載されていないような、例えば四角形や星型のような複雑な形状のスプレッドに対しても本技術を適用することが可能である。

　上述した第１の実施の形態および第２の実施の形態では、MPEG-H Part 3:3D audioやMPEG-H 3D Audio Phase 2に記載の規格に従って、１９個のスプレッド用オーディオオブジェクトを生成することなく、入力オーディオオブジェクト信号をアンビソニック形式の信号に変換する手法について説明した。しかし、これらの規格との整合性を考慮する必要がなければ、スプレッドによって広がるオーディオオブジェクトの内部に１９個以上の多数のオブジェクトが一様に分布していると仮定し、以上において説明した本技術を適用した手法によって処理を行うことも可能である。そのような場合においても本技術により高い計算コスト低減効果を得ることができる。

〈本技術の適用例１〉
　続いて、以上において説明した本技術の具体的な適用例について説明する。

　まず、本技術をオーディオコーデックのデコーダに適用した場合について説明する。

　例えば一般的なデコーダは、図１４に示すように構成される。

　図１４に示すデコーダ５１は、コアデコーダ６１、オブジェクトレンダリング部６２、アンビソニックレンダリング部６３、およびミキサ６４を有している。

　デコーダ５１に入力ビットストリームが供給されると、その入力ビットストリームに対してコアデコーダ６１においてデコード処理が行われ、チャネル信号、オーディオオブジェクト信号、オーディオオブジェクトのメタデータ、およびアンビソニック信号が得られる。

　ここで、チャネル信号は、各オーディオチャネルのオーディオ信号である。また、オーディオオブジェクトのメタデータには、オブジェクト位置情報とスプレッド情報が含まれている。

　次に、オブジェクトレンダリング部６２において、図示せぬ出力スピーカの３次元空間位置に基づいたレンダリング処理が行われる。

　オブジェクトレンダリング部６２に入力されるメタデータには、オーディオオブジェクトの３次元空間位置を示すオブジェクト位置情報の他にスプレッド情報が含まれている。

　例えばスプレッド情報により示されるスプレッド角度が０度ではない場合には、上述したようにスプレッド角度に応じた仮想的なオブジェクト、すなわち１９個のスプレッド用オーディオオブジェクトが生成される。そして、それらの１９個のスプレッド用オーディオオブジェクトごとにレンダリング処理が行われ、その結果得られた各オーディオチャネルのオーディオ信号がオブジェクト出力信号としてミキサ６４に供給される。

　また、アンビソニックレンダリング部６３では、出力スピーカの３次元空間位置とアンビソニックチャネル数に基づいたデコーディングマトリクスが生成される。そして、アンビソニックレンダリング部６３は、デコーディングマトリクスと、コアデコーダ６１から供給されたアンビソニック信号とに基づいて、上述した式（１０）と同様の計算を行い、得られたアンビソニック出力信号をミキサ６４に供給する。

　ミキサ６４は、コアデコーダ６１からのチャネル信号と、オブジェクトレンダリング部６２からのオブジェクト出力信号と、アンビソニックレンダリング部６３からのアンビソニック出力信号とに対してミキシング処理を行い、最終的な出力オーディオ信号を生成する。すなわち、オーディオチャネルごとにチャネル信号と、オブジェクト出力信号と、アンビソニック出力信号とが加算されて出力オーディオ信号とされる。

　このようなデコーダ５１では、特にオブジェクトレンダリング部６２で行われるレンダリング処理の処理量が多くなってしまう。

　これに対して、本技術をデコーダに適用した場合、例えばデコーダは図１５に示すように構成される。

　図１５に示すデコーダ９１は、コアデコーダ１０１、オブジェクト・アンビソニック信号変換部１０２、加算部１０３、アンビソニックレンダリング部１０４、およびミキサ１０５を有している。

　デコーダ９１では、コアデコーダ１０１において入力ビットストリームのデコード処理が行われ、チャネル信号、オーディオオブジェクト信号、オーディオオブジェクトのメタデータ、およびアンビソニック信号が得られる。

　コアデコーダ１０１は、デコード処理により得られたチャネル信号をミキサ１０５に供給し、オーディオオブジェクト信号およびメタデータをオブジェクト・アンビソニック信号変換部１０２に供給し、アンビソニック信号を加算部１０３に供給する。

　オブジェクト・アンビソニック信号変換部１０２は、図６に示したアンビソニックゲイン計算部２１、アンビソニック回転部２２、およびアンビソニックマトリクス適用部２３を有する構成となっている。

　オブジェクト・アンビソニック信号変換部１０２は、コアデコーダ１０１から供給されたメタデータに含まれるオブジェクト位置情報とスプレッド情報に基づいて、各アンビソニックチャネルのオブジェクト位置アンビソニックゲインを算出する。

　また、オブジェクト・アンビソニック信号変換部１０２は、算出したオブジェクト位置アンビソニックゲインと、供給されたオーディオオブジェクト信号とに基づいて、各アンビソニックチャネルのアンビソニック信号を求め、加算部１０３に供給する。

　すなわち、オブジェクト・アンビソニック信号変換部１０２では、メタデータに基づいてオーディオオブジェクト信号がアンビソニック形式のアンビソニック信号へと変換される。

　上述したように、オーディオオブジェクト信号のアンビソニック信号への変換時には、１９個のスプレッド用オーディオオブジェクトを生成することなく、オーディオオブジェクト信号を、直接、アンビソニック信号へと変換することができる。これにより、図１４に示したオブジェクトレンダリング部６２においてレンダリング処理を行う場合と比較して、大幅に計算量を削減することができる。

　加算部１０３は、オブジェクト・アンビソニック信号変換部１０２から供給されたアンビソニック信号と、コアデコーダ１０１から供給されたアンビソニック信号とのミキシングを行う。すなわち、加算部１０３は、アンビソニックチャネルごとにオブジェクト・アンビソニック信号変換部１０２から供給されたアンビソニック信号と、コアデコーダ１０１から供給されたアンビソニック信号とを加算し、その結果得られたアンビソニック信号をアンビソニックレンダリング部１０４に供給する。

　アンビソニックレンダリング部１０４は、加算部１０３から供給されたアンビソニック信号と、出力スピーカの３次元空間位置およびアンビソニックチャネル数に基づいたデコーディングマトリクスとに基づいてアンビソニック出力信号を生成する。すなわち、アンビソニックレンダリング部１０４は、上述した式（１０）と同様の計算を行って各オーディオチャネルのアンビソニック出力信号を生成し、ミキサ１０５に供給する。

　ミキサ１０５は、コアデコーダ１０１から供給されたチャネル信号と、アンビソニックレンダリング部１０４から供給されたアンビソニック出力信号とをミキシングし、その結果得られた出力オーディオ信号を後段に出力する。すなわち、オーディオチャネルごとにチャネル信号と、アンビソニック出力信号とが加算されて出力オーディオ信号とされる。

　このように本技術をデコーダに適用すれば、レンダリング時の計算量を大幅に低減させることができるようになる。

〈本技術の適用例２〉
　また、本技術はデコーダに限らず、プリレンダリング処理を行うエンコーダにも適用することが可能である。

　例えば、エンコーダから出力する出力ビットストリームのビットレートや、デコーダにおけるオーディオ信号の処理チャネル数を削減したいことがある。

　ここで、例えば入力チャネル信号、入力オーディオオブジェクト信号、および入力アンビソニック信号という互いに異なる形式の信号がエンコーダに入力されるとする。

　このとき、入力チャネル信号と入力オーディオオブジェクト信号に対して変換処理を行い、全ての信号をアンビソニック形式の信号にしてからコアエンコーダによりエンコード処理を行えば、扱われるチャネル数および出力ビットストリームのビットレートを削減することができる。これにより、デコーダ側における処理量も削減することができる。

　こうした処理は、一般的にプリレンダリング処理と呼ばれている。上述したようにオーディオオブジェクトのメタデータにスプレッド情報が含まれている場合、スプレッド角度に応じて１９個のスプレッド用オーディオオブジェクトが生成される。そして、それらの１９個のスプレッド用オーディオオブジェクトそれぞれについて、アンビソニック形式の信号への変換処理が行われるため、処理量が多くなってしまう。

　そこで、本技術を利用して入力オーディオオブジェクト信号をアンビソニック形式の信号へと変換することでエンコーダでの処理量、すなわち計算量を低減させることができる。

　このように全ての信号をアンビソニック形式の信号とする場合、本技術を適用したエンコーダは、例えば図１６に示すように構成される。

　図１６に示すエンコーダ１３１は、チャネル・アンビソニック信号変換部１４１、オブジェクト・アンビソニック信号変換部１４２、ミキサ１４３、およびコアエンコーダ１４４を有している。

　チャネル・アンビソニック信号変換部１４１は、供給された各オーディオチャネルの入力チャネル信号をアンビソニック出力信号へと変換し、ミキサ１４３に供給する。

　例えばチャネル・アンビソニック信号変換部１４１には、図６に示したアンビソニックゲイン計算部２１乃至アンビソニックマトリクス適用部２３と同様の構成が設けられている。チャネル・アンビソニック信号変換部１４１は、信号処理装置１１における場合と同様の処理を行って入力チャネル信号をアンビソニック形式のアンビソニック出力信号に変換する。

　また、オブジェクト・アンビソニック信号変換部１４２は、図６に示したアンビソニックゲイン計算部２１、アンビソニック回転部２２、およびアンビソニックマトリクス適用部２３を有する構成となっている。

　オブジェクト・アンビソニック信号変換部１４２は、供給されたオーディオオブジェクトのメタデータと、入力オーディオオブジェクト信号とに基づいて、各アンビソニックチャネルのアンビソニック出力信号を求め、ミキサ１４３に供給する。

　すなわち、オブジェクト・アンビソニック信号変換部１４２では、メタデータに基づいて、入力オーディオオブジェクト信号がアンビソニック形式のアンビソニック出力信号へと変換される。

　上述したように、入力オーディオオブジェクト信号のアンビソニック出力信号への変換時には、１９個のスプレッド用オーディオオブジェクトを生成することなく、入力オーディオオブジェクト信号を、直接、アンビソニック出力信号へと変換することができる。これにより、大幅に計算量を削減することができる。

　ミキサ１４３は、供給された入力アンビソニック信号と、チャネル・アンビソニック信号変換部１４１から供給されたアンビソニック出力信号と、オブジェクト・アンビソニック信号変換部１４２から供給されたアンビソニック出力信号とをミキシングする。

　すなわち、ミキシングでは、それらの入力アンビソニック信号とアンビソニック出力信号の同じアンビソニックチャネルの信号が加算される。ミキサ１４３は、ミキシングにより得られたアンビソニック信号をコアエンコーダ１４４に供給する。

　コアエンコーダ１４４は、ミキサ１４３から供給されたアンビソニック信号をエンコードし、得られた出力ビットストリームを出力する。

　このようにエンコーダ１３１でプリレンダリング処理を行う場合においても、本技術を利用して入力チャネル信号や入力オーディオオブジェクト信号をアンビソニック形式の信号に変換することで、計算量を低減させることができる。

　以上のように、本技術によればオーディオオブジェクトのメタデータに含まれるスプレッド情報に応じてスプレッド用オーディオオブジェクトを生成することなく、直接、アンビソニックゲインを求めてアンビソニック信号への変換を行うことで計算量を大幅に削減することができる。特に、本技術は、オーディオオブジェクト信号とアンビソニック信号を含むビットストリームのデコードや、エンコーダでのプリレンダリング処理時に、オーディオオブジェクト信号をアンビソニック信号に変換する際に高い効果を発揮する。

〈コンピュータの構成例〉
　ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図１７は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

　バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

　入力部５０６は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

　以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、本技術は、以下の構成とすることも可能である。

（１）
　オブジェクトのオブジェクト位置情報およびスプレッド情報に基づいて、前記オブジェクトが前記オブジェクト位置情報により示される位置にあるときのアンビソニックゲインを求めるアンビソニックゲイン計算部を備える
　信号処理装置。
（２）
　前記オブジェクトのオーディオオブジェクト信号と、前記アンビソニックゲインとに基づいて、前記オブジェクトのアンビソニック信号を生成するアンビソニック信号生成部をさらに備える
　（１）に記載の信号処理装置。
（３）
　前記アンビソニックゲイン計算部は、
　　前記スプレッド情報に基づいて、前記オブジェクトが基準となる位置にあるとしたときの基準位置アンビソニックゲインを求め、
　　前記オブジェクト位置情報に基づいて、前記基準位置アンビソニックゲインに対して回転処理を行って前記アンビソニックゲインを求める
　（１）または（２）に記載の信号処理装置。
（４）
　前記アンビソニックゲイン計算部は、前記スプレッド情報とゲインテーブルとに基づいて前記基準位置アンビソニックゲインを求める
　（３）に記載の信号処理装置。
（５）
　前記ゲインテーブルは、スプレッド角度と、前記基準位置アンビソニックゲインとが対応付けられたものである
　（４）に記載の信号処理装置。
（６）
　前記アンビソニックゲイン計算部は、前記ゲインテーブルにおける複数の前記スプレッド角度のそれぞれに対応付けられた前記基準位置アンビソニックゲインのそれぞれに基づいて補間処理を行うことにより、前記スプレッド情報により示されるスプレッド角度に対応する前記基準位置アンビソニックゲインを求める
　（５）に記載の信号処理装置。
（７）
　前記基準位置アンビソニックゲインは、前記スプレッド情報により示されるスプレッド角度に対して定まる空間上の複数の位置のそれぞれを示す角度のそれぞれを球面調和関数に代入して得られた値のそれぞれの和である
　（３）乃至（６）の何れか一項に記載の信号処理装置。
（８）
　オブジェクトのオブジェクト位置情報およびスプレッド情報に基づいて、前記オブジェクトが前記オブジェクト位置情報により示される位置にあるときのアンビソニックゲインを求める
　ステップを含む信号処理方法。
（９）
　オブジェクトのオブジェクト位置情報およびスプレッド情報に基づいて、前記オブジェクトが前記オブジェクト位置情報により示される位置にあるときのアンビソニックゲインを求める
　ステップを含む処理をコンピュータに実行させるプログラム。

　１１　信号処理装置，　２１　アンビソニックゲイン計算部，　２２　アンビソニック回転部，　２３　アンビソニックマトリクス適用部，　２５　アンビソニックレンダリング部

Claims

　オブジェクトのスプレッド情報に基づいて、前記オブジェクトが所定の位置にあるときのアンビソニックゲインを求めるアンビソニックゲイン計算部を備える
　信号処理装置。
　前記オブジェクトのオーディオオブジェクト信号と、前記アンビソニックゲインとに基づいて、前記オブジェクトのアンビソニック信号を生成するアンビソニック信号生成部をさらに備える
　請求項１に記載の信号処理装置。
　前記アンビソニックゲイン計算部は、
　　前記スプレッド情報に基づいて、前記オブジェクトが基準となる位置にあるとしたときの基準位置アンビソニックゲインを求め、
　　前記所定の位置を示すオブジェクト位置情報に基づいて、前記基準位置アンビソニックゲインに対して回転処理を行って前記アンビソニックゲインを求める
　請求項１に記載の信号処理装置。
　前記アンビソニックゲイン計算部は、前記スプレッド情報とゲインテーブルとに基づいて前記基準位置アンビソニックゲインを求める
　請求項３に記載の信号処理装置。
　前記ゲインテーブルは、スプレッド角度と、前記基準位置アンビソニックゲインとが対応付けられたものである
　請求項４に記載の信号処理装置。
　前記アンビソニックゲイン計算部は、前記ゲインテーブルにおける複数の前記スプレッド角度のそれぞれに対応付けられた前記基準位置アンビソニックゲインのそれぞれに基づいて補間処理を行うことにより、前記スプレッド情報により示されるスプレッド角度に対応する前記基準位置アンビソニックゲインを求める
　請求項５に記載の信号処理装置。
　前記基準位置アンビソニックゲインは、前記スプレッド情報により示されるスプレッド角度に対して定まる空間上の複数の位置のそれぞれを示す角度のそれぞれを球面調和関数に代入して得られた値のそれぞれの和である
　請求項３に記載の信号処理装置。
　オブジェクトのスプレッド情報に基づいて、前記オブジェクトが所定の位置にあるときのアンビソニックゲインを求める
　ステップを含む信号処理方法。
　オブジェクトのスプレッド情報に基づいて、前記オブジェクトが所定の位置にあるときのアンビソニックゲインを求める
　ステップを含む処理をコンピュータに実行させるプログラム。