WO2016208406A1

WO2016208406A1 - 音声処理装置および方法、並びにプログラム

Info

Publication number: WO2016208406A1
Application number: PCT/JP2016/067195
Authority: WO
Inventors: 優樹山本; 徹知念; 辻　実
Original assignee: ソニー株式会社
Priority date: 2015-06-24
Filing date: 2016-06-09
Publication date: 2016-12-29
Also published as: JPWO2016208406A1; US20180160250A1; RU2708441C2; RU2019138260A; CN107710790B; JP2022003833A; EP3319342A1; US20200145777A1; AU2020277210B2; JP2022174305A; EP3680898B1; JP7400910B2; KR20180135109A; AU2016283182A1; US10567903B2; SG11201710080XA; EP3680898A1; AU2019202924B2; KR20240018688A; AU2020277210A1

Abstract

　本技術は、より高品質な音声を得ることができるようにする音声処理装置および方法、並びにプログラムに関する。取得部は、オブジェクトのオーディオ信号とメタデータを取得する。ベクトル算出部は、オブジェクトのメタデータに含まれている、音像の広がりを示す水平方向角度および垂直方向角度に基づいて、音像の広がりを示す領域内の位置を示すspreadベクトルを算出する。ゲイン算出部は、spreadベクトルに基づいて、VBAPにより各スピーカについてオーディオ信号のVBAPゲインを算出する。本技術は音声処理装置に適用することができる。

Description

音声処理装置および方法、並びにプログラム

　本技術は音声処理装置および方法、並びにプログラムに関し、特に、より高品質な音声を得ることができるようにした音声処理装置および方法、並びにプログラムに関する。

　従来、複数のスピーカを用いて音像の定位を制御する技術として、VBAP(Vector Base Amplitude Panning)が知られている（例えば、非特許文献１参照）。

　VBAPでは、３つのスピーカから音を出力することで、それらの３つのスピーカで構成される三角形の内側の任意の一点に音像を定位させることができる。

　しかしながら、実世界では、音像は一点に定位するのではなく、ある程度の広がりを持った部分空間に定位すると考えられる。例えば、人間の声は声帯から発せられるが、その振動は顔や体などに伝搬し、その結果、人間の体全体という部分空間から音声が発せられると考えられる。

　このような部分空間に音を定位させる技術、すなわち音像を広げる技術としてMDAP(Multiple Direction Amplitude Panning)が一般に知られている（例えば、非特許文献２参照）。また、このMDAPはMPEG(Moving Picture Experts Group)-H 3D Audio規格のレンダリング処理部でも使われている（例えば、非特許文献３参照）。

Ville Pulkki, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning", Journal of AES, vol.45, no.6, pp.456-466, 1997 Ville Pulkki, "Uniform Spreading of Amplitude Panned Virtual Sources", Proc. 1999 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, New Paltz, New York, Oct. 17-20, 1999 ISO/IEC JTC1/SC29/WG11 N14747, August 2014, Sapporo, Japan, "Text of ISO/IEC 23008-3/DIS, 3D Audio"

　しかしながら、上述した技術では、十分に高品質な音声を得ることができなかった。

　例えばMPEG-H 3D Audio規格では、オーディオオブジェクトのメタデータにspreadと呼ばれる音像の広がり度合いを示す情報が含まれており、このspreadに基づいて音像を広げる処理が行われる。ところが、音像を広げる処理では、オーディオオブジェクトの位置を中心として音像の広がりが上下左右対称であるという制約がある。そのため、オーディオオブジェクトからの音声の指向性（放射方向）を考慮した処理を行うことができず、十分高品質な音声を得ることができなかった。

　本技術は、このような状況に鑑みてなされたものであり、より高品質な音声を得ることができるようにするものである。

　本技術の一側面の音声処理装置は、オーディオオブジェクトの位置を示す位置情報と、少なくとも２次元以上のベクトルからなる、前記位置からの音像の広がりを表す音像情報とを含むメタデータを取得する取得部と、前記音像情報により定まる音像の広がりを表す領域に関する水平方向角度および垂直方向角度に基づいて、前記領域内の位置を示すspreadベクトルを算出するベクトル算出部と、前記spreadベクトルに基づいて、前記位置情報により示される前記位置近傍に位置する２以上の音声出力部に供給されるオーディオ信号のそれぞれのゲインを算出するゲイン算出部とを備える。

　前記ベクトル算出部には、前記水平方向角度と前記垂直方向角度の比に基づいて、前記spreadベクトルを算出させることができる。

　前記ベクトル算出部には、予め定められた個数の前記spreadベクトルを算出させることができる。

　前記ベクトル算出部には、可変である任意の個数の前記spreadベクトルを算出させることができる。

　前記音像情報を、前記領域の中心位置を示すベクトルとすることができる。

　前記音像情報を、前記領域の中心からの音像の広がり度合いを示す２次元以上のベクトルとすることができる。

　前記音像情報を、前記位置情報により示される位置から見た前記領域の中心位置の相対的な位置を示すベクトルとすることができる。

　前記ゲイン算出部には、各前記音声出力部について、前記spreadベクトルごとに前記ゲインを算出させ、前記音声出力部ごとに、各前記spreadベクトルについて算出した前記ゲインの加算値を算出させ、前記音声出力部ごとに、前記加算値を２値以上のゲインに量子化させ、前記量子化された前記加算値に基づいて、前記音声出力部ごとに最終的な前記ゲインを算出させることができる。

　前記ゲイン算出部には、３つの前記音声出力部により囲まれる領域であるメッシュであって、前記ゲインの算出に用いるメッシュの数を選択させ、前記メッシュの数の選択結果と前記spreadベクトルとに基づいて、前記spreadベクトルごとに前記ゲインを算出させることができる。

　前記ゲイン算出部には、前記ゲインの算出に用いる前記メッシュの数、前記量子化を行うか否か、および前記量子化時における前記加算値の量子化数を選択させ、その選択結果に応じて前記最終的な前記ゲインを算出させることができる。

　前記ゲイン算出部には、前記オーディオオブジェクトの数に基づいて、前記ゲインの算出に用いる前記メッシュの数、前記量子化を行うか否か、および前記量子化数を選択させることができる。

　前記ゲイン算出部には、前記オーディオオブジェクトの重要度に基づいて、前記ゲインの算出に用いる前記メッシュの数、前記量子化を行うか否か、および前記量子化数を選択させることができる。

　前記ゲイン算出部には、前記重要度の高い前記オーディオオブジェクトに近い位置にある前記オーディオオブジェクトほど、前記ゲインの算出に用いる前記メッシュの数が多くなるように、前記ゲインの算出に用いる前記メッシュの数を選択させることができる。

　前記ゲイン算出部には、前記オーディオオブジェクトのオーディオ信号の音圧に基づいて、前記ゲインの算出に用いる前記メッシュの数、前記量子化を行うか否か、および前記量子化数を選択させることができる。

　前記ゲイン算出部には、前記メッシュの数の選択結果に応じて、複数の前記音声出力部のうち、互いに異なる高さに位置する前記音声出力部を含む３以上の前記音声出力部を選択させ、選択した前記音声出力部から形成される１または複数の前記メッシュに基づいて前記ゲインを算出させることができる。

　本技術の一側面の音声処理方法またはプログラムは、オーディオオブジェクトの位置を示す位置情報と、少なくとも２次元以上のベクトルからなる、前記位置からの音像の広がりを表す音像情報とを含むメタデータを取得し、前記音像情報により定まる音像の広がりを表す領域に関する水平方向角度および垂直方向角度に基づいて、前記領域内の位置を示すspreadベクトルを算出し、前記spreadベクトルに基づいて、前記位置情報により示される前記位置近傍に位置する２以上の音声出力部に供給されるオーディオ信号のそれぞれのゲインを算出するステップを含む。

　本技術の一側面においては、オーディオオブジェクトの位置を示す位置情報と、少なくとも２次元以上のベクトルからなる、前記位置からの音像の広がりを表す音像情報とを含むメタデータが取得され、前記音像情報により定まる音像の広がりを表す領域に関する水平方向角度および垂直方向角度に基づいて、前記領域内の位置を示すspreadベクトルが算出され、前記spreadベクトルに基づいて、前記位置情報により示される前記位置近傍に位置する２以上の音声出力部に供給されるオーディオ信号のそれぞれのゲインが算出される。

　本技術の一側面によれば、より高品質な音声を得ることができる。

　なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。

VBAPについて説明する図である。音像の位置について説明する図である。 spreadベクトルについて説明する図である。 spread中心ベクトル方式について説明する図である。 spread放射ベクトル方式について説明する図である。音声処理装置の構成例を示す図である。再生処理を説明するフローチャートである。 spreadベクトル算出処理を説明するフローチャートである。 spread3次元ベクトルに基づくspreadベクトル算出処理を説明するフローチャートである。 spread中心ベクトルに基づくspreadベクトル算出処理を説明するフローチャートである。 spread端ベクトルに基づくspreadベクトル算出処理を説明するフローチャートである。 spread放射ベクトルに基づくspreadベクトル算出処理を説明するフローチャートである。 spreadベクトル位置情報に基づくspreadベクトル算出処理を説明するフローチャートである。メッシュ数の切り替えについて説明する図である。メッシュ数の切り替えについて説明する図である。メッシュの形成について説明する図である。音声処理装置の構成例を示す図である。再生処理を説明するフローチャートである。音声処理装置の構成例を示す図である。再生処理を説明するフローチャートである。 VBAPゲイン算出処理を説明するフローチャートである。コンピュータの構成例を示す図である。

　以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈VBAPと音像を広げる処理について〉
　本技術は、オーディオオブジェクトのオーディオ信号と、そのオーディオオブジェクトの位置情報などのメタデータとを取得してレンダリングを行う場合に、より高品質な音声を得ることができるようにするものである。なお、以下では、オーディオオブジェクトを、単にオブジェクトとも称することとする。

　以下では、まずVBAP、およびMPEG-H 3D Audio規格における音像を広げる処理について説明する。

　例えば、図１に示すように、音声付の動画像や楽曲などのコンテンツを視聴するユーザＵ１１が、３つのスピーカＳＰ１乃至スピーカＳＰ３から出力される３チャンネルの音声をコンテンツの音声として聴いているとする。

　このような場合に、各チャンネルの音声を出力する３つのスピーカＳＰ１乃至スピーカＳＰ３の位置を示す情報を用いて、位置ｐに音像を定位させることを考える。

　例えば、ユーザＵ１１の頭部の位置を原点Ｏとする３次元座標系において、位置ｐを、原点Ｏを始点とする３次元のベクトル（以下、ベクトルｐとも称する）により表すこととする。また、原点Ｏを始点とし、各スピーカＳＰ１乃至スピーカＳＰ３の位置の方向を向く３次元のベクトルをベクトルｌ₁乃至ベクトルｌ₃とすると、ベクトルｐはベクトルｌ₁乃至ベクトルｌ₃の線形和によって表すことができる。

　すなわち、ｐ＝ｇ₁ｌ₁＋ｇ₂ｌ₂＋ｇ₃ｌ₃とすることができる。

　ここで、ベクトルｌ₁乃至ベクトルｌ₃に乗算されている係数ｇ₁乃至係数ｇ₃を算出し、これらの係数ｇ₁乃至係数ｇ₃を、スピーカＳＰ１乃至スピーカＳＰ３のそれぞれから出力する音声のゲインとすれば、位置ｐに音像を定位させることができる。

　このようにして、３つのスピーカＳＰ１乃至スピーカＳＰ３の位置情報を用いて係数ｇ₁乃至係数ｇ₃を求め、音像の定位位置を制御する手法は、３次元VBAPと呼ばれている。特に、以下では、係数ｇ₁乃至係数ｇ₃のようにスピーカごとに求められたゲインを、VBAPゲインと称することとする。

　図１の例では、スピーカＳＰ１、スピーカＳＰ２、およびスピーカＳＰ３の位置を含む球面上の三角形の領域ＴＲ１１内の任意の位置に音像を定位させることができる。ここで、領域ＴＲ１１は、原点Ｏを中心とし、スピーカＳＰ１乃至スピーカＳＰ３の各位置を通る球の表面上の領域であって、スピーカＳＰ１乃至スピーカＳＰ３により囲まれる３角形の領域である。

　このような３次元VBAPを用いれば、空間上の任意の位置に音像を定位させることができるようになる。なお、VBAPについては、例えば「Ville Pulkki, “Virtual Sound Source Positioning Using Vector Base Amplitude Panning”, Journal of AES, vol.45, no.6, pp.456-466, 1997」などに詳細に記載されている。

　次に、MPEG-H 3D Audio規格での音像を広げる処理について説明する。

　MPEG-H 3D Audio規格では、符号化装置からは、各オブジェクトのオーディオ信号を符号化して得られた符号化オーディオデータと、各オブジェクトのメタデータを符号化して得られた符号化メタデータとを多重化して得られたビットストリームが出力される。

　例えば、メタデータには、オブジェクトの空間上の位置を示す位置情報、オブジェクトの重要度を示す重要度情報、およびオブジェクトの音像の広がり度合いを示す情報であるspreadが含まれている。

　ここで、音像の広がり度合いを示すspreadは、0°から180°までの任意の角度とされ、符号化装置では、各オブジェクトについて、オーディオ信号のフレームごとに異なる値のspreadを指定することが可能である。

　また、オブジェクトの位置は水平方向角度azimuth、垂直方向角度elevation、および距離radiusにより表される。すなわち、オブジェクトの位置情報は水平方向角度azimuth、垂直方向角度elevation、および距離radiusの各値からなる。

　例えば、図２に示すように、図示せぬスピーカから出力される各オブジェクトの音声を聴いている視聴者の位置を原点Ｏとし、図中、右上方向、左上方向、および上方向を互いに垂直なｘ軸、ｙ軸、およびｚ軸の方向とする３次元座標系を考える。このとき、１つのオブジェクトの位置を位置OBJ11とすると、３次元座標系における位置OBJ11に音像を定位させればよい。

　また、位置OBJ11と原点Ｏとを結ぶ直線を直線Ｌとすると、ｘｙ平面上において直線Ｌとｘ軸とがなす図中、水平方向の角度θ（方位角）が、位置OBJ11にあるオブジェクトの水平方向の位置を示す水平方向角度azimuthとなり、水平方向角度azimuthは-180°≦azimuth≦180°を満たす任意の値とされる。

　例えばｘ軸方向の正の方向がazimuth＝０°とされ、ｘ軸方向の負の方向がazimuth＝+180°＝-180°とされる。また、原点Ｏを中心に反時計回りの方向がazimuthの＋方向とされ、原点Ｏを中心に時計回りの方向がazimuthの－方向とされる。

　さらに、直線Ｌとｘｙ平面とがなす角度、つまり図中、垂直方向の角度γ（仰角）が、位置OBJ11にあるオブジェクトの垂直方向の位置を示す垂直方向角度elevationとなり、垂直方向角度elevationは-90°≦elevation≦90°を満たす任意の値とされる。例えばｘｙ平面の位置がelevation＝０°とされ、図中、上方向が垂直方向角度elevationの＋方向とされ、図中、下方向が垂直方向角度elevationの－方向とされる。

　また、直線Ｌの長さ、つまり原点Ｏから位置OBJ11までの距離が視聴者までの距離radiusとされ、距離radiusは０以上の値とされる。すなわち、距離radiusは、０≦radius＜∞を満たす値とされる。以下では、距離radiusを半径方向の距離とも称する。

　なお、VBAPでは全てのスピーカやオブジェクトから視聴者までの距離radiusが同一であり、距離radiusを１に正規化して計算を行うのが一般的な方式である。

　このようにメタデータに含まれるオブジェクトの位置情報は、水平方向角度azimuth、垂直方向角度elevation、および距離radiusの各値からなる。

　以下では、水平方向角度azimuth、垂直方向角度elevation、および距離radiusを、単にazimuth、elevation、およびradiusとも称することとする。

　また、符号化オーディオデータと符号化メタデータとが含まれるビットストリームを受信した復号装置では、符号化オーディオデータと符号化メタデータの復号が行われた後、メタデータに含まれているspreadの値に応じて、音像を広げるレンダリング処理が行われる。

　具体的には、まず復号装置は、オブジェクトのメタデータに含まれる位置情報により示される空間上の位置を位置ｐとする。この位置ｐは、上述した図１の位置ｐに対応する。

　続いて、復号装置は、例えば図３に示すように位置ｐ＝中心位置ｐ０として、中心位置ｐ０を中心として単位球面上で上下左右対称になるように、１８個のspreadベクトルp1乃至spreadベクトルp18を配置する。なお、図３において、図１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図３では、原点Ｏを中心とする半径１の単位球の球面上に５つのスピーカＳＰ１乃至スピーカＳＰ５が配置されており、位置情報により示される位置ｐが、中心位置ｐ０とされている。以下では、位置ｐを特にオブジェクト位置ｐとも称し、原点Ｏを始点とし、オブジェクト位置ｐを終点とするベクトルをベクトルｐとも称することとする。また、原点Ｏを始点とし、中心位置ｐ０を終点とするベクトルをベクトルｐ０とも称することとする。

　図３では、原点Ｏを始点とする、点線で描かれた矢印がspreadベクトルを表している。但し、実際にはspreadベクトルは１８個あるが、図３では、図を見やすくするためspreadベクトルが８個だけ描かれている。

　ここで、spreadベクトルp1乃至spreadベクトルp18のそれぞれは、その終点位置が中心位置ｐ０を中心とする単位球面上の円の領域Ｒ１１内に位置するベクトルとなっている。特に、領域Ｒ１１で表される円の円周上に終点位置があるspreadベクトルと、ベクトルｐ０とのなす角度がspreadにより示される角度となる。

　したがって、各spreadベクトルの終点位置は、spreadの値が大きくなるほど中心位置ｐ０から離れた位置に配置されることになる。つまり、領域Ｒ１１は大きくなる。

　この領域Ｒ１１は、オブジェクトの位置からの音像の広がりを表現している。換言すれば、領域Ｒ１１は、オブジェクトの音像が広がる範囲を示す領域となっている。さらにいえば、オブジェクトの音声は、オブジェクト全体から発せられると考えられるので、領域Ｒ１１はオブジェクトの形状を表しているともいうことができる。以下では、領域Ｒ１１のように、オブジェクトの音像が広がる範囲を示す領域を、音像の広がりを示す領域とも称することとする。

　また、spreadの値が０である場合には、１８個のspreadベクトルp1乃至spreadベクトルp18のそれぞれの終点位置は、中心位置ｐ０と等しくなる。

　なお、以下、spreadベクトルp1乃至spreadベクトルp18のそれぞれの終点位置を、特に位置ｐ１乃至位置ｐ１８とも称することとする。

　このようにして、単位球面上において上下左右対称なspreadベクトルが定められると、復号装置は、ベクトルｐと各spreadベクトルについて、つまり位置ｐと位置ｐ１乃至位置ｐ１８のそれぞれとについて、VBAPにより各チャンネルのスピーカごとにVBAPゲインを算出する。このとき、位置ｐや位置ｐ１など、それらの各位置に音像が定位するようにスピーカごとのVBAPゲインが算出される。

　そして、復号装置は各位置について算出したVBAPゲインをスピーカごとに加算する。例えば図３の例では、スピーカＳＰ１について算出された位置ｐおよび位置ｐ１乃至位置ｐ１８のそれぞれのVBAPゲインが加算される。

　さらに、復号装置は、スピーカごとに求まった加算処理後のVBAPゲインを正規化する。すなわち、全スピーカのVBAPゲインの２乗和が１となるように正規化が行われる。

　そして、復号装置は、正規化により得られた各スピーカのVBAPゲインを、オブジェクトのオーディオ信号に乗算して、それらのスピーカごとのオーディオ信号とし、スピーカごとに得られたオーディオ信号をスピーカに供給して音声を出力させる。

　これにより、例えば図３の例では、領域Ｒ１１全体から音声が出力されているように音像が定位する。つまり、音像が領域Ｒ１１全体に広がることになる。

　図３では、音像を広げる処理を行わない場合には、オブジェクトの音像は位置ｐに定位するので、この場合には、実質的にスピーカＳＰ２とスピーカＳＰ３から音声が出力される。これに対して、音像を広げる処理が行われた場合には、音像が領域Ｒ１１全体に広がるので、音声再生時には、スピーカＳＰ１乃至スピーカＳＰ４から音声が出力される。

　ところで、以上のような音像を広げる処理を行う場合には、音像を広げる処理を行わない場合と比べて、レンダリング時の処理量が多くなる。そうすると、復号装置で扱えるオブジェクトの数が減ったり、ハード規模の小さいレンダラが搭載された復号装置ではレンダリングを行うことができなくなったりする場合が生じてしまう。

　そこで、レンダリング時に音像を広げる処理を行う場合には、より少ない処理量でレンダリングを行うことができるようにすることが望ましい。

　また、上述した１８個のspreadベクトルは、中心位置ｐ０＝位置ｐを中心として、単位球面上で上下左右対称であるという制約があるため、オブジェクトの音の指向性（放射方向）やオブジェクトの形状を考慮した処理ができない。そのため、十分高品質な音声を得ることができなかった。

　さらに、MPEG-H 3D Audio規格では、レンダリング時に音像を広げる処理として、処理が１通りしか規定されていないため、レンダラのハード規模が小さい場合には、音像を広げる処理を行うことができなかった。つまり、音声の再生を行うことができなかった。

　また、MPEG-H 3D Audio規格では、レンダラのハード規模で許容される処理量内で、最大の品質の音声を得ることができるように、処理を切り替えてレンダリングを行うことができなかった。

　以上のような状況に鑑みて、本技術では、レンダリング時の処理量を削減できるようにした。また、本技術では、オブジェクトの指向性や形状を表現することで十分高品質な音声を得ることができるようにした。さらに、本技術では、レンダラのハード規模等に応じてレンダリング時の処理として適切な処理を選択し、許容される処理量の範囲で最も高い品質の音声を得ることができるようにした。

　以下、本技術の概要について説明する。

〈処理量の削減について〉
　まず、レンダリング時の処理量の削減について説明する。

　音像を広げない通常のVBAP処理（レンダリング処理）では、具体的に以下に示す処理Ａ１乃至処理Ａ３が行われる。

（処理Ａ１）
　３つのスピーカについて、オーディオ信号に乗算するVBAPゲインを算出する
（処理Ａ２）
　３つのスピーカのVBAPゲインの２乗和が１となるように正規化を行う
（処理Ａ３）
　オブジェクトのオーディオ信号にVBAPゲインを乗算する

　ここで、処理Ａ３では、３つのスピーカごとに、オーディオ信号に対するVBAPゲインの乗算処理が行われるため、このような乗算処理は最大で３回行われることになる。

　これに対して、音像を広げる処理を行う場合のVBAP処理（レンダリング処理）では、具体的に以下に示す処理Ｂ１乃至処理Ｂ５が行われる。

（処理Ｂ１）
　ベクトルｐについて、３つの各スピーカのオーディオ信号に乗算するVBAPゲインを算出する
（処理Ｂ２）
　１８個の各spreadベクトルについて、３つの各スピーカのオーディオ信号に乗算するVBAPゲインを算出する
（処理Ｂ３）
　スピーカごとに、各ベクトルについて求めたVBAPゲインを加算する
（処理Ｂ４）
　全スピーカのVBAPゲインの２乗和が１となるように正規化を行う
（処理Ｂ５）
　オブジェクトのオーディオ信号にVBAPゲインを乗算する

　音像を広げる処理を行った場合、音声を出力するスピーカの数は３以上となるので、処理Ｂ５では３回以上、乗算処理が行われることになる。

　したがって、音像を広げる処理を行う場合と行わない場合とを比較すると、音像を広げる処理を行う場合には、特に処理Ｂ２と処理Ｂ３の分だけ処理量が多くなり、また処理Ｂ５でも処理Ａ３よりも処理量が多くなる。

　そこで、本技術では、スピーカごとに求められた、各ベクトルのVBAPゲインの和を量子化することにより、上述した処理Ｂ５の処理量を削減できるようにした。

　具体的には、本技術では、以下のような処理が行われる。なお、以下では、スピーカごとに求められる、ベクトルｐやspreadベクトルなどの各ベクトルごとに求めたVBAPゲインの和（加算値）をVBAPゲイン加算値とも称することとする。

　まず、処理Ｂ１乃至処理Ｂ３が行われ、スピーカごとにVBAPゲイン加算値が得られると、そのVBAPゲイン加算値が２値化される。２値化では、例えば各スピーカのVBAPゲイン加算値が０または１の何れかの値とされる。

　VBAPゲイン加算値を２値化する方法は、例えば四捨五入、シーリング（切り上げ）、フロアリング（切り捨て）、閾値処理など、どのような方法であってもよい。

　このようにしてVBAPゲイン加算値が２値化されると、その後、２値化されたVBAPゲイン加算値に基づいて、上述した処理Ｂ４が行われる。そうすると、結果として、各スピーカの最終的なVBAPゲインは、０を除くと１通りとなる。すなわち、VBAPゲイン加算値を２値化すると、各スピーカの最終的なVBAPゲインの値は０か、または所定値の何れかとなる。

　例えば２値化の結果、３つのスピーカのVBAPゲイン加算値が１となり、他のスピーカのVBAPゲイン加算値が０となったとすると、それらの３つのスピーカの最終的なVBAPゲインの値は1/3^(1/2)となる。

　このようにして各スピーカの最終的なVBAPゲインが得られると、その後は、上述した処理Ｂ５に代えて、処理Ｂ５’として、各スピーカのオーディオ信号に、最終的なVBAPゲインを乗算する処理が行われる。

　上述したように２値化を行うと、各スピーカの最終的なVBAPゲインの値は０か所定値かの何れかとなるので、処理Ｂ５’では１度の乗算処理を行なえばよいことになり、処理量を削減することができる。つまり、処理Ｂ５では３回以上の乗算処理を行わなければならなかったところを、処理Ｂ５’では１回の乗算処理を行うだけでよくなる。

　なお、ここではVBAPゲイン加算値を２値化する場合を例として説明したが、VBAPゲイン加算値が３値以上の値に量子化されるようにしてもよい。

　例えばVBAPゲイン加算値が３つの値のうちの何れかとされる場合、上述した処理Ｂ１乃至処理Ｂ３が行われ、スピーカごとにVBAPゲイン加算値が得られると、そのVBAPゲイン加算値が量子化され、０、０．５、または１の何れかの値とされる。そして、その後は、処理Ｂ４と処理Ｂ５’が行われる。この場合、処理Ｂ５’における乗算処理の回数は最大で２回となる。

　このように、VBAPゲイン加算値をｘ値化すると、つまり２以上のｘ個のゲインの何れかとなるように量子化すると、処理Ｂ５’における乗算処理の回数は最大で（ｘ－１）回となる。

　なお、以上においては、音像を広げる処理を行う場合に、VBAPゲイン加算値を量子化して処理量を削減する例について説明したが、音像を広げる処理を行わない場合においても、同様にしてVBAPゲインを量子化することで、処理量を削減することができる。すなわち、ベクトルｐについて求めた各スピーカのVBAPゲインを量子化すれば、正規化後のVBAPゲインのオーディオ信号への乗算処理の回数を削減することができる。

〈オブジェクトの形状および音の指向性を表現する処理について〉
　次に、本技術により、オブジェクトの形状と、オブジェクトの音の指向性を表現する処理について説明する。

　以下では、spread3次元ベクトル方式、spread中心ベクトル方式、spread端ベクトル方式、spread放射ベクトル方式、および任意spreadベクトル方式の５つの方式について説明する。

（spread3次元ベクトル方式）
　まず、spread3次元ベクトル方式について説明する。

　spread3次元ベクトル方式では、ビットストリーム内に３次元ベクトルであるspread3次元ベクトルが格納されて伝送される。ここでは、例えばオブジェクトごとの各オーディオ信号のフレームのメタデータに、spread3次元ベクトルが格納されるとする。この場合、メタデータには、音像の広がり度合いを示すspreadは格納されない。

　例えばspread3次元ベクトルは、水平方向の音像の広がり度合いを示すs3_azimuth、垂直方向の音像の広がり度合いを示すs3_elevation、および音像の半径方向の奥行きを示すs3_radiusの３つの要素からなる３次元ベクトルとされる。

　すなわち、spread3次元ベクトル＝（s3_azimuth, s3_elevation, s3_radius）である。

　ここでs3_azimuthは、位置ｐからの水平方向、つまり上述した水平方向角度azimuthの方向への音像の広がり角度を示している。具体的には、s3_azimuthは原点Ｏから音像の広がりを示す領域の水平方向側の端へと向かうベクトルと、ベクトルｐ（ベクトルｐ０）とのなす角度を示している。

　同様にs3_elevationは、位置ｐからの垂直方向、つまり上述した垂直方向角度elevationの方向への音像の広がり角度を示している。具体的には、s3_elevationは原点Ｏから音像の広がりを示す領域の垂直方向側の端へと向かうベクトルと、ベクトルｐ（ベクトルｐ０）とのなす角度を示している。また、s3_radiusは、上述した距離radiusの方向、つまり単位球面の法線方向の奥行きを示している。

　なお、これらのs3_azimuth、s3_elevation、およびs3_radiusは０以上の値とされる。また、ここではspread3次元ベクトルが、オブジェクトの位置情報により示される位置ｐに対する相対位置を示す情報とされているが、spread3次元ベクトルは絶対位置を示す情報とされるようにしてもよい。

　spread3次元ベクトル方式では、このようなspread3次元ベクトルが用いられてレンダリングが行われる。

　具体的には、spread3次元ベクトル方式では、spread3次元ベクトルに基づいて、以下の式（１）を計算することで、spreadの値が算出される。

　なお、式（１）においてmax(a,b)は、aとbのうち大きい値を返す関数を示している。したがって、ここではs3_azimuthとs3_elevationのうちの大きい方の値がspreadの値とされることになる。

　そして、このようにして得られたspreadの値と、メタデータに含まれている位置情報とに基づいて、MPEG-H 3D Audio規格における場合と同様に１８個のspreadベクトルp1乃至spreadベクトルp18が算出される。

　したがって、メタデータに含まれている位置情報により示されるオブジェクトの位置ｐが中心位置ｐ０とされ、中心位置ｐ０を中心として単位球面上で上下左右対称になるように、１８個のspreadベクトルp1乃至spreadベクトルp18が求められる。

　また、spread3次元ベクトル方式では、原点Ｏを始点とし、中心位置ｐ０を終点とするベクトルｐ０がspreadベクトルp0とされる。

　また、各spreadベクトルは、水平方向角度azimuth、垂直方向角度elevation、および距離radiusにより表現される。以下では、特にspreadベクトルpi（但し、i＝0乃至18）の水平方向角度azimuthおよび垂直方向角度elevationを、a(i)およびe(i)と表すものとする。

　このようにしてspreadベクトルp0乃至spreadベクトルp18が得られると、その後、s3_azimuthとs3_elevationの比に基づいて、それらのspreadベクトルp1乃至spreadベクトルp18が変更（補正）され、最終的なspreadベクトルとされる。

　すなわち、s3_azimuthがs3_elevationよりも大きい場合、以下の式（２）の計算が行われ、spreadベクトルp1乃至spreadベクトルp18のそれぞれのelevationであるe(i)がe’(i)へと変更される。

　なお、spreadベクトルp0については、elevationの補正は行われない。

　これに対して、s3_azimuthがs3_elevation未満である場合、以下の式（３）の計算が行われ、spreadベクトルp1乃至spreadベクトルp18のそれぞれのazimuthであるa(i)がa’(i)へと変更される。

　なお、spreadベクトルp0については、azimuthの補正は行われない。

　以上のようにしてs3_azimuthとs3_elevationのうちの大きい方をspreadとし、spreadベクトルを求める処理は、単位球面上における音像の広がりを示す領域を、とりあえずs3_azimuthとs3_elevationのうちの大きい方の角度により定まる半径の円として、従来と同様の処理でspreadベクトルを求める処理である。

　また、その後、s3_azimuthとs3_elevationの大小関係に応じて、式（２）や式（３）によりspreadベクトルを補正する処理は、単位球面上における音像の広がりを示す領域が、spread3次元ベクトルにより指定された本来のs3_azimuthとs3_elevationにより定まる領域となるように、音像の広がりを示す領域、つまりspreadベクトルを補正する処理である。

　したがって、結局はこれらの処理は、spread3次元ベクトル、すなわちs3_azimuthとs3_elevationに基づいて、単位球面上における円形または楕円形である音像の広がりを示す領域に対するspreadベクトルを算出する処理となる。

　このようにしてspreadベクトルが得られると、その後、spreadベクトルp0乃至spreadベクトルp18が用いられて上述した処理Ｂ２、処理Ｂ３、処理Ｂ４、および処理Ｂ５’が行われて、各スピーカに供給されるオーディオ信号が生成される。

　なお、処理Ｂ２では、spreadベクトルp0乃至spreadベクトルp18の１９個の各spreadベクトルについてスピーカごとのVBAPゲインが算出される。ここで、spreadベクトルp0はベクトルｐであるから、spreadベクトルp0についてVBAPゲインを算出する処理は、処理Ｂ１を行うことであるともいうことができる。また、処理Ｂ３の後、必要に応じてVBAPゲイン加算値の量子化が行われる。

　このようにspread3次元ベクトルによって、音像の広がりを示す領域を任意の形状の領域とすることで、オブジェクトの形状や、オブジェクトの音の指向性を表現することができるようになり、レンダリングによって、より高品質な音声を得ることができる。

　また、ここではs3_azimuthとs3_elevationのうちの大きい方の値がspreadの値とされる例について説明したが、s3_azimuthとs3_elevationのうちの小さい方の値がspreadの値とされるようにしてもよい。

　この場合、s3_azimuthがs3_elevationよりも大きいときには、各spreadベクトルのazimuthであるa(i)が補正され、s3_azimuthがs3_elevation未満であるときには、各spreadベクトルのelevationであるe(i)が補正される。

　さらに、ここではspreadベクトルp0乃至spreadベクトルp18、すなわち予め定められた１９個のspreadベクトルを求め、それらのspreadベクトルについてVBAPゲインを算出する例について説明したが、算出されるspreadベクトルの個数を可変とするようにしてもよい。

　そのような場合、例えばs3_azimuthとs3_elevationの比に応じて、生成するspreadベクトルの個数が決定されるようにすることができる。このような処理によれば、例えばオブジェクトが横長で、オブジェクトの音の垂直方向への広がりが少ない場合に、垂直方向に並ぶspreadベクトルを省略し、各spreadベクトルが略横方向に並ぶようにすることで、水平方向への音の広がりを適切に表現することができるようになる。

（spread中心ベクトル方式）
　続いて、spread中心ベクトル方式について説明する。

　spread中心ベクトル方式では、ビットストリーム内に３次元ベクトルであるspread中心ベクトルが格納されて伝送される。ここでは、例えばオブジェクトごとの各オーディオ信号のフレームのメタデータに、spread中心ベクトルが格納されるとする。この場合、メタデータには、音像の広がり度合いを示すspreadも格納されている。

　spread中心ベクトルは、オブジェクトの音像の広がりを示す領域の中心位置ｐ０を示すベクトルであり、例えばspread中心ベクトルは、中心位置ｐ０の水平方向角度を示すazimuth、中心位置ｐ０の垂直方向角度を示すelevation、および中心位置ｐ０の半径方向の距離を示すradiusの３つの要素からなる３次元ベクトルとされる。

　すなわち、spread中心ベクトル＝（azimuth,elevation,radius）である。

　レンダリング処理時には、このspread中心ベクトルにより示される位置が中心位置ｐ０とされ、spreadベクトルとしてspreadベクトルp0乃至spreadベクトルp18が算出される。ここで、spreadベクトルp0は、例えば図４に示すように、原点Ｏを始点とし、中心位置ｐ０を終点とするベクトルｐ０である。なお、図４において、図３における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　また、図４では、点線で描かれた矢印がspreadベクトルを表しており、図４においても図を見やすくするためspreadベクトルが９個だけ描かれている。

　図３に示した例では、位置ｐ＝中心位置ｐ０とされていたが、図４に示す例では、中心位置ｐ０は、位置ｐとは異なる位置となっている。この例では、中心位置ｐ０を中心とする音像の広がりを示す領域Ｒ２１は、オブジェクトの位置である位置ｐに対して、図３の例よりも図中、左側にずれていることが分かる。

　このように音像の広がりを示す領域の中心位置ｐ０として、spread中心ベクトルにより任意の位置を指定することができるようにすれば、オブジェクトの音の指向性をさらに正確に表現することができるようになる。

　spread中心ベクトル方式では、spreadベクトルp0乃至spreadベクトルp18が得られると、その後、ベクトルｐについて処理Ｂ１が行われ、spreadベクトルp0乃至spreadベクトルp18について処理Ｂ２が行われる。

　なお、処理Ｂ２では、１９個の各spreadベクトルについてVBAPゲインが算出されるようにしてもよいし、spreadベクトルp0を除くspreadベクトルp1乃至spreadベクトルp18についてのみVBAPゲインが算出されるようにしてもよい。以下では、spreadベクトルp0についてもVBAPゲインが算出されるものとして説明を続ける。

　また、各ベクトルのVBAPゲインが算出されると、その後は処理Ｂ３、処理Ｂ４、および処理Ｂ５’が行われて、各スピーカに供給されるオーディオ信号が生成される。なお、処理Ｂ３の後、必要に応じてVBAPゲイン加算値の量子化が行われる。

　以上のようなspread中心ベクトル方式でも、レンダリングによって、十分に高品質な音声を得ることができる。

（spread端ベクトル方式）
　次に、spread端ベクトル方式について説明する。

　spread端ベクトル方式では、ビットストリーム内に５次元ベクトルであるspread端ベクトルが格納されて伝送される。ここでは、例えばオブジェクトごとの各オーディオ信号のフレームのメタデータに、spread端ベクトルが格納されるとする。この場合、メタデータには、音像の広がり度合いを示すspreadは格納されない。

　例えばspread端ベクトルは、オブジェクトの音像の広がりを示す領域を表すベクトルであり、spread端ベクトルは、spread左端azimuth、spread右端azimuth、spread上端elevation、spread下端elevation、およびspread用radiusの５つの要素なからなるベクトルである。

　ここで、spread端ベクトルを構成するspread左端azimuthおよびspread右端azimuthは、それぞれ音像の広がりを示す領域における、水平方向の左端および右端の絶対的な位置を示す水平方向角度azimuthの値を示している。換言すれば、spread左端azimuthおよびspread右端azimuthは、それぞれ音像の広がりを示す領域の中心位置ｐ０からの左方向および右方向への音像の広がり度合いを表す角度を示している。

　また、spread上端elevationおよびspread下端elevationは、それぞれ音像の広がりを示す領域における、垂直方向の上端および下端の絶対的な位置を示す垂直方向角度elevationの値を示している。換言すれば、spread上端elevationおよびspread下端elevationは、それぞれ音像の広がりを示す領域の中心位置ｐ０からの上方向および下方向への音像の広がり度合いを表す角度を示している。さらに、spread用radiusは、音像の半径方向の奥行きを示している。

　なお、ここではspread端ベクトルは、空間における絶対的な位置を示す情報とされているが、spread端ベクトルは、オブジェクトの位置情報により示される位置ｐに対する相対位置を示す情報とされるようにしてもよい。

　spread端ベクトル方式では、このようなspread端ベクトルが用いられてレンダリングが行われる。

　具体的には、spread端ベクトル方式では、spread端ベクトルに基づいて、以下の式（４）を計算することで、中心位置ｐ０が算出される。

　すなわち、中心位置ｐ０を示す水平方向角度azimuthは、spread左端azimuthとspread右端azimuthの中間（平均）の角度とされ、中心位置ｐ０を示す垂直方向角度elevationは、spread上端elevationとspread下端elevationの中間（平均）の角度とされる。また、中心位置ｐ０を示す距離radiusは、spread用radiusとされる。

　したがって、spread端ベクトル方式では、中心位置ｐ０は、位置情報により示されるオブジェクトの位置ｐとは異なる位置となることもある。

　また、spread端ベクトル方式では、次式（５）を計算することで、spreadの値が算出される。

　なお、式（５）においてmax(a,b)は、aとbのうち大きい値を返す関数を示している。したがって、ここではspread端ベクトルにより示されるオブジェクトの音像の広がりを示す領域における、水平方向の半径に対応する角度である(spread左端azimuth－spread右端azimuth)/2と、垂直方向の半径に対応する角度である(spread上端elevation－spread下端elevation)/2とのうちの大きい方の値がspreadの値とされることになる。

　そして、このようにして得られたspreadの値と、中心位置ｐ０（ベクトルｐ０）とに基づいて、MPEG-H 3D Audio規格における場合と同様に１８個のspreadベクトルp1乃至spreadベクトルp18が算出される。

　したがって、中心位置ｐ０を中心として単位球面上で上下左右対称になるように、１８個のspreadベクトルp1乃至spreadベクトルp18が求められる。

　また、spread端ベクトル方式では、原点Ｏを始点とし、中心位置ｐ０を終点とするベクトルｐ０がspreadベクトルp0とされる。

　spread端ベクトル方式においても、spread3次元ベクトル方式における場合と同様に、各spreadベクトルは、水平方向角度azimuth、垂直方向角度elevation、および距離radiusにより表現される。すなわち、spreadベクトルpi（但し、i＝0乃至18）の水平方向角度azimuthおよび垂直方向角度elevationが、それぞれa(i)およびe(i)とされる。

　このようにしてspreadベクトルp0乃至spreadベクトルp18が得られると、その後、(spread左端azimuth－spread右端azimuth)と(spread上端elevation－spread下端elevation)の比に基づいて、それらのspreadベクトルp1乃至spreadベクトルp18が変更（補正）され、最終的なspreadベクトルが求められる。

　すなわち、(spread左端azimuth－spread右端azimuth)が(spread上端elevation－spread下端elevation)よりも大きい場合、以下の式（６）の計算が行われ、spreadベクトルp1乃至spreadベクトルp18のそれぞれのelevationであるe(i)がe’(i)へと変更される。

　これに対して、(spread左端azimuth－spread右端azimuth)が(spread上端elevation－spread下端elevation)未満である場合、以下の式（７）の計算が行われ、spreadベクトルp1乃至spreadベクトルp18のそれぞれのazimuthであるa(i)がa’(i)へと変更される。

　以上において説明したspreadベクトルの算出方法は、基本的にはspread3次元ベクトル方式における場合と同様である。

　したがって、結局はこれらの処理は、spread端ベクトルに基づいて、そのspread端ベクトルにより定まる単位球面上における円形または楕円形である音像の広がりを示す領域に対するspreadベクトルを算出する処理となる。

　このようにしてspreadベクトルが得られると、その後、ベクトルｐと、spreadベクトルp0乃至spreadベクトルp18とが用いられて上述した処理Ｂ１、処理Ｂ２、処理Ｂ３、処理Ｂ４、および処理Ｂ５’が行われて、各スピーカに供給されるオーディオ信号が生成される。

　なお、処理Ｂ２では、１９個の各spreadベクトルについてスピーカごとのVBAPゲインが算出される。また、処理Ｂ３の後、必要に応じてVBAPゲイン加算値の量子化が行われる。

　このようにspread端ベクトルによって、音像の広がりを示す領域を、任意の位置を中心位置ｐ０とする任意の形状の領域とすることで、オブジェクトの形状や、オブジェクトの音の指向性を表現することができるようになり、レンダリングによって、より高品質な音声を得ることができる。

　また、ここでは(spread左端azimuth－spread右端azimuth)/2と(spread上端elevation－spread下端elevation)/2のうちの大きい方の値がspreadの値とされる例について説明したが、それらのうちの小さい方の値がspreadの値とされるようにしてもよい。

　さらに、ここではspreadベクトルp0についてVBAPゲインを算出する場合を例として説明したが、spreadベクトルp0についてはVBAPゲインを算出しないようにしてもよい。以下では、spreadベクトルp0についてもVBAPゲインが算出されるものとして説明を続ける。

　また、spread3次元ベクトル方式における場合と同様に、例えば(spread左端azimuth－spread右端azimuth)と(spread上端elevation－spread下端elevation)の比に応じて、生成するspreadベクトルの個数が決定されるようにしてもよい。

（spread放射ベクトル方式）
　また、spread放射ベクトル方式について説明する。

　spread放射ベクトル方式では、ビットストリーム内に３次元ベクトルであるspread放射ベクトルが格納されて伝送される。ここでは、例えばオブジェクトごとの各オーディオ信号のフレームのメタデータに、spread放射ベクトルが格納されるとする。この場合、メタデータには、音像の広がり度合いを示すspreadも格納されている。

　spread放射ベクトルは、オブジェクトの位置ｐに対する、オブジェクトの音像の広がりを示す領域の中心位置ｐ０の相対的な位置を示すベクトルである。例えばspread放射ベクトルは、位置ｐから見た、中心位置ｐ０までの水平方向角度を示すazimuth、中心位置ｐ０までの垂直方向角度を示すelevation、および中心位置ｐ０の半径方向の距離を示すradiusの３つの要素からなる３次元ベクトルとされる。

　すなわち、spread放射ベクトル＝（azimuth,elevation,radius）である。

　レンダリング処理時には、このspread放射ベクトルとベクトルｐを加算して得られるベクトルにより示される位置が中心位置ｐ０とされ、spreadベクトルとしてspreadベクトルp0乃至spreadベクトルp18が算出される。ここで、spreadベクトルp0は、例えば図５に示すように、原点Ｏを始点とし、中心位置ｐ０を終点とするベクトルｐ０である。なお、図５において、図３における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　また、図５では、点線で描かれた矢印がspreadベクトルを表しており、図５においても図を見やすくするためspreadベクトルが９個だけ描かれている。

　図３に示した例では、位置ｐ＝中心位置ｐ０とされていたが、図５に示す例では、中心位置ｐ０は、位置ｐとは異なる位置となっている。この例では、ベクトルｐと、矢印Ｂ１１により示されるspread放射ベクトルとをベクトル加算して得られるベクトルの終点位置が中心位置ｐ０となっている。

　また、中心位置ｐ０を中心とする音像の広がりを示す領域Ｒ３１は、オブジェクトの位置である位置ｐに対して、図３の例よりも図中、左側にずれていることが分かる。

　このように音像の広がりを示す領域の中心位置ｐ０として、spread放射ベクトルと位置ｐを用いて任意の位置を指定することができるようにすれば、オブジェクトの音の指向性をさらに正確に表現することができるようになる。

　spread放射ベクトル方式では、spreadベクトルp0乃至spreadベクトルp18が得られると、その後、ベクトルｐについて処理Ｂ１が行われ、spreadベクトルp0乃至spreadベクトルp18について処理Ｂ２が行われる。

　以上のようなspread放射ベクトル方式でも、レンダリングによって、十分に高品質な音声を得ることができる。

（任意spreadベクトル方式）
　次に、任意spreadベクトル方式について説明する。

　任意spreadベクトル方式では、ビットストリーム内にVBAPゲインを算出するspreadベクトルの数を示すspreadベクトル数情報と、各spreadベクトルの終点位置を示すspreadベクトル位置情報とが格納されて伝送される。ここでは、例えばオブジェクトごとの各オーディオ信号のフレームのメタデータに、spreadベクトル数情報とspreadベクトル位置情報とが格納されるとする。この場合、メタデータには、音像の広がり度合いを示すspreadは格納されない。

　レンダリング処理時には、各spreadベクトル位置情報に基づいて、原点Ｏを始点とし、spreadベクトル位置情報により示される位置を終点とするベクトルがspreadベクトルとして算出される。

　その後、ベクトルｐについて処理Ｂ１が行われ、各spreadベクトルについて処理Ｂ２が行われる。また、各ベクトルのVBAPゲインが算出されると、その後は処理Ｂ３、処理Ｂ４、および処理Ｂ５’が行われて、各スピーカに供給されるオーディオ信号が生成される。なお、処理Ｂ３の後、必要に応じてVBAPゲイン加算値の量子化が行われる。

　以上のような任意spreadベクトル方式では、任意に音像を広げる範囲とその形状を指定することが可能であるので、レンダリングによって、十分に高品質な音声を得ることができる。

〈処理の切り替えについて〉
　本技術では、レンダラのハード規模等に応じてレンダリング時の処理として適切な処理を選択し、許容される処理量の範囲で最も高い品質の音声を得ることができるようにした。

　すなわち、本技術では、複数の処理の切り替えを可能にするため、処理を切り替えるためのインデックスがビットストリームに格納されて符号化装置から復号装置へと伝送される。すなわち、処理を切り替えるためのインデックスindexがビットストリームシンタックスに追加される。

　例えばインデックスindexの値に応じて、以下のような処理が行われる。

　すなわち、インデックスindex＝0であるときには、復号装置、より詳細には復号装置内のレンダラでは、従来のMPEG-H 3D Audio規格における場合と同様のレンダリングが行われる。

　また、例えばインデックスindex＝1であるときには、従来のMPEG-H 3D Audio規格における１８個の各spreadベクトルを示すインデックスの組み合わせのうち、所定の組み合わせの各インデックスがビットストリームに格納されて送信される。この場合、レンダラでは、ビットストリームに格納されて伝送されてきた各インデックスにより示されるspreadベクトルについてVBAPゲインが算出される。

　さらに、例えばインデックスindex＝2であるときには、処理に用いるspreadベクトルの数を示す情報と、処理に用いるspreadベクトルが、従来のMPEG-H 3D Audio規格における１８個のspreadベクトルのうちのどのspreadベクトルかを示すインデックスとがビットストリームに格納されて送信される。

　また、例えばインデックスindex＝3であるときには、上述した任意spreadベクトル方式でレンダリング処理が行われ、例えばインデックスindex＝4であるときには、レンダリング処理において上述したVBAPゲイン加算値の２値化が行われる。さらに、例えばインデックスindex＝5であるときには、上述したspread中心ベクトル方式でレンダリング処理が行われるなどとされる。

　また、符号化装置において処理を切り替えるためのインデックスindexを指定するのではなく、復号装置内のレンダラにおいて、処理が選択されるようにしてもよい。

　そのような場合、例えばオブジェクトのメタデータに含まれている重要度情報に基づいて、処理を切り替えることが考えられる。具体的には、例えば重要度情報により示される重要度が高い（所定値以上である）オブジェクトに対しては、上述したインデックスindex＝0により示される処理が行われ、重要度情報により示される重要度が低い（所定値未満である）オブジェクトに対しては、上述したインデックスindex＝4により示される処理が行われるなどとすることができる。

　このように、適宜、レンダリング時の処理を切り替えることで、レンダラのハード規模等に応じて、許容される処理量の範囲で最も高い品質の音声を得ることができる。

〈音声処理装置の構成例〉
　続いて、以上において説明した本技術のより具体的な実施の形態について説明する。

　図６は、本技術を適用した音声処理装置の構成例を示す図である。

　図６に示す音声処理装置１１には、Ｍ個の各チャンネルに対応するスピーカ１２－１乃至スピーカ１２－Ｍが接続されている。音声処理装置１１は、外部から供給されたオブジェクトのオーディオ信号とメタデータに基づいて、各チャンネルのオーディオ信号を生成し、それらのオーディオ信号をスピーカ１２－１乃至スピーカ１２－Ｍに供給して音声を再生させる。

　なお、以下、スピーカ１２－１乃至スピーカ１２－Ｍを特に区別する必要のない場合、単にスピーカ１２とも称することとする。これらのスピーカ１２は、供給されたオーディオ信号に基づいて音声を出力する音声出力部である。

　スピーカ１２は、コンテンツ等を視聴するユーザを囲むように配置されている。例えば、各スピーカ１２は、上述した単位球面上に配置されている。

　音声処理装置１１は、取得部２１、ベクトル算出部２２、ゲイン算出部２３、およびゲイン調整部２４を有している。

　取得部２１は、外部からオブジェクトのオーディオ信号と、各オブジェクトのオーディオ信号のフレームごとのメタデータとを取得する。例えばオーディオ信号およびメタデータは、符号化装置から出力されたビットストリームに含まれている符号化オーディオデータおよび符号化メタデータを、復号装置で復号することで得られたものである。

　取得部２１は、取得したオーディオ信号をゲイン調整部２４に供給するとともに、取得したメタデータをベクトル算出部２２に供給する。ここで、メタデータには、例えばオブジェクトの位置を示す位置情報や、オブジェクトの重要度を示す重要度情報、オブジェクトの音像の広がり度合いを示すspreadなどが必要に応じて含まれている。

　ベクトル算出部２２は、取得部２１から供給されたメタデータに基づいてspreadベクトルを算出してゲイン算出部２３に供給する。また、ベクトル算出部２２は、必要に応じて、メタデータに含まれる位置情報により示されるオブジェクトの位置ｐ、すなわち位置ｐを示すベクトルｐもゲイン算出部２３に供給する。

　ゲイン算出部２３は、ベクトル算出部２２から供給されたspreadベクトルやベクトルｐに基づいて、VBAPにより各チャンネルに対応するスピーカ１２のVBAPゲインを算出し、ゲイン調整部２４に供給する。また、ゲイン算出部２３は、各スピーカのVBAPゲインを量子化する量子化部３１を備えている。

　ゲイン調整部２４は、ゲイン算出部２３から供給された各VBAPゲインに基づいて、取得部２１から供給されたオブジェクトのオーディオ信号に対するゲイン調整を行なって、その結果得られたＭ個の各チャンネルのオーディオ信号をスピーカ１２に供給する。

　ゲイン調整部２４は、増幅部３２－１乃至増幅部３２－Ｍを備えている。増幅部３２－１乃至増幅部３２－Ｍは、取得部２１から供給されたオーディオ信号に、ゲイン算出部２３から供給されたVBAPゲインを乗算し、その結果得られたオーディオ信号をスピーカ１２－１乃至スピーカ１２－Ｍに供給して、音声を再生させる。

　なお、以下、増幅部３２－１乃至増幅部３２－Ｍを特に区別する必要がない場合、単に増幅部３２とも称する。

〈再生処理の説明〉
　続いて、図６に示した音声処理装置１１の動作について説明する。

　音声処理装置１１は、外部からオブジェクトのオーディオ信号とメタデータが供給されると、再生処理を行ってオブジェクトの音声を再生させる。

　以下、図７のフローチャートを参照して、音声処理装置１１による再生処理について説明する。なお、この再生処理は、オーディオ信号のフレームごとに行われる。

　ステップＳ１１において、取得部２１は、外部からオブジェクトの１フレーム分のオーディオ信号およびメタデータを取得して、オーディオ信号を増幅部３２に供給するとともに、メタデータをベクトル算出部２２に供給する。

　ステップＳ１２において、ベクトル算出部２２は、取得部２１から供給されたメタデータに基づいてspreadベクトル算出処理を行い、その結果得られたspreadベクトルをゲイン算出部２３に供給する。また、ベクトル算出部２２は、必要に応じてベクトルｐもゲイン算出部２３に供給する。

　なお、spreadベクトル算出処理の詳細は、後述するが、このspreadベクトル算出処理では、上述したspread3次元ベクトル方式、spread中心ベクトル方式、spread端ベクトル方式、spread放射ベクトル方式、または任意spreadベクトル方式によりspreadベクトルが算出される。

　ステップＳ１３において、ゲイン算出部２３は、予め保持している各スピーカ１２の配置位置を示す配置位置情報と、ベクトル算出部２２から供給されたspreadベクトルおよびベクトルｐとに基づいて、各スピーカ１２のVBAPゲインを算出する。

　すなわち、spreadベクトルやベクトルｐの各ベクトルについて、各スピーカ１２のVBAPゲインが算出される。これにより、spreadベクトルやベクトルｐといったベクトルごとに、オブジェクトの位置近傍、より詳細にはベクトルにより示される位置近傍に位置する１以上のスピーカ１２のVBAPゲインが得られる。なお、spreadベクトルのVBAPゲインは必ず算出されるが、ステップＳ１２の処理によって、ベクトル算出部２２からゲイン算出部２３にベクトルｐが供給されなかった場合には、ベクトルｐのVBAPゲインは算出されない。

　ステップＳ１４において、ゲイン算出部２３は、スピーカ１２ごとに、各ベクトルについて算出したVBAPゲインを加算してVBAPゲイン加算値を算出する。すなわち、同じスピーカ１２について算出された各ベクトルのVBAPゲインの加算値（総和）がVBAPゲイン加算値として算出される。

　ステップＳ１５において、量子化部３１は、VBAPゲイン加算値の２値化を行うか否かを判定する。

　例えば２値化を行うか否かは、上述したインデックスindexに基づいて判定されてもよいし、メタデータとしての重要度情報により示されるオブジェクトの重要度に基づいて判定されるようにしてもよい。

　インデックスindexに基づいて判定が行われる場合には、例えばビットストリームから読み出されたインデックスindexがゲイン算出部２３に供給されるようにすればよい。また、重要度情報に基づいて判定が行われる場合には、ベクトル算出部２２からゲイン算出部２３に重要度情報が供給されるようにすればよい。

　ステップＳ１５において２値化を行うと判定された場合、ステップＳ１６において、量子化部３１は、スピーカ１２ごとに求められたVBAPゲインの加算値、つまりVBAPゲイン加算値を２値化して、その後、処理はステップＳ１７へと進む。

　これに対して、ステップＳ１５において２値化を行わないと判定された場合には、ステップＳ１６の処理はスキップされ、処理はステップＳ１７へと進む。

　ステップＳ１７において、ゲイン算出部２３は、全てのスピーカ１２のVBAPゲインの２乗和が１となるように、各スピーカ１２のVBAPゲインを正規化する。

　すなわち、スピーカ１２ごとに求めたVBAPゲインの加算値について、それら全ての加算値の２乗和が１となるように正規化が行われる。ゲイン算出部２３は、正規化により得られた各スピーカ１２のVBAPゲインを、それらのスピーカ１２に対応する増幅部３２に供給する。

　ステップＳ１８において、増幅部３２は、取得部２１から供給されたオーディオ信号に、ゲイン算出部２３から供給されたVBAPゲインを乗算し、スピーカ１２に供給する。

　そして、ステップＳ１９において増幅部３２は、供給したオーディオ信号に基づいてスピーカ１２に音声を再生させて再生処理は終了する。これにより、再生空間における所望の部分空間にオブジェクトの音像が定位する。

　以上のようにして音声処理装置１１は、メタデータに基づいてspreadベクトルを算出し、スピーカ１２ごとに各ベクトルのVBAPゲインを算出するとともに、それらのスピーカ１２ごとにVBAPゲインの加算値を求めて正規化する。このようにspreadベクトルについてVBAPゲインを算出することで、オブジェクトの音像の広がり、特にオブジェクトの形状や音の指向性を表現することができ、より高品質な音声を得ることができる。

　しかも、必要に応じてVBAPゲインの加算値を２値化することで、レンダリング時の処理量を削減することができるだけでなく、音声処理装置１１の処理能力（ハード規模）に応じて適切な処理を行い、可能な限り高品質な音声を得ることができる。

〈spreadベクトル算出処理の説明〉
　ここで、図８のフローチャートを参照して、図７のステップＳ１２の処理に対応するspreadベクトル算出処理について説明する。

　ステップＳ４１において、ベクトル算出部２２は、spread3次元ベクトルに基づいてspreadベクトルを算出するか否かを判定する。

　例えば、どのような方法によりspreadベクトルを算出するかは、図７のステップＳ１５における場合と同様に、インデックスindexに基づいて判定されてもよいし、重要度情報により示されるオブジェクトの重要度に基づいて判定されるようにしてもよい。

　ステップＳ４１において、spread3次元ベクトルに基づいてspreadベクトルを算出すると判定された場合、つまり、spread3次元ベクトル方式によりspreadベクトルを算出すると判定された場合、処理はステップＳ４２に進む。

　ステップＳ４２において、ベクトル算出部２２は、spread3次元ベクトルに基づくspreadベクトル算出処理を行って、得られたベクトルをゲイン算出部２３に供給する。なお、spread3次元ベクトルに基づくspreadベクトル算出処理の詳細は後述する。

　spreadベクトルが算出されると、spreadベクトル算出処理は終了し、その後、処理は図７のステップＳ１３へと進む。

　これに対して、ステップＳ４１においてspread3次元ベクトルに基づいてspreadベクトルを算出しないと判定された場合、処理はステップＳ４３へと進む。

　ステップＳ４３において、ベクトル算出部２２は、spread中心ベクトルに基づいてspreadベクトルを算出するか否かを判定する。

　ステップＳ４３において、spread中心ベクトルに基づいてspreadベクトルを算出すると判定された場合、つまり、spread中心ベクトル方式によりspreadベクトルを算出すると判定された場合、処理はステップＳ４４に進む。

　ステップＳ４４において、ベクトル算出部２２は、spread中心ベクトルに基づくspreadベクトル算出処理を行って、得られたベクトルをゲイン算出部２３に供給する。なお、spread中心ベクトルに基づくspreadベクトル算出処理の詳細は後述する。

　一方、ステップＳ４３においてspread中心ベクトルに基づいてspreadベクトルを算出しないと判定された場合、処理はステップＳ４５へと進む。

　ステップＳ４５において、ベクトル算出部２２は、spread端ベクトルに基づいてspreadベクトルを算出するか否かを判定する。

　ステップＳ４５において、spread端ベクトルに基づいてspreadベクトルを算出すると判定された場合、つまり、spread端ベクトル方式によりspreadベクトルを算出すると判定された場合、処理はステップＳ４６に進む。

　ステップＳ４６において、ベクトル算出部２２は、spread端ベクトルに基づくspreadベクトル算出処理を行って、得られたベクトルをゲイン算出部２３に供給する。なお、spread端ベクトルに基づくspreadベクトル算出処理の詳細は後述する。

　また、ステップＳ４５においてspread端ベクトルに基づいてspreadベクトルを算出しないと判定された場合、処理はステップＳ４７へと進む。

　ステップＳ４７において、ベクトル算出部２２は、spread放射ベクトルに基づいてspreadベクトルを算出するか否かを判定する。

　ステップＳ４７において、spread放射ベクトルに基づいてspreadベクトルを算出すると判定された場合、つまり、spread放射ベクトル方式によりspreadベクトルを算出すると判定された場合、処理はステップＳ４８に進む。

　ステップＳ４８において、ベクトル算出部２２は、spread放射ベクトルに基づくspreadベクトル算出処理を行って、得られたベクトルをゲイン算出部２３に供給する。なお、spread放射ベクトルに基づくspreadベクトル算出処理の詳細は後述する。

　また、ステップＳ４７においてspread放射ベクトルに基づいてspreadベクトルを算出しないと判定された場合、つまり任意spreadベクトル方式によりspreadベクトルを算出すると判定された場合、処理はステップＳ４９へと進む。

　ステップＳ４９において、ベクトル算出部２２は、spreadベクトル位置情報に基づくspreadベクトル算出処理を行って、得られたベクトルをゲイン算出部２３に供給する。なお、spreadベクトル位置情報に基づくspreadベクトル算出処理の詳細は後述する。

　以上のようにして音声処理装置１１は、複数の方式のうちの適切な方式によりspreadベクトルを算出する。このように適切な方式によりspreadベクトルを算出することで、レンダラのハード規模等に応じて、許容される処理量の範囲で最も高い品質の音声を得ることができる。

〈spread3次元ベクトルに基づくspreadベクトル算出処理の説明〉
　次に、図８を参照して説明したステップＳ４２、ステップＳ４４、ステップＳ４６、ステップＳ４８、およびステップＳ４９の各処理に対応する処理の詳細について説明する。

　まず、図９のフローチャートを参照して、図８のステップＳ４２に対応するspread3次元ベクトルに基づくspreadベクトル算出処理について説明する。

　ステップＳ８１において、ベクトル算出部２２は、取得部２１から供給されたメタデータに含まれる位置情報により示される位置を、オブジェクト位置ｐとする。すなわち、位置ｐを示すベクトルがベクトルｐとされる。

　ステップＳ８２において、ベクトル算出部２２は、取得部２１から供給されたメタデータに含まれるspread3次元ベクトルに基づいてspreadを算出する。具体的には、ベクトル算出部２２は上述した式（１）を計算することで、spreadを算出する。

　ステップＳ８３において、ベクトル算出部２２は、ベクトルｐとspreadに基づいて、spreadベクトルp0乃至spreadベクトルp18を算出する。

　ここでは、ベクトルｐが中心位置ｐ０を示すベクトルｐ０とされるとともに、ベクトルｐがそのままspreadベクトルp0とされる。また、spreadベクトルp1乃至spreadベクトルp18については、MPEG-H 3D Audio規格における場合と同様に、中心位置ｐ０を中心とする、単位球面上のspreadに示される角度により定まる領域内において、上下左右対称になるように各spreadベクトルが算出される。

　ステップＳ８４において、ベクトル算出部２２は、spread3次元ベクトルに基づいて、s3_azimuth≧s3_elevationであるか否か、すなわちs3_azimuthがs3_elevationよりも大きいか否かを判定する。

　ステップＳ８４においてs3_azimuth≧s3_elevationであると判定された場合、ステップＳ８５において、ベクトル算出部２２は、spreadベクトルp1乃至spreadベクトルp18のelevationを変更する。すなわち、ベクトル算出部２２は、上述した式（２）の計算を行って、各spreadベクトルのelevationを補正して、最終的なspreadベクトルとする。

　最終的なspreadベクトルが得られると、ベクトル算出部２２は、それらのspreadベクトルp0乃至spreadベクトルp18をゲイン算出部２３に供給し、spread3次元ベクトルに基づくspreadベクトル算出処理は終了する。すると、図８のステップＳ４２の処理が終了するので、その後、処理は図７のステップＳ１３へと進む。

　これに対して、ステップＳ８４においてs3_azimuth≧s3_elevationでないと判定された場合、ステップＳ８６において、ベクトル算出部２２は、spreadベクトルp1乃至spreadベクトルp18のazimuthを変更する。すなわち、ベクトル算出部２２は、上述した式（３）の計算を行って、各spreadベクトルのazimuthを補正して、最終的なspreadベクトルとする。

　以上のようにして音声処理装置１１は、spread3次元ベクトル方式により各spreadベクトルを算出する。これにより、オブジェクトの形状や、オブジェクトの音の指向性を表現することができるようになり、より高品質な音声を得ることができる。

〈spread中心ベクトルに基づくspreadベクトル算出処理の説明〉
　次に、図１０のフローチャートを参照して、図８のステップＳ４４に対応するspread中心ベクトルに基づくspreadベクトル算出処理について説明する。

　なお、ステップＳ１１１の処理は、図９のステップＳ８１の処理と同様であるので、その説明は省略する。

　ステップＳ１１２において、ベクトル算出部２２は、取得部２１から供給されたメタデータに含まれるspread中心ベクトルとspreadに基づいて、spreadベクトルp0乃至spreadベクトルp18を算出する。

　具体的には、ベクトル算出部２２は、spread中心ベクトルにより示される位置を中心位置ｐ０とし、その中心位置ｐ０を示すベクトルをspreadベクトルp0とする。また、ベクトル算出部２２は、中心位置ｐ０を中心とする、単位球面上のspreadに示される角度により定まる領域内において、上下左右対称になるようにspreadベクトルp1乃至spreadベクトルp18を求める。これらのspreadベクトルp1乃至spreadベクトルp18は、基本的にはMPEG-H 3D Audio規格における場合と同様にして求められる。

　ベクトル算出部２２は、以上の処理により得られたベクトルｐと、spreadベクトルp0乃至spreadベクトルp18とをゲイン算出部２３に供給し、spread中心ベクトルに基づくspreadベクトル算出処理は終了する。すると、図８のステップＳ４４の処理が終了するので、その後、処理は図７のステップＳ１３へと進む。

　以上のようにして音声処理装置１１は、spread中心ベクトル方式によりベクトルｐと各spreadベクトルを算出する。これにより、オブジェクトの形状や、オブジェクトの音の指向性を表現することができるようになり、より高品質な音声を得ることができる。

　なお、spread中心ベクトルに基づくspreadベクトル算出処理では、spreadベクトルp0はゲイン算出部２３に供給しないようにしてもよい。つまり、spreadベクトルp0についてはVBAPゲインを算出しないようにしてもよい。

〈spread端ベクトルに基づくspreadベクトル算出処理の説明〉
　さらに、図１１のフローチャートを参照して、図８のステップＳ４６に対応するspread端ベクトルに基づくspreadベクトル算出処理について説明する。

　なお、ステップＳ１４１の処理は、図９のステップＳ８１の処理と同様であるので、その説明は省略する。

　ステップＳ１４２において、ベクトル算出部２２は、取得部２１から供給されたメタデータに含まれるspread端ベクトルに基づいて中心位置ｐ０、すなわちベクトルｐ０を算出する。具体的には、ベクトル算出部２２は、上述した式（４）を計算することで中心位置ｐ０を算出する。

　ステップＳ１４３において、ベクトル算出部２２はspread端ベクトルに基づいてspreadを算出する。具体的には、ベクトル算出部２２は上述した式（５）を計算することで、spreadを算出する。

　ステップＳ１４４において、ベクトル算出部２２は、中心位置ｐ０とspreadに基づいて、spreadベクトルp0乃至spreadベクトルp18を算出する。

　ここでは、中心位置ｐ０を示すベクトルｐ０がそのままspreadベクトルp0とされる。また、spreadベクトルp1乃至spreadベクトルp18については、MPEG-H 3D Audio規格における場合と同様に、中心位置ｐ０を中心とする、単位球面上のspreadに示される角度により定まる領域内において、上下左右対称になるように各spreadベクトルが算出される。

　ステップＳ１４５において、ベクトル算出部２２は、(spread左端azimuth－spread右端azimuth)≧(spread上端elevation－spread下端elevation)であるか否か、すなわち(spread左端azimuth－spread右端azimuth)が(spread上端elevation－spread下端elevation)よりも大きいか否かを判定する。

　ステップＳ１４５において(spread左端azimuth－spread右端azimuth)≧(spread上端elevation－spread下端elevation)であると判定された場合、ステップＳ１４６において、ベクトル算出部２２は、spreadベクトルp1乃至spreadベクトルp18のelevationを変更する。すなわち、ベクトル算出部２２は、上述した式（６）の計算を行って、各spreadベクトルのelevationを補正して、最終的なspreadベクトルとする。

　最終的なspreadベクトルが得られると、ベクトル算出部２２は、それらのspreadベクトルp0乃至spreadベクトルp18とベクトルｐとをゲイン算出部２３に供給し、spread端ベクトルに基づくspreadベクトル算出処理は終了する。すると、図８のステップＳ４６の処理が終了するので、その後、処理は図７のステップＳ１３へと進む。

　これに対して、ステップＳ１４５において(spread左端azimuth－spread右端azimuth)≧(spread上端elevation－spread下端elevation)でないと判定された場合、ステップＳ１４７において、ベクトル算出部２２は、spreadベクトルp1乃至spreadベクトルp18のazimuthを変更する。すなわち、ベクトル算出部２２は、上述した式（７）の計算を行って、各spreadベクトルのazimuthを補正して、最終的なspreadベクトルとする。

　以上のようにして音声処理装置１１は、spread端ベクトル方式により各spreadベクトルを算出する。これにより、オブジェクトの形状や、オブジェクトの音の指向性を表現することができるようになり、より高品質な音声を得ることができる。

　なお、spread端ベクトルに基づくspreadベクトル算出処理では、spreadベクトルp0はゲイン算出部２３に供給しないようにしてもよい。つまり、spreadベクトルp0についてはVBAPゲインを算出しないようにしてもよい。

〈spread放射ベクトルに基づくspreadベクトル算出処理の説明〉
　次に、図１２のフローチャートを参照して、図８のステップＳ４８に対応するspread放射ベクトルに基づくspreadベクトル算出処理について説明する。

　なお、ステップＳ１７１の処理は、図９のステップＳ８１の処理と同様であるので、その説明は省略する。

　ステップＳ１７２において、ベクトル算出部２２は、オブジェクト位置ｐと、取得部２１から供給されたメタデータに含まれるspread放射ベクトルおよびspreadとに基づいて、spreadベクトルp0乃至spreadベクトルp18を算出する。

　具体的には、ベクトル算出部２２は、オブジェクト位置ｐを示すベクトルｐとspread放射ベクトルとを加算して得られるベクトルにより示される位置を中心位置ｐ０とする。この中心位置ｐ０を示すベクトルがベクトルｐ０であり、ベクトル算出部２２は、ベクトルｐ０をそのままspreadベクトルp0とする。

　また、ベクトル算出部２２は、中心位置ｐ０を中心とする、単位球面上のspreadに示される角度により定まる領域内において、上下左右対称になるようにspreadベクトルp1乃至spreadベクトルp18を求める。これらのspreadベクトルp1乃至spreadベクトルp18は、基本的にはMPEG-H 3D Audio規格における場合と同様にして求められる。

　ベクトル算出部２２は、以上の処理により得られたベクトルｐと、spreadベクトルp0乃至spreadベクトルp18とをゲイン算出部２３に供給し、spread放射ベクトルに基づくspreadベクトル算出処理は終了する。すると、図８のステップＳ４８の処理が終了するので、その後、処理は図７のステップＳ１３へと進む。

　以上のようにして音声処理装置１１は、spread放射ベクトル方式によりベクトルｐと各spreadベクトルを算出する。これにより、オブジェクトの形状や、オブジェクトの音の指向性を表現することができるようになり、より高品質な音声を得ることができる。

　なお、spread放射ベクトルに基づくspreadベクトル算出処理では、spreadベクトルp0はゲイン算出部２３に供給しないようにしてもよい。つまり、spreadベクトルp0についてはVBAPゲインを算出しないようにしてもよい。

〈spreadベクトル位置情報に基づくspreadベクトル算出処理の説明〉
　次に、図１３のフローチャートを参照して、図８のステップＳ４９に対応するspreadベクトル位置情報に基づくspreadベクトル算出処理について説明する。

　なお、ステップＳ２０１の処理は、図９のステップＳ８１の処理と同様であるので、その説明は省略する。

　ステップＳ２０２において、ベクトル算出部２２は、取得部２１から供給されたメタデータに含まれるspreadベクトル数情報とspreadベクトル位置情報に基づいて、spreadベクトルを算出する。

　具体的には、ベクトル算出部２２は、原点Ｏを始点とし、spreadベクトル位置情報により示される位置を終点とするベクトルをspreadベクトルとして算出する。ここでは、spreadベクトル数情報により示される数だけspreadベクトルが算出される。

　ベクトル算出部２２は、以上の処理により得られたベクトルｐと、spreadベクトルとをゲイン算出部２３に供給し、spreadベクトル位置情報に基づくspreadベクトル算出処理は終了する。すると、図８のステップＳ４９の処理が終了するので、その後、処理は図７のステップＳ１３へと進む。

　以上のようにして音声処理装置１１は、任意spreadベクトル方式によりベクトルｐと各spreadベクトルを算出する。これにより、オブジェクトの形状や、オブジェクトの音の指向性を表現することができるようになり、より高品質な音声を得ることができる。

〈第２の実施の形態〉
〈レンダリング処理の処理量削減について〉
　ところで、上述したように、複数のスピーカを用いて音像の定位を制御する、すなわちレンダリング処理を行う技術としてVBAPが知られている。

　VBAPでは、３つのスピーカから音を出力することで、それらの３つのスピーカで構成される三角形の内側の任意の一点に音像を定位させることができる。以下では、特に、このような３つのスピーカで構成される三角形をメッシュと呼ぶこととする。

　VBAPによるレンダリング処理は、オブジェクトごとに行われるため、例えばゲームなど、オブジェクトの数が多い場合には、レンダリング処理の処理量が多くなってしまう。そのため、ハード規模の小さいレンダラでは、全てのオブジェクトについてレンダリングすることができず、その結果、限られた数のオブジェクトの音しか再生されないことがある。そうすると、音声再生時に臨場感や音質が損なわれてしまうことがある。

　そこで、本技術では、臨場感や音質の劣化を抑制しつつレンダリング処理の処理量を低減させることができるようにした。

　以下、このような本技術について説明する。

　通常のVBAP処理、つまりレンダリング処理では、オブジェクトごとに上述した処理Ａ１乃至処理Ａ３の処理が行われて、各スピーカのオーディオ信号が生成される。

　実質的にVBAPゲインが算出されるスピーカの数は３つであり、各スピーカのVBAPゲインはオーディオ信号を構成するサンプルごとに算出されるので、処理Ａ３における乗算処理では、（オーディオ信号のサンプル数×３）回の乗算が行われることになる。

　これに対して本技術では、VBAPゲインに対する等ゲイン処理、つまりVBAPゲインの量子化処理、およびVBAPゲイン算出時に用いるメッシュ数を変更するメッシュ数切り替え処理を、適宜組み合わせて行うことでレンダリング処理の処理量を低減するようにした。

（量子化処理）
　まず、量子化処理について説明する。ここでは、量子化処理の例として、２値化処理と３値化処理について説明する。

　量子化処理として２値化処理が行われる場合、処理Ａ１が行われた後、その処理Ａ１により各スピーカについて得られたVBAPゲインが２値化される。２値化では、例えば各スピーカのVBAPゲインが０または１の何れかの値とされる。

　なお、VBAPゲインを２値化する方法は、例えば四捨五入、シーリング（切り上げ）、フロアリング（切り捨て）、閾値処理など、どのような方法であってもよい。

　このようにしてVBAPゲインが２値化されると、その後は処理Ａ２および処理Ａ３が行われて、各スピーカのオーディオ信号が生成される。

　このとき、処理Ａ２では、２値化されたVBAPゲインに基づいて正規化が行われるので、上述したspreadベクトルの量子化時と同じように、各スピーカの最終的なVBAPゲインは、０を除くと１通りとなる。すなわち、VBAPゲインを２値化すると、各スピーカの最終的なVBAPゲインの値は０か、または所定値の何れかとなる。

　したがって、処理Ａ３における乗算処理では、（オーディオ信号のサンプル数×１）回の乗算を行なえばよいので、レンダリング処理の処理量を大幅に削減することができる。

　同様に、処理Ａ１後、各スピーカについて得られたVBAPゲインを３値化するようにしてもよい。そのような場合には、処理Ａ１により各スピーカについて得られたVBAPゲインが３値化されて０、０．５、または１の何れかの値とされる。そして、その後は、処理Ａ２および処理Ａ３が行われて、各スピーカのオーディオ信号が生成される。

　したがって、処理Ａ３における乗算処理での乗算回数は、最大で（オーディオ信号のサンプル数×２）回となるので、レンダリング処理の処理量を大幅に削減することができる。

　なお、ここではVBAPゲインを２値化または３値化する場合を例として説明するが、VBAPゲインを４以上の値に量子化するようにしてもよい。一般化すれば、例えばVBAPゲインを２以上のｘ個のゲインの何れかとなるように量子化すると、つまりVBAPゲインを量子化数ｘで量子化すると、処理Ａ３における乗算処理の回数は最大で（ｘ－１）回となる。

　以上のようにVBAPゲインを量子化することで、レンダリング処理の処理量を低減させることができる。このようにレンダリング処理の処理量が少なくなれば、オブジェクト数が多い場合であっても全てのオブジェクトのレンダリングを行うことが可能となるので、音声再生時における臨場感や音質の劣化を小さく抑えることができる。すなわち、臨場感や音質の劣化を抑制しつつレンダリング処理の処理量を低減させることができる。

（メッシュ数切り替え処理）
　次に、メッシュ数切り替え処理について説明する。

　VBAPでは、例えば図１を参照して説明したように、処理対象のオブジェクトの音像の位置ｐを示すベクトルｐが、３つのスピーカＳＰ１乃至スピーカＳＰ３の方向を向くベクトルｌ₁乃至ベクトルｌ₃の線形和で表され、それらのベクトルに乗算されている係数ｇ₁乃至係数ｇ₃が各スピーカのVBAPゲインとされる。図１の例では、スピーカＳＰ１乃至スピーカＳＰ３により囲まれる三角形の領域ＴＲ１１が１つのメッシュとなっている。

　VBAPゲインの算出時には、具体的には次式（８）によって、三角形状のメッシュの逆行列Ｌ₁₂₃ ^-1とオブジェクトの音像の位置ｐから３つの係数ｇ₁乃至係数ｇ₃が計算により求められる。

　なお、式（８）においてｐ₁、ｐ₂、およびｐ₃は、オブジェクトの音像の位置ｐを示す直交座標系、すなわち図２に示した３次元座標系上のｘ座標、ｙ座標、およびｚ座標を示している。

　またｌ₁₁、ｌ₁₂、およびｌ₁₃は、メッシュを構成する１つ目のスピーカＳＰ１へ向くベクトルｌ₁をｘ軸、ｙ軸、およびｚ軸の成分に分解した場合におけるｘ成分、ｙ成分、およびｚ成分の値であり、１つ目のスピーカＳＰ１のｘ座標、ｙ座標、およびｚ座標に相当する。

　同様に、ｌ₂₁、ｌ₂₂、およびｌ₂₃は、メッシュを構成する２つ目のスピーカＳＰ２へ向くベクトルｌ₂をｘ軸、ｙ軸、およびｚ軸の成分に分解した場合におけるｘ成分、ｙ成分、およびｚ成分の値である。また、ｌ₃₁、ｌ₃₂、およびｌ₃₃は、メッシュを構成する３つ目のスピーカＳＰ３へ向くベクトルｌ₃をｘ軸、ｙ軸、およびｚ軸の成分に分解した場合におけるｘ成分、ｙ成分、およびｚ成分の値である。

　さらに、位置ｐの３次元座標系のｐ₁、ｐ₂、およびｐ₃から、球座標系の座標θ、γ、およびｒへの変換はｒ＝１である場合には次式（９）に示すように定義されている。ここでθ、γ、およびｒは、それぞれ上述した水平方向角度azimuth、垂直方向角度elevation、および距離radiusである。

　上述したようにコンテンツ再生側の空間、つまり再生空間では、単位球上に複数のスピーカが配置されており、それらの複数のスピーカのうちの３つのスピーカから１つのメッシュが構成される。そして、基本的には単位球の表面全体が複数のメッシュにより隙間なく覆われている。また、各メッシュは互いに重ならないように定められる。

　VBAPでは、単位球の表面上に配置されたスピーカのうち、オブジェクトの位置ｐを含む１つのメッシュを構成する２つまたは３つのスピーカから音声を出力すれば、音像を位置ｐに定位させることができるので、そのメッシュを構成するスピーカ以外のVBAPゲインは０となる。

　したがって、VBAPゲインの算出時には、オブジェクトの位置ｐを含む１つのメッシュを特定し、そのメッシュを構成するスピーカのVBAPゲインを算出すればよいことになる。例えば、所定のメッシュが位置ｐを含むメッシュであるか否かは、算出したVBAPゲインから判定することができる。

　すなわち、メッシュについて算出された３つの各スピーカのVBAPゲインが全て０以上の値であれば、そのメッシュはオブジェクトの位置ｐを含むメッシュである。逆に、３つの各スピーカのVBAPゲインのうちの１つでも負の値となった場合には、オブジェクトの位置ｐは、それらのスピーカからなるメッシュ外に位置していることになるので、算出されたVBAPゲインは正しいVBAPゲインではない。

　そこで、VBAPゲインの算出時には、各メッシュが１つずつ順番に処理対象のメッシュとして選択されていき、処理対象のメッシュについて上述した式（８）の計算が行われ、メッシュを構成する各スピーカのVBAPゲインが算出される。

　そして、それらのVBAPゲインの算出結果から、処理対象のメッシュがオブジェクトの位置ｐを含むメッシュであるかが判定され、位置ｐを含まないメッシュであると判定された場合には、次のメッシュが新たな処理対象のメッシュとされて同様の処理が行われる。

　一方、処理対象のメッシュがオブジェクトの位置ｐを含むメッシュであると判定された場合には、そのメッシュを構成するスピーカのVBAPゲインが、算出されたVBAPゲインとされ、それ以外の他のスピーカのVBAPゲインは０とされる。これにより、全スピーカのVBAPゲインが得られたことになる。

　このようにレンダリング処理では、VBAPゲインを算出する処理と、位置ｐを含むメッシュを特定する処理とが同時に行われる。

　すなわち、正しいVBAPゲインを得るために、メッシュを構成する各スピーカのVBAPゲインが全て０以上の値となるものが得られるまで、処理対象とするメッシュを選択し、そのメッシュのVBAPゲインを算出する処理が繰り返し行われる。

　したがってレンダリング処理では、単位球の表面にあるメッシュの数が多いほど、位置ｐを含むメッシュを特定するのに、つまり正しいVBAPゲインを得るのに必要となる処理の処理量が多くなる。

　そこで、本技術では、実際の再生環境のスピーカ全てを用いてメッシュを形成（構成）するのではなく、全スピーカのうちの一部のスピーカのみを用いてメッシュを形成するようにすることで、メッシュの総数を減らし、レンダリング処理時の処理量を低減させるようにした。すなわち、本技術では、メッシュの総数を変更するメッシュ数切り替え処理を行うようにした。

　具体的には、例えば２２チャンネルのスピーカシステムでは、図１４に示すように単位球の表面上に各チャンネルのスピーカとして、スピーカＳＰＫ１乃至スピーカＳＰＫ２２の合計２２個のスピーカが配置される。なお、図１４において、原点Ｏは図２に示した原点Ｏに対応するものである。

　このように単位球の表面上に２２個のスピーカが配置された場合、それらの２２個全てのスピーカを用いて単位球表面を覆うようにメッシュを形成すると、単位球上のメッシュの総数は４０個となる。

　これに対して、例えば図１５に示すようにスピーカＳＰＫ１乃至スピーカＳＰＫ２２の合計２２個のスピーカのうち、スピーカＳＰＫ１、スピーカＳＰＫ６、スピーカＳＰＫ７、スピーカＳＰＫ１０、スピーカＳＰＫ１９、およびスピーカＳＰＫ２０の合計６個のスピーカのみを用いてメッシュを形成したとする。なお、図１５において図１４における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図１５の例では、２２個のスピーカのうちの合計６のスピーカのみが用いられてメッシュが形成されているので、単位球上のメッシュの総数は８個となり、大幅にメッシュの総数を減らすことができる。その結果、図１５に示す例では、図１４に示した２２個のスピーカ全てを用いてメッシュを形成する場合と比べて、VBAPゲインを算出する際の処理量を8/40倍とすることができ、大幅に処理量を低減させることができる。

　なお、この例においても単位球の表面全体が８個のメッシュによって、隙間なく覆われているので、単位球の表面上の任意の位置に音像を定位させることが可能である。但し、単位球表面に設けられたメッシュの総数が多いほど、各メッシュの面積は小さくなるので、メッシュ総数が多いほど、より高精度に音像の定位を制御することが可能である。

　メッシュ数切り替え処理によりメッシュ総数が変更された場合、変更後の数のメッシュを形成するのに用いるスピーカを選択するにあたっては、原点Ｏにいるユーザから見て垂直方向（上下方向）、つまり垂直方向角度elevationの方向の位置が異なるスピーカを選択することが望ましい。換言すれば、互いに異なる高さに位置するスピーカを含む、３以上のスピーカを用いて、変更後の数のメッシュが形成されるようにすることが望ましい。これは、音声の立体感、つまり臨場感の劣化を抑制するためである。

　例えば図１６に示すように、単位球表面に配置された５つのスピーカＳＰ１乃至スピーカＳＰ５の一部または全部を用いてメッシュを形成する場合を考える。なお、図１６において図３における場合と対応する部分には同一の符号を付してあり、その説明は省略する。

　図１６に示す例において、５つのスピーカＳＰ１乃至スピーカＳＰ５全てを用いて、単位球表面が覆われるメッシュを形成する場合、メッシュの数は３つとなる。すなわち、スピーカＳＰ１乃至スピーカＳＰ３により囲まれる三角形の領域、スピーカＳＰ２乃至スピーカＳＰ４により囲まれる三角形の領域、並びにスピーカＳＰ２、スピーカＳＰ４、およびスピーカＳＰ５により囲まれる三角形の領域の３つの各領域がメッシュとされる。

　これに対して、例えばスピーカＳＰ１、スピーカＳＰ２、およびスピーカＳＰ５のみを用いるとメッシュが三角形ではなく２次元の円弧となってしまう。この場合、単位球における、スピーカＳＰ１とスピーカＳＰ２を結ぶ弧上、またはスピーカＳＰ２とスピーカＳＰ５を結ぶ弧上にしかオブジェクトの音像を定位させることができなくなる。

　このようにメッシュを形成するのに用いるスピーカを、全て垂直方向における同じ高さ、つまり同じレイヤのスピーカとすると、全オブジェクトの音像の定位位置の高さが同じ高さとなってしまうため、臨場感が劣化してしまう。

　したがって、垂直方向（鉛直方向）の位置が互いに異なるスピーカを含む３以上のスピーカを用いて１または複数のメッシュを形成し、臨場感の劣化を抑制できるようにすることが望ましい。

　図１６の例では、例えばスピーカＳＰ１乃至スピーカＳＰ５のうち、スピーカＳＰ１およびスピーカＳＰ３乃至スピーカＳＰ５を用いれば、単位球表面全体を覆うように２つのメッシュを形成することができる。この例では、スピーカＳＰ１およびスピーカＳＰ５と、スピーカＳＰ３およびスピーカＳＰ４とが互いに異なる高さに位置している。

　この場合、例えばスピーカＳＰ１、スピーカＳＰ３、およびスピーカＳＰ５により囲まれる三角形の領域と、スピーカＳＰ３乃至スピーカＳＰ５により囲まれる三角形の領域との２つの領域がそれぞれメッシュとされる。

　その他、この例では、スピーカＳＰ１、スピーカＳＰ３、およびスピーカＳＰ４により囲まれる三角形の領域と、スピーカＳＰ１、スピーカＳＰ４、およびスピーカＳＰ５により囲まれる三角形の領域との２つの領域をそれぞれメッシュとすることも可能である。

　これらの２つの例では、何れの場合も単位球表面上の任意の位置に音像を定位させることができるので、臨場感の劣化を抑制することができる。また、単位球表面全体が複数のメッシュで覆われるようにメッシュを形成するには、ユーザの真上に位置する、いわゆるトップスピーカが必ず用いられるようにするとよい。例えばトップスピーカは、図１４に示したスピーカＳＰＫ１９である。

　以上のようにメッシュ数切り替え処理を行ってメッシュの総数を変更することで、レンダリング処理の処理量を低減させることができ、かつ量子化処理の場合と同様に音声再生時における臨場感や音質の劣化を小さく抑えることができる。すなわち、臨場感や音質の劣化を抑制しつつレンダリング処理の処理量を低減させることができる。

　このようなメッシュ数切り替え処理を行うか否かや、メッシュ数切り替え処理でメッシュの総数をいくつとするかを選択することは、VBAPゲインを算出するのに用いるメッシュの総数を選択することであるということができる。

（量子化処理とメッシュ数切り替え処理の組み合わせ）
　また、以上においてはレンダリング処理の処理量を低減させる手法として、量子化処理とメッシュ数切り替え処理について説明した。

　レンダリング処理を行うレンダラ側では、量子化処理やメッシュ数切り替え処理として説明した各処理の何れかが固定的に用いられるようにしてもよいし、それらの処理が切り替えられたり、それらの処理が適宜組み合わせられたりしてもよい。

　例えばどのような処理を組み合わせて行うかは、オブジェクトの総数（以下、オブジェクト数と称する）や、オブジェクトのメタデータに含まれている重要度情報、オブジェクトのオーディオ信号の音圧などに基づいて定められるようにすればよい。また、処理の組み合わせ、つまり処理の切り替えは、オブジェクトごとや、オーディオ信号のフレームごとに行われるようにすることが可能である。

　例えばオブジェクト数に応じて処理の切り替えを行う場合、次のような処理を行うようにすることができる。

　例えばオブジェクト数が１０以上である場合、全てのオブジェクトについて、VBAPゲインに対する２値化処理が行われるようにする。これに対して、オブジェクト数が１０未満である場合、全てのオブジェクトについて、従来通り上述した処理Ａ１乃至処理Ａ３のみが行われるようにする。

　このように、オブジェクト数が少ないときには従来通りの処理を行い、オブジェクト数が多いときには２値化処理を行うようにすることで、ハード規模が小さいレンダラでも十分にレンダリングを行うことができ、かつ可能な限り品質の高い音声を得ることができる。

　また、オブジェクト数に応じて処理の切り替えを行う場合、オブジェクト数に応じてメッシュ数切り替え処理を行い、メッシュの総数を適切に変更するようにしてもよい。

　この場合、例えばオブジェクト数が１０以上であればメッシュの総数を８個とし、オブジェクト数が１０未満であればメッシュの総数を４０個とするなどとすることができる。また、オブジェクト数が多いほどメッシュの総数が少なくなるように、オブジェクト数に応じて多段階にメッシュの総数が変更されるようにしてもよい。

　このようにオブジェクト数に応じてメッシュの総数を変更することで、レンダラのハード規模に応じて処理量を調整し、可能な限り品質の高い音声を得ることができる。

　また、オブジェクトのメタデータに含まれる重要度情報に基づいて、処理の切り替えが行われる場合、次のような処理を行うようにすることができる。

　例えばオブジェクトの重要度情報が最も高い重要度を示す最高値である場合には、従来通り処理Ａ１乃至処理Ａ３のみが行われるようにし、オブジェクトの重要度情報が最高値以外の値である場合には、VBAPゲインに対する２値化処理が行われるようにする。

　その他、例えばオブジェクトの重要度情報の値に応じてメッシュ数切り替え処理を行い、メッシュの総数を適切に変更するようにしてもよい。この場合、オブジェクトの重要度が高いほど、メッシュの総数が多くなるようにすればよく、多段階にメッシュの総数が変更されるようにすることができる。

　これらの例では、各オブジェクトの重要度情報に基づいて、オブジェクトごとに処理を切り替えることができる。ここで説明した処理では、重要度の高いオブジェクトについては音質が高くなるようにし、また重要度の低いオブジェクトについては音質を低くして処理量を低減させるようにすることができる。したがって、様々な重要度のオブジェクトの音声を同時に再生する場合に、最も聴感上の音質劣化を抑えて処理量を少なくすることができ、音質の確保と処理量削減のバランスがとれた手法であるということができる。

　このように、オブジェクトの重要度情報に基づいてオブジェクトごとに処理の切り替えを行う場合、重要度の高いオブジェクトほどメッシュの総数が多くなるようにしたり、オブジェクトの重要度が高いときには量子化処理を行わないようにしたりすることができる。

　さらに、これに加えて重要度の低いオブジェクト、つまり重要度情報の値が所定値未満であるオブジェクトについても、重要度の高い、つまり重要度情報の値が所定値以上であるオブジェクトに近い位置にあるオブジェクトほど、メッシュの総数が多くなるようにしたり、量子化処理を行わないようにしたりするなどしてもよい。

　具体的には、重要度情報が最高値であるオブジェクトについてはメッシュの総数が４０個となるようにされ、重要度情報が最高値ではないオブジェクトについては、メッシュの総数が少なくなるようにされるとする。

　この場合、重要度情報が最高値ではないオブジェクトについては、そのオブジェクトと、重要度情報が最高値であるオブジェクトとの距離が短いほど、メッシュの総数が多くなるようにすればよい。通常、ユーザは重要度の高いオブジェクトの音を特に注意して聞くため、そのオブジェクトの近くにある他のオブジェクトの音の音質が低いと、ユーザはコンテンツ全体の音質がよくないように感じてしまう。そこで、重要度の高いオブジェクトに近い位置にあるオブジェクトについても、なるべくよい音質となるようにメッシュの総数を定めることで、聴感上の音質の劣化を抑制することができる。

　さらに、オブジェクトのオーディオ信号の音圧に応じて処理を切り替えるようにしてもよい。ここで、オーディオ信号の音圧は、オーディオ信号のレンダリング対象となるフレーム内の各サンプルのサンプル値の２乗平均値の平方根を計算することで求めることができる。すなわち、音圧RMSは次式（１０）の計算により求めることができる。

　なお、式（１０）においてＮはオーディオ信号のフレームを構成するサンプルの数を示しており、ｘ_nはフレーム内のｎ番目（但し、ｎ＝0,…,N-1）のサンプルのサンプル値を示している。

　このようにして得られるオーディオ信号の音圧RMSに応じて処理を切り替える場合、次のような処理を行うようにすることができる。

　例えば音圧RMSのフルスケールである0dBに対して、オブジェクトのオーディオ信号の音圧RMSが-6dB以上である場合には、従来通り処理Ａ１乃至処理Ａ３のみが行われるようにし、オブジェクトの音圧RMSが-6dB未満である場合には、VBAPゲインに対する２値化処理が行われるようにする。

　一般的に、音圧が大きい音声は音質の劣化が目立ちやすく、また、そのような音声は重要度の高いオブジェクトの音声であることが多い。そこで、ここでは音圧RMSの大きい音声のオブジェクトについては音質が劣化しないようにし、音圧RMSの小さい音声のオブジェクトについて２値化処理を行い、全体として処理量を削減するようにした。これにより、ハード規模が小さいレンダラでも十分にレンダリングを行うことができ、かつ可能な限り品質の高い音声を得ることができる。

　また、オブジェクトのオーディオ信号の音圧RMSに応じてメッシュ数切り替え処理を行い、メッシュの総数を適切に変更するようにしてもよい。この場合、例えば音圧RMSが大きいオブジェクトほど、メッシュの総数が多くなるようにすればよく、多段階にメッシュの総数が変更されるようにすることができる。

　さらに、オブジェクト数、重要度情報、および音圧RMSに応じて、量子化処理やメッシュ数切り替え処理の組み合わせを選択するようにしてもよい。

　すなわち、オブジェクト数、重要度情報、および音圧RMSに基づいて、量子化処理を行うか否か、量子化処理においてVBAPゲインをいくつのゲインに量子化するか、つまり量子化処理時における量子化数、およびVBAPゲインの算出に用いるメッシュの総数を選択し、その選択結果に応じた処理によりVBAPゲインを算出してもよい。そのような場合、例えば次のような処理を行うようにすることができる。

　例えばオブジェクト数が１０以上である場合、全てのオブジェクトについて、メッシュの総数が１０個となるようにし、さらに２値化処理が行われるようにする。この場合、オブジェクト数が多いので、メッシュの総数を少なくするとともに２値化処理を行うようにすることで処理量を低減させる。これにより、レンダラのハード規模が小さい場合でも全てのオブジェクトのレンダリングを行うことができるようになる。

　また、オブジェクト数が１０未満であり、かつ重要度情報の値が最高値である場合には、従来通り処理Ａ１乃至処理Ａ３のみが行われるようにする。これにより、重要度の高いオブジェクトについては音質を劣化させることなく音声を再生することができる。

　オブジェクト数が１０未満であり、かつ重要度情報の値が最高値でなく、かつ音圧RMSが-30dB以上である場合には、メッシュの総数が１０個となるようにし、さらに３値化処理が行われるようにする。これにより、重要度は低いが音圧が大きい音声について、音声の音質劣化が目立たない程度にレンダリング処理時の処理量を低減させることができる。

　さらに、オブジェクト数が１０未満であり、かつ重要度情報の値が最高値でなく、かつ音圧RMSが-30dB未満である場合には、メッシュの総数が５個となるようにし、さらに２値化処理が行われるようにする。これにより、重要度が低く音圧も小さい音声について、レンダリング処理時の処理量を十分に低減させることができる。

　このようにオブジェクト数が多いときにはレンダリング処理の処理量を少なくして全オブジェクトのレンダリングを行えるようにし、オブジェクト数がある程度少ない場合には、オブジェクトごとに適切な処理を選択し、レンダリングを行うようにする。これにより、オブジェクトごとに音質の確保と処理量削減のバランスをとりながら、全体として少ない処理量で十分な音質で音声を再生することができる。

〈音声処理装置の構成例〉
　次に、以上において説明した量子化処理やメッシュ数切り替え処理などを、適宜行いながらレンダリング処理を行う音声処理装置について説明する。図１７は、そのような音声処理装置の具体的な構成例を示す図である。なお、図１７において図６における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図１７に示す音声処理装置６１は、取得部２１、ゲイン算出部２３、およびゲイン調整部７１を有している。ゲイン算出部２３は、取得部２１からオブジェクトのメタデータとオーディオ信号の供給を受けて、各オブジェクトについてスピーカ１２ごとのVBAPゲインを算出し、ゲイン調整部７１に供給する。

　また、ゲイン算出部２３は、VBAPゲインの量子化を行う量子化部３１備えている。

　ゲイン調整部７１は、各オブジェクトについて、ゲイン算出部２３から供給されたスピーカ１２ごとのVBAPゲインを、取得部２１から供給されたオーディオ信号に乗算することで、スピーカ１２ごとのオーディオ信号を生成し、スピーカ１２に供給する。

〈再生処理の説明〉
　続いて、図１７に示した音声処理装置６１の動作について説明する。すなわち、図１８のフローチャートを参照して、音声処理装置６１による再生処理について説明する。

　なお、この例では、取得部２１には、１または複数のオブジェクトについて、オブジェクトのオーディオ信号とメタデータがフレームごとに供給され、再生処理は、各オブジェクトについてオーディオ信号のフレームごとに行われるものとする。

　ステップＳ２３１において、取得部２１は外部からオブジェクトのオーディオ信号およびメタデータを取得し、オーディオ信号をゲイン算出部２３およびゲイン調整部７１に供給するとともに、メタデータをゲイン算出部２３に供給する。また、取得部２１は、処理対象となっているフレームで同時に音声を再生するオブジェクトの数、つまりオブジェクト数を示す情報も取得してゲイン算出部２３に供給する。

　ステップＳ２３２において、ゲイン算出部２３は、取得部２１から供給されたオブジェクト数を示す情報に基づいて、オブジェクト数が１０以上であるか否かを判定する。

　ステップＳ２３２においてオブジェクト数が１０以上であると判定された場合、ステップＳ２３３において、ゲイン算出部２３は、VBAPゲイン算出時に用いるメッシュの総数を１０とする。すなわち、ゲイン算出部２３は、メッシュの総数として１０を選択する。

　また、ゲイン算出部２３は、選択したメッシュの総数に応じて、その総数だけ単位球表面上にメッシュが形成されるように、全スピーカ１２のなかから、所定個数のスピーカ１２を選択する。そして、ゲイン算出部２３は、選択したスピーカ１２から形成される単位球表面上の１０個のメッシュを、VBAPゲイン算出時に用いるメッシュとする。

　ステップＳ２３４において、ゲイン算出部２３は、ステップＳ２３３において定められた１０個のメッシュを構成する各スピーカ１２の配置位置を示す配置位置情報と、取得部２１から供給されたメタデータに含まれる、オブジェクトの位置を示す位置情報とに基づいて、VBAPにより各スピーカ１２のVBAPゲインを算出する。

　具体的には、ゲイン算出部２３は、ステップＳ２３３において定められたメッシュを順番に処理対象のメッシュとして式（８）の計算を行っていくことで、各スピーカ１２のVBAPゲインを算出する。このとき、上述したように、処理対象のメッシュを構成する３つのスピーカ１２について算出されたVBAPゲインが全て０以上の値となるまで、新たなメッシュが処理対象のメッシュとされ、VBAPゲインが算出されていく。

　ステップＳ２３５において、量子化部３１は、ステップＳ２３４で得られた各スピーカ１２のVBAPゲインを２値化して、その後、処理はステップＳ２４６へと進む。

　また、ステップＳ２３２においてオブジェクト数が１０未満であると判定された場合、処理はステップＳ２３６に進む。

　ステップＳ２３６において、ゲイン算出部２３は、取得部２１から供給されたメタデータに含まれるオブジェクトの重要度情報の値が最高値であるか否かを判定する。例えば重要度情報の値が、最も重要度が高いことを示す数値「７」である場合、重要度情報が最高値であると判定される。

　ステップＳ２３６において重要度情報が最高値であると判定された場合、処理はステップＳ２３７へと進む。

　ステップＳ２３７において、ゲイン算出部２３は、各スピーカ１２の配置位置を示す配置位置情報と、取得部２１から供給されたメタデータに含まれる位置情報とに基づいて、各スピーカ１２のVBAPゲインを算出し、その後、処理はステップＳ２４６へと進む。ここでは、全てのスピーカ１２から形成されるメッシュが順番に処理対象のメッシュとされていき、式（８）の計算によりVBAPゲインが算出される。

　これに対して、ステップＳ２３６において重要度情報が最高値でないと判定された場合、ステップＳ２３８において、ゲイン算出部２３は、取得部２１から供給されたオーディオ信号の音圧RMSを算出する。具体的には、処理対象となっているオーディオ信号のフレームについて、上述した式（１０）の計算が行われ、音圧RMSが算出される。

　ステップＳ２３９において、ゲイン算出部２３は、ステップＳ２３８で算出した音圧RMSが-30dB以上であるか否かを判定する。

　ステップＳ２３９において、音圧RMSが-30dB以上であると判定された場合、その後、ステップＳ２４０およびステップＳ２４１の処理が行われる。なお、これらのステップＳ２４０およびステップＳ２４１の処理は、ステップＳ２３３およびステップＳ２３４の処理と同様であるので、その説明は省略する。

　ステップＳ２４２において、量子化部３１は、ステップＳ２４１で得られた各スピーカ１２のVBAPゲインを３値化して、その後、処理はステップＳ２４６へと進む。

　また、ステップＳ２３９において音圧RMSが-30dB未満であると判定された場合、処理はステップＳ２４３へと進む。

　ステップＳ２４３において、ゲイン算出部２３は、VBAPゲイン算出時に用いるメッシュの総数を５とする。

　また、ゲイン算出部２３は、選択したメッシュの総数「５」に応じて、全スピーカ１２のなかから、所定個数のスピーカ１２を選択し、選択したスピーカ１２から形成される単位球表面上の５個のメッシュを、VBAPゲイン算出時に用いるメッシュとする。

　VBAPゲイン算出時に用いるメッシュが定められると、その後、ステップＳ２４４およびステップＳ２４５の処理が行われて処理はステップＳ２４６へと進む。なお、これらのステップＳ２４４およびステップＳ２４５の処理は、ステップＳ２３４およびステップＳ２３５の処理と同様であるので、その説明は省略する。

　ステップＳ２３５、ステップＳ２３７、ステップＳ２４２、またはステップＳ２４５の処理が行われて、各スピーカ１２のVBAPゲインが得られると、その後、ステップＳ２４６乃至ステップＳ２４８の処理が行われて再生処理は終了する。

　なお、これらのステップＳ２４６乃至ステップＳ２４８の処理は、図７を参照して説明したステップＳ１７乃至ステップＳ１９の処理と同様であるので、その説明は省略する。

　但し、より詳細には、再生処理は各オブジェクトについて略同時に行われ、ステップＳ２４８では、オブジェクトごとに得られた各スピーカ１２のオーディオ信号が、それらのスピーカ１２に供給される。すなわち、スピーカ１２では、各オブジェクトのオーディオ信号を加算して得られた信号に基づいて音声が再生される。その結果、全オブジェクトの音声が同時に出力されることになる。

　以上のようにして音声処理装置６１は、オブジェクトごとに、適宜、量子化処理やメッシュ数切り替え処理を選択的に行う。このようにすることで、臨場感や音質の劣化を抑制しつつレンダリング処理の処理量を低減させることができる。

〈第２の実施の形態の変形例１〉
〈音声処理装置の構成例〉
　また、第２の実施の形態では、音像を広げる処理を行わない場合に量子化処理やメッシュ数切り替え処理を選択的に行う例について説明したが、音像を広げる処理を行う場合にも量子化処理やメッシュ数切り替え処理を選択的に行うようにしてもよい。

　そのような場合、音声処理装置１１は、例えば図１９に示すように構成される。なお、図１９において、図６または図１７における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図１９に示す音声処理装置１１は、取得部２１、ベクトル算出部２２、ゲイン算出部２３、およびゲイン調整部７１を有している。

　取得部２１は、１または複数のオブジェクトについて、オブジェクトのオーディオ信号とメタデータを取得し、取得したオーディオ信号をゲイン算出部２３およびゲイン調整部７１に供給するとともに、取得したメタデータをベクトル算出部２２およびゲイン算出部２３に供給する。また、ゲイン算出部２３は、量子化部３１を備えている。

〈再生処理の説明〉
　次に、図２０のフローチャートを参照して、図１９に示した音声処理装置１１により行われる再生処理について説明する。

　また、ステップＳ２７１およびステップＳ２７２の処理は図７のステップＳ１１およびステップＳ１２の処理と同様であるので、その説明は省略する。但し、ステップＳ２７１では、取得部２１により取得されたオーディオ信号はゲイン算出部２３およびゲイン調整部７１に供給され、取得部２１により取得されたメタデータは、ベクトル算出部２２およびゲイン算出部２３に供給される。

　これらのステップＳ２７１およびステップＳ２７２の処理が行われると、spreadベクトル、またはspreadベクトルおよびベクトルｐが得られる。

　ステップＳ２７３において、ゲイン算出部２３は、VBAPゲイン算出処理を行ってスピーカ１２ごとにVBAPゲインを算出する。なお、VBAPゲイン算出処理の詳細については後述するが、VBAPゲイン算出処理では、適宜、量子化処理やメッシュ数切り替え処理が選択的に行われ、各スピーカ１２のVBAPゲインが算出される。

　ステップＳ２７３の処理が行われて各スピーカ１２のVBAPゲインが得られると、その後、ステップＳ２７４乃至ステップＳ２７６の処理が行われて再生処理は終了するが、これらの処理は、図７のステップＳ１７乃至ステップＳ１９の処理と同様であるので、その説明は省略する。但し、より詳細には、再生処理は各オブジェクトについて略同時に行われ、ステップＳ２７６では、オブジェクトごとに得られた各スピーカ１２のオーディオ信号が、それらのスピーカ１２に供給される。そのため、スピーカ１２では、全オブジェクトの音声が同時に出力されることになる。

　以上のようにして音声処理装置１１は、オブジェクトごとに、適宜、量子化処理やメッシュ数切り替え処理を選択的に行う。このようにすることで、音像を広げる処理を行う場合においても、臨場感や音質の劣化を抑制しつつレンダリング処理の処理量を低減させることができる。

〈VBAPゲイン算出処理の説明〉
　続いて、図２１のフローチャートを参照して、図２０のステップＳ２７３の処理に対応するVBAPゲイン算出処理について説明する。

　なお、ステップＳ３０１乃至ステップＳ３０３の処理は、図１８のステップＳ２３２乃至ステップＳ２３４の処理と同様であるので、その説明は省略する。但し、ステップＳ３０３では、spreadベクトル、またはspreadベクトルおよびベクトルｐの各ベクトルについて、スピーカ１２ごとにVBAPゲインが算出される。

　ステップＳ３０４において、ゲイン算出部２３は、スピーカ１２ごとに、各ベクトルについて算出したVBAPゲインを加算して、VBAPゲイン加算値を算出する。ステップＳ３０４では、図７のステップＳ１４と同様の処理が行われる。

　ステップＳ３０５において、量子化部３１は、ステップＳ３０４の処理によりスピーカ１２ごとに得られたVBAPゲイン加算値を２値化してVBAPゲイン算出処理は終了し、その後、処理は図２０のステップＳ２７４へと進む。

　また、ステップＳ３０１においてオブジェクト数が１０未満であると判定された場合、ステップＳ３０６およびステップＳ３０７の処理が行われる。

　なお、これらのステップＳ３０６およびステップＳ３０７の処理は、図１８のステップＳ２３６およびステップＳ２３７の処理と同様であるので、その説明は省略する。但し、ステップＳ３０７では、spreadベクトル、またはspreadベクトルおよびベクトルｐの各ベクトルについて、スピーカ１２ごとにVBAPゲインが算出される。

　また、ステップＳ３０７の処理が行われると、ステップＳ３０８の処理が行われてVBAPゲイン算出処理は終了し、その後、処理は図２０のステップＳ２７４へと進むが、ステップＳ３０８の処理はステップＳ３０４の処理と同様であるので、その説明は省略する。

　さらに、ステップＳ３０６において、重要度情報が最高値でないと判定された場合、その後、ステップＳ３０９乃至ステップＳ３１２の処理が行われるが、これらの処理は図１８のステップＳ２３８乃至ステップＳ２４１の処理と同様であるので、その説明は省略する。但し、ステップＳ３１２では、spreadベクトル、またはspreadベクトルおよびベクトルｐの各ベクトルについて、スピーカ１２ごとにVBAPゲインが算出される。

　このようにして、各ベクトルについてスピーカ１２ごとのVBAPゲインが得られると、ステップＳ３１３の処理が行われてVBAPゲイン加算値が算出されるが、ステップＳ３１３の処理はステップＳ３０４の処理と同様であるので、その説明は省略する。

　ステップＳ３１４において、量子化部３１は、ステップＳ３１３の処理によりスピーカ１２ごとに得られたVBAPゲイン加算値を３値化してVBAPゲイン算出処理は終了し、その後、処理は図２０のステップＳ２７４へと進む。

　さらに、ステップＳ３１０において音圧RMSが-30dB未満であると判定された場合、ステップＳ３１５の処理が行われてVBAPゲイン算出時に用いるメッシュの総数が５とされる。なお、ステップＳ３１５の処理は、図１８のステップＳ２４３の処理と同様であるので、その説明は省略する。

　VBAPゲイン算出時に用いるメッシュが定められると、ステップＳ３１６乃至ステップＳ３１８の処理が行われてVBAPゲイン算出処理は終了し、その後、処理は図２０のステップＳ２７４へと進む。なお、これらのステップＳ３１６乃至ステップＳ３１８の処理は、ステップＳ３０３乃至ステップＳ３０５の処理と同様であるので、その説明は省略する。

　ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図２２は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

　バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

　入力部５０６は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

　以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、本技術は、以下の構成とすることも可能である。

（１）
　オーディオオブジェクトの位置を示す位置情報と、少なくとも２次元以上のベクトルからなる、前記位置からの音像の広がりを表す音像情報とを含むメタデータを取得する取得部と、
　前記音像情報により定まる音像の広がりを表す領域に関する水平方向角度および垂直方向角度に基づいて、前記領域内の位置を示すspreadベクトルを算出するベクトル算出部と、
　前記spreadベクトルに基づいて、前記位置情報により示される前記位置近傍に位置する２以上の音声出力部に供給されるオーディオ信号のそれぞれのゲインを算出するゲイン算出部と
　を備える音声処理装置。
（２）
　前記ベクトル算出部は、前記水平方向角度と前記垂直方向角度の比に基づいて、前記spreadベクトルを算出する
　（１）に記載の音声処理装置。
（３）
　前記ベクトル算出部は、予め定められた個数の前記spreadベクトルを算出する
　（１）または（２）に記載の音声処理装置。
（４）
　前記ベクトル算出部は、可変である任意の個数の前記spreadベクトルを算出する
　（１）または（２）に記載の音声処理装置。
（５）
　前記音像情報は、前記領域の中心位置を示すベクトルである
　（１）に記載の音声処理装置。
（６）
　前記音像情報は、前記領域の中心からの音像の広がり度合いを示す２次元以上のベクトルである
　（１）に記載の音声処理装置。
（７）
　前記音像情報は、前記位置情報により示される位置から見た前記領域の中心位置の相対的な位置を示すベクトルである
　（１）に記載の音声処理装置。
（８）
　前記ゲイン算出部は、
　　各前記音声出力部について、前記spreadベクトルごとに前記ゲインを算出し、
　　前記音声出力部ごとに、各前記spreadベクトルについて算出した前記ゲインの加算値を算出し、
　　前記音声出力部ごとに、前記加算値を２値以上のゲインに量子化し、
　　前記量子化された前記加算値に基づいて、前記音声出力部ごとに最終的な前記ゲインを算出する
　（１）乃至（７）の何れか一項に記載の音声処理装置。
（９）
　前記ゲイン算出部は、３つの前記音声出力部により囲まれる領域であるメッシュであって、前記ゲインの算出に用いるメッシュの数を選択し、前記メッシュの数の選択結果と前記spreadベクトルとに基づいて、前記spreadベクトルごとに前記ゲインを算出する
　（８）に記載の音声処理装置。
（１０）
　前記ゲイン算出部は、前記ゲインの算出に用いる前記メッシュの数、前記量子化を行うか否か、および前記量子化時における前記加算値の量子化数を選択し、その選択結果に応じて前記最終的な前記ゲインを算出する
　（９）に記載の音声処理装置。
（１１）
　前記ゲイン算出部は、前記オーディオオブジェクトの数に基づいて、前記ゲインの算出に用いる前記メッシュの数、前記量子化を行うか否か、および前記量子化数を選択する
　（１０）に記載の音声処理装置。
（１２）
　前記ゲイン算出部は、前記オーディオオブジェクトの重要度に基づいて、前記ゲインの算出に用いる前記メッシュの数、前記量子化を行うか否か、および前記量子化数を選択する
　（１０）または（１１）に記載の音声処理装置。
（１３）
　前記ゲイン算出部は、前記重要度の高い前記オーディオオブジェクトに近い位置にある前記オーディオオブジェクトほど、前記ゲインの算出に用いる前記メッシュの数が多くなるように、前記ゲインの算出に用いる前記メッシュの数を選択する
　（１２）に記載の音声処理装置。
（１４）
　前記ゲイン算出部は、前記オーディオオブジェクトのオーディオ信号の音圧に基づいて、前記ゲインの算出に用いる前記メッシュの数、前記量子化を行うか否か、および前記量子化数を選択する
　（１０）乃至（１３）の何れか一項に記載の音声処理装置。
（１５）
　前記ゲイン算出部は、前記メッシュの数の選択結果に応じて、複数の前記音声出力部のうち、互いに異なる高さに位置する前記音声出力部を含む３以上の前記音声出力部を選択し、選択した前記音声出力部から形成される１または複数の前記メッシュに基づいて前記ゲインを算出する
　（９）乃至（１４）の何れか一項に記載の音声処理装置。
（１６）
　オーディオオブジェクトの位置を示す位置情報と、少なくとも２次元以上のベクトルからなる、前記位置からの音像の広がりを表す音像情報とを含むメタデータを取得し、
　前記音像情報により定まる音像の広がりを表す領域に関する水平方向角度および垂直方向角度に基づいて、前記領域内の位置を示すspreadベクトルを算出し、
　前記spreadベクトルに基づいて、前記位置情報により示される前記位置近傍に位置する２以上の音声出力部に供給されるオーディオ信号のそれぞれのゲインを算出する
　ステップを含む音声処理方法。
（１７）
　オーディオオブジェクトの位置を示す位置情報と、少なくとも２次元以上のベクトルからなる、前記位置からの音像の広がりを表す音像情報とを含むメタデータを取得し、
　前記音像情報により定まる音像の広がりを表す領域に関する水平方向角度および垂直方向角度に基づいて、前記領域内の位置を示すspreadベクトルを算出し、
　前記spreadベクトルに基づいて、前記位置情報により示される前記位置近傍に位置する２以上の音声出力部に供給されるオーディオ信号のそれぞれのゲインを算出する
　ステップを含む処理をコンピュータに実行させるプログラム。
（１８）
　オーディオオブジェクトの位置を示す位置情報を含むメタデータを取得する取得部と、
　３つの音声出力部により囲まれる領域であるメッシュであって、前記音声出力部に供給されるオーディオ信号のゲインの算出に用いるメッシュの数を選択し、前記メッシュの数の選択結果と前記位置情報とに基づいて、前記ゲインを算出するゲイン算出部と
　を備える音声処理装置。

　１１　音声処理装置，　２１　取得部，　２２　ベクトル算出部，　２３　ゲイン算出部，　２４　ゲイン調整部，　３１　量子化部，　６１　音声処理装置，　７１　ゲイン調整部

Claims

　オーディオオブジェクトの位置を示す位置情報と、少なくとも２次元以上のベクトルからなる、前記位置からの音像の広がりを表す音像情報とを含むメタデータを取得する取得部と、
　前記音像情報により定まる音像の広がりを表す領域に関する水平方向角度および垂直方向角度に基づいて、前記領域内の位置を示すspreadベクトルを算出するベクトル算出部と、
　前記spreadベクトルに基づいて、前記位置情報により示される前記位置近傍に位置する２以上の音声出力部に供給されるオーディオ信号のそれぞれのゲインを算出するゲイン算出部と
　を備える音声処理装置。
　前記ベクトル算出部は、前記水平方向角度と前記垂直方向角度の比に基づいて、前記spreadベクトルを算出する
　請求項１に記載の音声処理装置。
　前記ベクトル算出部は、予め定められた個数の前記spreadベクトルを算出する
　請求項１に記載の音声処理装置。
　前記ベクトル算出部は、可変である任意の個数の前記spreadベクトルを算出する
　請求項１に記載の音声処理装置。
　前記音像情報は、前記領域の中心位置を示すベクトルである
　請求項１に記載の音声処理装置。
　前記音像情報は、前記領域の中心からの音像の広がり度合いを示す２次元以上のベクトルである
　請求項１に記載の音声処理装置。
　前記音像情報は、前記位置情報により示される位置から見た前記領域の中心位置の相対的な位置を示すベクトルである
　請求項１に記載の音声処理装置。
　前記ゲイン算出部は、
　　各前記音声出力部について、前記spreadベクトルごとに前記ゲインを算出し、
　　前記音声出力部ごとに、各前記spreadベクトルについて算出した前記ゲインの加算値を算出し、
　　前記音声出力部ごとに、前記加算値を２値以上のゲインに量子化し、
　　前記量子化された前記加算値に基づいて、前記音声出力部ごとに最終的な前記ゲインを算出する
　請求項１に記載の音声処理装置。
　前記ゲイン算出部は、３つの前記音声出力部により囲まれる領域であるメッシュであって、前記ゲインの算出に用いるメッシュの数を選択し、前記メッシュの数の選択結果と前記spreadベクトルとに基づいて、前記spreadベクトルごとに前記ゲインを算出する
　請求項８に記載の音声処理装置。
　前記ゲイン算出部は、前記ゲインの算出に用いる前記メッシュの数、前記量子化を行うか否か、および前記量子化時における前記加算値の量子化数を選択し、その選択結果に応じて前記最終的な前記ゲインを算出する
　請求項９に記載の音声処理装置。
　前記ゲイン算出部は、前記オーディオオブジェクトの数に基づいて、前記ゲインの算出に用いる前記メッシュの数、前記量子化を行うか否か、および前記量子化数を選択する
　請求項１０に記載の音声処理装置。
　前記ゲイン算出部は、前記オーディオオブジェクトの重要度に基づいて、前記ゲインの算出に用いる前記メッシュの数、前記量子化を行うか否か、および前記量子化数を選択する
　請求項１０に記載の音声処理装置。
　前記ゲイン算出部は、前記重要度の高い前記オーディオオブジェクトに近い位置にある前記オーディオオブジェクトほど、前記ゲインの算出に用いる前記メッシュの数が多くなるように、前記ゲインの算出に用いる前記メッシュの数を選択する
　請求項１２に記載の音声処理装置。
　前記ゲイン算出部は、前記オーディオオブジェクトのオーディオ信号の音圧に基づいて、前記ゲインの算出に用いる前記メッシュの数、前記量子化を行うか否か、および前記量子化数を選択する
　請求項１０に記載の音声処理装置。
　前記ゲイン算出部は、前記メッシュの数の選択結果に応じて、複数の前記音声出力部のうち、互いに異なる高さに位置する前記音声出力部を含む３以上の前記音声出力部を選択し、選択した前記音声出力部から形成される１または複数の前記メッシュに基づいて前記ゲインを算出する
　請求項９に記載の音声処理装置。
　オーディオオブジェクトの位置を示す位置情報と、少なくとも２次元以上のベクトルからなる、前記位置からの音像の広がりを表す音像情報とを含むメタデータを取得し、
　前記音像情報により定まる音像の広がりを表す領域に関する水平方向角度および垂直方向角度に基づいて、前記領域内の位置を示すspreadベクトルを算出し、
　前記spreadベクトルに基づいて、前記位置情報により示される前記位置近傍に位置する２以上の音声出力部に供給されるオーディオ信号のそれぞれのゲインを算出する
　ステップを含む音声処理方法。
　オーディオオブジェクトの位置を示す位置情報と、少なくとも２次元以上のベクトルからなる、前記位置からの音像の広がりを表す音像情報とを含むメタデータを取得し、
　前記音像情報により定まる音像の広がりを表す領域に関する水平方向角度および垂直方向角度に基づいて、前記領域内の位置を示すspreadベクトルを算出し、
　前記spreadベクトルに基づいて、前記位置情報により示される前記位置近傍に位置する２以上の音声出力部に供給されるオーディオ信号のそれぞれのゲインを算出する
　ステップを含む処理をコンピュータに実行させるプログラム。