WO2019116890A1

WO2019116890A1 - 信号処理装置および方法、並びにプログラム

Info

Publication number: WO2019116890A1
Application number: PCT/JP2018/043695
Authority: WO
Inventors: 本間　弘幸; 徹知念
Original assignee: ソニー株式会社
Priority date: 2017-12-12
Filing date: 2018-11-28
Publication date: 2019-06-20
Also published as: JP7283392B2; EP3726859A4; JPWO2019116890A1; US11838742B2; RU2020116581A3; KR20200096508A; CN111434126B; RU2020116581A; CN111434126A; JP2023101016A; EP3726859A1; US20210168548A1; US11310619B2; CN114710740A; KR102561608B1; US20220225051A1

Abstract

本技術は、少ない演算量で音像の再現性を向上させることができるようにする信号処理装置および方法、並びにプログラムに関する。信号処理装置は、オーディオ信号の音像を聴取空間内に定位させるレンダリング処理の手法を、互いに異なる複数の手法のなかから１以上選択するレンダリング手法選択部と、レンダリング手法選択部によって選択された手法によりオーディオ信号のレンダリング処理を行うレンダリング処理部とを備える。本技術は信号処理装置に適用することができる。

Description

信号処理装置および方法、並びにプログラム

　本技術は、信号処理装置および方法、並びにプログラムに関し、特に、少ない演算量で音像の再現性を向上させることができるようにした信号処理装置および方法、並びにプログラムに関する。

　従来、映画やゲーム等でオブジェクトオーディオ技術が使われ、オブジェクトオーディオを扱える符号化方式も開発されている。具体的には、例えば国際標準規格であるMPEG（Moving Picture Experts Group）-H Part 3:3D audio規格などが知られている（例えば、非特許文献１参照）。

　このような符号化方式では、従来の２チャンネルステレオ方式や５．１チャンネル等のマルチチャンネルステレオ方式とともに、移動する音源等を独立したオーディオオブジェクトとして扱い、オーディオオブジェクトの信号データとともにオブジェクトの位置情報をメタデータとして符号化することが可能である。

　このようにすることで、スピーカの数や配置の異なる様々な視聴環境で再生を行うことができる。また、従来の符号化方式では困難であった特定の音源の音の音量調整や、特定の音源の音に対するエフェクトの追加など、特定の音源の音を再生時に加工することが容易にできる。

　例えば非特許文献１の規格では、レンダリング処理に３次元VBAP（Vector Based Amplitude Panning）（以下、単にVBAPと称する）と呼ばれる方式が用いられる。

　これは一般的にパニングと呼ばれるレンダリング手法の１つで、聴取位置を原点とする球表面上に存在するスピーカのうち、同じく球表面上に存在するオーディオブジェクトに最も近い３個のスピーカに対しゲインを分配することでレンダリングを行う方式である。

　また、VBAP以外にも、例えばゲインをx軸、y軸、およびz軸のそれぞれに対して分配するSpeaker-anchored coordinates pannerと呼ばれるパニング手法によるレンダリング処理も知られている（例えば、非特許文献２参照）。

　一方で、パニング処理以外にもオーディオブジェクトをレンダリングする手法として、頭部伝達関数のフィルタを用いる手法も提案されている（例えば、特許文献１参照）。

　一般的に、頭部伝達関数を用いて移動するオーディオブジェクトをレンダリングする場合、以下のようにして頭部伝達関数のフィルタを得ることが多い。

　すなわち、例えば移動空間範囲内を空間サンプリングし、その空間内の個々の点に対応した多数の頭部伝達関数のフィルタを予め用意することが一般的である。また、例えば一定距離間隔で測定された空間内の各位置の頭部伝達関数を用いて、３次元合成法によって距離補正により所望位置の頭部伝達関数のフィルタを求めるようにすることもある。

　上述した特許文献１には、一定距離の球表面をサンプリングして得られた、頭部伝達関数のフィルタの生成に必要なパラメータを用いて、任意距離の頭部伝達関数のフィルタを生成する手法が記載されている。

INTERNATIONAL STANDARD ISO/IEC 23008-3 First edition 2015-10-15 Information technology High efficiency coding and media delivery in heterogeneous environments Part 3: 3D audio ETSI TS 103 448 v1.1.1(2016-09)

特許第５７５２４１４号公報

　しかしながら、上述した技術では、レンダリングによりオーディオオブジェクトの音の音像を定位させる場合に、少ない演算量で高い音像定位の再現性を得ることは困難であった。すなわち、少ない演算量で、本来意図した位置に音像があるかのように知覚させる音像定位を実現することは困難であった。

　例えばパニング処理によるオーディオブジェクトのレンダリングでは、聴取位置が１点であることが前提とされている。この場合、例えばオーディオブジェクトが聴取位置に近いときには、聴取者の左耳へと到達する音波と、聴取者の右耳へと到達する音波との到達時刻の差は無視できないものとなる。

　しかし、パニング処理としてVBAPが行われるときには、スピーカが配置された球表面の内側や外側にオーディオブジェクトが位置していても、オーディオオブジェクトが球表面上にあるものとしてレンダリングが行われる。そうすると、オーディオブジェクトが聴取位置に接近した場合、再生時におけるオーディオオブジェクトの音像は期待されるものとは程遠いものとなってしまう。

　これに対して、頭部伝達関数を用いたレンダリングでは、オーディオオブジェクトが聴取者に近い位置にある場合でも、高い音像定位の再現性を実現することができる。また、頭部伝達関数のFIR（Finite Impulse Response）フィルタ処理として、FFT（Fast Fourier Transform）やQMF（Quadrature Mirror Filter）等の高速演算処理が存在する。

　しかし、これらの頭部伝達関数のFIRフィルタ処理の処理量は、パニングの処理量と比較して非常に多い。そのため、多数のオーディオブジェクトがあるときには、全てのオーディオオブジェクトについて頭部伝達関数を用いたレンダリングを行うことが適切であるとはいえない場合もある。

　本技術は、このような状況に鑑みてなされたものであり、少ない演算量で音像の再現性を向上させることができるようにするものである。

　本技術の一側面の信号処理装置は、オーディオ信号の音像を聴取空間内に定位させるレンダリング処理の手法を、互いに異なる複数の手法のなかから１以上選択するレンダリング手法選択部と、前記レンダリング手法選択部によって選択された手法により前記オーディオ信号の前記レンダリング処理を行うレンダリング処理部とを備える。

　本技術の一側面の信号処理方法またはプログラムは、オーディオ信号の音像を聴取空間内に定位させるレンダリング処理の手法を、互いに異なる複数の手法のなかから１以上選択し、選択された手法により前記オーディオ信号の前記レンダリング処理を行うステップを含む。

　本技術の一側面においては、オーディオ信号の音像を聴取空間内に定位させるレンダリング処理の手法が、互いに異なる複数の手法のなかから１以上選択され、選択された手法により前記オーディオ信号の前記レンダリング処理が行われる。

　本技術の一側面によれば、少ない演算量で音像の再現性を向上させることができる。

　なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。

VBAPについて説明する図である。信号処理装置の構成例を示す図である。レンダリング処理部の構成例を示す図である。メタデータの例を示す図である。オーディオオブジェクト位置情報について説明する図である。レンダリング手法の選択について説明する図である。頭部伝達関数処理について説明する図である。レンダリング手法の選択について説明する図である。オーディオ出力処理を説明するフローチャートである。メタデータの例を示す図である。メタデータの例を示す図である。コンピュータの構成例を示す図である。

　以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈本技術について〉
　本技術は、オーディオオブジェクトのレンダリングを行う場合に、オーディオオブジェクトごとに、そのオーディオオブジェクトの聴取空間内の位置に応じて、互いに異なる複数のレンダリング手法のなかから１以上の手法を選択することで、少ない演算量でも音像の再現性を向上させることができるようにするものである。すなわち、本技術は、少ない演算量でも本来意図した位置に音像があるかのように知覚させる音像定位を実現することができるようにするものである。

　特に本技術では、オーディオ信号の音像を聴取空間内に定位させるレンダリング処理の手法、つまりレンダリング手法として、演算量（計算負荷）と音像定位性能が互いに異なる複数のレンダリング手法のなかから、１以上のレンダリング手法が選択される。

　なお、ここではレンダリング手法の選択対象となるオーディオ信号が、オーディオオブジェクトのオーディオ信号（オーディオオブジェクト信号）である場合を例として説明する。しかし、これに限らず、レンダリング手法の選択対象とするオーディオ信号は、聴取空間内に音像を定位させようとするオーディオ信号であれば、どのようなものであってもよい。

　上述したようにVBAPでは、聴取空間における聴取位置を原点とする球表面上に存在するスピーカのうち、同じく球表面上に存在するオーディオブジェクトに最も近い３個のスピーカに対しゲインが分配される。

　例えば図１に示すように、３次元空間である聴取空間に聴取者U11がおり、その聴取者U11の前方に３つのスピーカSP1乃至スピーカSP3が配置されているとする。

　また、聴取者U11の頭部の位置を原点Oとし、その原点Oを中心とする球の表面上にスピーカSP1乃至スピーカSP3が位置しているとする。

　いま、球表面上におけるスピーカSP1乃至スピーカSP3に囲まれる領域TR11内にオーディオオブジェクトが存在しており、そのオーディオオブジェクトの位置VSP1に音像を定位させることを考えるとする。

　そのような場合、VBAPでは、オーディオオブジェクトについて、位置VSP1の周囲にあるスピーカSP1乃至スピーカSP3に対してゲインが分配されることになる。

　具体的には、原点Oを基準（原点）とする３次元座標系において、原点Oを始点とし、位置VSP1を終点とする３次元のベクトルPにより位置VSP1を表すこととする。

　また、原点Oを始点とし、各スピーカSP1乃至スピーカSP3の位置を終点とする３次元のベクトルをベクトルL₁乃至ベクトルL₃とすると、ベクトルPは次式（１）に示すように、ベクトルL₁乃至ベクトルL₃の線形和によって表すことができる。

　ここで、式（１）においてベクトルL₁乃至ベクトルL₃に乗算されている係数g₁乃至係数g₃を算出し、これらの係数g₁乃至係数g₃を、スピーカSP1乃至スピーカSP3のそれぞれから出力する音のゲインとすれば、位置VSP1に音像を定位させることができる。

　例えば係数g₁乃至係数g₃を要素とするベクトルをg₁₂₃＝［g₁,g₂,g₃］とし、ベクトルL₁乃至ベクトルL₃を要素とするベクトルをL₁₂₃＝［L₁,L₂,L₃］とすると、上述した式（１）を変形して次式（２）を得ることができる。

　このような式（２）を計算して求めた係数g₁乃至係数g₃をゲインとして用いて、オーディオオブジェクトの音の信号であるオーディオオブジェクト信号を各スピーカSP1乃至スピーカSP3に出力することで、位置VSP1に音像を定位させることができる。

　なお、各スピーカSP1乃至スピーカSP3の配置位置は固定されており、それらのスピーカの位置を示す情報は既知であるため、逆行列であるL₁₂₃ ^-1は事前に求めておくことができる。そのため、VBAPでは比較的容易な計算で、つまり少ない演算量でレンダリングを行うことが可能である。

　したがって、オーディオオブジェクトが聴取者U11から十分離れた位置にある場合には、VBAP等のパニング処理によりレンダリングを行えば、少ない演算量で適切に音像を定位させることができる。

　しかし、オーディオオブジェクトが聴取者U11に近い位置にあるときには、VBAP等のパニング処理では、聴取者U11の左右の耳へと到達する音波の到達時刻の差を表現することは困難であり、十分に高い音像の再現性を得ることはできなかった。

　そこで、本技術では、オーディオオブジェクトの位置に応じてパニング処理および頭部伝達関数のフィルタを用いたレンダリング処理（以下、頭部伝達関数処理とも称する）のなかから１以上のレンダリング手法を選択し、レンダリング処理を行うようにした。

　例えばレンダリング手法は、聴取空間における聴取者の位置である聴取位置と、オーディオオブジェクトの位置との相対的な位置関係に基づいて選択される。

　具体的には、一例として、例えばスピーカが配置された球表面上または球表面の外側にオーディオオブジェクトが位置する場合には、レンダリング手法としてVBAP等のパニング処理が選択される。

　これに対して、スピーカが配置された球表面の内側にオーディオオブジェクトが位置する場合には、レンダリング手法として頭部伝達関数処理が選択される。

　このようにすることで、少ない演算量でも十分に高い音像の再現性を得ることができる。すなわち、少ない演算量で音像の再現性を向上させることができる。

〈信号処理装置の構成例〉
　それでは、以下、本技術についてより詳細に説明する。

　図２は、本技術を適用した信号処理装置の一実施の形態の構成例を示す図である。

　図２に示す信号処理装置１１は、コアデコード処理部２１およびレンダリング処理部２２を有している。

　コアデコード処理部２１は、送信されてきた入力ビットストリームを受信して復号（デコード）し、その結果得られたオーディオオブジェクト位置情報およびオーディオオブジェクト信号をレンダリング処理部２２に供給する。換言すれば、コアデコード処理部２１は、オーディオオブジェクト位置情報およびオーディオオブジェクト信号を取得する。

　ここで、オーディオオブジェクト信号は、オーディオオブジェクトの音を再生するためのオーディオ信号である。

　また、オーディオオブジェクト位置情報は、レンダリング処理部２２において行われるレンダリングに必要となる、オーディオオブジェクト、つまりオーディオオブジェクト信号のメタデータである。

　具体的には、オーディオオブジェクト位置情報は、オーディオオブジェクトの３次元空間内、すなわち聴取空間内の位置を示す情報である。

　レンダリング処理部２２は、コアデコード処理部２１から供給されたオーディオオブジェクト位置情報およびオーディオオブジェクト信号に基づいて、出力オーディオ信号を生成し、後段のスピーカや記録部などに供給する。

　具体的にはレンダリング処理部２２は、オーディオオブジェクト位置情報に基づいてレンダリング手法、すなわちレンダリング処理としてパニング処理、頭部伝達関数処理、またはパニング処理と頭部伝達関数処理のうちの何れかを選択する。

　そして、レンダリング処理部２２は、選択したレンダリング処理を行うことで、出力オーディオ信号の出力先となるスピーカやヘッドフォンなどの再生装置に対するレンダリングを行い、出力オーディオ信号を生成する。

　なお、レンダリング処理部２２では、パニング処理や頭部伝達関数処理を含む３以上の互いに異なるレンダリング手法のなかから１以上のレンダリング手法が選択されても勿論よい。

〈レンダリング処理部の構成例〉
　次に、図２に示した信号処理装置１１のレンダリング処理部２２のより詳細な構成例について説明する。

　レンダリング処理部２２は、例えば図３に示すように構成される。

　図３に示す例では、レンダリング処理部２２は、レンダリング手法選択部５１、パニング処理部５２、頭部伝達関数処理部５３、およびミキシング処理部５４を有している。

　レンダリング手法選択部５１には、コアデコード処理部２１からオーディオオブジェクト位置情報およびオーディオオブジェクト信号が供給される。

　レンダリング手法選択部５１は、コアデコード処理部２１から供給されたオーディオオブジェクト位置情報に基づいて、オーディオオブジェクトごとに、オーディオオブジェクトに対するレンダリング処理の手法、つまりレンダリング手法を選択する。

　また、レンダリング手法選択部５１は、コアデコード処理部２１から供給されたオーディオオブジェクト位置情報およびオーディオオブジェクト信号を、レンダリング手法の選択結果に応じてパニング処理部５２および頭部伝達関数処理部５３の少なくとも何れか一方に供給する。

　パニング処理部５２は、レンダリング手法選択部５１から供給されたオーディオオブジェクト位置情報およびオーディオオブジェクト信号に基づいてパニング処理を行い、その結果得られたパニング処理出力信号をミキシング処理部５４に供給する。

　ここで、パニング処理出力信号は、オーディオオブジェクトの音の音像が、オーディオオブジェクト位置情報により示される聴取空間内の位置に定位するように、オーディオオブジェクトの音を再生するための各チャンネルのオーディオ信号である。

　例えば、ここでは出力オーディオ信号の出力先のチャンネル構成が予め定められており、そのチャンネル構成の各チャンネルのオーディオ信号がパニング処理出力信号として生成される。

　一例として、例えば出力オーディオ信号の出力先が図１に示したスピーカSP1乃至スピーカSP3からなるスピーカシステムである場合、パニング処理出力信号として、スピーカSP1乃至スピーカSP3のそれぞれに対応するチャンネルのオーディオ信号が生成される。

　具体的には、例えばパニング処理としてVBAPが行われる場合には、レンダリング手法選択部５１から供給されたオーディオオブジェクト信号に対して、ゲインである係数g₁を乗算して得られたオーディオ信号が、スピーカSP1に対応するチャンネルのパニング処理出力信号とされる。同様に、オーディオオブジェクト信号に対して、係数g₂および係数g₃のそれぞれを乗算して得られたオーディオ信号が、スピーカSP2およびスピーカSP3のそれぞれに対応するチャンネルのパニング処理出力信号とされる。

　なお、パニング処理部５２では、パニング処理として、例えばMPEG-H Part 3:3D audio規格で採用されているVBAPや、Speaker-anchored coordinates pannerと呼ばれるパニング手法による処理など、どのような処理が行われるようにしてもよい。換言すれば、レンダリング手法選択部５１では、レンダリング手法としてVBAPが選択されてもよいし、Speaker-anchored coordinates pannerが選択されてもよい。

　頭部伝達関数処理部５３は、レンダリング手法選択部５１から供給されたオーディオオブジェクト位置情報およびオーディオオブジェクト信号に基づいて頭部伝達関数処理を行い、その結果得られた頭部伝達関数処理出力信号をミキシング処理部５４に供給する。

　ここで、頭部伝達関数処理出力信号は、オーディオオブジェクトの音の音像が、オーディオオブジェクト位置情報により示される聴取空間内の位置に定位するように、オーディオオブジェクトの音を再生するための各チャンネルのオーディオ信号である。

　すなわち、頭部伝達関数処理出力信号は、パニング処理出力信号に相当するものであり、頭部伝達関数処理出力信号とパニング処理出力信号とは、オーディオ信号を生成するときの処理が頭部伝達関数処理であるか、またはパニング処理であるかが異なるものである。

　以上のパニング処理部５２や頭部伝達関数処理部５３は、パニング処理や頭部伝達関数処理など、レンダリング手法選択部５１により選択されたレンダリング手法によりレンダリング処理を行うレンダリング処理部として機能する。

　ミキシング処理部５４は、パニング処理部５２から供給されたパニング処理出力信号、および頭部伝達関数処理部５３から供給された頭部伝達関数処理出力信号の少なくとも何れか一方に基づいて出力オーディオ信号を生成し、後段に出力する。

　例えば入力ビットストリームに１つのオーディオオブジェクトのオーディオオブジェクト位置情報とオーディオオブジェクト信号が格納されていたとする。

　そのような場合、ミキシング処理部５４は、パニング処理出力信号と頭部伝達関数処理出力信号が供給されたときには、補正処理を行って出力オーディオ信号を生成する。補正処理では、チャンネルごとに、パニング処理出力信号と頭部伝達関数処理出力信号が合成（ブレンド）されて出力オーディオ信号とされる。

　これに対して、パニング処理出力信号と頭部伝達関数処理出力信号のうちの何れか一方の信号のみが供給された場合、ミキシング処理部５４は、その供給された信号をそのまま出力オーディオ信号とする。

　また、例えば入力ビットストリームに複数のオーディオオブジェクトのオーディオオブジェクト位置情報とオーディオオブジェクト信号が格納されていたとする。

　そのような場合、ミキシング処理部５４は、必要に応じて補正処理を行ってオーディオオブジェクトごとに出力オーディオ信号を生成する。

　そして、ミキシング処理部５４は、そのようにして得られた各オーディオオブジェクトの出力オーディオ信号をチャンネルごとに加算（合成）するミキシング処理を行い、その結果得られた各チャンネルの出力オーディオ信号を最終的な出力オーディオ信号とする。すなわち、オーディオオブジェクトごとに得られた、同じチャンネルの出力オーディオ信号が加算されて、そのチャンネルの最終的な出力オーディオ信号とされる。

　このようにミキシング処理部５４は、必要に応じてパニング処理出力信号と頭部伝達関数処理出力信号とを合成する補正処理やミキシング処理などを行って出力オーディオ信号を生成する出力オーディオ信号生成部として機能する。

〈オーディオオブジェクト位置情報について〉
　ところで、上述したオーディオオブジェクト位置情報は、例えば所定の時間間隔ごと（所定フレーム数ごと）に図４に示すフォーマットが用いられて符号化され、入力ビットストリームに格納される。

　図４に示すメタデータにおいて、「num_objects」は、入力ビットストリームに含まれているオーディオオブジェクトの数を示している。

　また、「tcimsbf」は「Two’s complement integer, most significant(sign) bit first」の略であり、符号ビットが先頭の２の補数を示している。「uimsbf」は「Unsigned integer, most significant bit first」の略であり、最上位ビットが先頭の符号なし整数を示している。

　さらに、「position_azimuth[i]」、「position_elevation[i]」、および「position_radius[i]」は、それぞれ入力ビットストリームに含まれているi番目のオーディオオブジェクトのオーディオオブジェクト位置情報を示している。

　具体的には、「position_azimuth[i]」は球面座標系におけるオーディオオブジェクトの位置の方位角を示しており、「position_elevation[i]」は球面座標系におけるオーディオオブジェクトの位置の仰角を示している。また、「position_radius[i]」は球面座標系におけるオーディオオブジェクトの位置までの距離、すなわち半径を示している。

　ここで球面座標系と３次元直交座標系との関係は、図５に示す関係となっている。

　図５では、原点Oを通り、互いに垂直なX軸、Y軸、およびZ軸が３次元直交座標系の軸となっている。例えば３次元直交座標系では、空間内のオーディオオブジェクトOB11の位置は、X軸方向の位置を示すX座標であるX1、Y軸方向の位置を示すY座標であるY1、およびZ軸方向の位置を示すZ座標であるZ1が用いられて（X1,Y1,Z1）と表される。

　これに対して球面座標系では、方位角position_azimuth、仰角position_elevation、および半径position_radiusが用いられて空間内のオーディオオブジェクトOB11の位置が表される。

　いま、原点Oと、聴取空間内のオーディオオブジェクトOB11の位置とを結ぶ直線を直線rとし、この直線rをXY平面上に投影して得られた直線を直線Lとする。

　このとき、X軸と直線Lとのなす角θがオーディオオブジェクトOB11の位置を示す方位角position_azimuthとされ、この角θが図４に示した方位角position_azimuth[i]に対応する。

　また、直線rとXY平面とのなす角φがオーディオオブジェクトOB11の位置を示す仰角position_elevationとされ、直線rの長さがオーディオオブジェクトOB11の位置を示す半径position_radiusとされる。

　すなわち、角φが図４に示した仰角position_elevation[i]に対応し、直線rの長さが図４に示した半径position_radius[i]に対応する。

　例えば原点Oの位置は、オーディオオブジェクトの音等を含むコンテンツの音を聴取する聴取者（ユーザ）の位置とされ、X方向（X軸方向）の正の方向、つまり図５中、手前方向が聴取者から見た正面方向とされ、Y方向（Y軸方向）の正の方向、つまり図５中、右方向が聴取者から見た左方向とされる。

　このようにオーディオオブジェクト位置情報においては、オーディオオブジェクトの位置が球面座標により表されている。

　このようなオーディオオブジェクト位置情報により示されるオーディオオブジェクトの聴取空間内の位置は、所定の時間区間ごとに変化する物理量である。コンテンツの再生時には、オーディオオブジェクト位置情報の変化に応じて、オーディオオブジェクトの音像定位位置を移動させることができる。

〈レンダリング手法の選択について〉
　次に、レンダリング手法選択部５１によるレンダリング手法の選択の具体的な例について、図６乃至図８を参照して説明する。

　なお、図６乃至図８において、互いに対応する部分には同一の符号を付してあり、その説明は適宜省略する。また、本技術では、聴取空間が３次元空間であることを想定しているが、本技術は聴取空間が２次元平面である場合においても適用可能である。図６乃至図８では、説明を簡単にするため聴取空間が２次元平面であるものとして説明を行う。

　例えば図６に示すように、原点Oの位置にコンテンツの音を聴取するユーザである聴取者U21がおり、原点Oを中心とする半径R_SPの円の周上にコンテンツの音の再生に用いられる５個のスピーカSP11乃至スピーカSP15が配置されているとする。すなわち、原点Oを含む水平面上において、原点Oから各スピーカSP11乃至スピーカSP15までの距離が半径R_SPとなっている。

　また、聴取空間内には、２つのオーディオオブジェクトOBJ1とオーディオオブジェクトOBJ2が存在している。そして原点O、つまり聴取者U21からオーディオオブジェクトOBJ1までの距離がR_OBJ1となっており、原点OからオーディオオブジェクトOBJ2までの距離がR_OBJ2となっている。

　特に、ここではオーディオオブジェクトOBJ1は、各スピーカが配置された円の外側に位置しているため、距離R_OBJ1は半径R_SPよりも大きい値となっている。

　これに対して、オーディオオブジェクトOBJ2は、各スピーカが配置された円の内側に位置しているため、距離R_OBJ2は半径R_SPよりも小さい値となっている。

　これらの距離R_OBJ1および距離R_OBJ2は、オーディオオブジェクトOBJ1およびオーディオオブジェクトOBJ2のそれぞれのオーディオオブジェクト位置情報に含まれる半径position_radius[i]となっている。

　レンダリング手法選択部５１は、予め定められている半径R_SPと、距離R_OBJ1および距離R_OBJ2とを比較することで、オーディオオブジェクトOBJ1およびオーディオオブジェクトOBJ2について行うレンダリング手法を選択する。

　具体的には、例えば原点Oからオーディオオブジェクトまでの距離が半径R_SP以上である場合にはレンダリング手法としてパニング処理が選択される。

　これに対して、原点Oからオーディオオブジェクトまでの距離が半径R_SP未満である場合にはレンダリング手法として頭部伝達関数処理が選択される。

　したがって、この例では距離R_OBJ1が半径R_SP以上であるオーディオオブジェクトOBJ1についてはパニング処理が選択され、そのオーディオオブジェクトOBJ1のオーディオオブジェクト位置情報およびオーディオオブジェクト信号がパニング処理部５２へと供給される。そしてパニング処理部５２では、オーディオオブジェクトOBJ1に対して、パニング処理として例えば図１を参照して説明したVBAPなどの処理が行われる。

　一方、距離R_OBJ2が半径R_SP未満であるオーディオオブジェクトOBJ2については頭部伝達関数処理が選択され、そのオーディオオブジェクトOBJ2のオーディオオブジェクト位置情報およびオーディオオブジェクト信号が頭部伝達関数処理部５３へと供給される。

　そして、頭部伝達関数処理部５３では、オーディオオブジェクトOBJ2に対して、例えば図７に示すように頭部伝達関数を用いた頭部伝達関数処理が行われ、オーディオオブジェクトOBJ2についての頭部伝達関数処理出力信号が生成される。

　図７に示す例では、まず頭部伝達関数処理部５３は、オーディオオブジェクトOBJ2のオーディオオブジェクト位置情報に基づいて、そのオーディオオブジェクトOBJ2の聴取空間内の位置に対して予め用意された左右の各耳の頭部伝達関数、より詳細には頭部伝達関数のフィルタを読み出す。

　ここでは、例えばスピーカSP11乃至スピーカSP15が配置された円の内側（原点O側）の領域のいくつかの点がサンプリング点とされている。そして、それらのサンプリング点ごとに、サンプリング点から原点Oにいる聴取者U21の耳までの音の伝達特性を示す頭部伝達関数が左右の耳ごとに予め用意されて頭部伝達関数処理部５３に保持されているものとする。

　頭部伝達関数処理部５３は、オーディオオブジェクトOBJ2の位置から最も近いサンプリング点の頭部伝達関数を、そのオーディオオブジェクトOBJ2の位置の頭部伝達関数として読み出す。なお、オーディオオブジェクトOBJ2の位置の近傍にあるいくつかのサンプリング点の頭部伝達関数から、線形補間等の補間処理によってオーディオオブジェクトOBJ2の位置の頭部伝達関数が生成されてもよい。

　その他、例えばオーディオオブジェクトOBJ2の位置についての頭部伝達関数が入力ビットストリームのメタデータに格納されていてもよい。そのような場合、レンダリング手法選択部５１は、コアデコード処理部２１から供給されたオーディオオブジェクト位置情報と頭部伝達関数を、メタデータとして頭部伝達関数処理部５３に供給する。

　以下では、オーディオオブジェクトの位置についての頭部伝達関数を、特にオブジェクト位置頭部伝達関数とも称することとする。

　次に、頭部伝達関数処理部５３は、オーディオオブジェクトOBJ2の聴取空間内の位置に基づいて、聴取者U21の左右の耳について、それらの耳に対して提示する音の信号が出力オーディオ信号（頭部伝達関数処理出力信号）として供給されるスピーカ（チャンネル）を選択する。以下では、聴取者U21の左または右の耳に対して提示する音の出力オーディオ信号の出力先となるスピーカを、特に選択スピーカとも称することとする。

　ここでは、例えば頭部伝達関数処理部５３は、聴取者U21から見てオーディオオブジェクトOBJ2の左側にある、オーディオオブジェクトOBJ2に最も近い位置に配置されたスピーカSP11を、左耳についての選択スピーカとして選択する。同様に、頭部伝達関数処理部５３は、聴取者U21から見てオーディオオブジェクトOBJ2の右側にある、オーディオオブジェクトOBJ2に最も近い位置に配置されたスピーカSP13を、右耳についての選択スピーカとして選択する。

　このようにして左右の耳の選択スピーカを選択すると、頭部伝達関数処理部５３は、それらの選択スピーカの配置位置についての頭部伝達関数、より詳細には頭部伝達関数のフィルタを求める。

　具体的には、例えば頭部伝達関数処理部５３は、予め保持している各サンプリング点の頭部伝達関数に基づいて、適宜、補間処理を行ってスピーカSP11およびスピーカSP13の各位置における頭部伝達関数を生成する。

　なお、その他、各スピーカの配置位置についての頭部伝達関数が予め頭部伝達関数処理部５３に保持されているようにしてもよいし、選択スピーカの配置位置の頭部伝達関数がメタデータとして入力ビットストリームに格納されているようにしてもよい。

　以下では、選択スピーカの配置位置の頭部伝達関数を、特にスピーカ位置頭部伝達関数とも称することとする。

　また、頭部伝達関数処理部５３は、オーディオオブジェクトOBJ2のオーディオオブジェクト信号と、左耳のオブジェクト位置頭部伝達関数とを畳み込むとともに、その結果得られた信号と、左耳のスピーカ位置頭部伝達関数とを畳み込んで、左耳用オーディオ信号を生成する。

　同様にして、頭部伝達関数処理部５３は、オーディオオブジェクトOBJ2のオーディオオブジェクト信号と、右耳のオブジェクト位置頭部伝達関数とを畳み込むとともに、その結果得られた信号と、右耳のスピーカ位置頭部伝達関数とを畳み込んで、右耳用オーディオ信号を生成する。

　これらの左耳用オーディオ信号および右耳用オーディオ信号は、聴取者U21に対して、あたかもオーディオオブジェクトOBJ2の位置から音が聞こえてくるかのように知覚させるように、オーディオオブジェクトOBJ2の音を提示するための信号である。すなわち、オーディオオブジェクトOBJ2の位置への音像定位を実現するオーディオ信号である。

　例えば左耳用オーディオ信号に基づいてスピーカSP11により音を出力することで、聴取者U21の左耳に対して再生音O2_SP11を提示すると同時に、右耳用オーディオ信号に基づいてスピーカSP13により音を出力することで、聴取者U21の右耳に対して再生音O2_SP13を提示したとする。この場合、聴取者U21には、あたかもオーディオオブジェクトOBJ2の位置から、そのオーディオオブジェクトOBJ2の音が聞こえてくるかのように知覚される。

　図７では、スピーカSP11と聴取者U21の左耳とを結ぶ矢印により再生音O2_SP11が表されており、スピーカSP13と聴取者U21の右耳とを結ぶ矢印により再生音O2_SP13が表されている。

　しかし、実際に左耳用オーディオ信号に基づいてスピーカSP11により音を出力すると、その音は聴取者U21の左耳だけでなく右耳にも到達することになる。

　図７では、左耳用オーディオ信号に基づいてスピーカSP11から音を出力した際に、スピーカSP11から聴取者U21の右耳へと伝搬する再生音O2_SP11-CTが、スピーカSP11と聴取者U21の右耳とを結ぶ矢印により表されている。

　この再生音O2_SP11-CTは、聴取者U21の右耳へと漏れ聞こえる再生音O2_SP11のクロストーク成分となっている。すなわち、再生音O2_SP11-CTは、聴取者U21の目的とは異なる耳（ここでは右耳）へと到達する再生音O2_SP11のクロストーク成分である。

　同様に、右耳用オーディオ信号に基づいてスピーカSP13により音を出力すると、その音は目的とする聴取者U21の右耳だけでなく、目的外である聴取者U21の左耳にも到達することになる。

　図７では、右耳用オーディオ信号に基づいてスピーカSP13から音を出力した際に、スピーカSP13から聴取者U21の左耳へと伝搬する再生音O2_SP13-CTが、スピーカSP13と聴取者U21の左耳とを結ぶ矢印により表されている。この再生音O2_SP13-CTは、再生音O2_SP13のクロストーク成分となっている。

　クロストーク成分である再生音O2_SP11-CTおよび再生音O2_SP13-CTは、音像再現性を著しく阻害する要因となるため、一般的にはクロストーク補正を含めた空間伝達関数補正処理が行われる。

　すなわち、頭部伝達関数処理部５３は、左耳用オーディオ信号に基づいて、クロストーク成分である再生音O2_SP11-CTをキャンセルするためのキャンセル信号を生成し、左耳用オーディオ信号とキャンセル信号とに基づいて、最終的な左耳用オーディオ信号を生成する。そして、このようにして得られた、クロストークキャンセル成分と空間伝達関数補正成分が含まれた最終的な左耳用オーディオ信号が、スピーカSP11に対応するチャンネルの頭部伝達関数処理出力信号とされる。

　同様にして、頭部伝達関数処理部５３は、右耳用オーディオ信号に基づいて、クロストーク成分である再生音O2_SP13-CTをキャンセルするためのキャンセル信号を生成し、右耳用オーディオ信号とキャンセル信号とに基づいて、最終的な右耳用オーディオ信号を生成する。そして、このようにして得られたクロストークキャンセル成分と空間伝達関数補正成分が含まれた最終的な右耳用オーディオ信号が、スピーカSP13に対応するチャンネルの頭部伝達関数処理出力信号とされる。

　以上のような左耳用オーディオ信号および右耳用オーディオ信号を生成するという、クロストーク補正処理を含めたスピーカへのレンダリングの処理は、トランスオーラル処理と呼ばれている。このようなトランスオーラル処理については、例えば特開２０１６－１４００３９号公報などに詳細に記載されている。

　なお、ここでは選択スピーカとして、左右の耳ごとに１つのスピーカが選択される例について説明したが、選択スピーカとして、左右の耳ごとに２以上の複数のスピーカが選択され、それらの選択スピーカごとに左耳用オーディオ信号や右耳用オーディオ信号が生成されるようにしてもよい。例えばスピーカSP11乃至スピーカSP15など、スピーカシステムを構成する全スピーカが選択スピーカとして選択されてもよい。

　さらに、例えば出力オーディオ信号の出力先が左右２チャンネルのヘッドフォン等の再生装置である場合には、頭部伝達関数処理としてバイノーラル処理が行われるようにしてもよい。バイノーラル処理は、頭部伝達関数を用いて、オーディオオブジェクト（オーディオオブジェクト信号）を左右の耳に装着されるヘッドフォン等の出力部にレンダリングするレンダリング処理である。

　この場合、例えば聴取位置からオーディオオブジェクトまでの距離が所定の距離以上である場合には、レンダリング手法として、左右の各チャンネルにゲインを分配するパニング処理が選択される。一方、聴取位置からオーディオオブジェクトまでの距離が所定の距離未満である場合には、レンダリング手法としてバイノーラル処理が選択される。

　ところで、図６の説明では、原点O（聴取者U21）からオーディオオブジェクトまでの距離が半径R_SP以上であるか否かに応じて、そのオーディオオブジェクトのレンダリング手法として、パニング処理または頭部伝達関数処理の何れかが選択されると説明した。

　しかし、例えば図８に示すようにオーディオオブジェクトが半径R_SP以上の距離の位置から、時間とともに徐々に聴取者U21へと近づいてくることもある。

　図８では、所定の時刻においては聴取者U21から見て半径R_SPよりも長い距離の位置にあったオーディオオブジェクトOBJ2が、時間とともに聴取者U21に近づいていく様子が描かれている。

　ここで、原点Oを中心とする半径R_SPの円の内側の領域をスピーカ半径領域RG11とし、原点Oを中心とする半径R_HRTFの円の内側の領域をHRTF領域RG12とし、スピーカ半径領域RG11のうちのHRTF領域RG12ではない領域を遷移領域R_TSとする。

　すなわち、遷移領域R_TSは原点O（聴取者U21）からの距離が、半径R_HRTFから半径R_SPまでの間の距離となる領域である。

　いま、例えばオーディオオブジェクトOBJ2がスピーカ半径領域RG11外の位置から、徐々に聴取者U21側へと移動していき、あるタイミングで遷移領域R_TS内の位置に到達し、その後、さらに移動してHRTF領域RG12内へと到達したとする。

　このような場合、オーディオオブジェクトOBJ2までの距離が半径R_SP以上であるか否かによってレンダリング手法を選択すると、オーディオオブジェクトOBJ2が遷移領域R_TSの内側に到達した時点で、急にレンダリング手法が切り替わることになる。すると、オーディオオブジェクトOBJ2の音に不連続点が発生し、違和感が生じてしまうおそれがある。

　そこで、レンダリング手法の切り替わりのタイミングにおいて違和感が生じないように、オーディオオブジェクトが遷移領域R_TS内に位置しているときには、レンダリング手法として、パニング処理と頭部伝達関数処理の両方が選択されるようにしてもよい。

　この場合、オーディオオブジェクトがスピーカ半径領域RG11の境界上またはスピーカ半径領域RG11外にあるときには、レンダリング手法としてパニング処理が選択される。

　また、オーディオオブジェクトが遷移領域R_TS内にあるとき、すなわち聴取位置からオーディオオブジェクトまでの距離が、半径R_HRTF以上かつ半径R_SP未満であるときには、レンダリング手法としてパニング処理と頭部伝達関数処理の両方が選択される。

　そして、オーディオオブジェクトがHRTF領域RG12内にあるときには、レンダリング手法として頭部伝達関数処理が選択される。

　特に、オーディオオブジェクトが遷移領域R_TS内にあるときには、オーディオオブジェクトの位置に応じて、補正処理における頭部伝達関数処理出力信号とパニング処理出力信号の混合比（ブレンド比）を変化させることで、時間方向におけるオーディオオブジェクトの音の不連続点の発生を防止することができる。

　このとき、オーディオオブジェクトが遷移領域R_TS内における、スピーカ半径領域RG11の境界位置に近いほど、最終的な出力オーディオ信号は、よりパニング処理出力信号に近いものとなるように補正処理が行われる。

　逆に、オーディオオブジェクトが遷移領域R_TS内における、HRTF領域RG12の境界位置に近いほど、最終的な出力オーディオ信号は、より頭部伝達関数処理出力信号に近いものとなるように補正処理が行われる。

　このようにすることで、時間方向におけるオーディオオブジェクトの音の不連続点の発生を防止し、より自然で違和感のない音の再生を実現することができる。

　ここで、補正処理の具体的な例として、オーディオオブジェクトOBJ2が遷移領域R_TS内における、原点Oからの距離がR₀（但し、R_HRTF≦R₀＜R_SP）である位置にある場合について説明する。

　なお、ここでは、説明を簡単にするため出力オーディオ信号として、スピーカSP11に対応するチャンネルおよびスピーカSP13に対応するチャンネルの信号のみが生成される場合を例として説明を行う。

　例えばパニング処理によって生成された、スピーカSP11に対応するチャンネルのパニング処理出力信号をO2_PAN11(R₀)とし、スピーカSP13に対応するチャンネルのパニング処理出力信号をO2_PAN13(R₀)とする。

　また、頭部伝達関数処理によって生成された、スピーカSP11に対応するチャンネルの頭部伝達関数処理出力信号をO2_HRTF11(R₀)とし、スピーカSP13に対応するチャンネルの頭部伝達関数処理出力信号をO2_HRTF13(R₀)とする。

　この場合、スピーカSP11に対応するチャンネルの出力オーディオ信号O2_SP11(R₀)、およびスピーカSP13に対応するチャンネルの出力オーディオ信号O2_SP13(R₀)は、以下の式（３）を計算することで得ることができる。すなわち、ミキシング処理部５４では、以下の式（３）の演算が補正処理として行われる。

　このようにオーディオオブジェクトが遷移領域R_TS内にある場合には、そのオーディオオブジェクトまでの距離R₀に応じた按分比でパニング処理出力信号と頭部伝達関数処理出力信号を加算（合成）して出力オーディオ信号とする補正処理が行われる。換言すれば、距離R₀に応じてパニング処理の出力と頭部伝達関数処理の出力とが按分される。

　このようにすることで、オーディオオブジェクトがスピーカ半径領域RG11の境界位置を跨いで移動する場合、例えばスピーカ半径領域RG11の外側から内側へと移動する場合においても不連続点のない滑らかな音を再生することができる。

　なお、以上においては、聴取者のいる聴取位置を原点Oとして、その聴取位置が常に同じ位置である場合を例として説明を行ったが、時間とともに聴取者が移動するようにしてもよい。そのような場合、各時刻における聴取者の位置を原点Oとして、原点Oから見たオーディオオブジェクトやスピーカの相対的な位置を計算し直せばよい。

〈オーディオ出力処理の説明〉
　次に、信号処理装置１１の具体的な動作について説明する。すなわち、以下、図９のフローチャートを参照して、信号処理装置１１によるオーディオ出力処理について説明する。なお、ここでは説明を簡単にするため、入力ビットストリームには１つ分のオーディオオブジェクトのデータのみが格納されているものとして説明を行う。

　ステップＳ１１において、コアデコード処理部２１は、受信した入力ビットストリームを復号（デコード）し、その結果得られたオーディオオブジェクト位置情報およびオーディオオブジェクト信号をレンダリング手法選択部５１に供給する。

　ステップＳ１２において、レンダリング手法選択部５１は、コアデコード処理部２１から供給されたオーディオオブジェクト位置情報に基づいて、オーディオオブジェクトのレンダリングとしてパニング処理を行うか否かを判定する。

　例えばステップＳ１２では、オーディオオブジェクト位置情報により示される聴取者からオーディオオブジェクトまでの距離が、図８を参照して説明した半径R_HRTF以上である場合、パニング処理を行うと判定される。すなわち、レンダリング手法として少なくともパニング処理が選択される。

　なお、その他、信号処理装置１１を操作するユーザ等により、パニング処理を行うか否かを指示する指示入力があり、その指示入力によりパニング処理の実行が指定（指示）された場合に、ステップＳ１２でパニング処理を行うと判定されてもよい。この場合、ユーザ等による指示入力によって、実行されるレンダリング手法が選択されることになる。

　ステップＳ１２においてパニング処理を行わないと判定された場合、ステップＳ１３の処理は行われず、その後、処理はステップＳ１４へと進む。

　これに対して、ステップＳ１２においてパニング処理を行うと判定された場合、レンダリング手法選択部５１は、コアデコード処理部２１から供給されたオーディオオブジェクト位置情報およびオーディオオブジェクト信号をパニング処理部５２に供給し、その後、処理はステップＳ１３へと進む。

　ステップＳ１３において、パニング処理部５２は、レンダリング手法選択部５１から供給されたオーディオオブジェクト位置情報およびオーディオオブジェクト信号に基づいてパニング処理を行い、パニング処理出力信号を生成する。

　例えばステップＳ１３では、パニング処理として上述したVBAP等が行われる。パニング処理部５２は、パニング処理により得られたパニング処理出力信号をミキシング処理部５４に供給する。

　ステップＳ１３の処理が行われたか、またはステップＳ１２においてパニング処理を行わないと判定された場合、ステップＳ１４の処理が行われる。

　ステップＳ１４において、レンダリング手法選択部５１は、コアデコード処理部２１から供給されたオーディオオブジェクト位置情報に基づいて、オーディオオブジェクトのレンダリングとして頭部伝達関数処理を行うか否かを判定する。

　例えばステップＳ１４では、オーディオオブジェクト位置情報により示される聴取者からオーディオオブジェクトまでの距離が、図８を参照して説明した半径R_SP未満である場合、頭部伝達関数処理を行うと判定される。すなわち、レンダリング手法として、少なくとも頭部伝達関数処理が選択される。

　なお、その他、信号処理装置１１を操作するユーザ等により、頭部伝達関数処理を行うか否かを指示する指示入力があり、その指示入力により頭部伝達関数処理の実行が指定（指示）された場合に、ステップＳ１４で頭部伝達関数処理を行うと判定されてもよい。

　ステップＳ１４において頭部伝達関数処理を行わないと判定された場合、ステップＳ１５乃至ステップＳ１９の処理は行われず、その後、処理はステップＳ２０へと進む。

　これに対して、ステップＳ１４において頭部伝達関数処理を行うと判定された場合、レンダリング手法選択部５１は、コアデコード処理部２１から供給されたオーディオオブジェクト位置情報およびオーディオオブジェクト信号を頭部伝達関数処理部５３に供給し、その後、処理はステップＳ１５へと進む。

　ステップＳ１５において、頭部伝達関数処理部５３は、レンダリング手法選択部５１から供給されたオーディオオブジェクト位置情報に基づいて、オーディオオブジェクトの位置のオブジェクト位置頭部伝達関数を取得する。

　例えばオブジェクト位置頭部伝達関数は、予め保持されているものが読み出されてもよいし、予め保持されている複数の頭部伝達関数から補間処理により求められてもよいし、入力ビットストリームから読み出されてもよい。

　ステップＳ１６において、頭部伝達関数処理部５３は、レンダリング手法選択部５１から供給されたオーディオオブジェクト位置情報に基づいて選択スピーカを選択し、その選択スピーカの位置のスピーカ位置頭部伝達関数を取得する。

　例えばスピーカ位置頭部伝達関数は、予め保持されているものが読み出されてもよいし、予め保持されている複数の頭部伝達関数から補間処理により求められてもよいし、入力ビットストリームから読み出されてもよい。

　ステップＳ１７において、頭部伝達関数処理部５３は、左右の耳ごとに、レンダリング手法選択部５１から供給されたオーディオオブジェクト信号と、ステップＳ１５で得られたオブジェクト位置頭部伝達関数とを畳み込む。

　ステップＳ１８において、頭部伝達関数処理部５３は、左右の耳ごとに、ステップＳ１７で得られたオーディオ信号と、スピーカ位置頭部伝達関数とを畳み込む。これにより、左耳用オーディオ信号と右耳用オーディオ信号が得られる。

　ステップＳ１９において、頭部伝達関数処理部５３は、左耳用オーディオ信号および右耳用オーディオ信号に基づいて頭部伝達関数処理出力信号を生成し、ミキシング処理部５４に供給する。例えばステップＳ１９では、図７を参照して説明したように適宜、キャンセル信号が生成されて、最終的な頭部伝達関数処理出力信号が生成される。

　以上のステップＳ１５乃至ステップＳ１９の処理により、頭部伝達関数処理として例えば図８を参照して説明したトランスオーラル処理が行われて、頭部伝達関数処理出力信号が生成される。なお、例えば出力オーディオ信号の出力先がスピーカではなくヘッドフォン等の再生装置である場合には、頭部伝達関数処理としてバイノーラル処理等が行われ、頭部伝達関数処理出力信号が生成される。

　ステップＳ１９の処理が行われたか、またはステップＳ１４において頭部伝達関数処理を行わないと判定されると、その後、ステップＳ２０の処理が行われる。

　ステップＳ２０において、ミキシング処理部５４はパニング処理部５２から供給されたパニング処理出力信号と、頭部伝達関数処理部５３から供給された頭部伝達関数処理出力信号とを合成し、出力オーディオ信号を生成する。

　例えばステップＳ２０では、上述した式（３）の計算が補正処理として行われ、出力オーディオ信号が生成される。

　なお、例えばステップＳ１３の処理が行われ、ステップＳ１５乃至ステップＳ１９の処理が行われなかった場合や、ステップＳ１５乃至ステップＳ１９の処理が行われ、ステップＳ１３の処理が行われなかった場合には補正処理は行われない。

　すなわち、例えばレンダリング処理としてパニング処理のみが行われた場合には、その結果得られたパニング処理出力信号がそのまま出力オーディオ信号とされる。一方、レンダリング処理として頭部伝達関数処理のみが行われた場合には、その結果得られた頭部伝達関数処理出力信号がそのまま出力オーディオ信号とされる。

　なお、ここでは入力ビットストリームには、１つのオーディオオブジェクトのデータのみが含まれる例について説明したが、複数のオーディオオブジェクトのデータが含まれている場合には、ミキシング処理部５４によりミキシング処理が行われる。すなわち、各オーディオオブジェクトについて得られた出力オーディオ信号がチャンネルごとに加算（合成）されて、最終的な１つの出力オーディオ信号とされる。

　このようにして出力オーディオ信号が得られると、ミキシング処理部５４は、得られた出力オーディオ信号を後段に出力し、オーディオ出力処理は終了する。

　以上のようにして信号処理装置１１は、オーディオオブジェクト位置情報に基づいて、つまり聴取位置からオーディオオブジェクトまでの距離に基づいて、複数のレンダリング手法のなかから１以上のレンダリング手法を選択する。そして、信号処理装置１１は、選択したレンダリング手法によりレンダリングを行って出力オーディオ信号を生成する。

　このようにすることで、少ない演算量で音像の再現性を向上させることができる。

　すなわち、例えばオーディオオブジェクトが聴取位置から遠い位置にあるときには、レンダリング手法としてパニング処理が選択される。この場合、オーディオオブジェクトは聴取位置から十分遠い位置にあるので、聴取者の左右の耳への音の到達時間の差は考慮する必要がなく、少ない演算量でも十分な再現性で音像を定位させることができる。

　一方、例えばオーディオオブジェクトが聴取位置に近い位置にあるときには、レンダリング手法として頭部伝達関数処理が選択される。この場合、多少演算量は増えるものの十分な再現性で音像を定位させることができる。

　このように聴取位置からオーディオオブジェクトまでの距離に応じて、適切にパニング処理や頭部伝達関数処理を選択することで、全体としてみれば演算量を低く抑えつつ、十分な再現性での音像定位を実現することができる。換言すれば、少ない演算量で音像の再現性を向上させることができる。

　なお、以上においてはオーディオオブジェクトが遷移領域R_TS内にあるときには、レンダリング手法としてパニング処理と頭部伝達関数処理が選択される例について説明した。

　しかし、オーディオオブジェクトまでの距離が半径R_SP以上である場合にはレンダリング手法としてパニング処理が選択され、オーディオオブジェクトまでの距離が半径R_SP未満である場合にはレンダリング手法として頭部伝達関数処理が選択されてもよい。

　この場合、例えばレンダリング手法として頭部伝達関数処理が選択されたときには、聴取位置からオーディオオブジェクトまでの距離に応じた頭部伝達関数が用いられて頭部伝達関数処理が行われるようにすれば、不連続点の発生を防止することができる。

　具体的には、頭部伝達関数処理部５３では、オーディオオブジェクトまでの距離が遠いほど、すなわちオーディオオブジェクトの位置がスピーカ半径領域RG11の境界位置に近くなるほど、左右の耳の頭部伝達関数が略同じものとなっていくようにすればよい。

　換言すれば、頭部伝達関数処理部５３において、オーディオオブジェクトまでの距離が半径R_SPに近いほど、左耳用の頭部伝達関数と右耳用の頭部伝達関数の類似度合いが高くなるように、頭部伝達関数処理に用いる左右の各耳の頭部伝達関数が選択される。

　例えば頭部伝達関数の類似度合いが高くなるとは、左耳用の頭部伝達関数と右耳用の頭部伝達関数との差が小さくなることなどとすることができる。この場合、例えばオーディオオブジェクトまでの距離が略半径R_SPとなったときには、左右の耳で共通の頭部伝達関数が用いられることになる。

　逆に、頭部伝達関数処理部５３では、オーディオオブジェクトまでの距離が短いほど、つまりオーディオオブジェクトが聴取位置に近いほど、左右の各耳の頭部伝達関数として、そのオーディオオブジェクトの位置について実際の測定により得られた頭部伝達関数に近いものが用いられる。

　このようにすれば、不連続点の発生を防止し、違和感のない自然な音の再生を実現することができる。これは、左右の各耳の頭部伝達関数として同じものを用いて頭部伝達関数処理出力信号を生成した場合、その頭部伝達関数処理出力信号は、パニング処理出力信号と同じものとなるからである。

　したがって、聴取位置からオーディオオブジェクトまでの距離に応じた、左右の各耳の頭部伝達関数を用いることで、上述した式（３）の補正処理と同様の効果を得ることができる。

　さらに、レンダリング手法を選択するにあたり、信号処理装置１１のリソースの空き具合やオーディオオブジェクトの重要度なども考慮するようにしてもよい。

　例えばレンダリング手法選択部５１は、信号処理装置１１のリソースの余裕が十分にある場合には、レンダリングに多くのリソースを割り当てることが可能であるので、レンダリング手法として頭部伝達関数処理を選択する。逆に、レンダリング手法選択部５１は、信号処理装置１１のリソースの空き具合が少ないときには、レンダリング手法としてパニング処理を選択する。

　また、例えばレンダリング手法選択部５１は、処理対象のオーディオオブジェクトの重要度が所定の重要度以上である場合には、レンダリング手法として頭部伝達関数処理を選択する。これに対して、レンダリング手法選択部５１は、処理対象のオーディオオブジェクトの重要度が所定の重要度未満である場合には、レンダリング手法としてパニング処理を選択する。

　これにより、重要度の高いオーディオオブジェクトについては、より高い再現性で音像を定位させ、重要度の低いオーディオオブジェクトについては、ある程度の再現性で音像を定位させて処理量を削減することができる。その結果、全体としてみれば、少ない演算量で音像の再現性を向上させることができる。

　なお、オーディオオブジェクトの重要度に基づいてレンダリング手法を選択する場合、各オーディオオブジェクトの重要度が、それらのオーディオオブジェクトのメタデータとして入力ビットストリームに含まれているようにしてもよい。また、オーディオオブジェクトの重要度が外部の操作入力等により指定されてもよい。

〈第２の実施の形態〉
〈頭部伝達関数処理について〉
　また、以上においては、頭部伝達関数処理としてトランスオーラル処理が行われる例について説明した。つまり頭部伝達関数処理ではスピーカへのレンダリングが行われる例について説明した。

　しかし、その他、頭部伝達関数処理として、例えば仮想スピーカという概念を用いてヘッドフォン再生のためのレンダリングが行われるようにしてもよい。

　例えば多数のオーディオオブジェクトをヘッドフォン等にレンダリングする場合、スピーカへのレンダリングを行う場合と同様に、頭部伝達関数処理を行うための計算コストは大きなものとなる。

　MPEG-H Part 3:3D audio規格におけるヘッドフォンレンダリングにおいても、全てのオーディオオブジェクトは一旦、VBAPにより仮想スピーカにパニング処理（レンダリング）された後、仮想スピーカからの頭部伝達関数が用いられて、ヘッドフォンへとレンダリングされる。

　このように、出力オーディオ信号の出力先が左右２チャンネルの再生を行うヘッドフォン等の再生装置であり、一旦、仮想スピーカへのレンダリングを行った後、さらに頭部伝達関数を用いた再生装置へのレンダリングが行われる場合にも本技術は適用可能である。

　そのような場合、レンダリング手法選択部５１は、例えば図８に示した各スピーカSP11乃至スピーカSP15を仮想スピーカとみなして、レンダリング時のレンダリング手法を複数のレンダリング手法のなかから１以上選択すればよい。

　例えば聴取位置からオーディオオブジェクトまでの距離が半径R_SP以上である場合、つまり聴取位置から見てオーディオオブジェクトが仮想スピーカの位置よりも離れた遠い位置にある場合には、レンダリング手法としてパニング処理が選択されるようにすればよい。

　この場合、パニング処理により仮想スピーカへのレンダリングが行われる。そして、パニング処理により得られたオーディオ信号と、仮想スピーカから聴取位置への左右の耳ごとの頭部伝達関数とに基づいて、頭部伝達関数処理により、さらにヘッドフォン等の再生装置へのレンダリングが行われて出力オーディオ信号が生成される。

　これに対して、オーディオオブジェクトまでの距離が半径R_SP未満である場合には、レンダリング手法として頭部伝達関数処理が選択されるようにすればよい。この場合、頭部伝達関数処理としてのバイノーラル処理により、直接、ヘッドフォン等の再生装置へのレンダリングが行われて出力オーディオ信号が生成される。

　このようにすることで、全体としてレンダリングの処理量を少なく抑えながら高い再現性での音像定位を実現することができる。すなわち、少ない演算量で音像の再現性を向上させることができる。

〈第３の実施の形態〉
〈レンダリング手法の選択について〉
　また、レンダリング手法を選択するにあたり、すなわちレンダリング手法を切り替えるにあたり、フレーム等の各時刻においてレンダリング手法を選択するのに必要となるパラメータの一部または全部が入力ビットストリームに格納されて伝送されてもよい。

　そのような場合、本技術に基づく符号化フォーマット、すなわちオーディオオブジェクトのメタデータは、例えば図１０に示すようになる。

　図１０に示す例では、上述した図４に示した例に加えて、さらに「radius_hrtf」および「radius_panning」がメタデータに格納されている。

　ここで、radius_hrtfは、レンダリング手法として頭部伝達関数処理を選択するか否かの判定に用いられる、聴取位置（原点O）からの距離を示す情報（パラメータ）である。これに対して、radius_panningは、レンダリング手法としてパニング処理を選択するか否かの判定に用いられる、聴取位置（原点O）からの距離を示す情報（パラメータ）である。

　したがって、図１０に示す例では、メタデータには各オーディオオブジェクトのオーディオオブジェクト位置情報と、距離radius_hrtfと、距離radius_panningとが格納されており、これらの情報がメタデータとしてコアデコード処理部２１により読み出され、レンダリング手法選択部５１へと供給されることになる。

　この場合、レンダリング手法選択部５１は、各スピーカまでの距離を示す半径R_SPによらず、聴取者からオーディオオブジェクトまでの距離が距離radius_hrtf以下であれば、レンダリング手法として頭部伝達関数処理を選択する。また、レンダリング手法選択部５１は、聴取者からオーディオオブジェクトまでの距離が距離radius_hrtfより長ければ、レンダリング手法として頭部伝達関数処理を選択しない。

　同様に、レンダリング手法選択部５１は、聴取者からオーディオオブジェクトまでの距離が距離radius_panning以上であれば、レンダリング手法としてパニング処理を選択する。また、レンダリング手法選択部５１は、聴取者からオーディオオブジェクトまでの距離が距離radius_panningより短ければ、レンダリング手法としてパニング処理を選択しない。

　なお、距離radius_hrtfと距離radius_panningは同じ距離であってもよいし、互いに異なる距離であってもよい。特に、距離radius_hrtfが距離radius_panningよりも大きい場合には、聴取者からオーディオオブジェクトまでの距離が距離radius_panning以上かつ距離radius_hrtf以下であるときには、レンダリング手法としてパニング処理と頭部伝達関数処理の両方が選択されることになる。

　この場合、ミキシング処理部５４では、パニング処理出力信号と頭部伝達関数処理出力信号とに基づいて、上述した式（３）の計算が行われて出力オーディオ信号が生成される。すなわち、補正処理により、聴取者からオーディオオブジェクトまでの距離に応じて、パニング処理出力信号と頭部伝達関数処理出力信号とが按分されて出力オーディオ信号が生成される。

〈第３の実施の形態の変形例１〉
〈レンダリング手法の選択について〉
　さらに、入力ビットストリームの出力側、つまりコンテンツの制作者側において、オーディオオブジェクトごとにフレーム等の各時刻でのレンダリング手法を選択しておき、その選択結果を示す選択指示情報をメタデータとして入力ビットストリームに格納するようにしてもよい。

　この選択指示情報は、オーディオオブジェクトについて、どのようなレンダリング手法を選択するかの指示を示す情報であり、レンダリング手法選択部５１は、コアデコード処理部２１から供給された選択指示情報に基づいてレンダリング手法を選択する。換言すれば、レンダリング手法選択部５１は、オーディオオブジェクト信号に対して選択指示情報により指定されたレンダリング手法を選択する。

　このように入力ビットストリームに選択指示情報が格納される場合、本技術に基づく符号化フォーマット、すなわちオーディオオブジェクトのメタデータは、例えば図１１に示すようになる。

　図１１に示す例では、上述した図４に示した例に加えて、さらに「flg_rendering_type」がメタデータに格納されている。

　flg_rendering_typeは、どのレンダリング手法を用いるかを示す選択指示情報である。特に、ここでは選択指示情報flg_rendering_typeは、レンダリング手法としてパニング処理を選択するか、または頭部伝達関数処理を選択するかを示すフラグ情報（パラメータ）となっている。

　具体的には、例えば選択指示情報flg_rendering_typeの値「０」は、レンダリング手法としてパニング処理を選択することを示している。これに対して、選択指示情報flg_rendering_typeの値「１」は、レンダリング手法として頭部伝達関数処理を選択することを示している。

　例えばメタデータには、各フレーム（各時刻）についてオーディオオブジェクトごとに、このような選択指示情報flg_rendering_typeが格納されている。

　したがって、図１１に示す例では、メタデータには各オーディオオブジェクトについて、オーディオオブジェクト位置情報と、選択指示情報flg_rendering_typeとが格納されており、これらの情報がメタデータとしてコアデコード処理部２１により読み出され、レンダリング手法選択部５１へと供給されることになる。

　この場合、レンダリング手法選択部５１は、聴取者からオーディオオブジェクトまでの距離によらず、選択指示情報flg_rendering_typeの値に応じてレンダリング手法を選択する。すなわち、レンダリング手法選択部５１は、選択指示情報flg_rendering_typeの値が「０」であればレンダリング手法としてパニング処理を選択し、選択指示情報flg_rendering_typeの値が「１」であればレンダリング手法として頭部伝達関数処理を選択する。

　なお、ここでは選択指示情報flg_rendering_typeの値は「０」または「１」の何れかである例について説明したが、選択指示情報flg_rendering_typeは、３種類以上の複数の値のうちの何れかとされてもよい。例えば選択指示情報flg_rendering_typeの値が「２」である場合には、レンダリング手法としてパニング処理と頭部伝達関数処理が選択されるなどとすることができる。

　以上のように、本技術によれば、例えば第１の実施の形態乃至第３の実施の形態の変形例１で説明したように、オーディオオブジェクトが多数存在する場合でも、演算量を抑えながら高い再現性での音像表現を実現することができる。

　特に、本技術は、実スピーカを用いたスピーカ再生だけでなく、仮想スピーカを用いたレンダリングによるヘッドフォン再生を行う場合においても適用可能である。

　さらに本技術によれば、符号化規格に、つまり入力ビットストリームに、レンダリング手法の選択に必要なパラメータをメタデータとして格納することで、コンテンツ制作者側においてレンダリング手法の選択を制御することが可能となる。

〈コンピュータの構成例〉
　ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図１２は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

　バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

　入力部５０６は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

　以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、本技術は、以下の構成とすることも可能である。

（１）
　オーディオ信号の音像を聴取空間内に定位させるレンダリング処理の手法を、互いに異なる複数の手法のなかから１以上選択するレンダリング手法選択部と、
　前記レンダリング手法選択部によって選択された手法により前記オーディオ信号の前記レンダリング処理を行うレンダリング処理部と
　を備える信号処理装置。
（２）
　前記オーディオ信号は、オーディオオブジェクトのオーディオ信号である
　（１）に記載の信号処理装置。
（３）
　前記複数の手法には、パニング処理が含まれている
　（１）または（２）に記載の信号処理装置。
（４）
　前記複数の手法には、頭部伝達関数を用いた前記レンダリング処理が含まれている
　（１）乃至（３）の何れか一項に記載の信号処理装置。
（５）
　前記頭部伝達関数を用いた前記レンダリング処理は、トランスオーラル処理またはバイノーラル処理である
　（４）に記載の信号処理装置。
（６）
　前記レンダリング手法選択部は、前記聴取空間内における前記オーディオオブジェクトの位置に基づいて前記レンダリング処理の手法を選択する
　（２）に記載の信号処理装置。
（７）
　前記レンダリング手法選択部は、聴取位置から前記オーディオオブジェクトまでの距離が所定の第１の距離以上である場合、前記レンダリング処理の手法としてパニング処理を選択する
　（６）に記載の信号処理装置。
（８）
　前記レンダリング手法選択部は、前記距離が前記第１の距離未満である場合、前記レンダリング処理の手法として頭部伝達関数を用いた前記レンダリング処理を選択する
　（７）に記載の信号処理装置。
（９）
　前記レンダリング処理部は、前記距離が前記第１の距離未満である場合、前記聴取位置から前記オーディオオブジェクトまでの前記距離に応じた前記頭部伝達関数を用いて前記レンダリング処理を行う
　（８）に記載の信号処理装置。
（１０）
　前記レンダリング処理部は、前記距離が前記第１の距離に近くなるほど、左耳用の前記頭部伝達関数と右耳用の前記頭部伝達関数との差が小さくなるように、前記レンダリング処理に用いる前記頭部伝達関数を選択する
　（９）に記載の信号処理装置。
（１１）
　前記レンダリング手法選択部は、前記距離が前記第１の距離とは異なる第２の距離未満である場合、前記レンダリング処理の手法として頭部伝達関数を用いた前記レンダリング処理を選択する
　（７）に記載の信号処理装置。
（１２）
　前記レンダリング手法選択部は、前記距離が前記第１の距離以上かつ前記第２の距離未満である場合、前記レンダリング処理の手法として、前記パニング処理および前記頭部伝達関数を用いた前記レンダリング処理を選択する
　（１１）に記載の信号処理装置。
（１３）
　前記パニング処理により得られた信号と、前記頭部伝達関数を用いた前記レンダリング処理により得られた信号とを合成して出力オーディオ信号を生成する出力オーディオ信号生成部をさらに備える
　（１２）に記載の信号処理装置。
（１４）
　前記レンダリング手法選択部は、前記レンダリング処理の手法として、前記オーディオ信号に対して指定された手法を選択する
　（１）乃至（５）の何れか一項に記載の信号処理装置。
（１５）
　信号処理装置が、
　オーディオ信号の音像を聴取空間内に定位させるレンダリング処理の手法を、互いに異なる複数の手法のなかから１以上選択し、
　選択された手法により前記オーディオ信号の前記レンダリング処理を行う
　信号処理方法。
（１６）
　オーディオ信号の音像を聴取空間内に定位させるレンダリング処理の手法を、互いに異なる複数の手法のなかから１以上選択し、
　選択された手法により前記オーディオ信号の前記レンダリング処理を行う
　ステップを含む処理をコンピュータに実行させるプログラム。

　１１　信号処理装置，　２１　コアデコード処理部，　２２　レンダリング処理部，　５１　レンダリング手法選択部，　５２　パニング処理部，　５３　頭部伝達関数処理部，　５４　ミキシング処理部

Claims

　オーディオ信号の音像を聴取空間内に定位させるレンダリング処理の手法を、互いに異なる複数の手法のなかから１以上選択するレンダリング手法選択部と、
　前記レンダリング手法選択部によって選択された手法により前記オーディオ信号の前記レンダリング処理を行うレンダリング処理部と
　を備える信号処理装置。
　前記オーディオ信号は、オーディオオブジェクトのオーディオ信号である
　請求項１に記載の信号処理装置。
　前記複数の手法には、パニング処理が含まれている
　請求項１に記載の信号処理装置。
　前記複数の手法には、頭部伝達関数を用いた前記レンダリング処理が含まれている
　請求項１に記載の信号処理装置。
　前記頭部伝達関数を用いた前記レンダリング処理は、トランスオーラル処理またはバイノーラル処理である
　請求項４に記載の信号処理装置。
　前記レンダリング手法選択部は、前記聴取空間内における前記オーディオオブジェクトの位置に基づいて前記レンダリング処理の手法を選択する
　請求項２に記載の信号処理装置。
　前記レンダリング手法選択部は、聴取位置から前記オーディオオブジェクトまでの距離が所定の第１の距離以上である場合、前記レンダリング処理の手法としてパニング処理を選択する
　請求項６に記載の信号処理装置。
　前記レンダリング手法選択部は、前記距離が前記第１の距離未満である場合、前記レンダリング処理の手法として頭部伝達関数を用いた前記レンダリング処理を選択する
　請求項７に記載の信号処理装置。
　前記レンダリング処理部は、前記距離が前記第１の距離未満である場合、前記聴取位置から前記オーディオオブジェクトまでの前記距離に応じた前記頭部伝達関数を用いて前記レンダリング処理を行う
　請求項８に記載の信号処理装置。
　前記レンダリング処理部は、前記距離が前記第１の距離に近くなるほど、左耳用の前記頭部伝達関数と右耳用の前記頭部伝達関数との差が小さくなるように、前記レンダリング処理に用いる前記頭部伝達関数を選択する
　請求項９に記載の信号処理装置。
　前記レンダリング手法選択部は、前記距離が前記第１の距離とは異なる第２の距離未満である場合、前記レンダリング処理の手法として頭部伝達関数を用いた前記レンダリング処理を選択する
　請求項７に記載の信号処理装置。
　前記レンダリング手法選択部は、前記距離が前記第１の距離以上かつ前記第２の距離未満である場合、前記レンダリング処理の手法として、前記パニング処理および前記頭部伝達関数を用いた前記レンダリング処理を選択する
　請求項１１に記載の信号処理装置。
　前記パニング処理により得られた信号と、前記頭部伝達関数を用いた前記レンダリング処理により得られた信号とを合成して出力オーディオ信号を生成する出力オーディオ信号生成部をさらに備える
　請求項１２に記載の信号処理装置。
　前記レンダリング手法選択部は、前記レンダリング処理の手法として、前記オーディオ信号に対して指定された手法を選択する
　請求項１に記載の信号処理装置。
　信号処理装置が、
　オーディオ信号の音像を聴取空間内に定位させるレンダリング処理の手法を、互いに異なる複数の手法のなかから１以上選択し、
　選択された手法により前記オーディオ信号の前記レンダリング処理を行う
　信号処理方法。
　オーディオ信号の音像を聴取空間内に定位させるレンダリング処理の手法を、互いに異なる複数の手法のなかから１以上選択し、
　選択された手法により前記オーディオ信号の前記レンダリング処理を行う
　ステップを含む処理をコンピュータに実行させるプログラム。