JPWO2019098022A1

JPWO2019098022A1 - 信号処理装置および方法、並びにプログラム

Info

Publication number: JPWO2019098022A1
Application number: JP2019553801A
Authority: JP
Inventors: 辻　実; 実辻; 徹知念; 光行畠中
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2017-11-14
Filing date: 2018-10-31
Publication date: 2020-11-19
Anticipated expiration: 2038-10-31
Also published as: KR102548644B1; US20210176581A1; EP3713255A1; CN113891233A; CN111316671A; EP3713255A4; CN113891233B; KR20200087130A; US20230336935A1; RU2020114250A3; CN111316671B; US11722832B2; WO2019098022A1; RU2020114250A; JP7192786B2

Abstract

本技術は、音像の定位位置を容易に決定することができるようにする信号処理装置および方法、並びにプログラムに関する。信号処理装置は、聴取位置から見た聴取空間が表示されている状態で指定された聴取空間内のオーディオオブジェクトの音像の定位位置に関する情報を取得する取得部と、定位位置に関する情報に基づいてビットストリームを生成する生成部とを備える。本技術は信号処理装置に適用することができる。

Description

本技術は、信号処理装置および方法、並びにプログラムに関し、特に、音像の定位位置を容易に決定することができるようにした信号処理装置および方法、並びにプログラムに関する。

近年、オブジェクトベースのオーディオ技術が注目されている。

オブジェクトベースオーディオでは、オーディオオブジェクトに対する波形信号と、所定の基準となる聴取位置からの相対位置により表されるオーディオオブジェクトの定位情報を示すメタ情報とによりオブジェクトオーディオのデータが構成されている。

そして、オーディオオブジェクトの波形信号が、メタ情報に基づいて例えばVBAP（Vector Based Amplitude Panning）により所望のチャンネル数の信号にレンダリングされて、再生される（例えば、非特許文献１および非特許文献２参照）。

オブジェクトベースオーディオでは、オーディオコンテンツの制作において、オーディオオブジェクトを３次元空間上の様々な方向に配置することが可能である。

例えばDolby Atoms Panner plus-in for Pro Tools（例えば非特許文献３参照）では、３Dグラフィックのユーザインターフェース上においてオーディオオブジェクトの位置を指定することが可能である。この技術では、ユーザインターフェース上に表示された仮想空間の画像上の位置をオーディオオブジェクトの位置として指定することで、オーディオオブジェクトの音の音像を３次元空間上の任意の方向に定位させることができる。

一方、従来の２チャンネルステレオに対する音像の定位は、パニングと呼ばれる手法により調整されている。例えば所定のオーディオトラックに対する、左右の２チャンネルへの按分比率をUI（User Interface）によって変更することで、音像を左右方向のどの位置に定位させるかが決定される。

ISO/IEC 23008-3 Information technology − High efficiency coding and media delivery in heterogeneous environments − Part 3: 3D audio Ville Pulkki, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning", Journal of AES, vol.45, no.6, pp.456-466, 1997 Dolby Laboratories, Inc., "Authoring for Dolby Atmos(R) Cinema Sound Manual"、[online]、[平成２９年１０月３１日検索]、インターネット< https://www.dolby.com/us/en/technologies/dolby-atmos/authoring-for-dolby-atmos-cinema-sound-manual.pdf >

しかしながら、上述した技術では音像の定位位置を容易に決定することが困難であった。

すなわち、オブジェクトベースオーディオと２チャンネルステレオの何れの場合においても、オーディオコンテンツの制作者はコンテンツの音の実際の聴取位置に対する音像の定位位置を直感的に指定することができなかった。

例えばDolby Atoms Panner plus-in for Pro Toolsでは、３次元空間上の任意の位置を音像の定位位置として指定することはできるが、その指定した位置が実際の聴取位置から見たときにどのような位置にあるのかを知ることができない。

同様に、２チャンネルステレオにおける場合においても按分比率を指定する際に、その按分比率と音像の定位位置との関係を直感的に把握することは困難である。

そのため、制作者は音像の定位位置の調整と、その定位位置での音の試聴とを繰り返し行って最終的な定位位置を決定することになり、そのような定位位置の調整回数を少なくするには経験に基づく感覚が必要であった。

特に、例えばスクリーン上に映っている人物の口元の位置に、その人物の声を定位させ、あたかも映像の口から声が出ているようにするなど、映像に対して音の定位位置を合わせたい場合に、その定位位置を正確かつ直感的にユーザインターフェース上で指定することは困難であった。

本技術は、このような状況に鑑みてなされたものであり、音像の定位位置を容易に決定することができるようにするものである。

本技術の一側面の信号処理装置は、聴取位置から見た聴取空間が表示されている状態で指定された前記聴取空間内のオーディオオブジェクトの音像の定位位置に関する情報を取得する取得部と、前記定位位置に関する情報に基づいてビットストリームを生成する生成部とを備える。

本技術の一側面の信号処理方法またはプログラムは、聴取位置から見た聴取空間が表示されている状態で指定された前記聴取空間内のオーディオオブジェクトの音像の定位位置に関する情報を取得し、前記定位位置に関する情報に基づいてビットストリームを生成するステップを含む。

本技術の一側面においては、聴取位置から見た聴取空間が表示されている状態で指定された前記聴取空間内のオーディオオブジェクトの音像の定位位置に関する情報が取得され、前記定位位置に関する情報に基づいてビットストリームが生成される。

本技術の一側面によれば、音像の定位位置を容易に決定することができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。

編集画像と音像定位位置の決定について説明する図である。ゲイン値の算出について説明する図である。信号処理装置の構成例を示す図である。定位位置決定処理を説明するフローチャートである。設定パラメタの例を示す図である。 POV画像と俯瞰画像の表示例を示す図である。定位位置マークの配置位置の調整について説明する図である。定位位置マークの配置位置の調整について説明する図である。スピーカの表示例を示す図である。位置情報の補間について説明する図である。定位位置決定処理を説明するフローチャートである。コンピュータの構成例を示す図である。

以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈本技術について〉
本技術は、聴取位置からの視点ショット（Point of View Shot）（以下、単にPOVと称する）によりコンテンツを再生する聴取空間をシミュレートしたGUI（Graphical User Interface）上で音像の定位位置を指定することで、音像の定位位置を容易に決定することができるようにするものである。

これにより、例えばオーディオコンテンツの制作ツールにおいて、音の定位位置を容易に決定することができるようにするユーザインターフェースを実現することができる。特にオブジェクトベースオーディオにおける場合においては、オーディオオブジェクトの位置情報を容易に決定することができるユーザインターフェースを実現することができるようになる。

まず、コンテンツが静止画像または動画像である映像と、その映像に付随する左右２チャンネルの音からなるコンテンツである場合について説明する。

この場合、例えばコンテンツ制作において、映像に合わせた音の定位を、視覚的かつ直感的なユーザインターフェースにより容易に決定することができる。

ここで、具体的な例として、コンテンツのオーディオデータ、つまりオーディオトラックとしてドラム、エレキギター、および２つのアコースティックギターの合計４つの各楽器のオーディオデータのトラックがあるとする。また、コンテンツの映像として、それらの楽器と、楽器の演奏者が被写体として映っているものがあるとする。

さらに、左チャンネルのスピーカが、聴取者によるコンテンツの音の聴取位置から見て水平角度が30度である方向にあり、右チャンネルのスピーカが聴取位置から見て水平角度が-30度である方向にあるとする。

なお、ここでいう水平角度とは、聴取位置にいる聴取者から見た水平方向、つまり左右方向の位置を示す角度である。例えば水平方向における、聴取者の真正面の方向の位置を示す水平角度が0度である。また、聴取者から見て左方向の位置を示す水平角度は正の角度とされ、聴取者から見て右方向の位置を示す水平角度は負の角度とされるとする。

いま、左右のチャンネルの出力のためのコンテンツの音の音像の定位位置を決定することについて考える。

このような場合、本技術では、コンテンツ制作ツールの表示画面上に例えば図１に示す編集画像P11が表示される。

この編集画像P11は、聴取者がコンテンツの音を聴取しながら見る画像（映像）となっており、例えば編集画像P11としてコンテンツの映像を含む画像が表示される。

この例では、編集画像P11にはコンテンツの映像上に楽器の演奏者が被写体として表示されている。

すなわち、ここでは編集画像P11には、ドラムの演奏者PL11と、エレキギターの演奏者PL12と、１つ目のアコースティックギターの演奏者PL13と、２つ目のアコースティックギターの演奏者PL14とが表示されている。

また、編集画像P11には、それらの演奏者PL11乃至演奏者PL14による演奏に用いられているドラムやエレキギター、アコースティックギターといった楽器も表示されている。これらの楽器は、オーディオトラックに基づく音の音源となるオーディオオブジェクトであるということができる。

なお、以下では、２つのアコースティックギターを区別するときには、特に演奏者PL13が用いているものをアコースティックギター１とも称し、演奏者PL14が用いているものをアコースティックギター２とも称することとする。

このような編集画像P11はユーザインターフェース、すなわち入力インターフェースとしても機能しており、編集画像P11上には各オーディオトラックの音の音像の定位位置を指定するための定位位置マークMK11乃至定位位置マークMK14も表示されている。

ここでは、定位位置マークMK11乃至定位位置マークMK14のそれぞれは、ドラム、エレキギター、アコースティックギター１、およびアコースティックギター２のオーディオトラックの音の音像定位位置のそれぞれを示している。

特に、定位位置の調整対象として選択されているエレキギターのオーディオトラックの定位位置マークMK12はハイライト表示されており、他の選択状態とされていないオーディオトラックの定位位置マークとは異なる表示形式で表示されている。

コンテンツ制作者は、選択しているオーディオトラックの定位位置マークMK12を編集画像P11上の任意の位置に移動させることで、その定位位置マークMK12の位置にオーディオトラックの音の音像が定位するようにすることができる。換言すれば、コンテンツの映像上、つまり聴取空間上の任意の位置をオーディオトラックの音の音像の定位位置として指定することができる。

この例では、演奏者PL11乃至演奏者PL14の楽器の位置に、それらの楽器に対応するオーディオトラックの音の定位位置マークMK11乃至定位位置マークMK14が配置され、各楽器の音の音像が演奏者の楽器の位置に定位するようになされている。

コンテンツ制作ツールでは、定位位置マークの表示位置の指定によって、各オーディオトラックの音についての定位位置が指定されると、定位位置マークの表示位置に基づいて、オーディオトラック（オーディオデータ）についての左右の各チャンネルのゲイン値が算出される。

すなわち、編集画像P11上における定位位置マークの位置を示す座標に基づいて、オーディオトラックの左右のチャンネルへの按分率が決定され、その決定結果から左右の各チャンネルのゲイン値が求められる。なお、ここでは、左右２チャンネルへの按分が行われるため、編集画像P11上における左右方向（水平方向）のみが考慮され、定位位置マークの上下方向の位置については考慮されない。

具体的には、例えば図２に示すように聴取位置から見た各定位位置マークの水平方向の位置を示す水平角度に基づいてゲイン値が求められる。なお、図２において図１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。また、図２では、図を見やすくするため定位位置マークの図示は省略されている。

この例では、聴取位置Oの正面の位置が編集画像P11、すなわち編集画像P11が表示されたスクリーンの中心位置O’となっており、そのスクリーンの左右方向の長さ、すなわち編集画像P11の左右方向の映像幅がLとなっている。

また、編集画像P11上における演奏者PL11乃至演奏者PL14の位置、つまり各演奏者による演奏に用いられる楽器の位置が位置PJ1乃至位置PJ4となっている。特に、この例では各演奏者の楽器の位置に定位位置マークが配置されているので、定位位置マークMK11乃至定位位置マークMK14の位置は、位置PJ1乃至位置PJ4となる。

さらに編集画像P11が表示されたスクリーンにおける図中、左側の端の位置が位置PJ5となっており、スクリーンにおける図中、右側端の位置が位置PJ6となっている。これらの位置PJ5および位置PJ6は、左右のスピーカが配置される位置でもある。

いま、図中、左右方向における中心位置O’から見た位置PJ1乃至位置PJ4の各位置を示す座標がX₁乃至X₄であるとする。特にここでは、中心位置O’から見て位置PJ5の方向が正の方向であり、中心位置O’から見て位置PJ6の方向が負の方向であるとする。

したがって、例えば中心位置O’から位置PJ1までの距離が、その位置PJ1を示す座標X₁となる。

また、聴取位置Oから見た位置PJ1乃至位置PJ4の水平方向、つまり図中、左右方向の位置を示す角度が水平角度θ₁乃至水平角度θ₄であるとする。

例えば水平角度θ₁は、聴取位置Oおよび中心位置O’を結ぶ直線と、聴取位置Oおよび位置PJ1を結ぶ直線とのなす角度である。特に、ここでは聴取位置Oから見て図中、左側方向が水平角度の正の角度の方向であり、聴取位置Oから見て図中、右側方向が水平角度の負の角度の方向であるとする。

また、上述したように左チャンネルのスピーカの位置を示す水平角度が30度であり、右チャンネルのスピーカの位置を示す水平角度が-30度であるから、位置PJ5の水平角度は30度であり、位置PJ6の水平角度は-30度である。

左右のチャンネルのスピーカはスクリーンの左右の端の位置に配置されているので、編集画像P11の視野角、つまりコンテンツの映像の視野角も±30度となる。

このような場合、各オーディオトラック（オーディオデータ）の按分率、すなわち左右の各チャンネルのゲイン値は、聴取位置Oから見たときの音像の定位位置の水平角度によって定まる。

例えばドラムのオーディオトラックについての位置PJ1を示す水平角度θ₁は、中心位置O’から見た位置PJ1を示す座標X₁と、映像幅Lとから次式（１）に示す計算により求めることができる。

したがって、水平角度θ₁により示される位置PJ1にドラムのオーディオデータ（オーディオトラック）に基づく音の音像を定位させるための左右のチャンネルのゲイン値GainL₁およびゲイン値GainR₁は、以下の式（２）および式（３）により求めることができる。なお、ゲイン値GainL₁は左チャンネルのゲイン値であり、ゲイン値GainR₁は右チャンネルのゲイン値である。

コンテンツの再生時には、ゲイン値GainL₁がドラムのオーディオデータに乗算され、その結果得られたオーディオデータに基づいて左チャンネルのスピーカから音が出力される。また、ゲイン値GainR₁がドラムのオーディオデータに乗算され、その結果得られたオーディオデータに基づいて右チャンネルのスピーカから音が出力される。

すると、ドラムの音の音像が位置PJ1、つまりコンテンツの映像におけるドラム（演奏者PL11）の位置に定位する。

ドラムのオーディオトラックだけでなく、他のエレキギター、アコースティックギター１、およびアコースティックギター２についても上述した式（１）乃至式（３）と同様の計算が行われ、左右の各チャンネルのゲイン値が算出される。

すなわち、座標X₂と映像幅Lに基づいて、エレキギターのオーディオデータの左右のチャンネルのゲイン値GainL₂およびゲイン値GainR₂が求められる。

また、座標X₃と映像幅Lに基づいて、アコースティックギター１のオーディオデータの左右のチャンネルのゲイン値GainL₃およびゲイン値GainR₃が求められ、座標X₄と映像幅Lに基づいて、アコースティックギター２のオーディオデータの左右のチャンネルのゲイン値GainL₄およびゲイン値GainR₄が求められる。

なお、左右のチャンネルのスピーカがスクリーンの端よりも外側の位置にあることを想定している場合、すなわち左右のスピーカ間の距離L_spkが映像幅Lよりも大きい場合、式（１）においては映像幅Lを距離L_spkに置き換えて計算を行えばよい。

以上のようにすることで、左右２チャンネルのコンテンツ制作において、コンテンツの映像に合わせた音の音像定位位置を、直感的なユーザインターフェースにより容易に決定することができる。

〈信号処理装置の構成例〉
次に、以上において説明した本技術を適用した信号処理装置について説明する。

図３は、本技術を適用した信号処理装置の一実施の形態の構成例を示す図である。

図３に示す信号処理装置１１は、入力部２１、記録部２２、制御部２３、表示部２４、通信部２５、およびスピーカ部２６を有している。

入力部２１は、スイッチやボタン、マウス、キーボード、表示部２４に重畳して設けられたタッチパネルなどからなり、コンテンツの制作者であるユーザの入力操作に応じた信号を制御部２３に供給する。

記録部２２は、例えばハードディスクなどの不揮発性のメモリからなり、制御部２３から供給されたオーディオデータ等を記録したり、記録しているデータを制御部２３に供給したりする。なお、記録部２２は、信号処理装置１１に対して着脱可能なリムーバブル記録媒体であってもよい。

制御部２３は、信号処理装置１１全体の動作を制御する。制御部２３は、定位位置決定部４１、ゲイン算出部４２、および表示制御部４３を有している。

定位位置決定部４１は、入力部２１から供給された信号に基づいて、各オーディオトラック、すなわち各オーディオデータの音の音像の定位位置を決定する。

換言すれば、定位位置決定部４１は、表示部２４に表示された聴取空間内における聴取位置から見た楽器等のオーディオオブジェクトの音の音像の定位位置に関する情報を取得し、その定位位置を決定する取得部として機能するということができる。

ここで音像の定位位置に関する情報とは、例えば聴取位置から見たオーディオオブジェクトの音の音像の定位位置を示す位置情報や、その位置情報を得るための情報等である。

ゲイン算出部４２は、定位位置決定部４１により決定された定位位置に基づいて、オーディオオブジェクトごと、すなわちオーディオトラックごとに、オーディオデータに対する各チャンネルのゲイン値を算出する。表示制御部４３は、表示部２４を制御して、表示部２４における画像等の表示を制御する。

また、制御部２３は、定位位置決定部４１により取得された定位位置に関する情報や、ゲイン算出部４２により算出されたゲイン値に基づいて、少なくともコンテンツのオーディオデータを含む出力ビットストリームを生成して出力する生成部としても機能する。

表示部２４は、例えば液晶表示パネルなどからなり、表示制御部４３の制御に従ってPOV画像などの各種の画像等を表示する。

通信部２５は、インターネット等の有線または無線の通信網を介して外部の装置と通信する。例えば通信部２５は、外部の装置から送信されてきたデータを受信して制御部２３に供給したり、制御部２３から供給されたデータを外部の装置に送信したりする。

スピーカ部２６は、例えば所定のチャンネル構成のスピーカシステムの各チャンネルのスピーカからなり、制御部２３から供給されたオーディオデータに基づいてコンテンツの音を再生（出力）する。

〈定位位置決定処理の説明〉
続いて、信号処理装置１１の動作について説明する。

すなわち、以下、図４のフローチャートを参照して、信号処理装置１１により行われる定位位置決定処理について説明する。

ステップＳ１１において表示制御部４３は、表示部２４に編集画像を表示させる。

例えばコンテンツ制作者による操作に応じて、入力部２１から制御部２３に対してコンテンツ制作ツールの起動を指示する信号が供給されると、制御部２３はコンテンツ制作ツールを起動させる。このとき制御部２３は、コンテンツ制作者により指定されたコンテンツの映像の画像データと、その映像に付随するオーディオデータを必要に応じて記録部２２から読み出す。

そして、表示制御部４３は、コンテンツ制作ツールの起動に応じて、編集画像を含むコンテンツ制作ツールの表示画面（ウィンドウ）を表示させるための画像データを表示部２４に供給し、表示画面を表示させる。ここでは編集画像は、例えばコンテンツの映像に対して、各オーディオトラックに基づく音の音像定位位置を示す定位位置マークが重畳された画像などとされる。

表示部２４は、表示制御部４３から供給された画像データに基づいて、コンテンツ制作ツールの表示画面を表示させる。これにより、例えば表示部２４には、コンテンツ制作ツールの表示画面として図１に示した編集画像P11を含む画面が表示される。

編集画像を含むコンテンツ制作ツールの表示画面が表示されると、コンテンツ制作者は入力部２１を操作して、コンテンツのオーディオトラック（オーディオデータ）のなかから、音像の定位位置の調整を行うオーディオトラックを選択する。すると、入力部２１から制御部２３には、コンテンツ制作者の選択操作に応じた信号が供給される。

オーディオトラックの選択は、例えば表示画面に編集画像とは別に表示されたオーディオトラックのタイムライン上などで、所望の再生時刻における所望のオーディオトラックを指定するようにしてもよいし、表示されている定位位置マークを直接指定するようにしてもよい。

ステップＳ１２において、定位位置決定部４１は、入力部２１から供給された信号に基づいて、音像の定位位置の調整を行うオーディオトラックを選択する。

定位位置決定部４１により音像の定位位置の調整対象となるオーディオトラックが選択されると、表示制御部４３は、その選択結果に応じて表示部２４を制御し、選択されたオーディオトラックに対応する定位位置マークを、他の定位位置マークとは異なる表示形式で表示させる。

選択したオーディオトラックに対応する定位位置マークが他の定位位置マークと異なる表示形式で表示されると、コンテンツ制作者は入力部２１を操作して、対象となる定位位置マークを任意の位置に移動させることで、音像の定位位置を指定する。

例えば図１に示した例では、コンテンツ制作者は定位位置マークMK12の位置を任意の位置に移動させることで、エレキギターの音の音像定位位置を指定する。

すると、入力部２１から制御部２３にはコンテンツ制作者の入力操作に応じた信号が供給されるので、表示制御部４３は、入力部２１から供給された信号に応じて表示部２４を制御し、定位位置マークの表示位置を移動させる。

また、ステップＳ１３において、定位位置決定部４１は、入力部２１から供給された信号に基づいて、調整対象のオーディオトラックの音の音像の定位位置を決定する。

すなわち、定位位置決定部４１は、入力部２１から、コンテンツ制作者の入力操作に応じて出力された、編集画像における定位位置マークの位置を示す情報（信号）を取得する。そして、定位位置決定部４１は、取得した情報に基づいて編集画像上、つまりコンテンツの映像上における対象となる定位位置マークにより示される位置を音像の定位位置として決定する。

また、定位位置決定部４１は音像の定位位置の決定に応じて、その定位位置を示す位置情報を生成する。

例えば図２に示した例において、定位位置マークMK12が位置PJ2に移動されたとする。そのような場合、定位位置決定部４１は、取得した座標X₂に基づいて上述した式（１）と同様の計算を行って、エレキギターのオーディオトラックについての音像の定位位置を示す位置情報、換言すればオーディオオブジェクトとしての演奏者PL12（エレキギター）の位置を示す位置情報として水平角度θ₂を算出する。

ステップＳ１４において、ゲイン算出部４２はステップＳ１３における定位位置の決定結果として得られた位置情報としての水平角度に基づいて、ステップＳ１２で選択されたオーディオトラックについての左右のチャンネルのゲイン値を算出する。

例えばステップＳ１４では、上述した式（２）および式（３）と同様の計算が行われて左右の各チャンネルのゲイン値が算出される。

ステップＳ１５において、制御部２３は、音像の定位位置の調整を終了するか否かを判定する。例えばコンテンツ制作者により入力部２１が操作され、コンテンツの出力、すなわちコンテンツの制作終了が指示された場合、ステップＳ１５において音像の定位位置の調整を終了すると判定される。

ステップＳ１５において、まだ音像の定位位置の調整を終了しないと判定された場合、処理はステップＳ１２に戻り、上述した処理が繰り返し行われる。すなわち、新たに選択されたオーディオトラックについて音像の定位位置の調整が行われる。

これに対して、ステップＳ１５において音像の定位位置の調整を終了すると判定された場合、処理はステップＳ１６へと進む。

ステップＳ１６において、制御部２３は、各オブジェクトの位置情報に基づく出力ビットストリーム、換言すればステップＳ１４の処理で得られたゲイン値に基づく出力ビットストリームを出力し、定位位置決定処理は終了する。

例えばステップＳ１６では、制御部２３はステップＳ１４の処理で得られたゲイン値をオーディオデータに乗算することで、コンテンツのオーディオトラックごとに、左右の各チャンネルのオーディオデータを生成する。また、制御部２３は得られた同じチャンネルのオーディオデータを加算して、最終的な左右の各チャンネルのオーディオデータとし、そのようにして得られたオーディオデータを含む出力ビットストリームを出力する。ここで、出力ビットストリームにはコンテンツの映像の画像データなどが含まれていてもよい。

また、出力ビットストリームの出力先は、記録部２２やスピーカ部２６、外部の装置など、任意の出力先とすることができる。

例えばコンテンツのオーディオデータと画像データからなる出力ビットストリームが記録部２２やリムーバブル記録媒体等に供給されて記録されてもよいし、出力ビットストリームとしてのオーディオデータがスピーカ部２６に供給されてコンテンツの音が再生されてもよい。また、例えばコンテンツのオーディオデータと画像データからなる出力ビットストリームが通信部２５に供給されて、通信部２５により出力ビットストリームが外部の装置に送信されるようにしてもよい。

このとき、例えば出力ビットストリームに含まれるコンテンツのオーディオデータと画像データは所定の符号化方式により符号化されていてもよいし、符号化されていなくてもよい。さらに、例えば各オーディオトラック（オーディオデータ）と、ステップＳ１４で得られたゲイン値と、コンテンツの映像の画像データとを含む出力ビットストリームが生成されるようにしても勿論よい。

以上のようにして信号処理装置１１は、編集画像を表示させるとともに、ユーザ（コンテンツ制作者）の操作に応じて定位位置マークを移動させ、その定位位置マークにより示される位置、つまり定位位置マークの表示位置に基づいて音像の定位位置を決定する。

このようにすることで、コンテンツ制作者は、編集画像を見ながら定位位置マークを所望の位置に移動させるという操作を行うだけで、適切な音像の定位位置を容易に決定（指定）することができる。

〈第２の実施の形態〉
〈POV画像の表示について〉
ところで、第１の実施の形態では、コンテンツのオーディオ（音）が左右の２チャンネルの出力である例について説明した。しかし、本技術は、これに限らず、３次元空間の任意の位置に音像を定位させるオブジェクトベースオーディオにも適用可能である。

以下では、本技術を、３次元空間の音像定位をターゲットとしたオブジェクトベースオーディオ（以下、単にオブジェクトベースオーディオと称する）に適用した場合について説明を行う。

ここでは、コンテンツの音としてオーディオオブジェクトの音が含まれており、オーディオオブジェクトとして、上述した例と同様にドラム、エレキギター、アコースティックギター１、およびアコースティックギター２があるとする。また、コンテンツが、各オーディオオブジェクトのオーディオデータと、それらのオーディオデータに対応する映像の画像データとからなるとする。なお、コンテンツの映像は静止画像であってもよいし、動画像であってもよい。

オブジェクトベースオーディオでは、３次元空間のあらゆる方向に音像を定位させることができるため、映像を伴う場合においても映像のある範囲外の位置、つまり映像では見えない位置にも音像を定位させることが想定される。言い換えると、音像の定位の自由度が高いが故に、映像に合わせて音像定位位置を正確に決定することは困難であり、映像が３次元空間上のどこにあるかを知った上で、音像の定位位置を指定する必要がある。

そこで、本技術では、オブジェクトベースオーディオのコンテンツについては、コンテンツ制作ツールにおいて、まずコンテンツの再生環境の設定が行われる。

ここで、再生環境とは、例えばコンテンツ制作者が想定している、コンテンツの再生が行われる部屋などの３次元空間、つまり聴取空間である。再生環境の設定時には、部屋（聴取空間）の大きさや、コンテンツを視聴する視聴者、つまりコンテンツの音の聴取者の位置である聴取位置、コンテンツの映像が表示されるスクリーンの形状やスクリーンの配置位置などがパラメタにより指定される。

例えば再生環境の設定時に指定される、再生環境を指定するパラメタ（以下、設定パラメタとも称する）として、図５に示すものがコンテンツ制作者により指定される。

図５に示す例では、設定パラメタとして聴取空間である部屋のサイズを決定する「奥行き」、「幅」、および「高さ」が示されており、ここでは部屋の奥行きは「6.0m」とされ、部屋の幅は「8.0m」とされ、部屋の高さは「3.0m」とされている。

また、設定パラメタとして部屋（聴取空間）内における聴取者の位置である「聴取位置」が示されており、その聴取位置は「部屋の中央」とされている。

さらに、設定パラメタとして部屋（聴取空間）内における、コンテンツの映像が表示されるスクリーン（表示装置）の形状、つまり表示画面の形状を決定する「サイズ」と「アスペクト比」が示されている。

設定パラメタ「サイズ」は、スクリーンの大きさを示しており、「アスペクト比」はスクリーン（表示画面）のアスペクト比を示している。ここでは、スクリーンのサイズは「120インチ」とされており、スクリーンのアスペクト比は「16：9」とされている。

その他、図５では、スクリーンに関する設定パラメタとして、スクリーンの位置を決定する「前後」、「左右」、および「上下」が示されている。

ここで、設定パラメタ「前後」は、聴取空間（部屋）内における聴取位置にいる聴取者が基準となる方向を見たときの、聴取者からスクリーンまでの前後方向の距離であり、この例では設定パラメタ「前後」の値は「聴取位置の前方2m」とされている。つまり、スクリーンは聴取者の前方2mの位置に配置される。

また、設定パラメタ「左右」は、聴取空間（部屋）内における聴取位置で基準となる方向を向いている聴取者から見たスクリーンの左右方向の位置であり、この例では設定パラメタ「左右」の設定（値）は「中央」とされている。つまり、スクリーンの中心の左右方向の位置が聴取者の真正面の位置となるようにスクリーンが配置される。

設定パラメタ「上下」は、聴取空間（部屋）内における聴取位置で基準となる方向を向いている聴取者から見たスクリーンの上下方向の位置であり、この例では設定パラメタ「上下」の設定（値）は「スクリーン中心が聴取者の耳の高さ」とされている。つまり、スクリーンの中心の上下方向の位置が聴取者の耳の高さの位置となるようにスクリーンが配置される。

コンテンツ制作ツールでは、以上のような設定パラメタに従ってPOV画像等が表示画面に表示される。すなわち、表示画面上には設定パラメタにより聴取空間をシミュレートしたPOV画像が3Dグラフィック表示される。

例えば図５に示した設定パラメタが指定された場合、コンテンツ制作ツールの表示画面として図６に示す画面が表示される。なお、図６において図１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図６では、コンテンツ制作ツールの表示画面としてウィンドウWD11が表示されており、このウィンドウWD11内に聴取者の視点から見た聴取空間の画像であるPOV画像P21と、聴取空間を俯瞰的に見た画像である俯瞰画像P22とが表示されている。

POV画像P21では、聴取位置から見た、聴取空間である部屋の壁等が表示されており、部屋における聴取者前方の位置には、コンテンツの映像が重畳表示されたスクリーンSC11が配置されている。POV画像P21では、実際の聴取位置から見た聴取空間がほぼそのまま再現されている。

特に、このスクリーンSC11は、図５の設定パラメタにより指定されたように、アスペクト比が16：9であり、サイズが120インチであるスクリーンである。また、スクリーンSC11は、図５に示した設定パラメタ「前後」、「左右」、および「上下」により定まる聴取空間上の位置に配置されている。

スクリーンSC11上には、コンテンツの映像内の被写体である演奏者PL11乃至演奏者PL14が表示されている。

また、POV画像P21には、定位位置マークMK11乃至定位位置マークMK14も表示されており、この例では、これらの定位位置マークがスクリーンSC11上に位置している。

なお、図６では、聴取者の視線方向が予め定められた基準となる方向、すなわち聴取空間の正面の方向（以下、基準方向とも称する）である場合におけるPOV画像P21が表示されている例を示している。しかし、コンテンツ制作者は、入力部２１を操作することで、聴取者の視線方向を任意の方向に変更することができる。聴取者の視線方向が変更されると、ウィンドウWD11には変更後の視線方向の聴取空間の画像がPOV画像として表示される。

また、より詳細には、POV画像の視点位置は聴取位置だけでなく、聴取位置近傍の位置とすることも可能である。例えばPOV画像の視点位置が聴取位置近傍の位置とされた場合には、POV画像の手前側には必ず聴取位置が表示されるようになされる。

これにより、視点位置が聴取位置とは異なる場合であっても、POV画像を見ているコンテンツ制作者は、表示されているPOV画像がどの位置を視点位置とした画像であるかを容易に把握することができる。

一方、俯瞰画像P22は聴取空間である部屋全体の画像、つまり聴取空間を俯瞰的に見た画像である。

特に、聴取空間の図中、矢印RZ11により示される方向の長さが、図５に示した設定パラメタ「奥行き」により示される聴取空間の奥行きの長さとなっている。同様に、聴取空間の矢印RZ12により示される方向の長さが、図５に示した設定パラメタ「幅」により示される聴取空間の横幅の長さとなっており、聴取空間の矢印RZ13により示される方向の長さが、図５に示した設定パラメタ「高さ」により示される聴取空間の高さとなっている。

さらに、俯瞰画像P22上に表示された点Oは、図５に示した設定パラメタ「聴取位置」により示される位置、つまり聴取位置を示している。以下、点Oを特に聴取位置Oとも称することとする。

このように、聴取位置OやスクリーンSC11、定位位置マークMK11乃至定位位置マークMK14が表示された聴取空間全体の画像を俯瞰画像P22として表示させることで、コンテンツ制作者は、聴取位置OやスクリーンSC11、演奏者および楽器（オーディオオブジェクト）の位置関係を適切に把握することができる。

コンテンツ制作者は、このようにして表示されたPOV画像P21と俯瞰画像P22を見ながら入力部２１を操作し、各オーディオトラックについての定位位置マークMK11乃至定位位置マークMK14を所望の位置に移動させることで、音像の定位位置を指定する。

このようにすることで、図１における場合と同様に、コンテンツ制作者は、適切な音像の定位位置を容易に決定（指定）することができる。

図６に示すPOV画像P21および俯瞰画像P22は、図１に示した編集画像P11における場合と同様に、入力インターフェースとしても機能しており、POV画像P21や俯瞰画像P22の任意の位置を指定することで、各オーディオトラックの音の音像定位位置を指定することができる。

例えばコンテンツ制作者が入力部２１等を操作して、POV画像P21上の所望の位置を指定すると、その位置に定位位置マークが表示される。

図６に示す例では、図１における場合と同様に、定位位置マークMK11乃至定位位置マークMK14がスクリーンSC11上の位置、つまりコンテンツの映像上の位置に表示されている。したがって、各オーディオトラックの音の音像が、その音に対応する映像の各被写体（オーディオオブジェクト）の位置に定位するようになることが分かる。すなわち、コンテンツの映像に合わせた音像定位が実現されることが分かる。

なお、信号処理装置１１では、例えば定位位置マークの位置は聴取位置Oを原点（基準）とする座標系の座標により管理される。

例えば聴取位置Oを原点とする座標系が極座標である場合、定位位置マークの位置は、聴取位置Oから見た水平方向、つまり左右方向の位置を示す水平角度と、聴取位置Oから見た垂直方向、つまり上下方向の位置を示す垂直角度と、聴取位置Oから定位位置マークまでの距離を示す半径とにより表される。

なお、以下では、定位位置マークの位置は、水平角度、垂直角度、および半径により表される、つまり極座標により表されるものとして説明を続けるが、定位位置マークの位置は、聴取位置Oを原点とする３次元直交座標系等の座標により表されるようにしてもよい。

このように定位位置マークが極座標により表される場合、聴取空間上における定位位置マークの表示位置の調整は、例えば以下のように行うことができる。

すなわち、コンテンツ制作者が入力部２１等を操作して、POV画像P21上の所望の位置をクリック等により指定すると、その位置に定位位置マークが表示される。具体的には、例えば聴取位置Oを中心とする半径１の球面上におけるコンテンツ制作者により指定された位置に定位位置マークが表示される。

また、このとき、例えば図７に示すように聴取位置Oから、聴取者の視線方向に延びる直線L11が表示され、その直線L11上に処理対象の定位位置マークMK11が表示される。なお、図７において図６における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図７に示す例では、ドラムのオーディオトラックに対応する定位位置マークMK11が処理対象、つまり音像の定位位置の調整対象となっており、この定位位置マークMK11が聴取者の視線方向に延びる直線L11上に表示されている。

コンテンツ制作者は、例えば入力部２１としてのマウスに対するホイール操作等を行うことで、定位位置マークMK11を直線L11上の任意の位置に移動させることができる。換言すれば、コンテンツ制作者は、聴取位置Oから定位位置マークMK11までの距離、つまり定位位置マークMK11の位置を示す極座標の半径を調整することができる。

また、コンテンツ制作者は、入力部２１を操作することで直線L11の方向も任意の方向に調整することが可能である。

このような操作によって、コンテンツ制作者は、聴取空間上の任意の位置に定位位置マークMK11を移動させることができる。

したがって、例えばコンテンツ制作者は定位位置マークの位置を、コンテンツの映像の表示位置、つまりオーディオオブジェクトに対応する被写体の位置であるスクリーンSC11の位置よりも、聴取者から見て奥側にも手前側にも移動させることができる。

例えば図７に示す例では、ドラムのオーディオトラックの定位位置マークMK11は、聴取者から見てスクリーンSC11の奥側に位置しており、エレキギターのオーディオトラックの定位位置マークMK12は、聴取者から見てスクリーンSC11の手前側に位置している。

また、アコースティックギター１のオーディオトラックの定位位置マークMK13、およびアコースティックギター２のオーディオトラックの定位位置マークMK14は、スクリーンSC11上に位置している。

このように、本技術を適用したコンテンツ制作ツールでは、例えばスクリーンSC11の位置を基準として、その位置よりも聴取者から見て手前側や奥側など、奥行き方向の任意の位置に音像を定位させて距離感を制御することができる。

例えばオブジェクトベースオーディオにおいては、聴取者の位置（聴取位置）を原点とした極座標による位置座標がオーディオオブジェクトのメタ情報として扱われている。

図６や図７を参照して説明した例では、各オーディオトラックは、オーディオオブジェクトのオーディオデータであり、各定位位置マークはオーディオオブジェクトの位置であるといえる。したがって、定位位置マークの位置を示す位置情報を、オーディオオブジェクトのメタ情報としての位置情報とすることができる。

そして、コンテンツの再生時には、オーディオオブジェクトのメタ情報である位置情報に基づいて、オーディオオブジェクト（オーディオトラック）のレンダリングを行えば、その位置情報により示される位置、つまり定位位置マークにより示される位置にオーディオオブジェクトの音の音像を定位させることができる。

レンダリングでは、例えば位置情報に基づいてVBAP手法により、再生に用いるスピーカシステムの各スピーカチャンネルに按分するゲイン値が算出される。すなわち、ゲイン算出部４２によりオーディオデータの各チャンネルのゲイン値が算出される。

そして、算出された各チャンネルのゲイン値のそれぞれが乗算されたオーディオデータが、それらのチャンネルのオーディオデータとされる。また、オーディオオブジェクトが複数ある場合には、それらのオーディオオブジェクトについて得られた同じチャンネルのオーディオデータが加算されて、最終的なオーディオデータとされる。

このようにして得られた各チャンネルのオーディオデータに基づいてスピーカが音を出力することで、オーディオオブジェクトの音の音像が、メタ情報としての位置情報、つまり定位位置マークにより示される位置に定位するようになる。

したがって、特に定位位置マークの位置として、スクリーンSC11上の位置が指定されたときには、実際のコンテンツの再生時には、コンテンツの映像上の位置に音像が定位することになる。

なお、図７に示したように定位位置マークの位置として、スクリーンSC11上の位置とは異なる位置など、任意の位置を指定することができる。したがって、メタ情報としての位置情報を構成する、聴取者からオーディオオブジェクトまでの距離を示す半径は、コンテンツの音の再生時における距離感制御のための情報として用いることができる。

例えば、信号処理装置１１においてコンテンツを再生する場合に、ドラムのオーディオデータのメタ情報としての位置情報に含まれる半径が、基準となる値（例えば、１）の２倍の値であったとする。

このような場合、例えば制御部２３がドラムのオーディオデータに対して、ゲイン値「0.5」を乗算してゲイン調整を行えば、ドラムの音が小さくなり、そのドラムの音が基準となる距離の位置よりもより遠い位置から聞こえているかのように感じさせる距離感制御を実現することができる。

なお、ゲイン調整による距離感制御は、あくまで位置情報に含まれる半径を用いた距離感制御の一例であって、距離感制御は他のどのような方法により実現されてもよい。このような距離感制御を行うことで、例えばオーディオオブジェクトの音の音像を、再生スクリーンの手前側や奥側など、所望の位置に定位させることができる。

その他、例えばMPEG（Moving Picture Experts Group）-H 3D Audio規格においては、コンテンツ制作側の再生スクリーンサイズをメタ情報としてユーザ側、つまりコンテンツ再生側に送ることができる。

この場合、コンテンツ制作側の再生スクリーンの位置や大きさが、コンテンツ再生側の再生スクリーンのものとは異なるときに、コンテンツ再生側においてオーディオオブジェクトの位置情報を修正し、オーディオオブジェクトの音の音像を再生スクリーンの適切な位置に定位させることができる。そこで、本技術においても、例えば図５に示したスクリーンの位置や大きさ、配置位置等を示す設定パラメタを、オーディオオブジェクトのメタ情報とするようにしてもよい。

さらに、図７を参照して行った説明では、定位位置マークの位置を聴取者の前方にあるスクリーンSC11の手前側や奥側の位置、スクリーンSC11上の位置とする例について説明した。しかし、定位位置マークの位置は、聴取者の前方に限らず、聴取者の側方や後方、上方、下方など、スクリーンSC11外の任意の位置とすることができる。

例えば定位位置マークの位置を、聴取者から見てスクリーンSC11の枠の外側の位置とすれば、実際にコンテンツを再生したときに、オーディオオブジェクトの音の音像が、コンテンツの映像がある範囲外の位置に定位するようになる。

また、コンテンツの映像が表示されるスクリーンSC11が聴取位置Oから見て基準方向にある場合を例として説明した。しかし、スクリーンSC11は基準方向に限らず、基準方向を見ている聴取者から見て後方や上方、下方、左側方、右側方など、どのような方向に配置されてもよいし、聴取空間内に複数のスクリーンが配置されてもよい。

上述したようにコンテンツ制作ツールでは、POV画像P21の視線方向を任意の方向に変えることが可能である。換言すれば、聴取者が聴取位置Oを中心として周囲を見回すことができるようになっている。

したがって、コンテンツ制作者は、入力部２１を操作して、基準方向を正面方向としたときの側方や後方などの任意の方向をPOV画像P21の視線方向として指定し、各方向の任意の位置に定位位置マークを配置することができる。

したがって、例えば図８に示すように、POV画像P21の視線方向をスクリーンSC11の右端よりも外側の方向に変化させ、その方向に新たなオーディオトラックの定位位置マークMK21を配置することが可能である。なお、図８において図６または図７における場合と対応する部分には同一の符号を付しており、その説明は適宜省略する。

図８の例では、新たなオーディオトラックとして、オーディオオブジェクトとしてのボーカルのオーディオデータが追加されており、その追加されたオーディオトラックに基づく音の音像定位位置を示す定位位置マークMK21が表示されている。

ここでは、定位位置マークMK21は、聴取者から見てスクリーンSC11外の位置に配置されている。そのため、コンテンツの再生時には、聴取者にはボーカルの音はコンテンツの映像では見えない位置から聞こえてくるように知覚される。

なお、基準方向を見ている聴取者から見て側方や後方の位置にスクリーンSC11を配置することが想定されている場合には、それらの側方や後方の位置にスクリーンSC11が配置され、そのスクリーンSC11上にコンテンツの映像が表示されるPOV画像が表示されることになる。この場合、各定位位置マークをスクリーンSC11上に配置すれば、コンテンツの再生時には、各オーディオオブジェクト（楽器）の音の音像が映像の位置に定位するようになる。

このようにコンテンツ制作ツールでは、スクリーンSC11上に定位位置マークを配置するだけで、コンテンツの映像に合わせた音像定位を容易に実現することができる。

さらに、図９に示すようにPOV画像P21や俯瞰画像P22上において、コンテンツの再生に用いるスピーカのレイアウト表示を行うようにしてもよい。なお、図９において図６における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図９に示す例では、POV画像P21上において、聴取者の前方左側のスピーカSP11、聴取者の前方右側のスピーカSP12、および聴取者の前方上側のスピーカSP13を含む複数のスピーカが表示されている。同様に、俯瞰画像P22上においてもスピーカSP11乃至スピーカSP13を含む複数のスピーカが表示されている。

これらのスピーカは、コンテンツ制作者が想定している、コンテンツ再生時に用いられるスピーカシステムを構成する各チャンネルのスピーカとなっている。

コンテンツ制作者は、入力部２１を操作することで、7.1チャンネルや22.2チャンネルなど、スピーカシステムのチャンネル構成を指定することで、指定したチャンネル構成のスピーカシステムの各スピーカをPOV画像P21上および俯瞰画像P22上に表示させることができる。すなわち、指定したチャンネル構成のスピーカレイアウトを聴取空間に重畳表示させることができる。

オブジェクトベースオーディオでは、VBAP手法により各オーディオオブジェクトの位置情報に基づいたレンダリングを行うことで、様々なスピーカレイアウトに対応することができる。

コンテンツ制作ツールでは、POV画像P21および俯瞰画像P22にスピーカを表示させることで、コンテンツ制作者は、それらのスピーカと、定位位置マーク、つまりオーディオオブジェクトと、コンテンツの映像の表示位置、つまりスクリーンSC11と、聴取位置Oとの位置関係を視覚的に容易に把握することができる。

したがって、コンテンツ制作者は、POV画像P21や俯瞰画像P22に表示されたスピーカを、オーディオオブジェクトの位置、つまり定位位置マークの位置を調整する際の補助情報として利用し、より適切な位置に定位位置マークを配置することができる。

例えば、コンテンツ制作者が商業用のコンテンツを制作するときには、コンテンツ制作者はリファレンスとして22.2チャンネルのようなスピーカが密に配置されたスピーカレイアウトを用いていることが多い。この場合、例えばコンテンツ制作者は、チャンネル構成として22.2チャンネルを選択し、各チャンネルのスピーカをPOV画像P21や俯瞰画像P22に表示させればよい。

これに対して、例えばコンテンツ制作者が一般ユーザである場合、コンテンツ制作者は7.1チャンネルのような、スピーカが粗に配置されたスピーカレイアウトを用いることが多い。この場合、例えばコンテンツ制作者は、チャンネル構成として7.1チャンネルを選択し、各チャンネルのスピーカをPOV画像P21や俯瞰画像P22に表示させればよい。

例えば7.1チャンネルのような、スピーカが粗に配置されたスピーカレイアウトが用いられる場合、オーディオオブジェクトの音の音像を定位させる位置によっては、その位置近傍にスピーカがなく、音像の定位がぼやけてしまうことがある。音像をはっきりと定位させるためには、定位位置マーク位置はスピーカの近傍に配置されることが好ましい。

上述したように、コンテンツ制作ツールではスピーカシステムのチャンネル構成として任意のものを選択し、選択したチャンネル構成のスピーカシステムの各スピーカをPOV画像P21や俯瞰画像P22に表示させることができるようになされている。

したがって、コンテンツ制作者は、自身が想定するスピーカレイアウトに合わせてPOV画像P21や俯瞰画像P22に表示させたスピーカを補助情報として用いて、定位位置マークをスピーカ近傍の位置など、より適切な位置に配置することができるようになる。すなわち、コンテンツ制作者は、オーディオオブジェクトの音像定位に対するスピーカレイアウトによる影響を視覚的に把握し、映像やスピーカとの位置関係を考慮しながら、定位位置マークの配置位置を適切に調整することができる。

さらに、コンテンツ制作ツールでは、各オーディオトラックについて、オーディオトラック（オーディオデータ）の再生時刻ごとに定位位置マークを指定することができる。

例えば図１０に示すように、所定の再生時刻ｔ１と、その後の再生時刻ｔ２とで定位位置マークMK12の位置が、エレキギターの演奏者PL12の移動に合わせて変化したとする。なお、図１０において図６における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図１０では、演奏者PL12’および定位位置マークMK12’は、再生時刻ｔ２における演奏者PL12および定位位置マークMK12を表している。

例えばコンテンツの映像上において、所定の再生時刻ｔ１ではエレキギターの演奏者PL12が矢印Q11に示す位置におり、コンテンツ制作者が演奏者PL12と同じ位置に定位位置マークMK12を配置したとする。

また、再生時刻ｔ１後の再生時刻ｔ２では、コンテンツの映像上においてエレキギターの演奏者PL12が矢印Q12に示す位置に移動しており、再生時刻ｔ２ではコンテンツ制作者が演奏者PL12’と同じ位置に定位位置マークMK12’を配置したとする。

ここで、再生時刻ｔ１と再生時刻ｔ２との間の他の再生時刻については、コンテンツ制作者は、特に定位位置マークMK12の位置を指定しなかったとする。

このような場合、定位位置決定部４１は、補間処理を行って、再生時刻ｔ１と再生時刻ｔ２との間の他の再生時刻における定位位置マークMK12の位置を決定する。

補間処理時には、例えば再生時刻ｔ１における定位位置マークMK12の位置を示す位置情報と、再生時刻ｔ２における定位位置マークMK12’の位置を示す位置情報とに基づいて、位置情報としての水平角度、垂直角度、および半径の３つの成分ごとに線形補間により対象となる再生時刻の定位位置マークMK12の位置を示す位置情報の各成分の値が求められる。

なお、上述したように、位置情報が３次元直交座標系の座標により表される場合においても、位置情報が極座標で表される場合と同様に、ｘ座標、ｙ座標、およびｚ座標などの座標成分ごとに線形補間が行われる。

このようにして再生時刻ｔ１と再生時刻ｔ２との間の他の再生時刻における定位位置マークMK12の位置情報を補間処理により求めると、コンテンツ再生時には、映像上におけるエレキギターの演奏者PL12の位置の移動に合わせて、エレキギターの音、つまりオーディオオブジェクトの音の音像の定位位置も移動していくことになる。これにより、滑らかに音像位置が移動していく違和感のない自然なコンテンツを得ることができる。

〈定位位置決定処理の説明〉
次に、図６乃至図１０を参照して説明したように、本技術をオブジェクトベースオーディオに適用した場合における信号処理装置１１の動作について説明する。すなわち、以下、図１１のフローチャートを参照して、信号処理装置１１による定位位置決定処理について説明する。

ステップＳ４１において、制御部２３は再生環境の設定を行う。

例えばコンテンツ制作ツールが起動されると、コンテンツ制作者は入力部２１を操作して、図５に示した設定パラメタを指定する。すると、制御部２３は、コンテンツ制作者の操作に応じて入力部２１から供給された信号に基づいて、設定パラメタを決定する。

これにより、例えば聴取空間の大きさや、聴取空間内における聴取位置、コンテンツの映像が表示されるスクリーンのサイズやアスペクト比、聴取空間におけるスクリーンの配置位置などが決定される。

ステップＳ４２において、表示制御部４３は、ステップＳ４１で決定された設定パラメタ、およびコンテンツの映像の画像データに基づいて表示部２４を制御し、表示部２４にPOV画像を含む表示画面を表示させる。

これにより、例えば図６に示したPOV画像P21および俯瞰画像P22を含むウィンドウWD11が表示される。

このとき、表示制御部４３は、ステップＳ４１で設定された設定パラメタに従って、POV画像P21および俯瞰画像P22における聴取空間（部屋）の壁等を描画したり、設定パラメタにより定まる位置に、設定パラメタにより定まる大きさのスクリーンSC11を表示させたりする。また、表示制御部４３は、スクリーンSC11の位置にコンテンツの映像を表示させる。

さらにコンテンツ制作ツールでは、POV画像および俯瞰画像にスピーカシステムを構成するスピーカ、より詳細にはスピーカを模した画像を表示させるか否かや、スピーカを表示させる場合におけるスピーカシステムのチャンネル構成を選択することができる。コンテンツ制作者は、必要に応じて入力部２１を操作し、スピーカを表示させるか否かを指示したり、スピーカシステムのチャンネル構成を選択したりする。

ステップＳ４３において、制御部２３は、コンテンツ制作者の操作に応じて入力部２１から供給された信号等に基づいて、POV画像および俯瞰画像にスピーカを表示させるか否かを判定する。

ステップＳ４３において、スピーカを表示させないと判定された場合、ステップＳ４４の処理は行われず、その後、処理はステップＳ４５へと進む。

これに対して、ステップＳ４３においてスピーカを表示させると判定された場合、その後、処理はステップＳ４４へと進む。

ステップＳ４４において、表示制御部４３は表示部２４を制御して、コンテンツ制作者により選択されたチャンネル構成のスピーカシステムの各スピーカを、そのチャンネル構成のスピーカレイアウトでPOV画像上および俯瞰画像上に表示させる。これにより、例えば図９に示したスピーカSP11やスピーカSP12がPOV画像P21および俯瞰画像P22に表示される。

ステップＳ４４の処理によりスピーカが表示されたか、またはステップＳ４３においてスピーカを表示させないと判定されると、ステップＳ４５において、定位位置決定部４１は、入力部２１から供給された信号に基づいて、音像の定位位置の調整を行うオーディオトラックを選択する。

例えばステップＳ４５では、図４のステップＳ１２と同様の処理が行われ、所望のオーディオトラックにおける所定の再生時刻が、音像定位の調整対象として選択される。

音像定位の調整対象を選択すると、続いてコンテンツ制作者は入力部２１を操作することで、聴取空間内における定位位置マークの配置位置を任意の位置に移動させて、その定位位置マークに対応するオーディオトラックの音の音像定位位置を指定する。

このとき、表示制御部４３は、コンテンツ制作者の入力操作に応じて入力部２１から供給された信号に基づいて表示部２４を制御し、定位位置マークの表示位置を移動させる。

ステップＳ４６において、定位位置決定部４１は、入力部２１から供給された信号に基づいて、調整対象のオーディオトラックの音の音像の定位位置を決定する。

すなわち、定位位置決定部４１は、聴取空間上における聴取位置から見た定位位置マークの位置を示す情報（信号）を入力部２１から取得し、取得した情報により示される位置を音像の定位位置とする。

ステップＳ４７において、定位位置決定部４１は、ステップＳ４６の決定結果に基づいて、調整対象のオーディオトラックの音の音像の定位位置を示す位置情報を生成する。例えば位置情報は、聴取位置を基準とする極座標により表される情報などとされる。

このようにして生成された位置情報は、調整対象のオーディオトラックに対応するオーディオオブジェクトの位置を示す位置情報とされる。つまり、ステップＳ４７で得られた位置情報は、オーディオオブジェクトのメタ情報とされる。

なお、メタ情報としての位置情報は、上述したように極座標、すなわち水平角度、垂直角度、および半径であってもよいし、直交座標であってもよい。その他、ステップＳ４１で設定された、スクリーンの位置や大きさ、配置位置等を示す設定パラメタもオーディオオブジェクトのメタ情報とされてもよい。

ステップＳ４８において、制御部２３は、音像の定位位置の調整を終了するか否かを判定する。例えばステップＳ４８では、図４のステップＳ１５における場合と同様の判定処理が行われる。

ステップＳ４８において、まだ音像の定位位置の調整を終了しないと判定された場合、処理はステップＳ４５に戻り、上述した処理が繰り返し行われる。すなわち、新たに選択されたオーディオトラックについて音像の定位位置の調整が行われる。なお、この場合、スピーカを表示させるか否かの設定が変更された場合には、その変更に応じてスピーカが表示されたり、スピーカが表示されないようにされたりする。

これに対して、ステップＳ４８において音像の定位位置の調整を終了すると判定された場合、処理はステップＳ４９へと進む。

ステップＳ４９において、定位位置決定部４１は各オーディオトラックについて適宜、補間処理を行い、音像の定位位置が指定されていない再生時刻について、その再生時刻における音像の定位位置を求める。

例えば図１０を参照して説明したように、所定のオーディオトラックについて、再生時刻ｔ１と再生時刻ｔ２の定位位置マークの位置がコンテンツ制作者により指定されたが、それらの再生時刻の間の他の再生時刻については定位位置マークの位置が指定されなかったとする。この場合、ステップＳ４７の処理によって、再生時刻ｔ１と再生時刻ｔ２については位置情報が生成されているが、再生時刻ｔ１と再生時刻ｔ２の間の他の再生時刻については位置情報が生成されていない状態となっている。

そこで、定位位置決定部４１は、所定のオーディオトラックについて、再生時刻ｔ１における位置情報と、再生時刻ｔ２における位置情報とに基づいて線形補間等の補間処理を行い、他の再生時刻における位置情報を生成する。オーディオトラックごとにこのような補間処理を行うことで、全てのオーディオトラックの全ての再生時刻について位置情報が得られることになる。なお、図４を参照して説明した定位位置決定処理においても、ステップＳ４９と同様の補間処理が行われ、指定されていない再生時刻の位置情報が求められてもよい。

ステップＳ５０において、制御部２３は、各オーディオオブジェクトの位置情報に基づく出力ビットストリーム、すなわちステップＳ４７やステップＳ４９の処理で得られた位置情報に基づく出力ビットストリームを出力し、定位位置決定処理は終了する。

例えばステップＳ５０では、制御部２３はオーディオオブジェクトのメタ情報として得られた位置情報と、各オーディオトラックとに基づいてVBAP手法によりレンダリングを行い、所定のチャンネル構成の各チャンネルのオーディオデータを生成する。

そして、制御部２３は、得られたオーディオデータを含む出力ビットストリームを出力する。ここで、出力ビットストリームにはコンテンツの映像の画像データなどが含まれていてもよい。

図４を参照して説明した定位位置決定処理における場合と同様に、出力ビットストリームの出力先は、記録部２２やスピーカ部２６、外部の装置など、任意の出力先とすることができる。

すなわち、例えばコンテンツのオーディオデータと画像データからなる出力ビットストリームが記録部２２やリムーバブル記録媒体等に供給されて記録されてもよいし、出力ビットストリームとしてのオーディオデータがスピーカ部２６に供給されてコンテンツの音が再生されてもよい。

また、レンダリング処理は行われず、ステップＳ４７やステップＳ４９で得られた位置情報をオーディオオブジェクトの位置を示すメタ情報として、コンテンツのオーディオデータ、画像データ、およびメタ情報のうちの少なくともオーディオデータを含む出力ビットストリームが生成されてもよい。

このとき、オーディオデータや画像データ、メタ情報が適宜、制御部２３によって所定の符号化方式により符号化され、符号化されたオーディオデータや画像データ、メタ情報が含まれる符号化ビットストリームが出力ビットストリームとして生成されてもよい。

特に、この出力ビットストリームは、記録部２２等に供給されて記録されるようにしてもよいし、通信部２５に供給されて、通信部２５により出力ビットストリームが外部の装置に送信されるようにしてもよい。

以上のようにして信号処理装置１１は、POV画像を表示させるとともに、コンテンツ制作者の操作に応じて定位位置マークを移動させ、その定位位置マークの表示位置に基づいて、音像の定位位置を決定する。

このようにすることで、コンテンツ制作者は、POV画像を見ながら定位位置マークを所望の位置に移動させるという操作を行うだけで、適切な音像の定位位置を容易に決定（指定）することができる。

以上のように、本技術によれば左右２チャンネルのオーディオコンテンツや、特に３次元空間の音像定位をターゲットするオブジェクトベースオーディオのコンテンツについて、コンテンツ制作ツールにおいて、例えば映像上の特定位置に音像が定位するようなパニングやオーディオオブジェクトの位置情報を容易に設定することができる。

〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図１２は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

入力部５０６は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、本技術は、以下の構成とすることも可能である。

（１）
聴取位置から見た聴取空間が表示されている状態で指定された前記聴取空間内のオーディオオブジェクトの音像の定位位置に関する情報を取得する取得部と、
前記定位位置に関する情報に基づいてビットストリームを生成する生成部と
を備える信号処理装置。
（２）
前記生成部は、前記定位位置に関する情報を前記オーディオオブジェクトのメタ情報として前記ビットストリームを生成する
（１）に記載の信号処理装置。
（３）
前記ビットストリームには、前記オーディオオブジェクトのオーディオデータおよび前記メタ情報が含まれている
（２）に記載の信号処理装置。
（４）
前記定位位置に関する情報は、前記聴取空間における前記定位位置を示す位置情報である
（１）乃至（３）の何れか一項に記載の信号処理装置。
（５）
前記位置情報には、前記聴取位置から前記定位位置までの距離を示す情報が含まれている
（４）に記載の信号処理装置。
（６）
前記定位位置は、前記聴取空間に配置された映像を表示するスクリーン上の位置である
（４）または（５）に記載の信号処理装置。
（７）
前記取得部は、第１の時刻における前記位置情報と、第２の時刻における前記位置情報とに基づいて、前記第１の時刻と前記第２の時刻との間の第３の時刻における前記位置情報を補間処理により求める
（４）乃至（６）の何れか一項に記載の信号処理装置。
（８）
前記聴取位置または前記聴取位置近傍の位置から見た前記聴取空間の画像の表示を制御する表示制御部をさらに備える
（１）乃至（７）の何れか一項に記載の信号処理装置。
（９）
前記表示制御部は、前記画像上に所定のチャンネル構成のスピーカシステムの各スピーカを、前記所定のチャンネル構成のスピーカレイアウトで表示させる
（８）に記載の信号処理装置。
（１０）
前記表示制御部は、前記画像上に前記定位位置を示す定位位置マークを表示させる
（８）または（９）に記載の信号処理装置。
（１１）
前記表示制御部は、入力操作に応じて、前記定位位置マークの表示位置を移動させる
（１０）に記載の信号処理装置。
（１２）
前記表示制御部は、前記聴取空間に配置された、前記オーディオオブジェクトに対応する被写体を含む映像が表示されたスクリーンを前記画像上に表示させる
（８）乃至（１１）の何れか一項に記載の信号処理装置。
（１３）
前記画像はPOV画像である
（８）乃至（１２）の何れか一項に記載の信号処理装置。
（１４）
信号処理装置が、
聴取位置から見た聴取空間が表示されている状態で指定された前記聴取空間内のオーディオオブジェクトの音像の定位位置に関する情報を取得し、
前記定位位置に関する情報に基づいてビットストリームを生成する
信号処理方法。
（１５）
聴取位置から見た聴取空間が表示されている状態で指定された前記聴取空間内のオーディオオブジェクトの音像の定位位置に関する情報を取得し、
前記定位位置に関する情報に基づいてビットストリームを生成する
ステップを含む処理をコンピュータに実行させるプログラム。

１１信号処理装置，２１入力部，２３制御部，２４表示部，２５通信部，２６スピーカ部，４１定位位置決定部，４２ゲイン算出部，４３表示制御部

Claims

聴取位置から見た聴取空間が表示されている状態で指定された前記聴取空間内のオーディオオブジェクトの音像の定位位置に関する情報を取得する取得部と、
前記定位位置に関する情報に基づいてビットストリームを生成する生成部と
を備える信号処理装置。
前記生成部は、前記定位位置に関する情報を前記オーディオオブジェクトのメタ情報として前記ビットストリームを生成する
請求項１に記載の信号処理装置。
前記ビットストリームには、前記オーディオオブジェクトのオーディオデータおよび前記メタ情報が含まれている
請求項２に記載の信号処理装置。
前記定位位置に関する情報は、前記聴取空間における前記定位位置を示す位置情報である
請求項１に記載の信号処理装置。
前記位置情報には、前記聴取位置から前記定位位置までの距離を示す情報が含まれている
請求項４に記載の信号処理装置。
前記定位位置は、前記聴取空間に配置された映像を表示するスクリーン上の位置である
請求項４に記載の信号処理装置。
前記取得部は、第１の時刻における前記位置情報と、第２の時刻における前記位置情報とに基づいて、前記第１の時刻と前記第２の時刻との間の第３の時刻における前記位置情報を補間処理により求める
請求項４に記載の信号処理装置。
前記聴取位置または前記聴取位置近傍の位置から見た前記聴取空間の画像の表示を制御する表示制御部をさらに備える
請求項１に記載の信号処理装置。
前記表示制御部は、前記画像上に所定のチャンネル構成のスピーカシステムの各スピーカを、前記所定のチャンネル構成のスピーカレイアウトで表示させる
請求項８に記載の信号処理装置。
前記表示制御部は、前記画像上に前記定位位置を示す定位位置マークを表示させる
請求項８に記載の信号処理装置。
前記表示制御部は、入力操作に応じて、前記定位位置マークの表示位置を移動させる
請求項１０に記載の信号処理装置。
前記表示制御部は、前記聴取空間に配置された、前記オーディオオブジェクトに対応する被写体を含む映像が表示されたスクリーンを前記画像上に表示させる
請求項８に記載の信号処理装置。
前記画像はPOV画像である
請求項８に記載の信号処理装置。
信号処理装置が、
聴取位置から見た聴取空間が表示されている状態で指定された前記聴取空間内のオーディオオブジェクトの音像の定位位置に関する情報を取得し、
前記定位位置に関する情報に基づいてビットストリームを生成する
信号処理方法。
聴取位置から見た聴取空間が表示されている状態で指定された前記聴取空間内のオーディオオブジェクトの音像の定位位置に関する情報を取得し、
前記定位位置に関する情報に基づいてビットストリームを生成する
ステップを含む処理をコンピュータに実行させるプログラム。