WO2017208821A1

WO2017208821A1 - 音響処理装置および方法、並びにプログラム

Info

Publication number: WO2017208821A1
Application number: PCT/JP2017/018500
Authority: WO
Inventors: 本間　弘幸; 辻　実
Original assignee: ソニー株式会社
Priority date: 2016-05-30
Filing date: 2017-05-17
Publication date: 2017-12-07
Also published as: RU2018141220A3; JP7504140B2; EP3468233A1; BR112018073896A2; RU2018141220A; EP3468233B1; EP3468233A4; US20190253828A1; CN109314833A; KR20190013758A; RU2735095C2; US10708707B2; JPWO2017208821A1; KR102332739B1; CN109314833B; JP2022065175A

Abstract

本技術は、より簡単に音響特性を調整することができるようにする音響処理装置および方法、並びにプログラムに関する。音響処理装置は、オーディオオブジェクトのオブジェクト位置情報に基づいて、オーディオオブジェクトの位置を表すオーディオオブジェクト情報画像を表示部に表示させる表示制御部と、１または複数のオーディオオブジェクトのなかから、所定のオーディオオブジェクトを選択する選択部とを備える。本技術は映像音響処理装置に適用することができる。

Description

音響処理装置および方法、並びにプログラム

　本技術は音響処理装置および方法、並びにプログラムに関し、特に、より簡単に音響特性を調整することができるようにした音響処理装置および方法、並びにプログラムに関する。

　近年、映画やゲーム等でオブジェクトオーディオ技術が用いられ、オブジェクトオーディオを扱える符号化方式も開発されている。例えばオブジェクトオーディオの符号化に関する規格として、国際標準規格であるMPEG(Moving Picture Experts Group)-H Part 3:3D audio規格などが知られている（例えば、非特許文献１参照）。

　このような符号化方式では、従来の２チャネルステレオ方式や、５．１チャネル等のマルチチャネルステレオ方式とともに、移動する音源等を独立したオーディオオブジェクトとして扱い、オーディオオブジェクトの信号データとともにオーディオオブジェクトの位置情報をメタデータとして符号化することができる。このようにすることで、従来の符号化方式では困難であった、再生時における特定の音源の加工を容易に行うことができる。具体的には、例えば特定の音源の加工として、音量調整やエフェクトの追加などをオーディオオブジェクトごとに行うことが可能である。

INTERNATIONAL STANDARD ISO/IEC 23008-3 First edition 2015-10-15 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio

　しかしながら、このようなオブジェクトオーディオ符号化技術で符号化されたオーディオオブジェクトビットストリームを含む映像を再生する際には、オーディオオブジェクトの音量調整等をすることは困難であった。

　具体的には、複数のオーディオオブジェクトの中から、所望のオーディオオブジェクトを選択して音量調整等を行う場合、出力された音声を聞くだけでは、目的とするオーディオオブジェクトを正しく選択することは極めて困難である。

　本技術は、このような状況に鑑みてなされたものであり、より簡単に音響特性を調整することができるようにするものである。

　本技術の一側面の音響処理装置は、オーディオオブジェクトのオブジェクト位置情報に基づいて、前記オーディオオブジェクトの位置を表すオーディオオブジェクト情報画像を表示部に表示させる表示制御部と、１または複数の前記オーディオオブジェクトのなかから、所定の前記オーディオオブジェクトを選択する選択部とを備える。

　音響処理装置には、前記選択部により選択された前記オーディオオブジェクトの音響に関するパラメータを設定するパラメータ設定部をさらに設けることができる。

　音響処理装置には、前記パラメータに基づいて、前記オーディオオブジェクトのオーディオオブジェクト信号、および背景音の背景音信号の少なくとも何れか一方に対して、前記オーディオオブジェクトの音声の音響特性を調整するための処理を行う信号調整部をさらに設けることができる。

　前記パラメータを、音量調整または音質調整のためのパラメータとすることができる。

　音響処理装置には、前記オーディオオブジェクトのオーディオオブジェクト信号のレンダリング処理を行うレンダリング処理部をさらに設けることができる。

　前記パラメータを、前記オーディオオブジェクトの位置を指定するパラメータとし、前記レンダリング処理部には、前記パラメータに基づいて前記レンダリング処理を行わせることができる。

　前記表示制御部には、前記表示部に表示されている、前記オーディオオブジェクトの音声が付随する映像上における前記オブジェクト位置情報により定まる位置に前記オーディオオブジェクト情報画像を重畳表示させることができる。

　前記表示制御部には、前記オブジェクト位置情報により定まる位置が前記表示部の表示画面外にある場合、前記表示画面の端部分に前記オーディオオブジェクト情報画像を表示させることができる。

　前記選択部には、ユーザによる前記オーディオオブジェクト情報画像の位置での指定操作に応じて、前記オーディオオブジェクトを選択させることができる。

　音響処理装置には、オーディオオブジェクトビットストリームを復号して、前記オーディオオブジェクトのオーディオオブジェクト信号と、前記オブジェクト位置情報とを得るオーディオオブジェクト復号部をさらに設けることができる。

　本技術の一側面の音響処理方法またはプログラムは、オーディオオブジェクトのオブジェクト位置情報に基づいて、前記オーディオオブジェクトの位置を表すオーディオオブジェクト情報画像を表示部に表示させ、１または複数の前記オーディオオブジェクトのなかから、所定の前記オーディオオブジェクトを選択するステップを含む。

　本技術の一側面においては、オーディオオブジェクトのオブジェクト位置情報に基づいて、前記オーディオオブジェクトの位置を表すオーディオオブジェクト情報画像が表示部に表示され、１または複数の前記オーディオオブジェクトのなかから、所定の前記オーディオオブジェクトが選択される。

　本技術の一側面によれば、より簡単に音響特性を調整することができる。

　なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。

映像音響処理装置の構成例を示す図である。コンテンツ再生処理を説明するフローチャートである。オーディオオブジェクト情報について説明する図である。オブジェクト位置情報の座標系について説明する図である。映像表示部の画角情報と表示画面の関係について説明する図である。オーディオオブジェクトの音響特性の調整について説明する図である。音響処理装置の構成例を示す図である。オーディオオブジェクト情報画像の表示について説明する図である。コンテンツ再生処理を説明するフローチャートである。コンピュータの構成例を示す図である。

　以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈映像音響処理装置の構成例〉
　本技術は、オーディオオブジェクトビットストリームの中のオブジェクト位置情報に基づいて、表示装置の表示画面上の対応する位置にオーディオオブジェクトが存在している事を矩形枠等の画像を重畳表示することで、オーディオオブジェクトの位置情報を可視化するようにしたものである。また、本技術では、オーディオオブジェクトが表示画面の表示範囲外にある場合には、表示画面外枠の対応する方向に範囲外であることを示す情報とともに画像を重畳表示することで、オーディオオブジェクトの位置情報を可視化するようにした。これにより、機器使用者は、表示された情報に基づいてオーディオオブジェクトの選択を行い、音量調整等の操作を容易に行うことができるようになる。

　図１は、本技術を適用した映像音響処理装置の一実施の形態の構成例を示す図である。

　図１に示す映像音響処理装置１１は、非多重化部２１、映像復号部２２、映像表示部２３、オーディオオブジェクト復号部２４、オーディオオブジェクト情報表示制御部２５、操作部２６、信号調整部２７、背景音復号部２８、信号調整部２９、およびレンダリング処理部３０を有している。

　この映像音響処理装置１１には、映像と音声からなるコンテンツを再生するための入力ビットストリームが供給される。より詳細には、入力ビットストリームから得られるコンテンツは、映像とその映像に付随するオーディオオブジェクトの音声および背景音とからなるものとされる。

　非多重化部２１は、外部から供給された入力ビットストリームを、映像ビットストリームと、オーディオオブジェクトビットストリームと、背景音ビットストリームとに非多重化する。

　ここで、映像ビットストリームは、コンテンツの映像（画像）を再生するための映像信号が含まれているビットストリームであり、非多重化部２１は、非多重化により得られた映像ビットストリームを映像復号部２２に供給する。

　また、オーディオオブジェクトビットストリームは、コンテンツの映像に付随する音声を再生するためのオーディオ信号のうち、オーディオオブジェクトの音声を再生するためのオーディオオブジェクト信号と、そのオーディオオブジェクトのメタデータであるオーディオオブジェクト情報とが含まれているビットストリームである。

　非多重化部２１は、非多重化により得られたオーディオオブジェクトビットストリームを、オーディオオブジェクト復号部２４に供給する。

　さらに、背景音ビットストリームは、コンテンツの映像に付随する音声を再生するためのオーディオ信号のうち、オーディオオブジェクトの音声以外の音声、すなわち背景音を再生するための背景音信号が含まれているビットストリームである。非多重化部２１は、非多重化により得られた背景音ビットストリームを背景音復号部２８に供給する。

　映像復号部２２は、非多重化部２１から供給された映像ビットストリームを復号し、その結果得られた映像信号を映像表示部２３に供給する。

　映像表示部２３は、例えば液晶表示パネルなどの表示デバイスからなり、映像復号部２２から供給された映像信号に基づいて、コンテンツの映像（画像）を表示する。

　オーディオオブジェクト復号部２４は、非多重化部２１から供給されたオーディオオブジェクトビットストリームを復号し、オーディオオブジェクト情報およびオーディオオブジェクト信号を得る。

　オーディオオブジェクト復号部２４は、復号により得られたオーディオオブジェクト情報をオーディオオブジェクト情報表示制御部２５およびレンダリング処理部３０に供給するとともに、復号により得られたオーディオオブジェクト信号を信号調整部２７に供給する。

　オーディオオブジェクト情報表示制御部２５は、オーディオオブジェクト復号部２４から供給されたオーディオオブジェクト情報に基づいて、オーディオオブジェクトの位置を表す画像情報であるオーディオオブジェクト情報画像を生成し、映像表示部２３に供給する。映像表示部２３は、映像復号部２２から供給された映像信号に基づいて表示しているコンテンツの映像に、オーディオオブジェクト情報表示制御部２５から供給されたオーディオオブジェクト情報画像を重畳表示することで、機器使用者に対してオーディオオブジェクトの位置を視覚的に提示する。

　操作部２６は、例えばリモートコントローラからの信号を受信する受信部や、映像表示部２３に重畳して設けられたタッチパネル、ボタン、マウス、キーボードなどを有し、ユーザの操作を受け付けて、ユーザの操作に応じた信号を出力する。

　具体的には、機器使用者は映像表示部２３に表示されたオーディオオブジェクト情報画像を見ながら操作部２６を操作して、オーディオオブジェクトを選択したり、その選択したオーディオオブジェクトの音声の音量調整等の音響特性の調整操作をしたりする。操作部２６は、ユーザによる音響特性の調整操作を受けると、その操作に応じて音響特性を調整をするための信号調整情報を生成し、信号調整部２７または信号調整部２９に供給する。

　なお、以下では、操作部２６は映像表示部２３と一体的に設けられた、すなわち映像表示部２３の表示画面に重畳して設けられたタッチパネルを有するものとして説明を続ける。

　信号調整部２７は、操作部２６から供給された信号調整情報に基づいて、オーディオオブジェクト復号部２４から供給されたオーディオオブジェクト信号の振幅等を調整することで音量調整や音質調整などの音響特性の調整を行い、その結果得られたオーディオオブジェクト信号をレンダリング処理部３０に供給する。

　例えば音響特性としての音量を調整する場合には、オーディオオブジェクト信号の振幅調整が行われる。また、音響特性としての音質を調整する場合には、例えばオーディオオブジェクト信号の周波数帯域（バンド）ごとにフィルタ係数を用いたフィルタ処理によりゲイン調整を行うことで、オーディオオブジェクト信号に基づく音声にエフェクトが付加される。

　背景音復号部２８は、非多重化部２１から供給された背景音ビットストリームを復号し、その結果得られた背景音信号を信号調整部２９に供給する。

　信号調整部２９は、操作部２６から供給された信号調整情報に基づいて、背景音復号部２８から供給された背景音信号の振幅等を調整することで音量調整や音質調整などの音響特性の調整を行い、その結果得られた背景音信号をレンダリング処理部３０に供給する。

　映像音響処理装置１１では、信号調整部２７および信号調整部２９からなる信号調整部により、オーディオオブジェクト信号および背景音信号の少なくとも何れか一方に対して、音量や音質などの音響特性を調整するための処理が行われる。これにより、オーディオオブジェクトの音声の音響特性が調整される。

　オーディオオブジェクトの音声の音響特性を調整する際には、例えば背景音の音量を下げることで、相対的にオーディオオブジェクトの音声の音量を増加させるなど、適宜、オーディオオブジェクト信号に対する処理と、背景音信号に対する処理とが組み合わされて、オーディオオブジェクトの音声の音響特性調整が実現される。

　レンダリング処理部３０は、オーディオオブジェクト復号部２４から供給されたオーディオオブジェクト情報に基づいて、信号調整部２７から供給されたオーディオオブジェクト信号に対するレンダリング処理を行う。

　また、レンダリング処理部３０は、レンダリング処理により得られたオーディオオブジェクト信号と、信号調整部２９から供給された背景音信号とを合成するミキシング処理を行い、その結果得られた出力オーディオ信号を出力する。この出力オーディオ信号の供給を受けたスピーカは、出力オーディオ信号に基づいて、コンテンツの音声を再生する。このとき、コンテンツの音声としてオーディオオブジェクトの音声と背景音とが再生される。

〈コンテンツ再生処理の説明〉
　次に、映像音響処理装置１１の動作について説明する。すなわち、以下、図２のフローチャートを参照して、映像音響処理装置１１により行われるコンテンツ再生処理について説明する。

　ステップＳ１１において、非多重化部２１は、外部から供給された入力ビットストリームを非多重化し、映像ビットストリーム、オーディオオブジェクトビットストリーム、および背景音ビットストリームを得る。

　非多重化部２１は、非多重化により得られた映像ビットストリーム、オーディオオブジェクトビットストリーム、および背景音ビットストリームを、それぞれ映像復号部２２、オーディオオブジェクト復号部２４、および背景音復号部２８に供給する。

　ステップＳ１２において、映像復号部２２は、非多重化部２１から供給された映像ビットストリームを復号し、その結果得られた映像信号を映像表示部２３に供給する。映像表示部２３は、映像復号部２２から供給された映像信号に基づいて、コンテンツの画像（映像）を表示させる。つまりコンテンツの映像を再生する。

　ステップＳ１３において、背景音復号部２８は、非多重化部２１から供給された背景音ビットストリームを復号し、その結果得られた背景音信号を信号調整部２９に供給する。

　ステップＳ１４において、オーディオオブジェクト復号部２４は、非多重化部２１から供給されたオーディオオブジェクトビットストリームを復号し、オーディオオブジェクト情報およびオーディオオブジェクト信号を得る。

　ここで、オーディオオブジェクト信号は、オーディオオブジェクトの音声の波形信号であり、オーディオオブジェクトビットストリームの復号により、１または複数のオーディオオブジェクトごとにオーディオオブジェクト信号が得られる。例えばオーディオオブジェクト信号は、PCM（Pulse Code Modulation）信号などとされる。

　一方、オーディオオブジェクト情報とは、音源であるオーディオオブジェクトが空間上のどの位置に存在するかを示す情報などを含むメタデータであり、例えば図３に示すフォーマットで符号化されている。

　図３に示すオーディオオブジェクト情報において、「num_objects」は、オーディオオブジェクトビットストリームに含まれているオーディオオブジェクトの数を示している。

　また、「tcimsbf」は「Two’s complement integer, most significant(sign) bit first」の略であり、符号ビットが先頭の２の補数を示している。「uimsbf」は「Unsigned integer, most significant bit first」の略であり、最上位ビットが先頭の符号なし整数を示している。

　さらに、「gain_factor[i]」は、オーディオオブジェクトビットストリームに含まれているｉ番目のオーディオオブジェクトのゲインを示している。

　「position_azimuth[i]」、「position_elevation[i]」、および「position_radius[i]」は、それぞれオーディオオブジェクトビットストリームに含まれているｉ番目のオーディオオブジェクトの位置情報を示している。

　具体的には、「position_azimuth[i]」は球面座標系におけるオーディオオブジェクトの位置の方位角を示しており、「position_elevation[i]」は球面座標系におけるオーディオオブジェクトの位置の仰角を示している。また、「position_radius[i]」は球面座標系におけるオーディオオブジェクトの位置までの距離、すなわち半径を示している。

　以下では、オーディオオブジェクト情報に含まれる「position_azimuth[i]」、「position_elevation[i]」、および「position_radius[i]」からなる、オーディオオブジェクトの位置を示す情報を、オブジェクト位置情報とも称することとする。

　また、以下、オーディオオブジェクト情報に含まれる「gain_factor[i]」であるオーディオオブジェクトのゲインを示す情報をゲイン情報とも称することとする。

　このような各オーディオオブジェクトのオブジェクト位置情報やゲイン情報が含まれるオーディオオブジェクト情報は、オーディオブジェクトのメタデータである。

　ここで球面座標系と３次元直交座標系との関係は、図４に示す関係となっている。

　図４では、原点Ｏを通り、互いに垂直なＸ軸、Ｙ軸、およびＺ軸が３次元直交座標系の軸となっている。例えば３次元直交座標系では、空間上のオーディオオブジェクトＯＢ１１の位置は、Ｘ軸方向の位置を示すＸ座標であるＸ１、Ｙ軸方向の位置を示すＹ座標であるＹ１、およびＺ軸方向の位置を示すＺ座標であるＺ１が用いられて（Ｘ１，Ｙ１，Ｚ１）と表される。

　これに対して球面座標系では、方位角position_azimuth、仰角position_elevation、および半径position_radiusが用いられて空間上のオーディオオブジェクトＯＢ１１の位置が表される。

　いま、原点Ｏと、空間上のオーディオオブジェクトＯＢ１１の位置とを結ぶ直線を直線ｒとし、この直線ｒをＸＹ平面上に投影して得られた直線を直線Ｌとする。

　このとき、Ｘ軸と直線Ｌとのなす角θがオーディオオブジェクトＯＢ１１の位置を示す方位角position_azimuthとされる。また、直線ｒとＸＹ平面とのなす角φがオーディオオブジェクトＯＢ１１の位置を示す仰角position_elevationとされ、直線ｒの長さがオーディオオブジェクトＯＢ１１の位置を示す半径position_radiusとされる。

　例えば原点Ｏの位置は、コンテンツの映像（画像）を見るユーザの位置とされ、Ｘ方向（Ｘ軸方向）の正の方向、つまり図４中、手前方向がユーザから見た正面方向とされ、Ｙ方向（Ｙ軸方向）の正の方向、つまり図４中、右方向がユーザから見た左方向とされる。

　このようにオーディオオブジェクト情報においては、各オーディオオブジェクトの位置が球面座標により表されている。

　このようなオーディオオブジェクト情報により示されるオーディオオブジェクトの位置とゲインは、所定の時間区間毎に変化する物理量である。コンテンツの再生時には、オーディオオブジェクト情報の変化に応じて、オーディオオブジェクトの音像定位位置を移動させることができる。

　図２のフローチャートの説明に戻り、オーディオオブジェクト復号部２４は、オーディオオブジェクトビットストリームを復号することで、オーディオオブジェクト情報およびオーディオオブジェクト信号を得る。

　ステップＳ１５において、オーディオオブジェクト情報表示制御部２５は、オーディオオブジェクト復号部２４から供給されたオーディオオブジェクト情報に基づいて、オーディオオブジェクトの表示画面上における位置を算出する。

　例えば「INTERNATIONAL STANDARD ISO/IEC 23008-3 First edition 2015-10-15 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio」（以下、参照文献１とも称する）の規格においては、ビットストリーム中に映像製作者側が想定した再生装置の画面に関する情報を水平方向の画角情報および垂直方向の画角情報として記述することができるが、これらの画角情報が記述されていない場合には、画角情報としてデフォルト値を用いることになっている。

　ここでは、例として画角情報のデフォルト値を用いてオーディオオブジェクトの表示画面上における位置を算出する場合について説明する。

　例えば映像表示部２３について、空間上の原点Ｏから見た映像表示部２３の水平方向、つまりＹ方向の画角を示す画角情報をscreen_azimuthとし、空間上の原点Ｏから見た映像表示部２３の垂直方向、つまりＺ方向の画角を示す画角情報をscreen_elevationとする。

　このとき、水平方向の画角情報screen_azimuthのデフォルト値と、垂直方向の画角情報screen_elevationのデフォルト値は、次式（１）に示す通りとされる。

　また、このような画角情報screen_azimuthおよび画角情報screen_elevationと、映像表示部２３の表示画面との関係は、図５に示すようになる。

　この例では、映像表示部２３の表示画面の中心位置Ｏ’と、空間上のユーザの位置である原点Ｏとの図中、縦方向の位置が同じ位置となっている。

　また、中心位置Ｏ’を原点として、図中、右方向をｘ方向の正の方向とし、図中、上方向をｙ方向の正の方向とする２次元直交座標系をｘｙ座標系として、そのｘｙ座標系上の位置を、ｘ座標とｙ座標を用いて（ｘ，ｙ）と表すとする。

　さらに、映像表示部２３の表示画面のｘ方向の幅（長さ）をscreen_widthとし、映像表示部２３の表示画面のｙ方向の幅（長さ）をscreen_heightとする。なお、これらのscreen_widthやscreen_heightは既知の値である。

　このとき、映像表示部２３の表示画面の図中、右側の端の位置ＰＳ１１と左側の端の位置ＰＳ１２は、それぞれｘｙ座標により位置ＰＳ１１＝（screen_width/2,0）および位置ＰＳ１２＝（-screen_width/2,0）となる。

　同様に、映像表示部２３の表示画面の図中、上側の端の位置ＰＳ１３と下側の端の位置ＰＳ１４は、それぞれｘｙ座標により位置ＰＳ１３＝（0,screen_height/2）および位置ＰＳ１４＝（0,-screen_height/2）となる。

　さらに原点Ｏを始点とし、中心位置Ｏ’を終点とするベクトルＶＢ３１と、原点Ｏを始点とし、位置ＰＳ１１を終点とするベクトルＶＢ３２とのなす角ＡＧ３１が-screen_azimuthとなる。同様にベクトルＶＢ３１と、原点Ｏを始点とし、位置ＰＳ１２を終点とするベクトルＶＢ３３とのなす角ＡＧ３２がscreen_azimuthとなる。

　また、ベクトルＶＢ３１と、原点Ｏを始点とし、位置ＰＳ１３を終点とするベクトルＶＢ３４とのなす角ＡＧ３３がscreen_elevationとなる。ベクトルＶＢ３１と、原点Ｏを始点とし、位置ＰＳ１４を終点とするベクトルＶＢ３５とのなす角ＡＧ３４が-screen_elevationとなる。

　オーディオオブジェクト情報表示制御部２５は、デフォルト値である画角情報screen_azimuthおよび画角情報screen_elevationと、既知の値である映像表示部２３の長さscreen_widthおよびscreen_heightと、オーディオオブジェクト情報に含まれるオブジェクト位置情報とから次式（２）を計算し、映像表示部２３の表示画面上におけるオーディオオブジェクトの位置を算出する。

　なお、式（２）において、position_azimuthおよびposition_elevationは、オブジェクト位置情報を構成する、オーディオオブジェクトの位置を示す方位角および仰角を示している。

　このようにして式（２）の計算を行うと、映像表示部２３の表示画面上、つまりコンテンツの画像上におけるオーディオオブジェクトの位置を示すｘ座標とｙ座標が求まることになる。以下、このようにして求められた映像表示部２３の表示画面上におけるオーディオオブジェクトの位置を、オブジェクト画面位置とも称することとする。

　すなわち、|position_azimuth|＜|screen_azimuth|が満たされない場合、オブジェクト画面位置により示されるオーディオオブジェクトのｘ座標は、position_azimuthが正の値であるときにはｘ＝-screen_width/2とされ、position_azimuthが負の値であるときにはｘ＝screen_width/2とされる。

　また、|position_elevation|＜|screen_elevation|が満たされない場合、オブジェクト画面位置により示されるオーディオオブジェクトのｙ座標は、position_elevationが正の値であるときにはｙ＝screen_height/2とされ、position_elevationが負の値であるときにはｙ＝-screen_height/2とされる。

　したがって、式（２）に示す制約条件を満たさないオーディオオブジェクトについては、そのオーディオオブジェクトのオブジェクト画面位置は、映像表示部２３の表示画面の端部分の位置となる。すなわち、オブジェクト画面位置は、映像表示部２３の画角情報により示される位置となる。

　このような式（２）の制約条件を満たさないオーディオオブジェクトは、コンテンツの画像上で観察されない、画像外に位置するオブジェクト、つまり映像表示部２３の表示画面外にあるオブジェクトである。

　したがって、オブジェクト位置情報から求まるオブジェクト画面位置が、映像表示部２３の表示画面外となるオーディオオブジェクトについては、そのオブジェクト画面位置に最も近い、映像表示部２３の表示画面の端部分の位置が、最終的なオブジェクト画面位置とされることになる。なお、その他、オブジェクト画面位置が表示画面外となる場合、そのオブジェクト画面位置および中心位置Ｏ’を結ぶ直線と、映像表示部２３の表示画面の端との交点位置を、最終的なオブジェクト画面位置とするなどしてもよい。

　図２のフローチャートに説明に戻り、ステップＳ１６において、オーディオオブジェクト情報表示制御部２５はオブジェクト画面位置に基づいて映像表示部２３を制御し、コンテンツの画像（映像）上に、オーディオオブジェクトが存在することを示すオーディオオブジェクト情報画像を重畳表示させる。

　このオーディオオブジェクト情報画像の表示位置は、オブジェクト画面位置、つまりオブジェクト位置情報により定まる映像表示部２３の表示画面上の位置とされる。換言すれば、オーディオオブジェクト情報画像は、オブジェクト位置情報により定まる、コンテンツの画像（映像）上の位置に表示される。

　例えばオーディオオブジェクト情報表示制御部２５は、ステップＳ１５の処理で得られたオブジェクト画面位置に基づいて、そのオブジェクト画面位置を中心とする所定の大きさの矩形枠の画像である矩形枠画像を表示させるための画像情報を、オーディオオブジェクト情報画像の画像情報として生成する。例えば矩形枠画像の大きさは、予め定められた大きさとされてもよいし、オブジェクト位置情報としての半径position_radiusにより定まる大きさとされてもよい。

　但し、上述した式（２）の制約条件を満たさなかったオーディオオブジェクトについての矩形枠画像は、制約条件を満たすオーディオオブジェクトの矩形枠画像とは異なる矩形枠画像とされる。ここで、異なる矩形枠画像とは、例えば矩形枠の形状や大きさが異なるものとされるが、色等の表示形式が異なるものとされてもよい。

　オーディオオブジェクト情報表示制御部２５は、このようにして生成したオーディオオブジェクト情報画像を映像表示部２３に供給し、コンテンツの画像上にオーディオオブジェクト情報画像を重畳して表示させる。

　このとき、式（２）の制約条件を満たさない、つまりオブジェクト位置情報から求まるオブジェクト画面位置が、映像表示部２３の表示画面外となるオーディオオブジェクトのオーディオオブジェクト情報画像は、そのオブジェクト画面位置に最も近い、映像表示部２３の表示画面の端部分の位置に表示されることになる。すなわち、オーディオオブジェクト情報画像がコンテンツの画像上の端部分に表示されることになる。

　ステップＳ１６の処理が行われると、例えば映像表示部２３には、図６に示す画像が表示される。

　図６に示す例では、映像表示部２３に表示されているコンテンツの画像上には、３名の人物ＨＭ１１乃至人物ＨＭ１３がオーディオオブジェクトとして表示されている。

　また、これらの人物ＨＭ１１乃至人物ＨＭ１３の顔の領域の部分には、それぞれオーディオオブジェクト情報画像としての矩形枠画像ＦＲ１１乃至矩形枠画像ＦＲ１３が重畳表示されている。したがって、ユーザはこれらの矩形枠画像ＦＲ１１乃至矩形枠画像ＦＲ１３を見ることで、簡単にオーディオオブジェクトを認識することができる。

　また、図６では式（２）の制約条件を満たさないオーディオオブジェクト、つまり表示画面外にあるオーディオオブジェクトが存在することを示す矩形枠画像ＦＲ１４が、映像表示部２３の表示画面端に表示されている。

　特に、この例では矩形枠画像ＦＲ１４に対応するオーディオオブジェクトが表示画面外にあることを示すために、矩形枠画像ＦＲ１４が点線表示されている。すなわち、矩形枠画像ＦＲ１４は、他の矩形枠画像ＦＲ１１乃至矩形枠画像ＦＲ１３とは異なる表示形式で表示されている。

　この例では、矩形枠画像ＦＲ１１と矩形枠画像ＦＲ１３も点線表示されているが、矩形枠画像ＦＲ１４の点線表示は、これらの矩形枠画像ＦＲ１１および矩形枠画像ＦＲ１３の点線表示とは異なる表示形式となっており、区別できるようになされている。

　矩形枠画像ＦＲ１４に対応するオーディオオブジェクトは、表示画面外に位置しているので、ユーザはそのオーディオオブジェクトをコンテンツの画像上で確認することはできない。しかしユーザは、矩形枠画像ＦＲ１４を見ることで、表示画面外にオーディオオブジェクトが存在することを知ることができる。例えばユーザは、矩形枠画像ＦＲ１４を見れば、自身から見て表示画面の外の左側に見えないオーディオオブジェクトがあることを認識することができる。

　このような状態で、例えば機器使用者であるユーザが人物ＨＭ１２の顔領域の部分に表示されている矩形枠画像ＦＲ１２を指で押すなどして選択したとする。この選択操作により、矩形枠画像ＦＲ１２が表示されている人物ＨＭ１２が選択されることになる。

　すると、選択された人物ＨＭ１２について表示されている矩形枠画像ＦＲ１２がハイライト表示される。この例では、矩形枠画像ＦＲ１２が実線で描かれており、矩形枠画像ＦＲ１２がハイライト表示されていることを表している。これにより、ユーザはどのオーディオオブジェクトを選択したかを視覚的に把握することができる。

　これに対して、選択されていない人物の矩形枠画像ＦＲ１１、矩形枠画像ＦＲ１３、および矩形枠画像ＦＲ１４は、点線で描かれており、ハイライト表示されていない、つまり通常の表示とされていることを表している。したがって矩形枠画像ＦＲ１２が選択されると、矩形枠画像ＦＲ１２は点線で描かれた通常表示の状態から、実線で描かれたハイライト表示された状態へと表示状態が変化する。

　さらに、この例では、矩形枠画像ＦＲ１２が選択されてハイライト表示されたことに伴って、矩形枠画像ＦＲ１２近傍には、選択された人物ＨＭ１２の音声の音響特性の調整を行うための調整指示画像ＣＴ１１が表示されている。

　ここでは、調整指示画像ＣＴ１１の例として、人物ＨＭ１２の音声の音量調整を行うための画像が表示されている。なお、調整指示画像に対する操作により、音量調整だけでなく、音質の調整なども行うことができるが、ここでは説明を簡単にするため、音量調整を例として説明を続ける。

　機器使用者であるユーザは、この調整指示画像ＣＴ１１に示される矢印部分に対する操作を行うことで、より簡単かつ直感的にオーディオオブジェクトの音声の音量を調整することができる。具体的には、ユーザは、調整指示画像ＣＴ１１の矢印部分における図中、上側の部分に触れることで音量を上げるようにすることができ、逆に矢印部分における図中、下側の部分に触れることで音量を下げるようにすることができる。また、例えば矢印部分に触れた回数や触れた時間に応じて音量を上げたり下げたりする量が決定される。

　さらに、ユーザは、調整指示画像ＣＴ１１が表示されている状態で、再度、矩形枠画像ＦＲ１２を指で押すなどすることで人物ＨＭ１２の選択を解除し、調整指示画像ＣＴ１１が表示されていない状態に表示を戻すことができる。

　図２のフローチャートの説明に戻り、ステップＳ１７において、操作部２６は機器使用者であるユーザによる操作に応じて、音響特性の調整を行うオーディオオブジェクトを選択する。

　例えばユーザによるオーディオオブジェクトの選択は、そのオーディオオブジェクトについて表示されている矩形枠画像、つまりオーディオオブジェクト情報画像をユーザが指定することにより行われる。このとき、ユーザは、１または複数のオーディオオブジェクトのなかから、１つのみオーディオオブジェクトを選択して音響特性を調整することもできるし、複数のオーディオオブジェクトを順番に選択して音響特性を調整することもできる。

　操作部２６は、ユーザによるオーディオオブジェクト情報画像の指定操作に応じて、オーディオオブジェクトを選択する。

　具体的には、例えば図６の例において、ユーザが矩形枠画像ＦＲ１２に指で触れる操作を行った場合、操作部２６は、ユーザの操作部２６に対する操作に応じて発生した信号に基づいて、矩形枠画像ＦＲ１２に対応する人物ＨＭ１２を、音響特性の調整を行うオーディオオブジェクトとして選択する。

　このようにして、矩形枠画像に対応する人物を選択する操作部２６は、ユーザの操作に応じてオーディオオブジェクトを選択するオーディオオブジェクト選択部として機能するということができる。

　また、操作部２６は音響特性の調整を行うオーディオオブジェクトを選択すると、映像表示部２３を制御し、選択したオーディオオブジェクトに対応する矩形枠画像（オーディオオブジェクト情報画像）をハイライト表示させるとともに、その矩形枠画像近傍に調整指示画像を表示させる。これにより、図６の例では、矩形枠画像ＦＲ１２がハイライト表示されるとともに、調整指示画像ＣＴ１１が表示される。

　すると、機器使用者であるユーザは、調整指示画像に対する操作を行って、オーディオオブジェクトの音声の音響特性の調整を指示する。なお、オーディオオブジェクトの音声だけでなく、背景音の音響特性も調整できるようにしてもよい。

　ステップＳ１８において、操作部２６は、ユーザの調整指示画像に対する操作に応じて発生した信号に基づいて、選択されているオーディオオブジェクトの音声の音響特性を調整するための信号調整情報を生成する。

　例えば操作部２６は、オーディオオブジェクトの音声の音量調整が指示された場合、その指示された分だけ音量を下げる、または上げることを指示する信号調整情報を生成する。この場合、例えば信号調整情報には、音量を増加または減少させる量、つまり音量の調整量を示す情報がパラメータとして含まれることになる。

　また、例えば操作部２６はオーディオオブジェクトの音声の音質調整が指示された場合、その指示に応じたエフェクトを付加するためのフィルタ処理に用いるフィルタ係数を選択し、選択したフィルタ係数を示す情報をパラメータとして含む信号調整情報を生成する。

　このようにして生成される信号調整情報は、音量の調整量を示す情報や、フィルタ係数を示す情報といった、音響に関するパラメータ、つまり音響特性を調整する際の調整度合いを示すパラメータを含むものである。したがって、操作部２６は、ユーザの操作に応じて、音響特性を調整する際のパラメータを設定し、設定されたパラメータを含む信号調整情報を生成するパラメータ設定部としても機能するということができる。

　操作部２６は、以上のようにして生成した信号調整情報を、信号調整部２７、信号調整部２９、または信号調整部２７および信号調整部２９に供給する。

　ステップＳ１９において、信号調整部２７または信号調整部２９は、操作部２６から供給された信号調整情報に基づいて音響特性を調整する。

　例えば信号調整部２７のみに信号調整情報が供給された場合、信号調整部２７は、操作部２６から供給された信号調整情報に基づいて、オーディオオブジェクト復号部２４から供給されたオーディオオブジェクト信号に対して音量調整や音質調整といった音響特性の調整を行う。そして、信号調整部２７は、音響特性が調整されたオーディオオブジェクト信号をレンダリング処理部３０に供給する。また、信号調整部２９は、背景音復号部２８から供給された背景音信号をそのままレンダリング処理部３０に供給する。

　具体的には、例えば信号調整部２７は、信号調整情報に基づいて、オーディオオブジェクト信号の振幅を増幅または減衰させることで音量調整を行う。また、例えば信号調整部２７は、信号調整情報により示されるフィルタ係数を用いて、オーディオオブジェクト信号に対してフィルタ処理を施すことで音質調整を行ない、音声にエフェクトを付加する。

　これに対して、例えば信号調整部２９のみに信号調整情報が供給された場合、信号調整部２９は、操作部２６から供給された信号調整情報に基づいて、背景音復号部２８から供給された背景音信号に対して音量調整や音質調整といった音響特性の調整を行う。そして、信号調整部２９は、音響特性が調整された背景音信号をレンダリング処理部３０に供給する。また、信号調整部２７は、オーディオオブジェクト復号部２４から供給されたオーディオオブジェクト信号をそのままレンダリング処理部３０に供給する。

　また、例えば信号調整部２７と信号調整部２９の両方に信号調整情報が供給された場合には、信号調整部２７および信号調整部２９において、それぞれオーディオオブジェクト信号および背景音信号に対して音響特性の調整が行われる。そして、音響特性が調整されたオーディオオブジェクト信号および背景音信号がレンダリング処理部３０に供給される。

　ここで、音響特性の調整方法は様々な方法があり、ユーザにより指定されたオーディオオブジェクトの音声の音響特性の調整が実現されれば、どのような方法により音響特性の調整が行われてもよい。例えば、選択されたオーディオオブジェクトのオーディオオブジェクト信号以外の全てのオーディオオブジェクト信号および背景音信号の振幅を減少させることで、選択されたオーディオオブジェクトの音声の音量を相対的に増加させるようにしてもよい。

　また、オーディオオブジェクト信号や背景音信号の振幅等を直接調整するのではなく、図３に示したオーディオオブジェクト情報に含まれるゲイン情報gain_factor[i]を変更することで、レンダリング処理部３０において音響特性の調整が行われるようにしてもよい。

　そのような場合、操作部２６は、ゲイン情報gain_factor[i]の変化量を示す情報をパラメータとして含む信号調整情報を生成し、レンダリング処理部３０に供給する。このようなゲイン情報の変化量を示す情報は、音声の音量を調整するための情報であるから、オーディオオブジェクトの音響に関するパラメータであるということができる。

　レンダリング処理部３０は、操作部２６からの信号調整情報に基づいて、オーディオオブジェクト復号部２４から供給されたオーディオオブジェクト情報に含まれるゲイン情報を変更し、変更後のゲイン情報を用いて、後述するステップＳ２０の処理を行う。

　ステップＳ２０において、レンダリング処理部３０は、オーディオオブジェクト復号部２４から供給されたオーディオオブジェクト情報に基づいて、信号調整部２７から供給されたオーディオオブジェクト信号のレンダリング処理を行う。

　また、レンダリング処理部３０は、レンダリング処理により得られたオーディオオブジェクト信号と、信号調整部２９から供給された背景音信号とを合成するミキシング処理を行い、その結果得られた出力オーディオ信号を出力して、コンテンツ再生処理は終了する。

　例えば映像音響処理装置１１では、背景音信号については、従来の２チャネルや５．１チャネル等のいわゆるマルチチャネルステレオ方式で再生が行われる。

　これに対してオーディオオブジェクト信号については、参照文献１にオーディオオブジェクトのレンダリング方式が記述されており、このレンダリング方式によりレンダリング処理部３０でレンダリングが行われて再生される。具体的には、VBAP（Vector Base Amplitude Panning）と呼ばれる方式で再生環境のスピーカに各オーディオオブジェクト信号がマッピングされて再生される。

　すなわち、レンダリング処理部３０では、図３に示したオーディオオブジェクト情報に含まれるゲイン情報がオーディオオブジェクト信号に乗算されてゲイン調整が行われ、ゲイン調整が行われたオーディオオブジェクト信号に基づいてVBAPでの処理が行われる。

　VBAPでは、図３に示したオーディオオブジェクト情報に含まれるオブジェクト位置情報により示される、空間上におけるオーディオオブジェクトの位置に最も近い３個のスピーカに、スピーカごとに定めたゲインでオーディオオブジェクト信号がマッピングされる。

　このようにVBAPは、オブジェクト位置情報により示される、空間上におけるオーディオオブジェクトの位置に最も近い位置にある３個のスピーカの出力を用いて、オーディオオブジェクトの空間上の位置に音を定位させる技術である。

　VBAPについては、例えば「Virtual Sound Source Positioning Using Vector Base Amplitude Panning, AES Volume 45 Issue 6 pp.456-266, June 1997」（以下、参照文献２とも称する）に詳細に記載されている。なお、参照文献１や参照文献２では、スピーカの個数は３個であるが４個以上のスピーカ数で音を定位させることも勿論可能である。

　また、以上においては、背景音信号はマルチチャネルステレオ方式で符号化および復号される例について説明したが、参照文献１の規格に記述されているHOA(Higher Order Ambisonic)と呼ばれる視聴者近傍の空間を、球面調和関数を直交基底として表現するような方式を用いるようにしてもよい。

　以上のようにして映像音響処理装置１１は、オーディオオブジェクト情報に基づいてオーディオオブジェクト情報画像を生成し、コンテンツの画像に重畳表示するとともに、ユーザの操作に応じて信号調整情報を生成し、音声の音響特性の調整を行う。

　このようにコンテンツの画像に、オーディオオブジェクト情報を用いて得られるオーディオオブジェクト情報画像を重畳表示させることで、ユーザはより簡単かつ直感的にオーディオオブジェクトを選択し、音量調整等の音響特性の調整を行うことができる。

〈第２の実施の形態〉
〈音響処理装置の構成例〉
　ところで、上述した第１の実施の形態では、コンテンツの画像（映像）にオーディオオブジェクトのオブジェクト位置情報を用いて得られたオーディオオブジェクト情報画像を重畳表示する例について説明した。しかし、本技術は、コンテンツとして映像を伴わない場合であっても適用可能である。

　第２の実施の形態では、入力ビットストリームに映像ビットストリームが含まれない場合、つまり入力ビットストリームにオーディオオブジェクトビットストリームと背景音ビットストリームのみが含まれる場合について説明する。

　そのような場合、本技術を適用した音響処理装置は、例えば図７に示す構成とされる。なお、図７において、図１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図７に示す音響処理装置８１は、非多重化部２１、映像表示部２３、オーディオオブジェクト復号部２４、オーディオオブジェクト情報表示制御部２５、操作部２６、信号調整部２７、背景音復号部２８、信号調整部２９、およびレンダリング処理部３０を有している。

　この音響処理装置８１の構成は、映像復号部２２が設けられていない点で映像音響処理装置１１の構成と異なり、その他の点では映像音響処理装置１１と同様の構成となっている。

　但し、音響処理装置８１では、オーディオオブジェクト復号部２４で得られたオーディオオブジェクト情報が操作部２６にも供給される。また、操作部２６は、機器使用者であるユーザの操作に応じて、適宜、オーディオオブジェクトのオブジェクト位置情報を変更し、変更後のオブジェクト位置情報をレンダリング処理部３０に供給する。

　例えば映像を伴わない純粋な音声のみのコンテンツを再生する場合、オーディオオブジェクトの位置を任意の位置に変更することができる。これは、コンテンツに映像が含まれているときには、オーディオオブジェクトの位置を移動させると、オーディオオブジェクトの位置と、そのオーディオオブジェクトに対応する映像オブジェクトの位置とにずれが生じるが、音声のみのコンテンツではそのようなことは生じないからである。

　この場合においても、オーディオオブジェクトビットストリームには、オーディオオブジェクト情報が含まれているため、映像表示部２３にオーディオオブジェクト情報画像を表示させることができる。したがって、機器使用者であるユーザは、このオーディオオブジェクト情報画像を見ることで、オーディオオブジェクトの位置を視覚的に確認しながら、コンテンツの加工や編集を行うことができる。このような実施形態は、例えばスタジオで音声のみからなるコンテンツの編集作業を行うような場合に好適である。

　音響処理装置８１では、例えば図８に示すようにオーディオオブジェクト情報画像の表示が行われる。

　図８に示す例では、映像表示部２３の表示画面には、オブジェクト位置表示領域Ｒ１１、オブジェクトメタデータ表示領域Ｒ１２、およびオブジェクト位置時間遷移表示領域Ｒ１３が設けられている。

　オブジェクト位置表示領域Ｒ１１には、オーディオオブジェクトの位置を示すオーディオオブジェクト情報画像が表示される。この実施の形態では、オーディオオブジェクト情報画像は、オブジェクト位置情報により示される位置に表示される。

　この例では、オブジェクト位置表示領域Ｒ１１には、矢印Ａ１１に示す３次元直交座標系の各軸が表示されているとともに、２つのオーディオオブジェクトのそれぞれの位置を示すオーディオオブジェクト情報画像ＦＲ３１およびオーディオオブジェクト情報画像ＦＲ３２が表示されている。ここで、矢印Ａ１１に示す３次元直交座標系は、図４に示したＸ軸、Ｙ軸、およびＺ軸を各軸とする３次元直交座標系である。

　また、この例では、オーディオオブジェクト情報画像ＦＲ３１が点線で描かれているのに対して、オーディオオブジェクト情報画像ＦＲ３２は実線で描かれており、オーディオオブジェクト情報画像ＦＲ３２が選択状態とされてハイライト表示されている様子が表されている。すなわち、各オーディオオブジェクト情報画像は、選択状態とされているときと、そうでないときとで異なる表示形式で表示される。また、図８では、オーディオオブジェクト情報画像ＦＲ３２が移動される様子が表されている。

　機器使用者であるユーザは、オブジェクト位置表示領域Ｒ１１に表示されるオーディオオブジェクト情報画像を見ることで、空間上におけるオーディオオブジェクトの位置を視覚的に確認することができる。

　オブジェクトメタデータ表示領域Ｒ１２には、オーディオオブジェクトビットストリームから抽出された、選択状態となっているオーディオオブジェクトのメタデータ、すなわちオーディオオブジェクト情報に含まれている情報が表示される。例えばオーディオオブジェクト情報に含まれている情報として、オブジェクト位置情報やゲイン情報が表示される。

　オブジェクト位置時間遷移表示領域Ｒ１３には、選択状態とされたオーディオオブジェクト情報画像、すなわち選択状態とされたオーディオオブジェクトの各時刻における空間上の位置が表示される。

　具体的には、オブジェクト位置時間遷移表示領域Ｒ１３には、Ｘ座標表示領域Ｒ２１、Ｙ座標表示領域Ｒ２２、およびＺ座標表示領域Ｒ２３が設けられており、それらのＸ座標表示領域Ｒ２１乃至Ｚ座標表示領域Ｒ２３の図中、横方向は時間方向を示している。

　Ｘ座標表示領域Ｒ２１には、オブジェクト位置表示領域Ｒ１１に表示されているオーディオオブジェクト情報画像に対応するオーディオオブジェクトのうち、選択状態とされているオーディオオブジェクトの各時刻における空間上のＸ軸方向の位置であるＸ座標を示す位置遷移情報ＰＬ１１が表示される。換言すれば、位置遷移情報ＰＬ１１はオーディオオブジェクトのＸ座標の時間遷移を示す情報である。

　同様に、Ｙ座標表示領域Ｒ２２には、選択状態とされているオーディオオブジェクトの各時刻における空間上のＹ軸方向の位置であるＹ座標を示す位置遷移情報ＰＬ１２が表示される。Ｚ座標表示領域Ｒ２３には、選択状態とされているオーディオオブジェクトの各時刻における空間上のＺ軸方向の位置であるＺ座標を示す位置遷移情報ＰＬ１３が表示される。

　さらに、これらのＸ座標表示領域Ｒ２１乃至Ｚ座標表示領域Ｒ２３における時間軸上の１時刻の位置には、カーソルＣＲ１１が表示される。

　この例では、機器使用者であるユーザが操作部２６を操作することで、オブジェクト位置表示領域Ｒ１１に表示されている所望のオーディオオブジェクト情報画像を選択すると、そのオーディオオブジェクト情報画像のオーディオオブジェクトの各時刻における位置を示す位置遷移情報ＰＬ１１乃至位置遷移情報ＰＬ１３が表示される。図８の例では、オーディオオブジェクト情報画像ＦＲ３２に対応するオーディオオブジェクトが選択状態となっている。

　また、ユーザは、カーソルＣＲ１１を時間軸方向の所望の位置に移動させることで、所定の時刻を指定することができる。カーソルＣＲ１１により時刻が指定されると、オブジェクト位置表示領域Ｒ１１には、カーソルＣＲ１１により示される時刻における各オーディオオブジェクトの空間上の位置に、それらのオーディオオブジェクトのオーディオオブジェクト情報画像が表示される。

　したがって、この例では、位置遷移情報ＰＬ１１乃至位置遷移情報ＰＬ１３におけるカーソルＣＲ１１が位置している時刻のＸ座標、Ｙ座標、およびＺ座標により示される空間上の位置に、選択状態のオーディオオブジェクトのオーディオオブジェクト情報画像ＦＲ３２が表示されている。

　このような状態で、図８に示されているように、ユーザが選択状態となっているオーディオオブジェクト情報画像ＦＲ３２を移動させると、位置遷移情報ＰＬ１１乃至位置遷移情報ＰＬ１３におけるカーソルＣＲ１１が位置している時刻のＸ座標、Ｙ座標、およびＺ座標が変更される。すなわち、ユーザによるオーディオオブジェクト情報画像ＦＲ３２の移動操作が位置遷移情報ＰＬ１１乃至位置遷移情報ＰＬ１３に対して反映される。

　また、ユーザが選択状態とするオーディオオブジェクト情報画像を、オーディオオブジェクト情報画像ＦＲ３１に変更すれば、オブジェクトメタデータ表示領域Ｒ１２およびオブジェクト位置時間遷移表示領域Ｒ１３の表示も、新たに選択状態とされたオーディオオブジェクト情報画像ＦＲ３１のものに更新される。

　さらに、この例では、オーディオオブジェクトの空間上の位置の変更操作を容易に行うことができるように、ユーザが矢印Ａ１１に示す３次元直交座標系自体を回転させたり、拡大縮小させたりすることもできるようになされている。

　以上のように、音響処理装置８１によれば、入力ビットストリームに含まれるオーディオオブジェクトの加工や編集の作業を視覚的に確認しながら容易に行うことができる。

　また、図８に示す例では、図６を参照して説明した場合と同様に、オーディオオブジェクトを選択して調整指示画像等を表示させ、その選択したオーディオオブジェクトについて、音量調整や音質調整などの音響特性の調整を行うこともできる。

〈コンテンツ再生処理の説明〉
　次に、音響処理装置８１の動作について説明する。すなわち、以下、図９のフローチャートを参照して、音響処理装置８１により行われるコンテンツ再生処理について説明する。

　コンテンツ再生処理が開始されると、ステップＳ５１の処理が行われるが、この処理は図２のステップＳ１１の処理と同様であるので、その説明は省略する。但し、ステップＳ５１では、入力ビットストリームがオーディオオブジェクトビットストリームと背景音ビットストリームとに非多重化される。

　また、入力ビットストリームが非多重化されると、ステップＳ５２およびステップＳ５３の処理が行われるが、これらの処理は図２のステップＳ１３およびステップＳ１４の処理と同様であるので、その説明は省略する。但し、ステップＳ５３では、オーディオオブジェクトビットストリームの復号により得られたオーディオオブジェクト情報が、オーディオオブジェクト情報表示制御部２５、操作部２６、およびレンダリング処理部３０に供給される。

　ステップＳ５４において、オーディオオブジェクト情報表示制御部２５は、オーディオオブジェクト復号部２４から供給されたオーディオオブジェクト情報に基づいて、映像表示部２３を制御し、オーディオブジェクト情報画像を表示させる。

　すなわち、オーディオオブジェクト情報表示制御部２５は、オーディオオブジェクト情報に基づいてオーディオブジェクト情報画像を生成し、そのオーディオブジェクト情報画像を映像表示部２３に供給して表示させる。

　これにより、映像表示部２３には、例えば図８に示した画面が表示される。すなわち、ステップＳ５４の処理により、映像表示部２３には、オーディオオブジェクト情報に含まれるオブジェクト位置情報により示される位置にオーディオブジェクト情報画像が表示されるとともに、オーディオオブジェクトのメタデータや位置遷移情報も表示される。

　このようにしてオーディオブジェクト情報画像が表示されると、機器使用者であるユーザは、操作部２６を操作して、オーディオオブジェクトの位置を変更したり、音量調整や音質調整を行なったりする。

　ステップＳ５５において、操作部２６は、ユーザの操作に応じて、オーディオオブジェクトのオブジェクト位置情報を変更する。

　例えば図８に示した例において、ユーザがオーディオオブジェクト情報画像ＦＲ３２を移動させた場合、操作部２６は、そのオーディオオブジェクト情報画像ＦＲ３２の移動に応じて、対応するオーディオオブジェクトのオブジェクト位置情報を変更する。

　オブジェクト位置情報は、レンダリング処理に用いられ、空間上におけるオーディオオブジェクトの位置、すなわち空間上におけるオーディオオブジェクトの音像の定位位置を指定する情報である。したがって、オブジェクト位置情報を変更する処理は、オーディオオブジェクトの音響に関するパラメータを設定する処理であるということができる。

　ステップＳ５６において、操作部２６は、ユーザの操作に応じて、信号調整情報を生成する。ステップＳ５６では、図２のステップＳ１８と同様の処理が行われる。なお、ステップＳ５６では、オーディオオブジェクト情報画像の位置の移動に応じて、音響特性の調整のためのパラメータが設定され、そのパラメータを含む信号調整情報が生成されるようにしてもよい。

　操作部２６は、以上のようにして生成した信号調整情報を、信号調整部２７、信号調整部２９、または信号調整部２７および信号調整部２９に供給する。また、操作部２６は、ステップＳ５５の処理により得られた、変更後のオブジェクト位置情報をレンダリング処理部３０に供給する。

　信号調整情報が生成されると、その後、ステップＳ５７およびステップＳ５８の処理が行われてコンテンツ再生処理は終了するが、これらの処理は図２のステップＳ１９およびステップＳ２０の処理と同様であるので、その説明は省略する。

　但し、ステップＳ５８では、レンダリング処理部３０は、操作部２６から供給された、変更後のオブジェクト位置情報と、オーディオオブジェクト復号部２４から供給されたオーディオオブジェクト情報に含まれるゲイン情報とを用いてレンダリング処理を行う。

　以上のようにして、音響処理装置８１は、オーディオオブジェクト情報に基づいて、オーディオオブジェクト情報画像を生成して表示するとともに、ユーザの操作に応じて信号調整情報を生成して音声の音響特性の調整を行ったり、オブジェクト位置情報を変更したりする。これにより、ユーザは、より簡単かつ直感的にオーディオオブジェクトを選択し、音響特性の調整を行ったり、オーディオオブジェクトの位置を移動させたりすることができる。すなわち、オーディオオブジェクトの加工や編集の作業を視覚的に確認しながら容易に行うことができる。

　ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図１０は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

　バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

　入力部５０６は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

　以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、本技術は、以下の構成とすることも可能である。

（１）
　オーディオオブジェクトのオブジェクト位置情報に基づいて、前記オーディオオブジェクトの位置を表すオーディオオブジェクト情報画像を表示部に表示させる表示制御部と、
　１または複数の前記オーディオオブジェクトのなかから、所定の前記オーディオオブジェクトを選択する選択部と
　を備える音響処理装置。
（２）
　前記選択部により選択された前記オーディオオブジェクトの音響に関するパラメータを設定するパラメータ設定部をさらに備える
　（１）に記載の音響処理装置。
（３）
　前記パラメータに基づいて、前記オーディオオブジェクトのオーディオオブジェクト信号、および背景音の背景音信号の少なくとも何れか一方に対して、前記オーディオオブジェクトの音声の音響特性を調整するための処理を行う信号調整部をさらに備える
　（２）に記載の音響処理装置。
（４）
　前記パラメータは、音量調整または音質調整のためのパラメータである
　（３）に記載の音響処理装置。
（５）
　前記オーディオオブジェクトのオーディオオブジェクト信号のレンダリング処理を行うレンダリング処理部をさらに備える
　（２）乃至（４）の何れか一項に記載の音響処理装置。
（６）
　前記パラメータは、前記オーディオオブジェクトの位置を指定するパラメータであり、
　前記レンダリング処理部は、前記パラメータに基づいて前記レンダリング処理を行う
　（５）に記載の音響処理装置。
（７）
　前記表示制御部は、前記表示部に表示されている、前記オーディオオブジェクトの音声が付随する映像上における前記オブジェクト位置情報により定まる位置に前記オーディオオブジェクト情報画像を重畳表示させる
　（１）乃至（６）の何れか一項に記載の音響処理装置。
（８）
　前記表示制御部は、前記オブジェクト位置情報により定まる位置が前記表示部の表示画面外にある場合、前記表示画面の端部分に前記オーディオオブジェクト情報画像を表示させる
　（７）に記載の音響処理装置。
（９）
　前記選択部は、ユーザによる前記オーディオオブジェクト情報画像の位置での指定操作に応じて、前記オーディオオブジェクトを選択する
　（７）または（８）に記載の音響処理装置。
（１０）
　オーディオオブジェクトビットストリームを復号して、前記オーディオオブジェクトのオーディオオブジェクト信号と、前記オブジェクト位置情報とを得るオーディオオブジェクト復号部をさらに備える
　（１）乃至（９）の何れか一項に記載の音響処理装置。
（１１）
　オーディオオブジェクトのオブジェクト位置情報に基づいて、前記オーディオオブジェクトの位置を表すオーディオオブジェクト情報画像を表示部に表示させ、
　１または複数の前記オーディオオブジェクトのなかから、所定の前記オーディオオブジェクトを選択する
　ステップを含む音響処理方法。
（１２）
　オーディオオブジェクトのオブジェクト位置情報に基づいて、前記オーディオオブジェクトの位置を表すオーディオオブジェクト情報画像を表示部に表示させ、
　１または複数の前記オーディオオブジェクトのなかから、所定の前記オーディオオブジェクトを選択する
　ステップを含む処理をコンピュータに実行させるプログラム。

　１１　映像音響処理装置，　２１　非多重化部，　２３　映像表示部，　２４　オーディオオブジェクト復号部，　２５　オーディオオブジェクト情報表示制御部，　２６　操作部，　２７　信号調整部，　２８　背景音復号部，　２９　信号調整部，　３０　レンダリング処理部

Claims

　オーディオオブジェクトのオブジェクト位置情報に基づいて、前記オーディオオブジェクトの位置を表すオーディオオブジェクト情報画像を表示部に表示させる表示制御部と、
　１または複数の前記オーディオオブジェクトのなかから、所定の前記オーディオオブジェクトを選択する選択部と
　を備える音響処理装置。
　前記選択部により選択された前記オーディオオブジェクトの音響に関するパラメータを設定するパラメータ設定部をさらに備える
　請求項１に記載の音響処理装置。
　前記パラメータに基づいて、前記オーディオオブジェクトのオーディオオブジェクト信号、および背景音の背景音信号の少なくとも何れか一方に対して、前記オーディオオブジェクトの音声の音響特性を調整するための処理を行う信号調整部をさらに備える
　請求項２に記載の音響処理装置。
　前記パラメータは、音量調整または音質調整のためのパラメータである
　請求項３に記載の音響処理装置。
　前記オーディオオブジェクトのオーディオオブジェクト信号のレンダリング処理を行うレンダリング処理部をさらに備える
　請求項２に記載の音響処理装置。
　前記パラメータは、前記オーディオオブジェクトの位置を指定するパラメータであり、
　前記レンダリング処理部は、前記パラメータに基づいて前記レンダリング処理を行う
　請求項５に記載の音響処理装置。
　前記表示制御部は、前記表示部に表示されている、前記オーディオオブジェクトの音声が付随する映像上における前記オブジェクト位置情報により定まる位置に前記オーディオオブジェクト情報画像を重畳表示させる
　請求項１に記載の音響処理装置。
　前記表示制御部は、前記オブジェクト位置情報により定まる位置が前記表示部の表示画面外にある場合、前記表示画面の端部分に前記オーディオオブジェクト情報画像を表示させる
　請求項７に記載の音響処理装置。
　前記選択部は、ユーザによる前記オーディオオブジェクト情報画像の位置での指定操作に応じて、前記オーディオオブジェクトを選択する
　請求項７に記載の音響処理装置。
　オーディオオブジェクトビットストリームを復号して、前記オーディオオブジェクトのオーディオオブジェクト信号と、前記オブジェクト位置情報とを得るオーディオオブジェクト復号部をさらに備える
　請求項１に記載の音響処理装置。
　オーディオオブジェクトのオブジェクト位置情報に基づいて、前記オーディオオブジェクトの位置を表すオーディオオブジェクト情報画像を表示部に表示させ、
　１または複数の前記オーディオオブジェクトのなかから、所定の前記オーディオオブジェクトを選択する
　ステップを含む音響処理方法。
　オーディオオブジェクトのオブジェクト位置情報に基づいて、前記オーディオオブジェクトの位置を表すオーディオオブジェクト情報画像を表示部に表示させ、
　１または複数の前記オーディオオブジェクトのなかから、所定の前記オーディオオブジェクトを選択する
　ステップを含む処理をコンピュータに実行させるプログラム。