JPWO2017208820A1

JPWO2017208820A1 - 映像音響処理装置および方法、並びにプログラム

Info

Publication number: JPWO2017208820A1
Application number: JP2018520782A
Authority: JP
Inventors: 本間　弘幸; 弘幸本間; 優樹山本
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2016-05-30
Filing date: 2017-05-17
Publication date: 2019-03-28
Anticipated expiration: 2037-05-17
Also published as: KR20190013748A; JP7396341B2; WO2017208820A1; JP2022036998A; US11902704B2; JP6984596B2; KR20220155396A; KR102650850B1; BR112018074203A2; US11184579B2; KR102465227B1; RU2018141215A; RU2743732C2; US20240146867A1; CN109313904A; CN109313904B; US20190222798A1; US20220078371A1; EP3467823A4; CN117612539A

Abstract

本技術は、より簡単かつ高精度に所望のオブジェクト音を分離させることができるようにする映像音響処理装置および方法、並びにプログラムに関する。
映像音響処理装置は、映像信号に基づく映像オブジェクトを表示させる表示制御部と、１または複数の映像オブジェクトのなかから、所定の映像オブジェクトを選択するオブジェクト選択部と、オブジェクト選択部により選択された映像オブジェクトのオーディオ信号をオーディオオブジェクト信号として抽出する抽出部とを備える。本技術は映像音響処理装置に適用することができる。

Description

本技術は映像音響処理装置および方法、並びにプログラムに関し、特に、より簡単かつ高精度に所望のオブジェクト音を分離させることができるようにした映像音響処理装置および方法、並びにプログラムに関する。

近年、映画やゲーム等でオブジェクトオーディオ技術が用いられ、オブジェクトオーディオを扱える符号化方式も開発されている。例えばオブジェクトオーディオの符号化に関する規格として、国際標準規格であるMPEG(Moving Picture Experts Group)-H Part 3:3D audio規格などが知られている（例えば、非特許文献１参照）。

このような符号化方式では、従来の２チャネルステレオ方式や、５．１チャネル等のマルチチャネルステレオ方式とともに、移動する音源等を独立したオーディオオブジェクトとして扱い、オーディオオブジェクトの信号データとともにオーディオオブジェクトの位置情報をメタデータとして符号化することができる。このようにすることで、従来の符号化方式では困難であった、再生時における特定の音源の加工を容易に行うことができる。具体的には、例えば特定の音源の加工として、音量調整やエフェクトの追加などをオーディオオブジェクトごとに行うことが可能である。

このようなオブジェクトオーディオ符号化を、例えばカムコーダやスマートフォン等で動画像を撮影するときに用いれば、撮影対象となっている家族の音声はオブジェクト音として記録し、それ以外の音は背景音とすることで、撮影後、再生時や編集時に独立して家族の声を操作することができる。

しかし、カムコーダやスマートフォン等のモバイル機器でオブジェクト音を収音する場合、何をオブジェクト音とし、何を背景音とすべきかを自動的に決定することは、計算リソースやユーザインターフェースの都合上、容易ではない。

また、オブジェクト音を分離する手法として、従来、種々の音源分離技術が提案されており、例えば複数のマイクロホンと独立主成分分析を用いて音源を分離する手法などが提案されている（例えば、特許文献１参照）。

INTERNATIONAL STANDARD ISO/IEC 23008-3 First edition 2015-10-15 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio

特開２０１０−２３３１７３号公報

しかしながら、これらの音源分離技術はマイクロホンからの入力音声信号から適応的に音源を分離するものであり、実用上は撮影対象者以外の音が含まれてしまう場合の方が多く、精度よく所望のオブジェクト音を分離させることは困難であった。

本技術は、このような状況に鑑みてなされたものであり、より簡単かつ高精度に所望のオブジェクト音を分離させることができるようにするものである。

本技術の一側面の映像音響処理装置は、映像信号に基づく映像オブジェクトを表示させる表示制御部と、１または複数の前記映像オブジェクトのなかから、所定の前記映像オブジェクトを選択するオブジェクト選択部と、前記オブジェクト選択部により選択された前記映像オブジェクトのオーディオ信号をオーディオオブジェクト信号として抽出する抽出部とを備える。

前記抽出部には、前記オーディオ信号から前記オーディオオブジェクト信号を抽出させることができる。

前記抽出部には、前記オーディオ信号から、前記選択された前記映像オブジェクトのオーディオオブジェクト信号以外の信号を背景音信号として抽出させることができる。

前記オブジェクト選択部には、前記選択された前記映像オブジェクトの空間上の位置を示すオブジェクト位置情報を生成させ、前記抽出部には、前記オブジェクト位置情報に基づいて、前記オーディオオブジェクト信号を抽出させることができる。

前記抽出部には、前記オブジェクト位置情報を用いた音源分離により前記オーディオオブジェクト信号を抽出させることができる。

前記抽出部には、前記音源分離として固定ビームフォーミングを行わせることができる。

映像音響処理装置には、前記映像信号に基づいて、前記映像オブジェクトを認識する映像オブジェクト認識部をさらに設け、前記表示制御部には、前記映像オブジェクトとともに、前記映像オブジェクトの認識結果に基づく画像を表示させることができる。

前記映像オブジェクト認識部には、顔認識により前記映像オブジェクトを認識させることができる。

前記表示制御部には、前記画像として、前記映像オブジェクトの領域に枠を表示させることができる。

前記オブジェクト選択部には、ユーザによる選択操作に応じて、前記映像オブジェクトを選択させることができる。

前記オブジェクト選択部には、前記選択された前記映像オブジェクトのメタデータを生成させることができる。

前記オブジェクト選択部には、前記メタデータとして、前記選択された前記映像オブジェクトの空間上の位置を示すオブジェクト位置情報を生成させることができる。

前記オブジェクト選択部には、前記メタデータとして、前記選択された前記映像オブジェクトの処理優先度を生成させることができる。

前記オブジェクト選択部には、前記メタデータとして、前記選択された前記映像オブジェクトの領域の広がり具合を示すスプレッド情報を生成させることができる。

映像音響処理装置には、前記オーディオオブジェクト信号および前記メタデータを符号化するオーディオ符号化部をさらに設けることができる。

映像音響処理装置には、前記映像信号を符号化する映像符号化部と、前記映像信号の符号化により得られた映像ビットストリームと、前記オーディオオブジェクト信号および前記メタデータの符号化により得られたオーディオビットストリームとを多重化する多重化部とをさらに設けることができる。

映像音響処理装置には、撮影を行って前記映像信号を得る撮像部をさらに設けることができる。

収音を行って前記オーディオ信号を得る収音部をさらに設けることができる。

本技術の一側面の映像音響処理方法またはプログラムは、映像信号に基づく映像オブジェクトを表示させる表示制御ステップと、１または複数の前記映像オブジェクトのなかから、所定の前記映像オブジェクトを選択するオブジェクト選択ステップと、前記オブジェクト選択ステップにより選択された前記映像オブジェクトのオーディオ信号をオーディオオブジェクト信号として抽出する抽出ステップとを含む。

本技術の一側面においては、映像信号に基づく映像オブジェクトが表示され、１または複数の前記映像オブジェクトのなかから、所定の前記映像オブジェクトが選択され、選択された前記映像オブジェクトのオーディオ信号がオーディオオブジェクト信号として抽出される。

本技術の一側面によれば、より簡単かつ高精度に所望のオブジェクト音を分離させることができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。

映像音響処理装置の構成例を示す図である。映像音響処理装置の構成例を示す図である。符号化処理を説明するフローチャートである。オーディオオブジェクトの選択と矩形枠画像の表示について説明する図である。オブジェクト位置情報の座標系について説明する図である。被写体とレンズと撮像面の関係について説明する図である。オブジェクト位置情報の算出について説明する図である。オブジェクト位置情報を含むメタデータのシンタックスを示す図である。処理優先度を含むメタデータのシンタックスを示す図である。処理優先度の設定について説明する図である。スプレッド情報を含むメタデータのシンタックスを示す図である。スプレッド情報について説明する図である。スプレッド情報の算出について説明する図である。コンピュータの構成例を示す図である。

以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈映像音響処理装置の構成例〉
本技術では、動画像を対象とした顔認識技術などのオブジェクト認識技術を用い、その認識結果を表示デバイス上で機器使用者に提示させ、機器使用者が認識結果より選択したオブジェクトに対応した方向の音をオブジェクト音として分離し、それ以外の音を背景音としてオブジェクトオーディオ符号化技術によって符号化するものである。

図１は、本技術を適用した映像音響処理装置の一実施の形態の構成例を示す図である。

図１に示す映像音響処理装置１１は、撮像部２１、映像オブジェクト認識部２２、映像オブジェクト認識結果表示制御部２３、映像表示部２４、オブジェクト選択部２５、収音部２６、音源分離部２７、オーディオ符号化部２８、映像符号化部２９、および多重化部３０を有している。

撮像部２１は、例えば撮像素子やレンズ等から構成される撮像ユニットからなり、被写体を撮影して、その結果得られた動画像の映像信号を映像オブジェクト認識部２２および映像符号化部２９に供給する。

映像オブジェクト認識部２２は、撮像部２１から供給された映像信号に基づいて、動画像上の映像オブジェクトを認識し、その認識結果を映像信号とともに映像オブジェクト認識結果表示制御部２３に供給する。

映像オブジェクト認識部２２では、顔認識や物体認識、モーションキャプチャなどにより、動画像上の映像オブジェクトが認識（検出）される。

例えば特許第４４９２０３６号公報には、既知画像を用いた物体認識技術について詳細に記載されている。このような既知画像を用いた物体認識技術は、近年の機械学習技術とクラウドネットワークの進化に伴い現実的に利用可能なレベルになっている。こうした物体認識技術を利用することで、任意の物体を認識し、その認識結果を機器使用者に提示して、機器使用者が選択した物体の位置から発せられるオーディオ信号をオーディオオブジェクトの信号として抽出することが可能となる。

映像オブジェクト認識結果表示制御部２３は、映像オブジェクト認識部２２から供給された映像オブジェクトの認識結果および映像信号に基づいて、映像表示部２４における動画像の表示を制御する。すなわち、映像オブジェクト認識結果表示制御部２３は、映像表示部２４に映像信号を供給して動画像を表示させるとともに、映像オブジェクトの認識結果に基づいて、動画像上に映像オブジェクトの位置を示す情報を重畳表示させる。

また、映像オブジェクト認識結果表示制御部２３は、映像オブジェクトの認識結果をオブジェクト選択部２５に供給する。

映像表示部２４は、例えば液晶表示パネルなどからなり、映像オブジェクト認識結果表示制御部２３の制御に従って動画像等の画像を表示する。

また、映像表示部２４に動画像（映像）とともに映像オブジェクトの認識結果、つまり映像オブジェクトの位置を示す情報が表示されると、機器使用者は、所望の映像オブジェクトを指定する操作を行う。すると、機器使用者による指定操作の結果を示す信号がオブジェクト選択部２５に供給される。

オブジェクト選択部２５は、映像オブジェクト認識結果表示制御部２３から供給された映像オブジェクトの認識結果と、機器使用者による映像オブジェクトの指定操作に応じて供給された信号とに基づいて、機器使用者により選択された映像オブジェクトの３次元空間上の位置を示すオブジェクト位置情報を生成する。オブジェクト選択部２５は、得られたオブジェクト位置情報を、音源分離部２７およびオーディオ符号化部２８に供給する。

収音部２６は、例えばマイクロホンからなり、映像音響処理装置１１の周囲の音を収音し、その結果得られたオーディオ信号を音源分離部２７に供給する。映像音響処理装置１１では、撮像部２１により撮影された動画像と、収音部２６により収音された音声とからなるコンテンツが得られることになる。すなわち、収音部２６で得られるオーディオ信号は、撮像部２１で得られる映像信号に付随する音声の信号である。

音源分離部２７は、オブジェクト選択部２５から供給されたオブジェクト位置情報に基づいて、収音部２６から供給されたオーディオ信号に対して音源分離を行う。

音源分離部２７での音源分離によって、収音部２６で得られたオーディオ信号が、機器使用者により選択された映像オブジェクトの音声の信号であるオーディオオブジェクト信号と、機器使用者により選択された映像オブジェクトの音声以外の音声の信号、つまり背景音の信号である背景音信号とに分離される。ここでは、機器使用者により選択された映像オブジェクトの音声の信号が、オブジェクト音、つまりオーディオオブジェクトの音声信号であるオーディオオブジェクト信号として分離（抽出）される。

音源分離部２７は、音源分離により得られたオーディオオブジェクト信号と背景音信号とをオーディオ符号化部２８に供給する。

オーディオ符号化部２８は、音源分離部２７から供給されたオーディオオブジェクト信号および背景音信号と、オブジェクト選択部２５から供給されたオブジェクト位置情報とを符号化し、その結果得られたオーディオビットストリームを多重化部３０に供給する。

映像符号化部２９は、撮像部２１から供給された映像信号を符号化し、その結果得られた映像ビットストリームを多重化部３０に供給する。多重化部３０は、映像符号化部２９から供給された映像ビットストリームと、オーディオ符号化部２８から供給されたオーディオビットストリームとを多重化し、最終的な出力となる出力ビットストリームを得る。多重化部３０は、このようにして得られた出力ビットストリームを出力する。

〈映像音響処理装置の構成例〉
図１に示した映像音響処理装置１１は、一般的な実施の形態を示すものであるが、以下では、より具体的な説明を行うために、映像オブジェクト認識部２２における映像オブジェクトの認識手法として、顔認識技術が用いられる場合を具体例として説明を行う。

そのような場合、映像音響処理装置は、例えば図２に示すように構成される。なお、図２において図１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図２に示す映像音響処理装置６１は、撮像部２１、顔認識部７１、顔認識結果表示制御部７２、映像表示部７３、人物選択部７４、収音部２６、音源分離部２７、オーディオ符号化部２８、映像符号化部２９、および多重化部３０を有している。

この映像音響処理装置６１の構成は、映像オブジェクト認識部２２乃至オブジェクト選択部２５に代えて、顔認識部７１乃至人物選択部７４が設けられている点で映像音響処理装置１１の構成と異なり、その他の点では映像音響処理装置１１と同じ構成となっている。

顔認識部７１は、図１に示した映像オブジェクト認識部２２に対応する。顔認識部７１は、撮像部２１から供給された映像信号に対して顔認識処理を行って動画像上の人の顔を認識し、その認識結果を映像信号とともに顔認識結果表示制御部７２に供給する。すなわち、顔認識部７１では、映像信号に基づいて、映像オブジェクトとして人の顔が認識（検出）される。

顔認識結果表示制御部７２は、図１に示した映像オブジェクト認識結果表示制御部２３に対応する。顔認識結果表示制御部７２は、顔認識部７１から供給された顔認識結果および映像信号に基づいて、映像表示部７３における動画像の表示を制御する。すなわち、顔認識結果表示制御部７２は、映像表示部７３に映像信号を供給してコンテンツの動画像を表示させるとともに、顔認識結果に基づいて、動画像上に映像オブジェクトとしての人の顔の位置を示す情報を重畳表示させる。

また、顔認識結果表示制御部７２は、顔認識結果を人物選択部７４に供給する。

映像表示部７３は、例えば液晶表示パネルなどからなり、図１に示した映像表示部２４に対応する。映像表示部７３は、顔認識結果表示制御部７２の制御に従って動画像等の画像を表示する。

また、映像表示部７３は表示画面に重畳されて設けられたタッチパネル８１を有しており、タッチパネル８１は機器使用者による操作に応じた信号を人物選択部７４に供給する。なお、ここでは機器使用者がタッチパネル８１を操作することにより各種の入力を行う例について説明するが、その他、マウスやボタン、キーボードなどの入力機器が用いられて入力が行われるようにしてもよい。

映像表示部７３に動画像（映像）とともに顔認識の結果、つまり映像オブジェクトとしての人の顔の位置を示す情報が表示されると、機器使用者は、タッチパネル８１を操作して、所望の人物を指定する。すると、タッチパネル８１から人物選択部７４には、機器使用者による人物（顔）の選択結果が供給される。

人物選択部７４は、図１に示したオブジェクト選択部２５に対応する。人物選択部７４は、顔認識結果表示制御部７２から供給された顔認識の結果と、タッチパネル８１から供給された人物の選択結果とに基づいて、機器使用者により選択された人物、つまり映像オブジェクトを選択し、その映像オブジェクトの３次元空間上の位置を示すオブジェクト位置情報を生成する。

また、人物選択部７４は、機器使用者による人物の選択結果を映像表示部７３に供給して所定の表示を行わせ、機器使用者が自身で行った人物の選択結果を確認できるようにさせる。

人物選択部７４は、機器使用者により選択された人物について得られたオブジェクト位置情報を、音源分離部２７およびオーディオ符号化部２８に供給する。

〈符号化処理の説明〉
次に、映像音響処理装置６１の動作について説明する。すなわち、以下、図３のフローチャートを参照して、映像音響処理装置６１により行われる符号化処理について説明する。

この符号化処理は、例えば機器使用者により映像音響処理装置６１が操作され、コンテンツとしての音声付きの画像の撮影が指示されたときに開始される。なお、ここでは、コンテンツの画像として動画像（映像）が撮影される場合を例として説明するが、以下では、動画像を単にコンテンツの画像とも称することとする。

撮影が開始されると、撮像部２１は被写体を撮影し、その結果得られた映像信号を、順次、顔認識部７１および映像符号化部２９に供給する。また、収音部２６は、音声を収音し、その結果得られたオーディオ信号を、順次、音源分離部２７に供給する。

ステップＳ１１において、顔認識部７１は、撮像部２１から供給された映像信号に基づいて、映像信号に基づくコンテンツの画像上から人の顔を検出し、その検出結果と映像信号とを顔認識結果表示制御部７２に供給する。

例えば顔認識部７１は、映像信号に対して特徴量や辞書などを利用した顔認識処理を行うことにより画像から人の顔を検出する。ここでは、例えば画像上における人の顔の位置と、その人の顔の領域の大きさなどが認識（検出）される。このようにして検出された、コンテンツの画像上の人、より詳細には人の顔が映像オブジェクトとされる。

ステップＳ１２において、顔認識結果表示制御部７２は、顔認識部７１から供給された顔の検出結果および映像信号に基づいて、コンテンツの画像上における検出された各顔の領域に、それらの各顔を囲む矩形枠を表示させるための矩形枠画像の信号を生成する。

なお、矩形枠画像は、映像オブジェクトである人の顔の領域に、その顔の少なくとも一部の領域を囲む枠を表示させる画像であればよく、必ずしも顔の全領域が矩形枠により囲まれる必要はない。

また、顔認識結果表示制御部７２は、人の顔ごとに生成した矩形枠画像の表示位置と大きさ、つまり画像上における人の顔の領域の位置と大きさを示す顔位置情報を人物選択部７４に供給する。

ステップＳ１３において、顔認識結果表示制御部７２は、生成した矩形枠画像の信号と、コンテンツの映像信号とを映像表示部７３に供給するとともに、映像表示部７３を制御し、人の顔の領域に矩形枠画像が重畳表示されたコンテンツの画像を表示させる。

これにより、映像表示部７３の表示画面には、コンテンツの画像、つまり映像信号に基づく映像オブジェクトとともに、映像オブジェクトの認識結果に基づく画像である矩形枠画像が表示されることになる。

なお、コンテンツの画像から人の顔を検出する顔認識技術については、様々な手法が提案されており、例えば、特許第４２６４６６３号公報（以下、参照文献１とも称する）などに詳細に記載されている。参照文献１では、顔認識を行って、その認識結果に基づいて矩形枠画像を重畳表示させることが記載されている。

顔認識部７１における顔認識処理の手法や、顔認識結果表示制御部７２による矩形枠画像の重畳表示の手法は、参照文献１に記載の手法と同様の手法としてもよいが、人の顔を認識し、認識された顔領域を囲む表示を行うことができれば、どのような手法でもよい。また、例えばここでは矩形枠画像を表示する例について説明するが、顔認識の結果をコンテンツの画像上、特に顔の位置に表示することができれば、矩形枠画像に限らず、人の顔の輪郭を強調表示したり、他の形状の図形画像を重畳表示したりするようにしてもよい。

このようにして映像表示部７３にコンテンツの画像が表示されるとともに、その画像上の人の顔の領域に矩形枠画像が表示されると、機器使用者、つまり映像音響処理装置６１を操作するユーザはタッチパネル８１を操作し、所望の人物をオーディオオブジェクトとして選択する。

例えば所望の人物の選択は、その人物の顔領域に表示されている矩形枠画像を指定することにより行われる。また、ユーザは、映像表示部７３に表示されている１または複数の人物（映像オブジェクト）のなかから、１人のみ人物を選択することもできるし、複数の人物を選択することもできる。

映像音響処理装置６１では、このようにして選択された人物、つまり映像オブジェクトから発せられる音声が、オブジェクト音であるとされる。そして、そのオブジェクト音の信号がオーディオオブジェクト信号としてオーディオ信号から抽出される。したがって、映像オブジェクトである人物を選択することは、所望の人物をオーディオオブジェクトとして選択する操作であるということができる。

機器使用者により所望の人物が選択されると、タッチパネル８１から人物選択部７４には、機器使用者の選択操作に応じた信号が供給される。

ステップＳ１４において、人物選択部７４は、タッチパネル８１から供給された機器使用者による選択操作に応じた信号と、顔認識結果表示制御部７２から供給された顔位置情報とに基づいて、機器使用者により指定されたオーディオオブジェクトを選択する。

ステップＳ１５において、人物選択部７４は、ステップＳ１４におけるオーディオオブジェクトの選択結果に基づいて映像表示部７３を制御し、オーディオオブジェクトとするものとして選択された人の顔の領域に表示されている矩形枠画像、つまり選択された矩形枠画像をハイライト表示させる。

例えば図４に示すように、映像表示部７３に３名の人物ＨＭ１１乃至人物ＨＭ１３が被写体として含まれているコンテンツの画像が表示されているとする。

この例では、ステップＳ１１において、人物ＨＭ１１乃至人物ＨＭ１３の顔が検出され、ステップＳ１３では、それらの人物の顔の領域に、矩形枠画像ＦＲ１１乃至矩形枠画像ＦＲ１３が重畳表示される。

このような状態で、例えば機器使用者が人物ＨＭ１１の顔領域の部分に表示されている矩形枠画像ＦＲ１１を指で押すなどして選択したとする。この選択操作により、ステップＳ１４では、矩形枠画像ＦＲ１１が表示されている人物ＨＭ１１がオーディオオブジェクトとして選択されることになる。すると、ステップＳ１５では、選択された人物ＨＭ１１の顔領域に表示されている矩形枠画像ＦＲ１１がハイライト表示される。

この例では、矩形枠画像ＦＲ１１が実線で描かれており、矩形枠画像ＦＲ１１がハイライト表示されていることを表している。これに対して、選択されていない人物の矩形枠画像ＦＲ１２および矩形枠画像ＦＲ１３は点線で描かれており、ハイライト表示されていない、つまり通常の表示とされていることを表している。

したがって矩形枠画像ＦＲ１１が選択されると、矩形枠画像ＦＲ１１は点線で描かれた通常表示の状態から、実線で描かれたハイライト表示された状態へと表示状態が変化する。

このように機器使用者により選択された人物の矩形枠画像を、他の矩形枠画像と異なる表示形式で表示することで、機器使用者は、自身の選択操作が正しく反映されたかを容易に確認することができる。

なお、ここでは選択された人物の矩形枠画像がハイライト表示される場合を例として説明したが、これに限らず、選択された人物の矩形枠画像と、他の矩形枠画像とが異なる表示形式で表示されるようにすればよい。例えば選択された人物の矩形枠画像を、それ以外の矩形枠画像と異なる色や形状で表示させたり、点滅表示させたりしてもよい。

また、顔認識部７１に、予め家族等の特定の人物の辞書を保持しておき、顔認識部７１において特定の人物が検出された場合には、人物選択部７４が機器使用者の選択操作なしにその特定の人物をオーディオオブジェクトとして選択するようにしてもよい。

そのような場合、顔認識部７１から顔認識結果表示制御部７２を介して人物選択部７４には、特定の人物を示す情報も供給される。そして、映像表示部７３にコンテンツの画像と矩形枠画像が表示された時点で、映像表示部７３は人物選択部７４からの制御に応じて、特定人物の矩形枠画像をハイライト表示させる。

このように、予め特定の人物がオーディオオブジェクトとして選択されるようにしておくことで、機器使用者による選択操作の手間を省くことが可能となる。また、この場合、その後の機器使用者の操作に応じて、特定の人物の選択が解除されるようにすることが可能となっている。

さらに、コンテンツの画像に重畳表示される矩形枠画像は、例えば参照文献１に記載されている例と同様に、人物の移動や、撮影対象領域の移動、すなわち撮影方向の変化などに伴い自動的に追従するような処理が行われる。

一般的なカムコーダやデジタルスチルカメラでは、タッチパネルで触れた領域にフォーカスを合わせるような機構を備えたものがあるが、このオーディオオブジェクトの選択処理とフォーカス対象の選択処理を同時に行うことも可能である。一度、選択されたオーディオオブジェクトは、前述の矩形枠画像の自動的な追従と同様に、人物の移動や撮影対象領域の移動に伴い自動的に追従するようになされる。

図３のフローチャートの説明に戻り、ステップＳ１６において人物選択部７４は、顔認識結果表示制御部７２から供給された顔位置情報に基づいて、ステップＳ１４で選択されたオーディオオブジェクトの空間上の位置を示すオブジェクト位置情報を生成する。

一般的に、MPEG-H Part 3:3D audio規格などに代表される各規格でのオーディオオブジェクトのオブジェクト位置情報は、例えば図５に示す球面座標系で符号化される。

図５では、原点Ｏを通り、互いに垂直なＸ軸、Ｙ軸、およびＺ軸が３次元直交座標系の軸となっている。例えば３次元直交座標系では、空間上のオーディオオブジェクトＯＢ１１の位置は、Ｘ軸方向の位置を示すＸ座標であるｘ、Ｙ軸方向の位置を示すＹ座標であるｙ、およびＺ軸方向の位置を示すＺ座標であるｚが用いられて（ｘ，ｙ，ｚ）と表される。

これに対して球面座標系では方位角、仰角、および半径が用いられて空間上のオーディオオブジェクトＯＢ１１の位置が表される。

いま、原点Ｏと空間上のオーディオオブジェクトＯＢ１１の位置とを結ぶ直線を直線ｒとし、この直線ｒをＸＹ平面上に投影して得られた直線を直線Ｌとする。

このとき、Ｘ軸と直線Ｌとのなす角θがオーディオオブジェクトＯＢ１１の位置を示す方位角とされる。また、直線ｒとＸＹ平面とのなす角φがオーディオオブジェクトＯＢ１１の位置を示す仰角とされ、直線ｒの長さがオーディオオブジェクトＯＢ１１の位置を示す半径とされる。

以下では、空間上のオーディオオブジェクトの位置を球面座標で表すこととし、その位置を示す方位角、仰角、および半径を、それぞれposition_azimuth、position_elevation、およびposition_radiusと記すこととする。

一般的に、動画像から物体の大きさや撮影者からの実距離を測定することは困難である。また、カムコーダなどの撮像装置においては、オートフォーカス機構など物体との距離を複数の点で測定できるものも存在するが、ここでは顔認識処理を用いて被写体の位置、つまりオーディオオブジェクトの実空間上の位置を計算する場合を例として説明する。

すなわち、以下、図６を参照して、一般的な撮像装置において被写体の形状が既知である場合の被写体距離の測定方法を説明する。

図６では、撮像面１０１を有する撮像素子と、レンズ１０２とからなる撮像ユニットにより被写体１０３が撮影される。ここで、撮像素子とレンズ１０２からなる撮像ユニットは撮像部２１に対応し、被写体１０３は、ステップＳ１４でオーディオオブジェクトとして選択された画像上の人物に対応する、実空間上の人物である。

この例では、被写体１０３の図中、縦方向の幅である被写体幅がＷ２となっており、その被写体１０３を撮影したときの撮像面１０１上における被写体１０３の像の図中、縦方向の幅である撮像被写体幅がＷ１となっている。

さらに、レンズ１０２から被写体１０３までの空間上の図中、横方向の距離を被写体距離ｄとし、撮像面１０１からレンズ１０２までの空間上の図中、横方向の距離を焦点距離Ｄとする。

なお、より詳細には、レンズ１０２の主点から被写体１０３までの図中、横方向の距離が被写体距離ｄであり、撮像面１０１からレンズ１０２の主点までの図中、横方向の距離が焦点距離Ｄである。また、レンズ１０２が複数のレンズから構成されるときには、合成レンズの主点がレンズ１０２の主点となる。

人物選択部７４では、焦点距離Ｄ、撮像面１０１の大きさ（サイズ）や画素数など、撮像部２１に関する情報が予め保持されている。

また、人物選択部７４は、顔認識結果表示制御部７２から供給された顔位置情報と、予め保持している撮像部２１に関する情報とから、画像上の被写体の位置および大きさと、撮像面１０１上の被写体（の像）の位置および大きさとの関係を特定することができる。したがって、人物選択部７４は、顔位置情報と撮像部２１に関する情報とから撮像被写体幅Ｗ１を得ることができる。

人物選択部７４は、既知の物理量である焦点距離Ｄ、撮像被写体幅Ｗ１、および被写体幅Ｗ２に基づいて次式（１）を計算し、未知の物理量である被写体距離ｄを算出する。

なお、被写体幅Ｗ２は厳密には未知の物理量であるが、個々の人間の顔の大きさのばらつきは被写体距離ｄに比べて十分小さいとみなし、平均的な人間の顔の大きさを被写体幅Ｗ２として用いることができる。すなわち、被写体幅Ｗ２を既知の物理量とみなすことができる。

例えば、人の顔の幅については平均値が約１６センチメートルで、顔の長さについては平均値が約２３．５センチメートルであるので、それらの値を被写体幅として用いることができる。これらの顔幅や顔の長さの平均値は、男女の差や年齢等で多少変化するが、例えばコンテンツの画像から検出された顔から、画像認識等により、検出された人物の性別や、おおよその年齢を推定することは可能であるので、性別や年代別の平均値を用いて被写体幅の補正を行ってもよい。

また、被写体距離ｄの算出にあたっては、被写体である人の顔の縦方向の幅（長さ）と横方向の幅の何れか一方、または縦方向の幅と横方向の幅の両方を用いることができる。ここでは説明を簡単にするため、人の顔の縦方向の幅が被写体幅Ｗ２として用いられ、被写体幅Ｗ２のみが用いられて被写体距離ｄが算出される場合を例として説明する。

図６においては、レンズ１０２の主点位置が図５に示した原点Ｏに対応し、図６における縦方向および横方向が、それぞれ図５におけるＺ軸方向およびＸ軸方向に対応する。特に、図６中、右方向が図５における手前方向、つまりＸ軸方向の正の方向に対応する。

したがって、以上の計算により算出された被写体距離ｄは、図５に示した３次元直交座標系における原点Ｏからみた、Ｘ軸方向におけるオーディオオブジェクトとして選択された人物までの距離を示している。

さらに、空間上における、オーディオオブジェクトとして選択された人物の顔の位置についても同様に、顔の平均的な大きさを既知の物理量として用いることで、求めることができる。

例えば図７に示すように映像表示部７３に表示されたコンテンツの画像上で、人物ＨＭ１１がオーディオオブジェクトとして選択され、その人物ＨＭ１１の顔の領域を囲む矩形枠画像ＦＲ１１が重畳表示されているとする。なお、図７において図４における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図７では、オーディオオブジェクトとして選択された人物ＨＭ１１の顔部分が、図６に示した被写体１０３に対応している。

図７において、コンテンツの画像の中心位置を位置Ａ１１’とし、人物ＨＭ１１について表示されている矩形枠画像ＦＲ１１の中心位置を位置Ａ１２’とする。例えば人物選択部７４では、顔認識結果表示制御部７２から供給された顔位置情報から位置Ａ１２’を得ることができる。

いま、コンテンツの画像上における図中、縦方向および横方向を、それぞれＺ軸方向（Ｚ方向）およびＹ軸方向（Ｙ方向）とする。また、コンテンツ画像上における位置Ａ１１’からみたＹ軸方向における位置Ａ１２’の位置を画像被写体水平位置Ｙ１’とし、位置Ａ１１’からみたＺ軸方向における位置Ａ１２’の位置を画像被写体垂直位置Ｚ１’とする。

これに対して、撮像面１０１上の中心位置を位置Ａ１１とし、撮像面１０１上における位置Ａ１２’に対応する位置を位置Ａ１２とする。さらに撮像面１０１上における位置Ａ１１からみたＹ軸方向における位置Ａ１２の位置を撮像面被写体水平位置Ｙ１とし、位置Ａ１１からみたＺ軸方向における位置Ａ１２の位置を撮像面被写体垂直位置Ｚ１とする。

ここで、撮像面１０１におけるＹ軸方向およびＺ軸方向は、図６にける手前方向および縦方向である。人物選択部７４では、顔認識結果表示制御部７２から供給された顔位置情報から位置Ａ１２’を得ることができるので、その位置Ａ１２’から画像被写体水平位置Ｙ１’および画像被写体垂直位置Ｚ１’を求めることができる。

さらに、人物選択部７４では、撮像面１０１の大きさ（サイズ）を示す情報が既知の情報として予め保持されているので、画像被写体水平位置Ｙ１’および画像被写体垂直位置Ｚ１’から、撮像面被写体水平位置Ｙ１および撮像面被写体垂直位置Ｚ１を求めることができる。つまり、撮像面被写体水平位置Ｙ１および撮像面被写体垂直位置Ｚ１が既知の物理量となる。

したがって、人物選択部７４は、これらの撮像面被写体水平位置Ｙ１および撮像面被写体垂直位置Ｚ１と、上述した撮像被写体幅Ｗ１および被写体幅Ｗ２とから、空間上の被写体１０３、つまり人物ＨＭ１１のＹ軸方向およびＺ軸方向の位置を求めることができる。

ここで、被写体１０３、つまり人物の顔の空間上におけるＹ軸方向およびＺ軸方向のそれぞれの位置を被写体水平位置ｙおよび被写体垂直位置ｚとする。このとき、被写体水平位置ｙおよび被写体垂直位置ｚは、撮像面被写体水平位置Ｙ１および撮像面被写体垂直位置Ｚ１と、撮像被写体幅Ｗ１および被写体幅Ｗ２とから、それぞれ以下の式（２）および式（３）を計算することで求めることができる。

人物選択部７４は、式（２）および式（３）を計算することで、実際の空間上におけるオーディオオブジェクトとして選択された人物の顔の被写体水平位置ｙおよび被写体垂直位置ｚを求める。

さらに、人物選択部７４は、このようにして得られた被写体水平位置ｙおよび被写体垂直位置ｚと、上述した被写体距離ｄとに基づいて以下の式（４）乃至（６）を計算し、実際の人物の顔の球面座標系における位置を算出する。

すなわち、式（４）の計算により、オーディオオブジェクトとされた人物の空間上における位置を示す半径position_radiusを得ることができる。

また、式（５）の計算により、オーディオオブジェクトとされた人物の空間上における位置を示す方位角position_azimuthを得ることができる。さらに、式（６）の計算により、オーディオオブジェクトとされた人物の空間上における仰角position_elevationを得ることができる。

ここで、式（５）におけるatan2(y,d)は、以下の式（７）により定義される。

但し、被写体距離ｄは、以下の式（８）に示すように、最小値ｄ_minにより制限されているものとする。すなわち、人物選択部７４は、上述した式（１）により求められた被写体距離ｄの絶対値が最小値ｄ_min未満であるときには、最小値ｄ_minを被写体距離ｄの値として用いるようにする。

人物選択部７４は、以上の処理により求めた方位角position_azimuth、仰角position_elevation、および半径position_radiusにより表現される、オーディオオブジェクトとして選択された人物の空間上の位置を示す情報をオブジェクト位置情報とする。

このように人物選択部７４では、顔認識部７１における顔認識の結果に基づいて、オブジェクト位置情報を求めることができる。しかし、一般的に撮像部２１では光の変化が生じたり、手振れ等によって微小な振動が発生したりするので、オブジェクト位置情報に対してフィルタ等で平滑化が行われることが望ましい。

人物選択部７４は、求めたオブジェクト位置情報を音源分離部２７およびオーディオ符号化部２８に供給して、処理はステップＳ１７へと進む。なお、以上において説明した処理において、複数のオーディオオブジェクトが選択された場合には、それらのオーディオオブジェクトごとにオブジェクト位置情報が生成される。

ステップＳ１７において、音源分離部２７は、人物選択部７４から供給されたオブジェクト位置情報に基づいて、収音部２６から供給されたオーディオ信号に対する音源分離を行い、オーディオ信号をオーディオオブジェクト信号と背景音信号とに分離させる。

例えば、ここではオーディオオブジェクトの空間上の位置、つまり音源位置は、オブジェクト位置情報により示される位置であり、既知となっている。

そこで、例えば音源分離部２７は固定ビームフォーミング技術を用いて、オーディオ信号を、オーディオオブジェクトの信号であるオーディオオブジェクト信号と、オーディオオブジェクト以外の音源の信号である背景音信号とに分離させる。

具体的には、例えば収音部２６が複数のマイクロホンから構成されるマイクアレイである場合、収音部２６で得られたオーディオ信号に対して、指向性の制御を行うことでオーディオオブジェクト信号と背景音信号とへの分離を行うことができる。つまり、オーディオ信号から、オーディオオブジェクト信号と、背景音信号とを抽出することができる。

換言すれば、固定ビームフォーミングでは、空間上におけるオーディオオブジェクトとして選択された映像オブジェクトの位置の音声の信号が、オーディオ信号からオーディオオブジェクト信号として抽出される。より詳細には、空間上におけるオーディオオブジェクトとして選択された映像オブジェクトのある方向から到来する音声の信号が、オーディオ信号からオーディオオブジェクト信号として抽出される。そして、オーディオ信号から、オーディオオブジェクトの音声以外の音声の信号が背景音信号として抽出される。

なお、音源分離部２７での音源分離の手法は、固定ビームフォーミングに限らず、例えば特開２０１０−２３３１７３号公報に記載された手法を用いるなど、どのような手法とされてもよい。

また、ここでは、映像音響処理装置６１がカムコーダなどの携帯型の機器であることを想定して説明を行ってきたが、本技術はこれに限定されるものではなく、テレビ会議システムやスタジオ収録など、ある程度規模の大きなシステムにも適用することができる。そのような場合には、収音部２６として大規模なマイクアレイを用いれば、音源の分離性能を向上させることができる。

また、例えば収音部２６として指向性マイクロホンを含む複数のマイクロホンを用いるようにしてもよい。そのような場合、音源分離部２７が指向性マイクロホンの向きをオブジェクト位置情報により示される方向に変更することで、指向性マイクロホンからオーディオオブジェクト信号を得ることができ、他のマイクロホンから背景音信号を得ることができる。すなわち、指向性マイクロホンによりオーディオオブジェクト信号を抽出することができ、他のマイクロホンにより背景音信号を抽出することができる。

ステップＳ１８において、オーディオ符号化部２８は、人物選択部７４から供給されたオブジェクト位置情報と、音源分離部２７から供給されたオーディオオブジェクト信号および背景音信号とを符号化し、その結果得られたオーディオビットストリームを多重化部３０に供給する。

例えば、オーディオオブジェクト信号と背景音信号は、それぞれ独立して符号化された後、多重化されてオーディオビットストリームが生成される。

オーディオオブジェクト信号や背景音信号の符号化方式として、例えばリニアPCM（Pulse Code Modulation）方式や、「INTERNATIONAL STANDARD ISO/IEC 23008-3 First edition 2015-10-15 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio」（以下、参照文献２とも称する）に記載されているような非可逆な圧縮方式が用いられてもよい。

また、オブジェクト位置情報は、一般的にはメタデータと呼ばれるデータであり、所定の時間間隔ごとに、例えば図８に示すような形式で符号化される。

図８は、オブジェクト位置情報を含むメタデータのシンタックス（符号化フォーマット）の一例を示す図である。図８に示すメタデータにおいて、「num_objects」は、オーディオビットストリームに含まれているオーディオオブジェクトの数を示している。

また、「tcimsbf」は「Two’s complement integer, most significant(sign) bit first」の略であり、符号ビットが先頭の２の補数を示している。「uimsbf」は「Unsigned integer, most significant bit first」の略であり、最上位ビットが先頭の符号なし整数を示している。

さらに、「position_azimuth[i]」、「position_elevation[i]」、および「position_radius[i]」は、それぞれオーディオビットストリームに含まれているｉ番目のオーディオオブジェクトのオブジェクト位置情報を示している。

具体的には、「position_azimuth[i]」は球面座標系におけるオーディオオブジェクトの位置の方位角position_azimuthを示しており、「position_elevation[i]」は球面座標系におけるオーディオオブジェクトの位置の仰角position_elevationを示している。また、「position_radius[i]」は球面座標系におけるオーディオオブジェクトの位置までの距離、すなわち半径position_radiusを示している。

また、「gain_factor[i]」は、オーディオビットストリームに含まれているｉ番目のオーディオオブジェクトのゲイン情報を示している。

このように、人物選択部７４では、オーディオオブジェクトのメタデータとされるオブジェクト位置情報が生成され、オーディオ符号化部２８では、このオブジェクト位置情報とゲイン情報がメタデータとして符号化される。

図３のフローチャートの説明に戻り、ステップＳ１９において、映像符号化部２９は、撮像部２１から供給された映像信号を符号化し、その結果得られた映像ビットストリームを多重化部３０に供給する。

なお、映像信号の符号化方式は、MPEG-HEVCやMPEG-AVC等のよく知られている映像符号化方式の他、様々な映像符号化方式を用いるようにすることができる。

ステップＳ２０において、多重化部３０は、映像符号化部２９から供給された映像ビットストリームと、オーディオ符号化部２８から供給されたオーディオビットストリームとを、これらの同期を行うためのシステム情報などとともに多重化し、出力ビットストリームを生成する。多重化部３０は、このようにして得られた出力ビットストリームを出力し、符号化処理は終了する。

以上のようにして映像音響処理装置６１は、映像信号に対して顔認識を行い、顔認識の結果を示す矩形枠画像をコンテンツの画像とともに表示させる。また、映像音響処理装置６１は、機器使用者の選択操作に応じてオーディオオブジェクトを選択し、そのオーディオオブジェクトのオブジェクト位置情報を生成する。

これにより、より簡単かつ高精度に所望のオブジェクト音の信号を分離させることができる。すなわち、機器使用者は、コンテンツの画像上のどの映像オブジェクト（被写体）をオーディオオブジェクトとするかを、映像表示部７３の表示を見ながら簡単かつ直感的に選択することができる。さらに、選択されたオーディオオブジェクトのオブジェクト位置情報を求めることで、より高精度に所望のオーディオオブジェクトの信号を分離させることができるようになる。

このようにして選択された人物の音声をオーディオオブジェクト信号として符号化すれば、再生時に音声の音量や、音源位置、音質等をオーディオオブジェクトごとに変更することができる。

なお、以上においてした説明では、映像音響処理装置６１がコンテンツの画像を撮影しながら、機器使用者がオーディオオブジェクトとする人物を選択する例について説明したが、撮影後にオーディオオブジェクトとする人物を選択するようにしてもよい。

そのような場合、コンテンツの画像の撮影時には、例えば撮影により得られた映像信号と、収音により得られたオーディオ信号とが符号化されずに記録される。そして、撮影後、コンテンツの再生が指示されたときに、映像信号とオーディオ信号に基づいてコンテンツが再生され、図３を参照して説明した符号化処理が行われる。

次に、以上の処理により得られた出力ビットストリームを受信してコンテンツの再生、特にコンテンツの音声の再生を行う方法について説明する。

出力ビットストリームを非多重化して得られるオーディオビットストリームに含まれている背景音信号に関しては、例えば従来の２チャネルや５．１チャネル等のいわゆるマルチチャネルステレオ方式での再生が行われる。

一方、オーディオオブジェクト信号に関しては、参照文献２にオーディオオブジェクトのレンダリング方式が記述されており、このレンダリング方式に従ってレンダリングが行われて再生される。

より具体的には、VBAP（Vector Base Amplitude Panning）と呼ばれる方式で再生環境のスピーカにオーディオオブジェクト信号がマッピングされて再生される。

これは、オブジェクト位置情報により示される、オーディオオブジェクトの空間上の位置に最も近い３個のスピーカの出力を用いて、オーディオオブジェクトの空間上の位置に音を定位させる技術である。参照文献２では、スピーカの個数は３個であるが４個以上のスピーカ数で音を定位させることも勿論可能である。

また、以上においては、背景音信号はマルチチャネルステレオ方式で符号化および復号される例について説明したが、参照文献２の規格に記述されているHOA(Higher Order Ambisonic)と呼ばれる視聴者近傍の空間を、球面調和関数を直交基底として表現するような方式を用いるようにしてもよい。

さらに、第１の実施の形態においては、機器使用者、すなわち撮影者はオーディオオブジェクト抽出の対象となる被撮影者が常に画面内に収まるよう撮影を行う場合がほとんどである。しかし、オーディオオブジェクトとして選択された人物が画面の外に移動した場合の対策として、一般的に知られている話者識別技術などを用いてオブジェクト位置情報を生成するようにしてもよい。

〈第２の実施の形態〉
〈オーディオオブジェクトの処理優先度について〉
上述した第１の実施の形態では、機器使用者がオーディオオブジェクトとして音声を収音したい人物を映像表示部７３上に表示された候補から選択する操作を行っていた。

しかし、映像音響処理装置６１で得られた出力ビットストリームを復号してコンテンツを再生する機器によっては、計算処理能力の都合上、全てのオーディオオブジェクト信号の復号処理およびレンダリング処理を行うことができない場合がある。

ところで、符号化装置側でオーディオオブジェクトごとに処理優先度「priority」をビットストリーム中のメタデータとして付加する手法が提案されており、この手法は参照文献２の規格でも採用されている。

そこで、本技術を適用した第２の実施の形態では、機器使用者がオーディオオブジェクトとして音声を収音したい人物を映像表示部７３上に表示された候補から選択するとともに、その選択した人物の処理優先度を設定することができるようにした。

この場合、オブジェクト位置情報が格納されるメタデータは、例えば図９に示すようになる。図９は、メタデータのシンタックスの一例を示す図である。

図９に示すメタデータでは、図８に示したメタデータに含まれる各情報に加えて、さらにｉ番目のオーディオオブジェクト、つまりオーディオオブジェクト信号の処理優先度「object_priority[i]」が含まれている。

この例では、処理優先度object_priority[i]は、３ビットのデータとされ、０から７までの値をとることができるようになされている。

例えば処理優先度object_priority[i]の値が０である場合、オーディオオブジェクトの処理優先度は最も低く、処理優先度object_priority[i]の値が７である場合、オーディオオブジェクトの処理優先度は最も高い。

いま、例えば処理優先度object_priority[i]の値が、それぞれ７、３、および０である３つのオーディオオブジェクトのオーディオオブジェクト信号を含む出力ビットストリームが再生側の機器に供給されたとする。また、再生側の機器では、３つのオーディオオブジェクト全てをレンダリングすることができないとする。

このような場合、例えば再生側の機器は、処理優先度object_priority[i]の値が０であるオーディオオブジェクトについては、音質を犠牲にした簡易的なレンダリングをしたり、そのオーディオオブジェクトのレンダリングを行わなかったりするようにすることができる。これにより、処理能力の低い再生機器でもコンテンツのリアルタイム再生を実現することができるようになる。

以上のようにメタデータにオブジェクト位置情報とともに処理優先度が格納される場合、映像音響処理装置６１の人物選択部７４は、タッチパネル８１から供給される機器使用者の操作に応じた信号に基づいて、オーディオオブジェクトとする人物を選択するとともに、処理優先度の設定を行う。そして人物選択部７４は、オブジェクト位置情報を音源分離部２７およびオーディオ符号化部２８に供給するとともに、得られた処理優先度をオーディオ符号化部２８に供給する。

これにより、オーディオ符号化部２８では、オブジェクト位置情報だけでなく処理優先度も符号化され、それらのオブジェクト位置情報および処理優先度を含むメタデータが格納されたオーディオビットストリームが生成される。

このように機器使用者により処理優先度が指定される場合、例えば図３のステップＳ１５では、図１０に示すように、映像表示部７３にコンテンツの画像とともに矩形枠画像が表示される。なお、図１０において、図４における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図１０は、撮影対象領域に入っている３名の人物ＨＭ１１乃至人物ＨＭ１３に対して、機器使用者が処理優先度を設定するときの様子を示している。

この例では、矩形枠画像ＦＲ１１乃至矩形枠画像ＦＲ１３がハイライト表示されており、それらの矩形枠画像に対応する人物ＨＭ１１乃至人物ＨＭ１３が、オーディオオブジェクトとして選択されている。

また、人物ＨＭ１１の矩形枠画像ＦＲ１１近傍には、その人物ＨＭ１１に対して設定された処理優先度を示す文字情報「P=7」が表示されており、人物ＨＭ１１の処理優先度の値が最も高い７であることが示されている。

同様に、人物ＨＭ１３の矩形枠画像ＦＲ１３近傍には、その人物ＨＭ１３に対して設定された処理優先度を示す文字情報「P=0」が表示されており、人物ＨＭ１３の処理優先度の値が最も低い０であることが示されている。

さらに、図１０の例では、人物ＨＭ１２の矩形枠画像ＦＲ１２の近傍には、人物ＨＭ１２の処理優先度を設定するための処理優先度設定画像ＣＦ１１が表示されている。

この処理優先度設定画像ＣＦ１１は、例えば機器使用者が矩形枠画像ＦＲ１２の部分を指で触れると表示される。

さらに、処理優先度設定画像ＣＦ１１内には、処理優先度の値「０」乃至「７」が記された枠が表示されており、機器使用者は所望の処理優先度の値が記された枠を指で触れることにより、人物ＨＭ１２の処理優先度を設定することができる。

例えば機器使用者が「３」が記された枠を押すと、人物選択部７４は、機器使用者の操作に応じてタッチパネル８１から供給された信号に基づいて、オーディオオブジェクトとしての人物ＨＭ１２の処理優先度の値を「３」とする。

なお、処理優先度の決定方法は上述した方法に限らず、どのような方法であってもよい。例えば機器使用者により選択された矩形枠画像に対応する人物の処理優先度を７とし、矩形枠画像が選択されなかった人物の処理優先度は０とされるような簡易的な方法とされてもよい。

また、例えば顔認識で検出された人物全てがオーディオオブジェクトとされる場合等には、符号化処理のステップＳ１４においてオーディオオブジェクトとして選択された人物以外の人物（映像オブジェクト）の処理優先度が、その人物の画像上における顔の大きさ、すなわち矩形枠画像の大きさに応じて６以下の値のなかから選択されるようにしてもよい。

符号化処理では、ステップＳ１６において人物選択部７４は、機器使用者の操作に応じてオーディオオブジェクトのオブジェクト位置情報を生成するとともに、各オーディオオブジェクトの処理優先度を決定する。つまり、オーディオオブジェクトのメタデータとして、オブジェクト位置情報および処理優先度が生成される。

そして、人物選択部７４は、オブジェクト位置情報を音源分離部２７に供給するとともに、オブジェクト位置情報および処理優先度をオーディオ符号化部２８に供給する。

さらに、ステップＳ１８では、オーディオ符号化部２８は、オブジェクト位置情報、処理優先度、オーディオオブジェクト信号、および背景音信号の符号化を行い、オーディオビットストリームを生成する。

以上のようにオーディオオブジェクトの処理優先度を生成することで、再生側の機器において、自身の計算処理能力等に応じてオーディオオブジェクトに対する処理等を選択的に変更することができるようになる。これにより、例えばリアルタイムにコンテンツを再生するなど、適切なコンテンツ再生を実現することができる。

〈第３の実施の形態〉
〈スプレッド情報について〉
また、オーディオオブジェクトをレンダリングする際には、オブジェクト位置情報により示される位置に点音源があるとみなしてVBAPによりレンダリングが行われる。

しかし、実際にはオブジェクトは大きさを持ち、ある一定の面積を持つ面から音が発生しているとみなしたほうが自然である。そこで、spread（以下、スプレッド情報と称する）と呼ばれるデータをメタデータに加えて、レンダリング時にこのデータを用いることで、オブジェクトのある領域、つまり面から音が発生しているようにする手法が提案され、参照文献２の規格でも採用されている。

本技術を適用した第３の実施の形態では、人の顔などの映像オブジェクトを認識する際に、映像オブジェクトの認識結果である矩形枠の大きさを用いて、映像音響処理装置６１側においてスプレッド情報を自動的に設定することができるようにした。

この場合、人物選択部７４において、タッチパネル８１から供給される機器使用者の操作に応じた信号に基づいて、オーディオオブジェクトとする人物を選択するとともに、スプレッド情報の設定を行う。そして人物選択部７４は、オブジェクト位置情報を音源分離部２７およびオーディオ符号化部２８に供給するとともに、得られたスプレッド情報をオーディオ符号化部２８に供給する。なお、第２の実施の形態と同様に、人物選択部７４において、さらに処理優先度も生成されるようにしてもよい。

例えばオブジェクト位置情報とともに、処理優先度とスプレッド情報がメタデータに含まれる場合、メタデータは図１１に示すようになる。図１１は、メタデータのシンタックスの一例を示す図である。

図１１に示すメタデータでは、図９に示したメタデータに含まれる各情報に加えて、さらにｉ番目のオーディオオブジェクト、つまりオーディオオブジェクト信号のスプレッド情報「spread[i]」が含まれている。

この例では、スプレッド情報spread[i]は、８ビットのデータとされ、空間上におけるオーディオオブジェクトの領域を表す角度情報、つまりオーディオオブジェクトの領域の広がり具合を示す角度情報とされている。

出力ビットストリームを受信する再生側の機器である再生装置では、このようなスプレッド情報spread[i]が用いられてレンダリングが行われる。なお、スプレッド情報spread[i]の具体的な算出方法については後述する。

ここで、参照文献２の規格に準拠してスプレッド情報を再生装置で利用する方法について、図１２を参照して説明する。

例えば空間上の原点Ｏに対して、ベクトルｐ０により示される位置にオーディオオブジェクトが位置しているとする。ここで、ベクトルｐ０は原点Ｏを始点とするベクトルであり、ベクトルｐ０により示される位置は、オブジェクト位置情報により示される位置である。また、以下、ベクトルｐ０により示される位置を、位置ｐ０とも称することとする。

このような場合、人物選択部７４では、ベクトルｐ０に対する角度情報がスプレッド情報spread[i]として生成される。

再生装置では、原点Ｏから位置ｐ０を正面に見て、スプレッド情報spread[i]で与えられた角度をもとに得られた円Ｃ１１内の位置を終点とし、原点Ｏを始点とする１８個のベクトルｐ１乃至ベクトルｐ１８がスプレッドベクトルとして求められる。

円Ｃ１１は位置ｐ０を中心とする円であり、この例では、ベクトルｐ１やベクトルｐ４は、円Ｃ１１の円周上の位置を終点とするベクトルとなっている。なお、図１２では、円Ｃ１１内の点は各スプレッドベクトルの終点位置を表している。

例えば円Ｃ１１の円周上の位置を終点とするベクトルｐ１と、ベクトルｐ０とのなす角度が、スプレッド情報spread[i]により示される角度となる。

なお、オブジェクト位置情報とスプレッド情報spread[i]に基づいて、スプレッドベクトルであるベクトルｐ１乃至ベクトルｐ１８を算出する方法については、例えば参照文献２に詳細に記載されているので、その説明は省略する。

スプレッドベクトルが得られると、再生装置では、スプレッドベクトルとして求めたこれらのベクトルｐ１乃至ベクトルｐ１８のそれぞれについて、VBAPによりオーディオオブジェクト信号のゲインがスピーカごとに求められて、それらのゲインが正規化される。そして、正規化されたゲインが乗算されたオーディオオブジェクト信号がスピーカにマッピングされて、コンテンツの音声が再生される。

このようにスプレッド情報を用いてレンダリングを行うことで、空間方向に広がりのあるオーディオオブジェクトを表現することができるようになる。

映像音響処理装置６１の人物選択部７４においてスプレッド情報が算出される場合、人物選択部７４は、例えば図１３に示すように、顔認識による映像オブジェクトの認識結果、より詳細には顔認識の結果から得られた矩形枠画像を用いてスプレッド情報を算出する。

図１３に示す例では、映像表示部７３上に表示されたコンテンツの画像からは、２名の人物ＨＭ３１および人物ＨＭ３２が検出されている。また、コンテンツの画像には、人物ＨＭ３１の顔部分に矩形枠画像ＦＲ３１が重畳表示されるとともに、人物ＨＭ３２の顔部分に矩形枠画像ＦＲ３２が重畳表示されている。

特に、図１３では、コンテンツの画像が空間上に投影された状態を表しており、矩形枠画像ＦＲ３１の中心位置、および矩形枠画像ＦＲ３２の中心位置は、それぞれ対応するオーディオオブジェクトのオブジェクト位置情報により示される位置となっている。

人物選択部７４は、図３のステップＳ１６において、各オーディオオブジェクトについて、オブジェクト位置情報および処理優先度を生成すると、さらに各オーディオオブジェクトのスプレッド情報も生成する。すなわち、オーディオオブジェクトのメタデータとして、オブジェクト位置情報、処理優先度、およびスプレッド情報が生成される。

具体的には、例えばオーディオオブジェクトとしての人物ＨＭ３１について説明すると、人物選択部７４は空間上の原点Ｏを始点とし、オブジェクト位置情報により示される位置、つまり矩形枠画像ＦＲ３１の中心位置を終点とするベクトルＶＢ１１を求める。そして、人物選択部７４は、このようにして求めたベクトルＶＢ１１を、図１２を参照して説明したベクトルｐ０とする。このようなベクトルＶＢ１１は、人物ＨＭ３１について生成されたオブジェクト位置情報から求めることができる。

また、人物選択部７４は、空間上の原点Ｏを始点とし、矩形枠画像ＦＲ３１の図中、右側の辺上にある、矩形枠画像ＦＲ３１の中心位置と図中、縦方向（Ｚ軸方向）の高さが同じである位置を終点とするベクトルＶＢ１２を求め、このベクトルＶＢ１２を図１２を参照して説明したベクトルｐ１とする。

ここで、空間上におけるベクトルＶＢ１２の終点位置は、例えば人物ＨＭ３１について生成されたオブジェクト位置情報、矩形枠画像ＦＲ３１、撮像面１０１とコンテンツの画像の関係、焦点距離Ｄ、および被写体距離ｄなどを用いて求めることができる。

さらに、人物選択部７４は、このようにして求めたベクトルｐ０としてのベクトルＶＢ１１と、ベクトルｐ１としてのベクトルＶＢ１２とのなす角ＡＧ１１を、人物ＨＭ３１についてのスプレッド情報spread[i]として算出する。より詳細には、人物選択部７４は次式（９）を計算することでスプレッド情報spread[i]を算出する。

なお、式（９）において、ｐ０およびｐ１は、それぞれベクトルｐ０およびベクトルｐ１を示している。

同様に、人物選択部７４は、空間上の原点Ｏを始点とし、人物ＨＭ３２についてのオブジェクト位置情報により示される位置、つまり矩形枠画像ＦＲ３２の中心位置を終点とするベクトルＶＢ１３を求め、ベクトルｐ０とする。

また、人物選択部７４は、空間上の原点Ｏを始点とし、矩形枠画像ＦＲ３２の図中、右側の辺上にある、矩形枠画像ＦＲ３２の中心位置と図中、縦方向の高さが同じである位置を終点とするベクトルＶＢ１４を求め、ベクトルｐ１とする。

そして、人物選択部７４は、式（９）を計算することでベクトルＶＢ１３とベクトルＶＢ１４とのなす角度ＡＧ１２を求めて、人物ＨＭ３２についてのスプレッド情報spread[i]とする。

なお、ここではベクトルｐ０およびベクトルｐ１のみを用いてスプレッド情報を算出する方法について説明した。しかし、映像音響処理装置６１の計算処理能力等に余裕があるときには、矩形枠画像の図中、上端、下端、左端、および右端を終点位置とするスプレッドベクトルのそれぞれと、ベクトルｐ０とのなす角を求め、それらのなす角の平均値をスプレッド情報spread[i]として用いるようにしてもよい。

以上のようにしてスプレッド情報が算出されると、人物選択部７４は、オブジェクト位置情報を音源分離部２７に供給するとともに、オブジェクト位置情報、処理優先度、およびスプレッド情報をオーディオ符号化部２８に供給する。

さらに、ステップＳ１８では、オーディオ符号化部２８は、オブジェクト位置情報、処理優先度、スプレッド情報、オーディオオブジェクト信号、および背景音信号の符号化を行い、オーディオビットストリームを生成する。

以上のようにオーディオオブジェクトのスプレッド情報を生成することで、機器使用者がスプレッド情報に関する指定を行うことなく、再生側の機器において、オーディオオブジェクトの空間的な広がりを表現したコンテンツ再生を行うことができるようになる。

ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図１４は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

入力部５０６は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、本技術は、以下の構成とすることも可能である。

（１）
映像信号に基づく映像オブジェクトを表示させる表示制御部と、
１または複数の前記映像オブジェクトのなかから、所定の前記映像オブジェクトを選択するオブジェクト選択部と、
前記オブジェクト選択部により選択された前記映像オブジェクトのオーディオ信号をオーディオオブジェクト信号として抽出する抽出部と
を備える映像音響処理装置。
（２）
前記抽出部は、前記オーディオ信号から前記オーディオオブジェクト信号を抽出する
（１）に記載の映像音響処理装置。
（３）
前記抽出部は、前記オーディオ信号から、前記選択された前記映像オブジェクトのオーディオオブジェクト信号以外の信号を背景音信号として抽出する
（２）に記載の映像音響処理装置。
（４）
前記オブジェクト選択部は、前記選択された前記映像オブジェクトの空間上の位置を示すオブジェクト位置情報を生成し、
前記抽出部は、前記オブジェクト位置情報に基づいて、前記オーディオオブジェクト信号を抽出する
（１）乃至（３）の何れか一項に記載の映像音響処理装置。
（５）
前記抽出部は、前記オブジェクト位置情報を用いた音源分離により前記オーディオオブジェクト信号を抽出する
（４）に記載の映像音響処理装置。
（６）
前記抽出部は、前記音源分離として固定ビームフォーミングを行う
（５）に記載の映像音響処理装置。
（７）
前記映像信号に基づいて、前記映像オブジェクトを認識する映像オブジェクト認識部をさらに備え、
前記表示制御部は、前記映像オブジェクトとともに、前記映像オブジェクトの認識結果に基づく画像を表示させる
（１）乃至（６）の何れか一項に記載の映像音響処理装置。
（８）
前記映像オブジェクト認識部は、顔認識により前記映像オブジェクトを認識する
（７）に記載の映像音響処理装置。
（９）
前記表示制御部は、前記画像として、前記映像オブジェクトの領域に枠を表示させる
（７）または（８）に記載の映像音響処理装置。
（１０）
前記オブジェクト選択部は、ユーザによる選択操作に応じて、前記映像オブジェクトを選択する
（１）乃至（９）の何れか一項に記載の映像音響処理装置。
（１１）
前記オブジェクト選択部は、前記選択された前記映像オブジェクトのメタデータを生成する
（１）乃至（１０）の何れか一項に記載の映像音響処理装置。
（１２）
前記オブジェクト選択部は、前記メタデータとして、前記選択された前記映像オブジェクトの空間上の位置を示すオブジェクト位置情報を生成する
（１１）に記載の映像音響処理装置。
（１３）
前記オブジェクト選択部は、前記メタデータとして、前記選択された前記映像オブジェクトの処理優先度を生成する
（１１）または（１２）に記載の映像音響処理装置。
（１４）
前記オブジェクト選択部は、前記メタデータとして、前記選択された前記映像オブジェクトの領域の広がり具合を示すスプレッド情報を生成する
（１１）乃至（１３）の何れか一項に記載の映像音響処理装置。
（１５）
前記オーディオオブジェクト信号および前記メタデータを符号化するオーディオ符号化部をさらに備える
（１１）乃至（１４）の何れか一項に記載の映像音響処理装置。
（１６）
前記映像信号を符号化する映像符号化部と、
前記映像信号の符号化により得られた映像ビットストリームと、前記オーディオオブジェクト信号および前記メタデータの符号化により得られたオーディオビットストリームとを多重化する多重化部と
をさらに備える（１５）に記載の映像音響処理装置。
（１７）
撮影を行って前記映像信号を得る撮像部をさらに備える
（１）乃至（１６）の何れか一項に記載の映像音響処理装置。
（１８）
収音を行って前記オーディオ信号を得る収音部をさらに備える
（１）乃至（１７）の何れか一項に記載の映像音響処理装置。
（１９）
映像信号に基づく映像オブジェクトを表示させる表示制御ステップと、
１または複数の前記映像オブジェクトのなかから、所定の前記映像オブジェクトを選択するオブジェクト選択ステップと、
前記オブジェクト選択ステップにより選択された前記映像オブジェクトのオーディオ信号をオーディオオブジェクト信号として抽出する抽出ステップと
を含む映像音響処理方法。
（２０）
映像信号に基づく映像オブジェクトを表示させる表示制御ステップと、
１または複数の前記映像オブジェクトのなかから、所定の前記映像オブジェクトを選択するオブジェクト選択ステップと、
前記オブジェクト選択ステップにより選択された前記映像オブジェクトのオーディオ信号をオーディオオブジェクト信号として抽出する抽出ステップと
を含む処理をコンピュータに実行させるプログラム。

１１映像音響処理装置，２２映像オブジェクト認識部，２３映像オブジェクト認識結果表示制御部，２４映像表示部，２５オブジェクト選択部，２６収音部，２７音源分離部，２８オーディオ符号化部，７１顔認識部，７２顔認識結果表示制御部，７３映像表示部，７４人物選択部，８１タッチパネル

Claims

映像信号に基づく映像オブジェクトを表示させる表示制御部と、
１または複数の前記映像オブジェクトのなかから、所定の前記映像オブジェクトを選択するオブジェクト選択部と、
前記オブジェクト選択部により選択された前記映像オブジェクトのオーディオ信号をオーディオオブジェクト信号として抽出する抽出部と
を備える映像音響処理装置。
前記抽出部は、前記オーディオ信号から前記オーディオオブジェクト信号を抽出する
請求項１に記載の映像音響処理装置。
前記抽出部は、前記オーディオ信号から、前記選択された前記映像オブジェクトのオーディオオブジェクト信号以外の信号を背景音信号として抽出する
請求項２に記載の映像音響処理装置。
前記オブジェクト選択部は、前記選択された前記映像オブジェクトの空間上の位置を示すオブジェクト位置情報を生成し、
前記抽出部は、前記オブジェクト位置情報に基づいて、前記オーディオオブジェクト信号を抽出する
請求項１に記載の映像音響処理装置。
前記抽出部は、前記オブジェクト位置情報を用いた音源分離により前記オーディオオブジェクト信号を抽出する
請求項４に記載の映像音響処理装置。
前記抽出部は、前記音源分離として固定ビームフォーミングを行う
請求項５に記載の映像音響処理装置。
前記映像信号に基づいて、前記映像オブジェクトを認識する映像オブジェクト認識部をさらに備え、
前記表示制御部は、前記映像オブジェクトとともに、前記映像オブジェクトの認識結果に基づく画像を表示させる
請求項１に記載の映像音響処理装置。
前記映像オブジェクト認識部は、顔認識により前記映像オブジェクトを認識する
請求項７に記載の映像音響処理装置。
前記表示制御部は、前記画像として、前記映像オブジェクトの領域に枠を表示させる
請求項７に記載の映像音響処理装置。
前記オブジェクト選択部は、ユーザによる選択操作に応じて、前記映像オブジェクトを選択する
請求項１に記載の映像音響処理装置。
前記オブジェクト選択部は、前記選択された前記映像オブジェクトのメタデータを生成する
請求項１に記載の映像音響処理装置。
前記オブジェクト選択部は、前記メタデータとして、前記選択された前記映像オブジェクトの空間上の位置を示すオブジェクト位置情報を生成する
請求項１１に記載の映像音響処理装置。
前記オブジェクト選択部は、前記メタデータとして、前記選択された前記映像オブジェクトの処理優先度を生成する
請求項１１に記載の映像音響処理装置。
前記オブジェクト選択部は、前記メタデータとして、前記選択された前記映像オブジェクトの領域の広がり具合を示すスプレッド情報を生成する
請求項１１に記載の映像音響処理装置。
前記オーディオオブジェクト信号および前記メタデータを符号化するオーディオ符号化部をさらに備える
請求項１１に記載の映像音響処理装置。
前記映像信号を符号化する映像符号化部と、
前記映像信号の符号化により得られた映像ビットストリームと、前記オーディオオブジェクト信号および前記メタデータの符号化により得られたオーディオビットストリームとを多重化する多重化部と
をさらに備える請求項１５に記載の映像音響処理装置。
撮影を行って前記映像信号を得る撮像部をさらに備える
請求項１に記載の映像音響処理装置。
収音を行って前記オーディオ信号を得る収音部をさらに備える
請求項１に記載の映像音響処理装置。
映像信号に基づく映像オブジェクトを表示させる表示制御ステップと、
１または複数の前記映像オブジェクトのなかから、所定の前記映像オブジェクトを選択するオブジェクト選択ステップと、
前記オブジェクト選択ステップにより選択された前記映像オブジェクトのオーディオ信号をオーディオオブジェクト信号として抽出する抽出ステップと
を含む映像音響処理方法。
映像信号に基づく映像オブジェクトを表示させる表示制御ステップと、
１または複数の前記映像オブジェクトのなかから、所定の前記映像オブジェクトを選択するオブジェクト選択ステップと、
前記オブジェクト選択ステップにより選択された前記映像オブジェクトのオーディオ信号をオーディオオブジェクト信号として抽出する抽出ステップと
を含む処理をコンピュータに実行させるプログラム。