WO2016088437A1

WO2016088437A1 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: WO2016088437A1
Application number: PCT/JP2015/077216
Authority: WO
Inventors: 卓青木; 象村越; 亮向山; 吉洋中西
Original assignee: ソニー株式会社
Priority date: 2014-12-04
Filing date: 2015-09-25
Publication date: 2016-06-09
Also published as: EP3229459A1; EP3229459A4; US20170322017A1; JPWO2016088437A1; EP3229459B1; US10190869B2; JP6702196B2

Abstract

【課題】画像生成の対象になる空間内の位置を適切に決定する。【解決手段】空間内に存在する複数の視点からの視対象位置を示す情報を収集する機能と、上記視対象位置の密度に応じて上記空間内の位置を評価する機能とを実現するプロセッサを備える情報処理装置が提供される。

Description

情報処理装置、情報処理方法およびプログラム

　本開示は、情報処理装置、情報処理方法およびプログラムに関する。

　カメラで画像を撮影するにあたり、例えば視点の異なる複数のカメラを撮影に用いるなどして、表現力の高い画像を得るための技術が種々提案されている。特許文献１は、そのような技術の一例である。

特開２００３－１７９８００号公報

　例えば特許文献１に記載された技術では、空間内のいずれかの位置を対象にして、複数のカメラで撮影された画像を組み合わせた表現力の高い画像が生成される。この場合、画像は適切に生成されても、対象になる位置の選定が適切でなければ、ユーザにとって魅力的な画像にはなりにくい。他の技術でも同様に、表現力が高く、かつユーザにとって魅力的な画像を得るためには、空間内で対象になる位置を適切に決定することが重要になる。しかしながら、そのような位置を適切に決定するための技術は、これまでに十分に提案されているとは必ずしもいえない。

　そこで、本開示では、画像生成の対象になる空間内の位置を適切に決定することを可能にする、新規かつ改良された情報処理装置、情報処理方法およびプログラムを提案する。

　本開示によれば、空間内に存在する複数の視点からの視対象位置を示す情報を収集する機能と、上記視対象位置の密度に応じて上記空間内の位置を評価する機能とを実現するプロセッサを備える情報処理装置が提供される。

　また、本開示によれば、空間内に存在する複数の視点からの視対象位置を示す情報を収集することと、プロセッサが、上記視対象位置の密度に応じて上記空間内の位置を評価することとを含む情報処理方法が提供される。

　また、本開示によれば、空間内に存在する複数の視点からの視対象位置を示す情報を収集する機能と、上記視対象位置の密度に応じて上記空間内の位置を評価する機能とをプロセッサに実現させるためのプログラムが提供される。

　以上説明したように本開示によれば、画像生成の対象になる空間内の位置を適切に決定することができる。

　なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態における空間視聴率推定のための処理を示す概略的なフローチャートである。本開示の一実施形態における空間視聴率推定について概念的に説明するための図である。本開示の一実施形態における視対象位置推定の他の例を示す図である。本開示の一実施形態における画像の収集の例について概念的に説明するための図である。本開示の一実施形態における画像の収集の別の例について概念的に説明するための図である。本開示の一実施形態における画像の収集のさらに別の例について概念的に説明するための図である。本開示の一実施形態における画像の収集のさらに別の例について概念的に説明するための図である。本開示の一実施形態に係るシステムの構成例を示す図である。本開示の一実施形態における処理の例を示すフローチャートである。本開示の実施形態に係る情報処理装置のハードウェア構成例を示すブロック図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　なお、説明は以下の順序で行うものとする。
　１．空間視聴率の推定
　２．画像の収集および自由視点画像の生成
　３．システム構成例
　４．処理フローの例
　５．ハードウェア構成
　６．補足

　（１．空間視聴率の推定）
　本開示の一実施形態では、空間内に存在する複数の視点からの視対象位置（visual　target　position）の密度に基づいて空間視聴率（spatial　rating）が推定される。空間視聴率は、空間内のそれぞれの位置がどの程度の注目を集めているかを示す。例えば競技場のような空間を想定する場合、複数の視点は、例えば競技場にいる観客の視点を含みうる。また、複数の視点は、例えば競技場に設置されたカメラの視点を含んでもよい。これらの視点からの視対象位置は、例えば視線上の位置である。観客やカメラからの視線が集中している位置、つまり空間視聴率が高い位置は、競技場の中で特に注目されていると推定される。本実施形態では、このような空間視聴率に基づいて、自由視点画像を提供するための３次元点群（ポイントクラウド）データを生成する。なお、本明細書において、画像は動画像（映像）および静止画像を含む。

　図１は、本開示の一実施形態における空間視聴率推定のための処理を示す概略的なフローチャートである。図１を参照すると、本実施形態では、まず、視聴者位置を推定する（Ｓ１０１）。ここで、視聴者は、空間内に存在する視点を有する主体、例えば観客やカメラを意味する。視聴者位置は、例えば視聴者から提供される視点画像に基づいて自己位置推定を実施することによって推定される。画像に基づく自己位置推定には、例えばＳＬＡＭ（Simultaneous　Localization　and　Mapping）などの技術を利用することができる。自己位置推定にあたっては、空間内にあるランドマークの情報や、空間の３次元モデルなどの情報が利用されてもよい。あるいは、視聴者位置は、視聴者自身から提供される情報に基づいて推定されてもよい。この場合、例えば、ＧＮＳＳ（Global　Navigation　Satellite　Systems）、Ｗｉ－Ｆｉなどの基地局からの電波を利用した測位、または空間特有の位置表現（例えば、競技場などのチケット情報によって示される観客席の位置）などが利用されうる。

　次に、視線を推定する（Ｓ１０３）。簡便な方法としては、視聴者から提供される視点画像の中心方向を視線方向とみなしてもよい。例えば視聴者がウェアラブルカメラを装用した観客であるような場合には、より詳細な視点の推定が可能である。この場合、例えば、観客が外向きのカメラで撮影した視点画像とともに提供する、内向きのカメラで撮影した眼の画像が利用される。より具体的には、黒眼の中心位置から視線を推定したり、眼球モデルの姿勢から視線を推定したりすることが可能である。

　次に、上記のＳ１０１およびＳ１０３で推定された視聴者位置および視線に基づいて、視聴者の視対象位置を推定する（Ｓ１０５）。視対象位置は、例えば視聴者位置から発した視線上の位置として特定される。例えば、空間の３次元モデルを利用して、視線が地面または床面に交わった位置を視対象位置として推定してもよい。あるいは、カメラなどで焦点距離が利用可能な場合には、焦点距離に基づいて視線上の視対象位置を推定してもよい。なお、Ｓ１０５における視対象位置の推定までの処理は、例えば各視聴者に対応するクライアント装置で実行されてもよいし、クライアント装置から画像などのデータを収集するサーバで実行されてもよい。

　次に、上記のＳ１０５で推定された視対象位置に基づいて、空間視聴率が推定される。上述の通り、空間視聴率は、空間内における視対象位置の密度に基づいて推定される。この時点までに、各視聴者の視対象位置、つまり空間内に存在する複数の視点からの視対象位置を示す情報は、空間視聴率を推定するサーバによって収集されている。空間視聴率は、例えば、空間内を所定のサイズに区分したグリッドごとに算出されてもよいし、互いに近接する視対象位置を含むクラスタごとに算出されてもよい。

　上述の通り、以上のような処理によって推定された空間視聴率は、自由視点画像を提供するためのポイントクラウドデータを生成するために利用される。より具体的には、例えば、空間視聴率（視対象位置の密度）が閾値を超えた位置について、ポイントクラウドデータが生成される。なお、ポイントクラウドデータを用いる方法以外にも自由視点画像を提供するための手法は多くあり、そのような手法で自由視点画像を提供するためのデータが、空間資料率に基づいて生成されてもよい。自由視点画像を提供するための技術については、例えば特開２００７－１３３６６０号公報などに記載されている。

　自由視点画像は、空間内の任意の位置を、任意の角度から観察することを可能にする。しかしながら、位置を限定せずに自由視点画像が提供された場合、例えば撮影された画像を事後的に視聴するユーザは、どの位置を見ればよいかがわからないため、必ずしもユーザによりよい体験が提供できるとは限らない。また、利用可能な画像のすべてを利用して自由視点画像を提供しようとすると、データが膨大になる。そこで、本実施形態では、空間視聴率に基づいて自由視点画像を提供する対象になる位置を限定することで、ユーザにとって見やすい形で自由視点画像を提供するとともに、自由視点画像を提供するためのデータが不必要に膨大になるのを防ぐ。

　図２は、本開示の一実施形態における空間視聴率推定について概念的に説明するための図である。図２に示されるように、本実施形態では、まず、空間ＳＰ（図示された例では競技場）内に存在する視聴者位置１１０を推定する。上記の通り、視聴者位置１１０は、視点画像を提供する観客や、カメラの位置でありうる。次に、視線１１５が推定される。視線１１５は、例えば視点画像の中心方向に沿うとみなされてもよいし、視聴者が観客である場合には、視線検出の技術を利用して検出されてもよい。視線１１５の推定結果に基づいて、空間ＳＰ内の視対象位置１２０が推定される。視対象位置１２０は、図示された例のように、視線１１５が地面（または床面）に交わった位置として推定されてもよい。空間視聴率は、視対象位置１２０の密度に応じて推定される。図示された例では、視対象位置１２０が集中している位置Ｐ１や位置Ｐ２において、比較的高い空間視聴率が推定される。

　図３は、本開示の一実施形態における視対象位置推定の他の例を示す図である。上記の例では、視対象位置が視聴者から提供された視点画像に基づいて推定されたが、図３に示される例では、視点画像とは別に、環境設置カメラ１３０によって撮影された画像１３２に基づいて、視聴者位置１１０および視線１１５が推定される。画像１３２には、観客である視聴者（ＶＩＥＷＥＲ）が被写体として含まれている。このような画像１３２を解析することによって、画像中の視聴者位置や視聴者の顔の向き、眼の向きなどを特定し、これらに基づいて視線１１５を推定してもよい。視聴者の検出や、顔の向き、眼の向きなどの特定には、画像に関する機械学習の結果が利用されてもよい。

　（２．画像の収集および自由視点画像の生成）
　図４は、本開示の一実施形態における画像の収集の例について概念的に説明するための図である。図４に示されるように、本実施形態では、空間ＳＰ（図示された例では競技場）内に配置された視点２１０のそれぞれにおいて撮影された画像のうち、空間視聴率に基づいて選定された位置２２０を含む画像が、自由視点画像の生成のために収集される。視点２１０は、例えばウェアラブルカメラを装用したり、モバイルカメラ（通常のデジタルカメラまたはスマートフォンなどに搭載されるカメラなど）で撮影を実行したりしている観客（プロフェッショナルのカメラマンであってもよい）の位置でありうる。また、視点２１０は、中継などのために固定設置されたカメラの位置を含んでもよい。

　例えば、上述のように、本実施形態では、空間視聴率の推定のために、視点２１０において撮影された画像が利用されうる。この画像を、そのまま自由視点画像の生成のための画像として利用してもよい。空間視聴率が高い位置２２０では、より多くの視点２１０からの画像が存在するため、自由視点画像の生成のために十分な数の画像が得られやすい。あるいは、空間視聴率の推定に用いられたか否かに関わらず、利用可能な画像がすべて収集され、空間視聴率が高い位置２２０を含む画像が事後的に選別されてもよい。例えば、図３に示したように視対象位置を視点画像とは別の画像によって推定するような場合、別途収集された視点画像から、視対象位置の密度に基づいて推定された空間視聴率が高い位置２２０を含む画像が事後的に選別されうる。

　図５は、本開示の一実施形態における画像の収集の別の例について概念的に説明するための図である。図５に示された例では、環境設置カメラ２３０によって、空間視聴率が高い位置２２０を含む画像が収集される。環境設置カメラ２３０は、空間視聴率の推定結果に基づいてリアルタイムで制御されてもよい。この場合、例えば、環境設置カメラ２３０は、所定の範囲の中で向きを変えられるように配置され、それぞれの環境設置カメラ２３０が撮影可能な空間ＳＰ内の領域は部分的に重複する。

　図示された例では、多くの視対象位置１２０が集中し、空間視聴率が高いと推定される領域Ｒ１については、複数の環境設置カメラ２３０ａ，２３０ｂによって、いずれも高解像度で（ズームインして）撮影が実行されている。また、いくつかの視対象位置１２０が散在し、空間視聴率が中程度と推定される領域Ｒ２については、単一の環境設置カメラ２３０ｃによって、高解像度で（ズームインして）撮影が実行されている。視対象位置１２０がなく、空間視聴率が低いと推定される領域Ｒ３については、単一の環境設置カメラ２３０ｄによって、低解像度で（ズームアウトして）撮影が実行されている。

　上記のような図５の例では、環境設置カメラ２３０を設置するコストはかかるものの、自由視点画像の生成のための画像を、安定して、かつ所望の品質で得ることができる。なお、空間視聴率と環境設置カメラ２３０の動作との関係は、上記の例には限られない。例えば、空間視聴率が低いと推定される領域についても、突発的に注目すべきイベントが生じる可能性がある場合には、少なくとも２つの環境設置カメラ２３０で撮影が実行されてもよい。また、そのようなイベントが生じる可能性がない場合には、空間視聴率が低いと推定される領域については撮影を実行しなくてもよい。

　図６および図７は、本開示の一実施形態における画像の収集のさらに別の例について概念的に説明するための図である。図６および図７に示された例では、撮影用のＵＡＶ（Unmanned　aerial　vehicle）によって、図５に示した例と同様の画像の収集が実施される。ＵＡＶ２４０は、空間ＳＰの上空（または空間ＳＰの内部）を飛行し、空間ＳＰ内の画像を撮影する。図６に示された例では、ＵＡＶ２４０ａ，２４０ｂによって領域Ｒ１が、ＵＡＶ２４０ｃによって領域Ｒ２が、ＵＡＶ２４０ｄによって領域Ｒ３が、それぞれ撮影されている。

　ＵＡＶ２４０は、例えば図５に示された環境設置カメラ２３０と同様に、撮影の向きを変えたり、ズームイン／アウトしたりすることが可能である。さらに、ＵＡＶ２４０は、空間ＳＰの上空または内部を、自由に移動することができる。従って、例えば、空間視聴率が高いと推定される位置または領域については、より多くのＵＡＶ２４０を集中させて撮影を実行することが可能になる。また、例えば図７に示した例のように、空間視聴率に応じてＵＡＶ２４０の位置を変更しつつ、それぞれのＵＡＶ２４０の撮影範囲２４２が、空間ＳＰの全体をカバーするようにＵＡＶ２４０の配置を調整することもできる。

　（３．システム構成例）
　図８は、本開示の一実施形態に係るシステムの構成例を示す図である。図８を参照すると、システム１０は、カメラ３００と、視聴者端末４００と、サーバ５００と、ユーザ端末６００とを含む。なお、本明細書において、視聴者は空間内に存在する視点を有する主体を意味し、ユーザは視聴者の視対象位置の密度に応じて推定された空間視聴率に基づいて提供される自由視点画像を閲覧する主体を意味する。以下、それぞれの

　カメラ３００は、例えば視聴者によって装着または携帯される端末（視聴者端末４００であってもよい）に搭載される。あるいは、カメラ３００は、自動的に撮影を実行する主体、すなわち本明細書でいう視聴者そのものであってもよい。カメラ３００は、少なくとも１つの撮像素子を含む撮像部を備え、外向きカメラ画像３１０を取得する。さらに、カメラ３００が視聴者によって装着される端末に搭載されるような場合、別の撮像素子を含む撮像部によって、内向きカメラ画像３２０が取得されてもよい。

　視聴者端末４００は、カメラ３００とともに視聴者によって使用される、または視聴者そのものである端末装置である。視聴者端末４００は、例えば後述する情報処理装置のハードウェア構成によって実現され、ＣＰＵ（Central　Processing　unit）などのプロセッサがメモリまたはストレージに格納されたプログラムに従って動作することによって実現される視聴者位置推定部４１０、視線推定部４２０、および視対象位置推定部４３０を含みうる。一例として、視聴者端末４００は、スマートフォン、デジタルカメラ、タブレット、パーソナルコンピュータなどとして実現されうる。

　視聴者位置推定部４１０は、例えば、カメラ３００によって取得された外向きカメラ画像３１０に基づいて、ＳＬＡＭなどの技術を利用して視聴者位置を推定する。このとき、視聴者位置推定部４１０は、サーバ５００から提供される、ランドマーク５５０や３次元モデル５７０などの情報を利用してもよい。あるいは、視聴者位置推定部４１０は、ＧＮＳＳデータ５６０のような測位情報、またはチケット情報などに基づいて視聴者位置を推定してもよい。この場合、視聴者位置の推定には、必ずしも外向きカメラ画像３１０が用いられなくてもよい。

　視線推定部４２０は、例えば、カメラ３００によって取得された内向きカメラ画像３２０に基づいて、視聴者の視線を推定する。上述のように、簡便な方法としては、視点画像、すなわち外向きカメラ画像３１０の中心方向を視線方向とみなすことができるため、そのような場合は視線推定部４２０は存在しなくてもよい。例えば内向きカメラ画像３２０が取得可能である場合、視線推定部４２０は、内向きカメラ画像３２０に含まれる眼の画像に基づいて、黒眼の中心位置から視線を推定したり、眼球モデルの姿勢から視線を推定したりすることが可能である。

　視対象位置推定部４３０は、視聴者位置推定部４１０によって推定された視聴者位置と、視線推定部４２０によって推定された視線とに基づいて、視聴者の視対象位置を推定する。視対象位置推定部４３０は、例えば、サーバ５００から提供される空間の３次元モデル５７０に基づいて視対象位置を推定する。視対象位置推定部４３０は、推定された視対象位置を示す情報、例えば３次元モデル５７０において定義される空間内の座標を、サーバ５００にアップロードする。

　サーバ５００は、カメラ３００および／または視聴者端末４００とネットワークで接続された、１または複数のサーバ装置によって構成される。サーバ装置は、例えば後述する情報処理装置のハードウェア構成によって実現される。サーバ５００は、サーバ装置のＣＰＵなどのプロセッサがメモリまたはストレージに格納されたプログラムに従って動作することによって実現される空間視聴率推定部５２０およびポイントクラウド生成部５４０を含みうる。また、サーバ５００を実現するサーバ装置のメモリまたはストレージには、視対象位置データ５１０、画像データ５３０、ランドマーク５５０、および３次元モデル５７０のデータが格納されうる。

　サーバ５００は、視聴者端末４００から提供される視対象位置の情報を、視対象位置データ５１０として収集する。なお、後述するように、視聴者位置の推定、視線の推定、および／または視対象位置の推定をサーバで実施することも可能であるが、いずれの場合も、サーバ装置のプロセッサは、空間内に存在する複数の視点からの視対象位置を示す情報を収集する。この情報は、例えば図示された例のように推定された視対象位置自体を示す情報であってもよく、推定された視聴者位置や視線を示す情報であってもよく、外向きカメラ画像３１０および／または内向きカメラ画像３２０であってもよい。

　空間視聴率推定部５２０は、視対象位置データ５１０に基づいて空間視聴率を推定する。空間視聴率は、視対象位置の密度に応じて算出され、空間内の位置を評価（rate）する指標の一例である。従って、空間視聴率推定部５２０は、視対象位置の密度に応じて空間内の位置を評価しているともいえる。ここで、サーバ５００は、カメラ３００からアップロードされた外向きカメラ画像３１０を取得し、画像データ５３０として蓄積している。ポイントクラウド生成部５４０は、空間視聴率に応じて、画像データ５３０から自由視点画像を提供するためのポイントクラウドデータを生成する。ポイントクラウドデータは、ユーザ端末６００に配信される。

　ここで、サーバ５００において実現されるポイントクラウド生成部５４０は、視対象位置の密度に応じて空間内の位置を評価した結果に基づいて、空間内を撮影することによって得られる画像データの編集を実行する機能の一例である。例えば、ポイントクラウド生成部５４０は、自由視点画像を提供するためのポイントクラウドデータを、視対象位置の密度に応じた指標である空間視聴率に応じて選択的に生成する。選択的に生成するとは、例えば、空間視聴率が高い位置または領域ではポイントクラウドデータを生成し、空間視聴率が低い位置または領域ではポイントクラウドデータを生成しないことを含みうる。

　なお、例えば、上記で図５～図７を参照して説明した例のような場合、サーバ５００を実現するサーバ装置のプロセッサは、さらに、空間視聴率に基づいて、空間内を撮影することによって得られる画像データの取得の制御を実行する機能を実現してもよい。上記の例でいえば、環境設置カメラ２３０やＵＡＶ２４０による画像の撮影を制御する機能が、サーバ装置のプロセッサによって実現されうる。この場合、例えば、画像の撮影の対象になる空間内の位置の制御が、環境設置カメラ２３０の向きの変更や、ＵＡＶ２４０の移動などによって実施されうる。また、画像の撮影の対象になる範囲の制御が、環境設置カメラ２３０やＵＡＶ２４０に搭載されたカメラのズームイン／ズームアウトなどによって実施されてもよい。

　ユーザ端末６００は、自由視点画像を閲覧するユーザによって使用される端末装置である。ユーザ端末６００は、例えば後述する情報処理装置のハードウェア構成によって実現され、ＣＰＵなどのプロセッサがメモリまたはストレージに格納されたプログラムに従って動作することによって実現される自由視点画像生成部６１０を含みうる。一例として、ユーザ端末６００は、テレビ、レコーダ、パーソナルコンピュータ、タブレット、スマートフォンなどとして実現されうる。

　自由視点画像生成部６１０は、サーバ５００から提供されるポイントクラウドデータに基づいて、自由視点画像を生成する。ここで、自由視点画像は、ユーザの操作入力による視点指定６２０に従って生成されうる。自由視点画像を閲覧するユーザは、視点指定６２０に限らず、ズームイン／アウトなどを操作入力によって指定することも可能でありうる。なお、生成された自由視点画像は、ユーザ端末６００自身が有するディスプレイに表示されてもよいし、外部接続されるディスプレイに出力されてもよい。

　以上、本実施形態に係るシステムの構成例について説明した。なお、説明された構成は一例であり、様々な変形が可能である。例えば、上記で視聴者端末４００およびユーザ端末６００に含まれるものとして説明された機能は、サーバ５００で実現されてもよい。例えば、カメラ３００が外向きカメラ画像３１０および内向きカメラ画像３２０をサーバ５００にアップロードし、視聴者位置推定部４１０、視線推定部４２０、および視対象位置推定部４３０がサーバ５００で実現される場合、システム１０は視聴者端末４００を含まなくてもよい。また、サーバ５００が自由視点画像生成部６１０を実現し、視点指定６２０などに従って生成された自由視点画像を、ユーザのもとにある表示装置に配信してもよい。

　（４．処理フローの例）
　図９は、本開示の一実施形態における処理の例を示すフローチャートである。図９では、上記で図８を参照して説明したシステム１０において実行される処理の例が示されている。

　まず、視聴者端末４００における視聴者位置推定の処理として、カメラ３００において取得された外向きカメラ画像３１０から、ランドマークが検出される（Ｓ２０１）。ランドマークは、例えば、空間内に設置され、画像において目印になりうるオブジェクトである。例えば、ランドマークは、競技場のフィールドに引かれたラインや、競技のためのポール、劇場のステージや案内表示など、視聴者位置推定のために設置されたものでなくてもよい。あるいは、ランドマークは、視聴者位置推定のために設置されたものであってもよい。この場合、ランドマークは、例えば、さまざまな視点から撮影された画像に移りやすい位置に、それぞれが一意に識別できるようなテクスチャをもって配置されうる。

　外向きカメラ画像３１０からランドマークが検出されたか否かの判定（Ｓ２０３）において、ランドマークが検出された場合、ランドマークを使った視聴者位置推定が実施される（Ｓ２０５）。この場合、例えば、空間の３次元モデルにおいて予め設定されたランドマークの座標を基準にして、ＳＬＡＭの技術を利用して視聴者位置が推定される。一方、ランドマークが検出されなかった場合、ＧＮＳＳデータを使った視聴者位置推定が実施される（Ｓ２０７）。なお、ＧＮＳＳデータに代えて、他の測位情報などに基づいて視聴者位置が推定されてもよい。また、測位情報などによって十分に高い精度の視聴者位置推定が可能である場合には、優先的に測位情報などによる視聴者位置推定が実施されてもよい。

　視聴者位置推定に続いて、内向きカメラ画像３２０を用いた視線推定が実施される（Ｓ２０９）。なお、上記のように、例えば内向きカメラ画像３２０が利用可能ではないような場合には、外向きカメラ画像３１０の中心方向を視線方向とみなしてもよい。さらに、推定された視聴者位置および視線に基づく視対象位置推定が実施される（Ｓ２１１）。図８に示した例におけるシステム１０では、視聴者端末４００において推定された視対象位置の情報と、カメラ３００において取得された外向きカメラ画像３１０とが、サーバ５００にアップロードされる（Ｓ２１３）。既に述べたように、Ｓ２０１～Ｓ２１１の処理はサーバ５００で実行されてもよく、その場合は、カメラ３００からサーバ５００に、外向きカメラ画像３１０（付加的に、内向きカメラ画像３２０）がアップロードされるだけであってもよい。

　サーバ５００では、空間視聴率推定部５２０が、アップロードされた情報に基づいて、空間内のグリッド、またはクラスタにおける視対象位置の密度を計算する（Ｓ２１５）。図示された例では、視対象位置の密度が、グリッドまたはクラスタの空間視聴率に相当する。さらに、サーバ５００では、ポイントクラウド生成部５４０が、視対象位置の密度が算出されたグリッドまたはクラスタごとのループ処理（Ｓ２１７）において、密度が閾値を超えるか否かを判定し（Ｓ２１９）、密度が閾値を超える場合には当該グリッドまたはクラスタについてのポイントクラウドデータを生成する（Ｓ２２１）。以上のような処理によって生成されたポイントクラウドデータはユーザに配信され（Ｓ２２３）、ユーザによる視点の選択（Ｓ２２５）などに応じて、自由視点画像が生成される（Ｓ２２７）。

　（５．ハードウェア構成）
　次に、図１０を参照して、本開示の実施形態に係る情報処理装置のハードウェア構成について説明する。図１０は、本開示の実施形態に係る情報処理装置のハードウェア構成例を示すブロック図である。図示された情報処理装置９００は、例えば、上記の実施形態における視聴者端末、サーバ装置、および／またはユーザ端末を実現しうる。

　情報処理装置９００は、ＣＰＵ（Central　Processing　unit）９０１、ＲＯＭ（Read　Only　Memory）９０３、およびＲＡＭ（Random　Access　Memory）９０５を含む。また、情報処理装置９００は、ホストバス９０７、ブリッジ９０９、外部バス９１１、インターフェース９１３、入力装置９１５、出力装置９１７、ストレージ装置９１９、ドライブ９２１、接続ポート９２３、通信装置９２５を含んでもよい。さらに、情報処理装置９００は、必要に応じて、撮像装置９３３、およびセンサ９３５を含んでもよい。情報処理装置９００は、ＣＰＵ９０１に代えて、またはこれとともに、ＤＳＰ（Digital　Signal　Processor）、ＡＳＩＣ（Application　Specific　Integrated　Circuit）、またはＦＰＧＡ（Field-Programmable　Gate　Array）などの処理回路を有してもよい。

　ＣＰＵ９０１は、演算処理装置および制御装置として機能し、ＲＯＭ９０３、ＲＡＭ９０５、ストレージ装置９１９、またはリムーバブル記録媒体９２７に記録された各種プログラムに従って、情報処理装置９００内の動作全般またはその一部を制御する。ＲＯＭ９０３は、ＣＰＵ９０１が使用するプログラムや演算パラメータなどを記憶する。ＲＡＭ９０５は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一次記憶する。ＣＰＵ９０１、ＲＯＭ９０３、およびＲＡＭ９０５は、ＣＰＵバスなどの内部バスにより構成されるホストバス９０７により相互に接続されている。さらに、ホストバス９０７は、ブリッジ９０９を介して、ＰＣＩ（Peripheral　Component　Interconnect/Interface）バスなどの外部バス９１１に接続されている。

　入力装置９１５は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置９１５は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置９００の操作に対応した携帯電話などの外部接続機器９２９であってもよい。入力装置９１５は、ユーザが入力した情報に基づいて入力信号を生成してＣＰＵ９０１に出力する入力制御回路を含む。ユーザは、この入力装置９１５を操作することによって、情報処理装置９００に対して各種のデータを入力したり処理動作を指示したりする。

　出力装置９１７は、取得した情報をユーザに対して視覚や聴覚、触覚などの感覚を用いて通知することが可能な装置で構成される。出力装置９１７は、例えば、ＬＣＤ（Liquid　Crystal　Display）または有機ＥＬ（Electro-Luminescence）ディスプレイなどの表示装置、スピーカまたはヘッドフォンなどの音声出力装置、もしくはバイブレータなどでありうる。出力装置９１７は、情報処理装置９００の処理により得られた結果を、テキストもしくは画像などの映像、音声もしくは音響などの音声、またはバイブレーションなどとして出力する。

　ストレージ装置９１９は、情報処理装置９００の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置９１９は、例えば、ＨＤＤ（Hard　Disk　Drive）などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。ストレージ装置９１９は、例えばＣＰＵ９０１が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。

　ドライブ９２１は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体９２７のためのリーダライタであり、情報処理装置９００に内蔵、あるいは外付けされる。ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録されている情報を読み出して、ＲＡＭ９０５に出力する。また、ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録を書き込む。

　接続ポート９２３は、機器を情報処理装置９００に接続するためのポートである。接続ポート９２３は、例えば、ＵＳＢ（Universal　Serial　Bus）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Small　Computer　System　Interface）ポートなどでありうる。また、接続ポート９２３は、ＲＳ－２３２Ｃポート、光オーディオ端子、ＨＤＭＩ（登録商標）（High-Definition　Multimedia　Interface）ポートなどであってもよい。接続ポート９２３に外部接続機器９２９を接続することで、情報処理装置９００と外部接続機器９２９との間で各種のデータが交換されうる。

　通信装置９２５は、例えば、通信ネットワーク９３１に接続するための通信デバイスなどで構成された通信インターフェースである。通信装置９２５は、例えば、ＬＡＮ（Local　Area　Network）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ－Ｆｉ、またはＷＵＳＢ（Wireless　USB）用の通信カードなどでありうる。また、通信装置９２５は、光通信用のルータ、ＡＤＳＬ（Asymmetric　Digital　Subscriber　Line）用のルータ、または、各種通信用のモデムなどであってもよい。通信装置９２５は、例えば、インターネットや他の通信機器との間で、ＴＣＰ／ＩＰなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置９２５に接続される通信ネットワーク９３１は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、ラジオ波通信または衛星通信などを含みうる。

　撮像装置９３３は、例えば、ＣＭＯＳ（Complementary　Metal　Oxide　Semiconductor）またはＣＣＤ（Charge　Coupled　Device）などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置９３３は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。

　センサ９３５は、例えば、加速度センサ、角速度センサ、地磁気センサ、照度センサ、温度センサ、気圧センサ、または音センサ（マイクロフォン）などの各種のセンサである。センサ９３５は、例えば情報処理装置９００の筐体の姿勢など、情報処理装置９００自体の状態に関する情報や、情報処理装置９００の周辺の明るさや騒音など、情報処理装置９００の周辺環境に関する情報を取得する。また、センサ９３５は、人工衛星からの信号を受信して装置の緯度、経度および高度を測定するＧＮＳＳ（Global　Navigation　Satellite　Systems）受信機を含んでもよい。

　以上、情報処理装置９００のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更されうる。

　（６．補足）
　本開示の実施形態は、例えば、上記で説明したような情報処理装置、システム、情報処理装置またはシステムで実行される情報処理方法、情報処理装置を機能させるためのプログラム、およびプログラムが記録された一時的でない有形の媒体を含みうる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　例えば、上記で説明された実施形態では、視対象位置の密度に応じた空間内の位置の評価結果（空間視聴率）が、自由視点画像の提供のためのポイントクラウドデータの生成のために利用されたが、本開示の実施形態はこのような例には限られない。例えば、空間視聴率が高い位置は、撮影された画像を閲覧されるユーザの興味が高い位置と推定されることから、そのようなユーザの興味に応じて画像を記録するためのさまざまな処理が、空間視聴率に応じて実施されてもよい。

　より具体的には、例えば、空間視聴率が高い位置を撮影した画像については高画質（大きな画像サイズおよび／または高いビットレート）で保存し、そうでない位置を撮影した画像については低画質（小さな画像サイズおよび／または低いビットレート）で記録することによって、データを記録するためのリソースを有効に活用する構成が採用されてもよい。

　また、例えば、空間視聴率が高い位置であっても、自由視点画像を生成するために十分な画像が取得できなかった場合、または、画像を閲覧するユーザが、空間視聴率が低いために自由視点画像を生成するためのデータ（例えばポイントクラウドデータ）が生成されなかった位置を指定した場合、利用可能な画像を用いて、当該位置を撮影した複数の視点画像を単純に切り替えて閲覧することが可能であってもよい。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）空間内に存在する複数の視点からの視対象位置を示す情報を収集する機能と、
　前記視対象位置の密度に応じて前記空間内の位置を評価する機能と
　を実現するプロセッサを備える情報処理装置。
（２）前記プロセッサは、
　前記空間内を撮影することによって得られる画像データを取得する機能と、
　前記空間内の位置を評価した結果に基づいて、前記画像データの編集を実行する機能と
　をさらに実現する、前記（１）に記載の情報処理装置。
（３）前記画像データの編集は、自由視点画像を提供するためのデータの生成を含む、前記（２）に記載の情報処理装置。
（４）前記画像データの編集は、前記視対象位置の密度に応じて選択的に前記自由視点画像を提供するためのデータを生成することを含む、前記（３）に記載の情報処理装置。
（５）前記画像データの編集は、前記視対象位置の密度に応じて記録される前記画像データの品質を変化させることを含む、前記（２）～（４）のいずれか１項に記載の情報処理装置。
（６）前記画像データの編集は、前記視対象位置の密度に応じて記録される前記画像データを選別することを含む、前記（２）～（５）のいずれか１項に記載の情報処理装置。
（７）前記視対象位置は、前記画像データに基づいて推定される、前記（２）～（６）のいずれか１項に記載の情報処理装置。
（８）前記プロセッサは、
　前記空間内を撮影することによって得られる画像データを取得する機能と、
　前記空間内の位置を評価した結果に基づいて、前記画像データの取得の制御を実行する機能と
　をさらに実現する、前記（１）～（７）のいずれか１項に記載の情報処理装置。
（９）前記画像データの取得の制御は、前記撮影の対象になる位置の制御を含む、前記（８）に記載の情報処理装置。
（１０）前記画像データの取得の制御は、前記撮影の対象になる範囲の制御を含む、前記（８）または（９）に記載の情報処理装置。
（１１）前記視対象位置は、前記空間内を前記複数の視点から撮影することによって得られる画像データに基づいて推定される、前記（１）に記載の情報処理装置。
（１２）前記プロセッサは、
　前記視対象位置を示す情報に基づいて前記視対象位置を推定する機能
　をさらに実現する、前記（１１）に記載の情報処理装置。
（１３）前記視対象位置を示す情報は、前記画像データを含む、前記（１２）に記載の情報処理装置。
（１４）前記視対象位置を示す情報は、前記画像データに基づいて推定された前記複数の視点の位置を示す情報を含む、前記（１２）に記載の情報処理装置。
（１５）前記視対象位置を示す情報は、前記複数の視点からの視線を示す情報をさらに含む、前記（１４）に記載の情報処理装置。
（１６）前記視対象位置の密度は、前記空間内に設定されるグリッドごとに評価される、前記（１）～（１５）のいずれか１項に記載の情報処理装置。
（１７）前記視対象位置の密度は、互いに近接する前記視対象位置を含むクラスタごとに評価される、前記（１）～（１５）のいずれか１項に記載の情報処理装置。
（１８）空間内に存在する複数の視点からの視対象位置を示す情報を収集することと、
　プロセッサが、前記視対象位置の密度に応じて前記空間内の位置を評価することと
　を含む情報処理方法。
（１９）空間内に存在する複数の視点からの視対象位置を示す情報を収集する機能と、
　前記視対象位置の密度に応じて前記空間内の位置を評価する機能と
　をプロセッサに実現させるためのプログラム。

　１０　　システム
　３００　　カメラ
　４００　　視聴者端末
　５００　　サーバ
　５１０　　視対象位置データ
　５２０　　空間視聴率推定部
　５３０　　画像データ
　５４０　　ポイントクラウド生成部
　６００　　ユーザ端末
　６１０　　自由視点画像生成部

Claims

　空間内に存在する複数の視点からの視対象位置を示す情報を収集する機能と、
　前記視対象位置の密度に応じて前記空間内の位置を評価する機能と
　を実現するプロセッサを備える情報処理装置。
　前記プロセッサは、
　前記空間内を撮影することによって得られる画像データを取得する機能と、
　前記空間内の位置を評価した結果に基づいて、前記画像データの編集を実行する機能と
　をさらに実現する、請求項１に記載の情報処理装置。
　前記画像データの編集は、自由視点画像を提供するためのデータの生成を含む、請求項２に記載の情報処理装置。
　前記画像データの編集は、前記視対象位置の密度に応じて選択的に前記自由視点画像を提供するためのデータを生成することを含む、請求項３に記載の情報処理装置。
　前記画像データの編集は、前記視対象位置の密度に応じて記録される前記画像データの品質を変化させることを含む、請求項２に記載の情報処理装置。
　前記画像データの編集は、前記視対象位置の密度に応じて記録される前記画像データを選別することを含む、請求項２に記載の情報処理装置。
　前記視対象位置は、前記画像データに基づいて推定される、請求項２に記載の情報処理装置。
　前記プロセッサは、
　前記空間内を撮影することによって得られる画像データを取得する機能と、
　前記空間内の位置を評価した結果に基づいて、前記画像データの取得の制御を実行する機能と
　をさらに実現する、請求項１に記載の情報処理装置。
　前記画像データの取得の制御は、前記撮影の対象になる位置の制御を含む、請求項８に記載の情報処理装置。
　前記画像データの取得の制御は、前記撮影の対象になる範囲の制御を含む、請求項８に記載の情報処理装置。
　前記視対象位置は、前記空間内を前記複数の視点から撮影することによって得られる画像データに基づいて推定される、請求項１に記載の情報処理装置。
　前記プロセッサは、
　前記視対象位置を示す情報に基づいて前記視対象位置を推定する機能
　をさらに実現する、請求項１１に記載の情報処理装置。
　前記視対象位置を示す情報は、前記画像データを含む、請求項１２に記載の情報処理装置。
　前記視対象位置を示す情報は、前記画像データに基づいて推定された前記複数の視点の位置を示す情報を含む、請求項１２に記載の情報処理装置。
　前記視対象位置を示す情報は、前記複数の視点からの視線を示す情報をさらに含む、請求項１４に記載の情報処理装置。
　前記視対象位置の密度は、前記空間内に設定されるグリッドごとに評価される、請求項１に記載の情報処理装置。
　前記視対象位置の密度は、互いに近接する前記視対象位置を含むクラスタごとに評価される、請求項１に記載の情報処理装置。
　空間内に存在する複数の視点からの視対象位置を示す情報を収集することと、
　プロセッサが、前記視対象位置の密度に応じて前記空間内の位置を評価することと
　を含む情報処理方法。
　空間内に存在する複数の視点からの視対象位置を示す情報を収集する機能と、
　前記視対象位置の密度に応じて前記空間内の位置を評価する機能と
　をプロセッサに実現させるためのプログラム。