WO2022014369A1

WO2022014369A1 - 画像処理装置、画像処理方法、及びプログラム

Info

Publication number: WO2022014369A1
Application number: PCT/JP2021/025088
Authority: WO
Inventors: 翔小倉
Original assignee: ソニーグループ株式会社
Priority date: 2020-07-17
Filing date: 2021-07-02
Publication date: 2022-01-20
Also published as: JPWO2022014369A1; EP4184444A1; EP4184444A4; US20230298260A1

Abstract

本技術は、より適切に視点の切り替えを行うことができるようにする画像処理装置、画像処理方法、及びプログラムに関する。視点画像の送信に関する帯域情報に応じて、第１の視点画像に関連する視点画像関連情報と視点画像の被写体に対応するモデルデータに基づいた仮想画像を生成する仮想画像生成部と、第１の視点画像を表示する前に、生成した仮想画像を表示するように制御する表示制御部とを備える画像処理装置が提供される。例えば、本技術は、VRコンテンツを再生する再生装置に適用することができる。

Description

画像処理装置、画像処理方法、及びプログラム

　本技術は、画像処理装置、画像処理方法、及びプログラムに関し、特に、より適切に視点の切り替えを行うことができるようにした画像処理装置、画像処理方法、及びプログラムに関する。

　近年、VR(Virtual Reality)等のコンピュータにより作り出された空間を現実として知覚させて新しい体験を提供するための研究開発が盛んに行われている。

　例えば、特許文献１には、任意の視点からの画像の再生を可能にした自由視点画像データを再生する再生装置に関する技術が開示されている。

特開2015-187797号公報

　ところで、任意の視点を選択可能な場合に、ユーザにより新しい視点が選択されたとき、新しい視点の画像を再生できる状態になるまで待ち時間が発生するため、その待ち時間を考慮してより適切に視点の切り替えが行われることが求められる。

　本技術はこのような状況に鑑みてなされたものであり、より適切に視点の切り替えを行うことができるようにするものである。

　本技術の一側面の画像処理装置は、視点画像の送信に関する帯域情報に応じて、第１の視点画像に関連する視点画像関連情報と前記視点画像の被写体に対応するモデルデータに基づいた仮想画像を生成する仮想画像生成部と、前記第１の視点画像を表示する前に、生成した前記仮想画像を表示するように制御する表示制御部とを備える画像処理装置である。

　本技術の一側面の画像処理方法は、画像処理装置が、視点画像の送信に関する帯域情報に応じて、第１の視点画像に関連する視点画像関連情報と前記視点画像の被写体に対応するモデルデータに基づいた仮想画像を生成し、前記第１の視点画像を表示する前に、生成した前記仮想画像を表示するように制御する画像処理方法である。

　本技術の一側面のプログラムは、コンピュータを、視点画像の送信に関する帯域情報に応じて、第１の視点画像に関連する視点画像関連情報と前記視点画像の被写体に対応するモデルデータに基づいた仮想画像を生成する仮想画像生成部と、前記第１の視点画像を表示する前に、生成した前記仮想画像を表示するように制御する表示制御部として機能させるプログラムである。

　本技術の一側面の画像処理装置、画像処理方法、及びプログラムにおいては、視点画像の送信に関する帯域情報に応じて、第１の視点画像に関連する視点画像関連情報と前記視点画像の被写体に対応するモデルデータに基づいた仮想画像が生成され、前記第１の視点画像が表示される前に、生成された前記仮想画像が表示されるように制御される。

　本技術の一側面の画像処理装置は、独立した装置であってもよいし、１つの装置を構成している内部ブロックであってもよい。

本技術を適用したコンテンツ配信システムの構成例を示す図である。複数視点の切り替えの例を示す図である。第１の視点に応じた視点画像の例を示す図である。第２の視点に応じた視点画像の例を示す図である。複数視点の切り替え時に表示される仮想画像の例を示す図である。複数視点の切り替え時における帯域に応じた遷移経路の設定の例を示す図である。イベント会場のマップ上に表示された遷移経路の例を示す図である。本技術を適用したコンテンツ配信システムの各装置の構成例を示す図である。コンテンツ配信システムにおける各装置間のデータの流れを示す図である。視点切り替え処理の流れの第１の例を示すフローチャートである。視点切り替え処理の流れの第２の例を示すフローチャートである。コンピュータの構成例を示す図である。

＜１．本技術の実施の形態＞

（システムの構成例）
　図１は、本技術を適用したコンテンツ配信システムの構成例を示している。

　コンテンツ配信システム１は、VR映像等のコンテンツ（VRコンテンツ）を配信して、ユーザに視聴させるサービスを提供するシステムである。

　図１において、コンテンツ配信システム１は、カメラ１０－１乃至１０－Ｎ、メタデータサーバ２０、センサ２１、配信サーバ３０、及び再生装置４０－１乃至４０－Ｍから構成される。ただし、Ｎ，Ｍは、１以上の整数である。

　例えば、音楽コンサート等のVRコンテンツを配信する場合、カメラ１０－１乃至１０－Ｎと各種のセンサ２１は、音楽コンサートの会場等のイベント会場内に設置される。カメラ１０－１乃至１０－Ｎのそれぞれは、ステージ上の演者を様々な角度から撮影可能な場所に設置される。また、各種のセンサ２１は、検出対象を検出可能な場所に設置され、メタデータサーバ２０に接続される。

　カメラ１０－１は、光学系やイメージセンサ、信号処理回路等から構成される。カメラ１０－１は、イベント会場内の所定の場所に設置され、ステージ上の演者を撮影する。カメラ１０－１により撮影される撮影画像は、第１の視点位置から撮影された視点画像であると言える。

　カメラ１０－２乃至１０－Ｎのそれぞれは、カメラ１０－１と同様に構成され、それぞれが設置された所定の場所からステージ上の演者を撮影することで、異なる視点位置からの視点画像が撮影される。

　センサ２１は、物理センサや測距センサなどのセンサを含む。物理センサは、電気的又は磁気的な量、機械的な量、及び光や温度などの物理量を検出するセンサである。測距センサは、ToF(Time of Flight)等の方式により、対象物までの距離を測定するセンサである。

　メタデータサーバ２０は、各種のセンサ２１により検出されたセンサデータと、カメラ１０－１乃至１０－Ｎにより撮影された視点画像データに基づいて、視点画像に関連するメタデータを生成する。このメタデータは、視点画像の視点位置に関する情報や、視点画像内の被写体に関する情報などのメタ情報を含む。

　カメラ１０－１乃至１０－Ｎにより撮影された視点画像データと、メタデータサーバ２０により生成されたメタデータなどのデータは、ネットワーク５０－１を介して配信サーバ３０に送信される。ネットワーク５０－１は、インターネット、イントラネット、又は携帯電話網などの通信網を含み、専用線であってもよい。

　配信サーバ３０は、コンテンツの配信を行うサーバ（クラウドサーバ）であり、データセンタ等に設置される。配信サーバ３０は、ネットワーク５０－１を介して視点画像データやメタデータ等のデータを受信して、音楽コンサート等のVRコンテンツを配信可能にするための処理を行う。

　再生装置４０－１は、ヘッドマウントディスプレイ（HMD：Head Mounted Display）等のコンテンツを再生可能な機器である。再生装置４０－１は、ユーザからの操作に従い、ネットワーク５０－２を介して配信サーバ３０に、VRコンテンツの配信要求を送信する。ネットワーク５０－２は、インターネット、イントラネット、又は携帯電話網などの通信網を含む。

　配信サーバ３０は、再生装置４０－１からの配信要求を受信した場合、当該配信要求に応じたVRコンテンツデータを、ネットワーク５０－２を介して再生装置４０－１に送信する。VRコンテンツデータには、視点画像データやメタデータ等が含まれる。これにより、再生装置４０－１では、音楽コンサート等のVRコンテンツが再生され、ユーザにより視聴される。

　再生装置４０－２乃至４０－Ｍは、再生装置４０－１と同様に構成され、配信サーバ３０から配信されるVRコンテンツを再生することができる。以下の説明で、再生装置４０－１乃至４０－Ｍを特に区別する必要がない場合には、再生装置４０と称する。また、ネットワーク５０－１とネットワーク５０－２は、異なるネットワークに限らず、同一のネットワークであってもよく、以下、ネットワーク５０と称して説明する。

　以上のように構成されるコンテンツ配信システム１では、イベント会場内のステージ上で演じている演者を、複数のカメラ１０により様々な角度から撮影しているため、音楽コンサート等のVRコンテンツを再生する再生装置４０では、視点画像内の被写体として様々な視点に応じた演者を表示することができる。

　例えば、図２に示すように、イベント会場内のステージＳＴで、演者ＰＲ１，演者ＰＲ２，演者ＰＲ３の３人グループが楽曲を演じている場面を想定する。図２の例では、ステージＳＴに向かって、左側にカメラ１０－１が設置され、正面にカメラ１０－２が設置され、右側にカメラ１０－３が設置されている。

　カメラ１０－１の画角Ａ１には、被写体として３人の演者が含まれるが、カメラ１０－１がステージＳＴに向かって左側に設置されているため、その撮影画像としては、例えば、図３に示すような視点画像ＰＩ１が得られる。

　カメラ１０－３の画角Ａ３には、被写体として３人の演者が含まれるが、カメラ１０－３がステージＳＴに向かって右側に設置されているため、その撮影画像としては、例えば、図４に示すような視点画像ＰＩ３が得られる。

　図示はしていないが、カメラ１０－２は、ステージＳＴに向かって正面に設置されているため、その撮影画像としては、画角Ａ２の範囲内で３人の演者を正面から写した視点画像が得られる。

　このとき、再生装置４０で、音楽コンサートのVRコンテンツを視聴しているユーザが、自己の視点を、正面のカメラ１０－２の画角Ａ２に応じた視点Ｐ_Ｃから、左側のカメラ１０－１の画角Ａ１に応じた視点Ｐ_Ｎに切り替える操作を行った場合、現在の視点Ｐ_Ｃから新しい視点Ｐ_Ｎに視点の遷移が行われる（図２の視点遷移ＴＲ１１）。

　また、再生装置４０でVRコンテンツを視聴中のユーザが、自己の視点を、正面のカメラ１０－２の画角Ａ２に応じた視点Ｐ_Ｃから、右側のカメラ１０－３の画角Ａ３に応じた視点Ｐ_Ｎに切り替える操作を行った場合、現在の視点Ｐ_Ｃから新しい視点Ｐ_Ｎに視点の遷移が行われる（図２の視点遷移ＴＲ１２）。

　このように、再生装置４０で、VRコンテンツを視聴中のユーザが複数視点を選択可能な場合に、切り替え前の視点Ｐ_Ｃから、切り替え後の視点Ｐ_Ｎに視点の遷移（図２の視点遷移ＴＲ１１，ＴＲ１２）が行われるとき、現状では、切り替え後の視点Ｐ_Ｎに応じた視点画像（図３の視点画像ＰＩ１，図４の視点画像ＰＩ３）が再生可能な状態になるまで一定の待ち時間が経過してから、視点画像の切り替わりが行われる。

　そのため、再生装置４０では、VRコンテンツを視聴中のユーザが複数視点を選択可能な場合に、視点の遷移によって、視点の切り替わりの完了までに時間がかかったり、視点が切り替わった後の新しい視点がどこか把握し難かったりするという問題が発生してしまう。

　そこで、コンテンツ配信システム１では、このような問題を解決して、ユーザが複数視点を選択可能な場合に、より適切に視点の切り替えを行うことができるようにしている。

　すなわち、コンテンツ配信システム１では、視点画像を送信するに際して、視点画像の視点位置に関する情報や視点画像内の被写体に関する情報などのメタ情報を含むメタデータと、視点画像内の被写体に対応するモデルデータが生成され、再生装置４０に送信される。再生装置４０では、メタデータとモデルデータに基づいた仮想画像を生成して、視点が切り替わった後の新しい視点での視点画像の再生準備が完了するまでの間、当該仮想画像が表示されるようにする。

（仮想画像の表示例）
　図５は、複数視点の切り替え時に表示される仮想画像の例を示している。

　図５において、再生装置４０では、VRコンテンツを視聴中のユーザが、自己の視点を、左側のカメラ１０－１の画角Ａ１に応じた視点Ｐ_Ｃから、右側のカメラ１０－３の画角Ａ３に応じた視点Ｐ_Ｎに切り替える操作を行った場合、切り替え前の視点Ｐ_Ｃから、切り替え後の視点Ｐ_Ｎに視点の遷移が行われる（図５の視点遷移ＴＲ２１）。

　このとき、再生装置４０では、視点の遷移が行われている間、すなわち、切り替え前の視点Ｐ_Ｃを切り替える操作が行われてから、切り替え後の視点Ｐ_Ｎでの視点画像（図４の視点画像ＰＩ３）の再生準備ができるまでの間、仮想画像ＶＩが表示される。例えば、再生装置４０では、切り替え前の視点Ｐ_Ｃから、切り替え後の視点Ｐ_Ｎまでの視点間を遷移する視点（仮想カメラの位置）に応じた仮想画像ＶＩを表示することができる。

　仮想画像ＶＩ内には、ステージＳＴ上の演者ＰＲ１，演者ＰＲ２，演者ＰＲ３に対応したキャラクタＰＶ１，キャラクタＰＶ２，キャラクタＰＶ３が含まれる。すなわち、メタデータには、視点画像ＰＩ内の被写体の生成情報が含まれ、モデルデータには、当該被写体と対応付けられた特定のキャラクタに関する画像が含まれるので、被写体としての演者ＰＲに対応した３ＤキャラクタＰＶを生成することができる。

　図５では、仮想画像ＶＩとして、演者ＰＲに対応した３ＤキャラクタＰＶが表示される場合を例示しているが、仮想画像ＶＩとしては、３Ｄキャラクタに限らず、例えば、実写の３Ｄモデルなど、視点画像ＰＩの被写体と対応付けられた画像であればよい。

　仮想画像ＶＩは、３Ｄキャラクタ等の３次元の画像に限らず、２Ｄキャラクタ等の２次元の画像であってもよい。例えば、再生装置４０の処理負荷を考慮すれば、２次元の仮想画像ＶＩを表示するよりも、３次元の仮想画像ＶＩを表示するほうが、負荷が高いため、再生装置４０の処理能力（プロセッサの性能等）に応じて、２次元の仮想画像ＶＩ又は３次元の仮想画像ＶＩを表示することができる。

　また、コンテンツ配信システム１では、視点画像の送信に関する帯域情報に応じて、メタデータとモデルデータに基づいた仮想画像が生成されるようにする。すなわち、ネットワーク５０が、ベストエフォート型のネットワークなどである場合、ユーザが再生装置４０を使用する環境によって、ネットワーク５０の帯域が異なることで、視点の切り替えにかかる時間が変わるため、帯域情報が用いられるようにする。

　例えば、再生装置４０では、ユーザによる視点の切り替え操作に応じて視点の遷移を行う際に、切り替え前後の視点間を遷移する視点（仮想カメラの位置）に応じた仮想画像ＶＩを表示することができるが、当該視点の遷移経路と遷移速度を、帯域情報に応じて調整することができる。

　具体的には、再生装置４０では、切り替え前の視点Ｐ_Ｃの視点位置に関する視点位置情報と、切り替え後の視点Ｐ_Ｎの視点位置に関する視点位置情報に基づき、切り替え前の視点Ｐ_Ｃと切り替え後の視点Ｐ_Ｎによる軌跡情報に応じた仮想画像ＶＩを生成する際に、帯域情報を用いて軌跡情報を決定することができる。この軌跡情報には、切り替え前後の視点間の遷移経路に関する情報と遷移速度に関する情報を含む。

　また、再生装置４０では、ネットワーク５０の帯域情報に基づき、切り替え前の視点Ｐ_Ｃから切り替え後の視点Ｐ_Ｎに遷移するまでの時間（視点の切り替えを開始してから完了するまでの時間）を算出し、この遷移時間が所定値よりも短いときは遷移経路を最短経路に設定し、所定値よりも長いときには遷移経路として遠回りした経路を設定することができる。

　すなわち、帯域量が大きいほど遷移経路の長さが短くなり、帯域量が小さいほど遷移経路の長さが長くなるような関係があるため、帯域情報が示す帯域量と、軌跡情報が示す遷移経路（軌跡距離）の長さとは、負の相関関係を有している。

　図６は、複数視点の切り替え時における帯域に応じた遷移経路の設定の例を示している。

　図６においては、帯域に応じた遷移時間が所定値よりも短い場合には、切り替え前の視点Ｐ_Ｃと切り替え後の視点Ｐ_Ｎとの間の最短経路として、視点遷移ＴＲ３１が設定される。一方で、帯域に応じた遷移時間が所定値よりも長い場合には、より遠回りした経路として、視点遷移ＴＲ３２が設定される。視点遷移ＴＲ３１と視点遷移ＴＲ３２のいずれが設定された場合でも、切り替え前後の視点間を遷移する視点に応じた仮想画像ＶＩが表示される。

　図６の例では、帯域に応じた遷移時間の閾値判定より、遷移経路の長さを変更する例を示したが、視点間を遷移する視点の遷移速度などを変更しても構わない。すなわち、視点遷移の経路を同じ経路として、帯域に応じた遷移時間が所定値よりも短い場合に、視点の遷移速度をより速い速度に設定する一方で、帯域に応じた遷移時間が所定値よりも長い場合に、視点の遷移速度をより遅い速度に設定するなど、速度に差をつけることができる。

　また、帯域に応じた遷移時間の閾値判定よって、遷移経路の長さと遷移速度の速さの両方を調整しても構わない。さらに、帯域に応じた遷移時間の閾値判定に際しては、再生装置４０の処理能力を加味してもよい。この処理能力としては、プロセッサの性能や、メモリの容量、ディスプレイの解像度などを含む。

　なお、再生装置４０では、視点の切り替え操作に応じた視点の遷移の途中で、ユーザにより所定の操作が行われた場合、視点の遷移を中止して、当該操作に応じた切り替え後の視点に切り替えられてもよい。また、再生装置４０を使用しているユーザの視野の周囲を、視点の遷移速度に応じて暗くすることで、いわゆるVR酔いを抑制することができる。

　また、再生装置４０では、視点の切り替え操作に応じて視点の切り替え前と切り替え後の視点画像ＰＩが瞬時に切り替わるようにして、仮想画像ＶＩを非表示としても構わない。例えば、仮想画像ＶＩを非表示とする場合としては、ネットワーク５０の帯域情報に基づき、帯域量が所定値よりも大きい場合などが該当する。ただし、仮想画像ＶＩを非表示にする場合でも、ユーザに対して、視点の遷移に関する情報が提示されるようにする。

　例えば、図７に示すように、再生装置４０において、切り替え前の視点Ｐ_Ｃの視点位置に関する視点位置情報と、切り替え後の視点Ｐ_Ｎの視点位置に関する視点位置情報に基づき、イベント会場のマップ上に視点遷移ＴＲ２１を示す情報を含む画像が表示される。これにより、ユーザは、表示されたマップを確認して、どのような視点の移動が行われたかを認識することができる。なお、図７の表示例は一例であり、例えば、イベント会場のマップ上に、視点の遷移に関する情報とともに、ステージＳＴ上の演者に応じたキャラクタなどが表示されてもよい。

　このように、複数視点の切り替え時に、仮想画像が表示されるようにすることで、ユーザは、視点の切り替わりの完了までの待ち時間の間も、仮想画像を見ることで楽しむことができる。また、切り替え前後の視点間を遷移する視点に応じた仮想画像が表示されることで、ユーザは、次の視点がどこになるかを把握することができる。

（メタデータの構成例）
　メタデータには、視点画像の視点位置に関する情報や、視点画像内の被写体に関する情報などのメタ情報を含むことは先に述べた通りであるが、より詳細には、視点画像に関連する視点画像関連情報として、次のような情報が含まれる。

　すなわち、メタデータには、視点画像の視点位置に関する情報として、視点画像を撮影するカメラ１０の位置、姿勢、画角に関する情報などが含まれる。また、メタデータには、視点画像内の被写体に関する情報として、被写体（演者）に対応した位置、姿勢、時間に関する情報などが含まれる。被写体に関する情報には、演者の名前などの被写体を特定する情報を含んでもよい。

　メタデータは、イベント会場等の被写体（演者）が存在する空間に関する情報や、当該空間に存在する各種のオブジェクトに関する情報を含んでもよい。例えば、イベント会場に関する情報としては、スポットライトや照明などの制御情報を含めることができる。また、各種のオブジェクトに関する情報としては、演者の服装、楽器の種類や位置などに関する情報を含めることができる。

　これらのメタデータは、メタデータサーバ２０により生成されるが、オブジェクトに関する情報などの解析処理で解析可能な情報については、配信サーバ３０又は外部サーバ（不図示）側での解析処理の結果に基づき付与しても構わない。

　再生装置４０において、メタデータを取得するタイミングとしては、例えば、次のようなタイミングがある。すなわち、再生装置４０は、配信サーバ３０から所定の間隔で繰り返して送信されてくるメタデータを常に取得するようにする。このように、メタデータを常に取得しておくことで、ユーザにより視点の切り替え操作が行われたとき、取得しておいたメタデータを用いて、瞬時に処理を開始することができる。

　また、再生装置４０は、ユーザにより視点の切り替え操作（例えば切り替えボタンの押下）が行われたとき、配信サーバ３０にメタデータを要求することで、配信サーバ３０から送信されてくるメタデータを取得することができる。このとき、メタデータの要求に、切り替えの対象となる視点を特定する情報を含めることで、必要なカメラ１０に関する情報だけを取得するようにしてもよい。

　なお、これらの取得タイミングは組み合わせてもよく、例えば、メタデータとして、常時取得するメタ情報と、視点の切り替え操作が行われたタイミングで取得を開始するメタ情報とが含まれてもよい。つまり、メタデータに含まれるメタ情報ごとに、取得タイミングを異ならせることができる。

（ネットワークスライシングの適用例）
　コンテンツ配信システム１では、ネットワーク５０を介してデータを送信する際に、ネットワークスライシングの技術を用いることができる。ネットワークスライシングとは、ネットワークリソースを仮想的に分割して、それぞれの用途に合わせた通信制御を行う技術である。ここでの用途には、高信頼低遅延や高速大容量などが含まれる。

　例えば、コンテンツ配信システム１において、カメラ１０の位置、姿勢、画角に関する情報と、視点画像の被写体（演者）の位置、姿勢等に関する情報などのメタ情報を含むメタデータを高信頼のスライスで送れるように、メタデータサーバ２０が、メタデータに含まれる各メタ情報に対し、割り当てられるべき高信頼スライスを特定するためのスライス関連情報を各メタ情報に関連付ける。そして、メタデータサーバ２０と配信サーバ３０を接続するために経由する基地局（不図示）において、スライス関連情報に基づいて特定されたスライスに各メタ情報を割当てることで、高信頼スライスを用いて各メタ情報を配信サーバ３０に送信する。

　ここで、スライス関連情報とは、割り当てられるべきスライスが特定できるものであれば特に限定はされず、例えば各メタ情報の名称付けや、割り当てられるべきスライスに対応するIDを各メタ情報に付与することなどが挙げられる。また、スライスとしては、高信頼低遅延と高速大容量を例示したが、これに限定されず、仮想的に分割して設定されたスライスのいずれであっても構わない。

　また、配信サーバ３０から再生装置４０に各種メタデータを送る場合も同様に、ネットワークスライシングの技術を用いることができる。この場合はメタデータサーバ２０から配信サーバ３０に各種メタ情報を送信する場合と同様に、各メタ情報に対してスライス関連情報を関連付ける。そして、配信サーバ３０と再生装置４０を接続するために経由する基地局（不図示）において、各メタ情報に関連付けられたスライス関連情報により特定されるスライスを用いて、各メタ情報が送信される。

　ここでは、全てのメタ情報を高信頼のスライスとしてもよいが、例えば、最低限必要となるメタ情報（例えば被写体の位置及び姿勢と切り替え後の視点の位置に関する情報）だけを高信頼のスライスで送るように制御してもよい。あるいは、メタデータを常に送り続けるケースでは、メタ情報を常に高信頼のスライスで送り続けるように制御してもよい。さらには、ユーザによって視点切り替え指示があった場合にのみ、高信頼のスライスで送るように制御してもよい。

　このように、ネットワークスライシングの技術を用いて、メタデータを送信する帯域を高信頼性で確保した状態で、視点画像データ等のデータを送信することで、再生装置４０では、確実にメタデータを受信することができる。これにより、再生装置４０では、視点切り替え時に仮想画像を表示させるに際して、処理負荷を低減させることができる。なお、メタデータは、視点画像データなどよりもデータ量が小さいため、他のデータと比べて帯域を確保しやすいデータとなる。

　なお、ネットワーク５０が、第５世代移動通信システム（5G：5th Generation）等の無線通信ネットワークを含んで構成される場合、配信サーバ３０は、RAN(Radio Access Network)側の機器として構成されても構わない。

（各装置の構成）
　図８は、本技術を適用したコンテンツ配信システムの各装置の構成例を示している。

　カメラシステム１００は、カメラ１０－１乃至１０－Ｎ、３Ｄモデル生成部１０１、及び通信部１０２から構成される。

　カメラ１０－１乃至１０－Ｎは、イベント会場内の所定の場所にそれぞれ設置される。カメラ１０－１乃至１０－Ｎのそれぞれは、自己が設置された場所からステージ上の演者を撮影して、異なる視点位置からの視点画像データを、３Ｄモデル生成部１０１及び通信部１０２に供給する。

　３Ｄモデル生成部１０１は、カメラ１０－１乃至１０－Ｎから供給される視点画像データに基づいて、視点画像内の被写体（演者）に対応する３Ｄモデルデータを生成し、通信部１０２に供給する。この３Ｄモデルデータは、実写の３Ｄモデルのデータとされる。

　通信部１０２は、カメラ１０－１乃至１０－Ｎから供給される視点画像データと、３Ｄモデル生成部１０１から供給される３Ｄモデルデータを、ネットワーク５０を介して配信サーバ３０に送信する。

　メタデータサーバ２０は、解析部２０１、メタデータ生成部２０２、及び通信部２０３から構成される。

　物理センサ２１－１は、イベント会場内の所定の場所に設置され、電気的又は磁気的な量などの物理量を検出し、その検出結果に応じたセンサデータをメタデータ生成部２０２に供給する。測距センサ２１－２は、イベント会場内の所定の場所に設置され、対象物までの距離の測定結果に応じたセンサデータをメタデータ生成部２０２に供給する。

　解析部２０１は、カメラ１０から供給される視点画像データを解析し、その解析結果に応じた解析データをメタデータ生成部２０２に供給する。なお、カメラ１０は、図１等に示したカメラ１０－１乃至１０－Ｎに限らず、イベント会場内の他の場所に設置されたカメラであってもよい。

　メタデータ生成部２０２は、物理センサ２１－１と測距センサ２１－２から供給されるセンサデータ、及び解析部２０１から供給される解析データに基づいて、メタデータを生成し、通信部２０３に供給する。

　メタデータ生成部２０２により生成されるメタデータとしては、視点画像の視点位置に関する情報や、視点画像内の被写体に関する情報などのメタ情報を含む。視点画像の視点位置に関する情報には、カメラ１０の位置、姿勢、画角に関する情報などが含まれる。視点画像内の被写体に関する情報には、被写体（演者）に対応した位置、姿勢に関する情報などが含まれる。

　通信部２０３は、メタデータ生成部２０２から供給されるメタデータを、ネットワーク５０を介して配信サーバ３０に送信する。

　カメラシステム１００から送信される視点画像データ及び３Ｄモデルデータと、メタデータサーバ２０から送信されるメタデータは、配信サーバ３０によって、ネットワーク５０を介して再生装置４０に送信される。

　なお、カメラシステム１００とメタデータサーバ２０で実行される処理の一部を、配信サーバ３０や外部サーバ（不図示）などが実行してもよい。例えば、３Ｄモデルデータを生成する処理が、配信サーバ３０又は外部サーバにより実行されても構わない。

　再生装置４０は、通信部４０１、画像処理部４０２、表示部４０３、入力部４０４、及び検出部４０５から構成される。

　通信部４０１は、無線LAN(Local Area Network)や、セルラー方式の通信（例えばLTE-Advancedや5G等）などの無線通信又は有線通信に対応した通信モジュールである。

　通信部４０１は、配信サーバ３０からネットワーク５０を介して配信される視点画像データ、３Ｄモデルデータ、及びメタデータを受信し、画像処理部４０２に供給する。また、通信部４０１は、測定サーバ（不図示）等からネットワーク５０の帯域情報を受信し、画像処理部４０２に供給する。帯域情報は、ネットワーク５０の帯域が常に同じ帯域ではないため、定期的に取得されるようにする。測定サーバは、ネットワーク５０に接続された機器からの要求に応じて、その時点でのネットワーク５０の帯域を測定し、帯域情報として提供するサーバである。

　画像処理部４０２は、VRコンテンツ等のコンテンツを再生するプレイヤである。画像処理部４０２は、視点画像処理部４１１、遷移計算部４１２、仮想画像生成部４１３、記憶部４１４、切替部４１５、及び再生部４１６を有する。視点画像処理部４１１、仮想画像生成部４１３、及び切替部４１５により、表示制御部４１０が構成される。

　視点画像処理部４１１は、通信部４０１から供給される視点画像データを処理して、ユーザの視点に応じた視点画像データを切替部４１５に供給する。

　遷移計算部４１２は、通信部４０１から供給されるメタデータ及び帯域情報と、検出部４０５から供給される端末位置情報に基づいて、切り替え前後の視点間を遷移する視点の遷移経路や遷移速度などを算出し、その算出結果を含む軌跡情報を仮想画像生成部４１３に供給する。

　仮想画像生成部４１３は、通信部４０１から供給される３Ｄモデルデータ及びメタデータと、遷移計算部４１２から供給される軌跡情報に基づいて、仮想画像データを生成し、切替部４１５に供給する。

　また、仮想画像生成部４１３は、仮想画像データを生成するに際して、記憶部４１４に記録された３Ｄキャラクタやステージマップなどのデータを用いることができる。記憶部４１４は、不揮発性メモリ等の半導体メモリを含む補助記憶装置である。記憶部４１４は、内部ストレージとして構成されてもよいし、メモリカード等の外部ストレージであってもよい。

　切替部４１５には、視点画像処理部４１１からの視点画像データと、仮想画像生成部４１３からの仮想画像データが供給される。切替部４１５は、視点画像データと仮想画像データを切り替えて、いずれか一方の画像データを再生部４１６に供給する。

　再生部４１６は、検出部４０５から供給されるユーザの視点情報に基づいて、切替部４１５から供給される視点画像データ又は仮想画像データを用いた再生処理を行い、視点画像又は仮想画像を表示部４０３に表示させる。表示部４０３は、OLED(Organic Light Emitting Diode)パネルや液晶パネル等を含むディスプレイである。

　入力部４０４は、物理的なボタンやタッチセンサなどから構成される。入力部４０４は、ユーザにより視点の切り替え操作が行われた場合、当該操作に応じた操作データを画像処理部４０２に供給する。画像処理部４０２では、入力部４０４から供給される操作データに応じて、視点切り替え処理が行われる。

　検出部４０５は、ジャイロセンサ等の各種センサによるセンシング機能や、アイトラッキング機能を有する。検出部４０５は、再生装置４０の位置に関する情報（端末位置情報）や、ユーザの視点の場所（見ている場所）に関する情報（視点情報）を検出し、画像処理部４０２に供給する。

　以上のように構成されるコンテンツ配信システム１における各装置間のデータの流れを、図９に示している。

　複数のカメラ１０により撮影された視点画像データ及びその３Ｄモデルデータと、メタデータサーバ２０により生成されたメタデータは、ネットワーク５０を介して配信サーバ３０に送信される（Ｓ１１，Ｓ１２）。

　配信サーバ３０は、再生装置４０からの要求に応じて、視点画像データを、ネットワーク５０を介して再生装置４０に送信する（Ｓ１３，Ｓ１４）。これにより、再生装置４０では、視点画像データに応じた視点画像が表示される。メタデータと３Ｄモデルデータは、所定の間隔で繰り返して送信したり、あるいは再生装置４０から要求されたときに送信したりするなど、任意のタイミングで送信される。

　再生装置４０では、入力部４０４からの操作データに基づき、視点の切り替えを行うかどうかが判定される（Ｓ１５）。例えば、ユーザにより視点の切り替え操作が行われ、視点の切り替えを行うと判定された場合（Ｓ１５の「Yes」）、処理は、ステップＳ１６に進められる。

　ステップＳ１６では、再生装置４０によって、視点切り替え処理が実行される。この視点切り替え処理の詳細は、図１０，図１１のフローチャートを参照して後述する。

（視点切り替え処理の流れ）
　まず、図１０のフローチャートを参照して、図９のステップＳ１６に対応した視点切り替え処理の第１の例を説明する。ただし、この第１の例では、配信サーバ３０から所定の間隔で送信されるメタデータ等が取得済みであるとする。

　ステップＳ１０１において、遷移計算部４１２は、ネットワーク５０の帯域情報が示す帯域量が所定値以下であるかを判定する。所定値は、予め定められた固定値、又は再生装置４０の処理能力（プロセッサの性能等）に応じた可変値とすることができる。

　ステップＳ１０１の判定処理で帯域量が所定値以下であると判定された場合、処理は、ステップＳ１０２に進められる。

　ステップＳ１０２において、遷移計算部４１２は、メタデータ、帯域情報、及び端末位置情報に基づいて、切り替え前後の視点間を移動する視点の遷移経路と遷移速度を算出する。例えば、上述した図６に示したように、ネットワーク５０の帯域情報に基づき、視点遷移ＴＲ３１又は視点遷移ＴＲ３２などが算出される。

　ステップＳ１０３において、仮想画像生成部４１３は、３Ｄモデルデータ、メタデータ、及び軌跡情報に基づいて、仮想画像データを生成する。例えば、上述した図６に示したように、視点遷移ＴＲ３１又は視点遷移ＴＲ３２に従い、切り替え前後の視点間を遷移する視点に応じた仮想画像ＶＩが生成される。

　なお、この仮想画像データを生成する際に用いるメタデータとしては、切り替え後の視点画像に関連するメタ情報と、切り替え前の視点画像に関連するメタ情報の両方を含めることは勿論、切り替え後の視点画像に関連するメタ情報が少なくとも含まれていればよい。

　ステップＳ１０４において、切替部４１５は、仮想画像生成部４１３により生成された仮想画像データを再生部４１６に供給して、表示部４０３に、仮想画像データに応じた仮想画像が表示されるように制御する。

　ステップＳ１０５において、切替部４１５は、切り替え準備が完了したかどうかを判定する。例えば、視点画像処理部４１１における視点画像データの処理状況などを監視することで、切り替え準備が完了したかどうかの判定を行うことができる。

　ステップＳ１０５の判定処理で切り替え準備が完了していないと判定された場合、処理は、ステップＳ１０２に戻り、それ以降の処理が繰り返される。すなわち、ステップＳ１０２乃至Ｓ１０５の処理が繰り返されることで、再生装置４０では仮想画像の表示が継続される。

　一方、ステップＳ１０５の判定処理で切り替え準備が完了したと判定された場合、処理は、ステップＳ１０６に進められる。ステップＳ１０６において、切替部４１５は、再生部４１６に供給される画像データを、仮想画像生成部４１３からの仮想画像データから、視点画像処理部４１１からの視点画像データに切り替える。

　これにより、再生装置４０では、視点画像データに応じた視点画像が表示され、仮想画像から切り替え後の視点画像に切り替えられる。

　また、ステップＳ１０１の判定処理で帯域量が所定値を超える場合には、帯域量を十分に確保できているため、ステップＳ１０２乃至Ｓ１０５の処理はスキップされ、処理は、ステップＳ１０６に進められる。この場合、再生装置４０では、仮想画像は表示されずに、直ちに、切り替え前の視点画像から、切り替え後の視点画像に切り替えられる。このとき、上述した図７に示した視点の遷移に関する情報（例えばイベント会場のマップ上に重畳された情報）が提示されてもよい。

　ステップＳ１０６の処理が終了すると、視点切り替え処理は終了する。

　次に、図１１のフローチャートを参照して、図９のステップＳ１６に対応した視点切り替え処理の第２の例を説明する。ただし、この第２の例では、第１の例のようにメタデータを常に取得するのではなく、ユーザにより視点切り替え操作が行われたときにメタデータを取得するもとする。

　ステップＳ２０１においては、図１０のステップＳ１０１と同様に、ネットワーク５０の帯域量が所定値以下であるかが判定され、当該帯域量が所定値以下である場合（Ｓ２０１の「Yes」）、処理は、ステップＳ２０２に進められる。

　ステップＳ２０２において、通信部４０１は、ネットワーク５０を介して配信サーバ３０にメタデータを要求することで、配信サーバ３０から送信されてくるメタデータを受信する。これにより、遷移計算部４１２は、通信部４０１からのメタデータを取得する。

　ステップＳ２０３において、遷移計算部４１２は、切り替え前後の視点間を遷移する視点の遷移経路と遷移速度を算出するが、算出時に用いられるメタデータが、直前のステップＳ２０２の処理で取得されたメタデータとなる。

　ステップＳ２０４乃至Ｓ２０７においては、図１０のステップＳ１０３乃至Ｓ１０６と同様に、生成された仮想画像が切り替え準備を完了するまで表示され、切り替え準備が完了したときに仮想画像から切り替え後の視点画像に切り替えられる。

　以上、視点切り替え処理の流れを説明した。この視点切り替え処理では、ネットワーク５０の帯域情報に応じて、メタデータと３Ｄモデルデータに基づいた仮想画像が生成され、切り替え後の視点画像を表示する前に、生成された仮想画像が表示されるように制御される。

　このような処理が行われることで、ユーザが視点の切り替え操作を行ってから、切り替え後の視点画像が表示できる状態になるまで、ネットワーク５０の帯域情報に応じた仮想画像が表示されるため、仮想画像を表示すべきタイミングで、より正確に仮想画像を表示する制御を行うことができる。

　すなわち、ユーザが再生装置４０を使用する環境によって、ネットワーク５０の帯域が異なるため、視点の切り替えに要する時間が変わるが、仮想画像を帯域情報に応じて生成することで、より正確に仮想画像を表示する制御を行うことができる。これにより、ユーザが視点の切り替え操作を行った場合に、より適切に視点の切り替えを行うことができる。

　また、ユーザは、仮想画像を視聴することで、切り替え後の視点がどこになるかを把握することできる。さらに、ユーザは、視点の切り替わりが完了するまでの時間を意識することなく、仮想画像を視聴することができる。

＜２．変形例＞

　上述した説明では、再生装置４０として、ヘッドマウントディスプレイを一例に説明したが、スマートフォンやタブレット端末などのモバイル機器や、ウェアラブル機器などであってもよい。なお、再生装置４０は、画像処理部４０２を有することから、画像処理装置であると捉えても構わない。また、再生装置４０で再生されるVRコンテンツは、コンテンツの一例であり、他のコンテンツであってもよい。

　上述した説明では、説明の都合上、メタデータサーバ２０がイベント会場側に設置される場合を例示したが、他の場所に設置されても構わない。例えば、メタデータサーバ２０をネットワーク５０上に設けて、センサ２１からのセンサデータが、ネットワーク５０を介してメタデータサーバ２０に受信されるようにしてもよい。

　また、センサ２１として、物理センサ２１－１と測距センサ２１－２を一例に説明したが、イベント会場内の空間情報や時間情報をセンシング可能なセンサであれば、他のセンサを用いても構わない。なお、上述した説明では、音楽コンサートの会場等のイベント会場で撮影されたVRコンテンツを配信する例を示したが、複数のカメラ１０を設置可能な環境であれば、イベント会場に限らず、建築物の内部や街中などの他の環境であってもよい。また、イベント会場は、音楽コンサートの会場に限らず、例えば、スポーツ等の競技を行う会場であってもよい。

＜３．コンピュータの構成＞

　上述した一連の処理（図１０，図１１に示した視点切り替え処理）は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、各装置のコンピュータにインストールされる。

　図１２は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータにおいて、CPU(Central Processing Unit)１００１、ROM(Read Only Memory)１００２、RAM(Random Access Memory)１００３は、バス１００４により相互に接続されている。バス１００４には、さらに、入出力インタフェース１００５が接続されている。入出力インタフェース１００５には、入力部１００６、出力部１００７、記憶部１００８、通信部１００９、及び、ドライブ１０１０が接続されている。

　入力部１００６は、マイクロフォン、キーボード、マウスなどよりなる。出力部１００７は、スピーカ、ディスプレイなどよりなる。記憶部１００８は、ハードディスクや不揮発性のメモリなどよりなる。通信部１００９は、ネットワークインタフェースなどよりなる。ドライブ１０１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体１０１１を駆動する。

　以上のように構成されるコンピュータでは、CPU１００１が、ROM１００２や記憶部１００８に記録されているプログラムを、入出力インタフェース１００５及びバス１００４を介して、RAM１００３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU１００１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体１０１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体１０１１をドライブ１０１０に装着することにより、入出力インタフェース１００５を介して、記憶部１００８にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して、通信部１００９で受信し、記憶部１００８にインストールすることができる。その他、プログラムは、ROM１００２や記憶部１００８に、予めインストールしておくことができる。

　ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。また、プログラムは、１のコンピュータ（プロセッサ）により処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。

　また、図１０，図１１に示した視点切り替え処理の各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれもシステムである。

　なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

　なお、本技術は、以下のような構成をとることができる。

（１）
　視点画像の送信に関する帯域情報に応じて、第１の視点画像に関連する視点画像関連情報と前記視点画像の被写体に対応するモデルデータに基づいた仮想画像を生成する仮想画像生成部と、
　前記第１の視点画像を表示する前に、生成した前記仮想画像を表示するように制御する表示制御部と
　を備える画像処理装置。
（２）
　前記視点画像関連情報は、前記視点画像の視点位置に関する情報と、前記視点画像内の被写体に関する情報を含む
　前記（１）に記載の画像処理装置。
（３）
　前記仮想画像生成部は、前記帯域情報が示す帯域量が所定値以下となる場合、前記仮想画像を生成する
　前記（１）又は（２）に記載の画像処理装置。
（４）
　前記所定値は、予め定められた固定値、又は前記仮想画像を表示する機器の処理能力に応じた可変値である
　前記（３）に記載の画像処理装置。
（５）
　前記仮想画像生成部は、前記第１の視点画像への切り替え前に表示されていた第２の視点画像に関連する視点画像関連情報に基づいて、前記仮想画像を生成する
　前記（１）乃至（４）のいずれかに記載の画像処理装置。
（６）
　前記仮想画像生成部は、前記第１の視点画像に応じた第１の視点位置に関する第１の視点位置情報と前記第２の視点画像に応じた第２の視点位置に関する第２の視点位置情報に基づいて、前記第１の視点位置と前記第２の視点位置により定められる軌跡情報に応じた前記仮想画像を生成する
　前記（５）に記載の画像処理装置。
（７）
　前記仮想画像生成部は、前記帯域情報に基づいて、前記軌跡情報を決定する
　前記（６）に記載の画像処理装置。
（８）
　前記帯域情報が示す帯域量と、前記軌跡情報が示す軌跡距離の長さとは、負の相関関係を有する
　前記（７）に記載の画像処理装置。
（９）
　前記表示制御部は、前記帯域情報に基づいて、前記仮想画像に応じた視点位置が、前記軌跡情報が示す軌跡上を移動する速度を調整する
　前記（７）又は（８）に記載の画像処理装置。
（１０）
　前記表示制御部は、前記帯域情報が示す帯域量が所定値を超える場合、前記仮想画像を非表示にして、前記第１の視点位置情報と前記第２の視点位置情報に応じたマップを表示する
　前記（６）に記載の画像処理装置。
（１１）
　前記表示制御部は、前記第１の視点画像の表示の準備が完了した場合、前記仮想画像から前記第１の視点画像に切り替える
　前記（１）乃至（１０）のいずれかに記載の画像処理装置。
（１２）
　前記視点画像関連情報は、前記被写体の生成情報を含み、
　前記モデルデータは、前記被写体と対応付けられた特定のキャラクタに関する画像である
　前記（１）乃至（１１）のいずれかに記載の画像処理装置。
（１３）
　前記仮想画像生成部は、前記仮想画像を表示する機器の処理能力に応じて２次元又は３次元の前記仮想画像を生成する
　前記（１２）に記載の画像処理装置。
（１４）
　前記視点画像関連情報は、所定の間隔又はユーザによる視点の切り替え指示に応じて取得される
　前記（１）乃至（１３）のいずれかに記載の画像処理装置。
（１５）
　前記視点画像関連情報に含まれる情報ごとに取得タイミングが異なる
　前記（１４）に記載の画像処理装置。
（１６）
　前記視点画像の視点位置に関する情報は、前記視点画像を撮影するカメラの位置、姿勢、及び画角に関する情報を含み、
　前記視点画像内の被写体に関する情報は、前記被写体に対応した位置及び姿勢に関する情報を含む
　前記（２）に記載の画像処理装置。
（１７）
　前記視点画像関連情報は、前記被写体が存在する空間に関する情報、及び前記空間に存在するオブジェクトに関する情報をさらに含む
　前記（１６）に記載の画像処理装置。
（１８）
　前記視点画像関連情報は、前記視点画像よりも高い信頼性を確保した帯域で送信される
　前記（１）乃至（１７）のいずれかに記載の画像処理装置。
（１９）
　画像処理装置が、
　視点画像の送信に関する帯域情報に応じて、第１の視点画像に関連する視点画像関連情報と前記視点画像の被写体に対応するモデルデータに基づいた仮想画像を生成し、
　前記第１の視点画像を表示する前に、生成した前記仮想画像を表示するように制御する
　画像処理方法。
（２０）
　コンピュータを、
　視点画像の送信に関する帯域情報に応じて、第１の視点画像に関連する視点画像関連情報と前記視点画像の被写体に対応するモデルデータに基づいた仮想画像を生成する仮想画像生成部と、
　前記第１の視点画像を表示する前に、生成した前記仮想画像を表示するように制御する表示制御部と
　して機能させるプログラム。
（２１）
　視点画像を撮影するカメラと前記視点画像の被写体に関する検出結果に応じたセンサデータに基づいて、第１の視点画像に関連する視点画像関連情報を生成する生成部を備え、
　前記第１の視点画像は、前記視点画像の送信に関する帯域情報に応じて前記視点画像関連情報と前記視点画像の被写体に対応するモデルデータに基づいた仮想画像を表示した後に表示される
　画像処理装置。
（２２）
　前記視点画像関連情報は、前記視点画像の視点位置に関する情報と、前記視点画像内の被写体に関する情報を含む
　前記（２１）に記載の画像処理装置。
（２３）
　前記視点画像の視点位置に関する情報は、前記視点画像を撮影するカメラの位置、姿勢、及び画角に関する情報を含み、
　前記視点画像内の被写体に関する情報は、前記被写体に対応した位置及び姿勢に関する情報を含む
　前記（２２）に記載の画像処理装置。

　１　コンテンツ配信システム，　１０，１０－１乃至１０－Ｎ　カメラ，　２０　メタデータサーバ，　２１　センサ，　２１－１　物理センサ，　２１－２　測距センサ，　３０　配信サーバ，　４０　再生装置，　５０，５０－１，５０－２　ネットワーク，　１００　カメラシステム，　１０１　３Ｄモデル生成部，　１０２　通信部，　２０１　解析部，　２０２　メタデータ生成部，　２０３　通信部，　４０１　通信部，　４０２　画像処理部，　４０３　表示部，　４０４　入力部，　４０５　検出部，　４１０　表示制御部，　４１１　視点画像処理部，　４１２　遷移計算部，　４１３　仮想画像生成部，　４１４　記憶部，　４１６　再生部，　１００１　CPU

Claims

　視点画像の送信に関する帯域情報に応じて、第１の視点画像に関連する視点画像関連情報と前記視点画像の被写体に対応するモデルデータに基づいた仮想画像を生成する仮想画像生成部と、
　前記第１の視点画像を表示する前に、生成した前記仮想画像を表示するように制御する表示制御部と
　を備える画像処理装置。
　前記視点画像関連情報は、前記視点画像の視点位置に関する情報と、前記視点画像内の被写体に関する情報を含む
　請求項１に記載の画像処理装置。
　前記仮想画像生成部は、前記帯域情報が示す帯域量が所定値以下となる場合、前記仮想画像を生成する
　請求項１に記載の画像処理装置。
　前記所定値は、予め定められた固定値、又は前記仮想画像を表示する機器の処理能力に応じた可変値である
　請求項３に記載の画像処理装置。
　前記仮想画像生成部は、前記第１の視点画像への切り替え前に表示されていた第２の視点画像に関連する視点画像関連情報に基づいて、前記仮想画像を生成する
　請求項１に記載の画像処理装置。
　前記仮想画像生成部は、前記第１の視点画像に応じた第１の視点位置に関する第１の視点位置情報と前記第２の視点画像に応じた第２の視点位置に関する第２の視点位置情報に基づいて、前記第１の視点位置と前記第２の視点位置により定められる軌跡情報に応じた前記仮想画像を生成する
　請求項５に記載の画像処理装置。
　前記仮想画像生成部は、前記帯域情報に基づいて、前記軌跡情報を決定する
　請求項６に記載の画像処理装置。
　前記帯域情報が示す帯域量と、前記軌跡情報が示す軌跡距離の長さとは、負の相関関係を有する
　請求項７に記載の画像処理装置。
　前記表示制御部は、前記帯域情報に基づいて、前記仮想画像に応じた視点位置が、前記軌跡情報が示す軌跡上を移動する速度を調整する
　請求項７に記載の画像処理装置。
　前記表示制御部は、前記帯域情報が示す帯域量が所定値を超える場合、前記仮想画像を非表示にして、前記第１の視点位置情報と前記第２の視点位置情報に応じたマップを表示する
　請求項６に記載の画像処理装置。
　前記表示制御部は、前記第１の視点画像の表示の準備が完了した場合、前記仮想画像から前記第１の視点画像に切り替える
　請求項１に記載の画像処理装置。
　前記視点画像関連情報は、前記被写体の生成情報を含み、
　前記モデルデータは、前記被写体と対応付けられた特定のキャラクタに関する画像である
　請求項１に記載の画像処理装置。
　前記仮想画像生成部は、前記仮想画像を表示する機器の処理能力に応じて２次元又は３次元の前記仮想画像を生成する
　請求項１２に記載の画像処理装置。
　前記視点画像関連情報は、所定の間隔又はユーザによる視点の切り替え指示に応じて取得される
　請求項１に記載の画像処理装置。
　前記視点画像関連情報に含まれる情報ごとに取得タイミングが異なる
　請求項１４に記載の画像処理装置。
　前記視点画像の視点位置に関する情報は、前記視点画像を撮影するカメラの位置、姿勢、及び画角に関する情報を含み、
　前記視点画像内の被写体に関する情報は、前記被写体に対応した位置及び姿勢に関する情報を含む
　請求項２に記載の画像処理装置。
　前記視点画像関連情報は、前記被写体が存在する空間に関する情報、及び前記空間に存在するオブジェクトに関する情報をさらに含む
　請求項１６に記載の画像処理装置。
　前記視点画像関連情報は、前記視点画像よりも高い信頼性を確保した帯域で送信される
　請求項１４に記載の画像処理装置。
　画像処理装置が、
　視点画像の送信に関する帯域情報に応じて、第１の視点画像に関連する視点画像関連情報と前記視点画像の被写体に対応するモデルデータに基づいた仮想画像を生成し、
　前記第１の視点画像を表示する前に、生成した前記仮想画像を表示するように制御する
　画像処理方法。
　コンピュータを、
　視点画像の送信に関する帯域情報に応じて、第１の視点画像に関連する視点画像関連情報と前記視点画像の被写体に対応するモデルデータに基づいた仮想画像を生成する仮想画像生成部と、
　前記第１の視点画像を表示する前に、生成した前記仮想画像を表示するように制御する表示制御部と
　して機能させるプログラム。