WO2023195056A1

WO2023195056A1 - 画像処理方法、ニューラルネットワークの学習方法、三次元画像表示方法、画像処理システム、ニューラルネットワークの学習システム、及び三次元画像表示システム

Info

Publication number: WO2023195056A1
Application number: PCT/JP2022/017069
Authority: WO
Inventors: 幸宏笹川
Original assignee: 株式会社ソシオネクスト
Priority date: 2022-04-04
Filing date: 2022-04-04
Publication date: 2023-10-12

Abstract

画像処理方法は、視点情報に基づく表示投影面上に複数の撮像画像を用いた自由視点画像を合成する画像処理方法であって、複数のカメラのそれぞれにより前記複数の撮像画像を取得する画像取得ステップと、前記複数の撮像画像と前記視点情報とを入力し、予め定義したボウル形状の既定投影面と前記表示投影面との差分を示す投影面の残差情報を機械学習により推定する残差推定ステップと、前記既定投影面に関する情報と前記残差情報と前記視点情報とを用いて、前記複数の撮像画像を前記表示投影面にマッピングして前記自由視点画像を得るマッピングステップと、をコンピュータが実行する。

Description

画像処理方法、ニューラルネットワークの学習方法、三次元画像表示方法、画像処理システム、ニューラルネットワークの学習システム、及び三次元画像表示システム

　本発明は、画像処理方法、ニューラルネットワークの学習方法、三次元画像表示方法、画像処理システム、ニューラルネットワークの学習システム、及び三次元画像表示システムに関する。

　複数のカメラで撮像した複数の撮像画像を用いて、自由に視点を移動して表示可能な三次元画像である自由視点画像を合成する画像処理システムが知られている。

　例えば、ボウル形状（すり鉢形状）の投影面を予め定義しておき、複数のカメラで撮像した映像を投影面にマッピングして、自由視点画像を合成する技術が知られている（非特許文献１参照）。また、ＬｉＤＡＲ（Laser Imaging Detection and Ranging）等の三次元のセンシングデバイスで測定した距離情報を用いて投影面を算出し、複数のカメラで撮像した映像を投影面にマッピングして、自由視点画像を合成する技術が知られている（非特許文献２参照）。

Seiya Shimizu, et.al, "Wraparound View System for Motor Vihicles", Fujitsu Scientific & Technical Journal 46(1):95-102, 2010. "世界初！車周辺の人や物を歪みなく表示し、接触のリスクをわかりやすく示す車載向け3次元映像合成技術を開発",富士通プレスリリース, 2013, [online] ,富士通,インターネット<URL: https://pr.fujitsu.com/jp/news/2013/10/9-2.html>,［平成４年３月２４日検索］

　非特許文献１に開示された技術では、予め定義した投影面と、実際の三次元構造との不一致により、投影面に投影した合成画像に歪みが発生するという問題がある。

　また、非特許文献２に開示された技術のように、ＬｉＤＡＲ等の三次元のセンシングデバイスを追加することにより、合成画像の歪みを抑制することができるが、三次元のセンシングデバイスの追加によりコストが増加するという問題がある。

　本発明の一実施形態は、上記の問題点に鑑みてなされたものであって、複数の撮像画像を用いて自由視点画像を合成する画像処理システムにおいて、三次元のセンシングデバイスによらずに、歪みの少ない自由視点画像を合成できるようにする。

　上記の課題を解決するため、本発明の一実施形態に係る画像処理方法は、視点情報に基づく表示投影面上に複数の撮像画像を用いた自由視点画像を合成する画像処理方法であって、複数のカメラのそれぞれにより前記複数の撮像画像を取得する画像取得ステップと、前記複数の撮像画像と前記視点情報とを入力し、予め定義したボウル形状の既定投影面と前記表示投影面との差分を示す投影面の残差情報を機械学習により推定する残差推定ステップと、前記既定投影面に関する情報と前記残差情報と前記視点情報とを用いて、前記複数の撮像画像を前記表示投影面にマッピングして前記自由視点画像を得るマッピングステップと、をコンピュータが実行する。

　本発明の一実施形態によれば、複数の撮像画像を用いて自由視点画像を合成する画像処理システムにおいて、三次元のセンシングデバイスによらずに、歪みの少ない自由視点画像を合成できるようになる。

一実施形態に係る画像処理システムのシステム構成の一例を示す図である。一実施形態に係る画像処理の概要について説明するための図である。一実施形態に係るコンピュータのハードウェア構成の例を示す図である。一実施形態に係る画像処理装置の機能構成の例を示す図である。一実施形態に係る画像処理の例を示すフローチャートである。第１の実施形態に係る学習処理の概要について説明するための図である。第１の実施形態に係る画像処理装置（学習時）の機能構成の例を示す図である。第１の実施形態に係る学習処理の例を示すフローチャートである。第２の実施形態に係る学習処理の概要について説明するための図である。第２の実施形態に係る画像処理装置（学習時）の機能構成の例を示す図である。第２の実施形態に係る学習処理の例を示すフローチャートである。第２の実施形態に係る残差情報の計算処理の例を示すフローチャートである。第３の実施形態に係る残差推定モデルの構成例を示す図である。第３の実施形態に係る画像処理装置の機能構成の一例を示す図である。第３の実施形態に係る学習処理の概要について説明するための図である。第３の実施形態に係る学習処理の例を示すフローチャート（１）である。第３の実施形態に係る学習処理の例を示すフローチャート（２）である。第４の実施形態に係る三次元画像表示システムのシステム構成の例を示す図である。第４の実施形態に係るエッジデバイスのハードウェア構成の例を示す図である。第４の実施形態に係る三次元画像表示システムの機能構成の例を示す図である。第４の実施形態に係る三次元画像表示処理の例を示すシーケンス図である。

　以下に、本発明の実施の形態について、添付の図面を参照して説明する。

　本実施形態に係る画像処理システムは、複数のカメラで撮像した複数の撮像画像を用いて、自由に視点を移動して表示可能な三次元画像である自由視点画像を合成するシステムである。本実施形態に係る画像処理システムは、例えば、自動車、ロボット、又はドローン等の移動体の周辺監視、或いは、ＡＲ（Augmented Reality）／ＶＲ（Virtual Reality）技術等に適用することができる。ここでは、一例として、本実施形態に係る画像処理システムが、例えば、自動車等の車両に設けられている場合の例について説明する。

　＜システム構成＞
　図１は、一実施形態に係る画像処理システムのシステム構成の例を示す図である。図１の例では、画像処理システム１００は、例えば、自動車等の車両１に搭載された画像処理装置１０、複数のカメラ１２、及び表示装置１６等を備えている。上記の各構成要素は、例えば、車載ネットワーク、有線ケーブル、又は無線通信等により通信可能に接続されている。

　なお、車両１は、本実施形態に係る画像処理システム１００を搭載する移動体の一例である。移動体は、車両１に限られず、例えば、脚等で移動するロボット、有人又は無人の航空機等の移動機能を有する様々装置、又は機械等であってもよい。

　カメラ１２は、車両１の周辺を撮像し、撮像画像を取得する撮像装置である。図１の例では、車両１には、４つのカメラ１２Ａ～１２Ｄが、互いに異なる撮像領域Ｅ１～Ｅ４に向けて設けられている。なお、以下の説明において、４つのカメラ１２Ａ～１２Ｄのうち、任意のカメラを示す場合、「カメラ１２」を用いる。また、４つの撮像領域Ｅ１～Ｅ４のうち、任意の撮像領域を示す場合、「撮像領域Ｅ」を用いる。図１に示すカメラ１２、及び撮像領域Ｅの数は一例であり、２つ以上の他の数であってもよい。

　図１の例では、一例として、カメラ１２Ａは、車両１の前方の撮像領域Ｅ１に向けて設けられており、カメラ１２Ｂは、車両１の側方の撮像領域Ｅ２に向けて設けられている。また、カメラ１２Ｃは、車両１の別の側方の撮像領域Ｅ３に向けて設けられ、カメラ１２Ｄは、車両１の後方の撮像領域Ｅ４に向けて設けられている。

　表示装置１６は、例えば、ＬＣＤ（Liquid Crystal Display）、又は有機ＥＬ（Electro-Luminescence）等の表示デバイス、又は各種の情報を表示する表示機能を備えた様々な装置、又はデバイスである。

　画像処理装置１０は、所定のプログラムの実行することにより、表示投影面上に、カメラ１２Ａ～１２Ｄで撮像した複数の撮像画像を用いた自由視点画像を合成する画像処理を実行するコンピュータである。自由視点画像は、複数のカメラで撮像した複数の撮像画像を用いて、自由に視点を移動して表示可能な三次元画像である。

　（処理の概要）
　図２は、一実施形態に係る画像処理の概要について説明するための図である。画像処理装置１０は、車両１の周囲に予め定義したボウル形状（又はすり鉢形状）の投影面（以下、既定投影面２３１と呼ぶ）の情報である投影面情報２３０を有している。

　また、画像処理装置１０は、複数のカメラ１２で車両１の周辺を撮像した複数の撮像画像２１０と、自由視点画像の視点を示す視点情報２４０とを残差推定モデルに入力して、機械学習により投影面の残差情報２２０を推定する（ステップＳ１）。ここで、残差推定モデルは、複数の撮像画像２１０と視点情報２４０とを入力データとして、自由視点画像を投影する投影面（以下、表示投影面と呼ぶ）と、既定投影面２３１との差分を示す投影面の残差情報２２０を出力する、学習済のニューラルネットワークである。

　さらに、画像処理装置１０は、既定投影面２３１の情報である投影面情報２３０と、残差情報２２０と、視点情報２４０とを用いて、複数の撮像画像２１０を表示投影面にマッピングした自由視点画像２５０を生成する（ステップＳ２）。ここで、残差情報２２０は、前述したように、表示投影面と既定投影面２３１との差分を示す情報なので、画像処理装置１０は、投影面情報２３０と残差情報２２０とから、表示投影面を算出することができる。

　なお、残差推定モデルは、複数の学習用の撮像画像と、視点情報２４０と、複数の学習用の撮像画像に映った１つ以上の立体物の三次元情報とから、既定投影面２３１と表示投影面との差分を推定するように、予め機械学習されている。

　従って、本実施形態によれば、複数の撮像画像２１０を用いて自由視点画像２５０を合成する画像処理システム１００において、三次元のセンシングデバイスによらずに、歪みの少ない自由視点画像を合成することができる。

　なお、図１に示した画像処理システム１００のシステム構成は一例である。例えば、
画像処理システム１００は、複数のカメラ１２、及び表示装置１６等を備え、ユーザが装着するＡＲゴーグル、又はＶＲゴーグル等のウェアラブルデバイス等であってもよい。

　＜ハードウェア構成＞
　画像処理装置１０は、例えば、図３に示すようなコンピュータ３００のハードウェア構成を備えている。

　図３は、一実施形態に係るコンピュータのハードウェア構成の例を示す図である。コンピュータ３００は、例えば、プロセッサ３０１、メモリ３０２、ストレージデバイス３０３、Ｉ／Ｆ（Interface）３０４、入力装置３０５、出力装置３０６、通信装置３０７、及びバス３０８等を有している。

　プロセッサ３０１は、例えば、ストレージデバイス３０３等の記憶媒体に記憶したプログラムを実行することにより、所定の処理を実行するＣＰＵ（Central Processing Unit）、及びＧＰＵ（Graphics Processing Unit）等の演算装置である。メモリ３０２は、例えば、プロセッサ３０１のワークエリア等として用いられる揮発性のメモリであるＲＡＭ（Random Access Memory）、及びプロセッサ３０１の起動用のプログラム等を記憶した不揮発性のメモリであるＲＯＭ（Read Only Memory）等を含む。ストレージデバイス３０３は、例えば、ＳＳＤ（Solid State Drive）、又はＨＤＤ（Hard Disk Drive）等の大容量の不揮発性の記憶装置である。Ｉ／Ｆ３０４は、例えば、カメラ１２、及び表示装置１６等の外部装置を、コンピュータ３００に接続するための様々なインタフェースを含む。

　入力装置３０５は、外部からの入力を受け付ける様々なデバイス（例えば、キーボード、タッチパネル、ポインティングデバイス、マイクロフォン、スイッチ、ボタン、又はセンサ等）を含む。出力装置２０６は、外部への出力を実施する様々なデバイス（例えば、ディスプレイ、スピーカ、インジケータ等）を含む。通信装置３０７は、有線又は無線のネットワークを介して、他の装置と通信を行うための様々な通信デバイスを含む。バス３０８は、上記の各構成要素に接続され、例えば、アドレス信号、データ信号、及び各種の制御信号等を伝送する。

　＜機能構成＞
　図４は、一実施形態に係る画像処理装置の機能構成の例を示す図である。画像処理装置１０は、例えば、図３のプロセッサ３０１で画像処理用のプログラムを実行することにより、画像取得部４０１、残差推定部４０２、マッピング部４０３、表示制御部４０４、設定部４０５、及び記憶部４０６等を実現している。なお、上記の各機能構成のうち、少なくとも一部は、ハードウェアによって実現されるものであってもよい。

　画像取得部４０１は、複数のカメラ１２のそれぞれにより複数の撮像画像２１０を取得する画像取得処理を実行する。例えば、画像取得部４０１は、複数のカメラ１２Ａ、１２Ｂ、１２Ｃ、１２Ｄで、車両１の周辺を撮像した複数の撮像画像２１０を取得する。

　残差推定部４０２は、画像取得部４０１が取得した複数の撮像画像２１０と、視点情報２４０とを入力して、予め定義したボウル形状の既定投影面２３１と表示投影面との差分を示す投影面の残差情報２２０を機械学習により推定する残差推定処理を実行する。

　好ましくは、残差推定部４０２は、複数の学習用の撮像画像と、視点情報２４０と、複数の学習用の撮像画像に映った１つ以上の立体物の三次元情報とから、既定投影面２３１と表示投影面との差分を推論するように学習させた残差推定モデル４１０を有する。残差推定モデル４１０は、複数の撮像画像２１０と視点情報２４０とを入力データとして、自由視点画像を投影する表示投影面と既定投影面２３１との差分を示す投影面の残差情報２２０を出力する、学習済のニューラルネットワーク（以下、ＮＮと呼ぶ）である。本実施形態では、複数の撮像画像２１０と視点情報２４０とを入力データとして、残差情報２２０を出力するＮＮのうち、学習済のＮＮを残差推定モデル４１０と呼ぶ。

　残差推定部４０２は、画像取得部４０１が取得した複数の撮像画像２１０と、視点情報２４０とを残差推定モデル４１０に入力し、残差推定モデル４１０が出力する残差情報２２０を取得する。ここで、視点情報２４０は、画像処理装置１０が生成する自由視点画像の視点を示す座標情報であり、例えば、直交座標、又は極座標等で表される。また、三次元情報は、例えば、ＬｉＤＡＲ（Laser Imaging Detection and Ranging）等の三次元のセンシングデバイスで測定した三次元の点群情報、又は深度情報を含むＤｅｐｔｈ画像等の車両１の周辺の物体の三次元の距離情報を含むデータである。

　マッピング部４０３は、既定投影面２３１に関する投影面情報２３０と、残差推定部４０２が推定した残差情報２２０とを用いて、取得した複数の撮像画像２１０を表示投影面にマッピングして自由視点画像２５０を得るマッピング処理を実行する。前述したように、残差情報２２０は、表示投影面と既定投影面２３１との差分を示す情報なので、マッピング部４０３は、既定投影面２３１の情報である投影面情報２３０と残差情報２２０とから、表示投影面を算出することができる。また、算出した表示投影面に複数の撮像画像をマッピングして自由視点画像２５０を得る処理は、例えば、非特許文献１、２等に示した公知の技術を適用することができる。

　表示制御部４０４は、マッピング部４０３が生成した自由視点画像２５０等を、表示装置１６等に表示させる表示制御処理を実行する。

　設定部４０５は、画像処理装置１０に、例えば、投影面情報２３０、視点情報２４０等の情報を設定する設定処理を実行する。

　記憶部４０６は、例えば、プロセッサ３０１が実行するプログラム、ストレージデバイス３０３、及びメモリ３０２等によって実現され、撮像画像２１０、投影面情報２３０、及び視点情報２４０等を含む様々な情報（又はデータ）を記憶する記憶処理を実行する。

　なお、図４に示した画像処理装置１０の機能構成は一例である。例えば、画像処理装置１０に含まれる各機能構成は、複数のコンピュータ３００に分散して設けられていてもよい。

　＜処理の流れ＞
　続いて、本実施形態に係る画像処理方法の処理の流れについて説明する。

　（画像処理）
　図５は、一実施形態に係る画像処理の例を示すフローチャートである。この処理は、図４で説明した画像処理装置１０が実行する、図２で説明した画像処理の具体的な一例を示している。

　ステップＳ５０１において、画像取得部４０１は、例えば、複数のカメラ１２を用いて、車両１の周辺を撮像した複数の撮像画像２１０を取得する。

　ステップＳ５０２において、残差推定部４０２は、画像取得部４０１が取得した複数の撮像画像２１０と、自由視点画像２５０の視点を示す視点情報２４０とを残差推定モデル４１０に入力して、投影面の残差情報２２０を推定する。

　ステップＳ５０３において、マッピング部４０３は、図２で説明した既定投影面２３１の情報である投影面情報２３０と、残差推定部４０２が推定した残差情報２２０とを用いて、複数の撮像画像２１０を投影する表示投影面を算出する。例えば、マッピング部４０３は、既定投影面２３１に残差情報２２０を反映することにより、表示投影面を算出する。

　ステップ５０４において、マッピング部４０３は、画像取得部４０１が取得した複数の撮像画像２１０を、表示投影面にマッピングして、自由視点画像２５０を生成する。

　ステップＳ５０５において、表示制御部４０４は、マッピング部４０３が生成した自由視点画像２５０を、表示装置１６等に表示する。

　図５の処理により、画像処理装置１０は、複数の撮像画像２１０を用いて自由視点画像２５０を合成する画像処理システム１００において、三次元のセンシングデバイスによらずに、歪みの少ない自由視点画像２５０を合成することができる。

　＜学習処理について＞
　続いて、残差推定モデル４１０を機械学習する学習処理について説明する。

　［第１の実施形態］
　（処理の概要）
　図６は、第１の実施形態に係る学習処理の概要について説明するための図である。この処理は、画像処理装置１０が、複数の撮像画像２１０と視点情報２４０とを入力データとして、残差情報２２０を出力するＮＮである残差学習モデルを機械学習する学習処理の一例を示している。なお、本実施形態では、複数の撮像画像２１０と視点情報２４０とを入力データとして、残差情報２２０を出力するＮＮのうち、学習前、又は学習中のＮＮを残差学習モデルと呼ぶ。また、学習処理を実行する画像処理装置１０は、図２～４で説明した画像処理を実行するコンピュータ３００と同じコンピュータであってもよいし、他のコンピュータであってもよい。

　画像処理装置１０は、複数のカメラ１２で撮像した複数の撮像画像２１０と、ＬｉＤＡＲ等の三次元センサで取得した三次元情報（例えば、三次元の点群情報、Ｄｅｐｔｈ画像等）を取得する。また、画像処理装置１０は、取得した三次元情報により、複数の撮像画像２１０の三次元画像を復元し、入力した視点情報２４０に基づいて、教師用の自由視点画像である教師用画像６０２を生成（レンダリング）する（ステップＳ１１）。

　また、画像処理装置１０は、複数の撮像画像２１０と視点情報２４０とを残差学習モデルに入力して、残差学習モデルが出力する残差情報（以下、学習用残差情報６０１と呼ぶ）を取得する（ステップＳ１２）。続いて、画像処理装置１０は、取得した学習用残差情報と、投影面情報２３０と、視点情報２４０とを用いて、複数の撮像画像２１０を表示投影面にマッピングして学習用の自由視点画像（以下、学習用画像６０３と呼ぶ）を生成する（ステップＳ１３）。

　さらに、画像処理装置１０は、生成した教師用画像６０２と学習用画像６０３との誤差が小さくなるように、残差学習モデル（ＮＮ）を学習する（ステップＳ１４）。

　＜機能構成＞
　図７は、第１の実施形態に係る画像処理装置（学習時）の機能構成の例を示す図である。画像処理装置１０は、例えば、図３のプロセッサ３０１で、学習処理用のプログラムを実行することにより、撮像画像準備部７０１、三次元情報準備部７０２、教師用画像準備部７０３、学習部７０４、設定部７０５、及び記憶部７０６等を実現している。なお、上記の各機能構成のうち、少なくとも一部は、ハードウェアによって実現されるものであってもよい。

　撮像画像準備部７０１は、複数のカメラ１２のそれぞれで撮像した学習用の複数の撮像画像２１０を準備する撮像画像準備処理を実行する。なお、撮像画像準備部７０１は、複数のカメラ１２を用いて、複数の撮像画像２１０をリアルタイムに取得してもよいし、予め撮像して記憶部７０６等に記憶した撮像画像７１１から、学習処理に必要な複数の撮像画像２１０を取得してもよい。

　三次元情報準備部７０２は、撮像画像準備部７０１が準備する学習用の複数の撮像画像２１０に対応する三次元情報（例えば、三次元の点群情報、又はＤｅｐｔｈ画像等）を取得する三次元情報準備処理を実行する。一例として、三次元情報準備部７０２は、ＬｉＤＡＲ７０７等の三次元センサを用いて、複数の撮像画像２１０の撮像と同じタイミングで（同期して）、車両１の周辺の三次元の点群情報を取得する。なお、三次元情報準備部７０２は、例えば、ステレオカメラ、深度画像を撮像する深度カメラ、又は無線センシングデバイス等の他の三次元センサを利用して、三次元情報を取得してもよい。

　別の一例として、三次元情報準備部７０２は、記憶部７０６等に記憶した学習用の複数の撮像画像２１０に、例えば、ＶｉｓｕａｌＳＬＡＭ（Simultaneous Localization and Mappin）等の技術を用いて、周辺立体物の位置を示す三次元情報を取得しても良い。要するに、三次元情報準備部７０２は、撮像画像準備部７０１が準備する学習用の複数の撮像画像２１０と同期した、車両１の周辺の立体物の位置を示す三次元情報を準備するものであればよく、その方法は任意の方法であってよい。

　教師用画像準備部７０３は、三次元情報準備部７０２が準備した三次元情報により複数の撮像画像２１０の三次元画像を復元し、視点情報２４０に基づいて教師用の自由視点画像である教師用画像６０２を生成（レンダリング）する教師用画像準備処理を実行する。

　学習部７０４は、複数の撮像画像２１０と、視点情報２４０と、投影面情報２３０と、教師用画像６０２とを用いて、残差学習モデル（ＮＮ）７１０を学習する学習処理を実行する。例えば、学習部７０４は、複数の撮像画像２１０と視点情報２４０とを残差学習モデル（ＮＮ）７１０に入力して学習用残差情報６０１を取得し、学習用残差情報６０１と、投影面情報２３０とを用いて、学習用の表示投影面を算出する。また、学習部７０４は、視点情報２４０を用いて、複数の撮像画像２１０を算出した表示投影面にマッピングして、学習用の自由視点画像である学習用画像６０３を生成する。さらに、学習部７０４は、生成した教師用画像６０２と学習用画像６０３との誤差が小さくなるように、残差学習モデル（ＮＮ）７１０を学習する。

　設定部７０５は、画像処理装置１０に、例えば、投影面情報２３０、視点情報２４０等の様々な情報を設定する設定処理を実行する。

　記憶部７０６は、例えば、プロセッサ３０１が実行するプログラム、ストレージデバイス３０３、及びメモリ３０２等によって実現され、撮像画像７１１、三次元情報７１２、投影面情報２３０、及び視点情報２４０等の様々な情報（又はデータ）を記憶する。

　なお、図７に示した画像処理装置１０の機能構成は一例である。例えば、画像処理装置１０に含まれる各機能構成は、複数のコンピュータ３００に分散して設けられていてもよい。

　＜処理の流れ＞
　続いて、第１の実施形態に係るニューラルネットワークの学習方法の処理の流れについて説明する。

　図８は、第１の実施形態に係る学習処理の例を示すフローチャートである。この処理は、図７で説明した画像処理装置１０が実行する、図６で説明した学習処理の具体的な一例を示している。

　ステップＳ８０１ａにおいて、撮像画像準備部７０１は、複数のカメラ１２のそれぞれで撮像した学習用の複数の撮像画像２１０を準備する。例えば、撮像画像準備部７０１は、複数のカメラ１２を用いて、車両１の周辺を撮像した複数の撮像画像２１０を取得する。

　ステップＳ８０１ｂにおいて、三次元情報準備部７０２は、撮像画像準備部７０１が準備する学習用の複数の撮像画像２１０に対応する三次元情報を取得する。例えば、三次元情報準備部７０２は、撮像画像準備部７０１と同期して、同時刻の車両１の周辺の三次元情報（例えば、三次元の点群情報）を取得する。

　ステップＳ８０２において、画像処理装置１０は、学習する視点を示す視点情報２４０を準備する。例えば、設定部７０５は、残差学習モデル７１０に学習する視点の座標を、視点情報２４０に設定する。

　ステップＳ８０３において、教師用画像準備部７０３は、三次元情報準備部７０２が準備した三次元情報により複数の撮像画像２１０の三次元画像を復元し、視点情報２４０に基づいて教師用画像６０２を生成（レンダリング）する。

　ステップＳ８０４において、学習部７０４は、ステップＳ８０３の処理と並行して、複数の撮像画像２１０と視点情報２４０とを残差学習モデル（ＮＮ）７１０に入力して学習用残差情報６０１を取得する。

　ステップＳ８０５において、学習部７０４は、学習用残差情報６０１と投影面情報２３０とから表示投影面を算出し、視点情報２４０に基づいて、複数の撮像画像２１０を表示投影面にマッピングして学習用画像６０３を生成する。

　ステップＳ８０６において、学習部７０４は、生成した教師用画像６０２と学習用画像６０３との差が最小となるように、残差学習モデル７１０を学習する。例えば、学習部７０４は、２つの画像の差（例えば、全画素の画素値の差の合計）が最小となる残差学習モデル７１０の重みを求め、求めた重みを残差学習モデル７１０に設定する。

　ステップＳ８０７において、学習部７０４は、学習終了か否かを判断する。例えば、学習部７０４は、ステップＳ８０１～Ｓ８０６の処理を所定の回数実行したときに、学習終了と判断してもよい。或いは、学習部７０４は、教師用画像６０２と学習用画像６０３との差が所定値以下となったときに、学習終了と判断してもよい。

　学習終了していない場合、学習部７０４は、処理をステップＳ８０１ａ、Ｓ８０１ｂに戻す。一方、学習終了した場合、学習部７０４は、図８の処理を終了する。

　図４で説明した画像処理装置１０は、図８の処理で学習したＮＮ（残差学習モデル７１０）を、残差推定モデル４１０として、図５で説明した画像処理を実行することができる。

　［第２の実施形態］
　（処理の概要）
　図９は、第２の実施形態に係る学習処理の概要について説明するための図である。この処理は、画像処理装置１０が、複数の撮像画像２１０と視点情報２４０とを入力データとして、残差情報２２０を出力するＮＮである残差学習モデルを機械学習する学習処理の別の一例を示している。なお、ここでは、第１の実施形態と同様の処理に対する詳細な説明は省略する。

　画像処理装置１０は、複数の撮像画像２１０と、投影面情報２３０と、視点情報２４０とを用いて、既定投影面２３１に複数の撮像画像２１０をマッピングした無修正の自由視点画像（以下、無修正画像９０１と呼ぶ）を生成する（ステップＳ２１）。

　また、画像処理装置１０は、三次元情報を取得し、取得した三次元情報により複数の撮像画像２１０を復元し、視点情報２４０に基づいて、教師用の自由視点画像である教師用画像６０２を生成（レンダリング）する（ステップＳ２２）。

　また、画像処理装置１０は、生成した無修正画像９０１と教師用画像６０２とを比較して、２つの画像の残差情報を求める（ステップＳ２３）。さらに、画像処理装置１０は、複数の撮像画像２１０と視点情報２４０とを残差学習モデル７１０に入力して、学習用残差情報６０１を取得する（ステップＳ２４）。続いて、画像処理装置１０は、２つの画像の残差情報と、学習用残差情報６０１との差が最小となるように、残差学習モデル７１０を学習する（ステップＳ２５）。

　＜機能構成＞
　図１０は、第２の実施形態に係る画像処理装置（学習時）の機能構成の例を示す図である。図１０に示すように、第２の実施形態に係る画像処理装置１０は、図７で説明した第１の実施形態に係る画像処理装置１０の機能構成に加えて、無修正画像準備部１００１、及び残差計算部１００２を有している。また、学習部７０４は、図９で説明したように、第１の実施形態とは異なる学習処理を実行する。

　無修正画像準備部１００１は、例えば、プロセッサ３０１が実行するプログラムによって実現される。無修正画像準備部１００１は、複数の撮像画像２１０と、投影面情報２３０と、視点情報２４０とを用いて、既定投影面２３１に複数の撮像画像２１０をマッピングした無修正画像９０１を生成する無修正画像準備処理を実行する。

　残差計算部１００２は、例えば、プロセッサ３０１が実行するプログラムによって実現され、生成した無修正画像９０１と教師用画像６０２とを比較して、２つの画像の残差情報を計算する残差計算処理を実行する。

　第２の実施形態に係る学習部７０４は、残差計算部１００２が計算する２つの画像の残差情報と、残差学習モデル７１０が出力する学習用残差情報６０１との差が最小となるように、残差学習モデル７１０を学習する学習処理を実行する。

　なお、上記以外の機能構成は、図７で説明した第１の実施形態に係る画像処理装置１０の機能構成を同様なので、ここでは説明を省略する。

　＜処理の流れ＞
　続いて、第２の実施形態に係るニューラルネットワークの学習方法の処理の流れについて説明する。

　図１１は、第２の実施形態に係る学習処理の例を示すフローチャートである。この処理は、図１０で説明した画像処理装置１０が実行する、図９で説明した学習処理の具体的な一例を示している。なお、図１１に示す処理のうち、ステップＳ８０１ａ、Ｓ８０１ｂ、Ｓ８０２の処理は、図８で説明した第１の実施形態に係る学習処理と同様なので、ここでは説明を省略する。

　ステップＳ１１０１において、無修正画像準備部１００１は、複数の撮像画像２１０と、投影面情報２３０と、視点情報２４０とを用いて、既定投影面２３１に複数の撮像画像２１０をマッピングした無修正画像９０１を生成する。

　ステップＳ１１０２において、教師用画像準備部７０３は、三次元情報準備部７０２が準備した三次元情報により複数の撮像画像２１０の三次元画像を復元し、視点情報２４０に基づいて教師用画像６０２を生成（レンダリング）する。

　ステップＳ１１０３において、残差計算部１００２は、生成した無修正画像９０１と教師用画像６０２とを比較して、２つの画像の残差情報を計算する。

　ステップＳ１１０４において、学習部７０４は、例えば、ステップＳ１１０１～Ｓ１１０３の処理と並行して、複数の撮像画像２１０と視点情報２４０とを残差学習モデル（ＮＮ）７１０に入力して学習用残差情報６０１を取得する。

　ステップＳ１１０５において、学習部７０４は、残差計算部１００２が計算した２つの画像の残差情報と、学習用の残差情報との２つの残差情報の差が最小となるように、残差学習モデル７１０を学習する。例えば、学習部７０４は、２つの残差情報の差が最小となる残差学習モデル７１０の重みを求め、求めた重みを残差学習モデル７１０に設定する。

　ステップＳ１１０６において、学習部７０４は、学習終了か否かを判断する。学習終了していない場合、学習部７０４は、処理をステップＳ８０１ａ、Ｓ８０１ｂに戻す。一方、学習終了した場合、学習部７０４は、図１１の処理を終了する。

　図４で説明した画像処理装置１０は、図１１の処理で学習したＮＮ（残差学習モデル７１０）を、残差推定モデル４１０として、図５で説明した画像処理を実行することができる。

　（残差情報の計算処理）
　図１２は、第２の実施形態に係る残差情報の計算処理の例を示すフローチャートである。この処理は、例えば、図１１のステップＳ１１０３において、残差計算部１００２が実行する残差情報の計算処理の一例を示している。

　ステップＳ１２０１にいて、残差計算部１００２は、無修正画像９０１と教師用画像６０２の各画素の差分（例えば、各画素の画素値の差）を算出する。

　ステップＳ１２０２において、残差計算部１００２は、算出した差分が所定値以下であるか否かを判断する。差分が所定値以下である場合、残差計算部１００２は、処理をステップＳ１２０７に移行させて、現在の投影面残差を２つの画像の残差情報とする。一方、差分が所定値以下でない場合、残差計算部１００２は、処理をステップＳ１２０３に移行させる。

　ステップＳ１２０３に移行すると、残差計算部１００２は、差分が大きい画像上の場所を取得し、対応する投影面の座標を取得する。

　ステップＳ１２０４において、残差計算部１００２は、取得した座標付近で差分が小さくなるような、投影面の残差情報を設定する。

　ステップＳ１２０５において、残差計算部１００２は、設定した残差情報を反映して、自由視点画像を生成する。

　ステップＳ１２０６において、残差計算部１００２は、生成した自由視点画像、及び教師用画像の各画素値の差分を算出して、処理をステップＳ１２０２に戻す。

　残差計算部１００２は、図１２の処理を、２つの画像の各画素値の差分が所定値以下になるまで繰り返し実行することにより、２つの画像の残差情報を求めることができる。ただし、残差計算部１００２が、２つの画像の残差情報を求める方法はこれに限られない。

　なお、第１の実施形態に係る学習処理は、画像誤差を起点に誤差逆伝搬法（バックプロパゲーション）を用いて、残差学習モデル７１０を学習（重みを更新）するという流れになる。その前提として、残差計算過程において、各計算が学習系において微分可能な手順になっている必要がある。

　一方、第２の実施形態に係る学習処理は、２つの画像の残差情報を直接用いて、残差学習モデル７１０を学習することになるので、残差計算過程が微分可能な手順でなくても良いというメリットが得られる。

　開発者等は、例えば、教師データとして直接的な画像を用いることができるというメリットを取るか、誤差逆伝搬法の条件を緩和できるというメリットを取るかにより、第１の実施形態、又は第２の実施形態に係る学習処理を選択することができる。

　［第３の実施形態］
　第３の実施形態では、残差推定モデル４１０、及び残差学習モデルの好適な構成例について説明する。

　図１３は、第３の実施形態に係る残差推定モデルの構成例を示す図である。残差推定モデル４１０は、複数のカメラ特性補正モデル１３０１－１、１３０１－２、１３０１－３、・・・と、各カメラ特性補正モデルに共通のベースモデル１３０２とに分離した形で構成してもよい。なお、以下の説明において、複数のカメラ特性補正モデル１３０１－１、１３０１－２、１３０１－３、・・・のうち、任意のカメラ補正モデルを示す場合、「カメラ特性補正モデル１３０１」を用いる。

　この場合、画像処理装置１０は、例えば、ユーザによる設定に応じて、カメラ特性補正モデル１３０１を切り替える。具体的には、ユーザＡＰＩ（Application Programming Interface）には、カメラ特性補正モデル１３０１を指定する引数を設け、ユーザＳＤＫには、当該引数と連動して参照される複数のカメラ特性補正モデル１３０１が定義されたデータベースを設ける。

　カメラ特性補正モデル１３０１は、残差推定モデル４１０の主に画像入力に近いネットワーク部分であり、カメラ特性パラメータ（焦点距離等）に敏感な重みデータを学習する。カメラ特性補正モデル１３０１は、複数の学習用撮像画像と、複数の学習用撮像画像に映った１つ以上の立体物の三次元情報とから、当該立体物の特徴点の特徴マップ情報を推論するように学習させたカメラモデル推論エンジンの一例である。

　ベースモデル１３０２は、カメラ特性パラメータに影響し難い、各カメラ特性補正モデル１３０１に共通の重みデータを学習する。ベースモデル１３０２は、カメラ特性補正モデル１３０１が出力する特徴マップ情報と視点情報２４０とから、既定投影面２３１と表示投影面との差分を推論するように学習させたベースモデル推論エンジンの一例である。

　なお、残差推定モデル４１０は、複数のカメラモデル推論エンジンと、ベースモデル推論エンジンとに分離した形で構成される推論エンジンの一例である。カメラモデル推論エンジンの学習後の重みデータは、ベースモデル推論エンジンの学習後の重みデータに比べて、複数のカメラの特性パラメータの影響が大きい。

　＜機能構成＞
　図１４は、第３の実施形態に係る画像処理装置の機能構成の一例を示す図である。図１４に示すように、第３の実施形態に係る画像処理装置１０は、図４で説明した一実施形態に係る画像処理装置１０の機能構成に加えて、記憶部４０６に補正モデルＤＢ（Database）１４０１を記憶している。

　補正モデルＤＢ１４０１は、複数のカメラ特性補正モデル１３０１－１、１３０１－２、１３０１－３、・・・が定義されたデータベースである。

　例えば、設定部４０５は、カメラセットの設定画面を表示して、ユーザによるカメラセットの設定を受け付けると、受け付けたカメラセットに対応するカメラ特性補正モデル１３０１を、補正モデルＤＢ１４０１から取得する。また、設定部４０５は、取得したカメラ特性補正モデル１３０１を、残差推定モデル４１０に設定する。

　これにより、画像処理装置１０は、例えば、ユーザが第１のカメラセットを設定すると、第１のカメラセットに対応するカメラ特性補正モデル１３０１－１とベースモデル１３０２とを含む残差推定モデル４１０を用いて、図５で説明した画像処理を実行する。同様に、画像処理装置１０は、例えば、ユーザが第２のカメラセットを設定すると、第２のカメラセットに対応するカメラ特性補正モデル１３０１－２とベースモデル１３０２とを含む残差推定モデル４１０を用いて、図５で説明した画像処理を実行する。

　＜学習処理＞
　続いて、第３の実施形態に係る学習処理について説明する。

　（処理の概要）
　図１５、第３の実施形態に係る学習処理の概要について説明するための図である。画像処理装置１０は、第１の学習処理として、１番目のカメラ特性補正モデル１３０１－１と、ベースモデル１３０２とを学習する（ステップＳ３１）。

　また、画像処理装置１０は、第２の学習処理として、２番目のカメラ特性補正モデル１３０１－２を、第１の学習処理で学習したベースモデル１３０２と組み合わせて、カメラ特性補正モデル１３０２－２を学習する（ステップＳ３２）。

　同様にして、画像処理装置１０は、第ｎの学習処理として、ｎ番目のカメラ特性補正モデル１３０１―ｎを、第１の学習処理で学習したベースモデル１３０２と組み合わせて、カメラ特性補正モデル１３０１－ｎを学習することができる。

　（学習処理１）
　図１６は、第３の実施形態に係る学習処理の例を示すフローチャート（１）である。この処理は、図７で説明した第１の実施形態に係る画像処理装置１０に、第３の実施形態を適用した場合の学習処理の例を示している。なお、ここでは、第１の実施形態と同様の処理に対する詳細な説明は省略する。

　ステップＳ１６０１において、画像処理装置１０は、カウンタｎを１に初期化して、ステップＳ１６０２の処理を実行する。

　ステップＳ１６０２において、画像処理装置１０は、１番目のカメラ特性補正モデル１３０１―１と、ベースモデル１３０２とを含む残差学習モデル７１０を、図８で説明した第１の実施形態に係る学習処理で学習する。

　例えば、図８のフローチャートを参照して、ステップＳ８０１ａにおいて、撮像画像準備部７０１は、第１の複数のカメラ（第１のカメラセット）１２のそれぞれにより第１の複数の撮像画像を準備する第１の撮像画像準備処理を実行する。

　ステップＳ８０１ｂにおいて、三次元情報準備部７０２は、第１の複数の撮像画像に映った１つ以上の立体物の第１の三次元情報を準備する第１の三次元情報準備処理を実行する。

　ステップＳ８０３において、教師用画像準備部７０３は、第１の三次元情報により第１の複数の撮像画像の三次元画像を復元し、入力した視点情報に基づいて第１の教師用画像を生成する第１の教師用画像準備処理を実行する。

　ステップＳ８０４において、学習部７０４は、第１の複数の撮像画像と、第１の複数のカメラ１２のうちの少なくとも１つのカメラ１２に関する特性パラメータとを、第１のカメラ特性補正モデル１３０１―１に入力して第１の学習用残差情報を取得する。

　ステップＳ８０５において、学習部７０４は、第１の学習用残差情報と、投影面情報２３第１の学習用画像を生成する。

　ステップＳ８０６において、学習部７０４は、第１の教師用画像と第１の学習用画像との誤差が小さくなるように、カメラ特性補正モデル１３０１―１、及びベースモデル１３０２の両方を学習させる。

　ここで、図１６に戻り、ステップＳ１６０３以降の処理について説明する。ステップＳ１６０３において、画像処理装置１０は、ｎ≦Ｎ（Ｎは、カメラ特性補正モデル１３０１の数）であるか否かを判断する。ｎ≦Ｎでない場合、画像処理装置１０は、処理をステップＳ１６０４に移行させる。一方、ｎ≦Ｎである場合、画像処理装置１０は、図１６の学習処理を終了する。

　ステップＳ１６０４に移行すると、画像処理装置１０は、ｎに１を加算して、ステップＳ１６０５の処理を実行する。

　ステップＳ１６０５において、画像処理装置１０は、ベースモデル１３０２を固定して、図８で説明した第１の実施形態に係る学習処理で、ｎ番目のカメラ特性補正モデルを学習し、処理をステップＳ１６０３に戻す。

　例えば、ｎ＝２である場合、図８のフローチャートを参照して、ステップＳ８０１ａにおいて、撮像画像準備部７０１は、第２の複数のカメラ（第２のカメラセット）１２のそれぞれにより第２の複数の撮像画像を準備する第２の撮像画像準備処理を実行する。

　ステップＳ８０１ｂにおいて、三次元情報準備部７０２は、第２の複数の撮像画像に映った１つ以上の立体物の第２の三次元情報を準備する第２の三次元情報準備処理を実行する。

　ステップＳ８０３において、教師用画像準備部７０３は、第２の三次元情報により第２の複数の撮像画像の三次元画像を復元し、入力した視点情報に基づいて第２の教師用画像を生成する第２の教師用画像準備処理を実行する。

　ステップＳ８０４において、学習部７０４は、第２の複数の撮像画像と、第２の複数のカメラ１２のうちの少なくとも１つのカメラ１２に関する特性パラメータとを、第２のカメラ特性補正モデル１３０１―２に入力して第２の学習用残差情報を取得する。

　ステップＳ８０５において、学習部７０４は、第２の学習用残差情報と、投影面情報２３０と、視点情報２４０とを用いて、第２の複数の撮像画像を表示投影面にマッピングして第２の学習用画像を生成する。

　ステップＳ８０６において、学習部７０４は、第２の教師用画像と第２の学習用画像との誤差が小さくなるように、ベースモデル１３０２を固定して、カメラ特性補正モデル１３０１―２を学習させる。

　図１６に示した学習処理により、画像処理装置１０は、図１３に示すような、複数のカメラ特性補正モデル１３０１－１、１３０１－２、１３０２－３、・・・と、ベースモデル１３０２とを含む残差推定モデル４１０を得ることができる。

　（学習処理２）
　図１７は、第３の実施形態に係る学習処理の例を示すフローチャート（２）である。この処理は、図１０で説明した第２の実施形態に係る画像処理装置１０に、第３の実施形態を適用した場合の学習処理の例を示している。なお、ここでは、第２の実施形態と同様の処理に対する詳細な説明は省略する。

　ステップＳ１７０１において、画像処理装置１０は、カウンタｎを１に初期化して、ステップＳ１７０２の処理を実行する。

　ステップＳ１７０２において、画像処理装置１０は、１番目のカメラ特性補正モデル１３０１―１と、ベースモデル１３０２とを含む残差学習モデル７１０を、図１１で説明した第２の実施形態に係る学習処理で学習する。

　例えば、図１１のフローチャートを参照して、ステップＳ８０１ａにおいて、撮像画像準備部７０１は、第１の複数のカメラ（第１のカメラセット）１２のそれぞれにより第１の複数の撮像画像を準備する第１の撮像画像準備処理を実行する。

　ステップＳ１１０１において、無修正画像準備部１１０１は、第１の複数の撮像画像を既定投影面にマッピングし、入力した視点情報に基づいて第１の無修正画像を生成する第１の無修正画像準備処理を実行する。

　ステップＳ１１０２において、教師用画像準備部７０３は、第１の三次元情報により第１の複数の撮像画像の三次元画像を復元し、入力した視点情報２４０に基づいて第１の教師用画像を生成する第１の教師用画像準備処理を実行する。

　ステップＳ１１０３において、残差計算部１００２は、第１の無修正画像と第１の教師用画像とを比較して第１の残差情報を準備する第１の残差計算処理を実行する。

　ステップＳ１１０４において、学習部７０４は、第１の複数の撮像画像と視点情報２４０とを、学習中の残差学習モデル７１０に入力して、第１の学習用残差情報を取得する。具体的には、学習部７０４は、第１の複数の撮像画像および第１の複数のカメラのうちの少なくとも１つのカメラに関する特性パラメータを第１のカメラ特性補正モデル１３０１－１に入力して、第１の特徴マップ情報を取得する。また、学習部７０４は、取得した第１の特徴マップ情報と、視点情報２４０とをベースモデル１３０２に入力して、第１の学習用の残差情報を取得する。

　ステップＳ１１０５において、学習部７０４は、残差計算部１００２が計算した第１の残差情報と、第１の学習用の残差情報との２つの残差情報の差が最小となるように、残差学習モデル７１０を学習する。このように、学習部７０４は、第１の残差情報を教師データとして、第１のカメラ特性補正モデル１３０１－１とベースモデル１３０２の両方を同時に学習させる。

　ここで、図１７に戻り、ステップＳ１７０３以降の処理について説明する。ステップＳ１７０３において、画像処理装置１０は、ｎ≦Ｎ（Ｎは、カメラ特性補正モデル１３０１の数）であるか否かを判断する。ｎ≦Ｎでない場合、画像処理装置１０は、処理をステップＳ１７０４に移行させる。一方、ｎ≦Ｎである場合、画像処理装置１０は、図１７の学習処理を終了する。

　ステップＳ１７０４に移行すると、画像処理装置１０は、ｎに１を加算して、ステップＳ１７０５の処理を実行する。

　ステップＳ１７０５において、画像処理装置１０は、ベースモデル１３０２を固定して、図１１で説明した第２の実施形態に係る学習処理で、ｎ番目のカメラ特性補正モデルを学習し、処理をステップＳ１７０３に戻す。

　例えば、ｎ＝２である場合、図１１のフローチャートを参照して、ステップＳ８０１ａにおいて、撮像画像準備部７０１は、第２の複数のカメラ（第２のカメラセット）１２のそれぞれにより第２の複数の撮像画像を準備する第２の撮像画像準備処理を実行する。

　ステップＳ１１０１において、無修正画像準備部１１０１は、第２の複数の撮像画像を既定投影面２３１にマッピングし、入力した視点情報２４０に基づいて第２の無修正画像を生成する第２の無修正画像準備処理を実行する。

　ステップＳ１１０２において、教師用画像準備部７０３は、第２の三次元情報により第２の複数の撮像画像の三次元画像を復元し、入力した視点情報２４０に基づいて第２の教師用画像を生成する第２の教師用画像準備処理を実行する。

　ステップＳ１１０３において、残差計算部１００２は、第２の無修正画像と２１の教師用画像とを比較して第２の残差情報を準備する第２の残差計算処理を実行する。

　ステップＳ１１０４において、学習部７０４は、第２の複数の撮像画像と視点情報２４０とを、学習中の残差学習モデル７１０に入力して、第２の学習用残差情報を取得する。具体的には、学習部７０４は、第２の複数の撮像画像および第２の複数のカメラのうちの少なくとも１つのカメラに関する特性パラメータを第２のカメラ特性補正モデル１３０１－２に入力して、第２の特徴マップ情報を取得する。また、学習部７０４は、取得した第２の特徴マップ情報と、視点情報２４０とをベースモデル１３０２に入力して、第２の学習用の残差情報を取得する。

　ステップＳ１１０５において、学習部７０４は、残差計算部１００２が計算した第２の残差情報と、第２の学習用の残差情報との２つの残差情報の差が最小となるように、ベースモデル１３０２を固定して、第２のカメラ特性補正モデル１３０１－２を学習させる。これにより、学習部７０４は、第２の残差情報を教師データとして、第２のカメラ特性補正モデル１３０１－２を学習させる。

　図１７に示した学習処理により、画像処理装置１０は、図１３に示すような、複数のカメラ特性補正モデル１３０１－１、１３０１－２、１３０２－３、・・・と、ベースモデル１３０２とを含む残差推定モデル４１０を得ることができる。

　［第４の実施形態］
　上記の各実施形態では、画像処理システム１００が、自動車等の車両１に搭載されている場合の例について説明した。第４の実施形態では、画像処理システム１００を、例えば、ＡＲゴーグル等のエッジデバイスに三次元画像を表示する三次元画像表示システムに適用する場合の例について説明する。

　図１８は、第４の実施形態に係る三次元画像表示システムのシステム構成の例を示す図である。三次元画像表示システム１８００は、ＡＲゴーグル等のエッジデバイス１８０１と、例えば、インターネットやＬＡＮ（Local Area Network）等の通信ネットワークＮを介して、エッジデバイス１８０１と通信可能なサーバ１８０２とを含む。

　エッジデバイス１８０１は、例えば、１つ以上の周辺カメラ、三次元センサ、表示デバイス、及び通信Ｉ／Ｆ等を備え、周辺カメラで撮像した撮像画像、及び三次元センサで取得した三次元情報を、サーバ１８０２に送信する。

　サーバ１８０２は、１つ以上のコンピュータ３００を備え、所定のプログラムを実行することにより、エッジデバイス１８０１から受信した撮像画像、及び三次元情報を用いて、三次元画像を生成し、生成した三次元画像をエッジデバイス１８０１に送信する。なお、サーバ１８０２は、遠隔処理手段の一例である。

　エッジデバイス１８０１は、サーバ１８０２から受信した三次元画像を、表示デバイスに表示することにより、周辺の三次元画像を表示する。

　ただし、従来のシステムでは、エッジデバイス１８０１が、サーバ１８０２に撮像画像と三次元情報とを送信した後、サーバ１８０２から三次元画像を受信するまでの間、三次元画像を表示できないという問題がある。

　そこで、本実施形態に係るエッジデバイス１８０１は、サーバ１８０２に撮像画像と三次元情報とを送信した後、サーバ１８０２から三次元画像を受信するまでの間に、例えば、図５で説明した画像処理を用いて生成した自由視点画像を表示する。これにより、本実施形態に係る三次元画像表示システム１８００によれば、エッジデバイス１８０１は、サーバ１８０２から三次元画像を受信する前に、仮想空間表示が可能になる。

　＜ハードウェア構成＞
　図１９は、第４の実施形態に係るエッジデバイスのハードウェア構成の例を示す図である。エッジデバイス１８０１は、コンピュータの構成を備え、例えば、プロセッサ１９０１、メモリ１９０２、ストレージデバイス１９０３、通信Ｉ／Ｆ１９０４、表示デバイス１９０５、複数の周辺カメラ１９０６、ＩＭＵ１９０７、三次元センサ１９０８、及びバス１９０９等を有する。

　プロセッサ１９０１は、例えば、ストレージデバイス１９０３等の記憶媒体に記憶したプログラムを実行することにより、所定の処理を実行するＣＰＵ、及びＧＰＵ等の演算装置である。メモリ１９０２は、例えば、プロセッサ１９０１のワークエリア等として用いられる揮発性のメモリであるＲＡＭ、及びプロセッサ１９０１の起動用のプログラム等を記憶した不揮発性のメモリであるＲＯＭ等を含む。ストレージデバイス１９０３は、例えば、ＳＳＤ、又はＨＤＤ等の大容量の不揮発性の記憶装置である。

　通信Ｉ／Ｆ１９０４は、エッジデバイス１８０１を通信ネットワークＮに接続し、サーバ１８０２と通信するＷＡＮ（Eide Area Network）、又はＬＡＮ（Local Area Network）等の通信デバイスである。表示デバイス１９０５は、例えば、ＬＣＤ、又は有機ＥＬ等の表示手段である。複数の周辺カメラ１９０６は、エッジデバイス１８０１の周辺を撮像するカメラである。

　ＩＭＵ（Inertial Measurement Unit）１９０７は、例えば、ジャイロセンサと、加速度センサとにより、三次元の角速度と加速度を検知する慣性計測デバイスである。三次元センサ１９０８は、例えば、ＬｉＤＡＲ、ステレオカメラ、深度カメラ、又は無線センシングデバイス等の三次元情報を取得するセンサである。バス１９０９は、上記の各構成要素に接続され、例えば、アドレス信号、データ信号、及び各種の制御信号等を伝送する。

　＜機能構成＞
　図２０は、第４の実施形態に係る三次元画像表示システムの機能構成を示す図である。

　（エッジデバイスの機能構成）
　エッジデバイス１８０１は、プロセッサ１９０１が所定のプログラムを実行することにより、図４で説明した画像処理装置１０の機能構成に加えて、三次元情報取得部２００１、送信部２００２、及び受信部２００３等を有する。また、エッジデバイス１８０１は、表示制御部４０４に代えて、表示制御部２００４を有する。なお、画像取得部４０１、残差推定部４０２、マッピング部４０３、設定部４０５、及び記憶部４０６については、図４で説明した画像処理装置１０の各機能構成と同様なので、ここでは説明を省略する。

　三次元情報取得部２００１は、三次元センサ１９０８を用いて、エッジデバイス１８０１の周辺の三次元情報を取得する。送信部２００２は、三次元情報取得部２００１が取得した三次元情報と、画像取得部４０１が取得した複数の撮像画像とを、サーバ１８０２に送信する。

　受信部２００３は、送信部２００２が送信した三次元情報と複数の撮像画像とに応じて、サーバ１８０２が送信する三次元画像を受信する。表示制御部２００４は、受信部２００３が三次元画像の受信を完了する前に、マッピング部４０３が生成した自由視点画像２５０を、表示装置１６等に表示する。また、表示制御部２００４は、受信部２００３が三次元画像の受信を完了した後に、受信した三次元画像を表示装置１６等に表示する。

　（サーバの機能構成）
　サーバ１８０２は、１つ以上のコンピュータ３００で所定のプログラムを実行することにより、受信部２０１１、三次元画像生成部２０１２、及び送信部２０１３等を実現している。

　受信部２０１１は、例えば、通信装置３０７を用いて、エッジデバイス１８０１が送信する三次元情報と、複数の撮像画像とを受信する。

　三次元画像生成部２０１２は、受信部２０１１が受信した三次元情報と、複数の撮像画像とを用いて、複数の撮像画像を三次元空間にレンダリングして、エッジデバイス１８０１の周辺の三次元画像を生成する。なお、本実施形態では、サーバ１８０２による三次元画像の生成方法は、任意の方法であってよい。

　送信部２０１３は、例えば、通信装置３０７を用いて、三次元画像生成部２０１２が生成した三次元画像をエッジデバイスに送信する。

　＜処理の流れ＞
　図２１は、第４の実施形態に係る三次元画像表示処理の例を示すシーケンス図である。

　ステップＳ２１０１において、エッジデバイス１８０１の画像取得部４０１は、複数の周辺カメラ１９０６のそれぞれにより、エッジデバイス１８０１の周辺を撮像した複数の撮像画像を取得する。

　ステップＳ２１０２において、エッジデバイス１８０１の三次元情報取得部２００１は、三次元センサ１９０８を用いて、複数の撮像画像に映った１つ以上の立体物の三次元情報を取得する。例えば、三次元情報取得部２００１は、エッジデバイス１８０１の周辺の三次元点群情報等を取得する。

　ステップＳ２１０３において、エッジデバイス１８０１の送信部２００２は、画像取得部４０１が取得した複数の撮像画像と、三次元情報取得部２００１が取得した三次元情報とを、サーバ１８０２に送信する。

　ステップＳ２１０４において、サーバ１８０２の三次元画像生成部２０１２は、エッジデバイス１８０１から受信した複数の撮像画像と三次元情報とを用いて、複数の撮像画像を三次元空間にレンダリングした三次元画像を生成する三次元画像生成処理を実行する。ただし、この処理には時間を要し、また、エッジデバイス１８０１との通信状態、及びサーバ１８０２の負荷等により、処理時間が変動する場合がある。

　ステップＳ２１０５において、エッジデバイス１８０１は、ステップＳ２１０４の処理と並行して、例えば、図５で説明した画像処理を実行することにより、複数の撮像画像を表示投影面にマッピングした自由視点画像を生成し、表示デバイス１９０５に表示する。なお、この処理は、サーバ１８０２が実行する三次元画像生成処理より短時間で処理が可能であり、また、サーバ１８０２との通信情報、サーバ１８０２の負荷等の影響を受けないため、エッジデバイス１８０１の周辺の画像をより短時間で表示することができる。

　ステップＳ２１０６において、サーバ１８０２の三次元画像生成部２０１２が、三次元画像の生成を完了すると、サーバ１８０２の送信部２０１３は、生成した三次元画像をエッジデバイス１８０１に送信する。

　ステップＳ２１０７において、エッジデバイス１８０１の表示制御部２００４は、サーバ１８０２から三次元画像を受信すると、受信した三次元画像を表示デバイス１９０５に表示する。

　図２１の処理により、三次元画像表示システム１８００は、サーバ１８０２に複数の撮像画像と三次元情報とを送信した後、サーバ１８０２から三次元画像を受信する前に、仮想空間を表示することができる。

　以上、本発明の各実施形態によれば、複数の撮像画像を用いて自由視点画像を合成する画像処理システムにおいて、三次元のセンシングデバイスによらずに、歪みの少ない自由視点画像を合成できるようになる。

　１　画像処理システム
　１０　画像処理装置
　１２、１２Ａ～１２Ｄ　カメラ
　１６　表示装置
　２１０　撮像画像
　１３０　投影面情報
　２２０　残差情報
　２３０　投影面情報（既定投影面に関する情報）
　２３１　既定投影面
　２４０　視点情報
　２５０　自由視点画像
　３００　コンピュータ
　４０１　画像取得部
　４０２　残差推定部
　４０３　マッピング部
　４０４、２００４　表示制御部
　４１０　残差推定モデル（推論エンジン）
　６０１　学習用残差情報
　６０２　教師用画像
　６０３　学習用画像
　７０１　撮像画像準備部
　７０２　三次元情報準備部
　７０３　教師用画像準備部
　７０４　学習部
　４０５、７０５　設定部
　７１０　残差学習モデル（ニューラルネットワーク）
　９０１　無修正画像
　１００１　無修正画像準備部
　１００２　残差計算部
　１３０１、１３０１－１～１３０１－３　カメラ特性補正モデル（カメラモデル推論エンジン）
　１３０２　ベースモデル（ベースモデル推論エンジン）
　１８００　三次元画像表示システム
　２００１　三次元情報取得部
　２００２　送信部
　２００３　受信部

Claims

　表示投影面上に複数の撮像画像を用いた自由視点画像を合成する画像処理方法であって、
　複数のカメラのそれぞれにより前記複数の撮像画像を取得する画像取得ステップと、
　前記複数の撮像画像と視点情報とを入力し、予め定義したボウル形状の既定投影面と前記表示投影面との差分を示す投影面の残差情報を機械学習により推定する残差推定ステップと、
　前記既定投影面に関する情報と前記残差情報と前記視点情報とを用いて、前記複数の撮像画像を前記表示投影面にマッピングして前記自由視点画像を得るマッピングステップと、
　をコンピュータが実行する、画像処理方法。
　前記残差推定ステップは、
　複数の学習用の撮像画像と前記視点情報と前記複数の学習用の撮像画像に映った１つ以上の立体物の三次元情報とから、前記既定投影面と前記表示投影面との差分を推論するように学習させた推論エンジンを使用して前記残差情報を推定する、
　請求項１に記載の画像処理方法。
　前記残差推定ステップは、
　複数の学習用の撮像画像と、前記複数の学習用の撮像画像に映った１つ以上の立体物の三次元情報とから、前記立体物の特徴点の特徴マップ情報を推論するように学習させたカメラモデル推論エンジンと、
　前記カメラモデル推論エンジンの出力する前記特徴マップ情報と前記視点情報とから、前記既定投影面と前記表示投影面との差分を推論するように学習させたベースモデル推論エンジンと、
　を使用して前記残差情報を推定する、
　請求項１に記載の画像処理方法。
　前記カメラモデル推論エンジンの学習後の重みデータは、
　前記ベースモデル推論エンジンの学習後の重みデータに比べて、
　前記複数のカメラの特性パラメータの影響が大きい、
　請求項３に記載の画像処理方法。
　前記カメラモデル推論エンジンには、前記複数のカメラのうちの少なくとも１つのカメラに関する特性パラメータが入力される、
　請求項３又は４に記載の画像処理方法。
　前記カメラモデル推論エンジンは、それぞれが異なる特性パラメータに基づいて学習させた複数のカメラモデル推論エンジンの候補から、前記特徴マップ情報を推論する前記カメラモデル推論エンジンを選択可能である、
　請求項３又は４に記載の画像処理方法。
　複数の撮像画像に基づいて、予め定義したボウル形状の既定投影面に対して前記複数の撮像画像に映った１つ以上の立体物の三次元情報を反映させた投影面の残差情報を推論するニューラルネットワークの学習方法であって、
　複数のカメラのそれぞれで撮像した前記複数の撮像画像を準備する撮像画像準備ステップと、
　前記三次元情報を準備する三次元情報準備ステップと、
　前記三次元情報により前記複数の撮像画像の三次元画像を復元し、入力した視点情報に基づいて教師用の自由視点画像である教師用画像を生成する教師用画像準備ステップと、
　前記複数の撮像画像と前記視点情報とを前記ニューラルネットワークに入力して学習用残差情報を取得し、前記学習用残差情報と前記既定投影面に関する情報と前記視点情報とを用いて前記複数の撮像画像を表示投影面にマッピングして学習用の自由視点画像である学習用画像を生成し、前記教師用画像と前記学習用画像との誤差が小さくなるように前記ニューラルネットワークを学習させる学習ステップと、
　をコンピュータが実行する、ニューラルネットワークの学習方法。
　複数の撮像画像に基づいて、予め定義したボウル形状の既定投影面に対して前記複数の撮像画像に映った１つ以上の立体物の三次元情報を反映させた投影面の残差情報を推論するニューラルネットワークの学習方法であって、
　複数のカメラのそれぞれにより前記複数の撮像画像を準備する画像準備ステップと、
　前記複数の撮像画像を前記既定投影面にマッピングし、入力した視点情報に基づいて無修正の自由視点画像である無修正画像を生成する無修正画像準備ステップと、
　前記三次元情報を準備する三次元情報準備ステップと、
　前記三次元情報により前記複数の撮像画像の三次元画像を復元し、入力した視点情報に基づいて教師用の自由視点画像である教師用画像を生成する教師用画像準備ステップと、
　前記無修正の自由視点画像と前記教師用画像とを比較して前記残差情報を準備する残差計算ステップと、
　前記複数の撮像画像と視点情報とを前記ニューラルネットワークに入力し、前記残差計算ステップで準備した前記残差情報を教師データとして、前記ニューラルネットワークを学習させる学習ステップと、
　をコンピュータが実行する、ニューラルネットワークの学習方法。
　前記ニューラルネットワークは、
　前記複数の撮像画像と、前記複数のカメラのうちの少なくとも１つのカメラに関する特性パラメータとが入力されるカメラモデル推論ネットワークと、
　前記カメラモデル推論ネットワークの出力と前記視点情報とが入力されるベースモデル推論ネットワークとで構成される
　請求項７又は８に記載のニューラルネットワークの学習方法。
　複数の撮像画像に基づいて、予め定義したボウル形状の既定投影面に対して前記複数の撮像画像に映った１つ以上の立体物の三次元情報を反映させた投影面の残差情報を推論するニューラルネットワークの学習方法であって、
　前記ニューラルネットワークは、第１のカメラモデル推論ネットワーク又は第２のカメラモデル推論ネットワークと、ベースモデル推論ネットワークとで構成され、
　第１の複数のカメラのそれぞれにより第１の複数の撮像画像を準備する第１の撮像画像準備ステップと、
　第２の複数のカメラのそれぞれにより第２の複数の撮像画像を準備する第２の撮像画像準備ステップと、
　前記第１の複数の撮像画像に映った１つ以上の立体物の第１の三次元情報を準備する第１の三次元情報準備ステップと、
　前記第２の複数の撮像画像に映った１つ以上の立体物の第２の三次元情報を準備する第２の三次元準備ステップと、
　前記第１の三次元情報により前記第１の複数の撮像画像の三次元画像を復元し、入力した視点情報に基づいて第１の教師用の自由視点画像である第１の教師用画像を生成する第１の教師用画像準備ステップと、
　前記第２の三次元情報により前記第２の複数の撮像画像の三次元画像を復元し、前記視点情報に基づいて第２の教師用の自由視点画像である第２の教師用画像を生成する第２の教師用画像準備ステップと、
　前記第１の複数の撮像画像と、前記第１の複数のカメラのうちの少なくとも１つのカメラに関する特性パラメータとを前記第１のカメラモデル推論ネットワークに入力し、前記第１のカメラモデル推論ネットワークの出力と視点情報とを前記ベースモデル推論ネットワークに入力して得られる第１の学習用残差情報と前記既定投影面に関する情報と前記視点情報とを用いて、前記第１の複数の撮像画像を表示投影面にマッピングして第１の学習用の自由視点画像である第１の学習用画像を生成し、前記第１の教師用画像と前記第１の学習用画像との誤差が小さくなるように前記第１のカメラモデル推論ネットワークおよび前記ベースモデル推論ネットワークの両方を同時に学習させ、
　前記第２の複数の撮像画像および前記第２の複数のカメラのうちの少なくとも１つのカメラに関する特性パラメータを前記第２のカメラモデル推論ネットワークに入力し、前記第２のカメラモデル推論ネットワークの出力と視点情報とを学習済みの前記ベースモデル推論ネットワークに入力して得られる第２の学習用残差情報と前記既定投影面に関する情報と前記視点情報とを用いて、前記第２の複数の撮像画像を表示投影面にマッピングして第２の学習用の自由視点画像である第２の学習用画像を生成し、前記第２の教師用画像と前記第２の学習用画像との誤差が小さくなるように前記第２のカメラモデル推論ネットワークを学習させる学習ステップとを有する、
　ニューラルネットワークの学習方法。
　複数の撮像画像に基づいて、予め定義したボウル形状の既定投影面に対して前記複数の撮像画像に映った１つ以上の立体物の三次元位置情報を反映させた投影面の残差情報を推論するニューラルネットワークの学習方法であって、
　前記ニューラルネットワークは、第１のカメラモデル推論ネットワーク又は第２のカメラモデル推論ネットワークと、ベースモデル推論ネットワークとで構成され、
　第１の複数のカメラのそれぞれにより第１の複数の撮像画像を準備する第１の撮像画像準備ステップと、
　第２の複数のカメラのそれぞれにより第２の複数の撮像画像を準備する第２の撮像画像準備ステップと、
　前記第１の複数の撮像画像を前記既定投影面にマッピングし、入力した視点情報に基づいて第１の無修正の自由視点画像である第１の無修正画像を生成する第１の無修正画像準備ステップと、
　前記第２の複数の撮像画像を前記既定投影面にマッピングし、入力した視点情報に基づいて第２の無修正の自由視点画像である第２の無修正画像を生成する第２の無修正画像準備ステップと、
　前記第１の複数の撮像画像に映った１つ以上の立体物の第１の三次元情報を準備する第１の三次元情報準備ステップと、
　前記第２の複数の撮像画像に映った１つ以上の立体物の第２の三次元情報を準備する第２の三次元情報準備ステップと、
　前記第１の三次元情報により前記第１の複数の撮像画像の三次元画像を復元し、入力した視点情報に基づいて第１の教師用の自由視点画像である第１の教師用画像を生成する第１の教師用画像準備ステップと、
　前記第２の三次元情報により前記第２の複数の撮像画像の三次元画像を復元し、前記視点情報に基づいて第２の教師用の自由視点画像である第２の教師用画像を生成する第２の教師用画像準備ステップと、
　前記第１の無修正画像と前記第１の教師用画像とを比較して第１の残差情報を準備する第１の残差計算ステップと、
　前記第２の無修正画像と前記第２の教師用画像とを比較して第２の残差情報を準備する第２の残差計算ステップと、
　前記第１の複数の撮像画像および前記第１の複数のカメラのうちの少なくとも１つのカメラに関する特性パラメータを前記第１のカメラモデル推論ネットワークに入力し、前記第１のカメラモデル推論ネットワークの出力と視点情報とを前記ベースモデル推論ネットワークに入力し、前記第１の残差計算ステップで準備した前記第１の残差情報を教師データとして、前記第１のカメラモデル推論ネットワークおよび前記ベースモデル推論ネットワークの両方を同時に学習させ、
　前記第２の複数の撮像画像および前記第２の複数のカメラのうちの少なくとも１つのカメラに関する特性パラメータを前記第２のカメラモデル推論ネットワークに入力し、前記第２のカメラモデル推論ネットワークの出力と視点情報とを学習済みの前記ベースモデル推論ネットワークに入力し、前記第２の残差計算ステップで準備した前記第２の残差情報を教師データとして、前記第２のカメラモデル推論ネットワークを学習させる学習ステップとを有する、
　ニューラルネットワークの学習方法。
　表示投影面上に複数の撮像画像を用いて合成した自由視点画像を表示する三次元画像表示方法であって、
　複数のカメラのそれぞれにより前記複数の撮像画像を取得する撮像画像取得ステップと、
　前記複数の撮像画像に映った１つ以上の立体物の三次元情報を取得する三次元情報取得ステップと、
　前記複数の撮像画像と視点情報とを入力し、予め定義したボウル形状の既定投影面と前記表示投影面との差分を示す投影面の残差情報を機械学習により推定する残差推定ステップと、
　前記既定投影面に関する情報と前記残差情報と前記視点情報とを用いて、前記複数の撮像画像を表示投影面にマッピングして自由視点画像を得るマッピングステップと、
　前記複数の撮像画像および前記三次元情報を遠隔処理手段に送信する送信ステップと、
　前記遠隔処理手段において前記三次元情報に基づいて復元された前記複数の撮像画像の三次元画像を前記遠隔処理手段から受信する受信ステップと、
　前記受信ステップでの前記三次元画像の受信を完了する前に前記自由視点画像を表示手段に表示し、前記受信ステップでの前記三次元画像の受信を完了した後に前記三次元画像を前記表示手段に表示する表示制御ステップと、
　をコンピュータが実行する、三次元画像表示方法。
　表示投影面上に複数の撮像画像を用いた自由視点画像を合成する画像処理システムであって、
　複数のカメラのそれぞれにより前記複数の撮像画像を取得するように構成された画像取得部と、
　前記複数の撮像画像と視点情報とを入力し、予め定義したボウル形状の既定投影面と前記表示投影面との差分を示す投影面の残差情報を機械学習により推定するように構成された残差推定部と、
　前記既定投影面に関する情報と前記残差情報と前記視点情報とを用いて、前記複数の撮像画像を前記表示投影面にマッピングして前記自由視点画像を得るように構成されたマッピング部と、
　を有する、画像処理システム。
　複数の撮像画像に基づいて、予め定義したボウル形状の既定投影面に対して前記複数の撮像画像に映った１つ以上の立体物の三次元情報を反映させた投影面の残差情報を推論するニューラルネットワークの学習システムであって、
　複数のカメラのそれぞれにより前記複数の撮像画像を準備するように構成された撮像画像準備部と、
　前記三次元情報を準備するように構成された三次元情報準備部と、
　前記三次元情報により前記複数の撮像画像の三次元画像を復元し、入力した視点情報に基づいて教師用の自由視点画像である教師用画像を生成するように構成された教師用画像準備部と、
　前記複数の撮像画像と前記視点情報とを前記ニューラルネットワークに入力して学習用残差情報を取得し、前記学習用残差情報と前記既定投影面に関する情報と前記視点情報とを用いて前記複数の撮像画像を表示投影面にマッピングして学習用の自由視点画像である学習用画像を生成し、前記教師用画像と前記学習用画像との誤差が小さくなるように前記ニューラルネットワークを学習させるように構成された学習部と、
　を有する、ニューラルネットワークの学習システム。
　複数の撮像画像に基づいて、予め定義したボウル形状の既定投影面に対して前記複数の撮像画像に映った１つ以上の立体物の三次元情報を反映させた投影面の残差情報を推論するニューラルネットワークの学習システムであって、
　複数のカメラのそれぞれにより前記複数の撮像画像を準備するように構成された画像準備部と、
　前記複数の撮像画像を前記既定投影面にマッピングし、入力した視点情報に基づいて無修正の自由視点画像である無修正画像を生成するように構成された無修正画像準備部と、
　前記三次元情報を準備するように構成された三次元情報準備部と、
　前記三次元情報により前記複数の撮像画像の三次元画像を復元し、入力した視点情報に基づいて教師用の自由視点画像である教師用画像を生成するように構成された教師用画像準備部と、
　前記無修正の自由視点画像と前記教師用画像とを比較して前記残差情報を準備するように構成された残差計算部と、
　前記複数の撮像画像と視点情報とを前記ニューラルネットワークに入力し、前記残差計算部が準備した前記残差情報を教師データとして、前記ニューラルネットワークを学習させるように構成された学習部と、
　を有する、ニューラルネットワークの学習システム。
　表示投影面上に複数の撮像画像を用いて合成した自由視点画像を表示する三次元画像表示システムであって、
　複数のカメラのそれぞれにより前記複数の撮像画像を取得するように構成された画像取得部と、
　前記複数の撮像画像に映った１つ以上の立体物の三次元情報を取得するように構成された三次元情報取得部と、
　前記複数の撮像画像と視点情報とを入力し、予め定義したボウル形状の既定投影面と前記表示投影面との差分を示す投影面の残差情報を機械学習により推定するように構成された残差推定部と、
　前記既定投影面に関する情報と前記残差情報と前記視点情報とを用いて、前記複数の撮像画像を表示投影面にマッピングして自由視点画像を得るように構成されたマッピング部と、
　前記複数の撮像画像および前記三次元情報を遠隔処理手段に送信するように構成された送信部と、
　前記遠隔処理手段において前記三次元情報に基づいて復元された前記複数の撮像画像の三次元画像を前記遠隔処理手段から受信するように構成された受信部と、
　前記受信部で前記三次元画像の受信を完了する前に前記自由視点画像を表示手段に表示し、前記受信部が前記三次元画像の受信を完了した後に前記三次元画像を前記表示手段に表示するように構成された表示制御部と、
　を有する、三次元画像表示システム。