WO2023171336A1

WO2023171336A1 - 学習方法、情報処理装置、および記録媒体

Info

Publication number: WO2023171336A1
Application number: PCT/JP2023/005920
Authority: WO
Inventors: 和憲神尾
Original assignee: ソニーグループ株式会社
Priority date: 2022-03-11
Filing date: 2023-02-20
Publication date: 2023-09-14

Abstract

本開示は、ニューラルネットワークによる高速な学習を実現することができるようにする学習方法、情報処理装置、および記録媒体に関する。情報処理装置は、低精度三次元データから互いに異なる複数の視点を基準とした複数のデプス画像をレンダリングし、複数のデプス画像に基づいて、二次元画像から高精度三次元データを生成するニューラルネットワークの学習処理を行う。本開示は、例えば、屋外の大規模な映像制作用３Ｄアセットを作成する技術に適用することができる。

Description

学習方法、情報処理装置、および記録媒体

　本開示は、学習方法、情報処理装置、および記録媒体に関し、特に、ニューラルネットワークによる高速な学習を実現できるようにする学習方法、情報処理装置、および記録媒体に関する。

　従来、カーナビゲーションシステムや自動運転に係る技術の進歩に合わせて三次元地図データの品質が高まっている。特許文献１には、周辺のリファレンス地図と実世界の観測情報のマッチングを行うことで、不整合に係る部分の地図を更新する技術が開示されている。

　ところで、３ＤＣＧ映像の制作においては、屋外の大規模な映像制作用３Ｄアセットを作成するのに膨大な時間を要していたが、上述したような三次元地図データは映像作品に使える品質ではなかった。

　これに対して、近年、ニューラルネットワークを用いた学習により、多視点の画像から映像制作用３Ｄアセットのような任意視点の画像を高品質に作成することが可能となってきた。

特開２０１７－１８１８７０号公報

　しかしながら、画像のみに基づいたニューラルネットワークによる学習では収束に時間がかかってしまう。

　本開示は、このような状況に鑑みてなされたものであり、ニューラルネットワークによる高速な学習を実現できるようにするものである。

　本開示の学習方法は、情報処理装置が、低精度三次元データから互いに異なる複数の視点を基準とした複数のデプス画像をレンダリングし、複数の前記デプス画像に基づいて、二次元画像から高精度三次元データを生成するニューラルネットワークの学習処理を行う学習方法である。

　本開示の情報処理装置は、低精度三次元データから互いに異なる複数の視点を基準とした複数のデプス画像をレンダリングするレンダリング部と、複数の前記デプス画像に基づいて、二次元画像から高精度三次元データを生成するニューラルネットワークの学習処理を行う学習処理部とを備える情報処理装置である。

　本開示の記録媒体は、低精度三次元データから互いに異なる複数の視点を基準とした複数のデプス画像をレンダリングし、複数の前記デプス画像に基づいて、二次元画像から高精度三次元データを生成するニューラルネットワークの学習処理を行う処理を実行させるためのプログラムを記録した、コンピュータが読み取り可能な記録媒体である。

　本開示においては、低精度三次元データから互いに異なる複数の視点を基準とした複数のデプス画像がレンダリングされ、複数の前記デプス画像に基づいて、二次元画像から高精度三次元データを生成するニューラルネットワークの学習処理が行われる。

本開示に係る情報処理装置の機能構成例を示すブロック図である。情報処理装置の機能の概要について説明する図である。情報処理装置の動作の概要について説明するフローチャートである。学習処理の詳細について説明するフローチャートである。ＮｅＲＦの概要について説明する図である。デプス画像を用いたＮｅＲＦの改良について説明する図である。デプス画像の推論結果の例を示す図である。二次元画像の推論結果の例を示す図である。ファインチューニングの詳細について説明するフローチャートである。ファインチューニングによるＤＮＮ係数の更新の例を示す図である。コンピュータの構成例を示すブロック図である。

　以下、本開示を実施するための形態（以下、実施の形態とする）について説明する。なお、説明は以下の順序で行う。

　１．従来技術の課題
　２．本開示に係る情報処理装置の概要
　３．３Ｄ地図データを利用した学習処理
　４．最新画像を用いたファインチューニング
　５．コンピュータの構成例

＜１．従来技術の課題＞
　従来、３ＤＣＧ（三次元コンピュータグラフィックス）映像の制作においては、屋外の大規模な映像制作用３Ｄアセット（３ＤＣＧ制作用アセット）を作成するのに膨大な時間を要していた。一方、一般的に三次元地図データが存在するものの、映像作品に使える品質ではなかった。

　その背景として、まず、撮影作業が大変であったり、手作業でＣＧを作成したりするなど、作業に多くの時間をかけていたことが挙げられる。次に、近年になって３ＤＣＧ制作用アセットのニーズが高まり、また、ＣＧが写真のような現実感のある描写に近づいてきたことが挙げられる。そして、三次元地図データは容易に手に入れられるものではなかったことも挙げられる。

　これに対して、近年、ニューラルネットワークを用いた学習により、多視点の画像から３ＤＣＧ制作用アセットのような任意視点の画像を高品質に作成することが可能となってきた。しかしながら、この手法を屋外の大規模な映像制作に用いるには、やはり多くの撮影が必要であり、撮影作業に時間がかかる点は解消されない。特に、画像のみに基づいたニューラルネットワークによる学習では収束に時間がかかってしまうため、この手法により、屋外の大規模な３ＤＣＧ制作用アセットを作成することは現実的ではない。

　そこで、本開示に係る技術においては、低精度三次元データからレンダリングした多視点の二次元画像とデプス画像を用いて、高精度三次元データを生成するニューラルネットワークの学習処理を行うことで、高速な学習を実現する。また、本開示に係る技術においては、高精度三次元データに対応する実オブジェクトを実際に撮影した画像を用いて、ニューラルネットワークのファインチューニングを行うことで、三次元表現の高品質化を実現する。

＜２．本開示に係る情報処理装置の概要＞
（情報処理装置の機能構成例）
　図１は、本開示に係る情報処理装置の機能構成例を示すブロック図である。

　図１の情報処理装置１は、例えば、所定のプログラムが実行されることで動作するコンピュータとして構成される。情報処理装置１は、機能ブロックとして、レンダリング部１０と学習処理部２０を実現する。レンダリング部１０と学習処理部２０は、それぞれ別個に構成される情報処理装置（コンピュータ）により実現されてもよい。

　レンダリング部１０は、低精度な三次元データ（低精度３Ｄデータ）から、互いに異なる複数の視点を基準とした複数の二次元画像（２Ｄ画像）をレンダリングする。２Ｄ画像は、一般的なカメラにより撮影される画像と同じＲＧＢ画像である。また、レンダリング部１０は、低精度３Ｄデータから、互いに異なる複数の視点を基準とした複数のデプス画像をレンダリングする。デプス画像は、２Ｄ画像の各画素の画素情報として深度情報（距離情報）を有する二次元データである。

　低精度３Ｄデータは、縦・横・高さの情報を有するオブジェクトのデータであって、オブジェクトの概形を表現できる程度の低精度なデータとされる。オブジェクトは、自動車や航空機などの移動物体、家屋やビル、駅や空港などの建築物、道路や橋梁、トンネルなどの構造物などであってもよいし、これらを含む都市全体であってもよい。

　以下においては、３Ｄ低精度データが、各都市全体を表現可能な三次元地図データであるものとして説明する。

　学習処理部２０は、レンダリング部１０によりレンダリングされた複数のデプス画像と複数の２Ｄ画像に基づいて、任意視点の二次元画像から低精度３Ｄデータに対応する高精度な三次元データ（高精度３Ｄデータ）を生成するニューラルネットワークの学習処理を行う。具体的には、学習処理部２０は、学習処理を行うことにより、当該ニューラルネットワークによる三次元表現を学習する。

　高精度３Ｄデータは、低精度３Ｄデータとは異なり、オブジェクトを高精細に表現できる高精度なデータとされる。

　また、学習処理部２０は、生成した高精度３Ｄデータに対応する実オブジェクトを実際に撮影したオブジェクト画像を用いて、当該ニューラルネットワークによる三次元表現のファインチューニングを行う。

（情報処理装置の機能および動作の概要）
　図２は、図１の情報処理装置１の機能の概要について説明する図である。

　図２のＡ図は、三次元地図データ（３Ｄ地図データ）を利用した学習処理を実行する情報処理装置１の機能を概念化した図である。

　情報処理装置１は、３Ｄ地図データから、ユーザに指定された視点を基準としたデプス画像４１と二次元画像４２をレンダリングする。そして、情報処理装置１は、デプス画像４１と二次元画像４２に基づいて、三次元表現可能なディープニューラルネットワーク（三次元表現ＤＮＮ）の学習により、ＤＮＮ係数５０を取得する。

　図２のＢ図は、実際に撮影した画像を用いて、学習したニューラルネットワークのファインチューニングを行う情報処理装置１の機能を概念化した図である。

　情報処理装置１は、３Ｄ地図データに対応する実空間において、ユーザに指定された視点から撮影された最新画像６０を取得する。そして、情報処理装置１は、最新画像６０を用いて、三次元表現ＤＮＮのファインチューニングを行うことで、ＤＮＮ係数５０を更新する。

　図３は、図１の情報処理装置１の動作の概要について説明する図である。

　ステップＳ１において、情報処理装置１は、図２のＡ図を参照して説明したように、３Ｄ地図データを利用した学習処理を実行する。ステップＳ１における学習処理は、ユーザに指定された視点毎に繰り返し行われ得る。学習処理の詳細については、図４のフローチャートを参照して後述する。

　ステップＳ２において、情報処理装置１は、図２のＢ図を参照して説明したように、最新画像を用いたニューラルネットワークのファインチューニングを行う。ステップＳ２におけるファインチューニングもまた、ユーザに指定された視点毎に繰り返し行われ得るファインチューニングの詳細については、図９のフローチャートを参照して後述する。

　以下においては、情報処理装置１の各動作の詳細について説明する。

＜３．３Ｄ地図データを利用した学習処理＞
　まず、図４のフローチャートを参照して、情報処理装置１による３Ｄ地図データを利用した学習処理の詳細について説明する。

　ステップＳ１１において、情報処理装置１は、３Ｄ地図データを入力する。

　上述したように、屋外の大規模な３ＤＣＧ制作用アセットを作成するためには、多くの撮影が必要である一方、近年、インターネット上の公開データとして、３Ｄ地図データを容易に入手することができるようになった。これにより、撮影のために実際に屋外へ出向かなくとも、数年から数か月前程度の屋外の大まかな形状や情報を得ることができる。

　ステップＳ１２において、情報処理装置１のレンダリング部１０は、入力された３Ｄ地図データから、複数の視点を基準とした２Ｄ画像とデプス画像をレンダリングする。ここでは、屋外の映像制作に用いられる３ＤＣＧ制作用アセットを作成したい領域を臨む視点（すなわち、ユーザに指定された視点）が、基準とする視点となる。

　このようにして、三次元データから二次元データ（２Ｄデータ）の２Ｄ画像を得ることで、実際に撮影したときと同じ形式の画像を得ることができる。また、２Ｄデータは、３Ｄデータと比較して扱いやすく、データセットを収集しやすいことから、２Ｄデータを扱えるツールや２Ｄデータを用いて学習するニューラルネットワークを多く利用することができる。

　ステップＳ１３において、学習処理部２０は、レンダリングにより得られた複数の視点を基準とした２Ｄ画像とデプス画像に基づいて、三次元表現ＤＮＮを用いて学習する。

　映像制作に用いられる３ＤＣＧ制作用アセットは、カーナビゲーションシステムなどで用いられる３Ｄ地図データよりも高い映像品質が必要となる。そのため、三次元表現可能なニューラルネットワーク、例えば、三次元表現として、比較的少ない係数で任意の解像度の図形を表現できる陰関数表現を学習するニューラルネットワークを用いることが考えられる。ここでは、"Nerf：Representing Scenes as Neural Radiance Fields for View Synthesis"において提案されている手法（以下、ＮｅＲＦという）を用いるものとする。

　ここで、図５を参照して、ＮｅＲＦの概要について説明する。

　ＮｅＲＦは、対象となる空間の５次元（位置ｘ，ｙ，ｚと方向θ，φ）に対応するベクトル場であるRadiance Fields（色ＲＧＢとその密度σ）を、ニューラルネットワークＦ_Θにより学習する手法である。

　ＮｅＲＦにおいては、視点方向に対応する光線上の各点について、ニューラルネットワークＦ_Θによって出力されるRadiance Fieldsを積算することで１つの色が得られる。これを全ての画素に対して行うことで１枚の画像が生成される（ボリュームレンダリング）。生成された画像と実際の画像が一致するようにＦ_Θを更新することで、レンダリング結果が実際の画像に近づいていき、結果として、Ｆ_Θが三次元空間表現（Radiance Fields）となる。

　レンダリング結果は、空間上の各座標の色ｃを用いることで、光線ｒの焦点（視点）からみた色Ｃとして、以下の式（１），（２）で表すことができる。

　式（１），（２）において、ｔは焦点からの距離、ｔ_ｎ，ｔ_ｆはそれぞれレンダリングにおいて考慮する距離の下限と上限を表す。Ｔ（ｔ）は、ある点から焦点へと向かう光が、それより前（焦点側）に存在する点によって妨げられる状況を表す。ｒ（ｓ）（ｔ_ｎ＜ｓ＜ｔ）に密度の高い点があった場合、Ｔ（ｔ）は０に近づき、ｒ（ｔ）から出た光はＣに影響しなくなる。

　このようにして、色ｃと密度σの積を光線上で積分することにより、ボリュームレンダリングを行うことができる。

　さて、Radiance Fieldsにおける密度σは、物体が存在することを示す指標（存在確率）でもある。したがって、以下の式（３）に示されるように、視点に対応する物体の密度σを光線上で積分することで、デプスＤを求めることができる。

　図６は、本開示に係る技術によるデプス画像を用いたＮｅＲＦの改良について説明する図である。

　従来のＮｅＲＦでは、図６に示されるように、各視点に対応する空間上の位置ｘ，ｙ，ｚと方向θ，φについてボリューム化されたデータをレンダリングすることで得られた２Ｄ画像（レンダリング画像）と、あらかじめ用意されたＧＴ（Ground Truth）画像の誤差が最小となるように、陰関数を学習する。本開示に係る技術においては、ＧＴ画像は、３Ｄ地図データからレンダリングされた２Ｄ画像となる。

　さらに、本開示に係る技術により改良されたＮｅＲＦでは、図６中破線で囲まれるように、各視点に対応する物体の密度（存在確率）σの積分値（デプス画像）と、あらかじめ用意されたＧＴ画像の誤差が最小となるように、陰関数を学習する。本開示に係る技術においては、ＧＴ画像は、３Ｄ地図データからレンダリングされたデプス画像となる。

　上述したように、従来のＮｅＲＦのような画像のみに基づいたニューラルネットワークによる学習では収束に時間がかかってしまうため、この手法により、屋外の大規模な３ＤＣＧ制作用アセットを作成することは現実的ではなかった。特に、平坦部が多い道路や建物の壁などは、学習の収束に時間がかかる要因であった。

　一方で、以上の処理によれば、３Ｄ地図データから２Ｄ画像だけでなくデプス画像がレンダリングされ、改良されたＮｅＲＦによって２Ｄ画像だけでなくデプス画像を利用した学習処理が行われる。これにより、学習速度を大幅に改善することができ、ニューラルネットワークによる高速な学習を実現することが可能となる。

　したがって、高精度３Ｄデータとして、屋外の大規模な３ＤＣＧ制作用アセットを短時間で作成することが可能となる。また、３Ｄ地図データをニューラルネットワークの学習に利用することにより、撮影のために実際に屋外へ出向くなど、撮影作業に時間をかけることなく、３ＤＣＧ制作用アセットを作成することができる。

　図７および図８を参照して、改良されたＮｅＲＦの効果について説明する。ここでは、ＮｅＲＦにより学習した係数を用いた推論により、奥行きのある部屋を臨んだ視点の画像が得られるものとする。

　図７左には、従来のＮｅＲＦにより学習した係数を用いたデプス画像の推論結果ＤＭＰ０が示されており、図７右には、改良されたＮｅＲＦにより学習した係数を用いたデプス画像の推論結果ＤＭＰ１が示されている。

　推論結果ＤＭＰ０で示されるように、従来のＮｅＲＦでは、部屋の天井や奥側の壁（中央から上側の白い部分）に対して適切に推定できておらず、平坦部における性能の低さが確認できる。一方、推論結果ＤＭＰ１で示されるように、改良されたＮｅＲＦによれば、部屋の天井や奥側の壁に対して適切に推定された、性能の高いデプス画像を出力することができる。

　図８左には、従来のＮｅＲＦにより学習した係数を用いた二次元画像（ＲＧＢ画像）の推論結果ＩＭＧ０が示されており、図８右には、改良されたＮｅＲＦにより学習した係数を用いた二次元画像の推論結果ＩＭＧ１が示されている。

　従来のＮｅＲＦでは、上述したようにデプス画像の性能が低いことから、推論結果ＩＭＧ０のように、低品質な二次元画像しか得られない。一方、改良されたＮｅＲＦによれば、性能の高いデプス画像が得られるので、推論結果ＩＭＧ１のように、部屋の様子を確認できるほどの高品質な二次元画像を得ることができる。

＜４．最新画像を用いたファインチューニング＞
　次に、図９のフローチャートを参照して、情報処理装置１による最新画像を用いたニューラルネットワークのファインチューニングの詳細について説明する。

　ステップＳ２１において、ユーザは、上述した学習処理により学習した三次元表現のニューラルネットワークを用いて出力した任意視点画像の品質を、定量的な数値誤差と定性的な目視評価により確認する。これにより、ユーザは、３ＤＣＧ制作用アセットとしての品質に満たない領域を撮影領域として決定する。任意視点画像の品質は、情報処理装置１によって、ＰＳＮＲ（Peak Signal to Noise Ratio）に基づいて評価されてもよい。

　ステップＳ２２において、ユーザは、決定した撮影領域を基に、対応する屋外の場所へ出向き、実際に撮影を行う。すなわち、ユーザは、任意視点画像の中で品質の低かった画像の視点に対応する場所を重点的に撮影する。

　ステップＳ２３において、情報処理装置１の学習処理部２０は、実際に撮影した画像（最新画像）を用いて、三次元表現のニューラルネットワークのファインチューニングを行う。

　ステップＳ２４において、学習処理部２０は、ファインチューニングを行った三次元表現のニューラルネットワークを用いて、再び任意視点画像を出力する。

　以上のようなファインチューニングは、例えば、任意視点画像の品質としてより高い品質が必要とされる限り、ユーザに指定された視点について繰り返し行われる。すなわち、任意視点画像は、ユーザに指定された視点についての２Ｄ画像であってよい。

　図１０は、情報処理装置１における三次元表現ＤＮＮのファインチューニングによるＤＮＮ係数の更新の例を示す図である。

　上述した学習処理においては、３Ｄ地図データから、ユーザに指定された、映像制作に使用するカメラワークに応じた視点（座標）の２Ｄ画像とデプス画像をレンダリングし、三次元表現ＤＮＮを用いて学習することで、ＤＮＮ係数が得られる。カメラワークに応じた座標は、３Ｄ地図データにおける緯度、経度、および高さと、カメラの向きによって指定される。

　図１０に示されるように、情報処理装置１は、学習により得られたＤＮＮ係数を用いた推論（三次元表現ＤＮＮ推論）により、任意座標の画像（任意視点画像）を得ることができる。

　ユーザは、得られた任意視点画像の品質を確認することで、品質が低い視点（任意視点画像）を特定する。ユーザは、特定した視点に対応する撮影領域を決定し、その撮影領域に対応するロケ地において、カメラＣＡＭにより実際に撮影を行う。

　情報処理装置１は、カメラＣＡＭにより実際に撮影した画像と、３Ｄ地図データを基にした三次元表現ＤＮＮ推論の推論結果（任意視点画像）の誤差に基づいて、三次元表現ＤＮＮのファインチューニングを行うことで、ＤＮＮ係数を更新することができる。

　以上の処理によれば、実際に撮影した画像でニューラルネットワークによる三次元表現のファインチューニングを行うことができるので、三次元表現の高品質化を実現することが可能となる。特に、実際に映像制作に使用するカメラワークに沿って、所望の画像をニューラルネットワークにより出力して品質を確認し、より高い品質が必要であれば、当該カメラワーク周辺の画像で重点的にファインチューニングを行うことで、その品質を向上させることができる。さらには、高品質化された画像を３Ｄ地図データにフィードバックすることで、３Ｄ地図データを更新することも可能となる。

＜５．コンピュータの構成例＞
　上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図１１は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータにおいて、ＣＰＵ２０１，ＲＯＭ（Read Only Memory）２０２，ＲＡＭ（Random Access Memory）２０３は、バス２０４により相互に接続されている。

　バス２０４には、さらに、入出力インタフェース２０５が接続されている。入出力インタフェース２０５には、入力部２０６、出力部２０７、記憶部２０８、通信部２０９、およびドライブ２１０が接続されている。

　入力部２０６は、キーボード、マウス、マイクロフォンなどよりなる。出力部２０７は、ディスプレイ、スピーカなどよりなる。記憶部２０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部２０９は、ネットワークインタフェースなどよりなる。ドライブ２１０は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブルメディア２１１を駆動する。

　以上のように構成されるコンピュータでは、ＣＰＵ２０１が、例えば、記憶部２０８に記憶されているプログラムを、入出力インタフェース２０５およびバス２０４を介して、ＲＡＭ２０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（ＣＰＵ２０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア２１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブルメディア２１１をドライブ２１０に装着することにより、入出力インタフェース２０５を介して、記憶部２０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部２０９で受信し、記憶部２０８にインストールすることができる。その他、プログラムは、ＲＯＭ２０２や記憶部２０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。

　本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

　さらに、本開示は以下のような構成をとることができる。
（１）
　情報処理装置が、
　低精度三次元データから互いに異なる複数の視点を基準とした複数のデプス画像をレンダリングし、
　複数の前記デプス画像に基づいて、二次元画像から高精度三次元データを生成するニューラルネットワークの学習処理を行う
　学習方法。
（２）
　前記学習処理は、前記ニューラルネットワークによる三次元表現の学習を含む
　（１）に記載の学習方法。
（３）
　前記ニューラルネットワークによる三次元表現は、陰関数表現を含む
　（２）に記載の学習方法。
（４）
　前記学習処理は、Radiance Fieldsの学習を含む
　（３）に記載の学習方法。
（５）
　前記低精度三次元データから前記複数の視点を基準とした複数の前記二次元画像をさらにレンダリングし、
　複数の前記デプス画像と複数の前記二次元画像に基づいて、前記学習処理を行う
　（４）に記載の学習方法。
（６）
　前記Radiance Fieldsにおける、前記複数の視点に対応する物体の密度の積分値と、複数の前記デプス画像との誤差が最小となるように、陰関数を学習する
　（５）に記載の学習方法。
（７）
　前記Radiance Fieldsを用いたボリュームレンダリングにより得られた前記複数の視点に対応するレンダリング画像と、複数の前記二次元画像との誤差がさらに最小となるように、前記陰関数を学習する
　（６）に記載の学習方法。
（８）
　前記低精度三次元データから、ユーザに指定された視点を基準とした複数の前記デプス画像をレンダリングする
　（１）乃至（７）のいずれかに記載の学習方法。
（９）
　前記高精度三次元データに対応する実オブジェクトを撮影したオブジェクト画像を用いて、前記ニューラルネットワークのファインチューニングを行う
　（１）乃至（７）に記載の学習方法。
（１０）
　前記ニューラルネットワークを用いた推論により得られた任意の視点についての視点画像と、前記視点に対応する前記オブジェクト画像との誤差に基づいて、前記ニューラルネットワークのファインチューニングを行う
　（９）に記載の学習方法。
（１１）
　前記視点画像は、ユーザに指定された視点についての前記二次元画像である
　（１０）に記載の学習方法。
（１２）
　前記低精度三次元データは、三次元地図データを含む
　（１）に記載の学習方法。
（１３）
　低精度三次元データから互いに異なる複数の視点を基準とした複数のデプス画像をレンダリングするレンダリング部と、
　複数の前記デプス画像に基づいて、二次元画像から高精度三次元データを生成するニューラルネットワークの学習処理を行う学習処理部と
　を備える情報処理装置。
（１４）
　低精度三次元データから互いに異なる複数の視点を基準とした複数のデプス画像をレンダリングし、
　複数の前記デプス画像に基づいて、二次元画像から高精度三次元データを生成するニューラルネットワークの学習処理を行う
　処理を実行させるためのプログラムを記録した、コンピュータが読み取り可能な記録媒体。

　１　情報処理装置，　１０　レンダリング部，　２０　学習処理部，　３０　三次元地図データ，　４１　デプス画像，　４２　二次元画像，　５０　ＤＮＮ係数，　６０　最新画像

Claims

　情報処理装置が、
　低精度三次元データから互いに異なる複数の視点を基準とした複数のデプス画像をレンダリングし、
　複数の前記デプス画像に基づいて、二次元画像から高精度三次元データを生成するニューラルネットワークの学習処理を行う
　学習方法。
　前記学習処理は、前記ニューラルネットワークによる三次元表現の学習を含む
　請求項１に記載の学習方法。
　前記ニューラルネットワークによる三次元表現は、陰関数表現を含む
　請求項２に記載の学習方法。
　前記学習処理は、Radiance Fieldsの学習を含む
　請求項３に記載の学習方法。
　前記低精度三次元データから前記複数の視点を基準とした複数の前記二次元画像をさらにレンダリングし、
　複数の前記デプス画像と複数の前記二次元画像に基づいて、前記学習処理を行う
　請求項４に記載の学習方法。
　前記Radiance Fieldsにおける、前記複数の視点に対応する物体の密度の積分値と、複数の前記デプス画像との誤差が最小となるように、陰関数を学習する
　請求項５に記載の学習方法。
　前記Radiance Fieldsを用いたボリュームレンダリングにより得られた前記複数の視点に対応するレンダリング画像と、複数の前記二次元画像との誤差がさらに最小となるように、前記陰関数を学習する
　請求項６に記載の学習方法。
　前記低精度三次元データから、ユーザに指定された視点を基準とした複数の前記デプス画像をレンダリングする
　請求項１に記載の学習方法。
　前記高精度三次元データに対応する実オブジェクトを撮影したオブジェクト画像を用いて、前記ニューラルネットワークのファインチューニングを行う
　請求項１に記載の学習方法。
　前記ニューラルネットワークを用いた推論により得られた任意の視点についての視点画像と、前記視点に対応する前記オブジェクト画像との誤差に基づいて、前記ニューラルネットワークのファインチューニングを行う
　請求項９に記載の学習方法。
　前記視点画像は、ユーザに指定された視点についての前記二次元画像である
　請求項１０に記載の学習方法。
　前記低精度三次元データは、三次元地図データを含む
　請求項１に記載の学習方法。
　低精度三次元データから互いに異なる複数の視点を基準とした複数のデプス画像をレンダリングするレンダリング部と、
　複数の前記デプス画像に基づいて、二次元画像から高精度三次元データを生成するニューラルネットワークの学習処理を行う学習処理部と
　を備える情報処理装置。
　低精度三次元データから互いに異なる複数の視点を基準とした複数のデプス画像をレンダリングし、
　複数の前記デプス画像に基づいて、二次元画像から高精度三次元データを生成するニューラルネットワークの学習処理を行う
　処理を実行させるためのプログラムを記録した、コンピュータが読み取り可能な記録媒体。