WO2023171336A1 - 学習方法、情報処理装置、および記録媒体 - Google Patents

学習方法、情報処理装置、および記録媒体 Download PDF

Info

Publication number
WO2023171336A1
WO2023171336A1 PCT/JP2023/005920 JP2023005920W WO2023171336A1 WO 2023171336 A1 WO2023171336 A1 WO 2023171336A1 JP 2023005920 W JP2023005920 W JP 2023005920W WO 2023171336 A1 WO2023171336 A1 WO 2023171336A1
Authority
WO
WIPO (PCT)
Prior art keywords
learning
dimensional
precision
neural network
image
Prior art date
Application number
PCT/JP2023/005920
Other languages
English (en)
French (fr)
Inventor
和憲 神尾
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023171336A1 publication Critical patent/WO2023171336A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Definitions

  • the present disclosure relates to a learning method, an information processing device, and a recording medium, and particularly relates to a learning method, an information processing device, and a recording medium that enable high-speed learning using a neural network.
  • Patent Document 1 discloses a technique for updating a map of a portion related to a mismatch by matching a surrounding reference map with observation information in the real world.
  • the present disclosure has been made in view of this situation, and is intended to enable high-speed learning using neural networks.
  • an information processing device renders a plurality of depth images based on a plurality of mutually different viewpoints from low-precision three-dimensional data, and converts a two-dimensional image into a high-precision image based on the plurality of depth images.
  • This is a learning method that performs learning processing on a neural network that generates three-dimensional data.
  • the information processing device of the present disclosure includes a rendering unit that renders a plurality of depth images based on a plurality of different viewpoints from low-precision three-dimensional data, and a rendering unit that renders a plurality of depth images based on a plurality of mutually different viewpoints from low-precision three-dimensional data, and a high-precision three-dimensional
  • the information processing device includes a learning processing unit that performs learning processing of a neural network that generates original data.
  • a recording medium of the present disclosure renders a plurality of depth images based on a plurality of mutually different viewpoints from low-precision three-dimensional data, and generates high-precision three-dimensional data from a two-dimensional image based on the plurality of depth images.
  • a computer-readable recording medium that records a program for executing a neural network learning process.
  • a plurality of depth images based on a plurality of mutually different viewpoints are rendered from low-precision three-dimensional data, and a neural network generates high-precision three-dimensional data from the two-dimensional image based on the plurality of depth images.
  • Network learning processing is performed.
  • FIG. 1 is a block diagram showing an example of a functional configuration of an information processing device according to the present disclosure.
  • FIG. 2 is a diagram illustrating an overview of the functions of the information processing device. 2 is a flowchart illustrating an overview of the operation of the information processing device. It is a flowchart explaining the details of learning processing.
  • FIG. 2 is a diagram illustrating an overview of NeRF. It is a figure explaining improvement of NeRF using a depth image. It is a figure which shows the example of the inference result of a depth image. It is a figure which shows the example of the inference result of a two-dimensional image. It is a flowchart explaining the details of fine tuning.
  • FIG. 6 is a diagram illustrating an example of updating DNN coefficients by fine tuning.
  • 1 is a block diagram showing an example of the configuration of a computer.
  • FIG. 1 is a block diagram showing an example of the configuration of a computer.
  • FIG. 1 is a block diagram showing an example of the configuration of a
  • multi-view two-dimensional images and depth images rendered from low-precision three-dimensional data are used to perform learning processing of a neural network that generates high-precision three-dimensional data, thereby achieving high-speed Achieve effective learning.
  • the technology according to the present disclosure achieves high quality three-dimensional representation by fine-tuning a neural network using an image actually taken of a real object corresponding to high-precision three-dimensional data. .
  • FIG. 1 is a block diagram illustrating an example of a functional configuration of an information processing device according to the present disclosure.
  • the information processing device 1 in FIG. 1 is configured, for example, as a computer that operates by executing a predetermined program.
  • the information processing device 1 implements a rendering section 10 and a learning processing section 20 as functional blocks.
  • the rendering unit 10 and the learning processing unit 20 may be realized by separate information processing devices (computers).
  • the rendering unit 10 renders a plurality of two-dimensional images (2D images) based on a plurality of mutually different viewpoints from low-precision three-dimensional data (low-precision 3D data).
  • the 2D image is an RGB image, which is the same as an image captured by a general camera.
  • the rendering unit 10 renders a plurality of depth images based on a plurality of mutually different viewpoints from the low-precision 3D data.
  • the depth image is two-dimensional data having depth information (distance information) as pixel information for each pixel of the 2D image.
  • Low-precision 3D data is data of an object that has length, width, and height information, and is low-precision data that can express the outline of the object.
  • Objects may be moving objects such as cars and aircraft, buildings such as houses and buildings, stations and airports, structures such as roads, bridges, and tunnels, or may be entire cities that include these objects. .
  • the 3D low-precision data will be explained as three-dimensional map data that can represent each city as a whole.
  • the learning processing unit 20 extracts high-precision three-dimensional data (high-precision 3D data) corresponding to the low-precision 3D data from a two-dimensional image at an arbitrary viewpoint based on the plurality of depth images and the plurality of 2D images rendered by the rendering unit 10.
  • the learning process of the neural network that generates the data is performed. Specifically, the learning processing unit 20 learns the three-dimensional representation by the neural network by performing a learning process.
  • high-precision 3D data is high-precision data that can express objects in high definition.
  • the learning processing unit 20 performs fine-tuning of the three-dimensional representation by the neural network using an object image actually taken of a real object corresponding to the generated high-precision 3D data.
  • FIG. 2 is a diagram illustrating an overview of the functions of the information processing device 1 of FIG. 1. As shown in FIG.
  • Diagram A in FIG. 2 is a conceptual diagram of the functions of the information processing device 1 that executes learning processing using three-dimensional map data (3D map data).
  • the information processing device 1 renders a depth image 41 and a two-dimensional image 42 based on the viewpoint specified by the user from the 3D map data. Based on the depth image 41 and the two-dimensional image 42, the information processing device 1 acquires the DNN coefficient 50 by learning a deep neural network capable of three-dimensional expression (three-dimensional expression DNN).
  • Diagram B in FIG. 2 is a conceptual diagram of the function of the information processing device 1 that performs fine-tuning of a learned neural network using actually captured images.
  • the information processing device 1 acquires the latest image 60 taken from a viewpoint specified by the user in the real space corresponding to the 3D map data. Then, the information processing device 1 updates the DNN coefficient 50 by fine-tuning the three-dimensional representation DNN using the latest image 60.
  • FIG. 3 is a diagram illustrating an overview of the operation of the information processing device 1 in FIG. 1.
  • step S1 the information processing device 1 executes a learning process using 3D map data, as described with reference to FIG. 2A.
  • the learning process in step S1 may be repeated for each viewpoint specified by the user. Details of the learning process will be described later with reference to the flowchart in FIG.
  • step S2 the information processing device 1 performs fine tuning of the neural network using the latest image, as described with reference to diagram B in FIG.
  • the fine tuning in step S2 may also be repeatedly performed for each viewpoint specified by the user. Details of the fine tuning will be described later with reference to the flowchart of FIG. 9.
  • step S11 the information processing device 1 inputs 3D map data.
  • step S12 the rendering unit 10 of the information processing device 1 renders a 2D image and a depth image based on a plurality of viewpoints from the input 3D map data.
  • the viewpoint that faces the area in which the 3DCG production asset used for outdoor video production is desired to be created that is, the viewpoint specified by the user becomes the reference viewpoint.
  • 2D data is easier to handle and collect datasets than 3D data, so many tools that can handle 2D data and neural networks that learn using 2D data can be used.
  • step S13 the learning processing unit 20 performs learning using the three-dimensional representation DNN based on the 2D image and depth image based on multiple viewpoints obtained by rendering.
  • NeRF Neural Radiance Fields for View Synthesis
  • NeRF is a method that uses a neural network F ⁇ to learn Radiance Fields (colors RGB and their density ⁇ ), which are vector fields corresponding to the five dimensions of the target space (positions x, y, z and directions ⁇ , ⁇ ). It is.
  • NeRF Nethreon ⁇
  • F ⁇ the Radiance Fields output by the neural network F ⁇ for each point on the ray corresponding to the viewpoint direction.
  • F ⁇ the Radiance Fields output by the neural network F ⁇ for each point on the ray corresponding to the viewpoint direction.
  • one image is generated (volume rendering).
  • F ⁇ By updating F ⁇ so that the generated image and the actual image match, the rendering result approaches the actual image, and as a result, F ⁇ becomes a three-dimensional spatial representation (Radiance Fields).
  • the rendering result can be expressed as the color C seen from the focal point (viewpoint) of the ray r by the following equations (1) and (2).
  • T(t) represents a situation in which light traveling from a certain point to a focal point is blocked by a point located in front of it (on the focal point side). If there is a dense point in r(s) (t n ⁇ s ⁇ t), T(t) approaches 0 and the light emitted from r(t) no longer affects C.
  • volume rendering can be performed by integrating the product of color c and density ⁇ on the light ray.
  • the density ⁇ in Radiance Fields is also an index (existence probability) indicating that an object exists. Therefore, as shown in Equation (3) below, the depth D can be determined by integrating the density ⁇ of the object corresponding to the viewpoint on the ray.
  • FIG. 6 is a diagram illustrating the improvement of NeRF using a depth image according to the technology according to the present disclosure.
  • a 2D image (rendered The implicit function is learned so that the error between the image) and a pre-prepared GT (Ground Truth) image is minimized.
  • the GT image is a 2D image rendered from 3D map data.
  • the GT image is a depth image rendered from 3D map data.
  • the left side of Figure 7 shows the depth image inference result DMP0 using the coefficients learned by the conventional NeRF, and the right side of Figure 7 shows the depth image inference result using the coefficients learned by the improved NeRF. DMP1 is shown.
  • the improved NeRF can output a high-performance depth image that is appropriately estimated for the ceiling and back wall of the room.
  • the left side of Figure 8 shows the inference result IMG0 for a two-dimensional image (RGB image) using the coefficients learned by the conventional NeRF
  • the right side of Figure 8 shows the inference result IMG0 for the two-dimensional image (RGB image) using the coefficients learned by the improved NeRF.
  • a two-dimensional image inference result IMG1 is shown.
  • step S21 the user confirms the quality of the arbitrary viewpoint image output using the three-dimensional representation neural network learned through the above-described learning process by quantitative numerical error and qualitative visual evaluation. As a result, the user determines an area that does not meet the quality required as an asset for 3DCG production as a shooting area.
  • the quality of the arbitrary viewpoint image may be evaluated by the information processing device 1 based on PSNR (Peak Signal to Noise Ratio).
  • step S22 the user goes to the corresponding outdoor location based on the determined shooting area and actually takes pictures. That is, the user preferentially photographs a location corresponding to the viewpoint of the image with low quality among the arbitrary viewpoint images.
  • step S23 the learning processing unit 20 of the information processing device 1 performs fine tuning of the neural network for three-dimensional representation using the actually captured image (the latest image).
  • step S24 the learning processing unit 20 outputs the arbitrary viewpoint image again using the fine-tuned three-dimensional representation neural network.
  • the arbitrary viewpoint image may be a 2D image regarding a viewpoint specified by the user.
  • FIG. 10 is a diagram illustrating an example of updating the DNN coefficients by fine-tuning the three-dimensional representation DNN in the information processing device 1.
  • 2D images and depth images of viewpoints (coordinates) specified by the user according to the camera work used in video production are rendered from 3D map data, and learning is performed using the 3D representation DNN.
  • the DNN coefficient can be obtained. Coordinates according to camera work are specified by latitude, longitude, and height in 3D map data and the direction of the camera.
  • the information processing device 1 can obtain an image at arbitrary coordinates (an arbitrary viewpoint image) by inference using the DNN coefficients obtained through learning (three-dimensional representation DNN inference).
  • the user identifies a viewpoint (arbitrary viewpoint image) with low quality by checking the quality of the obtained arbitrary viewpoint image.
  • the user determines a photographing area corresponding to the specified viewpoint, and actually photographs using the camera CAM at a location corresponding to the photographing area.
  • the information processing device 1 fine-tunes the 3D representation DNN based on the error between the image actually captured by the camera CAM and the inference result (arbitrary viewpoint image) of the 3D representation DNN inference based on 3D map data. By doing so, the DNN coefficients can be updated.
  • the above processing it is possible to fine-tune the three-dimensional expression using the neural network using the actually captured image, so it is possible to achieve high quality three-dimensional expression.
  • we check the quality by outputting desired images using a neural network in line with the camerawork actually used in video production, and if higher quality is required, we focus on fine-tuning images around the camerawork.
  • the quality can be improved by tuning.
  • the series of processes described above can be executed by hardware or software.
  • the programs that make up the software are installed on the computer.
  • the computer includes a computer built into dedicated hardware and, for example, a general-purpose personal computer that can execute various functions by installing various programs.
  • FIG. 11 is a block diagram showing an example of the hardware configuration of a computer that executes the above-described series of processes using a program.
  • a CPU 201 In the computer, a CPU 201, a ROM (Read Only Memory) 202, and a RAM (Random Access Memory) 203 are interconnected by a bus 204.
  • a bus 204 In the computer, a CPU 201, a ROM (Read Only Memory) 202, and a RAM (Random Access Memory) 203 are interconnected by a bus 204.
  • An input/output interface 205 is further connected to the bus 204.
  • An input section 206 , an output section 207 , a storage section 208 , a communication section 209 , and a drive 210 are connected to the input/output interface 205 .
  • the input unit 206 consists of a keyboard, mouse, microphone, etc.
  • the output unit 207 includes a display, a speaker, and the like.
  • the storage unit 208 includes a hard disk, nonvolatile memory, and the like.
  • the communication unit 209 includes a network interface and the like.
  • the drive 210 drives a removable medium 211 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 201 executes the above-described series by, for example, loading a program stored in the storage unit 208 into the RAM 203 via the input/output interface 205 and the bus 204 and executing it. processing is performed.
  • a program executed by the computer (CPU 201) can be provided by being recorded on a removable medium 211 such as a package medium, for example. Additionally, programs may be provided via wired or wireless transmission media, such as local area networks, the Internet, and digital satellite broadcasts.
  • the program can be installed in the storage unit 208 via the input/output interface 205 by installing the removable medium 211 into the drive 210. Further, the program can be received by the communication unit 209 via a wired or wireless transmission medium and installed in the storage unit 208. Other programs can be installed in the ROM 202 or the storage unit 208 in advance.
  • the program executed by the computer may be a program in which processing is performed chronologically in accordance with the order described in this specification, in parallel, or at necessary timing such as when a call is made. It may also be a program that performs processing.
  • the present disclosure can take the following configuration.
  • the information processing device Render multiple depth images based on multiple different viewpoints from low-precision 3D data, A learning method that performs learning processing of a neural network that generates high-precision three-dimensional data from two-dimensional images based on the plurality of depth images.
  • the learning method according to (1) wherein the learning process includes learning a three-dimensional representation by the neural network.
  • the learning method according to (2) wherein the three-dimensional representation by the neural network includes an implicit function representation.
  • a rendering unit that renders multiple depth images based on multiple different viewpoints from low-precision three-dimensional data;
  • An information processing device comprising: a learning processing unit that performs learning processing of a neural network that generates high-precision three-dimensional data from two-dimensional images based on the plurality of depth images.
  • 1 Information processing device 10 Rendering unit, 20 Learning processing unit, 30 3D map data, 41 Depth image, 42 2D image, 50 DNN coefficient, 60 Latest image

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computer Graphics (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Geometry (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本開示は、ニューラルネットワークによる高速な学習を実現することができるようにする学習方法、情報処理装置、および記録媒体に関する。 情報処理装置は、低精度三次元データから互いに異なる複数の視点を基準とした複数のデプス画像をレンダリングし、複数のデプス画像に基づいて、二次元画像から高精度三次元データを生成するニューラルネットワークの学習処理を行う。本開示は、例えば、屋外の大規模な映像制作用3Dアセットを作成する技術に適用することができる。

Description

学習方法、情報処理装置、および記録媒体
 本開示は、学習方法、情報処理装置、および記録媒体に関し、特に、ニューラルネットワークによる高速な学習を実現できるようにする学習方法、情報処理装置、および記録媒体に関する。
 従来、カーナビゲーションシステムや自動運転に係る技術の進歩に合わせて三次元地図データの品質が高まっている。特許文献1には、周辺のリファレンス地図と実世界の観測情報のマッチングを行うことで、不整合に係る部分の地図を更新する技術が開示されている。
 ところで、3DCG映像の制作においては、屋外の大規模な映像制作用3Dアセットを作成するのに膨大な時間を要していたが、上述したような三次元地図データは映像作品に使える品質ではなかった。
 これに対して、近年、ニューラルネットワークを用いた学習により、多視点の画像から映像制作用3Dアセットのような任意視点の画像を高品質に作成することが可能となってきた。
特開2017-181870号公報
 しかしながら、画像のみに基づいたニューラルネットワークによる学習では収束に時間がかかってしまう。
 本開示は、このような状況に鑑みてなされたものであり、ニューラルネットワークによる高速な学習を実現できるようにするものである。
 本開示の学習方法は、情報処理装置が、低精度三次元データから互いに異なる複数の視点を基準とした複数のデプス画像をレンダリングし、複数の前記デプス画像に基づいて、二次元画像から高精度三次元データを生成するニューラルネットワークの学習処理を行う学習方法である。
 本開示の情報処理装置は、低精度三次元データから互いに異なる複数の視点を基準とした複数のデプス画像をレンダリングするレンダリング部と、複数の前記デプス画像に基づいて、二次元画像から高精度三次元データを生成するニューラルネットワークの学習処理を行う学習処理部とを備える情報処理装置である。
 本開示の記録媒体は、低精度三次元データから互いに異なる複数の視点を基準とした複数のデプス画像をレンダリングし、複数の前記デプス画像に基づいて、二次元画像から高精度三次元データを生成するニューラルネットワークの学習処理を行う処理を実行させるためのプログラムを記録した、コンピュータが読み取り可能な記録媒体である。
 本開示においては、低精度三次元データから互いに異なる複数の視点を基準とした複数のデプス画像がレンダリングされ、複数の前記デプス画像に基づいて、二次元画像から高精度三次元データを生成するニューラルネットワークの学習処理が行われる。
本開示に係る情報処理装置の機能構成例を示すブロック図である。 情報処理装置の機能の概要について説明する図である。 情報処理装置の動作の概要について説明するフローチャートである。 学習処理の詳細について説明するフローチャートである。 NeRFの概要について説明する図である。 デプス画像を用いたNeRFの改良について説明する図である。 デプス画像の推論結果の例を示す図である。 二次元画像の推論結果の例を示す図である。 ファインチューニングの詳細について説明するフローチャートである。 ファインチューニングによるDNN係数の更新の例を示す図である。 コンピュータの構成例を示すブロック図である。
 以下、本開示を実施するための形態(以下、実施の形態とする)について説明する。なお、説明は以下の順序で行う。
 1.従来技術の課題
 2.本開示に係る情報処理装置の概要
 3.3D地図データを利用した学習処理
 4.最新画像を用いたファインチューニング
 5.コンピュータの構成例
<1.従来技術の課題>
 従来、3DCG(三次元コンピュータグラフィックス)映像の制作においては、屋外の大規模な映像制作用3Dアセット(3DCG制作用アセット)を作成するのに膨大な時間を要していた。一方、一般的に三次元地図データが存在するものの、映像作品に使える品質ではなかった。
 その背景として、まず、撮影作業が大変であったり、手作業でCGを作成したりするなど、作業に多くの時間をかけていたことが挙げられる。次に、近年になって3DCG制作用アセットのニーズが高まり、また、CGが写真のような現実感のある描写に近づいてきたことが挙げられる。そして、三次元地図データは容易に手に入れられるものではなかったことも挙げられる。
 これに対して、近年、ニューラルネットワークを用いた学習により、多視点の画像から3DCG制作用アセットのような任意視点の画像を高品質に作成することが可能となってきた。しかしながら、この手法を屋外の大規模な映像制作に用いるには、やはり多くの撮影が必要であり、撮影作業に時間がかかる点は解消されない。特に、画像のみに基づいたニューラルネットワークによる学習では収束に時間がかかってしまうため、この手法により、屋外の大規模な3DCG制作用アセットを作成することは現実的ではない。
 そこで、本開示に係る技術においては、低精度三次元データからレンダリングした多視点の二次元画像とデプス画像を用いて、高精度三次元データを生成するニューラルネットワークの学習処理を行うことで、高速な学習を実現する。また、本開示に係る技術においては、高精度三次元データに対応する実オブジェクトを実際に撮影した画像を用いて、ニューラルネットワークのファインチューニングを行うことで、三次元表現の高品質化を実現する。
<2.本開示に係る情報処理装置の概要>
(情報処理装置の機能構成例)
 図1は、本開示に係る情報処理装置の機能構成例を示すブロック図である。
 図1の情報処理装置1は、例えば、所定のプログラムが実行されることで動作するコンピュータとして構成される。情報処理装置1は、機能ブロックとして、レンダリング部10と学習処理部20を実現する。レンダリング部10と学習処理部20は、それぞれ別個に構成される情報処理装置(コンピュータ)により実現されてもよい。
 レンダリング部10は、低精度な三次元データ(低精度3Dデータ)から、互いに異なる複数の視点を基準とした複数の二次元画像(2D画像)をレンダリングする。2D画像は、一般的なカメラにより撮影される画像と同じRGB画像である。また、レンダリング部10は、低精度3Dデータから、互いに異なる複数の視点を基準とした複数のデプス画像をレンダリングする。デプス画像は、2D画像の各画素の画素情報として深度情報(距離情報)を有する二次元データである。
 低精度3Dデータは、縦・横・高さの情報を有するオブジェクトのデータであって、オブジェクトの概形を表現できる程度の低精度なデータとされる。オブジェクトは、自動車や航空機などの移動物体、家屋やビル、駅や空港などの建築物、道路や橋梁、トンネルなどの構造物などであってもよいし、これらを含む都市全体であってもよい。
 以下においては、3D低精度データが、各都市全体を表現可能な三次元地図データであるものとして説明する。
 学習処理部20は、レンダリング部10によりレンダリングされた複数のデプス画像と複数の2D画像に基づいて、任意視点の二次元画像から低精度3Dデータに対応する高精度な三次元データ(高精度3Dデータ)を生成するニューラルネットワークの学習処理を行う。具体的には、学習処理部20は、学習処理を行うことにより、当該ニューラルネットワークによる三次元表現を学習する。
 高精度3Dデータは、低精度3Dデータとは異なり、オブジェクトを高精細に表現できる高精度なデータとされる。
 また、学習処理部20は、生成した高精度3Dデータに対応する実オブジェクトを実際に撮影したオブジェクト画像を用いて、当該ニューラルネットワークによる三次元表現のファインチューニングを行う。
(情報処理装置の機能および動作の概要)
 図2は、図1の情報処理装置1の機能の概要について説明する図である。
 図2のA図は、三次元地図データ(3D地図データ)を利用した学習処理を実行する情報処理装置1の機能を概念化した図である。
 情報処理装置1は、3D地図データから、ユーザに指定された視点を基準としたデプス画像41と二次元画像42をレンダリングする。そして、情報処理装置1は、デプス画像41と二次元画像42に基づいて、三次元表現可能なディープニューラルネットワーク(三次元表現DNN)の学習により、DNN係数50を取得する。
 図2のB図は、実際に撮影した画像を用いて、学習したニューラルネットワークのファインチューニングを行う情報処理装置1の機能を概念化した図である。
 情報処理装置1は、3D地図データに対応する実空間において、ユーザに指定された視点から撮影された最新画像60を取得する。そして、情報処理装置1は、最新画像60を用いて、三次元表現DNNのファインチューニングを行うことで、DNN係数50を更新する。
 図3は、図1の情報処理装置1の動作の概要について説明する図である。
 ステップS1において、情報処理装置1は、図2のA図を参照して説明したように、3D地図データを利用した学習処理を実行する。ステップS1における学習処理は、ユーザに指定された視点毎に繰り返し行われ得る。学習処理の詳細については、図4のフローチャートを参照して後述する。
 ステップS2において、情報処理装置1は、図2のB図を参照して説明したように、最新画像を用いたニューラルネットワークのファインチューニングを行う。ステップS2におけるファインチューニングもまた、ユーザに指定された視点毎に繰り返し行われ得るファインチューニングの詳細については、図9のフローチャートを参照して後述する。
 以下においては、情報処理装置1の各動作の詳細について説明する。
<3.3D地図データを利用した学習処理>
 まず、図4のフローチャートを参照して、情報処理装置1による3D地図データを利用した学習処理の詳細について説明する。
 ステップS11において、情報処理装置1は、3D地図データを入力する。
 上述したように、屋外の大規模な3DCG制作用アセットを作成するためには、多くの撮影が必要である一方、近年、インターネット上の公開データとして、3D地図データを容易に入手することができるようになった。これにより、撮影のために実際に屋外へ出向かなくとも、数年から数か月前程度の屋外の大まかな形状や情報を得ることができる。
 ステップS12において、情報処理装置1のレンダリング部10は、入力された3D地図データから、複数の視点を基準とした2D画像とデプス画像をレンダリングする。ここでは、屋外の映像制作に用いられる3DCG制作用アセットを作成したい領域を臨む視点(すなわち、ユーザに指定された視点)が、基準とする視点となる。
 このようにして、三次元データから二次元データ(2Dデータ)の2D画像を得ることで、実際に撮影したときと同じ形式の画像を得ることができる。また、2Dデータは、3Dデータと比較して扱いやすく、データセットを収集しやすいことから、2Dデータを扱えるツールや2Dデータを用いて学習するニューラルネットワークを多く利用することができる。
 ステップS13において、学習処理部20は、レンダリングにより得られた複数の視点を基準とした2D画像とデプス画像に基づいて、三次元表現DNNを用いて学習する。
 映像制作に用いられる3DCG制作用アセットは、カーナビゲーションシステムなどで用いられる3D地図データよりも高い映像品質が必要となる。そのため、三次元表現可能なニューラルネットワーク、例えば、三次元表現として、比較的少ない係数で任意の解像度の図形を表現できる陰関数表現を学習するニューラルネットワークを用いることが考えられる。ここでは、"Nerf:Representing Scenes as Neural Radiance Fields for View Synthesis"において提案されている手法(以下、NeRFという)を用いるものとする。
 ここで、図5を参照して、NeRFの概要について説明する。
 NeRFは、対象となる空間の5次元(位置x,y,zと方向θ,φ)に対応するベクトル場であるRadiance Fields(色RGBとその密度σ)を、ニューラルネットワークFΘにより学習する手法である。
 NeRFにおいては、視点方向に対応する光線上の各点について、ニューラルネットワークFΘによって出力されるRadiance Fieldsを積算することで1つの色が得られる。これを全ての画素に対して行うことで1枚の画像が生成される(ボリュームレンダリング)。生成された画像と実際の画像が一致するようにFΘを更新することで、レンダリング結果が実際の画像に近づいていき、結果として、FΘが三次元空間表現(Radiance Fields)となる。
 レンダリング結果は、空間上の各座標の色cを用いることで、光線rの焦点(視点)からみた色Cとして、以下の式(1),(2)で表すことができる。
Figure JPOXMLDOC01-appb-M000001
 
Figure JPOXMLDOC01-appb-M000002
 
 式(1),(2)において、tは焦点からの距離、t,tはそれぞれレンダリングにおいて考慮する距離の下限と上限を表す。T(t)は、ある点から焦点へと向かう光が、それより前(焦点側)に存在する点によって妨げられる状況を表す。r(s)(t<s<t)に密度の高い点があった場合、T(t)は0に近づき、r(t)から出た光はCに影響しなくなる。
 このようにして、色cと密度σの積を光線上で積分することにより、ボリュームレンダリングを行うことができる。
 さて、Radiance Fieldsにおける密度σは、物体が存在することを示す指標(存在確率)でもある。したがって、以下の式(3)に示されるように、視点に対応する物体の密度σを光線上で積分することで、デプスDを求めることができる。
Figure JPOXMLDOC01-appb-M000003
 
 図6は、本開示に係る技術によるデプス画像を用いたNeRFの改良について説明する図である。
 従来のNeRFでは、図6に示されるように、各視点に対応する空間上の位置x,y,zと方向θ,φについてボリューム化されたデータをレンダリングすることで得られた2D画像(レンダリング画像)と、あらかじめ用意されたGT(Ground Truth)画像の誤差が最小となるように、陰関数を学習する。本開示に係る技術においては、GT画像は、3D地図データからレンダリングされた2D画像となる。
 さらに、本開示に係る技術により改良されたNeRFでは、図6中破線で囲まれるように、各視点に対応する物体の密度(存在確率)σの積分値(デプス画像)と、あらかじめ用意されたGT画像の誤差が最小となるように、陰関数を学習する。本開示に係る技術においては、GT画像は、3D地図データからレンダリングされたデプス画像となる。
 上述したように、従来のNeRFのような画像のみに基づいたニューラルネットワークによる学習では収束に時間がかかってしまうため、この手法により、屋外の大規模な3DCG制作用アセットを作成することは現実的ではなかった。特に、平坦部が多い道路や建物の壁などは、学習の収束に時間がかかる要因であった。
 一方で、以上の処理によれば、3D地図データから2D画像だけでなくデプス画像がレンダリングされ、改良されたNeRFによって2D画像だけでなくデプス画像を利用した学習処理が行われる。これにより、学習速度を大幅に改善することができ、ニューラルネットワークによる高速な学習を実現することが可能となる。
 したがって、高精度3Dデータとして、屋外の大規模な3DCG制作用アセットを短時間で作成することが可能となる。また、3D地図データをニューラルネットワークの学習に利用することにより、撮影のために実際に屋外へ出向くなど、撮影作業に時間をかけることなく、3DCG制作用アセットを作成することができる。
 図7および図8を参照して、改良されたNeRFの効果について説明する。ここでは、NeRFにより学習した係数を用いた推論により、奥行きのある部屋を臨んだ視点の画像が得られるものとする。
 図7左には、従来のNeRFにより学習した係数を用いたデプス画像の推論結果DMP0が示されており、図7右には、改良されたNeRFにより学習した係数を用いたデプス画像の推論結果DMP1が示されている。
 推論結果DMP0で示されるように、従来のNeRFでは、部屋の天井や奥側の壁(中央から上側の白い部分)に対して適切に推定できておらず、平坦部における性能の低さが確認できる。一方、推論結果DMP1で示されるように、改良されたNeRFによれば、部屋の天井や奥側の壁に対して適切に推定された、性能の高いデプス画像を出力することができる。
 図8左には、従来のNeRFにより学習した係数を用いた二次元画像(RGB画像)の推論結果IMG0が示されており、図8右には、改良されたNeRFにより学習した係数を用いた二次元画像の推論結果IMG1が示されている。
 従来のNeRFでは、上述したようにデプス画像の性能が低いことから、推論結果IMG0のように、低品質な二次元画像しか得られない。一方、改良されたNeRFによれば、性能の高いデプス画像が得られるので、推論結果IMG1のように、部屋の様子を確認できるほどの高品質な二次元画像を得ることができる。
<4.最新画像を用いたファインチューニング>
 次に、図9のフローチャートを参照して、情報処理装置1による最新画像を用いたニューラルネットワークのファインチューニングの詳細について説明する。
 ステップS21において、ユーザは、上述した学習処理により学習した三次元表現のニューラルネットワークを用いて出力した任意視点画像の品質を、定量的な数値誤差と定性的な目視評価により確認する。これにより、ユーザは、3DCG制作用アセットとしての品質に満たない領域を撮影領域として決定する。任意視点画像の品質は、情報処理装置1によって、PSNR(Peak Signal to Noise Ratio)に基づいて評価されてもよい。
 ステップS22において、ユーザは、決定した撮影領域を基に、対応する屋外の場所へ出向き、実際に撮影を行う。すなわち、ユーザは、任意視点画像の中で品質の低かった画像の視点に対応する場所を重点的に撮影する。
 ステップS23において、情報処理装置1の学習処理部20は、実際に撮影した画像(最新画像)を用いて、三次元表現のニューラルネットワークのファインチューニングを行う。
 ステップS24において、学習処理部20は、ファインチューニングを行った三次元表現のニューラルネットワークを用いて、再び任意視点画像を出力する。
 以上のようなファインチューニングは、例えば、任意視点画像の品質としてより高い品質が必要とされる限り、ユーザに指定された視点について繰り返し行われる。すなわち、任意視点画像は、ユーザに指定された視点についての2D画像であってよい。
 図10は、情報処理装置1における三次元表現DNNのファインチューニングによるDNN係数の更新の例を示す図である。
 上述した学習処理においては、3D地図データから、ユーザに指定された、映像制作に使用するカメラワークに応じた視点(座標)の2D画像とデプス画像をレンダリングし、三次元表現DNNを用いて学習することで、DNN係数が得られる。カメラワークに応じた座標は、3D地図データにおける緯度、経度、および高さと、カメラの向きによって指定される。
 図10に示されるように、情報処理装置1は、学習により得られたDNN係数を用いた推論(三次元表現DNN推論)により、任意座標の画像(任意視点画像)を得ることができる。
 ユーザは、得られた任意視点画像の品質を確認することで、品質が低い視点(任意視点画像)を特定する。ユーザは、特定した視点に対応する撮影領域を決定し、その撮影領域に対応するロケ地において、カメラCAMにより実際に撮影を行う。
 情報処理装置1は、カメラCAMにより実際に撮影した画像と、3D地図データを基にした三次元表現DNN推論の推論結果(任意視点画像)の誤差に基づいて、三次元表現DNNのファインチューニングを行うことで、DNN係数を更新することができる。
 以上の処理によれば、実際に撮影した画像でニューラルネットワークによる三次元表現のファインチューニングを行うことができるので、三次元表現の高品質化を実現することが可能となる。特に、実際に映像制作に使用するカメラワークに沿って、所望の画像をニューラルネットワークにより出力して品質を確認し、より高い品質が必要であれば、当該カメラワーク周辺の画像で重点的にファインチューニングを行うことで、その品質を向上させることができる。さらには、高品質化された画像を3D地図データにフィードバックすることで、3D地図データを更新することも可能となる。
<5.コンピュータの構成例>
 上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図11は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU201,ROM(Read Only Memory)202,RAM(Random Access Memory)203は、バス204により相互に接続されている。
 バス204には、さらに、入出力インタフェース205が接続されている。入出力インタフェース205には、入力部206、出力部207、記憶部208、通信部209、およびドライブ210が接続されている。
 入力部206は、キーボード、マウス、マイクロフォンなどよりなる。出力部207は、ディスプレイ、スピーカなどよりなる。記憶部208は、ハードディスクや不揮発性のメモリなどよりなる。通信部209は、ネットワークインタフェースなどよりなる。ドライブ210は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブルメディア211を駆動する。
 以上のように構成されるコンピュータでは、CPU201が、例えば、記憶部208に記憶されているプログラムを、入出力インタフェース205およびバス204を介して、RAM203にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU201)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア211に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブルメディア211をドライブ210に装着することにより、入出力インタフェース205を介して、記憶部208にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部209で受信し、記憶部208にインストールすることができる。その他、プログラムは、ROM202や記憶部208に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
 本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
 さらに、本開示は以下のような構成をとることができる。
(1)
 情報処理装置が、
 低精度三次元データから互いに異なる複数の視点を基準とした複数のデプス画像をレンダリングし、
 複数の前記デプス画像に基づいて、二次元画像から高精度三次元データを生成するニューラルネットワークの学習処理を行う
 学習方法。
(2)
 前記学習処理は、前記ニューラルネットワークによる三次元表現の学習を含む
 (1)に記載の学習方法。
(3)
 前記ニューラルネットワークによる三次元表現は、陰関数表現を含む
 (2)に記載の学習方法。
(4)
 前記学習処理は、Radiance Fieldsの学習を含む
 (3)に記載の学習方法。
(5)
 前記低精度三次元データから前記複数の視点を基準とした複数の前記二次元画像をさらにレンダリングし、
 複数の前記デプス画像と複数の前記二次元画像に基づいて、前記学習処理を行う
 (4)に記載の学習方法。
(6)
 前記Radiance Fieldsにおける、前記複数の視点に対応する物体の密度の積分値と、複数の前記デプス画像との誤差が最小となるように、陰関数を学習する
 (5)に記載の学習方法。
(7)
 前記Radiance Fieldsを用いたボリュームレンダリングにより得られた前記複数の視点に対応するレンダリング画像と、複数の前記二次元画像との誤差がさらに最小となるように、前記陰関数を学習する
 (6)に記載の学習方法。
(8)
 前記低精度三次元データから、ユーザに指定された視点を基準とした複数の前記デプス画像をレンダリングする
 (1)乃至(7)のいずれかに記載の学習方法。
(9)
 前記高精度三次元データに対応する実オブジェクトを撮影したオブジェクト画像を用いて、前記ニューラルネットワークのファインチューニングを行う
 (1)乃至(7)に記載の学習方法。
(10)
 前記ニューラルネットワークを用いた推論により得られた任意の視点についての視点画像と、前記視点に対応する前記オブジェクト画像との誤差に基づいて、前記ニューラルネットワークのファインチューニングを行う
 (9)に記載の学習方法。
(11)
 前記視点画像は、ユーザに指定された視点についての前記二次元画像である
 (10)に記載の学習方法。
(12)
 前記低精度三次元データは、三次元地図データを含む
 (1)に記載の学習方法。
(13)
 低精度三次元データから互いに異なる複数の視点を基準とした複数のデプス画像をレンダリングするレンダリング部と、
 複数の前記デプス画像に基づいて、二次元画像から高精度三次元データを生成するニューラルネットワークの学習処理を行う学習処理部と
 を備える情報処理装置。
(14)
 低精度三次元データから互いに異なる複数の視点を基準とした複数のデプス画像をレンダリングし、
 複数の前記デプス画像に基づいて、二次元画像から高精度三次元データを生成するニューラルネットワークの学習処理を行う
 処理を実行させるためのプログラムを記録した、コンピュータが読み取り可能な記録媒体。
 1 情報処理装置, 10 レンダリング部, 20 学習処理部, 30 三次元地図データ, 41 デプス画像, 42 二次元画像, 50 DNN係数, 60 最新画像

Claims (14)

  1.  情報処理装置が、
     低精度三次元データから互いに異なる複数の視点を基準とした複数のデプス画像をレンダリングし、
     複数の前記デプス画像に基づいて、二次元画像から高精度三次元データを生成するニューラルネットワークの学習処理を行う
     学習方法。
  2.  前記学習処理は、前記ニューラルネットワークによる三次元表現の学習を含む
     請求項1に記載の学習方法。
  3.  前記ニューラルネットワークによる三次元表現は、陰関数表現を含む
     請求項2に記載の学習方法。
  4.  前記学習処理は、Radiance Fieldsの学習を含む
     請求項3に記載の学習方法。
  5.  前記低精度三次元データから前記複数の視点を基準とした複数の前記二次元画像をさらにレンダリングし、
     複数の前記デプス画像と複数の前記二次元画像に基づいて、前記学習処理を行う
     請求項4に記載の学習方法。
  6.  前記Radiance Fieldsにおける、前記複数の視点に対応する物体の密度の積分値と、複数の前記デプス画像との誤差が最小となるように、陰関数を学習する
     請求項5に記載の学習方法。
  7.  前記Radiance Fieldsを用いたボリュームレンダリングにより得られた前記複数の視点に対応するレンダリング画像と、複数の前記二次元画像との誤差がさらに最小となるように、前記陰関数を学習する
     請求項6に記載の学習方法。
  8.  前記低精度三次元データから、ユーザに指定された視点を基準とした複数の前記デプス画像をレンダリングする
     請求項1に記載の学習方法。
  9.  前記高精度三次元データに対応する実オブジェクトを撮影したオブジェクト画像を用いて、前記ニューラルネットワークのファインチューニングを行う
     請求項1に記載の学習方法。
  10.  前記ニューラルネットワークを用いた推論により得られた任意の視点についての視点画像と、前記視点に対応する前記オブジェクト画像との誤差に基づいて、前記ニューラルネットワークのファインチューニングを行う
     請求項9に記載の学習方法。
  11.  前記視点画像は、ユーザに指定された視点についての前記二次元画像である
     請求項10に記載の学習方法。
  12.  前記低精度三次元データは、三次元地図データを含む
     請求項1に記載の学習方法。
  13.  低精度三次元データから互いに異なる複数の視点を基準とした複数のデプス画像をレンダリングするレンダリング部と、
     複数の前記デプス画像に基づいて、二次元画像から高精度三次元データを生成するニューラルネットワークの学習処理を行う学習処理部と
     を備える情報処理装置。
  14.  低精度三次元データから互いに異なる複数の視点を基準とした複数のデプス画像をレンダリングし、
     複数の前記デプス画像に基づいて、二次元画像から高精度三次元データを生成するニューラルネットワークの学習処理を行う
     処理を実行させるためのプログラムを記録した、コンピュータが読み取り可能な記録媒体。
PCT/JP2023/005920 2022-03-11 2023-02-20 学習方法、情報処理装置、および記録媒体 WO2023171336A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-038305 2022-03-11
JP2022038305 2022-03-11

Publications (1)

Publication Number Publication Date
WO2023171336A1 true WO2023171336A1 (ja) 2023-09-14

Family

ID=87934964

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/005920 WO2023171336A1 (ja) 2022-03-11 2023-02-20 学習方法、情報処理装置、および記録媒体

Country Status (1)

Country Link
WO (1) WO2023171336A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017181870A (ja) * 2016-03-31 2017-10-05 ソニー株式会社 情報処理装置及び情報処理サーバ
JP2018124939A (ja) * 2017-02-03 2018-08-09 日本電信電話株式会社 画像合成装置、画像合成方法、及び画像合成プログラム
JP2021190970A (ja) * 2020-06-04 2021-12-13 日本放送協会 三次元画像処理装置及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017181870A (ja) * 2016-03-31 2017-10-05 ソニー株式会社 情報処理装置及び情報処理サーバ
JP2018124939A (ja) * 2017-02-03 2018-08-09 日本電信電話株式会社 画像合成装置、画像合成方法、及び画像合成プログラム
JP2021190970A (ja) * 2020-06-04 2021-12-13 日本放送協会 三次元画像処理装置及びプログラム

Similar Documents

Publication Publication Date Title
Moreau et al. Lens: Localization enhanced by nerf synthesis
CN107438866B (zh) 深度立体:学习从现实世界形象预测新视图
US9256980B2 (en) Interpolating oriented disks in 3D space for constructing high fidelity geometric proxies from point clouds
US8406509B2 (en) Three-dimensional surface generation method
CN113811920A (zh) 分布式姿势估计
KR101195942B1 (ko) 카메라 보정 방법 및 이를 이용한 3차원 물체 재구성 방법
US9171403B2 (en) Contour completion for augmenting surface reconstructions
US10477178B2 (en) High-speed and tunable scene reconstruction systems and methods using stereo imagery
US9767598B2 (en) Smoothing and robust normal estimation for 3D point clouds
US6661914B2 (en) Method of reconstruction of tridimensional scenes and corresponding reconstruction device and decoding system
CN108876814B (zh) 一种生成姿态流图像的方法
US20140132733A1 (en) Backfilling Points in a Point Cloud
US20140118482A1 (en) Method and apparatus for 2d to 3d conversion using panorama image
EP3349086A1 (en) Method and device for determining a trajectory within a 3d scene for a camera
KR100924716B1 (ko) 자유 시점 영상 재생을 위한 2차원/3차원 가상 시점 합성방법
EP3474185B1 (en) Classification of 2d images according to types of 3d arrangement
US11557086B2 (en) Three-dimensional (3D) shape modeling based on two-dimensional (2D) warping
WO2023164845A1 (zh) 三维重建方法、装置、系统及存储介质
Merras et al. Multi-view 3D reconstruction and modeling of the unknown 3D scenes using genetic algorithms
Maalej et al. Vanets meet autonomous vehicles: A multimodal 3d environment learning approach
CN110567441A (zh) 基于粒子滤波的定位方法、定位装置、建图及定位的方法
CN114820945A (zh) 基于稀疏采样的环拍图像到任意视点图像生成方法及系统
CN116228962A (zh) 大场景神经视图合成
CN114648640A (zh) 一种目标物单体化方法、装置、设备及存储介质
US20240005597A1 (en) Modelling an environment using image data

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23766515

Country of ref document: EP

Kind code of ref document: A1