WO2020080685A1 - Playing block depth map generation method and system using single image and depth network - Google Patents

Playing block depth map generation method and system using single image and depth network Download PDF

Info

Publication number
WO2020080685A1
WO2020080685A1 PCT/KR2019/012117 KR2019012117W WO2020080685A1 WO 2020080685 A1 WO2020080685 A1 WO 2020080685A1 KR 2019012117 W KR2019012117 W KR 2019012117W WO 2020080685 A1 WO2020080685 A1 WO 2020080685A1
Authority
WO
WIPO (PCT)
Prior art keywords
depth map
single image
play block
deep network
learning
Prior art date
Application number
PCT/KR2019/012117
Other languages
French (fr)
Korean (ko)
Inventor
고병철
남재열
이덕우
김상원
김나훈
Original Assignee
주식회사 파코웨어
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 파코웨어 filed Critical 주식회사 파코웨어
Publication of WO2020080685A1 publication Critical patent/WO2020080685A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • the present invention relates to a method and system for generating a play block depth map, and more particularly, to a method and system for generating a play block depth map using a single image and a deep network.
  • Depth map or depth map refers to a single image or a channel of an image that contains information related to the distance from the viewpoint to the object surface in a 3D computer graphic.
  • Stereo matching is a method of obtaining the disparity information corresponding to each pixel in a color image, which has the advantage that the depth of the image can be obtained by using only the color image, but in areas that are obscured by objects or areas that do not have texture
  • the disadvantage is that it is very difficult to obtain depth information.
  • a camera to which TOF (Time of Flight) technology is applied.
  • TOF Time of Flight
  • a depth camera emits infrared or light signals to an image, and measures the distance using a phase difference returned by the signal reflected by an object and outputs it as a depth image.
  • This method has the advantage that it is possible to obtain the depth of the scene in real time, but there is a problem in that there are many low resolution, image noise, and distortion of the output image.
  • Patent No. 10-0902353 (invention name: depth map estimation apparatus and method, intermediate image generation method using the same, and encoding method for multi-view video) have been disclosed.
  • the present invention has been proposed to solve the above problems of the previously proposed methods, without using a stereo camera or additional equipment, it is possible to generate a play block depth map using a single image and a deep network. It is an object of the present invention to provide a method and system for generating a play block depth map using a single image and a deep network.
  • a composite product neural network network can be used to effectively extract image characteristics for a single input image and predict depth information of the image. In particular, play is performed using the predicted depth information.
  • Another object is to provide a method and system for generating a play block depth map using a single image and a deep network capable of generating a block depth map.
  • step (1-1) predicting depth information of a single image for learning input to the deep network in step (1-1);
  • step (1-3) comparing the depth information predicted in step (1-2) with depth information of the learning single image.
  • step (1) More preferably, in step (1),
  • the deep network may be repeatedly learned until the result compared in step (1-3) falls within a preset error range.
  • step (2-2) predicting depth information of the single image input in step (2-1);
  • step (2) the ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇
  • a play block depth map can be generated with a video of 1 ⁇ 74 ⁇ 55.
  • the deep network Preferably, the deep network,
  • It can be a synthetic product neural network.
  • the synthetic product neural network network More preferably, the synthetic product neural network network,
  • Rectified linear unit can be used as the active function.
  • the synthetic product neural network network More preferably, the synthetic product neural network network,
  • a play block depth map can be generated using five convolution layers and two fully connected layers.
  • Max pooling can be used for the first and second layers.
  • (4) may further include the step of 3D modeling based on the play block depth map output in step (3).
  • a play block depth map generation system using a single image and a deep network according to the features of the present invention for achieving the above object
  • a deep network learning unit that learns a deep network using a single image for learning that knows depth information
  • a play block depth map generation unit for generating a play block depth map by inputting a single image into the deep network learned by the deep network learning unit;
  • a play block depth map output unit for outputting a play block depth map generated by the play block depth map generating unit.
  • the deep network learning unit Preferably, the deep network learning unit,
  • a learning input module for inputting a single image for learning the depth information into a deep network
  • a learning prediction module for predicting depth information of a single learning image input to the deep network by the learning input module
  • a learning comparison module that compares depth information predicted by the learning prediction module with depth information of the learning single image.
  • the deep network learning unit More preferably, the deep network learning unit,
  • the deep network may be repeatedly learned until a result compared by the learning comparison module falls within a preset error range.
  • the play block depth map generating unit Preferably, the play block depth map generating unit,
  • An input module for inputting a single image into the deep network learned by the deep network learning unit
  • a generation module may generate a play block depth map using depth information predicted by the prediction module.
  • the play block depth map generating unit Preferably, the play block depth map generating unit,
  • a play block depth map can be generated with a video of 1 ⁇ 74 ⁇ 55.
  • the deep network Preferably, the deep network,
  • It can be a synthetic product neural network.
  • the synthetic product neural network network More preferably, the synthetic product neural network network,
  • Rectified linear unit can be used as the active function.
  • the synthetic product neural network network More preferably, the synthetic product neural network network,
  • a play block depth map can be generated using five convolution layers and two fully connected layers.
  • Max pooling can be used for the first and second layers.
  • it may further include a 3D modeling unit for 3D modeling based on the play block depth map output by the play block depth map output unit.
  • a play block depth map is generated using a single image and a deep network without using a stereo camera or additional additional equipment. Can be created.
  • a deep network a composite product neural network network is used to effectively extract a feature of an image from a single input image. And, it is possible to predict the depth information of the image, in particular, it is possible to generate a play block depth map using the predicted depth information.
  • FIG. 1 is a flowchart illustrating a method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention.
  • FIG. 2 is a diagram illustrating a multi-layer perceptron (MLP) network among deep networks.
  • MLP multi-layer perceptron
  • FIG. 3 is a diagram illustrating a detailed flow of step S100 in a method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention.
  • step S200 is a diagram illustrating a detailed flow of step S200 in a method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention.
  • FIG. 5 is a diagram illustrating the structure of a composite product neural network used in a method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention.
  • FIG. 6 is a view showing a single image input in step S210 of a method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention.
  • step S220 is a diagram illustrating depth information predicted through step S220 of a method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention.
  • FIG. 8 is a diagram illustrating a play block depth map generated through step S230 of a method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention.
  • FIG. 9 is a diagram illustrating 3D modeling based on a play block depth map output through a play block depth map generation method using a single image and a deep network according to an embodiment of the present invention.
  • FIG. 10 is a diagram illustrating the configuration of a play block depth map generation system using a single image and a deep network according to an embodiment of the present invention.
  • FIG. 11 is a diagram showing a detailed configuration of a deep network learning unit in a system for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention.
  • FIG. 12 is a diagram illustrating a detailed configuration of a play block depth map generating unit in a play block depth map generation system using a single image and a deep network according to an embodiment of the present invention.
  • step S200 generating a play block depth map by inputting a single image into the deep network learned in step S100
  • step S210 inputting a single image into the deep network learned in step S100
  • Each step of the method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention may be performed by a computer device.
  • the subject may be omitted in each step.
  • a method for generating a depth map of a play block using a single image and a deep network comprises: learning a deep network using a single image for learning depth information (S100) ), Generating a play block depth map by inputting a single image into the deep network learned in step S100 (S200), and outputting a play block depth map generated in step S200 (S300). 3D modeling based on the play block depth map output in step S300 (S400).
  • ANN Artificial Neural Network
  • the artificial neural network refers to an entire network that has problem-solving ability by changing the strength of synaptic binding through learning by artificial neurons (nodes) that form a network through synaptic binding. In a narrow sense, it may refer to a multi-layer perceptron using error back propagation, but this is a misuse, and the artificial neural network is not limited thereto.
  • a deep network or a deep neural network is an artificial neural network composed of several hidden layers between an input layer and an output layer.
  • Deep networks can model complex non-linear relationships, just like a normal artificial neural network.
  • each object may be represented by a hierarchical configuration of basic elements of an image, where additional layers can aggregate features of progressively gathered lower layers. This feature of the deep network allows modeling of complex data with fewer units than a similarly performed artificial neural network.
  • FIG. 2 is a diagram illustrating a multi-layer perceptron (MLP) network among deep networks.
  • the MLP network is a neural network in which one or more intermediate layers exist between the input layer and the output layer, and the intermediate layer between the input layer and the output layer is called a hidden layer.
  • the network is connected to the input layer, the hidden layer, and the output layer, and there is no direct connection from each layer to the input layer from the output layer.
  • the MLP network has a structure similar to that of the single-layer perceptron, but improves the network capability by overcoming the input / output characteristics of the middle layer and each unit to overcome various disadvantages of the single-layer perceptron.
  • the characteristics of the crystal region formed by perceptrons become more advanced. More specifically, in the case of a single layer, the pattern space is divided into two sections, and in the case of the second floor, a convex open zone or a concave closed zone is formed, and in the case of the third floor, any type of zone may be formed in theory.
  • the Convolutional Neural Network is a type of MLP network designed to use minimal preprocessing.
  • the composite product neural network network is a neural network network composed of one or several convolutional layers, a pooling layer, and a fully connected layer, and has a structure suitable for learning two-dimensional data. In addition, it can be trained through a backpropagation algorithm, so it can be widely used in various application fields such as object classification in image and object detection.
  • the convolution layer can serve to extract features from the input data.
  • the convolution layer may consist of a filter that functions to extract features and an activation function that converts the values extracted from the filter into nonlinear values.
  • Synthetic product neural network networks can be trained through gradient descent and backpropagation algorithms.
  • the gradient descent method is an optimization algorithm for first-order approximation values. It is a method of finding the gradient (slope) of a function and continuously moving the gradient to the lower side and repeating it until an extreme value is reached.
  • the backpropagation algorithm is used for multi-layer perceptron learning It refers to a statistical technique, which is a method of adjusting individual weights so that a desired value is output for the same input layer.
  • step S100 a deep network may be trained using a single image for learning in which depth information is known.
  • 3 is a diagram illustrating a detailed flow of step S100 in a method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention.
  • step S100 of a method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention includes inputting a single image for learning depth information into a deep network ( S110), including the step of predicting the depth information of the learning single image input to the deep network in step S110 (S120), and comparing the depth information predicted in step S120 with the depth information of the learning single image (S130) Can be implemented.
  • a single image for learning may be input to the deep network. Since the method for generating a play block depth map using a single image and a deep network proposed in the present invention generates a play block depth map using a deep network, first, a single image for learning to know depth information is required to learn a deep network. You can enter it in the deep network.
  • the single image for learning may be an RGB image, but the single image for learning is not limited to the RGB image.
  • step S120 depth information of a single image for learning input to the deep network in step S110 may be predicted. More specifically, in step S120 of the method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention, depth information of a single image for learning input in step S110 may be predicted through a deep network.
  • step S130 depth information predicted in step S120 may be compared with depth information of a single image for learning. More specifically, since the depth information of the learning single image input in step S110 is already known, it is possible to compare the depth information predicted in step S120 with the depth information of the learning single image already known.
  • the preset error range may be ⁇ 5%, but the above-described error range is not limited to ⁇ 5%.
  • step S200 a single image may be input to the deep network learned in step S100 to generate a play block depth map.
  • 4 is a diagram illustrating a detailed flow of step S200 in a method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention.
  • step S200 of a method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention includes inputting a single image into the deep network learned in step S100 (S210) ), Predicting depth information of the single image input in step S210 (S220), and generating a play block depth map using depth information predicted in step S220 (S230).
  • a method of generating a play block depth map using a single image and a deep network is a deep network, predicting depth information of a single image input using a synthetic multi-network neural network, and generating a play block depth map can do.
  • FIG. 5 is a diagram illustrating the structure of a composite product neural network network used in a method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention.
  • the synthetic product neural network network used in the present invention is composed of 5 convolution layers and 2 fully connected layers, and includes 5 convolutional layers. Max pooling can be used for the first and second layers.
  • step S210 a single image is input to the composite product neural network that is the deep network learned in step S100, and in step S220, depth information of the single image input in step S210 is predicted through the composite product neural network, and step S230 In, it is possible to generate a play block depth map using the depth information predicted in step S220.
  • FIG. 6 is a diagram illustrating a single image input in step S210 of a method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention.
  • a single image may be input to the deep network learned in step S100.
  • the single image input to the learned deep network does not have to be in the form of a play block as shown in FIG. 6, and may include various images including pictures drawn by young children.
  • step S220 of a method for generating a play block depth map using a single image and a deep network is a diagram illustrating depth information predicted through step S220 of a method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention.
  • step S220 of a method for generating a play block depth map using a single image and a deep network is a method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention.
  • depth information of a single image input in step S210 through a synthetic product neural network network Can predict.
  • depth information of a single image input through step S210 may be predicted in step S220 through a synthetic product neural network network composed of 5 convolutional layers and 2 fully connected layers.
  • the results of all layers except the last layer may use a rectified linear unit as the active function, and max pooling may be used for the first and second layers.
  • Dropout in the sixth layer it is possible to improve the generalization performance of the synthetic multiplicity neural network.
  • the play block of the method for generating a play block depth map using a single image and a deep network proposed in the present invention is used when children play, and means a toy made to stack up, and the play block depth map is a single video Denotes a depth map generated in the form of a play block.
  • step S230 of a method for generating a play block depth map using a single image and a deep network is generated using depth information predicted in step S220. can do.
  • all parts marked in red have the same depth of the play block.
  • the linearized image of 1 ⁇ 4070 is output from the last layer of the composite product neural network, the output image is rearranged to 1 ⁇ 74 ⁇ 55 and reconstructed, then labeling the reconstructed image to play block depth You can create a map.
  • step S300 the play block depth map generated in step S200 may be output. More specifically, the method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention, for a single image input through step S210, includes a play block depth map through a composite multi-neural network. You can generate and output the result generated in step S300.
  • step S400 3D modeling may be performed based on the play block depth map output in step S300.
  • 9 is a diagram illustrating a state in which 3D modeling is performed based on a play block depth map output through a play block depth map generation method using a single image and a deep network according to an embodiment of the present invention.
  • 3D modeling is performed based on the play block depth map output in step S300.
  • a three-dimensional form of play block can be output.
  • the play block depth map generation system 10 using a single image and a deep network includes a deep network learning unit 100 and a play block depth map generation unit 200 ) And a play block depth map output unit 300.
  • the play block depth map generation system 10 using a single image and a deep network learns a deep network by learning a deep network using a single image for learning depth information.
  • the play block depth map generation unit 200 and the play block depth map generation unit 200 for generating a play block depth map by inputting a single image into the deep network learned by the deep network learning unit 100 May include a play block depth map output unit 300 for outputting a play block depth map generated by), and a 3D based on a play block depth map output by the play block depth map output unit 300. It may be configured to further include a 3D modeling unit 400 to model.
  • the deep network learning unit 100 is a learning single that knows depth information.
  • a learning input module 110 for inputting an image into a deep network
  • a learning prediction module 120 for predicting depth information of a single image for learning input into the deep network by the learning input module 110
  • a learning prediction module 120 It may be configured to include a learning comparison module 130 for comparing the depth information predicted by the depth information of the learning single image.
  • the play block depth map generation unit 200 includes a deep network learning unit ( 100), the prediction module 220 for predicting depth information of a single image input to the input module 210, the input module 210 for inputting a single image into the deep network learned by the prediction module 220 It may be configured to include a generation module 230 for generating a play block depth map using the depth information.
  • the system 10 for generating a play block depth map using a single image and a deep network relates to a method for generating a play block depth map using a single video and a deep network according to an embodiment of the present invention. Since it has been sufficiently described, a detailed description will be omitted.
  • a single image and a deep network without using a stereo camera or additional additional equipment A play block depth map can be generated using.
  • a composite multi-neural network can be used to effectively extract image characteristics and predict depth information of an image with respect to a single input image, and in particular, use predicted depth information. You can create a play block depth map.

Abstract

According to playing block depth map generation method and system using a single image and depth network proposed in the present invention, a playing block depth map can be generated by means of a single image and a depth network without using a stereo camera or a separate additional device.

Description

단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법 및 시스템Method and system for generating depth map of play blocks using a single image and deep network
본 발명은 놀이 블록 깊이 맵 생성 방법 및 시스템에 관한 것으로서, 보다 구체적으로는 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법 및 시스템에 관한 것이다.The present invention relates to a method and system for generating a play block depth map, and more particularly, to a method and system for generating a play block depth map using a single image and a deep network.
깊이 맵(depth map) 또는 깊이 지도는 3차원 컴퓨터 그래픽에서 관찰 시점(viewpoint)으로부터 물체 표면과의 거리와 관련된 정보가 담긴 하나의 영상 또는 영상의 한 채널을 말한다.Depth map or depth map refers to a single image or a channel of an image that contains information related to the distance from the viewpoint to the object surface in a 3D computer graphic.
영상의 깊이 정보를 구하는 가장 일반적인 방법은 두 대의 카메라에서 촬영된 양안식 색상 영상만을 이용하는 스테레오 정합(stereo matching) 방법이다. 스테레오 정합은 색상 영상에서 각 화소에 해당하는 변위(disparity) 정보를 구하는 방법으로, 색상 영상만 가지고도 영상의 깊이를 구할 수 있다는 장점이 있으나, 객체에 의해 가려져있는 영역, 텍스처가 없는 영역 등에서는 깊이 정보를 구하기가 매우 어렵다는 단점이 있다.The most common method for obtaining depth information of an image is a stereo matching method using only binocular color images captured by two cameras. Stereo matching is a method of obtaining the disparity information corresponding to each pixel in a color image, which has the advantage that the depth of the image can be obtained by using only the color image, but in areas that are obscured by objects or areas that do not have texture The disadvantage is that it is very difficult to obtain depth information.
또한, TOF(Time of Flight) 기술이 적용된 카메라를 이용하여 영상 내 물체들의 거리를 직접 측정할 수도 있다. 이러한 카메라를 깊이 카메라라고 부르는데, 깊이 카메라는 적외선 또는 광 신호를 영상에 방사하고, 그 신호가 물체에 반사되어 돌아오는 위상차를 이용하여 거리를 측정하여 깊이 영상으로 출력한다. 이와 같은 방법은, 실시간으로 장면의 깊이를 얻을 수 있다는 장점이 있지만, 출력영상의 낮은 해상도, 영상 잡음, 왜곡 등이 많다는 문제점이 있다.In addition, it is also possible to directly measure the distance of objects in an image by using a camera to which TOF (Time of Flight) technology is applied. Such a camera is called a depth camera, and the depth camera emits infrared or light signals to an image, and measures the distance using a phase difference returned by the signal reflected by an object and outputs it as a depth image. This method has the advantage that it is possible to obtain the depth of the scene in real time, but there is a problem in that there are many low resolution, image noise, and distortion of the output image.
하지만, 위와 같은 방법들은 스테레오 카메라 혹은 별도의 부가적인 장비를 이용해야 영상의 깊이 정보를 획득할 수 있다. 따라서, 스테레오 카메라 혹은 별도의 부가적인 장비를 이용하지 않고, 단일 영상만으로 깊이 정보를 추출할 수 있는 방법 및 시스템의 개발이 요구된다.However, the above methods require the use of a stereo camera or a separate additional device to obtain depth information of the image. Accordingly, there is a need to develop a method and a system capable of extracting depth information using only a single image without using a stereo camera or additional additional equipment.
한편, 본 발명과 관련된 선행기술로서, 등록특허 제10-0902353호(발명의 명칭: 깊이 맵 추정 장치와 방법, 이를 이용한 중간 영상 생성 방법 및 다시점 비디오의 인코딩 방법) 등이 개시된 바 있다.On the other hand, as a prior art related to the present invention, Patent No. 10-0902353 (invention name: depth map estimation apparatus and method, intermediate image generation method using the same, and encoding method for multi-view video) have been disclosed.
본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 스테레오 카메라 혹은 별도의 부가적인 장비를 이용하지 않고, 단일 영상과 심층 네트워크를 이용하여 놀이 블록 깊이 맵을 생성할 수 있는, 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법 및 시스템을 제공하는 것을 그 목적으로 한다.The present invention has been proposed to solve the above problems of the previously proposed methods, without using a stereo camera or additional equipment, it is possible to generate a play block depth map using a single image and a deep network. It is an object of the present invention to provide a method and system for generating a play block depth map using a single image and a deep network.
또한, 본 발명은, 심층 네트워크로서, 합성 곱 신경망 네트워크를 사용하여, 입력된 단일 영상에 대하여 효과적으로 영상의 특징을 추출하고 영상의 깊이 정보를 예측할 수 있으며, 특히, 예측된 깊이 정보를 이용하여 놀이 블록 깊이 맵을 생성할 수 있는, 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법 및 시스템을 제공하는 것을 다른 목적으로 한다.In addition, according to the present invention, as a deep network, a composite product neural network network can be used to effectively extract image characteristics for a single input image and predict depth information of the image. In particular, play is performed using the predicted depth information. Another object is to provide a method and system for generating a play block depth map using a single image and a deep network capable of generating a block depth map.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법은,A method of generating a depth map of a play block using a single image and a deep network according to the features of the present invention for achieving the above object,
놀이 블록 깊이 맵 생성 방법으로서,As a method of generating a play block depth map,
(1) 깊이 정보를 알고 있는 학습용 단일 영상을 이용하여 심층 네트워크를 학습하는 단계;(1) learning a deep network using a single image for learning that knows depth information;
(2) 상기 단계 (1)에서 학습된 심층 네트워크에 단일 영상을 입력하여 놀이 블록 깊이 맵을 생성하는 단계; 및(2) generating a play block depth map by inputting a single image into the deep network learned in step (1); And
(3) 상기 단계 (2)에서 생성된 놀이 블록 깊이 맵을 출력하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.And (3) outputting the play block depth map generated in step (2).
바람직하게는, 상기 단계 (1)은,Preferably, the step (1),
(1-1) 깊이 정보를 알고 있는 학습용 단일 영상을 심층 네트워크에 입력하는 단계;(1-1) inputting a single image for learning the depth information into the deep network;
(1-2) 상기 단계 (1-1)에서 상기 심층 네트워크에 입력된 학습용 단일 영상의 깊이 정보를 예측하는 단계; 및(1-2) predicting depth information of a single image for learning input to the deep network in step (1-1); And
(1-3) 상기 단계 (1-2)에서 예측된 깊이 정보와 상기 학습용 단일 영상의 깊이 정보를 비교하는 단계를 포함할 수 있다.(1-3) comparing the depth information predicted in step (1-2) with depth information of the learning single image.
더욱 바람직하게는, 상기 단계 (1)에 있어서,More preferably, in step (1),
상기 단계 (1-3)에서 비교된 결과가 미리 설정된 오차범위 내에 해당할 때까지 반복적으로 상기 심층 네트워크를 학습할 수 있다.The deep network may be repeatedly learned until the result compared in step (1-3) falls within a preset error range.
바람직하게는, 상기 단계 (2)는,Preferably, the step (2),
(2-1) 상기 단계 (1)에서 학습된 심층 네트워크에 단일 영상을 입력하는 단계;(2-1) inputting a single image into the deep network learned in step (1);
(2-2) 상기 단계 (2-1)에서 입력된 단일 영상의 깊이 정보를 예측하는 단계; 및(2-2) predicting depth information of the single image input in step (2-1); And
(2-3) 상기 단계 (2-2)에서 예측된 깊이 정보를 이용하여 놀이 블록 깊이 맵을 생성하는 단계를 포함할 수 있다.(2-3) generating a play block depth map using the depth information predicted in the step (2-2).
바람직하게는, 상기 단계 (2)에서는,Preferably, in step (2),
1×74×55의 영상으로 놀이 블록 깊이 맵을 생성할 수 있다.A play block depth map can be generated with a video of 1 × 74 × 55.
바람직하게는, 상기 심층 네트워크는,Preferably, the deep network,
합성 곱 신경망 네트워크일 수 있다.It can be a synthetic product neural network.
더욱 바람직하게는, 상기 합성 곱 신경망 네트워크는,More preferably, the synthetic product neural network network,
활성함수로 Rectified linear unit을 사용할 수 있다.Rectified linear unit can be used as the active function.
더욱 바람직하게는, 상기 합성 곱 신경망 네트워크는,More preferably, the synthetic product neural network network,
5개의 콘볼루션 레이어(Convolution layers) 및 2개의 완전 연결 레이어(fully connected layers)를 이용하여 놀이 블록 깊이 맵을 생성할 수 있다.A play block depth map can be generated using five convolution layers and two fully connected layers.
더더욱 바람직하게는, 상기 5개의 콘볼루션 레이어(Convolution layers)에 있어서,Even more preferably, in the five convolution layers (Convolution layers),
첫 번째 및 두 번째 레이어(layers)에 맥스 풀링(Max pooling)이 사용될 수 있다.Max pooling can be used for the first and second layers.
바람직하게는, (4) 상기 단계 (3)에서 출력된 놀이 블록 깊이 맵을 기반으로 3D 모델링하는 단계를 더 포함할 수 있다.Preferably, (4) may further include the step of 3D modeling based on the play block depth map output in step (3).
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 시스템은,A play block depth map generation system using a single image and a deep network according to the features of the present invention for achieving the above object,
놀이 블록 깊이 맵 생성 시스템으로서,As a play block depth map generation system,
깊이 정보를 알고 있는 학습용 단일 영상을 이용하여 심층 네트워크를 학습하는 심층 네트워크 학습부;A deep network learning unit that learns a deep network using a single image for learning that knows depth information;
상기 심층 네트워크 학습부에 의해 학습된 심층 네트워크에 단일 영상을 입력하여 놀이 블록 깊이 맵을 생성하는 놀이 블록 깊이 맵 생성부; 및A play block depth map generation unit for generating a play block depth map by inputting a single image into the deep network learned by the deep network learning unit; And
상기 놀이 블록 깊이 맵 생성부에 의해 생성된 놀이 블록 깊이 맵을 출력하는 놀이 블록 깊이 맵 출력부를 포함하는 것을 그 구성상의 특징으로 한다.And a play block depth map output unit for outputting a play block depth map generated by the play block depth map generating unit.
바람직하게는, 상기 심층 네트워크 학습부는,Preferably, the deep network learning unit,
깊이 정보를 알고 있는 학습용 단일 영상을 심층 네트워크에 입력하는 학습용 입력 모듈;A learning input module for inputting a single image for learning the depth information into a deep network;
상기 학습용 입력 모듈에 의해 상기 심층 네트워크에 입력된 학습용 단일 영상의 깊이 정보를 예측하는 학습용 예측 모듈; 및A learning prediction module for predicting depth information of a single learning image input to the deep network by the learning input module; And
상기 학습용 예측 모듈에 의해 예측된 깊이 정보와 상기 학습용 단일 영상의 깊이 정보를 비교하는 학습용 비교 모듈을 포함할 수 있다.And a learning comparison module that compares depth information predicted by the learning prediction module with depth information of the learning single image.
더욱 바람직하게는, 상기 심층 네트워크 학습부는,More preferably, the deep network learning unit,
상기 학습용 비교 모듈에 의해 비교된 결과가 미리 설정된 오차범위 내에 해당할 때까지 반복적으로 상기 심층 네트워크를 학습할 수 있다.The deep network may be repeatedly learned until a result compared by the learning comparison module falls within a preset error range.
바람직하게는, 상기 놀이 블록 깊이 맵 생성부는,Preferably, the play block depth map generating unit,
상기 심층 네트워크 학습부에 의해 학습된 심층 네트워크에 단일 영상을 입력하는 입력 모듈;An input module for inputting a single image into the deep network learned by the deep network learning unit;
상기 입력 모듈에 입력된 단일 영상의 깊이 정보를 예측하는 예측 모듈; 및A prediction module for predicting depth information of a single image input to the input module; And
상기 예측 모듈에서 예측된 깊이 정보를 이용하여 놀이 블록 깊이 맵을 생성하는 생성 모듈을 포함할 수 있다.A generation module may generate a play block depth map using depth information predicted by the prediction module.
바람직하게는, 상기 놀이 블록 깊이 맵 생성부는,Preferably, the play block depth map generating unit,
1×74×55의 영상으로 놀이 블록 깊이 맵을 생성할 수 있다.A play block depth map can be generated with a video of 1 × 74 × 55.
바람직하게는, 상기 심층 네트워크는,Preferably, the deep network,
합성 곱 신경망 네트워크일 수 있다.It can be a synthetic product neural network.
더욱 바람직하게는, 상기 합성 곱 신경망 네트워크는,More preferably, the synthetic product neural network network,
활성함수로 Rectified linear unit을 사용할 수 있다.Rectified linear unit can be used as the active function.
더욱 바람직하게는, 상기 합성 곱 신경망 네트워크는,More preferably, the synthetic product neural network network,
5개의 콘볼루션 레이어(Convolution layers) 및 2개의 완전 연결 레이어(fully connected layers)를 이용하여 놀이 블록 깊이 맵을 생성할 수 있다.A play block depth map can be generated using five convolution layers and two fully connected layers.
더더욱 바람직하게는, 상기 5개의 콘볼루션 레이어(Convolution layers)에 있어서,Even more preferably, in the five convolution layers (Convolution layers),
첫 번째 및 두 번째 레이어(layers)에 맥스 풀링(Max pooling)이 사용될 수 있다.Max pooling can be used for the first and second layers.
바람직하게는, 놀이 블록 깊이 맵 출력부에 의해 출력된 놀이 블록 깊이 맵을 기반으로 3D 모델링하는 3D 모델링부를 더 포함할 수 있다.Preferably, it may further include a 3D modeling unit for 3D modeling based on the play block depth map output by the play block depth map output unit.
본 발명에서 제안하고 있는 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법 및 시스템에 따르면, 스테레오 카메라 혹은 별도의 부가적인 장비를 이용하지 않고, 단일 영상과 심층 네트워크를 이용하여 놀이 블록 깊이 맵을 생성할 수 있다.According to the method and system for generating a play block depth map using a single image and a deep network proposed in the present invention, a play block depth map is generated using a single image and a deep network without using a stereo camera or additional additional equipment. Can be created.
또한, 본 발명에서 제안하고 있는 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법 및 시스템에 따르면, 심층 네트워크로서, 합성 곱 신경망 네트워크를 사용하여, 입력된 단일 영상에 대하여 효과적으로 영상의 특징을 추출하고 영상의 깊이 정보를 예측할 수 있으며, 특히, 예측된 깊이 정보를 이용하여 놀이 블록 깊이 맵을 생성할 수 있다.In addition, according to the method and system for generating a play block depth map using a single image and a deep network proposed in the present invention, as a deep network, a composite product neural network network is used to effectively extract a feature of an image from a single input image. And, it is possible to predict the depth information of the image, in particular, it is possible to generate a play block depth map using the predicted depth information.
도 1은 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법의 흐름도를 도시한 도면.1 is a flowchart illustrating a method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention.
도 2는 심층 네트워크 중 MLP(Multi-Layer Perceptron) 네트워크를 설명하기 위해 도시한 도면.FIG. 2 is a diagram illustrating a multi-layer perceptron (MLP) network among deep networks.
도 3은 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법에서, 단계 S100의 세부적인 흐름을 도시한 도면.3 is a diagram illustrating a detailed flow of step S100 in a method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention.
도 4는 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법에서, 단계 S200의 세부적인 흐름을 도시한 도면.4 is a diagram illustrating a detailed flow of step S200 in a method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention.
도 5는 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법에서 사용하는 합성 곱 신경망 네트워크의 구조를 도시한 도면.FIG. 5 is a diagram illustrating the structure of a composite product neural network used in a method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention.
도 6은 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법의 단계 S210에서 입력하는 단일 영상을 도시한 도면.6 is a view showing a single image input in step S210 of a method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention.
도 7은 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법의 단계 S220을 통해 예측된 깊이 정보를 도시한 도면.7 is a diagram illustrating depth information predicted through step S220 of a method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention.
도 8은 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법의 단계 S230을 통해 생성된 놀이 블록 깊이 맵을 도시한 도면.8 is a diagram illustrating a play block depth map generated through step S230 of a method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention.
도 9는 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법을 통해 출력된 놀이 블록 깊이 맵을 기반으로 3D 모델링을 수행한 모습을 도시한 도면.FIG. 9 is a diagram illustrating 3D modeling based on a play block depth map output through a play block depth map generation method using a single image and a deep network according to an embodiment of the present invention.
도 10은 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 시스템의 구성을 도시한 도면.FIG. 10 is a diagram illustrating the configuration of a play block depth map generation system using a single image and a deep network according to an embodiment of the present invention.
도 11은 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 시스템에 있어서 심층 네트워크 학습부의 세부적인 구성을 도시한 도면.11 is a diagram showing a detailed configuration of a deep network learning unit in a system for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention.
도 12는 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 시스템에 있어서 놀이 블록 깊이 맵 생성부의 세부적인 구성을 도시한 도면.12 is a diagram illustrating a detailed configuration of a play block depth map generating unit in a play block depth map generation system using a single image and a deep network according to an embodiment of the present invention.
<부호의 설명><Description of code>
10: 놀이 블록 깊이 맵 생성 시스템10: play block depth map generation system
100: 심층 네트워크 학습부100: deep network learning department
110: 학습용 입력 모듈110: learning input module
120: 학습용 예측 모듈120: learning prediction module
130: 학습용 비교 모듈130: learning comparison module
200: 놀이 블록 깊이 맵 생성부200: play block depth map generator
210: 입력 모듈210: input module
220: 예측 모듈220: prediction module
230: 생성 모듈230: generation module
300: 놀이 블록 깊이 맵 출력부300: play block depth map output
400: 3D 모델링부400: 3D modeling department
S100: 깊이 정보를 알고 있는 학습용 단일 영상을 이용하여 심층 네트워크를 학습하는 단계S100: Learning a deep network using a single image for learning that knows depth information
S110: 깊이 정보를 알고 있는 학습용 단일 영상을 심층 네트워크에 입력하는 단계S110: Step of inputting a single image for learning the depth information into the deep network
S120: 단계 S110에서 심층 네트워크에 입력된 학습용 단일 영상의 깊이 정보를 예측하는 단계S120: Prediction of depth information of a single image for learning input to the deep network in step S110
S130: 단계 S120에서 예측된 깊이 정보와 학습용 단일 영상의 깊이 정보를 비교하는 단계S130: comparing depth information predicted in step S120 with depth information of a single image for learning
S200: 단계 S100에서 학습된 심층 네트워크에 단일 영상을 입력하여 놀이 블록 깊이 맵을 생성하는 단계S200: generating a play block depth map by inputting a single image into the deep network learned in step S100
S210: 단계 S100에서 학습된 심층 네트워크에 단일 영상을 입력하는 단계S210: inputting a single image into the deep network learned in step S100
S220: 단계 S210에서 입력된 단일 영상의 깊이 정보를 예측하는 단계S220: Prediction of depth information of the single image input in step S210
S230: 단계 S220에서 예측된 깊이 정보를 이용하여 놀이 블록 깊이 맵을 생성하는 단계S230: generating a play block depth map using depth information predicted in step S220.
S300: 단계 S200에서 생성된 놀이 블록 깊이 맵을 출력하는 단계S300: outputting the play block depth map generated in step S200
S400: 단계 S300에서 출력된 놀이 블록 깊이 맵을 기반으로 3D 모델링하는 단계S400: 3D modeling based on the play block depth map output in step S300
이하에서는 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일 또는 유사한 부호를 사용한다.Hereinafter, preferred embodiments will be described in detail with reference to the accompanying drawings so that those skilled in the art to which the present invention pertains can easily implement the present invention. However, in the detailed description of a preferred embodiment of the present invention, when it is determined that a detailed description of related known functions or configurations may unnecessarily obscure the subject matter of the present invention, the detailed description will be omitted. In addition, the same or similar reference numerals are used throughout the drawings for parts having similar functions and functions.
덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’되어 있다고 할 때, 이는 ‘직접적으로 연결’되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.In addition, in the entire specification, when a part is said to be 'connected' with another part, it is not only 'directly connected', but also 'indirectly connected' with another element in between. Includes. In addition, "including" a component means that other components may be further included instead of excluding other components, unless otherwise stated.
본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법의 각각의 단계는 컴퓨터 장치에 의해 수행될 수 있다. 이하에서는 설명의 편의를 위해 각각의 단계에서 수행 주체가 생략될 수도 있다.Each step of the method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention may be performed by a computer device. Hereinafter, for convenience of description, the subject may be omitted in each step.
도 1은 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법의 흐름도를 도시한 도면이다. 도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법은, 깊이 정보를 알고 있는 학습용 단일 영상을 이용하여 심층 네트워크를 학습하는 단계(S100), 단계 S100에서 학습된 심층 네트워크에 단일 영상을 입력하여 놀이 블록 깊이 맵을 생성하는 단계(S200), 및 단계 S200에서 생성된 놀이 블록 깊이 맵을 출력하는 단계(S300)를 포함하여 구현될 수 있으며, 단계 S300에서 출력된 놀이 블록 깊이 맵을 기반으로 3D 모델링하는 단계(S400)를 더 포함하여 구현될 수 있다.1 is a flowchart illustrating a method of generating a play block depth map using a single image and a deep network according to an embodiment of the present invention. As shown in FIG. 1, a method for generating a depth map of a play block using a single image and a deep network according to an embodiment of the present invention comprises: learning a deep network using a single image for learning depth information (S100) ), Generating a play block depth map by inputting a single image into the deep network learned in step S100 (S200), and outputting a play block depth map generated in step S200 (S300). 3D modeling based on the play block depth map output in step S300 (S400).
이하에서는, 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법의 각 단계에 대해 설명하기 전에, 본 발명에서 사용되는 심층 네트워크에 대하여 먼저 상세히 설명하도록 한다.Hereinafter, before describing each step of the method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention, the deep network used in the present invention will be described in detail first.
인공신경망(Artificial Neural Network, ANN)은 기계학습과 인지과학에서 사용되며, 생물학의 신경망(동물의 중추신경계 중 특히 뇌)에서 영감을 얻은 통계학적 학습 알고리즘이다. 인공신경망은 시냅스의 결합으로 네트워크를 형성한 인공 뉴런(노드)이 학습을 통해 시냅스의 결합 세기를 변화시켜, 문제 해결 능력을 가지는 네트워크 전반을 가리킨다. 좁은 의미에서는 오차역전파법을 이용한 다층 퍼셉트론을 가리키는 경우도 있지만, 이것은 잘못된 용법으로, 인공신경망은 이에 국한되지 않는다.Artificial Neural Network (ANN) is a statistical learning algorithm used in machine learning and cognitive science, inspired by the neural network of biology (especially the brain of the animal's central nervous system). The artificial neural network refers to an entire network that has problem-solving ability by changing the strength of synaptic binding through learning by artificial neurons (nodes) that form a network through synaptic binding. In a narrow sense, it may refer to a multi-layer perceptron using error back propagation, but this is a misuse, and the artificial neural network is not limited thereto.
심층 네트워크 또는 심층 신경망(Deep Neural Network, DNN)은, 입력층(input layer)과 출력층(output layer) 사이에 여러 개의 은닉층(hidden layer)들로 이루어진 인공신경망이다. 심층 네트워크는 일반적인 인공신경망과 마찬가지로 복잡한 비선형 관계(non-linear relationship)들을 모델링할 수 있다. 예를 들어, 물체 식별 모델을 위한 심층 네트워크 구조에서는 각 물체가 영상의 기본적 요소들의 계층적 구성으로 표현될 수 있는데, 이때, 추가 계층들은 점진적으로 모여진 하위 계층들의 특징들을 규합시킬 수 있다. 심층 네트워크의 이러한 특징은, 비슷하게 수행된 인공신경망에 비해 더 적은 수의 유닛들만으로도 복잡한 데이터를 모델링할 수 있게 해준다.A deep network or a deep neural network (DNN) is an artificial neural network composed of several hidden layers between an input layer and an output layer. Deep networks can model complex non-linear relationships, just like a normal artificial neural network. For example, in a deep network structure for an object identification model, each object may be represented by a hierarchical configuration of basic elements of an image, where additional layers can aggregate features of progressively gathered lower layers. This feature of the deep network allows modeling of complex data with fewer units than a similarly performed artificial neural network.
도 2는 심층 네트워크 중 MLP(Multi-Layer Perceptron) 네트워크를 설명하기 위해 도시한 도면이다. 도 2에 도시된 바와 같이, MLP 네트워크는 입력층과 출력층 사이에 하나 이상의 중간층이 존재하는 신경망으로, 입력층과 출력층 사이에 중간층을 은닉층(hidden layer) 이라고 부른다. 네트워크는 입력층, 은닉층, 출력층 방향으로 연결되어 있으며, 각 층 내의 연결과 출력층에서 입력층으로의 직접적인 연결은 존재하지 않는 전방향(Feedforward) 네트워크이다.FIG. 2 is a diagram illustrating a multi-layer perceptron (MLP) network among deep networks. As shown in FIG. 2, the MLP network is a neural network in which one or more intermediate layers exist between the input layer and the output layer, and the intermediate layer between the input layer and the output layer is called a hidden layer. The network is connected to the input layer, the hidden layer, and the output layer, and there is no direct connection from each layer to the input layer from the output layer.
MLP 네트워크는, 단층 perceptron과 유사한 구조를 가지고 있지만 중간층과 각 unit의 입출력 특성을 비선형으로 함으로써, 네트워크의 능력을 향상시켜 단층 perceptron의 여러 가지 단점을 극복하였다. MLP 네트워크는 층의 개수가 증가할수록 perceptron이 형성하는 결정 구역의 특성은 더욱 고급화된다. 보다 구체적으로는, 단층일 경우 패턴공간을 두 구역으로 나누어주고, 2층인 경우 볼록한(convex) 개구역 또는 오목한 폐구역을 형성하며, 3층인 경우에는 이론상 어떠한 형태의 구역도 형성할 수 있다.The MLP network has a structure similar to that of the single-layer perceptron, but improves the network capability by overcoming the input / output characteristics of the middle layer and each unit to overcome various disadvantages of the single-layer perceptron. In the MLP network, as the number of layers increases, the characteristics of the crystal region formed by perceptrons become more advanced. More specifically, in the case of a single layer, the pattern space is divided into two sections, and in the case of the second floor, a convex open zone or a concave closed zone is formed, and in the case of the third floor, any type of zone may be formed in theory.
일반적으로, 입력층의 각 unit에 입력 데이터를 제시하면, 이 신호는 각 unit에서 변환되어 중간층에 전달되고, 최종적으로 출력층으로 출력되게 되는데, 이 출력값과 원하는 출력값을 비교하여 그 차이를 감소시키는 방향으로 연결강도를 조절하여 MLP 네트워크를 학습시킬 수 있다.In general, when input data is presented to each unit of the input layer, this signal is converted from each unit and transmitted to the middle layer, and finally output to the output layer. The direction of comparing the output value with the desired output value to reduce the difference By adjusting the connection strength, you can train the MLP network.
합성 곱 신경망 네트워크(Convolutional Neural Network, CNN)은 최소한의 전처리(preprocess)를 사용하도록 설계된 MLP 네트워크의 한 종류이다. 합성 곱 신경망 네트워크는, 하나 또는 여러 개의 콘볼루션 계층(convolutional layer)과 통합 계층(pooling layer), 완전 연결 계층(fully connected layer)들로 구성된 신경망 네트워크로서, 2차원 데이터의 학습에 적합한 구조를 가지고 있으며, 역전파 알고리즘(Backpropagation algorithm)을 통해 훈련될 수 있어, 영상 내 객체 분류, 객체 탐지 등 다양한 응용 분야에 폭넓게 활용될 수 있다.The Convolutional Neural Network (CNN) is a type of MLP network designed to use minimal preprocessing. The composite product neural network network is a neural network network composed of one or several convolutional layers, a pooling layer, and a fully connected layer, and has a structure suitable for learning two-dimensional data. In addition, it can be trained through a backpropagation algorithm, so it can be widely used in various application fields such as object classification in image and object detection.
콘볼루션 계층은, 입력 데이터로부터 특징을 추출하는 역할을 할 수 있다. 콘볼루션 계층은 특징을 추출하는 기능을 하는 필터(filter)와, 필터에서 추출된 값을 비선형 값으로 바꾸어주는 액티베이션 함수(activation function)로 이루어질 수 있다.The convolution layer can serve to extract features from the input data. The convolution layer may consist of a filter that functions to extract features and an activation function that converts the values extracted from the filter into nonlinear values.
합성 곱 신경망 네트워크는, 경사하강법(gradient descent)과 역전파(backpropagation) 알고리즘을 통해 학습시킬 수 있다. 이때, 경사하강법은 1차 근사값 발견용 최적화 알고리즘으로서, 함수의 기울기(경사)를 구하여 기울기가 낮은 쪽으로 계속 이동시켜서 극값에 이를 때까지 반복시키는 방법이고, 역전파 알고리즘은, 다층 퍼셉트론 학습에 사용되는 통계적 기법을 의미하는 것으로서, 동일 입력층에 대해 원하는 값이 출력되도록 개개의 가중치(weight)를 조정하는 방법이다.Synthetic product neural network networks can be trained through gradient descent and backpropagation algorithms. At this time, the gradient descent method is an optimization algorithm for first-order approximation values. It is a method of finding the gradient (slope) of a function and continuously moving the gradient to the lower side and repeating it until an extreme value is reached. The backpropagation algorithm is used for multi-layer perceptron learning It refers to a statistical technique, which is a method of adjusting individual weights so that a desired value is output for the same input layer.
이하에서는, 전술한 바와 같은 심층 네트워크를 이용하는, 본 발명에서 제안하고 있는 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법의 각각의 단계에 대해 상세히 설명하기로 한다.Hereinafter, each step of the method for generating a play block depth map using a single image and a deep network proposed in the present invention using the deep network as described above will be described in detail.
단계 S100에서는, 깊이 정보를 알고 있는 학습용 단일 영상을 이용하여 심층 네트워크를 학습할 수 있다. 도 3은 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법에서, 단계 S100의 세부적인 흐름을 도시한 도면이다. 도 3에 도시된 바와 같이, 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법의 단계 S100은, 깊이 정보를 알고 있는 학습용 단일 영상을 심층 네트워크에 입력하는 단계(S110), 단계 S110에서 심층 네트워크에 입력된 학습용 단일 영상의 깊이 정보를 예측하는 단계(S120), 및 단계 S120에서 예측된 깊이 정보와 학습용 단일 영상의 깊이 정보를 비교하는 단계(S130)를 포함하여 구현될 수 있다.In step S100, a deep network may be trained using a single image for learning in which depth information is known. 3 is a diagram illustrating a detailed flow of step S100 in a method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention. As shown in FIG. 3, step S100 of a method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention includes inputting a single image for learning depth information into a deep network ( S110), including the step of predicting the depth information of the learning single image input to the deep network in step S110 (S120), and comparing the depth information predicted in step S120 with the depth information of the learning single image (S130) Can be implemented.
단계 S110에서는, 학습용 단일 영상을 심층 네트워크에 입력할 수 있다. 본 발명에서 제안하고 있는 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법은 심층 네트워크를 이용하여 놀이 블록 깊이 맵을 생성하므로, 먼저, 심층 네트워크를 학습하기 위해 깊이 정보를 알고 있는 학습용 단일 영상을 심층 네트워크에 입력할 수 있다. 이때, 학습용 단일 영상은 RGB 영상일 수 있으나, 상기 RGB 영상으로 학습용 단일 영상을 한정하는 것은 아니다.In step S110, a single image for learning may be input to the deep network. Since the method for generating a play block depth map using a single image and a deep network proposed in the present invention generates a play block depth map using a deep network, first, a single image for learning to know depth information is required to learn a deep network. You can enter it in the deep network. In this case, the single image for learning may be an RGB image, but the single image for learning is not limited to the RGB image.
단계 S120에서는, 단계 S110에서 심층 네트워크에 입력된 학습용 단일 영상의 깊이 정보를 예측할 수 있다. 보다 구체적으로, 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법의 단계 S120에서는, 단계 S110에서 입력된 학습용 단일 영상의 깊이 정보를 심층 네트워크를 통해 예측할 수 있다.In step S120, depth information of a single image for learning input to the deep network in step S110 may be predicted. More specifically, in step S120 of the method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention, depth information of a single image for learning input in step S110 may be predicted through a deep network.
단계 S130에서는, 단계 S120에서 예측된 깊이 정보와 학습용 단일 영상의 깊이 정보를 비교할 수 있다. 보다 구체적으로, 단계 S110에서 입력되는 학습용 단일 영상의 깊이 정보는 이미 알고 있으므로, 단계 S120에서 예측된 깊이 정보와 이미 알고 있는 학습용 단일 영상의 깊이 정보를 비교할 수 있다.In step S130, depth information predicted in step S120 may be compared with depth information of a single image for learning. More specifically, since the depth information of the learning single image input in step S110 is already known, it is possible to compare the depth information predicted in step S120 with the depth information of the learning single image already known.
또한, 단계 S130에서 비교된 결과가 미리 설정된 오차범위 내에 해당할 때까지 반복적으로 심층 네트워크를 학습할 수 있다. 이때, 미리 설정된 오차범위는 ±5%가 될 수 있으나, 상기의 오차범위를 ±5%로 한정하는 것은 아니다.In addition, it is possible to repeatedly train the deep network until the result compared in step S130 falls within a preset error range. At this time, the preset error range may be ± 5%, but the above-described error range is not limited to ± 5%.
단계 S200에서는, 단계 S100에서 학습된 심층 네트워크에 단일 영상을 입력하여 놀이 블록 깊이 맵을 생성할 수 있다. 도 4는 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법에서, 단계 S200의 세부적인 흐름을 도시한 도면이다. 도 4에 도시된 바와 같이, 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법의 단계 S200은, 단계 S100에서 학습된 심층 네트워크에 단일 영상을 입력하는 단계(S210), 단계 S210에서 입력된 단일 영상의 깊이 정보를 예측하는 단계(S220), 및 단계 S220에서 예측된 깊이 정보를 이용하여 놀이 블록 깊이 맵을 생성하는 단계(S230)를 포함하여 구현될 수 있다.In step S200, a single image may be input to the deep network learned in step S100 to generate a play block depth map. 4 is a diagram illustrating a detailed flow of step S200 in a method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention. As illustrated in FIG. 4, step S200 of a method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention includes inputting a single image into the deep network learned in step S100 (S210) ), Predicting depth information of the single image input in step S210 (S220), and generating a play block depth map using depth information predicted in step S220 (S230).
본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법은 심층 네트워크로서, 합성 곱 신경망 네트워크를 사용하여 입력된 단일 영상의 깊이 정보를 예측하고, 놀이 블록 깊이 맵을 생성할 수 있다.A method of generating a play block depth map using a single image and a deep network according to an embodiment of the present invention is a deep network, predicting depth information of a single image input using a synthetic multi-network neural network, and generating a play block depth map can do.
도 5는 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법에서 사용하는 합성 곱 신경망 네트워크의 구조를 도시한 도면이다. 도 5에 도시된 바와 같이, 본 발명에서 사용하는 합성 곱 신경망 네트워크는, 5개의 콘볼루션 레이어(Convolution layers)와 2개의 완전 연결 레이어(fully connected layers)로 구성되어 있으며, 5개의 콘볼루션 레이어의 첫 번째 및 두 번째 레이어(layers)에 맥스 풀링(Max pooling)이 사용될 수 있다.FIG. 5 is a diagram illustrating the structure of a composite product neural network network used in a method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention. As shown in FIG. 5, the synthetic product neural network network used in the present invention is composed of 5 convolution layers and 2 fully connected layers, and includes 5 convolutional layers. Max pooling can be used for the first and second layers.
단계 S210에서는, 단계 S100에서 학습된 심층 네트워크인 합성 곱 신경망 네트워크에 단일 영상을 입력하고, 단계 S220에서는, 합성 곱 신경망 네트워크를 통해 단계 S210에서 입력된 단일 영상의 깊이 정보를 예측하며, 및 단계 S230에서는, 단계 S220에서 예측된 깊이 정보를 이용하여 놀이 블록 깊이 맵을 생성할 수 있다.In step S210, a single image is input to the composite product neural network that is the deep network learned in step S100, and in step S220, depth information of the single image input in step S210 is predicted through the composite product neural network, and step S230 In, it is possible to generate a play block depth map using the depth information predicted in step S220.
도 6은 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법의 단계 S210에서 입력하는 단일 영상을 도시한 도면이다. 도 6에 도시된 바와 같이, 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법의 단계 S210에서는, 단계 S100에서 학습된 심층 네트워크에 단일 영상을 입력할 수 있다. 다만, 학습된 심층 네트워크에 입력되는 단일 영상이, 도 6에 도시된 바와 같은 놀이 블록의 형태이어야 하는 것은 아니며, 어린 아이들이 그린 그림을 포함하는 다양한 영상을 포함할 수 있다.6 is a diagram illustrating a single image input in step S210 of a method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention. As shown in FIG. 6, in step S210 of a method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention, a single image may be input to the deep network learned in step S100. However, the single image input to the learned deep network does not have to be in the form of a play block as shown in FIG. 6, and may include various images including pictures drawn by young children.
도 7은 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법의 단계 S220을 통해 예측된 깊이 정보를 도시한 도면이다. 도 7에 도시된 바와 같이, 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법의 단계 S220에서는, 합성 곱 신경망 네트워크를 통해 단계 S210에서 입력된 단일 영상의 깊이 정보를 예측할 수 있다.7 is a diagram illustrating depth information predicted through step S220 of a method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention. As illustrated in FIG. 7, in step S220 of a method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention, depth information of a single image input in step S210 through a synthetic product neural network network Can predict.
보다 구체적으로, 단계 S210을 통해 입력된 단일 영상의 깊이 정보는 5개의 콘볼루션 레이어와 2개의 완전 연결 레이어로 구성된 합성 곱 신경망 네트워크를 통해, 단계 S220에서 예측될 수 있다. 이때, 마지막 레이어를 제외한 모든 레이어의 결과는 활성함수로 Rectified linear unit을 사용하고, 및 첫 번째와 두 번째 계층에 맥스 풀링을 사용할 수 있다. 또한, 여섯 번째 레이어에 Dropout을 사용해 합성 곱 신경망 네트워크의 일반화 성능을 향상시킬 수 있다.More specifically, depth information of a single image input through step S210 may be predicted in step S220 through a synthetic product neural network network composed of 5 convolutional layers and 2 fully connected layers. At this time, the results of all layers except the last layer may use a rectified linear unit as the active function, and max pooling may be used for the first and second layers. In addition, by using Dropout in the sixth layer, it is possible to improve the generalization performance of the synthetic multiplicity neural network.
본 발명에서 제안하고 있는 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법의 놀이 블록은, 영유아들이 놀이를 할 때 사용하는 것으로서, 쌓아 올리도록 만든 장난감을 의미하며, 놀이 블록 깊이 맵은 단일 영상을 놀이 블록 형태로 생성한 깊이 맵을 의미할 수 있다.The play block of the method for generating a play block depth map using a single image and a deep network proposed in the present invention is used when children play, and means a toy made to stack up, and the play block depth map is a single video Denotes a depth map generated in the form of a play block.
도 8은 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법의 단계 S230을 통해 생성된 놀이 블록 깊이 맵을 도시한 도면이다. 도 8에 도시된 바와 같이, 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법의 단계 S230에서는, 단계 S220에서 예측된 깊이 정보를 이용하여 놀이 블록 깊이 맵을 생성할 수 있다. 생성된 놀이 블록 깊이 맵에서 확인할 수 있는 바와 같이, 빨간색으로 표시된 부분은 모두 동일한 놀이 블록의 깊이를 가진다.8 is a diagram illustrating a play block depth map generated through step S230 of a method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention. As shown in FIG. 8, in step S230 of a method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention, a play block depth map is generated using depth information predicted in step S220. can do. As can be seen in the generated play block depth map, all parts marked in red have the same depth of the play block.
보다 구체적으로, 합성 곱 신경망 네트워크의 마지막 레이어에서 1×4070의 선형화된 영상이 출력되므로, 출력된 영상을 1×74×55로 재배열하여 재구성한 후, 재구성한 영상에 대해 레이블링하여 놀이 블록 깊이 맵을 생성할 수 있다.More specifically, since the linearized image of 1 × 4070 is output from the last layer of the composite product neural network, the output image is rearranged to 1 × 74 × 55 and reconstructed, then labeling the reconstructed image to play block depth You can create a map.
놀이 블록 깊이 맵을 생성함으로써, 기존에 어린 아이들이 그린 단일 영상을 2차원 놀이 블록 모양으로 출력하던 것을, 깊이 정보를 포함하는 3차원의 놀이 블록 모양으로 출력할 수 있다.By generating a play block depth map, it is possible to output a single image drawn by young children in the form of a two-dimensional play block, and a three-dimensional play block shape including depth information.
단계 S300에서는, 단계 S200에서 생성된 놀이 블록 깊이 맵을 출력할 수 있다. 보다 구체적으로는, 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법은, 단계 S210을 통해 입력된 단일 영상에 대해, 합성 곱 신경망 네트워크를 통해 놀이 블록 깊이 맵을 생성하여 단계 S300에서 생성된 결과를 출력할 수 있다.In step S300, the play block depth map generated in step S200 may be output. More specifically, the method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention, for a single image input through step S210, includes a play block depth map through a composite multi-neural network. You can generate and output the result generated in step S300.
단계 S400에서는, 단계 S300에서 출력된 놀이 블록 깊이 맵을 기반으로 3D 모델링할 수 있다. 도 9는 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법을 통해 출력된 놀이 블록 깊이 맵을 기반으로 3D 모델링을 수행한 모습을 도시한 도면이다. 도 9에 도시된 바와 같이, 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법의 단계 S400에서는, 단계 S300에서 출력된 놀이 블록 깊이 맵을 기반으로 3D 모델링을 하여 3차원 형태의 놀이 블록을 출력할 수 있다.In step S400, 3D modeling may be performed based on the play block depth map output in step S300. 9 is a diagram illustrating a state in which 3D modeling is performed based on a play block depth map output through a play block depth map generation method using a single image and a deep network according to an embodiment of the present invention. As shown in FIG. 9, in step S400 of a method for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention, 3D modeling is performed based on the play block depth map output in step S300. A three-dimensional form of play block can be output.
도 10은 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 시스템(10)의 구성을 도시한 도면이다. 도 10에 도시된 바와 같이, 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 시스템(10)은, 심층 네트워크 학습부(100), 놀이 블록 깊이 맵 생성부(200) 및 놀이 블록 깊이 맵 출력부(300)를 포함하여 구성될 수 있다.10 is a diagram illustrating the configuration of a play block depth map generation system 10 using a single image and a deep network according to an embodiment of the present invention. As shown in FIG. 10, the play block depth map generation system 10 using a single image and a deep network according to an embodiment of the present invention includes a deep network learning unit 100 and a play block depth map generation unit 200 ) And a play block depth map output unit 300.
보다 구체적으로는, 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 시스템(10)은, 깊이 정보를 알고 있는 학습용 단일 영상을 이용하여 심층 네트워크를 학습하는 심층 네트워크 학습부(100), 심층 네트워크 학습부(100)에 의해 학습된 심층 네트워크에 단일 영상을 입력하여 놀이 블록 깊이 맵을 생성하는 놀이 블록 깊이 맵 생성부(200), 및 놀이 블록 깊이 맵 생성부(200)에 의해 생성된 놀이 블록 깊이 맵을 출력하는 놀이 블록 깊이 맵 출력부(300)를 포함하여 구성될 수 있으며, 놀이 블록 깊이 맵 출력부(300)에 의해 출력된 놀이 블록 깊이 맵을 기반으로 3D 모델링하는 3D 모델링부(400)를 더 포함하여 구성될 수 있다.More specifically, the play block depth map generation system 10 using a single image and a deep network according to an embodiment of the present invention learns a deep network by learning a deep network using a single image for learning depth information. The play block depth map generation unit 200 and the play block depth map generation unit 200 for generating a play block depth map by inputting a single image into the deep network learned by the deep network learning unit 100 ) May include a play block depth map output unit 300 for outputting a play block depth map generated by), and a 3D based on a play block depth map output by the play block depth map output unit 300. It may be configured to further include a 3D modeling unit 400 to model.
도 11은 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 시스템(10)에 있어서 심층 네트워크 학습부(100)의 세부적인 구성을 도시한 도면이다. 도 11에 도시된 바와 같이, 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 시스템(10)에 있어서 심층 네트워크 학습부(100)는, 깊이 정보를 알고 있는 학습용 단일 영상을 심층 네트워크에 입력하는 학습용 입력 모듈(110), 학습용 입력 모듈(110)에 의해 심층 네트워크에 입력된 학습용 단일 영상의 깊이 정보를 예측하는 학습용 예측 모듈(120), 및 학습용 예측 모듈(120)에 의해 예측된 깊이 정보와 상기 학습용 단일 영상의 깊이 정보를 비교하는 학습용 비교 모듈(130)을 포함하여 구성될 수 있다.11 is a diagram illustrating a detailed configuration of the deep network learning unit 100 in the play block depth map generation system 10 using a single image and a deep network according to an embodiment of the present invention. As illustrated in FIG. 11, in the play block depth map generation system 10 using a single image and a deep network according to an embodiment of the present invention, the deep network learning unit 100 is a learning single that knows depth information. A learning input module 110 for inputting an image into a deep network, a learning prediction module 120 for predicting depth information of a single image for learning input into the deep network by the learning input module 110, and a learning prediction module 120 It may be configured to include a learning comparison module 130 for comparing the depth information predicted by the depth information of the learning single image.
도 12는 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 시스템(10)에 있어서 놀이 블록 깊이 맵 생성부(200)의 세부적인 구성을 도시한 도면이다. 도 12에 도시된 바와 같이, 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 시스템(10)에 있어서 놀이 블록 깊이 맵 생성부(200)는, 심층 네트워크 학습부(100)에 의해 학습된 심층 네트워크에 단일 영상을 입력하는 입력 모듈(210), 입력 모듈(210)에 입력된 단일 영상의 깊이 정보를 예측하는 예측 모듈(220), 및 예측 모듈(220)에서 예측된 깊이 정보를 이용하여 놀이 블록 깊이 맵을 생성하는 생성 모듈(230)을 포함하여 구성될 수 있다.12 is a diagram illustrating a detailed configuration of the play block depth map generator 200 in the play block depth map generation system 10 using a single image and a deep network according to an embodiment of the present invention. As shown in FIG. 12, in the play block depth map generation system 10 using a single image and a deep network according to an embodiment of the present invention, the play block depth map generation unit 200 includes a deep network learning unit ( 100), the prediction module 220 for predicting depth information of a single image input to the input module 210, the input module 210 for inputting a single image into the deep network learned by the prediction module 220 It may be configured to include a generation module 230 for generating a play block depth map using the depth information.
본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 시스템(10)에 대해서는 앞서 본 발명의 일실시예에 따른 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법과 관련하여 충분히 설명되었으므로, 상세한 설명은 생략하기로 한다.The system 10 for generating a play block depth map using a single image and a deep network according to an embodiment of the present invention relates to a method for generating a play block depth map using a single video and a deep network according to an embodiment of the present invention. Since it has been sufficiently described, a detailed description will be omitted.
상술한 바와 같이, 본 발명에서 제안하고 있는 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법 및 시스템(10)에 따르면, 스테레오 카메라 혹은 별도의 부가적인 장비를 이용하지 않고, 단일 영상과 심층 네트워크를 이용하여 놀이 블록 깊이 맵을 생성할 수 있다. 또한, 본 발명에 따르면, 심층 네트워크로서, 합성 곱 신경망 네트워크를 사용하여, 입력된 단일 영상에 대하여 효과적으로 영상의 특징을 추출하고 영상의 깊이 정보를 예측할 수 있으며, 특히, 예측된 깊이 정보를 이용하여 놀이 블록 깊이 맵을 생성할 수 있다.As described above, according to the method and system 10 for generating a play block depth map using a single image and a deep network proposed in the present invention, a single image and a deep network without using a stereo camera or additional additional equipment A play block depth map can be generated using. In addition, according to the present invention, as a deep network, a composite multi-neural network can be used to effectively extract image characteristics and predict depth information of an image with respect to a single input image, and in particular, use predicted depth information. You can create a play block depth map.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.The present invention described above can be variously modified or applied by a person having ordinary knowledge in the technical field to which the present invention belongs, and the scope of the technical idea according to the present invention should be defined by the following claims.

Claims (20)

  1. 놀이 블록 깊이 맵 생성 방법으로서,As a method of generating a play block depth map,
    (1) 깊이 정보를 알고 있는 학습용 단일 영상을 이용하여 심층 네트워크를 학습하는 단계;(1) learning a deep network using a single image for learning that knows depth information;
    (2) 상기 단계 (1)에서 학습된 심층 네트워크에 단일 영상을 입력하여 놀이 블록 깊이 맵을 생성하는 단계; 및(2) generating a play block depth map by inputting a single image into the deep network learned in step (1); And
    (3) 상기 단계 (2)에서 생성된 놀이 블록 깊이 맵을 출력하는 단계를 포함하는 것을 특징으로 하는, 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법.(3) outputting the play block depth map generated in step (2), characterized in that it comprises a single image and a depth network play block depth map generation method.
  2. 제1항에 있어서, 상기 단계 (1)은,The method of claim 1, wherein the step (1),
    (1-1) 깊이 정보를 알고 있는 학습용 단일 영상을 심층 네트워크에 입력하는 단계;(1-1) inputting a single image for learning the depth information into the deep network;
    (1-2) 상기 단계 (1-1)에서 상기 심층 네트워크에 입력된 학습용 단일 영상의 깊이 정보를 예측하는 단계; 및(1-2) predicting depth information of a single image for learning input to the deep network in step (1-1); And
    (1-3) 상기 단계 (1-2)에서 예측된 깊이 정보와 상기 학습용 단일 영상의 깊이 정보를 비교하는 단계를 포함하는 것을 특징으로 하는, 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법.(1-3) A method of generating a depth map of a play block using a single image and a deep network, comprising comparing the depth information predicted in step (1-2) with depth information of the learning single image. .
  3. 제2항에 있어서, 상기 단계 (1)에 있어서,According to claim 2, In the step (1),
    상기 단계 (1-3)에서 비교된 결과가 미리 설정된 오차범위 내에 해당할 때까지 반복적으로 상기 심층 네트워크를 학습하는 것을 특징으로 하는, 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법.A method of generating a depth map of a play block using a single image and a deep network, characterized by repeatedly learning the deep network until the result compared in the step (1-3) falls within a preset error range.
  4. 제1항에 있어서, 상기 단계 (2)는,The method of claim 1, wherein the step (2),
    (2-1) 상기 단계 (1)에서 학습된 심층 네트워크에 단일 영상을 입력하는 단계;(2-1) inputting a single image into the deep network learned in step (1);
    (2-2) 상기 단계 (2-1)에서 입력된 단일 영상의 깊이 정보를 예측하는 단계; 및(2-2) predicting depth information of the single image input in step (2-1); And
    (2-3) 상기 단계 (2-2)에서 예측된 깊이 정보를 이용하여 놀이 블록 깊이 맵을 생성하는 단계를 포함하는 것을 특징으로 하는, 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법.(2-3) generating a play block depth map using the depth information predicted in the step (2-2), a method for generating a play block depth map using a single image and a deep network.
  5. 제1항에 있어서, 상기 단계 (2)에서는,The method of claim 1, wherein in step (2),
    1×74×55의 영상으로 놀이 블록 깊이 맵을 생성하는 것을 특징으로 하는, 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법.A play block depth map generation method using a single image and a deep network, characterized by generating a play block depth map with an image of 1 × 74 × 55.
  6. 제1항에 있어서, 상기 심층 네트워크는,The method of claim 1, wherein the deep network,
    합성 곱 신경망 네트워크인 것을 특징으로 하는, 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법.A method for generating a depth map of a play block using a single image and a deep network, characterized in that it is a composite product neural network.
  7. 제6항에 있어서, 상기 합성 곱 신경망 네트워크는,The method of claim 6, wherein the synthetic product neural network,
    활성함수로 Rectified linear unit을 사용하는 것을 특징으로 하는, 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법.A method for generating a depth map of a play block using a single image and a deep network, characterized by using a rectified linear unit as an active function.
  8. 제6항에 있어서, 상기 합성 곱 신경망 네트워크는,The method of claim 6, wherein the synthetic product neural network,
    5개의 콘볼루션 레이어(Convolution layers) 및 2개의 완전 연결 레이어(fully connected layers)를 이용하여 놀이 블록 깊이 맵을 생성하는 것을 특징으로 하는, 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법.A play block depth map generation method using a single image and a deep network, characterized by generating a play block depth map using five convolution layers and two fully connected layers.
  9. 제8항에 있어서, 상기 5개의 콘볼루션 레이어(Convolution layers)에 있어서,The method of claim 8, wherein the five convolutional layers (Convolution layers),
    첫 번째 및 두 번째 레이어(layers)에 맥스 풀링(Max pooling)이 사용되는 것을 특징으로 하는, 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법.A method for generating a depth map of a play block using a single image and a deep network, characterized in that Max pooling is used for the first and second layers.
  10. 제1항에 있어서,According to claim 1,
    (4) 상기 단계 (3)에서 출력된 놀이 블록 깊이 맵을 기반으로 3D 모델링하는 단계를 더 포함하는 것을 특징으로 하는, 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 방법.(4) 3D modeling based on the play block depth map output in the step (3), characterized in that it further comprises, a single image and a depth network generating play block depth map method.
  11. 놀이 블록 깊이 맵 생성 시스템(10)으로서,As a play block depth map generation system 10,
    깊이 정보를 알고 있는 학습용 단일 영상을 이용하여 심층 네트워크를 학습하는 심층 네트워크 학습부(100);A deep network learning unit 100 for learning a deep network using a single image for learning that knows depth information;
    상기 심층 네트워크 학습부(100)에 의해 학습된 심층 네트워크에 단일 영상을 입력하여 놀이 블록 깊이 맵을 생성하는 놀이 블록 깊이 맵 생성부(200); 및A play block depth map generator 200 for generating a play block depth map by inputting a single image into the deep network learned by the deep network learning unit 100; And
    상기 놀이 블록 깊이 맵 생성부(200)에 의해 생성된 놀이 블록 깊이 맵을 출력하는 놀이 블록 깊이 맵 출력부(300)를 포함하는 것을 특징으로 하는, 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 시스템.And a play block depth map output unit 300 for outputting a play block depth map generated by the play block depth map generating unit 200, creating a play block depth map using a single image and a deep network. system.
  12. 제11항에 있어서, 상기 심층 네트워크 학습부(100)는,The deep network learning unit 100 of claim 11,
    깊이 정보를 알고 있는 학습용 단일 영상을 심층 네트워크에 입력하는 학습용 입력 모듈(110);A learning input module 110 for inputting a single image for learning the depth information into a deep network;
    상기 학습용 입력 모듈(110)에 의해 상기 심층 네트워크에 입력된 학습용 단일 영상의 깊이 정보를 예측하는 학습용 예측 모듈(120); 및A learning prediction module 120 for predicting depth information of a single learning image input to the deep network by the learning input module 110; And
    상기 학습용 예측 모듈(120)에 의해 예측된 깊이 정보와 상기 학습용 단일 영상의 깊이 정보를 비교하는 학습용 비교 모듈(130)을 포함하는 것을 특징으로 하는, 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 시스템.And a learning comparison module 130 for comparing depth information predicted by the learning prediction module 120 and depth information of the learning single image, generating a play block depth map using a single image and a deep network. system.
  13. 제12항에 있어서, 상기 심층 네트워크 학습부(100)는,The method of claim 12, wherein the deep network learning unit 100,
    상기 학습용 비교 모듈(130)에 의해 비교된 결과가 미리 설정된 오차범위 내에 해당할 때까지 반복적으로 상기 심층 네트워크를 학습하는 것을 특징으로 하는, 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 시스템.A game block depth map generation system using a single image and a deep network, characterized in that the deep network is repeatedly learned until the result compared by the learning comparison module 130 falls within a preset error range.
  14. 제11항에 있어서, 상기 놀이 블록 깊이 맵 생성부(200)는,The method of claim 11, wherein the play block depth map generating unit 200,
    상기 심층 네트워크 학습부(100)에 의해 학습된 심층 네트워크에 단일 영상을 입력하는 입력 모듈(210);An input module 210 for inputting a single image into the deep network learned by the deep network learning unit 100;
    상기 입력 모듈(210)에 입력된 단일 영상의 깊이 정보를 예측하는 예측 모듈(220); 및A prediction module 220 for predicting depth information of a single image input to the input module 210; And
    상기 예측 모듈(220)에서 예측된 깊이 정보를 이용하여 놀이 블록 깊이 맵을 생성하는 생성 모듈(230)을 포함하는 것을 특징으로 하는, 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 시스템.And a generation module 230 for generating a play block depth map using the depth information predicted by the prediction module 220. The system for generating a play block depth map using a single image and a deep network.
  15. 제11항에 있어서, 상기 놀이 블록 깊이 맵 생성부(200)는,The method of claim 11, wherein the play block depth map generating unit 200,
    1×74×55의 영상으로 놀이 블록 깊이 맵을 생성하는 것을 특징으로 하는, 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 시스템.A play block depth map generation system using a single image and a deep network, characterized by generating a play block depth map with a 1 × 74 × 55 image.
  16. 제11항에 있어서, 상기 심층 네트워크는,The method of claim 11, wherein the deep network,
    합성 곱 신경망 네트워크인 것을 특징으로 하는, 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 시스템.A system for generating a play block depth map using a single image and a deep network, characterized in that it is a composite product neural network.
  17. 제16항에 있어서, 상기 합성 곱 신경망 네트워크는,17. The method of claim 16, The synthetic product neural network,
    활성함수로 Rectified linear unit을 사용하는 것을 특징으로 하는, 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 시스템.A play block depth map generation system using a single image and a deep network, characterized by using a rectified linear unit as an active function.
  18. 제16항에 있어서, 상기 합성 곱 신경망 네트워크는,17. The method of claim 16, The synthetic product neural network,
    5개의 콘볼루션 레이어(Convolution layers) 및 2개의 완전 연결 레이어(fully connected layers)를 이용하여 놀이 블록 깊이 맵을 생성하는 것을 특징으로 하는, 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 시스템.A play block depth map generation system using a single image and a deep network, characterized by generating a play block depth map using five convolution layers and two fully connected layers.
  19. 제18항에 있어서, 상기 5개의 콘볼루션 레이어(Convolution layers)에 있어서,The method of claim 18, wherein the five convolution layers (Convolution layers),
    첫 번째 및 두 번째 레이어(layers)에 맥스 풀링(Max pooling)이 사용되는 것을 특징으로 하는, 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 시스템.A play block depth map generation system using a single image and a deep network, characterized in that Max pooling is used for the first and second layers.
  20. 제11항에 있어서,The method of claim 11,
    놀이 블록 깊이 맵 출력부에 의해 출력된 놀이 블록 깊이 맵을 기반으로 3D 모델링하는 3D 모델링부(400)를 더 포함하는 것을 특징으로 하는, 단일 영상과 심층 네트워크를 이용한 놀이 블록 깊이 맵 생성 시스템.A play block depth map generation system using a single image and a deep network, further comprising a 3D modeling unit 400 for 3D modeling based on the play block depth map output by the play block depth map output unit.
PCT/KR2019/012117 2018-10-16 2019-09-19 Playing block depth map generation method and system using single image and depth network WO2020080685A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020180123246A KR102089720B1 (en) 2018-10-16 2018-10-16 Method and system for generating play block depth map using single image and deep neural network
KR10-2018-0123246 2018-10-16

Publications (1)

Publication Number Publication Date
WO2020080685A1 true WO2020080685A1 (en) 2020-04-23

Family

ID=69948492

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/012117 WO2020080685A1 (en) 2018-10-16 2019-09-19 Playing block depth map generation method and system using single image and depth network

Country Status (2)

Country Link
KR (1) KR102089720B1 (en)
WO (1) WO2020080685A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11682127B2 (en) * 2018-03-13 2023-06-20 Magic Leap, Inc. Image-enhanced depth sensing using machine learning

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102526415B1 (en) * 2020-12-04 2023-04-28 이화여자대학교 산학협력단 System and method for semi-supervised single image depth estimation and computer program for the same

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100902353B1 (en) * 2007-11-16 2009-06-12 광주과학기술원 Device and Method for estimating death map, Method for making intermediate view and Encoding multi-view using the same
KR20150109960A (en) * 2014-03-21 2015-10-02 최종일 System for displaying augmented reality
KR20170073047A (en) * 2015-12-18 2017-06-28 김영아 A block type playing toy
KR101795952B1 (en) * 2016-07-20 2017-11-09 연세대학교 산학협력단 Method and device for generating depth image of 2d image
WO2018126275A1 (en) * 2016-12-30 2018-07-05 Dirk Schneemann, LLC Modeling and learning character traits and medical condition based on 3d facial features

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160056132A (en) * 2014-11-11 2016-05-19 삼성전자주식회사 Image conversion apparatus and image conversion method thereof

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100902353B1 (en) * 2007-11-16 2009-06-12 광주과학기술원 Device and Method for estimating death map, Method for making intermediate view and Encoding multi-view using the same
KR20150109960A (en) * 2014-03-21 2015-10-02 최종일 System for displaying augmented reality
KR20170073047A (en) * 2015-12-18 2017-06-28 김영아 A block type playing toy
KR101795952B1 (en) * 2016-07-20 2017-11-09 연세대학교 산학협력단 Method and device for generating depth image of 2d image
WO2018126275A1 (en) * 2016-12-30 2018-07-05 Dirk Schneemann, LLC Modeling and learning character traits and medical condition based on 3d facial features

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11682127B2 (en) * 2018-03-13 2023-06-20 Magic Leap, Inc. Image-enhanced depth sensing using machine learning

Also Published As

Publication number Publication date
KR102089720B1 (en) 2020-03-16

Similar Documents

Publication Publication Date Title
WO2020105948A1 (en) Image processing apparatus and control method thereof
WO2021010502A1 (en) Robot and method for managing article by using same
WO2019132518A1 (en) Image acquisition device and method of controlling the same
WO2020080685A1 (en) Playing block depth map generation method and system using single image and depth network
WO2020256195A1 (en) Building management robot, and method for providing service using same
WO2022114731A1 (en) Deep learning-based abnormal behavior detection system and detection method for detecting and recognizing abnormal behavior
WO2020130747A1 (en) Image processing apparatus and method for style transformation
WO2019182269A1 (en) Electronic device, image processing method of electronic device, and computer-readable medium
WO2020262746A1 (en) Artificial intelligence-based apparatus for recommending laundry course, and control method therefor
WO2020241930A1 (en) Method for estimating location using multi-sensor and robot for implementing same
WO2020085653A1 (en) Multiple-pedestrian tracking method and system using teacher-student random fern
WO2022255529A1 (en) Learning method for generating lip-sync video on basis of machine learning and lip-sync video generating device for executing same
WO2020226187A1 (en) Robot generating map on basis of multi-sensor and artificial intelligence and traveling by using map
WO2020241920A1 (en) Artificial intelligence device capable of controlling another device on basis of device information
WO2019164251A1 (en) Method of performing learning of deep neural network and apparatus thereof
WO2022164299A1 (en) Framework for causal learning of neural networks
WO2020027519A1 (en) Image processing device and operation method therefor
WO2021206221A1 (en) Artificial intelligence apparatus using a plurality of output layers and method for same
WO2021006482A1 (en) Apparatus and method for generating image
WO2020241934A1 (en) Method for estimating position by synchronizing multi-sensor, and robot for implementing same
WO2019074316A1 (en) Convolutional artificial neural network-based recognition system in which registration, search, and reproduction of image and video are divided between and performed by mobile device and server
WO2020091253A1 (en) Electronic device and method for controlling electronic device
WO2020017814A1 (en) Abnormal entity detection system and method
WO2021040105A1 (en) Artificial intelligence device generating named entity table and method for same
WO2020230931A1 (en) Robot generating map on basis of multi-sensor and artificial intelligence, configuring correlation between nodes and running by means of map, and method for generating map

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19872931

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19872931

Country of ref document: EP

Kind code of ref document: A1