WO2023055013A1 - 뉴럴 네트워크(Neural Network)에 기초한 영상 처리 방법 및 영상 처리 장치 - Google Patents

뉴럴 네트워크(Neural Network)에 기초한 영상 처리 방법 및 영상 처리 장치 Download PDF

Info

Publication number
WO2023055013A1
WO2023055013A1 PCT/KR2022/014405 KR2022014405W WO2023055013A1 WO 2023055013 A1 WO2023055013 A1 WO 2023055013A1 KR 2022014405 W KR2022014405 W KR 2022014405W WO 2023055013 A1 WO2023055013 A1 WO 2023055013A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
dnn
low
input image
map
Prior art date
Application number
PCT/KR2022/014405
Other languages
English (en)
French (fr)
Inventor
김계현
김범석
이유진
장태영
박영오
박용섭
이상미
최광표
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Publication of WO2023055013A1 publication Critical patent/WO2023055013A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • G06T3/4076Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution using the original low-resolution images to iteratively correct the high-resolution images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • the present disclosure relates to an image processing method and an image processing apparatus for reconstructing an original image into a high-resolution image based on a neural network, and more particularly, using a deep neural network (DNN) suitable for short-range restoration and a DNN suitable for long-range restoration.
  • DNN deep neural network
  • DNNs deep neural networks
  • An image processing method based on a neural network includes obtaining a feature map for distinguishing a near object and a far object of a low resolution input image; obtaining a synthesized weight map for the low-resolution input image by inputting a feature map to a first DNN; acquiring a first image by inputting a low-resolution input image to a second DNN suitable for reconstructing a distant object; acquiring a second image by inputting a low-resolution input image to a third DNN suitable for reconstructing a near object; and acquiring a high-resolution image of the low-resolution input image by performing a weighted average of the first image and the second image using a synthesized weight map.
  • an image processing device based on a neural network includes a memory; and at least one processor.
  • the at least one processor may obtain a feature map for distinguishing a near object and a far object of the low resolution input image.
  • the at least one processor may obtain a synthesized weight map for the low-resolution input image by inputting the feature map to the first DNN.
  • the at least one processor may obtain a first image by inputting the low-resolution input image to a second DNN suitable for reconstructing a distant object.
  • the at least one processor may obtain a second image by inputting the low resolution input image to a third DNN suitable for reconstructing a near object.
  • the at least one processor may acquire a high-resolution image of the low-resolution input image by performing a weighted average of the first image and the second image using the synthesized weight map.
  • 1 is a diagram for explaining a method of improving the quality of an input image based on a plurality of DNNs according to an embodiment of the present disclosure.
  • FIG. 2 is a diagram for explaining a method of obtaining a synthesized weight map according to a depth map of an input image according to an embodiment of the present disclosure.
  • FIG 3 is a diagram for explaining an example of a distribution model based on a depth map of an image according to an embodiment of the present disclosure.
  • FIG. 4 is a diagram for explaining an example of a distribution model based on a depth map of an image according to an embodiment of the present disclosure.
  • FIG. 5 is a diagram for explaining an image restoration method according to a DNN suitable for restoration of a distant object according to an embodiment of the present disclosure.
  • FIG. 6 is a diagram for explaining an image restoration method according to a DNN suitable for restoration of a near object according to an embodiment of the present disclosure.
  • FIG. 7 is a diagram for explaining a method of obtaining a composite weight map based on a distribution model of a depth map according to an embodiment of the present disclosure.
  • FIG. 8 is a diagram for explaining a method of improving the quality of an input image based on a plurality of DNNs according to an embodiment of the present disclosure.
  • 9A is a diagram for explaining a method of acquiring distance information through a distance sensor according to an embodiment of the present disclosure.
  • 9B is a diagram for explaining limitations of a method for obtaining distance information through a distance sensor according to an embodiment of the present disclosure.
  • FIG. 10 is a diagram for explaining an example of a method for acquiring a depth map of an image using a DNN according to an embodiment of the present disclosure.
  • FIG. 11 is a diagram for explaining an example of a method of obtaining training data of a DNN for obtaining a depth map according to an embodiment of the present disclosure.
  • FIG. 12 is a diagram for explaining an example of a DNN training method for obtaining a depth map according to an embodiment of the present disclosure.
  • FIG. 13 is a diagram for explaining a method of improving the quality of an input image based on a plurality of DNNs according to an embodiment of the present disclosure.
  • FIG. 14 is a diagram for explaining a method of improving the quality of an input image based on a plurality of DNNs according to an embodiment of the present disclosure.
  • 15 is a diagram for explaining a method of using a multi-task DNN according to an embodiment of the present disclosure.
  • 16 is a diagram for explaining the difference between an image restoration method based on one DNN suitable for reconstructing a near object and an image restoration method based on a plurality of DNNs.
  • 17 is a flowchart illustrating a method of improving the quality of an input image based on a plurality of DNNs according to an embodiment of the present disclosure.
  • FIG. 18 is a block diagram of an image processing device according to an embodiment of the present disclosure.
  • the expression “at least one of a, b, or c” means “a”, “b”, “c”, “a and b”, “a and c”, “b and c”, “a, b” and c”, or variations thereof.
  • one component when one component is referred to as “connected” or “connected” to another component, the one component may be directly connected or directly connected to the other component, but in particular Unless otherwise described, it should be understood that they may be connected or connected via another component in the middle.
  • components expressed as ' ⁇ unit (unit)', 'module', etc. are two or more components combined into one component, or one component is divided into two or more components for each more subdivided function. may be differentiated into.
  • each of the components to be described below may additionally perform some or all of the functions of other components in addition to its own main function, and some of the main functions of each component may be different from other components. Of course, it may be performed exclusively by a component.
  • 'image' or 'picture' may indicate a still image, a moving image composed of a plurality of continuous still images (or frames), or a video.
  • 'DNN deep neural network
  • 'DNN deep neural network
  • 'low-resolution input image' refers to an image to be improved in image quality.
  • a 'depth map' refers to an image of distances between pixels existing in a low-resolution input image.
  • the 'feature map' refers to an image that distinguishes a near object from a far object in a low-resolution input image.
  • a 'synthesis weight map' refers to an image for weights for synthesizing two images reconstructed from two DNN models. 'Synthesis' means reconstructing an image by weighting averaging two images reconstructed from two DNN models based on a composite weight map.
  • the 'first image' refers to an image acquired through a DNN suitable for reconstructing a distant object using a low-resolution input image as an input.
  • the 'second image' refers to an image obtained through a DNN suitable for restoring a near object using a low-resolution input image as an input.
  • a 'high-resolution image' refers to an image reconstructed in high quality/high resolution as a low-resolution input image by applying a weighted average of a first image and a second image to a synthesized weight map.
  • a 'distant object' means a relatively distant object among objects in a low-resolution input image.
  • a 'near object' refers to an object at a relatively close distance among objects in a low-resolution input image.
  • An 'object' refers to all objects in the low-resolution input image (eg, a background in the input image, a distant building, a nearby structure, etc.).
  • FIGS. 1 to 4, 7 to 10, 13 to 15, and 17 may be operated by the processor 1820 of the image processing device 1800 of FIG. 18 to be described later.
  • 1 is a diagram for explaining a method of improving the quality of an input image based on a plurality of DNNs according to an embodiment of the present disclosure.
  • a processor 1820 of an image processing device 1800 acquires a feature map 115 for distinguishing a near object and a far object of a low resolution input image 110 from a low resolution input image 110, and A synthesized weight map 125 of the low-resolution input image 110 is acquired through the first DNN 120 with the map 115 as an input.
  • the first DNN 120 may be a general convolutional neural network (CNN) including a convolutional layer.
  • CNN convolutional neural network
  • the first DNN 120 is trained to obtain a synthesized weight map of an input image by taking a feature map for distinguishing a near object from a far object as an input.
  • the processor 1820 of the image processing device 1800 acquires the first image 135 through the second DNN 130 suitable for restoring a distant object by taking the low-resolution input image 110 as an input.
  • the second DNN 130 is a DNN with low noise but characterized by blurry output images and small textures in the output images.
  • the processor 1820 of the image processing device 1800 obtains the second image 145 through the third DNN 140 suitable for restoring a near object by taking the low-resolution input image 110 as an input.
  • the third DNN 140 is a DNN characterized by excellent texture resiliency and a clear output image, but artifacts.
  • the second DNN may be a general CNN based on an L1 loss model or an L2 loss model, and the third DNN may be a CNN based on a GAN loss model.
  • the processor 1820 of the image processing device 1800 obtains the synthesized image 150 by combining the first image 135 and the second image 145 with a weighted average based on the synthesized weight map 125 .
  • the near object included in the synthesized image 150 is sharp, and the far object is softly restored. Accordingly, the synthesized image 150 is a reconstructed image with a high resolution/high quality compared to the low resolution input image 110 .
  • FIG. 2 is a diagram for explaining a method of obtaining a synthesized weight map according to a depth map of an input image according to an embodiment of the present disclosure.
  • a processor 1820 of the image processing device 1800 acquires a depth map 210 of a low resolution input image 110 and applies a distribution model 220 to the depth map 210 to obtain a low resolution input image.
  • a feature map 115 is obtained based on the distribution of distance values for all pixels of the image 110, and the feature map 115 is input to the first DNN 120 to synthesize a weight map of the low-resolution input image 110 ( 125) is created or acquired.
  • the processor 1820 of the image processing device 1800 obtains a synthesis weight map 125 for synthesizing two images obtained from two DNN models.
  • a composite weight map 125 is predicted based on the distance information. Specifically, based on the distribution of distance values for all pixels of the image, distance values of the pixels of the background and object are clustered by approximating the distance distribution of the background and object of the image with a Gaussian distribution.
  • the Gaussian distribution is a representative example of a distribution model, and the distribution model is not limited to the Gaussian distribution.
  • FIG 3 is a diagram for explaining an example of a distribution model based on a depth map of an image according to an embodiment of the present disclosure.
  • the processor 1820 of the image processing device 1800 obtains a distribution model 330 based on the depth map 320 of the input image 310 .
  • the processor 1820 of the image processing device 1800 approximates the distribution of distance values of the two objects to two Gaussian distribution models in order to classify the two objects in the input image 310 .
  • the input image 310 may be divided into a near object and a far background according to two Gaussian distributions of the distribution model 330 .
  • Gaussian distribution of the distribution model 330 for the depth map 320 of the input image 310 there are two Gaussian distributions with similar mean values and different variances and standard deviations. Accordingly, objects of the input image 310 are divided into two objects corresponding to two Gaussian distributions.
  • FIG. 4 is a diagram for explaining an example of a distribution model based on a depth map of an image according to an embodiment of the present disclosure.
  • the processor 1820 of the image processing device 1800 obtains a distribution model 430 based on the depth map 420 of the input image 410 .
  • the processor 1820 of the image processing device 1800 approximates the distribution of distance values of the two objects to two Gaussian distribution models in order to classify the two objects in the input image 410 .
  • the input image 410 may be divided into one building at a short distance and another building at a relatively long distance according to two Gaussian distributions of the distribution model 430 .
  • Gaussian distribution of the distribution model 430 for the depth map 420 of the input image 410 a Gaussian distribution with a small average value and a large variance and standard deviation, and a Gaussian distribution with a large average value and a small variance and standard deviation exists. Accordingly, objects of the input image 410 are divided into two objects corresponding to two Gaussian distributions.
  • the distance information may be information obtained through a distance sensor of a camera that captures an image, a depth camera, a LIDAR, and the like.
  • the distance information may be information obtained in a 3D reconstruction process from single or multiple images.
  • the distance information may be information included in a Z-Buffer in a graphic rendering process such as a game.
  • FIG. 5 is a diagram for explaining an image restoration method according to a DNN suitable for restoration of a distant object according to an embodiment of the present disclosure.
  • an input image 510 is input to a second DNN suitable for reconstructing a distant object and reconstructed as a first image 520 .
  • the second DNN has low noise, but has a feature that an output image is blurred or a small texture disappears from the output image. Accordingly, although the first image 520 is blurry, the small texture of the input image 510 disappears.
  • the second DNN may be, for example, a CNN based on an L1 loss model or an L2 loss model.
  • FIG. 6 is a diagram for explaining an image restoration method according to a DNN suitable for restoration of a near object according to an embodiment of the present disclosure.
  • an input image 610 is input to a third DNN suitable for reconstructing a near object, and is reconstructed as a second image 620 .
  • the third DNN has excellent texture resiliency, so the output image is clear, but artifacts are generated. Accordingly, the second image 620 is clearer than the input image 610, but artifacts occur.
  • the third DNN may be, for example, a DNN based on a GAN loss model.
  • an image quality enhancement method applied according to a distance needs to be different.
  • the restored image is artificial and the perspective of the restored image disappears. Since each pixel of the image has a different focus and light environment depending on the distance from the camera that captures the image, there is a limit in that the restored image looks unnatural when a single image quality improvement algorithm is uniformly applied to all pixels.
  • images captured outdoors have different sharpness and color depending on the distance even of the same object due to environmental factors such as natural light. Therefore, there is a need for a method of obtaining an image with improved quality by applying different DNNs according to distances using distance information.
  • FIG. 7 is a diagram for explaining a method of obtaining a composite weight map based on a distribution model of a depth map according to an embodiment of the present disclosure.
  • the raw depth 420 of the input image 410 that is, raw depth information
  • a value unit eg, m, km, or any scaling unit
  • the processor 1820 of the image processing device 1800 first measures the distribution of depth values of the low depth 420 of the input image 410 . Assuming that there are two objects in the input image 410, the average, variance, and size values of two distance distribution models corresponding to the two objects, for example, the Gaussian distribution model 430 can be known. Through this, the processor 1820 of the image processing device 1800 obtains a feature map for classifying objects of the input image 410 .
  • Composite weights can be calculated using the feature map, that is, the mean, variance, and standard deviation of the Gaussian distribution model as input features of the DNN 740 .
  • the characteristics of the input image 410 may be better revealed by using the synthesized weight obtained through the DNN 740 .
  • the DNN 740 may be a general CNN.
  • the DNN 740 is trained to generate a composite weight map through a plurality of feature maps for training. Through this process, a low depth value having an arbitrary value range is converted into a composite weight of 0 to 1.
  • the DNN 740 nonlinearly transforms the depth value of the input image 410 to clarify the perspective of the image and better distinguish objects in the image.
  • FIG. 8 is a diagram for explaining a method of improving the quality of an input image based on a plurality of DNNs according to an embodiment of the present disclosure.
  • the processor 1820 of the image processing device 1800 obtains a depth map 210 through the fourth DNN 810 by taking the low resolution input image 110 as an input, and obtains the depth map 210
  • a feature map for distinguishing a near object and a far object of the low resolution input image 110 is obtained by applying the distribution model 220 to .
  • the processor 1820 of the image processing device 1800 obtains the synthesized weight map 125 of the low-resolution input image 110 through the first DNN 120 by taking the feature map as an input.
  • the fourth DNN 810 may be a U-Net and is trained to obtain a depth map of an input image using a plurality of input images for training. An example of the fourth DNN 810 will be described later in FIG. 10 , and an example of a training method of the fourth DNN 810 will be described later in FIGS. 11 and 12 .
  • the processor 1820 of the image processing device 1800 obtains the first image 135 through the second DNN 130 suitable for restoring a distant object by taking the low-resolution input image 110 as an input, and A second image 145 is acquired through a third DNN 140 suitable for restoring a near object by using the image 110 as an input.
  • a synthesized image 150 is obtained by synthesizing a weighted average of the first image 135 and the second image 145 based on the synthesized weight map 125 .
  • the near object included in the synthesized image 150 is sharp, and the far object is softly restored. Accordingly, the synthesized image 150 is a reconstructed image with a high resolution/high quality compared to the low resolution input image 110 .
  • 9A is a diagram for explaining a method of acquiring distance information through a distance sensor according to an embodiment of the present disclosure.
  • image capturing devices 900 capture an image 910 at a distance of 20 m or less from the image capturing devices.
  • the image capturing devices 900 acquire distance information about objects in the image 910 when capturing images through a distance sensor included in the image capturing devices 900 .
  • the processor 1820 of the image processing device 1800 may obtain the depth map 920 based on the distance information included in the photographed image.
  • 9B is a diagram for explaining limitations of a method for obtaining distance information through a distance sensor according to an embodiment of the present disclosure.
  • a distance sensor included in the image capture devices 900 at a very long distance such as the sky. cannot be recognized as That is, due to the recognition range of the distance sensor (for example, a range within 300 m), it is not possible to recognize the distance of an object located at a distance of several km from the photographing target. Accordingly, the processor 1820 of the image processing device 1800 cannot obtain information of a long distance corresponding to the sky behind the tower of the image 930 from the depth map 940 of the image 930 .
  • FIG. 10 is a diagram for explaining an example of a method for acquiring a depth map of an image using a DNN according to an embodiment of the present disclosure.
  • a processor 1820 of an image processing device 1800 inputs an input image 1010 to a trained DNN 1000 to obtain a depth map. (1020) is obtained.
  • U-Net is a U-shaped neural network that includes multiple pooling layers and multiple upsampling layers.
  • the processor 1820 of the image processing device 1800 may obtain a depth map 1020 by inputting the single-view image 1010 to the DNN 1000 trained using the relative depth information annotation. there is.
  • FIG. 11 is a diagram for explaining an example of a method of obtaining training data of a DNN for obtaining a depth map according to an embodiment of the present disclosure.
  • an image 1110 may include objects (eg, mountains, rivers, seas, parks, cities, etc.) of short, medium, and long distances (more than 1 km).
  • objects eg, mountains, rivers, seas, parks, cities, etc.
  • long distances more than 1 km.
  • a multi-view image 1110 is captured by a photographing device such as the drone 1100 .
  • Spares Reconstruction image 1120 based on the position of the camera and 3D pixel points by acquiring the structure of the target from the motion of the drone 1100 that has taken multi-view images through Structure From Motion 1115 (1115) ) is obtained.
  • Structure From Motion 1115 is a method of predicting a 3D structure through a plurality of 2D images.
  • the multi-view stereo 1125 matching is a method of comparing a reference image and a target image to calculate a disparity and generating a depth map according to the disparity. At this time, a depth value is predicted by matching a patch of one image with a patch of another image. Through this process, actual data of a depth map used as training data for training a DNN that acquires a depth map is obtained.
  • FIG. 12 is a diagram for explaining an example of a DNN training method for obtaining a depth map according to an embodiment of the present disclosure.
  • Segmentation map for non-texture parts to predict depth of textureless parts (e.g., sky, water, etc.) This is additionally used.
  • the image 1200 including the depth map and the segmentation map may be separated into a masked depth map 1210, a water area 1220, and a sky area 1230.
  • a loss function of a DNN for obtaining a depth map by obtaining loss information for each region may be determined.
  • the DNN loss function for obtaining a depth map includes first loss information of a scale-invariant MSE term (Ldata), second loss information of a multi-scale gradient term (Lgrad), multi-scale and edge-aware It may include third loss information of the smoothness term (Lsmooth), fourth loss information of the multi-scale and water gradient term (Lwater), and fifth loss information of the sky maximization term (Lsky).
  • third loss through smooth interpolation of the depth value of the water region without a texture whose depth cannot be restored using segmentation information indicating that it is a water region Information is obtained, and fourth loss information is obtained based on the fact that the water region is flat so that the gradient in the x-axis direction is 0 and the gradient in the y-direction is a positive number to predict the depth value of the water area that cannot be measured.
  • the gradient of the sky region is adjusted to maximize the depth of the sky region compared to the predicted depths of other objects and to smooth the depth value of the sky region, resulting in an unmeasurable sky.
  • Fifth loss information for predicting a depth value of a region is obtained.
  • Ldepth a*Ldata + b*Lgrad + c*Lsmooth + d*Lwater + e*Lsky
  • a, b, c, d, and e may correspond to predetermined weights.
  • a DNN for obtaining a depth map of an image is trained to minimize the value of a loss function using training data.
  • a depth map of an input image may be obtained through such a DNN.
  • FIG. 13 is a diagram for explaining a method of improving the quality of an input image based on a plurality of DNNs according to an embodiment of the present disclosure.
  • the processor 1820 of the image processing device 1800 uses the low-resolution input image 110 as an input and generates a synthesized weight map 125 of the low-resolution input image 110 through the fifth DNN 1310.
  • the fifth DNN 1310 may be a U-Net, and applies the distribution model 220 to the depth map of the input image 110 to generate a feature map for distinguishing a near object from a far object in the low resolution input image 110. It is trained to perform the process of obtaining the synthetic weight map 125 through the first DNN 120 with the feature map as an input.
  • the processor 1820 of the image processing device 1800 obtains the first image 135 through the second DNN 130 suitable for restoring a distant object by taking the low-resolution input image 110 as an input, and A second image 145 is acquired through a third DNN 140 suitable for restoring a near object by using the image 110 as an input.
  • the processor 1820 of the image processing device 1800 obtains the synthesized image 150 by combining the first image 135 and the second image 145 with a weighted average based on the synthesized weight map 125 .
  • the near object included in the synthesized image 150 is sharp, and the far object is softly restored. Accordingly, the synthesized image 150 is a reconstructed image with a high resolution/high quality compared to the low resolution input image 110 .
  • FIG. 14 is a diagram for explaining a method of improving the quality of an input image based on a plurality of DNNs according to an embodiment of the present disclosure.
  • the processor 1820 of the image processing device 1800 obtains a depth map 210 through the fourth DNN 810 by taking the low-resolution input image 110 as an input, and obtains the depth map 210
  • a synthesized weight map 125 of the low-resolution input image 110 is acquired through the sixth DNN 1410 by using as an input.
  • the sixth DNN 1410 may be a general CNN.
  • the distribution model 220 is applied to obtain a feature map for distinguishing a near object from a far object in the low resolution input image 110, and the feature map is used as an input. It is trained to perform the process of acquiring the synthetic weight map 125 through the first DNN 120 at once.
  • the processor 1820 of the image processing device 1800 obtains the first image 135 through the second DNN 130 suitable for restoring a distant object by taking the low-resolution input image 110 as an input, and A second image 145 is acquired through a third DNN 140 suitable for restoring a near object by using the image 110 as an input.
  • the processor 1820 of the image processing device 1800 obtains the synthesized image 150 by combining the first image 135 and the second image 145 with a weighted average based on the synthesized weight map 125 .
  • the near object included in the synthesized image 150 is sharp, and the far object is softly restored. Accordingly, the synthesized image 150 is a reconstructed image with a high resolution/high quality compared to the low resolution input image 110 .
  • 15 is a diagram for explaining a method of using a multi-task DNN according to an embodiment of the present disclosure.
  • a task refers to a task to be solved or a task to be performed through machine learning.
  • depth map extraction, image extraction suitable for a distant object, image extraction suitable for a near object, and the like may correspond to individual tasks.
  • a multi-task DNN refers to a DNN that performs learning on a plurality of tasks using one model.
  • the processor 1820 of the image processing device 1800 inputs a low-resolution input image 1510 to a seventh DNN 1500 that performs a plurality of tasks, and forms a depth map 1525, A first image 1535 and a second image 1545 may be acquired.
  • the seventh DNN 1500 includes a shared layer 1515, a first task layer 1520, a second task layer 1530, and a third task layer 1540, and the shared layer 1515 is an input It is a layer that extracts shared features of the image 1510, and the first task layer 1520 obtains the depth map 1525 of the input image 1520 by taking the feature map extracted from the shared layer 1515 as an input.
  • the second task layer 1530 is a layer for acquiring the first image 1535 as a layer suitable for reconstructing a distant object by taking the feature map extracted from the shared layer 1515 as an input
  • the third The task layer 1540 is a layer for acquiring the second image 1545 as a layer suitable for reconstructing a short-range object by taking the feature map extracted from the shared layer 1515 as an input.
  • Each of the shared layer 1515, the first task layer 1520, the second task layer 1530, and the third task layer 1540 may include a plurality of layers.
  • Multi-task DNN efficiently estimates three depth maps 1525, a first image 1535, and a second image 1545 by learning a plurality of tasks through one DNN model including a shared layer 1515. can do.
  • the processor 1820 of the image processing device 1800 obtains a depth map 1525, a first image 1535, and a second image 1545 through the seventh DNN 1500, which is a multi-task DNN.
  • the processor 1820 of the image processing device 1800 may apply the distribution model to the depth map 1525 to obtain a feature map, and input the feature map to the first DNN 120 to obtain a composite weight map.
  • the processor 1820 of the image processing device 1800 may synthesize the first image 1535 and the second image 1545 based on the synthesized weight map to obtain a high quality/high resolution reconstructed image.
  • 16 is a diagram for explaining the difference between an image restoration method based on one DNN suitable for reconstructing a near object and an image restoration method based on a plurality of DNNs.
  • the far object when an original image 1610 is reconstructed using a DNN based on a GAN loss model suitable for reconstructing a near object, as in the far portion 1615 of the first reconstructed image 1620, the far object is overly sharp and has problems with artifacts. Accordingly, even though it is far away, it is clear and there is no sense of perspective and it feels unnatural.
  • the far portion 1625 of the second reconstructed image 1630 is The image quality of the restored image can be improved compared to the original image because the part is soft and blurry is preserved and natural.
  • 17 is a flowchart illustrating a method of improving the quality of an input image based on a plurality of DNNs according to an embodiment of the present disclosure.
  • the processor 1810 of the image processing device 1800 may obtain a feature map for distinguishing a near object from a far object in a low resolution input image.
  • the feature map may be obtained by applying a distribution model to the depth map of the low-resolution image.
  • the distribution model may be a Gaussian distribution model.
  • a depth map may be obtained from distance information included in the low-resolution input image.
  • a depth map may be obtained from distance information included in the low-resolution input image.
  • the depth map may be obtained through a 3D reconstruction method.
  • the depth map may be obtained from distance information obtained in a graphic rendering process.
  • a distribution model may be applied to each object present in the low-resolution input image.
  • step S1730 the processor 1810 of the image processing device 1800 may obtain a synthesized weight map for the low-resolution input image by inputting the feature map to the first DNN.
  • the first DNN may discriminate at least one object in the low-resolution input image by non-linearly converting a depth value of the depth map.
  • the depth map may be obtained through a fourth DNN trained to extract depth information of an image.
  • the fourth DNN may be a U-shaped neural network.
  • step S1750 the processor 1810 of the image processing device 1800 may obtain a first image by inputting the low-resolution input image to a second DNN suitable for reconstructing a distant object.
  • step S1770 the processor 1810 of the image processing device 1800 may acquire a second image by inputting the low-resolution input image to a third DNN suitable for reconstructing a near object.
  • the second DNN may be a DNN using either an L1 loss model or an L2 loss model
  • the third DNN may be a DNN using a Generative Adversarial Network (GAN) model.
  • GAN Generative Adversarial Network
  • step S1790 the processor 1810 of the image processing device 1800 may acquire a high-resolution image of the low-resolution input image by performing a weighted average of the first image and the second image using the synthesized weight map.
  • FIG. 18 is a block diagram of an image processing device according to an embodiment of the present disclosure.
  • An image processing device 1800 may include a memory 1810 and at least one processor 1820 connected to the memory 1810 . Operations of the image processing device 1800 according to an embodiment may be operated as an individual processor or under the control of a central processor.
  • the memory 1810 of the image processing device 1800 may include information about data received from the outside and data generated by a processor, for example, a feature map, a first image, a second image, and a synthesized weight map. etc. can be stored.
  • the processor 1820 of the image processing device 1800 obtains a feature map for distinguishing a near object from a far object in the low resolution input image, inputs the feature map to the first DNN, and synthesizes a weight map for the low resolution input image. Acquire a first image by inputting the low-resolution input image to a second DNN suitable for reconstructing a distant object, and acquire a second image by inputting the low-resolution input image to a third DNN suitable for reconstructing a near object And, a high-resolution image of the low-resolution input image may be obtained by performing a weighted average of the first image and the second image using the synthesized weight map.
  • An image processing method based on a neural network includes obtaining a feature map for distinguishing a near object and a far object of a low resolution input image; obtaining a synthesized weight map for the low-resolution input image by inputting the feature map to a first DNN; obtaining a first image by inputting the low-resolution input image to a second DNN suitable for reconstructing a distant object; obtaining a second image by inputting the low-resolution input image to a third DNN suitable for reconstructing a near object; and obtaining a high-resolution image of the low-resolution input image by performing a weighted average of the first image and the second image using the synthesized weight map.
  • the second DNN may be a DNN using either an L1 loss model or an L2 loss model
  • the third DNN may be a DNN using a Generative Adversarial Network (GAN) model.
  • GAN Generative Adversarial Network
  • the feature map may be obtained by applying a distribution model to a depth map of the low-resolution image.
  • the distribution model may be a Gaussian distribution model.
  • the depth map may be obtained from distance information included in the low-resolution input image.
  • the depth map may be obtained through a 3D reconstruction method.
  • the depth map may be obtained from distance information obtained in a graphic rendering process.
  • the distribution model may be applied to each object present in the low-resolution input image.
  • the first DNN may discriminate at least one object in the low-resolution input image by non-linearly converting a depth value of the depth map.
  • the depth map may be obtained through a fourth DNN trained to extract depth information of an image.
  • the fourth DNN may be a U-shaped neural network.
  • An image processing method based on a neural network uses different DNNs according to distance, that is, a DNN suitable for reconstructing a distant object and a DNN suitable for reconstructing a nearby object, and synthesizing the image quality of the reconstructed image. It may have an effect that is improved compared to the original image.
  • An image processing apparatus based on a neural network includes a memory; and at least one processor, wherein the at least one processor: obtains a feature map for distinguishing a near object from a far object in the low-resolution input image, inputs the feature map to a first DNN, and outputs the feature map to the low-resolution input image.
  • obtains a synthetic weight map for obtains a first image by inputting the low-resolution input image to a second DNN suitable for reconstructing a distant object, and inputs the low-resolution input image to a third DNN suitable for reconstructing a near object to obtain a second DNN.
  • a high-resolution image of the low-resolution input image may be obtained by acquiring two images and performing a weighted average of the first image and the second image using the synthesized weight map.
  • the second DNN may be a DNN using either an L1 loss model or an L2 loss model
  • the third DNN may be a DNN using a Generative Adversarial Network (GAN) model.
  • GAN Generative Adversarial Network
  • the feature map may be obtained by applying a distribution model to a depth map of the low-resolution image.
  • the distribution model may be a Gaussian distribution model.
  • the depth map may be obtained from distance information included in the low-resolution input image.
  • the depth map may be obtained through a 3D reconstruction method.
  • the depth map may be obtained from distance information obtained in a graphic rendering process.
  • the distribution model may be applied to each object present in the low-resolution input image.
  • the first DNN may discriminate at least one object in the low-resolution input image by non-linearly converting a depth value of the depth map.
  • the depth map may be obtained through a fourth DNN trained to extract depth information of an image.
  • the fourth DNN may be a U-shaped neural network.
  • An image processing apparatus based on a neural network uses and synthesizes different DNNs according to distance, that is, a DNN suitable for reconstructing a distant object and a DNN suitable for reconstructing a near object, thereby improving the quality of the reconstructed image. It may have an effect that is improved compared to the original image.
  • the above-described embodiments of the present disclosure can be written as programs or instructions that can be executed on a computer, and the written programs or instructions can be stored in a medium.
  • the medium may continuously store programs or instructions executable by a computer, or temporarily store them for execution or download.
  • the medium may be various recording means or storage means in the form of a single or combined hardware, but is not limited to a medium directly connected to a certain computer system, and may be distributed on a network.
  • Examples of the medium include magnetic media such as hard disks, floppy disks and magnetic tapes, optical recording media such as CD-ROM and DVD, magneto-optical media such as floptical disks, and ROM, RAM, flash memory, etc. configured to store program instructions.
  • examples of other media include recording media or storage media managed by an app store that distributes applications, a site that supplies or distributes various other software, and a server.
  • the above-described DNN-related model may be implemented as a software module.
  • the DNN model When implemented as a software module (eg, a program module including instructions), the DNN model may be stored in a computer-readable recording medium.
  • the DNN model may be integrated in the form of a hardware chip and become a part of the image processing device 1800 described above.
  • a DNN model can be built in the form of a dedicated hardware chip for artificial intelligence, or built as part of an existing general-purpose processor (eg CPU or application processor) or graphics-only processor (eg GPU). It could be.
  • the DNN model may be provided in the form of downloadable software.
  • a computer program product may include a product in the form of a software program (eg, a downloadable application) that is distributed electronically by a manufacturer or through an electronic marketplace. For electronic distribution, at least a portion of the software program may be stored on a storage medium or may be temporarily created.
  • the storage medium may be a storage medium of a manufacturer or a server of an electronic market or a relay server.
  • the device-readable storage medium may be provided in the form of a non-transitory storage medium.
  • 'non-temporary storage medium' only means that it is a tangible device and does not contain signals (e.g., electromagnetic waves), and this term refers to the case where data is stored semi-permanently in the storage medium and temporary It does not discriminate if it is saved as .
  • a 'non-temporary storage medium' may include a buffer in which data is temporarily stored.
  • the method according to various embodiments disclosed in this document may be provided by being included in a computer program product.
  • Computer program products may be traded between sellers and buyers as commodities.
  • a computer program product is distributed in the form of a device-readable storage medium (eg compact disc read only memory (CD-ROM)), or through an application store or between two user devices (eg smartphones). It can be distributed (e.g., downloaded or uploaded) directly or online.
  • a computer program product eg, a downloadable app
  • a device-readable storage medium such as a memory of a manufacturer's server, an application store server, or a relay server. It can be temporarily stored or created temporarily.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

저해상도 입력 영상의 근거리 물체와 원거리 물체를 구분하는 특징 맵을 획득하고, 상기 특징 맵을 제1 DNN에 입력하여, 상기 저해상도 입력 영상에 대한 합성 가중치 맵을 획득하고, 상기 저해상도 입력 영상을 원거리 물체의 복원에 적합한 제2 DNN에 입력하여 제1 영상을 획득하고, 상기 저해상도 입력 영상을 근거리 물체의 복원에 적합한 제3 DNN에 입력하여 제2 영상을 획득하고, 상기 제1 영상과 상기 제2 영상을 상기 합성 가중치 맵을 이용하여 가중 평균함으로써 상기 저해상도 입력 영상에 대한 고해상도 영상을 획득하는, 뉴럴 네트워크에 기초한 영상 처리 방법 및 영상 처리 장치를 제공한다.

Description

[규칙 제37.2조에 의해 ISA가 부여한 발명의 명칭] 뉴럴 네트워크(Neural Network)에 기초한 영상 처리 방법 및 영상 처리 장치
본 개시는 뉴럴 네트워크에 기초하여 원본 영상을 고해상도 영상으로 복원하는 영상 처리 방법 및 영상 처리 장치에 관한 것으로, 보다 상세하게는, 근거리 복원에 적합한 DNN(Deep Neural Network) 및 원거리 복원에 적합한 DNN을 이용하여 근거리 물체는 선명하고 원거리 물체는 부드럽게 복원된 고해상도 영상을 복원하는 영상 처리 방법 및 영상 처리 장치에 관한 것이다.
인공지능(artificial intelligence) 관련 기술의 발달과 고해상도/고화질의 영상을 재생, 저장할 수 있는 하드웨어의 개발 및 보급에 따라, 딥 뉴럴 네트워크(DNN)을 이용하여 원본 영상을 고화질/고해상도 영상으로 효과적으로 복원하는 방법 및 장치에 대한 필요성이 증대하고 있다.
본 개시의 일 실시예에 따른 뉴럴 네트워크(Neural Network)에 기초한 영상 처리 방법은 저해상도 입력 영상의 근거리 물체와 원거리 물체를 구분하는 특징 맵을 획득하는 단계; 특징 맵을 제1 DNN에 입력하여, 상기 저해상도 입력 영상에 대한 합성 가중치 맵을 획득하는 단계; 저해상도 입력 영상을 원거리 물체의 복원에 적합한 제2 DNN에 입력하여 제1 영상을 획득하는 단계; 저해상도 입력 영상을 근거리 물체의 복원에 적합한 제3 DNN에 입력하여 제2 영상을 획득하는 단계; 제1 영상과 제2 영상을 합성 가중치 맵을 이용하여 가중 평균함으로써 상기 저해상도 입력 영상에 대한 고해상도 영상을 획득하는 단계를 포함할 수 있다.
또한, 일 실시예에 따른 뉴럴 네트워크에 기초한 영상 처리 장치는 메모리; 및 적어도 하나의 프로세서를 포함할 수 있다. 상기 적어도 하나의 프로세서는 저해상도 입력 영상의 근거리 물체와 원거리 물체를 구분하는 특징 맵을 획득할 수 있다. 상기 적어도 하나의 프로세서는 상기 특징 맵을 제1 DNN에 입력하여, 상기 저해상도 입력 영상에 대한 합성 가중치 맵을 획득할 수 있다. 상기 적어도 하나의 프로세서는 상기 저해상도 입력 영상을 원거리 물체의 복원에 적합한 제2 DNN에 입력하여 제1 영상을 획득할 수 있다. 상기 적어도 하나의 프로세서는 상기 저해상도 입력 영상을 근거리 물체의 복원에 적합한 제3 DNN에 입력하여 제2 영상을 획득할 수 있다. 상기 적어도 하나의 프로세서는 상기 제1 영상과 상기 제2 영상을 상기 합성 가중치 맵을 이용하여 가중 평균함으로써 상기 저해상도 입력 영상에 대한 고해상도 영상을 획득할 수 있다.
도 1은 본 개시의 일 실시예에 따른 복수의 DNN에 기초하여 입력 영상의 화질을 향상하는 방법을 설명하기 위한 도면이다.
도 2는 본 개시의 일 실시예에 따른 입력 영상의 깊이 맵에 따라 합성 가중치 맵을 획득하는 방법을 설명하기 위한 도면이다.
도 3은 본 개시의 일 실시예에 따른 영상의 깊이 맵에 기초한 분포 모델의 예시를 설명하기 위한 도면이다.
도 4는 본 개시의 일 실시예에 따른 영상의 깊이 맵에 기초한 분포 모델의 예시를 설명하기 위한 도면이다.
도 5는 본 개시의 일 실시예에 따른 원거리 물체의 복원에 적합한 DNN에 따른 영상 복원 방법을 설명하기 위한 도면이다.
도 6은 본 개시의 일 실시예에 따른 근거리 물체의 복원에 적합한 DNN에 따른 영상 복원 방법을 설명하기 위한 도면이다.
도 7은 본 개시의 일 실시예에 따른 깊이 맵의 분포 모델에 기초하여 합성 가중치 맵을 획득하는 방법을 설명하기 위한 도면이다.
도 8은 본 개시의 일 실시예에 따른 복수의 DNN에 기초하여 입력 영상의 화질을 향상하는 방법을 설명하기 위한 도면이다.
도 9a는 본 개시의 일 실시예에 따른 거리 센서를 통해 거리 정보를 획득하는 방법을 설명하기 위한 도면이다.
도 9b는 본 개시의 일 실시예에 따른 거리 센서를 통해 거리 정보를 획득하는 방법의 한계를 설명하기 위한 도면이다.
도 10은 본 개시의 일 실시예에 따른 DNN을 이용한 영상의 깊이 맵 획득 방법의 예시를 설명하기 위한 도면이다.
도 11은 본 개시의 일 실시예에 따른 깊이 맵을 획득하기 위한 DNN의 훈련 데이터를 획득하는 방법의 예시를 설명하기 위한 도면이다.
도 12는 본 개시의 일 실시예에 따른 깊이 맵을 획득하기 위한 DNN의 훈련 방법의 예시를 설명하기 위한 도면이다.
도 13은 본 개시의 일 실시예에 따른 복수의 DNN에 기초하여 입력 영상의 화질을 향상하는 방법을 설명하기 위한 도면이다.
도 14는 본 개시의 일 실시예에 따른 복수의 DNN에 기초하여 입력 영상의 화질을 향상하는 방법을 설명하기 위한 도면이다.
도 15는 본 개시의 일 실시예에 따른 멀티-태스크(multi-task) DNN을 이용하는 방법을 설명하기 위한 도면이다.
도 16은 근거리 물체 복원에 적합한 하나의 DNN에 기초한 영상 복원 방법과 복수의 DNN에 기초한 영상 복원 방법의 차이를 설명하기 위한 도면이다.
도 17은 본 개시의 일 실시예에 따른 복수의 DNN에 기초하여 입력 영상의 화질을 향상하는 방법을 설명하기 위한 순서도이다.
도 18은 본 개시의 일 실시예에 따른 영상 처리 장치의 블록도를 도시한다.
본 개시에서, "a, b 또는 c 중 적어도 하나" 표현은 " a", " b", " c", "a 및 b", "a 및 c", "b 및 c", "a, b 및 c 모두", 혹은 그 변형들을 지칭할 수 있다.
본 개시는 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고, 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나, 이는 본 개시의 실시 형태에 대해 한정하려는 것이 아니며, 본 개시는 여러 실시예들의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
실시예를 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 명세서의 설명 과정에서 이용되는 숫자(예를 들어, 제 1, 제 2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.
또한, 본 명세서에서, 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.
또한, 본 명세서에서 '~부(유닛)', '모듈' 등으로 표현되는 구성요소는 2개 이상의 구성요소가 하나의 구성요소로 합쳐지거나 또는 하나의 구성요소가 보다 세분화된 기능별로 2개 이상으로 분화될 수도 있다. 또한, 이하에서 설명할 구성요소 각각은 자신이 담당하는 주기능 이외에도 다른 구성요소가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성요소 각각이 담당하는 주기능 중 일부 기능이 다른 구성요소에 의해 전담되어 수행될 수도 있음은 물론이다.
또한, 본 명세서에서, '영상(image)' 또는 '픽처'는 정지영상, 복수의 연속된 정지영상(또는 프레임)으로 구성된 동영상, 또는 비디오를 나타낼 수 있다.
또한, 본 명세서에서 'DNN(deep neural network)'은 뇌 신경을 모사한 인공신경망 모델의 대표적인 예시로써, 특정 알고리즘을 사용한 인공신경망 모델로 한정되지 않는다.
또한, 본 명세서에서 '저해상도 입력 영상'은 영상 화질 향상의 대상이 되는 영상을 의미한다. '깊이 맵'은 저해상도 입력 영상 내에 존재하는 픽셀들의 거리에 대한 이미지를 의미한다. '특징 맵'은 저해상도 입력 영상의 근거리 물체와 원거리 물체를 구분하는 이미지를 의미한다. '합성 가중치 맵'은 2개의 DNN 모델로부터 복원된 2개의 영상을 합성하기 위한 가중치에 대한 이미지를 의미한다. '합성'은 합성 가중치 맵에 기초하여 2개의 DNN 모델로부터 복원된 2개의 영상을 가중 평균하여 영상을 복원하는 것을 의미한다.
또한, '제 1 영상'은 저해상도 입력 영상을 입력으로 하여 원거리 물체의 복원에 적합한 DNN을 통해 획득한 영상을 의미한다. '제 2 영상'은 저해상도 입력 영상을 입력으로 하여 근거리 물체의 복원에 적합한 DNN을 통해 획득한 영상을 의미한다. '고해상도 영상'은 제 1 영상과 제 2 영상을 합성 가중치 맵에 적용하여 가중 평균함으로써 저해상도 입력 영상으로 고화질/고해상도로 복원한 영상을 의미한다. '원거리 물체'는 저해상도 입력 영상 내의 객체들 중 상대적으로 먼 거리에 있는 물체를 의미한다. '근거리 물체'는 저해상도 입력 영상 내의 객체들 중 상대적으로 가까운 거리에 있는 물체를 의미한다. '물체'는 저해상도 입력 영상 내의 모든 객체들(예를 들어, 입력 영상 내의 배경, 멀리 있는 건물, 가까이 있는 구조물 등등)을 의미한다.
이하에서는, 복수의 DNN에 기초하여 획득된 복수의 영상을 합성 가중치 맵에 따라 합성하여 고화질/고해상도의 영상으로 복원하는 방법이 후술된다.
도 1 내지 4, 7 내지 10, 13 내지 15, 17의 방법들은 후술되는 도 18의 영상 처리 장치(1800)의 프로세서(1820)에 의해 동작될 수 있다.
도 1은 본 개시의 일 실시예에 따른 복수의 DNN에 기초하여 입력 영상의 화질을 향상하는 방법을 설명하기 위한 도면이다.
도 1을 참고하면, 영상 처리 장치(1800)의 프로세서(1820)는 저해상도 입력 영상(110)으로부터 저해상도 입력 영상(110)의 근거리 물체와 원거리 물체를 구분하는 특징 맵(115)을 획득하고, 특징 맵(115)을 입력으로 하여 제1 DNN(120)을 통해 저해상도 입력 영상(110)의 합성 가중치 맵(125)을 획득한다. 제1 DNN(120)은 컨볼루션 레이어를 포함하는 일반적인 컨볼루션 뉴럴 네트워크(Convolutional Neural Network, CNN)일 수 있다. 제1 DNN(120)은 근거리 물체와 원거리 물체를 구분하는 특징 맵을 입력으로 하여 입력 영상의 합성 가중치 맵을 획득하도록 훈련된 것이다.
또한, 영상 처리 장치(1800)의 프로세서(1820)는 저해상도 입력 영상(110)을 입력으로 하여 원거리 물체의 복원에 적합한 제2 DNN(130)을 통해 제1 영상(135)을 획득한다. 제2 DNN(130)은 노이즈가 적지만 출력 영상이 흐릿하고 출력 영상에서 작은 텍스쳐가 사라지는 특징을 가지는 DNN이다. 영상 처리 장치(1800)의 프로세서(1820)는 저해상도 입력 영상(110)을 입력으로 하여 근거리 물체의 복원에 적합한 제3 DNN(140)을 통해 제2 영상(145)을 획득한다. 제3 DNN(140)은 텍스쳐 복원력이 우수하여 출력 영상이 선명하지만 아티팩트가 발생하는 특징을 가지는 DNN이다. 제2 DNN은 L1 손실 모델 또는 L2 손실 모델에 기초한 일반적인 CNN일 수 있고, 제3 DNN은 GAN 손실 모델에 기초한 CNN일 수 있다.
영상 처리 장치(1800)의 프로세서(1820)는 합성 가중치 맵(125)에 기초하여 제1 영상(135) 및 제2 영상(145)를 가중 평균하여 합성함으로써 합성 영상(150)을 획득한다. 저해상도 입력 영상(110)에 비해 합성 영상(150)에 포함된 근거리 물체는 선명하고, 원거리 물체는 부드럽게 복원된다. 따라서, 합성 영상(150)은 저해상도 입력 영상(110)에 비해 고해상도/고화질로 복원된 영상이다.
도 2는 본 개시의 일 실시예에 따른 입력 영상의 깊이 맵에 따라 합성 가중치 맵을 획득하는 방법을 설명하기 위한 도면이다.
도 2를 참고하면, 영상 처리 장치(1800)의 프로세서(1820)는 저해상도 입력 영상(110)의 깊이 맵(210)을 획득하고, 깊이 맵(210)에 분포 모델(220)을 적용하여 저해상도 입력 영상(110)의 모든 픽셀에 대한 거리 값 분포에 기반하여 특징 맵(115)을 획득하고, 특징 맵(115)을 제1 DNN(120)에 입력하여 저해상도 입력 영상(110)의 합성 가중치 맵(125)을 생성 또는 획득한다.
영상 처리 장치(1800)의 프로세서(1820)는 2개의 DNN 모델로부터 획득된 2개의 영상을 합성하기 위한 합성 가중치 맵(125)을 획득한다. 합성 가중치 맵(125)은 거리 정보에 기반하여 예측된다. 구체적으로, 영상의 모든 픽셀에 대한 거리 값 분포에 기초하여, 영상의 배경 및 물체의 거리 분포를 가우시안 분포로 근사하여 배경 및 물체의 픽셀들에 대한 거리 값을 클러스터링한다.
가우시안 분포는 분포 모델의 대표적인 예시로써, 분포 모델은 가우시안 분포로 한정되지 않는다.
도 3은 본 개시의 일 실시예에 따른 영상의 깊이 맵에 기초한 분포 모델의 예시를 설명하기 위한 도면이다.
도 3을 참고하면, 영상 처리 장치(1800)의 프로세서(1820)는 입력 영상(310)의 깊이 맵(320)에 기초하여 분포 모델(330)을 획득한다. 영상 처리 장치(1800)의 프로세서(1820)는 입력 영상(310) 내의 2개의 물체의 구분을 위해 2개의 물체의 거리 값 분포를 2개의 가우시안 분포 모델에 근사하도록 한다. 입력 영상(310)은 분포 모델(330)의 2개의 가우시안 분포에 따라 가까운 거리의 물체와 먼 거리의 배경으로 구분될 수 있다.
입력 영상(310)의 깊이 맵(320)에 대한 분포 모델(330)의 가우시안 분포에 따르면, 평균 값이 비슷하고, 분산 및 표준 편차가 상이한 2개의 가우시안 분포가 존재한다. 따라서, 2개의 가우시안 분포에 대응하는 2개의 객체들로 입력 영상(310)의 물체들이 구분된다.
도 4는 본 개시의 일 실시예에 따른 영상의 깊이 맵에 기초한 분포 모델의 예시를 설명하기 위한 도면이다.
도 4를 참고하면, 영상 처리 장치(1800)의 프로세서(1820)는 입력 영상(410)의 깊이 맵(420)에 기초하여 분포 모델(430)을 획득한다. 영상 처리 장치(1800)의 프로세서(1820)는 입력 영상(410) 내의 2개의 물체의 구분을 위해 2개의 물체의 거리 값 분포를 2개의 가우시안 분포 모델에 근사하도록 한다. 입력 영상(410)은 분포 모델(430)의 2개의 가우시안 분포에 따라 가까운 거리의 하나의 건물과 상대적으로 먼 거리의 다른 건물로 구분될 수 있다.
입력 영상(410)의 깊이 맵(420)에 대한 분포 모델(430)의 가우시안 분포에 따르면, 평균 값이 작고 분산 및 표준편차가 큰 가우시안 분포와, 평균 값이 크고 분산 및 표준 편차가 작은 가우시안 분포가 존재한다. 따라서, 2개의 가우시안 분포에 대응하는 2개의 객체들로 입력 영상(410)의 물체들이 구분된다.
영상의 거리 정보는 다양한 방법으로 획득될 수 있다. 예를 들어, 거리 정보는 영상을 찰영하는 카메라의 거리센서, 뎁스 카메라, 라이다 등을 통해 획득되는 정보일 수 있다. 또한, 거리 정보는 단일 또는 복수의 영상으로부터의 3D 복원 과정에서 획득되는 정보일 수 있다. 또한, 거리 정보는 게임과 같은 그래픽 렌더링 과정에서 Z-Buffer에 포함된 정보일 수 있다.
따라서, 다양한 종류의 깊이 맵에 대한 처리 방법이 필요하고, 절대적 거리 및 상대적 거리(상대적인 근거리 및 원거리 정보) 값은 이종의 데이터이므로 이들 모두에 적용될 수 있어야 한다. 이종의 거리 데이터는 거리 값의 분포가 다르기 때문에 영상의 각 픽셀들의 거리 값 분포에 기반하여 합성 가중치 맵이 계산된다.
도 5는 본 개시의 일 실시예에 따른 원거리 물체의 복원에 적합한 DNN에 따른 영상 복원 방법을 설명하기 위한 도면이다.
도 5를 참고하면, 입력 영상(510)은 원거리 물체의 복원에 적합한 제2 DNN에 입력되어, 제1 영상(520)으로 복원된다. 제2 DNN은 노이즈가 적지만 출력 영상이 흐릿해지거나 출력 영상에서 작은 텍스쳐가 사라지는 특징을 가진다. 이에 따라, 제1 영상(520)은 흐릿하지만 입력 영상(510)의 작은 텍스쳐가 사라진다. 제2 DNN은 예를 들어, L1 손실 모델 또는 L2 손실 모델에 기반한 CNN일 수 있다.
도 6은 본 개시의 일 실시예에 따른 근거리 물체의 복원에 적합한 DNN에 따른 영상 복원 방법을 설명하기 위한 도면이다.
도 6을 참고하면, 입력 영상(610)은 근거리 물체의 복원에 적합한 제3 DNN에 입력되어, 제2 영상(620)으로 복원된다. 제3 DNN은 텍스쳐 복원력이 우수하여 출력 영상이 선명하지만, 아티팩트가 발생하는 특징을 가진다. 이에 따라 제2 영상(620)는 입력 영상(610)에 비해 선명하지만 아티팩트가 발생한다. 제3 DNN은 예를 들어, GAN 손실 모델에 기반한 DNN일 수 있다.
도 5 및 도 6을 참고하면, 고해상도 영상을 획득하기 위해 하나의 손실 모델에 기초한 DNN을 이용하는 것은 각각의 장점 및 단점이 있으므로, 복수의 DNN을 이용하여 트레이드-오프를 최소화하여 합성하여 영상의 화질을 개선할 필요가 있다.
또한, 동일한 물체라도, 거리에 따라 적용되는 화질 향상 방법이 달라질 필요가 있다. 단일의 화질 복원 DNN을 적용하게 되면, 복원된 영상이 인위적이고, 복원된 영상의 원근감이 사라진다. 영상의 각 픽셀들은 영상을 촬영하는 카메라로부터의 거리에 따라 초점 및 빛의 환경이 다르기 때문에, 모든 화소에 일률적으로, 단일의 화질 향상 알고리즘을 적용하면 복원된 영상이 부자연스럽게 보이는 한계가 있다. 특히, 야외에서 촬영된 영상은 자연광과 같은 환경적 요인으로 인해 동일한 물체라도 거리에 따라 선명도와 색감이 달라진다. 따라서, 거리 정보를 이용하여, 거리에 따라 다른 DNN을 적용하여 화질이 향상된 영상을 획득하는 방법이 필요하다.
도 7은 본 개시의 일 실시예에 따른 깊이 맵의 분포 모델에 기초하여 합성 가중치 맵을 획득하는 방법을 설명하기 위한 도면이다.
도 7를 참고하면, 입력 영상(410)의 로우 뎁스(raw depth)(420), 즉 가공되지 않은 깊이 정보는 값의 단위(예를 들어, m, km, 또는 임의의 스케일링 단위) 및 분포가 각각 다르기 때문에, 영상 처리 장치(1800)의 프로세서(1820)는 입력 영상(410)의 로우 뎁스(420)의 깊이 값들의 분포를 먼저 측정한다. 입력 영상(410)에 2개의 물체가 있다고 가정하면, 2개의 물체에 대응하는 2개의 거리 분포 모델, 예를 들어, 가우시안 분포 모델(430)의 평균, 분산, 크기 값을 알 수 있다. 이를 통해 영상 처리 장치(1800)의 프로세서(1820)는 입력 영상(410)의 물체들을 구분하는 특징 맵을 획득한다. 이 특징 맵, 즉, 가우시안 분포 모델의 평균, 분산, 및 표준편차를 DNN(740)의 입력 특징으로 하여 합성 가중치가 계산될 수 있다. DNN(740)을 통해 획득된 합성 가중치를 이용함으로써 입력 영상(410)의 특성이 더 잘 드러날 수 있다. 이 때, DNN(740)은 일반적인 CNN일 수 있다. DNN(740)은 복수의 훈련용 특징 맵을 통해 합성 가중치 맵을 생성하도록 훈련된 것이다. 이러한 과정을 통해, 임의의 값의 범위를 가지는 로우 뎁스 값이 0 내지 1의 합성 가중치로 변환된다. DNN(740)은 입력 영상(410)의 깊이 값을 비선형적으로 변환하여, 영상의 원근감을 명확하게 하고, 영상 내의 물체가 더 잘 구분되게 한다.
도 8은 본 개시의 일 실시예에 따른 복수의 DNN에 기초하여 입력 영상의 화질을 향상하는 방법을 설명하기 위한 도면이다.
도 8를 참고하면, 영상 처리 장치(1800)의 프로세서(1820)는 저해상도 입력 영상(110)을 입력으로 하여 제4 DNN(810)을 통해 깊이 맵(210)을 획득하고, 깊이 맵(210)에 분포 모델(220)을 적용하여 저해상도 입력 영상(110)의 근거리 물체와 원거리 물체를 구분하는 특징 맵을 획득한다. 영상 처리 장치(1800)의 프로세서(1820)는 특징 맵을 입력으로 하여 제1 DNN(120)을 통해 저해상도 입력 영상(110)의 합성 가중치 맵(125)을 획득한다. 제4 DNN(810)은 U-Net일 수 있고, 복수의 훈련용 입력 영상을 이용하여 입력 영상의 깊이 맵을 획득하도록 훈련된 것이다. 제4 DNN(810)의 예는 도 10에서 후술되고, 제4 DNN(810)의 훈련 방법의 예시는 도 11 내지 12에서 후술된다.
또한, 영상 처리 장치(1800)의 프로세서(1820)는 저해상도 입력 영상(110)을 입력으로 하여 원거리 물체의 복원에 적합한 제2 DNN(130)을 통해 제1 영상(135)을 획득하고, 저해상도 입력 영상(110)을 입력으로 하여 근거리 물체의 복원에 적합한 제3 DNN(140)을 통해 제2 영상(145)을 획득한다.
합성 가중치 맵(125)에 기초하여 제1 영상(135) 및 제2 영상(145)를 가중 평균하여 합성함으로써 합성 영상(150)을 획득한다. 저해상도 입력 영상(110)에 비해 합성 영상(150)에 포함된 근거리 물체는 선명하고, 원거리 물체는 부드럽게 복원된다. 따라서, 합성 영상(150)은 저해상도 입력 영상(110)에 비해 고해상도/고화질로 복원된 영상이다.
도 9a는 본 개시의 일 실시예에 따른 거리 센서를 통해 거리 정보를 획득하는 방법을 설명하기 위한 도면이다.
도 9a를 참고하면, 영상을 촬영하는 장치들(900)은 영상을 촬영하는 장치들로부터 20m 이내의 거리에서 영상(910)을 촬영한다. 영상을 촬영하는 장치들(900)은 영상을 촬영하는 장치들(900)에 포함된 거리 센서를 통해 영상 촬영 시에 영상(910) 내의 물체들에 대한 거리 정보를 획득한다. 따라서, 영상 처리 장치(1800)의 프로세서(1820)는 촬영된 영상에 포함된 거리 정보에 기반하여 깊이 맵(920)을 획득할 수 있다.
도 9b는 본 개시의 일 실시예에 따른 거리 센서를 통해 거리 정보를 획득하는 방법의 한계를 설명하기 위한 도면이다.
도 9b를 참고하면, 영상을 촬영하는 장치들(900)이 300m 이내의 거리의 야외 영상(930)을 촬영할 때, 하늘과 같은 매우 먼 거리는 영상을 촬영하는 장치들(900)에 포함된 거리 센서로 인식이 불가능하다. 즉, 거리 센서의 인식 범위(예를 들어, 300m 내의 범위)로 인해 촬영 대상의 수 km 거리에 위치하는 물체의 거리를 인식할 수 없다. 따라서, 영상 처리 장치(1800)의 프로세서(1820)는 영상(930)의 깊이 맵(940)에서 영상(930)의 탑 뒤쪽의 하늘에 해당하는 먼 거리의 정보를 획득할 수 없다.
도 10은 본 개시의 일 실시예에 따른 DNN을 이용한 영상의 깊이 맵 획득 방법의 예시를 설명하기 위한 도면이다.
도 10을 참고하면, 영상 처리 장치(1800)의 프로세서(1820)는 영상(1010)의 깊이 맵(1020)을 획득하기 위해, 훈련된 DNN(1000)에 입력 영상(1010)을 입력하여 깊이 맵(1020)을 획득한다.
깊이 맵(1020)을 획득하기 위한 DNN(1000)의 훈련을 위해, 다중-뷰 드론 비행 이미지들을 수집하여 이미지의 상대적 깊이 정보의 어노테이션(annotation)이 생성된다. DNN(1000)은 상대적 깊이 정보의 어노테이션을 이용하여 U-Net에 기초한 구조로 학습된다. U-Net은 다수의 풀링 계층과 다수의 업샘플링 계층을 포함하는 U자 형태의 뉴럴 네트워크이다.
이에 따라, 영상 처리 장치(1800)의 프로세서(1820)는 단일-뷰의 영상(1010)을 상대적 깊이 정보의 어노테이션을 이용하여 학습된 DNN(1000)에 입력하여 깊이 맵(1020)을 획득할 수 있다.
도 11 내지 12는 깊이 맵을 획득하는 DNN(1000)의 훈련 방법의 예시가 후술된다.
도 11은 본 개시의 일 실시예에 따른 깊이 맵을 획득하기 위한 DNN의 훈련 데이터를 획득하는 방법의 예시를 설명하기 위한 도면이다.
도 11을 참고하면, 영상(1110)에는 단거리, 중거리, 장거리(1km이상)의 물체들(예를 들어, 산, 강, 바다, 공원, 도시 등)이 포함될 수 있다.
훈련 데이터를 획득하기 위해 드론(1100)과 같은 촬영 장치를 통해 다중-뷰 이미지(1110)가 촬영된다. Structure From Motion(1115)를 통해 다중-뷰 이미지를 촬영한 드론(1100)의 움직임으로부터 촬영 대상의 구조를 획득(1115)하여 카메라의 위치 및 3D 픽셀 포인트에 기초한 희소 복원(Spares Reconstruction) 이미지(1120)가 획득된다. Structure From Motion(1115)은 복수의 2차원 이미지들을 통해 3차원 구조를 예측하는 방법이다. 희소 복원 이미지(1120)에 다중-뷰 스트레오(multi-view stereo, 1125) 정합을 적용하여, 다중 뷰 이미지들로부터 영상 일관성(photo consistency)을 이용하여 깊이 값이 예측된다. 다중-뷰 스트레오(1125) 정합은 기준 영상과 타겟 영상을 비교하여 시차를 계산하고 시차에 따라 깊이 맵을 생성하는 방법이다. 이 때, 이미지의 하나의 패치를 다른 이미지의 패치와 매칭하여 깊이 값이 예측된다. 이러한 과정을 통해, 깊이 맵을 획득하는 DNN의 훈련을 위한 훈련 데이터로서 이용되는 깊이 맵의 실측 데이터가 획득된다.
도 12는 본 개시의 일 실시예에 따른 깊이 맵을 획득하기 위한 DNN의 훈련 방법의 예시를 설명하기 위한 도면이다.
거리 센서와 다중-뷰 스트레오 정합을 이용하여도 실측이 어려운 텍스쳐가 없는(textureless) 부분(예를 들어, 하늘, 물 등)의 깊이를 예측하기 위해, 텍스쳐가 없는 부분에 대한 세그멘테이션(segmentation) 맵이 추가로 이용된다.
깊이 맵 및 세그멘테이션 맵을 포함하는 영상(1200)은 마스킹된 깊이 맵(masked depth map; 1210), 물 영역(1220), 하늘 영역(1230)으로 분리될 수 있다.
각 영역들에 대한 손실 정보를 획득하여 깊이 맵을 획득하기 위한 DNN의 손실 함수가 결정될 수 있다.
예를 들어, 깊이 맵을 획득하기 위한 DNN의 손실 함수는 scale-invariant MSE term(Ldata)의 제1 손실 정보, multi-scale gradient term(Lgrad)의 제2 손실 정보, multi-scale and edge-aware smoothness term(Lsmooth)의 제3 손실 정보, multi-scale and water gradient term (Lwater)의 제4 손실 정보, sky maximization term(Lsky)의 제5 손실 정보를 포함할 수 있다.
구체적으로, 깊이 맵으로부터 물 영역(1220) 및 하늘 영역(1230)을 제외하도록 마스킹된 깊이 맵(masked depth map; 1210)에 기초하여, 동일한 픽셀 위치에서 훈련 데이터의 실측된 깊이 값과 DNN을 통해 예측된 깊이 값의 차이의 평균 제곱 오차(Mean Square Error)에 따른 제1 손실 정보와, 훈련 데이터의 실측된 깊이 값들 사이의 급격한 변화가 발생하는 부분에 대해, DNN을 통해 예측된 갚이 값들 사이의 급격한 변화가 나타나지 않는 경우, 실측된 깊이 값들 사이의 급격한 변화에 정합되도록, 급격한 깊이 값의 불연속성을 회복하고, 불연속성이 나타나는 부분의 그래디언트(gradient) 변화를 스무딩하는 제2 손실 정보가 획득된다.
세그멘테이션 맵에서 분리된 물 영역(1220)에 기초하여, 물 영역임을 나타내는 세그멘테이션 정보를 이용하여 깊이를 복원할 수 없는 텍스쳐가 없는 물 영역의 깊이 값에 대한 스무딩 보간(smooth interpolation)을 통해 제3 손실 정보가 획득되고, 실측할 수 없는 물 영역의 깊이 값을 예측하기 위해, 물 영역은 평평하여 x축 방향의 그래디언트는 0이고 y 방향의 그래디언트는 양수인 사실에 기초하여 제4 손실 정보가 획득된다.
세그멘테이션 맵에서 분리된 하늘 영역(1230)에 기초하여, 다른 물체의 예측 깊이와 비교하여 하늘 영역의 깊이를 최대화하고 하늘 영역의 깊이 값을 스무딩하기 위해 하늘 영역의 그래디언트를 조정하여 실측할 수 없는 하늘 영역의 깊이 값을 예측하기 위한 제5 손실 정보가 획득된다.
이러한 5개의 손실 정보들을 포함하는 손실 함수(Ldepth= a*Ldata + b*Lgrad + c*Lsmooth + d*Lwater + e*Lsky)를 최소화하도록, 영상의 깊이 맵을 획득하기 위한 DNN이 훈련될 수 있다. 여기서, a, b, c, d, e는 미리 결정된 소정의 가중치에 해당할 수 있다.
영상의 깊이 맵을 획득하기 위한 DNN은 훈련 데이터를 이용하여 손실 함수의 값이 최소화되도록 훈련된다. 이러한 DNN을 통해 입력 영상의 깊이 맵이 획득될 수 있다.
도 13은 본 개시의 일 실시예에 따른 복수의 DNN에 기초하여 입력 영상의 화질을 향상하는 방법을 설명하기 위한 도면이다.
도 13을 참고하면, 영상 처리 장치(1800)의 프로세서(1820)는 저해상도 입력 영상(110)을 입력으로 하여 제5 DNN(1310)을 통해 저해상도 입력 영상(110)의 합성 가중치 맵(125)을 획득한다. 제5 DNN(1310)은 U-Net일 수 있고, 입력 영상(110)의 깊이 맵에 대하여 분포 모델(220)을 적용하여 저해상도 입력 영상(110)의 근거리 물체와 원거리 물체를 구분하는 특징 맵을 획득하고, 특징 맵을 입력으로 하여 제1 DNN(120)을 통해 합성 가중치 맵(125)을 획득하는 과정을 한번에 수행하기 위해 훈련된 것이다.
또한, 영상 처리 장치(1800)의 프로세서(1820)는 저해상도 입력 영상(110)을 입력으로 하여 원거리 물체의 복원에 적합한 제2 DNN(130)을 통해 제1 영상(135)을 획득하고, 저해상도 입력 영상(110)을 입력으로 하여 근거리 물체의 복원에 적합한 제3 DNN(140)을 통해 제2 영상(145)을 획득한다.
영상 처리 장치(1800)의 프로세서(1820)는 합성 가중치 맵(125)에 기초하여 제1 영상(135) 및 제2 영상(145)를 가중 평균하여 합성함으로써 합성 영상(150)을 획득한다. 저해상도 입력 영상(110)에 비해 합성 영상(150)에 포함된 근거리 물체는 선명하고, 원거리 물체는 부드럽게 복원된다. 따라서, 합성 영상(150)은 저해상도 입력 영상(110)에 비해 고해상도/고화질로 복원된 영상이다.
도 14는 본 개시의 일 실시예에 따른 복수의 DNN에 기초하여 입력 영상의 화질을 향상하는 방법을 설명하기 위한 도면이다.
도 14를 참고하면, 영상 처리 장치(1800)의 프로세서(1820)는 저해상도 입력 영상(110)을 입력으로 하여 제4 DNN(810)을 통해 깊이 맵(210)을 획득하고, 깊이 맵(210)을 입력으로 하여 제6 DNN(1410)을 통해 저해상도 입력 영상(110)의 합성 가중치 맵(125)을 획득한다. 제6 DNN(1410)은 일반적인 CNN일 수 있고, 도 8에서 분포 모델(220)을 적용하여 저해상도 입력 영상(110)의 근거리 물체와 원거리 물체를 구분하는 특징 맵을 획득하고, 특징 맵을 입력으로 하여 제1 DNN(120)을 통해 합성 가중치 맵(125)을 획득하는 과정을 한번에 수행하기 위해 훈련된 것이다.
또한, 영상 처리 장치(1800)의 프로세서(1820)는 저해상도 입력 영상(110)을 입력으로 하여 원거리 물체의 복원에 적합한 제2 DNN(130)을 통해 제1 영상(135)을 획득하고, 저해상도 입력 영상(110)을 입력으로 하여 근거리 물체의 복원에 적합한 제3 DNN(140)을 통해 제2 영상(145)을 획득한다.
영상 처리 장치(1800)의 프로세서(1820)는 합성 가중치 맵(125)에 기초하여 제1 영상(135) 및 제2 영상(145)를 가중 평균하여 합성함으로써 합성 영상(150)을 획득한다. 저해상도 입력 영상(110)에 비해 합성 영상(150)에 포함된 근거리 물체는 선명하고, 원거리 물체는 부드럽게 복원된다. 따라서, 합성 영상(150)은 저해상도 입력 영상(110)에 비해 고해상도/고화질로 복원된 영상이다.
도 15는 본 개시의 일 실시예에 따른 멀티-태스크(multi-task) DNN을 이용하는 방법을 설명하기 위한 도면이다.
본 명세서에서, 태스크(task)란, 머신 러닝을 통해 해결하고자 하는 과제 또는 수행하고자 하는 작업을 지칭한다. 예를 들어, 깊이 맵 추출, 원거리 물체에 적합한 영상 추출, 근거리 물체에 적합한 영상 추출 등이 개별 태스크에 대응될 수 있다.
또한, 본 명세서에서, 멀티태스크(multi-task) DNN이란, 하나의 모델을 이용하여 복수의 태스크에 대한 학습을 수행한 DNN을 의미한다.
도 15를 참고하면, 영상 처리 장치(1800)의 프로세서(1820)는 저해상도 입력 영상(1510)을 복수의 테스크를 수행하는 하나의 제7 DNN(1500)에 입력하여, 깊이 맵(1525), 제1 영상(1535), 제2 영상(1545)을 획득할 수 있다. 구체적으로, 제7 DNN(1500)는 공유 레이어(1515), 제1 태스크 레이어(1520), 제2 태스크 레이어(1530), 제3 태스크 레이어(1540)를 포함하고, 공유 레이어(1515)는 입력 영상(1510)의 공유되는 특징을 추출하는 레이어이고, 제1 태스크 레이어(1520)는 공유 레이어(1515)로부터 추출된 특징 맵을 입력으로 하여, 입력 영상(1520)의 깊이 맵(1525)을 획득하기 위한 레이어이고, 제2 태스크 레이어(1530)는 공유 레이어(1515)로부터 추출된 특징 맵을 입력으로 하여, 원거리 물체 복원에 적합한 레이어로 제1 영상(1535)을 획득하기 위한 레이어이고, 제3 태스크 레이어(1540)는 공유 레이어(1515)로부터 추출된 특징 맵을 입력으로 하여, 근거리 물체 복원에 적합한 레이어로 제2 영상(1545)을 획득하기 위한 레이어이다. 공유 레이어(1515), 제1 태스크 레이어(1520), 제2 태스크 레이어(1530), 제3 태스크 레이어(1540)는 각각 복수의 레이어를 포함할 수 있다.
멀티-태스크 DNN은 공유 레이어(1515)를 포함하는 하나의 DNN 모델을 통해 복수의 태스크를 학습시킴으로써 3개의 깊이 맵(1525), 제1 영상(1535), 제2 영상(1545)를 효율적으로 추정할 수 있다.
영상 처리 장치(1800)의 프로세서(1820)는 멀티-태스트 DNN인 제7 DNN(1500)을 통해 깊이 맵(1525), 제1 영상(1535), 제2 영상(1545)을 획득한다. 영상 처리 장치(1800)의 프로세서(1820)는 깊이 맵(1525)에 분포 모델을 적용하여 특징 맵을 획득하고, 특징 맵을 제1 DNN(120)에 입력하여 합성 가중치 맵을 획득할 수 있다. 영상 처리 장치(1800)의 프로세서(1820)는 합성 가중치 맵에 기초하여 제1 영상(1535) 및 제2 영상(1545)을 합성하여 고화질/고해상도로 복원된 영상을 획득할 수 있다.
도 16은 근거리 물체 복원에 적합한 하나의 DNN에 기초한 영상 복원 방법과 복수의 DNN에 기초한 영상 복원 방법의 차이를 설명하기 위한 도면이다.
도 16을 참고하면, 원본 영상(1610)에 대하여 근거리 물체 복원에 적합한 GAN 손실 모델에 기초한 DNN을 이용하여 영상을 복원하면, 제1 복원 영상(1620)의 원거리 부분(1615)와 같이, 원거리 물체가 과도하게 선명하고 아티팩트가 발생하는 문제가 있다. 이에 따라, 먼 거리에 있음에도 선명하여 원근감이 없고 부자연스럽게 느껴진다. 그러나, 일 실시예에 따른 복수의 DNN, 즉, 원거리 물체의 복원에 적합한 DNN와 근거리 물체의 복원에 적합한 DNN을 이용하여 합성하면, 제2 복원 영상(1630)의 원거리 부분(1625)과 같이 원거리 부분은 부드럽고 흐릿함이 보존되어 자연스러워 복원된 영상의 화질이 원본 영상에 비해 향상될 수 있다.
도 17은 본 개시의 일 실시예에 따른 복수의 DNN에 기초하여 입력 영상의 화질을 향상하는 방법을 설명하기 위한 순서도이다.
도 17을 참고하면, 단계 S1710에서, 영상 처리 장치(1800)의 프로세서(1810)는 저해상도 입력 영상의 근거리 물체와 원거리 물체를 구분하는 특징 맵을 획득할 수 있다.
일 실시예에 따라, 특징 맵은 상기 저해상도 영상의 깊이 맵에 분포 모델을 적용하여 획득될 수 있다.
일 실시예에 따라, 분포 모델은 가우시안 분포 모델일 수 있다.
일 실시예에 따라, 깊이 맵은 상기 저해상도 입력 영상에 포함된 거리 정보로부터 획득될 수 있다.
일 실시예에 따라, 깊이 맵은 상기 저해상도 입력 영상에 포함된 거리 정보로부터 획득될 수 있다.
일 실시예에 따라, 깊이 맵은 3D 복원 방법을 통해 획득될 수 있다.
일 실시예에 따라, 깊이 맵은 그래픽 렌더링 과정에서 획득되는 거리 정보로부터 획득될 수 있다.
일 실시예에 따라, 분포 모델은 상기 저해상도 입력 영상에 존재하는 물체 각각에 대해 적용될 수 있다.
단계 S1730에서, 영상 처리 장치(1800)의 프로세서(1810)는 특징 맵을 제1 DNN에 입력하여, 상기 저해상도 입력 영상에 대한 합성 가중치 맵을 획득할 수 있다.
일 실시예에 따라, 제1 DNN은 상기 깊이 맵의 깊이 값을 비선형으로 변환하여 상기 저해상도 입력 영상 내의 적어도 하나의 물체를 구분할 수 있다.
일 실시예에 따라, 깊이 맵은 영상의 깊이 정보를 추출하도록 훈련된 제4 DNN을 통해 획득될 수 있다.
일 실시예에 따라, 제4 DNN은 U자형 뉴럴 네트워크일 수 있다.
단계 S1750에서, 영상 처리 장치(1800)의 프로세서(1810)는 저해상도 입력 영상을 원거리 물체의 복원에 적합한 제2 DNN에 입력하여 제1 영상을 획득할 수 있다.
단계 S1770에서, 영상 처리 장치(1800)의 프로세서(1810)는 저해상도 입력 영상을 근거리 물체의 복원에 적합한 제3 DNN에 입력하여 제2 영상을 획득할 수 있다.
일 실시예에 따라, 제2 DNN은 L1 손실 모델 또는 L2 손실 모델 중 하나를 이용하는 DNN이고, 상기 제3 DNN은 적대적 대립 네트워크(Generative Adversarial Network, GAN) 모델을 이용하는 DNN일 수 있다.
단계 S1790에서, 영상 처리 장치(1800)의 프로세서(1810)는 제1 영상과 상기 제2 영상을 상기 합성 가중치 맵을 이용하여 가중 평균함으로써 상기 저해상도 입력 영상에 대한 고해상도 영상을 획득할 수 있다.
도 18은 본 개시의 일 실시예에 따른 영상 처리 장치의 블록도를 도시한다.
일 실시예에 따른 영상 처리 장치(1800)는 메모리(1810) 및 메모리(1810)에 접속된 적어도 하나의 프로세서(1820)를 포함할 수 있다. 일 실시예에 따른 영상 처리 장치(1800)의 동작들은 개별적인 프로세서로서 작동하거나, 중앙 프로세서의 제어에 의해 작동될 수 있다. 또한, 영상 처리 장치(1800)의 메모리(1810)는, 외부로부터 수신한 데이터와, 프로세서에 의해 생성된 데이터, 예를 들어, 특징 맵, 제1 영상, 제2 영상, 합성 가중치 맵에 대한 정보 등을 저장할 수 있다.
영상 처리 장치(1800)의 프로세서(1820)는 저해상도 입력 영상의 근거리 물체와 원거리 물체를 구분하는 특징 맵을 획득하고, 상기 특징 맵을 제1 DNN에 입력하여, 상기 저해상도 입력 영상에 대한 합성 가중치 맵을 획득하고, 상기 저해상도 입력 영상을 원거리 물체의 복원에 적합한 제2 DNN에 입력하여 제1 영상을 획득하고, 상기 저해상도 입력 영상을 근거리 물체의 복원에 적합한 제3 DNN에 입력하여 제2 영상을 획득하고, 상기 제1 영상과 상기 제2 영상을 상기 합성 가중치 맵을 이용하여 가중 평균함으로써 상기 저해상도 입력 영상에 대한 고해상도 영상을 획득할 수 있다.
본 개시의 일 실시예에 따른 뉴럴 네트워크(Neural Network)에 기초한 영상 처리 방법은 저해상도 입력 영상의 근거리 물체와 원거리 물체를 구분하는 특징 맵을 획득하는 단계; 상기 특징 맵을 제1 DNN에 입력하여, 상기 저해상도 입력 영상에 대한 합성 가중치 맵을 획득하는 단계; 상기 저해상도 입력 영상을 원거리 물체의 복원에 적합한 제2 DNN에 입력하여 제1 영상을 획득하는 단계; 상기 저해상도 입력 영상을 근거리 물체의 복원에 적합한 제3 DNN에 입력하여 제2 영상을 획득하는 단계; 상기 제1 영상과 상기 제2 영상을 상기 합성 가중치 맵을 이용하여 가중 평균함으로써 상기 저해상도 입력 영상에 대한 고해상도 영상을 획득하는 단계를 포함할 수 있다.
본 개시의 일 실시예에 따라, 상기 제2 DNN은 L1 손실 모델 또는 L2 손실 모델 중 하나를 이용하는 DNN이고, 상기 제3 DNN은 적대적 대립 네트워크(Generative Adversarial Network, GAN) 모델을 이용하는 DNN일 수 있다.
본 개시의 일 실시예에 따라, 상기 특징 맵은 상기 저해상도 영상의 깊이 맵에 분포 모델을 적용하여 획득될 수 있다.
본 개시의 일 실시예에 따라, 상기 분포 모델은 가우시안 분포 모델일 수 있다.
본 개시의 일 실시예에 따라, 상기 깊이 맵은 상기 저해상도 입력 영상에 포함된 거리 정보로부터 획득될 수 있다.
본 개시의 일 실시예에 따라, 상기 깊이 맵은 3D 복원 방법을 통해 획득될 수 있다.
본 개시의 일 실시예에 따라, 상기 깊이 맵은 그래픽 렌더링 과정에서 획득되는 거리 정보로부터 획득될 수 있다.
본 개시의 일 실시예에 따라, 상기 분포 모델은 상기 저해상도 입력 영상에 존재하는 물체 각각에 대해 적용될 수 있다.
본 개시의 일 실시예에 따라, 상기 제1 DNN은 상기 깊이 맵의 깊이 값을 비선형으로 변환하여 상기 저해상도 입력 영상 내의 적어도 하나의 물체를 구분할 수 있다.
본 개시의 일 실시예에 따라, 상기 깊이 맵은 영상의 깊이 정보를 추출하도록 훈련된 제4 DNN을 통해 획득될 수 있다.
본 개시의 일 실시예에 따라, 상기 제4 DNN은 U자형 뉴럴 네트워크일 수 있다.
본 개시의 일 실시예에 따른 뉴럴 네트워크에 기초한 영상 처리 방법은 거리에 따라 서로 다른 DNN, 즉 원거리 물체의 복원에 적합한 DNN와 근거리 물체의 복원에 적합한 DNN을 이용하여 합성함으로써 복원된 영상의 화질이 원본 영상에 비해 향상되는 효과를 가질 수 있다.
본 개시에 일 실시예에 따른 뉴럴 네트워크에 기초한 영상 처리 장치는 메모리; 및 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는: 저해상도 입력 영상의 근거리 물체와 원거리 물체를 구분하는 특징 맵을 획득하고, 상기 특징 맵을 제1 DNN에 입력하여, 상기 저해상도 입력 영상에 대한 합성 가중치 맵을 획득하고, 상기 저해상도 입력 영상을 원거리 물체의 복원에 적합한 제2 DNN에 입력하여 제1 영상을 획득하고, 상기 저해상도 입력 영상을 근거리 물체의 복원에 적합한 제3 DNN에 입력하여 제2 영상을 획득하고, 상기 제1 영상과 상기 제2 영상을 상기 합성 가중치 맵을 이용하여 가중 평균함으로써 상기 저해상도 입력 영상에 대한 고해상도 영상을 획득할 수 있다.
본 개시의 일 실시예에 따라, 상기 제2 DNN은 L1 손실 모델 또는 L2 손실 모델 중 하나를 이용하는 DNN이고, 상기 제3 DNN은 적대적 대립 네트워크(Generative Adversarial Network, GAN) 모델을 이용하는 DNN일 수 있다.
본 개시의 일 실시예에 따라, 상기 특징 맵은 상기 저해상도 영상의 깊이 맵에 분포 모델을 적용하여 획득될 수 있다.
본 개시의 일 실시예에 따라, 상기 분포 모델은 가우시안 분포 모델일 수 있다.
본 개시의 일 실시예에 따라, 상기 깊이 맵은 상기 저해상도 입력 영상에 포함된 거리 정보로부터 획득될 수 있다.
본 개시의 일 실시예에 따라, 상기 깊이 맵은 3D 복원 방법을 통해 획득될 수 있다.
본 개시의 일 실시예에 따라, 상기 깊이 맵은 그래픽 렌더링 과정에서 획득되는 거리 정보로부터 획득될 수 있다.
본 개시의 일 실시예에 따라, 상기 분포 모델은 상기 저해상도 입력 영상에 존재하는 물체 각각에 대해 적용될 수 있다.
본 개시의 일 실시예에 따라, 상기 제1 DNN은 상기 깊이 맵의 깊이 값을 비선형으로 변환하여 상기 저해상도 입력 영상 내의 적어도 하나의 물체를 구분할 수 있다.
본 개시의 일 실시예에 따라, 상기 깊이 맵은 영상의 깊이 정보를 추출하도록 훈련된 제4 DNN을 통해 획득될 수 있다.
본 개시의 일 실시예에 따라, 상기 제4 DNN은 U자형 뉴럴 네트워크일 수 있다.
본 개시의 일 실시예에 따른 뉴럴 네트워크에 기초한 영상 처리 장치는 거리에 따라 서로 다른 DNN, 즉 원거리 물체의 복원에 적합한 DNN와 근거리 물체의 복원에 적합한 DNN을 이용하여 합성함으로써 복원된 영상의 화질이 원본 영상에 비해 향상되는 효과를 가질 수 있다.
한편, 상술한 본 개시의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램 또는 인스트럭션으로 작성가능하고, 작성된 프로그램 또는 인스트럭션은 매체에 저장될 수 있다.
매체는 컴퓨터로 실행 가능한 프로그램 또는 인스트럭션을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수개 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 애플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.
한편, 상술한 DNN과 관련된 모델은, 소프트웨어 모듈로 구현될 수 있다. 소프트웨어 모듈(예를 들어, 명령어(instruction)를 포함하는 프로그램 모듈)로 구현되는 경우, DNN 모델은 컴퓨터로 읽을 수 있는 판독 가능한 기록매체에 저장될 수 있다.
또한, DNN 모델은 하드웨어 칩 형태로 집적되어 전술한 영상 처리 장치(1800)의 일부가 될 수도 있다. 예를 들어, DNN 모델은 인공 지능을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예를 들어, CPU 또는 애플리케이션 프로세서) 또는 그래픽 전용 프로세서(예를 들어, GPU)의 일부로 제작될 수도 있다.
또한, DNN 모델은 다운로드 가능한 소프트웨어 형태로 제공될 수도 있다. 컴퓨터 프로그램 제품은 제조사 또는 전자 마켓을 통해 전자적으로 배포되는 소프트웨어 프로그램 형태의 상품(예를 들어, 다운로드 가능한 애플리케이션)을 포함할 수 있다. 전자적 배포를 위하여, 소프트웨어 프로그램의 적어도 일부는 저장 매체에 저장되거나, 임시적으로 생성될 수 있다. 이 경우, 저장 매체는 제조사 또는 전자 마켓의 서버, 또는 중계 서버의 저장매체가 될 수 있다.
이상, 본 개시의 기술적 사상을 바람직한 실시예를 들어 상세하게 설명하였으나, 본 개시의 기술적 사상은 상기 실시예들에 한정되지 않고, 본 개시의 기술적 사상의 범위 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 여러 가지 변형 및 변경이 가능하다.
기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.
일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

Claims (15)

  1. 뉴럴 네트워크(Neural Network)에 기초한 영상 처리 방법에 있어서,
    저해상도 입력 영상의 근거리 물체와 원거리 물체를 구분하는 특징 맵을 획득(S1710)하는 단계;
    상기 특징 맵을 제1 DNN에 입력하여, 상기 저해상도 입력 영상에 대한 합성 가중치 맵을 획득(S1730)하는 단계;
    상기 저해상도 입력 영상을 원거리 물체의 복원에 적합한 제2 DNN에 입력하여 제1 영상을 획득(S1750)하는 단계;
    상기 저해상도 입력 영상을 근거리 물체의 복원에 적합한 제3 DNN에 입력하여 제2 영상을 획득(S1770)하는 단계;
    상기 제1 영상과 상기 제2 영상을 상기 합성 가중치 맵을 이용하여 가중 평균함으로써 상기 저해상도 입력 영상에 대한 고해상도 영상을 획득(S1790)하는 단계를 포함하는, 영상 처리 방법.
  2. 제 1 항에 있어서,
    상기 제2 DNN은 L1 손실 모델 또는 L2 손실 모델 중 하나를 이용하는 DNN이고,
    상기 제3 DNN은 적대적 대립 네트워크(Generative Adversarial Network, GAN) 모델을 이용하는 DNN인. 영상 처리 방법.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 특징 맵은 상기 저해상도 영상의 깊이 맵에 분포 모델을 적용하여 획득되는, 영상 처리 방법.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 분포 모델은 가우시안 분포 모델인, 영상 처리 방법.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 깊이 맵은 상기 저해상도 입력 영상에 포함된 거리 정보로부터 획득되는, 영상 처리 방법.
  6. 제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
    상기 깊이 맵은 3D 복원 방법을 통해 획득되는, 영상 처리 방법.
  7. 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
    상기 깊이 맵은 그래픽 렌더링 과정에서 획득되는 거리 정보로부터 획득되는, 영상 처리 방법.
  8. 제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
    상기 분포 모델은 상기 저해상도 입력 영상에 존재하는 물체 각각에 대해 적용되는, 영상 처리 방법.
  9. 제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
    상기 제1 DNN은 상기 깊이 맵의 깊이 값을 비선형으로 변환하여 상기 저해상도 입력 영상 내의 적어도 하나의 물체를 구분하는, 영상 처리 방법.
  10. 제 1 항 내지 제 9 항 중 어느 한 항에 있어서,
    상기 깊이 맵은 영상의 깊이 정보를 추출하도록 훈련된 제4 DNN을 통해 획득되는, 영상 처리 방법.
  11. 제 1 항 내지 제 10 항 중 어느 한 항에 있어서,
    상기 제4 DNN은 U자형 뉴럴 네트워크인, 영상 처리 방법.
  12. 뉴럴 네트워크에 기초한 영상 처리 장치(1800)에 있어서,
    메모리(1810); 및
    적어도 하나의 프로세서(1820)를 포함하고,
    상기 적어도 하나의 프로세서는:
    저해상도 입력 영상의 근거리 물체와 원거리 물체를 구분하는 특징 맵을 획득하고,
    상기 특징 맵을 제1 DNN에 입력하여, 상기 저해상도 입력 영상에 대한 합성 가중치 맵을 획득하고,
    상기 저해상도 입력 영상을 원거리 물체의 복원에 적합한 제2 DNN에 입력하여 제1 영상을 획득하고,
    상기 저해상도 입력 영상을 근거리 물체의 복원에 적합한 제3 DNN에 입력하여 제2 영상을 획득하고,
    상기 제1 영상과 상기 제2 영상을 상기 합성 가중치 맵을 이용하여 가중 평균함으로써 상기 저해상도 입력 영상에 대한 고해상도 영상을 획득하는, 영상 처리 장치.
  13. 제 12 항에 있어서,
    상기 제2 DNN은 L1 손실 모델 또는 L2 손실 모델 중 하나를 이용하는 DNN이고,
    상기 제3 DNN은 적대적 대립 네트워크(GAN) 모델을 이용하는 DNN인, 영상 처리 장치.
  14. 제 12 항 또는 제 13 항에 있어서,
    상기 특징 맵은 상기 저해상도 영상의 깊이 맵에 분포 모델을 적용하여 획득되는, 영상 처리 장치.
  15. 제 12 항 내지 제 14 항 중 어느 한 항에 있어서,
    상기 분포 모델은 가우시안 분포 모델인, 영상 처리 장치.
PCT/KR2022/014405 2021-09-30 2022-09-27 뉴럴 네트워크(Neural Network)에 기초한 영상 처리 방법 및 영상 처리 장치 WO2023055013A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210130287A KR20230046802A (ko) 2021-09-30 2021-09-30 뉴럴 네트워크(Neural Network)에 기초한 영상 처리 방법 및 영상 처리 장치
KR10-2021-0130287 2021-09-30

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/616,953 Continuation US20240233092A1 (en) 2021-09-30 2024-03-26 Image processing method and image processing device based on neural network

Publications (1)

Publication Number Publication Date
WO2023055013A1 true WO2023055013A1 (ko) 2023-04-06

Family

ID=85783165

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/014405 WO2023055013A1 (ko) 2021-09-30 2022-09-27 뉴럴 네트워크(Neural Network)에 기초한 영상 처리 방법 및 영상 처리 장치

Country Status (2)

Country Link
KR (1) KR20230046802A (ko)
WO (1) WO2023055013A1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190050681A1 (en) * 2017-08-09 2019-02-14 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and non-transitory computer-readable storage medium
KR20190119550A (ko) * 2019-10-02 2019-10-22 엘지전자 주식회사 영상의 해상도를 향상시키기 위한 방법 및 장치
KR102103984B1 (ko) * 2013-07-15 2020-04-23 삼성전자주식회사 깊이 영상 처리 방법 및 장치
KR102188035B1 (ko) * 2020-06-04 2020-12-07 국방과학연구소 위성영상의 해상도 복원을 위한 학습 방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102103984B1 (ko) * 2013-07-15 2020-04-23 삼성전자주식회사 깊이 영상 처리 방법 및 장치
US20190050681A1 (en) * 2017-08-09 2019-02-14 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and non-transitory computer-readable storage medium
KR20190119550A (ko) * 2019-10-02 2019-10-22 엘지전자 주식회사 영상의 해상도를 향상시키기 위한 방법 및 장치
KR102188035B1 (ko) * 2020-06-04 2020-12-07 국방과학연구소 위성영상의 해상도 복원을 위한 학습 방법 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MOON CHANKYOO, YOUNGJUNG UH, HYERAN BYUN: "Image Restoration using GAN", JOURNAL OF BROADCAST ENGINEERING, KOREA, vol. 23, no. 4, 1 July 2018 (2018-07-01), Korea , pages 503 - 510, XP093053321, ISSN: 1226-7953, DOI: 10.5909/JBE.2018.23.4.503 *

Also Published As

Publication number Publication date
KR20230046802A (ko) 2023-04-06

Similar Documents

Publication Publication Date Title
JP7495546B2 (ja) 畳み込み画像変換を使用して同時位置特定およびマッピングを実施する方法およびシステム
US10701332B2 (en) Image processing apparatus, image processing method, image processing system, and storage medium
WO2020032354A1 (en) Method, storage medium and apparatus for converting 2d picture set to 3d model
WO2020101246A1 (en) Joint unsupervised object segmentation and inpainting
CN110490896B (zh) 一种视频帧图像处理方法和装置
WO2017010695A1 (en) Three dimensional content generating apparatus and three dimensional content generating method thereof
WO2019050360A1 (en) ELECTRONIC DEVICE AND METHOD FOR AUTOMATICALLY SEGMENTING TO BE HUMAN IN AN IMAGE
US10621777B2 (en) Synthesis of composite images having virtual backgrounds
JPWO2019031259A1 (ja) 画像処理装置および方法
Wu et al. Densely pyramidal residual network for UAV-based railway images dehazing
KR100560464B1 (ko) 관찰자의 시점에 적응적인 다시점 영상 디스플레이 시스템을 구성하는 방법
KR101553273B1 (ko) 증강현실 서비스를 제공하는 방법 및 장치
TW202143120A (zh) 圖像產生裝置、圖像產生方法、記錄媒體產生方法、學習模型產生裝置、學習模型產生方法、學習模型、資料處理裝置、資料處理方法、推論方法、電子機器產生方法、程式及非暫存性電腦可讀媒體
US20210295467A1 (en) Method for merging multiple images and post-processing of panorama
WO2021045599A1 (ko) 비디오 영상에 보케 효과를 적용하는 방법 및 기록매체
CA3171126A1 (en) A method of training a machine learning algorithm to identify objects or activities in video surveillance data
WO2023055013A1 (ko) 뉴럴 네트워크(Neural Network)에 기초한 영상 처리 방법 및 영상 처리 장치
CN113065506A (zh) 一种人体姿态识别方法及系统
WO2020085541A1 (en) Method and device for processing video
KR102067423B1 (ko) 지피유 가속 컴퓨팅을 이용한 3차원 복원 클라우드 포인트 생성 방법
WO2022203464A2 (ko) 멀티뷰 어안 렌즈들을 이용한 실시간 전방위 스테레오 매칭 방법 및 그 시스템
US20230005213A1 (en) Imaging apparatus, imaging method, and program
CN113973175A (zh) 一种快速的hdr视频重建方法
Lin et al. Enhanced multi-view dancing videos synchronisation
WO2022245177A1 (en) Method and electronic device for obtaining reconstructed image

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22876785

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE