WO2022255523A1 - 멀티 스케일 객체 이미지 복원 방법 및 장치 - Google Patents

멀티 스케일 객체 이미지 복원 방법 및 장치 Download PDF

Info

Publication number
WO2022255523A1
WO2022255523A1 PCT/KR2021/007018 KR2021007018W WO2022255523A1 WO 2022255523 A1 WO2022255523 A1 WO 2022255523A1 KR 2021007018 W KR2021007018 W KR 2021007018W WO 2022255523 A1 WO2022255523 A1 WO 2022255523A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
scale
distortion
restoration
loss function
Prior art date
Application number
PCT/KR2021/007018
Other languages
English (en)
French (fr)
Inventor
신재섭
류성걸
손세훈
김형덕
김효성
Original Assignee
주식회사 픽스트리
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 픽스트리 filed Critical 주식회사 픽스트리
Priority to PCT/KR2021/007018 priority Critical patent/WO2022255523A1/ko
Publication of WO2022255523A1 publication Critical patent/WO2022255523A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/80Geometric correction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • the present embodiment relates to a multi-scale object image restoration method and apparatus.
  • techniques for restoring a low-resolution image to a high-resolution image are classified according to the number of input images used for reconstruction or a reconstruction technique. Depending on the number of input images, it is divided into single image super-resolution restoration technology and continuous image super-resolution restoration technology.
  • single-image super-resolution image restoration technology has a faster processing speed than continuous image super-resolution image restoration, but the quality of image restoration is low because information necessary for restoration is insufficient.
  • the continuous image super-resolution image restoration technology uses various features extracted from a plurality of consecutively acquired images, the quality of the restored image is superior to that of the single image super-resolution image restoration technology, but the algorithm is complex and the amount of computation is large, so real-time It is difficult to process.
  • the technique using the interpolation method has a high processing speed, but has the disadvantage of blurring the edges.
  • the technology using edge information is fast and can restore an image while maintaining the sharpness of the edge, but has a disadvantage in that it may include a visually noticeable restoration error when the edge direction is incorrectly estimated.
  • the technology using frequency characteristics can restore the image while maintaining the sharpness of the edge like the technology using edge information using high-frequency components, but has the disadvantage of generating Ringing Artifact near the boundary.
  • techniques using machine learning such as example-based or deep learning have the highest quality of restored images, but the processing speed is very slow.
  • the continuous image super-resolution image restoration technology can be applied to fields requiring a digital zoom function using an existing interpolation method, and can produce images of superior quality compared to interpolation-based image restoration technologies. to provide.
  • the existing super-resolution image restoration technology is limited in its application due to the complex amount of calculation in electro-optical equipment requiring limited resources and real-time processing.
  • the present embodiment is a method and apparatus for restoring a multi-scale object image that receives an image having an arbitrary scale and distortion and restores images having different scales and at the same time more accurately improves the distorted image. is aimed at providing
  • a preset image is received using a reconstruction model corresponding to a specific scale (W l-1 ⁇ H l-1 ) having a specific scale (W l-1 ⁇ H l-1 ).
  • a scale-specific generator (G l-1 , Scale-Specific Generator) that generates a reconstructed image with multiple upscaling (nW l-1 ⁇ n H l-1 ); Creating an image by downscaling the upscaling (nW l-1 ⁇ n H l-1 ) reconstructed image by a preset multiple, and mapping any distortion in the downscaling image to a clean domain
  • An image distortion restoration encoder (E l ) outputting a distortion restoration image; and a reconstructed image obtained by upscaling (nW l ⁇ n H l ) by a preset multiple using a reconstruction model corresponding to the scale (W l ⁇ H l ) of the distorted restored image after receiving the distorted restored image. It provides a multi-scale object image restoration
  • an image having a specific scale (W l -1 ⁇ H l-1 ) is received from a scale-specific generator (G l-1 , Scale-Specific Generator), and a specific scale (W l-1 ⁇ generating a reconstructed image by upscaling (nW l-1 ⁇ n H l-1 ) by a preset multiple using a reconstruction model corresponding to H l -1 );
  • a scale-specific generator G l-1 , Scale-Specific Generator
  • W l-1 ⁇ generating a reconstructed image by upscaling (nW l-1 ⁇ n H l-1 ) by a preset multiple using a reconstruction model corresponding to H l -1 )
  • E l an image obtained by downscaling the upscaling (nW l-1 ⁇ n H l-1 ) reconstructed image by a predetermined multiple is generated, and a random image is generated within the downscaled image.
  • an image having an arbitrary scale and distortion is input, and an image having a different scale is restored, and at the same time, an image with distortion can be more accurately improved. have.
  • an image having an arbitrary scale and distortion is input, a restored image upscaled by a preset multiple is generated with a restoration model of the corresponding scale, and the restored image is downscaled by a preset multiple. It is possible to improve resolution and distortion of an input image by generating a distortion-restored image obtained by restoring distortion in an image, and generating a restored image obtained by up-scaling the distortion-restored image by a predetermined multiple with a restoration model of a corresponding scale.
  • FIG. 1 is a diagram showing a multi-scale object image restoration system according to this embodiment.
  • FIG. 2 is a diagram illustrating a shape of an image to be reconstructed based on pre-learning information about a scale according to the present embodiment.
  • FIG. 3 is a diagram illustrating an image distortion restoration encoder according to the present embodiment.
  • FIG. 4 is a diagram showing a channel attention block according to this embodiment.
  • FIG. 5 is a diagram illustrating a multi-label GAN according to this embodiment.
  • FIG. 6 is a diagram showing a result of improving the quality of a converted image according to a difference in loss function according to the present embodiment.
  • FIG. 7a, 7b, and 7c are diagrams illustrating image restoration in the case of using a full-scale specific generator according to the present embodiment.
  • 8a, 8b, and 8c are diagrams illustrating image restoration in the case of using some scale-specific generators according to the present embodiment.
  • FIG. 1 is a diagram showing a multi-scale object image restoration system according to this embodiment.
  • a multi-scale object image restoration system is a technology for reconstructing an object in an image on a multi-scale basis.
  • the object in the image is preferably a human face, but is not necessarily limited thereto.
  • the multi-scale object image restoration system reconstructs images having various distortions and various scales using one deep learning model.
  • the distortion When restoring an image with actual image distortion as an input image, the distortion is amplified, but when the size of the input image is downsampled, the distortion of the image becomes invisible enough to not be felt. As the distortion of the image is crushed, the original image remains content-oriented.
  • the multi-scale object image restoration apparatus includes a memory for storing a program or protocol for deep learning, a microprocessor for calculating and controlling by executing the corresponding program, and the like.
  • the multi-scale object image restoration apparatus includes (i) a communication device such as a communication modem for communicating with various devices or wired/wireless networks, (ii) a memory for storing various programs and data, (iii) calculation and It is a variety of devices equipped with a microprocessor and the like for controlling.
  • the memory is a random access memory (RAM), a read only memory (ROM), flash memory, an optical disk, a magnetic disk, a solid state disk (SSD), and the like. It may be a readable recording/storage medium.
  • a microprocessor may be programmed to selectively perform one or more of the operations and functions described herein.
  • a microprocessor may be implemented in whole or in part as hardware such as an Application Specific Integrated Circuit (ASIC) of a specific configuration.
  • ASIC Application Specific Integrated Circuit
  • the multi-scale object image restoration apparatus includes a scale-specific generator (G 1 ), a scale-specific generator (G 2 ) to a scale-specific generator (G l ), an image distortion restoration encoder (E 1 ), and an image distortion It includes a restoration encoder (E 2 ) or an image distortion restoration encoder (E l ).
  • Components included in the multi-scale object image restoration system are not necessarily limited thereto.
  • Each of the scale-specific generators (G 1 to G l ) is trained to restore an image of a specific scale.
  • an independent network is learned to restore an image obtained by upscaling a 16 ⁇ 16 to 32 ⁇ 32 image to a 64 ⁇ 64 to 128 ⁇ 128 quadruple.
  • an independent network is learned to restore an image obtained by upscaling a 32 ⁇ 32 to 64 ⁇ 64 image, which is twice the input of the scale-specific generator (G 1 ), to a 128 ⁇ 128 to 256 ⁇ 256 quadruple. .
  • Image distortion restoration encoders (E 1 to E l ) are connected in a cascade structure between the scale-specific generators (G 1 to G l ).
  • the scale-specific generators (G 1 to G l ) serve to increase the resolution n times by receiving an image having a size of W 1 ⁇ H 1 to W l ⁇ H l (1 ⁇ l ⁇ L).
  • the video distortion restoration encoders (E 1 to E l ) are encoders that map arbitrary distortions of an image to a clean domain.
  • the image distortion restoration encoder (E 1 to E l ) reduces the resolution of the image by half, and cleans the image with the reduced resolution in the distinguishing unit (D) so that it is mapped to a clean domain. It distinguishes whether it is Korean or not clean.
  • the image distortion restoration encoders (E 1 to E l ) input the image to which the distortion-cleaned domain having a size of 16 ⁇ 16 is mapped again to the image distortion restoration encoders (E 1 to E l ), the size of 64 ⁇ 64 It is output as a restored image with
  • the image distortion restoration encoders E 1 to E l reconstruct a distorted image into a clean image, and map the image to a size of W 1 ⁇ H 1 to W l ⁇ H l .
  • unexpected image distortion may exist in the reconstructed image by passing through the scale-specific generators (G 1 to G l ), and the image distortion restoration encoders (E 1 to E l ) restore the unexpected image distortion.
  • the restored image is not sent directly but connected between the scale-specific generator (G 1 ) and the scale-specific generator (G 2 ). It is connected via an image distortion restoration encoder (E 2 ). Accordingly, when an image having a size of 64 ⁇ 64 passes through the image distortion restoration encoder E 2 , an image to which a clean domain is mapped becomes an image having a size of 32 ⁇ 32 even though there is distortion.
  • the scale-specific constructor (G 2 ) receives both the original image (32 ⁇ 32) and the reconstructed image (32 ⁇ 32).
  • the scale-specific generator (G 2 ) extracts more useful features from the original image (32 ⁇ 32) and the reconstructed image (32 ⁇ 32) using the channel attention block (CAB 2 ).
  • the scale-specific generator (G 2 ) assigns a higher weight to more useful features among the original image (32 ⁇ 32) and the reconstructed image (32 ⁇ 32) using the channel attention block (CAB 2 ), and assigns a higher weight to the less useful features. Features are given a low weight.
  • the channel attention blocks CAB 1 to CAB l play a role of integrating information of a current image and information of a reconstructed image from a low resolution.
  • each scale-specific constructor (G 1 to G l ) shown in FIG. 1 is an embodiment for explanation, and the present invention is not limited to a specific constructor structure.
  • the scale-specific generator ( G 1 ) receives an image having a specific scale (W 1 ⁇ H 1 ) and performs upscaling (nW A 1 ⁇ n H 1 ) reconstructed image is created.
  • the video distortion restoration encoder (E 2 ) generates an image obtained by downscaling an upscaled (nW 1 ⁇ n H 1 ) reconstructed image by a preset multiple, and cleans any distortion in the downscaled image.
  • a distortion restored image (W 2 ⁇ H 2 ) mapped to is output.
  • the scale-specific generator (G 2 ) receives a distortion restored image (W 2 ⁇ H 2 ) from the image distortion restoration encoder (E 2 ), receives an original image having a specific scale (W 2 ⁇ H 2 ), and receives a specific scale ( A reconstructed image that is upscaled (nW 2 ⁇ n H 2 ) by a preset multiple is generated using a reconstruction model corresponding to W 2 ⁇ H 2 .
  • the video distortion restoration encoder E l generates an image obtained by downscaling the upscaling (nW 2 ⁇ n H 2 ) reconstructed image by a preset multiple, and cleans any distortion in the downscaling image. Outputs a distortion-reconstructed image (W l ⁇ H l ) mapped by .
  • the scale-specific generator (G l ) receives a distortion restored image (W l ⁇ H l ) from the image distortion restoration encoder (E l ), receives an original image having a specific scale (W l ⁇ H l ), and generates a specific scale ( A reconstructed image upscaling (nW l ⁇ n H l ) by a predetermined multiple is generated using a reconstruction model corresponding to W l ⁇ H l ).
  • the scale-specific generator uses a channel attention block (CAB 1 to CAB l ) to generate a distorted image and an original having the same scale (W 1 ⁇ H 1 to W l ⁇ H l ) as the distortion-reconstructed image. Based on the features extracted from the image, a reconstructed image upscaled (nW 1 ⁇ n H 1 to nW l ⁇ n H l ) by a preset multiple is created.
  • CAB 1 to CAB l channel attention block
  • the scale-specific generator (G 1 ⁇ G l ) uses a channel attention block (CAB 1 ⁇ CAB l ) to generate a distorted image and an original having the same scale (W 1 ⁇ H 1 ⁇ W l ⁇ H l ) as the distortion-reconstructed image. Features are extracted from information obtained by merging images.
  • the scale-specific generator (G 1 ⁇ G l ) performs upscaling (nW 1 ⁇ n H 1 ⁇ nW l ⁇ n H l ) to create a restored image.
  • the scale-specific generator (G 1 to G l ) generates a 6-channel image by merging the distortion-restored image and the RGB channels of the original image using the channel attention block (CAB 1 to CAB l ), and creates a 6-channel image with 3 Extract features of 64 channels using ⁇ 3 convolution.
  • the scale-specific generator (G 1 ⁇ G l ) takes the average value of 64 channels using channel attention blocks (CAB 1 ⁇ CAB l ), encodes them with 16 nodes, extracts key information, and converts 16 nodes non-linearly.
  • 64 nodes are mapped to a value between 0 and 1, the value of the weighted 64 nodes is multiplied by the channel, and features of 3 channels are extracted using 1 ⁇ 1 convolution to create a new image. .
  • the video distortion restoration encoders E 1 to E l output a distortion-reconstructed image using a loss function L1, a loss function L2, and a loss function D.
  • the video distortion restoration encoders (E 1 to E l ) determine the loss function (L1) by calculating the difference between whether the downscaled image is similar to the original image (input).
  • the video distortion restoration encoders E 1 to E l use the loss function L1 to learn a downscaling value while preserving information of the original image as much as possible.
  • the video distortion restoration encoders E 1 to E l determine the loss function L2 by calculating a difference between the downscaled image and the image downscaled by bicubic interpolation.
  • Image distortion restoration encoders (E 1 to E l ) use the loss function (L2) to learn characteristics that change in a form in which distortion is smoothed and only main structural information in the image is maintained as images with different distortions are downscaled. .
  • the image distortion restoration encoders E 1 to E l determine whether the downscaled image has no distortion (clean) or distortion (degradation), calculates a loss value, and determines the loss function (D).
  • Image distortion restoration encoders (E 1 to E l ) use the loss function (D) to convert the style of a distorted image into a style of a clear image without distortion.
  • FIG. 2 is a diagram illustrating a shape of an image to be reconstructed based on pre-learning information about a scale according to the present embodiment.
  • the scale-specific generators determine the shape of an image to be reconstructed based on pre-learning information about the scale. For example, as shown in FIG. 2 , a generator G 32 learned based on 32 ⁇ 32 scale image data attempts to restore the following two patches by eye. The generator G 96 learned based on the 96 ⁇ 96 scale image data tries to restore the following two patches as noses.
  • FIG. 3 is a diagram illustrating an image distortion restoration encoder according to the present embodiment.
  • the image distortion restoration encoders E 1 to E l use a loss function L1, a loss function L2, and a loss function D.
  • the encoder (E l ) and the decoder (D l ) are learned together, and the encoder (E l ) that has been learned for each scale l is used as a module for image distortion restoration of the multi-scale image restoration neural network.
  • the loss function (L1) calculates the difference in how similar the image is to the original image (input) when the image whose resolution has been reduced by the encoder E l is reconstructed by the decoder D l .
  • the loss function (L1) is necessary to learn an encoder that can reduce the resolution while maximally preserving the information of the original video.
  • the loss function L2 calculates the difference between the image whose resolution is reduced by the encoder E l and the image whose resolution is reduced by bicubic interpolation.
  • the loss function (L2) has the characteristic of changing into a form in which the distortion is smoothed as the resolution of images having different distortions is reduced and only the main structural information of the image is maintained while the distortion is smoothed. needed to learn
  • the loss function (D) calculates a loss value by determining whether an image whose resolution has been reduced by the encoder E l has no distortion (clean) or is present (degradation). The loss function (D) has a lower value as the distortion is smaller. The loss function (D) is necessary to convert the style of a distorted image into a style of a clear image without distortion.
  • FIG. 4 is a diagram showing a channel attention block according to this embodiment.
  • the channel attention block (CAB 1 to CAB l ) receives two input images with 3 RGB channels and combines them along the channel axis via the Concat module to generate a 6-channel image. It is converted into a new image and output.
  • the Concat module creates 6 channels by merging two images of 3 channels.
  • the C64k3s1 module extracts features of 64 channels using 3 ⁇ 3 convolution for 6 channels.
  • GAP64 64 module takes the average value of each of 64 channels.
  • the FC16 module encodes 16 nodes and extracts key information.
  • the Relu module performs a non-linear transformation on 16 nodes.
  • the FC64 module decodes and restores 64 nodes.
  • the sigmoid module maps 64 nodes to a value between 0 and 1 and weights them.
  • the multiply module multiplies a channel by the value of the 64 nodes weighted for the 64 channels.
  • the C3k1s1 module extracts the features of 3 channels using 1 ⁇ 1 convolution for 3 channels and uses them as input images for the scale-specific generator (G l ).
  • CAB 1 to CAB l As the channel attention block (CAB 1 to CAB l ), an image of size W l ⁇ H l and an output image of size nW l-1 ⁇ nH l-1 converted by scale-specific generator G l-1 at the level of l-1 are converted. An image with reduced image distortion and resolution is input through the encoder E l .
  • FIG. 5 is a diagram illustrating a multi-label GAN according to this embodiment.
  • the learning unit receives each image having a multi-scale and performs learning for each multi-scale to learn an independent restoration model for each scale.
  • the learning unit includes a generator and a discriminator.
  • the generation unit (G) generates a fake image G l (I) that increases the scale of the input image by a preset resolution.
  • the distinguishing unit D receives the fake image G l (I) and the original image I gt , calculates a score for determining whether the fake image G l (I) is real or fake, and calculates Train a restoration model based on scores.
  • the distinguishing unit D calculates a total loss function (L) for each recognized object in the reconstructed image upscaling (nW L ⁇ n H L ) by a preset multiple, and an inter-pixel loss function (per -pixel loss) (L pixel ), perceptual loss function (L feat ), relative adversarial loss function (L rgan ), multi-label adversarial loss function (L Based on mlgan ), it is determined whether the fake image G l (I) is real or fake.
  • L pixel inter-pixel loss function
  • L feat perceptual loss function
  • L rgan relative adversarial loss function
  • L Based on mlgan multi-label adversarial loss function
  • the total loss function (L) is equal to [Equation 1].
  • the total loss function (L) of Equation 1 is an inter-pixel loss function (L pixel ), a perceptual loss function (L feat ), a relative adversarial loss function (L rgan ), and a multi-label adversarial loss function (L mlgan ) is composed of a weighted sum of ⁇ p , ⁇ f , ⁇ r , and ⁇ m in Equation 1 mean the weight of each loss function.
  • the per-pixel loss function (L pixel ) of Equation 2 uses a Huber loss function that operates as an L2 loss in a range smaller than ⁇ and as an L1 loss in a range larger than ⁇ .
  • the per-pixel loss function (L pixel ) of Equation 2 is a function for robust learning even when a large difference occurs due to distortion.
  • Equation 3 The perceptual loss function (L feat ) of Equation 3 minimizes the difference between the feature maps extracted from the d-th middle layer of the vgg19 neural network F d trained for image recognition.
  • the relative adversarial loss (L rgan ) of Equation 4 transfers the image G l (I) created by the creator (G) and the correct image I gt to the discriminator neural network D l , and the discriminant value of the two images We use the difference as the loss function.
  • the multi-label adversarial loss (L mlgan ) of Equation 5 determines whether the image G l (I) and the correct image I gt created by the generator (G) are real / fake for each class c It is passed to the discriminator neural network D l c , and the weighted average of the differences in discriminant values of each class is used as a loss function. At this time, the weight (1-p c ) ⁇ increases as the discriminant value of the discriminator neural network decreases, giving a higher loss to problems that cannot be solved well.
  • class c When restoring a face image, class c may be defined as a part of each face. Each face part is extracted by multiplying the extracted intermediate feature map and the segmentation map pixel by pixel, and passed to the class-specific discriminator neural network D l c .
  • FIG. 6 is a diagram showing a result of improving the quality of a converted image according to a difference in loss function according to the present embodiment.
  • the multi-scale object image restoration apparatus distinguishes between the input image input to the generation unit G and the CNN image generated by the generation unit G in the process of generating a reconstructed image by restoring the input image.
  • the Ground-Truth image input to the part (D) is shown in FIG. 6 .
  • the distinguishing unit D in the multi-scale object image restoration apparatus calculates a score for determining whether the upscaling image output from the generating unit G is real or generated fake.
  • the distinguishing unit D in the multi-scale object image restoration apparatus determines whether the upscaling image output from the generating unit G is real or generated fake based on the learned information.
  • the multi-scale object image restoration device improves the performance of the distinguishing unit (D) to determine whether the original (real) or generated fake (fake) is based on the correct image (Ground-Truth) and the It also delivers fake images (Relative-GAN).
  • the discrimination unit (D) in the multi-scale object image restoration device recognizes the components in the fake image (Relative-GAN) generated by the generation unit (G), and each component (teeth, eyes, nose, mouth, accessories, etc.) Determine whether there is an awkward part in
  • the distinguishing unit (D) in the multi-scale object image restoration device implements an independent distinguisher for each component (teeth, eyes, nose, mouth, accessories, etc.) ) is used to improve the image by determining how real or awkward it is.
  • the distinguishing unit D in the multi-scale object image restoration device uses a pre-existing answer segmentation map for learning data, and weights components (teeth, eyes, nose, mouth, accessories, etc.) Multiply, remove all other parts other than the components, and select only images corresponding to the components.
  • the distinguishing unit D in the multi-scale object image restoration device calculates a score for determining whether each of the components (teeth, eyes, nose, mouth, accessories, etc.) in the image is real or fake. .
  • the distinguishing unit (D) in the multi-scale object image restoration device makes the image itself fake if any one of the components (teeth, eyes, nose, mouth, accessories, etc.) Determine
  • the distinguishing unit D in the multi-scale object image restoration device determines whether each component in the restored image is original or fake.
  • FIG. 7a, 7b, and 7c are diagrams illustrating image restoration in the case of using a full-scale specific generator according to the present embodiment.
  • the scale-specific constructor includes a total of n steps from the scale-specific constructor (G 1 ) to the scale-specific constructor (G l ).
  • the multi-scale object image restoration apparatus converts the input image to a scale-specific generator (G 1 ) to a scale-specific generator (G l ), an image distortion restoration encoder (E 1 ) through the image distortion restoration encoder (E l ) to output a restored image.
  • the scale-specific generator (G 1 ) reconstructs a 16 ⁇ 16 image and outputs a reconstructed image upscaled to 64 ⁇ 64 by 4 times.
  • the video distortion restoration encoder (E 2 ) receives a 64 ⁇ 64 restored image from the scale-specific generator (G 1 ), and outputs the image as a distortion restored image downscaled to 32 ⁇ 32.
  • the scale-specific generator (G 2 ) receives a 32 ⁇ 32 reconstructed image from the video distortion restoration encoder (E 2 ), receives a 32 ⁇ 32 original image, and outputs the reconstructed image upscaled to 128 ⁇ 128 by 4 times.
  • the video distortion decompression encoder (E 3 ) When receiving a 128 ⁇ 128 reconstructed image from the scale-specific generator G 2 , the video distortion decompression encoder (E 3 ) outputs a deconstructed distortion image downscaled to 64 ⁇ 64.
  • the scale-specific generator (G 3 ) receives a 64 ⁇ 64 reconstructed image from the video distortion restoration encoder (E 3 ), receives a 64 ⁇ 64 original image, and outputs the reconstructed image upscaled to 256 ⁇ 256 by 4 times.
  • the video distortion restoration encoder (E 4 ) receives a 256 ⁇ 256 restored image from the scale-specific generator (G 3 ), and outputs the image as a distortion restored image downscaled to 128 ⁇ 128.
  • the scale-specific generator (G 4 ) receives a 128 ⁇ 128 reconstructed image from the video distortion restoration encoder (E 4 ), receives a 128 ⁇ 128 original image, and outputs the reconstructed image upscaled to 512 ⁇ 512 by 4 times.
  • 8a, 8b, and 8c are diagrams illustrating image restoration in the case of using some scale-specific generators according to the present embodiment.
  • the multi-scale object image restoration apparatus sets a specific section or widens the section without using both scale-specific generators (G 1 to G l ) and image distortion restoration encoders (E 1 to E l ) according to the scale of the input image. or narrow it down to perform image restoration.
  • a multi-stage scale-specific generator G 1 ⁇ G l
  • an image distortion restoration encoder E 1 ⁇ E l
  • a multi-stage image distortion restoration encoder E 1 ⁇ E l
  • distortion is improved, but there may be object (face) deformation. That is, if there are various distortions in the input image itself, multi-stage image distortion restoration encoders (E 1 to E l ) must be used to obtain a result of distortion restoration, so if the input image itself has no distortion, multi-stage image distortion restoration encoders There is no need to go through (E 1 ⁇ E l ).
  • the scale-specific generator includes a total of n steps from the scale-specific generator (G 1 ) to the scale-specific generator (G l ), but according to the deterioration state of the input image, multi-scale object image restoration apparatus outputs a reconstructed image by passing the input image through only the scale-specific generators (G 1 to G 2 ) and the image distortion restoration encoder (E 2 ).
  • a scale-specific generator (G 1 ) reconstructs a 16 ⁇ 16 image and outputs a reconstructed image upscaled to 64 ⁇ 64 by 4 times.
  • the video distortion restoration encoder (E 2 ) receives a 64 ⁇ 64 restored image from the scale-specific generator (G 1 ), and outputs the image as a distortion restored image downscaled to 32 ⁇ 32.
  • the scale-specific generator (G 2 ) receives a 32 ⁇ 32 reconstructed image from the video distortion restoration encoder (E 2 ), receives a 32 ⁇ 32 original image, and outputs the reconstructed image upscaled to 128 ⁇ 128 by 4 times.
  • the input image is outputted by passing only the scale-specific generators (G 1 to G 2 ) and the image distortion restoration encoder (E 2 ), and the reconstructed image is shown in FIGS. 8B and 8C .

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Image Processing (AREA)

Abstract

멀티 스케일 객체 이미지 복원 방법 및 장치를 개시한다. 본 실시예는 임의의 스케일(Scale)과 왜곡(Degradation)을 갖는 이미지를 입력받아 서로 다른 스케일을 갖는 이미지를 복원하는 동시에 왜곡 있는 영상을 보다 정확하게 개선할 수 있도록 하는 멀티 스케일 객체 이미지 복원 방법 및 장치를 제공한다.

Description

멀티 스케일 객체 이미지 복원 방법 및 장치
본 실시예는 멀티 스케일 객체 이미지 복원 방법 및 장치에 관한 것이다.
이하에 기술되는 내용은 단순히 본 실시예와 관련되는 배경 정보만을 제공할 뿐 종래기술을 구성하는 것이 아니다.
일반적으로 저해상도 영상을 고해상도 영상으로 복원하는 기술은 복원에 사용되는 입력영상의 수 또는 복원 기술에 따라 구분된다. 입력영상의 수에 따라 단일영상 초해상도 복원 기술과 연속영상 초해상도 복원 기술로 구분된다.
일반적으로 단일영상 초해상도 영상복원 기술은 연속영상 초해상도 영상복원에 비하여 처리 속도는 빠르지만, 복원에 필요한 정보가 부족하므로 영상 복원의 품질이 낮다.
연속영상 초해상도 영상복원 기술은 연속적으로 획득된 다수의 영상들로부터 추출된 다양한 특징을 이용하므로 단일영상 초해상도 영상복원 기술에 비하여 복원된 영상의 품질은 우수하나, 알고리즘이 복잡하고 연산량이 많아 실시간 처리가 어렵다.
복원 기술에 따라서는 보간법을 이용한 기술, 에지 정보를 이용한 기술, 주파수 특성을 이용한 기술, 딥러닝 등과 같은 기계학습을 이용한 기술 등이 있다. 보간법을 이용한 기술은 처리 속도가 빠르지만 가장자리 부분이 흐릿해지는 단점이 있다.
에지 정보를 이용한 기술은 속도도 빠르고 가장자리의 선명도를 유지하면서 영상을 복원할 수 있으나, 에지 방향을 잘못 추정한 경우에는 시각적으로 두드러지는 복원 에러를 포함할 수 있는 단점이 있다.
주파수 특성을 이용한 기술은 고주파성분을 이용하여 에지 정보를 이용한 기술과 같이 가장자리의 선명도를 유지하며 영상을 복원할 수 있으나 경계선 부근의 Ringing Artifact가 발생하는 단점이 있다. 마지막으로 예제 기반 또는 딥러닝과 같은 기계학습을 이용한 기술은 복원된 영상의 품질이 가장 우수하지만 처리속도가 매우 느리다.
상술한 바와 같이 기존의 다양한 고해상도 영상 복원 기술들 중 연속영상 초해상도 영상복원 기술은 기존의 보간법을 이용한 디지털 줌 기능이 필요한 분야에 적용될 수 있으며, 보간법 기반의 영상복원 기술에 비해 우수한 품질의 영상을 제공한다. 그러나, 기존의 초해상도 영상복원 기술은, 제한된 리소스와 실시간 처리가 요구되는 전자광학 장비에는 복잡한 연산량으로 인해 적용할 수 있는 기술이 제한적이다.
실시간 처리가 가능한 기존의 단일영상 기반의 초해상도 영상복원 기술은 2배 이상의 고배율로 영상 확대가 필요한 경우에 연속영상 기반의 복원 기술에 비해 성능 저하가 크다는 문제가 있다.
본 실시예는 임의의 스케일(Scale)과 왜곡(Degradation)을 갖는 이미지를 입력받아 서로 다른 스케일을 갖는 이미지를 복원하는 동시에 왜곡 있는 영상을 보다 정확하게 개선할 수 있도록 하는 멀티 스케일 객체 이미지 복원 방법 및 장치를 제공하는 데 목적이 있다.
본 실시예의 일 측면에 의하면, 특정 스케일(Wℓ-1×Hℓ-1)을 갖는 이미지를 입력받아 특정 스케일(Wℓ-1×Hℓ-1)에 대응하는 복원 모델을 이용하여 기 설정된 배수로 업스케일링(Upscaling)(nWℓ-1×nHℓ-1)한 복원 이미지를 생성하는 스케일 특화 생성자(Gℓ-1, Scale-Specific Generator); 상기 업스케일링(nWℓ-1×nHℓ-1)한 복원 이미지를 기 설정된 배수로 다운스케일링(Downscaling)한 이미지를 생성하고, 상기 다운스케일링한 이미지 내에서 임의의 왜곡을 클린한 도메인으로 매핑한 왜곡 복원 이미지를 출력하는 영상왜곡 복원 인코더(E); 및 상기 왜곡 복원 이미지를 입력받은 후 상기 왜곡 복원 이미지가 갖는 스케일(Wℓ×H)에 대응하는 복원 모델을 이용하여 기 설정된 배수로 업스케일링(Upscaling)(nWℓ×nH)한 복원 이미지를 생성하는 스케일 특화 생성자(G, Scale-Specific Generator);를 포함하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치를 제공한다.
본 실시예의 다른 측면에 의하면, 스케일 특화 생성자(Gℓ-1, Scale-Specific Generator)에서 특정 스케일(Wℓ-1×Hℓ-1)을 갖는 이미지를 입력받아 특정 스케일(Wℓ-1×Hℓ-1)에 대응하는 복원 모델을 이용하여 기 설정된 배수로 업스케일링(Upscaling)(nWℓ-1×nHℓ-1)한 복원 이미지를 생성하는 과정; 영상왜곡 복원 인코더(E)에서 상기 업스케일링(nWℓ-1×nHℓ-1)한 복원 이미지를 기 설정된 배수로 다운스케일링(Downscaling)한 이미지를 생성하고, 상기 다운스케일링한 이미지 내에서 임의의 왜곡을 클린한 도메인으로 매핑한 왜곡 복원 이미지를 출력하는 과정; 및 스케일 특화 생성자(G, Scale-Specific Generator)에서 상기 왜곡 복원 이미지를 입력받은 후 상기 왜곡 복원 이미지가 갖는 스케일(Wℓ×H)에 대응하는 복원 모델을 이용하여 기 설정된 배수로 업스케일링(Upscaling)(nWℓ×nH)한 복원 이미지를 생성하는 과정;을 포함하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 방법을 제공한다.
이상에서 설명한 바와 같이 본 실시예에 의하면, 임의의 스케일(Scale)과 왜곡(Degradation)을 갖는 이미지를 입력받아 서로 다른 스케일을 갖는 이미지를 복원하는 동시에 왜곡 있는 영상을 보다 정확하게 개선할 수 있는 효과가 있다.
본 실시예에 의하면, 임의의 스케일(Scale)과 왜곡(Degradation)을 갖는 이미지를 입력받아 해당 스케일의 복원 모델로 기 설정된 배수로 업스케일한 복원 이미지를 생성하고, 복원 이미지를 기 설정된 배수로 다운스케일한 이미지에서 왜곡을 복원한 왜곡 복원 이미지를 생성하고, 왜곡 복원 이미지를 해당 스케일의 복원 모델로 기 설정된 배수로 업스케일한 복원 이미지를 생성하여 입력 영상의 해상도와 왜곡을 개선할 수 있는 효과가 있다.
본 실시예에 의하면, 서로 다른 독립된 스케일들을 학습하고 영상왜곡 복원 인코더에 의해 케스케이드(Cascade) 구조로 연결하여 독립적으로 해상도를 복원한 이미지마다 독립적으로 왜곡을 복원할 수 있는 효과가 있다.
도 1은 본 실시예에 따른 멀티 스케일 객체 이미지 복원 시스템을 나타낸 도면이다.
도 2는 본 실시예에 따른 스케일에 대한 사전 학습 정보에 기반하여 복원하는 영상의 형태를 나타낸 도면이다.
도 3은 본 실시예에 따른 영상왜곡 복원 인코더를 나타낸 도면이다.
도 4는 본 실시예에 따른 채널 어텐션 블럭을 나타낸 도면이다.
도 5는 본 실시예에 따른 멀티 레이블 GAN을 나타낸 도면이다.
도 6은 본 실시예에 따른 손실함수 차이에 따라 변환된 영상의 퀄리티가 개선되는 결과를 나타낸 도면이다.
도 7a,7b,7c는 본 실시예에 따른 전체 스케일 특화 생성자를 이용하는 경우의 영상 복원을 나타낸 도면이다.
도 8a,8b,8c는 본 실시예에 따른 일부 스케일 특화 생성자를 이용하는 경우의 영상 복원을 나타낸 도면이다.
이하, 본 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 실시예에 따른 멀티 스케일 객체 이미지 복원 시스템을 나타낸 도면이다.
멀티 스케일 객체 이미지 복원 시스템은 멀티스케일로 이미지 내의 객체(Object)를 복원하는 기술이다. 이미지 내의 객체는 사람 얼굴인 것이 바람직하나 반드시 이에 한정되는 것은 아니다.
실제 환경에서 종래의 이미지 복원 기술을 적용하는 경우, 정상적인 결과물이 출력되지 않는다. 실제 환경에서는 영상에 다양한 영상 왜곡이 존재하고, 영상마다 다양한 스케일이 존재한다. 다양한 스케일을 갖는 영상은 저조도, 블러, 노이즈, 반사와 같은 다양한 왜곡이 발생한다.
종래의 이미지 복원 기술은 학습한 환경과 동일한 스케일에서는 복원이 가능하지만, 실제 영상의 스케일이 상이하거나 객체가 정렬되지 않은 경우, 정상적인 이미지 복원이 불가능하다.
본 실시예에 따른 멀티 스케일 객체 이미지 복원 시스템은 다양한 왜곡과 다양한 스케일을 갖는 이미지를 하나의 딥러닝 모델을 이용하여 복원한다.
실제 영상 왜곡이 있는 이미지를 입력 영상으로 이용하여 복원해보면 왜곡이 증폭되지만, 입력 영상의 사이즈를 다운 샘플링하면, 영상의 왜곡이 느껴지지 않을 만큼 영상의 왜곡이 보이지 않게 된다. 영상의 왜곡이 뭉개지면서 원본 영상이 컨텐츠 위주로 남게 된다.
본 실시예에 따른 멀티 스케일 객체 이미지 복원 장치는 딥러닝하기 위한 프로그램 또는 프로토콜을 저장하기 위한 메모리, 해당 프로그램을 실행하여 연산 및 제어하기 위한 마이크로프로세서 등을 구비한다.
멀티 스케일 객체 이미지 복원 장치는 (i) 각종 기기 또는 유무선 네트워크와 통신을 수행하기 위한 통신 모뎀 등의 통신 장치, (ii) 각종 프로그램과 데이터를 저장하기 위한 메모리, (iii) 프로그램을 실행하여 연산 및 제어하기 위한 마이크로프로세서 등을 구비하는 다양한 장치이다. 적어도 일 실시예에 따르면, 메모리는 램(Random Access Memory: RAM), 롬(Read Only Memory: ROM), 플래시 메모리, 광 디스크, 자기 디스크, 솔리드 스테이트 디스크(Solid State Disk: SSD) 등의 컴퓨터로 판독 가능한 기록/저장매체일 수 있다. 적어도 일 실시예에 따르면, 마이크로프로세서는 명세서상에 기재된 동작과 기능을 하나 이상 선택적으로 수행하도록 프로그램될 수 있다. 적어도 일 실시예에 따르면, 마이크로프로세서는 전체 또는 부분적으로 특정한 구성의 주문형반도체(Application Specific Integrated Circuit: ASIC) 등의 하드웨어로써 구현될 수 있다
본 실시예에 따른 멀티 스케일 객체 이미지 복원 장치는 스케일 특화 생성자(G1), 스케일 특화 생성자(G2) 내지 스케일 특화 생성자(G)를 포함하고, 영상왜곡 복원 인코더(E1), 영상왜곡 복원 인코더(E2) 내지 영상왜곡 복원 인코더(E)를 포함한다. 멀티 스케일 객체 이미지 복원 시스템에 포함된 구성요소는 반드시 이에 한정되는 것은 아니다.
스케일 특화 생성자(G1 ~ G)는 각각은 특정한 스케일의 영상을 복원하도록 학습이 되어 있다. 예컨대, 스케일 특화 생성자(G1)는 16×16 내지 32×32 이미지를 64×64 내지 128×128 4배로 업스케일링한 이미지로 복원하도록 독립된 네트워크가 학습되어 있다. 스케일 특화 생성자(G2)는 스케일 특화 생성자(G1) 입력의 두배인 32×32 내지 64×64 이미지를 128×128 내지 256×256 4배로 업스케일링한 이미지로 복원하도록 독립된 네트워크가 학습되어 있다.
스케일 특화 생성자(G1 ~ G) 사이에는 영상왜곡 복원 인코더(E1 ~ E)를 케스케이드(Cascade) 구조로 연결한다. 스케일 특화 생성자(G1 ~ G)는 W1×H1 내지 W×H(1≤ℓ≤L) 크기의 영상을 입력받아 해상도를 n배 향상시키는 역할을 한다.
영상왜곡 복원 인코더(E1 ~ E)는 영상의 임의의 왜곡을 클린한 도메인으로 매핑하는 인코더이다. 영상왜곡 복원 인코더(E1 ~ E)는 임의의 왜곡을 갖는 이미지가 입력되는 경우, 해당 이미지의 해상도를 절반으로 줄이고, 해상도가 줄어든 영상을 클린한 도메인으로 매핑되도록 구별부(D)에서 클린한지 클린하지 않은지를 구분한다.
32×32의 사이즈를 갖는 영상이 영상왜곡 복원 인코더(E1 ~ E)를 통과하게 되면, 16×16의 사이즈로 줄이고, 16×16의 사이즈를 갖는 영상 내의 왜곡이 있더라도 클린한 도메인이 매핑된 영상을 출력한다.
영상왜곡 복원 인코더(E1 ~ E)는 16×16의 사이즈를 갖는 왜곡을 클린한 도메인이 매핑된 영상을 다시 영상왜곡 복원 인코더(E1 ~ E)로 입력시키면, 64×64의 사이즈를 갖는 복원 이미지로 출력된다. 영상왜곡 복원 인코더(E1 ~ E)는 왜곡이 있는 영상을 깨끗한 영상으로 복원하면서 W1×H1 내지 W×H 크기로 매핑한다.
즉, 스케일 특화 생성자(G1 ~ G)를 통과하여 복원 이미지는 예상치 못한 영상 왜곡이 존재할 수 있는데, 영상왜곡 복원 인코더(E1 ~ E)에서 예상치 못한 영상 왜곡을 복원한다.
스케일 특화 생성자(G1)에서 출력한 복원 이미지를 스케일 특화 생성자(G2)로 입력할 때, 직접 복원 이미지를 보내는 것이 아니라 스케일 특화 생성자(G1)와 스케일 특화 생성자(G2) 사이에 연결된 영상왜곡 복원 인코더(E2)를 경유하여 연결된다. 따라서, 64×64의 사이즈를 갖는 영상이 영상왜곡 복원 인코더(E2)를 통과하게 되면, 32×32의 사이즈를 갖는 왜곡이 있더라도 클린한 도메인이 매핑된 영상이 된다.
스케일 특화 생성자(G2)는 원본 이미지(32×32)와 복원 이미지(32×32)를 모두 입력받는다. 스케일 특화 생성자(G2)는 채널 어텐션 블럭(CAB2)을 이용해서 원본 이미지(32×32)와 복원 이미지(32×32) 중 보다 유용한 피쳐들을 추출한다.
즉, 스케일 특화 생성자(G2)는 채널 어텐션 블럭(CAB2)을 이용하여 원본 이미지(32×32)와 복원 이미지(32×32) 중 보다 유용한 피쳐들에 가중치를 높게 부여하고, 유용하지 않은 피쳐들에는 가중치를 낮게 부여한다.
스케일 특화 생성자(G2) 내부 블럭 중 채널 어텐션 블럭(CAB2) 이후의 블럭에서는 원본 이미지(32×32)와 복원 이미지(32×32) 중 선택된 하나의 이미지로부터 복원하면, 128×128의 사이즈를 갖는 복원 영상으로 출력된다.
채널 어텐션 블록 CAB1 내지 CAB는 현재 영상의 정보와 저해상도로부터 복원된 영상의 정보를 통합하는 역할을 한다.
도 1에 도시된 각 스케일 특화 생성자(G1 ~ G) 구조는 설명을 위한 실시예이며, 본 발명은 특정 생성자 구조로 한정되지 않는다.
스케일 특화 생성자(G1)는 특정 스케일(WH1)을 갖는 이미지를 입력받아 특정 스케일(WH1)에 대응하는 복원 모델을 이용하여 기 설정된 배수로 업스케일링(Upscaling)(nW1×nH1)한 복원 이미지를 생성한다.
영상왜곡 복원 인코더(E2)는 업스케일링(nW1×nH1)한 복원 이미지를 기 설정된 배수로 다운스케일링(Downscaling)한 이미지를 생성하고, 다운스케일링한 이미지 내에서 임의의 왜곡을 클린한 도메인으로 매핑한 왜곡 복원 이미지(WH2)를 출력한다.
스케일 특화 생성자(G2)는 영상왜곡 복원 인코더(E2)로부터 왜곡 복원 이미지(WH2)를 입력받고, 특정 스케일(WH2)을 갖는 원본 이미지를 입력받아 특정 스케일(WH2)에 대응하는 복원 모델을 이용하여 기 설정된 배수로 업스케일링(Upscaling)(nW2×nH2)한 복원 이미지를 생성한다.
영상왜곡 복원 인코더(E)는 업스케일링(nW2×nH2)한 복원 이미지를 기 설정된 배수로 다운스케일링(Downscaling)한 이미지를 생성하고, 다운스케일링한 이미지 내에서 임의의 왜곡을 클린한 도메인으로 매핑한 왜곡 복원 이미지(Wℓ×H)를 출력한다.
스케일 특화 생성자(G)는 영상왜곡 복원 인코더(E)로부터 왜곡 복원 이미지(Wℓ×H)를 입력받고, 특정 스케일(Wℓ×H)을 갖는 원본 이미지를 입력받아 특정 스케일(Wℓ×H)에 대응하는 복원 모델을 이용하여 기 설정된 배수로 업스케일링(Upscaling)(nWℓ×nH)한 복원 이미지를 생성한다.
스케일 특화 생성자(G1~G)는 채널 어텐션 블럭(CAB1~CAB)을 이용하여 왜곡 복원 이미지와 왜곡 복원 이미지와 동일한 스케일(WH1 ~ Wℓ×H)을 갖는 원본 이미지로부터 추출한 피쳐를 기반으로 기 설정된 배수로 업스케일링(Upscaling)(nW1×nH1 ~ nWℓ×nH)한 복원 이미지를 생성한다.
스케일 특화 생성자(G1 ~ G)는 채널 어텐션 블럭(CAB1 ~ CAB)을 이용하여 왜곡 복원 이미지와 왜곡 복원 이미지와 동일한 스케일(WH1 ~ Wℓ×H)을 갖는 원본 이미지를 병합한 정보로부터 피쳐(Feature)들을 추출한다. 스케일 특화 생성자(G1 ~ G)는 피쳐 중 유효한 피쳐에게 높은 가중치를 부여하여 출력한 새로운 영상을 기반으로 기 설정된 배수로 업스케일링(Upscaling)(nW1×nH1 ~ nWℓ×nH)한 복원 이미지를 생성한다.
스케일 특화 생성자(G1 ~ G)는 채널 어텐션 블럭(CAB1 ~ CAB)을 이용하여 왜곡 복원 이미지와 원본 이미지의 RGB 채널을 병합하여 6채널의 영상을 생성하고, 6채널의 영상에 3×3 컨볼루션을 이용하여 64채널의 특징을 추출한다. 스케일 특화 생성자(G1 ~ G)는 채널 어텐션 블럭(CAB1 ~ CAB)을 이용하여 64채널의 평균값을 취한 후 16 노드로 인코딩하여 주요정보를 추출하고, 16 노드를 비선형 변환한 후 64노드로 디코딩하여 복원한 후 64 노드에 0~1 사이의 값으로 매핑하여 가중치화한 64 노드의 값을 채널에 곱한 후 1×1 컨볼루션을 이용하여 3채널의 특징 추출하여 새로운 영상을 생성한다.
영상왜곡 복원 인코더(E1 ~ E)는 손실함수(L1), 손실함수(L2), 손실함수(D)를 이용하여 왜곡 복원 이미지를 출력한다.
영상왜곡 복원 인코더(E1 ~ E)는 다운스케일링한 이미지를 디코더(D1 ~ D)가 복원한 경우 원본 이미지(input)와 유사한지 차이를 계산하여 손실함수(L1)를 결정한다. 영상왜곡 복원 인코더(E1 ~ E)는 손실함수(L1)를 원본 이미지의 정보를 최대한 보존하면서 다운스케일링 값을 학습하는 데 이용한다.
영상왜곡 복원 인코더(E1 ~ E)는 다운스케일링한 이미지와 바이큐빅 보간에 의해 다운스케일링한 이미지 간의 차이를 계산하여 상기 손실함수(L2)를 결정한다. 영상왜곡 복원 인코더(E1 ~ E)는 손실함수(L2)를 서로 다른 왜곡을 가진 이미지들을 다운스케일링 할수록 왜곡이 스무딩되고 영상 내의 주요 구조 정보만을 유지하는 형태로 변화하는 특성을 학습하는 데 이용한다.
영상왜곡 복원 인코더(E1 ~ E)는 다운스케일링한 이미지에 왜곡이 없는지(clean) 또는 왜곡이 있는지(degradation)를 판별하여 손실값을 계산하여 상기 손실함수(D)를 결정한다. 영상왜곡 복원 인코더(E1 ~ E)는 손실함수(D)를 왜곡이 있는 이미지의 스타일을 왜곡이 없는 깨끗한 영상의 스타일로 변환하기 위해 이용한다.
도 2는 본 실시예에 따른 스케일에 대한 사전 학습 정보에 기반하여 복원하는 영상의 형태를 나타낸 도면이다.
스케일 특화 생성자(G1 ~ G)는 스케일에 대한 사전 학습 정보에 기반하여 복원하는 영상의 형태를 결정한다. 예컨대, 도 2에 도시된 바와 같이, 32×32 스케일의 영상데이터에 기반하여 학습된 생성자 G32는 아래 두 패치를 눈으로 복원하려 한다. 96×96 스케일의 영상데이터에 기반하여 학습된 생성자 G96은 아래 두 패치를 코로 복원하려 한다.
도 3은 본 실시예에 따른 영상왜곡 복원 인코더를 나타낸 도면이다.
영상왜곡 복원 인코더(E1 ~ E)는 손실함수(L1), 손실함수(L2), 손실함수(D)를 이용한다. 학습 시에는 인코더(E)과 디코더(D)을 함께 학습하며, 각 스케일ℓ마다 학습이 완료된 인코더(E)을 멀티스케일 영상복원 신경망의 영상왜곡 복원을 위한 모듈로 사용한다.
손실함수(L1)는 인코더 E에 의해 해상도가 줄어든 영상을 디코더 D에 의해 복원했을 때 얼마나 원본 영상(input)과 유사한지 차이를 계산한다. 손실함수(L1)는 원본 영상의 정보를 최대한 보존하면서 해상도를 줄일 수 있는 인코더를 학습하기 위해 필요하다.
손실함수(L2)는 인코더(E)에 의해 해상도가 줄어든 영상과 바이큐빅 보간에 의해 해상도를 줄인 영상 간의 차이를 계산한다. 손실함수(L2)는 서로 다른 왜곡을 가진 영상들의 해상도를 줄일수록 왜곡이 스무딩되면서 왜곡을 구분할 수 없고 영상의 주요 구조적 정보만 유지하는 형태로 변화하는 특성이 있으며, 손실함수(L2)는 인코더에 학습시키기 위해서 필요하다.
손실함수(D)는 인코더 E에 의해 해상도가 줄어든 영상이 왜곡이 없는지 (clean) 또는 있는지(degradation)를 판별하여 손실값을 계산한다. 손실함수(D)는 왜곡이 적을수록 낮은값을 갖는다. 손실함수(D)는 왜곡이 있는 영상의 스타일을 왜곡이 없는 깨끗한 영상의 스타일로 변환하기 위해 필요하다.
도 4는 본 실시예에 따른 채널 어텐션 블럭을 나타낸 도면이다.
채널 어텐션 블록(CAB1 내지 CAB)는 RGB 3채널을 갖는 2개의 영상을 입력받아 Concat 모듈을 경유하여 채널축으로 합쳐서 6채널의 영상을 생성한 후 영상복원에 유용한 특징들을 추출하여 3채널의 새로운 영상으로 변환하여 출력한다.
Concat 모듈은 3채널의 영상 2개를 병합하여 6채널을 생성한다. C64k3s1 모듈은 6채널에 대해 3×3 컨볼루션을 이용하여 64 채널의 특징 추출한다. GAP64 64 모듈은 64채널 각각의 평균값을 취한다. FC16 모듈은 16 노드를 인코딩하여 주요정보 추출한다. Relu 모듈은 16 노드에 대해 비선형 변환한다. FC64 모듈은 64 노드를 디코딩하여 복원한다. Sigmoid 모듈은 64 노드에 대해 0~1 사이의 값으로 매핑하여 가중치화한다. multiply 모듈은 64 채널에 대해 가중치화한 64노드의 값을 채널에 곱한다. C3k1s1 모듈은 3채널에 대해 1×1 컨볼루션을 이용하여 3채널의 특징 추출하여 스케일 특화 생성자(G)의 입력 영상으로 사용한다.
채널 어텐션 블록(CAB1 내지 CAB)으로는 W×H 크기의 영상과 ℓ-1 레벨의 스케일 특화 생성자 Gℓ-1이 변환한 nWℓ-1×nHℓ-1 크기의 출력 영상을 인코더 E을 통해 영상 왜곡과 해상도를 줄인 영상이 입력된다.
도 5는 본 실시예에 따른 멀티 레이블 GAN을 나타낸 도면이다.
학습부는 멀티 스케일(Multi-scale)을 갖는 이미지 각각을 입력받아 멀티 스케일마다 학습을 수행하여 각 스케일별로 독립된 복원 모델을 학습한다.
학습부는 생성부(generator)와 구별부(discriminator)를 포함한다. 생성부(G)는 입력된 이미지가 갖는 스케일을 기 설정된 해상도만큼 증가시키는 가짜 이미지 G(I)를 생성한다. 구별부(D)는 가짜 이미지 G(I)와 원본 이미지 Igt를 입력받고, 가짜 이미지 G(I)가 진짜(real)인지 가짜(fake)인지를 판별한 점수를 산출하며, 산출한 점수를 기반으로 복원 모델을 학습한다.
구별부(D)는 기 설정된 배수로 업스케일링(Upscaling)(nWL×nHL)한 복원 이미지 내에서 인지된 객체 각각에 대한 전체 손실함수(total loss)(L), 화소간 손실함수(per-pixel loss)(Lpixel), 인지적 손실함수(perceptual loss)(Lfeat), 상대적 적대 손실함수(relative adversarial loss)(Lrgan), 멀티 레이블 적대 손실함수(multi-label adversarial loss)(Lmlgan)를 기반으로 가짜 이미지 G(I)가 진짜(real)인지 가짜(fake)인지를 판별한다.
전체 손실함수(total loss)(L)는 [수학식 1]과 같다.
Figure PCTKR2021007018-appb-M000001
수학식1의 전체 손실함수(total loss)(L)는 화소간 손실함수(Lpixel), 인지적 손실함수(Lfeat), 상대적 적대 손실함수(Lrgan), 멀티 레이블 적대 손실함수(Lmlgan)의 가중합으로 구성된다. 수학식1의 λp, λf, λr, λm은 각 손실함수의 가중치를 의미한다.
화소간 손실함수(per-pixel loss)(Lpixel)는 [수학식 2]와 같다.
Figure PCTKR2021007018-appb-M000002
수학식2의 화소간 손실함수(per-pixel loss)(Lpixel)는 σ보다 작은 범위에서는 L2 loss로 동작하고, σ보다 큰 범위에서는 L1 loss로 동작하는 Huber loss 함수를 사용한다. 수학식2의 화소간 손실함수(per-pixel loss)(Lpixel)는 왜곡에 의해 큰 차이가 생겨도 안정적으로(robust) 학습하기 위한 함수이다.
인지적 손실함수(perceptual loss)(Lfeat)는 [수학식 3]과 같다.
Figure PCTKR2021007018-appb-M000003
수학식3의 인지적 손실함수(perceptual loss)(Lfeat)는 영상인식을 위해 학습된 vgg19 신경망 Fd의 d번째 중간 레이어에서 추출한 특징 맵 사이의 차이를 최소화한다.
상대적 적대 손실함수(relative adversarial loss)(Lrgan)는 [수학식 4]와 같다.
Figure PCTKR2021007018-appb-M000004
수학식 4의 상대적 적대 손실함수(relative adversarial loss)(Lrgan)는 생성자(G)가 만든 영상 G(I)과 정답 영상 Igt을 판별자 신경망 D로 전달하여, 두 영상의 판별 값 차이를 손실함수로 사용한다.
멀티 레이블 적대 손실함수(multi-label adversarial loss)(Lmlgan)는 [수학식 5]와 같다.
Figure PCTKR2021007018-appb-M000005
수학식5의 멀티 레이블 적대 손실함수(multi-label adversarial loss)(Lmlgan)는 생성자(G)가 만든 영상 G(I)과 정답 영상 Igt을 각 클래스 c의 진짜/가짜 여부를 판별하는 판별자 신경망 D c로 전달하여, 각 클래스의 판별 값 차이의 가중평균을 손실함수로 사용한다. 이때, 가중치 (1-pc)γ는 판별자 신경망의 판별 값이 낮을수록 높아져서, 잘 해결하지 못하는 문제에 보다 높은 손실을 부여한다.
얼굴 영상 복원 시 클래스 c는 각 얼굴의 부위로 정의할 수 있다. 추출된 중간 특징맵과 세그맨테이션 맵을 화소 단위로 곱하여 각 얼굴 부위를 추출하고, 클래스 특화 판별자 신경망 D c로 전달한다.
도 6은 본 실시예에 따른 손실함수 차이에 따라 변환된 영상의 퀄리티가 개선되는 결과를 나타낸 도면이다.
멀티 스케일 객체 이미지 복원 장치는 도 6에 도시된 바와 같이 입력 영상을 복원한 복원 영상으로 생성하는 과정에서, 생성부(G)로 입력되는 Input 이미지, 생성부(G)에서 생성한 CNN 이미지, 구별부(D)로 입력되는 Ground-Truth 이미지 등은 도 6과 같다. 멀티 스케일 객체 이미지 복원 장치 내의 구별부(D)가 생성부(G)에서 출력한 업스케일링 이미지가 원본(real)인지 생성된 가짜(fake)인지를 판별한 점수를 산출한다.
멀티 스케일 객체 이미지 복원 장치 내의 구별부(D)는 학습한 정보를 토대로 생성부(G)에서 출력한 업스케일링 이미지가 원본(real)인지 생성된 가짜(fake)인지를 판별한다. 멀티 스케일 객체 이미지 복원 장치는 구별부(D)의 성능을 개선하여 원본(real)인지 생성된 가짜(fake)인지를 판별하는 기준으로 정답 이미지(Ground-Truth)와 생성부(G)에서 생성한 가짜 이미지(Relative-GAN)를 함께 전달한다.
멀티 스케일 객체 이미지 복원 장치 내의 구별부(D)는 생성부(G)에서 생성한 가짜 이미지(Relative-GAN) 내의 구성요소를 인지하고, 각 구성요소(치아, 눈, 코, 입, 액세서리 등)에 어색한 부분이 있는지의 여부를 판별한다.
멀티 스케일 객체 이미지 복원 장치 내의 구별부(D)는 구성요소(치아, 눈, 코, 입, 액세서리 등)에 대해서 독립적인 구별자를 구현하여 각각의 구성요소(치아, 눈, 코, 입, 액세서리 등)가 얼마나 리얼한지 어색한지 여부를 판별하여 영상을 개선하는 Multi-label RGAN을 이용한다.
멀티 스케일 객체 이미지 복원 장치 내의 구별부(D)는 생성된 이미지가 입력되면, 학습 데이터에 대해서 미리 가지고 있는 정답 세그멘테이션 맵을 이용하고, 구성요소(치아, 눈, 코, 입, 액세서리 등)에 가중치 곱하여, 구성요소 이외에 나머지 부분을 모두 제거하고, 구성요소에 해당하는 이미지만을 선별한다. 멀티 스케일 객체 이미지 복원 장치 내의 구별부(D)는 이미지 내의 구성요소(치아, 눈, 코, 입, 액세서리 등) 각각이 원본(real)인지 생성된 가짜(fake)인지를 판별한 점수를 산출한다.
멀티 스케일 객체 이미지 복원 장치 내의 구별부(D)는 영상 전체가 리얼하게 텍스처가 있다 하더라도 구성요소(치아, 눈, 코, 입, 액세서리 등) 중 어느 하나가 어색하게 복원되면, 영상 자체를 가짜로 판별한다. 멀티 스케일 객체 이미지 복원 장치 내의 구별부(D)는 복원 이미지 내의 구성요소 각각에 대해 원본 또는 가짜 여부에 판별한다.
도 7a,7b,7c는 본 실시예에 따른 전체 스케일 특화 생성자를 이용하는 경우의 영상 복원을 나타낸 도면이다.
도 7a에 도시된 바와 같이, 스케일 특화 생성자는 스케일 특화 생성자(G1) 내지 스케일 특화 생성자(G)까치 총 n개의 단계를 포함한다.
도 7b에 도시된 바와 같이, 입력 영상이 많이 열화된 상태인 경우, 멀티 스케일 객체 이미지 복원 장치는 입력 영상을 스케일 특화 생성자(G1) 내지 스케일 특화 생성자(G), 영상왜곡 복원 인코더(E1) 내지 영상왜곡 복원 인코더(E)를 통과시켜서 복원 영상을 출력한다.
도 7c에 도시된 바와 같이, 스케일 특화 생성자(G1)는 16×16 이미지를 복원하여 64×64로 4배 업스케일링한 복원 이미지로 출력한다.
영상왜곡 복원 인코더(E2)는 스케일 특화 생성자(G1)로부터 64×64 복원 이미지를 입력받으면, 32×32로 다운스케일링한 왜곡 복원 이미지로 출력한다.
스케일 특화 생성자(G2)는 영상왜곡 복원 인코더(E2)로부터 32×32 복원 이미지를 입력받고, 32×32 원본 이미지를 입력받아서 128×128로 4배 업스케일링한 복원 이미지로 출력한다.
영상왜곡 복원 인코더(E3)는 스케일 특화 생성자(G2)로부터 128×128 복원 이미지를 입력받으면, 64×64로 다운스케일링한 왜곡 복원 이미지로 출력한다.
스케일 특화 생성자(G3)는 영상왜곡 복원 인코더(E3)로부터 64×64 복원 이미지를 입력받고, 64×64 원본 이미지를 입력받아서 256×256로 4배 업스케일링한 복원 이미지로 출력한다.
영상왜곡 복원 인코더(E4)는 스케일 특화 생성자(G3)로부터 256×256 복원 이미지를 입력받으면, 128×128로 다운스케일링한 왜곡 복원 이미지로 출력한다.
스케일 특화 생성자(G4)는 영상왜곡 복원 인코더(E4)로부터 128×128 복원 이미지를 입력받고, 128×128 원본 이미지를 입력받아서 512×512로 4배 업스케일링한 복원 이미지로 출력한다.
도 8a,8b,8c는 본 실시예에 따른 일부 스케일 특화 생성자를 이용하는 경우의 영상 복원을 나타낸 도면이다.
입력 영상의 스케일에 따라서 스케일 특화 생성자(G1~G)에 입력되는 위치가 달라지게 결정된다. 즉, 멀티 스케일 객체 이미지 복원 장치는 입력 영상의 스케일에 따라 스케일 특화 생성자(G1~G)와 영상왜곡 복원 인코더(E1~E)를 모두 이용할 필요없이 특정 구간을 설정하거나 구간을 넓히거나 좁혀서 이미지 복원을 수행할 수 있다.
입력 영상의 열화 정도에 따라 다단의 스케일 특화 생성자(G1~G)와 영상왜곡 복원 인코더(E1~E)를 경유하는 것이 바람직하나, 다단의 영상왜곡 복원 인코더(E1~E)를 이용하는 경우, 왜곡이 개선이 되지만 객체(얼굴) 변형이 있을 수 있다. 즉, 입력 영상 자체에 다양한 왜곡이 존재하면 다단의 영상왜곡 복원 인코더(E1~E)를 이용해야 왜곡을 복원한 결과가 나오기 때문에, 입력 영상 자체가 왜곡이 없다면, 다단의 영상왜곡 복원 인코더(E1~E)를 경유할 필요가 없다.
도 8a에 도시된 바와 같이, 스케일 특화 생성자는 스케일 특화 생성자(G1) 내지 스케일 특화 생성자(G)까지 총 n개의 단계를 포함하나, 입력 영상의 열화 상태에 따라, 멀티 스케일 객체 이미지 복원 장치는 입력 영상을 스케일 특화 생성자(G1~G2), 영상왜곡 복원 인코더(E2)만을 통과시켜서 복원 영상을 출력한다.
스케일 특화 생성자(G1)는 16×16 이미지를 복원하여 64×64로 4배 업스케일링한 복원 이미지로 출력한다. 영상왜곡 복원 인코더(E2)는 스케일 특화 생성자(G1)로부터 64×64 복원 이미지를 입력받으면, 32×32로 다운스케일링한 왜곡 복원 이미지로 출력한다. 스케일 특화 생성자(G2)는 영상왜곡 복원 인코더(E2)로부터 32×32 복원 이미지를 입력받고, 32×32 원본 이미지를 입력받아서 128×128로 4배 업스케일링한 복원 이미지로 출력한다.
멀티 스케일 객체 이미지 복원 장치는 입력 영상을 스케일 특화 생성자(G1~G2), 영상왜곡 복원 인코더(E2)만을 통과시켜서 출력한 복원 이미지는 도 8b 및 도 8c에 도시된 바와 같다.
이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (13)

  1. 특정 스케일(Wℓ-1×Hℓ-1)을 갖는 이미지를 입력받아 특정 스케일(Wℓ-1×Hℓ-1)에 대응하는 복원 모델을 이용하여 기 설정된 배수로 업스케일링(Upscaling)(nWℓ-1×nHℓ-1)한 복원 이미지를 생성하는 스케일 특화 생성자(Gℓ-1, Scale-Specific Generator);
    상기 업스케일링(nWℓ-1×nHℓ-1)한 복원 이미지를 기 설정된 배수로 다운스케일링(Downscaling)한 이미지를 생성하고, 상기 다운스케일링한 이미지 내에서 임의의 왜곡을 클린한 도메인으로 매핑한 왜곡 복원 이미지를 출력하는 영상왜곡 복원 인코더(E); 및
    상기 왜곡 복원 이미지를 입력받은 후 상기 왜곡 복원 이미지가 갖는 스케일(Wℓ×H)에 대응하는 복원 모델을 이용하여 기 설정된 배수로 업스케일링(Upscaling)(nWℓ×nH)한 복원 이미지를 생성하는 스케일 특화 생성자(G, Scale-Specific Generator);
    를 포함하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치.
  2. 제1항에 있어서,
    상기 스케일 특화 생성자(G)는,
    채널 어텐션 블럭(CAB: Channel Attention Block)을 이용하여 상기 왜곡 복원 이미지와 상기 왜곡 복원 이미지와 동일한 스케일(Wℓ×H)을 갖는 원본 이미지로부터 추출한 피쳐를 기반으로 상기 기 설정된 배수로 업스케일링(Upscaling)(nWℓ×nH)한 복원 이미지를 생성하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치.
  3. 제2항에 있어서,
    상기 스케일 특화 생성자(G)는,
    상기 채널 어텐션 블럭(CAB)를 이용하여 상기 왜곡 복원 이미지와 상기 원본 이미지를 병합한 정보로부터 피쳐(Feature)들을 추출하고, 상기 피쳐 중 유효한 피쳐에게 높은 가중치를 부여하여 출력한 새로운 영상을 기반으로 상기 기 설정된 배수로 업스케일링(Upscaling)(nWℓ×nH)한 복원 이미지를 생성하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치.
  4. 제3항에 있어서,
    상기 스케일 특화 생성자(G)는,
    상기 채널 어텐션 블럭(CAB)를 이용하여 상기 왜곡 복원 이미지와 상기 원본 이미지의 RGB 채널을 병합하여 6채널의 영상을 생성하고, 상기 6채널의 영상에 3×3컨볼루션을 이용하여 64채널의 특징을 추출하고, 상기 64채널의 평균값을 취한 후 16노드로 인코딩하여 주요정보를 추출하고, 상기 16노드를 비선형 변환한 후 64노드로 디코딩하여 복원한 후 상기 64노드에 0~1 사이의 값으로 매핑하여 가중치화한 64노드의 값을 채널에 곱한 후 1×1 컨볼루션을 이용하여 3채널의 특징 추출하여 상기 새로운 영상을 생성하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치.
  5. 제4항에 있어서,
    상기 영상왜곡 복원 인코더(E)는,
    손실함수(L1), 손실함수(L2), 손실함수(D)를 이용하여 상기 왜곡 복원 이미지를 출력하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치.
  6. 제5항에 있어서,
    상기 영상왜곡 복원 인코더(E)는,
    상기 다운스케일링한 이미지를 디코더(D)가 복원한 경우 상기 원본 이미지(input)와 유사한지 차이를 계산하여 상기 손실함수(L1)을 결정하며,
    상기 손실함수(L1)을 상기 원본 이미지의 정보를 최대한 보존하면서 다운스케일링 값을 학습하는 데 이용하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치.
  7. 제5항에 있어서,
    상기 영상왜곡 복원 인코더(E)는,
    상기 다운스케일링한 이미지와 바이큐빅 보간에 의해 다운스케일링한 이미지 간의 차이를 계산하여 상기 손실함수(L2)를 결정하며,
    상기 손실함수(L2)를 서로 다른 왜곡을 가진 이미지들을 다운스케일링 할수록 왜곡이 스무딩되고 영상 내의 주요 구조 정보만을 유지하는 형태로 변화하는 특성을 학습하는 데 이용하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치.
  8. 제5항에 있어서,
    상기 영상왜곡 복원 인코더(E)는,
    상기 다운스케일링한 이미지에 왜곡이 없는지(clean) 또는 왜곡이 있는지(degradation)를 판별하여 손실값을 계산하여 상기 손실함수(D)를 결정하며,
    상기 손실함수(D)를 왜곡이 있는 이미지의 스타일을 왜곡이 없는 깨끗한 영상의 스타일로 변환하기 위해 이용하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치.
  9. 제5항에 있어서,
    멀티 스케일(Multi-scale)을 갖는 이미지 각각을 입력받아 상기 멀티 스케일마다 학습을 수행하여 각 스케일별로 독립된 복원 모델을 학습하는 학습부;
    를 추가로 포함하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치.
  10. 제9항에 있어서,
    상기 학습부는,
    입력된 이미지가 갖는 스케일을 기 설정된 해상도만큼 증가시키는 가짜 이미지 Gl(I)를 생성하는 생성부(generator);
    상기 가짜 이미지 G(I)와 원본 이미지 Igt를 입력받고, 상기 가짜 이미지 G(I)가 진짜(real)인지 가짜(fake)인지를 판별한 점수를 산출하며, 산출한 점수를 기반으로 상기 복원 모델을 학습하는 구별부(discriminator);
    를 포함하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치.
  11. 제10항에 있어서,
    상기 구별부(D)는,
    기 설정된 배수로 업스케일링(Upscaling)(nWL×nHL)한 복원 이미지 내에서 인지된 객체 각각에 대한 전체 손실함수(total loss)(L), 화소간 손실함수(per-pixel loss)(Lpixel), 인지적 손실함수(perceptual loss)(Lfeat), 상대적 적대 손실함수(relative adversarial loss)(Lrgan), 멀티 레이블 적대 손실함수(multi-label adversarial loss)(Lmlgan)를 기반으로 상기 가짜 이미지 G(I)가 진짜(real)인지 가짜(fake)인지를 판별하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치.
  12. 제11항에 있어서,
    상기 구별부는,
    상기 생성부(G)가 생성한 상기 가짜 이미지 G(I)와 입력된 상기 원본 이미지 Igt를 각 클래스(c)의 진짜(real) 인지 가짜(fake) 인지의 여부를 판별한 결과를 판별자 신경망 D c으로 전달하여, 각 클래스(c)의 판별값 차이의 가중평균을 계산하여 상기 멀티 레이블 적대 손실함수(Multi-Label Adversarial Loss)(Lmlgan)를 결정하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치.
  13. 스케일 특화 생성자(Gℓ-1, Scale-Specific Generator)에서 특정 스케일(Wℓ-1×Hℓ-1)을 갖는 이미지를 입력받아 특정 스케일(Wℓ-1×Hℓ-1)에 대응하는 복원 모델을 이용하여 기 설정된 배수로 업스케일링(Upscaling)(nWℓ-1×nHℓ-1)한 복원 이미지를 생성하는 과정;
    영상왜곡 복원 인코더(E)에서 상기 업스케일링(nWℓ-1×nHℓ-1)한 복원 이미지를 기 설정된 배수로 다운스케일링(Downscaling)한 이미지를 생성하고, 상기 다운스케일링한 이미지 내에서 임의의 왜곡을 클린한 도메인으로 매핑한 왜곡 복원 이미지를 출력하는 과정; 및
    스케일 특화 생성자(G, Scale-Specific Generator)에서 상기 왜곡 복원 이미지를 입력받은 후 상기 왜곡 복원 이미지가 갖는 스케일(Wℓ×H)에 대응하는 복원 모델을 이용하여 기 설정된 배수로 업스케일링(Upscaling)(nWℓ×nH)한 복원 이미지를 생성하는 과정;
    을 포함하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 방법.
PCT/KR2021/007018 2021-06-04 2021-06-04 멀티 스케일 객체 이미지 복원 방법 및 장치 WO2022255523A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2021/007018 WO2022255523A1 (ko) 2021-06-04 2021-06-04 멀티 스케일 객체 이미지 복원 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2021/007018 WO2022255523A1 (ko) 2021-06-04 2021-06-04 멀티 스케일 객체 이미지 복원 방법 및 장치

Publications (1)

Publication Number Publication Date
WO2022255523A1 true WO2022255523A1 (ko) 2022-12-08

Family

ID=84323697

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/007018 WO2022255523A1 (ko) 2021-06-04 2021-06-04 멀티 스케일 객체 이미지 복원 방법 및 장치

Country Status (1)

Country Link
WO (1) WO2022255523A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116579918A (zh) * 2023-05-19 2023-08-11 哈尔滨工程大学 基于风格无关判别器的注意力机制多尺度图像转换方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200132682A (ko) * 2019-05-16 2020-11-25 삼성전자주식회사 이미지 최적화 방법, 장치, 디바이스 및 저장 매체
KR102289045B1 (ko) * 2020-03-23 2021-08-11 주식회사 픽스트리 멀티 스케일 객체 이미지 복원 방법 및 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200132682A (ko) * 2019-05-16 2020-11-25 삼성전자주식회사 이미지 최적화 방법, 장치, 디바이스 및 저장 매체
KR102289045B1 (ko) * 2020-03-23 2021-08-11 주식회사 픽스트리 멀티 스케일 객체 이미지 복원 방법 및 장치

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CUI ZHEN, CHANG HONG, SHAN SHIGUANG, ZHONG BINENG, CHEN XILIN: "Deep Network Cascade for Image Super-resolution", PATTERN RECOGNITION : 5TH ASIAN CONFERENCE, ACPR 2019, vol. 8693, 1 January 2014 (2014-01-01), Cham, pages 49 - 54, XP093012001, ISSN: 0302-9743, ISBN: 978-3-030-41298-2, DOI: 10.1007/978-3-319-10602-1_4 *
LAI WEI-SHENG; HUANG JIA-BIN; AHUJA NARENDRA; YANG MING-HSUAN: "Fast and Accurate Image Super-Resolution with Deep Laplacian Pyramid Networks", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, vol. 41, no. 11, 1 November 2019 (2019-11-01), USA , pages 2599 - 2613, XP011748099, ISSN: 0162-8828, DOI: 10.1109/TPAMI.2018.2865304 *
PARK DONG-HUN, KAKANI VIJAY, KIM HAK-IL: "Automatic Radial Un-distortion using Conditional Generative Adversarial Network", JOURNAL OF INSTITUTE OF CONTROL, ROBOTICS AND SYSTEMS, vol. 25, no. 11, 30 November 2019 (2019-11-30), pages 1007 - 1013, XP093012008, ISSN: 1976-5622, DOI: 10.5302/J.ICROS.2019.19.0121 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116579918A (zh) * 2023-05-19 2023-08-11 哈尔滨工程大学 基于风格无关判别器的注意力机制多尺度图像转换方法
CN116579918B (zh) * 2023-05-19 2023-12-26 哈尔滨工程大学 基于风格无关判别器的注意力机制多尺度图像转换方法

Similar Documents

Publication Publication Date Title
WO2021080233A1 (ko) 이미지 복원 방법 및 장치
WO2020246861A1 (en) Method and apparatus for training neural network model for enhancing image detail
KR102289045B1 (ko) 멀티 스케일 객체 이미지 복원 방법 및 장치
Su et al. Spatially adaptive block-based super-resolution
CN112115783A (zh) 基于深度知识迁移的人脸特征点检测方法、装置及设备
EP0449516B1 (en) Image processing using neural network
JP4049831B2 (ja) 客体の輪郭映像検知/細線化装置及びその方法
JPH08228282A (ja) 文書画像の処理方法及びバイナリ画像画素処理装置
US20200279166A1 (en) Information processing device
US20020076107A1 (en) Document image segmentation using loose gray scale template matching
WO2022255523A1 (ko) 멀티 스케일 객체 이미지 복원 방법 및 장치
WO2021246821A1 (ko) 얼굴 이미지 개선 방법 및 장치
WO2021246822A1 (ko) 객체 이미지 개선 방법 및 장치
CN111242829A (zh) 一种水印提取方法、装置、设备及存储介质
US20200286254A1 (en) Information processing device
WO2020171304A1 (ko) 영상 복원 장치 및 방법
WO2023080266A1 (ko) 딥러닝 네트워크를 이용한 얼굴 변환 방법 및 장치
CN116797491A (zh) 基于任务解耦的暗光模糊图像增强方法
WO2022080680A1 (ko) 인공지능 기반 이미지 인페인팅 방법 및 디바이스
US7065248B2 (en) Content-based multimedia searching system using color distortion data
CN115376184A (zh) 一种基于生成对抗网络的ir图像活体检测方法
WO2023224179A1 (ko) 에지 선명도의 조정이 가능한 초해상화 이미지 생성 장치 및 방법
WO2022019590A1 (ko) 인공지능을 이용한 편집된 이미지 검출 방법 및 시스템
JP3030126B2 (ja) 画像処理方法
WO2023149649A1 (ko) 전자 장치 및 이미지 화질 개선 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21944278

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21944278

Country of ref document: EP

Kind code of ref document: A1