KR102289045B1 - 멀티 스케일 객체 이미지 복원 방법 및 장치 - Google Patents

멀티 스케일 객체 이미지 복원 방법 및 장치 Download PDF

Info

Publication number
KR102289045B1
KR102289045B1 KR1020200034780A KR20200034780A KR102289045B1 KR 102289045 B1 KR102289045 B1 KR 102289045B1 KR 1020200034780 A KR1020200034780 A KR 1020200034780A KR 20200034780 A KR20200034780 A KR 20200034780A KR 102289045 B1 KR102289045 B1 KR 102289045B1
Authority
KR
South Korea
Prior art keywords
image
scale
restoration
distortion
loss function
Prior art date
Application number
KR1020200034780A
Other languages
English (en)
Inventor
신재섭
류성걸
손세훈
김형덕
김효성
Original Assignee
주식회사 픽스트리
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 픽스트리 filed Critical 주식회사 픽스트리
Priority to KR1020200034780A priority Critical patent/KR102289045B1/ko
Application granted granted Critical
Publication of KR102289045B1 publication Critical patent/KR102289045B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/001
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Image Processing (AREA)

Abstract

멀티 스케일 객체 이미지 복원 방법 및 장치를 개시한다.
본 실시예는 임의의 스케일(Scale)과 왜곡(Degradation)을 갖는 이미지를 입력받아 서로 다른 스케일을 갖는 이미지를 복원하는 동시에 왜곡 있는 영상을 보다 정확하게 개선할 수 있도록 하는 멀티 스케일 객체 이미지 복원 방법 및 장치를 제공한다.

Description

멀티 스케일 객체 이미지 복원 방법 및 장치{Method and Apparatus for Providing Multi-scale Object Image Restoration}
본 실시예는 멀티 스케일 객체 이미지 복원 방법 및 장치에 관한 것이다.
이하에 기술되는 내용은 단순히 본 실시예와 관련되는 배경 정보만을 제공할 뿐 종래기술을 구성하는 것이 아니다.
일반적으로 저해상도 영상을 고해상도 영상으로 복원하는 기술은 복원에 사용되는 입력영상의 수 또는 복원 기술에 따라 구분된다. 입력영상의 수에 따라 단일영상 초해상도 복원 기술과 연속영상 초해상도 복원 기술로 구분된다.
일반적으로 단일영상 초해상도 영상복원 기술은 연속영상 초해상도 영상복원에 비하여 처리 속도는 빠르지만, 복원에 필요한 정보가 부족하므로 영상 복원의 품질이 낮다.
연속영상 초해상도 영상복원 기술은 연속적으로 획득된 다수의 영상들로부터 추출된 다양한 특징을 이용하므로 단일영상 초해상도 영상복원 기술에 비하여 복원된 영상의 품질은 우수하나, 알고리즘이 복잡하고 연산량이 많아 실시간 처리가 어렵다.
복원 기술에 따라서는 보간법을 이용한 기술, 에지 정보를 이용한 기술, 주파수 특성을 이용한 기술, 딥러닝 등과 같은 기계학습을 이용한 기술 등이 있다. 보간법을 이용한 기술은 처리 속도가 빠르지만 가장자리 부분이 흐릿해지는 단점이 있다.
에지 정보를 이용한 기술은 속도도 빠르고 가장자리의 선명도를 유지하면서 영상을 복원할 수 있으나, 에지 방향을 잘못 추정한 경우에는 시각적으로 두드러지는 복원 에러를 포함할 수 있는 단점이 있다.
주파수 특성을 이용한 기술은 고주파성분을 이용하여 에지 정보를 이용한 기술과 같이 가장자리의 선명도를 유지하며 영상을 복원할 수 있으나 경계선 부근의 Ringing Artifact가 발생하는 단점이 있다. 마지막으로 예제 기반 또는 딥러닝과 같은 기계학습을 이용한 기술은 복원된 영상의 품질이 가장 우수하지만 처리속도가 매우 느리다.
상술한 바와 같이 기존의 다양한 고해상도 영상 복원 기술들 중 연속영상 초해상도 영상복원 기술은 기존의 보간법을 이용한 디지털 줌 기능이 필요한 분야에 적용될 수 있으며, 보간법 기반의 영상복원 기술에 비해 우수한 품질의 영상을 제공한다. 그러나, 기존의 초해상도 영상복원 기술은, 제한된 리소스와 실시간 처리가 요구되는 전자광학 장비에는 복잡한 연산량으로 인해 적용할 수 있는 기술이 제한적이다.
실시간 처리가 가능한 기존의 단일영상 기반의 초해상도 영상복원 기술은 2배 이상의 고배율로 영상 확대가 필요한 경우에 연속영상 기반의 복원 기술에 비해 성능 저하가 크다는 문제가 있다.
본 실시예는 임의의 스케일(Scale)과 왜곡(Degradation)을 갖는 이미지를 입력받아 서로 다른 스케일을 갖는 이미지를 복원하는 동시에 왜곡 있는 영상을 보다 정확하게 개선할 수 있도록 하는 멀티 스케일 객체 이미지 복원 방법 및 장치를 제공하는 데 목적이 있다.
본 실시예의 일 측면에 의하면, 특정 스케일(W -1×H - 1)을 갖는 이미지를 입력받아 특정 스케일(W -1×H - 1)에 대응하는 복원 모델을 이용하여 기 설정된 배수로 업스케일링(Upscaling)(nW -1× nH -1)한 복원 이미지를 생성하는 스케일 특화 생성자(G -1, Scale-Specific Generator); 상기 업스케일링(nWℓ-1×nHℓ-1)한 복원 이미지를 기 설정된 배수로 다운스케일링(Downscaling)한 이미지를 생성하고, 상기 다운스케일링한 이미지 내에서 임의의 왜곡을 클린한 도메인으로 매핑한 왜곡 복원 이미지를 출력하는 영상왜곡 복원 인코더(E); 및 상기 왜곡 복원 이미지를 입력받은 후 상기 왜곡 복원 이미지가 갖는 스케일(Wℓ×H)에 대응하는 복원 모델을 이용하여 기 설정된 배수로 업스케일링(Upscaling)(nWℓ×nH)한 복원 이미지를 생성하는 스케일 특화 생성자(G, Scale-Specific Generator);를 포함하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치를 제공한다.
본 실시예의 다른 측면에 의하면, 스케일 특화 생성자(G -1, Scale-Specific Generator)에서 특정 스케일(W -1×H - 1)을 갖는 이미지를 입력받아 특정 스케일(W -1×Hℓ-1)에 대응하는 복원 모델을 이용하여 기 설정된 배수로 업스케일링(Upscaling)(nWℓ-1×nHℓ-1)한 복원 이미지를 생성하는 과정; 영상왜곡 복원 인코더(E)에서 상기 업스케일링(nWℓ-1×nHℓ-1)한 복원 이미지를 기 설정된 배수로 다운스케일링(Downscaling)한 이미지를 생성하고, 상기 다운스케일링한 이미지 내에서 임의의 왜곡을 클린한 도메인으로 매핑한 왜곡 복원 이미지를 출력하는 과정; 및 스케일 특화 생성자(G, Scale-Specific Generator)에서 상기 왜곡 복원 이미지를 입력받은 후 상기 왜곡 복원 이미지가 갖는 스케일(W ×H)에 대응하는 복원 모델을 이용하여 기 설정된 배수로 업스케일링(Upscaling)(nWℓ×nH)한 복원 이미지를 생성하는 과정;을 포함하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 방법을 제공한다.
이상에서 설명한 바와 같이 본 실시예에 의하면, 임의의 스케일(Scale)과 왜곡(Degradation)을 갖는 이미지를 입력받아 서로 다른 스케일을 갖는 이미지를 복원하는 동시에 왜곡 있는 영상을 보다 정확하게 개선할 수 있는 효과가 있다.
본 실시예에 의하면, 임의의 스케일(Scale)과 왜곡(Degradation)을 갖는 이미지를 입력받아 해당 스케일의 복원 모델로 기 설정된 배수로 업스케일한 복원 이미지를 생성하고, 복원 이미지를 기 설정된 배수로 다운스케일한 이미지에서 왜곡을 복원한 왜곡 복원 이미지를 생성하고, 왜곡 복원 이미지를 해당 스케일의 복원 모델로 기 설정된 배수로 업스케일한 복원 이미지를 생성하여 입력 영상의 해상도와 왜곡을 개선할 수 있는 효과가 있다.
본 실시예에 의하면, 서로 다른 독립된 스케일들을 학습하고 영상왜곡 복원 인코더에 의해 케스케이드(Cascade) 구조로 연결하여 독립적으로 해상도를 복원한 이미지마다 독립적으로 왜곡을 복원할 수 있는 효과가 있다.
도 1은 본 실시예에 따른 멀티 스케일 객체 이미지 복원 시스템을 나타낸 도면이다.
도 2는 본 실시예에 따른 스케일에 대한 사전 학습 정보에 기반하여 복원하는 영상의 형태를 나타낸 도면이다.
도 3은 본 실시예에 따른 영상왜곡 복원 인코더를 나타낸 도면이다.
도 4는 본 실시예에 따른 채널 어텐션 블럭을 나타낸 도면이다.
도 5는 본 실시예에 따른 멀티 레이블 GAN을 나타낸 도면이다.
도 6은 본 실시예에 따른 손실함수 차이에 따라 변환된 영상의 퀄리티가 개선되는 결과를 나타낸 도면이다.
도 7a,7b,7c는 본 실시예에 따른 전체 스케일 특화 생성자를 이용하는 경우의 영상 복원을 나타낸 도면이다.
도 8a,8b,8c는 본 실시예에 따른 일부 스케일 특화 생성자를 이용하는 경우의 영상 복원을 나타낸 도면이다.
이하, 본 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 실시예에 따른 멀티 스케일 객체 이미지 복원 시스템을 나타낸 도면이다.
멀티 스케일 객체 이미지 복원 시스템은 멀티스케일로 이미지 내의 객체(Object)를 복원하는 기술이다. 이미지 내의 객체는 사람 얼굴인 것이 바람직하나 반드시 이에 한정되는 것은 아니다.
실제 환경에서 종래의 이미지 복원 기술을 적용하는 경우, 정상적인 결과물이 출력되지 않는다. 실제 환경에서는 영상에 다양한 영상 왜곡이 존재하고, 영상마다 다양한 스케일이 존재한다. 다양한 스케일을 갖는 영상은 저조도, 블러, 노이즈, 반사와 같은 다양한 왜곡이 발생한다.
종래의 이미지 복원 기술은 학습한 환경과 동일한 스케일에서는 복원이 가능하지만, 실제 영상의 스케일이 상이하거나 객체가 정렬되지 않은 경우, 정상적인 이미지 복원이 불가능하다.
본 실시예에 따른 멀티 스케일 객체 이미지 복원 시스템은 다양한 왜곡과 다양한 스케일을 갖는 이미지를 하나의 딥러닝 모델을 이용하여 복원한다.
실제 영상 왜곡이 있는 이미지를 입력 영상으로 이용하여 복원해보면 왜곡이 증폭되지만, 입력 영상의 사이즈를 다운 샘플링하면, 영상의 왜곡이 느껴지지 않을 만큼 영상의 왜곡이 보이지 않게 된다. 영상의 왜곡이 뭉개지면서 원본 영상이 컨텐츠 위주로 남게 된다.
본 실시예에 따른 멀티 스케일 객체 이미지 복원 장치는 딥러닝하기 위한 프로그램 또는 프로토콜을 저장하기 위한 메모리, 해당 프로그램을 실행하여 연산 및 제어하기 위한 마이크로프로세서 등을 구비한다.
멀티 스케일 객체 이미지 복원 장치는 (ⅰ) 각종 기기 또는 유무선 네트워크와 통신을 수행하기 위한 통신 모뎀 등의 통신 장치, (ⅱ) 각종 프로그램과 데이터를 저장하기 위한 메모리, (ⅲ) 프로그램을 실행하여 연산 및 제어하기 위한 마이크로프로세서 등을 구비하는 다양한 장치이다. 적어도 일 실시예에 따르면, 메모리는 램(Random Access Memory: RAM), 롬(Read Only Memory: ROM), 플래시 메모리, 광 디스크, 자기 디스크, 솔리드 스테이트 디스크(Solid State Disk: SSD) 등의 컴퓨터로 판독 가능한 기록/저장매체일 수 있다. 적어도 일 실시예에 따르면, 마이크로프로세서는 명세서상에 기재된 동작과 기능을 하나 이상 선택적으로 수행하도록 프로그램될 수 있다. 적어도 일 실시예에 따르면, 마이크로프로세서는 전체 또는 부분적으로 특정한 구성의 주문형반도체(Application Specific Integrated Circuit: ASIC) 등의 하드웨어로써 구현될 수 있다
본 실시예에 따른 멀티 스케일 객체 이미지 복원 장치는 스케일 특화 생성자(G1), 스케일 특화 생성자(G2) 내지 스케일 특화 생성자(G)를 포함하고, 영상왜곡 복원 인코더(E1), 영상왜곡 복원 인코더(E2) 내지 영상왜곡 복원 인코더(E)를 포함한다. 멀티 스케일 객체 이미지 복원 시스템에 포함된 구성요소는 반드시 이에 한정되는 것은 아니다.
스케일 특화 생성자(G1 ~ G)는 각각은 특정한 스케일의 영상을 복원하도록 학습이 되어 있다. 예컨대, 스케일 특화 생성자(G1)는 16×16 내지 32×32 이미지를 64×64 내지 128×128 4배로 업스케일링한 이미지로 복원하도록 독립된 네트워크가 학습되어 있다. 스케일 특화 생성자(G2)는 스케일 특화 생성자(G1) 입력의 두배인 32×32 내지 64×64 이미지를 128×128 내지 256×256 4배로 업스케일링한 이미지로 복원하도록 독립된 네트워크가 학습되어 있다.
스케일 특화 생성자(G1 ~ G) 사이에는 영상왜곡 복원 인코더(E1 ~ E)를 케스케이드(Cascade) 구조로 연결한다. 스케일 특화 생성자(G1 ~ G)는 W1×H1 내지 W×H(1≤ℓ≤L) 크기의 영상을 입력받아 해상도를 n배 향상시키는 역할을 한다.
영상왜곡 복원 인코더(E1 ~ E)는 영상의 임의의 왜곡을 클린한 도메인으로 매핑하는 인코더이다. 영상왜곡 복원 인코더(E1 ~ E)는 임의의 왜곡을 갖는 이미지가 입력되는 경우, 해당 이미지의 해상도를 절반으로 줄이고, 해상도가 줄어든 영상을 클린한 도메인으로 매핑되도록 구별부(D)에서 클린한지 클린하지 않은지를 구분한다.
32×32의 사이즈를 갖는 영상이 영상왜곡 복원 인코더(E1 ~ E)를 통과하게 되면, 16×16의 사이즈로 줄이고, 16×16의 사이즈를 갖는 영상 내의 왜곡이 있더라도 클린한 도메인이 매핑된 영상을 출력한다.
영상왜곡 복원 인코더(E1 ~ E)는 16×16의 사이즈를 갖는 왜곡을 클린한 도메인이 매핑된 영상을 다시 영상왜곡 복원 인코더(E1 ~ E)로 입력시키면, 64×64의 사이즈를 갖는 복원 이미지로 출력된다. 영상왜곡 복원 인코더(E1 ~ E)는 왜곡이 있는 영상을 깨끗한 영상으로 복원하면서 W1×H1 내지 W×H 크기로 매핑한다.
즉, 스케일 특화 생성자(G1 ~ G)를 통과하여 복원 이미지는 예상치 못한 영상 왜곡이 존재할 수 있는데, 영상왜곡 복원 인코더(E1 ~ E)에서 예상치 못한 영상 왜곡을 복원한다.
스케일 특화 생성자(G1)에서 출력한 복원 이미지를 스케일 특화 생성자(G2)로 입력할 때, 직접 복원 이미지를 보내는 것이 아니라 스케일 특화 생성자(G1)와 스케일 특화 생성자(G2) 사이에 연결된 영상왜곡 복원 인코더(E2)를 경유하여 연결된다. 따라서, 64×64의 사이즈를 갖는 영상이 영상왜곡 복원 인코더(E2)를 통과하게 되면, 32×32의 사이즈를 갖는 왜곡이 있더라도 클린한 도메인이 매핑된 영상이 된다.
스케일 특화 생성자(G2)는 원본 이미지(32×32)와 복원 이미지(32×32)를 모두 입력받는다. 스케일 특화 생성자(G2)는 채널 어텐션 블럭(CAB2)을 이용해서 원본 이미지(32×32)와 복원 이미지(32×32) 중 보다 유용한 피쳐들을 추출한다.
즉, 스케일 특화 생성자(G2)는 채널 어텐션 블럭(CAB2)을 이용하여 원본 이미지(32×32)와 복원 이미지(32×32) 중 보다 유용한 피쳐들에 가중치를 높게 부여하고, 유용하지 않은 피쳐들에는 가중치를 낮게 부여한다.
스케일 특화 생성자(G2) 내부 블럭 중 채널 어텐션 블럭(CAB2) 이후의 블럭에서는 원본 이미지(32×32)와 복원 이미지(32×32) 중 선택된 하나의 이미지로부터 복원하면, 128×128의 사이즈를 갖는 복원 영상으로 출력된다.
채널 어텐션 블록 CAB1 내지 CAB는 현재 영상의 정보와 저해상도로부터 복원된 영상의 정보를 통합하는 역할을 한다.
도 1에 도시된 각 스케일 특화 생성자(G1 ~ G) 구조는 설명을 위한 실시예이며, 본 발명은 특정 생성자 구조로 한정되지 않는다.
스케일 특화 생성자(G1)는 특정 스케일(WH1)을 갖는 이미지를 입력받아 특정 스케일(WH1)에 대응하는 복원 모델을 이용하여 기 설정된 배수로 업스케일링(Upscaling)(nW1×nH1)한 복원 이미지를 생성한다.
영상왜곡 복원 인코더(E2)는 업스케일링(nW1×nH1)한 복원 이미지를 기 설정된 배수로 다운스케일링(Downscaling)한 이미지를 생성하고, 다운스케일링한 이미지 내에서 임의의 왜곡을 클린한 도메인으로 매핑한 왜곡 복원 이미지(WH2)를 출력한다.
스케일 특화 생성자(G2)는 영상왜곡 복원 인코더(E2)로부터 왜곡 복원 이미지(WH2)를 입력받고, 특정 스케일(WH2)을 갖는 원본 이미지를 입력받아 특정 스케일(WH2)에 대응하는 복원 모델을 이용하여 기 설정된 배수로 업스케일링(Upscaling)(nW2×nH2)한 복원 이미지를 생성한다.
영상왜곡 복원 인코더(E)는 업스케일링(nW2×nH2)한 복원 이미지를 기 설정된 배수로 다운스케일링(Downscaling)한 이미지를 생성하고, 다운스케일링한 이미지 내에서 임의의 왜곡을 클린한 도메인으로 매핑한 왜곡 복원 이미지(W ×H)를 출력한다.
스케일 특화 생성자(G)는 영상왜곡 복원 인코더(E)로부터 왜곡 복원 이미지(Wℓ×H)를 입력받고, 특정 스케일(W ×H)을 갖는 원본 이미지를 입력받아 특정 스케일(Wℓ×H)에 대응하는 복원 모델을 이용하여 기 설정된 배수로 업스케일링(Upscaling)(nWℓ×nH)한 복원 이미지를 생성한다.
스케일 특화 생성자(G1~G)는 채널 어텐션 블럭(CAB1~CAB)을 이용하여 왜곡 복원 이미지와 왜곡 복원 이미지와 동일한 스케일(WH1 ~ W ×H)을 갖는 원본 이미지로부터 추출한 피쳐를 기반으로 기 설정된 배수로 업스케일링(Upscaling)(nW1 ×nH1 ~ nWℓ×nH)한 복원 이미지를 생성한다.
스케일 특화 생성자(G1 ~ G)는 채널 어텐션 블럭(CAB1 ~ CAB)을 이용하여 왜곡 복원 이미지와 왜곡 복원 이미지와 동일한 스케일(WH1 ~ W ×H)을 갖는 원본 이미지를 병합한 정보로부터 피쳐(Feature)들을 추출한다. 스케일 특화 생성자(G1 ~ G)는 피쳐 중 유효한 피쳐에게 높은 가중치를 부여하여 출력한 새로운 영상을 기반으로 기 설정된 배수로 업스케일링(Upscaling)(nW1 × nH1 ~ nW × nH)한 복원 이미지를 생성한다.
스케일 특화 생성자(G1 ~ G)는 채널 어텐션 블럭(CAB1 ~ CAB)을 이용하여 왜곡 복원 이미지와 원본 이미지의 RGB 채널을 병합하여 6채널의 영상을 생성하고, 6채널의 영상에 3×3 컨볼루션을 이용하여 64채널의 특징을 추출한다. 스케일 특화 생성자(G1 ~ G)는 채널 어텐션 블럭(CAB1 ~ CAB)을 이용하여 64채널의 평균값을 취한 후 16 노드로 인코딩하여 주요정보를 추출하고, 16 노드를 비선형 변환한 후 64노드로 디코딩하여 복원한 후 64 노드에 0~1 사이의 값으로 매핑하여 가중치화한 64 노드의 값을 채널에 곱한 후 1×1 컨볼루션을 이용하여 3채널의 특징 추출하여 새로운 영상을 생성한다.
영상왜곡 복원 인코더(E1 ~ E)는 손실함수(L1), 손실함수(L2), 손실함수(D)를 이용하여 왜곡 복원 이미지를 출력한다.
영상왜곡 복원 인코더(E1 ~ E)는 다운스케일링한 이미지를 디코더(D1 ~ D)가 복원한 경우 원본 이미지(input)와 유사한지 차이를 계산하여 손실함수(L1)를 결정한다. 영상왜곡 복원 인코더(E1 ~ E)는 손실함수(L1)를 원본 이미지의 정보를 최대한 보존하면서 다운스케일링 값을 학습하는 데 이용한다.
영상왜곡 복원 인코더(E1 ~ E)는 다운스케일링한 이미지와 바이큐빅 보간에 의해 다운스케일링한 이미지 간의 차이를 계산하여 상기 손실함수(L2)를 결정한다. 영상왜곡 복원 인코더(E1 ~ E)는 손실함수(L2)를 서로 다른 왜곡을 가진 이미지들을 다운스케일링 할수록 왜곡이 스무딩되고 영상 내의 주요 구조 정보만을 유지하는 형태로 변화하는 특성을 학습하는 데 이용한다.
영상왜곡 복원 인코더(E1 ~ E)는 다운스케일링한 이미지에 왜곡이 없는지(clean) 또는 왜곡이 있는지(degradation)를 판별하여 손실값을 계산하여 상기 손실함수(D)를 결정한다. 영상왜곡 복원 인코더(E1 ~ E)는 손실함수(D)를 왜곡이 있는 이미지의 스타일을 왜곡이 없는 깨끗한 영상의 스타일로 변환하기 위해 이용한다.
도 2는 본 실시예에 따른 스케일에 대한 사전 학습 정보에 기반하여 복원하는 영상의 형태를 나타낸 도면이다.
스케일 특화 생성자(G1 ~ G)는 스케일에 대한 사전 학습 정보에 기반하여 복원하는 영상의 형태를 결정한다. 예컨대, 도 2에 도시된 바와 같이, 32×32 스케일의 영상데이터에 기반하여 학습된 생성자 G32는 아래 두 패치를 눈으로 복원하려 한다. 96×96 스케일의 영상데이터에 기반하여 학습된 생성자 G96은 아래 두 패치를 코로 복원하려 한다.
도 3은 본 실시예에 따른 영상왜곡 복원 인코더를 나타낸 도면이다.
영상왜곡 복원 인코더(E1 ~ E)는 손실함수(L1), 손실함수(L2), 손실함수(D)를 이용한다. 학습 시에는 인코더(E)과 디코더(D)을 함께 학습하며, 각 스케일ℓ마다 학습이 완료된 인코더(E)을 멀티스케일 영상복원 신경망의 영상왜곡 복원을 위한 모듈로 사용한다.
손실함수(L1)는 인코더 E에 의해 해상도가 줄어든 영상을 디코더 D에 의해 복원했을 때 얼마나 원본 영상(input)과 유사한지 차이를 계산한다. 손실함수(L1)는 원본 영상의 정보를 최대한 보존하면서 해상도를 줄일 수 있는 인코더를 학습하기 위해 필요하다.
손실함수(L2)는 인코더(E)에 의해 해상도가 줄어든 영상과 바이큐빅 보간에 의해 해상도를 줄인 영상 간의 차이를 계산한다. 손실함수(L2)는 서로 다른 왜곡을 가진 영상들의 해상도를 줄일수록 왜곡이 스무딩되면서 왜곡을 구분할 수 없고 영상의 주요 구조적 정보만 유지하는 형태로 변화하는 특성이 있으며, 손실함수(L2)는 인코더에 학습시키기 위해서 필요하다.
손실함수(D)는 인코더 E에 의해 해상도가 줄어든 영상이 왜곡이 없는지 (clean) 또는 있는지(degradation)를 판별하여 손실값을 계산한다. 손실함수(D)는 왜곡이 적을수록 낮은값을 갖는다. 손실함수(D)는 왜곡이 있는 영상의 스타일을 왜곡이 없는 깨끗한 영상의 스타일로 변환하기 위해 필요하다.
도 4는 본 실시예에 따른 채널 어텐션 블럭을 나타낸 도면이다.
채널 어텐션 블록(CAB1 내지 CAB)는 RGB 3채널을 갖는 2개의 영상을 입력받아 Concat 모듈을 경유하여 채널축으로 합쳐서 6채널의 영상을 생성한 후 영상복원에 유용한 특징들을 추출하여 3채널의 새로운 영상으로 변환하여 출력한다.
Concat 모듈은 3채널의 영상 2개를 병합하여 6채널을 생성한다. C64k3s1 모듈은 6채널에 대해 3×3 컨볼루션을 이용하여 64 채널의 특징 추출한다. GAP64 64 모듈은 64채널 각각의 평균값을 취한다. FC16 모듈은 16 노드를 인코딩하여 주요정보 추출한다. Relu 모듈은 16 노드에 대해 비선형 변환한다. FC64 모듈은 64 노드를 디코딩하여 복원한다. Sigmoid 모듈은 64 노드에 대해 0~1 사이의 값으로 매핑하여 가중치화한다. multiply 모듈은 64 채널에 대해 가중치화한 64노드의 값을 채널에 곱한다. C3k1s1 모듈은 3채널에 대해 1×1 컨볼루션을 이용하여 3채널의 특징 추출하여 스케일 특화 생성자(G)의 입력 영상으로 사용한다.
채널 어텐션 블록(CAB1 내지 CAB)으로는 W×H 크기의 영상과 ℓ-1 레벨의 스케일 특화 생성자 G -1이 변환한 nW -1×nH -1 크기의 출력 영상을 인코더 E을 통해 영상 왜곡과 해상도를 줄인 영상이 입력된다.
도 5는 본 실시예에 따른 멀티 레이블 GAN을 나타낸 도면이다.
학습부는 멀티 스케일(Multi-scale)을 갖는 이미지 각각을 입력받아 멀티 스케일마다 학습을 수행하여 각 스케일별로 독립된 복원 모델을 학습한다.
학습부는 생성부(generator)와 구별부(discriminator)를 포함한다. 생성부(G)는 입력된 이미지가 갖는 스케일을 기 설정된 해상도만큼 증가시키는 가짜 이미지 G(I)를 생성한다. 구별부(D)는 가짜 이미지 G(I)와 원본 이미지 Igt를 입력받고, 가짜 이미지 G(I)가 진짜(real)인지 가짜(fake)인지를 판별한 점수를 산출하며, 산출한 점수를 기반으로 복원 모델을 학습한다.
구별부(D)는 기 설정된 배수로 업스케일링(Upscaling)(nWL×nHL)한 복원 이미지 내에서 인지된 객체 각각에 대한 전체 손실함수(total loss)(L), 화소간 손실함수(per-pixel loss)(Lpixel), 인지적 손실함수(perceptual loss)(Lfeat), 상대적 적대 손실함수(relative adversarial loss)(Lrgan), 멀티 레이블 적대 손실함수(multi-label adversarial loss)(Lmlgan)를 기반으로 가짜 이미지 G(I)가 진짜(real)인지 가짜(fake)인지를 판별한다.
전체 손실함수(total loss)(L)는 [수학식 1]과 같다.
Figure 112020030004104-pat00001
수학식1의 전체 손실함수(total loss)(L)는 화소간 손실함수(Lpixel), 인지적 손실함수(Lfeat), 상대적 적대 손실함수(Lrgan), 멀티 레이블 적대 손실함수(Lmlgan)의 가중합으로 구성된다. 수학식1의 λp, λf, λr, λm은 각 손실함수의 가중치를 의미한다.
화소간 손실함수(per-pixel loss)(Lpixel)는 [수학식 2]와 같다.
Figure 112020030004104-pat00002
수학식2의 화소간 손실함수(per-pixel loss)(Lpixel)는 σ보다 작은 범위에서는 L2 loss로 동작하고, σ보다 큰 범위에서는 L1 loss로 동작하는 Huber loss 함수를 사용한다. 수학식2의 화소간 손실함수(per-pixel loss)(Lpixel)는 왜곡에 의해 큰 차이가 생겨도 안정적으로(robust) 학습하기 위한 함수이다.
인지적 손실함수(perceptual loss)(Lfeat)는 [수학식 3]과 같다.
Figure 112020030004104-pat00003
수학식3의 인지적 손실함수(perceptual loss)(Lfeat)는 영상인식을 위해 학습된 vgg19 신경망 Fd의 d번째 중간 레이어에서 추출한 특징 맵 사이의 차이를 최소화한다.
상대적 적대 손실함수(relative adversarial loss)(Lrgan)는 [수학식 4]와 같다.
Figure 112020030004104-pat00004
수학식 4의 상대적 적대 손실함수(relative adversarial loss)(Lrgan)는 생성자(G)가 만든 영상 G(I)과 정답 영상 Igt을 판별자 신경망 D로 전달하여, 두 영상의 판별 값 차이를 손실함수로 사용한다.
멀티 레이블 적대 손실함수(multi-label adversarial loss)(Lmlgan)는 [수학식 5]와 같다.
Figure 112020030004104-pat00005
수학식5의 멀티 레이블 적대 손실함수(multi-label adversarial loss)(Lmlgan)는 생성자(G)가 만든 영상 G(I)과 정답 영상 Igt을 각 클래스 c의 진짜/가짜 여부를 판별하는 판별자 신경망 D c로 전달하여, 각 클래스의 판별 값 차이의 가중평균을 손실함수로 사용한다. 이때, 가중치 (1-pc)γ는 판별자 신경망의 판별 값이 낮을수록 높아져서, 잘 해결하지 못하는 문제에 보다 높은 손실을 부여한다.
얼굴 영상 복원 시 클래스 c는 각 얼굴의 부위로 정의할 수 있다. 추출된 중간 특징맵과 세그맨테이션 맵을 화소 단위로 곱하여 각 얼굴 부위를 추출하고, 클래스 특화 판별자 신경망 D c로 전달한다.
도 6은 본 실시예에 따른 손실함수 차이에 따라 변환된 영상의 퀄리티가 개선되는 결과를 나타낸 도면이다.
멀티 스케일 객체 이미지 복원 장치는 도 6에 도시된 바와 같이 입력 영상을 복원한 복원 영상으로 생성하는 과정에서, 생성부(G)로 입력되는 Input 이미지, 생성부(G)에서 생성한 CNN 이미지, 구별부(D)로 입력되는 Ground-Truth 이미지 등은 도 6과 같다. 멀티 스케일 객체 이미지 복원 장치 내의 구별부(D)가 생성부(G)에서 출력한 업스케일링 이미지가 원본(real)인지 생성된 가짜(fake)인지를 판별한 점수를 산출한다.
멀티 스케일 객체 이미지 복원 장치 내의 구별부(D)는 학습한 정보를 토대로 생성부(G)에서 출력한 업스케일링 이미지가 원본(real)인지 생성된 가짜(fake)인지를 판별한다. 멀티 스케일 객체 이미지 복원 장치는 구별부(D)의 성능을 개선하여 원본(real)인지 생성된 가짜(fake)인지를 판별하는 기준으로 정답 이미지(Ground-Truth)와 생성부(G)에서 생성한 가짜 이미지(Relative-GAN)를 함께 전달한다.
멀티 스케일 객체 이미지 복원 장치 내의 구별부(D)는 생성부(G)에서 생성한 가짜 이미지(Relative-GAN) 내의 구성요소를 인지하고, 각 구성요소(치아, 눈, 코, 입, 액세서리 등)에 어색한 부분이 있는지의 여부를 판별한다.
멀티 스케일 객체 이미지 복원 장치 내의 구별부(D)는 구성요소(치아, 눈, 코, 입, 액세서리 등)에 대해서 독립적인 구별자를 구현하여 각각의 구성요소(치아, 눈, 코, 입, 액세서리 등)가 얼마나 리얼한지 어색한지 여부를 판별하여 영상을 개선하는 Multi-label RGAN을 이용한다.
멀티 스케일 객체 이미지 복원 장치 내의 구별부(D)는 생성된 이미지가 입력되면, 학습 데이터에 대해서 미리 가지고 있는 정답 세그멘테이션 맵을 이용하고, 구성요소(치아, 눈, 코, 입, 액세서리 등)에 가중치 곱하여, 구성요소 이외에 나머지 부분을 모두 제거하고, 구성요소에 해당하는 이미지만을 선별한다. 멀티 스케일 객체 이미지 복원 장치 내의 구별부(D)는 이미지 내의 구성요소(치아, 눈, 코, 입, 액세서리 등) 각각이 원본(real)인지 생성된 가짜(fake)인지를 판별한 점수를 산출한다.
멀티 스케일 객체 이미지 복원 장치 내의 구별부(D)는 영상 전체가 리얼하게 텍스처가 있다 하더라도 구성요소(치아, 눈, 코, 입, 액세서리 등) 중 어느 하나가 어색하게 복원되면, 영상 자체를 가짜로 판별한다. 멀티 스케일 객체 이미지 복원 장치 내의 구별부(D)는 복원 이미지 내의 구성요소 각각에 대해 원본 또는 가짜 여부에 판별한다.
도 7a,7b,7c는 본 실시예에 따른 전체 스케일 특화 생성자를 이용하는 경우의 영상 복원을 나타낸 도면이다.
도 7a에 도시된 바와 같이, 스케일 특화 생성자는 스케일 특화 생성자(G1) 내지 스케일 특화 생성자(G)까치 총 n개의 단계를 포함한다.
도 7b에 도시된 바와 같이, 입력 영상이 많이 열화된 상태인 경우, 멀티 스케일 객체 이미지 복원 장치는 입력 영상을 스케일 특화 생성자(G1) 내지 스케일 특화 생성자(G), 영상왜곡 복원 인코더(E1) 내지 영상왜곡 복원 인코더(E)를 통과시켜서 복원 영상을 출력한다.
도 7c에 도시된 바와 같이, 스케일 특화 생성자(G1)는 16×16 이미지를 복원하여 64×64로 4배 업스케일링한 복원 이미지로 출력한다.
영상왜곡 복원 인코더(E2)는 스케일 특화 생성자(G1)로부터 64×64 복원 이미지를 입력받으면, 32×32로 다운스케일링한 왜곡 복원 이미지로 출력한다.
스케일 특화 생성자(G2)는 영상왜곡 복원 인코더(E2)로부터 32×32 복원 이미지를 입력받고, 32×32 원본 이미지를 입력받아서 128×128로 4배 업스케일링한 복원 이미지로 출력한다.
영상왜곡 복원 인코더(E3)는 스케일 특화 생성자(G2)로부터 128×128 복원 이미지를 입력받으면, 64×64로 다운스케일링한 왜곡 복원 이미지로 출력한다.
스케일 특화 생성자(G3)는 영상왜곡 복원 인코더(E3)로부터 64×64 복원 이미지를 입력받고, 64×64 원본 이미지를 입력받아서 256×256로 4배 업스케일링한 복원 이미지로 출력한다.
영상왜곡 복원 인코더(E4)는 스케일 특화 생성자(G3)로부터 256×256 복원 이미지를 입력받으면, 128×128로 다운스케일링한 왜곡 복원 이미지로 출력한다.
스케일 특화 생성자(G4)는 영상왜곡 복원 인코더(E4)로부터 128×128 복원 이미지를 입력받고, 128×128 원본 이미지를 입력받아서 512×512로 4배 업스케일링한 복원 이미지로 출력한다.
도 8a,8b,8c는 본 실시예에 따른 일부 스케일 특화 생성자를 이용하는 경우의 영상 복원을 나타낸 도면이다.
입력 영상의 스케일에 따라서 스케일 특화 생성자(G1~G)에 입력되는 위치가 달라지게 결정된다. 즉, 멀티 스케일 객체 이미지 복원 장치는 입력 영상의 스케일에 따라 스케일 특화 생성자(G1~G)와 영상왜곡 복원 인코더(E1~E)를 모두 이용할 필요없이 특정 구간을 설정하거나 구간을 넓히거나 좁혀서 이미지 복원을 수행할 수 있다.
입력 영상의 열화 정도에 따라 다단의 스케일 특화 생성자(G1~G)와 영상왜곡 복원 인코더(E1~E)를 경유하는 것이 바람직하나, 다단의 영상왜곡 복원 인코더(E1~E)를 이용하는 경우, 왜곡이 개선이 되지만 객체(얼굴) 변형이 있을 수 있다. 즉, 입력 영상 자체에 다양한 왜곡이 존재하면 다단의 영상왜곡 복원 인코더(E1~E)를 이용해야 왜곡을 복원한 결과가 나오기 때문에, 입력 영상 자체가 왜곡이 없다면, 다단의 영상왜곡 복원 인코더(E1~E)를 경유할 필요가 없다.
도 8a에 도시된 바와 같이, 스케일 특화 생성자는 스케일 특화 생성자(G1) 내지 스케일 특화 생성자(G)까지 총 n개의 단계를 포함하나, 입력 영상의 열화 상태에 따라, 멀티 스케일 객체 이미지 복원 장치는 입력 영상을 스케일 특화 생성자(G1~G2), 영상왜곡 복원 인코더(E2)만을 통과시켜서 복원 영상을 출력한다.
스케일 특화 생성자(G1)는 16×16 이미지를 복원하여 64×64로 4배 업스케일링한 복원 이미지로 출력한다. 영상왜곡 복원 인코더(E2)는 스케일 특화 생성자(G1)로부터 64×64 복원 이미지를 입력받으면, 32×32로 다운스케일링한 왜곡 복원 이미지로 출력한다. 스케일 특화 생성자(G2)는 영상왜곡 복원 인코더(E2)로부터 32×32 복원 이미지를 입력받고, 32×32 원본 이미지를 입력받아서 128×128로 4배 업스케일링한 복원 이미지로 출력한다.
멀티 스케일 객체 이미지 복원 장치는 입력 영상을 스케일 특화 생성자(G1~G2), 영상왜곡 복원 인코더(E2)만을 통과시켜서 출력한 복원 이미지는 도 8b 및 도 8c에 도시된 바와 같다.
이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (13)

  1. 이미지 내의 객체를 멀티 스케일로 복원하는 멀티 스케일 객체 이미지 복원 장치에 있어서,
    특정 스케일(Wℓ-1×Hℓ-1)을 갖는 이미지를 입력받아 특정 스케일(Wℓ-1×Hℓ-1)에 대응하는 복원 모델을 이용하여 기 설정된 배수로 업스케일링(Upscaling)(nWℓ-1×nHℓ-1)한 복원 이미지를 생성하는 스케일 특화 생성자(Gℓ-1, Scale-Specific Generator);
    상기 업스케일링(nWℓ-1×nHℓ-1)한 복원 이미지를 기 설정된 배수로 다운스케일링(Downscaling)한 이미지를 생성하고, 상기 다운스케일링한 이미지 내에서 임의의 왜곡을 클린한 도메인으로 매핑한 왜곡 복원 이미지를 출력하는 영상왜곡 복원 인코더(E); 및
    상기 왜곡 복원 이미지를 입력받은 후 상기 왜곡 복원 이미지가 갖는 스케일(Wℓ×H)에 대응하는 복원 모델을 이용하여 기 설정된 배수로 업스케일링(Upscaling)(nWℓ×nH)한 복원 이미지를 생성하는 스케일 특화 생성자(G, Scale-Specific Generator)를 포함하고,
    스케일 특화 생성자(G1 ~ G)는 W1×H1 내지 W×H(ℓ≤L) 크기의 멀티 스케일 객체를 입력받아 상기 멀티 스케일 객체의 해상도를 향상시켜 업스케일한 복원 이미지를 생성하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치.
  2. 제1항에 있어서,
    상기 스케일 특화 생성자(G)는,
    상기 왜곡 복원 이미지와 상기 왜곡 복원 이미지와 동일한 스케일(Wℓ×H)을 갖는 원본 이미지를 모두 입력받고, 채널 어텐션 블럭(CAB: Channel Attention Block)을 이용하여 상기 왜곡 복원 이미지와 상기 원본 이미지를 병합한 정보로부터 추출한 피쳐를 기반으로 상기 기 설정된 배수로 업스케일링(Upscaling)(nWℓ×nH)한 복원 이미지를 생성하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치.
  3. 제2항에 있어서,
    상기 스케일 특화 생성자(G)는,
    상기 채널 어텐션 블럭(CAB)를 이용하여 상기 왜곡 복원 이미지와 상기 원본 이미지를 병합한 정보로부터 생성된 영상으로부터 복수의 채널의 피쳐(Feature)들을 추출하고,
    상기 복수의 채널의 피쳐들에 기반하여 상기 영상을 인코딩하여 주요정보를 추출하고, 복수의 노드로 디코딩하여 복원한 후 상기 복수의 노드에 서로 다른 값으로 가중치를 부여하여 출력한 새로운 영상을 기반으로 상기 기 설정된 배수로 업스케일링(Upscaling)(nWℓ×nH)한 복원 이미지를 생성하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치.
  4. 제3항에 있어서,
    상기 스케일 특화 생성자(G)는,
    상기 채널 어텐션 블럭(CAB)를 이용하여 상기 왜곡 복원 이미지와 상기 원본 이미지의 RGB 채널을 병합하여 6채널의 영상을 생성하고, 상기 6채널의 영상에 3×3컨볼루션을 이용하여 64채널의 특징을 추출하고, 상기 64채널의 평균값을 취한 후 16노드로 인코딩하여 주요정보를 추출하고, 상기 16노드를 비선형 변환한 후 64노드로 디코딩하여 복원한 후 상기 64노드에 0~1 사이의 값으로 매핑하여 가중치화한 64노드의 값을 채널에 곱한 후 1×1 컨볼루션을 이용하여 3채널의 특징 추출하여 상기 새로운 영상을 생성하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치.
  5. 제4항에 있어서,
    상기 영상왜곡 복원 인코더(E)는,
    손실함수(L1), 손실함수(L2), 손실함수(D)를 이용하여 상기 왜곡 복원 이미지를 출력하고,
    상기 손실함수(L1)는 인코더 E에 의해 해상도가 줄어든 영상을 디코더 D에 의해 복원했을 때 얼마나 원본 영상(input)과 유사한지 차이를 계산하고, 상기 손실함수(L2)는 인코더(E)에 의해 해상도가 줄어든 영상과 바이큐빅 보간에 의해 해상도를 줄인 영상 간의 차이를 계산하고, 상기 손실함수(D)는 인코더 E에 의해 해상도가 줄어든 영상이 왜곡이 없는지 (clean) 또는 있는지(degradation)를 판별하여 손실값을 계산하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치.
  6. 제5항에 있어서,
    상기 영상왜곡 복원 인코더(E)는,
    상기 다운스케일링한 이미지를 디코더(D)가 복원한 경우 상기 원본 이미지(input)와 유사한지 차이를 계산하여 상기 손실함수(L1)을 결정하며,
    상기 손실함수(L1)을 상기 원본 이미지의 정보를 최대한 보존하면서 다운스케일링 값을 학습하는 데 이용하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치.
  7. 제5항에 있어서,
    상기 영상왜곡 복원 인코더(E)는,
    상기 다운스케일링한 이미지와 바이큐빅 보간에 의해 다운스케일링한 이미지 간의 차이를 계산하여 상기 손실함수(L2)를 결정하며,
    상기 손실함수(L2)를 서로 다른 왜곡을 가진 이미지들을 다운스케일링 할수록 왜곡이 스무딩되고 영상 내의 주요 구조 정보만을 유지하는 형태로 변화하는 특성을 학습하는 데 이용하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치.
  8. 제5항에 있어서,
    상기 영상왜곡 복원 인코더(E)는,
    상기 다운스케일링한 이미지에 왜곡이 없는지(clean) 또는 왜곡이 있는지(degradation)를 판별하여 손실값을 계산하여 상기 손실함수(D)를 결정하며,
    상기 손실함수(D)를 왜곡이 있는 이미지의 스타일을 왜곡이 없는 깨끗한 영상의 스타일로 변환하기 위해 이용하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치.
  9. 제5항에 있어서,
    멀티 스케일(Multi-scale)을 갖는 이미지 각각을 입력받아 상기 멀티 스케일마다 학습을 수행하여 각 스케일별로 독립된 복원 모델을 학습하는 학습부;
    를 추가로 포함하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치.
  10. 제9항에 있어서,
    상기 학습부는,
    입력된 이미지가 갖는 스케일을 기 설정된 해상도만큼 증가시키는 가짜 이미지 Gl(I)를 생성하는 생성부(generator);
    상기 가짜 이미지 G(I)와 원본 이미지 Igt를 입력받고, 상기 가짜 이미지 G(I)가 진짜(real)인지 가짜(fake)인지를 판별한 점수를 산출하며, 산출한 점수를 기반으로 상기 복원 모델을 학습하는 구별부(discriminator);
    를 포함하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치.
  11. 제10항에 있어서,
    상기 구별부(D)는,
    기 설정된 배수로 업스케일링(Upscaling)(nWL×nHL)한 복원 이미지 내에서 인지된 객체 각각에 대한 전체 손실함수(total loss)(L), 화소간 손실함수(per-pixel loss)(Lpixel), 인지적 손실함수(perceptual loss)(Lfeat), 상대적 적대 손실함수(relative adversarial loss)(Lrgan), 멀티 레이블 적대 손실함수(multi-label adversarial loss)(Lmlgan)를 기반으로 상기 가짜 이미지 G(I)가 진짜(real)인지 가짜(fake)인지를 판별하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치.
  12. 제11항에 있어서,
    상기 구별부는,
    상기 생성부(G)가 생성한 상기 가짜 이미지 G(I)와 입력된 상기 원본 이미지 Igt를 각 클래스(c)의 진짜(real) 인지 가짜(fake) 인지의 여부를 판별한 결과를 판별자 신경망 D c으로 전달하여, 각 클래스(c)의 판별값 차이의 가중평균을 계산하여 상기 멀티 레이블 적대 손실함수(Multi-Label Adversarial Loss)(Lmlgan)를 결정하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치.
  13. 이미지 내의 객체를 멀티 스케일로 복원하는 멀티 스케일 객체 이미지 복원 방법에 있어서,
    스케일 특화 생성자(Gℓ-1, Scale-Specific Generator)에서 특정 스케일(Wℓ-1×Hℓ-1)을 갖는 이미지를 입력받아 특정 스케일(Wℓ-1×Hℓ-1)에 대응하는 복원 모델을 이용하여 기 설정된 배수로 업스케일링(Upscaling)(nWℓ-1×nHℓ-1)한 복원 이미지를 생성하는 과정;
    영상왜곡 복원 인코더(E)에서 상기 업스케일링(nWℓ-1×nHℓ-1)한 복원 이미지를 기 설정된 배수로 다운스케일링(Downscaling)한 이미지를 생성하고, 상기 다운스케일링한 이미지 내에서 임의의 왜곡을 클린한 도메인으로 매핑한 왜곡 복원 이미지를 출력하는 과정; 및
    스케일 특화 생성자(G, Scale-Specific Generator)에서 상기 왜곡 복원 이미지를 입력받은 후 상기 왜곡 복원 이미지가 갖는 스케일(Wℓ×H)에 대응하는 복원 모델을 이용하여 기 설정된 배수로 업스케일링(Upscaling)(nWℓ×nH)한 복원 이미지를 생성하는 과정을 포함하고,
    상기 복원 이미지를 생성하는 과정에서, 스케일 특화 생성자(G1 ~ G)는 W1×H1 내지 W×H(ℓ≤L) 크기의 멀티 스케일 객체를 입력받아 상기 멀티 스케일 객체의 해상도를 향상시켜 업스케일한 이미지를 생성하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 방법.
KR1020200034780A 2020-03-23 2020-03-23 멀티 스케일 객체 이미지 복원 방법 및 장치 KR102289045B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200034780A KR102289045B1 (ko) 2020-03-23 2020-03-23 멀티 스케일 객체 이미지 복원 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200034780A KR102289045B1 (ko) 2020-03-23 2020-03-23 멀티 스케일 객체 이미지 복원 방법 및 장치

Publications (1)

Publication Number Publication Date
KR102289045B1 true KR102289045B1 (ko) 2021-08-11

Family

ID=77313935

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200034780A KR102289045B1 (ko) 2020-03-23 2020-03-23 멀티 스케일 객체 이미지 복원 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102289045B1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113850813A (zh) * 2021-09-16 2021-12-28 太原理工大学 基于空间分辨率域自适应的无监督遥感图像语义分割方法
WO2022255523A1 (ko) * 2021-06-04 2022-12-08 주식회사 픽스트리 멀티 스케일 객체 이미지 복원 방법 및 장치
KR102479841B1 (ko) * 2022-02-18 2022-12-28 인하대학교 산학협력단 해석 가능한 얼굴 이미지 품질 평가 기법
KR20230047687A (ko) * 2021-10-01 2023-04-10 주식회사 픽스트리 영상 복원 장치
KR20230047686A (ko) * 2021-10-01 2023-04-10 주식회사 픽스트리 영상 복원을 위한 네트워크 학습 방법
CN116579918A (zh) * 2023-05-19 2023-08-11 哈尔滨工程大学 基于风格无关判别器的注意力机制多尺度图像转换方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012059118A (ja) * 2010-09-10 2012-03-22 Saga Univ ノイズ除去装置、その方法、及びプログラム
KR20140004382A (ko) * 2012-07-02 2014-01-13 충북대학교 산학협력단 일반 카메라를 이용한 3차원 집적 영상 디스플레이 방법 및 장치
KR20190058285A (ko) * 2017-11-20 2019-05-29 주식회사 클라리파이 딥러닝 기반 ct 이미지 잡음 저감 장치 및 방법
KR20190086964A (ko) * 2018-01-15 2019-07-24 주식회사 스트리스 어안 렌즈 및 전방위 영상의 왜곡 제거를 위한 장치 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012059118A (ja) * 2010-09-10 2012-03-22 Saga Univ ノイズ除去装置、その方法、及びプログラム
KR20140004382A (ko) * 2012-07-02 2014-01-13 충북대학교 산학협력단 일반 카메라를 이용한 3차원 집적 영상 디스플레이 방법 및 장치
KR20190058285A (ko) * 2017-11-20 2019-05-29 주식회사 클라리파이 딥러닝 기반 ct 이미지 잡음 저감 장치 및 방법
KR20190086964A (ko) * 2018-01-15 2019-07-24 주식회사 스트리스 어안 렌즈 및 전방위 영상의 왜곡 제거를 위한 장치 및 방법

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022255523A1 (ko) * 2021-06-04 2022-12-08 주식회사 픽스트리 멀티 스케일 객체 이미지 복원 방법 및 장치
CN113850813A (zh) * 2021-09-16 2021-12-28 太原理工大学 基于空间分辨率域自适应的无监督遥感图像语义分割方法
CN113850813B (zh) * 2021-09-16 2024-05-28 太原理工大学 基于空间分辨率域自适应的无监督遥感图像语义分割方法
KR20230047687A (ko) * 2021-10-01 2023-04-10 주식회사 픽스트리 영상 복원 장치
KR20230047686A (ko) * 2021-10-01 2023-04-10 주식회사 픽스트리 영상 복원을 위한 네트워크 학습 방법
KR102644141B1 (ko) * 2021-10-01 2024-03-06 주식회사 픽스트리 영상 복원을 위한 네트워크 학습 방법
KR102644142B1 (ko) * 2021-10-01 2024-03-06 주식회사 픽스트리 영상 복원 장치
KR102479841B1 (ko) * 2022-02-18 2022-12-28 인하대학교 산학협력단 해석 가능한 얼굴 이미지 품질 평가 기법
CN116579918A (zh) * 2023-05-19 2023-08-11 哈尔滨工程大学 基于风格无关判别器的注意力机制多尺度图像转换方法
CN116579918B (zh) * 2023-05-19 2023-12-26 哈尔滨工程大学 基于风格无关判别器的注意力机制多尺度图像转换方法

Similar Documents

Publication Publication Date Title
KR102289045B1 (ko) 멀티 스케일 객체 이미지 복원 방법 및 장치
Liu et al. Robust single image super-resolution via deep networks with sparse prior
CN110136062B (zh) 一种联合语义分割的超分辨率重建方法
CN112801895B (zh) 一种基于二阶段注意力机制gan网络图像修复算法
CN111292265A (zh) 一种基于生成式对抗神经网络的图像修复方法
KR102236788B1 (ko) 이미지 복원 방법 및 장치
Liu et al. Effective image super resolution via hierarchical convolutional neural network
KR20200084434A (ko) 초해상도 영상 복원을 위한 기계 학습 방법
CN112541864A (zh) 一种基于多尺度生成式对抗网络模型的图像修复方法
CN112288632B (zh) 基于精简esrgan的单图像超分辨率方法及系统
CN112184585B (zh) 一种基于语义边缘融合的图像补全方法及系统
CN111899169B (zh) 一种基于语义分割的人脸图像的分割网络的方法
CN112581370A (zh) 人脸图像的超分辨率重建模型的训练及重建方法
CN111784624B (zh) 目标检测方法、装置、设备及计算机可读存储介质
Liang et al. Improved non-local iterative back-projection method for image super-resolution
CN112884758B (zh) 一种基于风格迁移方法的缺陷绝缘子样本生成方法及系统
Yu et al. E-DBPN: Enhanced deep back-projection networks for remote sensing scene image superresolution
CN113554058A (zh) 视觉目标图像分辨率增强的方法、系统、装置及存储介质
Pasha et al. An research to enhance the old manuscript resolution using deep learning mechanism
CN116645592A (zh) 一种基于图像处理的裂缝检测方法和存储介质
Liu et al. Single image super-resolution using a deep encoder–decoder symmetrical network with iterative back projection
CN116486074A (zh) 一种基于局部和全局上下文信息编码的医学图像分割方法
CN117151990B (zh) 一种基于自注意力编码解码的图像去雾方法
US20240054605A1 (en) Methods and systems for wavelet domain-based normalizing flow super-resolution image reconstruction
CN113591528A (zh) 文档矫正方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
GRNT Written decision to grant