WO2022255523A1

WO2022255523A1 - 멀티 스케일 객체 이미지 복원 방법 및 장치

Info

Publication number: WO2022255523A1
Application number: PCT/KR2021/007018
Authority: WO
Inventors: 신재섭; 류성걸; 손세훈; 김형덕; 김효성
Original assignee: 주식회사 픽스트리
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2022-12-08

Abstract

멀티 스케일 객체 이미지 복원 방법 및 장치를 개시한다. 본 실시예는 임의의 스케일(Scale)과 왜곡(Degradation)을 갖는 이미지를 입력받아 서로 다른 스케일을 갖는 이미지를 복원하는 동시에 왜곡 있는 영상을 보다 정확하게 개선할 수 있도록 하는 멀티 스케일 객체 이미지 복원 방법 및 장치를 제공한다.

Description

멀티 스케일 객체 이미지 복원 방법 및 장치

본 실시예는 멀티 스케일 객체 이미지 복원 방법 및 장치에 관한 것이다.

이하에 기술되는 내용은 단순히 본 실시예와 관련되는 배경 정보만을 제공할 뿐 종래기술을 구성하는 것이 아니다.

일반적으로 저해상도 영상을 고해상도 영상으로 복원하는 기술은 복원에 사용되는 입력영상의 수 또는 복원 기술에 따라 구분된다. 입력영상의 수에 따라 단일영상 초해상도 복원 기술과 연속영상 초해상도 복원 기술로 구분된다.

일반적으로 단일영상 초해상도 영상복원 기술은 연속영상 초해상도 영상복원에 비하여 처리 속도는 빠르지만, 복원에 필요한 정보가 부족하므로 영상 복원의 품질이 낮다.

연속영상 초해상도 영상복원 기술은 연속적으로 획득된 다수의 영상들로부터 추출된 다양한 특징을 이용하므로 단일영상 초해상도 영상복원 기술에 비하여 복원된 영상의 품질은 우수하나, 알고리즘이 복잡하고 연산량이 많아 실시간 처리가 어렵다.

복원 기술에 따라서는 보간법을 이용한 기술, 에지 정보를 이용한 기술, 주파수 특성을 이용한 기술, 딥러닝 등과 같은 기계학습을 이용한 기술 등이 있다. 보간법을 이용한 기술은 처리 속도가 빠르지만 가장자리 부분이 흐릿해지는 단점이 있다.

에지 정보를 이용한 기술은 속도도 빠르고 가장자리의 선명도를 유지하면서 영상을 복원할 수 있으나, 에지 방향을 잘못 추정한 경우에는 시각적으로 두드러지는 복원 에러를 포함할 수 있는 단점이 있다.

주파수 특성을 이용한 기술은 고주파성분을 이용하여 에지 정보를 이용한 기술과 같이 가장자리의 선명도를 유지하며 영상을 복원할 수 있으나 경계선 부근의 Ringing Artifact가 발생하는 단점이 있다. 마지막으로 예제 기반 또는 딥러닝과 같은 기계학습을 이용한 기술은 복원된 영상의 품질이 가장 우수하지만 처리속도가 매우 느리다.

상술한 바와 같이 기존의 다양한 고해상도 영상 복원 기술들 중 연속영상 초해상도 영상복원 기술은 기존의 보간법을 이용한 디지털 줌 기능이 필요한 분야에 적용될 수 있으며, 보간법 기반의 영상복원 기술에 비해 우수한 품질의 영상을 제공한다. 그러나, 기존의 초해상도 영상복원 기술은, 제한된 리소스와 실시간 처리가 요구되는 전자광학 장비에는 복잡한 연산량으로 인해 적용할 수 있는 기술이 제한적이다.

실시간 처리가 가능한 기존의 단일영상 기반의 초해상도 영상복원 기술은 2배 이상의 고배율로 영상 확대가 필요한 경우에 연속영상 기반의 복원 기술에 비해 성능 저하가 크다는 문제가 있다.

본 실시예는 임의의 스케일(Scale)과 왜곡(Degradation)을 갖는 이미지를 입력받아 서로 다른 스케일을 갖는 이미지를 복원하는 동시에 왜곡 있는 영상을 보다 정확하게 개선할 수 있도록 하는 멀티 스케일 객체 이미지 복원 방법 및 장치를 제공하는 데 목적이 있다.

본 실시예의 일 측면에 의하면, 특정 스케일(W_ℓ-1×H_ℓ-1)을 갖는 이미지를 입력받아 특정 스케일(W_ℓ-1×H_ℓ-1)에 대응하는 복원 모델을 이용하여 기 설정된 배수로 업스케일링(Upscaling)(nW_ℓ-1×nH_ℓ-1)한 복원 이미지를 생성하는 스케일 특화 생성자(G_ℓ-1, Scale-Specific Generator); 상기 업스케일링(nW_ℓ-1×nH_ℓ-1)한 복원 이미지를 기 설정된 배수로 다운스케일링(Downscaling)한 이미지를 생성하고, 상기 다운스케일링한 이미지 내에서 임의의 왜곡을 클린한 도메인으로 매핑한 왜곡 복원 이미지를 출력하는 영상왜곡 복원 인코더(E_ℓ); 및 상기 왜곡 복원 이미지를 입력받은 후 상기 왜곡 복원 이미지가 갖는 스케일(W_ℓ×H_ℓ)에 대응하는 복원 모델을 이용하여 기 설정된 배수로 업스케일링(Upscaling)(nW_ℓ×nH_ℓ)한 복원 이미지를 생성하는 스케일 특화 생성자(G_ℓ, Scale-Specific Generator);를 포함하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치를 제공한다.

본 실시예의 다른 측면에 의하면, 스케일 특화 생성자(G_ℓ-1, Scale-Specific Generator)에서 특정 스케일(W_ℓ-1×H_ℓ-1)을 갖는 이미지를 입력받아 특정 스케일(W_ℓ-1×H_ℓ-1)에 대응하는 복원 모델을 이용하여 기 설정된 배수로 업스케일링(Upscaling)(nW_ℓ-1×nH_ℓ-1)한 복원 이미지를 생성하는 과정; 영상왜곡 복원 인코더(E_ℓ)에서 상기 업스케일링(nW_ℓ-1×nH_ℓ-1)한 복원 이미지를 기 설정된 배수로 다운스케일링(Downscaling)한 이미지를 생성하고, 상기 다운스케일링한 이미지 내에서 임의의 왜곡을 클린한 도메인으로 매핑한 왜곡 복원 이미지를 출력하는 과정; 및 스케일 특화 생성자(G_ℓ, Scale-Specific Generator)에서 상기 왜곡 복원 이미지를 입력받은 후 상기 왜곡 복원 이미지가 갖는 스케일(W_ℓ×H_ℓ)에 대응하는 복원 모델을 이용하여 기 설정된 배수로 업스케일링(Upscaling)(nW_ℓ×nH_ℓ)한 복원 이미지를 생성하는 과정;을 포함하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 방법을 제공한다.

이상에서 설명한 바와 같이 본 실시예에 의하면, 임의의 스케일(Scale)과 왜곡(Degradation)을 갖는 이미지를 입력받아 서로 다른 스케일을 갖는 이미지를 복원하는 동시에 왜곡 있는 영상을 보다 정확하게 개선할 수 있는 효과가 있다.

본 실시예에 의하면, 임의의 스케일(Scale)과 왜곡(Degradation)을 갖는 이미지를 입력받아 해당 스케일의 복원 모델로 기 설정된 배수로 업스케일한 복원 이미지를 생성하고, 복원 이미지를 기 설정된 배수로 다운스케일한 이미지에서 왜곡을 복원한 왜곡 복원 이미지를 생성하고, 왜곡 복원 이미지를 해당 스케일의 복원 모델로 기 설정된 배수로 업스케일한 복원 이미지를 생성하여 입력 영상의 해상도와 왜곡을 개선할 수 있는 효과가 있다.

본 실시예에 의하면, 서로 다른 독립된 스케일들을 학습하고 영상왜곡 복원 인코더에 의해 케스케이드(Cascade) 구조로 연결하여 독립적으로 해상도를 복원한 이미지마다 독립적으로 왜곡을 복원할 수 있는 효과가 있다.

도 1은 본 실시예에 따른 멀티 스케일 객체 이미지 복원 시스템을 나타낸 도면이다.

도 2는 본 실시예에 따른 스케일에 대한 사전 학습 정보에 기반하여 복원하는 영상의 형태를 나타낸 도면이다.

도 3은 본 실시예에 따른 영상왜곡 복원 인코더를 나타낸 도면이다.

도 4는 본 실시예에 따른 채널 어텐션 블럭을 나타낸 도면이다.

도 5는 본 실시예에 따른 멀티 레이블 GAN을 나타낸 도면이다.

도 6은 본 실시예에 따른 손실함수 차이에 따라 변환된 영상의 퀄리티가 개선되는 결과를 나타낸 도면이다.

도 7a,7b,7c는 본 실시예에 따른 전체 스케일 특화 생성자를 이용하는 경우의 영상 복원을 나타낸 도면이다.

도 8a,8b,8c는 본 실시예에 따른 일부 스케일 특화 생성자를 이용하는 경우의 영상 복원을 나타낸 도면이다.

이하, 본 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

멀티 스케일 객체 이미지 복원 시스템은 멀티스케일로 이미지 내의 객체(Object)를 복원하는 기술이다. 이미지 내의 객체는 사람 얼굴인 것이 바람직하나 반드시 이에 한정되는 것은 아니다.

실제 환경에서 종래의 이미지 복원 기술을 적용하는 경우, 정상적인 결과물이 출력되지 않는다. 실제 환경에서는 영상에 다양한 영상 왜곡이 존재하고, 영상마다 다양한 스케일이 존재한다. 다양한 스케일을 갖는 영상은 저조도, 블러, 노이즈, 반사와 같은 다양한 왜곡이 발생한다.

종래의 이미지 복원 기술은 학습한 환경과 동일한 스케일에서는 복원이 가능하지만, 실제 영상의 스케일이 상이하거나 객체가 정렬되지 않은 경우, 정상적인 이미지 복원이 불가능하다.

본 실시예에 따른 멀티 스케일 객체 이미지 복원 시스템은 다양한 왜곡과 다양한 스케일을 갖는 이미지를 하나의 딥러닝 모델을 이용하여 복원한다.

실제 영상 왜곡이 있는 이미지를 입력 영상으로 이용하여 복원해보면 왜곡이 증폭되지만, 입력 영상의 사이즈를 다운 샘플링하면, 영상의 왜곡이 느껴지지 않을 만큼 영상의 왜곡이 보이지 않게 된다. 영상의 왜곡이 뭉개지면서 원본 영상이 컨텐츠 위주로 남게 된다.

본 실시예에 따른 멀티 스케일 객체 이미지 복원 장치는 딥러닝하기 위한 프로그램 또는 프로토콜을 저장하기 위한 메모리, 해당 프로그램을 실행하여 연산 및 제어하기 위한 마이크로프로세서 등을 구비한다.

멀티 스케일 객체 이미지 복원 장치는 (i) 각종 기기 또는 유무선 네트워크와 통신을 수행하기 위한 통신 모뎀 등의 통신 장치, (ii) 각종 프로그램과 데이터를 저장하기 위한 메모리, (iii) 프로그램을 실행하여 연산 및 제어하기 위한 마이크로프로세서 등을 구비하는 다양한 장치이다. 적어도 일 실시예에 따르면, 메모리는 램(Random Access Memory: RAM), 롬(Read Only Memory: ROM), 플래시 메모리, 광 디스크, 자기 디스크, 솔리드 스테이트 디스크(Solid State Disk: SSD) 등의 컴퓨터로 판독 가능한 기록/저장매체일 수 있다. 적어도 일 실시예에 따르면, 마이크로프로세서는 명세서상에 기재된 동작과 기능을 하나 이상 선택적으로 수행하도록 프로그램될 수 있다. 적어도 일 실시예에 따르면, 마이크로프로세서는 전체 또는 부분적으로 특정한 구성의 주문형반도체(Application Specific Integrated Circuit: ASIC) 등의 하드웨어로써 구현될 수 있다

본 실시예에 따른 멀티 스케일 객체 이미지 복원 장치는 스케일 특화 생성자(G₁), 스케일 특화 생성자(G₂) 내지 스케일 특화 생성자(G_ℓ)를 포함하고, 영상왜곡 복원 인코더(E₁), 영상왜곡 복원 인코더(E₂) 내지 영상왜곡 복원 인코더(E_ℓ)를 포함한다. 멀티 스케일 객체 이미지 복원 시스템에 포함된 구성요소는 반드시 이에 한정되는 것은 아니다.

스케일 특화 생성자(G₁ ~ G_ℓ)는 각각은 특정한 스케일의 영상을 복원하도록 학습이 되어 있다. 예컨대, 스케일 특화 생성자(G₁)는 16×16 내지 32×32 이미지를 64×64 내지 128×128 4배로 업스케일링한 이미지로 복원하도록 독립된 네트워크가 학습되어 있다. 스케일 특화 생성자(G₂)는 스케일 특화 생성자(G₁) 입력의 두배인 32×32 내지 64×64 이미지를 128×128 내지 256×256 4배로 업스케일링한 이미지로 복원하도록 독립된 네트워크가 학습되어 있다.

스케일 특화 생성자(G₁ ~ G_ℓ) 사이에는 영상왜곡 복원 인코더(E₁~ E_ℓ)를 케스케이드(Cascade) 구조로 연결한다. 스케일 특화 생성자(G₁ ~ G_ℓ)는 W₁×H₁내지 W_ℓ×H_ℓ(1≤ℓ≤L) 크기의 영상을 입력받아 해상도를 n배 향상시키는 역할을 한다.

영상왜곡 복원 인코더(E₁~ E_ℓ)는 영상의 임의의 왜곡을 클린한 도메인으로 매핑하는 인코더이다. 영상왜곡 복원 인코더(E₁~ E_ℓ)는 임의의 왜곡을 갖는 이미지가 입력되는 경우, 해당 이미지의 해상도를 절반으로 줄이고, 해상도가 줄어든 영상을 클린한 도메인으로 매핑되도록 구별부(D)에서 클린한지 클린하지 않은지를 구분한다.

32×32의 사이즈를 갖는 영상이 영상왜곡 복원 인코더(E₁~ E_ℓ)를 통과하게 되면, 16×16의 사이즈로 줄이고, 16×16의 사이즈를 갖는 영상 내의 왜곡이 있더라도 클린한 도메인이 매핑된 영상을 출력한다.

영상왜곡 복원 인코더(E₁~ E_ℓ)는 16×16의 사이즈를 갖는 왜곡을 클린한 도메인이 매핑된 영상을 다시 영상왜곡 복원 인코더(E₁~ E_ℓ)로 입력시키면, 64×64의 사이즈를 갖는 복원 이미지로 출력된다. 영상왜곡 복원 인코더(E₁~ E_ℓ)는 왜곡이 있는 영상을 깨끗한 영상으로 복원하면서 W₁×H₁ 내지 W_ℓ×H_ℓ 크기로 매핑한다.

즉, 스케일 특화 생성자(G₁ ~ G_ℓ)를 통과하여 복원 이미지는 예상치 못한 영상 왜곡이 존재할 수 있는데, 영상왜곡 복원 인코더(E₁~ E_ℓ)에서 예상치 못한 영상 왜곡을 복원한다.

스케일 특화 생성자(G₁)에서 출력한 복원 이미지를 스케일 특화 생성자(G₂)로 입력할 때, 직접 복원 이미지를 보내는 것이 아니라 스케일 특화 생성자(G₁)와 스케일 특화 생성자(G₂) 사이에 연결된 영상왜곡 복원 인코더(E₂)를 경유하여 연결된다. 따라서, 64×64의 사이즈를 갖는 영상이 영상왜곡 복원 인코더(E₂)를 통과하게 되면, 32×32의 사이즈를 갖는 왜곡이 있더라도 클린한 도메인이 매핑된 영상이 된다.

스케일 특화 생성자(G₂)는 원본 이미지(32×32)와 복원 이미지(32×32)를 모두 입력받는다. 스케일 특화 생성자(G₂)는 채널 어텐션 블럭(CAB₂)을 이용해서 원본 이미지(32×32)와 복원 이미지(32×32) 중 보다 유용한 피쳐들을 추출한다.

즉, 스케일 특화 생성자(G₂)는 채널 어텐션 블럭(CAB₂)을 이용하여 원본 이미지(32×32)와 복원 이미지(32×32) 중 보다 유용한 피쳐들에 가중치를 높게 부여하고, 유용하지 않은 피쳐들에는 가중치를 낮게 부여한다.

스케일 특화 생성자(G₂) 내부 블럭 중 채널 어텐션 블럭(CAB₂) 이후의 블럭에서는 원본 이미지(32×32)와 복원 이미지(32×32) 중 선택된 하나의 이미지로부터 복원하면, 128×128의 사이즈를 갖는 복원 영상으로 출력된다.

채널 어텐션 블록 CAB₁ 내지 CAB_ℓ는 현재 영상의 정보와 저해상도로부터 복원된 영상의 정보를 통합하는 역할을 한다.

도 1에 도시된 각 스케일 특화 생성자(G₁ ~ G_ℓ) 구조는 설명을 위한 실시예이며, 본 발명은 특정 생성자 구조로 한정되지 않는다.

스케일 특화 생성자(G₁)는 특정 스케일(W_1×H₁)을 갖는 이미지를 입력받아 특정 스케일(W_1×H₁)에 대응하는 복원 모델을 이용하여 기 설정된 배수로 업스케일링(Upscaling)(nW_1×nH₁)한 복원 이미지를 생성한다.

영상왜곡 복원 인코더(E₂)는 업스케일링(nW_1×nH₁)한 복원 이미지를 기 설정된 배수로 다운스케일링(Downscaling)한 이미지를 생성하고, 다운스케일링한 이미지 내에서 임의의 왜곡을 클린한 도메인으로 매핑한 왜곡 복원 이미지(W_2×H₂)를 출력한다.

스케일 특화 생성자(G₂)는 영상왜곡 복원 인코더(E₂)로부터 왜곡 복원 이미지(W_2×H₂)를 입력받고, 특정 스케일(W_2×H₂)을 갖는 원본 이미지를 입력받아 특정 스케일(W_2×H₂)에 대응하는 복원 모델을 이용하여 기 설정된 배수로 업스케일링(Upscaling)(nW_2×nH₂)한 복원 이미지를 생성한다.

영상왜곡 복원 인코더(E_ℓ)는 업스케일링(nW_2×nH₂)한 복원 이미지를 기 설정된 배수로 다운스케일링(Downscaling)한 이미지를 생성하고, 다운스케일링한 이미지 내에서 임의의 왜곡을 클린한 도메인으로 매핑한 왜곡 복원 이미지(W_ℓ×H_ℓ)를 출력한다.

스케일 특화 생성자(G_ℓ)는 영상왜곡 복원 인코더(E_ℓ)로부터 왜곡 복원 이미지(W_ℓ×H_ℓ)를 입력받고, 특정 스케일(W_ℓ×H_ℓ)을 갖는 원본 이미지를 입력받아 특정 스케일(W_ℓ×H_ℓ)에 대응하는 복원 모델을 이용하여 기 설정된 배수로 업스케일링(Upscaling)(nW_ℓ×nH_ℓ)한 복원 이미지를 생성한다.

스케일 특화 생성자(G₁~G_ℓ)는 채널 어텐션 블럭(CAB₁~CAB_ℓ)을 이용하여 왜곡 복원 이미지와 왜곡 복원 이미지와 동일한 스케일(W_1×H₁~ W_ℓ×H_ℓ)을 갖는 원본 이미지로부터 추출한 피쳐를 기반으로 기 설정된 배수로 업스케일링(Upscaling)(nW_1×nH₁~ nW_ℓ×nH_ℓ)한 복원 이미지를 생성한다.

스케일 특화 생성자(G₁~ G_ℓ)는 채널 어텐션 블럭(CAB₁~ CAB_ℓ)을 이용하여 왜곡 복원 이미지와 왜곡 복원 이미지와 동일한 스케일(W_1×H₁~ W_ℓ×H_ℓ)을 갖는 원본 이미지를 병합한 정보로부터 피쳐(Feature)들을 추출한다. 스케일 특화 생성자(G₁~ G_ℓ)는 피쳐 중 유효한 피쳐에게 높은 가중치를 부여하여 출력한 새로운 영상을 기반으로 기 설정된 배수로 업스케일링(Upscaling)(nW_1×nH₁~ nW_ℓ×nH_ℓ)한 복원 이미지를 생성한다.

스케일 특화 생성자(G₁~ G_ℓ)는 채널 어텐션 블럭(CAB₁~ CAB_ℓ)을 이용하여 왜곡 복원 이미지와 원본 이미지의 RGB 채널을 병합하여 6채널의 영상을 생성하고, 6채널의 영상에 3×3 컨볼루션을 이용하여 64채널의 특징을 추출한다. 스케일 특화 생성자(G₁~ G_ℓ)는 채널 어텐션 블럭(CAB₁~ CAB_ℓ)을 이용하여 64채널의 평균값을 취한 후 16 노드로 인코딩하여 주요정보를 추출하고, 16 노드를 비선형 변환한 후 64노드로 디코딩하여 복원한 후 64 노드에 0~1 사이의 값으로 매핑하여 가중치화한 64 노드의 값을 채널에 곱한 후 1×1 컨볼루션을 이용하여 3채널의 특징 추출하여 새로운 영상을 생성한다.

영상왜곡 복원 인코더(E₁~ E_ℓ)는 손실함수(L1), 손실함수(L2), 손실함수(D)를 이용하여 왜곡 복원 이미지를 출력한다.

영상왜곡 복원 인코더(E₁~ E_ℓ)는 다운스케일링한 이미지를 디코더(D₁~ D_ℓ)가 복원한 경우 원본 이미지(input)와 유사한지 차이를 계산하여 손실함수(L1)를 결정한다. 영상왜곡 복원 인코더(E₁~ E_ℓ)는 손실함수(L1)를 원본 이미지의 정보를 최대한 보존하면서 다운스케일링 값을 학습하는 데 이용한다.

영상왜곡 복원 인코더(E₁~ E_ℓ)는 다운스케일링한 이미지와 바이큐빅 보간에 의해 다운스케일링한 이미지 간의 차이를 계산하여 상기 손실함수(L2)를 결정한다. 영상왜곡 복원 인코더(E₁~ E_ℓ)는 손실함수(L2)를 서로 다른 왜곡을 가진 이미지들을 다운스케일링 할수록 왜곡이 스무딩되고 영상 내의 주요 구조 정보만을 유지하는 형태로 변화하는 특성을 학습하는 데 이용한다.

영상왜곡 복원 인코더(E₁~ E_ℓ)는 다운스케일링한 이미지에 왜곡이 없는지(clean) 또는 왜곡이 있는지(degradation)를 판별하여 손실값을 계산하여 상기 손실함수(D)를 결정한다. 영상왜곡 복원 인코더(E₁~ E_ℓ)는 손실함수(D)를 왜곡이 있는 이미지의 스타일을 왜곡이 없는 깨끗한 영상의 스타일로 변환하기 위해 이용한다.

스케일 특화 생성자(G₁ ~ G_ℓ)는 스케일에 대한 사전 학습 정보에 기반하여 복원하는 영상의 형태를 결정한다. 예컨대, 도 2에 도시된 바와 같이, 32×32 스케일의 영상데이터에 기반하여 학습된 생성자 G₃₂는 아래 두 패치를 눈으로 복원하려 한다. 96×96 스케일의 영상데이터에 기반하여 학습된 생성자 G₉₆은 아래 두 패치를 코로 복원하려 한다.

영상왜곡 복원 인코더(E₁~ E_ℓ)는 손실함수(L1), 손실함수(L2), 손실함수(D)를 이용한다. 학습 시에는 인코더(E_ℓ)과 디코더(D_ℓ)을 함께 학습하며, 각 스케일ℓ마다 학습이 완료된 인코더(E_ℓ)을 멀티스케일 영상복원 신경망의 영상왜곡 복원을 위한 모듈로 사용한다.

손실함수(L1)는 인코더 E_ℓ에 의해 해상도가 줄어든 영상을 디코더 D_ℓ에 의해 복원했을 때 얼마나 원본 영상(input)과 유사한지 차이를 계산한다. 손실함수(L1)는 원본 영상의 정보를 최대한 보존하면서 해상도를 줄일 수 있는 인코더를 학습하기 위해 필요하다.

손실함수(L2)는 인코더(E_ℓ)에 의해 해상도가 줄어든 영상과 바이큐빅 보간에 의해 해상도를 줄인 영상 간의 차이를 계산한다. 손실함수(L2)는 서로 다른 왜곡을 가진 영상들의 해상도를 줄일수록 왜곡이 스무딩되면서 왜곡을 구분할 수 없고 영상의 주요 구조적 정보만 유지하는 형태로 변화하는 특성이 있으며, 손실함수(L2)는 인코더에 학습시키기 위해서 필요하다.

손실함수(D)는 인코더 E_ℓ에 의해 해상도가 줄어든 영상이 왜곡이 없는지 (clean) 또는 있는지(degradation)를 판별하여 손실값을 계산한다. 손실함수(D)는 왜곡이 적을수록 낮은값을 갖는다. 손실함수(D)는 왜곡이 있는 영상의 스타일을 왜곡이 없는 깨끗한 영상의 스타일로 변환하기 위해 필요하다.

채널 어텐션 블록(CAB₁ 내지 CAB_ℓ)는 RGB 3채널을 갖는 2개의 영상을 입력받아 Concat 모듈을 경유하여 채널축으로 합쳐서 6채널의 영상을 생성한 후 영상복원에 유용한 특징들을 추출하여 3채널의 새로운 영상으로 변환하여 출력한다.

Concat 모듈은 3채널의 영상 2개를 병합하여 6채널을 생성한다. C64k3s1 모듈은 6채널에 대해 3×3 컨볼루션을 이용하여 64 채널의 특징 추출한다. GAP64 64 모듈은 64채널 각각의 평균값을 취한다. FC16 모듈은 16 노드를 인코딩하여 주요정보 추출한다. Relu 모듈은 16 노드에 대해 비선형 변환한다. FC64 모듈은 64 노드를 디코딩하여 복원한다. Sigmoid 모듈은 64 노드에 대해 0~1 사이의 값으로 매핑하여 가중치화한다. multiply 모듈은 64 채널에 대해 가중치화한 64노드의 값을 채널에 곱한다. C3k1s1 모듈은 3채널에 대해 1×1 컨볼루션을 이용하여 3채널의 특징 추출하여 스케일 특화 생성자(G_ℓ)의 입력 영상으로 사용한다.

채널 어텐션 블록(CAB₁ 내지 CAB_ℓ)으로는 W_ℓ×H_ℓ 크기의 영상과 ℓ-1 레벨의 스케일 특화 생성자 G_ℓ-1이 변환한 nW_ℓ-1×nH_ℓ-1 크기의 출력 영상을 인코더 E_ℓ을 통해 영상 왜곡과 해상도를 줄인 영상이 입력된다.

학습부는 멀티 스케일(Multi-scale)을 갖는 이미지 각각을 입력받아 멀티 스케일마다 학습을 수행하여 각 스케일별로 독립된 복원 모델을 학습한다.

학습부는 생성부(generator)와 구별부(discriminator)를 포함한다. 생성부(G)는 입력된 이미지가 갖는 스케일을 기 설정된 해상도만큼 증가시키는 가짜 이미지 G_ℓ(I)를 생성한다. 구별부(D)는 가짜 이미지 G_ℓ(I)와 원본 이미지 I^gt를 입력받고, 가짜 이미지 G_ℓ(I)가 진짜(real)인지 가짜(fake)인지를 판별한 점수를 산출하며, 산출한 점수를 기반으로 복원 모델을 학습한다.

구별부(D)는 기 설정된 배수로 업스케일링(Upscaling)(nW_L×nH_L)한 복원 이미지 내에서 인지된 객체 각각에 대한 전체 손실함수(total loss)(L), 화소간 손실함수(per-pixel loss)(L_pixel), 인지적 손실함수(perceptual loss)(L_feat), 상대적 적대 손실함수(relative adversarial loss)(L_rgan), 멀티 레이블 적대 손실함수(multi-label adversarial loss)(L_mlgan)를 기반으로 가짜 이미지 G_ℓ(I)가 진짜(real)인지 가짜(fake)인지를 판별한다.

전체 손실함수(total loss)(L)는 [수학식 1]과 같다.

수학식1의 전체 손실함수(total loss)(L)는 화소간 손실함수(L_pixel), 인지적 손실함수(L_feat), 상대적 적대 손실함수(L_rgan), 멀티 레이블 적대 손실함수(L_mlgan)의 가중합으로 구성된다. 수학식1의 λ_p, λ_f, λ_r, λ_m은 각 손실함수의 가중치를 의미한다.

화소간 손실함수(per-pixel loss)(L_pixel)는 [수학식 2]와 같다.

수학식2의 화소간 손실함수(per-pixel loss)(L_pixel)는 σ보다 작은 범위에서는 L2 loss로 동작하고, σ보다 큰 범위에서는 L1 loss로 동작하는 Huber loss 함수를 사용한다. 수학식2의 화소간 손실함수(per-pixel loss)(L_pixel)는 왜곡에 의해 큰 차이가 생겨도 안정적으로(robust) 학습하기 위한 함수이다.

인지적 손실함수(perceptual loss)(L_feat)는 [수학식 3]과 같다.

수학식3의 인지적 손실함수(perceptual loss)(L_feat)는 영상인식을 위해 학습된 vgg19 신경망 F_d의 d번째 중간 레이어에서 추출한 특징 맵 사이의 차이를 최소화한다.

상대적 적대 손실함수(relative adversarial loss)(L_rgan)는 [수학식 4]와 같다.

수학식 4의 상대적 적대 손실함수(relative adversarial loss)(L_rgan)는 생성자(G)가 만든 영상 G_ℓ(I)과 정답 영상 I^gt을 판별자 신경망 D_ℓ로 전달하여, 두 영상의 판별 값 차이를 손실함수로 사용한다.

멀티 레이블 적대 손실함수(multi-label adversarial loss)(L_mlgan)는 [수학식 5]와 같다.

수학식5의 멀티 레이블 적대 손실함수(multi-label adversarial loss)(L_mlgan)는 생성자(G)가 만든 영상 G_ℓ(I)과 정답 영상 I^gt을 각 클래스 c의 진짜/가짜 여부를 판별하는 판별자 신경망 D_ℓ ^c로 전달하여, 각 클래스의 판별 값 차이의 가중평균을 손실함수로 사용한다. 이때, 가중치 (1-p^c)^γ는 판별자 신경망의 판별 값이 낮을수록 높아져서, 잘 해결하지 못하는 문제에 보다 높은 손실을 부여한다.

얼굴 영상 복원 시 클래스 c는 각 얼굴의 부위로 정의할 수 있다. 추출된 중간 특징맵과 세그맨테이션 맵을 화소 단위로 곱하여 각 얼굴 부위를 추출하고, 클래스 특화 판별자 신경망 D_ℓ ^c로 전달한다.

멀티 스케일 객체 이미지 복원 장치는 도 6에 도시된 바와 같이 입력 영상을 복원한 복원 영상으로 생성하는 과정에서, 생성부(G)로 입력되는 Input 이미지, 생성부(G)에서 생성한 CNN 이미지, 구별부(D)로 입력되는 Ground-Truth 이미지 등은 도 6과 같다. 멀티 스케일 객체 이미지 복원 장치 내의 구별부(D)가 생성부(G)에서 출력한 업스케일링 이미지가 원본(real)인지 생성된 가짜(fake)인지를 판별한 점수를 산출한다.

멀티 스케일 객체 이미지 복원 장치 내의 구별부(D)는 학습한 정보를 토대로 생성부(G)에서 출력한 업스케일링 이미지가 원본(real)인지 생성된 가짜(fake)인지를 판별한다. 멀티 스케일 객체 이미지 복원 장치는 구별부(D)의 성능을 개선하여 원본(real)인지 생성된 가짜(fake)인지를 판별하는 기준으로 정답 이미지(Ground-Truth)와 생성부(G)에서 생성한 가짜 이미지(Relative-GAN)를 함께 전달한다.

멀티 스케일 객체 이미지 복원 장치 내의 구별부(D)는 생성부(G)에서 생성한 가짜 이미지(Relative-GAN) 내의 구성요소를 인지하고, 각 구성요소(치아, 눈, 코, 입, 액세서리 등)에 어색한 부분이 있는지의 여부를 판별한다.

멀티 스케일 객체 이미지 복원 장치 내의 구별부(D)는 구성요소(치아, 눈, 코, 입, 액세서리 등)에 대해서 독립적인 구별자를 구현하여 각각의 구성요소(치아, 눈, 코, 입, 액세서리 등)가 얼마나 리얼한지 어색한지 여부를 판별하여 영상을 개선하는 Multi-label RGAN을 이용한다.

멀티 스케일 객체 이미지 복원 장치 내의 구별부(D)는 생성된 이미지가 입력되면, 학습 데이터에 대해서 미리 가지고 있는 정답 세그멘테이션 맵을 이용하고, 구성요소(치아, 눈, 코, 입, 액세서리 등)에 가중치 곱하여, 구성요소 이외에 나머지 부분을 모두 제거하고, 구성요소에 해당하는 이미지만을 선별한다. 멀티 스케일 객체 이미지 복원 장치 내의 구별부(D)는 이미지 내의 구성요소(치아, 눈, 코, 입, 액세서리 등) 각각이 원본(real)인지 생성된 가짜(fake)인지를 판별한 점수를 산출한다.

멀티 스케일 객체 이미지 복원 장치 내의 구별부(D)는 영상 전체가 리얼하게 텍스처가 있다 하더라도 구성요소(치아, 눈, 코, 입, 액세서리 등) 중 어느 하나가 어색하게 복원되면, 영상 자체를 가짜로 판별한다. 멀티 스케일 객체 이미지 복원 장치 내의 구별부(D)는 복원 이미지 내의 구성요소 각각에 대해 원본 또는 가짜 여부에 판별한다.

도 7a에 도시된 바와 같이, 스케일 특화 생성자는 스케일 특화 생성자(G₁) 내지 스케일 특화 생성자(G_ℓ)까치 총 n개의 단계를 포함한다.

도 7b에 도시된 바와 같이, 입력 영상이 많이 열화된 상태인 경우, 멀티 스케일 객체 이미지 복원 장치는 입력 영상을 스케일 특화 생성자(G₁) 내지 스케일 특화 생성자(G_ℓ), 영상왜곡 복원 인코더(E₁) 내지 영상왜곡 복원 인코더(E_ℓ)를 통과시켜서 복원 영상을 출력한다.

도 7c에 도시된 바와 같이, 스케일 특화 생성자(G₁)는 16×16 이미지를 복원하여 64×64로 4배 업스케일링한 복원 이미지로 출력한다.

영상왜곡 복원 인코더(E₂)는 스케일 특화 생성자(G₁)로부터 64×64 복원 이미지를 입력받으면, 32×32로 다운스케일링한 왜곡 복원 이미지로 출력한다.

스케일 특화 생성자(G₂)는 영상왜곡 복원 인코더(E₂)로부터 32×32 복원 이미지를 입력받고, 32×32 원본 이미지를 입력받아서 128×128로 4배 업스케일링한 복원 이미지로 출력한다.

영상왜곡 복원 인코더(E₃)는 스케일 특화 생성자(G₂)로부터 128×128 복원 이미지를 입력받으면, 64×64로 다운스케일링한 왜곡 복원 이미지로 출력한다.

스케일 특화 생성자(G₃)는 영상왜곡 복원 인코더(E₃)로부터 64×64 복원 이미지를 입력받고, 64×64 원본 이미지를 입력받아서 256×256로 4배 업스케일링한 복원 이미지로 출력한다.

영상왜곡 복원 인코더(E₄)는 스케일 특화 생성자(G₃)로부터 256×256 복원 이미지를 입력받으면, 128×128로 다운스케일링한 왜곡 복원 이미지로 출력한다.

스케일 특화 생성자(G₄)는 영상왜곡 복원 인코더(E₄)로부터 128×128 복원 이미지를 입력받고, 128×128 원본 이미지를 입력받아서 512×512로 4배 업스케일링한 복원 이미지로 출력한다.

입력 영상의 스케일에 따라서 스케일 특화 생성자(G₁~G_ℓ)에 입력되는 위치가 달라지게 결정된다. 즉, 멀티 스케일 객체 이미지 복원 장치는 입력 영상의 스케일에 따라 스케일 특화 생성자(G₁~G_ℓ)와 영상왜곡 복원 인코더(E₁~E_ℓ)를 모두 이용할 필요없이 특정 구간을 설정하거나 구간을 넓히거나 좁혀서 이미지 복원을 수행할 수 있다.

입력 영상의 열화 정도에 따라 다단의 스케일 특화 생성자(G₁~G_ℓ)와 영상왜곡 복원 인코더(E₁~E_ℓ)를 경유하는 것이 바람직하나, 다단의 영상왜곡 복원 인코더(E₁~E_ℓ)를 이용하는 경우, 왜곡이 개선이 되지만 객체(얼굴) 변형이 있을 수 있다. 즉, 입력 영상 자체에 다양한 왜곡이 존재하면 다단의 영상왜곡 복원 인코더(E₁~E_ℓ)를 이용해야 왜곡을 복원한 결과가 나오기 때문에, 입력 영상 자체가 왜곡이 없다면, 다단의 영상왜곡 복원 인코더(E₁~E_ℓ)를 경유할 필요가 없다.

도 8a에 도시된 바와 같이, 스케일 특화 생성자는 스케일 특화 생성자(G₁) 내지 스케일 특화 생성자(G_ℓ)까지 총 n개의 단계를 포함하나, 입력 영상의 열화 상태에 따라, 멀티 스케일 객체 이미지 복원 장치는 입력 영상을 스케일 특화 생성자(G₁~G₂), 영상왜곡 복원 인코더(E₂)만을 통과시켜서 복원 영상을 출력한다.

스케일 특화 생성자(G₁)는 16×16 이미지를 복원하여 64×64로 4배 업스케일링한 복원 이미지로 출력한다. 영상왜곡 복원 인코더(E₂)는 스케일 특화 생성자(G₁)로부터 64×64 복원 이미지를 입력받으면, 32×32로 다운스케일링한 왜곡 복원 이미지로 출력한다. 스케일 특화 생성자(G₂)는 영상왜곡 복원 인코더(E₂)로부터 32×32 복원 이미지를 입력받고, 32×32 원본 이미지를 입력받아서 128×128로 4배 업스케일링한 복원 이미지로 출력한다.

멀티 스케일 객체 이미지 복원 장치는 입력 영상을 스케일 특화 생성자(G₁~G₂), 영상왜곡 복원 인코더(E₂)만을 통과시켜서 출력한 복원 이미지는 도 8b 및 도 8c에 도시된 바와 같다.

이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

특정 스케일(W_ℓ-1×H_ℓ-1)을 갖는 이미지를 입력받아 특정 스케일(W_ℓ-1×H_ℓ-1)에 대응하는 복원 모델을 이용하여 기 설정된 배수로 업스케일링(Upscaling)(nW_ℓ-1×nH_ℓ-1)한 복원 이미지를 생성하는 스케일 특화 생성자(G_ℓ-1, Scale-Specific Generator);

상기 업스케일링(nW_ℓ-1×nH_ℓ-1)한 복원 이미지를 기 설정된 배수로 다운스케일링(Downscaling)한 이미지를 생성하고, 상기 다운스케일링한 이미지 내에서 임의의 왜곡을 클린한 도메인으로 매핑한 왜곡 복원 이미지를 출력하는 영상왜곡 복원 인코더(E_ℓ); 및

상기 왜곡 복원 이미지를 입력받은 후 상기 왜곡 복원 이미지가 갖는 스케일(W_ℓ×H_ℓ)에 대응하는 복원 모델을 이용하여 기 설정된 배수로 업스케일링(Upscaling)(nW_ℓ×nH_ℓ)한 복원 이미지를 생성하는 스케일 특화 생성자(G_ℓ, Scale-Specific Generator);

를 포함하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치.
제1항에 있어서,

상기 스케일 특화 생성자(G_ℓ)는,

채널 어텐션 블럭(CAB: Channel Attention Block)을 이용하여 상기 왜곡 복원 이미지와 상기 왜곡 복원 이미지와 동일한 스케일(W_ℓ×H_ℓ)을 갖는 원본 이미지로부터 추출한 피쳐를 기반으로 상기 기 설정된 배수로 업스케일링(Upscaling)(nW_ℓ×nH_ℓ)한 복원 이미지를 생성하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치.
제2항에 있어서,

상기 스케일 특화 생성자(G_ℓ)는,

상기 채널 어텐션 블럭(CAB)를 이용하여 상기 왜곡 복원 이미지와 상기 원본 이미지를 병합한 정보로부터 피쳐(Feature)들을 추출하고, 상기 피쳐 중 유효한 피쳐에게 높은 가중치를 부여하여 출력한 새로운 영상을 기반으로 상기 기 설정된 배수로 업스케일링(Upscaling)(nW_ℓ×nH_ℓ)한 복원 이미지를 생성하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치.
제3항에 있어서,

상기 스케일 특화 생성자(G_ℓ)는,

상기 채널 어텐션 블럭(CAB)를 이용하여 상기 왜곡 복원 이미지와 상기 원본 이미지의 RGB 채널을 병합하여 6채널의 영상을 생성하고, 상기 6채널의 영상에 3×3컨볼루션을 이용하여 64채널의 특징을 추출하고, 상기 64채널의 평균값을 취한 후 16노드로 인코딩하여 주요정보를 추출하고, 상기 16노드를 비선형 변환한 후 64노드로 디코딩하여 복원한 후 상기 64노드에 0~1 사이의 값으로 매핑하여 가중치화한 64노드의 값을 채널에 곱한 후 1×1 컨볼루션을 이용하여 3채널의 특징 추출하여 상기 새로운 영상을 생성하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치.
제4항에 있어서,

상기 영상왜곡 복원 인코더(E_ℓ)는,

손실함수(L1), 손실함수(L2), 손실함수(D)를 이용하여 상기 왜곡 복원 이미지를 출력하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치.
제5항에 있어서,

상기 영상왜곡 복원 인코더(E_ℓ)는,

상기 다운스케일링한 이미지를 디코더(D_ℓ)가 복원한 경우 상기 원본 이미지(input)와 유사한지 차이를 계산하여 상기 손실함수(L1)을 결정하며,

상기 손실함수(L1)을 상기 원본 이미지의 정보를 최대한 보존하면서 다운스케일링 값을 학습하는 데 이용하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치.
제5항에 있어서,

상기 영상왜곡 복원 인코더(E_ℓ)는,

상기 다운스케일링한 이미지와 바이큐빅 보간에 의해 다운스케일링한 이미지 간의 차이를 계산하여 상기 손실함수(L2)를 결정하며,

상기 손실함수(L2)를 서로 다른 왜곡을 가진 이미지들을 다운스케일링 할수록 왜곡이 스무딩되고 영상 내의 주요 구조 정보만을 유지하는 형태로 변화하는 특성을 학습하는 데 이용하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치.
제5항에 있어서,

상기 영상왜곡 복원 인코더(E_ℓ)는,

상기 다운스케일링한 이미지에 왜곡이 없는지(clean) 또는 왜곡이 있는지(degradation)를 판별하여 손실값을 계산하여 상기 손실함수(D)를 결정하며,

상기 손실함수(D)를 왜곡이 있는 이미지의 스타일을 왜곡이 없는 깨끗한 영상의 스타일로 변환하기 위해 이용하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치.
제5항에 있어서,

멀티 스케일(Multi-scale)을 갖는 이미지 각각을 입력받아 상기 멀티 스케일마다 학습을 수행하여 각 스케일별로 독립된 복원 모델을 학습하는 학습부;

를 추가로 포함하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치.
제9항에 있어서,

상기 학습부는,

입력된 이미지가 갖는 스케일을 기 설정된 해상도만큼 증가시키는 가짜 이미지 G_l(I)를 생성하는 생성부(generator);

상기 가짜 이미지 G_ℓ(I)와 원본 이미지 I^gt를 입력받고, 상기 가짜 이미지 G_ℓ(I)가 진짜(real)인지 가짜(fake)인지를 판별한 점수를 산출하며, 산출한 점수를 기반으로 상기 복원 모델을 학습하는 구별부(discriminator);

를 포함하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치.
제10항에 있어서,

상기 구별부(D)는,

기 설정된 배수로 업스케일링(Upscaling)(nW_L×nH_L)한 복원 이미지 내에서 인지된 객체 각각에 대한 전체 손실함수(total loss)(L), 화소간 손실함수(per-pixel loss)(L_pixel), 인지적 손실함수(perceptual loss)(L_feat), 상대적 적대 손실함수(relative adversarial loss)(L_rgan), 멀티 레이블 적대 손실함수(multi-label adversarial loss)(L_mlgan)를 기반으로 상기 가짜 이미지 G_ℓ(I)가 진짜(real)인지 가짜(fake)인지를 판별하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치.
제11항에 있어서,

상기 구별부는,

상기 생성부(G)가 생성한 상기 가짜 이미지 G_ℓ(I)와 입력된 상기 원본 이미지 I^gt를 각 클래스(c)의 진짜(real) 인지 가짜(fake) 인지의 여부를 판별한 결과를 판별자 신경망 D_ℓ ^c으로 전달하여, 각 클래스(c)의 판별값 차이의 가중평균을 계산하여 상기 멀티 레이블 적대 손실함수(Multi-Label Adversarial Loss)(L_mlgan)를 결정하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 장치.
스케일 특화 생성자(G_ℓ-1, Scale-Specific Generator)에서 특정 스케일(W_ℓ-1×H_ℓ-1)을 갖는 이미지를 입력받아 특정 스케일(W_ℓ-1×H_ℓ-1)에 대응하는 복원 모델을 이용하여 기 설정된 배수로 업스케일링(Upscaling)(nW_ℓ-1×nH_ℓ-1)한 복원 이미지를 생성하는 과정;

영상왜곡 복원 인코더(E_ℓ)에서 상기 업스케일링(nW_ℓ-1×nH_ℓ-1)한 복원 이미지를 기 설정된 배수로 다운스케일링(Downscaling)한 이미지를 생성하고, 상기 다운스케일링한 이미지 내에서 임의의 왜곡을 클린한 도메인으로 매핑한 왜곡 복원 이미지를 출력하는 과정; 및

스케일 특화 생성자(G_ℓ, Scale-Specific Generator)에서 상기 왜곡 복원 이미지를 입력받은 후 상기 왜곡 복원 이미지가 갖는 스케일(W_ℓ×H_ℓ)에 대응하는 복원 모델을 이용하여 기 설정된 배수로 업스케일링(Upscaling)(nW_ℓ×nH_ℓ)한 복원 이미지를 생성하는 과정;

을 포함하는 것을 특징으로 하는 멀티 스케일 객체 이미지 복원 방법.