KR20190131205A

KR20190131205A - 슈퍼 레졸루션(Super Resolution) 네트워크 처리방법 및 시스템

Info

Publication number: KR20190131205A
Application number: KR1020180055782A
Authority: KR
Inventors: 유창동; 박상혁
Original assignee: 한국과학기술원
Priority date: 2018-05-16
Filing date: 2018-05-16
Publication date: 2019-11-26
Also published as: KR102059529B1

Abstract

본 발명은 슈퍼 레졸루션(Super Resolution) 네트워크 방법 및 시스템에 관한 것으로서, 더욱 상세하게는 잔차 학습, 스파이럴 CNN 및 텍스쳐 학습을 이용한 고해상도 이미지 복원 네트워크 방법 및 시스템에 관한 것으로, 저해상도 이미지(LR)를 입력 받는 단계, 상기 입력 받은 이미지를 업스캐일링(Upscaling)하는 단계 및 상기 업스캐일링된 이미지를 복구해 고해상도 이미지(HR)를 출력하는 복구단계를 포함하고, 상기 업스캐일링 단계는 상기 입력 이미지를 나선 CNN 처리하는 단계를 포함하고 상기 나선 CNN 처리단계는, 상기 입력 이미지를 CNN(Convolutional Neural Network)망에 입력하는 단계 상기 CNN망에서 상기 이미지를 처리한 결과 이미지를 출력하는 단계 및 상기 결과 이미지 및 상기 입력 이미지를 CNN망에 재입력하는 단계를 포함하는 구성을 개시한다.

Description

슈퍼 레졸루션(Super Resolution) 네트워크 처리방법 및 시스템{SUPER-RESOLUTION NETWORK PROCESSING METHOD AND SYSTEM}

본 발명은 슈퍼 레졸루션(Super Resolution) 네트워크 방법 및 시스템에 관한 것으로서, 더욱 상세하게는 잔차 학습, 스파이럴 CNN 및 텍스쳐 학습을 이용한 고해상도 이미지 복원 네트워크 방법 및 시스템에 관한 것이다.

이미지를 디지털화하기 시작한 이래로, 이미지를 압축하는 기술이 발전함에 따라 압축된 이미지를 복원하는 기술 또한 정확도가 높고 빠르게 이미지를 복원시키기 위해 발전해 왔다. 최근에는 다양한 SISR(Single Image Super Resolution) 알고리즘이 도입되어 저해상도 이미지(Low Resolution) 입력 이미지로부터 고해상도 이미지(High Resolution)를 재구성한다.

최근 통계적 사전 알고리즘, 사전 학습, 이웃 임베딩, 회귀 트리는 LR 이미지에서 HR 이미지로의 복잡한 매핑 기능을 배우는 것을 고려하였다. 이러한 알고리즘은 SR(Super Resolution) 작업에서 상당한 향상을 달성했다. 그럼에도 불구하고 이전의 학습 기반 SISR 알고리즘은 일반적으로 심화 학습에서 얻은 기능과 비교하여 약점으로 간주되는 수작업에 의존한다.

최근의 고급 심층 학습 기반 SISR 알고리즘이 최근에 소개되었다. 3 계층 SRCNN, 캐스케이드 구조의 CNN, 매우 깊은 구조의 CNN, 재귀 계층화 된 CNN, 더 빠른 FSRCNN, 효율적인 하위 픽셀 CNN 및 GAN (Generative Adversarial Network) 기반 SR 등이 소개되었다. SR에서 CNN을 사용하기 위한 선구적인 구조로서 SRCNN(Super Resolution CNN)은 얕은 CNN을 사용하여 LR 입력에서 HR 출력으로의 비선형 매핑 기능을 학습하기 위해 제안되었다. 나중에 20 층의 매우 깊은 CNN(VDSR)과 30 층의 잔여 인코더 - 디코더 네트워크(RED30)는 더 깊은 네트워크에서 더 나은 성능을 입증했다. 최근에 20 계층의 재귀 DRCN과 52 층의 재귀 DRRN은 skip-connection과 재귀 콘볼루션 레이어(recursive convolutional layers)가 매우 깊은 아키텍처에서 유용한 정보를 전달하는 부담을 경감시킬 수 있음을 보여 주었다. 깊은 CNN 기반 SR 네트워크는 높은 PSNR(Peak signal-to-noise ratio) 점수를 나타냈지만 이러한 네트워크는 대규모 교육 데이터 세트를 필요로 하며 고성능을 달성하기 어렵다. FSRCNN과 ESPCN은 얕은 네트워크를 사용하여 LR 이미지에서 HR 이미지를 상향 조정하도록 제안되었다. 이러한 얕은 업 스케일링 SR 네트워크가 트레이닝과 추론을 위해 계산을 훨씬 덜 필요로 하긴 하지만, 그 성능은 최신 아키텍처의 최첨단 기술에 미치지 못한다. 화소 방향의 차이(예를 들어, l2-손실)를 최소화하는 것 이외에, 상술 한 모든 SR 알고리즘은 HR 예측의 시각 품질을 향상시키기 위한 특별한 노력을 하지 않는다. GAN 기반 SR 알고리즘의 일부는 현실적인 세부 사항을 생성하려고 시도되었다. 그러나 이 알고리즘의 목적은 정확성이 아닌 사실적인 이미지를 생성하는 것이다.

따라서, 이전의 SR 알고리즘에서 달성할 수 없는 단일 아키텍처로서 완전하게 훈련 될 수 있고, 향상된 SR을위한 모든 프로세스 (특성 추출, 업 스케일링, 복원 및 텍스처 향상)를 단일 깊은 CNN 모델에 통합해 데이터 중심 방식으로 손실을 최소화 하는 것이 필요한 실정이다.

따라서, 본 발명의 목적은 기존의 이미지 복원 방법보다 정확도가 높은 이미지 복원을 수행할 수 있도록 하는 슈퍼 레졸루션(Super Resolution) 네트워크 처리방법 및 시스템를 제공하는데 있다.

상기한 문제를 해결하기 위한 본 발명의 일 실시 예에 따른 슈퍼 레졸루션(Super Resolution) 네트워크 처리방법은 저해상도 이미지(LR)를 입력 받는 단계, 상기 입력 받은 이미지를 업스캐일링(Upscaling)하는 단계 및 상기 업스캐일링된 이미지를 복구해 고해상도 이미지(HR)를 출력하는 복구단계를 포함하고, 상기 업스캐일링 단계는 상기 입력 이미지를 나선 CNN 처리하는 단계;를 포함하고 상기 나선 CNN 처리단계는 상기 입력 이미지를 CNN(Convolutional Neural Network)망에 입력하는 단계, 상기 CNN망에서 상기 이미지를 처리한 결과 이미지를 출력하는 단계 및 상기 결과 이미지 및 상기 입력 이미지를 CNN망에 재입력하는 단계를 포함할 수 있다.

본 발명의 일 실시 예에 따르면, 상기 재입력 단계는 상기 결과 이미지 및 상기 입력 이미지에 각각 가중치를 적용해 재입력할 수 있다.

본 발명의 일 실시 예에 따르면, 상기 업스캐일링 단계는 상기 나선 CNN 처리된 이미지를 멀티 스캐일 특징 임베딩(multi-scale feature embedding)하는 단계를 더 포함할 수 있다.

본 발명의 일 실시 예에 따르면, 상기 네트워크 처리 방법은 상기 HR 이미지에서 텍스쳐(Texture) 정보를 추출하는 단계를 더 포함할 수 있다.

본 발명의 일 실시 예에 따르면, 상기 네트워크 처리 방법은 추출된 상기 텍스쳐 정보를 이용해 상기 저해상도 이미지(LR)를 복구해 고해상도 이미지(HR)를 출력하는 단계를 더 포함할 수 있다.

본 발명의 일 실시 예에 따르면, 상기 복구단계는 잔차(Residual) 학습을 이용해 이미지를 복구할 수 있다.

본 발명의 일 실시 예에 따르면, 상기 복구 단계는 상기 업스캐일링된 이미지를 CNN(Convolutional Neural Network)망에 입력하는 단계 상기 CNN망에서 상기 업스캐일링된 이미지를 처리한 결과 이미지를 출력하는 단계 및 상기 결과 이미지 및 상기 입력 이미지를 CNN망에 재입력하는 단계를 포함할 수 있다.

본 발명의 일 실시 예에 따르면, 상기 결과 이미지 출력 단계는 상기 업스캐일링된 이미지를 복구 CNN층 처리한 결과물과 상기 업스캐일링된 이미지를 멀티 스캐일 특징 임베딩(multi-scale feature embedding)한 결과물을 이용해 결과 이미지를 출력할 수 있다.

상기한 문제를 해결하기 위한 본 발명의 일 실시 예에 따른 슈퍼 레졸루션(Super Resolution) 네트워크 처리시스템은 저해상도 이미지(LR)를 입력 받아 업스캐일링(Upscaling)하는 업스캐일링부 및 상기 업스캐일링된 이미지를 복구해 고해상도 이미지(HR)를 출력하는 복구부를 포함하고, 상기 업스캐일링부는 상기 입력 이미지를 CNN(Convolutional Neural Network)망이 상기 이미지를 처리하여 출력된 결과 이미지와 상기 입력 이미지를 CNN망에 재입력하여 나선 CNN 처리할 수 있다.

본 발명의 일 실시 예에 따르면, 상기 업스캐일링부는 상기 결과 이미지 및 상기 입력 이미지에 각각 가중치를 적용해 재입력할 수 있다.

본 발명의 일 실시 예에 따르면, 상기 업스캐일링부는 상기 나선 CNN 처리된 이미지를 멀티 스캐일 특징 임베딩(multi-scale feature embedding)할 수 있다.

본 발명의 일 실시 예에 따르면, 상기 HR 이미지에서 텍스쳐(Texture) 정보를 추출하는 텍스쳐학습부;를 더 포함할 수 있다.

본 발명의 일 실시 예에 따르면, 상기 복구부는 추출된 상기 텍스쳐 정보를 이용해 상기 저해상도 이미지(LR)를 복구해 고해상도 이미지(HR)를 출력할 수 있다.

본 발명의 일 실시 예에 따르면, 상기 복구부는 잔차(Residual) 학습을 이용해 이미지를 복구할 수 있다.

본 발명의 일 실시 예에 따르면, 상기 복구부는 상기 업스캐일링된 이미지를 CNN(Convolutional Neural Network)망이 처리하여 출력된 결과 이미지와 상기 업스캐일링된 이미지를 CNN망에 재입력하여 나선 CNN 처리할 수 있다.

본 발명의 일 실시 예에 따르면, 복구부는 상기 업스캐일링된 이미지를 복구 CNN층 처리한 결과물과 상기 업스캐일링된 이미지를 멀티 스캐일 특징 임베딩(multi-scale feature embedding)한 결과물을 이용해 결과 이미지를 출력할 수 있다.

본 발명에 따르면, 콘볼루션 레이어의 수 및 파라미터의 수를 증가시키지 않고도 딥 CNN망을 이용하여 이미지 복원을 하는 효과를 얻을 수 있다.

또한, 고해상도 이미지에서 텍스쳐 정보를 추출해 이용하여 정확도를 향상시킨 이미지 복원 기술을 제공할 수 있다.

또한, 멀티 스캐일 특징 임베딩을 통해 정확도를 향상시킨 이미지 복원 기술을 제공할 수 있다.

한편, 본 발명의 효과는 이상에서 언급한 효과들로 제한되지 않으며, 이하에서 설명할 내용으로부터 통상의 기술자에게 자명한 범위 내에서 다양한 효과들이 포함될 수 있다.

도 1은 본 발명의 일 실시 예에 따른 나선 CNN(Convolutional Neural Network)망 처리 방법의 일 예시이다.
도 2는 본 발명의 일 실시 예에 따른 슈퍼 레졸루션(Super Resolution) 네트워크 처리시스템의 구성도이다.
도 3은 본 발명의 일 실시 예에 따른 업스캐일링방법을 단계별로 나열한 도면이다.
도 4는 본 발명의 일 실시 예에 따른 업스캐일링 및 복구방법을 단계별로 나열한 도면이다.
도 5는 잔차 학습 방법의 이용 여부에 따른 도매인 범위를 도시한 것이다.
도 6은 기존 업스캐일링 방법과 본 발명의 일 실시 예에 따른 업스캐일링 방법의 PSNR을 비교한 그래프를 도시한 것이다.
도 7은 기존 업스캐일링 방법과 본 발명의 일 실시 예에 따른 업스캐일링 방법의 IFC를 비교한 그래프를 도시한 것이다.
도 8은 본 발명의 일 실시 예에 따른 슈퍼 레졸루션(Super Resolution) 네트워크 처리방법의 알고리즘 흐름도이다.
도 9는 본 발명의 일 실시 예에 따른 텍스쳐 정보를 이용한 복구 방법의 일 예시이다.
도 10은 본 발명의 일 실시 예에 따른 텍스쳐 정보를 이용한 복구 방법의 일 예시이다.
도 11은 기존 복구 방법과 본 발명의 일 실시 예에 따른 복구 방법의 PSNR을 비교한 그래프를 도시한 것이다.
도 12는 기존 복구 방법과 본 발명의 일 실시 예에 따른 복구 방법의 IFC를 비교한 그래프를 도시한 것이다.
도 13은 기존 슈퍼 레졸루션(Super Resolution) 네트워크 처리방법과 본 발명의 일 실시 예에 따른 슈퍼 레졸루션(Super Resolution) 네트워크 처리방법의 성능을 비교한 표다.
도 14는 본 발명의 일 실시 예에 따른 슈퍼 레졸루션(Super Resolution) 네트워크 처리방법의 구성에 따른 성능을 비교한 표다.
도 15 내지 도 17은 스캐일링 팩터 별 기존 슈퍼 레졸루션(Super Resolution) 네트워크 처리방법과 본 발명의 일 실시 예에 따른 슈퍼 레졸루션(Super Resolution) 네트워크 처리방법의 성능을 비교한 표다.
도 18 및 도 19는 기존 슈퍼 레졸루션(Super Resolution) 네트워크 처리방법과 본 발명의 일 실시 예에 다른 슈퍼 레졸루션(Super Resolution) 네트워크 처리방법의 결과 이미지를 나열한 것이다.
도 20은 본 발명의 일 실시 예에 따른 슈퍼 레졸루션(Super Resolution) 네트워크 처리방법의 흐름도이다.

이하, 첨부된 도면들을 참조하여 본 발명에 따른 '슈퍼 레졸루션(Super Resolution) 네트워크 방법 및 시스템'를 상세하게 설명한다. 설명하는 실시 예들은 본 발명의 기술 사상을 당업자가 용이하게 이해할 수 있도록 제공되는 것으로 이에 의해 본 발명이 한정되지 않는다. 또한, 첨부된 도면에 표현된 사항들은 본 발명의 실시 예들을 쉽게 설명하기 위해 도식화된 도면으로 실제로 구현되는 형태와 상이할 수 있다.

한편, 이하에서 표현되는 각 구성부는 본 발명을 구현하기 위한 예일 뿐이다. 따라서, 본 발명의 다른 구현에서는 본 발명의 사상 및 범위를 벗어나지 않는 범위에서 다른 구성부가 사용될 수 있다.

또한, 각 구성부는 순전히 하드웨어 또는 소프트웨어의 구성만으로 구현될 수도 있지만, 동일 기능을 수행하는 다양한 하드웨어 및 소프트웨어 구성들의 조합으로 구현될 수도 있다. 또한, 하나의 하드웨어 또는 소프트웨어에 의해 둘 이상의 구성부들이 함께 구현될 수도 있다.

또한, 어떤 구성요소들을 '포함'한다는 표현은, '개방형'의 표현으로서 해당 구성요소들이 존재하는 것을 단순히 지칭할 뿐이며, 추가적인 구성요소들을 배제하는 것으로 이해되어서는 안 된다.

도 1은 본 발명의 일 실시 예에 따른 나선 CNN(Convolutional Neural Network)망 처리 방법의 일 예시이다.

도 1을 참조하면, 본 발명의 일 실시 예에 따른 슈퍼 레졸루션 네트워크 방법은 나선 CNN 처리를 수행할 수 있다.

나선 CNN은 입력 레이어 x_i, 숨겨진 레이어 h (가중치 및 바이어스가 포함됨), 출력 레이어 y_i 및 적응형 흐름 제어 (AFC) 레이어 (+)룰 포함할 수 있다. (ττ +1) 재발 상태에서, 네트워크는 스킵 및 반복 연결을 통해 각각 입력 x_i 및 이전 출력 y_i ^ττ를 취하여 다음을 생성할 수 있다.

[수학식 1]

여기서, x_i는 각 변수는 입력 레이어, h는 숨겨진(Hidden) 레이어(가중치 및 바이어스가 포함됨), y_i는 출력 레이어, ττ는 각각 적응형 흐름 제어 층에 의한 반복적 인 상태, ααi 및 ββi는 및 학습 가능한 가중치 매개 변수의 색인이다

매 반복마다 잔차(Residual)는 점차 감소하고 고해상도 이미지(HR)의 재구성은 원본에 더 가깝게 될 수 있다. 이전 숨겨진 레이어의 출력이 입력으로 다음 숨겨진 레이어로 공급되면 잔차가 목표 잔차에 접근할 수 있다. 이러한 반복 구조를 나선형 CNN이라고 한다. 각각의 서브 네트워크에서, 대응하는 각각의 반복 블록에 대한 모든 파라미터 (예를 들어, 가중치 및 바이어스)는 반복적인 상태에서 공유된다. 상기 모든 파라미터는 모든 반복 상태에 동일하게 적용될 수 있다.

후술할 UNet과 TNet에서 반복적으로 발생하는 숨겨진 계층 h는 두 개의 컨볼루션 계층으로 구성될 수 있으며, 후술할 RNet의 경우 반복적인 숨겨진 계층 h는 두 계층의 컨볼루션 경로와 세 계층의 다중 계층 컨볼루션 경로로 분할되는 컨볼루션 계층으로 구성될 수 있으며, 병합 컨볼루션 층을 포함 할 수 있다.

도 2는 본 발명의 일 실시 예에 따른 슈퍼 레졸루션(Super Resolution) 네트워크 처리시스템의 구성도이다.

도 2를 참조하면 본 발명의 일 실시 예에 따른 슈퍼 레졸루션 네트워크 처리시스템은 업스케일링부(201), 복구부(202) 및 텍스쳐학습부(203)을 포함할 수 있다.

업 스케일링 네트워크 (UNet)는 업 스케일링부(201)에 포함될 수 있다. 업 스케일링부(201)는 업 스케일링 네트워크 (UNet)를 통한 작업을 수행할 수 있다. 상기 업 스케일링 네트워크 (UNet)는 수학식 2 및 수학식 3을 통해 입력된 이미지 x를 취하여 업 스케일링 잔차(

)를 줄이면서확대 된 HR 출력 H_U를 재구성할 수 있다. 이 출력은 입력으로 RNet에 입력될 수 있다. 여기서, Unet은 입력 x를 취해 f_U(x) = f_U ^M(G_U(x))를 생성한다. 여기서 ττ = 1, ..., S_u,

[수학식2]

[수학식 3]

여기서, S_u는 재발 성 상태의 총 수, 반복 상태의 인덱스, ττ는 입력 나선형 CNN에서의 ττ 번째 반복 상태, Hττ-1 및 Hττ는 입력 나선형 CNN에서의 ττ+1 및 ττ 번째 반복 상태, f₀(.)는 초기 임베딩 특징 맵,

는 바이 큐빅 보간 된 LR 이미지, G_U(.)는 잔차 함수, f_U ^M(.)는 멀티 스케일 업 스케일링 유닛, αα_U 및 ββ_U는 AFC에 의한 학습 가능한 밸런싱 가중치를 각각 나타낸다. 동일한 파라미터 집합 θθ^ττ _U는 대응하는 반복 상태 G_U ^ττ의 모든 동작에 사용된다.

고려 된 UNet은 특징 임베딩 콘볼루션 레이어(feature embedding conv layer), 나선 CNN의 반복 블록의 5 가지 상태, 디콘볼루션 레이어(Deconv layer), 크기 1X1과 32-channel, 크기 3x 3과 64-channel, 크기 5x5와 32-channel의 멀티 스케일 특징 임베딩 레이어, 마지막 재구성 콘볼루션 레이어를 포함할 수 있다. 스케일 특징 임베딩 레이어와 마지막 재구성 콘볼루션 레이어를 제외하고, 다른 콘볼루션 레이어는 스트라이드(stride) 1과 패딩(padding) 1의 공간 크기 3 X 3의 128 필터를 가질 수 있으며, 재구성 콘볼루션 레이어는 1 필터를 가질 수 있다. f^M _U(.)의 서로 다른 업 스케일링 팩터에 대해 스트라이드 2 및 패딩 1의 4x4, 스트라이드 3 및 패딩 1의 5 X 5, 스트라이드 4 및 패딩 1의 6 X 6의 다른 디콘볼루션 필터는 X2, X3 및 X4요인에 의한 업 스케일링에 사용될 수 있다.

복구부(202)는 RNet을 포함할 수 있다. 상기 복구부(202)는 상기 RNet을 이용해 이미지 복원을 수행할 수 있다.

복원 네트워크 (RNet)는 UNet의 출력 H_U 를 입력으로 취하여 정제 된 HR 출력 H_R을 재구성할 수 있다. 여기서, RNet은 수학식 4 및 수학식 5를 이용해 입력 H_U를 취하여 f_R(H_U)를 생성하며, 여기서 for = 1, ..., Sr이다.

[수학식 4]

[수학식 5]

여기서, S_r은 RNet의 반복 상태의 수, ττ는 반복 상태의 인덱스, H_ττ-1 및 H_ττ는 ττ-1번째 및 ττ번째 나선 CNN의 반복 상태, f₀(.)는 초기 임베딩 피쳐 맵,

는 바이 큐빅 보간 LR 이미지, G_R(.)은 잔여 함수, αα_R 및 ββ_R은 AFC에 의한 학습 가능한 밸런싱 가중치를 각각 나타낸다. 대응하는 반복 상태 G^ττ _R의 모든 동작에 대해 동일한 파라미터 세트 θθ^ττ _R이 사용될 수 있다.

상기 RNet(202)은 특징 임베딩 콘볼루션 레이어, 10 상태(state)의 다중 스케일 반복 블록 나선 CNN 및 마지막 재구성 콘볼루션 레이어를 포함할 수 있다. 멀티 스케일 재구성 콘볼루션 레이어의 멀티 스케일 특징 임베딩 레이어와 마지막 재구성 콘볼루션 레이어를 제외하고 다른 콘볼루션 레이어는 스트라이드 1 및 패딩 1을 갖는 공간 크기 3 X 3의 128 필터를 가질 수 있다.

텍스쳐학습부(203)는 TNet(Texture Guidance Network)을 포함할 수 있다. 상기 TNet은 이미지의 텍스쳐 정보를 추출할 수 있다.

텍스처 유도 네트워크 (Texture Guidance Network, TNet)는 RNet의 출력 H_R을 취하여 텍스처 출력 H_T를 재구성할 수 있다. 여기에서, TNet은 수학식 6 및 수학식 7을 이용해 입력 H_R을 취하여 f_T(H_R)를 생성할 수 있으며, 여기서 for = 1, ..., St이다.

[수학식 6]

[수학식 7]

여기서, S_t는TNet의 재발성 상태의 총 수, ττ는 재발 성 상태의 인덱스, Hττ-1 및 Hττ는 각각 ττ 번째 재발 성 상태의 입력과 출력, f₀(.)는 초기 임베딩 피쳐 맵, G_T(.)는 초기 잔여 함수, αα_T 및 ββ_T는 AFC에 의한 학습 가능한 밸런싱 가중치를 각각 나타낸다. 대응하는 반복 상태 G^ττ _T의 모든 동작에 대해 동일한 파라미터 세트 θθ^ττ _T가 사용된다.

상기 TNet은 특징 임베딩 콘볼루션 레이어, 10 상태(state)의 다중 스케일 반복 블록 나선 CNN 및 마지막 재구성 콘볼루션 레이어를 포함할 수 있다. 마지막 재구성 콘볼루션 레이어를 제외하고 다른 콘볼루션 레이어는 스트라이드 1과 패딩 1을 사용하여 공간 크기 3 X 3의 128 개의 필터가 포함될 수 있다.

SISR(Single Image Super Resolution)의 작업은 주어진 저해상도(LR) 이미지 x에서 고해상도(HR) 이미지 y를 복구하는 것이다. 고려 된 심층 SR 네트워크는 LR 입력 이미지를 입력 x로 취하여 목표 이미지

를 예측한다. 따라서

를 예측하는 모델 f(.)를 찾아야 한다. 여기서

는 원본 출력 y의 추정치이다. f_U(.), f_R(.) 및 f_T(.)는 각각 UNet, RNet 및 TNet에 대한 세 가지 서브 네트워크 함수를 나타낸다. 본 발명의 모델은 f_SR(x) = f_R(f_U(x)+

)+

=f_R(

)+

=

의 두 함수의 합성이다.

주어진 훈련 세트

에서 여기서

는 각각 i 번째 LR 이미지, HR 이미지, HR 텍스처이다. 목적 함수 Q는 업 스케일링 손실 L_U(.), 보조 손실 L_A(.)를 포함하는 복원 손실 L_R(.), 텍스처 유도 손실 L_T(.)을 갖는 고려 된 심층 SR 네트워크의 네트워크 파라미터 θθ = {θθ_U, θθ_R, θθ_T}를 최적화 하기 위해 채택되고, 다음과 같이 수학식 8로 표현될 수 있다.

[수학식 8]

여기서,

이다.

여기서, 여기서, F_U는 Unet의 손실 함수, F_R는 RNet의 손실 함수, F_T는 TNet의 손실 함수, l₁은 l₁-loss, l₂는 l₂-loss, l_ss는 SSIM-loss이다.

는 UNet의 출력,

는 RNet의 출력,

은 TNet의 출력이다. λλ_U는 업스케일링 손실에 할당된 손실 가중치, λλ_R은 복원 손실에 할당된 손실 가중치, λλ_T는 텍스쳐 손실에 할당된 손실 가중치, λλ_A는 보조 손실에 할당된 손실 가중치, λλ₁는 1₁- 손실에 할당된 손실 가중치, λλ₂는 1₂-손실에 할당된 손실 가중치, λλ_ss는 SSIM- 손실에 할당된 손실 가중치이다.

도 3은 본 발명의 일 실시 예에 따른 업스캐일링방법을 단계별로 나열한 도면이다.

도 3을 참조하면, 업스캐일링부는 LR을 입력받아 업스케일링(301)을 할 수 있다. 업스케일링(301)을 통해 입력받은 이미지의 크기를 키울 수 있다. 업스케일링(301)은 상기 LR을 바이큐빅 이미지로 전환하여 수행될 수 있다.

상기 업스케일링부 또는 복구부는 업스케일링(301)된 이미지를 멀티 스케일 특징 임베딩(302)을 할 수 있다. 상기 업스케일링부는 멀티 스케일 특징 임베딩(302)을 수행해 이미지를 재구성할 수 있다.

도 4는 본 발명의 일 실시 예에 따른 업스캐일링 및 복구방법을 단계별로 나열한 도면이다.

도 4를 참조하면, 업스캐일링부는 LR을 입력받아 업스케일링(401)을 할 수 있다. 업스케일링(401)을 통해 입력받은 이미지의 크기를 키울 수 있다. 업스케일링(401)은 상기 LR을 바이큐빅 이미지로 전환하여 수행될 수 있다.

상기 업스케일링부 또는 복구부는 업스케일링(401)된 이미지를 멀티 스케일 특징 임베딩(402)을 할 수 있다. 상기 업스케일링부는 멀티 스케일 특징 임베딩(402)을 수행해 이미지를 재구성할 수 있다.

본 발명의 일 실시 예에 따른 슈퍼 레졸루션 네트워크 처리방법은 잔차 학습(403)을 통해 업스케일링(401) 또는 멀티 스케일 특징 임베딩(402)을 수행할 수 있다. 잔차 학습(403)은 원본과 추정치의 잔차를 이용해 잔차를 최소화 시켜 원본에 가까운 값을 추정하도록 할 수 있다.

도 5는 잔차 학습 방법의 이용 여부에 따른 도매인 범위를 도시한 것이다.

도 5 (a)는 이미지 도메인에서의 픽셀 값의 분포를 나타낸 것이고, 도 5 (b)는 잔차 도메인에서의 픽셀 값의 분포를 나타낸 것이다. 도 5에서 확인할 수 있는 것과 같이 잔차 학습을 이용하는 경우 픽셀 값의 범위가 좁으므로 시스템이 연산해야 하는 범위가 좁아져 시스템의 부하를 줄이고 더 정확한 값을 추측하게 할 수 있다.

도 6은 기존 업스캐일링 방법과 본 발명의 일 실시 예에 따른 업스캐일링 방법의 PSNR을 비교한 그래프를 도시한 것이고, 도 7은 기존 업스캐일링 방법과 본 발명의 일 실시 예에 따른 업스캐일링 방법의 IFC를 비교한 그래프를 도시한 것이다.

도 6 및 도 7을 참조하면, PSNR(Peak signal-to-noise ratio)은 소음대비 신호의 최대값의 비를 나타내는 것이고, IFC(information fidelity criterion)는 이미지 정확도를 나타내는 것으로 높을수록 좋은 성능을 나타내는 것이다.

도 6에서 확인할 수 있는 것과 같이 멀티 스케일 특징 임베딩을 하고 잔차학습을 하는 MSD, MSR이 성능이 좋다.

도 7에서 확인할 수 있는 것과 같이 잔차 학습을 하는 경우가 성능이 좋고, 멀티 스케일 특징 임베딩과 잔차학습을 동시에 수행하는 MSR이 성능이 가장 좋은 것을 확인할 수 있다.

도 8은 본 발명의 일 실시 예에 따른 슈퍼 레졸루션(Super Resolution) 네트워크 처리방법의 알고리즘 흐름도이다.

도 8을 참조하면, LR이 입력되면, 콘볼루션 레이어를 통해 처리될 수 있다. 상기 콘볼루션 레이어를 통해 처리된 이미지는 멀티스케일 로컬 잔차 블록에서 처리할 수 있다.

상기 멀티스케일 로컬 잔차 블록은 2가지 경로로 이미지를 처리할 수 있다. 콘볼루션 레이어를 복수로 통과시켜 처리하는 경로와, 멀티 스케일 특징 임베딩을 수행하는 경로로 이미지를 처리할 수 있다. 상기 멀티스케일 로컬 잔차 블록은 2가지 경로로 이미지를 처리한 결과를 합해 HR을 출력할 수 있다.

상기 HR과 입력 LR을 가중치에 따라 더하여 상기 상기 멀티스케일 로컬 잔차 블록에서 반복해서 처리하도록 할 수 있다. 상기 멀티스케일 로컬 잔차 블록은 텍스쳐 정보를 직접 또는 간접적으로 이미지 재구성에 이용할 수 있다. Tnet에서 상기 HR을 이용해 텍스쳐 정보를 추출할 수 있다. 상기 Tnet이 추출하는 텍스쳐 정보는 텍스쳐 손실, 가중치, 보조 손실(Aux-loss)을 포함할 수 있다. 상기 Rnet은 텍스쳐 정보를 직접 연결(Tnet+DC)해 재구성에 사용할 수 있다. 상기 Rnet은 Tnet을 출력 이후에 연결(Tnet+LC)해 텍스쳐 정보를 재구성에 사용할 수 있다. 상기 Rnet은 HR을 Tnet의 입력으로 제공할 수 있다.

도 9는 본 발명의 일 실시 예에 따른 텍스쳐 정보를 이용한 복구 방법의 일 예시이다.

도 9를 참조하면, 상기 Rnet은 상기 Tnet에서 얻은 가중치를 공유(Tnet+WS)해 이미지를 재구성할 수 있다.

도 10은 본 발명의 일 실시 예에 따른 텍스쳐 정보를 이용한 복구 방법의 일 예시이다.

도 10을 참조하면, 상기 Rnet은 상기 Tnet에서 얻은 보조 손실을 이용(Tnet+Aux)해 이미지를 재구성할 수 있다.

도 11은 기존 복구 방법과 본 발명의 일 실시 예에 따른 복구 방법의 PSNR을 비교한 그래프를 도시한 것이고, 도 12는 기존 복구 방법과 본 발명의 일 실시 예에 따른 복구 방법의 IFC를 비교한 그래프를 도시한 것이다.

도 11 및 도 12를 참조하면, 각 방식의 효과를 비교할 수 있다. (Tnet+Aux)의 효과가 가장 좋고, (Tnet+WS)와 (Tnet+LC)가 다음으로 효과가 좋은 것을 확인할 수 있다.

도 13은 기존 슈퍼 레졸루션(Super Resolution) 네트워크 처리방법과 본 발명의 일 실시 예에 따른 슈퍼 레졸루션(Super Resolution) 네트워크 처리방법의 성능을 비교한 표이고, 도 14는 본 발명의 일 실시 예에 따른 슈퍼 레졸루션(Super Resolution) 네트워크 처리방법의 구성에 따른 성능을 비교한 표다.

도 13 및 도 14를 참조하면, PSNR(Peak signal-to-noise ratio)은 소음대비 신호의 최대값의 비를 나타내는 것이고, IFC(information fidelity criterion)는 이미지 정확도를 나타내는 것으로 높을수록 좋은 성능을 나타내는 것이다. SSIM(Structural Similarity Index)은 원본과의 유사도를 비교한 수치로 높을수록 이미지 재구성의 성능이 좋은 것을 의미한다.

도 13에서는 기존의 방법인 Bicubic, FSRCNN, VDSR, RED30, DRCN, DRRN과 본 발명의 일 실시 예에 따른 슈퍼 레졸루션 네트워크 처리방법에서 Tnet의 텍스쳐 정보를 이용한 Unet과 Tnet의 텍스쳐 정보를 이용한 Unet + Rnet의 성능을 비교한 것이다.

테스트 이미지의 종류와 비교 수치에 상관 없이 모든 결과에 있어서 본 발명의 일 실시 예에 따른 슈퍼 레졸루션 네트워크 처리방법이 좋은 성능을 가지고, Tnet의 텍스쳐 정보를 이용한 Unet + Rnet의 성능이 가장 우월한 것을 알 수 있다.

도 14에서는 Bicubic, VDSR, DRCN, DRRN과 본 발명의 일 실시 예에 따른 슈퍼 레졸루션 네트워크 처리방법을 멀티 스케일 특징 임베딩을 안하는 경우, Unet, Unet + Rnet, Unet + Rnet + Tnet의 결과를 비교했다. 도 14에서 본 발명의 모든 구성을 포함하는 것이 가장 우월한 성능을 가지고,

도 15 내지 도 17은 스캐일링 팩터 별 기존 슈퍼 레졸루션(Super Resolution) 네트워크 처리방법과 본 발명의 일 실시 예에 따른 슈퍼 레졸루션(Super Resolution) 네트워크 처리방법의 성능을 비교한 표다.

도 15 내지 도 17을 참조하면, 스케일링 팩터에 상관 없이 본 발명의 일 실시 예에 따른 슈퍼 레졸루션 네트워크 처리방법이 가장 우월한 성능을 보이는 것을 확인할 수 있다.

도 18 및 도 19는 기존 슈퍼 레졸루션(Super Resolution) 네트워크 처리방법과 본 발명의 일 실시 예에 다른 슈퍼 레졸루션(Super Resolution) 네트워크 처리방법의 결과 이미지를 나열한 것이다.

도 18 및 도 19를 참조하면, 가장 좌측에 이미지에서 붉은색 박스로 표시된 부분을 확대한 결과를 확인할 수 있다. 가장 좌측에 있는 원본과 비교할 때 각 방법에 따른 이미지의 복구 결과를 확인할 수 있다. 모든 이미지에서 본 발명의 일 실시 예에 따른 슈퍼 레졸루션 네트워크 처리방법이 가장 우월한 성능을 보이는 것을 확인할 수 있다.

도 20은 본 발명의 일 실시 예에 따른 슈퍼 레졸루션(Super Resolution) 네트워크 처리방법의 흐름도이다.

본 발명의 일 실시 예에 따른 슈퍼 레졸루션(Super Resolution) 네트워크 처리방법은 저해상도 이미지(LR)를 입력 받는 단계(S2010)를 포함할 수 있다.

S2010 단계에서 LR을 입력해 Unet에 입력할 수 있다.

본 발명의 일 실시 예에 따른 슈퍼 레졸루션(Super Resolution) 네트워크 처리방법은 상기 입력 받은 이미지를 업스캐일링(Upscaling)하는 단계(S2020)를 포함할 수 있다.

S2020 단계에서 업 스케일링 네트워크 (UNet)는 업 스케일링부(201)에 포함될 수 있다. 업 스케일링부(201)는 업 스케일링 네트워크 (UNet)를 통한 작업을 수행할 수 있다. 상기 업 스케일링 네트워크 (UNet)는 수학식 2 및 수학식 3을 통해 입력된 이미지 x를 취하여 업 스케일링 잔차(

[수학식2]

[수학식 3]

본 발명의 일 실시 예에 따른 슈퍼 레졸루션(Super Resolution) 네트워크 처리방법은 상기 업스캐일링된 이미지를 복구해 고해상도 이미지(HR)를 출력하는 복구단계(S2030)를 포함할 수 있다.

S2030 단계에서 복구부(202)는 RNet을 포함할 수 있다. 상기 복구부(202)는 상기 RNet을 이용해 이미지 복원을 수행할 수 있다.

[수학식 4]

[수학식 5]

본 발명의 일 실시 예에 따른 슈퍼 레졸루션(Super Resolution) 네트워크 처리방법은 상기 HR 이미지에서 텍스쳐(Texture) 정보를 추출하는 단계(S2040)를 포함할 수 있다.

S2040 단계에서 텍스쳐학습부(203)는 TNet(Texture Guidance Network)을 포함할 수 있다. 상기 TNet은 이미지의 텍스쳐 정보를 추출할 수 있다.

[수학식 6]

[수학식 7]

를 예측한다. 따라서

를 예측하는 모델 f(.)를 찾아야 한다. 여기서

)+

=f_R(

)+

=

의 두 함수의 합성이다.

주어진 훈련 세트

에서 여기서

[수학식 8]

여기서,

이다.

는 UNet의 출력,

는 RNet의 출력,

본 발명의 일 실시 예에 따른 슈퍼 레졸루션(Super Resolution) 네트워크 처리방법은 추출된 상기 텍스쳐 정보를 이용해 상기 저해상도 이미지(LR)를 복구해 고해상도 이미지(HR)를 출력하는 단계(S2050)를 포함할 수 있다.

S2050 단계에서 상기 멀티스케일 로컬 잔차 블록은 텍스쳐 정보를 직접 또는 간접적으로 이미지 재구성에 이용할 수 있다. Tnet에서 상기 HR을 이용해 텍스쳐 정보를 추출할 수 있다. 상기 Tnet이 추출하는 텍스쳐 정보는 텍스쳐 손실, 가중치, 보조 손실(Aux-loss)을 포함할 수 있다. 상기 Rnet은 텍스쳐 정보를 직접 연결(Tnet+DC)해 재구성에 사용할 수 있다. 상기 Rnet은 Tnet을 출력 이후에 연결(Tnet+LC)해 텍스쳐 정보를 재구성에 사용할 수 있다. 상기 Rnet은 HR을 Tnet의 입력으로 제공할 수 있다. 상기 Rnet은 상기 Tnet에서 얻은 가중치를 공유(Tnet+WS)해 이미지를 재구성할 수 있다. 상기 Rnet은 상기 Tnet에서 얻은 보조 손실을 이용(Tnet+Aux)해 이미지를 재구성할 수 있다.

상기 S2020 내지 S2050 단계는 상기 입력 이미지를 나선 CNN 처리하는 단계를 포함할 수 있다.

상기 나선 CNN 처리단계는 상기 입력 이미지를 CNN(Convolutional Neural Network)망에 입력하는 단계, 상기 CNN망에서 상기 이미지를 처리한 결과 이미지를 출력하는 단계 및 상기 결과 이미지 및 상기 입력 이미지를 CNN망에 재입력하는 단계를 포함할 수 있다.

[수학식 1]

UNet과 TNet에서 반복적으로 발생하는 숨겨진 계층 h는 두 개의 컨볼루션 계층으로 구성될 수 있으며, RNet의 경우 반복적인 숨겨진 계층 h는 두 계층의 컨볼루션 경로와 세 계층의 다중 계층 컨볼루션 경로로 분할되는 컨볼루션 계층으로 구성될 수 있으며, 병합 컨볼루션 층을 포함 할 수 있다.

이제까지 본 발명에 대하여 그 바람직한 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통 상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims

저해상도 이미지(LR)를 입력 받는 단계;
상기 입력 받은 이미지를 업스캐일링(Upscaling)하는 단계; 및
상기 업스캐일링된 이미지를 복구해 고해상도 이미지(HR)를 출력하는 복구단계;
를 포함하고,
상기 업스캐일링 단계는,
상기 입력 이미지를 나선 CNN 처리하는 단계;를 포함하고
상기 나선 CNN 처리단계는,
상기 입력 이미지를 CNN(Convolutional Neural Network)망에 입력하는 단계;
상기 CNN망에서 상기 이미지를 처리한 결과 이미지를 출력하는 단계; 및
상기 결과 이미지 및 상기 입력 이미지를 CNN망에 재입력하는 단계;
를 포함하는 슈퍼 레졸루션(Super Resolution) 네트워크 처리방법.
제1항에 있어서,
상기 재입력 단계는,
상기 결과 이미지 및 상기 입력 이미지에 각각 가중치를 적용해 재입력하는 슈퍼 레졸루션(Super Resolution) 네트워크 처리방법.
제1항에 있어서,
상기 업스캐일링 단계는,
상기 나선 CNN 처리된 이미지를 멀티 스캐일 특징 임베딩(multi-scale feature embedding)하는 단계;를 더 포함하는 슈퍼 레졸루션(Super Resolution) 네트워크 처리방법.
제1항에 있어서,
상기 네트워크 처리 방법은,
상기 HR 이미지에서 텍스쳐(Texture) 정보를 추출하는 단계;를 더 포함하는 슈퍼 레졸루션(Super Resolution) 네트워크 처리방법.
제4항에 있어서,
상기 네트워크 처리 방법은,
추출된 상기 텍스쳐 정보를 이용해 상기 저해상도 이미지(LR)를 복구해 고해상도 이미지(HR)를 출력하는 단계;를 더 포함하는 슈퍼 레졸루션(Super Resolution) 네트워크 처리방법.
제1항에 있어서,
상기 복구단계는,
잔차(Residual) 학습을 이용해 이미지를 복구하는 슈퍼 레졸루션(Super Resolution) 네트워크 처리방법.
제1항에 있어서,
상기 복구 단계는,
상기 업스캐일링된 이미지를 CNN(Convolutional Neural Network)망에 입력하는 단계;
상기 CNN망에서 상기 업스캐일링된 이미지를 처리한 결과 이미지를 출력하는 단계; 및
상기 결과 이미지 및 상기 입력 이미지를 CNN망에 재입력하는 단계;를 포함하는 슈퍼 레졸루션(Super Resolution) 네트워크 처리방법.
제7항에 있어서,
상기 결과 이미지 출력 단계는,
상기 업스캐일링된 이미지를 복구 CNN층 처리한 결과물과 상기 업스캐일링된 이미지를 멀티 스캐일 특징 임베딩(multi-scale feature embedding)한 결과물을 이용해 결과 이미지를 출력하는 슈퍼 레졸루션(Super Resolution) 네트워크 처리방법.
저해상도 이미지(LR)를 입력 받아 업스캐일링(Upscaling)하는 업스캐일링부; 및
상기 업스캐일링된 이미지를 복구해 고해상도 이미지(HR)를 출력하는 복구부;
를 포함하고,
상기 업스캐일링부는,
상기 입력 이미지를 CNN(Convolutional Neural Network)망이 상기 이미지를 처리하여 출력된 결과 이미지와 상기 입력 이미지를 CNN망에 재입력하여 나선 CNN 처리하는 것을 특징으로 하는 슈퍼 레졸루션(Super Resolution) 네트워크 처리시스템.
제9항에 있어서,
상기 업스캐일링부는,
상기 결과 이미지 및 상기 입력 이미지에 각각 가중치를 적용해 재입력하는 슈퍼 레졸루션(Super Resolution) 네트워크 처리시스템.
제9항에 있어서,
상기 업스캐일링부는,
상기 나선 CNN 처리된 이미지를 멀티 스캐일 특징 임베딩(multi-scale feature embedding)하는 슈퍼 레졸루션(Super Resolution) 네트워크 처리시스템.
제9항에 있어서,
상기 HR 이미지에서 텍스쳐(Texture) 정보를 추출하는 텍스쳐학습부;를 더 포함하는 슈퍼 레졸루션(Super Resolution) 네트워크 처리시스템.
제12항에 있어서,
상기 복구부는,
추출된 상기 텍스쳐 정보를 이용해 상기 저해상도 이미지(LR)를 복구해 고해상도 이미지(HR)를 출력하는 슈퍼 레졸루션(Super Resolution) 네트워크 처리시스템.
제9항에 있어서,
상기 복구부는,
잔차(Residual) 학습을 이용해 이미지를 복구하는 슈퍼 레졸루션(Super Resolution) 네트워크 처리시스템.
제9항에 있어서,
상기 복구부는,
상기 업스캐일링된 이미지를 CNN(Convolutional Neural Network)망이 처리하여 출력된 결과 이미지와 상기 업스캐일링된 이미지를 CNN망에 재입력하여 나선 CNN 처리하는 슈퍼 레졸루션(Super Resolution) 네트워크 처리시스템.
제15항에 있어서,
복구부는,
상기 업스캐일링된 이미지를 복구 CNN층 처리한 결과물과 상기 업스캐일링된 이미지를 멀티 스캐일 특징 임베딩(multi-scale feature embedding)한 결과물을 이용해 결과 이미지를 출력하는 슈퍼 레졸루션(Super Resolution) 네트워크 처리시스템.