WO2019190017A1

WO2019190017A1 - 저 해상도 이미지 보정을 위한 잔차 네트워크 시스템

Info

Publication number: WO2019190017A1
Application number: PCT/KR2018/014209
Authority: WO
Inventors: 손경아; 강병곤; 안남혁
Original assignee: 아주대학교 산학협력단
Priority date: 2018-03-26
Filing date: 2018-11-19
Publication date: 2019-10-03
Also published as: KR102192392B1; KR20190112384A

Abstract

본 발명은 이미지 보정을 위한 잔차 네트워크(Residual network)에 관한 것이다. 보다 구체적으로, 본 발명에 연쇄 잔차 네트워크(Cascading Residual Network)는 경량 잔차 블록(Efficient Residual Block), 복수의 상기 경량 잔차 블록들로 구성되는 연쇄 잔차 재귀 블록(Cascading Residual Block), 및 복수의 연쇄 잔차 재귀 블록들로 구성되되, 상기 복수의 연쇄 잔차 재귀 블록들 각각은 상기 연쇄 잔차 네트워크의 상위의 복수의 컨볼루션 블록들로 연결되어 있으며, 상기 복수의 경량 잔차 블록들 각각은 이전의 적어도 하나의 컨볼루션 레이어에 의해서 계산된 결과 값을 이용하여 특정 정보를 계산한다.

Description

저 해상도 이미지 보정을 위한 잔차 네트워크 시스템

본 명세서는 저 해상도 이미지를 위한 인공신경망 시스템에 관한 것이다. 보다 구체적으로, 컨볼루션 뉴럴 네트워크(Convolution Neural Network)를 이용하여 저 해상도 이미지를 실시간으로 보정하기 위한 잔차 네트워크 시스템에 관한 발명이다.

초해상도화(Super-Resolution: SR)는 저해상도(Low-Resolution: LR) 이미지에서 고해상도(High-Resolution: HR) 이미지를 재구성하는 컴퓨터 비전 작업이다. 특히, 단일 LR 이미지를 사용하여 SR을 수행하는 단일 이미지 초해상도화(Single Image Super-Resolution: SISR)와 관련이 있다.

다 대일 매핑 때문에 SISR은 일반적으로 LR 이미지에서 HR 이미지를 계산하는 것이 어렵다. 이러한 어려움에도 불구하고 SISR은 해상도 한계를 극복 할 수 있는 가능성이 있기 때문에 매우 활발한 영역이며 비디오 스트리밍 또는 감시 시스템과 같은 다양한 어플리케이션에 사용될 수 있다.

최근, 컨볼루션 뉴럴 네트워크(Convolutional Neural Network: CNN) 기반의 방법은 SISR 작업에서 탁월한 성능을 제공한다. 3개의 컨볼루션 계층을 가진 SRCNN부터 160개 이상의 계층을 갖는 MDSR까지 네트워크의 깊이와 전반적인 성능은 시간이 지남에 따라 급격히 증가한다.

그러나 깊이있는 학습 방법으로 SR 이미지의 품질이 향상 되더라도 실제 시나리오에는 적합하지 않는 경우가 많다는 문제점이 존재한다.

따라서, 본 발명은 이러한 문제점을 해결하기 위한 실용적인 경량의 심층 학습 모델을 설계를 위해서 재귀 구조를 가지는 CNN을 이용하여 저 해상도 이미지를 보정하기 위한 네트워크를 제안한다.

본 명세서에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 발명에 의한 이미지 보정을 위한 연쇄 잔차 네트워크(Cascading Residual Network)는 경량 잔차 블록(Efficient Residual Block); 복수의 상기 경량 잔차 블록들로 구성되는 연쇄 잔차 재귀 블록(Cascading Residual Block); 및 복수의 연쇄 잔차 재귀 블록들로 구성되며, 상기 복수의 연쇄 잔차 재귀 블록들 각각은 상기 연쇄 잔차 네트워크의 상위의 복수의 컨볼루션 블록들로 연결되어 있고, 상기 복수의 경량 잔차 블록들 각각은 이전의 적어도 하나의 컨볼루션 레이어에 의해서 계산된 결과 값을 이용하여 특정 정보를 계산한다.

또한, 본 발명에서, 상기 복수의 경량 잔차 블록들은 상기 적어도 하나의 컨볼루션 레이어에 의해서 계산된 결과 값을 이용하기 위해서 지역적 연쇄 연결로 구성된다.

또한, 본 발명에서, 상기 연쇄 잔차 네트워크를 구성하는 각각의 블록들은 재귀 구조로 구성된다.

또한, 본 발명에서, u 번째 경량 잔차 블록이

이고, u 번째 연쇄 잔차 재귀 블록이

인 경우, u 번째 특정 정보 H ^u는 아래의 수학식을 통해서 계산된다.

…

또한, 본 발명에서, 상기 복수의 경량 잔차 블록들 각각은 두 개의 제 1 컨볼루션 블록과 한 개의 제 2 컨볼루션 블록으로 구성된다.

또한, 본 발명에서, 상기 제 1 컨볼루션 블록은 특정 크기의 그룹 컨볼루션이며, 상기 제 2 컨볼루션은 점별(pointwise) 컨볼루션이다.

또한, 본 발명에서, 상기 특정 크기는 사용자로부터 획득한 입력정보에 의해서 가변적으로 결정된다.

또한, 본 발명에서, 상기 연쇄 잔차 네트워크는 서로 다른 세 가지 스케일의 저 해상도 이미지를 하나의 모델로 처리하기 위한 업 샘플링 블록을 더 포함한다.

또한, 본 발명은, 이미지 보정을 위한 잔차 네트워크(Residual network)는 프로그램을 기록한 컴퓨터로 판독 가능한 기록매체를 통해서 컴퓨터 상에서 수행되는 잔차 네트워크를 제공한다.

본 발명의 실시 예에 따르면 일반적인 잔차 네트워크에 비해서 네트워크의 연산량 및 파라미터를 경량화할 수 있는 효과가 있다.

또한, 본 발명의 실시 예에 따르면, 저 해상도 이미지를 실시간으로 보정하기 위한 연쇄 잔차 네트워크에서 그룹 컨볼루션의 크기를 사용자로부터 획득한 정보에 기초하여 조절함으로써 네트워크의 성능과 연산량의 관계를 이용하여 최적의 그룹 사이즈를 선택할 수 있는 효과가 있다.

본 명세서에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 발명에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부 도면은 본 발명에 대한 실시 예를 제공하고, 상세한 설명과 함께 본 발명의 기술적 특징을 설명한다.

도 1은 본 명세서에서 제안하는 저 해상도 이미지를 보정하기 위한 잔차 네트워크(Residual Network)의 네트워크 구조를 예시하는 도면이다.

도 2는 본 명세서에서 제안하는 연속 잔차 재귀 블록의 구조를 예시하는 도면이다.

도 3는 본 명세서에서 제안하는 잔차 블록의 구조를 예시하는 도면이다.

도 4는 본 명세서에서 제안하는 연속 잔차 네트워크의 PSNR 성능을 예시하는 도면이다.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

경량 모델을 만드는 한 가지 방법은 매개 변수의 수를 줄이는 것이다. 이러한 모델을 만드는 방법은 다양할 수 있으나, 가장 간단하고 효과적인 방법은 재귀 구조를 가지는 네트워크를 사용하는 것이다.

시간이 지남에 따라 네트워크의 깊이와 전반적인 성능이 크게 향상되었으나, 딥 러닝(deep learning) 방법들로 SR 이미지의 품질이 향상 되더라도 실제 시나리오에는 적합하지 않는 경우가 많다.

따라서, 실제 어플리케이션에 적용이 가능한 실용적인 경량의 심층 학습 모델을 설계하는 것이 중요하다. 이러한 모델을 만드는 한 가지 방법은 매개 변수의 개수를 줄이는 것이며, 매개 변수를 줄이기 위한 방법 중 간단하고 효과적인 방법이 재귀 네트워크를 이용하는 것이다.

예를 들면, DRCN(Deeply-recursive convolutional network)은 중복된 매개 변수를 줄이기 위해 재귀 네트워크를 사용하며, 잔차 구조를 추가하여 성능을 향상시킨다.

이런 모델은 표준 CNN과 비교하였을 때 모델의 매개 변수의 개수를 효과적으로 줄이고 좋은 성능을 보여준다. 그러나 이러한 모델은 아래와 같은 2가지 단점이 존재한다.

1) CNN 모델에 입력하기 전에 입력 이미지를 업 샘플링한다.

2) 재귀 네트워크를 사용하여 손실을 보완하기 위해 네트워크의 깊이 또는 너비를 증가시킨다.

이러한 단점은 모델이 재구성 될 때 이미지의 세부 사항은 유지되지만, 작업의 수와 추론 시간이 증가한다는 문제점이 존재한다.

지금까지, 경량 모델을 만드는 것을 목표로 하는 대부분의 방법은 주로 매개 변수 수를 줄이는 데 중점을 두었다.

그러나, 앞에서 설명한 바와 같이 실제 운영되는 시나리오에서는 작업 수 및 SR 시스템이 모바일 장치에서 작동하는 상황을 고려해야 한다.

또한, 시스템의 실행 속도 또한 사용자 경험 관점에서 중요한 고려요소이다. 특히, 수행되는 계산의 양에 크게 의존하는 배터리 용량은 주요한 고려사항이 될 수 있다. 이와 관련하여 심층 학습 아키텍처에서 운영의 수를 줄이는 것은 필요한 단계이다.

또 다른 시나리오는 비디오 스트리밍 서비스에 SR 방법을 적용하는 것과 관련된다. 스트리밍 미디어에 대한 요구는 급격히 증가하여 대량의 멀티미디어 데이터를 저장하려면 대용량 스토리지가 필요하다.

따라서, 저장 전에 손실 압축 기술을 사용하여 데이터를 압축하는 것이 필수적이고, 이후, SR 기술을 적용하여 데이터를 원래 해상도로 복원 할 수 있다.

하지만, 스트리밍 서비스에서는 지연이 가장 중요한 요소이므로, 압축 해제 프로세스(즉, 초해상도화)는 실시간으로 수행되어야 하며, 이를 위해 작업 수 측면에서 SR 방법을 경량으로 만드는 것이 필수이다.

본 발명은 이러한 사항을 고려하고, 기존의 모델의 문제점을 개선한 저 해상도 이미지의 실시간 보정을 위한 연쇄 잔차 네트워크 시스템(Cascading Residual Network)을 제안한다.

이하, 본 발명에서 제안하는 연쇄 잔차 네트워크 시스템은 CARN 및 CARN-M이라 호칭한다.

본 발명은 성능을 향상 시키기 위해 CARN 모델을 구축하고, 구축된 모델을 CARN-M으로 확장하여 속도와 작업 횟수를 최적화할 수 있다.

CARN 및 CARN-M은 저 해상도 이미지를 입력 받고, 출력으로 고해상도 이미지를 계산한다.

본 발명에서 제안하는 CARN 및 CARN-M의 중간 구성은 이미지 인식을 위한 심층 잔차 학습(Deep residual learning)을 기반으로 설계될 수 있다.

구체적으로, 본 발명에서 제안하는 CARN 및 CARN-M은 저 해상도 이미지를 입력 받고, 입력 받은 저 해상도 이미지를 고해상도 이미지로 보정하는 역할을 수행하는 CNN으로 구성될 수 있다.

본 발명에서 제안하는 CARN 및 CARN-M은 저 해상도 이미지 복원의 실시간성을 달성하기 위하여 1)연쇄 잔차 네트워크 구조를 통한 시스템 성능을 향상시키고, 2) 연산량 및 모델 크기 측면에서 효율적인 시스템 구축을 위해서 경량 잔차 블록(300)과 재귀 구조를 활용한다.

이하, 본 발명에 적용될 수 있는 신경망에 대해서 살펴본다.

효율적인 신경망(Efficient Neural Network)

작고 효율적인 신경망은 아래와 같은 사항이 고려될 수 있다.

1) 사전 연계 된 네트워크 압축

2) 작지만 효율적인 모델

이와 같은 작고 효율적인 신경망을 만들기 위해 사전에 처리된 네트워크의 크기를 줄이기 위해 pruning, 벡터 양자화 및 호프만 코딩으로 구성된 심층 압축 기법이 이용될 수 있다.

이하, 본 발명에 적용될 수 있는 신경망의 딥 러닝에 사용될 수 있는 컨볼루션 및 컨볼루션의 파라미터에 대해서 살펴보도록 한다.

커널 크기(Kernel Size): 커널 크기는 컨볼루션의 시야(view)를 결정한다. 보통 2D에서 3x3 pixel로 사용된다

스트라이드(Stride): 스트라이드는 이미지를 횡단할 때 커널의 스텝 사이즈를 결정한다. 기본값은 1이지만 보통 Max Pooling과 비슷하게 이미지를 다운샘플링하기 위해 스트라이드가 2로 사용될 수 있다.

패딩(Padding): 패딩은 샘플 테두리를 어떻게 조절할지를 결정한다. 패딩된 컨볼루션은 입력과 동일한 출력 차원을 유지하는 반면, 패딩되지 않은 컨볼루션은 커널이 1보다 큰 경우 테두리의 일부를 잘라버릴 수 있다.

입력 & 출력 채널들: 컨볼루션 계층은 입력 채널의 특정 수(I)를 받아 출력 채널의 특정 수(O)로 계산한다. 이런 계층에서 필요한 파라미터의 수는 I*O*K로 계산할 수 있다. K는 커널의 수를 의미한다.

확장된 컨볼루션 (Dilated Convolutions)

확장된 컨볼루션은 Convolutional layer에 또 다른 파라미터인 dilation rate를 적용한 컨볼루션을 의미한다. dilation rate은 커널(kenel) 사이의 간격을 의미한다.

dilation rate가 2인 3x3 커널은 9개의 파라미터를 사용하면서 5x5 커널과 동일한 시야(view)를 가질 수 있다.

5x5 커널을 사용하고 두번째 열과 행을 모두 삭제하면 (3x3 커널을 사용한 경우 대비)동일한 계산 비용으로 더 넓은 시야를 제공할 수 있다.

확장된 컨볼루션은 특히 real-time segmentation 분야에서 사용될 수 있으며, 넓은 시야가 필요하고 여러 컨볼루션이나 큰 커널을 사용할 여유가 없는 경우 사용될 수 있다.

분리 컨볼루션 (Separable Convolutions)

분리 컨볼루션에선 커널 작업을 여러 단계로 나눌 수 있다. 컨볼루션이 아래의 수학식 1과 같고, k가 수학식 2에 의해서 계산된다고 가정한다.

수학식 1 및 2에서 x는 입력 이미지, y는 출력 이미지, k는 커널을 의미한다.

상기 수학식 1 및 2에서와 같이 K와 2D convolution을 수행하는 대신 k1와 k2로 1D convolution하는 것과 동일한 결과를 가져오기 때문에 이와 같은 컨볼루션을 분리 컨볼루션이라 한다.

뉴럴 네트워크(neural network)에서는 깊이별 분리 컨볼루션(depthwise separable convolution)이 사용될 수 있다. 깊이별 분리 컨볼루션은 채널을 분리하지 않고 spatial convolution을 수행한 다음 깊이별 컨볼루션을 수행하는 방법을 의미한다.

예를 들어, 16개의 input 채널과 32개의 output 채널에 3x3 convolutional 레이어가 있다고 가정한다.

16개의 채널마다 32개의 3x3 커널이 지나가며 512(16*32)개의 feature map이 생성된다. 이후, 모든 입력 채널에서 1개의 feature map을 병합하여 추가합니다. 32번 반복하면 32개의 output 채널을 얻을 수 있다.

동일한 가정에서 깊이별 분리 컨볼루션(depthwise separable convolution)을 위해 1개의 3x3 커널로 16 채널을 탐색해 16개의 특징 맵(feature map)을 생성한다. 합치기 전에 32개의 1x1 convolution으로 16개의 특징 맵(feature map)을 지나간다. 결과적으로 위에선 4068(16*32*3*3) 매개 변수를 얻는 반면 656(16*3*3 + 16*32*1*1) 매개변수를 얻을 수 있다.

도 1을 참조하면, 저 해상도 이미지를 실시간으로 보정하기 위한 연쇄 잔차 네트워크는 잔차 네트워크를 기반으로 전역 및 지역적 연쇄 잔차 연결이 추가로 구성될 수 있다.

도 1의 (a)는 일반적인 잔차 네트워크의 구조를 도시하고, (b)는 본 발명에서 제안하는 연쇄 잔차 네트워크의 구조를 도시한다.

구체적으로, 도 1의 (a)과 (b)의 잔차 네트워크는 전역 및 지역적 연쇄 잔차 연결이 존재하는지 여부에 차이가 있다.

도 1의 (b)에 도시된 바와 같이 연쇄 전차 블록(100)들로 구성된 연쇄 잔차 네트워크는 중간 계층의 출력은 상위 계층으로 계단식으로 연결(cascading)되며 단일 1x1 컨볼루션 계층에 수렴하게 된다.

즉, 전역적 연쇄 잔차 연결은 하위 블록들이 각각 모든 상위 블록으로 연결되어 있는 구조이며, 지역적 연쇄 잔차 연결을 네트워크 내부의 컨볼루션 블록을 연쇄 잔차 블록이 사용하는 구조이다.

도 1의 (a)에 도시된 일반적인 잔차 네트워크의 잔차 블록은 아래 수학식 3과 같이 나타낼 수 있다.

수학식 3에서 f는 컨볼루션 레이어, τ는 활성함수를 의미한다.

는 i번째 잔차 블록의 파라미터를 의미한다.

이때, 활성함수는 ReLU 또는 다양한 활성함수가 사용될 수 있다.

Hi는 i 번째 블록의 결과 특징 정보를 의미하며, 잔차 네트워크의 최종 특징 정보 Hu는 아래의 수학식 4에 의해서 계산될 수 있다.

수학식 3 및 4와는 다르게 도 2의 (b)에 의한 연쇄 잔차 블록은 아래 수학식 5와 같이 나타낼 수 있다.

Hi는 i 번째 블록의 결과 특징 정보를 의미하며, 잔차 네트워크의 최종 특징 정보 Hu는 아래의 수학식 6에 의해서 계산될 수 있다.

…

수학식 6에서 H ⁰는 첫 번째 컨볼루션 계층의 출력을 의미한다. 수학식 6을 참조하면 전역적 연쇄 잔차 연결을 통해서 이전 블록의 결과 값을 이용하여 최종 특징 정보를 계산할 수 있다.

도 1의 (a) 및 (b)에 도시된 바와 같이, 일반적인 잔차 네트워크와 연쇄 잔차 네트워크 간의 주요 차이점은 앞에서 설명한 바와 같이 계단식 메커니즘에 있다.

도 1의 (b)에 도시된 바와 같이 연쇄 잔차 네트워크는 화살표로 나타낸 전역 연쇄 연결의 구조를 가지며, 각각의 연쇄 잔차 블록은 추가적인 1 X 1 컨볼루션 계층이 뒤에 위치한다.

전역 및 지역 레벨들이 모두 연쇄되는 구조를 가지고 있으면 아래와 같은 장점이 있다.

1) 모델에 여러 레이어의 기능이 통합되어 다단계 표현을 익힐 수 있다.

2) 다중 레벨 계단식 연결은 다단계 지름길 연결로 작동하여 하위 계층에서 상위 계층으로 정보를 신속하게 전달할 수 있다.

이러한 장점은 네트워크 학습 방법인 오류 역 전파 시 학습 정보가 다양한 경로로 이동할 수 있으며 더 나아가 네트워크가 정보의 이동 방향에 대한 결정권을 스스로 학습할 수 있다.

또한, 도 1에서 연쇄 잔차 네트워크는 복수의 스케일(예를 들면, x2, x3, x4)의 저 해상도 이미지를 하나의 모델로 처리하기 위한 업 샘플링 블록(200)을 포함할 수 있다.

업 샘플링은 컨볼루션 레이어를 통과시킨 특징 맵을 이미지 확대 보간법 (쌍입방)을 사용하여 해상도를 높인 뒤, 해상도가 높아진 특징 맵을 최종 컨볼루션 레이어에 통과시켜 결과 영상을 얻는 방식이 적용될 수 있다.

이때, x2 와 x3 스케일은 한 번에 해상도를 확대시키지만 x4 스케일은 x2 해상도 확대를 두 번 적용하는 방식이 사용될 수 있다.

이와 같은 연쇄 잔차 네트워크에 기초하여 저 해상도의 이미지를 재구성할 수 있으며, 이미지의 세부 사항 및 컨텍스트를 동시에 복원할 수 있다.

도 2를 참조하면 도 1에서 살펴본 연쇄 잔차 네트워크는 실시간성을 확보하기 위하여 경량 잔차 블록(300) 및 재귀 구조가 적용될 수 있다.

구체적으로, 도 1의 (b)에 도시된 연쇄 잔차 블록(Cascading Block)은 도 2의 (a)에 도시된 바와 같이 효율적인 잔차 블록(예를 들면, 경량 잔차 블록(300))들로 구성될 수 있으며, 도 2의 (b)와 같이 재귀 구조로 구성될 수 있다.

이때, 재귀 구조는 네트워크의 파라미터를 줄이기 위하여 연쇄 잔차 블록 내부의 컨볼루션을 모두 동일한 파라미터를 사용하도록 하는 구조를 의미한다.

경량 잔차 블록(300)은 기존의 잔차 블록을 그룹 컨볼루션을 활용하여 파라미터 및 연산량 측면에서 경량화한 블록을 의미한다.

도 3는 본 명세서에서 제안하는 잔차 블록의 구조를 예시하는 도면이다. 도 3의 (a)는 일반적인 잔차 블록을 나타내고 도 3의 (b)는 경량 잔차 블록(300)을 나타낸다.

도 3의 (a)에 도시된 바와 같이 일반적인 잔차 블록은 컨볼루션 계층과 회귀함수로 구성되어 있다.

하지만, 도 3의 (b)의 경량 잔차 블록(300)은 복수개의 그룹 컨볼루션(400)과 회귀 함수로 구성될 수 있다.

즉, 경량 잔차 블록(300)은 2개의 특정 크기(예를 들면, 3x3)의 그룹 컨볼루션(제 1 컨볼루션 블록)과 한 개의 1x1 컨볼루션(제 2 컨볼루션 블록)으로 구성될 수 있다.

이때, 한 개의 1x1 컨볼루션은 앞에서 살펴본 깊이별 분리 컨볼루션이 적용될 수 있으며, 2개의 특정 크기의 그룹 컨볼루션은 깊이별 컨볼루션이 그룹으로 확장된 컨볼루션이 적용될 수 있다.

깊이별 컨볼루션의 그룹 확장은 모델의 조정을 효율적으로 만들어 준다. 즉, 그룹의 크기와 퍼포먼스는 트레이드 오프의 관계에 있기 때문에 적절한 그룹의 크기를 사용자가 선택해야 한다.

예를 들면, 사용자는 그룹의 크기를 입력할 수 있으며, 네트워크는 사용자로부터 그룹의 크기를 나타내는 정보를 획득하여 그룹의 크기를 결정할 수 있다.

따라서, 사용자는 상황에 따른 그룹 컨볼루션의 그룹 크기를 조절하여 경량화 정도를 조절할 수 있기 때문에 일반적인 잔차 블록과 비교하여 연산량을 감소시킬 수 있다.

구체적으로, 도 3의 (a)에 도시된 일반적인 잔차 블록에 대한 연산량은 수학식 7과 같이 나타낼 수 있으며, 도 3의 (b)에 도시된 경량 잔차 블록(300)에 대한 연산량은 수학식 8과 같이 나타낼 수 있다.

수학식 7 및 8에서 K는 컨볼루션 커널의 크기, C는 입/출력 채널의 개수이며, F는 특징 정보의 크기를 나타낸다.

수학식 7 및 8에 기초하여 일반적인 잔차 블록과 경량 잔차 블록의 연산량 차이는 아래 수학식 9와 같다.

수학식 9에서 G는 그룹의 크기를 의미한다.

수학식 9를 참조하면, 모든 그룹 컨볼루션의 크기를 3 X 3, 채널의 개수를 64로 하고, 일반적인 잔차 블록 대신에 경량 잔차 블록(300)을 이용하는 경우, 그룹의 크기에 따라 연산량을 1.8에서 14번까지 감소시킬 수 있다.

또한, 도 2의 (b)에서 살펴본 바와 같이 공유된 연쇄블록들을 통해서 파라미터의 수를 감소시킬 수 있다.

또한, 이와 같은 방법에도 도 1에 도시된 업 샘플링 블록(200)은 업 샘플링 비율과 관련하여 채널 수를 2 차적으로 늘려야 하기 때문에 3 X 3 컨볼루션 계층을 업 샘플링 블록(200) 내부의 1 X 1 컨볼루션 계층으로 대체할 수 있다.

아래 표 1은 각 모델의 효과를 나타낸다.

	Baseline	CARN-NL	CARN-NG	CARN
Local Cascading			∨	∨
Global Cascading		∨		∨
# Params.	1,444K	1,481K	1,555K	1,592K
PSNR	28.43	28.45	28.42	28.52

표 1에서 Baseline은 전역 연쇄 전차 및 지역적 연쇄 전차 연결이 적용되지 않는 네트워크를 나타내고, CARN-NL은 지역적 연쇄 전차 연결이 적용되지 않는 네트워크를 나타낸다.

CARN-NG는 전역 연쇄 전차 연결이 적용되지 않는 네트워크를 나타내며, CARN는 본 발명에서 제안하는 전역 및 지역적 연쇄 전차 연결이 적용된 네트워크를 나타낸다.

도 4의 (a)는 PSNR과 파라미터의 관점에서 경량 잔차 블록(300) 및 재귀 블록을 사용한 경우의 효과를 나타내고, 도 4의 (b)는 PSNR과 동작의 관점에서 경량 잔차 블록(300) 및 재귀 블록을 사용한 경우의 효과를 나타낸다.

도 4의 (a) 및 (b)에서 GConv는 그룹 컨볼루션의 그룹의 크기를 나타낸다.

도 4의 (a) 및 (b)에서 L1, L3는 재귀 구조를 적용하지 않은 네트워크 모델을 나타내며, L2, L4는 재귀 구조 및 연쇄 잔차 블록이 적용된 네트워크 모델을 나타낸다.

모든 효율적인 모델이 28.70 PSNR을 나타내는 CARN 모델보다 성능이 좋더라도 매개 변수와 연산 수가 크게 감소한다.

예를 들어, G64의 경우 매개 변수와 조작 모두에서 5배가 감소하는 것을 나타낸다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

나아가, 설명의 편의를 위하여 각 도면을 나누어 설명하였으나, 각 도면에 서술되어 있는 실시 예들을 병합하여 새로운 실시 예를 구현하도록 설계하는 것도 가능하다.

또한, 전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등을 포함한다. 또한, 상기 컴퓨터는 장치의 제어부(130)를 포함할 수도 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

Claims

이미지 보정을 위한 잔차 네트워크(Residual network)에 있어서,

경량 잔차 블록(Efficient Residual Block);

복수의 경량 잔차 블록들로 구성되는 연쇄 잔차 재귀 블록(Cascading Residual Block); 및

복수의 연쇄 잔차 재귀 블록들로 구성되는 연쇄 잔차 네트워크(Cascading Residual Network),

상기 복수의 연쇄 잔차 재귀 블록들 각각은 상기 연쇄 잔차 네트워크의 상위의 복수의 컨볼루션 블록들로 연결되어 있으며,

상기 복수의 경량 잔차 블록들 각각은 이전의 적어도 하나의 컨볼루션 레이어에 의해서 계산된 결과 값을 이용하여 특정 정보를 계산하는 잔차 네트워크.
제 1 항에 있어서,

상기 복수의 경량 잔차 블록들은 상기 적어도 하나의 컨볼루션 레이어에 의해서 계산된 결과 값을 이용하기 위해서 지역적 연쇄 연결로 구성되는 잔차 네트워크.
제 1 항에 있어서,

상기 연쇄 잔차 네트워크를 구성하는 각각의 블록들은 재귀 구조로 구성되는 잔차 네트워크
제 1 항에 있어서,

u 번째 경량 잔차 블록이
이고, u 번째 연쇄 잔차 재귀 블록이
인 경우, u 번째 특정 정보 Hu는 아래의 수학식을 통해서 계산되는 잔차 네트워크.

…
제 1 항에 있어서,

상기 복수의 경량 잔차 블록들 각각은 두 개의 제 1 컨볼루션 블록과 한 개의 제 2 컨볼루션 블록으로 구성되는 잔차 네트워크.
제 5 항에 있어서,

상기 제 1 컨볼루션 블록은 특정 크기의 그룹 컨볼루션이며, 상기 제 2 컨볼루션은 점별(pointwise) 컨볼루션인 잔차 네트워크.
제 6 항에 있어서,

상기 특정 크기는 사용자로부터 획득한 입력정보에 의해서 가변적으로 결정되는 잔차 네트워크.
제 1 항에 있어서,

상기 연쇄 잔차 네트워크는 서로 다른 세 가지 스케일의 저 해상도 이미지를 하나의 모델로 처리하기 위한 업 샘플링 블록을 더 포함하는 잔차 네트워크.
제 1 항의 이미지 보정을 위한 잔차 네트워크(Residual network)는 프로그램을 기록한 컴퓨터로 판독 가능한 기록매체를 통해서 컴퓨터 상에서 수행되는 잔차 네트워크.