KR102153786B1

KR102153786B1 - 선택 유닛을 이용한 이미지 처리 방법 및 장치

Info

Publication number: KR102153786B1
Application number: KR1020180084783A
Authority: KR
Inventors: 김문철; 최재석; 기세환
Original assignee: 한국과학기술원
Priority date: 2017-07-20
Filing date: 2018-07-20
Publication date: 2020-09-08
Also published as: KR20190010489A

Abstract

선택 유닛을 이용한 이미지 처리 방법 및 장치가 개시된다. 일 실시예에 따른 이미지 처리 장치는, 이미지를 수신하는 수신기와, 컨벌루션(convolution) 연산 및 비선형화를 통해 상기 이미지를 처리하는 프로세서를 포함하고, 상기 프로세서는, 상기 이미지에 기초한 컨벌루션 연산을 통해 특징맵(feature map)을 생성하는 특징맵 생성기와, 상기 특징맵을 적어도 하나의 활성화기(activator) 및 필터(filter)로 구현되는 선택 모듈을 이용하여 비선형화하는 선택기(selector)를 포함한다.

Description

선택 유닛을 이용한 이미지 처리 방법 및 장치{IMAGE PROCESSING METHOD AND APPARATUS USING SELECTION UNIT}

아래 실시예들은 선택 유닛을 이용한 이미지 처리 방법 및 장치에 관한 것이다.

4K 디스플레이가 출현하면서 4K 컨텐츠가 부족하기 때문에 초해상화(Super-Resolution(SR))기술이 더욱 중요해지고 있다. 특히, 단일 이미지 SR은 저해상도(Low-Resolution, LR) 대응물로부터 고품질의 고해상도(high-resolution(HR))이미지를 복원(reconstruct)할 수 있다.

SR 방법은 바이큐빅 보간(bicubic interpolation)과 같은 간단한 방법에서 LR-HR 사상을 학습하기 위해 외부 및/또는 내부 이미지 패치를 이용하는 예제 기반(example-based) SR 방법을 포함하는 정교한 방법에 이르기까지 다양하다.

그 중에서 선형 사상 기반 SR 방법(linear-mapping-based SR methods(LMSR))은 훨씬 낮은 계산 복잡도를 가지면서 비교할 만한 품질을 가지는 HR 이미지를 얻기 위하여 제안되었다.

이러한 SR 방법은 대부분 두 부분으로 구성된다. 하나는 각 LR 패치(patch)를 다수 클래스들 중의 하나로 분류하는 것이고, 다른 하나는 HR 패치를 얻기 위해서 현재 LR 패치에 대응하는 클래스의 LR-to-HR 선형 사상을 적용하는 것이다.

최근에는 딥 러닝을 이용한 SR 방법들이 최신의 성능을 나타내고 있다. 딥러닝 네트워크는 컨볼루션 레이어 사이에 정류된 선형 유닛(Rectified Linear Units (ReLU))을 갖는 다수의 컨벌루션 레이어들로 구성된다.

여기서, ReLU는 인접한 두 개의 컨벌루션 레이어들 간의 비선형성을 보장하는데 자주 사용된다. ReLU를 사용하면 LR과 HR 이미지들 사이의 구분적 선형 사상(piece-wise linear mapping)을 학습할 수 있고, 시그모이드(sigmoid)와 같은 다른 비선형 함수를 사용하는 네트워크에 비해 더 빠른 학습의 수련과 더 높은 재구성 품질을 가져올 수 있다.

실시예들은 선택 유닛을 이용하여 이미지를 처리하는 기술을 제공할 수 있다. 구체적으로, 실시예들은 선택 유닛을 이용한 이미지의 초해상화 기술을 제공할 수 있다.

일 실시예에 따른 이미지 처리 장치는, 이미지를 수신하는 수신기와, 컨벌루션(convolution) 연산 및 비선형화를 통해 상기 이미지를 처리하는 프로세서를 포함하고, 상기 프로세서는, 상기 이미지에 기초한 컨벌루션 연산을 통해 특징맵(feature map)을 생성하는 특징맵 생성기와, 상기 특징맵을 적어도 하나의 활성화기(activator) 및 필터(filter)로 구현되는 선택 모듈을 이용하여 비선형화하는 선택기(selector)를 포함한다.

상기 선택기는, 상기 특징맵에 항등 사상을 적용하는 항등 사상기(identity mapper)와, 항등 사상이 적용된 특징맵을 비선형화하는 상기 선택 모듈을 포함할 수 있다.

상기 선택 모듈은, 상기 항등 사상이 적용된 특징맵을 비선형화하고, 비선형화된 항등 사상이 적용된 특징맵을 필터링하여 필터링된 특징맵을 생성하고, 상기 필터링된 특징맵을 비선형화할 수 있다.

상기 선택 모듈은, 상기 항등 사상이 적용된 특징맵의 값들에 ReLU 연산을 수행함으로써 상기 항등 사상이 적용된 특징맵을 비선형화할 수 있다.

상기 선택 모듈은, 상기 비선형화된 항등 사상이 적용된 특징맵에 1×1 컨벌루션 필터를 적용함으로써 상기 비선형화된 항등 사상이 적용된 특징맵을 필터링하여 상기 필터링된 특징맵을 생성할 수 있다.

상기 선택 모듈은, 상기 필터링된 특징맵에 시그모이드(Sigmoid) 연산을 수행함으로써 상기 필터링된 특징맵을 비선형화할 수 있다.

상기 프로세서는, 비선형화된 특징맵에 기초하여 상기 이미지의 해상도를 증가시키는 복원기(reconstructor)를 더 포함할 수 있다.

상기 특징맵 생성기는, 비선형화된 특징맵에 기초하여 상기 컨벌루션 연산을 위한 필터 파라미터를 업데이트할 수 있다.

상기 복원기는, 적어도 하나의 잔차 유닛(residual unit)을 이용하여 인공 신경망을 학습시킬 수 있다.

상기 복원기는, 처리된 이미지와 바이큐빅 보간(bicubic-interpolated)된 이미지 간의 잔차(residual)를 이용하여 상기 인공 신경망을 학습시킬 수 있다.

일 실시예에 따른 이미지 처리 방법은, 이미지를 수신하는 단계와, 상기 이미지에 기초한 컨벌루션(convolution) 연산을 통해 특징맵(feature map)을 생성하는 단계와, 상기 특징맵을 적어도 하나의 활성화기(activator) 및 필터(filter)로 구현되는 선택 모듈을 이용하여 비선형화하는 단계를 포함한다.

상기 비선형화하는 단계는, 상기 특징맵에 항등 사상을 적용하는 단계와, 항등 사상이 적용된 특징맵을 비선형화하는 단계를 포함할 수 있다.

상기 비선형화하는 단계는, 상기 항등 사상이 적용된 특징맵을 비선형화하는 단계와, 비선형화된 항등 사상이 적용된 특징맵을 필터링하여 필터링된 특징맵을 생성하는 단계와, 상기 필터링된 특징맵을 비선형화하는 단계를 포함할 수 있다.

상기 항등 사상이 적용된 특징맵을 비선형화하는 단계는, 상기 항등 사상이 적용된 특징맵의 값들에 ReLU 연산을 수행함으로써 상기 항등 사상이 적용된 특징맵을 비선형화하는 단계를 포함할 수 있다.

상기 생성하는 단계는, 상기 비선형화된 항등 사상이 적용된 특징맵에 1×1 컨벌루션 필터를 적용함으로써 상기 비선형화된 항등 사상이 적용된 특징맵을 필터링하여 상기 필터링된 특징맵을 생성하는 단계를 포함할 수 있다.

상기 필터링된 특징맵을 비선형화하는 단계는, 상기 필터링된 특징맵에 시그모이드(Sigmoid) 연산을 수행함으로써 상기 필터링된 특징맵을 비선형화하는 단계를 포함할 수 있다.

상기 이미지 처리 방법은, 비선형화된 특징맵에 기초하여 상기 이미지의 해상도를 증가시키는 단계를 더 포함할 수 있다.

상기 이미지 처리 방법은, 상기 비선형화된 특징맵에 기초하여 상기 컨벌루션 연산을 위한 필터 파라미터를 업데이트하는 단계를 더 포함할 수 있다.

상기 이미지 처리 방법은, 적어도 하나의 잔차 유닛(residual unit)을 이용하여 인공 신경망을 학습시키는 단계를 더 포함할 수 있다.

상기 학습시키는 단계는, 처리된 이미지와 바이큐빅 보간(bicubic-interpolated)된 이미지 간의 잔차(residual)를 이용하여 상기 인공 신경망을 학습시키는 단계를 포함할 수 있다.

도 1은 일 실시예에 따른 이미지 처리 장치의 개략적인 블록도를 나타낸다.
도 2는 도 1에 도시된 프로세서의 개략적인 블록도를 나타낸다.
도 3은 ReLU에 대한 재해석의 예를 나타낸다.
도 4는 도 2에 도시된 선택기의 동작의 예를 나타낸다.
도 5는 도 2에 도시된 선택기와 ReLU를 이용한 베이스라인 네트워크 간의 PSNR 성능의 비교결과를 나타낸다.
도 6은 도 1에 도시된 이미지 처리 장치가 이용한 인공 신경망의 구조의 예를 나타낸다.
도 7a는 도 1에 도시된 이미지 처리 장치와 다른 SR 방법의 성능 비교 결과의 일 예를 나타낸다.
도 7b는 도 1에 도시된 이미지 처리 장치와 다른 SR 방법의 성능 비교 결과의 다른 예를 나타낸다.
도 7c는 도 1에 도시된 이미지 처리 장치와 다른 SR 방법의 성능 비교 결과의 또 다른 예를 나타낸다.
도 8a는 도 1에 도시된 이미지 처리 장치와 다른 SR 방법으로 복원된 이미지의 일 예를 나타낸다.
도 8b는 도 1에 도시된 이미지 처리 장치와 다른 SR 방법으로 복원된 이미지의 다른 예를 나타낸다.

이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 실시예들에는 다양한 변경이 가해질 수 있어서 특허출원의 권리 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 실시예들에 대한 모든 변경, 균등물 내지 대체물이 권리 범위에 포함되는 것으로 이해되어야 한다.

실시예에서 사용한 용어는 단지 설명을 목적으로 사용된 것으로, 한정하려는 의도로 해석되어서는 안된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

제1 또는 제2등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해서 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만, 예를 들어 실시예의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

본 명세서에서의 모듈(module)은 본 명세서에서 설명되는 각 명칭에 따른 기능과 동작을 수행할 수 있는 하드웨어를 의미할 수도 있고, 특정 기능과 동작을 수행할 수 있는 컴퓨터 프로그램 코드를 의미할 수도 있고, 또는 특정 기능과 동작을 수행시킬 수 있는 컴퓨터 프로그램 코드가 탑재된 전자적 기록 매체, 예를 들어 프로세서 또는 마이크로 프로세서를 의미할 수 있다.

다시 말해, 모듈이란 본 발명의 기술적 사상을 수행하기 위한 하드웨어 및/또는 상기 하드웨어를 구동하기 위한 소프트웨어의 기능적 및/또는 구조적 결합을 의미할 수 있다.

도 1은 일 실시예에 따른 이미지 처리 장치의 개략적인 블록도를 나타낸다.

도 1을 참조하면, 이미지 처리 장치(10)는 이미지를 수신하여 이미지를 처리할 수 있다. 예를 들어, 이미지 처리 장치(10)는 수신한 이미지를 처리함으로써 이미지의 해상도를 높일 수 있다.

이미지 처리 장치(10)는 컨벌루션 연산 및 비선형화를 통해 이미지를 처리할 수 있다. 이미지 처리 장치(10)는 기존의 ReLU를 새롭게 해석하여 특징맵의 데이터를 선택하여 비선형화를 수행함으로써 효율적으로 이미지를 처리할 수 있다.

이미지 처리 장치(10)는 수신기(100) 및 프로세서(200)를 포함한다.

수신기(100)는 이미지를 수신할 수 있다. 이미지는 빛의 굴절이나 반사 등에 의하여 이루어진 임의의 상을 포함할 수 있다.

프로세서(200)는 컨벌루션(convolution) 연산 및 비선형화를 통해 이미지를 처리할 수 있다.

도 2는 도 1에 도시된 프로세서의 개략적인 블록도를 나타낸다.

도 2를 참조하면, 프로세서(200)는 특징맵 생성기(feature map generator, 210) 및 선택기(selector, 230)를 포함할 수 있다. 프로세서(200)는 복원기(reconstructor, 250)를 더 포함할 수 있다.

특징맵 생성기(210)는 이미지에 기초한 컨벌루션 연산을 통해 특징맵(feature map)을 생성할 수 있다. 특징맵 생성기(210)는 비선형화된 특징맵에 기초하여 컨벌루션 연산을 위한 필터 파라미터를 업데이트할 수 있다.

선택기(230)는 특징맵을 적어도 하나의 활성화기(activator) 및 필터(filter)로 구현되는 선택 모듈을 이용하여 비선형화할 수 있다.

선택기(230)는 항등 사상기(identity mapper, 231) 및 선택 모듈(selection module, 233)을 포함할 수 있다.

항등 사상기(231)는 특징맵에 항등 사상을 적용할 수 있다. 선택 모듈(233)은 항등 사상이 적용된 특징맵을 비선형화할 수 있다.

선택 모듈(233)은 항등 사상이 적용된 특징맵을 비선형화할 수 있다.

선택 모듈(233)은 비선형화된 항등 사상이 적용된 특징맵을 필터링하여 필터링된 특징맵을 생성할 수 있다. 구체적으로, 선택 모듈(233)은 비선형화된 항등 사상이 적용된 특징맵에 1×1 컨벌루션 필터를 적용함으로써 비선형화된 항등 사상이 적용된 특징맵을 필터링하여 필터링된 특징맵을 생성할 수 있다.

선택 모듈(233)은 필터링된 특징맵을 비선형화할 수 있다. 예를 들어, 선택 모듈은(233) 필터링된 특징맵에 시그모이드(Sigmoid) 연산을 수행함으로써 필터링된 특징맵을 비선형화할 수 있다.

선택 모듈(233)은 항등 사상이 적용된 특징맵의 값들에 ReLU(Rectified Linear Units) 연산을 수행함으로써 항등 사상이 적용된 특징맵을 비선형화할 수 있다. ReLU 연산은 도 3을 참조하여 자세하게 설명할 것이다.

복원기(250)는 비선형화된 특징맵에 기초하여 상기 이미지의 해상도를 증가시킬 수 있다. 복원기(250)는 적어도 하나의 잔차 유닛(residual unit)을 이용하여 인공 신경망을 학습시킬 수 있다. 복원기(250)는 처리된 이미지와 바이큐빅 보간(bicubic-interpolated)된 이미지 간의 잔차(residual)를 이용하여 인공 신경망을 학습시킬 수 있다.

도 3은 ReLU에 대한 재해석의 예를 나타낸다.

도 3을 참조하면, ReLU(Rectified Linear Units)은 많은 딥러닝 방법들에서 효과적으로 알려져 있다. 딥러닝에 사용되는 ReLU는 LMSR (Linear-Mapping-based SR)과 유사할 수 있다. ReLU는 항등 사상(identity mapping)과 스위치(switch)를 포인트 별로(point-wise) 곱하는 것으로 재정의 될 수 있다.

스위치는 음의 입력들의 출력이 0이고 양의 입력에 대하여 출력이 1인 함수를 나타낼 수 있다. 스위치 함수는 LMSR에서 분류가 수행되는 것과 유사하게 작동할 수 있다.

하지만, LMSR은 LR 패치들이 어떻게 분류되는지를 제어할 수 있지만, ReLU는 이러한 동작을 수행하지 못할 수 있다. 이것은 스위치 함수의 미분이 0이기 때문이고, 학습 오류는 네트워크를 학습시킬 때 스위치들을 통해 역전파(backpropagate)되지 못할 수 있다. 이는 ReLU가 데이터를 통과시킬지 여부를 매우 제한적으로 제어한다는 것을 의미할 수 있다.

구체적으로, ReLU는 LMSR(Linear-Mapping-based SR)에서 사용되는 선형 사상(linear mapping) 기술의 두 개의 모듈로 해석될 수 있다.

선형 사상 기술은 분류(classification)과 선형 사상을 포함하는 반면, ReLU는 스위치와 항등 사상의 포인트 별(point-wise) 곱셈으로 재정의될 수 있다. 스위치는 음의 입력에 대해서는 0을 출력하고 양의 입력에 대해서는 1을 출력하는 함수를 의미할 수 있다.

컨벌루션 레이어와 결합되어, ReLU는 이전의 컨벌루션 레이어로부터의 특징맵에서 어떤 값이 다음 레이어에 입력될 수 있는지를 선택할 수 있다. 이것은 LMSR에 적용되는 선형 사상을 선택하기 위해 분류가 수행되는 방식과 유사할 수 있다.

하지만, LMSR은 LR 패치(patch)들이 어떻게 분류될지를 제어할 수 있는 반면, ReLU는 그러지 못할 수 있다. 스위치 함수의 미분이 0이기 때문에, 네트워크를 학습시킬 때 학습 오류가 스위치를 통해 역전파되지 못할 수 있다. 이것은 ReLU가 통과될 데이터에 대한 매우 제한된 제어만 할 수 있다는 것을 의미할 수 있다.

이러한 ReLU의 제한은 시그모이드와 같은 0이 아닌 미분을 갖는 다른 함수로 스위치를 변경함으로써 쉽게 해결될 수 있다. 하지만, 역전파된 오류가 시그모이드 부분을 통해 통과될지라도, 이러한 변형은 아직도 스위치를 직접적으로 제어할 수 없을 수 있다.

이것은 ReLU의 시그모이드를 통해 역전파되는 오류와 ReLU의 항등 사상을 통해 역전파되는 다른 오류가 이전 레이어에서 동일한 컨벌루션 필터들을 업데이트하기 때문일 수 있다. 따라서, 이전 레이어의 필터들은 항등 사상을 통해 역전파되는 오류에 의해 크게 영향을 받을 수 있다.

도 4는 도 2에 도시된 선택기의 동작의 예를 나타낸다.

도 4를 참조하면, 이미지 처리 장치(10)는 ReLU의 시그모이드 및 항등 사상의 앞에 두 개의 상이한 필터가 설정되는 ReLU와 유사한 새로운 비선형 유닛을 통해 비선형화를 수행할 수 있다.

이미지 처리 장치(10)는 다른 초해상화 방법(Super-Resolution, SR)에서 사용된 선형 사상(linear-mapping)으로부터 도출되고, ReLU를 항등 사상(identity mapping)과 스위치(switch)의 포인트 별 곱셈(point-wise multiplication)으로 해석하여, 선택 유닛(Selection Unit, SU)라고 불리는 새로운 비선형 유닛을 사용하는 선택기(230)를 포함할 수 있다.

기존의 ReLU는 데이터가 통과되는 직접적인 제어가 없지만 선택기(230)는 온/오프(on/off) 스위칭 제어를 최적화하여 보다 유연한 방식으로 ReLU보다 비선형성 기능을 처리할 수 있다.

선택기(230)는 이전의 컨벌루션 레이어로부터 다음 레이어에 입력될 특징맵들의 값을 제어할 수 있다. 선택기(230)는 ReLU의 스위치 부분 앞에 두 번째 컨벌루션 필터를 사용하기 위해서, 선택 모듈(233)을 이용할 수 있다.

상술한 ReLU의 재해석을 활용하여 선택기(230)는 학습 가능한 스위치로 동작할 수 있다. 선택기(230)는 두 개의 모듈을 곱하는 것으로 동작할 수 있다. 예를 들어, 두 개의 모듈은 항등 사상기(231) 및 선택 모듈(233)일 수 있다. 즉, 선택기(230)는 항등 사상기(231)와 선택 모듈(233)을 곱함으로써 선택을 수행할 수 있다.

선택 모듈(233)은 ReLU, 1×1 컨벌루션 및 시그모이드를 연이어 케스케이드(cascade) 연결한 것일 수 있다.

ReLU의 스위치와는 달리 선택 모듈(233)은 학습 오류가 자체적으로 역전파시킬 수 있기 때문에, 전체 선택 제어를 최적화할 수 있다. 선택 모듈(233)은 1×1 컨벌루션 필터를 업데이트하여 다음 레이어로 전달할 데이터를 최적화할 수 있다.

도 5는 도 2에 도시된 선택기와 ReLU를 이용한 베이스라인 네트워크 간의 PSNR 성능의 비교결과를 나타낸다.

도 5를 참조하면, 선택기(230)와 ReLU를 이용한 토이 네트워크(toy network)의 성능 곡선을 나타낼 수 있다. 두 네트워크의 기본적인 아키텍처는 동일하고, 두 네트워크는 6 개의 컨벌루션 레이어를 포함할 수 있다.

도 5의 예시는 토이 네트워크를 이용한 결과로, 토이 네트워크는 도 6의 네트워크와 상이할 수 있다. 도 5의 결과를 살펴보면, 선택기(230)의 성능이 ReLU보다 우수하다는 것을 확인할 수 있다.

도 6은 도 1에 도시된 이미지 처리 장치가 이용한 인공 신경망의 구조의 예를 나타낸다.

도 6을 참조하면, 깊은 CNN은 복수의 레이어로 구현될 수 있다. 레이어는 컨벌루션 레이어를 포함할 수 있다. 예를 들어, 깊은 CNN은 22 개의 레이어로 구현될 수 있다.

프로세서(200)는 선택기(230)를 깊은(deep) CNN(Convolutional Neural Network)와 통합함으로써, ReLU만을 갖는 베이스라인과 비교하여 약간 증가된 복잡도를 가지면서 더 높은 품질의 HR(High Resolution) 이미지를 복원(reconstruct)할 수 있다.

프로세서(200)는 선택기(230)와 22 개의 레이어를 갖는 깊은 네트워크를 결함함으로써 초해상화(Super Resolution)를 수행할 수 있다. 포 6의 네트워크는 복원기(250)가 학습시키는 네트워크 구조의 일 예를 나타낼 수 있다.

프로세서(200)는 임의의 컨벌루션 레이어 사이에 선택기(230)를 배치할 수 있다. 예를 들어, 선택기(230)는 인접한 2 개의 컨벌루션 레이어들 사이마다 삽입될 수 있다.

선택기(230)를 갖는 딥 네트워크는 SelNet으로 불릴 수 있다. 선택기(230)를 통해 이미지 처리 장치(10)는 SU가 없는 SelNet만을 사용하여 종래의 SR 방법보다 우수한 성능의 이미지 처리를 수행할 수 있다.

깊은 네트워크 아키텍처에서의 더 나은 수렴(convergence)을 위해서, 복원기(250)는 항등 사상을 사용하는 개선된 잔차 유닛(residual unit)들을 활용할 수 있다. 여기서 컨벌루션 후의 (n-2) 번째 특징맵은 n 번째 특징맵에 단순히 더해지고 (n+1) 번째 레이어로 포워딩될 수 있다.

추가적으로, 더 빠른 수렴과 더 나은 PSNR 성능을 보정하기 위해서 VDSR(Very Deep Convolutional Neural Networks Super Resolution)에서의 바이큐빅 보간된(bicubicinterpolated) 이미지와 프로세서(200)에 의해 처리된 이미지 간의 잔차를 학습하기 위한 기술이 결합될 수 있다.

LR(Low Resolution) 이미지는 네트워크에 입력으로 주어지고, 서브 픽셀(subpixel) 레이어는 네트워크의 끝단에 더해져서 복원기(250)는 다중 채널의 LR 크기 이미지(multi-channeled LR-sized image)를 HR 크기 출력으로 변환할 수 있다.

이를 통해, 이미지 처리 장치(10)는 바이큐빅 보간된 종래의 네트워크에 비하여 2차적으로(quadratically) 더 빠를 수 있다.

또한, VDSR에서의 그라디언트-하드 클리핑(gradient-hard clipping)을 이용하는 대신에, 이미지 처리 장치(10)는 학습에서의 더 빠른 수렴을 위해 그라디언트 스위칭(gradient switching)을 사용할 수 있다.

그라디언트 스위칭은 그라디언트 클리핑의 더 가혹한(harsher) 버전으로, 양의 그라디언트를 크기에 관계없이 미리 정의된 임계값(predefined threshold) θ에 사상하고 음의 그라디언트를 -θ에 사상할 수 있다.

이미지 처리 장치(10)는 그라디언트 스위칭을 통해 그라디언트-하드 클리핑을 사용하거나 사용하지 않는 다른 네트워크와 비교하여, 매우 작은 역전파 오류에 대해서도 지속적이고 빠르게 학습을 보장할 수 있다.

도 7a는 도 1에 도시된 이미지 처리 장치와 다른 SR 방법의 성능 비교 결과의 일 예를 나타내고, 도 7b는 도 1에 도시된 이미지 처리 장치와 다른 SR 방법의 성능 비교 결과의 다른 예를 나타내고, 도 7c는 도 1에 도시된 이미지 처리 장치와 다른 SR 방법의 성능 비교 결과의 또 다른 예를 나타낸다.

도 7a 내지 7c를 참조하면, 성능의 비교를 위해서 HR 이미지를 위한 800 개의 고 품질 이미지가 학습 데이터셋으로 사용될 수 있다. 학습 이미지들은 임의의 스케일링 팩터들에 대해 오버래핑이 없는 120 ×120 크기의 RGB 서브 이미지들(RGB subimages without overlapping for any scaling factors)로 나뉠수 있다.

LR 학습 서브 이미지들은 바이큐빅 보간을 이용하여 HR 서브 이미지들을 다운 스케일링함으로써 획득될 수 있다. 또한, 회전과 같은 임의의 데이터 증대(augmentation)가 사용되지 않을 수 있다. 결과적으로, 162,946 개의 LR-HR 서브 이미지가 학습에 사용될 수 있다.

배치 크기(batch size)는 32로 설정되고, 러닝 레이트(learning rate)는 10^-1로 설정되고, 가중치 감쇠(weight decay)는 10^-5로 설정되고, 에포크(epoch)의 수는 50으로 설정될 수 있다. 네트워크는 빠르고 좋은 수렴을 위해서 그라디언트 스위칭으로 학습될 수 있고, θ는 10^-4로 설정될 수 있다.

도 7a, 7b 및 7c는 각각 널리 이용되는 Set5, Set14 및 BSD100(또는 B100)에 대한 PSNR(Peak Signal-to-Noise Ratio) 및 SSIM(Structural Similarity Index) 성능을 나타낼 수 있다. 다운 스케일링된 3 채널의 RGB LR 이미지가 네트워크의 입력으로 사용될 수 있다.

복원기(250)는 네트워크로부터 획득된 3 채널의 잔차 이미지를 바이큐빅 보간된 이미지에 더함으로써 최종적으로 HR RGH 이미지를 생성할 수 있다.

다른 SR 방법들과 비교를 위해서, 이미지 처리 장치(10)는 대부분의 SR 방법에서 자주 사용되는 일반적인 프레임워크를 사용할 수 있다. SR은 LR 입력의 Y채널에 적용되는 반면, 컬러 성분들은 바이큐빅 보간을 이용하여 단순하게 확대될 수 있다.

PSNR 및 SSIM은 HR 이미지의 Y 채널에서 측정될 수 있다. 이미지 처리 장치(10)는 RGB HR 이미지를 생성하고, Y 채널에서 PSNR을 측정하기 위해서YCbCR로 RGB HR 이미지를 변환할 수 있다.

이미지 처리 장치(10)가 사용하는 네트워크는 GPU(Graphic Processing Units) Nvidia Titan X Pascal을 사용하고, Matlab을 위한 딥러닝 도구 상자인 Matconvnet beta23을 이용하여 구현될 수 있다.

2의 스케일 팩터에 대한 학습 시간은 30 시간이고, 3의 스케일 팩터에 대해서는 16 시간이고, 4에 대해서는 10시간일 수 있다. 테스트 시간에도 유사한 추세가 관찰될 수 있다. 이것은 더 큰 스케일링 팩터의 LR 입력의 크기가 고정된 HR 이미지 크기에 대해 항상 2차적으로(quadratically) 작기 때문일 수 있다. 더 큰 스케일링 팩터에 대해서, 네트워크에서 특징맵의 크기가 더 작아 지므로 전체 계산이 줄어들 수 있다.

다른 SR 방법의 시간은 CPU에서 측정되는 반면, VDSR은 GPU Nvidia Titan Z를 이용하여 보고될 수 있다. 도 7a, 7b 및 7c에서 이미지 처리 장치(10)와 바이큐빅 보간, A+, SRCCN(Super-resolution Convolutional Neural Networks), VDSR의 성능이 비교될 수 있다. A+ 및 SRCCN의 경우 공개적으로 사용 가능한 개방형 Matlab 소스 코드가 활용될 수 있다.

도 7a 내지 7c는 평균 PSNR 및 SSIM 값을 나타낼 수 있고, 도 7a, 7b 및 7c는 각각 Set5, Set14 및 B100 테스트 세트들에 대한 시간을 초로 나타낸 것일 수 있다.

도 8a는 도 1에 도시된 이미지 처리 장치와 다른 SR 방법으로 복원된 이미지의 일 예를 나타내고, 도 8b는 도 1에 도시된 이미지 처리 장치와 다른 SR 방법으로 복원된 이미지의 다른 예를 나타낸다.

도 8a 및 8b를 참조하면, 다양한 방법을 사용하여 복원된 HR 이미지를 확인할 수 있다. 도 8a에서, 이미지 처리 장치(10)는 다른 SR 방법들과는 달리 모자 끈을 잘 분리할 수 있다.

도 8b는 4의 스케일 팩터에 대한 다양한 SR 방법을 이용하여 복원된 ppt3의 HR 이미지들을 나타낼 수 있다. 도 8a와 마찬가지로, 이미지 처리 장치(10)는 더 선명하고 명확한 HR 이미지를 복원할 수 있고, 연필과 마이크 문자열(microphone string)을 선명하게 식별될 수 있다.

즉, ReLU를 항등 사상과 스위치의 조합으로 재해석함으로써, 이미지 처리 장치(10)는 시그모이드 기반 선택 모듈(233)과 항등 사상의 곱으로 이루어진 선택기(230)를 통해 이미지를 처리할 수 있다.

이미지 처리 장치(10)는 선택기(230)를 이용하여 종래의 ReLU에 비해 더 많은 비선형성을 처리할 수 있다. 게다가 이미지 처리 장치(10)는 다른 최신 딥 러닝 SR 방법 및 ReLU 기반 SR 네트워크의 성능을 능가할 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.

Claims

이미지를 수신하는 수신기;
컨벌루션(convolution) 연산 및 비선형화를 통해 상기 이미지를 처리하는 프로세서
를 포함하고,
상기 프로세서는,
상기 이미지에 기초한 컨벌루션 연산을 통해 특징맵(feature map)을 생성하는 특징맵 생성기; 및
상기 특징맵을 적어도 하나의 활성화기(activator) 및 필터(filter)로 구현되는 선택 모듈을 이용하여 비선형화하는 선택기(selector)
를 포함하는 이미지 처리 장치.
제1항에 있어서,
상기 선택기는,
상기 특징맵에 항등 사상을 적용하는 항등 사상기(identity mapper); 및
항등 사상이 적용된 특징맵을 비선형화하는 상기 선택 모듈
을 포함하는 이미지 처리 장치.
제2항에 있어서,
상기 선택 모듈은,
상기 항등 사상이 적용된 특징맵을 비선형화하고, 비선형화된 항등 사상이 적용된 특징맵을 필터링하여 필터링된 특징맵을 생성하고, 상기 필터링된 특징맵을 비선형화하는
이미지 처리 장치.
제3항에 있어서,
상기 선택 모듈은,
상기 항등 사상이 적용된 특징맵의 값들에 ReLU 연산을 수행함으로써 상기 항등 사상이 적용된 특징맵을 비선형화하는
이미지 처리 장치.
제3항에 있어서,
상기 선택 모듈은,
상기 비선형화된 항등 사상이 적용된 특징맵에 1×1 컨벌루션 필터를 적용함으로써 상기 비선형화된 항등 사상이 적용된 특징맵을 필터링하여 상기 필터링된 특징맵을 생성하는
이미지 처리 장치
제3항에 있어서,
상기 선택 모듈은,
상기 필터링된 특징맵에 시그모이드(Sigmoid) 연산을 수행함으로써 상기 필터링된 특징맵을 비선형화하는
이미지 처리 장치.
제1항에 있어서,
상기 프로세서는,
비선형화된 특징맵에 기초하여 상기 이미지의 해상도를 증가시키는 복원기(reconstructor)
를 더 포함하는 이미지 처리 장치.
제1항에 있어서,
상기 특징맵 생성기는,
비선형화된 특징맵에 기초하여 상기 컨벌루션 연산을 위한 필터 파라미터를 업데이트하는
이미지 처리 장치.
제7항에 있어서,
상기 복원기는,
적어도 하나의 잔차 유닛(residual unit)을 이용하여 인공 신경망을 학습시키는
이미지 처리 장치.
제9항에 있어서,
상기 복원기는,
처리된 이미지와 바이큐빅 보간(bicubic-interpolated)된 이미지 간의 잔차(residual)를 이용하여 상기 인공 신경망을 학습시키는,
이미지 처리 장치.
이미지 처리 장치의 이미지 처리 방법에 있어서,
상기 이미지 처리 장치가 이미지를 수신하는 단계;
상기 이미지 처리 장치가 상기 이미지에 기초한 컨벌루션(convolution) 연산을 통해 특징맵(feature map)을 생성하는 단계; 및
상기 이미지 처리 장치가 상기 특징맵을 적어도 하나의 활성화기(activator) 및 필터(filter)로 구현되는 선택 모듈을 이용하여 비선형화하는 단계
를 포함하는 이미지 처리 방법.
제11항에 있어서,
상기 비선형화하는 단계는,
상기 특징맵에 항등 사상을 적용하는 단계; 및
항등 사상이 적용된 특징맵을 비선형화하는 단계
를 포함하는 이미지 처리 방법.
제12항에 있어서,
상기 비선형화하는 단계는,
상기 항등 사상이 적용된 특징맵을 비선형화하는 단계;
비선형화된 항등 사상이 적용된 특징맵을 필터링하여 필터링된 특징맵을 생성하는 단계;
상기 필터링된 특징맵을 비선형화하는 단계
를 포함하는 이미지 처리 방법.
제13항에 있어서,
상기 항등 사상이 적용된 특징맵을 비선형화하는 단계는,
상기 항등 사상이 적용된 특징맵의 값들에 ReLU 연산을 수행함으로써 상기 항등 사상이 적용된 특징맵을 비선형화하는 단계
를 포함하는 이미지 처리 방법.
제13항에 있어서,
상기 필터링된 특징맵을 생성하는 단계는,
상기 비선형화된 항등 사상이 적용된 특징맵에 1×1 컨벌루션 필터를 적용함으로써 상기 비선형화된 항등 사상이 적용된 특징맵을 필터링하여 상기 필터링된 특징맵을 생성하는 단계
를 포함하는 이미지 처리 방법.
제13항에 있어서,
상기 필터링된 특징맵을 비선형화하는 단계는,
상기 필터링된 특징맵에 시그모이드(Sigmoid) 연산을 수행함으로써 상기 필터링된 특징맵을 비선형화하는 단계
를 포함하는 이미지 처리 방법.
제11항에 있어서,
상기 이미지 처리 장치가 비선형화된 특징맵에 기초하여 상기 이미지의 해상도를 증가시키는 단계
를 더 포함하는 이미지 처리 방법.
제11항에 있어서,
상기 이미지 처리 장치가 상기 비선형화된 특징맵에 기초하여 상기 컨벌루션 연산을 위한 필터 파라미터를 업데이트하는 단계
를 더 포함하는 이미지 처리 방법.
제17항에 있어서,
상기 이미지 처리 장치가 적어도 하나의 잔차 유닛(residual unit)을 이용하여 인공 신경망을 학습시키는 단계
를 더 포함하는 이미지 처리 방법.
제19항에 있어서,
상기 학습시키는 단계는,
처리된 이미지와 바이큐빅 보간(bicubic-interpolated)된 이미지 간의 잔차(residual)를 이용하여 상기 인공 신경망을 학습시키는 단계
를 포함하는 이미지 처리 방법.