KR102169242B1 - 초해상도 영상 복원을 위한 기계 학습 방법 - Google Patents

초해상도 영상 복원을 위한 기계 학습 방법 Download PDF

Info

Publication number
KR102169242B1
KR102169242B1 KR1020180169475A KR20180169475A KR102169242B1 KR 102169242 B1 KR102169242 B1 KR 102169242B1 KR 1020180169475 A KR1020180169475 A KR 1020180169475A KR 20180169475 A KR20180169475 A KR 20180169475A KR 102169242 B1 KR102169242 B1 KR 102169242B1
Authority
KR
South Korea
Prior art keywords
super
resolution
image
feature map
resolution image
Prior art date
Application number
KR1020180169475A
Other languages
English (en)
Other versions
KR20200084434A (ko
Inventor
이승용
박성진
손형석
Original Assignee
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포항공과대학교 산학협력단 filed Critical 포항공과대학교 산학협력단
Priority to KR1020180169475A priority Critical patent/KR102169242B1/ko
Publication of KR20200084434A publication Critical patent/KR20200084434A/ko
Application granted granted Critical
Publication of KR102169242B1 publication Critical patent/KR102169242B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/001Image restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4053Super resolution, i.e. output image resolution higher than sensor resolution
    • G06T3/4076Super resolution, i.e. output image resolution higher than sensor resolution by iteratively correcting the provisional high resolution image using the original low-resolution image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration by the use of local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

본 발명은 교사 영상들의 특징맵들이 가지는 특성 분포를 사용하는 GAN 손실 함수를 이용하여 네트워크가 좀 더 손쉽게 자연스러운 디테일 생성을 학습할 수 있게 한 초해상도 영상 복원을 위한 기계 학습 방법에 관한 것으로, 초해상도 영상 복원 장치가 초해상도 교사 영상 및 상기 초해상도 교사 영상을 다운 샘플링시켜 생성한 저해상도 중간 영상을 이용하여 초해상도 영상 복원 모델을 기계 학습하는 방법은, 초해상도 영상 복원 모델을 이용하여 저해상도 중간 영상의 해상도를 향상시켜 보정 영상을 생성하는 단계; 특징 추출 모델을 이용하여 보정 영상과 초해상도 교사 영상으로부터 보정 특징맵과 교사 특징맵을 생성하는 단계; 및 제 1 선명도 판별 모델을 이용하여 측정한 보정 특징맵의 판별 에러가 최소가 되는 조건을 만족하도록 초해상도 영상 복원 모델을 학습하는 단계;를 포함하여 구성된다.

Description

초해상도 영상 복원을 위한 기계 학습 방법{Machine Learning Method for Restoring Super-Resolution Image}
본 발명은 초해상도 영상 복원 기술에 관한 것으로, 보다 상세하게는 초해상도 영상 복원을 위한 기계 학습 방법에 관한 것이다.
딥러닝 및 CNN(convolution neural network)을 이용한 초해상도(super-resolution) 영상 복원 방법은 지도학습(supervised learning)을 통해 네트워크를 학습한다. 이 때, 보통 일반 선명한 영상들을 지도 학습의 교사 영상 혹은 레이블(label) 개념으로 사용하고, 다운샘플링(down sampling)을 통해 해상도를 낮춘 영상을 입력 저해상도 영상으로 사용한다.
기계 학습 과정은 다음과 같다.
매 반복(iteration)마다 입력 저해상도 영상이 컨볼루션 레이어와 업샘플링 레이어로 이루어진 네트워크를 통과하여 초해상도 영상으로 변환되고, 초해상도 영상을 교사 영상과 비교하여 차이를 측정하고, 차이가 줄어들도록 차이를 역전파(back-propagate)하여 컨볼루션 레이어의 웨이트(weights)를 변화시킨다. 학습이 진행될수록 학습 데이터에 대해서 초해상도 영상(네트워크의 결과)과 교사 영상 사이의 차이 값이 점점 줄어들고, 데이터가 다양할수록 학습 효과가 일반화되어 학습에 사용되지 않은 다른 영상에 대해서도 초해상도 영상 복원 성능이 향상되게 된다.
딥러닝 및 CNN을 이용한 초해상도 영상 복원 방법에서는, 초해상도 영상과 교사 영상 사이의 차이를 측정하여 네트워크에 역전파(back-propagate)하는 손실 함수(loss function)의 역할이 중요하다. 손실 함수로 초해상도 영상 교사 영상 사이의 픽셀 마다 차이를 측정하는 L1(픽셀 값의 차이의 절대값의 평균), L2(픽셀 값의 차이의 제곱의 평균, Mean Squared Error라고도 부름) 함수를 사용하는 방법이 있다.
2차원 그래프에서 커브 피팅을 생각해 보면 알 수 있듯이, 어떤 수학적 커브 모델도 모든 관찰점을 완벽히 지나는 커브를 만들 수 없다. 결국 관찰점들의 사이를 적당히 지나는 커브가 나오는 경우를 많이 볼 수 있다. 초해상도 영상 복원에서도 마찬가지로 아무리 잘 학습해도 모든 픽셀에서 초해상도 영상(네트워크의 결과)과 교사 영상(ground-truth 고해상도 영상)의 차이가 0이 될 수 없다. 이 때 픽셀 당 차이에 기반하는 L1, L2 손실 함수를 사용할 경우, 모든 픽셀에 대해 적당한 차이를 갖고 디테일이 뭉개진 초해상도 영상 결과를 얻게 된다. 다시 말하면, L1, L2 손실 함수는 영상을 선명하게 만드는 것이 아니고 픽셀들의 평균 차이를 줄이려고 하기 때문에 결과 영상에서 고주파수 디테일이 복원되지 않고 블러된(Blurred) 결과를 만든다.
이와 같은 문제점으로 인하여, GAN(Generative Adversarial Networks) 손실 함수를 사용하여 네트워크가 고주파수 디테일을 포함한 선명해 보이는 초해상도 복원 결과를 생성하도록 학습시키는 방법이 제안되었다. GAN 손실 함수를 사용한 학습 방법은 비지도 학습 기법을 통해 학습이 되며, 무수히 많은 교사 영상들이 가지는 선명한 영상의 특성 분포에 기반하여 네트워크의 결과가 선명한지 선명하지 않은지를 판별하여, 인지적으로 선명하게 보이는 결과를 생성하도록 네트워크가 학습된다.
그러나 GAN 손실 함수 방법의 경우 교사 영상들이 가지는 특성 분포가 매우 다양하기 때문에 자연스러운 고주파수 디테일 생성을 학습하기 어렵다는 문제가 있다.
Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network, Ledig et al., CVPR 2017. (SRGAN) EnhanceNet: Single Image Super-Resolution Through Automated Texture Synthesis, Sajjadi et al., ICCV 2017. (EnhanceNet)
본 발명은 교사 영상들의 특징맵들이 가지는 특성 분포를 사용하는 GAN 손실 함수를 이용하여 네트워크가 좀 더 손쉽게 자연스러운 디테일 생성을 학습할 수 있게 한 초해상도 영상 복원을 위한 기계 학습 방법을 제공함을 그 목적으로 한다.
상기의 목적을 달성하기 위하여, 본 발명에 의한 초해상도 영상 복원 장치가 초해상도 교사 영상 및 상기 초해상도 교사 영상을 다운 샘플링시켜 생성한 저해상도 중간 영상을 이용하여 초해상도 영상 복원 모델을 기계 학습하는 방법은, 상기 초해상도 영상 복원 모델을 이용하여 상기 저해상도 중간 영상의 해상도를 향상시켜 보정 영상을 생성하는 단계; 특징 추출 모델을 이용하여 상기 보정 영상과 상기 초해상도 교사 영상으로부터 보정 특징맵과 교사 특징맵을 생성하는 단계; 및 제 1 선명도 판별 모델을 이용하여 측정한 상기 보정 특징맵의 판별 에러가 최소가 되는 조건을 만족하도록 상기 초해상도 영상 복원 모델을 학습하는 단계;를 포함하여 구성된다.
상기 초해상도 영상 복원을 위한 기계 학습 방법에 있어서, 상기 초해상도 영상 복원 모델을 학습하는 단계는, 상기 보정 특징맵과 상기 교사 특징맵 사이의 제곱 에러와, 제 1 선명도 판별 모델을 이용하여 측정한 상기 보정 특징맵의 판별 에러와, 제 2 선명도 판별 모델을 이용하여 측정한 상기 보정 영상의 판별 에러의 합이 최소가 되는 조건을 만족하도록 상기 초해상도 영상 복원 모델을 학습하는 단계임을 특징으로 한다.
상기 초해상도 영상 복원을 위한 기계 학습 방법에 있어서, 상기 초해상도 영상 복원 모델은 컨볼루셔널 신경망으로 이루어짐을 특징으로 한다.
상기 초해상도 영상 복원을 위한 기계 학습 방법에 있어서, 상기 컨볼루셔널 신경망은 컨볼루션 필터를 이용하여 특징맵을 생성하는 컨볼루션 레이어로 구성되어 순차적으로 이어진 복수의 레지듀얼 블록들; 및 영상의 해상도를 향상시키는 적어도 하나의 업샘플링 레이어;를 포함하여 구성되는 것을 특징으로 한다.
상기 초해상도 영상 복원을 위한 기계 학습 방법에 있어서, 상기 순차적으로 이어진 복수의 레지듀얼 블록들 중 마지막 레지듀얼 블록의 뒤에 위치하고 각 레지듀얼 블록의 가중치가 부여된 출력 결과를 합산하는 노드와, 각 레지듀얼 블록의 출력 결과에 가중치를 부여하는 복수의 1x1 컨볼루션 레이어들을 더 포함하는 것을 특징으로 한다.
상기 초해상도 영상 복원을 위한 기계 학습 방법에 있어서, 상기 제 1 선명도 판별 모델은 컨볼루셔널 신경망으로 이루어짐을 특징으로 한다.
상기 초해상도 영상 복원을 위한 기계 학습 방법에 있어서, 상기 컨볼루셔널 신경망은, 컨볼루션 필터들을 이용하여 특징맵을 생성하는 컨볼루션 레이어로 구성되어 순차적으로 이어진 복수의 컨볼루션 블록들; 및 상기 복수의 컨볼루션 블록들의 특징맵으로부터 상기 컨볼루셔널 신경망의 입력 특징맵이 선명한 특성을 가지는지 아닌지 판별 결과를 생성하는 완전하게 연결된(fully connected) 적어도 하나의 레이어로 이루어진 판별기;를 포함하는 것을 특징으로 한다.
상기 초해상도 영상 복원을 위한 기계 학습 방법에 있어서, 상기 컨볼루셔널 신경망은, 상기 보정 특징맵 또는 상기 교사 특징맵을 입력으로 하여, 상기 보정 특징맵을 false, 상기 교사 특징맵을 true로 판별하도록 학습하는 것을 특징으로 한다.
상기 초해상도 영상 복원을 위한 기계 학습 방법에 있어서, 상기 초해상도 영상 복원 모델에 대한 학습과 상기 제 1 선명도 판별 모델에 대한 학습은 동시에 또는 번갈아 가며 이루어지는 것을 특징으로 한다.
상기 초해상도 영상 복원을 위한 기계 학습 방법에 있어서, 상기 제 2 선명도 판별 모델은 컨볼루셔널 신경망으로 이루어짐을 특징으로 한다.
상기 초해상도 영상 복원을 위한 기계 학습 방법에 있어서, 상기 컨볼루셔널 신경망은, 컨볼루션 필터들을 이용하여 특징맵을 생성하는 컨볼루션 레이어로 구성되어 순차적으로 이어진 복수의 컨볼루션 블록들; 및 상기 복수의 컨볼루션 블록들의 특징맵으로부터 상기 컨볼루셔널 신경망의 입력 영상이 선명한 특성을 가지는지 아닌지 판별 결과를 생성하는 완전하게 연결된(fully connected) 적어도 하나의 레이어로 이루어진 판별기;를 포함하는 것을 특징으로 한다.
상기의 목적을 달성하기 위하여, 본 발명에 의한 컴퓨터로 읽을 수 있는 기록 매체는 상기 초해상도 영상 복원을 위한 기계 학습 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한다.
상기의 목적을 달성하기 위하여, 본 발명에 의한 컴퓨터 프로그램은 상기 초해상도 영상 복원을 위한 기계 학습 방법을 컴퓨터에서 실행시키기 위하여 매체에 저장된다.
본 발명에 의하면, 픽셀보다 인지적으로 더욱 함축적인 정보를 담고 있는 특징맵에 기반하여, 교사 영상들의 특징맵들이 가지는 특성 분포를 사용하는 GAN 손실 함수를 이용해 네트워크가 좀 더 손쉽게 자연스러운 디테일 생성을 학습할 수 있게 된다.
도 1은 본 발명에 의한 초해상도 영상 복원 장치가 초해상도 영상 복원 모델을 기계 학습하는 방법을 설명하는 도면이다.
도 2는 본 발명에 의한 Generator Network의 구조를 도시한 것이다.
도 3은 본 발명에 의한 Discriminator Network의 구조를 도시한 것이다.
도 4는 저해상도 입력 영상에서 초해상도 영상을 복원한 결과를 종래기술과 대비하여 보여준다.
이하에서, 첨부된 도면을 참조하면서 본 발명의 바람직한 실시예에 대하여 상세히 설명하기로 한다.
도 1을 참조하면, 본 발명에 의한 초해상도 영상 복원 장치는 제너레이터 네트워크(Generator Network)(10), 특징 추출 네트워크(20), 특징 판별기 네트워크(Feature Discriminator Network)(30), 판별기 네트워크(Discriminator Network)(40)를 포함하여 구성된다.
제너레이터 네트워크(10). 특징 추출 네트워크(20), 특징 판별기 네트워크(30) 및 판별기 네트워크(40)는 정보처리장치 상의 하드웨어 및 소프트웨어의 결합체로 이루어지고, 개념적으로 각각 초해상도 영상 복원 모델, 특징 추출 모델, 제 1 선명도 판별 모델 및 제 2 선명도 판별 모델을 구현한다.
본 발명에 의한 초해상도 영상 복원 장치에서 제너레이터 네트워크(10)는 저해상도 영상을 초해상도 영상으로 복원하는 역할을 하고, 특징 판별기 네트워크(30)와 판별기 네트워크(40)는 제너레이터 네트워크(10)의 결과가 실제 HR 영상 같은지 판별하는 역할을 한다.
도 2를 참조하면, 제너레이터 네트워크(Generator Network)(10)는 컨볼루셔널 신경망으로, 컨볼루션 필터를 이용하여 특징맵을 생성하는 컨볼루션 레이어로 구성되고 순차적으로 이어진 복수의 레지듀얼 블록들(12), 영상의 해상도를 향상시키는 적어도 하나의 업샘플링 레이어(14) 그리고 스킵 커넥션 구조(16)를 포함하여 구성된다. 스킵 커넥션 구조(16)에 대해서는 아래에서 보다 상세히 설명하기로 한다.
특징 추출 네트워크(20)는 예를 들어, VGG network와 같은 것으로, ImageNet과 같이 초거대 데이터셋을 이용해 영상 분류(classification)를 미리 학습하여 영상으로부터 특징(Feature)을 추출한다.
도 3을 참조하면, 판별기 네트워크(Discriminator Network)(40)는 컨볼루셔널 신경망으로, 컨볼루션 필터들을 이용하여 특징맵을 생성하는 컨볼루션 레이어로 구성되어 순차적으로 이어진 복수의 컨볼루션 블록들(32)과 복수의 컨볼루션 블록들의 특징맵으로부터 판별기 네트워크(40)의 입력 영상이 선명한 특성을 가지는지 아닌지 판별 결과를 생성하는 완전하게 연결된(fully connected) 적어도 하나의 레이어로 이루어진 판별기(34)를 포함하여 구성된다. 여기서, Fully connected layer는 레이어의 입력 및 출력 특징(feature)들의 각 노드(특징맵의 해상도(H*W)*채널 수(C)개수만큼 존재 존재)들이 모두 서로 연결된 형태이다.
한편, 특징 판별기 네트워크(Feature Discriminator Network)(30)는 도 3에 도시된 판별기 네트워크(Discriminator Network)(40)와 그 구조는 동일하지만, 영상 대신 특징 추출 네트워크(20)에 의해 생성된 특징맵을 입력으로 사용한다.
이하에서, 도 1을 참조하여 초해상도 영상 복원 장치가 초해상도 교사 영상(GT) 및 (초해상도 교사 영상을 다운 샘플링시켜 생성한) 저해상도 중간 영상(LR)을 이용하여 초해상도 영상 복원 모델을 기계 학습하는 방법에 대하여 설명하기로 한다.
먼저, 초해상도 영상 복원 모델을 이용하여 저해상도 중간 영상(LR)의 해상도를 향상시켜 보정 영상(HR)을 생성한다.
이후, 특징 추출 모델을 이용하여 보정 영상(HR)과 초해상도 교사 영상(GT)으로부터 보정 특징맵과 교사 특징맵을 생성한다.
이후, 제 1 선명도 판별 모델을 이용하여 측정한 보정 특징맵의 판별 에러가 최소가 되는 조건을 만족하도록, 초해상도 영상 복원 모델을 학습한다.
여기서, 판별 에러는 GAN 손실함수의 결과 값이다. 영상 픽셀 기반 GAN 손실함수의 식을 예로 들어보면 수학식 1과 같이 표현된다.
Figure 112018130437641-pat00001
제 1 선명도 판별 모델은 특징맵 기반이므로, 수학식 1에서 d()에 영상 대신 특징맵이 들어가게 된다.
즉,
Figure 112018130437641-pat00002
는 GAN 손실함수 중 초해상도 영상 복원 모델을 학습하기 위한 손실함수로, 보정 특징맵의 선명도 판별 결과가 1(true)로 판별되도록 하는 손실함수이다. Feature Discriminator Network(30)의 d()의 값의 범위는 0~1이고, d()의 값이 1일 땐 판별 에러(
Figure 112018130437641-pat00003
)가 0이 되게 되고, d()의 값이 1이 아닌 0~1 사이의 값일 땐 판별 에러(
Figure 112018130437641-pat00004
)>0이 되게 된다. 따라서,
Figure 112018130437641-pat00005
손실함수는 Generator Network(10)가 Feature Discriminator Network(30)를 속일 수 있는 선명한 영상을 만들도록 학습하는 역할을 한다.
한편, 네트워크의 학습은 back-propagation을 통해서 이루어지는데, back-propagation은 손실함수의 판별 에러 값이 발생한 부분에서 역방향으로 레이어들을 거치며 chain-rule에 의해 gradient를 전달한다. 이때 GAN 손실함수의 경우 Feature Discriminator Network(30)의 끝에서 에러가 발생하기 때문에 Generator Network(10)까지 이 에러를 전달하기 위해선 매우 많은 레이어들을 거쳐야 하므로, Generator Network(10)의 초반 부분까지 에러가 제대로 전달되지 않을 수 있다.
도 2에 의하면, 본 발명에 의한 Generator Network(10)에서는 순차적으로 이어진 복수의 레지듀얼 블록들(12) 중 마지막 레지듀얼 블록의 뒤에 위치하고 각 레지듀얼 블록의 출력 결과를 합산하는 노드에 의한 스킵 커넥션 구조(16)를 포함한다. 따라서, Feature Discriminator Network(30)에서 전달된 gradient를 Generator Network(10)의 구석 구석으로 전달될 수 있게 된다.
이 때 일반 스킵 커넥션(skip-connection)을 사용하게 되면 복수의 레지듀얼 블록들(12)의 끝 부분에서 다양한 특징(feature)들이 합쳐지면서 중요하지 않은 특징(feature)들도 똑 같은 가중치를 갖고 더해져서 오히려 학습을 방해할 수 있다. 따라서, 특징(feature)들에 가중치를 두어서 더하기 위해 본 발명에 의한 Generator Network(10)의 스킵 커넥션 구조(16)에는 1x1 컨볼루션 레이어(convolution layer)를 추가하여 가중치를 학습하도록 한다.
이후, 보정 특징맵 또는 교사 특징맵을 입력으로 하여, 보정 특징맵을 false, 교사 특징맵을 true로 판별하도록 제 1 선명도 판별 모델을 학습한다.
제 1 선명도 판별 모델을 학습하기 위한 영상 픽셀 기반 GAN 손실함수는 수학식 2와 같이 표현된다.
Figure 112018130437641-pat00006
제 1 선명도 판별 모델은 특징맵 기반이므로, 수학식 2에서 d()에 영상 대신 특징맵이 들어가게 된다.
구체적으로 설명하면, 교사 특징맵은 무조건 true, 보정 특징맵은 무조건 false라고 레이블링 한다. 이렇게 되면 Feature Discriminator Network(30)가 교사 특징맵을 false라고 판별하게 되면, 레이블 true와 차이가 발생하여 Feature Discriminator Network(30)가 해당 교사 특징맵을 true로 판별하도록 네트워크의 웨이트(weights)를 업데이트 하게 된다. 반대로 Feature Discriminator Network(30)가 보정 특징맵을 true로 판별하게 되면, 레이블 (false)와 차이가 발생하여 Feature Discriminator Network(30)가 보정 특징맵을 false로 판별하도록 네트워크의 웨이트(weights)를 업데이트 하게 된다.
여기서, 초해상도 영상 복원 모델에 대한 학습과 제 1 선명도 판별 모델에 대한 학습은 동시에 또는 번갈아 가며 이루어질 수 있다.
본 발명의 다른 실시예에서는, 초해상도 영상 복원 모델을 학습할 때, 제 1 선명도 판별 모델을 이용하여 측정한 보정 특징맵의 판별 에러가 최소가 되는 조건이 아니라, 보정 특징맵과 교사 특징맵 사이의 제곱 에러와, 제 1 선명도 판별 모델을 이용하여 측정한 보정 특징맵의 판별 에러와, 제 2 선명도 판별 모델을 이용하여 측정한 보정 영상의 판별 에러의 합이 최소가 되는 조건을 만족하도록 초해상도 영상 복원 모델을 학습한다.
여기서, 보정 특징맵과 교사 특징맵 사이의 제곱 에러는 특징맵의 사이의 L2 손실 함수(특징 기반 손실 함수)로 정의 된다. 특징맵의 각 특징점(일반 영상에서는 픽셀에 대응)들은 넓은 패치 정보가 인지적으로 함축되었기 때문에 특징맵의 차이를 최소화함으로써 더욱 인지적인 영상 복원이 가능하다. 즉, 전체 픽셀들의 차이를 최소화하는 것이 아니라 중요한 특징들의 차이를 최소화함으로써 덜 blurry한 결과를 얻을 수 있다.
특징 기반 손실 함수는 픽셀 기반 손실 함수와 함께 입력 영상의 콘텐츠를 유지하는 역할을 한다. GT(ground-truth)가 있는 짝(pair) 데이터셋을 이용해 지도 학습을 수행한다. 픽셀 기반 손실은 픽셀당 차이를 강제로 최소화하려고 하기 때문에 GAN 손실 함수와 함께 사용하면 충돌이 많이 일어나지만, 특징 기반 손실 함수는 이미 정보가 many-to-one으로 함축된 특징들의 차이를 최소화하기 때문에 좀 더 자유도가 높아서 GAN 손실 함수와 함께 사용했을 때 조화로운 결과를 얻을 수 있다.
보정 영상의 판별 에러는 GAN 손실함수의 결과 값이다. 영상 픽셀 기반 GAN 손실함수는 수학식 1과 같이 표현된다.
즉,
Figure 112018130437641-pat00007
는 GAN 손실함수 중 초해상도 영상 복원 모델을 학습하기 위한 손실함수로, 보정 영상의 선명도 판별 결과가 1(true)로 판별되도록 하는 손실함수이다. Discriminator Network(40)의 d()의 값의 범위는 0~1이고, d()의 값이 1일 땐 판별 에러(
Figure 112018130437641-pat00008
)가 0이 되게 되고, d()의 값이 1이 아닌 0~1 사이의 값일 땐 판별 에러(
Figure 112018130437641-pat00009
)>0이 되게 된다. 따라서,
Figure 112018130437641-pat00010
손실함수는 Generator Network(10)가 Discriminator Network(40)를 속일 수 있는 선명한 영상을 만들도록 학습하는 역할을 한다.
본 발명의 제2 실시예에서는, 제 1 선명도 판별 모델뿐만 아니라, 제 2 선명도 판별 모델도 학습한다. 제 1 선명도 판별 모델에 대한 학습 방법은 제1 실시예에서 설명한 방식과 동일하다. 한편, 제 2 선명도 판별 모델에 대해서는 보정 영상 또는 교사 영상을 입력으로 하여, 보정 영상을 false, 교사 영상을 true로 판별하도록 학습한다. 제 2 선명도 판별 모델을 학습하기 위한 GAN 손실함수는 수학식 2와 같이 표현된다.
구체적으로 설명하면, 교사 영상은 무조건 true, 보정 영상은 무조건 false라고 레이블링 한다. 이렇게 되면 Discriminator Network(40)가 교사 영상을 false라고 판별하게 되면, 레이블 (true)와 차이가 발생하여 Discriminator Network(40)가 해당 교사 영상을 true로 판별하도록 네트워크의 웨이트(weights)를 업데이트 하게 된다. 반대로 Discriminator Network(40)가 보정 영상을 true로 판별하게 되면, 레이블 (false)와 차이가 발생하여 Discriminator Network(40)가 보정 영상을 false로 판별하도록 네트워크의 웨이트(weights)를 업데이트 하게 된다.
여기서, 초해상도 영상 복원 모델에 대한 학습과 제 1,2 선명도 판별 모델에 대한 학습은 동시에 또는 번갈아 가며 이루어질 수 있다.
도 4에 의하면, 본 발명을 이용하여 저해상도 입력 영상을 이용하여 초해상도 영상을 복원한 결과를 종래의 기술과 대비하여 보여준다. 도 4에서 (a)는 저해상도 입력 영상이고, (b)는 픽셀 기반 손실 함수를 이용한 결과 영상이고, (c)는 GAN 기반 손실 함수를 이용한 결과 영상이고, (d)는 본 발명에 의한 결과 영상이다.
한편, 상술한 본 발명의 실시예는 개인용 컴퓨터를 포함한 범용 컴퓨터에서 사용되는 매체에 기록될 수 있다. 상기 매체는 마그네틱 기록매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독매체(예를 들면, 씨디롬, 디브이디 등) 및 전기적 기록매체(예를 들면, 플레쉬 메모리, 메모리 스틱 등)와 같은 기록매체를 포함한다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예는 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다

Claims (13)

  1. 초해상도 영상 복원 장치가 초해상도 교사 영상 및 상기 초해상도 교사 영상을 다운 샘플링시켜 생성한 저해상도 중간 영상을 이용하여 초해상도 영상 복원 모델을 기계 학습하는 방법에 있어서,
    상기 초해상도 영상 복원 모델을 이용하여 상기 저해상도 중간 영상의 해상도를 향상시켜 보정 영상을 생성하는 단계;
    특징 추출 모델을 이용하여 상기 보정 영상과 상기 초해상도 교사 영상으로부터 보정 특징맵과 교사 특징맵을 생성하는 단계; 및
    제 1 선명도 판별 모델을 이용하여 측정한 상기 보정 특징맵의 판별 에러가 최소가 되는 조건을 만족하도록 상기 초해상도 영상 복원 모델을 학습하는 단계;를 포함하여 구성되고,
    상기 제 1 선명도 판별 모델은 컨볼루셔널 신경망으로 이루어지고, 상기 컨볼루셔널 신경망은 상기 보정 특징맵 또는 상기 교사 특징맵을 입력으로 하여, 상기 보정 특징맵을 false, 상기 교사 특징맵을 true로 판별하도록 학습하는 것을 특징으로 하는 초해상도 영상 복원을 위한 기계 학습 방법.
  2. 제 1 항에 있어서,
    상기 초해상도 영상 복원 모델을 학습하는 단계는, 상기 보정 특징맵과 상기 교사 특징맵 사이의 제곱 에러와, 제 1 선명도 판별 모델을 이용하여 측정한 상기 보정 특징맵의 판별 에러와, 제 2 선명도 판별 모델을 이용하여 측정한 상기 보정 영상의 판별 에러의 합이 최소가 되는 조건을 만족하도록 상기 초해상도 영상 복원 모델을 학습하는 단계임을 특징으로 하는 초해상도 영상 복원을 위한 기계 학습 방법.
  3. 제 1 항에 있어서,
    상기 초해상도 영상 복원 모델은 컨볼루셔널 신경망으로 이루어짐을 특징으로 하는 초해상도 영상 복원을 위한 기계 학습 방법.
  4. 제 3 항에 있어서,
    상기 컨볼루셔널 신경망은
    컨볼루션 필터를 이용하여 특징맵을 생성하는 컨볼루션 레이어로 구성되어 순차적으로 이어진 복수의 레지듀얼 블록들; 및
    영상의 해상도를 향상시키는 적어도 하나의 업샘플링 레이어;를 포함하여 구성되는 것을 특징으로 하는 초해상도 영상 복원을 위한 기계 학습 방법.
  5. 제 4 항에 있어서,
    상기 순차적으로 이어진 복수의 레지듀얼 블록들 중 마지막 레지듀얼 블록의 뒤에 위치하고 각 레지듀얼 블록의 가중치가 부여된 출력 결과를 합산하는 노드와, 각 레지듀얼 블록의 출력 결과에 가중치를 부여하는 복수의 1x1 컨볼루션 레이어들을 더 포함하는 것을 특징으로 하는 초해상도 영상 복원을 위한 기계 학습 방법.
  6. 삭제
  7. 제 1 항에 있어서,
    상기 컨볼루셔널 신경망은,
    컨볼루션 필터들을 이용하여 특징맵을 생성하는 컨볼루션 레이어로 구성되어 순차적으로 이어진 복수의 컨볼루션 블록들; 및
    상기 복수의 컨볼루션 블록들의 특징맵으로부터 상기 컨볼루셔널 신경망의 입력 특징맵이 선명한 특성을 가지는지 아닌지 판별 결과를 생성하는 완전하게 연결된(fully connected) 적어도 하나의 레이어로 이루어진 판별기;를 포함하는 것을 특징으로 하는 초해상도 영상 복원을 위한 기계 학습 방법.
  8. 삭제
  9. 제 1 항에 있어서,
    상기 초해상도 영상 복원 모델에 대한 학습과 상기 제 1 선명도 판별 모델에 대한 학습은 동시에 또는 번갈아 가며 이루어지는 것을 특징으로 하는 초해상도 영상 복원을 위한 기계 학습 방법.
  10. 제 2 항에 있어서,
    상기 제 2 선명도 판별 모델은 컨볼루셔널 신경망으로 이루어짐을 특징으로 하는 초해상도 영상 복원을 위한 기계 학습 방법.
  11. 제 10 항에 있어서,
    상기 컨볼루셔널 신경망은,
    컨볼루션 필터들을 이용하여 특징맵을 생성하는 컨볼루션 레이어로 구성되어 순차적으로 이어진 복수의 컨볼루션 블록들; 및
    상기 복수의 컨볼루션 블록들의 특징맵으로부터 상기 컨볼루셔널 신경망의 입력 영상이 선명한 특성을 가지는지 아닌지 판별 결과를 생성하는 완전하게 연결된(fully connected) 적어도 하나의 레이어로 이루어진 판별기;를 포함하는 것을 특징으로 하는 초해상도 영상 복원을 위한 기계 학습 방법.
  12. 제 1 항 내지 제5항, 제7항, 제9항 내지 제 11 항 중 어느 한 항의 초해상도 영상 복원을 위한 기계 학습 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
  13. 제 1 항 내지 제5항, 제7항, 제9항 내지 제 11 항 중 어느 한 항의 초해상도 영상 복원을 위한 기계 학습 방법을 컴퓨터에서 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
KR1020180169475A 2018-12-26 2018-12-26 초해상도 영상 복원을 위한 기계 학습 방법 KR102169242B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180169475A KR102169242B1 (ko) 2018-12-26 2018-12-26 초해상도 영상 복원을 위한 기계 학습 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180169475A KR102169242B1 (ko) 2018-12-26 2018-12-26 초해상도 영상 복원을 위한 기계 학습 방법

Publications (2)

Publication Number Publication Date
KR20200084434A KR20200084434A (ko) 2020-07-13
KR102169242B1 true KR102169242B1 (ko) 2020-10-23

Family

ID=71570809

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180169475A KR102169242B1 (ko) 2018-12-26 2018-12-26 초해상도 영상 복원을 위한 기계 학습 방법

Country Status (1)

Country Link
KR (1) KR102169242B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112419171A (zh) * 2020-10-28 2021-02-26 云南电网有限责任公司昆明供电局 一种多残差块条件生成对抗网络的图像复原方法
US11373274B1 (en) 2021-03-17 2022-06-28 Si Analytics Co., Ltd. Method for super resolution imaging based on deep learning
WO2022245046A1 (ko) * 2021-05-21 2022-11-24 삼성전자 주식회사 영상 처리 장치 및 그 동작 방법
WO2023018127A1 (ko) * 2021-08-09 2023-02-16 삼성전자 주식회사 이미지를 제공하는 방법 및 이를 지원하는 전자 장치
KR20230146334A (ko) 2022-04-12 2023-10-19 한국항공우주연구원 광학계 특성을 반영한 딥러닝 기반의 영상 해상도 향상 시스템 및 그 방법

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102417967B1 (ko) * 2020-10-27 2022-07-05 연세대학교 산학협력단 다중 출력 아키텍처를 통한 점진적 초해상도 영상 변환 장치 및 방법
CN113012045B (zh) * 2021-02-23 2022-07-15 西南交通大学 一种用于合成医学图像的生成对抗网络
KR102550688B1 (ko) * 2021-05-10 2023-07-03 주식회사 씨앤에이아이 초해상도 의료 이미지 생성 장치 및 방법
CN113538235B (zh) * 2021-06-30 2024-01-09 北京百度网讯科技有限公司 图像处理模型的训练方法、装置、电子设备及存储介质
US11915383B2 (en) * 2021-07-05 2024-02-27 Huawei Technologies Co., Ltd. Methods and systems for high definition image manipulation with neural networks
WO2023219276A1 (ko) * 2022-05-09 2023-11-16 삼성전자 주식회사 영상 처리 장치 및 그 동작 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180075581A1 (en) * 2016-09-15 2018-03-15 Twitter, Inc. Super resolution using a generative adversarial network
JP6448839B1 (ja) 2018-06-20 2019-01-09 株式会社 ディー・エヌ・エー 画像生成装置、画像生成器、画像識別器、画像生成プログラム、及び、画像生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60248299A (ja) * 1984-05-22 1985-12-07 Otsuka Chem Co Ltd 汚泥の処理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180075581A1 (en) * 2016-09-15 2018-03-15 Twitter, Inc. Super resolution using a generative adversarial network
JP6448839B1 (ja) 2018-06-20 2019-01-09 株式会社 ディー・エヌ・エー 画像生成装置、画像生成器、画像識別器、画像生成プログラム、及び、画像生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Xintao Wang ET AL:"ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks", The European Conference on Computer Vision (ECCV) Workshops, September 8-14, 2018(2018.09.08.) 1부.*

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112419171A (zh) * 2020-10-28 2021-02-26 云南电网有限责任公司昆明供电局 一种多残差块条件生成对抗网络的图像复原方法
US11373274B1 (en) 2021-03-17 2022-06-28 Si Analytics Co., Ltd. Method for super resolution imaging based on deep learning
WO2022245046A1 (ko) * 2021-05-21 2022-11-24 삼성전자 주식회사 영상 처리 장치 및 그 동작 방법
WO2023018127A1 (ko) * 2021-08-09 2023-02-16 삼성전자 주식회사 이미지를 제공하는 방법 및 이를 지원하는 전자 장치
KR20230146334A (ko) 2022-04-12 2023-10-19 한국항공우주연구원 광학계 특성을 반영한 딥러닝 기반의 영상 해상도 향상 시스템 및 그 방법

Also Published As

Publication number Publication date
KR20200084434A (ko) 2020-07-13

Similar Documents

Publication Publication Date Title
KR102169242B1 (ko) 초해상도 영상 복원을 위한 기계 학습 방법
Bulat et al. Super-fan: Integrated facial landmark localization and super-resolution of real-world low resolution faces in arbitrary poses with gans
Zhang et al. Multi-scale single image dehazing using perceptual pyramid deep network
CN110211045B (zh) 基于srgan网络的超分辨率人脸图像重建方法
CN108122197B (zh) 一种基于深度学习的图像超分辨率重建方法
Tuzel et al. Global-local face upsampling network
CN110473142B (zh) 基于深度学习的单幅图像超分辨率重建方法
Vo et al. Structural inpainting
CN107392865B (zh) 一种人脸图像的复原方法
Liu et al. Effective image super resolution via hierarchical convolutional neural network
KR102289045B1 (ko) 멀티 스케일 객체 이미지 복원 방법 및 장치
JP7139749B2 (ja) 画像認識学習装置、画像認識装置、方法、及びプログラム
US20220237896A1 (en) Method for training a model to be used for processing images by generating feature maps
CN114612289A (zh) 风格化图像生成方法、装置及图像处理设备
Krishnan et al. SwiftSRGAN-Rethinking super-resolution for efficient and real-time inference
Liu et al. Survey on gan‐based face hallucination with its model development
Hughes et al. A semi-supervised approach to SAR-optical image matching
Shah et al. Deep Learning model-based Multimedia forgery detection
Haq et al. Dynamic mode decomposition via dictionary learning for foreground modeling in videos
Xia et al. Meta-learning based degradation representation for blind super-resolution
CN114494786A (zh) 一种基于多层协调卷积神经网络的细粒度图像分类方法
US10580127B2 (en) Model generation apparatus, evaluation apparatus, model generation method, evaluation method, and storage medium
Chen et al. Robust face super-resolution via position relation model based on global face context
WO2015180055A1 (zh) 一种基于分类字典库的超分辨率图像重构方法及装置
CN113421186A (zh) 使用生成对抗网络的非监督视频超分辨率的设备和方法

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant